GPU被炒上天價,國產(chǎn)能力缺乏是主因,而這即將被改變
如果要說當(dāng)下在芯片領(lǐng)域誰最熱,GPU是第二,無人敢說第一。GPU是芯片領(lǐng)域里技術(shù)難度最高的主賽道的芯片之一,我國九成以上都是靠進口。以ChatGPT大模型應(yīng)用的爆火把AI又炒上了一個新的高點,其背后的算力基礎(chǔ)GPU芯片也成為“香餑餑”。英偉達的兩款受限制的芯片被炒貨炒到八萬多、十萬多甚至幾十萬,這背后顯現(xiàn)的一方面是我國對GPU芯片大的市場需求,另一方面凸顯了我國尚沒有自主可控的GPU。
自主可控主要有兩個維度:一種是購買第三方IP架構(gòu)來自研GPU的內(nèi)核;另外一種就是在GPU的IP架構(gòu)也是自研的,同時GPU的內(nèi)核也是自研。目前國內(nèi)的GPU芯片企業(yè)大多是第一種,而要想真正在底層GPU的知識產(chǎn)權(quán)和技術(shù)迭代環(huán)節(jié)有主動權(quán),必須要同時掌握IP架構(gòu)和內(nèi)核兩個方面。
近日,國內(nèi)企業(yè)中天恒星科技有限公司(Advanced Technology Stellar,簡稱中天恒星/ATS)第一款自研的GPU架構(gòu)“天狼星”的推出,將為國產(chǎn)GPU芯片的發(fā)展邁出一個新的高度。中天恒星創(chuàng)始人黃永博士指出:“我們的架構(gòu)全部是以恒星來命名的。Stellar是恒星、星宿、星座的意思,引申出來有超一流、卓越的含義。第二代架構(gòu)命名為大角星;大角星是第二亮的恒星。只是因為距離地球更遠(yuǎn),所以看起來沒有天狼星亮;實際上,大角星比天狼星更亮,其亮度是太陽的110倍?!?/span>
一鳴驚人,中天恒星發(fā)布自研GPU架構(gòu)“天狼星”
2023年6月15日,中天恒星以清華大學(xué)超過10年研究基礎(chǔ)為依托,發(fā)布了其第一款GPU產(chǎn)品——“天狼星”。該芯片從數(shù)學(xué)公式推導(dǎo)開始,架構(gòu)設(shè)計、算法模型、原理驗證、硬件實現(xiàn)和驅(qū)動開發(fā)等環(huán)節(jié)全部正向設(shè)計。
據(jù)中天恒星創(chuàng)始人黃永博士介紹,“天狼星”GPU架構(gòu)是多年長期耕耘的結(jié)果。2019年,第一代“天狼星”架構(gòu)芯片設(shè)計驗證完成。2021年,第一代“天狼星”架構(gòu)GPU誕生;2022年,定義第二代GPU架構(gòu)“大角星”;2023年,第一代“天狼星”架構(gòu)GPU實現(xiàn)量產(chǎn)。據(jù)悉,2024年,中天恒星會繼續(xù)優(yōu)化基于“天狼星”架構(gòu)的GPU。2025年,將量產(chǎn)第二代GPU架構(gòu)“大角星”。
“天狼星”GPU架構(gòu)有幾大亮點:
具有3D圖形引擎+2D圖形加速+視頻引擎。
自主可控/靈活優(yōu)化的指令集和VLIW/SIMD機器指令集(ICCD’13);其中,自主可控/靈活優(yōu)化的指令集,可保證GPU芯片迭代的軟件兼容。
SIMT計算框架,可以充分利用圖形應(yīng)用的數(shù)據(jù)并行性( DATE’12.ICCD'13,TVLSI15)。
支持物理真實渲染(ACMComputingSurvey’14,SIGGRAPHASIA'14.15)。
Shader Core(Graphics Processing Cluster),包括SIMT獨立指令執(zhí)行單元、以32位浮點ALU為基礎(chǔ)的統(tǒng)一圖形架構(gòu)(ICCD13)以及集成寄存器堆、紋理/數(shù)據(jù)緩存。
延遲聚集式全局線程調(diào)度技術(shù)(ISCA20、TPDS21、TCAD'21)。
具有良好性能伸縮性的片上互聯(lián)架構(gòu)(MICRO'20、TPDS’21)。
據(jù)中天恒星的介紹,其瞄準(zhǔn)的是廣闊的圖形渲染市場,第一代“天狼星”架構(gòu)GPU產(chǎn)品的目標(biāo)市場是以括臺式機、一體機、筆記本電腦為核心目標(biāo),逐漸拓展到大屏電視、數(shù)據(jù)中心、云渲染以及車載市場。
GPU用于渲染仍是行業(yè)主流
為何中天恒星要選擇發(fā)力圖形渲染這個市場呢?
GPU從一開始就是為圖形渲染而生,其英文是Graphics Processing Unit,是一個可編程芯片,目的是把我們要呈現(xiàn)的場景,通過一系列計算之后投射在一個兩維計算機屏幕上,GPU力圖在屏幕上再現(xiàn)和真實世界完全一樣的渲染效果,這就是GPU的作用。
但由于GPU擁有強大的并行計算能力,后來我們就用它加速機器學(xué)習(xí)的訓(xùn)練,就是所謂的算力的GPU。按照黃仁勛的說法,2023年算力GPU的產(chǎn)值會超過300億美元的規(guī)模,到2027年會達到1500億美元的量級。
但其實除了用于算力之外,用于渲染的GPU才是GPU市場的主流。2022年以獨立顯卡為代表的GPU大約占據(jù)80%以上的GPU市場,除了獨立顯卡,集成顯卡領(lǐng)域也大抵如此,比如很多汽車的面板用嵌入式GPU做渲染。
渲染GPU的重要性還可以通過另一個層面來直觀看出,比如說服務(wù)器的出貨量和PC出貨量,2021年全球服務(wù)器出貨量1300萬臺,PC出貨量3.5億臺左右。一般來說,潛在的每一臺PC都會搭載一塊圖形顯示的顯卡,所以從這個意義上來講,整個渲染GPU也是主流。
除此之外,大屏交互也是一個驚人的市場。在本次發(fā)布會上,國際信息顯示學(xué)會中國總裁、fellow、俄羅斯工程院外籍院士、國際信息顯示學(xué)會北京分會理事長嚴(yán)群博士指出:“現(xiàn)在所有顯示器都可以稱為被動式顯示技術(shù),觀看的人對它的信息傳輸只有接收,沒有互動,一旦顯示屏加上很多GPU功能,有了沉浸式三維影像呈現(xiàn)、交互體驗,那就不是傳統(tǒng)的電視了,是一旦需要有交互體驗的時候,我們就會重新回到大屏,重新回到這些有渲染的、真實的、你可以融入其中的體驗,這種體驗非常不得了?!?/span>
至于為何會選擇圖形渲染賽道,黃永博士在采訪中解釋到,“顯示、圖形渲染是目前需求量最大的一塊市場,也是高度標(biāo)準(zhǔn)化的市場,唯一要做的就是提高性價比,這就是我們的商業(yè)邏輯的突破口,我們將從性價比著手,突破渲染、顯示這樣標(biāo)準(zhǔn)化的市場,進而再往定制、半定制、更高端的市場去突破?!?/span>
鄧仰東博士在會上介紹了關(guān)于GPU芯片和渲染內(nèi)容高度標(biāo)準(zhǔn)化的內(nèi)容。他指出,
鄧仰東博士也在會上介紹到:“GPU芯片是高度標(biāo)準(zhǔn)化的芯片,渲染的內(nèi)容是高度標(biāo)準(zhǔn)化的。”他指出,GPU芯片的標(biāo)準(zhǔn)主要由三個圖形和計算標(biāo)準(zhǔn)界定。首先是OpenGL,它是國際標(biāo)準(zhǔn)化組織于1997年推出的,從2007年開始,OpenGL相繼發(fā)布了三個版本,基本上確定了整個圖形渲染所需完成的任務(wù)。與此同時,微軟推出了DirectX,這是微軟專門針對Windows平臺的圖形標(biāo)準(zhǔn)。OpenGL具有跨平臺兼容性,而DirectX只適用于Windows平臺。盡管DirectX具有更好的渲染效果,但它缺乏平臺的兼容性。另外一個標(biāo)準(zhǔn)是OpenCL,最初是為圖形純計算能力而設(shè)計,后來也擴展到通用計算領(lǐng)域。
這三個標(biāo)準(zhǔn)在2007年至2017年間經(jīng)歷了黃金時代,并在2017年基本固化下來。換句話說,今天的圖形標(biāo)準(zhǔn)基本上仍然是2007年的主要圖形顯示內(nèi)容,GPU需要完成的核心任務(wù)基本上沒有變化。這也意味著國內(nèi)是有可能趕上NVIDIA在圖形渲染GPU設(shè)計方面的進展。
“此外,GPU市場很大,我們不是為了搶奪英偉達和AMD的市場蛋糕,而是滿足一部分沒有得到滿足的剛需市場?!秉S永博士補充道。
全世界都在搶算力
對英偉達數(shù)據(jù)中心 GPU 的競賽也發(fā)生在全球范圍。不過海外巨頭大量購買 GPU 更早,采購量更大,近年的投資相對連續(xù)。
2022 年,Meta 和甲骨文就已有對 A100 的大投入。Meta 在去年 1 月與英偉達合作建成 RSC 超級計算集群,它包含 1.6 萬塊 A100。同年 11 月,甲骨文宣布購買數(shù)萬塊 A100 和 H100 搭建新計算中心?,F(xiàn)在該計算中心已部署了超 3.27 萬塊 A100,并陸續(xù)上線新的 H100。
微軟自從 2019 年第一次投資 OpenAI 以來,已為 OpenAI 提供數(shù)萬塊 GPU。今年 3 月,微軟又宣布已幫助 OpenAI 建設(shè)了一個新計算中心,其中包括數(shù)萬塊 A100。Google 在今年 5 月推出了一個擁有 2.6 萬塊 H100 的計算集群 Compute Engine A3,服務(wù)想自己訓(xùn)練大模型的公司。
中國大公司現(xiàn)在的動作和心態(tài)都比海外巨頭更急迫。以百度為例,它今年向英偉達新下的 GPU 訂單高達上萬塊。數(shù)量級與 Google 等公司相當(dāng),雖然百度的體量小得多,其去年營收為 1236 億元人民幣,只有 Google 的 6%。
據(jù)了解,字節(jié)、騰訊、阿里、百度這四家中國投入 AI 和云計算最多的科技公司,過去 A100 的積累都達到上萬塊。其中字節(jié)的 A100 絕對數(shù)最多。不算今年的新增訂單,字節(jié) A100 和前代產(chǎn)品 V100 總數(shù)接近 10 萬塊。
成長期公司中,商湯今年也宣稱,其 “AI 大裝置” 計算集群中已總共部署了 2.7 萬塊 GPU,其中有 1 萬塊 A100。連看似和 AI 不搭邊的量化投資公司幻方之前也購買了 1 萬塊 A100。
僅看總數(shù),這些 GPU 供各公司訓(xùn)練大模型似乎綽綽有余——據(jù)英偉達官網(wǎng)案例,OpenAI 訓(xùn)練 1750 億參數(shù)的 GPT-3 時用了 1 萬塊 V100 ,訓(xùn)練時長未公開;英偉達測算,如果用 A100 來訓(xùn)練 GPT-3 ,需要 1024 塊 A100 訓(xùn)練 1 個月,A100 相比 V100 有 4.3 倍性能提升。但中國大公司過去采購的大量 GPU 要支撐現(xiàn)有業(yè)務(wù),或放在云計算平臺上售賣,并不能自由地用于大模型開發(fā)和對外支持客戶的大模型需求。
這也解釋了中國 AI 從業(yè)者對算力資源估算的巨大差別。清華智能產(chǎn)業(yè)研究院院長張亞勤 4 月底參加清華論壇時說,“如果把中國的算力加一塊,相當(dāng)于 50 萬塊 A100,訓(xùn)練五個模型沒問題?!盇I 公司曠視科技 CEO 印奇接受《財新》采訪時則說:中國目前可用作大模型訓(xùn)練的 A100 總共只有約 4 萬塊。
主要反映對芯片、服務(wù)器和數(shù)據(jù)中心等固定資產(chǎn)投資的資本開支,可以直觀說明中外大公司計算資源的數(shù)量級差距。
最早開始測試類 ChatGPT 產(chǎn)品的百度,2020 年以來的年資本開支在 8 億到 20 億美元之間,阿里在 60-80 億美元之間,騰訊在 70-110 億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數(shù)據(jù)中心的美國科技公司的年資本開支最少均超過 150 億美元。
疫情三年中,海外公司資本開支繼續(xù)上漲。亞馬遜去年的資本開支已來到 580 億美元,Meta、Google 均為 314 億美元,微軟接近 240 億美元。中國公司的投資在 2021 年之后則在收縮。騰訊、百度去年的資本開支均同比下滑超 25%。
訓(xùn)練大模型的 GPU 已不算充足,各家中國公司如果真的要長期投入大模型,并賺到給其它模型需求 “賣鏟子” 的錢,未來還需要持續(xù)增加 GPU 資源。
算力租賃需求興起
AI大模型和行業(yè)應(yīng)用等迅速增長推動算力需求,GPU已陷入供應(yīng)短缺,多款GPU價格從3、4月至今漲幅接近50%,訂單排期至明年上半年?;诖怂懔ψ赓U市場興起,需求和市場訂單量上升,未來增長空間較大。
隨著大模型以及相關(guān)應(yīng)用的發(fā)展,算力需求呈現(xiàn)爆發(fā)式增長。但除了大型互聯(lián)網(wǎng)企業(yè)、AI龍頭企業(yè)具有較多的GPU算力芯片儲備外,中小企業(yè)在發(fā)展AI模型、應(yīng)用過程中,遭遇算力瓶頸。華安證券尹沿技分析指出,算力租賃成為廣大中小企業(yè)解決算力需求的最優(yōu)解。
上市公司中,首都在線率先建立大規(guī)模、高覆蓋的GPU算力資源池,在2022年已建設(shè)1萬片面向圖形處理的GPU資源池,其中包括A100、a5000等英偉達先進算力硬件。立昂技術(shù)在成都簡陽募投的立昂云數(shù)據(jù)(成都簡陽)一號基地一期項目未來將打造“算力+數(shù)據(jù)+算法”的超算創(chuàng)新應(yīng)用生態(tài)體系,公司稱相關(guān)的服務(wù)器及加速卡等會根據(jù)業(yè)務(wù)實際情況采購國內(nèi)外知名品牌供應(yīng)商產(chǎn)品。
AI大模型和行業(yè)應(yīng)用等迅速增長推動算力需求,機構(gòu)指出,在未來算力/帶寬高增的背景下,以及CPO的新方案拉動下,MPO的用量有望大幅提升,在設(shè)備內(nèi)部重要性也逐步提高。
CPO下每個光引擎到面板距離不同,布線復(fù)雜易損壞光纖影響整機。通過在光引擎和端口面板間增加板中連接器,將CPO的試錯成本轉(zhuǎn)移到板中連接器和端口的MPO上,MPO有望適配CPO,解決布線痛點。國盛證券指出,在未來算力/帶寬高增的背景下,以及CPO的新方案拉動下,MPO的用量有望大幅提升,在設(shè)備內(nèi)部重要性也逐步提高。
國產(chǎn)顯卡的超車點就在眼前
一般來說,有市場的地方就一定會有中國品牌,但對國產(chǎn)GPU來說這種慣例似乎不復(fù)存在:根據(jù)某券商的報告,2022年全球獨立GPU市場規(guī)模約448.3億美元,盡管規(guī)模高達數(shù)百億,但其中屬于國產(chǎn)GPU品牌的份額卻寥寥無幾。再加上現(xiàn)階段國產(chǎn)GPU主要面向的都是工業(yè)應(yīng)用市場,其中真正能用于游戲玩家的國產(chǎn)GPU市場更是微乎其微。
不過就近幾年國產(chǎn)GPU的市場的變化來看,國產(chǎn)GPU的曙光似乎馬上就要出現(xiàn)了。
2022年11月3日,GPU獨角獸公司摩爾線程召開秋季發(fā)布會,正式發(fā)布了基于MUSA架構(gòu)的第二顆多功能GPU“春曉”以及相應(yīng)的一系列硬件產(chǎn)品——其中既有利好開發(fā)者的MUSA開發(fā)套件,還有大眾消費者期待并即將上市的中國首張游戲顯卡。而這場發(fā)布會也象征著中國GPU企業(yè)在游戲市場邁出的第一步。
與此同時,以ChatGPT為首用的AI技術(shù),為國產(chǎn)GPU品牌們帶來了新的機遇。
根據(jù)中信證券的報告,因AI、數(shù)據(jù)中心、智能汽車、游戲等行業(yè)對GPU的需求有望高增,在國產(chǎn)GPU加速追趕全球頭部企業(yè)的大背景下,國產(chǎn)GPU有望迎來“發(fā)展黃金期”。
首先,AI需求端是國產(chǎn)GPU獨立顯卡未來發(fā)展的重要機會之一。中國的AI市場正在快速發(fā)展,其中云端和終端市場都在迅速擴張。云端市場中,中國企業(yè)在機器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域有著不錯的表現(xiàn),國產(chǎn)GPU獨立顯卡的需求也將不斷增加。而終端市場則包括智能手機、智能音箱、智能攝像頭、智能家居等領(lǐng)域,這些終端設(shè)備都需要計算能力強、功耗低、成本優(yōu)化的GPU獨立顯卡來支持其AI功能。國產(chǎn)GPU獨立顯卡在這些終端設(shè)備中具有較大的應(yīng)用潛力,因此未來發(fā)展機會廣闊。
汽車需求端也是國產(chǎn)GPU獨立顯卡未來發(fā)展的重要機會之一。隨著自動駕駛和智能座艙技術(shù)的不斷發(fā)展,GPU在這些領(lǐng)域中具有廣泛的應(yīng)用。以國內(nèi)常見的路網(wǎng)協(xié)同方案為例,一個優(yōu)秀的路網(wǎng)協(xié)同系統(tǒng)需要海量高時效的道路信息,同時統(tǒng)一的遠(yuǎn)端服務(wù)器也需要同時追蹤、管理海量的車輛。而高并發(fā)、高穩(wěn)定性、低時延、低功耗這正是國產(chǎn)GPU品牌所擅長的領(lǐng)域。
此外,車輛自動駕駛和智能座艙的車機娛樂也對GPU提出了更高的要求。根據(jù)蓋世汽車預(yù)測,未來自動駕駛和智能座艙的市場規(guī)模將會快速擴張,為國產(chǎn)GPU獨立顯卡帶來廣闊的應(yīng)用前景。
5-10年國產(chǎn)將追上國際主流水平
天數(shù)智芯的高管鄒翾日前在采訪中談到,國產(chǎn)GPU還在追趕AMD及英偉達,但隨著時間推移,國產(chǎn)GPU應(yīng)用逐步開花,有望在5-10年內(nèi)實現(xiàn)追趕。他認(rèn)為,國內(nèi)GPU廠商應(yīng)該由小及大,從幾十上百個卡集群的推理任務(wù)開始,然后逐步擴展到上千或上萬個卡集群,以時間換空間。
上海天數(shù)智芯是中國領(lǐng)先的通用GPU高端芯片及超級算力系統(tǒng)提供商,致力于開發(fā)自主可控、國際領(lǐng)先的高性能通用GPU產(chǎn)品。該公司目前兩款重點產(chǎn)品分別是天垓100和智鎧100,其中天垓100已經(jīng)實現(xiàn)了我國通用GPU從0到1的重大突破,智鎧100的性能也達到了國際主流產(chǎn)品的2倍以上。雖然國產(chǎn)GPU目前仍然與國外產(chǎn)品存在性能差距,但國內(nèi)GPU廠商堅定不移地朝著這個方向努力發(fā)展,相信終將實現(xiàn)追趕。
