又一國(guó)產(chǎn)企業(yè)立志攻克GPU難題,造一塊自己的顯卡到底有多難?
近日,武漢市科技局下達(dá)2023年度重點(diǎn)研發(fā)計(jì)劃項(xiàng)目。攀升科技“基于國(guó)產(chǎn)GPU的顯卡研制及產(chǎn)業(yè)化”項(xiàng)目位列其中。項(xiàng)目落地后,將解決潛在“卡脖子”產(chǎn)品——“顯卡”的核心計(jì)算組件國(guó)產(chǎn)化難題。
2023年2月,中共中央、國(guó)務(wù)院印發(fā)《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》,明確要夯實(shí)數(shù)字中國(guó)建設(shè)基礎(chǔ),并構(gòu)建自立自強(qiáng)的數(shù)字技術(shù)創(chuàng)新體系。今年以來(lái),在ChatGPT快速迭代的浪潮下,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和預(yù)訓(xùn)練大模型等人工智能技術(shù)進(jìn)入井噴期,全球?qū)Τ笠?guī)模并行算力需求暴增,獨(dú)立顯卡作為AI算力核心基礎(chǔ)設(shè)施的重要性日益突出。
在GPU領(lǐng)域,我國(guó)一直缺少核心技術(shù)以及生產(chǎn)經(jīng)驗(yàn),與國(guó)際水平差距較大。國(guó)產(chǎn)品牌急需突破和壯大,解決潛在“卡脖子”產(chǎn)品核心技術(shù),實(shí)施國(guó)產(chǎn)品牌替代,共建“光芯屏端網(wǎng)”產(chǎn)業(yè)鏈。
攀升科技此次立項(xiàng)成功的“基于國(guó)產(chǎn)GPU的顯卡研制及產(chǎn)業(yè)化”項(xiàng)目,將解決各類計(jì)算“終端”的核心計(jì)算組件國(guó)產(chǎn)化問(wèn)題,極大提升計(jì)算終端組件的國(guó)產(chǎn)化率;基于國(guó)家數(shù)字基礎(chǔ)建設(shè)和獨(dú)立自主技術(shù)創(chuàng)新的導(dǎo)向,向各領(lǐng)域提供所需的國(guó)產(chǎn)品牌顯卡產(chǎn)品,為武漢市和國(guó)家的數(shù)字基礎(chǔ)建設(shè)提供硬科技產(chǎn)品基礎(chǔ),解決潛在“卡脖子”風(fēng)險(xiǎn)。
本項(xiàng)目將實(shí)現(xiàn)從顯卡核心軟硬件設(shè)計(jì)、研發(fā)調(diào)試、生產(chǎn)制造到品控檢驗(yàn)等全流程的核心技術(shù)國(guó)產(chǎn)化和經(jīng)驗(yàn)積累,在諸如顯卡PCB集成電路、供電模組、散熱模組和顯存、供電管理等關(guān)鍵技術(shù)環(huán)節(jié)進(jìn)行創(chuàng)新和突破。
GPU研發(fā)技術(shù)壁壘極高
GPU的研發(fā)是一項(xiàng)大型的系統(tǒng)工程,包含硬件架構(gòu)、算法、軟件生態(tài)等多個(gè)組成,缺一不可,壁壘極高。CPU巨頭Intel近二十年多次嘗試征服高端GPU領(lǐng)域,曾在前兩年專門成立加速計(jì)算系統(tǒng)與圖形事業(yè)部(AXG),試圖再度殺入高端GPU市場(chǎng),卻始終反響平平。甚至現(xiàn)在的GPU絕對(duì)霸主NVIDIA,從95年首款產(chǎn)品NV1正式誕生發(fā)展至今,也是在顯卡領(lǐng)域耕耘了20多年才有當(dāng)前的成績(jī)。足可見(jiàn)GPU產(chǎn)業(yè)的門檻之高。
在硬件上,國(guó)產(chǎn)最大的問(wèn)題就是IP,任何一款高端芯片的打造都離不開(kāi)IP。但是,GPU IP的自研開(kāi)發(fā)需要3-5年的周期,需要數(shù)百個(gè)專業(yè)領(lǐng)域的工程師。因此短時(shí)間內(nèi)在硬件上實(shí)現(xiàn)完全國(guó)產(chǎn)化并不容易,國(guó)內(nèi)GPU廠商如芯動(dòng)、摩爾線程等幾乎都是外購(gòu)IP加上部分的自主研發(fā)。中天恒星剛發(fā)布的“天狼星”雖然實(shí)現(xiàn)了國(guó)產(chǎn)自主GPU架構(gòu),100%IP屬于自主研發(fā),但真正要完善軟件生態(tài),穩(wěn)定商用,我想還需要很長(zhǎng)的一段時(shí)間。
在軟件上,國(guó)產(chǎn)難題主要涉及驅(qū)動(dòng)開(kāi)發(fā)、算法及軟件生態(tài)。業(yè)內(nèi)人士指出,計(jì)算芯片最大的門檻其實(shí)不是硬件,而是軟件。目前業(yè)內(nèi)GPU特別是用于通用算力的GPGPU,主流的軟件架構(gòu)是英偉達(dá)的CUDA,此架構(gòu)在2006問(wèn)世以來(lái),與下游軟件、驅(qū)動(dòng)廠家已經(jīng)有了深度合作。而且CUDA本身涵蓋了多個(gè)技術(shù)領(lǐng)域,其開(kāi)發(fā)與后續(xù)更新都與英偉達(dá)自家GPU高度綁定,從某種角度來(lái)看,英偉達(dá)在GPU領(lǐng)域的壟斷很大程度上是通過(guò)CUDA平臺(tái)上的軟件生態(tài)實(shí)現(xiàn)。因此國(guó)內(nèi)GPU廠商如果想真正對(duì)標(biāo)英偉達(dá),CUDA生態(tài)是繞不開(kāi)的一環(huán)。
國(guó)產(chǎn)GPU整個(gè)商業(yè)生態(tài)尚未成熟
在芯片“斷供”之前,國(guó)內(nèi)購(gòu)買海外高端GPU芯片之路暢通,很少有客戶在重大項(xiàng)目采購(gòu)時(shí)會(huì)考慮國(guó)產(chǎn)GPU,都普遍傾向海外最先進(jìn)、最穩(wěn)定的產(chǎn)品,以保證項(xiàng)目順利完成。究其原因有二,一是畢竟國(guó)產(chǎn)GPU的發(fā)展才剛剛起步,在性能和穩(wěn)定性方面尚未取得長(zhǎng)時(shí)間,多項(xiàng)目的驗(yàn)證,不少國(guó)產(chǎn)GPU在實(shí)際應(yīng)用中出現(xiàn)了工作負(fù)載低,芯片性能不穩(wěn)定,兼容性差的情況。二是軟件生態(tài)不夠完善,如果一個(gè)芯片沒(méi)有與之配套的軟件生態(tài),則很難真正形成大面積的應(yīng)用。
在當(dāng)下GPU應(yīng)用最火的AI大模型訓(xùn)練中,騰訊云新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群使用的是英偉達(dá)最新代次H800 GPU;阿里曾在 2018-2019 年采購(gòu)了上萬(wàn)塊英偉達(dá)的V100和T4 GPU用于近年來(lái)的云計(jì)算和大模型訓(xùn)練,其他字節(jié)、百度、美團(tuán)、B站等都清一色采購(gòu)英偉達(dá)的A100、H100 GPU或是去年禁令后英偉達(dá)專門推出的減配版 A800、H800 GPU。
這使得國(guó)產(chǎn)GPU在國(guó)內(nèi)鮮有大企業(yè)應(yīng)用成功的案例,大部分還僅僅圍繞在PC、圖形渲染領(lǐng)域,或是應(yīng)用在專門的軍事、政府等部門。商業(yè)市場(chǎng)的大門,只是開(kāi)了一條縫。
另外,國(guó)產(chǎn)GPU廠商的硬件架構(gòu),軟件API接口不盡相同,客戶基本只能多選一,兼容和替換都不夠靈活,比較難實(shí)現(xiàn)技術(shù)生態(tài)的統(tǒng)一。
短期難盈利
對(duì)于GPU創(chuàng)企而言,巨大的研發(fā)費(fèi)用和資本開(kāi)支是必需,但長(zhǎng)期、持續(xù)的利潤(rùn)支撐才是GPU跨代發(fā)展的強(qiáng)勁驅(qū)動(dòng)力。
盡管近幾年因?yàn)锳I人工智能的火爆,使得GPU創(chuàng)企的融資環(huán)境變得相對(duì)寬松,但由于國(guó)內(nèi)近幾年批量的GPU創(chuàng)企涌入,使得競(jìng)爭(zhēng)激烈,加上研發(fā)投入巨大,在規(guī)模市場(chǎng)打開(kāi)之前,GPU廠商在短期內(nèi)難以實(shí)現(xiàn)量產(chǎn)盈利,令一眾大VC和PE機(jī)構(gòu)望而卻步。
芯片市場(chǎng)上,OPPO上個(gè)月關(guān)停了手機(jī)芯片自研公司哲庫(kù),便是因?yàn)槎唐陔y盈利,倒在了黎明前。同樣,對(duì)于部分GPU創(chuàng)企來(lái)說(shuō),也面臨著資本市場(chǎng)洗牌的風(fēng)險(xiǎn)。
種子選手的秘密
在目前國(guó)內(nèi)一票GPU的“種子選手”中,一家名叫壁仞科技的企業(yè)引起了人們的注意。原因很簡(jiǎn)單,那就是其產(chǎn)品BR100不僅創(chuàng)下了全球算力紀(jì)錄,并且宣稱其峰值算力達(dá)到了英偉達(dá)A100的3倍,甚至還能對(duì)標(biāo)沒(méi)發(fā)售的H100。
然而,稍微了解過(guò)國(guó)內(nèi)芯片行業(yè)的人都知道,在芯片領(lǐng)域,國(guó)內(nèi)的炒作太多了,徒有其表的例子也太多了。
那么,做出這個(gè)“媲美英偉達(dá)”GPU的企業(yè),究竟是什么來(lái)頭?其自主研發(fā)的BR100,是否真的像其宣傳的那樣出色?
要回答這個(gè)問(wèn)題,我們不妨先看看壁仞科技的創(chuàng)始班底,技術(shù)背景究竟如何。
作為一家通用智能芯片設(shè)計(jì)研發(fā)商的壁仞科技,成立于2019年,團(tuán)隊(duì)由國(guó)內(nèi)外芯片和云計(jì)算領(lǐng)域的專家和研發(fā)人員組成。其創(chuàng)始人張旭博士,不僅擁有清華大學(xué)和斯坦福大學(xué)的博士學(xué)位,還曾是英偉達(dá)的高級(jí)架構(gòu)師,負(fù)責(zé)Volta架構(gòu)的設(shè)計(jì)和開(kāi)發(fā)。
除此之外, 團(tuán)隊(duì)其他成員的技術(shù)身份,也頗為亮眼。
李新榮,聯(lián)席CEO,曾任AMD全球副總裁、中國(guó)研發(fā)中心總經(jīng)理,負(fù)責(zé)AMD大中華區(qū)的研發(fā)建設(shè)和管理工作。
洪洲,CTO,曾在NVIDIA、S3、華為等工作操刀GPU工程項(xiàng)目,擁有超過(guò)30年的GPU領(lǐng)域經(jīng)驗(yàn)。
焦國(guó)方,軟件生態(tài)環(huán)境主要負(fù)責(zé)人,曾在高通領(lǐng)導(dǎo)和產(chǎn)品研發(fā)了5代Adreno移動(dòng)GPU系統(tǒng)架構(gòu)。
這樣的團(tuán)隊(duì)背景,決定了壁仞科技的技術(shù)底色。
依據(jù)之前在英偉達(dá)、AMD、高通、商湯科技等知名企業(yè)的研發(fā)經(jīng)驗(yàn)和技術(shù)積累,壁仞科技研發(fā)了自主原創(chuàng)的芯片架構(gòu)——壁立仞。壁立仞架構(gòu)基于SIMT(單指令多線程)模型,針對(duì)AI場(chǎng)景進(jìn)行了專用的優(yōu)化和定制。其最大的特點(diǎn),就是可以將多個(gè)小芯片拼成一個(gè)大芯片,每個(gè)小芯片只做一部分功能,然后通過(guò)高速互連組合成一個(gè)大芯片。這樣可以提高芯片的良率和可靠性,同時(shí)降低成本和功耗,實(shí)現(xiàn)更強(qiáng)大的算力和擴(kuò)展性。
這就是壁仞科技所謂的Chiplet的設(shè)計(jì)理念。
這種技術(shù)的難點(diǎn)在于如何保證芯片之間的高速通信和協(xié)作,同時(shí)避免信號(hào)干擾和功耗過(guò)高。因此,如何設(shè)計(jì)合適的芯片分割和組合方案,使得每個(gè)芯片都能發(fā)揮最大的效能,同時(shí)減少電磁干擾和熱耗散,就成了Chiplet能否成功的關(guān)鍵。
對(duì)此,壁仞科技使用了兩種關(guān)鍵的技術(shù)2.5D CoWoS和BLink,來(lái)攻克這一難關(guān)。
簡(jiǎn)單地說(shuō),2.5D CoWoS技術(shù)是一種把多個(gè)芯片堆疊在一起的技術(shù),它利用了一個(gè)硅基板作為中介層,縮短了芯片之間的距離,從而提高了信號(hào)的傳輸速度和質(zhì)量。而B(niǎo)Link則在中介層上,建立了一個(gè)專用的接口,它可以讓多個(gè)芯片之間直接傳輸數(shù)據(jù),而不需要經(jīng)過(guò)其他的電路或芯片,從而減少了延遲和功耗。然而,盡管2.5D CoWoS、BLink這些技術(shù),讓壁仞科技打造出了算力更強(qiáng)的BR100,但這些技術(shù),目前在國(guó)際上并不罕見(jiàn),其他GPU廠商也有過(guò)類似的設(shè)計(jì)。
例如,Nvidia的A100和H100 GPU都采用了CoWoS技術(shù),把GPU芯片和HBM內(nèi)存堆疊在一起,提高了內(nèi)存帶寬和計(jì)算性能。而Nvidia還開(kāi)發(fā)了自己的NVLink接口,類似于BLink接口,可以讓多個(gè)GPU之間高速互聯(lián)。
此外,AMD也有自己的Infinity Fabric接口,可以實(shí)現(xiàn)類似的功能。
那既然這是一種“大家都能用”的技術(shù),那壁仞科技怎么就做到讓BR100算力達(dá)到A100三倍的呢?而英偉達(dá)真就會(huì)坐視著自己被超越了?
其實(shí),這樣的結(jié)果,是二者在不同數(shù)據(jù)格式下的表現(xiàn)所致。
具體來(lái)說(shuō),BR100的巨大算力,更多是在矩陣FP32數(shù)據(jù)格式下的表現(xiàn)。
一般來(lái)說(shuō),數(shù)據(jù)格式占用的位數(shù)越多,它的范圍和精度就越高,但是也會(huì)消耗更多的空間和電力。而矩陣FP32其實(shí)就是一種特殊的FP32數(shù)據(jù)格式,它只用了19位來(lái)存儲(chǔ)一個(gè)浮點(diǎn)數(shù),這樣做的目的是為了讓矩陣FP32能夠兼容Tensor Core這種專門用于加速矩陣乘法的硬件單元。矩陣乘法是深度學(xué)習(xí)中最常見(jiàn)和最重要的計(jì)算操作之一,所以使用矩陣FP32可以大幅提升深度學(xué)習(xí)的性能。但是,矩陣FP32也有一個(gè)缺點(diǎn),就是它的精度比向量FP32低,也就是說(shuō)它能表示的浮點(diǎn)數(shù)的范圍和細(xì)節(jié)程度比向量FP32小。這樣就會(huì)導(dǎo)致一些誤差和損失,在某些情況下可能會(huì)影響模型的質(zhì)量和效果。
因此,矩陣FP32和英偉達(dá)A100的向量FP32并不等價(jià),因?yàn)榫仃嘑P32只適用于矩陣乘法這種特定的計(jì)算操作,并不能代表GPU的整體性能。
國(guó)產(chǎn)力量的崛起
這些國(guó)產(chǎn)GPU廠商的崛起,對(duì)英偉達(dá)的AI算力市場(chǎng)份額構(gòu)成了一定的挑戰(zhàn)和威脅。
一方面,國(guó)產(chǎn)GPU廠商可以提供更高性價(jià)比、更低能耗、更靈活定制的產(chǎn)品和服務(wù),滿足國(guó)內(nèi)客戶的多樣化需求和預(yù)算。
另一方面,國(guó)產(chǎn)GPU廠商可以避免受到美國(guó)政策的影響和干擾,保障國(guó)內(nèi)客戶的數(shù)據(jù)安全和供應(yīng)穩(wěn)定。
因此,國(guó)產(chǎn)GPU廠商有望在國(guó)內(nèi)市場(chǎng)占據(jù)更大的份額,甚至在國(guó)際市場(chǎng)上與英偉達(dá)展開(kāi)競(jìng)爭(zhēng)。
當(dāng)然,英偉達(dá)也不會(huì)坐以待斃,它仍然擁有著強(qiáng)大的技術(shù)優(yōu)勢(shì)、品牌影響力、生態(tài)合作力等資源,可以繼續(xù)保持其在AI算力領(lǐng)域的領(lǐng)先地位。英偉達(dá)不斷推出新一代的GPU芯片和加速卡,如Ampere(安培)架構(gòu)的A100、Grace(格雷斯)等,提升其在AI訓(xùn)練和推理方面的性能和效率。英偉達(dá)還不斷拓展其在AI應(yīng)用領(lǐng)域的布局,如收購(gòu)Arm、DeepMap等公司,加強(qiáng)其在自動(dòng)駕駛、物聯(lián)網(wǎng)、邊緣計(jì)算等領(lǐng)域的競(jìng)爭(zhēng)力。英偉達(dá)還不斷完善其在AI開(kāi)發(fā)生態(tài)方面的支持,如推出Jetson Nano、JetPack SDK等工具,降低AI開(kāi)發(fā)者的門檻和成本。
國(guó)產(chǎn)顯卡的發(fā)展未來(lái)對(duì)英偉達(dá)顯卡AI算力需求的替代前景是一個(gè)值得關(guān)注和探討的話題。
從目前的情況來(lái)看,國(guó)產(chǎn)顯卡已經(jīng)取得了顯著的進(jìn)步和突破,對(duì)英偉達(dá)形成了一定的競(jìng)爭(zhēng)壓力。但是,英偉達(dá)仍然保持著其在AI算力領(lǐng)域的領(lǐng)導(dǎo)地位,對(duì)國(guó)產(chǎn)顯卡也有著自己的應(yīng)對(duì)策略。
未來(lái),隨著AI技術(shù)和應(yīng)用的不斷發(fā)展和創(chuàng)新,GPU市場(chǎng)將呈現(xiàn)出更加多元化和激烈化的態(tài)勢(shì),這將對(duì)各個(gè)GPU廠商提出更高的要求和挑戰(zhàn),也將為用戶帶來(lái)更多的選擇和價(jià)值。
