AMD叫板英偉達(dá)為何吃力不討好?國(guó)產(chǎn)GPU不能只看算力
近日,芯片巨頭AMD推出全新AI GPU MI300系列芯片,與英偉達(dá)在AI 算力市場(chǎng)展開競(jìng)爭(zhēng)。
AMD首席執(zhí)行官蘇姿豐介紹稱,MI300X提供的高帶寬內(nèi)存(HBM)密度是英偉達(dá)H100的2.4倍,HBM帶寬是競(jìng)品的1.6倍。華爾街分析師也普遍認(rèn)為,AMD的這款芯片將對(duì)目前掌握AI芯片市場(chǎng)逾八成份額的英偉達(dá)構(gòu)成有力挑戰(zhàn),這款MI300X加速器,有望替代英偉達(dá)的同類產(chǎn)品。
然而,市場(chǎng)對(duì)本次新品的反響似乎并不熱烈。截至隔夜收盤,AMD股價(jià)下跌超3.6%,被挑戰(zhàn)的英偉達(dá)不跌反漲,股價(jià)單日大漲3.90%。
躥紅的英偉達(dá)
2022年ChatGPT橫空出世,把AI 行業(yè)的發(fā)展推向了一個(gè)新的高潮,生成式 AI 需要基于海量的數(shù)據(jù)進(jìn)行推理訓(xùn)練,高算力的 GPU 加速卡自然也成了市場(chǎng)的搶手貨。乘著AI的東風(fēng),英偉達(dá)坐上了“算力霸主”的寶座。
據(jù)悉,微軟用幾億美元,耗費(fèi)上萬(wàn)張英偉達(dá)A100芯片打造超算平臺(tái),只為給ChatGPT和新版必應(yīng)提供更好的算力。不僅如此,微軟還在Azure的60多個(gè)數(shù)據(jù)中心部署了幾十萬(wàn)張GPU,用于ChatGPT的推理。特斯拉CEO馬斯克也購(gòu)買了約1萬(wàn)個(gè)GPU,用于公司的兩個(gè)數(shù)據(jù)中心之一。除此之外,像亞馬遜、阿里、百度等眾多科技公司都在競(jìng)相部署AI芯片。
供需的極度不平衡讓英偉達(dá)的GPU一芯難求,開啟漲價(jià)。據(jù)市場(chǎng)消息人士透露,英偉達(dá)的A100和H100 AI GPU訂單還在不斷增加,A800和H800的售價(jià)已上漲40%,新訂單交期可能要延長(zhǎng)到12月份。
在炙手可熱的AI浪潮下,英偉達(dá)賺得盆滿缽滿。英偉達(dá)表示,其截至 7 月的本季度銷售額預(yù)計(jì)將達(dá) 110 億美元,較華爾街之前的估計(jì)高出 50%以上。不過(guò),作為AI的基礎(chǔ)設(shè)施,算力芯片環(huán)節(jié)的“一家獨(dú)大”顯然不是有利于行業(yè)長(zhǎng)遠(yuǎn)發(fā)展的生態(tài),市場(chǎng)迫切需要引入新的競(jìng)爭(zhēng)者,AMD的出現(xiàn)或許有望“分擔(dān)”AI市場(chǎng)的壓力。
AMD叫板英偉達(dá)
MI300是AMD發(fā)布的第一款數(shù)據(jù)中心、高性能計(jì)算機(jī)群(HPC)級(jí)的APU,采用與英偉達(dá)Grace Hopper相同的CPU+GPU架構(gòu),但是硬件參數(shù)更高。
MI300在CPU部分集成了24個(gè)ZEN4內(nèi)核,GPU部分集成了6塊使用CDNA3架構(gòu)的芯片,擁有1460億個(gè)晶體管,比英特爾GPU Ponte Vecchio多460億個(gè)晶體管,比英偉達(dá)H100多660億個(gè)晶體管,而且MI300的統(tǒng)一內(nèi)存可降低不同內(nèi)存間來(lái)回復(fù)制、同步和轉(zhuǎn)換數(shù)據(jù)所導(dǎo)致的編程復(fù)雜性。
封裝工藝方面,MI300使用最近爆火的3D Chiplet封裝技術(shù),而GH200則使用CoWoS(2.5D)封裝,3D對(duì)比2.5D的優(yōu)勢(shì)在于性能更高、延遲和功耗更低。
從硬件參數(shù)上來(lái)看,AMD MI300已經(jīng)具備和英偉達(dá)叫板的能力,但顯卡領(lǐng)域完善軟件生態(tài)比堆硬件參數(shù)更難,AMD的軟件生態(tài)能否貼合人工智能行業(yè)的市場(chǎng)需求,是MI300能否搶走英偉達(dá)既有市場(chǎng)的重要影響因素。
英偉達(dá)壟斷人工智能訓(xùn)練芯片市場(chǎng)的主要原因是其自研的CUDA生態(tài)。所以AMD MI300想要替代英偉達(dá),首先需要兼容英偉達(dá)的CUDA生態(tài),AMD為此推出ROCm生態(tài)圈,并實(shí)現(xiàn)通過(guò)HIP完全兼容CUDA。
作為AMD的GPU軟件開發(fā)框架,HIP對(duì)應(yīng)的是CUDA API,其提供的HIPify-perl和HIPify-clang工具,可用于CUDA到HIP的代碼轉(zhuǎn)換,轉(zhuǎn)碼后可在AMD GPU上編譯運(yùn)行,基于HIP開發(fā)的應(yīng)用也可用于AMD和英偉達(dá)的GPU上。
在此背景下,同一個(gè)數(shù)據(jù)中心內(nèi),理論上可以同時(shí)使用AMD和英偉達(dá)的GPU,但不同公司的GPU產(chǎn)品對(duì)數(shù)據(jù)精度的標(biāo)準(zhǔn)和計(jì)算方法及順序配置不同,混合使用GPU難免會(huì)導(dǎo)致計(jì)算精度缺失等問(wèn)題,直接影響模型訓(xùn)練效果。
而且從技術(shù)層面來(lái)看,兼容意味著被動(dòng)、落后,因?yàn)镃UDA每一次升級(jí),ROCm都需要做出對(duì)應(yīng)升級(jí),技術(shù)團(tuán)隊(duì)無(wú)法將所有精力用于ROCm生態(tài)圈的迭代上,應(yīng)用場(chǎng)景和使用體驗(yàn)都會(huì)落后于英偉達(dá)。
回顧二者發(fā)展歷程,英偉達(dá)2007年發(fā)布CUDA,AMD2016年才發(fā)布ROCm,前者自問(wèn)世起就支持Linux、Windows多平臺(tái),后者則長(zhǎng)期只能支持Linux系統(tǒng),且不支持部分Linux的更新,并于今年4月才登錄Windows平臺(tái)。
同樣是今年4月,AMD剛解決消費(fèi)級(jí)產(chǎn)品與ROCm的適配,此前僅支持AMD高端GPU,限制了市場(chǎng)份額的提升。最后就是由于切入時(shí)間更晚,AMD開發(fā)者數(shù)量遠(yuǎn)低于英偉達(dá)的400萬(wàn)。
對(duì)比CUDA和ROCm的開發(fā)活躍度,在全球最大的開發(fā)者社區(qū)之一StackOverflow中,“CUDA”的標(biāo)簽下有超過(guò)14000個(gè)問(wèn)題討論,而ROCm在“amd-rocm”的標(biāo)簽下只有不到100個(gè)問(wèn)題討論。在Github上,貢獻(xiàn)CUDA軟件包倉(cāng)庫(kù)的開發(fā)者超過(guò)32600位,而ROCm只有不到600個(gè)。
為改變這種被動(dòng)局面,AMD也在積極豐富其軟件生態(tài)。雖然目前僅有部分SKU支持Windows系統(tǒng),但主流Radeon顯卡用戶可以開始試用過(guò)去僅專業(yè)顯卡才能使用的AMD ROCm(5.6.0Alpha)。
今年1季度,AMD宣布ROCm系統(tǒng)融入PyTorch2.0框架,目前TensorFlow和Caffe深度學(xué)習(xí)框架也已加入第五代ROCm。
故此,從軟件生態(tài)方面來(lái)看,現(xiàn)有的AMD MI300還不足以威脅英偉達(dá)的市場(chǎng)份額,想撼動(dòng)英偉達(dá)在人工智能行業(yè)的地位,AMD還需時(shí)間。
國(guó)產(chǎn)GPU迎來(lái)發(fā)展黃金期
龐大的市場(chǎng)需求和歐美的芯片封鎖,迫使得國(guó)產(chǎn)GPU被推到了聚光燈下,迎來(lái)了絕佳的發(fā)展期。有業(yè)內(nèi)人士稱:“國(guó)產(chǎn)GPU在信創(chuàng)方面已經(jīng)實(shí)現(xiàn)逐步替代,AI&數(shù)據(jù)中心、智能汽車、游戲等應(yīng)用領(lǐng)域的國(guó)產(chǎn)GPU需求量也有極大的提升,國(guó)產(chǎn)GPU迎來(lái)發(fā)展黃金期,我們看好國(guó)產(chǎn)GPU公司的發(fā)展與投資機(jī)遇?!?/span>
近日,國(guó)內(nèi)多個(gè)GPU廠商,從老牌的景嘉微,到初創(chuàng)的沐曦,都順應(yīng)市場(chǎng)需求,相繼推出了各自在GPU領(lǐng)域的最新拳頭產(chǎn)品。
中天恒星:6月15日在北京發(fā)布國(guó)產(chǎn)自主GPU架構(gòu)“天狼星”,擁有完全自主知識(shí)產(chǎn)權(quán),自研核心架構(gòu)確保產(chǎn)品迭代自主可控,同時(shí)擁有完備的交付能力,并已實(shí)現(xiàn)量產(chǎn)。
景嘉微:成功研發(fā)JM54 系列、JM72 系列、JM92 系列三代 GPU 產(chǎn)品。應(yīng)用于臺(tái)式機(jī)、筆記本、一體機(jī)、服務(wù)器、工控機(jī)、自助終端等設(shè)備。
天數(shù)智芯:6月10日發(fā)布天垓100加速卡的算力集群,已經(jīng)具備支持百億級(jí)參數(shù)大模型訓(xùn)練的能力。是國(guó)內(nèi)第一款全自研、GPU 架構(gòu)下的云端訓(xùn)練芯片,實(shí)現(xiàn)了我國(guó)通用GPU從0到1的重大突破。
芯動(dòng)科技:芯動(dòng)發(fā)布的“風(fēng)華 2 號(hào)”是一款集超低功耗、強(qiáng)渲染、4K 高清三屏顯示、4K 視頻解碼及智能 AI 計(jì)算于一體的桌面和筆記本 GPU,實(shí)現(xiàn)了多個(gè)自研技術(shù)的創(chuàng)新突破。
摩爾線程:基于MUSA架構(gòu)打造了兩顆全功能GPU芯片“蘇堤”和“春曉”;面向信創(chuàng)市場(chǎng)推出了桌面級(jí)顯卡MTT S10、MTT S30和MTT S50。
沐曦:6 月 14 日宣布曦云系列的最新產(chǎn)品MXC500成功點(diǎn)亮,產(chǎn)品直接對(duì)標(biāo)英偉達(dá) A100,采用通用 GPU 架構(gòu),兼容 CUDA。
盡管國(guó)產(chǎn)GPU的推出步伐不斷加快,其中也不乏一些對(duì)標(biāo)國(guó)際高端GPU的產(chǎn)品,但不得不承認(rèn),國(guó)產(chǎn)GPU要走向真正成熟可靠,實(shí)現(xiàn)完全國(guó)產(chǎn)替代還有很長(zhǎng)的距離。
國(guó)產(chǎn)GPU整個(gè)商業(yè)生態(tài)尚未成熟
在芯片“斷供”之前,國(guó)內(nèi)購(gòu)買海外高端GPU芯片之路暢通,很少有客戶在重大項(xiàng)目采購(gòu)時(shí)會(huì)考慮國(guó)產(chǎn)GPU,都普遍傾向海外最先進(jìn)、最穩(wěn)定的產(chǎn)品,以保證項(xiàng)目順利完成。究其原因有二,一是畢竟國(guó)產(chǎn)GPU的發(fā)展才剛剛起步,在性能和穩(wěn)定性方面尚未取得長(zhǎng)時(shí)間,多項(xiàng)目的驗(yàn)證,不少國(guó)產(chǎn)GPU在實(shí)際應(yīng)用中出現(xiàn)了工作負(fù)載低,芯片性能不穩(wěn)定,兼容性差的情況。二是軟件生態(tài)不夠完善,如果一個(gè)芯片沒(méi)有與之配套的軟件生態(tài),則很難真正形成大面積的應(yīng)用。
在當(dāng)下GPU應(yīng)用最火的AI大模型訓(xùn)練中,騰訊云新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群使用的是英偉達(dá)最新代次H800 GPU;阿里曾在 2018-2019 年采購(gòu)了上萬(wàn)塊英偉達(dá)的V100和T4 GPU用于近年來(lái)的云計(jì)算和大模型訓(xùn)練,其他字節(jié)、百度、美團(tuán)、B站等都清一色采購(gòu)英偉達(dá)的A100、H100 GPU或是去年禁令后英偉達(dá)專門推出的減配版 A800、H800 GPU。
這使得國(guó)產(chǎn)GPU在國(guó)內(nèi)鮮有大企業(yè)應(yīng)用成功的案例,大部分還僅僅圍繞在PC、圖形渲染領(lǐng)域,或是應(yīng)用在專門的軍事、政府等部門。商業(yè)市場(chǎng)的大門,只是開了一條縫。
另外,國(guó)產(chǎn)GPU廠商的硬件架構(gòu),軟件API接口不盡相同,客戶基本只能多選一,兼容和替換都不夠靈活,比較難實(shí)現(xiàn)技術(shù)生態(tài)的統(tǒng)一。
只靠算力,無(wú)法做英偉達(dá)的PlanB
英偉達(dá)的強(qiáng)不只是體現(xiàn)在硬件產(chǎn)品上,在軟件平臺(tái)中,英偉達(dá)也有自己的護(hù)城河。
CUDA就是英偉達(dá)推出的基于GPU的并行計(jì)算平臺(tái)和編程模型,可以用來(lái)加速大規(guī)模數(shù)據(jù)并行計(jì)算,使得GPU可以用于更加廣泛的科學(xué)計(jì)算和工程計(jì)算等領(lǐng)域。CUDA的良好生態(tài)系統(tǒng)吸引了眾多學(xué)術(shù)機(jī)構(gòu)和高性能計(jì)算中心的關(guān)注和使用,也為英偉達(dá)提供了強(qiáng)有力的市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)?,F(xiàn)在AMD也在做同樣的事情,只是英偉達(dá)已經(jīng)占了先發(fā)優(yōu)勢(shì),AMD搭建起來(lái)可能會(huì)更為艱難。
CUDA的重要性不言而喻,但是提供CUDA兼容層,需要廠商具備足夠的研發(fā)實(shí)力,上文提到的與CUDA兼容的有沐曦、海光、壁仞、天數(shù)智芯等公司,因此是否兼容CUDA也成為衡量AI芯片公司的標(biāo)的之一。
至于是否一定要兼容CUDA,業(yè)界有著不同見解。專家稱,在小模型上CUDA仍然很重要,但在大模型上它的地位越來(lái)越輕了。如果未來(lái)中國(guó)市場(chǎng)以小模型為主,那CUDA還是有很大的影響力,而如果是以大模型為主,對(duì)于CUDA的依賴就越來(lái)越小了。
總而言之,重視軟件配適開發(fā)至關(guān)重要。
對(duì)于建立國(guó)產(chǎn)IT系統(tǒng)的行動(dòng)建議包括:設(shè)置合理國(guó)產(chǎn)系統(tǒng)及芯片性能要求和驗(yàn)證目的,從非關(guān)鍵應(yīng)用開始嘗試導(dǎo)入部分國(guó)產(chǎn)芯片;加強(qiáng)軟件配適開發(fā),確保軟件對(duì)不同系統(tǒng)的兼容性、穩(wěn)定性和運(yùn)營(yíng)性能;建立加強(qiáng)對(duì)國(guó)內(nèi)基礎(chǔ)IT軟硬件廠商的投資,確保廠商對(duì)產(chǎn)品開發(fā)計(jì)劃的影響力;優(yōu)先考慮國(guó)內(nèi)供應(yīng)鏈和成熟平臺(tái),積極采用半導(dǎo)體創(chuàng)新技術(shù)。
