前有谷歌反擊OpenAI,后有AMD反擊英偉達(dá),說(shuō)到底都是算力之爭(zhēng)
AMD公司終于決定反擊英偉達(dá)了。
北京時(shí)間12月7日凌晨,在美國(guó)圣何塞舉辦的AMD Advancing AI 活動(dòng)上,AMD CEO蘇姿豐(Lisa Su)宣布推出Instinct MI300X AI 加速芯片(APU)以及宣布MI300A芯片量產(chǎn)。
兩款產(chǎn)品均瞄準(zhǔn)這一英偉達(dá)主導(dǎo)的市場(chǎng)。
其中,MI300X內(nèi)存是英偉達(dá)H100產(chǎn)品的2.4倍,內(nèi)存帶寬是H100的1.6倍,進(jìn)一步提升了性能,有望挑戰(zhàn)英偉達(dá)在炙手可熱的 AI 加速芯片市場(chǎng)地位。
具體來(lái)說(shuō),AMD表示,MI300X新款芯片較英偉達(dá)的H100性能最多可以提升60%。在與H100(Llama 2 700億參數(shù)版本)的一對(duì)一比較中,MI300X性能提高了高達(dá)20%;在與H100(FlashAttention 2版本)的一對(duì)一比較中,MI300X性能提高20%;在與H100(Llama 2 70B版本)的8對(duì)8服務(wù)器比較中,MI300X性能提高40%;在與H100(Bloom 176B)的8對(duì)8服務(wù)器比較中,MI300X性能提高60%。
與此同時(shí),在 AI 大模型訓(xùn)練中,相比H100,MI300X在 BF16性能基準(zhǔn)中提高3.4 倍,INT8精度性能提高6.8倍,1.3倍的FP8和FP16 TFLOPS,從而進(jìn)一步提升了訓(xùn)練性能。
蘇姿豐表示,新款MI300X芯片在訓(xùn)練人工智能軟件的能力方面與H100相當(dāng),在推理方面,也即軟件投入實(shí)際使用后運(yùn)行該軟件的過(guò)程,要比H100好得多。
針對(duì) AI,AMD共有三大優(yōu)勢(shì),一是具備完整IP與廣泛的運(yùn)算引擎產(chǎn)品組合,可支援從云端、邊緣至終端,要求最嚴(yán)苛的工作負(fù)載;二是該公司正擴(kuò)展開(kāi)源軟件能力,以降低進(jìn)入與使用AI 完整潛力的門(mén)檻;第三是AMD正在深化AI合作伙伴的產(chǎn)業(yè)體系,讓云端服務(wù)供應(yīng)商(CSP)、OEM與獨(dú)立軟體開(kāi)發(fā)廠(chǎng)商(ISV)能享有其先驅(qū)性的創(chuàng)新技術(shù)。
目前,AMD、英偉達(dá)、英特爾三家在全力推進(jìn) AI 熱潮。其中,英偉達(dá)已公布2024年Hopper H200 GPU和Blackwell B100 GPU產(chǎn)品信息,英特爾則將在2024年推出Guadi 3和Falcon Shores GPU,預(yù)計(jì)未來(lái)幾年三家公司將持續(xù)進(jìn)行競(jìng)爭(zhēng)。
實(shí)力超越英偉達(dá)H100
實(shí)際應(yīng)用性能表現(xiàn)方面,看看AMD官方提供的一些數(shù)據(jù),對(duì)比對(duì)象都是H100。
通用大語(yǔ)言模型,無(wú)論是中等還是大型內(nèi)核,都可以領(lǐng)先10-20%。推理性能,都是八路并聯(lián)的整套服務(wù)器,1760億參數(shù)模型Bloom的算力可領(lǐng)先多達(dá)60%,700億參數(shù)模型Llama 2的延遲可領(lǐng)先40%。訓(xùn)練性能,同樣是八路服務(wù)器,300億參數(shù)MPT模型的算力不相上下。
總的來(lái)說(shuō),無(wú)論是AI推理還是AI訓(xùn)練,MI300X平臺(tái)都有著比H100平臺(tái)更好的性能,很多情況下可以輕松翻倍。
產(chǎn)品強(qiáng)大也離不開(kāi)合作伙伴的支持,MI300X已經(jīng)贏得了多家OEM廠(chǎng)商和解決方案廠(chǎng)商的支持,包括大家耳熟能詳?shù)幕叟c(HPE)、戴爾、聯(lián)想、超微、技嘉、鴻佰(鴻海旗下/富士康同門(mén))、英業(yè)達(dá)、廣達(dá)、緯創(chuàng)、緯穎。
其中,戴爾的PowerEdge XE9680服務(wù)器擁有八塊MI300X,聯(lián)想的產(chǎn)品2024年上半年登場(chǎng),超微的H13加速器采用第四代EPYC處理器、MI300X加速器的組合。
在基礎(chǔ)架構(gòu)中引入MI300X的合作伙伴也相當(dāng)不少,包括:Aligned、Arkon Engergy、Cirrascale、Crusoe、Denvr Dataworks、TensorWare,等等。
客戶(hù)方案方面,比如微軟的Azure ND MI300X v5系列虛擬機(jī),比如甲骨文云的bare metal(裸金屬) AI實(shí)例,比如Meta(Facebook)數(shù)據(jù)中心引入以及對(duì)于ROCm 6 Llama 2大模型優(yōu)化的高度認(rèn)可,等等。
如果說(shuō)MI300X是傳統(tǒng)GPU加速器的一次進(jìn)化,MI300A就是一場(chǎng)革命了,CPU、GPU真正融合的方案目前只有AMD可以做到。相比之下,NVIDIA Grace Hopper雖然也是CPU、GPU合體,但彼此是獨(dú)立芯片,需要通過(guò)外部連接,放在一塊PCB板上,層級(jí)上還差了一個(gè)檔位。
Intel規(guī)劃的融合方案Falcon Shores因?yàn)楦鞣矫嬖蛞呀?jīng)暫時(shí)取消,短期內(nèi)還是純GPU,未來(lái)再?zèng)_擊融合。
MI300A是全球首款面向AI、HPC的APU加速器,同時(shí)將Zen3 CPU、CDNA3 GPU整合在了一顆芯片之內(nèi),統(tǒng)一使用HBM3內(nèi)存,彼此全部使用Infinity Fabric高速總線(xiàn)互聯(lián),從而大大簡(jiǎn)化了整體結(jié)構(gòu)和編程應(yīng)用。
這種統(tǒng)一架構(gòu)有著多方面的突出優(yōu)勢(shì):
一是統(tǒng)一內(nèi)存,CPU、GPU彼此共享,無(wú)需重復(fù)拷貝傳輸數(shù)據(jù),無(wú)需分開(kāi)存儲(chǔ)、處理。
二是共享無(wú)限緩存,數(shù)據(jù)傳輸更加簡(jiǎn)單、高效。
三是動(dòng)態(tài)功耗均衡,無(wú)論算力上側(cè)重CPU還是GPU,都可以即時(shí)調(diào)整,更有針對(duì)性,能效也更高。
四是簡(jiǎn)化編程,可以將CPU、GPU納入統(tǒng)一編程體系,進(jìn)行協(xié)同加速,無(wú)需單獨(dú)進(jìn)行編程調(diào)用。
對(duì)比H100,MI300A只需550W功耗就能在OpenFOAM高性能計(jì)算測(cè)試中取得多達(dá)4倍的優(yōu)勢(shì),不同實(shí)際應(yīng)用中可領(lǐng)先10-20%。對(duì)比最新的GH200,MI300A 760W峰值功耗下的能效優(yōu)勢(shì),更可以達(dá)到2倍。
MI300A已經(jīng)在美國(guó)勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的新一代超級(jí)計(jì)算機(jī)El Capitan中安裝。它的設(shè)計(jì)目標(biāo)是成為全球第一套200億億次超算,這也是第二套基于AMD平臺(tái)的百億億次級(jí)超算。
低功耗AI將是新追求
目前,人工智能芯片已經(jīng)在云端和智能設(shè)備終端普及,例如在云端以Nvidia和AMD為代表的GPU和以Intel/Habana為代表的人工智能加速芯片;而在終端智能設(shè)備則主要是在SoC上的人工智能加速I(mǎi)P,但是無(wú)論是GPU和SoC上的人工智能加速I(mǎi)P,都沒(méi)有考慮到低功耗的需求,因此在未來(lái)的物聯(lián)網(wǎng)和智能設(shè)備中的人工智能都需要有新的低功耗相關(guān)的設(shè)計(jì)。
在智能設(shè)備和物聯(lián)網(wǎng)應(yīng)用中的低功耗人工智能需要把功耗降到非常低,從而能實(shí)現(xiàn)實(shí)時(shí)在線(xiàn)(always-on)的人工智能服務(wù)。這里所謂的always-on,指的就是人工智能需要永遠(yuǎn)可用,而不需要用戶(hù)主動(dòng)打開(kāi)后才工作。這一方面需要相關(guān)的傳感器要一直打開(kāi)從而實(shí)時(shí)檢測(cè)相關(guān)模態(tài)的信號(hào),另一方面也需要人工智能能做到低功耗。
傳統(tǒng)設(shè)計(jì)中,傳感器的功能就是負(fù)責(zé)高性能信號(hào)采集,并且把采集到的信號(hào)傳輸?shù)教幚砥鳎⊿oC或者M(jìn)CU)上去做進(jìn)一步計(jì)算和處理,而傳感器本身并沒(méi)有計(jì)算能力。然而,傳統(tǒng)設(shè)計(jì)的假設(shè)是傳感器在打開(kāi)時(shí)相關(guān)的處理器就要同時(shí)打開(kāi),而這并不能滿(mǎn)足always-on AI的需求,因?yàn)镾oC和MCU如果一直在運(yùn)行AI算法的話(huà)對(duì)于電池的消耗很大。另一方面,從實(shí)際角度來(lái)看,這類(lèi)always-on人工智能應(yīng)用主要是希望人工智能一直運(yùn)行從而一旦重要的相關(guān)事件發(fā)生時(shí)可以實(shí)時(shí)響應(yīng)(例如IMU檢測(cè)到用戶(hù)在開(kāi)車(chē)則把智能設(shè)備的推送通知關(guān)掉等),但是事實(shí)上這類(lèi)相關(guān)事件的發(fā)生頻率并不會(huì)很高,如果一直把SoC或者M(jìn)CU的人工智能模塊打開(kāi),絕大多數(shù)時(shí)候AI模型的輸出都是“未檢測(cè)到事件”。
結(jié)合這兩點(diǎn),運(yùn)行在傳感器端的計(jì)算就在變得越來(lái)越得到重視。首先,在always-on的低功耗人工智能中,無(wú)論如何傳感器是需要一直打開(kāi)的,因此如果傳感器能有人工智能計(jì)算能力,那么可以讓人工智能模型運(yùn)行在傳感器端,而無(wú)需一直打開(kāi)SoC或者M(jìn)CU上面的人工智能模塊。另外,在傳感器端運(yùn)行人工智能也可以避免傳感器和SoC/MCU之間一直傳輸數(shù)據(jù),從而進(jìn)一步降低功耗。最后,在傳感器端的人工智能模塊可以做到為傳感器量身定制而無(wú)需考慮通用性,因此可以為最適合傳感器的人工智能算法做定制化優(yōu)化,從而實(shí)現(xiàn)非常高的能效比。
當(dāng)然,傳感器端的人工智能也有其自己的局限。一方面從性能和成本上來(lái)說(shuō),通常傳感器端的計(jì)算和存儲(chǔ)空間都較小,人工智能模塊無(wú)法做到支持大模型,因此模型的性能會(huì)比較有限。另一方面,如前所述傳感器端的人工智能也很難做到支持通用模型,而往往只會(huì)支持一些特定的算子和模型結(jié)構(gòu)。
綜上所述,傳感器端的人工智能可以做到低功耗,但是其模型性能也較為有限;但是另一方面低功耗人工智能場(chǎng)景中,真正需要處理的相關(guān)事件的發(fā)生頻率也并不高。結(jié)合這兩點(diǎn),傳感器端人工智能最適合運(yùn)行一些較為專(zhuān)用的小模型,用于過(guò)濾掉絕大多數(shù)的無(wú)關(guān)事件;而在傳感器端人工智能檢測(cè)到相關(guān)事件后,傳感器可以喚醒SoC或MCU上的人工智能進(jìn)行下一步的確認(rèn),從而同時(shí)滿(mǎn)足低功耗和always-on的需求。
在圖像傳感器領(lǐng)域,Sony已經(jīng)推出了IMX500系列傳感器,其中把傳感器芯片和集成了人工智能計(jì)算能力的邏輯芯片做了堆疊,從而可以把像素信號(hào)傳輸給邏輯芯片上的人工智能計(jì)算引擎,從而傳感器的輸出可以是圖像,可以是人工智能模型的輸出,或者是兩者的結(jié)合。這樣一來(lái),就可以讓傳感器運(yùn)行在低功耗always-on狀態(tài),而僅僅當(dāng)其模型輸出符合某些特定條件(例如檢測(cè)到人臉)時(shí)才去喚醒MCU或者SoC做下一步動(dòng)作。我們預(yù)計(jì),Sony將會(huì)在接下來(lái)的傳感器芯片中進(jìn)一步加強(qiáng)其人工智能能力,從而增強(qiáng)在這個(gè)領(lǐng)域的領(lǐng)先地位。
傳感器和人工智能結(jié)合的另一個(gè)例子是ST推出的IMU系列產(chǎn)品。ST在擁有相關(guān)人工智能特性的IMU中集成了機(jī)器學(xué)習(xí)核(Machine Learning Core)和有限狀態(tài)機(jī)(Finite State Machine),從而可以用非常高效的方式支持IMU上直接進(jìn)行人工智能計(jì)算。ST目前支持的人工智能算法主要是決策樹(shù)算法,并且可以支持IMU信號(hào)的一些重要特征提?。ɡ缧盘?hào)幅度,信號(hào)方差等),從而能在IMU上直接實(shí)現(xiàn)用戶(hù)活動(dòng)分類(lèi)(例如靜止,行走,騎車(chē),駕駛汽車(chē)等等分類(lèi)),這樣能在檢測(cè)到相關(guān)事件時(shí)喚醒MCU/SoC進(jìn)行下一步操作。根據(jù)ST公布的資料,MLC的功耗僅僅在微瓦數(shù)量級(jí),從而能很好地支持always-on需求。當(dāng)然,另一方面我們也看到?jīng)Q策樹(shù)算法事實(shí)上的能力有限,難以對(duì)于復(fù)雜的活動(dòng)進(jìn)行建模,因此如同我們之前討論的,這里的IMU傳感器內(nèi)人工智能適合完成事件的初篩來(lái)過(guò)濾掉無(wú)關(guān)事件,而更復(fù)雜的分類(lèi)和確認(rèn)可以通過(guò)運(yùn)行在MCU或者SoC上的模型來(lái)完成。
