信息爆炸時(shí)代,CPU已經(jīng)不夠用了,更多“PU”正在路上
隨著技術(shù)的發(fā)展,數(shù)據(jù)量的爆炸性增長(zhǎng),到2025年,全球生成和消耗的數(shù)據(jù)總量預(yù)計(jì)將超過180ZB。而計(jì)算機(jī)的核心部件——中央處理器(CPU)分析數(shù)據(jù)的能力卻有點(diǎn)力不從心,導(dǎo)致數(shù)據(jù)處理緩慢且低效。傳統(tǒng)的CPU為了滿足多任務(wù)處理、高效能和節(jié)能要求,變得越來越復(fù)雜。在這個(gè)高速發(fā)展的時(shí)代,我們不能再依賴單一的CPU來完成所有的工作。為此,各種特定的處理單元(PU)如雨后春筍般涌現(xiàn),其目標(biāo)就是“瓜分”CPU的任務(wù),人多力量大,各司其職,優(yōu)化計(jì)算效率。
GPU成就英偉達(dá)霸主之路
GPU成為AI計(jì)算的標(biāo)配,其中最大的贏家非英偉達(dá)莫屬,在AI計(jì)算領(lǐng)域英偉達(dá)的GPU幾乎占到市場(chǎng)的絕大部分,英特爾和AMD等芯片巨頭也幾乎都錯(cuò)過了這一波AI浪潮的紅利。
2006年英偉達(dá)推出CUDA,帶來了靈活便捷的GPU編程手段,這為使用GPU完成AI計(jì)算創(chuàng)造了良好的條件。2014年英偉達(dá)發(fā)布cuDNN V1.0深度神經(jīng)網(wǎng)絡(luò)加速庫(kù),并集成進(jìn)了Caffe等AI框架中,進(jìn)一步為基于英偉達(dá)GPU的AI計(jì)算提升性能和易用性等,使得AI開發(fā)和研究人員可以更加專注于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)等。2016年英偉達(dá)推出的Pascal架構(gòu)GPU產(chǎn)品,已經(jīng)開始專門為AI計(jì)算場(chǎng)景,特別是推理計(jì)算場(chǎng)景,做了許多的定制和優(yōu)化,能更好的滿足AI計(jì)算的需求,此外推出NVlink單機(jī)多卡的互聯(lián)技術(shù),增加了GPU之間通信的帶寬,也加速了多卡并行計(jì)算的效率。2017年英偉達(dá)在Volta架構(gòu)系列GPU中引入TensorCore,使得英偉達(dá)GPU產(chǎn)品在AI計(jì)算的訓(xùn)練場(chǎng)景的性能繼續(xù)提升。2020年英偉達(dá)又推出新一代Ampere架構(gòu)的GPU產(chǎn)品,在算力和性能等又大幅提升。
目前在AI計(jì)算場(chǎng)景下,英偉達(dá)GPU已經(jīng)成為最主流的選擇,從整個(gè)發(fā)展過程中可以看到英偉達(dá)在軟硬件方面的所做的努力也密不可分,并且從2014年開始英偉達(dá)在AI方面每一次布局都剛好恰到好處。CUDA的推出可能為2011年前后發(fā)現(xiàn)GPU在AI計(jì)算中10-60倍的加速效果創(chuàng)造有利條件;2014年推出的cuDNN,并集成進(jìn)Caffe等AI框架,在軟件層面進(jìn)一步增加了英偉達(dá)GPU的易用性等;2016年開始直接在芯片層面全面支持AI計(jì)算場(chǎng)景需求,后續(xù)的產(chǎn)品在算力和性能等方面的提升正好又迎合了AI技術(shù)和產(chǎn)業(yè)發(fā)展的大趨勢(shì)。
再看另外兩家芯片巨頭英特爾和AMD,這兩家都有非常強(qiáng)大的實(shí)力,按理說應(yīng)該也能在這一波AI浪潮取得巨大紅利,但事實(shí)上卻并沒有。當(dāng)然因?yàn)锳I的發(fā)展帶動(dòng)CPU采購(gòu)肯定也給英特爾和AMD帶來了不少收益。過去10年中,英特爾并沒有專門針對(duì)AI計(jì)算推出相應(yīng)的產(chǎn)品,不論學(xué)界還是業(yè)界有AI方面新的研究成果,英特爾可能都會(huì)跟進(jìn)在CPU上進(jìn)行一些優(yōu)化,聲稱在GPU上的性能只比在CPU上快2-3倍左右,并沒有像其他地方所說的幾十倍上百倍的效果。在AI計(jì)算效率等方面,英特爾在CPU上優(yōu)化后確實(shí)能夠縮小與GPU的差距,但這種優(yōu)化的思路在業(yè)界并沒有太多的跟隨者,主要是優(yōu)化工作本身的門檻相對(duì)較高。
AMD在過去十多年中CPU一直被英特爾壓著,無暇顧及GPU市場(chǎng)的更多需求,雖然AMD的GPU在游戲市場(chǎng)也不錯(cuò),但在AI計(jì)算方面始終沒有形成氣候。當(dāng)然2018年前后AMD新架構(gòu)的CPU產(chǎn)品面世之后,最近幾年大有反超英特爾的架勢(shì),不久前AMD推出的Instinct MI100的GPU產(chǎn)品不知道是否會(huì)在AI計(jì)算領(lǐng)域挑戰(zhàn)英偉達(dá)的地位,讓我們拭目以待。
AI成就GPU,但GPU還不是AI的完美答案?
實(shí)際上,GPU并不是為AI所生的,它只是解決AI算力需求的一種方案,有沒有更好的?答案是肯定的,只是還不知道究竟誰(shuí)是顛覆GPU的下一個(gè)芯片主角。
一位國(guó)產(chǎn)GPU廠商的GPU產(chǎn)品設(shè)計(jì)負(fù)責(zé)人告訴《中國(guó)經(jīng)濟(jì)周刊》 ,芯片是算力的基本構(gòu)成,核心的計(jì)算都運(yùn)行在芯片上。整個(gè)硬件的邏輯是芯片以板卡或者其他算力卡的形態(tài),部署在服務(wù)器中,服務(wù)器安置在機(jī)柜中,大量機(jī)柜組成數(shù)據(jù)中心。大模型的崛起,毫無疑問給芯片產(chǎn)業(yè)帶來了一個(gè)巨大的潛在市場(chǎng),也帶來了很多技術(shù)要求,特別是對(duì)于芯片的單卡算力性能、互連能力等關(guān)鍵性能指標(biāo)都提出更高的要求,因此需要市場(chǎng)開發(fā)更強(qiáng)的芯片產(chǎn)品。
這位負(fù)責(zé)人認(rèn)為,GPU成為主流是因?yàn)锳I發(fā)展的初期,能夠獲取的最適合的芯片架構(gòu)就是GPU,因此有先發(fā)優(yōu)勢(shì)。但GPU的核心痛點(diǎn)在于芯片制造技術(shù)追不上算力需求的增加,也就是常說的摩爾定律走到了盡頭。目前GPU芯片所用的最先進(jìn)制程是4nm~5nm制程,已經(jīng)非常逼近摩爾定律的物理極限了,未來幾乎無法再通過制程的升級(jí)來提升芯片性能。
此外,該負(fù)責(zé)人表示,傳統(tǒng)的GPU還保留了不少不需要的圖形運(yùn)算功能,使得整個(gè)芯片的計(jì)算效率并不是最高,這也是GPU的劣勢(shì)。其他主流的AI芯片解決方案,也都還不完美,比如針對(duì)AI運(yùn)算開發(fā)的專用芯片(ASIC)方案,雖然計(jì)算效率更高,但通用性較差。
“未來最有希望實(shí)現(xiàn)突破的還在于更新的封裝技術(shù) (比如3D封裝)、更新的材料等方式,嘗試突破摩爾定律?!痹撠?fù)責(zé)人說。
汪波從芯片架構(gòu)原理的角度,做了進(jìn)一步的解釋。他表示,受制于其架構(gòu)本身,用GPU解決AI算力并不完美,畢竟GPU最初并不是因AI而生的。此外,GPU的計(jì)算和存儲(chǔ)是分開的,需要在計(jì)算和存儲(chǔ)之間來來回回地調(diào)用數(shù)據(jù),這種搬運(yùn)數(shù)據(jù)消耗的能量是計(jì)算的10倍。而且GPU很多時(shí)候是在等待數(shù)據(jù)過來再進(jìn)行計(jì)算,因此,GPU的計(jì)算效率并不高,而且功耗非常大,GPU的強(qiáng)大算力是要付出巨大成本的。
“在芯片設(shè)計(jì)中,一直在尋求PPA折中,即性能(Performance)、功耗(Power) 和面積 (Area)的平衡點(diǎn),因?yàn)槿卟荒芡瑫r(shí)達(dá)到最優(yōu)。性能和功耗一直是一對(duì)矛盾,而面積越大,芯片成本越高?!蓖舨ㄕf。
汪波還表示,實(shí)際上,學(xué)術(shù)界和科技公司的研究者們都在研究更適配人工智能的芯片,采用新的原理和新的材料。比如做存算一體的芯片,在存儲(chǔ)器內(nèi)部去完成計(jì)算,不用再搬運(yùn)數(shù)據(jù),這樣就能實(shí)現(xiàn)功耗更低但算力更大?!澳壳?,雖然還在探索階段,但好消息是在這個(gè)領(lǐng)域,中國(guó)和世界同步的?!彼f。
還有一個(gè)思路就是改變芯片的馮諾依曼式架構(gòu),模擬人腦數(shù)據(jù)處理方式的神經(jīng)形態(tài)芯片?!吧窠?jīng)形態(tài)芯片已經(jīng)發(fā)展了幾十年,雖然目前算力還沒有辦法跟GPU去PK,但如果其算力能達(dá)到GPU的一半,就可能憑借能耗和成本優(yōu)勢(shì)異軍突起。”汪波說。
彭虎也分析稱,GPU具有強(qiáng)大的并行計(jì)算能力和高效的浮點(diǎn)運(yùn)算能力,且屬于通用芯片,能夠較好地滿足各類AI算法要求,但也存在較高功耗和較低算力利用率的短板。除了GPU,AI芯片還包括FPGA和各類ASIC方案。FPGA屬于具備可編程硬件結(jié)構(gòu)的集成電路,其可編程性和靈活性可快速適應(yīng)不同AI算法要求,但也存在高功耗的問題。ASIC屬于專用芯片,通過算法固化實(shí)現(xiàn)更高的算法利用率和能耗比,但開發(fā)周期較長(zhǎng)、靈活性較弱。
“我們認(rèn)為,目前GPU仍是較好滿足AI大模型、支持多模態(tài)的成熟的一站式解決方案,ASIC以其高性價(jià)比、高能耗比等優(yōu)勢(shì)將在未來AI市場(chǎng)中占據(jù)一席之地?!迸砘⒄f。
實(shí)際上,能耗問題已經(jīng)是算力發(fā)展乃至AI發(fā)展的重要瓶頸。北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華告訴《中國(guó)經(jīng)濟(jì)周刊》 記者,一個(gè)百億級(jí)別大模型僅僅訓(xùn)練消耗的電費(fèi)每天都要在10萬(wàn)元以上。
“超過千億級(jí)別的大模型,訓(xùn)練需要1000~2000張A100的卡,硬件成本約5000萬(wàn)美金,還需要投入人力、電力、網(wǎng)絡(luò)支出等,一年至少5000萬(wàn)美金到1億美金成本?!崩鋈f(wàn)維CEO方漢曾表示。
一家國(guó)內(nèi)頭部AI算力供應(yīng)商的負(fù)責(zé)人告訴 《中國(guó)經(jīng)濟(jì)周刊》 記者,一個(gè)傳統(tǒng)數(shù)據(jù)中心,電費(fèi)要占運(yùn)維總成本60%~70%。而每耗費(fèi)一度電,卻只有一半用在了正事 (計(jì)算)上,其他則浪費(fèi)在散熱上。因此,新型數(shù)據(jù)中心一般會(huì)采用液冷技術(shù),這樣可以比采用風(fēng)冷節(jié)省30%以上的電費(fèi)。
全球大型互聯(lián)網(wǎng)公司都在想盡各種辦法解決散熱難題,為了降低能耗,他們把數(shù)據(jù)中心埋在山里(騰訊)、泡在湖里 (阿里)、扔進(jìn)大海(微軟)、拉到北極(Meta)……
為數(shù)據(jù)處理而生的DPU
有了專門處理圖形的GPU之后,還不夠。在數(shù)字化時(shí)代,需要有針對(duì)數(shù)據(jù)處理而生的處理器,于是數(shù)據(jù)處理單元(DPU)應(yīng)運(yùn)而生,DPU也被稱為是數(shù)據(jù)中心的第三大計(jì)算支柱。DPU 與 CPU 和 GPU 配合使用,可增強(qiáng)計(jì)算能力并處理日益復(fù)雜的現(xiàn)代數(shù)據(jù)工作負(fù)載。
DPU是專門設(shè)計(jì)用來處理大量的數(shù)據(jù)和信息。它可以有效地處理和分析數(shù)據(jù),提高數(shù)據(jù)中心和云計(jì)算平臺(tái)的性能。根據(jù)英偉達(dá)的說法,DPU應(yīng)該能完成以下三大項(xiàng)任務(wù):
卸載:從服務(wù)器CPU接管基礎(chǔ)設(shè)施任務(wù),以便更多的CPU能力可用于運(yùn)行應(yīng)用程序。
加速:使用DPU芯片中的硬件加速,比CPU更快地運(yùn)行基礎(chǔ)設(shè)施功能。
隔離:將關(guān)鍵數(shù)據(jù)平面和控制平面功能移至DPU上的單獨(dú)域,既可以減輕服務(wù)器CPU 的工作,又可以在CPU或其軟件受到損害時(shí)保護(hù)功能。
迄今為止,許多 DPU 開發(fā)都是針對(duì)超大規(guī)模的。展望未來,DPU 在數(shù)據(jù)中心和企業(yè)網(wǎng)絡(luò)其他地方的使用預(yù)計(jì)將會(huì)增長(zhǎng)。一種可能實(shí)現(xiàn)的方式是將 DPU 技術(shù)與網(wǎng)絡(luò)交換機(jī)相融合——AMD Pensando 將這種技術(shù)組合稱為“智能交換機(jī)”?!拔覀冋J(rèn)為智能交換機(jī)是企業(yè)吸收 DPU 技術(shù)的最簡(jiǎn)單方法,因?yàn)樗梢宰屗麄兲蕴f設(shè)備,并為他們的網(wǎng)絡(luò)帶來重要的技術(shù)和規(guī)模,” AMD Pensando 網(wǎng)絡(luò)技術(shù)和解決方案小組首席商務(wù)官 Soni Jiangdani 表示。
由于人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、物聯(lián)網(wǎng)、5G 和復(fù)雜云架構(gòu)需求的增長(zhǎng),DPU市場(chǎng)穩(wěn)步增長(zhǎng)。隨著對(duì)數(shù)據(jù)密集型應(yīng)用程序的需求不斷增加,計(jì)算架構(gòu)將不斷發(fā)展,從而需要更快、更高效、更安全的數(shù)據(jù)處理。DPU市場(chǎng)市場(chǎng)上涌現(xiàn)了不少芯片玩家,主要供應(yīng)商包括國(guó)外的英偉達(dá)、Marvell、Fungible(被微軟收購(gòu))、Broadcom、Intel、Resnics和AMD Pensando,國(guó)內(nèi)還有中科馭數(shù)、芯啟源云豹智能、云脈芯連等等。
根據(jù)Allied Market Research 的一份報(bào)告,預(yù)計(jì)到 2031 年,全球數(shù)據(jù)處理單元市場(chǎng)將達(dá)到 55 億美元,2022 年至 2031 年的復(fù)合年增長(zhǎng)率為 26.9%。因此,DPU 可能會(huì)從今天的可選組件轉(zhuǎn)變?yōu)橄乱淮?jì)算的必要行業(yè)標(biāo)準(zhǔn)。
爆炸性增長(zhǎng)的視頻,需要VPU
隨著視頻內(nèi)容的普及和人工智能技術(shù)的飛速發(fā)展,視頻處理單元(VPU,Video Processing Unit)成為了當(dāng)前科技領(lǐng)域的一顆新星。多年來,英特爾的CPU+軟件的視頻解碼/編碼方案一直主導(dǎo)著流媒體市場(chǎng),但是隨著視頻流媒體對(duì)高質(zhì)量視頻的需求不斷增長(zhǎng),CPU將不再具有經(jīng)濟(jì)價(jià)值,而且會(huì)消耗太多的能耗和空間。于是,VPU這種專門用來處理視頻的芯片開始興起,他們旨在釋放CPU的龐大勞動(dòng)力。
VPU(視頻處理單元)是專門設(shè)計(jì)用來處理視頻任務(wù)的,它可以高效地處理視頻編碼和解碼、圖像處理和機(jī)器視覺等任務(wù)。通過將這些任務(wù)從CPU或GPU上卸載,VPU可以提高系統(tǒng)的總體效率和性能,同時(shí)也減輕了CPU或GPU的負(fù)擔(dān),使它們可以專注于其他任務(wù)。而且這樣的VPU通常還具有高性能、低功耗和低延時(shí)等多個(gè)優(yōu)勢(shì),據(jù)SemiAnalysis對(duì)VPU芯片廠商镕銘微電子(NETINT)的分析,相比于CPU和GPU,VPU的密度和功耗是CPU和GPU無法比擬的,VPU的出現(xiàn)可以說是為視頻行業(yè)應(yīng)用帶來了前所未有的加速計(jì)算能力。
當(dāng)下4K、8K等高清視頻技術(shù)的廣泛應(yīng)用,使得視頻處理的計(jì)算負(fù)擔(dān)持續(xù)上升,這使得高效能的VPU成為行業(yè)發(fā)展的必備工具。目前包括谷歌、Meta、字節(jié)跳動(dòng)和騰訊等互聯(lián)網(wǎng)巨頭均已經(jīng)瞄上這顆芯片。與此同時(shí),AMD在今年4月,發(fā)布了一款用于數(shù)據(jù)中心的新型專用媒體加速器和視頻編碼卡——Alveo MA35D,英特爾則是將VPU集成到其14代酷睿Meteor lake處理器中。除了云和數(shù)據(jù)中心之外,終端也已成為視頻及游戲的主要載體,手機(jī)廠商愈發(fā)追求視頻或影像質(zhì)量。對(duì)此,vivo/小米以視頻芯片為自研切入點(diǎn),如Pixelworks/逐點(diǎn)半導(dǎo)體這樣的第三方視頻芯片供應(yīng)商也開始迎來發(fā)展契機(jī)。
未來,視頻處理芯片市場(chǎng)預(yù)計(jì)將繼續(xù)增長(zhǎng),特別是在邊緣計(jì)算、物聯(lián)網(wǎng) (IoT) 和5G通信領(lǐng)域。高效和低功耗的視頻處理芯片將成為這些應(yīng)用領(lǐng)域的關(guān)鍵組件。
更多新的“PU”正在路上
一家成立于2018年的以色列的初創(chuàng)芯片企業(yè)NeuroBlade,開發(fā)了一種專用處理器架構(gòu),他們將之稱為是SPU(SQL處理單元)。該公司的目標(biāo)是成為“數(shù)據(jù)分析領(lǐng)域的 Nvidia”。SPU主要是用來加速SQL指令處理,該公司CEO表示,通過使用專門設(shè)計(jì)的處理器加速SQL處理,可以實(shí)現(xiàn)端到端SQL分析加速。在部署方面,該芯片通過主機(jī)服務(wù)器的PCIe總線插入,能夠透明地接管SQL相關(guān)處理,而無需修改主機(jī)應(yīng)用程序軟件。
SPU支持常見的列式文件格式。當(dāng)一個(gè)查詢請(qǐng)求從查詢引擎發(fā)送時(shí)(也就是從數(shù)據(jù)庫(kù)管理系統(tǒng)中發(fā)出查詢請(qǐng)求),SPU可以直接訪問和處理存儲(chǔ)在本地存儲(chǔ)設(shè)備上的數(shù)據(jù)文件。在處理完數(shù)據(jù)文件后,SPU會(huì)將處理結(jié)果以原生查詢引擎布局的形式發(fā)送回查詢引擎。
NeuroBlade公司正在與多個(gè)大型超大規(guī)模提供商進(jìn)行談判,并已與一家公司贏得了數(shù)千張SPU卡的合同。如NeuroBlade還與戴爾公司合作,在PowerEdge服務(wù)器中分銷SPU卡產(chǎn)品。據(jù)他們稱,超大規(guī)模企業(yè)使用這一SQL處理單元 (SPU) 來卸載運(yùn)行分析工作負(fù)載的x86 CPU,可以獲得100倍或更多的工作加速,每年可以節(jié)省數(shù)百萬(wàn)美元。在NeuroBlade的客戶中,還有存儲(chǔ)類客戶,鎧俠已經(jīng)在其CM7系列企業(yè)NVMe SSD中成功配置了其 NeuroBlade硬件增強(qiáng)型查詢系統(tǒng) (HEQS),據(jù)他們稱,可以使客戶能夠充分發(fā)揮高性能 SSD 吞吐量的潛力,從而將查詢性能提高高達(dá)100倍。
