為對(duì)抗英偉達(dá),英特爾拿出全新技術(shù),AI算力不再一家獨(dú)大
關(guān)鍵詞: 人工智能 英特爾 英偉達(dá) 芯片
AI,人工智能,這個(gè)東西其實(shí)一旦都不新鮮。
從早些年的科幻作品,到后來(lái)的逐步落地,從1997年IBM超級(jí)電腦“深藍(lán)”擊敗國(guó)際象棋大師卡斯帕羅夫,到2016年Google AlphaGo戰(zhàn)勝圍棋冠軍李世石,AI一直都在進(jìn)步,也一直在演化。
但因?yàn)樗懔λ惴?、技術(shù)能力、應(yīng)用場(chǎng)景等方面的種種限制,AI一直有些空中樓閣的感覺。
直到出現(xiàn)了ChatGPT,AI才真正引燃了普通人的熱情,讓我們發(fā)現(xiàn),AI竟然如此強(qiáng)大,又如此唾手可得,讓眾多個(gè)體、企業(yè)為之興奮,為之癲狂。
Intel祭出全新“殺器”
AI無(wú)論實(shí)現(xiàn)方式還是應(yīng)用場(chǎng)景都是多種多樣的,既有云側(cè)的,也有端側(cè)的。
NVIDIA的重點(diǎn)在云側(cè)和生成式AI,Intel在云側(cè)生成式、端側(cè)判定式同時(shí)出擊,而隨著越來(lái)越多的AI跑在端側(cè),更貼近普通用戶日常體驗(yàn),所帶來(lái)的提升越來(lái)越明顯,Intel更是大有可為。
端側(cè)AI,說(shuō)起來(lái)大家可能會(huì)感覺很陌生,但其實(shí),人們習(xí)以為常的背景模糊、視覺美顏、聲音美化(音頻降噪)、視頻降噪、圖像分割等等,都是端側(cè)AI的典型應(yīng)用場(chǎng)景,背后都是AI在努力。
這些應(yīng)用要想獲得更好的效果,就需要更完善、復(fù)雜的網(wǎng)絡(luò)模型,對(duì)于算力的需求自然也在快速增長(zhǎng)。比如噪音抑制,算力需求已經(jīng)是兩年前的50倍,背景分割也增長(zhǎng)了10倍以上。更不要說(shuō)生成式AI模型出現(xiàn)后,對(duì)算力的渴求更是飛躍式的,直接就是數(shù)量級(jí)的提升,無(wú)論是Stable Diffusion,還是語(yǔ)言類GTP,模型參數(shù)都是非??鋸埖摹?/span>
比如GPT3的參數(shù)量達(dá)到了1750億左右,相比GPT2增加了幾乎500倍,GPT4估計(jì)可達(dá)到萬(wàn)億級(jí)別。
這些都對(duì)硬件、算法提出了更苛刻的要求。
Intel自然也早就開始關(guān)注并投入AI,無(wú)論是服務(wù)器級(jí)的至強(qiáng),還是消費(fèi)級(jí)的酷睿,都在以各種方式參與AI,“XX代智能酷睿處理器”的說(shuō)法就在很大程度上源于AI。在Intel看來(lái),沒(méi)有單一的硬件架構(gòu)適用于所有的AI場(chǎng)景,不同硬件各有特點(diǎn),有的算力強(qiáng)大,有的延遲超低,有的全能,有的專攻。
AI作為基礎(chǔ)設(shè)施也有各種各樣的場(chǎng)景應(yīng)用和需求,負(fù)載、延遲都各不相同,比如實(shí)時(shí)語(yǔ)音和圖像處理不需要太強(qiáng)的算力,但是對(duì)延遲很敏感。這時(shí)候,Intel XPU戰(zhàn)略就有著相當(dāng)針對(duì)性的特殊優(yōu)勢(shì),其中CPU適合對(duì)延遲敏感的輕量級(jí)AI處理,GPU適合重負(fù)載、高并行的AI應(yīng)用。Intel另一個(gè)無(wú)可比擬的優(yōu)勢(shì)就是穩(wěn)固、龐大的x86生態(tài),無(wú)論應(yīng)用還是開發(fā),都有著廣泛的群眾基礎(chǔ)。
現(xiàn)在,Intel又有了VPU。
將在今年晚些時(shí)候發(fā)布的Meteor Lake,會(huì)首次集成獨(dú)立的VPU單元,而且是所有型號(hào)標(biāo)配,可以更高效地執(zhí)行特定AI運(yùn)算。
Intel VPU單元的技術(shù)源頭來(lái)自Intel 2017年收購(gòu)的AI初創(chuàng)企業(yè)Movidius,其設(shè)計(jì)的VPU架構(gòu)是革命性的,只需要1.5W功耗就能實(shí)現(xiàn)4TOPS的強(qiáng)大算力,能效比簡(jiǎn)直逆天,最早用于無(wú)人機(jī)避障等,如今又走入了處理器之中,與CPU、GPU協(xié)同發(fā)力。
VPU本質(zhì)上是專為AI設(shè)計(jì)的一套新架構(gòu),可以高效地執(zhí)行一些矩陣運(yùn)算,尤為擅長(zhǎng)稀疏化處理,其超低的功耗、超高的能效非常適合一些需要長(zhǎng)期打開并執(zhí)行的場(chǎng)景,比如視頻會(huì)議的背景虛化、移除,比如流媒體的手勢(shì)控制。
之所以在已經(jīng)有了CPU、GPU的情況下,還要做一個(gè)VPU,Intel的出發(fā)點(diǎn)是如今很多端側(cè)應(yīng)用是在筆記本上進(jìn)行,對(duì)于電池續(xù)航非常敏感,高能效的VPU用在移動(dòng)端就恰如其分。
另一個(gè)因素是CPU、GPU作為通用計(jì)算平臺(tái),本身就任務(wù)繁重,再給它們?cè)黾哟罅緼I負(fù)載,執(zhí)行效率就會(huì)大打折扣。
具體到應(yīng)用場(chǎng)景,VPU也是非常廣泛的,比如說(shuō)視頻會(huì)議,現(xiàn)在的CPU AI已經(jīng)可以實(shí)現(xiàn)自動(dòng)構(gòu)圖(Auto-Framing)、眼球跟蹤、虛擬頭像/人像、姿勢(shì)識(shí)別等等。加入低功耗、高算力的VPU之后,還可以強(qiáng)化背景模糊、動(dòng)態(tài)降噪等處理,讓效果更加精準(zhǔn),比如說(shuō)背景中的物體該模糊的一律模糊、人手/頭發(fā)等不該模糊的不再模糊。有了高效的硬件、合適的場(chǎng)景,還需要同樣高效的軟件,才能釋放全部實(shí)力、實(shí)現(xiàn)最佳效果,這對(duì)于擁有上萬(wàn)名軟件研發(fā)人員的Intel來(lái)說(shuō),真不是事兒。
Meteor Lake還沒(méi)有正式發(fā)布,Intel已經(jīng)與眾多生態(tài)伙伴在VPU方面展開了合作適配,獨(dú)立軟件開發(fā)商們也非常積極。
英偉達(dá)超級(jí)芯片已經(jīng)量產(chǎn)
在最近的Computex展會(huì)上,NVIDIA的創(chuàng)始人兼首席執(zhí)行官黃仁勛正式宣布旗下首款超級(jí)芯片GH200 Grace Hopper已經(jīng)開始全面量產(chǎn)。這款超級(jí)芯片集成了NVIDIA首款Grace CPU和Hopper GPU,標(biāo)志著NVIDIA兌現(xiàn)了此前的豪言壯志。
GH200 Grace Hopper的推出是為了滿足當(dāng)下快速增長(zhǎng)的AI生成需求。Grace CPU采用了AMR架構(gòu),擁有72個(gè)ARMv9內(nèi)核和117MB L3緩存。它還配備了512GB的LPDDR5X內(nèi)存,內(nèi)存帶寬高達(dá)546GB/s。而Hopper GPU則搭載了144個(gè)SM單元和96GB HBM3顯存,總計(jì)擁有18432個(gè)CUDA核心,L2緩存為60MB。這兩個(gè)組件通過(guò)專屬的NVLink交換系統(tǒng)相互結(jié)合,形成了Grace Hopper超級(jí)芯片。
令人驚嘆的是,GH200 Grace Hopper的計(jì)算能力達(dá)到了一百萬(wàn)萬(wàn)億次,相當(dāng)于4090的12195倍。這使得它與當(dāng)前最先進(jìn)的超級(jí)計(jì)算機(jī)媲美,甚至超越了它們。然而,NVIDIA并沒(méi)有止步于此。
黃仁勛隨即公布了名為DGX GH200的AI超級(jí)計(jì)算機(jī),它由256顆Grace Hopper超級(jí)芯片構(gòu)成。這款超級(jí)計(jì)算機(jī)不僅大幅提升了帶寬,達(dá)到了前一代產(chǎn)品的48倍以上,而且還引人矚目地提供了共享內(nèi)存容量高達(dá)144TB。據(jù)NVIDIA稱,DGX GH200的計(jì)算能力將超過(guò)1EB,這個(gè)計(jì)算能力超過(guò)了當(dāng)前全球排名第一的超級(jí)計(jì)算機(jī)Frontier,后者的計(jì)算能力只略高于1EB。
量子計(jì)算是個(gè)好解法,但為時(shí)尚早
大模型算力之爭(zhēng),短期看GPU自研,中期看存算、Chiplet,那么被投資人視為新計(jì)算方向的量子計(jì)算在其中又能扮演什么角色?
事實(shí)上,VC對(duì)量子計(jì)算的關(guān)注不只限于此次ChatGPT的熱潮,AR/VR、5G等新應(yīng)用場(chǎng)景的不斷涌現(xiàn),以及各類型的應(yīng)用場(chǎng)景爆發(fā)式增長(zhǎng),讓市場(chǎng)對(duì)算力的需求水漲船高,產(chǎn)業(yè)亟待挖掘具有顛覆性的計(jì)算形式。
量子計(jì)算作為一種新型架構(gòu)的計(jì)算,可以實(shí)現(xiàn)指數(shù)級(jí)算力提升,更可謂是不得不關(guān)注的焦點(diǎn)。
據(jù)企查查數(shù)據(jù)顯示,2017年至今,國(guó)內(nèi)量子計(jì)算賽道共完成31起融資事件,公開披露融資金額超25億元,融資主要發(fā)生在2021年及以后,占比近7成。其中圖靈量子、本源量子、量旋科技、玻色量子、國(guó)儀量子等在近年獲多輪融資。
對(duì)于這一疑問(wèn),量旋科技CEO項(xiàng)金根對(duì)量子計(jì)算跟經(jīng)典計(jì)算機(jī)的算力差距,給出了飛機(jī)和地面交通工具的比喻。
他表示,當(dāng)下存算、光芯片、其他一些封裝的改進(jìn)技術(shù),本質(zhì)上還是經(jīng)典計(jì)算機(jī)的范疇,它運(yùn)算的原理跟GPU本質(zhì)上沒(méi)有太大改變,更多是在傳統(tǒng)的框架下做的一些改進(jìn),使得人工智能的芯片效率更高。
對(duì)于現(xiàn)有的AI芯片、存算一體或其他封裝技術(shù)對(duì)AI算力的提升,項(xiàng)金根表示認(rèn)可,同時(shí)他也認(rèn)為需要不同維度去看不同解決方案對(duì)算力的助力,這里面不一定存在最優(yōu)解。
“未來(lái),量子計(jì)算機(jī)肯定能夠助力人工智能。AI需要的算力會(huì)越來(lái)越多,到 2030 年左右可能不光是算力,連耗電量都是非??植赖臄?shù)據(jù)級(jí)。所以要真正解決AI大規(guī)模的算力需求,量子計(jì)算機(jī)是一個(gè)很有潛力的應(yīng)用方向,而且量子計(jì)算機(jī)的運(yùn)算模式跟人工智能有天然的貼合性,量子計(jì)算機(jī)可以加速AI的一些應(yīng)用場(chǎng)景,而AI亦可以加速量子計(jì)算的研發(fā),優(yōu)化其操控精度?!?/span>
那么,如此具有革命性的量子計(jì)算何時(shí)能應(yīng)用到AI領(lǐng)域?項(xiàng)金根認(rèn)為,到2030年行業(yè)發(fā)展順利進(jìn)入容錯(cuò)量子計(jì)算階段,將可能是一個(gè)落地的時(shí)間點(diǎn)。
相較于項(xiàng)金根給出的10年之約,俞悅認(rèn)為量子計(jì)算相關(guān)算法在一些行業(yè)特定任務(wù)上的嘗試落地,在這個(gè)時(shí)間點(diǎn)可能會(huì)有一些結(jié)果,至于解決AI的通用任務(wù)上,他則相對(duì)保守地給出了“50年”的看法。甚至投了圖靈量子的聯(lián)想創(chuàng)投也表示,量子計(jì)算從產(chǎn)業(yè)化的角度看,仍挑戰(zhàn)諸多,充滿機(jī)遇。
聯(lián)想創(chuàng)投坦言,量子計(jì)算落地需要解決百萬(wàn)量子比特操縱能力、低環(huán)境要求、高集成度等核心問(wèn)題,具有較高的入局門檻,其產(chǎn)業(yè)化仍面臨技術(shù)路徑不確定、人才儲(chǔ)備稀缺、產(chǎn)業(yè)鏈配套早期以及無(wú)法用傳統(tǒng)的邏輯、電路思維進(jìn)行推導(dǎo)和復(fù)刻的四大痛點(diǎn)。
如此看來(lái),這些問(wèn)題待解之下,量子計(jì)算就略微顯得理想豐滿、現(xiàn)實(shí)骨感。
此外,俞悅還指出,從邏輯上說(shuō),量子計(jì)算肯定能解決很多算力問(wèn)題,但即便如此,還需要結(jié)合成本,才能知道量子計(jì)算是不是一個(gè)從投入產(chǎn)出看的最佳方案。
在俞悅看來(lái),眼下量子計(jì)算行業(yè)還未發(fā)生一些根本性的變化進(jìn)展,中短期與其寄希望于其他方案來(lái)解決大模型所遇到的算力問(wèn)題,不如指望GPU這些經(jīng)典計(jì)算的硬件價(jià)格能下來(lái)。
“解決算力的成本肯定會(huì)越來(lái)越便宜,GPU價(jià)格對(duì)于大模型玩家來(lái)說(shuō)只是暫時(shí)的,終究不會(huì)對(duì)AI發(fā)展構(gòu)成太大瓶頸。而其他方案的成熟還需要很多配套的軟件生態(tài)匹配,相對(duì)來(lái)說(shuō)更是一個(gè)非常長(zhǎng)周期的事情?!?/span>
