芯片巨頭的新戰(zhàn)場：算力突破新抓手，“東數(shù)西算”帶來新風(fēng)口

2022-11-07 來源：網(wǎng)絡(luò)整理

5927

Intel下一代旗艦級(jí)CPU Sapphire Rapids將會(huì)是Intel在CPU領(lǐng)域的一次重要新產(chǎn)品。該CPU將會(huì)使用Intel 7工藝，并且大規(guī)模使用了chiplet（芯片粒）技術(shù)，從而讓單個(gè)CPU中可以包含高達(dá)60個(gè)核心，從而讓Intel不至于在高級(jí)封裝驅(qū)動(dòng)的下一代CPU競爭中落后AMD。

Sapphire Rapids早在幾年前就已經(jīng)宣布要開發(fā)，而其正式出貨在多次推遲后，終于在最近幾個(gè)月有了更確定的消息。根據(jù)最近Intel發(fā)布的消息，Sapphire Rapids將在2023年正式出貨。而在9月底，Intel也在自家舉辦的活動(dòng)Innovation Event上發(fā)布了基于Sapphire Rapids樣片的demo，這也讓Sapphire Rapids的一些重要特性讓外界有了更加詳細(xì)的認(rèn)知。

在Sapphire Rapids的這些新特性中，除了chiplet這一個(gè)廣為人知的技術(shù)之外，最值得關(guān)注的就是使用了異構(gòu)計(jì)算的架構(gòu)，集成了許多為專門計(jì)算領(lǐng)域優(yōu)化的加速器（domain specific accelerator，DSA）。在過去的幾十年中，由于CPU性能借著摩爾定律的高速發(fā)展而飛速提升，大多數(shù)時(shí)候用戶會(huì)考慮只使用CPU來處理所有的算法，即使用一個(gè)通用架構(gòu)來解決所有問題。然而，隨著摩爾定律的發(fā)展接近瓶頸，使用一個(gè)通用架構(gòu)解決所有問題已經(jīng)不再現(xiàn)實(shí)，因?yàn)镃PU性能的發(fā)展速度已經(jīng)跟不上應(yīng)用的需求，因此異構(gòu)計(jì)算的思路得到了越來越多的重視，即為了重要的應(yīng)用專門設(shè)計(jì)相關(guān)的計(jì)算加速模塊，從而加速計(jì)算性能，同時(shí)也改善效率。

我們認(rèn)為Intel在下一代CPU Sapphire Rapids中引入大量異構(gòu)計(jì)算是一個(gè)里程碑式的事件，這是因?yàn)閭鹘y(tǒng)上來說通用型CPU和異構(gòu)計(jì)算是兩個(gè)芯片設(shè)計(jì)陣營，通用CPU設(shè)計(jì)的時(shí)候會(huì)嘗試改善性能從而說服用戶無需使用異構(gòu)計(jì)算；而Intel這次在Sapphire Rapids中主動(dòng)引入大量異構(gòu)計(jì)算加速器，這也說明了異構(gòu)計(jì)算確實(shí)已經(jīng)成為極其重要的主流設(shè)計(jì)方案，與其單獨(dú)設(shè)計(jì)CPU然后讓其他公司去設(shè)計(jì)相關(guān)的異構(gòu)計(jì)算芯片搶走市場，還不如在自己的CPU中主動(dòng)擁抱異構(gòu)計(jì)算，集成相關(guān)的加速器，來確保滿足用戶的需求。

具體來看，這次Intel在Sapphire Rapids中集成的獨(dú)立加速器主要包括動(dòng)態(tài)負(fù)載平衡模塊（DLB），數(shù)據(jù)流加速器（DSA），內(nèi)存內(nèi)分析加速器（IAA），以及快速協(xié)助模塊（QAT）。這些獨(dú)立的加速器是作為一個(gè)單獨(dú)模塊集成在CPU之外的。除了這些單獨(dú)加速模塊之外，Intel還在每個(gè)CPU核心中集成了用于矩陣計(jì)算加速的AMX模塊（Advanced Matrix Extensions）。

我們不妨來看一下這些加速模塊的具體功能。DLB的主要功能是加速不同服務(wù)器之間的負(fù)載均衡，從而保證服務(wù)器的大規(guī)模部署分布式計(jì)算。DSA主要用于加速CPU和存儲(chǔ)（NVMe以及TCP）之間的數(shù)據(jù)交換和數(shù)據(jù)轉(zhuǎn)換。IAA主要用于數(shù)據(jù)庫應(yīng)用，可以加速數(shù)據(jù)庫相關(guān)應(yīng)用中的數(shù)據(jù)壓縮和解壓。QAT主要用于網(wǎng)絡(luò)相關(guān)應(yīng)用中的數(shù)據(jù)壓縮和加密運(yùn)算。最后，AMX主要是用于人工智能相關(guān)的矩陣運(yùn)算。

我們可以看到，這些加速器幾乎都是針對(duì)目前最火熱的大數(shù)據(jù)應(yīng)用，主要目的都是改善這些大數(shù)據(jù)應(yīng)用中的痛點(diǎn)。DSA，IAA和QAT針對(duì)的應(yīng)用目前基本都是CPU是主要計(jì)算單元，但是由于在數(shù)據(jù)傳輸?shù)阮I(lǐng)域傳統(tǒng)CPU的效率不高，目前有不少公司試著在用專門的ASIC來取代CPU，因此Intel這次在Sapphire Rapids中引入這些加速器正是一個(gè)希望能保住這些市場中公司份額的舉動(dòng)。AMX主要針對(duì)矩陣運(yùn)算，目前雖然GPU是人工智能相關(guān)計(jì)算的主流計(jì)算單元，但是也有一些模型因?yàn)樾枰褂玫囊恍┧阕覩PU支持不夠好，仍然是在CPU上計(jì)算，而Intel的AMX正是針對(duì)這些模型的部署做加速。

異構(gòu)計(jì)算：解決算力瓶頸的新希望

「異構(gòu)計(jì)算」這個(gè)概念可以追溯到上世紀(jì) 80 年代年。而在 2006 年左右，芯片廠商就開始嘗試把不同的計(jì)算單元整合到一顆芯片上。AMD 把高性能 CPU、GPU 做到一顆芯片上的項(xiàng)目命名為「Fusion」(融聚)；英偉達(dá)則推出了統(tǒng)一計(jì)算框架 CUDA 進(jìn)入主流市場，讓 GPU 也能夠進(jìn)行原來 CPU 擅長的通用計(jì)算。

CPU 作為通用計(jì)算芯片，擅長處理不同類型的數(shù)據(jù)，做邏輯判斷；而 GPU 擅長做并行同類型計(jì)算，吞吐量大。AI 算法發(fā)展起來后，既需要密集的矢量運(yùn)算，又需要復(fù)雜的邏輯計(jì)算，人們自熱會(huì)想到讓不同的計(jì)算模塊發(fā)揮所長，讓硬件為軟件的需求服務(wù)。除了 GPU+CPU 的計(jì)算平臺(tái)之外，F(xiàn)PGA（現(xiàn)場可編程邏輯門陣列）也隨之誕生。FPGA 的特點(diǎn)是能夠根據(jù)計(jì)算任務(wù)，自定義配置芯片硬件功能。

從發(fā)展過程可以看出，「異構(gòu)計(jì)算」的特點(diǎn)是硬件作為算力資源，主動(dòng)適配軟件需求。簡單而言，就是算力資源優(yōu)化。

異構(gòu)計(jì)算瓶頸待突破

異構(gòu)的優(yōu)勢顯而易見，與此同時(shí)暴露出的技術(shù)難題也越來越多。一是異構(gòu)計(jì)算產(chǎn)品需要面對(duì)不同的系統(tǒng)架構(gòu)、指令集和編程模型，需要降低多樣計(jì)算帶給軟件開發(fā)者的難度；二是異構(gòu)計(jì)算芯片產(chǎn)品除了要在芯片設(shè)計(jì)層面實(shí)現(xiàn)突破之外，還需要解決在芯片制造和封裝過程中不同結(jié)構(gòu)之間的適配和升級(jí)問題；三是異構(gòu)計(jì)算要實(shí)現(xiàn)性能的多樣性合一，使其同時(shí)滿足人工智能訓(xùn)練、推理、圖像視頻處理等各種不同的需求。

燧原科技創(chuàng)始人兼CEO趙立東在接受《中國電子報(bào)》記者采訪時(shí)表示，從產(chǎn)業(yè)規(guī)范與標(biāo)準(zhǔn)層面看，異構(gòu)計(jì)算是指在完成一個(gè)計(jì)算任務(wù)時(shí)，采用一種以上的硬件計(jì)算單元、互聯(lián)協(xié)議、差異化架構(gòu)、軟件接口等。由于不同的硬件設(shè)備、協(xié)議、應(yīng)用二進(jìn)制接口、軟件應(yīng)用層接口等都存在著巨大的差異，如何構(gòu)建一個(gè)高效、系統(tǒng)化的協(xié)調(diào)統(tǒng)一的異構(gòu)計(jì)算系統(tǒng)，成為最關(guān)鍵的技術(shù)問題。

宋繼強(qiáng)同樣表示，異構(gòu)計(jì)算在技術(shù)方面、互連方面和軟件方面都面臨瓶頸。一是技術(shù)設(shè)計(jì)流程的協(xié)同問題。要保證與其他不同廠商的芯粒一起互聯(lián)互通、協(xié)同工作時(shí)不出現(xiàn)問題。二是需要統(tǒng)一各廠商芯粒之間的互連標(biāo)準(zhǔn)。目前各廠商之間的互連標(biāo)準(zhǔn)并不統(tǒng)一，英特爾攜手業(yè)界部分企業(yè)，推出了UCIe標(biāo)準(zhǔn)，未來有望把不同廠商的芯粒連到一起，形成一個(gè)符合要求的、大的、封裝級(jí)的集成芯片。三是軟件層面要過關(guān)。不同廠商的計(jì)算芯片之間要做出適配的I/O、內(nèi)存通道。

“東數(shù)西算”帶來新風(fēng)口

當(dāng)下正值我國“東數(shù)西算”工程建設(shè)穩(wěn)步推進(jìn)之際。宋繼強(qiáng)指出，異構(gòu)計(jì)算是“東數(shù)西算”的底層支撐。“東數(shù)西算”所需的大型計(jì)算中心內(nèi)部，CPU、GPU、FPGA、DPU、專用加速器等對(duì)處理不同種類的工作數(shù)據(jù)各有優(yōu)勢與劣勢，也有運(yùn)營成本高低之分，所以未來一定要綜合部署，多種架構(gòu)可能都需要涵蓋，而且要有機(jī)聯(lián)合起來。

趙立東認(rèn)為，異構(gòu)計(jì)算對(duì)于“東數(shù)西算”來說是剛需。從半導(dǎo)體集成電路“贏家通吃”的發(fā)展特性來說，不管是從內(nèi)部的產(chǎn)品業(yè)務(wù)布局，還是外部的生態(tài)與商業(yè)布局出發(fā)，單個(gè)數(shù)據(jù)中心或智算中心項(xiàng)目在落地時(shí)，會(huì)考慮異構(gòu)計(jì)算的復(fù)雜性及發(fā)展不完備性所帶來的巨大的額外部署成本，在一定程度上會(huì)偏好選擇以單一廠商為核心的現(xiàn)成產(chǎn)品組合，盡量避免技術(shù)適配的投入。而置身于“東數(shù)西算”背景下，最終要實(shí)現(xiàn)的是全國算力中心的大一統(tǒng)，從而盡可能地優(yōu)化利用資源，在多個(gè)數(shù)據(jù)中心或智算中心互聯(lián)互通的場景下，異構(gòu)計(jì)算的復(fù)雜性會(huì)是前所未有的。因此，在異構(gòu)算力溯源、調(diào)度與管理平臺(tái)的建設(shè)上，需要盡早布局與投入。

算力網(wǎng)絡(luò)的構(gòu)建不只依賴于異構(gòu)計(jì)算，通用計(jì)算也將為“東數(shù)西算”提供更多助力。近兩年，國內(nèi)涌現(xiàn)出一批通用計(jì)算芯片初創(chuàng)企業(yè)，以FPGA和ASIC類型芯片作為切入點(diǎn)，部分企業(yè)購買國外公司的IP授權(quán)開發(fā)通用GPU芯片，少數(shù)企業(yè)自主研發(fā)通用GPU核心IP，實(shí)現(xiàn)了國內(nèi)通用計(jì)算的突破。

天數(shù)智芯副總裁郭為表示，通用計(jì)算所構(gòu)建的算力平臺(tái)通常并行處理能力特別強(qiáng)，計(jì)算能效比高，并且有很大的存儲(chǔ)帶寬，能夠釋放非常可觀的算力。

郭為建議，強(qiáng)化頂層謀劃，將算力網(wǎng)絡(luò)上升為國家戰(zhàn)略，從全局層面整體謀劃戰(zhàn)略定位、發(fā)展目標(biāo)，加快構(gòu)建新型算力網(wǎng)絡(luò)格局。此外，應(yīng)成立國家重點(diǎn)實(shí)驗(yàn)室，打造重大原創(chuàng)技術(shù)策源地。優(yōu)化異構(gòu)計(jì)算產(chǎn)業(yè)布局，發(fā)揮龍頭領(lǐng)軍企業(yè)的“鏈長”作用，協(xié)同上下游企業(yè)，制定產(chǎn)業(yè)鏈供應(yīng)鏈圖譜及協(xié)同發(fā)展計(jì)劃，推動(dòng)異構(gòu)計(jì)算產(chǎn)業(yè)鏈本土化、供應(yīng)鏈多元化，確保異構(gòu)計(jì)算產(chǎn)業(yè)安全穩(wěn)定。