解讀全球首臺(tái)計(jì)算能力超2百億億次的超算以及未來(lái)超算發(fā)展方向

2023-06-26 來(lái)源：賢集網(wǎng)

1734

當(dāng)?shù)貢r(shí)間6月22日，英特爾（Intel）官方宣布，美國(guó)能源部阿拉貢國(guó)家實(shí)驗(yàn)室已經(jīng)完成基于英特爾CPU及GPU的新一代超算“Aurora”的安裝工作，今年晚些時(shí)候上線后將提供超過(guò)2 exaflops（2百億億次計(jì)算每秒）的FP64浮點(diǎn)性能，將超越隸屬于美國(guó)能源部橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的“Frontier”，有望成為全球第一臺(tái)理論峰值性能超過(guò)2 exaflops的超級(jí)計(jì)算機(jī)。

據(jù)介紹，Aurora 超級(jí)計(jì)算機(jī)由英特爾、惠普企業(yè) （HPE）和美國(guó)能源部（DOE）合作，旨在大規(guī)模釋放高性能計(jì)算（HPC）三大支柱的潛力：模擬、數(shù)據(jù)分析和人工智能（AI）。該系統(tǒng)配備了所有 10624 個(gè)刀片服務(wù)器，每個(gè)刀片由兩個(gè)英特爾Xeon Max 系列 CPU（至強(qiáng)Max 9480）和六個(gè)英特爾 Max 系列 GPU 組成，使得Aurora 超級(jí)計(jì)算機(jī)總共擁有 63744 個(gè)英特爾數(shù)據(jù)中心 Max 系列 GPU 和21248 個(gè)英特爾Xeon Max 系列CPU。

英特爾Xeon Max CPU中的 56 個(gè)內(nèi)核均為 P 核，可提供 112 個(gè)線程和 350W TDP。它采用基于 EMIB 的設(shè)計(jì)，分為四個(gè)集群。它還具有 64 GB 的 HBM2e 內(nèi)存，分為 4 個(gè) 16 GB 的集群，總內(nèi)存帶寬為 1 TB / s，每個(gè)內(nèi)核的 HBM 都超過(guò) 1 GB。在性能方面，英特爾稱(chēng)，Xeon Max配備的高帶寬內(nèi)存足以滿足最常見(jiàn)的HPC工作負(fù)載，與舊的英特爾至強(qiáng) 8380 系列處理器或 AMD EPYC 7773X 相比，可在某些工作負(fù)載中提供接近 5 倍的性能。

英特爾Xeon Max CPU中還包含 20 個(gè)加速引擎，主要是用于 AVX-512、AMX、DSA 和英特爾 DL Boost 工作負(fù)載。據(jù)稱(chēng)，英特爾在 MLPerf DeepCAM 訓(xùn)練中的性能比 AMD 7763 提升了 3.6 倍，比 NVIDIA 的 A100 提升了 1.2 倍。

至于英特爾MAX GPU實(shí)際上就是之前的Ponte Vecchio芯片，使用了英特爾有史以來(lái)最先進(jìn)的封裝技術(shù)，擁有超過(guò)1000億個(gè)晶體管。其總共有63個(gè)模塊，包括了16個(gè)Xe-HPG架構(gòu)的計(jì)算芯片、8個(gè)Rambo cache芯片、2個(gè)Xe基礎(chǔ)芯片、11個(gè)EMIB連接芯片、2個(gè)Xe Link I/O芯片和8個(gè)HBM芯片、以及16個(gè)負(fù)責(zé)TDP輸出的模塊，通過(guò)EMIB與Foveros 3D封裝中整合在一起。其中最強(qiáng)的MAX 1550配備了英特爾性能最高的OAM模塊，擁有128個(gè)Xe核心和128GB的HBM2e內(nèi)存，TDP為600W。

此外，Aurora 系統(tǒng)還配備了10.9PB的傲騰持久內(nèi)存。同時(shí)正如前面所介紹的，每個(gè)Xeon Max CPU內(nèi)還封裝了64 GB 的 HBM2e 內(nèi)存，這也意味著21248 個(gè)英特爾Xeon Max 系列CPU內(nèi)的 HBM2e高帶寬內(nèi)存容量達(dá)到了1.36PB；每個(gè) Max GPU內(nèi)最高還封裝了128 GB 的 HBM2e 內(nèi)存， 63744個(gè)Max GPU內(nèi)的HBM2e內(nèi)存容量達(dá)到了8.16PB。三者合計(jì)達(dá)20.42PB內(nèi)存。存儲(chǔ)方面，Aurora 集成了超過(guò) 1024 個(gè)存儲(chǔ)節(jié)點(diǎn)（使用 DAOS，英特爾的分布式異步對(duì)象存儲(chǔ)技術(shù)），并利用HPE Slingshot高性能結(jié)構(gòu)，以每秒31TB的總帶寬提供220PB的總的存儲(chǔ)容量。

以上所有的CPU、GPU、內(nèi)存及存儲(chǔ)等組件都將通過(guò)英特爾的oneAPI軟件互相鏈接。借助 oneAPI，開(kāi)發(fā)者對(duì)整個(gè)系統(tǒng)中的節(jié)點(diǎn)進(jìn)行編程，無(wú)需更改代碼，應(yīng)用程序可以有效在 CPU 和 GPU 上運(yùn)行，為開(kāi)發(fā)人員提供無(wú)縫系統(tǒng)集成。

英特爾表示，Aurora將充分利用英特爾Max系列GPU和CPU產(chǎn)品系列的強(qiáng)大功能。Max系列GPU的早期結(jié)果旨在滿足動(dòng)態(tài)和新興HPC和AI工作負(fù)載的需求，在現(xiàn)實(shí)世界的科學(xué)和工程工作負(fù)載上顯示出領(lǐng)先的性能，在OpenMC上顯示出高達(dá)AMD MI250X GPU性能的2倍，以及接近線性擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn)。在許多現(xiàn)實(shí)世界的HPC工作負(fù)載（如地球系統(tǒng)建模、能源和制造）中，Intel Xeon Max系列CPU比競(jìng)爭(zhēng)對(duì)手具有40%的性能優(yōu)勢(shì)。

目前世界第一的超級(jí)計(jì)算機(jī)是隸屬于美國(guó)能源部橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的“Frontier”，最大性能每秒1.19百億億次浮點(diǎn)計(jì)算，峰值性能可達(dá)1.68百億億次，其采用的是正是AMD EPYC 7A53 64核心處理器，以及Instinct MI250X GPU加速器。隨著“Aurora”的安裝工作完成，今年晚些時(shí)候上線后將可提供超過(guò)2 exaflops的性能，成為全球最強(qiáng)的超級(jí)計(jì)算機(jī)。

復(fù)合類(lèi)新產(chǎn)品出現(xiàn)

AMD、英特爾和英偉達(dá)三巨頭，業(yè)已推出多款整合“XPU”的產(chǎn)品。那么，這會(huì)是超算或企業(yè)級(jí)處理器市場(chǎng)未來(lái)的發(fā)展趨勢(shì)嗎？

在2022年的英特爾投資者大會(huì)上，英特爾展示了一個(gè)全新針對(duì)AI和HPC市場(chǎng)研發(fā)的、代號(hào)為“Falcon Shores”的全新芯片。它和英特爾現(xiàn)有的CPU、GPU有所不同，英特爾稱(chēng)其為“XPU”。所謂“X”，是“混合”的意思，英特爾宣稱(chēng)整個(gè)Falcon Shores將擁有可擴(kuò)展的、可根據(jù)需求配置的CPU和GPU部分。在英特爾的計(jì)劃中，這種復(fù)合類(lèi)型的XPU，將擁有比現(xiàn)在產(chǎn)品高5倍的每瓦特性能、內(nèi)存容量和內(nèi)存帶寬。

根據(jù)英特爾規(guī)劃，F(xiàn)alcon Shores將在2024年推出，采用英特爾的20A或者18A工藝。英特爾將采用Chiplet技術(shù)，以不同的Tile也就是功能片的形式，來(lái)實(shí)現(xiàn)對(duì)CPU、GPU以及其他加速模塊的靈活配置，以更大程度地貼近客戶的需求。

隨后AMD在CES 2023上發(fā)布了全新的數(shù)據(jù)中心處理器Instinct MI300。作為面向下一代數(shù)據(jù)中心的超大規(guī)模處理器，它包含了13個(gè)Chiplet芯片和高達(dá)1460億晶體管，是AMD有史以來(lái)推出的最強(qiáng)大的芯片。

在AMD的官方介紹中，Instinct MI300將在2023年下半年推出，整體架構(gòu)包括24個(gè)Zen 4核心的CPU和CNDA 3架構(gòu)的GPU，超大容量Infinity Cache，還有高達(dá)8192bit、128GB容量的HBM3超高帶寬內(nèi)存。此外它還支持第四代Infinity Fabric總線、CXL 3.0總線、統(tǒng)一內(nèi)存架構(gòu)以及全新的數(shù)據(jù)格式等。AMD官方宣稱(chēng)對(duì)比上代產(chǎn)品的性能提升高達(dá)8倍，可以滿足百億億次計(jì)算的需求。

AMD的產(chǎn)品實(shí)際上是專(zhuān)為AI或者HPC場(chǎng)合設(shè)計(jì)，它將CPU、GPU以及一些加速器融合在一起，希望能夠帶來(lái)效能、性能方面的飛躍式提升。與此類(lèi)似的是，英偉達(dá)在這方面也做出了自己的努力。不過(guò)它并不是依靠Chiplet或者其他的技術(shù)，而是直接將兩個(gè)全新的獨(dú)立芯片——Hopper GPU和Grace CPU布置在一個(gè)PCB上，并采用自家的NVLink實(shí)現(xiàn)芯片到芯片的高帶寬互聯(lián)（高達(dá)900GB/s），同時(shí)配合了高帶寬的HBM3存儲(chǔ)和LPDDR5X等。英偉達(dá)宣稱(chēng)，在高帶寬IO以及NVLink網(wǎng)絡(luò)的支撐下，這款名為NVIDIA Grace Hopper Superchip的芯片（將在2023年上半年發(fā)布），將為運(yùn)行TB級(jí)別數(shù)據(jù)的應(yīng)用程序帶來(lái)高達(dá)10倍以上的性能提升。

顯然，隨著AMD、英特爾和英偉達(dá)全新一代產(chǎn)品的發(fā)布，下一代超算的形態(tài)可能會(huì)發(fā)生明顯的變化。現(xiàn)在我們看到超算Top 500排行榜上，產(chǎn)品CPU、GPU的型號(hào)都是很明確的，比如AMD EPYC處理器、英特爾Xeon某型號(hào)，GPU則是英偉達(dá)H100或者其他型號(hào)等。但是下一代的超算，如果采用Falcon Shores或者Instinct MI300的話，那么CPU和GPU的具體型號(hào)就可能不存在了，統(tǒng)計(jì)時(shí)就只能標(biāo)注CPU或者GPU的核心數(shù)量了。

走向DSA化的超算

從多款產(chǎn)品的發(fā)展情況來(lái)看，集合CPU和GPU的力量在單一芯片上，并且擁有諸如統(tǒng)一內(nèi)存尋址這樣的特性成為趨勢(shì)。相比傳統(tǒng)的PCIe總線連接CPU和GPU而言，采用Chiplet技術(shù)或者其他的總線連接技術(shù)，能夠極大地緩解數(shù)據(jù)傳輸中的帶寬瓶頸。

當(dāng)然，數(shù)據(jù)在超算中的不斷搬運(yùn)、存儲(chǔ)帶來(lái)的能耗或者對(duì)效能的影響是行業(yè)所關(guān)注的一個(gè)方面，AMD、英偉達(dá)和英特爾正在這方面持續(xù)努力。而另一方面的問(wèn)題，可能更值得我們?nèi)ニ伎?，那就是為什么三大廠商都開(kāi)始利用Chiplet技術(shù)（或者類(lèi)似的設(shè)計(jì)）將CPU和GPU集成在一起？在CPU向多核形態(tài)發(fā)展之后，下一步是什么？

這樣的趨勢(shì)在桌面PC上可能剛剛開(kāi)始出現(xiàn)，比如我們的CPU核心才剛開(kāi)始有最多32個(gè)，即使線程撕裂者這樣本來(lái)面向給服務(wù)器市場(chǎng)的處理器，其核心數(shù)量也多在64~96個(gè)。而在異構(gòu)類(lèi)型的超級(jí)計(jì)算機(jī)沒(méi)有廣泛普及之前，一整套超算往往會(huì)有數(shù)萬(wàn)到數(shù)十萬(wàn)個(gè)CPU。如此多的CPU在很大程度上極大地提升了超算的性能，但是隨著CPU數(shù)量不斷提升，新的問(wèn)題出現(xiàn)了。

一方面是CPU數(shù)量上升到一定程度后，邊際效應(yīng)開(kāi)始顯現(xiàn)，繼續(xù)增加CPU數(shù)量帶來(lái)的性能提升不再是線性提升。這涉及很多問(wèn)題，比如CPU中計(jì)算單元數(shù)量相對(duì)較少、超多的CPU核心在編程上存在困難等。

另一方面，更多的CPU帶來(lái)了性能功耗比的下降，從而導(dǎo)致超算功耗變得越來(lái)越大，甚至難以控制。與之相應(yīng)的是超算本身的功耗、散熱所需功耗等疊加起來(lái)，使得相應(yīng)產(chǎn)品的制造難度和使用成本變得難以控制。

超算中心需要哪些芯片？

先來(lái)看國(guó)內(nèi)，2010年，中國(guó)的“天河一號(hào)”位居全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜榜首。其思路采用“CPU+GPU”的設(shè)計(jì)思路，結(jié)合了大約7000個(gè)英偉達(dá)GPU和14000個(gè)英特爾CPU，將GPU(圖形芯片)用于超級(jí)計(jì)算機(jī)，起到了“CPU加速器”的作用。

盡管“天河”的主要部件仍來(lái)自英特爾與英偉達(dá)兩個(gè)美國(guó)制造商，但互聯(lián)芯片則完全是中國(guó)自主研發(fā)，“天河”安裝有由中國(guó)自主研發(fā)的“飛騰1000”芯片，部分取代了進(jìn)口芯片。

2016年“神威·太湖之光”誕生，是世界首臺(tái)峰值運(yùn)算性能超過(guò)每秒十億億次浮點(diǎn)運(yùn)算能力的超級(jí)計(jì)算機(jī)。這臺(tái)計(jì)算機(jī)共有40960顆國(guó)產(chǎn)芯片，運(yùn)算系統(tǒng)全面采用了國(guó)產(chǎn)“申威26010”眾核處理器。這也是我國(guó)第一臺(tái)全部采用國(guó)產(chǎn)處理器構(gòu)建的超級(jí)計(jì)算機(jī)。

從北京超級(jí)云計(jì)算中心來(lái)看，根據(jù)處理器的類(lèi)別，北京超級(jí)云計(jì)算中心的超算分區(qū)可以劃分為四大系列：基于AMD芯片的A分區(qū)與M分區(qū)，以及A分區(qū)的加強(qiáng)版「A6分區(qū)」；基于英特爾芯片的T分區(qū)與L分區(qū)；基于國(guó)產(chǎn)芯片的先導(dǎo)一號(hào)；基于英偉達(dá)芯片的AI智算云，比如N17、N19區(qū)。

其中，A分區(qū)采用的是AMD在2019年推出的第二代EPYC（霄龍）服務(wù)級(jí)處理器，代號(hào)羅馬（Rome），基于7nm工藝，搭載64核心128線程，每一個(gè)核心的內(nèi)存為4GB，在提升核心的同時(shí)也提升了時(shí)鐘速度，加速頻率可達(dá)3.4GHz。

國(guó)外方面，今年在超算榜單排名第一的美國(guó)的“前沿（Frontier）”超級(jí)計(jì)算機(jī)，相較于神威·太湖之光，美國(guó)的Frontier只有9408個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)配備一個(gè)AMD Epyc 7A53 CPU和四個(gè)AMD Instinct MI250X加速卡。顯然，F(xiàn)rontier的節(jié)點(diǎn)間通信的壓力要小得多，也更容易設(shè)計(jì)。

該系統(tǒng)共包括8730112個(gè)內(nèi)核，整個(gè)系統(tǒng)總共有9400多個(gè)CPU和37000多個(gè)GPU。Frontier核心計(jì)算部分主要依靠AMD Instinct MI250X加速卡，采用的是CDNA2架構(gòu)。

此外，每塊加速卡上還集成了128GB HBM2e高帶寬內(nèi)存。現(xiàn)在的超算主要還是馮·諾依曼結(jié)構(gòu)占主導(dǎo)，內(nèi)存速度將直接影響計(jì)算速度，這種內(nèi)存比普通的要快得多，目前卻只有少數(shù)企業(yè)能夠生產(chǎn)。

超算中心如何分配芯片

超級(jí)計(jì)算機(jī)的性能野蠻生長(zhǎng)了20年，至今為止，美國(guó)研制Frontier的花費(fèi)也不過(guò)區(qū)區(qū)6億美元，這說(shuō)明超算系統(tǒng)規(guī)模的擴(kuò)大并不是簡(jiǎn)單的堆硬件。

日本“富岳”（Fugaku）超算，宣稱(chēng)它的浮點(diǎn)運(yùn)算速度峰值可達(dá)每秒41.5億億次；中國(guó)的“神威太湖之光”，它的浮點(diǎn)運(yùn)算速度峰值是每秒12.5億億次。都達(dá)到了10億億次以上。超算用了很多個(gè)芯片，讓它們同時(shí)執(zhí)行任務(wù)，而單個(gè)芯片的性能跟個(gè)人電腦的芯片是差不多的。用科學(xué)術(shù)語(yǔ)來(lái)說(shuō)，這叫做“并行計(jì)算”，這是高性能計(jì)算的基本思路。

超算的算力是和核數(shù)有關(guān)的。但算力速度并不能與核數(shù)構(gòu)成正比例關(guān)系。實(shí)際上，要讓多個(gè)芯片同時(shí)運(yùn)行，就必須首先給它們劃分好任務(wù)，這個(gè)任務(wù)劃分是要消耗時(shí)間的。然后，當(dāng)各個(gè)芯片開(kāi)始計(jì)算之后，還不時(shí)地要和其他芯片交換數(shù)據(jù)，這個(gè)通信也是要消耗時(shí)間的。

超算的競(jìng)爭(zhēng)主要是超算系統(tǒng)中調(diào)度、分發(fā)、通信相關(guān)的軟硬件的競(jìng)爭(zhēng)。早期的超算中心，每一個(gè)節(jié)點(diǎn)要么純CPU，要么是CPU+加速卡的異構(gòu)計(jì)算方案。但從2010年前后開(kāi)始，純CPU的方案劣勢(shì)太大，越來(lái)越少地被采用。CPU+加速卡的異構(gòu)計(jì)算方案也存在很大缺點(diǎn)，即計(jì)算的數(shù)據(jù)會(huì)反復(fù)在CPU和加速卡之間傳輸，造成大量的性能浪費(fèi)。

因此，為了更高的性價(jià)比和計(jì)算速度，早期國(guó)內(nèi)往往會(huì)購(gòu)買(mǎi)英特爾和英偉達(dá)兩家美國(guó)廠商的成熟產(chǎn)品。

再之后異構(gòu)計(jì)算進(jìn)入超算中心的眼簾。事實(shí)上，最近幾年曾經(jīng)在TOP500刷榜，或者排名靠前的超算都采用了異構(gòu)計(jì)算——中國(guó)神威太湖之光、美國(guó)超算泰坦、中國(guó)天河1號(hào)和天河2號(hào)。

泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn)，每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD Opteron 6274處理器和1個(gè)英偉達(dá) Tesla K20加速器組成，共計(jì)299008個(gè)運(yùn)算核心，屬于CPU+GPU。

天河1號(hào)使用了14336片英特爾 Xeon X5670處理器和7168片英偉達(dá) Tesla M2050高性能計(jì)算卡，屬于CPU+GPU。

天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)由2片英特爾的E5 2692和3片Xeon PHI組成，共使用了32000片英特爾的E5 2692和48000片Xeon PHI，屬于CPU+眾核芯片。正在升級(jí)的天河2號(hào)則將美國(guó)的Xeon PHI換成了自主研發(fā)的矩陣2000，屬于CPU+DSP。

神威·太湖之光使用的sw26010將兩個(gè)部分的電路，集成到了一個(gè)芯片上（片上異構(gòu)），這樣既避免了純CPU不擅長(zhǎng)專(zhuān)業(yè)計(jì)算的劣勢(shì)，又避免了加速卡不能和CPU共享內(nèi)存的問(wèn)題。使得sw26010在設(shè)計(jì)團(tuán)隊(duì)規(guī)模很小，制程落后整整兩代的情況，實(shí)現(xiàn)了和英特爾類(lèi)似產(chǎn)品相似的功耗和性能。

太湖之光的成功，啟迪了后來(lái)日本的“富岳”超算?！案辉馈蓖瑯訏仐壛嗣绹?guó)成熟的計(jì)算方案，購(gòu)買(mǎi)ARMv8.2-A指令集開(kāi)發(fā)管理核心，并自研專(zhuān)業(yè)計(jì)算模塊，推出了富士通版的片上異構(gòu)芯片A64FX。

總結(jié)

我國(guó)在發(fā)展超算中心的途中，仍有許多問(wèn)題。國(guó)產(chǎn)芯片研究起步較晚，CPU、GPU等超算核心芯片指令集架構(gòu)領(lǐng)域仍然存在明顯短板，缺乏高端芯片制造能力。EDA和編程平臺(tái)長(zhǎng)期面臨卡脖子風(fēng)險(xiǎn)，核心設(shè)備依賴(lài)進(jìn)口，自主權(quán)和議價(jià)權(quán)仍由國(guó)外巨頭掌控。

相關(guān)文章

登入后，方可留言>>

行業(yè)動(dòng)態(tài)

開(kāi)展雙星普查的新工具 “重瞳”測(cè)速系統(tǒng)研發(fā)成功

事關(guān)中國(guó)，英媒給出一組“驚人”數(shù)據(jù)！

加快全面綠色轉(zhuǎn)型助力“雙碳”目標(biāo)實(shí)現(xiàn)

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會(huì)

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬(wàn)美元收購(gòu)鴻海精密美國(guó)子公司相關(guān)資產(chǎn)

九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

解讀全球首臺(tái)計(jì)算能力超2百億億次的超算以及未來(lái)超算發(fā)展方向