九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

歡迎訪問(wèn)深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

解讀全球首臺(tái)計(jì)算能力超2百億億次的超算以及未來(lái)超算發(fā)展方向

2023-06-26 來(lái)源:賢集網(wǎng)
1734

關(guān)鍵詞: 英特爾 人工智能 AMD

當(dāng)?shù)貢r(shí)間6月22日,英特爾(Intel)官方宣布,美國(guó)能源部阿拉貢國(guó)家實(shí)驗(yàn)室已經(jīng)完成基于英特爾CPU及GPU的新一代超算“Aurora”的安裝工作,今年晚些時(shí)候上線后將提供超過(guò)2 exaflops(2百億億次計(jì)算每秒)的FP64浮點(diǎn)性能,將超越隸屬于美國(guó)能源部橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的“Frontier”,有望成為全球第一臺(tái)理論峰值性能超過(guò)2 exaflops的超級(jí)計(jì)算機(jī)。

據(jù)介紹,Aurora 超級(jí)計(jì)算機(jī)由英特爾、惠普企業(yè) (HPE) 和美國(guó)能源部 (DOE) 合作,旨在大規(guī)模釋放高性能計(jì)算 (HPC) 三大支柱的潛力:模擬、數(shù)據(jù)分析和人工智能 (AI)。該系統(tǒng)配備了所有 10624 個(gè)刀片服務(wù)器,每個(gè)刀片由兩個(gè)英特爾Xeon Max 系列 CPU(至強(qiáng)Max 9480) 和六個(gè)英特爾 Max 系列 GPU 組成,使得Aurora 超級(jí)計(jì)算機(jī)總共擁有 63744 個(gè)英特爾數(shù)據(jù)中心 Max 系列 GPU 和21248 個(gè)英特爾Xeon Max 系列CPU。

英特爾Xeon Max CPU中的 56 個(gè)內(nèi)核均為 P 核,可提供 112 個(gè)線程和 350W TDP。它采用基于 EMIB 的設(shè)計(jì),分為四個(gè)集群。它還具有 64 GB 的 HBM2e 內(nèi)存,分為 4 個(gè) 16 GB 的集群,總內(nèi)存帶寬為 1 TB / s,每個(gè)內(nèi)核的 HBM 都超過(guò) 1 GB。在性能方面,英特爾稱(chēng),Xeon Max配備的高帶寬內(nèi)存足以滿足最常見(jiàn)的HPC工作負(fù)載,與舊的英特爾至強(qiáng) 8380 系列處理器或 AMD EPYC 7773X 相比,可在某些工作負(fù)載中提供接近 5 倍的性能。

英特爾Xeon Max CPU中還包含 20 個(gè)加速引擎,主要是用于 AVX-512、AMX、DSA 和英特爾 DL Boost 工作負(fù)載。據(jù)稱(chēng),英特爾在 MLPerf DeepCAM 訓(xùn)練中的性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。



至于英特爾MAX GPU實(shí)際上就是之前的Ponte Vecchio芯片,使用了英特爾有史以來(lái)最先進(jìn)的封裝技術(shù),擁有超過(guò)1000億個(gè)晶體管。其總共有63個(gè)模塊,包括了16個(gè)Xe-HPG架構(gòu)的計(jì)算芯片、8個(gè)Rambo cache芯片、2個(gè)Xe基礎(chǔ)芯片、11個(gè)EMIB連接芯片、2個(gè)Xe Link I/O芯片和8個(gè)HBM芯片、以及16個(gè)負(fù)責(zé)TDP輸出的模塊,通過(guò)EMIB與Foveros 3D封裝中整合在一起。其中最強(qiáng)的MAX 1550配備了英特爾性能最高的OAM模塊,擁有128個(gè)Xe核心和128GB的HBM2e內(nèi)存,TDP為600W。

此外,Aurora 系統(tǒng)還配備了10.9PB的傲騰持久內(nèi)存。同時(shí)正如前面所介紹的,每個(gè)Xeon Max CPU內(nèi)還封裝了64 GB 的 HBM2e 內(nèi)存,這也意味著21248 個(gè)英特爾Xeon Max 系列CPU內(nèi)的 HBM2e高帶寬內(nèi)存容量達(dá)到了1.36PB;每個(gè) Max GPU內(nèi)最高還封裝了128 GB 的 HBM2e 內(nèi)存, 63744個(gè)Max GPU內(nèi)的HBM2e內(nèi)存容量達(dá)到了8.16PB。三者合計(jì)達(dá)20.42PB內(nèi)存。存儲(chǔ)方面,Aurora 集成了超過(guò) 1024 個(gè)存儲(chǔ)節(jié)點(diǎn)(使用 DAOS,英特爾的分布式異步對(duì)象存儲(chǔ)技術(shù)),并利用HPE Slingshot高性能結(jié)構(gòu),以每秒31TB的總帶寬提供220PB的總的存儲(chǔ)容量。

以上所有的CPU、GPU、內(nèi)存及存儲(chǔ)等組件都將通過(guò)英特爾的oneAPI軟件互相鏈接。借助 oneAPI,開(kāi)發(fā)者對(duì)整個(gè)系統(tǒng)中的節(jié)點(diǎn)進(jìn)行編程,無(wú)需更改代碼,應(yīng)用程序可以有效在 CPU 和 GPU 上運(yùn)行,為開(kāi)發(fā)人員提供無(wú)縫系統(tǒng)集成。

英特爾表示,Aurora將充分利用英特爾Max系列GPU和CPU產(chǎn)品系列的強(qiáng)大功能。Max系列GPU的早期結(jié)果旨在滿足動(dòng)態(tài)和新興HPC和AI工作負(fù)載的需求,在現(xiàn)實(shí)世界的科學(xué)和工程工作負(fù)載上顯示出領(lǐng)先的性能,在OpenMC上顯示出高達(dá)AMD MI250X GPU性能的2倍,以及接近線性擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn)。在許多現(xiàn)實(shí)世界的HPC工作負(fù)載(如地球系統(tǒng)建模、能源和制造)中,Intel Xeon Max系列CPU比競(jìng)爭(zhēng)對(duì)手具有40%的性能優(yōu)勢(shì)。

目前世界第一的超級(jí)計(jì)算機(jī)是隸屬于美國(guó)能源部橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的“Frontier”,最大性能每秒1.19百億億次浮點(diǎn)計(jì)算,峰值性能可達(dá)1.68百億億次,其采用的是正是AMD EPYC 7A53 64核心處理器,以及Instinct MI250X GPU加速器。隨著“Aurora”的安裝工作完成,今年晚些時(shí)候上線后將可提供超過(guò)2 exaflops的性能,成為全球最強(qiáng)的超級(jí)計(jì)算機(jī)。


復(fù)合類(lèi)新產(chǎn)品出現(xiàn)

AMD、英特爾和英偉達(dá)三巨頭,業(yè)已推出多款整合“XPU”的產(chǎn)品。那么,這會(huì)是超算或企業(yè)級(jí)處理器市場(chǎng)未來(lái)的發(fā)展趨勢(shì)嗎?

在2022年的英特爾投資者大會(huì)上,英特爾展示了一個(gè)全新針對(duì)AI和HPC市場(chǎng)研發(fā)的、代號(hào)為“Falcon Shores”的全新芯片。它和英特爾現(xiàn)有的CPU、GPU有所不同,英特爾稱(chēng)其為“XPU”。所謂“X”,是“混合”的意思,英特爾宣稱(chēng)整個(gè)Falcon Shores將擁有可擴(kuò)展的、可根據(jù)需求配置的CPU和GPU部分。在英特爾的計(jì)劃中,這種復(fù)合類(lèi)型的XPU,將擁有比現(xiàn)在產(chǎn)品高5倍的每瓦特性能、內(nèi)存容量和內(nèi)存帶寬。

根據(jù)英特爾規(guī)劃,F(xiàn)alcon Shores將在2024年推出,采用英特爾的20A或者18A工藝。英特爾將采用Chiplet技術(shù),以不同的Tile也就是功能片的形式,來(lái)實(shí)現(xiàn)對(duì)CPU、GPU以及其他加速模塊的靈活配置,以更大程度地貼近客戶的需求。

隨后AMD在CES 2023上發(fā)布了全新的數(shù)據(jù)中心處理器Instinct MI300。作為面向下一代數(shù)據(jù)中心的超大規(guī)模處理器,它包含了13個(gè)Chiplet芯片和高達(dá)1460億晶體管,是AMD有史以來(lái)推出的最強(qiáng)大的芯片。

在AMD的官方介紹中,Instinct MI300將在2023年下半年推出,整體架構(gòu)包括24個(gè)Zen 4核心的CPU和CNDA 3架構(gòu)的GPU,超大容量Infinity Cache,還有高達(dá)8192bit、128GB容量的HBM3超高帶寬內(nèi)存。此外它還支持第四代Infinity Fabric總線、CXL 3.0總線、統(tǒng)一內(nèi)存架構(gòu)以及全新的數(shù)據(jù)格式等。AMD官方宣稱(chēng)對(duì)比上代產(chǎn)品的性能提升高達(dá)8倍,可以滿足百億億次計(jì)算的需求。



AMD的產(chǎn)品實(shí)際上是專(zhuān)為AI或者HPC場(chǎng)合設(shè)計(jì),它將CPU、GPU以及一些加速器融合在一起,希望能夠帶來(lái)效能、性能方面的飛躍式提升。與此類(lèi)似的是,英偉達(dá)在這方面也做出了自己的努力。不過(guò)它并不是依靠Chiplet或者其他的技術(shù),而是直接將兩個(gè)全新的獨(dú)立芯片——Hopper GPU和Grace CPU布置在一個(gè)PCB上,并采用自家的NVLink實(shí)現(xiàn)芯片到芯片的高帶寬互聯(lián)(高達(dá)900GB/s),同時(shí)配合了高帶寬的HBM3存儲(chǔ)和LPDDR5X等。英偉達(dá)宣稱(chēng),在高帶寬IO以及NVLink網(wǎng)絡(luò)的支撐下,這款名為NVIDIA Grace Hopper Superchip的芯片(將在2023年上半年發(fā)布),將為運(yùn)行TB級(jí)別數(shù)據(jù)的應(yīng)用程序帶來(lái)高達(dá)10倍以上的性能提升。

顯然,隨著AMD、英特爾和英偉達(dá)全新一代產(chǎn)品的發(fā)布,下一代超算的形態(tài)可能會(huì)發(fā)生明顯的變化。現(xiàn)在我們看到超算Top 500排行榜上,產(chǎn)品CPU、GPU的型號(hào)都是很明確的,比如AMD EPYC處理器、英特爾Xeon某型號(hào),GPU則是英偉達(dá)H100或者其他型號(hào)等。但是下一代的超算,如果采用Falcon Shores或者Instinct MI300的話,那么CPU和GPU的具體型號(hào)就可能不存在了,統(tǒng)計(jì)時(shí)就只能標(biāo)注CPU或者GPU的核心數(shù)量了。


走向DSA化的超算

從多款產(chǎn)品的發(fā)展情況來(lái)看,集合CPU和GPU的力量在單一芯片上,并且擁有諸如統(tǒng)一內(nèi)存尋址這樣的特性成為趨勢(shì)。相比傳統(tǒng)的PCIe總線連接CPU和GPU而言,采用Chiplet技術(shù)或者其他的總線連接技術(shù),能夠極大地緩解數(shù)據(jù)傳輸中的帶寬瓶頸。

當(dāng)然,數(shù)據(jù)在超算中的不斷搬運(yùn)、存儲(chǔ)帶來(lái)的能耗或者對(duì)效能的影響是行業(yè)所關(guān)注的一個(gè)方面,AMD、英偉達(dá)和英特爾正在這方面持續(xù)努力。而另一方面的問(wèn)題,可能更值得我們?nèi)ニ伎?,那就是為什么三大廠商都開(kāi)始利用Chiplet技術(shù)(或者類(lèi)似的設(shè)計(jì))將CPU和GPU集成在一起?在CPU向多核形態(tài)發(fā)展之后,下一步是什么?

這樣的趨勢(shì)在桌面PC上可能剛剛開(kāi)始出現(xiàn),比如我們的CPU核心才剛開(kāi)始有最多32個(gè),即使線程撕裂者這樣本來(lái)面向給服務(wù)器市場(chǎng)的處理器,其核心數(shù)量也多在64~96個(gè)。而在異構(gòu)類(lèi)型的超級(jí)計(jì)算機(jī)沒(méi)有廣泛普及之前,一整套超算往往會(huì)有數(shù)萬(wàn)到數(shù)十萬(wàn)個(gè)CPU。如此多的CPU在很大程度上極大地提升了超算的性能,但是隨著CPU數(shù)量不斷提升,新的問(wèn)題出現(xiàn)了。

一方面是CPU數(shù)量上升到一定程度后,邊際效應(yīng)開(kāi)始顯現(xiàn),繼續(xù)增加CPU數(shù)量帶來(lái)的性能提升不再是線性提升。這涉及很多問(wèn)題,比如CPU中計(jì)算單元數(shù)量相對(duì)較少、超多的CPU核心在編程上存在困難等。

另一方面,更多的CPU帶來(lái)了性能功耗比的下降,從而導(dǎo)致超算功耗變得越來(lái)越大,甚至難以控制。與之相應(yīng)的是超算本身的功耗、散熱所需功耗等疊加起來(lái),使得相應(yīng)產(chǎn)品的制造難度和使用成本變得難以控制。


超算中心需要哪些芯片?

先來(lái)看國(guó)內(nèi),2010年,中國(guó)的“天河一號(hào)”位居全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜榜首。其思路采用“CPU+GPU”的設(shè)計(jì)思路,結(jié)合了大約7000個(gè)英偉達(dá)GPU和14000個(gè)英特爾CPU,將GPU(圖形芯片)用于超級(jí)計(jì)算機(jī),起到了“CPU加速器”的作用。

盡管“天河”的主要部件仍來(lái)自英特爾與英偉達(dá)兩個(gè)美國(guó)制造商,但互聯(lián)芯片則完全是中國(guó)自主研發(fā),“天河”安裝有由中國(guó)自主研發(fā)的“飛騰1000”芯片,部分取代了進(jìn)口芯片。

2016年“神威·太湖之光”誕生,是世界首臺(tái)峰值運(yùn)算性能超過(guò)每秒十億億次浮點(diǎn)運(yùn)算能力的超級(jí)計(jì)算機(jī)。這臺(tái)計(jì)算機(jī)共有40960顆國(guó)產(chǎn)芯片,運(yùn)算系統(tǒng)全面采用了國(guó)產(chǎn)“申威26010”眾核處理器。這也是我國(guó)第一臺(tái)全部采用國(guó)產(chǎn)處理器構(gòu)建的超級(jí)計(jì)算機(jī)。



從北京超級(jí)云計(jì)算中心來(lái)看,根據(jù)處理器的類(lèi)別,北京超級(jí)云計(jì)算中心的超算分區(qū)可以劃分為四大系列:基于AMD芯片的A分區(qū)與M分區(qū),以及A分區(qū)的加強(qiáng)版「A6分區(qū)」;基于英特爾芯片的T分區(qū)與L分區(qū);基于國(guó)產(chǎn)芯片的先導(dǎo)一號(hào);基于英偉達(dá)芯片的AI智算云,比如N17、N19區(qū)。

其中,A分區(qū)采用的是AMD在2019年推出的第二代EPYC(霄龍)服務(wù)級(jí)處理器,代號(hào)羅馬(Rome),基于7nm工藝,搭載64核心128線程,每一個(gè)核心的內(nèi)存為4GB,在提升核心的同時(shí)也提升了時(shí)鐘速度,加速頻率可達(dá)3.4GHz。

國(guó)外方面,今年在超算榜單排名第一的美國(guó)的“前沿(Frontier)”超級(jí)計(jì)算機(jī),相較于神威·太湖之光,美國(guó)的Frontier只有9408個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備一個(gè)AMD Epyc 7A53 CPU和四個(gè)AMD Instinct MI250X加速卡。顯然,F(xiàn)rontier的節(jié)點(diǎn)間通信的壓力要小得多,也更容易設(shè)計(jì)。

該系統(tǒng)共包括8730112個(gè)內(nèi)核,整個(gè)系統(tǒng)總共有9400多個(gè)CPU和37000多個(gè)GPU。Frontier核心計(jì)算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架構(gòu)。

此外,每塊加速卡上還集成了128GB HBM2e高帶寬內(nèi)存。現(xiàn)在的超算主要還是馮·諾依曼結(jié)構(gòu)占主導(dǎo),內(nèi)存速度將直接影響計(jì)算速度,這種內(nèi)存比普通的要快得多,目前卻只有少數(shù)企業(yè)能夠生產(chǎn)。


超算中心如何分配芯片

超級(jí)計(jì)算機(jī)的性能野蠻生長(zhǎng)了20年,至今為止,美國(guó)研制Frontier的花費(fèi)也不過(guò)區(qū)區(qū)6億美元,這說(shuō)明超算系統(tǒng)規(guī)模的擴(kuò)大并不是簡(jiǎn)單的堆硬件。

日本“富岳”(Fugaku)超算,宣稱(chēng)它的浮點(diǎn)運(yùn)算速度峰值可達(dá)每秒41.5億億次;中國(guó)的“神威太湖之光”,它的浮點(diǎn)運(yùn)算速度峰值是每秒12.5億億次。都達(dá)到了10億億次以上。超算用了很多個(gè)芯片,讓它們同時(shí)執(zhí)行任務(wù),而單個(gè)芯片的性能跟個(gè)人電腦的芯片是差不多的。用科學(xué)術(shù)語(yǔ)來(lái)說(shuō),這叫做“并行計(jì)算”,這是高性能計(jì)算的基本思路。

超算的算力是和核數(shù)有關(guān)的。但算力速度并不能與核數(shù)構(gòu)成正比例關(guān)系。實(shí)際上,要讓多個(gè)芯片同時(shí)運(yùn)行,就必須首先給它們劃分好任務(wù),這個(gè)任務(wù)劃分是要消耗時(shí)間的。然后,當(dāng)各個(gè)芯片開(kāi)始計(jì)算之后,還不時(shí)地要和其他芯片交換數(shù)據(jù),這個(gè)通信也是要消耗時(shí)間的。

超算的競(jìng)爭(zhēng)主要是超算系統(tǒng)中調(diào)度、分發(fā)、通信相關(guān)的軟硬件的競(jìng)爭(zhēng)。早期的超算中心,每一個(gè)節(jié)點(diǎn)要么純CPU,要么是CPU+加速卡的異構(gòu)計(jì)算方案。但從2010年前后開(kāi)始,純CPU的方案劣勢(shì)太大,越來(lái)越少地被采用。CPU+加速卡的異構(gòu)計(jì)算方案也存在很大缺點(diǎn),即計(jì)算的數(shù)據(jù)會(huì)反復(fù)在CPU和加速卡之間傳輸,造成大量的性能浪費(fèi)。

因此,為了更高的性價(jià)比和計(jì)算速度,早期國(guó)內(nèi)往往會(huì)購(gòu)買(mǎi)英特爾和英偉達(dá)兩家美國(guó)廠商的成熟產(chǎn)品。

再之后異構(gòu)計(jì)算進(jìn)入超算中心的眼簾。事實(shí)上,最近幾年曾經(jīng)在TOP500刷榜,或者排名靠前的超算都采用了異構(gòu)計(jì)算——中國(guó)神威太湖之光、美國(guó)超算泰坦、中國(guó)天河1號(hào)和天河2號(hào)。

泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn),每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD Opteron 6274處理器和1個(gè)英偉達(dá) Tesla K20加速器組成,共計(jì)299008個(gè)運(yùn)算核心,屬于CPU+GPU。



天河1號(hào)使用了14336片英特爾 Xeon X5670處理器和7168片英偉達(dá) Tesla M2050高性能計(jì)算卡,屬于CPU+GPU。

天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由2片英特爾的E5 2692和3片Xeon PHI組成,共使用了32000片英特爾的E5 2692和48000片Xeon PHI,屬于CPU+眾核芯片。正在升級(jí)的天河2號(hào)則將美國(guó)的Xeon PHI換成了自主研發(fā)的矩陣2000,屬于CPU+DSP。

神威·太湖之光使用的sw26010將兩個(gè)部分的電路,集成到了一個(gè)芯片上(片上異構(gòu)),這樣既避免了純CPU不擅長(zhǎng)專(zhuān)業(yè)計(jì)算的劣勢(shì),又避免了加速卡不能和CPU共享內(nèi)存的問(wèn)題。使得sw26010在設(shè)計(jì)團(tuán)隊(duì)規(guī)模很小,制程落后整整兩代的情況,實(shí)現(xiàn)了和英特爾類(lèi)似產(chǎn)品相似的功耗和性能。

太湖之光的成功,啟迪了后來(lái)日本的“富岳”超算?!案辉馈蓖瑯訏仐壛嗣绹?guó)成熟的計(jì)算方案,購(gòu)買(mǎi)ARMv8.2-A指令集開(kāi)發(fā)管理核心,并自研專(zhuān)業(yè)計(jì)算模塊,推出了富士通版的片上異構(gòu)芯片A64FX。


總結(jié)

我國(guó)在發(fā)展超算中心的途中,仍有許多問(wèn)題。國(guó)產(chǎn)芯片研究起步較晚,CPU、GPU等超算核心芯片指令集架構(gòu)領(lǐng)域仍然存在明顯短板,缺乏高端芯片制造能力。EDA和編程平臺(tái)長(zhǎng)期面臨卡脖子風(fēng)險(xiǎn),核心設(shè)備依賴(lài)進(jìn)口,自主權(quán)和議價(jià)權(quán)仍由國(guó)外巨頭掌控。