九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺電子信息窗口

數(shù)據(jù)互聯(lián)在AI時代愈發(fā)重要,芯片之間及內(nèi)部的互聯(lián)技術(shù)有哪些?

2024-05-28 來源:賢集網(wǎng)
2161

關(guān)鍵詞: 人工智能 芯片 AMD

人工智能毫無疑問是全球最火熱的技術(shù),同時也成為了半導(dǎo)體行業(yè)最炙手可熱的新市場。在人工智能技術(shù)中,目前看來影響力最大的技術(shù)將會是大模型技術(shù),其核心特點就是通過使用規(guī)模巨大(參數(shù)可達百億到千億數(shù)量級)的模型,并且在海量的數(shù)據(jù)上訓(xùn)練,來實現(xiàn)人工智能能力的突破,并且賦能新的應(yīng)用,其中典型的例子就是去年下半年開始獲得萬眾關(guān)注的ChatGPT;而在未來,大模型的復(fù)雜度預(yù)計會進一步提升,以滿足應(yīng)用的需求。


訓(xùn)練和部署大模型需要強而有力的硬件支持,而這也是人工智能時代芯片成為核心技術(shù)的原因,因為大模型需要的算力歸根到底來自于芯片,同時人工智能市場的發(fā)展也極大地推動了芯片行業(yè)的市場規(guī)模,以及相關(guān)芯片技術(shù)的演進。



在給人工智能大模型提供足夠的算力用于訓(xùn)練和部署的核心芯片技術(shù)中,數(shù)據(jù)互聯(lián)正在占據(jù)越來越重要的位置。芯片互聯(lián)越來越重要主要出于兩個原因:

首先,隨著大模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)容量快速提升,訓(xùn)練和部署最新的大模型一定會使用分布式計算,因為單機幾乎不可能提供運行大模型的足夠算力。在分布式計算中,隨著分布式計算節(jié)點數(shù)量提升,理想情況下計算能力是隨著計算節(jié)點數(shù)量線性提升,但是現(xiàn)實中由于不同計算節(jié)點間的數(shù)據(jù)交互需要額外的開銷,因此只能接近而無法真正實現(xiàn)計算能力隨著計算節(jié)點增加而線性增加。換句話說,隨著模型規(guī)模越來越大,需要的分布式節(jié)點數(shù)量越來越多,對于這類分布式計算節(jié)點間的數(shù)據(jù)互聯(lián)需求(帶寬,延遲,成本等)也就越來越高,否則這類分布式計算中的數(shù)據(jù)互聯(lián)將會成為整體計算中的效率瓶頸。

其次,從芯片層面考慮,隨著摩爾定律越來越接近物理極限,目前以chiplet(芯片粒)為代表的高級封裝技術(shù)正在成為芯片性能提升的重要方式。使用chiplet可以把單個復(fù)雜的大芯片系統(tǒng)分成多個小的芯片粒,每個芯片粒都可以用最合適的工藝去單獨制造,因此確保復(fù)雜的芯片系統(tǒng)可以以合理的成本和良率來制造。對于人工智能大模型而言,用于訓(xùn)練和部署的芯片的規(guī)模都非常大,因此chiplet將會成為支持人工智能芯片的核心技術(shù)。而在chiplet方案中,多個chiplet之間的數(shù)據(jù)通信也需要數(shù)據(jù)互聯(lián)技術(shù),換句話說高帶寬、高密度的數(shù)據(jù)互聯(lián)將會成為使用chiplet搭建的人工智能加速芯片中的核心組件。

如上所述,在人工智能時代,數(shù)據(jù)互聯(lián)將會成為核心技術(shù),而其中最關(guān)鍵同時也是未來將會有最多發(fā)展的數(shù)據(jù)互聯(lián)方案,就是用于分布式計算中的中長距離數(shù)據(jù)互聯(lián),以及用于chiplet場景中的超短距離數(shù)據(jù)互聯(lián)。


超越 PCIe:AI 芯片廠商自研互聯(lián)技術(shù)

由于PCIe技術(shù)的發(fā)展速度跟不上時代需求,目前主流的AI芯片廠商都已經(jīng)自研了互聯(lián)技術(shù),其中較為代表的就是英偉達的NVLink和AMD的Infinity Fabric。


英偉達的NVLink

自2014年開始,英偉達在其GPU中引入了NVLink互聯(lián)技術(shù)。NVLink 是由 Nvidia 開發(fā)的一種高帶寬、低延遲的點對點數(shù)據(jù)傳輸通道。它的主要用途是連接 Nvidia GPU,或者 GPU 與 CPU 之間的通信,允許它們以高速率共享數(shù)據(jù)。這對于那些要求高數(shù)據(jù)吞吐量和低通信延遲的應(yīng)用至關(guān)重要,如深度學(xué)習、科學(xué)計算和大規(guī)模模擬。過去十年間,NVLink已成為英偉達GPU芯片的核心技術(shù)及其生態(tài)系統(tǒng)的重要組成部分。

讓我們再來細細回顧下NVLink這一技術(shù)的發(fā)展歷程。2014年,NVLink 1.0發(fā)布并在P100 GPU芯片之間實現(xiàn),兩個GPU之間有四個NVLink,每個鏈路由八個通道組成,每個通道的速度為20Gb/s,系2統(tǒng)整體雙向帶寬為160GB/s(20*8*4*2)/8=160GB/s),是PCle3x16的五倍;

2017年英偉達推出了第二代NVLink,兩個V100 GPU芯片之間通過六個NVLink 2.0連接,每個鏈路也是由八個通道組成,不過每個通道的速度提升至為25Gb/s,從而實現(xiàn)300GB/s的雙向系統(tǒng)帶寬(25*8*6*2)/8=300GB/s),幾乎是NVLink1.0的兩倍。此外,為了實現(xiàn)八個GPU之間的完全互連,Nvidia引入了NVSwitch技術(shù)。NVSwitch1.0有18個端口,每個端口的帶寬為50GB/s,總帶寬為900GB/s。每個NVSwitch保留兩個用于連接CPU的端口。通過使用6個NVSwitch,可以在8個GPUV100芯片之間建立一個全連接的網(wǎng)絡(luò)。

2020年,推出NVLink 3.0技術(shù)。它通過12個NVLink連接連接兩個GPU A100芯片,每個鏈路由四個通道組成。每個通道以50Gb/s的速度運行,從而產(chǎn)生600GB/s的雙向系統(tǒng)帶寬,是NVLink2.0的兩倍。隨著NVLink數(shù)量的增加,NVSwitch上的端口數(shù)量也增加到36個,每個端口的運行速度為50GB/s。

2022年,NVLink技術(shù)升級到第四代,允許兩個GPU H100芯片通過18條NVLink鏈路互連。每個鏈路由2個通道組成,每個通道支持100Gb/s(PAM4)的速度,從而使雙向總帶寬增加到900GB/s。NVSwitch也升級到了第三代,每個NVSwitch支持64個端口,每個端口的運行速度為 50GB/s。

2024年,隨著英偉達全新Blackwell架構(gòu)的發(fā)布,NVLink 5.0也隨之而來。NVLink 5.0以每秒100 GB的速度在處理器之間移動數(shù)據(jù)。每個 GPU 有 18 個 NVLink 連接,Blackwell GPU 將為其他 GPU 或 Hopper CPU 提供每秒 1.8 TB 的總帶寬,這是 NVLink 4.0 帶寬的兩倍,是行業(yè)標準 PCIe Gen5 總線帶寬的 14 倍。NVSwitch升級到了第四代,每個NVSwitch支持144個NVLink 端口,無阻塞交換容量為 14.4TB/s。

NVLink設(shè)計之初,就是為了解決傳統(tǒng)的PCI Express (PCIe) 總線在處理高性能計算任務(wù)時帶寬不足的問題。從下面兩幅圖的對比中,可以發(fā)現(xiàn),從單通道速度的角度來看,NVLink的速度通常是同代PCle的兩倍左右。總帶寬的優(yōu)勢更加明顯,NVLink提供的總帶寬約為PCle的五倍。

除了NVLink,另外一個值得一提的互聯(lián)技術(shù)是InfiniBand。英偉達收購的Mellanox在InfiniBand領(lǐng)域也處于佼佼者。自收購Mellanox以來,NVIDIA也開始將NVLink技術(shù)與InfiniBand(IB)技術(shù)相結(jié)合,推出新一代NVSwitch芯片和具有SHARP功能的交換機,針對外部GPU服務(wù)器網(wǎng)絡(luò)進行了優(yōu)化。



InfiniBand是一種開放標準的網(wǎng)絡(luò)互連技術(shù),具有高帶寬、低延遲、高可靠性的特點。該技術(shù)由 IBTA(InfiniBand 貿(mào)易聯(lián)盟)定義。該技術(shù)廣泛應(yīng)用于超級計算機集群領(lǐng)域。同時,隨著人工智能的興起,它也是GPU服務(wù)器的首選網(wǎng)絡(luò)互連技術(shù)。由于 RDMA(遠程直接內(nèi)存訪問)等功能,InfiniBand 在人工智能等數(shù)據(jù)密集型任務(wù)中通常優(yōu)于以太網(wǎng)。據(jù)Dell'Oro 估計,約90%的AI部署都是使用Nvidia/Mellanox的InfiniBand,而不是以太網(wǎng)。這些部署將 Nvidia 的網(wǎng)絡(luò)收入推至每年100億美元。

傳奇CPU設(shè)計師兼Tenstorrent首席執(zhí)行官 Jim Keller是開放標準的堅定支持者,他建議 Nvidia應(yīng)該在基于 Blackwell 的GB200 GPU 中使用以太網(wǎng)協(xié)議芯片到芯片連接,而不是專有的NVLink,背后的主要原因是,這可能會使軟件移植到其他硬件平臺變得更加復(fù)雜。而凱勒認為,使用以太網(wǎng)協(xié)議可以為英偉達及其硬件用戶節(jié)省大量資金。


AMD的Infinity Fabric

與英偉達的NVLink相似,AMD則推出了其Infinity Fabric技術(shù),支持芯片間、芯片對芯片,以及即將推出的節(jié)點對節(jié)點的數(shù)據(jù)傳輸。Infinity Fabric是AMD在其“Zen”微架構(gòu)中引入的一個關(guān)鍵特性,旨在提高整體系統(tǒng)性能,特別是在多核心處理器和數(shù)據(jù)中心環(huán)境中。

Infinity Fabric由兩部分組成:數(shù)據(jù)布線(Data Fabric)和控制布線(Control Fabric)。數(shù)據(jù)布線用于處理器內(nèi)部和處理器之間的數(shù)據(jù)傳輸,而控制布線則負責處理器的功耗、時鐘和安全性等方面的管理。Infinity Fabric的主要特點包括:1)高效率:Infinity Fabric設(shè)計用于提供高效率的數(shù)據(jù)傳輸,支持多個設(shè)備之間的高速通信;2)模塊化:Infinity Fabric支持AMD的小芯片(chiplet)架構(gòu),允許不同功能的芯片模塊通過高速互連進行組合;3)內(nèi)存共享:Infinity Fabric支持CPU和GPU之間的內(nèi)存共享,有助于提高異構(gòu)計算的效率;4)擴展性:Infinity Fabric的設(shè)計允許它隨著技術(shù)進步和需求增長而擴展。

AMD最新的AI加速器Instinct MI300X 平臺,就通過第四代AMD Infinity Fabric鏈路將 8 個完全連接的 MI300X GPU OAM 模塊集成到行業(yè)標準 OCP 設(shè)計中,為低延遲 AI 處理提供高達 1.5TB HBM3 容量。第四代 Infinity Fabric支持每通道高達 32Gbps,每鏈路產(chǎn)生 128GB/s 的雙向帶寬。

不同于英偉達NVLink僅限于內(nèi)部使用,AMD已經(jīng)開始向新合作伙伴開放其 Infinity Fabric 生態(tài)系統(tǒng)。在去年年末AMD MI3000的發(fā)布會上,Broadcom宣布其下一代PCIe交換機將支持XGMI/Infinity Fabric。不僅如此,AMD還希望Arista、博通、Cisco等合作伙伴能推出適用于 Infinity Fabric 等產(chǎn)品的交換機,能夠方便MI3000在單一系統(tǒng)外實現(xiàn)芯片間通信。這類似于英偉達的NVSwitch。


英特爾:以太網(wǎng)的堅實擁護者

英特爾的用于生成式AI的Gaudi AI芯片則一直沿用傳統(tǒng)的以太網(wǎng)互聯(lián)技術(shù)。Gaudi 2 每個芯片使用了24 個 100Gb以太網(wǎng)鏈路;Gaudi 3也使用了24 個 200 Gbps 以太網(wǎng) RDMA NIC,但是他們將這些鏈路的帶寬增加了一倍,達到 200Gb/秒,使芯片的外部以太網(wǎng) I/O 總帶寬達到 8.4TB/秒。

在近日的intel vision峰會上,英特爾還宣布正在開發(fā)一款用于超以太網(wǎng)聯(lián)盟(UEC)兼容網(wǎng)絡(luò)的 AI NIC ASIC 以及一款 AI NIC 小芯片,這些創(chuàng)新的AI高速互聯(lián)技術(shù)(AI Fabrics)將用于其未來的 XPU 和 Gaudi 3 處理器。這些創(chuàng)新旨在革新可大規(guī)模縱向(scale-up)和橫向(scale-out)擴展的AI高速互聯(lián)技術(shù)。

一直以來,英特爾都希望通過采用純以太網(wǎng)交換機來贏得那些不想投資 InfiniBand 等專有/替代互連技術(shù)的客戶。InfiniBand非常適合那些運行少量非常大的工作負載(例如 GPT3 或數(shù)字孿生)的用戶。但在更加動態(tài)的超大規(guī)模和云環(huán)境中,以太網(wǎng)通常是首選。Nvidia 最新的 Quantum InfiniBand 交換機的最高速度為 51.2 Tb/s,端口為 400 Gb/s。相比之下,以太網(wǎng)交換在近兩年前就達到了 51.2 Tb/s,并可支持 800 Gb/s 的端口速度。

雖然InfiniBand在很多情況下表現(xiàn)都不錯,但它也有缺點,比如只能在特定范圍內(nèi)使用,而且成本也不低,將整個網(wǎng)絡(luò)升級到 InfiniBand 需要大量投資。相比之下,以太網(wǎng)因為兼容性強,成本適中,以及能夠勝任大多數(shù)工作負載,所以在網(wǎng)絡(luò)技術(shù)領(lǐng)域里一直很受歡迎,建立了一個龐大的“以太網(wǎng)生態(tài)”。

Dell'Oro 預(yù)計 InfiniBand將在可預(yù)見的未來保持其在 AI 交換領(lǐng)域的領(lǐng)先地位,但該集團預(yù)測在云和超大規(guī)模數(shù)據(jù)中心運營商的推動下,以太網(wǎng)將取得大幅增長,到2027 年大約將占據(jù)20%的市場份額。

不僅是英特爾,在2023年的AI Day上,AMD也表示將重點支持以太網(wǎng),特別是超級以太網(wǎng)聯(lián)盟。雖然 Infinity Fabric提供了GPU之間的一致互連,但AMD正在推廣以太網(wǎng)作為其首選的 GPU 到 GPU網(wǎng)絡(luò)。

此外,英特爾還提出了一種開放性互聯(lián)協(xié)議Compute Express Link(CXL)。關(guān)于CXL互聯(lián)技術(shù),業(yè)界看法不一。英偉達的GPU一向單打獨斗,并不支持CXL;AMD透露其MI300A會支持CXL。目前來看,像三星、SK海力士、美光等存儲廠商更加青睞于CXL。



互連在先進封裝中的重要性

首先,需要注意的是,互連技術(shù)是封裝中關(guān)鍵且必要的部分。芯片通過封裝互連以接收電力、交換信號并最終進行操作。由于半導(dǎo)體產(chǎn)品的速度、密度和功能根據(jù)互連方式而變化,因此互連方法也在不斷變化和發(fā)展。

除了開發(fā)各種工藝以在晶圓廠實現(xiàn)精細圖案外,還全面努力推進封裝工藝中的互連技術(shù)。因此,開發(fā)了以下四種類型的互連技術(shù):引線鍵合、倒裝芯片鍵合、硅通孔 (TSV) 鍵合以及小芯片混合鍵合。


引線鍵合

引線鍵合是第一種開發(fā)的互連方法。通常,具有良好電性能的材料(例如金、銀和銅)被用作連接芯片和基板的導(dǎo)線。這是最具成本效益且可靠的互連方法,但由于其電氣路徑較長,因此不適合需要高速操作的較新設(shè)備。因此,這種方法被用于不需要快速操作的移動設(shè)備中使用的移動 DRAM 和 NAND 芯片。


倒裝芯片鍵合

倒裝芯片接合 克服了引線鍵合的缺點。其電氣路徑的長度是引線鍵合的十分之幾,使其適合高速操作。與在芯片級執(zhí)行的引線鍵合相比,在晶圓級進行處理的倒裝芯片鍵合還提供了卓越的生產(chǎn)率。因此,它被廣泛應(yīng)用于CPU、GPU和高速DRAM芯片的封裝。此外,由于可以在芯片的整個側(cè)面形成凸塊,因此可以比引線鍵合擁有更多的輸入和輸出 (I/O),從而有可能提供更高的數(shù)據(jù)處理速度。然而,倒裝芯片接合也有其自身的缺點。首先,難以進行多芯片堆疊,這對于需要高密度的存儲產(chǎn)品來說是不利的。此外,盡管倒裝芯片鍵合可以比引線鍵合連接更多的 I/O,和有機 PCB 間距阻止連接更多數(shù)量的 I/O。為了克服這些限制,開發(fā)了 TSV 鍵合技術(shù)。


硅通孔 (TSV) 鍵合

TSV不采用傳統(tǒng)的布線方法來連接芯片與芯片,而是通過在芯片上鉆孔并填充金屬等導(dǎo)電材料以容納電極來垂直連接芯片。制作帶有TSV的晶圓后,通過封裝在其頂部和底部形成微凸塊,然后連接這些凸塊。由于 TSV 允許凸塊垂直連接,因此可以實現(xiàn)多芯片堆疊。最初,使用 TSV 接合的堆棧有四層,后來增加到八層。最近,一項技術(shù)使得堆疊 12 層成為可能,并于 2023 年 4 月SK hynix 開發(fā)了其 12 層 HBM3。雖然 TSV 倒裝芯片接合方法通常使用基于熱壓的非導(dǎo)電薄膜 (TC-NCF),但 SK hynix 使用 MR-MUF 4 工藝,可以減少堆疊壓力并實現(xiàn)自對準。5這些特性使 SK hynix 能夠開發(fā)出世界上第一個 12 層 HBM3。

如上所述,引線、倒裝芯片和 TSV 鍵合在封裝工藝的各個領(lǐng)域中發(fā)揮著各自的作用。盡管如此,最近出現(xiàn)了一種新的互連技術(shù),稱為銅對銅直接鍵合,它是混合鍵合的一種。


與小芯片的混合鍵合

術(shù)語“混合”用于表示同時形成兩種類型的界面結(jié)合6。界面結(jié)合的兩種類型是:氧化物界面之間的結(jié)合和銅之間的結(jié)合。這項技術(shù)并不是新開發(fā)的技術(shù),但多年來已經(jīng)用于 CMOS 圖像傳感器的大規(guī)模生產(chǎn)。然而,由于小芯片的使用增加,它最近引起了更多關(guān)注。Chiplet技術(shù)將各個芯片按功能分離,然后通過封裝將它們重新連接起來,在單個芯片上實現(xiàn)多種功能。

盡管小芯片的功能是該技術(shù)的一個明顯優(yōu)勢,但采用它們的主要原因是成本效益。當所有功能都在單個芯片上實現(xiàn)時,芯片尺寸會增加,并且不可避免地導(dǎo)致晶圓生產(chǎn)過程中良率的損失。此外,雖然芯片的某些區(qū)域可能需要昂貴且復(fù)雜的技術(shù),但其他區(qū)域可以使用更便宜的傳統(tǒng) 技術(shù)來完成。因此,由于芯片無法分離,制造工藝變得昂貴,因此即使只有很小的面積需要精細技術(shù),也要將精細技術(shù)應(yīng)用于整個芯片。然而,小芯片技術(shù)能夠分離芯片功能,從而可以使用先進或傳統(tǒng)的制造技術(shù),從而節(jié)省成本。

雖然chiplet技術(shù)的概念已經(jīng)存在十多年了,但由于缺乏能夠互連芯片的封裝技術(shù)的發(fā)展,它并沒有被廣泛采用。然而,芯片到晶圓 (C2W) 混合鍵合的最新進展顯著加速了小芯片技術(shù)的采用。C2W 混合鍵合具有多種優(yōu)勢。首先,它允許無焊料鍵合,從而減少鍵合層的厚度、縮短電氣路徑并降低電阻。因此,小芯片可以高速運行而無需任何妥協(xié)——就像單個芯片一樣。其次,通過直接將銅與銅接合,可以顯著減小凸塊上的間距。目前,使用焊料時很難實現(xiàn) 10 微米 (μm) 或更小的凸塊間距。然而,銅對銅直接鍵合可以將間距減小到小于一微米,從而提高芯片設(shè)計的靈活性。第三,它提供了先進的散熱功能,這一封裝功能在未來只會繼續(xù)變得越來越重要。最后,上述的薄粘合層和細間距影響了封裝的形狀因數(shù),因此可以大大減小封裝的尺寸。

然而,與其他鍵合技術(shù)一樣,混合鍵合仍然需要克服挑戰(zhàn)。為了確保穩(wěn)定的質(zhì)量,必須在納米尺度上改進顆??刂疲刂普澈蠈拥钠秸热匀皇且粋€主要障礙。同時,SK海力士計劃使用最高功率的封裝解決方案來開發(fā)混合鍵合,以便將其應(yīng)用于未來的HBM產(chǎn)品。