AI迸發(fā)高數(shù)據(jù)存儲(chǔ)需求,這些存儲(chǔ)技術(shù)大放光彩
人工智能AI吹起新一輪科技革命浪潮,衍生出諸多新興應(yīng)用,龐大的需求驅(qū)動(dòng)存儲(chǔ)技術(shù)更迭。隨著AI模型和數(shù)據(jù)集不斷擴(kuò)大,高效、高性能的存儲(chǔ)顯得愈發(fā)關(guān)鍵,符合AI模型需求的DDR、GDDR、HBM技術(shù)從幕后走向臺(tái)前,并隨著AI發(fā)展而不斷推陳出新。
DRAM,走向3D
1966年的秋天,IBM研究中心的Robert H. Dennard發(fā)明了動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM),幾十年后,這份偉大的成就為半導(dǎo)體行業(yè)締造了一個(gè)影響巨大且市場規(guī)模超千億美元的產(chǎn)業(yè)帝國。
也是在這數(shù)十年間,摩爾定律一直是業(yè)界崇尚的黃金法則,也一直是半導(dǎo)體性能和成本的驅(qū)動(dòng)因素。
早前的DRAM可以滿足業(yè)界需求,但隨著摩爾定律推進(jìn)速度放緩,DRAM技術(shù)工藝也逐漸步入了瓶頸期。
從技術(shù)角度上看,隨著晶體管尺寸越來越小,芯片上集成的晶體管就越多,這意味著一片芯片能實(shí)現(xiàn)更高的內(nèi)存容量。目前DRAM芯片工藝已經(jīng)突破到了10nm級(jí)別。
雖然10nm還不是DRAM的最后極限,但多年來隨著DRAM制程節(jié)點(diǎn)不斷縮小,工藝完整性、成本、電容器漏電和干擾、傳感裕度等方面的挑戰(zhàn)愈發(fā)明顯,要在更小的空間內(nèi)實(shí)現(xiàn)穩(wěn)定的電荷存儲(chǔ)和讀寫操作變得日益困難。
據(jù)Tech Insights分析,通過增高電容器減小面積以提高位密度(即進(jìn)一步減小單位存儲(chǔ)單元面積)的方法即將變得不可行。
上圖顯示,半導(dǎo)體行業(yè)預(yù)計(jì)能夠在單位存儲(chǔ)單元面積達(dá)到約10.4E-4μm2前(也就是大約2025年)維持2D DRAM架構(gòu)。之后,空間不足將成為問題,這將提升對垂直架構(gòu),也就是3D DRAM的需求。
另一方面,隨著數(shù)據(jù)量爆炸性增長,尤其是云計(jì)算、人工智能、大數(shù)據(jù)分析等領(lǐng)域?qū)Ω咚?、大容量、低延遲內(nèi)存的需求持續(xù)攀升,市場對更高密度、更低功耗、更大帶寬的DRAM產(chǎn)品有著強(qiáng)烈需求。
在市場需求和技術(shù)創(chuàng)新的驅(qū)動(dòng)下,3D DRAM成為了業(yè)界迫切想突破DRAM工藝更高極限的新路徑。
探索GDDR過往,GDDR7已來
GDDR英文全稱Graphics Double Data Rate DRAM,是專為圖形處理而設(shè)計(jì)的高性能DDR存儲(chǔ)器規(guī)格,簡稱為顯存。顯存最關(guān)鍵的應(yīng)用領(lǐng)域便是顯卡,后者應(yīng)用于新媒體和電腦游戲、炒賣加密貨幣、AI強(qiáng)化學(xué)習(xí)(如ChatGPT、Sora)等領(lǐng)域。而用于顯卡的DRAM,需要具備兩個(gè)關(guān)鍵的特性,高密度尋址能力和配備的高性能,早期因主要考慮兼容CPU,顯卡大多采用DDR內(nèi)存,不過近年隨著圖像處理需求的增加,顯卡逐漸轉(zhuǎn)向?qū)镚PU設(shè)計(jì)的GDDR。
業(yè)界指出,GDDR有專屬的工作頻率、時(shí)鐘頻率、電壓,因此與市面上標(biāo)準(zhǔn)的DDR存儲(chǔ)器有所差異,與普通DDR內(nèi)存不同,且不能共用。一般它比主內(nèi)存中使用的普通DDR存儲(chǔ)器時(shí)鐘頻率更高,發(fā)熱量更小,具有更高的頻率和帶寬,所以更適用于中高端顯卡。
目前,GDDR已成為人工智能、大數(shù)據(jù)應(yīng)用領(lǐng)域中最熱門的內(nèi)存芯片之一。從類型上看,GDDR包括GDDR2、GDDR3、GDDR4、GDDR5、GDDR5X、GDDR6和GDDR6X等,GDDR5和GDDR6是高端顯卡上常見的顯存類型。其實(shí),前兩代的GDDR和GDDR2并沒有得到GPU廠商的大規(guī)模應(yīng)用,但隨著性能的提升,第三代GDDR3數(shù)據(jù)傳輸速率最高達(dá)到2.5GHz,第四代GDDR4雖然性能有了進(jìn)一步變化,但由于下游廠商對GDDR4標(biāo)準(zhǔn)意見不一,市場度接受度不高。為此GDDR3成為當(dāng)時(shí)市場主流技術(shù),包括英偉達(dá)和AMD等頭部GPU廠商都使用的GDDR3。
從2008年后,產(chǎn)品更新至GDDR5,因具備更高的時(shí)鐘頻率和數(shù)據(jù)傳輸速率成為高性能顯卡的標(biāo)配,GDDR5與GDDR4、GDDR3一樣,皆是基于DDR3技術(shù)開發(fā)而來。據(jù)悉,GDDR5之后,英偉達(dá)與美光共同合作推出GDDR5X半代產(chǎn)品,應(yīng)用于前者的高端顯卡。
據(jù)悉,英偉達(dá)是首家在其RTX 30 系列GPU中選擇GDDR6X內(nèi)存的供應(yīng)商,至少是高端GPU。GDDR6X將每引腳帶寬以14Gbps增加到21Gbps,將總帶寬增加到1008GB/s,甚至超過3072位寬的HBM2堆棧。值得一提是,GDDR6X還引入了PAM4(Pulse Amplitude Modulation 4)信號(hào)技術(shù),顯著提高了數(shù)據(jù)傳輸速率。
目前,今年來,美光、三星和SK海力士均表示已開始提供GDDR7內(nèi)存樣品。具體來看,三星GDDR7芯片通過首次應(yīng)用PAM3信號(hào),能夠在僅1.1 V的DRAM電壓下實(shí)現(xiàn)32 Gbps的速度,這超過了JEDEC的GDDR7規(guī)范中的1.2 V;SK海力士與其前身GDDR6相比,最新的GDDR7產(chǎn)品提供的最大帶寬達(dá)到160GB/s,是其上一代產(chǎn)品(GDDR6位80GB/s)的兩倍,功耗效率提升了40%,內(nèi)存密度提升1.5倍;美光GDDR7具有28GB/s和32Gb/s兩種速度,采用其1β (1-beta) DRAM 技術(shù)制造,其效率比GDDR6 提高了50%。
HBM3成為主力
作為存儲(chǔ)領(lǐng)域三大巨頭——三星、海力士和美光是HBM3e技術(shù)的引領(lǐng)者,HBM3e的高熱需求推動(dòng)三大存儲(chǔ)巨頭的技術(shù)迭代。其中,美光利用1β(1-beta)技術(shù)、先進(jìn)的硅通孔(TSV)技術(shù)和優(yōu)化的封裝設(shè)計(jì),推出了其HBM3產(chǎn)品。這些技術(shù)的結(jié)合使得美光的HBM3產(chǎn)品在性能、功耗和散熱方面都展現(xiàn)出卓越的表現(xiàn)。1β技術(shù)可以提升存儲(chǔ)器的能效比,降低功耗;而先進(jìn)的硅通孔(TSV)技術(shù)能提高封裝密度,降低信號(hào)傳輸延遲,從而提高產(chǎn)品的性能。此外,優(yōu)化的封裝設(shè)計(jì)也有助于提高產(chǎn)品的散熱性能,保證其長期穩(wěn)定運(yùn)行。
三星采用先進(jìn)的熱壓非導(dǎo)電薄膜技術(shù),使得HBM3e 12層和HBM3 8層堆疊產(chǎn)品的高度保持一致,以滿足當(dāng)前HBM封裝的要求。不僅保持了產(chǎn)品高度的一致性,還提高了產(chǎn)品的垂直密度。具體來說,HBM3e產(chǎn)品的垂直密度比上一代的產(chǎn)品提高了20%以上。此外,三星的熱壓非導(dǎo)電薄膜技術(shù)還可以通過允許在芯片之間使用不同尺寸的凸塊(bump)來改善HBM的熱性能,從而提高產(chǎn)品的整體性能。
簡而言之,HBM高帶寬存儲(chǔ)的爆火需求,對于整個(gè)行業(yè)來說既是機(jī)遇也是挑戰(zhàn)。隨著人工智能、大數(shù)據(jù)、云計(jì)算等技術(shù)的不斷發(fā)展,HBM高帶寬存儲(chǔ)的需求也在不斷增加。對于存儲(chǔ)廠商來說,這是一個(gè)巨大的市場機(jī)遇。然而,這也意味著廠商需要不斷提升技術(shù)水平,以滿足市場需求。同時(shí),激烈的市場競爭也給廠商帶來了挑戰(zhàn)。因此,存儲(chǔ)廠商需要不斷創(chuàng)新,提高產(chǎn)品質(zhì)量和性能,以獲得更多的市場份額。
近存方案,更大的SRAM和HBM
對于我們說的存儲(chǔ)墻而言,其實(shí)在SRAM上并不那么明顯,這種最接近處理單元的存儲(chǔ),常被用作高速緩存,不僅讀寫速度極快,能效比更是遠(yuǎn)超DRAM。但SRAM相對其他存儲(chǔ)而言,存儲(chǔ)密度最低,成本卻不低。所以盡管現(xiàn)如今雖然更大的SRAM設(shè)計(jì)越來越普遍,但容量離DRAM還差得很遠(yuǎn)。
但這并不代表這樣的設(shè)計(jì)沒有人嘗試,對于愿意花大成本的廠商而言,還是很高效的一條技術(shù)路線。以特斯拉為例,其Tesla Dojo超算系統(tǒng)的自研芯片D1就采用了超大SRAM的技術(shù)路線。Dojo在其網(wǎng)格設(shè)計(jì)中采用了超快且平均分布的SRAM。
單個(gè)D1核心擁有1.25MB的SRAM,加載速度達(dá)到400GB/s,存儲(chǔ)速度達(dá)到270GB/s。單個(gè)D1芯片的SRAM緩存達(dá)到440MB。簡單來說,Dojo可以用遠(yuǎn)超L2緩存級(jí)別的SRAM容量,實(shí)現(xiàn)L1緩存級(jí)別的帶寬和延遲。
當(dāng)然了,這樣的設(shè)計(jì)注定代表了大量的成本投入。在特斯拉2023財(cái)年Q4的財(cái)報(bào)會(huì)議上,馬斯克強(qiáng)調(diào)他們做了英偉達(dá)和Dojo的兩手準(zhǔn)備。Dojo作為長遠(yuǎn)計(jì)劃,因?yàn)樽罱K的回報(bào)可能會(huì)值回現(xiàn)在的投入,但他也強(qiáng)調(diào)這確實(shí)不是什么高收益的項(xiàng)目。
所以對于已有的計(jì)算架構(gòu)來說,走近存路線,提高DRAM的性能是最為適合的,比如HBM。HBM作為主流的近存高帶寬方案,已經(jīng)被廣泛應(yīng)用在新一代的AI芯片、GPU上。以HBM3e為例,1.2TB/s的超大帶寬足以滿足現(xiàn)如今絕大多數(shù)AI芯片的數(shù)據(jù)傳輸,未來的HBM4更是承諾1.5TB/s到2TB/s的帶寬。
HBM的方案象征了目前DRAM堆疊的集大成技術(shù),但目前還是存在不少問題,比如更高的成本以及對產(chǎn)能的要求。在現(xiàn)如今的AI需求驅(qū)動(dòng)下,新發(fā)布的芯片很難再采用HBM設(shè)計(jì)的同時(shí),保證大批量量產(chǎn),無論是HBM產(chǎn)能還是CoWoS產(chǎn)能都處于滿載的階段,而且與制造廠商強(qiáng)綁定。可恰恰存儲(chǔ)帶寬決定了AI應(yīng)用的速度,所以在HBM方案量產(chǎn)困難成本高昂的前提下,即便是英特爾和AMD這樣的廠商也經(jīng)不起這樣揮霍,不少其他廠商更是選擇了看向存內(nèi)計(jì)算。
存內(nèi)計(jì)算與處理,需要解決算力與存儲(chǔ)雙瓶頸
為了解決AI計(jì)算中數(shù)據(jù)存取的效率問題,把數(shù)據(jù)處理和篩選的工作放在存儲(chǔ)端,就能極大地降低數(shù)據(jù)移動(dòng)的能耗。以三星的PIM技術(shù)為例,其將關(guān)鍵的算法內(nèi)核放在內(nèi)存中的PCU模塊中執(zhí)行,相比已有的HBM方案,PIM-HBM可以將能耗降低70%以上。而且不僅是HBM,PIM也可以集成到LPDDR、GDDR等存儲(chǔ)方案中。
不過存內(nèi)處理的方案只解決了功耗和效率的問題,并沒有對計(jì)算性能和存儲(chǔ)性能帶來任何大幅提升。至于將主要計(jì)算工作交給存內(nèi)的計(jì)算單元,就是存內(nèi)計(jì)算的目標(biāo)了,比如不少廠商嘗試的模擬存內(nèi)計(jì)算(AIMC)。但這類方案實(shí)現(xiàn)大規(guī)模并行化運(yùn)算的同時(shí),還是需要昂貴的數(shù)模轉(zhuǎn)換器,以及逃不開的錯(cuò)誤檢測。至于數(shù)字存內(nèi)計(jì)算方案,一定程度上規(guī)避了模擬存內(nèi)計(jì)算的缺陷,但還是犧牲了一些面積效率。對于一些大模型AI應(yīng)用而言,單芯片的存儲(chǔ)容量擴(kuò)展性堪憂。
所以數(shù)?;旌铣闪诵碌难芯糠较颍热缰锌圃何㈦娮友芯克驮诮衲甑腎SSCC大會(huì)上發(fā)表了數(shù)?;旌洗嫠阋惑w芯片的論文,其采用模擬方案來進(jìn)行陣列內(nèi)位乘法計(jì)算,利用數(shù)字方案來進(jìn)行陣列外多位移位累加計(jì)算,從而達(dá)到整體的高能量效率和面積效率,INT8精度下的計(jì)算峰值能效可達(dá)111.17TFLOPS/W。
除此之外,還有存間計(jì)算的廠商,將計(jì)算單元放在不同的SRAM之間。以存間計(jì)算初創(chuàng)公司Untether AI為例,他們以打造存內(nèi)推理加速器AI為主,通過將計(jì)算單元放在兩個(gè)存儲(chǔ)單元之間,其IC可以提供更高能效比的推理性能。比如他們在打造的第二代IC,speedAI240,集成了1400個(gè)定制RISC-V核心,可以提供至高2PetaFlops的推理性能,能耗比最高可達(dá)30 TFLOPS/W。
除了各種存算一體架構(gòu)的算力瓶頸外,存儲(chǔ)本身也需要做出突破。以三星的PIM為例,其雖然在DRAM上引入了PIM計(jì)算單元,但并未對DRAM本身的帶寬的性能帶來提升,這就造成了在存算一體的架構(gòu)中,依然存在計(jì)算單元與存儲(chǔ)器性能不平衡的問題,各種其他類型的存儲(chǔ)器,包括MRAM、PCM、RRAM,除了量產(chǎn)問題外,寫入速度和功耗的問題也還未實(shí)現(xiàn)突破。
西安紫光國芯為此提出了一種3D異質(zhì)集成DRAM架構(gòu),邏輯晶圓通過3D混合鍵合工藝堆疊至SeDRAM晶圓上,進(jìn)一步提升了訪存帶寬,降低了單位比特能耗,還能實(shí)現(xiàn)超大容量。從去年紫光國芯在VLSI 2023發(fā)布的論文來看,其SeDRAM已經(jīng)發(fā)展至新一代多層陣列架構(gòu)。結(jié)合低溫混合鍵合技術(shù)和mini-TSV堆疊技術(shù),可以實(shí)現(xiàn)135Gbps/Gbit的帶寬和0.66pJ/bit的能效。
寫在最后
其實(shí)無論是哪一種突破存儲(chǔ)墻瓶頸的方式,最終都很難逃脫復(fù)雜工藝帶來的挑戰(zhàn)。行業(yè)遲遲不愿普及相關(guān)的存算技術(shù),還是在制造工藝上沒有達(dá)到適合普及的標(biāo)準(zhǔn),無論是良率、成本還是所需的設(shè)計(jì)、制造流水線變化。已經(jīng)占據(jù)主導(dǎo)地位的計(jì)算芯片廠商,也不會(huì)選擇非得和存儲(chǔ)綁在一條船上,但行業(yè)必然會(huì)朝這個(gè)方向發(fā)展。
