提升芯片算力的最好“捷徑”是存算一體？多種技術(shù)線路打破存儲(chǔ)和功耗兩堵“高墻”

2022-11-22 來源：36氪&半導(dǎo)體產(chǎn)業(yè)縱橫

9110

摩爾定律逐漸走向消亡之際，應(yīng)用端對(duì)芯片性能的要求卻日漸提升。這種情況下，半導(dǎo)體從業(yè)人員就開始尋找另外的出路，存算一體就是其中的一個(gè)選擇。

所謂存算一體，從字面上理解，就是把存儲(chǔ)和計(jì)算融合成一體。眾所周知，現(xiàn)行的計(jì)算領(lǐng)域所流行的是馮諾依曼架構(gòu)。在這種架構(gòu)下，存儲(chǔ)和計(jì)算是分開的。這兩部分的制程技術(shù)還能同步發(fā)展，這也推動(dòng)了芯片性能在過去幾十年獲得了幾何級(jí)增長(zhǎng)。但進(jìn)入最近這些年，芯片碰到了“存儲(chǔ)墻”問題，疊加行業(yè)在存算一體技術(shù)研究的進(jìn)展，使得這個(gè)早在上世紀(jì)七十年代就被討論的技術(shù)，逐漸走向了臺(tái)前。

知存科技創(chuàng)始人創(chuàng)始人和CEO王紹迪也表示，摩爾定律走到頭了，就算強(qiáng)行繼續(xù)往下走，代價(jià)也非常大，帶來的提升又很有限。“為了在短期內(nèi)實(shí)現(xiàn)算力的繼續(xù)提升，存算一體是最好的方式?！?/span>

兩堵”墻”：存算一體技術(shù)發(fā)展的必要性

存算一體的發(fā)展是時(shí)代發(fā)展的要求，現(xiàn)有馮·諾伊曼計(jì)算系統(tǒng)采用存儲(chǔ)和運(yùn)算分離的架構(gòu)，存在“存儲(chǔ)墻”與“功耗墻”瓶頸，嚴(yán)重制約系統(tǒng)算力和能效的提升。

在馮·諾伊曼架構(gòu)的核心設(shè)計(jì)中計(jì)算機(jī)的組成架構(gòu)包括運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備五部分。

在馮·諾伊曼架構(gòu)中，計(jì)算單元要先從內(nèi)存中讀取數(shù)據(jù)，計(jì)算完成后，再存回內(nèi)存，這樣才能輸出。隨著半導(dǎo)體產(chǎn)業(yè)的發(fā)展和需求的差異，處理器和存儲(chǔ)器二者之間走向了不同的工藝路線。由于工藝、封裝、需求的不同，從1980年開始至今二者之間的性能差距越來越大。數(shù)據(jù)顯示，從 1980年到 2000年，處理器和存儲(chǔ)器的速度失配以每年50%的速率增加。

存儲(chǔ)器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度，數(shù)據(jù)傳輸就像處在一個(gè)巨大的漏斗之中，不管處理器灌進(jìn)去多少，存儲(chǔ)器都只能“細(xì)水長(zhǎng)流”。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題，在存儲(chǔ)與運(yùn)算之間筑起了一道“存儲(chǔ)墻”。

此外，在傳統(tǒng)架構(gòu)下，數(shù)據(jù)從內(nèi)存單元傳輸?shù)接?jì)算單元需要的功耗是計(jì)算本身的約200倍，因此真正用于計(jì)算的能耗和時(shí)間占比很低，數(shù)據(jù)在存儲(chǔ)器與處理器之間的頻繁遷移帶來嚴(yán)重的傳輸功耗問題，稱為“功耗墻”。

再加上人工智能的發(fā)展，需要運(yùn)算的數(shù)據(jù)量開始了極大的增長(zhǎng)。人工智能算法是一個(gè)很龐大和復(fù)雜的網(wǎng)絡(luò)，包含大量的圖像數(shù)據(jù)和權(quán)重參數(shù)，計(jì)算的過程中又會(huì)產(chǎn)生大量的數(shù)據(jù)，數(shù)據(jù)需要在計(jì)算單元和存儲(chǔ)單元之間進(jìn)行頻繁的移動(dòng)，這迫切需要合適的手段來減少數(shù)據(jù)移動(dòng)及其帶來的性能和功耗開銷。

自1945年提出的馮·諾伊曼架構(gòu)，其本身仍是現(xiàn)代計(jì)算機(jī)的主要架構(gòu)，在此架構(gòu)下關(guān)于存算流程的彎路，在當(dāng)時(shí)是合理的。但是在人工智能飛速發(fā)展的現(xiàn)在，卻有必要顛覆它。

于是，業(yè)界開始尋找弱化或消除存儲(chǔ)墻及功耗墻問題的方法，開始考慮從聚焦計(jì)算的馮·諾伊曼體系結(jié)構(gòu)轉(zhuǎn)向存算一體結(jié)構(gòu)。

存算一體，金字塔從頭建起

為了解決“存儲(chǔ)墻”問題，當(dāng)前業(yè)內(nèi)主要有三種方案：

用GDDR 或HBM來解決存儲(chǔ)墻問題的馮·諾依曼架構(gòu)策略；算法和芯片高度綁定在一起的DSA方案；以及存算一體的方案。

HBM是目前業(yè)內(nèi)超大算力芯片常用的方案之一，其優(yōu)勢(shì)在于能夠暫時(shí)緩解“存儲(chǔ)墻”的困擾，但其性能天花板明顯，并且成本較高。

DSA方案以犧牲靈活性換取效率提升，算法和硬件高度耦合，適用于已經(jīng)成熟的AI算法，但并不適用于正處于快速迭代的自動(dòng)駕駛AI算法中。

最后是存算一體方案，這是一項(xiàng)誕生于實(shí)驗(yàn)室的新興技術(shù)，其創(chuàng)新性在于打破了傳統(tǒng)·馮諾伊曼架構(gòu)局限性，實(shí)現(xiàn)了計(jì)算與存儲(chǔ)模塊一體化的整合創(chuàng)新，解決了傳統(tǒng)芯片架構(gòu)中計(jì)算與存儲(chǔ)模塊間巨大的數(shù)據(jù)傳輸延遲、能量損耗痛點(diǎn)，既增加了數(shù)據(jù)處理速度，又大大降低了數(shù)據(jù)傳輸?shù)墓?，從而使芯片能效比（即每瓦能提供的算力）得?-3個(gè)數(shù)量級(jí)（>100倍）的提升。

達(dá)摩院計(jì)算技術(shù)實(shí)驗(yàn)室科學(xué)家鄭宏忠曾講過：“存算一體是顛覆性的芯片技術(shù)，它天然擁有高性能、高帶寬和高能效的優(yōu)勢(shì)，可以從底層架構(gòu)上解決后摩爾定律時(shí)代芯片的性能和能耗問題?！?/span>

因此，存算一體架構(gòu)可以把算力做的更大，其芯片算力天花板比傳統(tǒng)馮·諾依曼架構(gòu)更高；同時(shí)，大幅降低了數(shù)據(jù)傳輸?shù)哪芰繐p耗，提升了能效比；另外，還能得到更低的延時(shí)，存儲(chǔ)和計(jì)算單元之間數(shù)據(jù)搬運(yùn)的減少，大幅縮短了系統(tǒng)響應(yīng)時(shí)間。

更重要的是，用存算一體架構(gòu)做大算力AI芯片另一大優(yōu)勢(shì)在于成本控制。不依賴于GDDR 或HBM,存算一體芯片的成本能夠相應(yīng)的降低50%～70%。

換句話說，真正創(chuàng)新架構(gòu)的AI芯片是將上文中提到的算力、功耗、成本三角形結(jié)構(gòu)從原來的位置往上挪了三個(gè)檔位。不僅可以提高算力，還可以達(dá)到降低功耗、控制成本的效果。

未來何去何從

如王紹迪所說，工具鏈對(duì)于任何芯片的使用都是非常重要。尤其是在存算一體芯片方面，因?yàn)槭且粋€(gè)新架構(gòu)的新產(chǎn)品，并沒有現(xiàn)成的工具可用，因此如何打造一套可用的工具鏈顯得尤為重要。知存科技在過去多年中也面向端側(cè)應(yīng)用開發(fā)出了可用的工具鏈。

“在未來的邊緣計(jì)算產(chǎn)品，需要的工具鏈會(huì)是更復(fù)雜，所以我們現(xiàn)在公司超過一半的人在做軟件集成開發(fā)環(huán)境?！蓖踅B迪接著說。他表示，我們甚至還需要從訓(xùn)練開始，將存算一體技術(shù)融入其中。

據(jù)介紹，目前大部分開發(fā)算法的人用的是純GPU的環(huán)境，但存算一體的算子跟GPU的算子顯然不一樣，計(jì)算的精度、模擬精度的定義和GPU計(jì)算的定義也都是不一樣的。因此如果不去了解，或者軟件工具不好用的話，那么就只能在GPU上做這個(gè)事情。“因此我們要解決這個(gè)問題，我們有極強(qiáng)的開發(fā)環(huán)境，里面雖然會(huì)調(diào)用GPU，但是調(diào)用GPU訓(xùn)練的時(shí)候，已經(jīng)把存內(nèi)計(jì)算的特點(diǎn)放進(jìn)去了，這樣就可以在開發(fā)過程中針對(duì)存內(nèi)計(jì)算的場(chǎng)景去開發(fā)這個(gè)算法。”王紹迪告訴記者。

在王紹迪看來，存算一體就是計(jì)算模塊，并不是存儲(chǔ)，里面存放的只是相當(dāng)于算法數(shù)據(jù)，其作用是新一代的計(jì)算技術(shù)，所以他們把存算一體看成新一代計(jì)算的模塊，就像從CPU到GPU一樣，GPU再到存算一體，從一維到二維到三維的計(jì)算的轉(zhuǎn)變。這也就是為什么他認(rèn)為存算一體未來更需要的是軟件、生態(tài)怎么跟現(xiàn)有的計(jì)算系統(tǒng)更好地融合，更低成本地去開發(fā)，這也是存算一體的最終極形態(tài)。

除此以外，王紹迪也對(duì)存儲(chǔ)一體的另外發(fā)展形態(tài)方向做了分享。如是否能以IP模式與其他計(jì)算模塊集成，就是業(yè)界關(guān)注的一個(gè)熱點(diǎn)。

針對(duì)這個(gè)問題，王紹迪回應(yīng)道，IP模式是存算一體很適合走的道路，但難度大。一方面因?yàn)檫@需要考慮IP的接口完備定義以及和現(xiàn)有的要兼容；另一方面，這些IP加進(jìn)去之后，是否要改變?cè)兄餍酒慨a(chǎn)的流程？帶來的替城成本和時(shí)間成本也讓人更加謹(jǐn)慎。

為此王紹迪認(rèn)為，存內(nèi)計(jì)算最好的解決方式是未來通過chiplet的形式去結(jié)合。

在談到存算一體技術(shù)未來的技術(shù)演進(jìn)的時(shí)候，王紹迪表示，存算一體芯片一部分會(huì)遵循摩爾定律，一部分又不遵循摩爾定律。前者的代表是存儲(chǔ)部分，后者的代表是計(jì)算部分。

“目前的存內(nèi)計(jì)算大家都沒有采用最先進(jìn)的工藝，因此未來幾年，在邏輯數(shù)據(jù)流當(dāng)中的提升，大家還是會(huì)按摩爾定律繼續(xù)往下走去提升。”王紹迪說。

他同時(shí)強(qiáng)調(diào)，存儲(chǔ)技術(shù)技術(shù)會(huì)是存算一體技術(shù)發(fā)展的主要限制因素?！暗壳按鎯?chǔ)技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)領(lǐng)先于采用的容量了，距離我們達(dá)到存儲(chǔ)器制約還有十年左右的時(shí)間。因此我們目前的工作重點(diǎn)在于如何繼續(xù)創(chuàng)新，發(fā)現(xiàn)更多的問題，解決問題。”王紹迪說。