九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

提升芯片算力的最好“捷徑”是存算一體?多種技術(shù)線路打破存儲(chǔ)和功耗兩堵“高墻”

2022-11-22 來源:36氪&半導(dǎo)體產(chǎn)業(yè)縱橫
9110

關(guān)鍵詞: 芯片 存儲(chǔ)器 人工智能

摩爾定律逐漸走向消亡之際,應(yīng)用端對(duì)芯片性能的要求卻日漸提升。這種情況下,半導(dǎo)體從業(yè)人員就開始尋找另外的出路,存算一體就是其中的一個(gè)選擇。

所謂存算一體,從字面上理解,就是把存儲(chǔ)和計(jì)算融合成一體。眾所周知,現(xiàn)行的計(jì)算領(lǐng)域所流行的是馮諾依曼架構(gòu)。在這種架構(gòu)下,存儲(chǔ)和計(jì)算是分開的。這兩部分的制程技術(shù)還能同步發(fā)展,這也推動(dòng)了芯片性能在過去幾十年獲得了幾何級(jí)增長(zhǎng)。但進(jìn)入最近這些年,芯片碰到了“存儲(chǔ)墻”問題,疊加行業(yè)在存算一體技術(shù)研究的進(jìn)展,使得這個(gè)早在上世紀(jì)七十年代就被討論的技術(shù),逐漸走向了臺(tái)前。

知存科技創(chuàng)始人創(chuàng)始人和CEO王紹迪也表示,摩爾定律走到頭了,就算強(qiáng)行繼續(xù)往下走,代價(jià)也非常大,帶來的提升又很有限。“為了在短期內(nèi)實(shí)現(xiàn)算力的繼續(xù)提升,存算一體是最好的方式?!?/span>




兩堵”墻”:存算一體技術(shù)發(fā)展的必要性

存算一體的發(fā)展是時(shí)代發(fā)展的要求,現(xiàn)有馮·諾伊曼計(jì)算系統(tǒng)采用存儲(chǔ)和運(yùn)算分離的架構(gòu),存在“存儲(chǔ)墻”與“功耗墻”瓶頸,嚴(yán)重制約系統(tǒng)算力和能效的提升。

在馮·諾伊曼架構(gòu)的核心設(shè)計(jì)中計(jì)算機(jī)的組成架構(gòu)包括運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備五部分。

在馮·諾伊曼架構(gòu)中,計(jì)算單元要先從內(nèi)存中讀取數(shù)據(jù),計(jì)算完成后,再存回內(nèi)存,這樣才能輸出。隨著半導(dǎo)體產(chǎn)業(yè)的發(fā)展和需求的差異,處理器和存儲(chǔ)器二者之間走向了不同的工藝路線。由于工藝、封裝、需求的不同,從1980年開始至今二者之間的性能差距越來越大。數(shù)據(jù)顯示,從 1980年到 2000年,處理器和存儲(chǔ)器的速度失配以每年50%的速率增加。

存儲(chǔ)器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度,數(shù)據(jù)傳輸就像處在一個(gè)巨大的漏斗之中,不管處理器灌進(jìn)去多少,存儲(chǔ)器都只能“細(xì)水長(zhǎng)流”。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,在存儲(chǔ)與運(yùn)算之間筑起了一道“存儲(chǔ)墻”。

此外,在傳統(tǒng)架構(gòu)下,數(shù)據(jù)從內(nèi)存單元傳輸?shù)接?jì)算單元需要的功耗是計(jì)算本身的約200倍,因此真正用于計(jì)算的能耗和時(shí)間占比很低,數(shù)據(jù)在存儲(chǔ)器與處理器之間的頻繁遷移帶來嚴(yán)重的傳輸功耗問題,稱為“功耗墻”。

再加上人工智能的發(fā)展,需要運(yùn)算的數(shù)據(jù)量開始了極大的增長(zhǎng)。人工智能算法是一個(gè)很龐大和復(fù)雜的網(wǎng)絡(luò),包含大量的圖像數(shù)據(jù)和權(quán)重參數(shù),計(jì)算的過程中又會(huì)產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)需要在計(jì)算單元和存儲(chǔ)單元之間進(jìn)行頻繁的移動(dòng),這迫切需要合適的手段來減少數(shù)據(jù)移動(dòng)及其帶來的性能和功耗開銷。

自1945年提出的馮·諾伊曼架構(gòu),其本身仍是現(xiàn)代計(jì)算機(jī)的主要架構(gòu),在此架構(gòu)下關(guān)于存算流程的彎路,在當(dāng)時(shí)是合理的。但是在人工智能飛速發(fā)展的現(xiàn)在,卻有必要顛覆它。

于是,業(yè)界開始尋找弱化或消除存儲(chǔ)墻及功耗墻問題的方法,開始考慮從聚焦計(jì)算的馮·諾伊曼體系結(jié)構(gòu)轉(zhuǎn)向存算一體結(jié)構(gòu)。




存算一體,金字塔從頭建起

為了解決“存儲(chǔ)墻”問題,當(dāng)前業(yè)內(nèi)主要有三種方案:

用GDDR 或HBM來解決存儲(chǔ)墻問題的馮·諾依曼架構(gòu)策略;算法和芯片高度綁定在一起的DSA方案;以及存算一體的方案。

HBM是目前業(yè)內(nèi)超大算力芯片常用的方案之一,其優(yōu)勢(shì)在于能夠暫時(shí)緩解“存儲(chǔ)墻”的困擾,但其性能天花板明顯,并且成本較高。

DSA方案以犧牲靈活性換取效率提升,算法和硬件高度耦合,適用于已經(jīng)成熟的AI算法,但并不適用于正處于快速迭代的自動(dòng)駕駛AI算法中。

最后是存算一體方案,這是一項(xiàng)誕生于實(shí)驗(yàn)室的新興技術(shù),其創(chuàng)新性在于打破了傳統(tǒng)·馮諾伊曼架構(gòu)局限性,實(shí)現(xiàn)了計(jì)算與存儲(chǔ)模塊一體化的整合創(chuàng)新,解決了傳統(tǒng)芯片架構(gòu)中計(jì)算與存儲(chǔ)模塊間巨大的數(shù)據(jù)傳輸延遲、能量損耗痛點(diǎn),既增加了數(shù)據(jù)處理速度,又大大降低了數(shù)據(jù)傳輸?shù)墓?,從而使芯片能效比(即每瓦能提供的算力)得?-3個(gè)數(shù)量級(jí)(>100倍)的提升。

達(dá)摩院計(jì)算技術(shù)實(shí)驗(yàn)室科學(xué)家鄭宏忠曾講過:“存算一體是顛覆性的芯片技術(shù),它天然擁有高性能、高帶寬和高能效的優(yōu)勢(shì),可以從底層架構(gòu)上解決后摩爾定律時(shí)代芯片的性能和能耗問題?!?/span>

因此,存算一體架構(gòu)可以把算力做的更大,其芯片算力天花板比傳統(tǒng)馮·諾依曼架構(gòu)更高;同時(shí),大幅降低了數(shù)據(jù)傳輸?shù)哪芰繐p耗,提升了能效比;另外,還能得到更低的延時(shí),存儲(chǔ)和計(jì)算單元之間數(shù)據(jù)搬運(yùn)的減少,大幅縮短了系統(tǒng)響應(yīng)時(shí)間。

更重要的是,用存算一體架構(gòu)做大算力AI芯片另一大優(yōu)勢(shì)在于成本控制。不依賴于GDDR 或HBM,存算一體芯片的成本能夠相應(yīng)的降低50%~70%。

換句話說,真正創(chuàng)新架構(gòu)的AI芯片是將上文中提到的算力、功耗、成本三角形結(jié)構(gòu)從原來的位置往上挪了三個(gè)檔位。不僅可以提高算力,還可以達(dá)到降低功耗、控制成本的效果。


未來何去何從

如王紹迪所說,工具鏈對(duì)于任何芯片的使用都是非常重要。尤其是在存算一體芯片方面,因?yàn)槭且粋€(gè)新架構(gòu)的新產(chǎn)品,并沒有現(xiàn)成的工具可用,因此如何打造一套可用的工具鏈顯得尤為重要。知存科技在過去多年中也面向端側(cè)應(yīng)用開發(fā)出了可用的工具鏈。

“在未來的邊緣計(jì)算產(chǎn)品,需要的工具鏈會(huì)是更復(fù)雜,所以我們現(xiàn)在公司超過一半的人在做軟件集成開發(fā)環(huán)境?!蓖踅B迪接著說。他表示,我們甚至還需要從訓(xùn)練開始,將存算一體技術(shù)融入其中。


據(jù)介紹,目前大部分開發(fā)算法的人用的是純GPU的環(huán)境,但存算一體的算子跟GPU的算子顯然不一樣,計(jì)算的精度、模擬精度的定義和GPU計(jì)算的定義也都是不一樣的。因此如果不去了解,或者軟件工具不好用的話,那么就只能在GPU上做這個(gè)事情。“因此我們要解決這個(gè)問題,我們有極強(qiáng)的開發(fā)環(huán)境,里面雖然會(huì)調(diào)用GPU,但是調(diào)用GPU訓(xùn)練的時(shí)候,已經(jīng)把存內(nèi)計(jì)算的特點(diǎn)放進(jìn)去了,這樣就可以在開發(fā)過程中針對(duì)存內(nèi)計(jì)算的場(chǎng)景去開發(fā)這個(gè)算法。”王紹迪告訴記者。

在王紹迪看來,存算一體就是計(jì)算模塊,并不是存儲(chǔ),里面存放的只是相當(dāng)于算法數(shù)據(jù),其作用是新一代的計(jì)算技術(shù),所以他們把存算一體看成新一代計(jì)算的模塊,就像從CPU到GPU一樣,GPU再到存算一體,從一維到二維到三維的計(jì)算的轉(zhuǎn)變。這也就是為什么他認(rèn)為存算一體未來更需要的是軟件、生態(tài)怎么跟現(xiàn)有的計(jì)算系統(tǒng)更好地融合,更低成本地去開發(fā),這也是存算一體的最終極形態(tài)。

除此以外,王紹迪也對(duì)存儲(chǔ)一體的另外發(fā)展形態(tài)方向做了分享。如是否能以IP模式與其他計(jì)算模塊集成,就是業(yè)界關(guān)注的一個(gè)熱點(diǎn)。

針對(duì)這個(gè)問題,王紹迪回應(yīng)道,IP模式是存算一體很適合走的道路,但難度大。一方面因?yàn)檫@需要考慮IP的接口完備定義以及和現(xiàn)有的要兼容;另一方面,這些IP加進(jìn)去之后,是否要改變?cè)兄餍酒慨a(chǎn)的流程?帶來的替城成本和時(shí)間成本也讓人更加謹(jǐn)慎。

為此王紹迪認(rèn)為,存內(nèi)計(jì)算最好的解決方式是未來通過chiplet的形式去結(jié)合。

在談到存算一體技術(shù)未來的技術(shù)演進(jìn)的時(shí)候,王紹迪表示,存算一體芯片一部分會(huì)遵循摩爾定律,一部分又不遵循摩爾定律。前者的代表是存儲(chǔ)部分,后者的代表是計(jì)算部分。

“目前的存內(nèi)計(jì)算大家都沒有采用最先進(jìn)的工藝,因此未來幾年,在邏輯數(shù)據(jù)流當(dāng)中的提升,大家還是會(huì)按摩爾定律繼續(xù)往下走去提升。”王紹迪說。

他同時(shí)強(qiáng)調(diào),存儲(chǔ)技術(shù)技術(shù)會(huì)是存算一體技術(shù)發(fā)展的主要限制因素?!暗壳按鎯?chǔ)技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)領(lǐng)先于采用的容量了,距離我們達(dá)到存儲(chǔ)器制約還有十年左右的時(shí)間。因此我們目前的工作重點(diǎn)在于如何繼續(xù)創(chuàng)新,發(fā)現(xiàn)更多的問題,解決問題。”王紹迪說。