打通“最后七公里”,存算一體成為中國自動駕駛芯片“成熟”的關(guān)鍵
ChatGPT大熱,生成式大模型已無限趨向通用智能,這也就意味著AI應(yīng)用將會進入到2.0時代。所謂AI 2.0時代,即由AI將由很多小模型提供的弱AI,演進為由大模型提供的通用智能強AI,這勢必會帶來眾多應(yīng)用場景的集體爆發(fā)。
業(yè)內(nèi)人士認(rèn)為,爆發(fā)將主要來于:一是來自于替代,原先很多有小模型提供的弱AI的場景將會由通用智能來替代;二是將催生新的AI應(yīng)用場景,并產(chǎn)生新的服務(wù)和產(chǎn)品形態(tài)。
這些未來應(yīng)用場景的爆發(fā),對AI算力芯片是一個新挑戰(zhàn),要有更大的算力以及更高的能效比。由此,億鑄智能副總裁徐芳認(rèn)為:存算一體的大算力芯片將是中國AI芯片“換道”超車的機會。
存算一體AI芯片或?qū)⒊蔀樽詣玉{駛算力終極解決方案
ChatGPT的火爆預(yù)示了自動駕駛的發(fā)展方向:大模型和高算力。Transformer這類神經(jīng)網(wǎng)絡(luò)大模型,模型運算量平均每兩年會翻750倍;視頻、自然語言處理和語音模型,模型運算量平均每兩年翻15倍??梢灶A(yù)見,摩爾定律將面臨失效,同時 "存儲墻”和"功耗墻” 將成為AI芯片發(fā)展的關(guān)鍵制約因素。
目前,大部分傳統(tǒng)的計算架構(gòu)是馮諾依曼架構(gòu),優(yōu)點是非常靈活,但面對AI遇到的問題是出現(xiàn)算力瓶頸,同時存在大型數(shù)據(jù)搬運,所以帶來很大的功耗消耗。
存算一體技術(shù)有望解決大算力與低功耗的矛盾。存算一體,是指在存儲器中對數(shù)據(jù)進行運算,從而避免數(shù)據(jù)搬運產(chǎn)生的"存儲墻”和"功耗墻”, 極大提高數(shù)據(jù)的并行度和能量效率。
在汽車領(lǐng)域,高等級自動駕駛汽車某種意義上將成為行走的超算中心,車端算力正不斷拔高到1000TOPS以上。云端計算電力充足,并可以通過冷卻系統(tǒng)制冷,但是在汽車端是通過電池供電有限,同時面臨著液冷散熱、成本方面等問題。
存算一體 AI 芯片,將為車企提供一個全新的技術(shù)路徑選擇。
在自動駕駛 SoC 領(lǐng)域,后摩智能是國內(nèi)首家存算一體自動駕駛 AI 芯片廠商,其在2022年成功點亮了業(yè)內(nèi)第一款存算一體大算力AI芯片,并跑通智能駕駛算法模型。這款驗證樣片采用22nm工藝制程,算力達20TOPS,可擴展至200TOPS,尤其是計算單元能效比高達20TOPS/W。
當(dāng)前,國內(nèi)AI大算力芯片有兩個主要技術(shù)方向,一就是ASIC架構(gòu),采用該架構(gòu)的公司包括了寒武紀(jì)、華為、黑芝麻,地平線等;另一個就是GP GPU架構(gòu),就是英偉達所主導(dǎo)的GP GPU路線。這兩個架構(gòu),存與算是分離的。她從技術(shù)層面解釋說,“就技術(shù)本身而言,存算分離的架構(gòu)下,85~90%的芯片空間,是用于數(shù)據(jù)搬運,而不是用來進行數(shù)據(jù)的計算。也就是先要把數(shù)據(jù)從存儲的結(jié)構(gòu)里面要搬到計算單元,而且是每計算一次就要搬運一次,最后計算的結(jié)果,又送回至存儲的結(jié)構(gòu)中。如此往復(fù),這種架構(gòu),顯而易見,對能源的消耗和計算效率的影響非常大。”
當(dāng)然,徐芳副總裁也認(rèn)為,“并不能用零和博弈的方式看所有的技術(shù),每一種技術(shù)都有它的價值, ASIC、GP GPU以及存算一體的技術(shù),各有所長,如果能競合得當(dāng),可實現(xiàn)相得益彰?!?/span>
但就面向未來而言,徐芳副總裁指出,從能效比、對先進工藝制程的依賴、以及算力的發(fā)展空間這三方面來看,AI算力芯片中,存算一體的計算架構(gòu)無疑會有更大更好的機會。據(jù)了解,業(yè)內(nèi)頭部企業(yè)也提出了類似的方案,AMD在今年初,提出了存內(nèi)計算;三星也認(rèn)為,存儲器在人工智能服務(wù)器中的重要性將會超過英偉達的GPU。
她強調(diào),“AI算力芯片,除了有較高的能效比之外,還需要更好的性價比并兼顧通用性,此外,在中國AI大算力芯片發(fā)展,還要能夠解決先進工藝依賴這一外部問題?!?/span>
徐芳副總裁進而指出,“存算一體的技術(shù)架構(gòu),其優(yōu)勢在于既能夠用傳統(tǒng)的CMOS工藝,又能夠快速實現(xiàn)量產(chǎn),進而突破AI芯片的算力困境。”也是從這里來觀察,存算一體的大算力芯片也將是中國在算力芯片領(lǐng)域換道超車的機會。
存算一體芯片“最后七公里”
盡管存算一體在技術(shù)層面能夠支撐芯片產(chǎn)業(yè)出現(xiàn)新機會,但要真正創(chuàng)業(yè)做新業(yè)務(wù)卻沒有那么容易。在吳強看來,存算一體還有“最后七公里”要走。
“學(xué)術(shù)上實現(xiàn)的是從無到有的過程,但要應(yīng)用在商業(yè),還需要先補齊技術(shù)的可實現(xiàn)性這兩公里,再補上應(yīng)用到具體場景的工程性問題這五公里?!?/span>
具體而言,在這款芯片的定義、設(shè)計過程中,也經(jīng)過了不少討論和取舍。
例如,存算一體技術(shù)依托的存儲類型非常豐富,包括以SRAM、DRAM為代表的易失性存儲器,以Flash為代表的非易失性存儲器,還有以MRAM和RRAM為代表的新型非易失性存儲器。后摩當(dāng)前選擇了制作工藝更為成熟的SRAM。
又如,從電路技術(shù)來看,存內(nèi)計算有數(shù)字計算和模擬計算兩種,后摩首先選擇了運算精度更高、可靠性更好的數(shù)字存算。
但對吳強來說,這都是綜合市場需求和技術(shù)可行性之后的更優(yōu)選擇,后摩當(dāng)下戰(zhàn)略聚焦于智能駕駛芯片,更大的有效算力、更高的可靠性都是為目標(biāo)芯片服務(wù)的。
只不過,摸著石頭過河,確實要面臨比同行更多的挑戰(zhàn)。
比如在電路的仿真驗證中,一般用EDA軟件進行在線的設(shè)計,而后用可編程的FPGA進行電路設(shè)計的驗證。但是,后摩智能的芯片設(shè)計規(guī)模已經(jīng)超過了市面上任何一個可以找到的FPGA,要怎么做芯片驗證呢?
后摩智能想到把芯片的不同功能進行切割,在不同的FPGA上進行驗證。關(guān)于如何把芯片做合理的剪裁以適應(yīng)部分的驗證,后摩團隊反復(fù)討論、多次嘗試,最終找到了最恰當(dāng)?shù)姆椒ā?/span>
最終,后摩智能交上了鴻途H30這份答卷,相比業(yè)界先進的7nm工藝,后摩采用了更成熟的12nm工藝,但功耗比前者減少了50%,性能有兩倍以上的提升。
經(jīng)緯創(chuàng)投投資董事童倜認(rèn)為,除了存算一體技術(shù)上有巨大的優(yōu)勢之外,“后摩團隊的優(yōu)勢還在于團隊的人員構(gòu)成非常完善,在很早就擁有了存算一體相關(guān)領(lǐng)域的學(xué)術(shù)專家、曾經(jīng)量產(chǎn)過大算力AI芯片的人,和設(shè)計過車規(guī)芯片的人”。
在童倜看來,尤為難得的是,在創(chuàng)立之初,后摩團隊就已經(jīng)對所在的賽道、市場需求有了清醒的認(rèn)知,也對整個芯片研發(fā)及企業(yè)經(jīng)營中可能會遇到的問題有了一定的預(yù)期和規(guī)劃。
這或許要歸功于吳強及后摩團隊過往在芯片行業(yè)豐富的從業(yè)經(jīng)驗,有十年以上芯片行業(yè)的工作經(jīng)驗的研發(fā)人員占比很高,經(jīng)歷過車規(guī)芯片量產(chǎn)和導(dǎo)入的初創(chuàng)企業(yè)奮斗全過程的員工也不在少數(shù),他們能夠深刻理解研發(fā)組織、客戶溝通等的重要性。
未來,芯片將成為大型主機廠重要投資方向
主機廠造芯這個問題爭議極大,業(yè)內(nèi)普遍認(rèn)為,一方面主機廠無法與專業(yè)IC設(shè)計公司比拼開發(fā)速度、效率、產(chǎn)品性能等,另一方面單顆芯片至少應(yīng)有百萬量級的出貨量才能不斷攤薄開發(fā)成本,以具備性價比。
但實際上芯片對于智能網(wǎng)聯(lián)新能源汽車,無論是性能、成本、還是供應(yīng)鏈安全,都已占據(jù)了絕對的主導(dǎo)地位,傳統(tǒng)燃油車芯片需求量一般在700-800顆/輛,新能源車芯片需求量在1500-2000顆/輛,高級別自動駕駛新能源車芯片需求量可高達3000顆/輛,且部分高價值芯片成本高昂、面臨缺貨甚至斷貨風(fēng)險。
從大型主機廠的角度,顯然不想被某家芯片廠商綁定,甚至主機廠早已開始下場自主造芯。從吉利汽車來看, 吉利已實現(xiàn)7nm座艙SoC量產(chǎn)裝車,IGBT也已實現(xiàn)成功流片,億咖通和芯擎科技合作研發(fā)的自動駕駛SoC芯片AD1000預(yù)計最快到2024年3月流片。
我們判斷,芯片將像動力電池一樣,成為大型主機廠加強底層基礎(chǔ)能力建設(shè)的重要投資方向。2022年,三星宣布將為谷歌自動駕駛部門Waymo制造芯片;通用Cruise也宣布將自主開發(fā)自動駕駛芯片;大眾汽車則宣布將與中國自動駕駛SoC廠商地平線成立合資公司。
在2022中國電動汽車百人會論壇上,地平線在“芯片+算法+工具鏈+開發(fā)平臺”的商業(yè)模式基礎(chǔ)上,增加開放其高性能自動駕駛處理器架構(gòu)BPU IP授權(quán),以此來滿足自研能力強的部分車企的需求,從而增加車企的差異化競爭力和研發(fā)創(chuàng)新的速度。
作為IP供應(yīng)商支撐車企自研計算方案,BPU IP授權(quán)模式已確認(rèn)一家合作伙伴,還有一家車企正在推進中。
造芯的技術(shù)門檻并不算特別高,主要門檻是擁有足夠資本實力和訂單量,現(xiàn)在芯片行業(yè)就是外購IP搭積木的方式來搭芯片,包括CPU、GPU、NPU、存儲、NoC或總線、ISP、視頻編解碼等。未來隨著Chiplet生態(tài)圈、工藝水平不斷完善,自研自動駕駛SoC芯片門檻會更低,無需買IP,直接買die(IP芯片化)然后再封裝即可,大幅度降低門檻。
以特斯拉HW 3.0芯片為例,其架構(gòu)設(shè)計基于三星Exynos-IP,CPU、GPU、ISP設(shè)計采用ARM IP,片上互聯(lián)(NOC)采用 Arteris IP,特斯拉僅自研 NNA AI加速器IP,最終由三星代工。
針對HW 4.0芯片,特斯拉進一步與博通合作開發(fā),為了提高AI算力,最簡單有效的辦法就是堆砌MAC單元和 SRAM存儲器, 對于AI操作來說,主要瓶頸是存儲。而缺陷在于,SRAM存儲器占用了大量的芯片面積,面積與芯片的成本成正比,同時SRAM難以通過先進制程工藝來增加密度和減少面積。
因此,特斯拉第一代FSD HW 3.0裸芯片面積為260平方毫米,第二代FSD HW 4.0裸芯片面積預(yù)計為300平方毫米,總成本預(yù)計至少增加40-50%,按照我們的估算,HW3.0芯片成本已降至90-100美元,而HW 4.0成本應(yīng)在150-200美元,但即使如此,特斯拉自研芯片的性價比也要遠(yuǎn)遠(yuǎn)高于外購。
長期來看,百萬以上銷量的主機廠自主“造芯”是可行的。
