每一次出行都需要復雜精密的運算,AI芯片能否攻克自動駕駛算力瓶頸
隨著汽車智能化需求的快速增長,車載大算力芯片正在加快迭代速度,智能車的芯片成本占比也將大幅提升。
AI芯片在電子架構(gòu)邁向中央計算的過程中處于智能車產(chǎn)業(yè)鏈核心地位。
英特爾CEO曾預測:到2025/2030年,芯片將占高端汽車物料成本12%/20%+(2019年為4%),最大增量來自輔助駕駛。
無人車市場,苦AI芯片久矣
如果你是一個看自動駕駛的投資人,過去三個月里你很可能看過AI芯片的項目;如果你是一個看芯片的投資人,過去三十天里你很可能看過存算一體的項目。
作為后摩爾時代最受關注的技術之一,存算一體幾乎是當下AI芯片賽道最火的方向。
自2012年以來,全球AI算法模型對算力的需求每3.5個月翻一倍,六年里翻了近30萬倍?;趥鹘y(tǒng)馮·諾伊曼架構(gòu)的AI芯片雖然解決了計算速度,卻又受限于存儲性能發(fā)展速度、總線數(shù)據(jù)搬運等因素制約。業(yè)內(nèi)采用的HBM等“續(xù)命”方案能暫緩燃眉之急,卻也昂貴得驚人,一塊高性能自動駕駛芯片的成本最高能飆升到上千美元,幾乎卡住了整個無人車產(chǎn)業(yè)的脖子。
算力、功耗、成本是當前發(fā)展無人車產(chǎn)業(yè)的幾大關鍵因素。此外,對于國內(nèi)無人車企業(yè)還要加上一條“保障供應鏈安全”的生死攸關因素。
存算一體技術的火,正是源自它滿足了上述的需求。
首先是算力與成本方面。
以自動駕駛場景為例,當前,業(yè)內(nèi)所采用的算法方案大多是激光雷達+AI視覺的融合方案。AI視覺方案在硬件成本、魯棒性等方面的優(yōu)勢得到不少無人車企青睞。
然而,倘若想要靠以AI視覺為主的方案達到L4級別的自動駕駛,其所需算力卻也以驚人的速度增長。新石器無人車CTO苗乾坤告訴36氪,新石器第三代無人車產(chǎn)品算力需求超過100 Tops、第四代車以AI視覺為主的算力需求接近200~300 Tops。
而根據(jù)后摩智能數(shù)據(jù),通過打破傳統(tǒng)·馮諾伊曼架構(gòu)的存儲、計算模塊分離設計,存算一體芯片能夠解決計算與存儲模塊間巨大的數(shù)據(jù)傳輸延遲與能量損耗,其理論算力最大值能夠突破當前的算力天花板,實現(xiàn)單芯片數(shù)百甚至上千Tops的極大算力。
后摩智能聯(lián)合創(chuàng)始人項之初告訴36氪,后摩智能存算一體的方案不僅在單塊芯片的成本上較之現(xiàn)有市場競品有著明顯優(yōu)勢,其單芯片大算力的優(yōu)勢更是讓無人車企不用“堆疊”多塊AI芯片,同時減少傳感器對激光雷達的重度依賴,全面降低自動駕駛的整體硬件成本。
其次是功耗方面。
由于普遍采用新能源電池作為動力來源,頂著強大的續(xù)航壓力,無人車成為了一個功耗極其敏感的應用場景。車身體積越小、能夠搭載的電池容量越小,對功耗要求就越敏感。
算力要提高,功耗卻要降低,在傳統(tǒng)芯片架構(gòu)中幾乎是不可調(diào)和的一對矛盾。
在目前的市場化傳統(tǒng)芯片架構(gòu)供應商中,實際應用中的稠密算力/功耗比值普遍在1-2 Tops /W的水平,倘若要滿足接近200 Tops的無人車算力需求,光是芯片功耗一項就達到200W,逼近整車功耗。
由于減少了數(shù)據(jù)搬運的功耗損失,后摩智能的存算一體技術AI部分功耗可低至現(xiàn)有市面產(chǎn)品的1/10,在真實的調(diào)試使用過程中,其能效比能夠達到同類產(chǎn)品的5~10倍。
存算一體芯片在降低能耗、提高無人車續(xù)航的同時,還解決了無人車企另一個頭大的問題——散熱。
不像數(shù)據(jù)中心,無人車在作業(yè)時需要時常暴露在溫度不可控的室外環(huán)境中,本身就對功耗與散熱系統(tǒng)提出了更高的挑戰(zhàn)。與此同時,開放路面的無人車又對安全性要求極高——為了保障行人安全,絕對不能出現(xiàn)車輛系統(tǒng)過熱卡頓問題。功耗必須降低。
最后,對自主可控、保障供應鏈安全方面的迫切需求,也迫使著無人車企尋找存算一體技術作為解決方案。
后摩智能聯(lián)合創(chuàng)始人項之初透露,存算一體在算力與性能上的優(yōu)勢,使得后摩智能的產(chǎn)品能夠在更成熟、更自主可控的制程節(jié)點上超越先進制程的表現(xiàn)。
舉個例子,在后摩智能的測試結(jié)果中,在算力相等的情況下,即便用比后摩現(xiàn)有產(chǎn)品更早代際的28nm制程,其AI芯片的能效比也超過了采用7nm的傳統(tǒng)芯片。
對于確保芯片安全,保證供應鏈自主可控而言,這無疑是無人車企的一顆“定心丸”。
而針對“存算一體技術作為一項前沿技術,是否具備通用性?是否能夠’無痕’適配無人車企現(xiàn)有軟硬件工作流程?”問題,項之初表示,這確實是無人車企最關心的問題之一,也是后摩智能從創(chuàng)業(yè)第一天就始終關注的問題。
所以公司從一開始就組建了經(jīng)驗豐富的軟件研發(fā)團隊,打造完善的工具鏈,盡全力確保使用方的好用、易用。后摩智能CEO吳強博士是國際知名的編譯器專家,目前編譯器負責人是原一線大廠負責人,軟件及工具鏈團隊水平業(yè)內(nèi)一流。目前后摩智能的計算平臺既能支持TensorFlow、Pytorch等當前各種主流人工智能訓練框架,也能滿足未來新的網(wǎng)絡模型以及客戶自研算子需求。
自動駕駛芯片市場格局
當前車載大算力芯片全球格局較清晰,本土公司正在崛起,新勢力與自主頭部汽車品牌積極定點英偉達、高通等的大算力芯片,AI芯片處智能車產(chǎn)業(yè)鏈核心地位,AI芯片產(chǎn)品路線圖指向大算力+跨域融合,商業(yè)模式愈加開放靈活。
從自動駕駛域控制器所使用的的芯片方案來看,2022年11月,自動駕駛域控制器芯片市場份額TOP5分別為特斯拉FSD(43.2%)、英偉達(19.4%)、賽靈思(11.9%)、Mobileye(7.6%)、英飛凌(5.6%)。
特斯拉、英偉達、高通等國外企業(yè)領先。
2022年1-11月,自動駕駛域控制器芯片市場份額TOP5分別為特斯拉FSD(40.9%)、英偉達(13.3%)、賽靈思(12.8%)、英飛凌(9.2%)、地平線(8.5%)。
2022年,自動駕駛域控制器常用的主流芯片包括特斯拉FSD、賽靈思、地平線J3、英偉達Orin、英偉達Xavier、mobileyeEyeQ5H、英飛凌AURIX等。
當前主流已發(fā)布車型AI芯片以英特爾Mobileye系列為主,但從下一代車型開始,選擇英偉達芯片廠商開始占據(jù)多數(shù),包括蔚來、小鵬、理想、上汽、威馬等車企均選擇Orin芯片為下一代AI芯片。
英偉達2019年推出Xavier,可以實現(xiàn)L2+甚至L3的功能,成熟度高,國內(nèi)德賽西威是和英偉達綁定非常深的Tier1。
英偉達發(fā)布新一代芯片DRIVE Thor,這款車規(guī)級系統(tǒng)級芯片(SoC)基于最新CPU 和GPU 打造,可提供每秒2000 萬億次浮點運算性能,將在2024年量產(chǎn),吉利旗下極氪第一個宣布將在2025年起為旗下車型配備Thor芯片。
國內(nèi)相關布局廠商主要有華為、地平線、黑芝麻、芯馳科技、寒武紀、芯擎科技等。
華為借助北汽阿爾法S完成AI芯片落地,后續(xù)與長安、廣汽以及沙龍品牌都形成了合作關系。
此外,自動駕駛芯片加速上車,與芯片廠商深度合作的域控玩家和合作伙伴也有望受益。
整體來看,大算力芯片市場格局尚未收斂,目前英偉達和高通走在變革前列,地平線量產(chǎn)進度領跑國內(nèi)市場,華為MDC或涅槃歸來,架構(gòu)變化下輝羲智能等國產(chǎn)廠商亦有突圍機會。大模型開發(fā)者、自動駕駛產(chǎn)業(yè)鏈各環(huán)節(jié)都將賦能AI芯片加速演進,迎來新一輪產(chǎn)業(yè)機遇。
國產(chǎn)AI芯片商業(yè)化應用還需努力
其實綜上來看,國內(nèi)AI芯片設計水平與國外差距不大,在性能方面也足以替代國外AI芯片。不過評判國產(chǎn)AI芯片產(chǎn)品發(fā)展好壞,不止是從設計到量產(chǎn)維度考量,能否大規(guī)模商業(yè)化應用也是較為重要。
比如提到的國內(nèi)ASIC芯片,基本只用于自家云業(yè)務,對外提供芯片產(chǎn)品也需要龐大團隊的深度優(yōu)化。主要原因一方面在于之前提到過的,ASIC芯片從研發(fā)之初就需要考慮算法適配情況;另一方面,ASIC芯片生態(tài)較為碎片分散,開發(fā)者上手難度較高。
相較于ASIC廠商,得益于GPGPU泛用性優(yōu)勢,GPGPU廠商商業(yè)化應用做的更好一些。以海光為例,據(jù)其官方透露,海光深算一號目前已完成與百度、阿里等廠商互證,主要客戶是智算中心等“新基建”項目、行業(yè)用戶、AI廠商及互聯(lián)網(wǎng)企業(yè),已商業(yè)化部署數(shù)十萬片。
在國內(nèi)自動駕駛、AIGC、垂直大模型等AI應用愈發(fā)火熱的今天,國產(chǎn)AI芯片有希望撐起海量AI算力的需求。在解決性能問題之后,國產(chǎn)AI芯片面對國外巨頭是有彎道超車可能性的,雖然未來仍需在生態(tài)建設與商業(yè)化發(fā)展方面大步追趕。
GPGPU和ASIC技術路線齊頭并進
對于訓練芯片,目前主要分為GPGPU和ASIC兩類技術路線。
GPGPU是從GPU衍生而來,是弱化圖形處理,增強計算能力的產(chǎn)物。模型在訓練過程中,存在大量的矩陣計算,GPU架構(gòu)特點即在于擅長處理并行計算,因此GPGPU芯片可適合絕大多數(shù)AI計算場景,通用性更強。當前AI芯片霸主-英偉達的主要產(chǎn)品A100、H100等,就屬于GPGPU架構(gòu)。
目前,國內(nèi)投入GPGPU芯片領域的廠商較少,原因在于GPGPU研發(fā)需要有充足的技術和資金儲備。知名的有海光信息、壁仞科技、沐曦等,其中較為領先的為海光。
海光深算一號早在2022年6月就實現(xiàn)了商用。據(jù)了解,海光深算一號性能不弱于主流的英偉達芯片,也能兼容英偉達的CUDA環(huán)境,適配性好。并且最大優(yōu)勢在于,深算一號是國內(nèi)唯一支持全精度計算的AI芯片,這讓海光可支持科學計算、AI計算、大數(shù)據(jù)計算等多種計算場景。
另一類技術路線為ASIC,一種為特定場景專門設計的集成電路,比如NPU。在AI算法領域,卷積神經(jīng)網(wǎng)絡是仿造生物的視知覺機制構(gòu)建而成,是深度學習的代表算法之一。為滿足深度學習效率需求,隨著AI算法發(fā)展,模仿生物腦神經(jīng)的NPU應運而生。
由此可看出,ASIC芯片需要結(jié)合大模型算法做定向開發(fā)和調(diào)配,通用性沒有GPGPU那么強。國內(nèi)主要在做ASIC芯片的包括寒武紀、華為昇騰等,以及一些互聯(lián)網(wǎng)大廠,比如阿里含光、百度昆侖芯、騰訊紫霄等等,其性能也能滿足大多數(shù)計算場景的需要。
在大模型計算日益復雜的今天,由CPU+GPGPU+ASIC組成異構(gòu)計算系統(tǒng)成為算力供給最佳方案,絕大多數(shù)AI算力還是需要依靠GPGPU供給。
