Agentic AI狂潮:為什么DeepSeek之后,AI芯片更暢銷了?
關(guān)鍵詞: AI芯片 DeepSeek Agentic AI 推理 AI技術(shù)
很多人說DeepSeek只是資本市場和民族主義的狂歡。但實際上就產(chǎn)品化的角度來看,DeepSeek-R1模型已經(jīng)在包括騰訊微信、百度搜索、知乎直答等普通人能接觸到的應(yīng)用中全面接入——即便DeepSeek的確有著偏高的幻覺率,經(jīng)常瞎說八道,但它對中文網(wǎng)絡(luò)而言,的確已經(jīng)成為不少人的工作助手。
但與此同時,我們也看到了今年春節(jié)前后DeepSeek爆火之時,資本市場的不理性。最初報道普遍提及DeepSeek-V3總訓(xùn)練成本不到600萬美元,且模型質(zhì)量還超越了同期的Llama 3.1, Claude 3.5;DeepSeek官網(wǎng)面向開發(fā)者的API標價(每百萬token價格)僅有OpenAI o1的幾十分之一;甚至有社區(qū)愛好者嘗試在本地部署滿血版617B參數(shù)規(guī)模的DeepSeek-R1,硬件成本投入不過4-5萬元人民幣。
有關(guān)AI使用成本大幅降低的說法登上不少媒體的頭版頭條,提供AI基礎(chǔ)設(shè)施的NVIDIA股價隨之下跌,就連能源板塊都受到影響。市場對AI芯片的需求真的會隨著DeepSeek的推出變得更低,乃至連電力需求也沒有之前預(yù)測得那么激進了嗎?
前不久在《國際電子商情》姊妹刊《電子工程專輯》發(fā)布的《DeepSeek的杰文斯悖論:AI芯片市場發(fā)展前瞻》一文中,我們明確提到了AI芯片及基礎(chǔ)設(shè)施短期受到DeepSeek的影響,只是市場的不理性行為。本文則期望從相對更全面的角度來解讀AI芯片市場的潛在發(fā)展可能性,及為什么說DeepSeek實際上是在助推AI芯片行業(yè)前行。
明確兩個基本事實
過去大半年,AI領(lǐng)域內(nèi)特別火的一個詞是Agentic AI——國內(nèi)有譯作代理式AI,也有譯作智能體AI的。參照NVIDIA對Agentic AI的定義,這個詞出現(xiàn)在Generative AI(生成式AI)之后,在Physical AI(具身智能)之前(圖1)。
圖1:AI發(fā)展的幾個階段 圖片來源:英偉達
拋開Agentic AI有利用各類技術(shù)“自動適配”做決策的能力,今年NVIDIA的GTC開發(fā)者大會上,黃仁勛說Agentic AI的關(guān)鍵特性是在感知和理解上下文以后,“它能邏輯推理(reason),通過推理來回答或解決問題?!薄八茉谧龀鲆?guī)劃以后再采取行動?!薄艾F(xiàn)在,它還能理解多模態(tài)信息,學(xué)習(xí)網(wǎng)站或不同來源的文本、圖片、視頻資料,并基于這些信息和知識來工作。”
中文網(wǎng)絡(luò)普遍將reason譯作“推理”——但請注意這里的推理和我們在談AI訓(xùn)練與推理(reference)式的推理有區(qū)別。Reference指的是將已經(jīng)訓(xùn)練好的AI模型投入到實際使用中,使用模型的過程即為reference;而reason則是指,通過一步步的規(guī)劃和邏輯推理來解決復(fù)雜問題的過程。
我們可以認為,開啟了“深度思考”以后的DeepSeek-R1即為典型的Agentic AI。目前新推向市場的對話式AI基本也都已經(jīng)支持以邏輯推理的形式回答和解決問題了。而reason的過程的確包括了reference。通常我們說reason需要對相關(guān)信息(內(nèi)部和外部的)做結(jié)構(gòu)化,形成邏輯步驟進行邏輯推理,已經(jīng)不單是獲取和使用既有信息的簡單reference。
比如黃仁勛在主題演講中提到的一個例子,讓AI安排婚宴之上的座次。這個問題需要考慮的因素至少包括了文化傳統(tǒng)、人際關(guān)系、家庭成員親疏、方便拍照的角度等。傳統(tǒng)大語言模型回答該問題時,以“one-shot”的方式給出答案少于500個token。云上的此類大語言模型服務(wù)都能迅速作答。
而邏輯推理模型(reasoning model)需要用到將近9,000個token才給出答案,正式作答的響應(yīng)時間相比one-shot式的回答方式也慢了不少。但兩相對比不難發(fā)現(xiàn),one-shot式的大語言模型更容易給出錯誤答案,具備reason邏輯推理能力的大語言模型則能輕易給出優(yōu)解。
觀察DeepSeek-R1正式作答前的思考過程會發(fā)現(xiàn),它甚至?xí)σ呀?jīng)獲得的答案再做回測。邏輯推理模型會對問題做拆解,會在不同的方法間選擇最佳答案,會做一致性測試,甚至?xí)⒌玫降拇鸢浮胺呕氐椒匠讨?,確保其更高的正確性”(圖2)。
圖2:分步驟推理問題的Agentic AI 圖片來源:國際電子商情
從高抽象維度了解Agentic AI,對于我們搞清楚AI芯片市場的潛在發(fā)展有什么價值呢?因為既然不少人認為DeepSeek這類邏輯推理模型的誕生會讓AI芯片及基礎(chǔ)設(shè)施需求降低,我們就有必要先理解其基本概念,以及另外兩個基本事實:(1)Agentic AI是否顛覆了現(xiàn)有AI技術(shù)范式;(2)Agentic AI處在AI歷史發(fā)展長河里的哪個階段?
第一個問題很容易回答:雖然Agentic AI變得更智能了,也被包括NVIDIA在內(nèi)的企業(yè)劃歸在生成式AI(Generative AI)之后,但其核心仍然是生成式AI,雖然它相較以前的大語言模型更高級了。其工作方式一樣未脫離預(yù)訓(xùn)練、后訓(xùn)練(包括fine-tune等流程)、推理(inference)的范式。
幻方量化和梁文鋒團隊的確在DeepSeek模型的訓(xùn)練階段做出了各種工程創(chuàng)新,尤其在技術(shù)禁運的前提下,實現(xiàn)硬件利用效率的最大化,使得其訓(xùn)練成本得到可觀的降低。但不得不承認的是,其中的絕大部分方法和技術(shù)是站在了巨人的肩膀上,比如說MLA(多層注意力架構(gòu))、MTP(多token預(yù)測)都是既有技術(shù)方案,DeepSeek則是這些技術(shù)實踐的佼佼者。
所以第一個問題的答案是,包括DeepSeek在內(nèi)的Agentic AI并沒有顛覆現(xiàn)有AI技術(shù)范式。現(xiàn)有絕大部分加入了邏輯推理能力的對話AI服務(wù)也依舊需要持續(xù)對模型做出精進,并在和用戶的交互中進行推理(reference)。
至于第二個問題,Agentic AI對于AI而言處在哪個階段。我們在過去一個季度采訪了好些市場參與者。幾乎所有市場參與者都認為,雖然AI是個有些年頭的技術(shù),但其發(fā)展階段依舊相對初級。比如Imagination Technologies產(chǎn)品管理與市場營銷副總裁Dennis Laudick在接受《國際電子商情》采訪時就說:“從人工智能的改進規(guī)模和速度來看,很明顯,我們僅僅處于計算機編程方式和計算機功能發(fā)生根本性變革的開端。”
“展望未來,科技行業(yè)目前需努力的一個關(guān)鍵任務(wù)是利用現(xiàn)在可獲得的投資,開發(fā)相關(guān)解決方案和應(yīng)用,為人工智能提供動力,使其走出增長階段,并充分發(fā)揮其潛力?!盌ennis提到,自動駕駛、智能機器人都是對于AI而言極具吸引力和有待釋放價值的市場。
通常某市場處在初級發(fā)展階段時,會有幾個明確的市場信號:(1)市場參與者很多,初創(chuàng)企業(yè)扎堆,“百花齊放”;(2)部分市場參與者營收和利潤呈現(xiàn)出飆升態(tài)勢。或也可能是技術(shù)未全面落地之前,部分市場參與者處在長期虧損狀態(tài),投資者則因為看好該市場,而持續(xù)為其輸血,尋求長期利益。
AI芯片市場基本具備上述所有特點。《電子工程專輯》2024 Q4的國產(chǎn)AI芯片研究報告提到現(xiàn)有AI芯片市場參與者依舊眾多;頭部上市企業(yè)如寒武紀自上市以來虧損現(xiàn)狀暫無改善跡象,營收不確定性明確;NVIDIA 2025財年營收1,305億美元,同比增長114%——其中數(shù)據(jù)中心營收1,152億美元,增幅達到了142%——要知道這種看起來夸張的增速已經(jīng)持續(xù)了好幾年。
Agentic AI帶來了什么
那么基于上述兩個問題的結(jié)論(1)包括Agentic AI在內(nèi)的AI技術(shù)目前尚處于發(fā)展早期或高速發(fā)展期,(2)AI技術(shù)范式并未發(fā)生根本性轉(zhuǎn)變,基本可以推倒出,AI芯片、基礎(chǔ)設(shè)施都將持續(xù)高速發(fā)展,而不是像年初市場預(yù)期的那樣需求走低。那么市場潛力究竟還有多大,或者說Agentic AI究竟能帶來什么?
NVIDIA自己公布的數(shù)據(jù)是,面向美國4家頂級CSP(云服務(wù)供應(yīng)商,包括AWS, Azure, GCP和OCI)的上一代Hopper顯卡出貨量,2024年達到巔峰,約為130萬片GPU。而去年GTC之上發(fā)布的Blackwell顯卡,到今年3月為止,則已經(jīng)面向這幾家CSP出貨了大約360萬片GPU。這份數(shù)據(jù)一方面自然能看出,NVIDIA實現(xiàn)業(yè)績高速增長的部分依據(jù);但與此同時也能表現(xiàn)AI技術(shù)處在發(fā)展的初級或高速發(fā)展階段。
所以研究機構(gòu)Dell'Oro認為,全球數(shù)據(jù)中心的CapEx(資本支出)會在2028年超過1萬億美金;部分研究機構(gòu)也將2030年半導(dǎo)體市場價值將破萬億美金的時間預(yù)期做了調(diào)整(比如IBS就將行業(yè)破萬億的時間提前到了2028年),皆因AI技術(shù)的發(fā)展超出了許多人的預(yù)期。
這里的確有個相當不符合直覺的事實:如果說DeepSeek提高了AI技術(shù)的效率,相同算力達成的AI智能程度更高了,那么為什么說AI芯片及基礎(chǔ)設(shè)施價值還將持續(xù)走高?我們認為,這個問題大概可以從兩個角度來回答。(1)Agentic AI對AI算力的需求變化;(2)市場發(fā)展的杰文斯悖論。
先談第一個角度:Agentic AI對AI算力的需求變化問題。探討算力需求變化,無非分訓(xùn)練、推理(reference)兩部分。
從訓(xùn)練的角度來說,現(xiàn)有分析資料已經(jīng)有不少去談DeepSeek公開所謂不到600萬美元的訓(xùn)練成本實則僅涵蓋了總體成本的一部分——這600萬美元只包括了預(yù)訓(xùn)練的GPU固定成本開銷,并沒有算上研發(fā)、人才、硬件等的總成本;也沒有算上企業(yè)要真正應(yīng)用DeepSeek模型時的后訓(xùn)練成本——就像騰訊面向微信用戶開放DeepSeek模型使用,并不是將模型拿來,架上自家的數(shù)據(jù)中心就能用的。要知道幻方量化很早就手握“萬卡”資源,當年僅有百度、騰訊、字節(jié)跳動等互聯(lián)網(wǎng)大廠才享有“萬卡”入場券。
訓(xùn)練部分的成本問題,本文不再做詳述——可以肯定的是,單位算力投入達成的模型質(zhì)量,或者訓(xùn)練的整體效率水平的確是提高了的,但不能因此認為AI時代的總訓(xùn)練成本有顯著下降,這一點將在后文的杰文斯悖論部分做詳述。
而在推理(reference)部分,很多人將DeepSeek官方標定的API百萬token輸入價格(緩存命中時,每百萬token,DeepSeek-V3為0.5元,DeepSeek-R1為1元)作為其推理成本低的依據(jù)。但實際上我們知道幻方量化并沒有打算藉由DeepSeek的商業(yè)運營來實現(xiàn)大規(guī)模盈利,DeepSeek官網(wǎng)長期處在“服務(wù)器繁忙”狀態(tài),也未有推理基礎(chǔ)設(shè)施的擴大動作。這個標價并不能作為與其他模型推理成本對比的直接依據(jù)。
本文的第一部分已經(jīng)闡明了Agentic AI并未改變AI技術(shù)范式,與此同時在婚宴座次安排的例子中,推理模型以將近9,000個token,得到了最優(yōu)解。9,000個token的生成,相較于傳統(tǒng)大語言模型one-shot式僅500個token的輸出,在token生成速度相同的情況下,算力要求高了10+倍。
換句話說,AI計算的推理(reference)流程相比以前多出了10+倍的算力需求??赡芎芏嘧x者對于大語言模型的算力需求沒有量級概念。對于邏輯推理流程來說,模型接到請求以后首先進行prefill(預(yù)填充)階段——可理解為思考過程,這個階段對算力要求很大;隨后在正式輸出階段,即decode(解碼)階段則對帶寬要求很高——此過程需要訪問內(nèi)存中的海量數(shù)據(jù),迭代進行快速和持續(xù)的數(shù)據(jù)搬運,每秒數(shù)據(jù)量可以達到數(shù)百TB/s。
而每個token的生成都需要反復(fù)進行decode操作,每次都意味著萬億規(guī)模參數(shù)、海量數(shù)據(jù)訪問。也就是說將近9,000個token輸出,每一個都要經(jīng)歷這種規(guī)模的操作。很顯然,Agentic AI的推理(reference)算力需求相比過去是顯著增加的(注意:這里不能說成本顯著增加)。
在此基礎(chǔ)上還需要考慮一個因素:由于邏輯推理模型工作時,在算力一定的情況下,響應(yīng)用戶請求的速度變慢了,則企業(yè)基于用戶體驗、留住用戶的角度,還要考慮提升響應(yīng)速度。如果響應(yīng)速度能提升10倍,則在token輸出相比過去要多出10倍的情況下,達成了用戶體驗的平衡。
圖3:算力一定時,資源分配在AI不同階段的變化 圖片來源:國際電子商情
所以總的來說,Agentic AI在顯著提升復(fù)雜任務(wù)推理能力的同時,大幅提升了單次推理的算力需求。市場此前認定DeepSeek大幅降低了AI訓(xùn)練成本,即便這一命題成立,卻也忽略了其推理資源在增加的事實(雖然我們不能簡單地說,成本在增加)。換句話說Agentic AI時代,整體資源分配方式是從原本高算力需求的預(yù)訓(xùn)練階段,逐漸向推理階段傾斜(圖3)。
更何況,從社會對AI的總投入來看,即便是訓(xùn)練階段,AI的價值也真的沒有降低。
5年內(nèi),AI世界都發(fā)生了什么?
有個頗為有趣的事實,可能是立足生成式AI或Agentic AI帶來生活與工作便利當下的人們已經(jīng)遺忘的:2020年的人類大概無論如何也不會想到,2025年的人會每天和AI說話,還借助AI來討論工作。
現(xiàn)在Youtube上熱門的AI課程,課后作業(yè)會要求學(xué)生訓(xùn)練7B參數(shù)的模型(實則為fine-tune)。回顧2019年GPT-2剛發(fā)布之時,1.5B參數(shù)量已經(jīng)讓行業(yè)與資本市場咋舌了。也就是說,2025年今天的任何一名AI專業(yè)學(xué)生,帶著已經(jīng)不算強的Llama2-7B模型回到2020年前后,就足以讓彼時的OpenAI感到毀天滅地了??梢夾I技術(shù)發(fā)展之快是完全顛覆了當代人的認知的。
另一個相關(guān)的重要結(jié)論在《DeepSeek的杰文斯悖論:AI芯片市場發(fā)展前瞻》中:在模型參數(shù)量級不變的情況下,每8個月模型能力就提升1倍。去年面壁智能就在發(fā)布會上說,如今2B參數(shù)量的模型,在實際表現(xiàn)上就能比肩幾年前170B參數(shù)量的模型。還有一些研究機構(gòu)則提出,AI模型要達成相同能力所需算力,每年降低4-10倍。
則對應(yīng)的,達成相同推理(reference)效果的成本就在近兩年大幅下降了。2022年1月GPT3的每百萬token推理成本(基于MMLU大型多任務(wù)語言理解基準)還在大幾十美元的高位,GPT3.5 Turbo就將該值拉到了2、3美元的程度,Llama2-7B實現(xiàn)了百萬token推理成本1美元,到近代的Llama 3.2-3B讓這個數(shù)字低到不足0.1美元。
短短3年時間,實現(xiàn)GPT3相似質(zhì)量的AI模型推理價格下降了1,200倍。(如圖4;注意,這里的成本下降是指單位token的推理成本,而非單次推理的成本也下降到這一量級水平,尤其考慮Agentic AI單次推理的token數(shù)量增長了10+倍)
圖4:2022年至今大語言模型的成本下降趨勢 圖片來源:國際電子商情
可見在AI芯片堆算力“大力出奇跡”的同時,整個AI技術(shù)棧的上層也在努力提升AI效率,令A(yù)I使用成本的降速遠快于當年半導(dǎo)體領(lǐng)域的摩爾定律?;蛟S很多人將AI技術(shù)稱作人類歷史的第四次科技革命是有道理的。
“這一階段,工程師致力于尋找以更低的成本達成相同效果的路徑,因此人工智能的發(fā)展階段和機械化飛行的演進并無二致?!盌ennis說,“像DeepSeek這樣的突破性變化是必然會出現(xiàn)的?!碑吘挂_成“人工智能無處不在、人盡可用”的目標,“就需要以更低的成本和更少的計算資源來實現(xiàn)。”
所以我們才說DeepSeek達成現(xiàn)如今的熱度和成就,是站在了巨人的肩膀上。業(yè)內(nèi)同人過去幾年就有著相同的目標、做著相同的事情。這也是Agentic AI能夠進入人們?nèi)粘I畹南葲Q條件。因為如果推理成本沒有降到這個程度,以3年前GPT-3的推理成本,Agentic AI恐怕也只是有錢人的玩具。
這些是人類通往AGI(通用人工智能)的必由之路,則市場更不應(yīng)當詫異這些年來企業(yè)、數(shù)據(jù)中心大量購入AI芯片的價值??赡墁F(xiàn)下的核心問題是,AI效率在提高、算力也在提升,那么究竟人類需要多少算力才能達到真正意義上的AGI?
實際上研究機構(gòu)每年所做的市場預(yù)測就是要回答這個問題?!禗eepSeek的杰文斯悖論:AI芯片市場發(fā)展前瞻》一文也已經(jīng)援引了麥肯錫對未來5年的判斷。但我們認為,這仍然是個難以計算的復(fù)雜問題?!凹幢闳斯ぶ悄苣P偷男试诓粩嗵岣?,對人工智能的需求的增長速度仍遠遠超過硬件的供應(yīng)速度。”這是包括Imagination在內(nèi)的幾乎所有市場參與者的共識。
此處再給另外一個維度的參考,今年GTC上NVIDIA預(yù)告了2年后要上市的Rubin Ultra NVL576系統(tǒng)——該機架將由576片Rubin Ultra die構(gòu)成,單片Rubin Ultra片內(nèi)存儲1TB HBM4e。整個系統(tǒng)性能提升14倍,存儲資源漲8倍,系統(tǒng)內(nèi)和系統(tǒng)外的互聯(lián)帶寬分別提升12倍和8倍(相比于GB300 NVL72)。
這顯然是突破了半導(dǎo)體“摩爾定律”的數(shù)字。數(shù)十倍性能提升在電子系統(tǒng)一年迭代時間里發(fā)生,且在NVIDIA看來還未必滿足AI算力需求:可見在現(xiàn)有市場參與者看來,DeepSeek會降低AI基建需求的早期誤判是可笑的(圖5)。
圖5:AI數(shù)據(jù)中心將是人類社會的中堅力量 圖片來源:國際電子商情
未來的AI總算力需求需求
最后還是回到經(jīng)典的杰文斯悖論。Dennis評價DeepSeek的創(chuàng)新成果“實際上是為AI硬件打開了更大的市場”,“為世界創(chuàng)造了更多的AI技術(shù)應(yīng)用空間”,“降低了AI計算需求門檻,為行業(yè)里的其他傳統(tǒng)企業(yè)和新創(chuàng)公司提供了全新的競爭手段”。
就像第一次科技革命之時,蒸汽機的效率提升致單位動力耗煤下降,但社會的煤炭總消耗量卻因為蒸汽機應(yīng)用場景擴展而激增。類比AI市場,雖說達成相同能力的AI模型訓(xùn)練和推理成本在下降,但總投入?yún)s將發(fā)生大幅增加——因為需求也隨之增加了。
所以我們可以說(1)AI成本下降會進一步帶動AI應(yīng)用的普及,更多行業(yè)和場景都會開始布局AI應(yīng)用;(2)效率的提升也會促成新應(yīng)用場景的出現(xiàn),應(yīng)用層面的創(chuàng)新甚至?xí)乾F(xiàn)在的人類始料未及的;
(3)帶動AI技術(shù)競爭和效率持續(xù)突破,也就是AI技術(shù)棧的持續(xù)效率優(yōu)化會促進競爭,進一步帶動市場整體發(fā)展。雖然本文主要是在談AI模型及算法的效率提升,但近些年AI芯片的效率提升也在持續(xù),不僅是NVIDIA的GPU、系統(tǒng)及諸如Dynamo這樣的中間件。Dennis在采訪中也說,最近發(fā)布的Imagination DXTP GPU IP,能效相比上代提升20%。這在我們看來會成為接下來幾年AI技術(shù)進步的常態(tài)。
遙想AlexNet剛剛促成這一波AI熱潮之時,就有人預(yù)言了“強AI”持續(xù)發(fā)展的時代,每5年的技術(shù)迭代,就可能讓人意想不到,再也回不去從前。今年的IIC Shanghai活動上,還有嘉賓認為,AI對人類生活習(xí)慣的潛在影響將超過智能手機。或許2、3年以后的人類回望2025年的我們,就已經(jīng)不理解為何當時的人類技術(shù)如此落后了。
