九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

歡迎訪問深圳市中小企業(yè)公共服務平臺電子信息窗口

一百五十億的需求巨大的缺口,AI圈里苦GPU久矣,瓶頸到底在哪?

2023-08-14 來源:賢集網(wǎng)
1341

關鍵詞: GPU 英偉達 人工智能

GPU Utils 發(fā)布了一份關于英偉達GPU——主要是H100的研究報告,試圖梳理有關GPU供應和需求的相關問題。在這篇主要針對美國市場的報告中,我們看到了目前阻礙大模型和人工智能發(fā)展的關鍵瓶頸GPU短缺是如何形成和發(fā)展的。

總的來說,GPU瓶頸的出現(xiàn)原因是多方面的,環(huán)環(huán)相扣的復雜工藝制造流程,半導體周期,對稀缺資源的搶占與恐慌乃至未曾預料到的人工智能的突然爆發(fā),都讓GPU算力變得無比緊張。

對人工智能的巨大需求也暴露了用于開發(fā)和部署人工智能模型的強大芯片的全球供應鏈的局限性。GPU 是一種關鍵的硬件,可幫助運行訓練和部署人工智能算法所涉及的無數(shù)計算。行業(yè)分析師表示,持續(xù)的 GPU 緊縮已經(jīng)影響了大大小小的企業(yè),包括人工智能行業(yè)的一些領先平臺,并且至少在一年或更長時間內(nèi)可能不會出現(xiàn)有意義的改善。

不過樂觀地看,2024年這一瓶頸或許會有所緩解。


1、AI 圈里,苦 H100 GPU 久矣

OpenAI 聯(lián)合創(chuàng)始人兼職科學家 Andrej Karpathy 近日發(fā)文稱“目前硅谷最熱門的八卦,就是誰誰又買了多少塊 H100 GPU。”



特斯拉掌門人馬斯克曾經(jīng)向整個科技行業(yè)發(fā)出警告,稱巨大的 GPU 危機即將來臨。今年 4 月,馬斯克曾發(fā)表推文說,“如今不管是人是狗,都在瘋狂購買 GPU?!倍薮蟮男枨?,勢必引發(fā)嚴重的供應短缺。時間快進到當下,每個人都想搞自己的 AI 產(chǎn)品和業(yè)務。面對這樣一場聲勢浩大的 AI 洪流,即使是像英偉達這樣的全球巨頭也難以及時制造出充足的 GPU 貨源。

市場對高性能 GPU(特別是英偉達 H100)的需求仍在猛增。截至 2023 年 8 月,科技行業(yè)正經(jīng)受英偉達 H100 短缺的嚴重折磨。GPU 供應不足,正在對嚴重依賴其進行模型訓練和推理任務的 AI 廠商造成重大影響。

微軟最近的年度報告顯示了人工智能芯片可能長期短缺的最新跡象。該報告首次將 GPU 的可用性確定為投資者可能會遇到的的風險因素。

微軟寫道:“我們將繼續(xù)尋找和評估擴大數(shù)據(jù)中心位置和增加服務器容量的機會,以滿足客戶不斷變化的需求,特別是考慮到對人工智能服務不斷增長的需求?!?“我們的數(shù)據(jù)中心取決于許可的可建設土地、可預測的能源、網(wǎng)絡供應和服務器,包括 GPU 和其他組件?!?/span>

微軟對 GPU 的認可凸顯了計算能力的獲取如何成為制約 AI 發(fā)展的關鍵因素。該問題直接影響正在構建人工智能工具和產(chǎn)品的公司,并間接影響希望將該技術應用于自己目的的企業(yè)和最終用戶。

來自 OpenAI 公司的 Andrej Karpathy 表示,“目前硅谷最熱門的八卦,就是誰誰又買了多少塊 H100 GPU?!庇腥さ氖?,AWS Lambda CEO Stephen Balaban 也提到,“Lambda 將于今年年底之前上線數(shù)千塊 H100——如果您需要 64 塊或者更多的 H100,請?zhí)崆八叫蓬A約。”沒錯,這寶貝現(xiàn)在就是這么緊俏。

包括 Quora 公司 CEO Adam D’Angelo 和 OpenAI 創(chuàng)始人 Sam Altman 在內(nèi)的多位 AI 領導者,也都表達了自己對于 GPU 短缺問題的擔憂。OpenAI 透露,GPU 供應不足阻礙了他們的短期計劃,包括模型微調(diào)和劃撥專用容量。也許這正是 OpenAI 目前拘囿于 GPT-4,無法進一步履行其大語言模型開發(fā)承諾的原因之一。


2、數(shù)十萬張缺口,一百五十億需求

每個想要在人工智能爆發(fā)中分一杯羹的人都需要GPU。準確地說,是英偉達的A100和H100,它們在訓練和推理大模型中扮演關鍵角色。如果要想要從頭訓練大模型,至少需要上千張A100或H100,而推理和微調(diào)大模型也至少需要儲存100張。

具體到每家的數(shù)量上,報告匯總了一些數(shù)據(jù):GPT4在1萬到2.5萬塊A100上訓練,Meta有2.1萬塊A100,特斯拉有7000塊,Stability AI有5000塊,谷歌云大概有2.5萬塊H100,微軟Azure 有1萬到4萬塊,甲骨文可能也有同樣多的H100。值得一提的是,Azure的GPU基本都用來供應OpenAI的訓練了。

而根據(jù)馬斯克的說法,GPT5的訓練可能會用到3萬到5萬張H100,因此對未來的估計上,報告指出OpenAI可能需要5萬張H100,Meta至少需要2.5萬張(也有人說實際上需要10萬乃至更多),所有的云服務廠商,微軟、谷歌云和亞馬遜云以及甲骨文各需要3萬張,私有云服務商,比如剛剛?cè)谫Y的CoreWeave等總需求是10萬張,而像Claude的開發(fā)者Anthropic這樣的初創(chuàng)公司也都至少需要1萬張GPU。

另外,一些金融公司比如JP Morgan等也在部署A100或H100,因此總體上看,對H100的需求超過了43萬張。

這還是不算中國市場的情況,由于制裁原因,字節(jié)跳動、百度、騰訊和阿里巴巴只能大量購買A100和H100的替代產(chǎn)品A800與H800,這一部分的需求沒有列入其中,其總額高達50億美金。

如果將這些數(shù)字相加,這就是目前英偉達面對的,總計規(guī)模高達200億美元的GPU需求。


3、瓶頸到底在哪里?

目前,H100的供應已經(jīng)相當短缺,有傳言說微軟Azure和谷歌云的容量實際上已經(jīng)快用完了,亞馬遜云也面對同樣的情況,傳言目前下單需要等數(shù)月乃至半年。

導致稀缺的原因是多方面的,最根本的是,GPU是一項極端復雜的技術,需要世界上最先進的生產(chǎn)工藝,而掌握這項工藝的工廠——臺積電,它的產(chǎn)能是有限的。



目前H100都由臺積電代工,使用4N工藝,也就是增強型5納米制程(相比之下A100使用的是N7),這幾乎是目前最復雜的芯片制作工藝,從開始生產(chǎn)到出售給客戶,H100中間經(jīng)歷的生產(chǎn)、包裝和測試環(huán)節(jié)一共需要6個月左右,這就意味著對H100的生產(chǎn)需要英偉達和臺積電進行提前的布局,這在半導體行業(yè)來說是經(jīng)常的事,但這一次英偉達和臺積電顯然都對H100需求出現(xiàn)了錯誤的判斷。

這很好理解,因為ChatGPT爆發(fā)是去年底的事,那時關于今年的生產(chǎn)計劃(至少是上半年的計劃)已經(jīng)規(guī)劃好了,臺積電總體的生產(chǎn)能力是有限的,還需要在不同的大客戶之間分配,而產(chǎn)能爬坡也需要一個很長的過程——不要忘記生產(chǎn)H100這種GPU包含著全世界最復雜的工藝流程。

報告中特別指出生其中之一的瓶頸在于所謂CoWoS封裝(Chip on wafer on Substrate 芯片、晶圓、基板封裝),它目前的月產(chǎn)量是8000片,今年底有望提升至 11,000 片, 2024 年底則達到每月 14,500 至 16,600 片左右的水平,也就是說,想要提升一倍的產(chǎn)量,幾乎需要一年半的時間,這當然也是由于生產(chǎn)工藝異常復雜導致。

這直接影響了H100的生產(chǎn),更何況并不是只有一家在使用CoWoS封裝工藝,英偉達的競爭對手AMD以及博通、思科和賽靈思等都同樣在使用這種工藝制作芯片,又一次,臺積電的產(chǎn)能瓶頸限制了GPU的供應。

另外,H100所使用的HBM3系列內(nèi)存也是一個生產(chǎn)難點。報告指出英偉達主要在使用SK海力士的內(nèi)存,后者是這一領域的領軍者,特別是在HBM內(nèi)存的研發(fā)上。HBM技術直接把內(nèi)存堆棧放在GPU芯片上,實現(xiàn)了更高的帶寬和更低的功耗。今年4月20日,SK海力士宣布在全球率先研發(fā)出12層堆疊的HBM3內(nèi)存,單顆容量達到24GB。內(nèi)存容量越大,意味著GPU可以裝載下更大的模型,然而HBM3內(nèi)存的生產(chǎn)過程也十分復雜,產(chǎn)量提升同樣困難重重,實際上另外幾家芯片大廠,比如三星和美光,都很難提升HBM內(nèi)存的產(chǎn)量,據(jù)說SK海力士正在根據(jù)英偉達的要求增產(chǎn),在剛剛過去的SIGGRAPH 2023 上,黃仁勛發(fā)布了GH200超級芯片的更新版, 采用了增強的HBM3E內(nèi)存,這可以看作是英偉達在內(nèi)存領域同供應商密切協(xié)作的一個例子。


4、GPU 稀缺性已成新的護城河

令事態(tài)雪上加霜的是,業(yè)界專家擔心當前 GPU 稀缺性可能引發(fā)自我強化的循環(huán)。換言之,這種稀缺性本身成為新的護城河,增強各方囤積 GPU 資源的心理、進一步加劇資源不足。也許這就是馬斯克當初囤積 GPU 的原因所在。下一代 H100 繼任者預計要到 2024 年底才會推出,這漫長的一年半將反復折磨用戶們脆弱的神經(jīng)。

2010 年,我們使用黃仁勛的英偉達 GPU,證明無需任何無監(jiān)督預訓練,即可通過簡單的反向傳播實現(xiàn)對深度前饋網(wǎng)絡的訓練。2011 年,我們的 DanNet 成為首個超級卷積神經(jīng)網(wǎng)絡。而到如今,計算成本降低到當初的百分之一,但英偉達公司的市值則漲了 100 多倍……

獲取 H100 已經(jīng)成為 AI 公司面臨的重大難題,也開始阻礙他們的正常運營,導致產(chǎn)品發(fā)布和模型訓練紛紛出現(xiàn)延遲。AI 熱潮帶來的對算力前所未有的需求也在加劇這種情況,導致 GPU 制造中使用的各種基本組件均告短缺。

英偉達一直在支持全球幾乎所有 AI 初創(chuàng)公司,而且似乎在為初創(chuàng)公司提供資助,幫助他們建立業(yè)務并購買 GPU。如今的英偉達已經(jīng)在 GPU 市場上建立起壟斷地位,而其他參與方也不得不抱緊這條大腿。于是乎,滿足市場需求的責任將無人分擔,只能著落在英偉達自己身上。

但 GPU 的制造涉及復雜的工藝流程,需要各種關鍵組件。內(nèi)存、互連速度(例如 InfiniBand)、緩存和緩存延遲等因素,在 GPU 的實際性能表現(xiàn)上起著至關重要的作用。其中任何一種組件的短缺,都有可能導致 GPU 生產(chǎn)延遲、進而引發(fā)整體供應不足。