九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

一個(gè)AI大模型至少需要上萬張GPU,蛋糕之大誰都想要分一塊

2023-07-13 來源:賢集網(wǎng)
1454

關(guān)鍵詞: 人工智能 英偉達(dá) 芯片

ChatGPT的火爆掀起了從巨頭到初創(chuàng)的科技業(yè)AI競(jìng)賽。在這場(chǎng)AI淘金大戰(zhàn)中,提供一流AI芯片的英偉達(dá)成為大贏家,華爾街高呼“英偉達(dá)是AI大戰(zhàn)唯一的軍火商” 。

而過去一個(gè)月,英文達(dá)又在AI風(fēng)投圈殺瘋了,看來正在趁其GPU處于領(lǐng)先地位的時(shí)間窗口,鞏固建立的最強(qiáng)AI產(chǎn)業(yè)聯(lián)盟。


英偉達(dá)打造最強(qiáng)AI芯片聯(lián)盟

今年6月,英偉達(dá)就參與了三家高調(diào)宣布獲得新一輪融資的AI獨(dú)角獸融資。其中6月9日,做類ChatGPT聊天機(jī)器人的加拿大AI公司Cohere宣布完成2.7億美元C輪融資,英偉達(dá)、甲骨文、Salesforce等參與。Cohere的估值由此達(dá)到約22億美元。

另外兩家在上周四一天內(nèi)不約而同公布大規(guī)模融資的初創(chuàng)分別是:推出AI聊天機(jī)器人Pi的Inflection AI和AI文生視頻創(chuàng)企Runway。



其中,由DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman去年聯(lián)合創(chuàng)辦并擔(dān)任CEO的Inflection AI獲得13億美元新融資,據(jù)Crunchbase統(tǒng)計(jì),這是目前排在第四高位的AI融資輪規(guī)模。

Inflection AI新一輪融資的領(lǐng)投方是微軟、領(lǐng)英聯(lián)合創(chuàng)始人Reid Hoffman、比爾?蓋茨、谷歌董事長(zhǎng)埃里克?施密特,英偉達(dá)是投資者中唯一的新面孔。

完成融資后,Inflection AI的估值升至約40億美元,成為估值僅次于OpenAI和Anthropic的全球第三大生成式AI獨(dú)角獸。

Runway完成了1.41億美元新融資,新加入的投資者包括谷歌、英偉達(dá)和Salesforce,通過這輪,Runway的估值升至約15億美元,不到半年翻了三倍。

Inflection AI最近推出了其首個(gè)專有語言模型Inflection-1,稱該模型是在非常大的數(shù)據(jù)集上使用數(shù)千個(gè)英偉達(dá)H100訓(xùn)練的,是其計(jì)算類別中最好的模型,在通常用于比較大語言模型(LLM)的各種基準(zhǔn)測(cè)試中,性能優(yōu)于GPT-3.5、LLaMA、Chinchilla 和 PaLM-540B。

上周四,Inflection AI還宣布,在與英偉達(dá)合作打造全球最大的AI集群之一,其超級(jí)計(jì)算機(jī)將擴(kuò)展至包含2.2萬個(gè)英偉達(dá)H100芯片,支持新一代AI大模型的訓(xùn)練和部署。集成AI芯片的數(shù)量直接碾壓了Meta今年5月公布的1.6萬個(gè)A100打造的超算集群。

除了英偉達(dá),Inflection AI上述超級(jí)GPU集群的另一合作方是云服務(wù)供應(yīng)商CoreWeave。它號(hào)稱可提供“比傳統(tǒng)云提供商便宜80%”的算力。英偉達(dá)之前曾對(duì)CoreWeave投資1億美元。6月有媒體稱,微軟同意未來數(shù)年內(nèi)向CoreWeave投資數(shù)十億美元,用于云計(jì)算基礎(chǔ)設(shè)施建設(shè)。

在最新發(fā)布的權(quán)威AI性能基準(zhǔn)測(cè)試MLPerf中,英偉達(dá)和CoreWeave合作構(gòu)建的擁有3584個(gè)H100的集群,僅用不到11分鐘就訓(xùn)練完GPT-3大型語言模型。


競(jìng)爭(zhēng)對(duì)手不少

除了谷歌,其他的互聯(lián)網(wǎng)巨頭也紛紛加入了自研AI芯片的行列。

例如,亞馬遜在2018年推出了自己的AI芯片Inferentia,用于加速云端的AI推理任務(wù),如語音識(shí)別、自然語言處理、圖像分析等。亞馬遜將Inferentia部署在自己的云服務(wù)和數(shù)據(jù)中心中,為自己的AI產(chǎn)品和服務(wù)提供了更高效和更低成本的解決方案,如亞馬遜Alexa、亞馬遜Echo、亞馬遜Rekognition等。亞馬遜也將Inferentia開放給了第三方開發(fā)者,讓他們可以通過亞馬遜云平臺(tái)使用Inferentia來加速自己的AI模型。

類似的,F(xiàn)acebook、微軟、阿里巴巴、騰訊等公司也都在研發(fā)自己的AI芯片,用于支持自己的AI業(yè)務(wù)和云服務(wù),同時(shí)也為第三方開發(fā)者提供了更多的選擇和便利。這些公司都是英偉達(dá)的重要客戶,如果他們轉(zhuǎn)向自己的AI芯片,英偉達(dá)將面臨巨大的市場(chǎng)損失和競(jìng)爭(zhēng)壓力。

除了互聯(lián)網(wǎng)巨頭,其他的半導(dǎo)體公司也在加緊研發(fā)AI芯片,試圖分食英偉達(dá)的市場(chǎng)份額。例如,英特爾在2016年收購(gòu)了AI芯片公司Nervana,推出了自己的AI芯片Nervana Neural Network Processor(NNP),用于加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理。英特爾還收購(gòu)了AI芯片公司Movidius和Habana Labs,推出了自己的AI芯片Movidius Vision Processing Unit(VPU)和Habana Gaudi/Goya,用于加速視覺處理和機(jī)器學(xué)習(xí)任務(wù)。英特爾將這些AI芯片集成到自己的CPU、FPGA、云服務(wù)等產(chǎn)品中,為各種場(chǎng)景提供了多樣化的AI解決方案。



類似的,AMD、ARM、高通、華為、三星等公司也都在研發(fā)自己的AI芯片,用于加速各種設(shè)備和平臺(tái)上的AI任務(wù),如手機(jī)、平板、筆記本、服務(wù)器、汽車等。這些公司都是英偉達(dá)的潛在競(jìng)爭(zhēng)對(duì)手,如果他們能夠提供更好或更便宜的AI芯片,英偉達(dá)將面臨更多的挑戰(zhàn)和威脅。

總之,隨著AI技術(shù)的發(fā)展和普及,越來越多的公司開始自研AI芯片,以降低對(duì)英偉達(dá)的依賴,提高自己的核心競(jìng)爭(zhēng)力。這對(duì)英偉達(dá)來說是一個(gè)潛在的威脅,它需要不斷創(chuàng)新和優(yōu)化自己的AI芯片,以保持自己在AI領(lǐng)域的領(lǐng)先地位。


微軟與華盛頓大學(xué)合作研究全新GPU

從生成式人工智能爆發(fā)之初我們就一直在說,如果推理需要與訓(xùn)練相同的硬件來運(yùn)行,那么它就無法產(chǎn)品化。沒有人能夠負(fù)擔(dān)得起,即使是財(cái)力雄厚的超大規(guī)模提供商和云構(gòu)建商。

這就是為什么微軟與華盛頓大學(xué)的研究人員合作,炮制了一個(gè)名為 Chiplet Cloud 的小東西,從理論上講,它至少看起來在推理方面可以擊敗 Nvidia“Ampere”A100 GPU(而且對(duì)于較小的用戶來說),甚至還可以擊敗包括“Hopper”H100 GPU和運(yùn)行 Microsoft GPT-3 175B 和 Google PaLM 540B 模型的 Google TPUv4 加速器。

Chiplet Cloud 架構(gòu)剛剛在一篇基于 Shuaiwen Leon Song 牽頭的研究的論文中披露,Shuaiwen Leon Song 是太平洋西北國(guó)家實(shí)驗(yàn)室的高級(jí)科學(xué)家和技術(shù)主管,也是悉尼大學(xué)和悉尼大學(xué)未來系統(tǒng)架構(gòu)研究人員的記憶庫(kù)。華盛頓大學(xué)博士后,于今年 1 月加入微軟,擔(dān)任高級(jí)首席科學(xué)家,共同管理其Brainwave FPGA 深度學(xué)習(xí)團(tuán)隊(duì),并針對(duì) PyTorch 框架運(yùn)行其DeepSpeed 深度學(xué)習(xí)優(yōu)化,這兩者都是微軟研究院 AI at Scale 系列的一部分項(xiàng)目。

這些研究并非毫無意義——正如您將看到的,我們真正的意思是——這些項(xiàng)目被 GPT 擊敗,迫使微軟在 Leon Song 加入微軟的同時(shí)向 OpenAI 投資 100 億美元。迄今為止,微軟已向 OpenAI 提供了 130 億美元的投資,其中大部分將用于在微軟 Azure 云上訓(xùn)練和運(yùn)行 GPT 模型。

如果我們必須用一句話來概括 Chiplet Cloud 架構(gòu)(我們必須這樣做),那就是:采用晶圓級(jí)、大規(guī)模并行、充滿 SRAM 的矩陣數(shù)學(xué)引擎,就像 Cerebras Systems 設(shè)計(jì)的那樣,握住它在空中完美水平,讓它落在你面前的地板上,然后拾起完美的小矩形并將它們?nèi)靠p合在一起形成一個(gè)系統(tǒng)?;蛘吒鼫?zhǔn)確地說,不是用 SRAM 做晶圓級(jí)矩陣數(shù)學(xué)單元,而是制作大量單獨(dú)成本非常低且產(chǎn)量非常高(這也降低了成本)的小單元,然后使用非??斓幕ミB。

這種方法類似于 IBM 對(duì)其 BlueGene 系列大規(guī)模并行系統(tǒng)(例如安裝在勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的 BlueGene/Q)所做的事情與 IBM 在“Summit”超級(jí)計(jì)算機(jī)中對(duì) GPU 重鐵所做的事情之間的區(qū)別。BlueGene 與日本 RIKEN 實(shí)驗(yàn)室的“K”和“Fugaku”系統(tǒng)非常相似,從長(zhǎng)遠(yuǎn)來看可能一直是正確的方法,只是我們需要針對(duì) AI 訓(xùn)練、HPC 計(jì)算以及 AI 推理進(jìn)行調(diào)整的不同處理器。

最近幾周,我們一直在討論構(gòu)建運(yùn)行基于 Transformer 的生成 AI 模型的系統(tǒng)的巨大成本,Chiplet Cloud 論文很好地闡述了為什么 Amazon Web Services、Meta Platforms 和 Google 一直在努力尋找制造自己的芯片以使人工智能推理更便宜的方法。

華盛頓大學(xué)的邁克爾·泰勒 (Michael Taylor)、胡萬·彭 (Huwan Peng)、斯科特·戴維森 (Scott Davidson) 和理查德·施 (Richard Shi) 等研究人員寫道:“在 GPU 等商用硬件上提供基于生成式Transformer的大型語言模型,已經(jīng)遇到了可擴(kuò)展性障礙?!?“GPU 上最先進(jìn)的 GPT-3 吞吐量為每 A100 18 個(gè)token/秒。ChatGPT 以及將大型語言模型集成到各種現(xiàn)有技術(shù)(例如網(wǎng)絡(luò)搜索)中的承諾使人們對(duì)大型語言模型的可擴(kuò)展性和盈利能力產(chǎn)生了疑問。例如,Google 搜索每秒處理超過 99,000 個(gè)查詢。如果 GPT-3 嵌入到每個(gè)查詢中,并假設(shè)每個(gè)查詢生成 500 個(gè)token,則 Google 需要 340,750 臺(tái) Nvidia DGX 服務(wù)器(2,726,000 個(gè) A100 GPU)才能跟上。僅這些 GPU 的資本支出就超過 400 億美元。能源消耗也將是巨大的。假設(shè)利用率為 50%,平均功率將超過 1 吉瓦,足以為 750,000 個(gè)家庭供電?!?/span>



國(guó)內(nèi)大模型應(yīng)用有了GPU的新選擇

近日,國(guó)內(nèi)GPU芯片企業(yè)天數(shù)智芯卻為一眾國(guó)產(chǎn)大模型應(yīng)用的探索企業(yè)帶來了好消息。

在6月10日召開的第五屆智源大會(huì)AI系統(tǒng)分論壇上,天數(shù)智芯宣布,在天垓100加速卡的算力集群,基于北京智源人工智能研究院(以下簡(jiǎn)稱“智源研究院”)70億參數(shù)的Aquila語言基礎(chǔ)模型,使用代碼數(shù)據(jù)進(jìn)行繼續(xù)訓(xùn)練,穩(wěn)定運(yùn)行19天,模型收斂效果符合預(yù)期,證明天數(shù)智芯有支持百億級(jí)參數(shù)大模型訓(xùn)練的能力。

天垓100是天數(shù)智芯的第一代GPU產(chǎn)品,它從2018年開始規(guī)劃布局,而ChatGPT爆火不足1年。為何大模型應(yīng)用爆發(fā)之后,天數(shù)智芯能夠很快有方案來適配?“這是因?yàn)槲覀冏龅漠a(chǎn)品和技術(shù)路線對(duì)于這些不斷變化和不確定的應(yīng)用來說,它是確定的。雖然各種應(yīng)用和算法都在快速發(fā)展,但是對(duì)于通用計(jì)算并行化、大規(guī)模性能提升是不變的。”天數(shù)智芯產(chǎn)品線總裁鄒翾告訴筆者。

據(jù)悉,天數(shù)智芯的天垓、智鎧系列通用GPU產(chǎn)品具有高性能、廣通用、開發(fā)成本低的特點(diǎn),廣泛支持DeepSpeed、Colossal、BM Train等各種大模型框架,基于天垓、智鎧加速卡的算力集群方案不僅能夠有效支持LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pretrain和Finetune,還適配了清華、智源、復(fù)旦等在內(nèi)的國(guó)內(nèi)多個(gè)研究機(jī)構(gòu)的開源項(xiàng)目,為行業(yè)伙伴提供一站式的大模型算力及賦能服務(wù)。

天垓100芯片的成功訓(xùn)練百億級(jí)參數(shù)大模型,顯示了國(guó)內(nèi)芯片企業(yè)在技術(shù)研發(fā)上的實(shí)力和進(jìn)步。這為國(guó)內(nèi)的大型模型應(yīng)用提供了新的選擇,并為相關(guān)領(lǐng)域的創(chuàng)新發(fā)展帶來了推動(dòng)力。雖然目前國(guó)內(nèi)GPU芯片企業(yè)與NVIDIA相比仍然處于起步階段,但天數(shù)智芯的進(jìn)展表明國(guó)內(nèi)也在逐漸迎頭趕上,并且在未來有望取得更多突破。


大模型應(yīng)用需要多少算力?

那么,對(duì)于當(dāng)下的大模型應(yīng)用究竟需要多少算力?鄒翾表示,短期來看,根據(jù)公開數(shù)據(jù)顯示,ChatGPT 3大約需要1萬張GPU卡來做訓(xùn)練,根據(jù)馬斯克的預(yù)測(cè),最新的ChatGPT 4所需要的可能是3-5倍,這還只是頭部企業(yè)的情況,而放眼全球,至少還有10家真正有實(shí)力的企業(yè)也想做大模型應(yīng)用。在這些“百?!鄙踔潦恰扒!钡膽?yīng)用下,算力是基礎(chǔ)的保障,而現(xiàn)在的問題是算力還遠(yuǎn)遠(yuǎn)不夠,黃仁勛此前表示,GPU卡比“毒品”還難買到。因此,當(dāng)務(wù)之急是首先要有能用的算力產(chǎn)品。

長(zhǎng)期來看,大模型算力的參數(shù)還在不斷提升,一個(gè)主要的原因是我們還沒有把大模型應(yīng)用的所有性能挖掘出來。頭部企業(yè)都想抓住那些沒有被發(fā)現(xiàn)的能力的制高點(diǎn)。百家爭(zhēng)鳴,群雄逐鹿,事情發(fā)展到最后,最終會(huì)收斂到一個(gè)相對(duì)較穩(wěn)定的狀態(tài),屆時(shí)算力基礎(chǔ)設(shè)施將會(huì)比較明確。

而對(duì)于天數(shù)智芯這樣的底層芯片企業(yè)而言,要做的就是不斷升級(jí)算力解決方案,適配支持更高效、更復(fù)雜算法的大模型,為我國(guó)大模型創(chuàng)新發(fā)展、應(yīng)用落地提供更加堅(jiān)實(shí)的算力支撐。

在未來的產(chǎn)品規(guī)劃方面,因應(yīng)大模型這一特定應(yīng)用的發(fā)展需求,天數(shù)智芯也在有針對(duì)性的對(duì)未來的產(chǎn)品進(jìn)行設(shè)計(jì)調(diào)優(yōu)。具體據(jù)鄒翾的介紹,主要包括散熱供電、多塊卡之間的通訊連接,以及在計(jì)算、存儲(chǔ)和通訊之間找到一個(gè)平衡的關(guān)系等,再就是對(duì)Transformer結(jié)構(gòu)進(jìn)行進(jìn)一步的加速化。