國(guó)產(chǎn)最強(qiáng)AI加速卡發(fā)布,大模型系統(tǒng)運(yùn)行不在話下
大模型端側(cè)部署正加速!AI PC等新物種熱度暴增,企業(yè)對(duì)于AI加速卡的關(guān)注度也水漲船高。
但是AI PC等端側(cè)設(shè)備中的AI加速卡如何做到可用、好用是一大難題,其需要兼顧體積小、性能強(qiáng)、功耗低才能使得端側(cè)設(shè)備承載大模型能力成為現(xiàn)實(shí)。
近日,清華系A(chǔ)I芯片創(chuàng)企芯動(dòng)力科技面向大模型推出了一款新產(chǎn)品——AzureBlade L系列M.2加速卡。M.2加速卡是目前國(guó)內(nèi)最強(qiáng)的高性能體積小的加速卡,其強(qiáng)大的性能使其能夠順利運(yùn)行大模型系統(tǒng)。
M.2加速卡的大小僅為80mm(長(zhǎng))x22mm(寬),并已經(jīng)實(shí)現(xiàn)與Llama 2、Stable Diffusion模型的適配。具備體積小、性能強(qiáng),且有通用接口的M.2加速卡成為助推大模型在PC等端側(cè)設(shè)備上部署的加速器。
體積小、性能強(qiáng)、功耗低,端側(cè)跑大模型三大關(guān)鍵
AI PC已經(jīng)成為大模型落地端側(cè)設(shè)備的一個(gè)重要載體。
從去年年底至今,AI PC的熱潮正在涌起。前有英特爾啟動(dòng)AI PC加速計(jì)劃、高通推出專為AI研發(fā)的PC芯片驍龍X Rlite、上周英偉達(dá)發(fā)布全新一代RTX 500和1000顯卡,支持筆記本電腦等端側(cè)設(shè)備上運(yùn)行生成式AI應(yīng)用……
根據(jù)市研機(jī)構(gòu)IDC發(fā)布的最新報(bào)告,預(yù)估AI PC出貨量2024年逼近5000萬(wàn)臺(tái),到2027年將增長(zhǎng)到1.67億臺(tái),占全球PC總出貨量的60%左右。
AI PC這一新物種正在加速大模型的規(guī)?;涞?。與此同時(shí),擁有龐大參數(shù)規(guī)模的大模型也對(duì)端側(cè)設(shè)備可承載的算力提出了更高的需求。
在端側(cè)往往只有一個(gè)獨(dú)立設(shè)備。以PC為例,作為人們?nèi)粘I?、工作的常用設(shè)備,其體積并不大且足夠輕便,因此需要AI加速卡足夠小且不會(huì)因體積犧牲性能上的優(yōu)勢(shì)。以M.2加速卡的形式進(jìn)入AI PC的市場(chǎng)就是很有優(yōu)勢(shì)的產(chǎn)品形態(tài)。
可以看到,當(dāng)下大模型的發(fā)展路線不再唯參數(shù)論,越來(lái)越多參數(shù)規(guī)模小性能強(qiáng)大的模型出現(xiàn),如開(kāi)源的Llama 2模型系列參數(shù)在70億到700億不等,為大模型在端側(cè)的落地提供了機(jī)會(huì)。
即便如此,大模型想要成功部署在端側(cè)對(duì)于芯片玩家而言仍然具有挑戰(zhàn),需要其突破端側(cè)設(shè)備有限的計(jì)算和存儲(chǔ)能力,因此芯片玩家亟需找到芯片體積小與性能強(qiáng)大的平衡點(diǎn)。
李原談道,端側(cè)設(shè)備還有一大特點(diǎn)是,GPU是其最主要的元件。這背后的風(fēng)險(xiǎn)在于,企業(yè)全部圍繞GPU來(lái)做設(shè)備,就會(huì)造成一旦產(chǎn)品的開(kāi)發(fā)周期變長(zhǎng),其未來(lái)的開(kāi)發(fā)路線會(huì)受到一定限制。由于邊緣設(shè)備上接口的可選擇性不多,很多設(shè)備需要針對(duì)不同的芯片進(jìn)行接口定制,企業(yè)就需要承擔(dān)接口受限的風(fēng)險(xiǎn)。
這些新的變化及需求為這家GPGPU創(chuàng)企帶來(lái)了新的機(jī)遇。
GPGPU:提高模型訓(xùn)練效率的AI產(chǎn)業(yè)發(fā)展利器
算力的迅猛發(fā)展,離不開(kāi)芯片、數(shù)據(jù)中心和云計(jì)算等產(chǎn)業(yè)鏈的完善,特別是GPU,作為三大算力芯片之一,已經(jīng)是國(guó)家、產(chǎn)業(yè)高度重視的戰(zhàn)略高地。其中,GPGPU架構(gòu)憑借極強(qiáng)的通用計(jì)算能力,正在成為AI算力時(shí)代的最優(yōu)解。
GPU的技術(shù)路線有多種,比如GPGPU、FPGA、ASIC等等,其中GPGPU 是人工智能領(lǐng)域最主要的協(xié)處理器解決方案,占據(jù)人工智能90%以上的市場(chǎng)份額。
GPGPU比其他路線具有更好的通用性,因此應(yīng)用領(lǐng)域非常廣泛,在科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、密碼學(xué)、圖像處理等各種領(lǐng)域均起到重要作用。
通過(guò)利用GPU的并行處理能力,GPGPU可以加速這些領(lǐng)域中的計(jì)算任務(wù),提高計(jì)算效率,縮短計(jì)算時(shí)間;尤其是在云端運(yùn)行模型訓(xùn)練算法時(shí),使用GPGPU可以縮短海量訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí)長(zhǎng),減少能源消耗,從而進(jìn)一步降低人工智能的應(yīng)用成本,這對(duì)人工智能領(lǐng)域的發(fā)展是非常關(guān)鍵的。
當(dāng)下,GPGPU芯片在火熱的AI市場(chǎng)中已經(jīng)供不應(yīng)求。未來(lái)幾年內(nèi),中國(guó)人工智能芯片市場(chǎng)規(guī)模將保持年均40%至50%的增長(zhǎng)速度,GPGPU通用性好和軟件生態(tài)系統(tǒng)完善的優(yōu)勢(shì)會(huì)進(jìn)一步展現(xiàn)出來(lái),擁有更加廣闊的市場(chǎng)前景。
技術(shù)著眼深度,走出自己的道路
我國(guó)芯片產(chǎn)業(yè)較其他國(guó)家起步較晚,在李原看來(lái),國(guó)產(chǎn)替代的時(shí)代已經(jīng)過(guò)去了。
“國(guó)外企業(yè)已經(jīng)形成了技術(shù)壁壘,我們不應(yīng)該去做一個(gè)純國(guó)產(chǎn)替代的產(chǎn)品,尤其在芯片這個(gè)競(jìng)爭(zhēng)激烈的行業(yè),很多龍頭企業(yè)沉淀多年,靠追趕是很難的?!崩钤硎?,“我們要在某一個(gè)方向上進(jìn)行突破,走出一條自己的路子?!?/span>
就芯動(dòng)力而言,目前雖然廣度不足以媲美行業(yè)龍頭,但在深度方面的積累,已經(jīng)超過(guò)當(dāng)前技術(shù)領(lǐng)先的公司。李原舉例,芯動(dòng)力產(chǎn)品從效率方面來(lái)說(shuō),比當(dāng)前任何一款類似的芯片效率都要高,“我們的14納米的芯片甚至比某國(guó)際知名品牌的7納米A100的芯片效率更高,這讓我們?cè)谀承┊a(chǎn)品上具有了絕對(duì)競(jìng)爭(zhēng)優(yōu)勢(shì)”。
“作為一家技術(shù)型初創(chuàng)公司,技術(shù)和創(chuàng)新是為商業(yè)服務(wù)的?!崩钤J(rèn)為,“客戶的需求我們要仔細(xì)分析,找出真正的痛點(diǎn)并加以解決?!碑?dāng)前,芯動(dòng)力的產(chǎn)品已經(jīng)在邊緣計(jì)算領(lǐng)域、銀行、通訊領(lǐng)域、醫(yī)療超聲波方向、AI方向的高性能計(jì)算等領(lǐng)域?qū)崿F(xiàn)應(yīng)用。
當(dāng)前,芯動(dòng)力研發(fā)團(tuán)隊(duì)核心成員有平均年限超15年的資深半導(dǎo)體從業(yè)背景,且均來(lái)自英特爾、高通、德州儀器等知名半導(dǎo)體企業(yè),研發(fā)人員占比超過(guò)80%,每年的研發(fā)投入超過(guò)90%。
基于深厚的技術(shù)積累和完善的人才儲(chǔ)備,芯動(dòng)力核心成員研究并提出了在并行計(jì)算的領(lǐng)域里的可重構(gòu)并行處理器架構(gòu)(Reconfigurable Parallel Processor)。該架構(gòu)不去涉及通用計(jì)算領(lǐng)域,而是專注于并行計(jì)算領(lǐng)域。可以用基于CUDA的高級(jí)語(yǔ)言進(jìn)行原代碼編程,利用自有的指令集作為底層匯編,使得在高性能計(jì)算領(lǐng)域內(nèi)最廣泛使用的語(yǔ)言進(jìn)行支持。
具體來(lái)看,RPP創(chuàng)新架構(gòu)主要具備三大優(yōu)勢(shì):一是更強(qiáng)的處理能力。RPP設(shè)計(jì)的計(jì)算中心用芯片可以達(dá)到目前最先進(jìn)處理器10倍的處理能力。英偉達(dá)最新推出的GPGPU,GP100是目前芯片面積最大,計(jì)算能力最強(qiáng)的芯片。它已達(dá)到了600平方毫米芯片面積,300W功率。RPP的設(shè)計(jì)目標(biāo)是10倍于GP100的計(jì)算能力,降低服務(wù)器的成本且提高服務(wù)器性能。
二是更短的處理遲延。RPP的計(jì)算方法和GPGPU的計(jì)算架構(gòu)非常不同,這樣的架構(gòu)使得計(jì)算的處理時(shí)延低,并使得計(jì)算平臺(tái)能夠應(yīng)用在實(shí)時(shí)的處理計(jì)算之中。這在要求低遲延的系統(tǒng),比如通訊系統(tǒng)中可以得到良好的應(yīng)用。
三是低功耗。在許多系統(tǒng)之中,低功耗成為了主要的性能指標(biāo),比如說(shuō)手機(jī),平板電腦等,電池的壽命往往非常有限,低功耗而高性能的計(jì)算,成為了必需。而在計(jì)算中心之中,服務(wù)器的功耗是散熱的主要部分。1/10的功耗,將意味著1/10的電費(fèi)。這意味著大大降低運(yùn)營(yíng)成本。
總的來(lái)說(shuō),這款芯片可以幫助客戶加快Time to Market的步伐,降低他們的開(kāi)發(fā)周期和產(chǎn)品成本,實(shí)現(xiàn)低成本及快速的遷移。
據(jù)悉,目前以RPP技術(shù)研發(fā)的第一代RPP-R8芯片已經(jīng)成功流片,基于全新自研架構(gòu),RPP-R8是一款為并行計(jì)算設(shè)計(jì)的高端通用異構(gòu)芯片。
