您的位置:首頁(yè) >互聯(lián)網(wǎng) >

“AI算力荒”解困的短、中、長(cháng)策

2023-04-19 09:33:20    來(lái)源:維科號

AI算力不夠,已經(jīng)是老大難問(wèn)題。ChatGPT等大語(yǔ)言模型,掀起了新一輪“大煉模型”和“煉大模型”的熱潮,又讓本就不足的算力雪上加霜。

適用于A(yíng)I計算的GPU供不應求,買(mǎi)不到卡的企業(yè)和科研機構嗷嗷待哺,買(mǎi)到了卡的企業(yè)不得不面對漲價(jià),也被架在成本的火上烤。


【資料圖】

目前,英偉達的GPU是AI計算最主流的硬件。有業(yè)內人士估算過(guò),GPT-4模型僅滿(mǎn)足日訪(fǎng)問(wèn)量的計算需求,就需要六萬(wàn)張英偉達A100,每一張價(jià)格在60-100萬(wàn)人民幣,而A100和更強大的H100,這兩款芯片此前都被列入了美國的禁止出口清單里。還好在英偉達的游說(shuō)下,又能夠在 2023 年 3 月 1 日之前繼續給大陸提供 A100 產(chǎn)品。

現在緩沖期已經(jīng)到了,AI算力的局面是蠟燭兩頭燒,一邊是越來(lái)越少的海外高性能芯片,一邊是越來(lái)越多的大模型訓推需求,究竟怎么辦呢?

我知道很多普通網(wǎng)友很急,覺(jué)得又被卡脖子了,但大家確實(shí)不用那么急,為AI算力荒解困,業(yè)內其實(shí)已經(jīng)探索出了短策、中策和長(cháng)策。今天就來(lái)講講,如何見(jiàn)招拆招。

短策:開(kāi)源節流,過(guò)緊日子

實(shí)事求是來(lái)說(shuō),最關(guān)鍵的AI芯片GPU被國際廠(chǎng)商壟斷,市場(chǎng)占有率達到80%以上。而國產(chǎn)廠(chǎng)商雖然也有相應的產(chǎn)品,但要么還沒(méi)有量產(chǎn),無(wú)法滿(mǎn)足規模應用的需求;要么性能跟海外先進(jìn)產(chǎn)品的差異很大,實(shí)用中大概只能達到60%左右的水平。而中美博弈,短期內是不會(huì )有方向性的轉變的,未來(lái)高性能芯片的封禁可能是常態(tài)。

所以結論就是,放棄幻想,接下來(lái)要準備過(guò)AI算力的緊日子了。

目前業(yè)內的應付辦法有兩種:

一是開(kāi)源。

對于N卡,繼續買(mǎi),抓緊囤貨。

國內頭部互聯(lián)網(wǎng)公司,尤其是已經(jīng)推出了大模型的企業(yè),都會(huì )進(jìn)行20%左右的戰略備貨,儲備了萬(wàn)片級別的英偉達A100芯片,所以算力基礎都不差。某一線(xiàn)云廠(chǎng)商透露,現在自家有10萬(wàn)片的A100,能夠滿(mǎn)足好幾個(gè)客戶(hù)復現GPT的AI算力需求。

此前國內區塊鏈火爆,礦機廠(chǎng)商和數字貨幣販子也買(mǎi)了大量英偉達GPU用來(lái)“挖礦”,聽(tīng)說(shuō)也被一些AI公司緊急收了過(guò)來(lái)。而且,雖然緩沖期已到,但只要交付模式上商務(wù)合規,還是有可能繼續用到先進(jìn)產(chǎn)品的。

對于國產(chǎn)芯,加快上馬,落地部署。

目前,國內的頭部科技公司,已經(jīng)開(kāi)始籌備或落實(shí),將寒武紀MLU370/590、燧原、百度昆侖芯、阿里平頭哥等,部署到算力集群中,盡管占比還比較少,但國產(chǎn)芯的使用和適配已經(jīng)開(kāi)始了,隨著(zhù)合規及產(chǎn)能提速,也能滿(mǎn)足AI并行計算的需求。

芯片的國產(chǎn)化替代,這一步遲早要走,大模型成了那個(gè)提前上馬的變量。

二是節流。

既然AI基礎設施跟大模型建設熱潮之間有剪刀差,咱能不能把錢(qián)花在刀刃上呢?還真能。

OpenAI選擇訓大語(yǔ)言模型來(lái)實(shí)現通用人工智能,超大規模參數來(lái)達到“智能涌現”,堪稱(chēng)為“敗家子兒式創(chuàng )新”。微軟公司的博客中透露,2019 年微軟宣布向 OpenAI 投資 10 億美元,為了讓OpenAI 能訓練出越來(lái)越強大的模型,將28.5萬(wàn)個(gè)CPU和10000個(gè)GPU聯(lián)接起來(lái),造了一個(gè)超級計算集群。

背靠家大業(yè)大的微軟,這么燒無(wú)可厚非。但放到中國語(yǔ)境下,或許我們還可以想一想,等這波GPT式熱度消退,基礎模型已經(jīng)成型,那些燒錢(qián)打造的算力基礎設施該何去何從?百億萬(wàn)億參數的大模型,部署到工廠(chǎng)、礦區、城市之類(lèi)的行業(yè)場(chǎng)景,是不是也有相應的算力支撐?

冷靜下來(lái)后,為AI算力“節流”,才是大模型真正落地的必經(jīng)之路。

節流,有兩個(gè)辦法:一是大模型“瘦身”,通過(guò)剪枝讓模型稀疏化、知識蒸餾對模型進(jìn)行壓縮,通過(guò)權重共享來(lái)減少參數量……總之,一旦一種技術(shù)路線(xiàn)被證明有效,那么很快就會(huì )有多種技術(shù)手段對其進(jìn)行優(yōu)化,讓模型成本大幅下降。

最近加州大學(xué)伯克利分校打造的icuna (小羊駝)模型,就只用8張A100訓練了一天時(shí)間,將130億參數模型的訓練成本,從1000美元降低至300美元。所以,模型“瘦身”可以有效減少單個(gè)模型的算力資源消耗。

二是硬件“壓榨”,通過(guò)端到端優(yōu)化,從AI芯片中“壓榨”出更多性能,把有限的硬件用到極致,也是一種節流。

舉個(gè)例子,主流的大模型,包括ChatGPT、GPT-4,都是以Transformer 架構為主,微軟通過(guò)ONNX開(kāi)源推理引擎的優(yōu)化,可以將大語(yǔ)言模型的推理性能提高17倍。某國產(chǎn)芯片廠(chǎng)商針對Transformer結構特性進(jìn)行優(yōu)化,將芯片性能提升到原本的五倍以上,壓縮顯存30%以上。資源利用率更高,相當于在A(yíng)I訓練和推理時(shí)單位部署成本更低了。

總的來(lái)說(shuō),面對短期內“AI算力荒”,我們只能接受現實(shí),正視差距,廣積糧食,開(kāi)源節流。

承認這一點(diǎn)沒(méi)有什么好憋屈的,畢竟中國AI從零起步,到今天能跟no.1站在同一張牌桌,這才是我們熟悉的故事。

中策:兼容并包的全國算網(wǎng)

一雙眼睛全盯著(zhù)高性能GPU,會(huì )發(fā)現差距簡(jiǎn)直無(wú)從彌補,還在越拉越大。英偉達、英特爾、AMD等已經(jīng)將AI芯片支撐推進(jìn)到了4nm,而光刻機禁運,制程追不上,國內14nm制程將將量產(chǎn),巧婦難為無(wú)米之炊。

但換個(gè)角度,可能就柳暗花明又一村。

大家可能還記得,去年?yáng)|數西算工程正式啟動(dòng),新型國家算力網(wǎng)絡(luò )成了新的熱點(diǎn),我們也做過(guò)很多報道和分析。

當時(shí)我們就提到:實(shí)現先進(jìn)算力的一體化、集約化、多樣化供給,是“全國算力一盤(pán)棋”的題中之義。而這只是全國一體化大數據中心協(xié)同創(chuàng )新體系中的一環(huán)。

今天看來(lái),通過(guò)幾年時(shí)間,構建數網(wǎng)、數紐、數鏈、數腦、數盾,對于A(yíng)I大模型的數據、算力、聯(lián)接、商業(yè)化等多種挑戰,是一種持續釋放影響的“中策”。

本質(zhì)上說(shuō),AI模型的訓練推理是CPU+加速芯片。GPU的高并行性,可以成規模地處理AI工作負載,為深度學(xué)習加速,在進(jìn)行模型的訓練和推斷時(shí)會(huì )更具有效率優(yōu)勢。英偉達的A100,在A(yíng)I推理時(shí)吞吐量是CPU的249倍。

但這并不意味著(zhù),CPU不能做并行計算,加速芯片沒(méi)有其他選擇。

生成式AI的模型訓練通常是在云端完成的,云端芯片以CPU+GPU異構計算為主。一些小型的模型是完全可以CPU訓練的,可能訓練速度慢一點(diǎn),但確實(shí)可以用。

此外,ASIC芯片也很適合AI計算,目前還沒(méi)有明顯的頭部廠(chǎng)商,國產(chǎn)廠(chǎng)商還有機會(huì ),很多企業(yè)開(kāi)始推出自研的ASIC加速芯片。比如谷歌的TPU、英特爾的DPU、國內寒武紀的NPU、地平線(xiàn)的BPU等。

模型訓練好之后,需要結合數據計算“推理”出各種結論。手機人臉識別認出“你是你”這個(gè)環(huán)節就是“端側推理”,iPhone將相冊上傳到云端進(jìn)行用戶(hù)行為分析就是“云端推理”。

相對模型訓練而言,推理階段處理的是小批量數據,這時(shí)候GPU并行計算的性?xún)r(jià)比就不那么明顯了,尤其是在邊緣和終端大規模部署AI算法,是難以承受如此高的成本的。FPGA、ASIC等加速芯片,協(xié)助CPU來(lái)滿(mǎn)足推理的計算需求,是具有競爭優(yōu)勢的。

這跟算網(wǎng)有什么關(guān)系呢?

劃重點(diǎn),在全國一體化算力網(wǎng)絡(luò )體系的各種政策文件中,“算力多元化”的出現頻率是非常高的。

多元化,一方面體現在多種計算架構,支持CPU、GPU、ASIC、FPGA等多種芯片的混合部署,充分發(fā)揮不同體系架構的優(yōu)勢;

另一方面,體現在多種算力,模型訓練、邊緣推理、數值模擬的不同場(chǎng)景需要不同的算力,AI算力、通用算力、高性能算力等綜合配給,才能很好地支撐各類(lèi)行業(yè)AI應用。

正如微軟Azure高性能計算和人工智能產(chǎn)品負責人Nidhi Chappell所說(shuō),“讓更大的模型訓練更長(cháng)的時(shí)間,意味著(zhù)你不僅需要擁有最大的基礎設施,還必須能夠長(cháng)期可靠地運行它”。

要長(cháng)期可靠地保障AI算力資源,自然要發(fā)揮中國智慧——東方不亮西方亮,黑了南方有北方。通過(guò)全國一體化算力網(wǎng)絡(luò )的建設,充分推動(dòng)多種架構的落地部署,國產(chǎn)芯片的同步發(fā)展。

未來(lái)幾年算網(wǎng)成型,對于保障算力供給,應對不可抗力,會(huì )起到非常關(guān)鍵的作用。

長(cháng)策:長(cháng)出那雙手

理想化的角度來(lái)說(shuō),緩解AI算力荒的終極解決思路,肯定是造出對標國際一流水平的自研芯片。但這就像“中國什么時(shí)候能有自己的OpenAI”一樣,是一個(gè)漫長(cháng)的暢想。

漫長(cháng),指的不只是足夠長(cháng)的時(shí)間和耐心,給半導體行業(yè)足夠多的錢(qián),還要能吸納全球頂尖的技術(shù)人才、全球優(yōu)質(zhì)的風(fēng)險投資機構、計算機基礎人才的培養、允許失敗試錯的創(chuàng )新氛圍和兜底機制、充分信息化數字化的優(yōu)質(zhì)數據基礎、繁榮的商業(yè)市場(chǎng)……這是一個(gè)社會(huì )工程。

那么,我們是不是就得一直這么憋屈呢?

當然不是。咱們除了“脖子”,還有“手”啊,就不能用自己的長(cháng)處,去卡別人的脖子呢?

這雙手,可能是新的計算體系。

今天,經(jīng)典計算的“摩爾定律”已死,英偉達提出的“新摩爾定律”也面對AI算力供需的剪刀差有心無(wú)力。

光計算、類(lèi)腦計算、量子計算等新計算體系,正在成為各國的重點(diǎn)布局方向。以量子計算為例,有望徹底解決經(jīng)典計算的算力不足問(wèn)題。

當然,總想著(zhù)“彎道超車(chē)”大概率會(huì )翻車(chē),提到這點(diǎn)只是想提醒一下,不要只盯著(zhù)CPU/GPU這些已經(jīng)被卡脖子的焦點(diǎn)領(lǐng)域,而忽視了其他路線(xiàn),將路走窄了。畢竟誰(shuí)能想到,當年游戲宅們追捧的顯卡能卡住今天的AI計算市場(chǎng)呢?

英偉達GPU被發(fā)現可以用來(lái)跑AI之前,只有游戲發(fā)燒友會(huì )對N卡津津樂(lè )道,這種“無(wú)心插柳柳成蔭”的結果,恰好說(shuō)明了多技術(shù)路線(xiàn)創(chuàng )新的重要性,或許會(huì )在某條路上就發(fā)現驚喜。

這雙手,也可能產(chǎn)業(yè)生態(tài)。

AI本來(lái)就是一個(gè)工程性、交叉性很強的學(xué)科,AI芯片要充分釋放能力,除了更高制程的工藝,也離不開(kāi)深刻理解行業(yè)用戶(hù)的使用習慣,才能把軟硬件做到位。

英偉達GPU的主流地位,與CUDA生態(tài)有直接關(guān)系。而CUDA的護城河正是軟件堆棧,可以讓研究人員和軟件開(kāi)發(fā)者更好地在GPU上編程,構建應用。

如果說(shuō)AI算力問(wèn)題,國產(chǎn)硬件的差距是明線(xiàn),軟件生態(tài)就是那條更難的暗線(xiàn)。

首先是軟件,就拿大模型來(lái)說(shuō),下接底層算力硬件、操作系統和框架,上接行業(yè)應用,需要提供一整套從開(kāi)發(fā)、應用、管理的全流程服務(wù)和工程化方法,而目前積累了全面技術(shù)棧的只有少數國內頭部企業(yè)。

其次是生態(tài),CUDA生態(tài)經(jīng)過(guò)多年積累,在A(yíng)I計算的絕對主導地位,而國內幾個(gè)頭部企業(yè)都有各自的AI生態(tài)。我們就曾遇到過(guò)這樣的采訪(fǎng)對象,一個(gè)工業(yè)企業(yè)的數字化案例中,既有A生態(tài)的一些軟硬件,又有B生態(tài)的一些解決方案。多個(gè)生態(tài)并存,增加了產(chǎn)業(yè)的選項自由和安全感,也難免帶來(lái)適配上的復雜度,以及一些重復性工作。

國產(chǎn)芯片硬件的突破或在旦夕之間,但軟件生態(tài)的爆發(fā)卻需要漫長(cháng)的時(shí)間去醞釀。而一旦生態(tài)如同齒輪一樣轉起來(lái)了,吸納更多產(chǎn)業(yè)資源和人才力量,很多軟硬件創(chuàng )新都能加速發(fā)展。

大語(yǔ)言模型的這波熱鬧中,我有聽(tīng)到一些聲音,說(shuō)中國AI行業(yè)“渾身上下都是脖子”“一卡脖子就翻白眼,一開(kāi)源就全球領(lǐng)先”。

很能理解大家“怒其不爭”的心情,但實(shí)事求是地看,中國AI走到今天,靠的從來(lái)不是誰(shuí)的施舍,是真的有一群人,在卡脖子時(shí)沒(méi)有翻白眼,而是與禁令搶時(shí)間,與海外合作伙伴想對策,把國產(chǎn)芯片扶上馬送一程。

如果說(shuō),無(wú)需擔心“AI算力荒”,這是一種無(wú)視現實(shí)差距的盲目自信。但也確實(shí)不用一提算力、一提芯片,就縈繞著(zhù)“生于憂(yōu)患死于安樂(lè )”的焦慮氣息。

星光不問(wèn)趕路人,與其花時(shí)間自憐自哀,不如在有限的規則里,做力所能及的事。短策、中策、長(cháng)策久久為功,這才是中國緩解“AI算力荒”的真實(shí)選擇。

關(guān)鍵詞:

相關(guān)閱讀