錢玉娟
關于英偉達A800芯片可能被禁售的消息,正在引發(fā)連鎖反應。
一位英偉達芯片代理商告訴記者,大約一周前,關于英偉達A800芯片被禁售的這個信號“讓市場上的A800價格一下子漲了起來?!?/p>
據(jù)這位代理商介紹,英偉達A800 80GB PCie標準版GPU的市場價,15天前在9萬元人民幣/顆,“現(xiàn)在(一顆)11萬元左右?!奔幢銉r格飛漲,他告訴記者,英偉達的高端算力GPU芯片依然是“搶手貨”,在他看來,英偉達的H800系列GPU芯片目前還可以正常供應,只不過價格更高了。
一面是越來越貴、越來越稀缺的高端芯片,一面是下游需求高漲的“百模大戰(zhàn)”,尋找另一條道路,成為迫在眉睫的選擇。
在被認為是“史上最火爆”的上海2023年世界人工智能大會(WAIC)上,算力需求和缺口成為了高頻詞匯。
7月7日上午,清華大學電子工程系教授汪玉表示,若以大語言模型作為底座,同時處理我國14億人的推理請求,所需的計算量超過目前我國數(shù)據(jù)中心總算力的3個數(shù)量級。他由此強調我國現(xiàn)有算力資源的緊張程度。
“沒有大算力,做大模型就是天方夜譚?!敝袊こ淘涸菏俊Ⅸi城實驗室主任高文也在WAIC上透露,團隊正在緊鑼密鼓地對一個2000億參數(shù)的大模型進行訓練,至少“需要4000塊卡訓練100天”。
云計算技術專家劉世民早早注意到,國內正式渠道如今愈發(fā)買不到高端AI芯片,面對算力發(fā)展遭遇限制,他也看到,一些云廠商基于相關AI產(chǎn)品可以提供GPU算力這一最基礎的AI服務,當然,其中不乏AWS、Azure這樣的海外云服務商。
“目前算力比較緊張,所以會選擇租賃云算力?!痹茝目萍佳芯吭旱膶O進透露,買不到高端算力卡,加之自建算力集群周期長,即便租賃云算力成本相較自建要高,“高出50%~100%”,但這依然成為一些對算力有需求的科技公司的選擇。
如今,這條道路也在面臨更多挑戰(zhàn):7月4日,有消息稱美國計劃對使用亞馬遜云、微軟云等海外云計算服務的中國企業(yè)施加限制。這是繼去年美國限制對華半導體出口,今年拉攏日本、荷蘭對華限制出口先進芯片制造設備后又一舉措,“現(xiàn)在估計又要封堵云GPU了?!?Vibranium Consulting副總裁陳沛說。
圍堵加碼
陳沛介紹,云GPU要比自建GPU算力集群貴,“大型云廠商的價格差不多一小時2-3美元?!睋?jù)他所知,AWS、Azure這樣的大型云服務商在新加坡有提供部分種類的云算力服務,在中國亦然。
2022年8月,當英偉達的GPU計算芯片A100和H100被美國政府要求限制向中國出口后,對高端算力有需求的廠商,還可以在擁有先進制程AI芯片的AWS、Azure等云廠商提供的云端算力服務中得到滿足。
而今限制如果繼續(xù)升級,中國廠商未來若想使用AWS、Azure等海外云服務商的云端算力服務,也要獲得美國政府許可才行。
2022年,由IDC、浪潮信息、清華大學全球產(chǎn)業(yè)研究院聯(lián)合編制了一份《2021-2022全球計算力指數(shù)評估報告》,量化揭示了算力的重要性:全球各國算力規(guī)模與經(jīng)濟發(fā)展水平顯著正相關,計算力指數(shù)平均每提高1點,數(shù)字經(jīng)濟和GDP將分別增長3.5‰和1.8‰;美國和中國的計算力指數(shù)分別為77分和70分,同屬國別計算力的領跑者。
上述半導體行業(yè)觀察人士建議,正在算力側展開自研創(chuàng)新的中國廠商們,當下“需要丟掉幻想”,她認為,只有不斷攻克芯片的成熟制程,疊加軟件創(chuàng)新才能共同提升算力。
在中國算力突圍路徑中,國產(chǎn)GPU芯片自研替代被認為是第一大選擇,但這一選擇需要時間。目前最現(xiàn)實的選擇是,如何最大化地利用現(xiàn)有的高端芯片資源。
算力共享
按照外媒此前披露,作為微軟全力扶持的AI創(chuàng)業(yè)公司,OpenAI擁有微軟Azure云最高優(yōu)先級的支持——約有2.5萬個英偉達GPU正在支持GPT大模型的訓練,這是目前世界上規(guī)模最龐大的AI服務器之一。而OpenAI光用在訓練ChatGPT上,就使用了1萬個英偉達的GPU。
但即便是微軟,GPU也面臨缺口。今年6月,在公開的OpenAI CEO Sam Altman 談話紀要中提到,GPU的短缺拖延了Open AI客戶的許多短期計劃。但這份談話紀要很快被刪除。
按照此前媒體報道,目前中國企業(yè)GPU芯片持有量超過1萬枚的不超過5家,擁有1萬枚A100的至多1家。且由于美國去年8月開始算力封鎖,這些存貨的剩余使用壽命約為4-6年。
但現(xiàn)實正在急劇變化:伴隨著今年以來的生成式AI浪潮和大模型井噴,此前存在的缺口無疑還在進一步放大。
由此,在國內推動“算力共享”被提上日程。
北京市經(jīng)信局4月下旬公布的“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃”,進展迅速。7月3日,計劃公布了第二批伙伴名單中共有63家企業(yè),其中包括百度、京東、神州數(shù)碼和金山等10家算力供應伙伴。
北京市經(jīng)信局公布的第一批算力供應方伙伴名單只有兩家,一個是北京超級云計算中心,另一個便是阿里云計算有限公司。
2022年8月30日,阿里云推出飛天智算平臺的同時,還啟動了張北和烏蘭察布兩座超大規(guī)模智算中心,以公有云和專有云兩種模式,為各類機構提供服務。
彼時阿里云表示,其智算平臺以及智算中心可將計算資源利用率提高3倍以上,AI訓練效率提升11倍。毫無疑問,當國內算力供應因芯片卡短缺陷入緊張時,云端算力可以補位。
當阿里云提出“算力普惠”的目標愿景時,華為也通過推出昇騰AI集群解決方案,以填補著算力需求和硬件算力供給間的溝壑。在7月6日下午的WAIC上,華為昇騰計算業(yè)務總裁張迪煊宣布,昇騰AI集群規(guī)模從最初的4000卡擴展升級至16000卡,成為業(yè)內首個萬卡AI集群,其算力已經(jīng)在支撐像科大訊飛等企業(yè)進行大模型訓練以及智能化轉型。
AI缺口
如今受益于昇騰AI集群的算力支持,訊飛星火大模型的優(yōu)化訓練在有序進行中??拼笥嶏w高級副總裁胡國平在WAIC上強調,所有的大模型訓練都強烈依賴高端AI芯片集群和生態(tài)。
不過,孫進告訴記者,云端算力共享或租賃,往往適用于低頻訓練需求的廠商?!盎谕瑯踊蛲愋偷乃懔π酒茝S商提供的云GPU確實可以形成替代?!钡硎荆案鞯亟ㄔO的訓練算力集群,大部分是消費級推理卡集群,或者是CPU集群。”
一般來說,算力被分為三類:通用算力、智能算力、超算算力。在傳統(tǒng)產(chǎn)業(yè)數(shù)字化轉型的場景中,基于普通CPU芯片集成的服務器所能提供的通用算力就可滿足;而人工智能發(fā)展、大模型的訓練和推理,這些對應的則是智能算力,是要基于AI芯片所提供的算力。此外,天體物理、航空航天等復雜運算則需要超算算力。
據(jù)工信部消息,近年來中國算力產(chǎn)業(yè)規(guī)??焖僭鲩L,年增長率近30%,算力規(guī)模排名全球第二,僅次于美國。
但當下的問題在于,這其中一部分并不是本輪生成式AI所需求的智能算力,而只是通用算力。
此前發(fā)布的《中國算力指數(shù)發(fā)展白皮書(2022)》顯示,中、美在全球算力規(guī)模中的份額分別為33%、34%,其中通用算力份額分別為26%、37%,智能算力分別為28%、45%,超級算力分別為18%、48%。
在劉世民看來,算力共享確實可以讓更多企業(yè)能用上算力,但先進芯片所代表的高端算力,一旦被限制,勢必限制國內算力的增長。而今,中國的人工智能產(chǎn)業(yè)又已經(jīng)步入AIGC時代,參與其中的廠商需要進行的是高頻訓練,持續(xù)的優(yōu)化迭代。
值得關注的是,算力需求暴增下,供給背后的國產(chǎn)GPU自研以及軟件創(chuàng)新,都將是中國廠商亦步亦趨要解決的問題。
陳沛說,種種限制框架下,英偉達提供的高端算力,在市場上不只受歡迎,還是剛需。陳沛記得2020年OpenAI訓練GPT-3時,用的是英偉達GPU芯片V100,“一萬顆,耗時14.8天”,但在一周前,他看到英偉達發(fā)出的最新測試結果中顯示,僅用3000多顆H100 GPU芯片,11分鐘就完成了GPT-3的模型訓練。
“英偉達依然是AI訓練領域的老大?!标惻嬲f。
一位國產(chǎn)AI大模型廠商的創(chuàng)始人也告訴記者,目前其自研的大模型正在儲備的英偉達算力芯片上“跑著”,盡管芯片禁售是未來式,但面對大模型浪潮所帶來的高頻算力需求,目前我們沒有太多的備選方案。