[劉志軍]
近年來,我國算力基礎(chǔ)設(shè)施不斷擴展完善,算力規(guī)模大幅增長,對經(jīng)濟的拉動顯著,其中又以智能算力的拉動作用最為凸顯。如今,我國的智算中心建設(shè)已從早期的局部實驗探索階段逐漸邁向規(guī)?;渴稹Ec此同時,人工智能產(chǎn)業(yè)蓬勃發(fā)展,催生出更多智能算力需求,后者亦不斷刷新更多人工智能應(yīng)用的可能。分析我國智算中心與智算業(yè)務(wù)的發(fā)展趨勢與原因,探索智能算力未來的建設(shè)方向與可能,對我國智算發(fā)展具有重要意義。
據(jù)中國信通院最新一期《中國算力發(fā)展指數(shù)白皮書》,我國算力規(guī)模正在持續(xù)擴展,其中又以智能算力的增長最為顯著,智能算力已經(jīng)成為我國算力資源增長的主要來源。
智能算力規(guī)模的增長體現(xiàn)在兩方面。一方面是基礎(chǔ)設(shè)施的布局加快。截至2022 年底,我國在用的數(shù)據(jù)中心標準機架數(shù)量已超過650 萬架,基礎(chǔ)設(shè)施算力規(guī)模為150 EFLOPS,位居全球第二。其中,已投運或在建的智能計算中心已超過 20 個;另一方面,智能計算設(shè)備出貨增加。近六年我國AI 服務(wù)器出貨量超50 萬臺,智能算力增速達到 85%,份額占全球45%,處于全球第一梯隊。
縱觀我國智能算力的飛速發(fā)展,可總結(jié)為三方面的原因:國家政策大力推動、行業(yè)數(shù)字化轉(zhuǎn)型需求以及人工智能應(yīng)用興起。
(1)國家政策支持
在政策的支持下,智算設(shè)施得以快速擴展,也為算法和模型的創(chuàng)新提供的良好的條件,為我國智算發(fā)展的注入重要動力。
國家層面出臺了《關(guān)于支持建設(shè)新一代人工智能示范應(yīng)用場景的通知》《關(guān)于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進經(jīng)濟高質(zhì)量發(fā)展的指導意見》《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023 年)》等一系列政策,令全國智算基礎(chǔ)設(shè)施建設(shè)的重要性得以大幅度的提升,北京、上海、廣東、安徽、山東等地方政府也紛紛頒布政策響應(yīng),通過統(tǒng)籌資源、資金補助、設(shè)立先導區(qū)與試驗區(qū)等方式激勵人工智能算力基礎(chǔ)設(shè)施的建設(shè)。當前,國內(nèi)正在建設(shè)智算中心或正在籌建智算中心的城市超過30 個,主要以東部城市為主,并呈現(xiàn)逐步向西部擴展的態(tài)勢。
也有相關(guān)政策支持人工智能領(lǐng)域模型、算法的創(chuàng)新工作。2023 年4 月,中共中央政治局會議明確應(yīng)重視通用人工智能發(fā)展,營造創(chuàng)新生態(tài),同時需重視防范風險。網(wǎng)信辦公布了《生成式人工智能管理服務(wù)暫行辦法》,目的在于事前規(guī)范人工智能算法、模型,助其長期更好地發(fā)展[1]。
(2)行業(yè)數(shù)字化轉(zhuǎn)型需求
各行各業(yè)數(shù)字化轉(zhuǎn)型過程中誕生的人工智能需求是智能算力發(fā)展的又一因素。人工智能對企業(yè)的數(shù)字化轉(zhuǎn)型有多方面的促進作用:通過前沿的算法、數(shù)據(jù)分析手段,增強服務(wù)體驗,推動企業(yè)創(chuàng)新;借助機器人、柔性生產(chǎn)、智能流程等人工智能產(chǎn)物,釋放更多人力資源,提升企業(yè)運作效率。隨著人工智能在各行業(yè)滲透度增加,應(yīng)用種類愈加廣泛,金融、互聯(lián)網(wǎng)、制造業(yè)、汽車等越來越多行業(yè)期望通過人工智能技術(shù)進行數(shù)字化轉(zhuǎn)型升級,從而達到市場競爭力提升的目的。在數(shù)字化轉(zhuǎn)型的時代浪潮中,智能算力的需求將會持續(xù)增長。
(3)新型人工智能應(yīng)用興起
元宇宙、大模型等是智能算力發(fā)展過程中催生的新型應(yīng)用,這些新型應(yīng)用也發(fā)過來促進智能算力需求。
根據(jù)英特爾公司的預(yù)測,全球未來屬于元宇宙的時代,但目前的智能算力水平,尤其是服務(wù)器的渲染速率上,仍遠遠不能滿足元宇宙所要求的沉浸式體驗,因此,繼續(xù)擴大智能算力規(guī)模、提升智能計算水平,是社會邁向元宇宙時代的必經(jīng)之路,智能算力仍有巨大的增長空間。
大模型的出現(xiàn)更是進一步加快了智能算力增長的速度。2022 年底,OpenAI 公司發(fā)布的ChatGPT 讓大模型具體地呈現(xiàn)在人們眼前,這一高準確性、高質(zhì)量的大模型引起了全球關(guān)注。OpenAI 計劃在2023 年實現(xiàn)2 億美元營收,2024 年底前達到10 億美元。由于AIGC(AI 生成內(nèi)容)背后的巨大市場潛力,大模型迅速成為國家之間、企業(yè)之間的競爭焦點。在ChatGPT 問世后,我國各大本土互聯(lián)網(wǎng)巨頭和科技巨頭也相繼推出自主研發(fā)的AI 大模型,包括阿里巴巴通義、百度文心、華為盤古等,這類大模型的訓練以及推理依賴三大必要條件:參數(shù)、數(shù)據(jù)、算力,隨著大模型訓練數(shù)據(jù)量不斷增長,復(fù)雜程度不斷提高,對智能算力的需求也在日益攀升。
2.3.1 分布趨勢
我國目前已投入運營和在建的人工智能計算中心共有23 個,這些智能計算中心較集中分布在我國東部和中部地區(qū)。總體而言,智能計算中心的數(shù)量和規(guī)模與所處地區(qū)的經(jīng)濟水平發(fā)達程度、城市發(fā)展程度相關(guān)——在這些智能計算中心中,處于長三角、京津冀等東部省份的有12 個,中部地區(qū)6 個,西部和東北地區(qū)共有5 個。
智能計算中心的分布與地區(qū)的經(jīng)濟水平的相關(guān)性可從兩個方面解釋,其一,經(jīng)濟水平較高的地區(qū)有更強的經(jīng)濟實力支持智能計算中心的建設(shè)與發(fā)展;其二,經(jīng)濟較發(fā)達的地區(qū)往往是高新技術(shù)企業(yè)、人工智能企業(yè)、科研機構(gòu)、高等院校聚集的地方,因此具有更龐大的智能算力需求,需有足夠的智能計算中心作為智算資源的基礎(chǔ)設(shè)施保障。因此可以預(yù)見,在未來較長的一段時間內(nèi),我國東部、中部等經(jīng)濟發(fā)達地區(qū)仍然是我國智能計算中心的建設(shè)的主要陣營,也是人工智能產(chǎn)業(yè)快速生長發(fā)育的主要區(qū)域。
2.3.2 合作建設(shè)趨勢
國內(nèi)已有的智能計算中心一部分為政府、運營商投資建設(shè),另一部分由互聯(lián)網(wǎng)頭部企業(yè)如騰訊、阿里自主建設(shè)。政府、運營商投資的智能計算中心多采取與頭部科技企業(yè)合作建設(shè)的模式,包括華為、騰訊、商湯等。
在這種合作模式中,投資方提供建設(shè)資金,頭部科技企業(yè)提供技術(shù)底座,攻克技術(shù)難點,可提升建設(shè)效率,縮短建設(shè)周期,達到算力設(shè)施快速擴張的目的,這也是合作建設(shè)模式被廣泛采用的最重要原因。
2021 年11 月,國家發(fā)改委印發(fā)的《貫徹落實碳達峰碳中和目標要求 推動數(shù)據(jù)中心和 5G 等新型基礎(chǔ)設(shè)施綠色高質(zhì)量發(fā)展實施方案》要求有序推動以數(shù)據(jù)中心、5G 為代表的新型基礎(chǔ)設(shè)施綠色高質(zhì)量發(fā)展,助力實現(xiàn)碳達峰、碳中和目標,方案中明確強調(diào)要求到2025 年,新建大型、超大型數(shù)據(jù)中心PUE(電能利用效率)降到 1.3 以下,國家樞紐節(jié)點降至 1.25 以下。
數(shù)據(jù)中心由眾多IT 設(shè)備構(gòu)成,這些設(shè)備的計算性能取決與其搭載的芯片。相比普通數(shù)據(jù)中心,智能計算中心的GPU 服務(wù)器占比大幅增加[2],要滿足逐漸增長的智能計算算力需求,機柜密度、芯片數(shù)量、芯片功耗需要相應(yīng)增加。GPU 是耗能大戶,如何降低智能計算中心能耗、實現(xiàn)減碳目標,成為智能計算中心建設(shè)的一大考驗。
服務(wù)器運行中產(chǎn)生大量熱量,需要配套制冷設(shè)備保持運行環(huán)境正常溫度。傳統(tǒng)的數(shù)據(jù)中心的能耗約有40%消耗在散熱制冷中,大多使用風冷技術(shù)實現(xiàn)制冷。風冷機柜由于其造價成本相對較低、安裝難度小、技術(shù)成熟度高、接受度廣,目前仍被大規(guī)模使用中,設(shè)計者結(jié)合機架、優(yōu)化風向設(shè)計等方式降低能耗。但智能計算中心部署的服務(wù)器數(shù)量、功耗都在傳統(tǒng)數(shù)據(jù)中心的若干倍,傳統(tǒng)風冷系統(tǒng)已越來越難以滿足減碳目標,液冷服務(wù)器成為新的選擇。由于液體的大比熱容特性,液冷的散熱效率遠高于風冷,成為智能計算中心服務(wù)器選型的主流方向。除此以外,液冷式服務(wù)器還具有空間利用率高、噪聲小、延長服務(wù)器使用壽命的優(yōu)點。目前業(yè)界存在的液冷服務(wù)器主要分為噴淋式、冷板式和浸沒式[3],各種液冷型服務(wù)器特點比較如表1 所示。
表1 液冷系統(tǒng)對比及選型建議
(1)噴淋式液冷系統(tǒng)
噴淋式液冷系統(tǒng)是通過向發(fā)熱的服務(wù)器電子元器件直接噴灑制冷液體,以實現(xiàn)散熱。制冷液體通過一定壓力,以精確的角度直接附著在元器件上,以及相連的導熱材料上,吸附熱量,降低電子元器件運行時的溫度。冷卻液通過換熱單元將吸附的熱量循環(huán)到外部,通過室外冷源進行冷卻。噴淋式液冷系統(tǒng)僅需對服務(wù)器加裝噴淋的裝置,成本較低,但由于器件表面有冷卻液,維護難度、成本有所升高。
(2)冷板式液冷系統(tǒng)
冷板式液冷系統(tǒng)通過冷板和電子元器件直接接觸達到散熱的目的。冷板中以冷卻介質(zhì)填充,可高效吸納熱量,經(jīng)過多個冷卻回路完成熱量的傳導,將設(shè)備熱量傳到外部排放,完成熱交換傳遞。冷板液冷系統(tǒng)需要根據(jù)服務(wù)器定制冷板,成本較高,且需要在機房外新增一套液冷管道,對機房有一定要求。
(3)浸沒式液冷系統(tǒng)
浸沒式液冷服務(wù)器是把服務(wù)器整體浸泡在特殊的溶液里,利用液體大比熱容特性實現(xiàn)高效散熱,這種特殊的溶液具有沸點低、絕緣、無腐蝕性的特點,不影響服務(wù)器的正常運行。浸沒式液冷服務(wù)器在以上3 種服務(wù)器中散熱效果最好,但由于冷卻液使用量大,對于機房承重有較高的要求。服務(wù)器若發(fā)生故障,需要將其從冷卻液中取出,運維難度大。
智能計算基礎(chǔ)設(shè)施將在政策的大力支持以及人工智能產(chǎn)業(yè)需求蓬勃發(fā)展的雙重作用下繼續(xù)擴展,智算資源為人工智能產(chǎn)業(yè)、應(yīng)用的發(fā)展提供土壤,而后者催生的智算需求進一步促進前者的擴展。在智能計算基礎(chǔ)設(shè)施擴展的過程中,面臨的能耗、碳排放問題不容小覷,未來智能計算中心的建設(shè)應(yīng)順應(yīng)政策要求,聚焦選型新型液冷型服務(wù)器以及既有設(shè)備的節(jié)能改造。此外,也應(yīng)對服務(wù)器節(jié)能調(diào)度算法[4]、購用綠色電力等節(jié)能減碳手段加以關(guān)注,以便讓我國的智算之路走得更遠。