張葉紅 董一川 相 洋 王 暉 余 躍
鵬城實驗室 深圳 518000
2019 年起,國內(nèi)三大運營商、華為等設(shè)備廠商先后發(fā)布了算力網(wǎng)絡(luò)、算力感知網(wǎng)絡(luò)、計算優(yōu)先網(wǎng)絡(luò)、算網(wǎng)一體等相關(guān)概念及白皮書[1-4],率先開啟了對算網(wǎng)融合、算網(wǎng)一體等概念的探索。筆者認為,“算網(wǎng)融合”概念需要從“以網(wǎng)調(diào)算”和“算力成網(wǎng)”兩個方向進行探討,通信行業(yè)提出的“算力網(wǎng)絡(luò)”概念通常關(guān)注前者,從網(wǎng)絡(luò)視角切入,重點考慮如何將算力信息和計算能力嵌入網(wǎng)絡(luò),通過網(wǎng)絡(luò)的路由與分發(fā)服務(wù)實現(xiàn)全網(wǎng)資源的分配調(diào)度。然而,若從“算”的視角觀察,想要真正將“算力”互聯(lián)成為“算力網(wǎng)”,除通過網(wǎng)絡(luò)信息對算力信息進行調(diào)度的技術(shù)手段外,還存在著異構(gòu)性兼容、協(xié)同效率優(yōu)化等諸多問題。分散在各地的算力資源真的能協(xié)同調(diào)度嗎?全網(wǎng)算力一體化仍面臨著哪些問題?本文從“算”的角度切入,探討算網(wǎng)融合過程中“算力成網(wǎng)”面臨的關(guān)鍵挑戰(zhàn)。
近年來,隨著智能計算產(chǎn)業(yè)的快速發(fā)展以及人們對ChatGPT等超大規(guī)模模型能力的認知不斷提升,各行業(yè)對算力的需求迅速攀升,算力逐漸成為數(shù)字經(jīng)濟時代的核心驅(qū)動力。因此,算力中心作為新型基礎(chǔ)設(shè)施的重要組成部分,已納入全國各大城市的重點布局和規(guī)劃中。然而,當前分散在各地的算力基礎(chǔ)設(shè)施水平不一、形態(tài)各異、發(fā)展不均衡,嚴重制約了各地算力、數(shù)據(jù)等資源的高效使用,急需以部署整體化算力基礎(chǔ)資源為核心,對算力進行統(tǒng)籌和協(xié)調(diào)發(fā)展,形成效率更高且可廣泛支撐新型計算模式的算力服務(wù)體系。
“算力互聯(lián)”并不是一個新的理念,早在21世紀初,國內(nèi)外便提出了“網(wǎng)格計算”(Grid Computing)的概念,通過將各大超算中心的算力進行聚合,有效支持各類科學(xué)研究應(yīng)用[5-6];美國谷歌、微軟,國內(nèi)華為等云廠商,也紛紛提出各自的數(shù)據(jù)中心互聯(lián)(Data Center Interconnect,DCI)解決方案,實現(xiàn)企業(yè)內(nèi)部的數(shù)字網(wǎng)絡(luò)平臺建設(shè);云際計算(JointCloud Computing)[7]、天空計算(Sky Computing)[8]等概念面向云計算產(chǎn)業(yè),通過云服務(wù)間的開放協(xié)作,實現(xiàn)多云平臺間的高效協(xié)作。上述工作大多面向超算、企業(yè)內(nèi)數(shù)據(jù)中心、云計算等傳統(tǒng)算力類型的互聯(lián)需求開展,對近年來興起的人工智能算力(簡稱“智算”)互聯(lián)問題,以及超算、智算、云計算等不同類型算力的互聯(lián)協(xié)作尚未進行深入探討。
“算力網(wǎng)”在以上概念及技術(shù)的基礎(chǔ)上進一步拓展,是一種覆蓋智算中心、超算中心、數(shù)據(jù)中心等大型異構(gòu)算力資源的新型算力基礎(chǔ)設(shè)施,通過對分布在不同地域的異構(gòu)算力中心進行高速網(wǎng)絡(luò)互聯(lián),形成一臺跨地域部署的“大計算機”,實現(xiàn)多中心間的資源共享、自主協(xié)作與統(tǒng)一服務(wù),以提升各算力中心的整體運行效率、系統(tǒng)能效和服務(wù)能力,如圖1所示。
圖1 “算力網(wǎng)”概念示意圖
“算力網(wǎng)”作為網(wǎng)絡(luò)和計算融合的重要體現(xiàn),具有廣泛的應(yīng)用前景和發(fā)展?jié)摿?,其系統(tǒng)天然的高度異構(gòu)性與復(fù)雜性也使得算力網(wǎng)大規(guī)模建設(shè)與落地應(yīng)用面臨一系列重要挑戰(zhàn)。
“算力網(wǎng)”建設(shè)的重要目標之一,是實現(xiàn)各算力中心間從底層計算、存儲資源到上層應(yīng)用、服務(wù)的多層級互操作。然而,目前全國各算力中心通常面向各自需求、基于不同架構(gòu)獨立建設(shè),軟硬件異構(gòu)性極高,為算力互聯(lián)互通與任務(wù)廣域調(diào)度帶來了極大挑戰(zhàn)。
在算力資源互聯(lián)互通方面,各算力中心的集群管理平臺異構(gòu)性是其面臨的主要問題。如對于計算資源的互聯(lián),涉及到各平臺支持的使用方式不同,平臺提供的外部訪問接口不統(tǒng)一;對于存儲資源的統(tǒng)一管理,存在因為各算力中心數(shù)據(jù)安全策略不同,導(dǎo)致的訪問權(quán)限差異,同時也存在不同類型的底層存儲(如對象存儲、文件存儲、API形式開放的存儲等)導(dǎo)致的訪問接口差異。因此,在實現(xiàn)此類異構(gòu)算力中心的互聯(lián)互通時,需要對用戶屏蔽各平臺底層差異,在各類不同的中心間探索統(tǒng)一的互聯(lián)方式和標準,實現(xiàn)對異構(gòu)算力中心資源的統(tǒng)一管理和訪問。
在任務(wù)統(tǒng)一調(diào)度方面,需考慮如何屏蔽各算力中心從底層計算芯片、驅(qū)動程序,到上層開發(fā)框架、應(yīng)用軟件等多層次的異構(gòu)性。以人工智能(Artificial Intelligence, AI)場景為例,目前大部分AI技術(shù)與模型均基于國外主流硬件(如NVIDIA GPU)及主流計算框架(如PyTorch)設(shè)計,缺乏對國產(chǎn)軟硬件的有效兼容,導(dǎo)致在算力網(wǎng)的任務(wù)調(diào)度環(huán)節(jié),無法有效調(diào)動大量的國產(chǎn)算力資源。當前,國內(nèi)AI硬件(如寒武紀思元、百度昆侖芯、燧原邃思等)和AI計算框架(如PaddlePaddle、MindSpore、OneFlow等)也已進入高速發(fā)展期,對國產(chǎn)軟硬件實現(xiàn)更好的適配和兼容,將進一步有助于解決不同算力中心間異構(gòu)算力的調(diào)度問題。如何真正實現(xiàn)“一次編程,隨處運行”,從而支撐異構(gòu)算力資源的統(tǒng)一服務(wù)與自主協(xié)作,是算力網(wǎng)建設(shè)過程中面臨的重要挑戰(zhàn)。
算力網(wǎng)內(nèi)的計算、存儲資源等廣泛分布于不同地理位置,為實現(xiàn)異地資源的協(xié)同使用與協(xié)同優(yōu)化,跨地域的遠程數(shù)據(jù)傳輸不可避免,特別是以“東數(shù)西算”、大模型跨域協(xié)同訓(xùn)練為代表的算力網(wǎng)業(yè)務(wù)增長迅速,很多場景數(shù)據(jù)傳輸量大且對傳輸效率需求較高。
如在“東數(shù)西算”業(yè)務(wù)中,其傳輸數(shù)據(jù)量可達PB級;超大規(guī)模模型跨域分布式訓(xùn)練業(yè)務(wù)單次數(shù)據(jù)傳輸量在10GB級以上[9],且為確保訓(xùn)練效率,需要的數(shù)據(jù)交互速率可達100Gb/s級。由此可見,當前基于公網(wǎng)的通用數(shù)據(jù)傳輸技術(shù)無法滿足長距離、高帶寬、低時延等算力網(wǎng)業(yè)務(wù)需求,且當前網(wǎng)絡(luò)傳輸方面缺乏基于通信技術(shù)來簡化網(wǎng)絡(luò)協(xié)議棧的相關(guān)研究,尚未針對算力網(wǎng)業(yè)務(wù)流量特征優(yōu)化傳輸控制協(xié)議。如何實現(xiàn)高速、極簡、算網(wǎng)原生的數(shù)據(jù)傳輸,利用新型網(wǎng)絡(luò)技術(shù)提高算力網(wǎng)資源的整體利用率,實現(xiàn)算網(wǎng)一體概念中“網(wǎng)”對“算”的有效支撐,是算力網(wǎng)互聯(lián)技術(shù)需要解決的關(guān)鍵問題之一。
“算力網(wǎng)”建設(shè)的一個重要目標是實現(xiàn)各地算力資源的統(tǒng)一服務(wù)和統(tǒng)一運營,從而對算力進行統(tǒng)籌和協(xié)調(diào)發(fā)展,以提高全網(wǎng)算力資源的綜合使用效能。然而,現(xiàn)實情況中,由于各算力中心大多獨立建設(shè),隸屬于不同利益主體,其對自身資源分配、數(shù)據(jù)訪問、業(yè)務(wù)調(diào)度等關(guān)鍵環(huán)節(jié)具有自主決策與控制需求,且通常使用不同的運營標準與服務(wù)體系,很難在現(xiàn)有框架內(nèi)實現(xiàn)完全中心式的一體化運營。
因此,在算力網(wǎng)的建設(shè)過程中,需要在認證授權(quán)、互聯(lián)適配、網(wǎng)絡(luò)接入、計量計費等多個方面考慮如何使用非侵入式的技術(shù)手段規(guī)避過于標準化導(dǎo)致的各主體自主權(quán)削弱問題,在各中心“自治性”與算力“一體化”之間實現(xiàn)利益均衡。
針對上述挑戰(zhàn),本文提出一套算力網(wǎng)參考架構(gòu)。如圖2所示,算力網(wǎng)系統(tǒng)主要包括調(diào)度適配器、統(tǒng)一數(shù)據(jù)存儲、網(wǎng)絡(luò)設(shè)施與控制、云際管理與調(diào)度以及運營平臺幾大部分,各部分之間通過標準化接口進行對接,各業(yè)務(wù)系統(tǒng)的具體功能設(shè)計如下。
圖2 算力網(wǎng)系統(tǒng)功能架構(gòu)圖
調(diào)度適配器:調(diào)度適配器通過在任務(wù)與算力中心間增加抽象層,通過低代價、非侵入的方式屏蔽算力中心異構(gòu)硬件、異構(gòu)系統(tǒng)等差異,對算力網(wǎng)提交來的任務(wù)進行適配轉(zhuǎn)換后提交給算力中心本地管理調(diào)度系統(tǒng);同時,適配器會收集各算力中心的任務(wù)狀態(tài)及運維監(jiān)控信息并上報算力網(wǎng)調(diào)度系統(tǒng),使得算力網(wǎng)可以通過統(tǒng)一的接口收集各中心及任務(wù)狀態(tài)信息,從而對全網(wǎng)資源進行協(xié)同調(diào)度優(yōu)化。為保證算力網(wǎng)長穩(wěn)運行,調(diào)度適配器接口訪問的服務(wù)水平需滿足穩(wěn)定性、可靠性以及性能要求,并同時滿足各算力中心的安全控制邏輯以及安全實施策略。
統(tǒng)一數(shù)據(jù)存儲:為提高計算任務(wù)的執(zhí)行效率,實現(xiàn)“算隨數(shù)動”“數(shù)隨算動”的調(diào)度策略,統(tǒng)一數(shù)據(jù)存儲系統(tǒng)基于算力中心的異構(gòu)存儲資源,構(gòu)建統(tǒng)一的數(shù)據(jù)存儲系統(tǒng),為計算任務(wù)所需要的大量數(shù)據(jù)集、模型、算法等數(shù)據(jù)提供高速訪問與共享交換服務(wù)。首先,需構(gòu)建全局統(tǒng)一存儲視圖,從而使得算力網(wǎng)調(diào)度系統(tǒng)可以感知數(shù)據(jù)集在各個算力中心的存儲情況;由于各分中心之間的存儲介質(zhì)采用的子存儲系統(tǒng)本身通常是異構(gòu)的,對外提供的接口可能是華為云對象存儲的OBS、阿里云對象存儲的OSS、廣泛應(yīng)用的私有部署對象存儲平臺MINIO、FTP方式以及自定義存儲訪問API等,統(tǒng)一存儲系統(tǒng)的一項重要功能是對異構(gòu)存儲系統(tǒng)和接口進行適配和統(tǒng)一化,以便在任務(wù)調(diào)度過程中實現(xiàn)跨中心的數(shù)據(jù)遷移。
網(wǎng)絡(luò)設(shè)施與控制:在算力網(wǎng)各類資源中,除計算、存儲資源高度異構(gòu)外,實現(xiàn)算力互聯(lián)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施也通常存在異構(gòu)性(如以太網(wǎng)、全光網(wǎng)等),算力網(wǎng)的網(wǎng)絡(luò)設(shè)施與控制系統(tǒng)通過異構(gòu)網(wǎng)絡(luò)融合,支持多元化異構(gòu)網(wǎng)絡(luò)類型,實現(xiàn)異構(gòu)網(wǎng)絡(luò)資源信息的采集上報;當算力網(wǎng)調(diào)度系統(tǒng)確定任務(wù)的目標計算節(jié)點后,網(wǎng)絡(luò)控制系統(tǒng)在現(xiàn)有網(wǎng)絡(luò)協(xié)議的基礎(chǔ)上,額外考慮算力作業(yè)對網(wǎng)絡(luò)的需求,動態(tài)調(diào)整算力作業(yè)中數(shù)據(jù)包的路由策略,將算力作業(yè)等信息路由至指定節(jié)點,并通過QoS等技術(shù),保障網(wǎng)絡(luò)的時延、丟包、帶寬等網(wǎng)絡(luò)性能參數(shù),實現(xiàn)網(wǎng)絡(luò)系統(tǒng)對算力調(diào)度系統(tǒng)的有效支撐與協(xié)同優(yōu)化。
云際管理與調(diào)度:該系統(tǒng)負責(zé)接入各個算力中心,對算力、網(wǎng)絡(luò)等資源進行統(tǒng)一管理和協(xié)同調(diào)度,統(tǒng)一對上層應(yīng)用提供作業(yè)操作等能力,以實現(xiàn)全網(wǎng)資源的高效使用。主要功能模塊包括資源管理、作業(yè)管理、作業(yè)調(diào)度等。其中資源管理模塊實現(xiàn)各算力中心的算力、網(wǎng)絡(luò)等資源信息采集、監(jiān)控、管理;作業(yè)管理提供了各類任務(wù)作業(yè)的管理功能;任務(wù)調(diào)度模塊根據(jù)集群負載、數(shù)據(jù)拓撲、網(wǎng)絡(luò)狀態(tài)、能耗等調(diào)度因子選擇最優(yōu)算力中心執(zhí)行作業(yè)。
一體化運營:算力網(wǎng)的運營系統(tǒng)實現(xiàn)多個算力中心算力、數(shù)據(jù)等資源的一體化運營。首先,通過用戶統(tǒng)一認證與授權(quán)確保不同算力中心的用戶可以互相認證并分配全局統(tǒng)一的用戶身份;在用戶對資源的使用過程中,對各算力中心的資源貢獻進行統(tǒng)一的計量和費用結(jié)算;同時,通過構(gòu)建數(shù)據(jù)市場、模型市場與應(yīng)用市場,支持算力網(wǎng)用戶進行數(shù)據(jù)、模型、應(yīng)用服務(wù)等資源的發(fā)布、訂閱、交易及使用,從而真正實現(xiàn)全網(wǎng)資源的開放共享。
“算力網(wǎng)”作為新型強力算力底座,可有效支撐“東數(shù)西算”“一帶一路”等國家重大戰(zhàn)略的實施落地。以面向“一帶一路”的語言服務(wù)場景為例,目前中國已經(jīng)同140個國家和31個國際組織簽署共建“一帶一路”合作文件,其中共涉及12語系、28語族、132種語言。由于語種使用人口、地理分布的不均衡、社會信息化水平的差異以及語料收集渠道的隔離,造成語種數(shù)據(jù)資源的極度不均衡,或產(chǎn)生性能參差不齊的模型及應(yīng)用,形成天然的數(shù)據(jù)和模型“孤島”。
針對大規(guī)模多語言模型及其應(yīng)用在低資源語料分散、數(shù)據(jù)開源意愿不強、各語種數(shù)據(jù)資源極度不均衡等問題,可基于算力網(wǎng)的構(gòu)建整合“一帶一路”沿線國家的計算及數(shù)據(jù)資源,進行以中文為核心的“一帶一路”多語言大模型研究及應(yīng)用平臺建設(shè),聯(lián)合優(yōu)勢企業(yè)單位、科研院所、優(yōu)勢研發(fā)平臺,在數(shù)據(jù)、模型不出本地的前提下,通過多方跨域協(xié)同計算,突破多語言模型研究及應(yīng)用關(guān)鍵技術(shù),促進“一帶一路”國家語言互通,成為國家戰(zhàn)略落地的重要支撐,如圖3所示。
圖3 面向“一帶一路”國家重大戰(zhàn)略的多語言大模型跨域協(xié)同計算
隨著數(shù)字經(jīng)濟建設(shè)的不斷深入,各行各業(yè)的發(fā)展越來越依賴于強大的算力底座,將單點算力互聯(lián)成網(wǎng),推進算力資源的協(xié)同使用已是大勢所趨。“算力網(wǎng)”的建設(shè)旨在構(gòu)建自主創(chuàng)新的技術(shù)體系,以建立互聯(lián)互通、高效協(xié)同的一體化算力基礎(chǔ)設(shè)施為目標,推動實現(xiàn)數(shù)字經(jīng)濟時代算力供給模式的變革。在算力網(wǎng)的建設(shè)過程中,依然面臨著多層次異構(gòu)性兼容、遠距離通信優(yōu)化、一體化運營機制建設(shè)等關(guān)鍵技術(shù)挑戰(zhàn),如何在算網(wǎng)融合的新趨勢下,基于網(wǎng)絡(luò)能力釋放算力能力,真正實現(xiàn)互聯(lián)算力的高效協(xié)同,仍需在算力網(wǎng)建設(shè)過程中進行深入探索。