周舸帆,雷波
中國電信股份有限公司研究院,北京 102209
數(shù)字經濟蓬勃發(fā)展亟需數(shù)字信息基礎設施加快升級,伴隨5G、人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)等新技術向各行業(yè)的滲透,產業(yè)數(shù)字化轉型逐漸步入深水區(qū),成為數(shù)字經濟增長的主體。在數(shù)據(jù)成為新生產要素的同時,全社會數(shù)據(jù)總量呈現(xiàn)幾何倍數(shù)增長。據(jù)IDC預測[1],未來三年新創(chuàng)建的數(shù)據(jù)量將超過過去30年的總和,而未來五年創(chuàng)造的數(shù)據(jù)量將是前五年的三倍以上,全球數(shù)據(jù)量到2025年全球聯(lián)網(wǎng)設備總量將達到559億。由此將帶來大量的數(shù)據(jù)存儲、計算、傳輸和應用需求,5G、光纖寬帶、數(shù)據(jù)中心等新型基礎設施重要性日益凸顯。同時,工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、智慧城市與智慧醫(yī)療等“互聯(lián)網(wǎng)+”新業(yè)態(tài)正在高速發(fā)展,消費互聯(lián)網(wǎng)逐步向產業(yè)互聯(lián)網(wǎng)演進,計算模式與通信網(wǎng)絡日趨復雜化、多元化。
對通用算力、智能算力與超算算力的蓬勃需求推動了各類數(shù)據(jù)中心的高速發(fā)展。據(jù)統(tǒng)計,截至2022年6月底,我國在用數(shù)據(jù)中心機架規(guī)模已超過590萬架,算力總規(guī)模超過150EFlops。由于產業(yè)布局、市場發(fā)展、氣候環(huán)境等因素影響,我國數(shù)據(jù)中心算力需求、算力資源分布分配不均衡,全國數(shù)據(jù)中心平均利用率僅為55%。同時全球范圍內數(shù)據(jù)中心PUE多年維持在1.6的水平,能效利用率整體偏低。為引導數(shù)據(jù)中心集約化、規(guī)?;⒕G色化發(fā)展,加強數(shù)據(jù)安全水平,同時提升跨區(qū)域算力調度水平,國家先后發(fā)布了《關于加快構建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導意見》和《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》兩份文件,實施“東數(shù)西算”戰(zhàn)略,通過八大算力樞紐節(jié)點和十個數(shù)據(jù)中心集群,動構建全國一體化大數(shù)據(jù)中心體系。
“東數(shù)西算”除了對數(shù)據(jù)中心布局、算力資源結構、數(shù)據(jù)流通融合、數(shù)據(jù)安全防護等提出要求外,還對網(wǎng)絡能力提出了更高的要求。因此,在不斷優(yōu)化現(xiàn)有網(wǎng)絡架構與運營的同時,更需要發(fā)展以算力網(wǎng)絡技術為代表的新興網(wǎng)絡技術,有效支撐東西部算力協(xié)同。
自2019年來,經過業(yè)界各領域的專家學者的不斷研究,算力網(wǎng)絡的定義與內涵逐步演變。中國電信將算力網(wǎng)絡(Computing Power Network, CPN)定義為一種在云網(wǎng)融合體系下的、架構在IP網(wǎng)之上以算力資源調度和服務為特征的新型網(wǎng)絡技術或網(wǎng)絡形態(tài),算力網(wǎng)絡力圖通過網(wǎng)絡控制面來解決多方異構算力資源的柔性供給問題,能夠讓用戶在發(fā)起任務時不用指定具體的算力資源節(jié)點,而由網(wǎng)絡控制面根據(jù)資源節(jié)點實時信息與業(yè)務策略來選擇最佳算力資源節(jié)點[2]。中國移動在其發(fā)布的《算力網(wǎng)絡白皮書》中提出算力網(wǎng)絡(Computing Force Network, CFN)定義為以算為中心、網(wǎng)為根基,網(wǎng)、云、數(shù)、智、安、邊、端、鏈(ABCDNETS)等深度融合、提供一體化服務的新型信息基礎設施[3]。中國聯(lián)通以CUBE-Net3.0體系總體思想,以基于IPv6+的算網(wǎng)基礎承載為關鍵技術,打造基于全光網(wǎng)底座的連接,構建算網(wǎng)大腦,根據(jù)國家算力樞紐布局,實現(xiàn)算網(wǎng)一體化服務[4]。
國際范圍內,算力網(wǎng)絡的研究主要集中在國際電信聯(lián)盟(ITU)、互聯(lián)網(wǎng)工程任務組(IETF)、寬帶論壇(BBF)、歐洲電信標準化協(xié)會(ETSI)等全球標準化組織中的標準化工作上。2021年7月,ITU-T通過由中國電信牽頭的算力網(wǎng)絡框架與架構標準Y.2501,該標準規(guī)定了算力網(wǎng)絡(CPN)的功能架構,是首項獲得國際標準化組織通過的算力網(wǎng)絡相關標準。目前ITU還涉及算力網(wǎng)絡功能需求、信令需求與協(xié)議、交易、編排管理、邊界網(wǎng)關、認證調度等研究方向。IETF在算力網(wǎng)絡領域涉及網(wǎng)絡設備集成計算能力、算力路由、算力感知等領域。BBF就算力網(wǎng)絡在城域網(wǎng)中的應用展開研究。ETSI中NFVEVE020以CFN為基礎,研究NFV的計算和網(wǎng)絡集成相結合的網(wǎng)絡功能連接擴展方案。
與此同時,學術界的專家也提出了與算力網(wǎng)絡核心觀點與目標相似的未來網(wǎng)絡體系。張宏科院士提出標識網(wǎng)絡“三層兩域”架構,通過動態(tài)感知網(wǎng)絡狀態(tài)并智能匹配服務需求,實現(xiàn)資源的動態(tài)適配和協(xié)同調度,解決網(wǎng)絡中位置與資源綁定、控制與數(shù)據(jù)綁定、用戶與網(wǎng)絡綁定的問題,提高網(wǎng)絡資源利用率[5]。鄔江興院士提出一種技術體制與物理平臺分離的網(wǎng)絡發(fā)展范式-多模態(tài)網(wǎng)絡,將各種網(wǎng)絡技術體制以模態(tài)的形式,在多模態(tài)網(wǎng)絡環(huán)境上智慧加載和運行,按照模態(tài)自定義的報文格式、路由協(xié)議、交換方式、轉發(fā)邏輯等進行處理,實現(xiàn)多種模態(tài)在同一物理網(wǎng)絡平臺上的共存、演進或變革發(fā) 展[6]。張平院士提出通感算一體網(wǎng)絡,指同時具備物理-數(shù)字空間感知、泛在智能通信與計算能力的網(wǎng)絡,通過“通感算”(通信、傳感、算力)一體化的方式,在工業(yè)互聯(lián)網(wǎng)、精準醫(yī)療等方面提高智能服務創(chuàng)新能力[7]。上述創(chuàng)新網(wǎng)絡技術體系與算力網(wǎng)絡異曲同工,都將融合、智能與協(xié)同作為未來網(wǎng)絡的發(fā)展方向與原則,通過更高效的匹配與調度,打造更加包容、柔性、智能、安全的網(wǎng)絡。
算力網(wǎng)絡技術重點關注網(wǎng)絡中資源的多樣性與算力服務的多樣性。其中,算力資源的多樣性包括資源節(jié)點規(guī)模與位置的多樣性(大型云計算節(jié)點、分散在網(wǎng)絡邊緣的邊緣計算節(jié)點等)、資源節(jié)點算力種類的多樣性(通用算力、智能算力、超算算力)[8]、資源歸屬的多樣性(云服務商、電信運營商、中小型企業(yè)、超算中心、研究機構等)[9]等。算力服務的多樣性包括行業(yè)場景的多樣性(工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、自動駕駛、沉浸式XR、智慧醫(yī)療等)、業(yè)務需求的多樣性(大算力需求、低時延需求、確定性需求、數(shù)據(jù)安全需求、成本需求等)與業(yè)務場景的多樣性(檢索查詢類、渲染交互類、深度學習類、區(qū)塊共識類等)[10]。算力網(wǎng)絡試圖基于無處不在的網(wǎng)絡聯(lián)結存在于網(wǎng)絡中的業(yè)務需求與資源,同時利用上述多樣化特征提供算網(wǎng)一體化服務,提高整網(wǎng)資源利用率,實現(xiàn)用戶體驗的一致性與服務靈活動態(tài)部署。算力資源的標識是實現(xiàn)上述服務的基礎。在算力網(wǎng)絡中,需要利用算力標識對網(wǎng)路中的算力資源進行管理,同時可以利用算力標識對算力服務需求進行初步的匹配。
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展與工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應用的不斷延伸,針對不同應用場景、識別目標、技術特點而形成的標識體系也在不斷地擴展與豐富,有效支撐網(wǎng)絡中大量實體的信息交換與數(shù)據(jù)共享。現(xiàn)有的標識體系可分為對象標識與網(wǎng)絡節(jié)點標識。其中,對象標識主要用于識別網(wǎng)絡中的物理、邏輯或信息對象,通?;谙嚓P對象的檢索、獲取、管理或控制,不用于網(wǎng)絡通信或尋址。常見的對象標識包含EPC編碼、客體標識符(OID)、UPC碼、統(tǒng)一資源名稱(URN)等。網(wǎng)絡節(jié)點標識主要用于網(wǎng)絡中具備通信能力的網(wǎng)絡節(jié)點的識別、尋址與通信。常見的標識形式包括域名、統(tǒng)一資源定位符(URL)、IP地址等。
算力網(wǎng)絡中的算力資源兼具計算相關屬性與通信相關屬性,目前CCSA已經開始算力網(wǎng)絡中算力標識的標準化工作,但是尚未形成成熟的算力標識體系。算力標識設計應利用算力資源及業(yè)務場景的多樣性,全面地刻畫算力資源的特征,從而輔助算力網(wǎng)絡場景下復雜的算力資源查找與匹配任務。目前存在的標識體系用于標識對象的管理或者通信,未將兩者結合在一起,不適用于算力網(wǎng)絡中算力資源的標識。本文基于算力資源的多樣性與算力服務的多樣性得出一種算力資源標識方法,并提出了一種基于算力標識的算力服務需求匹配系統(tǒng),在此系統(tǒng)中,算力網(wǎng)絡可以根據(jù)算力標識對用戶的算力需求進行初步匹配。
算力標識(CRID, Computing Resource Identifier)作為算力資源在算力網(wǎng)絡中的唯一標識,獨立于網(wǎng)絡中各類資源與用戶變化。算力網(wǎng)絡通過唯一的算力標識可以對網(wǎng)絡中多級泛在異構的算力資源進行管理與整合,同時算力標識體系還將算力資源的通信地址,結合算力資源的網(wǎng)絡屬性(時延)與計算屬性(算力特征與計算能力)為算力資源使用者更加快速準確地匹配最佳算力節(jié)點。同時,網(wǎng)絡中的算力資源在獲取CRID前需要進行注冊與鑒權,以確保算力資源的合法性與算力交易的安全與可追溯性。
如圖1所示,本文提出的架構由用戶端、算力網(wǎng)絡解析服務器、算力資源通信服務器、算力資源管理服務器、國家鑒權注冊中心、算力網(wǎng)關以及算力資源節(jié)點組成。
圖1 基于算力標識的算力服務需求匹配系統(tǒng)Fig.1 Computing service demand matching system based on com- puting power identification
算力資源使用者通過用戶端發(fā)送CRID獲取符合自身算力服務需求的算力資源列表。
算力資源通信服務器通過CRID對算力資源節(jié)點的通信地址進行解析。
算力資源管理服務器通過CRID獲取實時算力資源的狀態(tài)信息。
算力網(wǎng)絡解析服務器對CRID進行解析獲取與算力資源通信服務器與算力資源管理服務器的通信,從而獲取 CRID與算力資源節(jié)點通信地址、可用算力資源數(shù)據(jù)的映射。用戶通過訪問算力網(wǎng)絡解析服務器得到候選算力資源列表,選擇所需算力資源。
本文借鑒DNS解析映射機制,將算力網(wǎng)絡中的算力資源經過層次化抽象成樹狀層次化模型后可按照域名組織規(guī)則進行編碼、注冊和管理。算力資源抽象層次樹從根結點向下逐層為國家域、算力域、算力提供商、產品代碼、算力形態(tài)、算力模型、算力能力等級,資源抽象樹的葉子為具體的實例化名稱。其中,算力位置標識符號包含國家域和算力域,指代算力資源的位置屬性;算力身份標識符包括算力提供商與產品代碼;算力屬性標識符包含算力形態(tài)、算力模型、算力能力等級,表明算力自身屬性信息。本標識體系通過包含算力位置標識符、算力身份標識符與算力屬性標識符滿足算力網(wǎng)絡中算網(wǎng)一體化管控的要求,有效支撐算力網(wǎng)絡中用戶需求匹配的功能。算力標識的樹形結構示意圖如圖2所示。
圖2 算力標識架構Fig.2 Architecture of computing power identification
標識模型的詳細域名如表1所示。加入網(wǎng)絡中的算力資源可以是已加載具體算力等級的資源,也可以是未運行任何實例的彈性空載資源,相應的資源抽象樹缺乏相應的層次編碼。加載所有算力標識結構中的屬性的算力標識稱為完全算力標識,具有空載字段的算力標識稱為部分空載算力標識。此種標識方法可以在保證全局唯一性的同時還具備一定可擴展性,即算力標識可通過一定的擴展機制應對網(wǎng)絡中算力資源規(guī)模與部署的變化,從而滿足算力資源發(fā)展的需要。
表1 算力資源屬性表Table 1 Attributes of computing resources
根據(jù)節(jié)點類型采用從葉子節(jié)點到根節(jié)點的方式書寫算力標識,各層用“.”隔開。例如,某位于北京的天翼云節(jié)點,算力形態(tài)為GPU,等級在100-1000FLOPS,則算力標識為:
B.GPU.0086X.CT.NC.CN
在此標識中,CN代表中國區(qū)域,NC代表華北大區(qū),CT標識中國電信天翼云,0086X為產品代碼。此算力標識中未包含算力模型字段,表示此算力資源暫未運行特定的算力模型。
本節(jié)針對網(wǎng)絡中算力資源節(jié)點數(shù)量龐大、歸屬不同且多級異構的特點,設計了基于算力標識與通信地址分級映射的方法,映射過程示意圖如圖3所示。
圖3 算力資源通信地址的獲取方案Fig.3 Acquisition of communication address of computing resources
算力資源獲取算力標識后,獲得接入網(wǎng)絡的許可。在首次接入網(wǎng)絡時,算力資源節(jié)點需要將自身的算力標識發(fā)送至算力網(wǎng)關,算力網(wǎng)關將此算力資源節(jié)點的算力標識與通信地址進行映射。在獲取算力標識后,算力網(wǎng)關將此算力標識上傳至算力資源通信服務器,算力資源通信服務器將獲取算力標識與算力網(wǎng)關通信地址的映射。
當用戶試圖通過完全算力標識或部分空載算力標識獲取可用資源列表時,可發(fā)送算力標識至算力網(wǎng)絡解析服務器,算力網(wǎng)絡解析服務器向算力資源通信服務器發(fā)出獲取算力資源通信地址的請求,在接收到算力標識后,算力資源通信服務器通過算力標識找到算力資源所屬網(wǎng)關,網(wǎng)關可查找自身維護的標識-地址映射表,返回CRID所對應的算力資源的通信地址。
由于網(wǎng)絡中存在大量實時的算力交易,網(wǎng)絡中眾多算力資源節(jié)點的狀態(tài)、可用算力與算力資源價格可能時刻發(fā)生變化。因此,需要算力資源管理服務器維護這些實時變化的算力屬性信息。圖4描述了獲取算力資源屬性的方案。首先,在算力資源通過入網(wǎng)申請后需要與算力資源管理服務器進行通信與連接。在用戶進行算力資源申請后,算力網(wǎng)絡解析服務器需要依據(jù)用戶端發(fā)送的CRID向算力資源管理服務器發(fā)起算力資源屬性信息獲取請求,算力資源管理服務器依據(jù)CRID解析并獲取對應算力資源的實時屬性信息(可用算力大小、價格、存儲空間等)。
圖4 算力資源屬性信息的獲取方案Fig.4 Acquisition of computing resources attributes
由于單一的算力資源管理服務器運行的集中式數(shù)據(jù)庫缺乏擴展能力,算力資源屬性信息的映射可借鑒DNS機制,采用分布式的部署方案。
當用戶發(fā)出的請求包含完全算力標識時,算力網(wǎng)絡解析服務器無需生成算力資源列表;當用戶發(fā)出的請求包含部分空載算力標識時,算力網(wǎng)絡解析服務器在獲取CRID所對應的算力資源節(jié)點通信地址與算力資源屬性信息后,首先依據(jù)算力標識篩選出匹配的算力資源,然后根據(jù)算力資源列表中所包含的算力資源的通信地址、網(wǎng)絡狀態(tài)、端到端時延、可用算力、報價等指標進行綜合排序,并形成算力資源列表,列表長度可根據(jù)需求進行規(guī)定。用戶可與一個或多個算力資源節(jié)點進行簽約,同時由用戶發(fā)送資源占用報文,此時算力資源管理服務器需及時對算力資源屬性信息進行更新并通知算力資源節(jié)點保留算力資源并準備建立網(wǎng)路連接。
為驗證算力標識系統(tǒng)在算力服務需求匹配上的合理性,在上述理論研究的基礎上,團隊利用北京、江蘇兩地的算力資源節(jié)點,完成機器視覺解決方案場景驗證評估,將傳統(tǒng)固化的工控機模式升級為5G+AI+云+邊緣模式,既能滿足工業(yè)控制場景中對實時性的要求,又能實現(xiàn)海量數(shù)據(jù)處理與AI訓練快速迭代。
如圖5所示,在本案例中,共有兩類算力節(jié)點。第一類為靠近現(xiàn)場的邊緣計算節(jié)點,此類節(jié)點的特征是靠近用戶,通??梢员WC較低的網(wǎng)絡時延與迅速的任務響應,但算力資源有限,無法執(zhí)行大算力需求的任務,因此選擇在此類算力節(jié)點部署現(xiàn)場實時控制與交互任務,在本案例中擬在此類算力節(jié)點部署推理模塊。第二種算力節(jié)點為集中式云計算節(jié)點,此類節(jié)點可提供強大的算力,適用于各類任務部署,但網(wǎng)絡時延較大且傳輸質量較難控制,因此本案例選擇在此類算力節(jié)點部署離線模型訓練任務等具有大算力需求但時延要求不高的任務。
圖5 基于算力標識的算力服務需求匹配驗證Fig. 5 Verification of computing service demand matching system based on computing power identification
首先為AI訓練模塊選擇大算力節(jié)點,通過算力標識查找具有大算力且滿足特定歸屬的云計算中心算力,部署相應的訓練任務,本案例中選擇了蘇州某天翼云節(jié)點,直接輸入明確指定節(jié)點的算力標識0086X.CT.CN,算力網(wǎng)絡解析服務器根據(jù)算力標識返回節(jié)點通信地址,選擇所需算力后建立機器人與云計算節(jié)點間的網(wǎng)絡連接。在選擇部署推理模塊的算力資源節(jié)點時,應選擇時延較低的算力資源節(jié)點,但對算力要求并不苛刻,因此使用部分算力標識CT.NC.CN,并規(guī)定時延優(yōu)先,算力網(wǎng)絡解析服務器根據(jù)發(fā)送的算力標識生成候選算力列表,用戶選擇時延最低的處在北京的邊緣計算節(jié)點。
測試完成了智能揀選接口的20余項功能,端到端的應用層指令執(zhí)行時延為30-77ms,指令成功率100%,推理時長600-700ms。測試表明,通過算力標識的算力服務需求匹配系統(tǒng)在服務需求匹配上具有較高的靈活性與便捷性,使得業(yè)務發(fā)起方可以按需選擇最優(yōu)的算力節(jié)點。
數(shù)字經濟逐漸成為我國經濟增長的主引擎,算力作為數(shù)字時代的核心資源與生產要素,逐步呈現(xiàn)泛在多樣、高效互聯(lián)、綠色安全的特征,需要通過算力網(wǎng)絡實現(xiàn)高效調度與融合供給,高效利用多級泛在化的算力資源、實現(xiàn)算力利用率最大化已經成為當前信息通信網(wǎng)絡發(fā)展的重要方向。在“東數(shù)西算”國家戰(zhàn)略背景下,算力資源將更加泛在化、多樣化、復雜化,因此迫切需要建立一套統(tǒng)一的算力標識體系與描述語言,賦能算力流通屬性的同時,為算力的感知、管控、服務提供基礎和標準。本文提出了一種統(tǒng)一的算力資源描述語言,同時探索了一種基于算力標識的算力服務需求匹配系統(tǒng),基于算力標識實現(xiàn)較為精準的資源預配,并證實了此方案的可用性及有效性。隨著算網(wǎng)一體化服務的不斷深入,為保障算力資源交易的安全性,未來還需建立國家級算力資源鑒權認證中心,確保算力資源的合法性,為高效的算力服務提供保障。
利益沖突聲明
所有作者聲明不存在利益沖突關系。