王志浩,郗海龍,許萌簽,劉曉東*,潘 寧,肖 哲
(1.中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081;2.北海艦隊(duì)參謀部,山東 青島 266000)
近年來(lái),隨著移動(dòng)通信技術(shù)、云計(jì)算技術(shù)以及互聯(lián)網(wǎng)應(yīng)用的高速發(fā)展,大量的移動(dòng)終端和智能物聯(lián)網(wǎng)設(shè)備不斷地接入網(wǎng)絡(luò),通信網(wǎng)絡(luò)中正經(jīng)歷著爆炸式的業(yè)務(wù)流量增長(zhǎng)。由于當(dāng)前網(wǎng)絡(luò)中的業(yè)務(wù)量種類(lèi)非常復(fù)雜并且規(guī)模十分龐大,業(yè)務(wù)流量經(jīng)常在一個(gè)較大的時(shí)間范圍內(nèi)波動(dòng),傳統(tǒng)的網(wǎng)絡(luò)業(yè)務(wù)路由策略已難以適應(yīng)目前不斷變化的網(wǎng)絡(luò)環(huán)境。
路由算法通常分為靜態(tài)路由算法和動(dòng)態(tài)路由算法2類(lèi)。靜態(tài)路由算法無(wú)法根據(jù)網(wǎng)絡(luò)變化做出相應(yīng)改變,因此不適用于大型或易變的網(wǎng)絡(luò)。動(dòng)態(tài)路由算法通過(guò)分析網(wǎng)絡(luò)狀態(tài)信息,可即時(shí)地或周期性地調(diào)整路由策略[1]。動(dòng)態(tài)路由算法應(yīng)用廣泛,較為常見(jiàn)的有RIP,IGRP,OSPF和IS-IS等。這些算法已被廣泛部署在各類(lèi)環(huán)境中,但無(wú)法滿(mǎn)足不同特征網(wǎng)絡(luò)數(shù)據(jù)流的差異化需求。找到一種高效的、自適應(yīng)的網(wǎng)絡(luò)業(yè)務(wù)路由控制方案來(lái)確保網(wǎng)絡(luò)的服務(wù)質(zhì)量(Quality of Service,QoS),減少不必要的網(wǎng)絡(luò)資源開(kāi)銷(xiāo)并提高運(yùn)營(yíng)商設(shè)備資源利用率,是目前通信網(wǎng)絡(luò)優(yōu)化中一個(gè)亟待解決的問(wèn)題。
自2006年以來(lái),機(jī)器學(xué)習(xí)相關(guān)技術(shù)取得了一系列巨大的突破,使得通過(guò)人工智能技術(shù)來(lái)實(shí)現(xiàn)路由優(yōu)化成為一種可行的方法。軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)的提出使得對(duì)網(wǎng)絡(luò)進(jìn)行集中控制得以實(shí)現(xiàn)[2],該架構(gòu)擺脫了硬件設(shè)備對(duì)網(wǎng)絡(luò)的限制,使網(wǎng)絡(luò)具有靈活可編程性等優(yōu)點(diǎn),實(shí)現(xiàn)了網(wǎng)絡(luò)控制平面和數(shù)據(jù)平面的解耦合,智能路由算法能夠作為一個(gè)應(yīng)用運(yùn)行在SDN服務(wù)器中,給機(jī)器學(xué)習(xí)在路由機(jī)制方面的應(yīng)用帶來(lái)了新的研究方向[3]。
近年來(lái),路由算法依照其所應(yīng)用的方法類(lèi)型主要分為傳統(tǒng)動(dòng)態(tài)路由算法、基于監(jiān)督學(xué)習(xí)的智能路由算法及基于強(qiáng)化學(xué)習(xí)的智能路由算法。本文通過(guò)調(diào)研相關(guān)研究文獻(xiàn),從傳統(tǒng)路由和基于機(jī)器學(xué)習(xí)的路由等角度分析各類(lèi)智能算法發(fā)展,闡述了智能路由研究中面臨的機(jī)遇與挑戰(zhàn),并展望了未來(lái)智能路由算法研究方向。
傳統(tǒng)動(dòng)態(tài)路由算法可分為基于最優(yōu)化方法的路由算法及基于啟發(fā)式方法的路由算法2類(lèi):基于最優(yōu)化方法的路由算法有Dijkstra算法、Floyd算法和LPA*算法等,在給定約束條件條件下,給出使某一(或某些)指標(biāo)達(dá)到最優(yōu)的路由規(guī)劃;基于啟發(fā)式方法的路由算法主要采用蟻群算法、蜂群算法和粒子群算法等,在某些復(fù)雜網(wǎng)絡(luò)中,以可接受的代價(jià)給出組合優(yōu)化問(wèn)題的一個(gè)可行路由解。這些算法由于簡(jiǎn)單的結(jié)構(gòu)及較高的穩(wěn)定性,已在大量環(huán)境下被部署使用,本節(jié)通過(guò)調(diào)研學(xué)術(shù)界相關(guān)研究,主要介紹傳統(tǒng)動(dòng)態(tài)路由算法的研究方向及各類(lèi)算法應(yīng)用場(chǎng)景和實(shí)驗(yàn)效果。
針對(duì)可預(yù)測(cè)無(wú)線(xiàn)網(wǎng)絡(luò)中的路由設(shè)計(jì)問(wèn)題,考慮路由成本和路由可靠性,文獻(xiàn)[4]提出了分層最短路由算法(Hierarchical Shortest Path Algorithm,HSRA)。該算法將可預(yù)測(cè)的無(wú)線(xiàn)網(wǎng)絡(luò)描述為一系列靜態(tài)圖并建模為時(shí)空?qǐng)D,空間鏈路為2個(gè)節(jié)點(diǎn)之間的無(wú)線(xiàn)鏈路,而時(shí)間鏈路表示節(jié)點(diǎn)將其數(shù)據(jù)包從一個(gè)時(shí)隙傳送到下一個(gè)時(shí)隙。該算法將數(shù)據(jù)包通過(guò)空間鏈路轉(zhuǎn)發(fā)或通過(guò)時(shí)間鏈路保存而產(chǎn)生的成本及鏈路可靠性概率作為優(yōu)化目標(biāo),使用分層最短路徑算法查找2個(gè)附加權(quán)重下的路徑,實(shí)驗(yàn)表明HSRA在路由成本及可靠性方面均優(yōu)于傳染性路由及距離矢量路由。該算法對(duì)網(wǎng)絡(luò)狀態(tài)監(jiān)測(cè)要求較高,主要針對(duì)可預(yù)測(cè)無(wú)線(xiàn)網(wǎng)絡(luò),無(wú)法解決傳統(tǒng)自組織網(wǎng)絡(luò)(Ad Hoc)中的可靠路由問(wèn)題。
除了對(duì)可靠性保障的需求,許多應(yīng)用程序還需要保證差異化的QoS,文獻(xiàn)[5]提出混合鏈路保護(hù)(Hybrid Link Protection,HLP)方案,目標(biāo)是探索路徑多樣性和預(yù)先計(jì)算備份路徑,以便在發(fā)生鏈路故障時(shí),可以立即激活備份路徑以避開(kāi)這些鏈路。HLP分2個(gè)階段實(shí)施。第1階段基于無(wú)環(huán)標(biāo)準(zhǔn)為每個(gè)目的地計(jì)算多個(gè)下一跳,保證誘導(dǎo)轉(zhuǎn)發(fā)路徑無(wú)環(huán)路,備用保護(hù)路徑(Backup Path Protection,BPP)識(shí)別鏈路并計(jì)算它們對(duì)網(wǎng)絡(luò)可用性的單獨(dú)貢獻(xiàn)度,確定關(guān)鍵鏈路,然后貪婪地選擇最小數(shù)量的關(guān)鍵鏈路以滿(mǎn)足網(wǎng)絡(luò)可用性要求,并計(jì)算相應(yīng)的多跳備份路徑。第2階段是指在HLP中,當(dāng)數(shù)據(jù)包到達(dá)故障檢測(cè)節(jié)點(diǎn)(Fault Detection Node,FDN)且由于故障導(dǎo)致其默認(rèn)下一跳不再可用時(shí),F(xiàn)DN首先檢查是否為目的地計(jì)算了多個(gè)下一跳,并選擇可行的下一跳進(jìn)行轉(zhuǎn)發(fā)。如無(wú)可行的下一跳,它使用特殊包頭沿BPP計(jì)算的多跳保護(hù)路徑傳輸路由數(shù)據(jù)包。同時(shí),HLP發(fā)起控制面狀態(tài)同步,在所有節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)狀態(tài)達(dá)成共識(shí)后重新執(zhí)行第1階段。該方案可在效率及網(wǎng)絡(luò)可用性之間取得較好的平衡,以較低的開(kāi)銷(xiāo)提供較高的網(wǎng)絡(luò)可用性。
文獻(xiàn)[6]針對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)提出一種基于路徑關(guān)鍵度的擁塞避免重路由方法,根據(jù)業(yè)務(wù)流信息判斷是否為大流,以鏈路負(fù)載和鏈路時(shí)延表征大流對(duì)鏈路的影響程度,稱(chēng)為鏈路關(guān)鍵度。將重路由路徑分配問(wèn)題建模為最小化最大鏈路關(guān)鍵度問(wèn)題,將擁塞鏈路上的大流調(diào)度到關(guān)鍵度較低的路徑上,緩解鏈路擁塞,進(jìn)而保證網(wǎng)絡(luò)性能。實(shí)驗(yàn)表明,當(dāng)網(wǎng)絡(luò)負(fù)載超過(guò)30%后,該算法表現(xiàn)出較好的性能,實(shí)現(xiàn)了減小大流擁塞、避免小流超時(shí)的目標(biāo)。
啟發(fā)式算法常被應(yīng)用于傳統(tǒng)網(wǎng)絡(luò)路由規(guī)劃,在可接受的代價(jià)下給出組合優(yōu)化問(wèn)題的一個(gè)可行解,一般情況下該可行解與最優(yōu)解的偏離程度無(wú)法估計(jì),常用于網(wǎng)絡(luò)的啟發(fā)式算法有蟻群算法[7-10]、神經(jīng)網(wǎng)絡(luò)和遺傳算法[11]等。蟻群算法是一種用來(lái)尋找優(yōu)化路徑的概率性算法。文獻(xiàn)[12]提出了一種結(jié)合蟻群算法和鏈路加權(quán)算法的蟻群鏈路權(quán)值算法,平衡網(wǎng)絡(luò)負(fù)載并選擇最佳路徑,在多個(gè)完整路徑中,通過(guò)蟻群算法計(jì)算與篩選多個(gè)可行路徑,并選擇目標(biāo)函數(shù)值較小的路徑為最優(yōu)路徑,在發(fā)揮蟻群算法優(yōu)勢(shì)的基礎(chǔ)上,通過(guò)鏈路權(quán)重算法避免蟻群算法陷入局部最優(yōu)解,仿真實(shí)驗(yàn)結(jié)果表明,該算法在調(diào)整網(wǎng)絡(luò)負(fù)載平衡方面優(yōu)于等代價(jià)多路徑路由算法,更適合于電力通信網(wǎng)絡(luò)等復(fù)雜的應(yīng)用場(chǎng)景。
文獻(xiàn)[10]提出了一種基于最小圖的蟻群優(yōu)化算法和一種創(chuàng)新的加權(quán)路由方法,通過(guò)對(duì)具有不同閾值的流量模式和場(chǎng)景進(jìn)行廣泛的模擬,所提出的路由方法可以在滿(mǎn)足用戶(hù)QoS要求的同時(shí)提供有效的鏈路負(fù)載均衡,極大地減少了網(wǎng)絡(luò)能耗。
除此之外,文獻(xiàn)[13]還結(jié)合了遺傳算法和果蠅優(yōu)化算法對(duì)APTEEN路由協(xié)議進(jìn)行了優(yōu)化。在簇頭選擇中加入剩余能量、節(jié)點(diǎn)到基站的距離、節(jié)點(diǎn)到全網(wǎng)幾何中心的距離及節(jié)點(diǎn)度等選擇因素,利用遺傳算法和果蠅優(yōu)化算法對(duì)簇頭進(jìn)行選擇。仿真結(jié)果表明,優(yōu)化得到的算法提高了網(wǎng)絡(luò)50%的生命周期、10%的覆蓋率和魯棒性,降低了整個(gè)網(wǎng)絡(luò)系統(tǒng)的能耗,避免了能源熱區(qū)現(xiàn)象。此外,如粒子群算法[14-15]等其他啟發(fā)式算法也常被用于求解復(fù)雜網(wǎng)絡(luò)中的路徑規(guī)劃問(wèn)題,利用遺傳算法可以提高收斂速度,但容易陷入局部最優(yōu),在應(yīng)用時(shí)通常需要根據(jù)場(chǎng)景進(jìn)行優(yōu)化。
傳統(tǒng)動(dòng)態(tài)路由算法結(jié)構(gòu)簡(jiǎn)單、穩(wěn)定性高,目前已廣泛應(yīng)用于各類(lèi)商用網(wǎng)絡(luò)中,然而在復(fù)雜網(wǎng)絡(luò)中收斂速度較慢,無(wú)法適應(yīng)動(dòng)態(tài)變化的網(wǎng)絡(luò)環(huán)境。在數(shù)據(jù)中心、無(wú)線(xiàn)自組網(wǎng)和抗震救災(zāi)網(wǎng)絡(luò)等大流量、高動(dòng)態(tài)網(wǎng)絡(luò)中,傳統(tǒng)路由算法已無(wú)法支撐各類(lèi)業(yè)務(wù)的差異化QoS保障需求,研究基于網(wǎng)絡(luò)狀態(tài)與業(yè)務(wù)需求的智能化路由策略愈發(fā)重要。
監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)方法中的一種,利用同時(shí)包含特征和標(biāo)簽信息的樣本訓(xùn)練得到一個(gè)最優(yōu)模型,再利用該模型將輸入映射為相應(yīng)的輸出,對(duì)輸出進(jìn)行判斷從而實(shí)現(xiàn)預(yù)測(cè)和分類(lèi)等目的。
在深度學(xué)習(xí)方法研究初始階段,基于誤差反向傳播(Back Propagation,BP)算法的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)由于隱藏層數(shù)較多,訓(xùn)練效率低下且容易產(chǎn)生局部最優(yōu)問(wèn)題,為提高訓(xùn)練效率,有學(xué)者研究了替代的激活函數(shù)以及小批量梯度下降算法等其他高效的優(yōu)化算法,然而這些方法對(duì)大規(guī)模DNN的優(yōu)化程度十分有限。為此,Hinton等[16]在2006年提出了深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN),其結(jié)構(gòu)如圖1所示。DBN是一個(gè)基于受限玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBM)預(yù)訓(xùn)練的概率生成模型,由多個(gè)RBM層組成,可以被用于多種優(yōu)化任務(wù)。
圖1 DBN結(jié)構(gòu)Fig.1 Structure of DBN
在智能路由方案中,很多時(shí)候需要處理維度不定的序列化信息,如流量預(yù)測(cè)和拓?fù)涓兄?。此時(shí)DNN很難達(dá)到預(yù)期效果,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)可以有效地處理長(zhǎng)度不定的序列化輸入,如網(wǎng)絡(luò)流量信息和拓?fù)湫畔⒌?。RNN是一類(lèi)以序列數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的RNN。相較于全連接神經(jīng)網(wǎng)絡(luò),RNN添加了一個(gè)記憶單元,將上一時(shí)刻隱藏層的狀態(tài)與當(dāng)前時(shí)刻的輸入一起傳遞至循環(huán)層。在傳統(tǒng)RNN中,每一時(shí)刻的輸出不僅由當(dāng)前時(shí)刻的輸入決定,還與上一時(shí)刻隱藏層的值有關(guān)。在前向的過(guò)程中,開(kāi)始時(shí)刻的輸入對(duì)后面輸出的影響越來(lái)越小,最終會(huì)喪失“記憶”能力,遞歸中的系數(shù)連乘也帶來(lái)了梯度爆炸的問(wèn)題。
長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)是一種特殊的RNN,由Hochreiter和Schmidhuber于1997年提出,主要是為了解決上文提到的長(zhǎng)序列訓(xùn)練過(guò)程中梯度消失和梯度爆炸的問(wèn)題,能夠在更長(zhǎng)的序列中有更好的表現(xiàn),但因參數(shù)較多,使得訓(xùn)練難度較大。
門(mén)控循環(huán)單元是LSTM網(wǎng)絡(luò)的一種效果很好的變體,它與LSTM效果類(lèi)似但網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單。由于能夠保持按照時(shí)序序列上的歷史信息,LSTM網(wǎng)絡(luò)在序列模型任務(wù)上有較好的表現(xiàn),然而該模型只能輸入線(xiàn)性序列,無(wú)法有效處理具有結(jié)構(gòu)信息的數(shù)據(jù),如網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)等。文獻(xiàn)[17]于2009年首次提出了圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)模型,GNN支持對(duì)圖節(jié)點(diǎn)之間的依賴(lài)關(guān)系進(jìn)行建模,使得與圖分析相關(guān)的研究領(lǐng)域取得了突破。
GNN是一種基于深度學(xué)習(xí)的處理圖域信息的方法,可以有效地處理非歐幾里得數(shù)據(jù)。在GNN的基礎(chǔ)上,科學(xué)界陸續(xù)研究出圖卷積網(wǎng)絡(luò)、圖自動(dòng)編碼器、圖遞歸神經(jīng)網(wǎng)絡(luò)和圖強(qiáng)化學(xué)習(xí)等一系列學(xué)習(xí)模型,在社交網(wǎng)絡(luò)、知識(shí)圖譜、推薦系統(tǒng),甚至生命科學(xué)等領(lǐng)域都發(fā)揮了重要作用。近年來(lái),隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,GNN在網(wǎng)絡(luò)領(lǐng)域的研究也不斷深入,在網(wǎng)絡(luò)建模、路由規(guī)劃和擁塞控制等相關(guān)研究中,GNN因其強(qiáng)大的圖數(shù)據(jù)處理能力已被廣泛應(yīng)用。
在路由優(yōu)化問(wèn)題中,深度學(xué)習(xí)算法的作用主要是替換傳統(tǒng)的基于數(shù)學(xué)模型的求解過(guò)程,也就是通過(guò)將網(wǎng)絡(luò)狀態(tài)和拓?fù)湫畔⑤斎肷疃葘W(xué)習(xí)模型,使模型輸出符合當(dāng)前網(wǎng)絡(luò)條件的最合適的路由決策。
2017年Mao等[18]面向骨干網(wǎng)場(chǎng)景提出了一種基于DBN模型的路由方案。該方案將路由器分為邊緣路由器和內(nèi)部路由器,邊緣路由器連接到不同的網(wǎng)絡(luò),外部網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)包到達(dá)邊緣路由器后,被送到目的節(jié)點(diǎn)(另一個(gè)邊緣路由器)進(jìn)行交付;內(nèi)部路由器負(fù)責(zé)路由轉(zhuǎn)發(fā)和網(wǎng)絡(luò)狀態(tài)信息收集。每個(gè)路由器單獨(dú)訓(xùn)練一個(gè)DBN模型,模型參數(shù)被分發(fā)到所有的邊緣路由器,邊緣路由器可利用節(jié)點(diǎn)信息創(chuàng)建從自己到所有邊緣路由器的路徑。實(shí)驗(yàn)證明,提出的方案信令開(kāi)銷(xiāo)明顯降低,可以有效地避免網(wǎng)絡(luò)擁塞,更好地實(shí)現(xiàn)流量控制,提升系統(tǒng)吞吐量。但該方案對(duì)設(shè)備算力要求較高,不適合大規(guī)模部署。
傳統(tǒng)的路由協(xié)議不會(huì)從歷史網(wǎng)絡(luò)特征和性能中學(xué)習(xí)來(lái)做出最佳路由決策。為此,2020年Du等[19]提出了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)賦能QoS感知自適應(yīng)(Deep Learning Empowered QoS-aware Adaptive,DLQA)路由算法。該算法在網(wǎng)絡(luò)特征矩陣中同時(shí)包含了網(wǎng)絡(luò)流量特征和鏈路狀態(tài)特征。系統(tǒng)的每個(gè)路由策略都由相應(yīng)的CNN判斷當(dāng)前流量特征是否能夠滿(mǎn)足傳輸QoS要求。仿真結(jié)果表明,所提出的DLQA路由算法可以根據(jù)不斷變化的網(wǎng)絡(luò)特征自適應(yīng)地調(diào)整路由策略,以滿(mǎn)足端到端傳輸時(shí)延和丟包率低的傳輸QoS要求。
Rusek等[20]提出了一種基于GNN的算法——RouteNet,這是首次使用機(jī)器學(xué)習(xí)技術(shù)解決網(wǎng)絡(luò)建模問(wèn)題。該算法根據(jù)對(duì)源-目標(biāo)節(jié)點(diǎn)對(duì)的平均時(shí)延及抖動(dòng)進(jìn)行網(wǎng)絡(luò)性能預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果進(jìn)行路由規(guī)劃。RouteNet使用GNN學(xué)習(xí)網(wǎng)絡(luò)圖中實(shí)體之間的關(guān)系并解決循環(huán)依賴(lài)的問(wèn)題,對(duì)收集到的網(wǎng)絡(luò)狀態(tài)信息進(jìn)行抽象,利用其中有價(jià)值的信息進(jìn)行網(wǎng)絡(luò)性能預(yù)測(cè),然后基于預(yù)測(cè)結(jié)果進(jìn)行路由優(yōu)化,該算法能有效地降低網(wǎng)絡(luò)的時(shí)延和抖動(dòng)。將該方法與最短路徑路由策略進(jìn)行比較,最終證明使用RouteNet可以取得更低的網(wǎng)絡(luò)延遲。但是,RouteNet的擴(kuò)展性較差,不支持各鏈路容量不同的網(wǎng)絡(luò)拓?fù)?,適用場(chǎng)景十分有限。
針對(duì)傳統(tǒng)的路由算法,例如OSPF和蟻群算法等無(wú)法處理網(wǎng)絡(luò)狀態(tài)復(fù)雜性及組網(wǎng)非平穩(wěn)性的問(wèn)題,2020年Zhuang等[21]基于SDN提出了一種集中式深度學(xué)習(xí)模型進(jìn)行路由計(jì)算,減少網(wǎng)絡(luò)和模型訓(xùn)練開(kāi)銷(xiāo)。該模型采用了一種圖感知神經(jīng)學(xué)習(xí)算法(Graph-Aware Deep Learning,GADL),算法結(jié)構(gòu)如圖2所示。
圖2 GADL算法結(jié)構(gòu)Fig.2 Algorithm structure of GADL
該算法首先提取網(wǎng)絡(luò)圖中的拓?fù)湫畔ⅲ缓髮⑻幚砗蟮臄?shù)據(jù)作為CNN的輸入,經(jīng)過(guò)計(jì)算輸出合適的下一跳節(jié)點(diǎn)。為放松模型對(duì)大規(guī)模訓(xùn)練樣本的需求,提高模型效率,GADL使用了一個(gè)特征處理流程:將網(wǎng)絡(luò)狀態(tài)測(cè)量值轉(zhuǎn)換為適合DNN在路由場(chǎng)景中學(xué)習(xí)的代表性特征。最終實(shí)驗(yàn)表明,GADL比其他最新的基于路由策略的深度學(xué)習(xí)方法在精度和效率上都很突出,并且可以使用更少的時(shí)間去接近最優(yōu)策略。
上述分析表明,基于深度學(xué)習(xí)的智能路由算法能夠利用網(wǎng)絡(luò)狀態(tài)信息和拓?fù)湫畔⑤^為準(zhǔn)確地計(jì)算出恰當(dāng)?shù)穆酚煞桨?,同時(shí)在收斂速度提升和信令開(kāi)銷(xiāo)降低方面也展示出了相比于傳統(tǒng)方案的優(yōu)勢(shì)。然而,DNN會(huì)使用大量參數(shù),只能將其看作是黑盒,這導(dǎo)致了基于深度學(xué)習(xí)的智能算法難以調(diào)試。因此,使用基于深度學(xué)習(xí)的系統(tǒng)在實(shí)際使用中可能會(huì)有風(fēng)險(xiǎn)。
針對(duì)基于深度學(xué)習(xí)的智能網(wǎng)絡(luò)算法難以解釋的問(wèn)題,2020年Meng等[22]首次提出了一種智能網(wǎng)絡(luò)系統(tǒng)解析方法——Metis,該方法能夠分析出對(duì)路由決策結(jié)果起決定性影響的鏈路,將基于深度學(xué)習(xí)的智能方案解釋為人類(lèi)可理解的控制策略,從而使網(wǎng)絡(luò)操作人員能夠方便地調(diào)試、部署和調(diào)整。Metis可以協(xié)助開(kāi)發(fā)、運(yùn)維人員對(duì)基于深度學(xué)習(xí)的網(wǎng)絡(luò)進(jìn)行操作設(shè)計(jì)、故障解決、部署和自適應(yīng)調(diào)整等,但Metis并不能適用于所有基于深度學(xué)習(xí)的網(wǎng)絡(luò)系統(tǒng),例如,Joshi等[23]將深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)與RNN相結(jié)合進(jìn)行路徑預(yù)測(cè),Metis對(duì)RNN等包含記憶模塊的神經(jīng)網(wǎng)絡(luò)無(wú)法準(zhǔn)確地進(jìn)行解析,未來(lái)將Metis與循環(huán)單元相結(jié)合或許能解決這個(gè)問(wèn)題。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)方法通過(guò)與環(huán)境交互,不斷學(xué)習(xí)以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)。在每個(gè)時(shí)間點(diǎn)t,智能體根據(jù)當(dāng)前狀態(tài)st采取行動(dòng)at后得到獎(jiǎng)勵(lì)rt,RL的目標(biāo)就是找到一個(gè)策略π(s),使得累計(jì)獎(jiǎng)勵(lì)最大化。RL不需要預(yù)先給定訓(xùn)練數(shù)據(jù),它通過(guò)接收環(huán)境對(duì)動(dòng)作的反饋調(diào)整模型參數(shù)。
為了處理高維空間上的RL問(wèn)題,研究者們?cè)O(shè)計(jì)出了多種深度RL模型,DQN便是其中一種。DQN引入一個(gè)DNN來(lái)替代Q表,通過(guò)簡(jiǎn)單的平方差計(jì)算損失并進(jìn)行優(yōu)化。DQN通常采用評(píng)估Q網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)生成估計(jì)值Q,目標(biāo)Q網(wǎng)絡(luò)的輸出對(duì)應(yīng)下一個(gè)狀態(tài),每隔一定周期使用評(píng)估Q網(wǎng)絡(luò)更新參數(shù)。深度RL有一個(gè)存儲(chǔ)歷史經(jīng)驗(yàn)的記憶緩存。從記憶緩存中隨機(jī)選擇經(jīng)驗(yàn)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),類(lèi)似于通常的監(jiān)督學(xué)習(xí),可以簡(jiǎn)化調(diào)試和測(cè)試算法。
DQN等值函數(shù)估計(jì)算法只能用在有限的離散動(dòng)作空間中,無(wú)法應(yīng)用在較大離散空間或是連續(xù)的動(dòng)作空間。DeepMind的Silver等[24]在2014年提出確定性策略梯度算法(Deterministic Policy Gradient,DPG),通過(guò)函數(shù)π直接計(jì)算確定的值,獲取每一步的行為:at=π(st|θπ),這個(gè)函數(shù)π即最優(yōu)行為策略。隨后在2016年提出深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG),將DNN用于DPG,其結(jié)構(gòu)如圖3所示,圖中π表示確定性策略函數(shù),Q表示神經(jīng)網(wǎng)絡(luò)生成的Q函數(shù)。
圖3 DDPG算法框架Fig.3 DDPG algorithm framework
DDPG將DQN和DPG算法結(jié)合為演員-評(píng)價(jià)者框架,其中演員模塊使用DPG算法,評(píng)價(jià)者模塊使用DQN算法。有4個(gè)網(wǎng)絡(luò),分別是演員當(dāng)前網(wǎng)絡(luò)、演員目標(biāo)網(wǎng)絡(luò)、評(píng)價(jià)者當(dāng)前網(wǎng)絡(luò)和評(píng)價(jià)者目標(biāo)網(wǎng)絡(luò)。目標(biāo)網(wǎng)絡(luò)的模型結(jié)構(gòu)和在線(xiàn)網(wǎng)絡(luò)相同,使用在線(xiàn)網(wǎng)絡(luò)一段時(shí)間之前的參數(shù);演員網(wǎng)絡(luò)對(duì)策略建模,即根據(jù)網(wǎng)絡(luò)狀態(tài)計(jì)算路由決策,并接受環(huán)境反饋;評(píng)價(jià)者網(wǎng)絡(luò)負(fù)責(zé)對(duì)價(jià)值函數(shù)建模,評(píng)估演員網(wǎng)絡(luò)的決策優(yōu)劣,并調(diào)整演員網(wǎng)絡(luò)的模型參數(shù)。
DDPG吸收了DQN算法的優(yōu)點(diǎn),在連續(xù)動(dòng)作空間的效果優(yōu)于DQN而且收斂速度更快,因此近幾年被廣泛用于智能路由優(yōu)化問(wèn)題中,通過(guò)與環(huán)境的交互做出網(wǎng)絡(luò)配置決策,提升網(wǎng)絡(luò)性能。
隨著近幾年智能算法的不斷發(fā)展,研究者們嘗試將RL算法用于路由決策及其他領(lǐng)域中,結(jié)合Q學(xué)習(xí)和DDPG等算法設(shè)計(jì)路由方案,針對(duì)不同場(chǎng)景提升網(wǎng)絡(luò)性能。
為了提升域內(nèi)路由性能,2019年Xu等[25]將基于RL的路由方案分為2類(lèi),并分別提出了改進(jìn)建議。第1類(lèi)是包級(jí)別智能路由,通過(guò)實(shí)驗(yàn)證明了該方案不適用高速網(wǎng)絡(luò)場(chǎng)景。為此,Xu等提出有監(jiān)督的Q網(wǎng)絡(luò)路由方案,每次更新時(shí)Q網(wǎng)絡(luò)允許執(zhí)行機(jī)嘗試一個(gè)動(dòng)作,并且希望多次嘗試后,執(zhí)行機(jī)再次遇到該狀態(tài)時(shí)可以做出最佳決策。該方案可將網(wǎng)絡(luò)擁塞減少約57%。不過(guò),由于動(dòng)作空間大,基于顯式路徑的路由都存在可擴(kuò)展性問(wèn)題。第2類(lèi)是基于隱式鏈路權(quán)重的路由(Link Weight-based Routing,LWR),它有助于識(shí)別擁塞鏈路,并在后續(xù)路由決策中避免此類(lèi)鏈路。采用具有代表性的DDPG作為底層RL算法進(jìn)行實(shí)驗(yàn),結(jié)果表明LWR方案效果并不理想,因?yàn)樵阪溌窓?quán)重不同時(shí),計(jì)算出的路由決策卻有可能相同,這導(dǎo)致函數(shù)可能會(huì)難以收斂。Xu等對(duì)此提出了基于離散鏈路權(quán)重的路由,該方案采用離散權(quán)重并使用每個(gè)神經(jīng)網(wǎng)絡(luò)獨(dú)立訓(xùn)練一個(gè)鏈路權(quán)重以加快學(xué)習(xí)過(guò)程,底層RL為多智能體深度確定性策略梯度,輸出具有最高概率的確定性鏈路權(quán)重。實(shí)驗(yàn)表明,該方案比最短路徑路由減少了17%的最大隊(duì)列長(zhǎng)度,比LWR收斂到最佳性能的時(shí)間快了5倍。
Valadarsky等[26]通過(guò)實(shí)驗(yàn)對(duì)比了3種有監(jiān)督的學(xué)習(xí)算法和2種RL算法后得出以下結(jié)論:使用有監(jiān)督的學(xué)習(xí)方法進(jìn)行路由優(yōu)化,如果網(wǎng)絡(luò)的流量狀態(tài)規(guī)律性不強(qiáng),這類(lèi)方法通常會(huì)失效,而RL可以獲取網(wǎng)絡(luò)歷史流量需求與路由配置之間的映射關(guān)系,可靠性更高。除此之外,算法的輸出也很重要,輸出完整的規(guī)劃路徑會(huì)導(dǎo)致參數(shù)量過(guò)大,學(xué)習(xí)過(guò)程耗時(shí)等問(wèn)題,相反,逐跳進(jìn)行路由規(guī)劃更具穩(wěn)定性,學(xué)習(xí)過(guò)程也更高效?;谝陨戏治?,設(shè)計(jì)了一種基于RL的路由優(yōu)化算法,學(xué)習(xí)歷史流量矩陣與各鏈路權(quán)重之間的映射關(guān)系,能有效地降低網(wǎng)絡(luò)的擁塞率。
為了克服最短路徑算法的缺陷,保證數(shù)據(jù)包在所需時(shí)間內(nèi)到達(dá)目的節(jié)點(diǎn),2017年Desai等[27]提出了基于置信度預(yù)測(cè)的雙Q路由方案。傳統(tǒng)的基于置信度的Q路由只更新路徑中所選節(jié)點(diǎn)的置信度值,而在提出的優(yōu)化版本中,路徑中未選擇節(jié)點(diǎn)的置信度值也會(huì)進(jìn)行更新,從而產(chǎn)生更多的動(dòng)作探索。實(shí)驗(yàn)結(jié)果顯示,無(wú)論是在高負(fù)載還是變化的網(wǎng)絡(luò)條件中,該系統(tǒng)可以達(dá)到比Q路由更好的性能,有效降低包投遞時(shí)間。該方案需要額外的內(nèi)存來(lái)存儲(chǔ)過(guò)去的經(jīng)驗(yàn),相比Q路由算法需要更高的硬件保障。
文獻(xiàn)[28]提出利用RL與聚類(lèi)機(jī)制解決認(rèn)知無(wú)線(xiàn)電網(wǎng)絡(luò)(Cognitive Radio Network,CRN)中的路由問(wèn)題。CRN中主要用戶(hù)活動(dòng)程度不同,信道可用資源呈現(xiàn)出動(dòng)態(tài)性,同時(shí)在許可信道上廣播路由控制信息會(huì)導(dǎo)致高開(kāi)銷(xiāo)且會(huì)限制網(wǎng)絡(luò)可擴(kuò)展性?;诩旱穆酚刹呗钥蓽p小路由消息洪泛帶來(lái)的開(kāi)銷(xiāo),且RL無(wú)需考慮影響網(wǎng)絡(luò)性能的全部因素,二者相結(jié)合可以很好地解決上述問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該算法具有更低的路由發(fā)現(xiàn)頻率和更高的路由穩(wěn)定性,提高了網(wǎng)絡(luò)的可拓展性和穩(wěn)定性。除此之外,文獻(xiàn)[29-33]也對(duì)RL在CRN路由規(guī)劃的應(yīng)用進(jìn)行了廣泛研究,實(shí)驗(yàn)證明RL可減少路由中斷次數(shù)并提高網(wǎng)絡(luò)吞吐量和數(shù)據(jù)包交付率,但目前相關(guān)研究測(cè)試環(huán)境通常較為單一,大規(guī)模復(fù)雜網(wǎng)絡(luò)下算法收斂也可能會(huì)帶來(lái)較大影響。
2017年Stampa等[34]第一次嘗試將DRL用于路由優(yōu)化,設(shè)計(jì)了一種全自動(dòng)的DRL執(zhí)行機(jī),根據(jù)當(dāng)前網(wǎng)絡(luò)的流量狀態(tài)自適應(yīng)地進(jìn)行特定配置,達(dá)到最小化網(wǎng)絡(luò)時(shí)延的目的。該算法使用2個(gè)DNN迭代,學(xué)習(xí)狀態(tài)、動(dòng)作、獎(jiǎng)賞之間的關(guān)系。與傳統(tǒng)的啟發(fā)式算法和線(xiàn)性/凸優(yōu)化技術(shù)相比,該算法有以下優(yōu)點(diǎn):① 一旦訓(xùn)練完成,DRL能夠僅通過(guò)一個(gè)步驟提供近似最優(yōu)的路由配置。② 不需要建模,自動(dòng)通過(guò)經(jīng)驗(yàn)學(xué)習(xí),能理解非線(xiàn)性、復(fù)雜、多維度的系統(tǒng)。③ DRL執(zhí)行機(jī)將系統(tǒng)假定為自動(dòng)化黑盒,可以使用不同的獎(jiǎng)賞函數(shù)實(shí)現(xiàn)不同的目標(biāo),不用再設(shè)計(jì)新的算法。隨后,越來(lái)越多的研究嘗試使用DRL來(lái)解決不同場(chǎng)景下的路由問(wèn)題[35]。然而,將系統(tǒng)看作自動(dòng)化黑盒也引入了難以調(diào)試和運(yùn)維等一系列缺點(diǎn)。
2021年Liu等[36]提出了基于深度強(qiáng)化學(xué)習(xí)的在線(xiàn)路由(Deep Reinforcement Learning-based Online Routing,DRL-OR),算法以自適應(yīng)方法將延遲和丟包等性能指標(biāo)標(biāo)準(zhǔn)化,并結(jié)合標(biāo)準(zhǔn)化的指標(biāo)獲得不同服務(wù)類(lèi)型的效用函數(shù)?;谛в煤瘮?shù),將路由生成過(guò)程建模為多智能體馬爾可夫決策過(guò)程,設(shè)計(jì)了一種新穎的DNN結(jié)構(gòu),該結(jié)構(gòu)具有公共特征提取層以及針對(duì)不同服務(wù)類(lèi)型和目標(biāo)節(jié)點(diǎn)的專(zhuān)用輸出層。方案采用近端策略?xún)?yōu)化(Proximal Policy Optimization,PPO)算法,以逐跳方式為每個(gè)流計(jì)算路由。提出的DNN結(jié)構(gòu)可以輕松擴(kuò)展以適應(yīng)新的流類(lèi)型和網(wǎng)絡(luò)更新。此外,為了避免DRL隨機(jī)探索導(dǎo)致的不安全路由(例如路由循環(huán)),Liu等還提出使用離線(xiàn)預(yù)訓(xùn)練,將安全學(xué)習(xí)技術(shù)用于在線(xiàn)訓(xùn)練過(guò)程。實(shí)驗(yàn)結(jié)果表明,采用安全學(xué)習(xí)技術(shù)的DRL-OR可以滿(mǎn)足時(shí)延、吞吐量和丟包率要求,并且表現(xiàn)出很好的適應(yīng)性和可靠性。然而,當(dāng)大型網(wǎng)絡(luò)拓?fù)渲械臓顟B(tài)輸入空間增加時(shí),DRL-OR需要更多時(shí)間來(lái)收斂,并且學(xué)習(xí)到的策略不夠理想。
文獻(xiàn)[37]提出了一種基于DQN的新型路由策略,在基于SDN的數(shù)據(jù)中心網(wǎng)絡(luò)中自主生成最佳路由。為滿(mǎn)足網(wǎng)絡(luò)中老鼠流和大象流的不同需求,分別為其訓(xùn)練DQN以智能地做出路由決策。該算法將網(wǎng)絡(luò)狀態(tài)視為圖像,將不同的網(wǎng)絡(luò)特征視為不同的像素通道。狀態(tài)空間由流表利用率及端口速率組成,動(dòng)作空間為某業(yè)務(wù)的路徑選擇結(jié)果。對(duì)于大象流,目標(biāo)是最小化丟包率并最大化吞吐量;對(duì)于老鼠流,目標(biāo)是最小化丟包率和延遲。該文獻(xiàn)在模擬數(shù)據(jù)中心網(wǎng)絡(luò)中成功驗(yàn)證了所提機(jī)制的有效性。仿真結(jié)果表明,所提出的路由方案不僅可以智能地提供優(yōu)化的路由策略,還可以提高網(wǎng)絡(luò)性能。
與上文類(lèi)似,針對(duì)軟件定義數(shù)據(jù)中心網(wǎng)絡(luò)中不同類(lèi)型的流性能需求各異的現(xiàn)狀,2020年Liu等[38]提出基于深度強(qiáng)化學(xué)習(xí)的路由(Deep Reinforcement Learning-based Routing,DRL-R)算法,與傳統(tǒng)路由算法相比有效降低流完成時(shí)間,提高吞吐量,達(dá)到更好的負(fù)載均衡和更高的魯棒性。DRL-R使用DQN和DDPG進(jìn)行路徑規(guī)劃,使用圖像表示網(wǎng)絡(luò)狀態(tài),包括資源分配狀態(tài)圖和資源需求狀態(tài)圖,如圖4所示,圖中一個(gè)像素點(diǎn)表示1單位的網(wǎng)絡(luò)資源。
圖4 網(wǎng)絡(luò)狀態(tài)Fig.4 Network states
該算法創(chuàng)新地將帶寬與緩存進(jìn)行資源重組,分別考慮老鼠流、大象流的完成時(shí)間,在數(shù)據(jù)中心網(wǎng)絡(luò)中取得了良好效果,但僅展示了胖樹(shù)拓?fù)浣Y(jié)構(gòu)下的有效性,適用范圍有限。
除了單獨(dú)使用RL方法,近年來(lái)有學(xué)者嘗試將RL與其他智能算法相結(jié)合,使得算法另外具備神經(jīng)網(wǎng)絡(luò)提供的預(yù)測(cè)等能力,從不同角度提升網(wǎng)絡(luò)性能。2021年Bouzidi等[39]提出基于路由優(yōu)化的深度Q網(wǎng)絡(luò)和流量預(yù)測(cè)(Deep Q-Network and Traffic Prediction Based Routing Optimization,DTPRO)算法,對(duì)SDN進(jìn)行路由優(yōu)化,達(dá)到負(fù)載均衡、最小化端到端時(shí)延和丟包率的效果。在知識(shí)平面部署DQN和LSTM,其中DQN負(fù)責(zé)計(jì)算鏈路權(quán)重,LSTM負(fù)責(zé)學(xué)習(xí)單位時(shí)間內(nèi)的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù),預(yù)測(cè)網(wǎng)絡(luò)端到端時(shí)延,根據(jù)時(shí)延信息判斷是否會(huì)發(fā)生擁塞。如果有擁塞發(fā)生,則對(duì)擁塞路徑中的最大流進(jìn)行重路由。最后,將路由問(wèn)題建模為線(xiàn)性規(guī)劃,約束條件包括時(shí)延約束、鏈路容量約束、路徑容量約束、流優(yōu)先級(jí)約束和需求匹配約束等,使用啟發(fā)式算法對(duì)這個(gè)NP-Hard問(wèn)題進(jìn)行求解,算法整體框架如圖5所示。
圖5 DTPRO算法結(jié)構(gòu)Fig.5 Architecture of DTPRO
實(shí)驗(yàn)結(jié)果表明,LSTM與傳統(tǒng)的預(yù)測(cè)方法相比,準(zhǔn)確率有明顯提高,將DQN與流量預(yù)測(cè)結(jié)合后,DTPRO算法能有效降低網(wǎng)絡(luò)時(shí)延、丟包率和鏈路利用率。
2018年Yu等[40]將DDPG算法用于SDN路由優(yōu)化,提出了DDPG路由優(yōu)化算法(DDPG Routing Optimization Mechanism,DROM),每一個(gè)演員模塊包含2個(gè)神經(jīng)網(wǎng)絡(luò):一個(gè)在線(xiàn)網(wǎng)絡(luò)用于訓(xùn)練和學(xué)習(xí);另一個(gè)目標(biāo)網(wǎng)絡(luò)用于屏蔽訓(xùn)練數(shù)據(jù)間的關(guān)聯(lián)性。通過(guò)改變鏈路權(quán)重,執(zhí)行機(jī)可以相應(yīng)更改數(shù)據(jù)流的路徑。訓(xùn)練目標(biāo)是根據(jù)輸入的狀態(tài)s找到最優(yōu)動(dòng)作a最大化獎(jiǎng)賞r。DROM根據(jù)網(wǎng)絡(luò)狀態(tài)s,計(jì)算出鏈路權(quán)重集合[W1,W2,…,Wn],然后根據(jù)更新后的權(quán)重計(jì)算流路徑,路徑更新后,通過(guò)下一次的網(wǎng)絡(luò)分析測(cè)量獲取獎(jiǎng)賞r和新的網(wǎng)絡(luò)狀態(tài),網(wǎng)絡(luò)性能不斷迭代優(yōu)化。DROM算法能自動(dòng)優(yōu)化性能參數(shù),實(shí)現(xiàn)連續(xù)時(shí)間實(shí)時(shí)控制,有效減輕運(yùn)維壓力。該算法未來(lái)可以結(jié)合QoS感知的流量分類(lèi)和網(wǎng)絡(luò)測(cè)量,自適應(yīng)生成QoS感知的可靠高效端到端傳輸策略,進(jìn)一步提升路由決策的合理性,提升網(wǎng)絡(luò)性能。
除上文所述,RL也被廣泛用于機(jī)會(huì)物聯(lián)網(wǎng)(Opportunistic IoT)[41]及Ad Hoc[42-43]等領(lǐng)域的路由規(guī)劃問(wèn)題中,通過(guò)策略迭代最大限度地提升消息傳遞的可能性,設(shè)計(jì)狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),從節(jié)點(diǎn)移動(dòng)概率、功耗、位置和速度等因素綜合考慮,提高業(yè)務(wù)送達(dá)率,降低控制開(kāi)銷(xiāo),并已經(jīng)取得了不錯(cuò)的結(jié)果。
現(xiàn)有的基于DRL的智能路由方法已經(jīng)取得了一定的成果,相比于傳統(tǒng)的路由算法,DRL通常只需要一次運(yùn)算就能得出近似最優(yōu)的網(wǎng)絡(luò)配置方案,并且通過(guò)實(shí)際網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行學(xué)習(xí),不斷與環(huán)境交互,不需要對(duì)環(huán)境做任何簡(jiǎn)化,根據(jù)實(shí)際信息進(jìn)行運(yùn)算,能適應(yīng)非線(xiàn)性的復(fù)雜系統(tǒng)。但是,DRL模型的收斂性與輸出維度強(qiáng)相關(guān),大多數(shù)算法為了規(guī)避這個(gè)問(wèn)題,都通過(guò)間接的方式計(jì)算路由,例如通過(guò)深度強(qiáng)化學(xué)習(xí)算法計(jì)算鏈路權(quán)重,再通過(guò)其他傳統(tǒng)算法做出路由決策,并沒(méi)有做到真正的智能選路。近年來(lái),智能路由的研究都致力于特定場(chǎng)景下的網(wǎng)絡(luò)性能提升,在實(shí)際應(yīng)用場(chǎng)景中,由于網(wǎng)絡(luò)規(guī)模大、環(huán)境多變等因素,現(xiàn)有方法的魯棒性和可靠性都得不到滿(mǎn)足,這類(lèi)算法用于日常網(wǎng)絡(luò)管控還遠(yuǎn)遠(yuǎn)達(dá)不到要求。
目前,探尋高效、自主的智能路由算法是通信網(wǎng)絡(luò)領(lǐng)域的熱門(mén)研究方向之一,本文對(duì)近期學(xué)術(shù)界研究的各類(lèi)路由算法進(jìn)行了全面的調(diào)研。人工智能技術(shù)的不斷興起使大數(shù)據(jù)處理和自適應(yīng)策略調(diào)整成為可能,路由策略研究從傳統(tǒng)算法不斷演進(jìn),逐步走向自主化、智能化。
從傳統(tǒng)動(dòng)態(tài)路由算法、基于監(jiān)督學(xué)習(xí)的路由算法和基于RL的路由算法等3方面對(duì)當(dāng)前學(xué)術(shù)界最新研究進(jìn)行分析,其中,傳統(tǒng)基于最優(yōu)化方法及啟發(fā)式方法的動(dòng)態(tài)路由策略結(jié)構(gòu)簡(jiǎn)單、技術(shù)成熟度高、穩(wěn)定性好,已有較為廣泛的應(yīng)用,但簡(jiǎn)單的結(jié)構(gòu)也導(dǎo)致其大數(shù)據(jù)處理能力與邏輯判斷能力較為單一、僵化,靈活性遠(yuǎn)遠(yuǎn)不足以支撐現(xiàn)有網(wǎng)絡(luò)。
隨著機(jī)器學(xué)習(xí)算法的發(fā)展,路由決策方案也在不斷地演進(jìn),基于監(jiān)督學(xué)習(xí)的智能算法能在一定程度上改善上述問(wèn)題,這類(lèi)算法通過(guò)對(duì)大量標(biāo)簽數(shù)據(jù)的處理,有效提取當(dāng)前網(wǎng)絡(luò)態(tài)勢(shì)及業(yè)務(wù)需求信息,可較為準(zhǔn)確地計(jì)算出合理的路由方案,在QoS保障等方面體現(xiàn)出較大的優(yōu)勢(shì)。然而,基于監(jiān)督學(xué)習(xí)的路由算法需要大量有標(biāo)簽的網(wǎng)絡(luò)數(shù)據(jù),應(yīng)用場(chǎng)景十分受限,在網(wǎng)絡(luò)變化或者路由策略改動(dòng)時(shí),往往需要重新訓(xùn)練合適的神經(jīng)網(wǎng)絡(luò)模型。
深度強(qiáng)化學(xué)習(xí)憑借其無(wú)需大量標(biāo)注樣本、實(shí)時(shí)與環(huán)境交互和自主靈活調(diào)整等優(yōu)勢(shì),被廣泛用于智能路由領(lǐng)域,同時(shí)深度強(qiáng)化學(xué)習(xí)自身也在不斷演進(jìn),從深度Q學(xué)習(xí)到確定性策略梯度,其決策能力逐步提升,成為智能路由方向的研究重點(diǎn)。這類(lèi)算法可適應(yīng)非線(xiàn)性的復(fù)雜系統(tǒng),但仍面臨狀態(tài)空間及動(dòng)作空間維度大、獎(jiǎng)勵(lì)函數(shù)合理性無(wú)法證明等問(wèn)題,仍需要進(jìn)一步的研究。
當(dāng)前,學(xué)術(shù)界對(duì)路由算法的研究主要集中于理論方案設(shè)計(jì)與仿真驗(yàn)證階段,對(duì)實(shí)際網(wǎng)絡(luò)部署中面臨的問(wèn)題考慮不足,穩(wěn)定性和可靠性都難以達(dá)到實(shí)際應(yīng)用的要求,并且特定數(shù)據(jù)集訓(xùn)練得到的模型很難移植。未來(lái)應(yīng)結(jié)合實(shí)際網(wǎng)絡(luò)環(huán)境特征,通過(guò)設(shè)計(jì)新型的路由決策方案,提高路由決策模型泛化性和靈活性,不斷優(yōu)化網(wǎng)絡(luò)性能,保障網(wǎng)絡(luò)的QoS,為不同類(lèi)型的網(wǎng)絡(luò)和不同用戶(hù)提供更好的使用體驗(yàn),以較低成本實(shí)現(xiàn)網(wǎng)絡(luò)智能控制。