基于機(jī)器學(xué)習(xí)的智能路由算法綜述

2020-04-21 07:56:46劉辰屹徐明偉

計算機(jī)研究與發(fā)展 2020年4期

劉辰屹徐明偉耿男張翔

(清華大學(xué)計算機(jī)科學(xué)與技術(shù)系北京 100084)

近年來隨著互聯(lián)網(wǎng)的高速發(fā)展，包括工業(yè)互聯(lián)網(wǎng)、4K+視頻及全息通信、網(wǎng)絡(luò)游戲、遠(yuǎn)程云服務(wù)在內(nèi)的很多新興應(yīng)用大量涌現(xiàn).這些新興的網(wǎng)絡(luò)應(yīng)用帶來了高度差異化的服務(wù)質(zhì)量需求.然而以往單純通過對設(shè)備提速擴(kuò)容來提升網(wǎng)絡(luò)服務(wù)質(zhì)量的方式已經(jīng)逐漸觸及天花板，進(jìn)一步提升性能需要很高的成本，與此同時，研究表明：現(xiàn)有網(wǎng)絡(luò)仍然存在巨大的優(yōu)化空間[1].因此，對現(xiàn)有網(wǎng)絡(luò)資源進(jìn)行更好地優(yōu)化利用成為提升用戶服務(wù)體驗的重要途徑.

Fig. 1 A suboptimal routing decision made by OSPF圖1 OSPF所生成的非最優(yōu)路由決策示意圖

在傳統(tǒng)的計算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中，網(wǎng)絡(luò)層通常采用盡力而為的數(shù)據(jù)包分組轉(zhuǎn)發(fā)模式，路由算法所關(guān)注的重點是數(shù)據(jù)包的可達(dá)性、算法的性能和可擴(kuò)展性.近幾年隨著計算機(jī)網(wǎng)絡(luò)的飛速發(fā)展，網(wǎng)絡(luò)規(guī)模變得越來越大的同時網(wǎng)絡(luò)上層的應(yīng)用服務(wù)類型數(shù)量也在飛速增長.日益增長的服務(wù)類型數(shù)量帶來了多樣化的服務(wù)性能優(yōu)化目標(biāo)，這些優(yōu)化目標(biāo)涉及時延、帶寬、吞吐、丟包率和網(wǎng)絡(luò)穩(wěn)定性等.盡力而為的傳統(tǒng)路由算法使得現(xiàn)有計算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)對于這些性能評價指標(biāo)進(jìn)行優(yōu)化時存在一定的局限性.圖1給出了傳統(tǒng)路由算法局限性的示例，在本示例中網(wǎng)絡(luò)流負(fù)載需求500 Mbps的帶寬，傳統(tǒng)基于最短路徑的路由算法將所有流量導(dǎo)入瓶頸鏈路中，所選擇的路徑可用帶寬(100 Mbps)遠(yuǎn)小于服務(wù)需求帶寬.這不僅會大幅降低用戶體驗，同時還可能帶來嚴(yán)重的網(wǎng)絡(luò)擁塞問題并造成網(wǎng)絡(luò)資源的巨大浪費(fèi).對上述流量進(jìn)行恰當(dāng)?shù)穆酚煞至髂軌蚝芎玫乇苊獯耸纠械膯栴}，然而由于真實網(wǎng)絡(luò)環(huán)境中路徑可用帶寬隨時間動態(tài)變化，傳統(tǒng)路由算法很難實現(xiàn)精確感知當(dāng)前網(wǎng)絡(luò)狀態(tài)并據(jù)此進(jìn)行恰當(dāng)?shù)膭討B(tài)路由調(diào)度.

此外，數(shù)據(jù)中心網(wǎng)絡(luò)等新興網(wǎng)絡(luò)應(yīng)用場景的出現(xiàn)為路由優(yōu)化與流量工程領(lǐng)域提出了新的挑戰(zhàn).相比于傳統(tǒng)網(wǎng)絡(luò)，數(shù)據(jù)中心網(wǎng)絡(luò)帶寬更大，同時存在的大流、長流更多，對于流量調(diào)度的需求與難度也更高.雖然現(xiàn)在已經(jīng)有一些路由與流量工程的方法嘗試解決各種數(shù)據(jù)中心場景下的網(wǎng)絡(luò)優(yōu)化問題，然而在數(shù)據(jù)中心網(wǎng)絡(luò)場景中，現(xiàn)有路由與流量調(diào)度優(yōu)化方法仍然很難滿足高效利用鏈路以及負(fù)載均衡的需求[2].

為了滿足復(fù)雜的網(wǎng)絡(luò)應(yīng)用場景以及多樣化的服務(wù)質(zhì)量需求，很多基于數(shù)學(xué)模型的網(wǎng)絡(luò)層優(yōu)化方案被提出[2-7].這些路由優(yōu)化或流量工程方案在建模時通常會針對應(yīng)用場景進(jìn)行一些假設(shè)來簡化問題，以使得優(yōu)化問題能夠利用現(xiàn)有數(shù)學(xué)方法高效求解.然而真實網(wǎng)絡(luò)應(yīng)用場景往往難以完全符合這些理想化假設(shè)，這使得基于數(shù)學(xué)模型的路由優(yōu)化算法無法保證其在真實場景下部署的效果.實際上，即使是在經(jīng)過假設(shè)簡化過的場景下，很多路由優(yōu)化問題的求解仍是十分復(fù)雜的，目前尚未存在一個通用的模型能夠同時求解不同類型的路由優(yōu)化問題[3].由于傳統(tǒng)的路由優(yōu)化任務(wù)需要針對每一種特定的場景以及特定的優(yōu)化目標(biāo)單獨建模，將這些方法部署在真實網(wǎng)絡(luò)環(huán)境下可能會對網(wǎng)絡(luò)設(shè)施的可擴(kuò)展性帶來影響，因此傳統(tǒng)基于數(shù)學(xué)模型的路由優(yōu)化方案目前仍難以大規(guī)模部署在實際場景中.

近幾年，基于深度學(xué)習(xí)的人工智能技術(shù)飛速發(fā)展并被廣泛應(yīng)用于自然語言處理[8]、圖像識別[9]、游戲策略計算[10]等領(lǐng)域中.對深度學(xué)習(xí)模型的研究和CPU，GPU等計算機(jī)硬件的發(fā)展使得人工智能模型能夠?qū)W習(xí)到的策略越來越復(fù)雜，訓(xùn)練和執(zhí)行效率越來越高.設(shè)備算力以及模型表達(dá)能力的提升使得的人工智能模型具備了強(qiáng)大的學(xué)習(xí)能力和良好的泛化性，利用人工智能模型去解決路由優(yōu)化問題、為網(wǎng)絡(luò)層賦予智能正逐漸變得可能.相比于傳統(tǒng)模型驅(qū)動的路由優(yōu)化算法，數(shù)據(jù)驅(qū)動的智能路由優(yōu)化算法具有3方面優(yōu)勢：1)準(zhǔn)確性.利用真實數(shù)據(jù)對機(jī)器學(xué)習(xí)算法模型進(jìn)行訓(xùn)練，不需要對網(wǎng)絡(luò)環(huán)境進(jìn)行復(fù)雜的假設(shè)和建模.2)高效性.多項式時間內(nèi)可根據(jù)輸入數(shù)據(jù)快速推理得到優(yōu)化后的路由決策.3)通用性.相同的機(jī)器學(xué)習(xí)模型根據(jù)訓(xùn)練數(shù)據(jù)不同可以用來求解不同網(wǎng)絡(luò)優(yōu)化問題.上述3個優(yōu)勢使得數(shù)據(jù)驅(qū)動的智能路由方法相比傳統(tǒng)路由方法能夠更好地適應(yīng)不同網(wǎng)絡(luò)應(yīng)用場景和路由優(yōu)化目標(biāo)，并使得智能路由方法在部署的過程中存在較好的可擴(kuò)展性.

除了人工智能技術(shù)的飛速發(fā)展，近些年興起的軟件定義網(wǎng)絡(luò)(software defined networking, SDN)[11]與可編程路由設(shè)備[12-13]的相關(guān)研究同樣為智能路由算法提供了部署的可能.這些工作使得路由層可以完成更多、更復(fù)雜的任務(wù).SDN架構(gòu)的出現(xiàn)使得基于機(jī)器學(xué)習(xí)的智能路由算法能夠作為一個應(yīng)用運(yùn)行在具有強(qiáng)大運(yùn)算能力的SDN服務(wù)器中并且有效地對路由和流量進(jìn)行控制[14].不過現(xiàn)有基于機(jī)器學(xué)習(xí)的智能路由方案研究仍然處于比較初步的階段，研究主要針對智能路由算法的正確性以及收斂性，智能路由算法在真實場景下的訓(xùn)練與部署方案仍不夠完善.此外，當(dāng)前路由設(shè)備的計算能力對于智能路由算法的大規(guī)模部署而言仍然遠(yuǎn)遠(yuǎn)不夠[15].

本文從方法與應(yīng)用場景等角度介紹了現(xiàn)有基于機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動智能路由算法的相關(guān)工作并分析了不同智能路由方法的優(yōu)劣.之后本文進(jìn)一步對現(xiàn)有智能路由算法的訓(xùn)練與部署方法進(jìn)行了分析總結(jié)并提出了2種適用于不同應(yīng)用場景的智能路由算法訓(xùn)練部署框架.最后本文分析了基于機(jī)器學(xué)習(xí)的智能路由算法未來發(fā)展中所面臨的機(jī)遇與挑戰(zhàn)并給出了智能路由算法未來的研究方向.

1 數(shù)據(jù)驅(qū)動的智能路由算法概覽

早在1994年Boyan等人[16]就提出了基于Q-Learning的、應(yīng)用在通信網(wǎng)絡(luò)中的智能路由算法Q-routing.實驗表明：相比于傳統(tǒng)的最短路徑路由，Q-routing方案能夠有效避免網(wǎng)絡(luò)擁塞并降低數(shù)據(jù)包傳輸時延.然而雖然后續(xù)有很多相關(guān)工作對該方法進(jìn)行了完善和優(yōu)化[17-18]，受限于路由器的計算能力以及網(wǎng)絡(luò)層結(jié)構(gòu)設(shè)計，智能路由算法難以被真正部署到真實網(wǎng)絡(luò)場景中.

2010年Hu等人[19]提出了QELAR方法，將Q-Learning的思想應(yīng)用于無線傳感器網(wǎng)絡(luò)(wire-less sensor network, WSN)，用來優(yōu)化無線傳感器網(wǎng)絡(luò)的能耗和壽命.相比于傳統(tǒng)網(wǎng)絡(luò)，無線傳感器網(wǎng)絡(luò)所處環(huán)境復(fù)雜多變，路由服務(wù)質(zhì)量需求多樣，傳統(tǒng)路由算法在該應(yīng)用場景下往往難以取得令人滿意的效果.此外WSN與傳統(tǒng)網(wǎng)絡(luò)相比結(jié)構(gòu)較為獨立，因此基于Q-Learning的智能路由方法的部署難度更小.后續(xù)Basagni等人[20-21]進(jìn)一步將Q-Learning方法用于無線傳感器網(wǎng)絡(luò)的可靠傳輸和加速轉(zhuǎn)發(fā)上，取得了良好的效果.

近幾年，隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展，深度學(xué)習(xí)正越來越多地被應(yīng)用于網(wǎng)絡(luò)領(lǐng)域，并已經(jīng)在包括傳輸層擁塞控制[22]、網(wǎng)絡(luò)安全檢測[23]、視頻流傳輸優(yōu)化[24]等領(lǐng)域取得了顯著進(jìn)展.利用深度學(xué)習(xí)解決路由優(yōu)化問題也得到了更多的關(guān)注，一些基于深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的路由算法被提出[25].這些智能路由算法既有利用深度學(xué)習(xí)對傳統(tǒng)路由算法進(jìn)行改進(jìn)[26]，也有針對數(shù)據(jù)中心網(wǎng)絡(luò)流量調(diào)度、骨干網(wǎng)流量工程[14]等近些年新出現(xiàn)的網(wǎng)絡(luò)應(yīng)用場景進(jìn)行全局性能優(yōu)化.

隨著越來越多的智能路由算法的提出，如何將數(shù)據(jù)驅(qū)動的智能路由算法部署在真實環(huán)境中同樣成為了一個備受關(guān)注的問題.Mao等人[15]的工作對基于深度學(xué)習(xí)的智能路由算法在真實場景下部署的前景進(jìn)行了探討并提出了一種利用配備了GPU的軟件定義路由器(SDR)來部署基于深度學(xué)習(xí)的智能路由算法的框架設(shè)想.然而根據(jù)我們的研究，現(xiàn)有研究工作仍然沒有給出一套切實可行的將智能路由算法部署在現(xiàn)有計算機(jī)網(wǎng)絡(luò)體系架構(gòu)中的方案.

經(jīng)過調(diào)研，近年來數(shù)據(jù)驅(qū)動的智能路由算法依照其所應(yīng)用的機(jī)器學(xué)習(xí)方法類型主要分為基于監(jiān)督學(xué)習(xí)的智能路由算法以及基于強(qiáng)化學(xué)習(xí)的智能路由算法.

2 基于監(jiān)督學(xué)習(xí)的智能路由算法

2.1 應(yīng)用于智能路由中的監(jiān)督學(xué)習(xí)方法概述

監(jiān)督學(xué)習(xí)是指利用已知的輸入輸出樣本訓(xùn)練模型，使得模型能夠準(zhǔn)確地完成從輸入到輸出映射的一類機(jī)器學(xué)習(xí)任務(wù)[27].近年來所提出的基于監(jiān)督學(xué)習(xí)的智能路由方法主要基于深度學(xué)習(xí)模型.相比于傳統(tǒng)監(jiān)督學(xué)習(xí)方法，深度學(xué)習(xí)模型能夠通過帶標(biāo)簽的數(shù)據(jù)學(xué)習(xí)得到更加復(fù)雜的策略，為實現(xiàn)應(yīng)用于復(fù)雜網(wǎng)絡(luò)環(huán)境下的智能路由方法提供了可能.在本節(jié)中我們將對現(xiàn)有智能路由方法中常用的深度學(xué)習(xí)方法進(jìn)行簡單介紹.

最常見的深度學(xué)習(xí)模型是深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)，其模型設(shè)計模擬了生物神經(jīng)元的工作原理，工作過程包括前饋過程和反饋過程.圖2中給出了其模型結(jié)構(gòu)與工作過程.在DNN的前饋過程中，模型將輸入向量利用線性加權(quán)與激活函數(shù)相結(jié)合的方式逐層向前傳遞，最終實現(xiàn)輸入到輸出的映射.在DNN的反饋過程中，模型將實際輸出結(jié)果與期望結(jié)果的偏差逐層反向傳遞完成模型參數(shù)的調(diào)整過程，達(dá)到自動學(xué)習(xí)的效果.作為對DNN模型的改進(jìn)，Hinton等人[29]于2006年提出了深度置信網(wǎng)絡(luò)(deep belief network, DBN).DBN模型將傳統(tǒng)DNN模型與受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)相結(jié)合，訓(xùn)練過程可以被視作利用RBM對DBN模型的參數(shù)進(jìn)行初始化和利用梯度反向傳遞過程對DBN模型參數(shù)根據(jù)任務(wù)進(jìn)行微調(diào)2部分.作為一個基礎(chǔ)深度學(xué)習(xí)模型，DBN模型可以被用于包括路由優(yōu)化在內(nèi)的多種任務(wù)中.

Fig. 2 Feedforward and backpropagation of deep neural networks[28]圖2 深度神經(jīng)網(wǎng)絡(luò)的前饋與反饋原理示意圖[28]

Fig. 3 Recurrent neural network (RNN) and unfolding[28]圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)及其模型展開示意圖[28]

在智能路由方案中很多時候需要處理維度不定的序列化信息，例如路徑信息提取[30]，基于過往流量信息預(yù)測下一時刻流量[31].在這些任務(wù)中僅僅通過DNN模型就很難達(dá)到期望的效果，這時往往需要用到循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN).RNN能夠很好地處理不定長度的序列化輸入[28]，對于網(wǎng)絡(luò)流量信息的時序性、路徑特征的有序性具有良好的保證.圖3中給出了RNN網(wǎng)絡(luò)的模型結(jié)構(gòu).作為RNN模型的改進(jìn)，長短期記憶單元(long short-term memory, LSTM)[32]以及門控循環(huán)單元(gated recurrent unit, GRU)[33]在現(xiàn)有工作中具有更好的效果并被廣泛使用.

在智能路由方案中，當(dāng)前網(wǎng)絡(luò)的局部或全局拓?fù)湫畔⑹峭瓿芍悄苈酚蓻Q策的重要依據(jù)，然而由于網(wǎng)絡(luò)拓?fù)涞膭討B(tài)變化性，傳統(tǒng)深度學(xué)習(xí)模型往往難以很好地處理這部分信息.圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)是近年來被提出的，被認(rèn)為能夠有效處理拓?fù)湫畔⑻崛栴}的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[34].GNN模型將網(wǎng)絡(luò)節(jié)點與邊的特性進(jìn)行向量化表示，并進(jìn)行若干輪迭代.每一輪迭代過程中，這些節(jié)點和邊信息的向量化表示會根據(jù)拓?fù)湟蕾囮P(guān)系利用基于深度學(xué)習(xí)模型的更新函數(shù)進(jìn)行更新.最終這些節(jié)點與邊的向量化表示將收斂到確定值，代表著GNN模型已經(jīng)將拓?fù)湫畔⑥D(zhuǎn)化為了可被深度學(xué)習(xí)模型利用的向量化表示信息.研究表明，GNN模型具有良好的可擴(kuò)展性與泛化性，并已經(jīng)被廣泛應(yīng)用于網(wǎng)絡(luò)拓?fù)湫畔⑻崛∪蝿?wù)中[35].

2.2 基于深度學(xué)習(xí)的智能路由算法

深度學(xué)習(xí)在路由優(yōu)化問題中最直接的應(yīng)用就是利用深度學(xué)習(xí)模型去代替原本基于數(shù)學(xué)模型的路由求解算法.一個普遍的路由求解模型如圖4所示，即將網(wǎng)絡(luò)拓?fù)湟约熬W(wǎng)絡(luò)狀態(tài)信息作為輸入，深度學(xué)習(xí)模型根據(jù)輸入信息做出符合當(dāng)前網(wǎng)絡(luò)環(huán)境狀態(tài)的恰當(dāng)路由決策.

Fig. 4 Scheme of deep learning based routing model圖4 基于深度學(xué)習(xí)的智能路由算法框架

Mao等人[15]在2017年提出了一種基于深度置信網(wǎng)絡(luò)(DBN)的路由決策方案.圖5給出了該方案的整體模型示意圖，Mao等人的智能路由方案應(yīng)用場景為骨干網(wǎng)絡(luò)，該方案將路由器分為域內(nèi)路由器與邊界路由器.數(shù)據(jù)包在經(jīng)由邊界路由器進(jìn)入主干網(wǎng)時部署于邊界路由器上的DBN模型會根據(jù)當(dāng)前網(wǎng)絡(luò)各節(jié)點流量狀態(tài)為每個數(shù)據(jù)包計算其在主干網(wǎng)內(nèi)的轉(zhuǎn)發(fā)路徑，其后數(shù)據(jù)包經(jīng)由域內(nèi)路由器轉(zhuǎn)發(fā)到目的邊界路由器并最終離開改主干網(wǎng).在上述模型中，域間路由器只負(fù)責(zé)路由轉(zhuǎn)發(fā)和網(wǎng)絡(luò)狀態(tài)信息收集，從而避免了傳統(tǒng)分布式路由算法中頻繁的網(wǎng)絡(luò)拓?fù)湫畔⒔粨Q.該方案的路由決策模型為每個路由節(jié)點到每個目的邊界路由器路單獨訓(xùn)練一個DBN模型用來根據(jù)網(wǎng)絡(luò)狀態(tài)信息輸出恰當(dāng)?shù)南乱惶?jié)點，路由路徑計算過程采用逐跳的方式依次通過對應(yīng)的DBN模型生成.Mao等人的工作表明基于深度學(xué)習(xí)模型的路由策略能夠達(dá)到95%準(zhǔn)確率，與此同時，深度學(xué)習(xí)模型所具有的基于部分網(wǎng)絡(luò)狀態(tài)特征進(jìn)行路由決策的特點也使得基于深度學(xué)習(xí)的智能路由方法相比傳統(tǒng)路由方法具有更低的信息交換成本以及當(dāng)網(wǎng)絡(luò)環(huán)境發(fā)生變化時更快的路由收斂速度.然而，上述方案的部署不僅需要骨干網(wǎng)路由器具備極強(qiáng)的模型計算能力，同時還需要對現(xiàn)有路由協(xié)議進(jìn)行修改，因此在現(xiàn)有計算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)下部署上述方案需要極高的成本并且會嚴(yán)重影響網(wǎng)絡(luò)的可擴(kuò)展性.

Fig. 5 Considered system model of the DBN-based routing protocol[15]圖5 基于DBN的智能路由算法系統(tǒng)模型[15]

除了DBN模型，其他深度學(xué)習(xí)模型同樣被嘗試應(yīng)用于智能路由任務(wù)中.Zhuang等人[36]的工作對于應(yīng)用不同深度學(xué)習(xí)模型學(xué)習(xí)路由決策的效果進(jìn)行了對比，該工作中將逐跳智能路由決策過程形式化表示為:

n+1=F(n,dst,G),

其中，src,dst分別表示源、目的節(jié)點，n是從src到dst的路由中的第n個路由節(jié)點編號;F()是路由決策函數(shù)；G代表拓?fù)浣Y(jié)構(gòu)信息.通過實驗發(fā)現(xiàn)將基于拓?fù)浣Y(jié)構(gòu)的特征提取方式與深度學(xué)習(xí)模型相結(jié)合的方案(graph-aware deep learning, GADL)相比單純采用DBN，CNN等現(xiàn)有深度學(xué)習(xí)模型能夠有效提升模型測試準(zhǔn)確率并降低模型訓(xùn)練時間.

更進(jìn)一步地利用拓?fù)浣Y(jié)構(gòu)信息，Geyer等人[26]基于GRU和GNN設(shè)計了分布式智能路由算法.為了使得GNN模型能夠更好地表現(xiàn)路由網(wǎng)絡(luò)結(jié)構(gòu)特點并使得GNN建模的網(wǎng)絡(luò)特征信息能更方便地用于路由決策過程，該方案將路由器接口作為額外節(jié)點加入圖模型中.圖6中給出了將路由器接口作為額外節(jié)點加入后的圖模型示意圖.當(dāng)GNN完成了拓?fù)浣Y(jié)構(gòu)建模之后，每個路由器接口對應(yīng)的節(jié)點信息向量化表示hv不僅包含了自身信息，同時由于GNN的信息傳遞特性使得該節(jié)點同時會包含路由決策所需的全網(wǎng)結(jié)構(gòu)和狀態(tài)信息.利用路由接口信息hv，每個路由器能夠在本地計算出到對應(yīng)目的節(jié)點所應(yīng)該通過的路由器接口.由于GNN的模型特性，上述GNN拓?fù)浣Y(jié)構(gòu)建模的迭代過程可以通過將GNN參數(shù)更新函數(shù)部署在每個路由器上的方式分布式地完成，因此該方法天然具有良好的可擴(kuò)展性與分布式路由決策的能力.該工作的仿真實驗表明，基于GNN的分布式智能路由算法在路由收斂速度、準(zhǔn)確性、魯棒性、故障適應(yīng)性方面表現(xiàn)良好，其中對于最短路徑路由，經(jīng)過訓(xùn)練的GNN模型能夠在15輪迭代之內(nèi)達(dá)到98%的準(zhǔn)確率，而對于最大最小公平路由[37]算法能夠在15輪迭代之內(nèi)達(dá)到95%的準(zhǔn)確率.

結(jié)合圖7中的內(nèi)容能夠發(fā)現(xiàn)，現(xiàn)有基于深度學(xué)習(xí)模型的智能路由方案主要通過逐跳的方式生成路由路徑.與逐跳路由生成方式相對應(yīng)的另一種路由模式是預(yù)先計算所有可能路徑，通過深度學(xué)習(xí)模型根據(jù)網(wǎng)絡(luò)狀態(tài)選擇恰當(dāng)?shù)穆窂?這種基于路徑選擇的方式能夠避免路徑生成模型所帶來的路由環(huán)路等問題，具有更好的效果保障.然而網(wǎng)絡(luò)中的可選路徑數(shù)會隨著網(wǎng)絡(luò)規(guī)模的增大指數(shù)級增長，其巨大的輸出維度使得基于路徑選擇的深度學(xué)習(xí)模型的學(xué)習(xí)難度以及模型參數(shù)數(shù)量處于難以承受的數(shù)量級[38].此外由于網(wǎng)絡(luò)路徑特征與拓?fù)浣Y(jié)構(gòu)具有很強(qiáng)的相關(guān)性，基于路徑選擇的深度學(xué)習(xí)模型很難具有足夠的通用性和泛化性.相比于路徑選擇的方式，采用逐跳生成路徑的方式能夠顯著降低輸出維度以及模型決策難度，使得路由決策的準(zhǔn)確率明顯提升[38-39].

Fig. 6 Graph model with extra nodes for router interfaces[26]圖6 將路由器接口作為額外節(jié)點的網(wǎng)絡(luò)圖模型[26]

Learning ModeTraining ModeControlling ModeDeployment ModeRouting PolicyML AlgorithmReferenceSupervisedLearningOfflinePacket-controlledFlow-controlledDecentralizedCentralizedCentralizedPath GenerationDBNRef[15,25,39]Path GenerationGNN[26](A)Congestion PredictionDNNRef[40](A)Delay and Jitter PredictionGNNRef[30]Path GenerationGADLRef[36]Reinforcement LearningOnlineOfflinePacket-controlledDecentralizedPath GenerationEpoch-controlledCentralizedSetting Splitting RatioEpoch-controlledCentralizedSetting Link WeightsQ-LearningRef[16-21]DDPGRef[14]TRPORef[31]MADDPGRef[38]

“(A)” denotes that the machine learning algorithm only acts as an auxiliary part of the routing modelFig. 7 Summary of machine learning based routing model圖7 基于機(jī)器學(xué)習(xí)的路由方法概述

現(xiàn)有工作表明，基于深度學(xué)習(xí)的智能路由算法能夠基于部分網(wǎng)絡(luò)狀態(tài)信息快速、準(zhǔn)確地計算出對應(yīng)的路由決策，并且在信息傳遞成本、路由收斂速度等方面相比傳統(tǒng)分布式路由展現(xiàn)出了一定的優(yōu)勢.基于GNN的分布式路由決策在拓?fù)湫畔⒔?、魯棒性以及故障適應(yīng)性等基于傳統(tǒng)深度學(xué)習(xí)模型的智能路由方案難以解決的問題上面已經(jīng)取得了一定的進(jìn)展.然而現(xiàn)有基于深度學(xué)習(xí)模型的智能路由算法主要學(xué)習(xí)的是基于最短路徑的路由算法，其能否很好地學(xué)會更多復(fù)雜的動態(tài)路由算法是值得更進(jìn)一步探討的.此外，現(xiàn)有基于深度學(xué)習(xí)的智能路由算法無法保證其在復(fù)雜多變的網(wǎng)絡(luò)環(huán)境下的安全性和魯棒性，并且需要高昂的部署成本，因此基于深度學(xué)習(xí)的路由算法想要替代傳統(tǒng)路由算法仍有很長的一段路要走.

2.3 利用智能模塊輔助路由計算

現(xiàn)有的深度學(xué)習(xí)方法在網(wǎng)絡(luò)建模、流量預(yù)測、擁塞檢測方面已經(jīng)取得了一定的成果[31,41-42]，利用深度學(xué)習(xí)方法在這些領(lǐng)域的成果來輔助路由計算是使得路由算法變得更加智能的另一種途徑.在路由優(yōu)化問題中，有很多時候傳統(tǒng)基于模型優(yōu)化或者啟發(fā)式的方法都需要涉及網(wǎng)絡(luò)環(huán)境建模、流量預(yù)測、擁塞檢測等模塊，用深度學(xué)習(xí)方法來替代這些模塊有時會取得比較好的效果.

Barabas等人[40]的工作利用基于多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)預(yù)測器根據(jù)鏈路歷史狀態(tài)數(shù)據(jù)為每條鏈路進(jìn)行鏈路擁塞預(yù)測，并將預(yù)測得到的結(jié)果與基于規(guī)則的擁塞避免和重路由方案相結(jié)合，使得路由方法能夠在擁塞發(fā)生前主動調(diào)整路由而不是發(fā)生后被動地亡羊補(bǔ)牢.

Rusek等人[30]的工作將GNN與LSTM模型相結(jié)合，用基于圖神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型對路由路徑時延和時延抖動與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、流量矩陣以及路由路徑之間的關(guān)系進(jìn)行建模，并利用所建立的模型輔助啟發(fā)式路由優(yōu)化算法進(jìn)行路由策略計算.研究結(jié)果表明基于GNN的網(wǎng)絡(luò)建模能夠根據(jù)輸入信息準(zhǔn)確預(yù)測路由路徑時延和時延抖動，并且對于沒有在訓(xùn)練中出現(xiàn)的拓?fù)湟约皠討B(tài)變化的路由路徑展現(xiàn)了良好的泛化性.數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)建模方法為基于探索的啟發(fā)式路由優(yōu)化算法提供了一個準(zhǔn)確、高效的路由策略試驗環(huán)境，使得啟發(fā)式的路由優(yōu)化算法能夠以低成本完成路由優(yōu)化求解過程，同時避免了因為網(wǎng)絡(luò)建模與真實環(huán)境不符所帶來的路由策略效果損失.

利用深度學(xué)習(xí)模型輔助傳統(tǒng)路由算法的方案能夠有效提升傳統(tǒng)路由優(yōu)化算法性能，與此同時傳統(tǒng)路由優(yōu)化算法保證了智能路由方案具有更強(qiáng)的可靠性與可解釋性.因此未來將傳統(tǒng)路由優(yōu)化算法與深度學(xué)習(xí)模型相結(jié)合可能是智能路由算法發(fā)展的一個途徑.

3 基于強(qiáng)化學(xué)習(xí)的智能路由算法

3.1 應(yīng)用于智能路由中的強(qiáng)化學(xué)習(xí)方法概述

Q-Learning方法采用一個Q函數(shù)來預(yù)測時刻t觀測到的狀態(tài)st和動作at對應(yīng)的最大遞減獎勵和，Q函數(shù)的定義為:

對于Q函數(shù)的計算有基于模型和模型無關(guān)2種方法.其中基于模型的方法通過Markov決策過程中各狀態(tài)間的關(guān)聯(lián)模型對Q函數(shù)進(jìn)行直接求解，形式化表示為:

Q(st,at)=(1-α)Q(st,at)+α[rt+γV(st+1)],

其中,α是模型學(xué)習(xí)速率，相比于基于模型的Q函數(shù)計算方法，模型無關(guān)的Q函數(shù)計算方法通常需要更長的收斂時間.

在傳統(tǒng)的Q-Learning方法中，Q函數(shù)是一個從有限狀態(tài)決策空間S×A到實數(shù)空間的映射，為了處理連續(xù)高維狀態(tài)決策空間上的強(qiáng)化學(xué)習(xí)問題，研究者們將深度學(xué)習(xí)模型引入強(qiáng)化學(xué)習(xí)框架，設(shè)計出了多種深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)模型.

Google Deep Mind機(jī)構(gòu)提出了深度Q值學(xué)習(xí)(deep Q-Learning, DQN)[43].DQN采用一個深度神經(jīng)網(wǎng)絡(luò)(DNN)來代替原本的Q值表來近似估計Q函數(shù)，并通過平方誤差進(jìn)行訓(xùn)練:

L(θQ)=E[(yt-Q(st,at|θQ))2],

這里θQ是DQN的參數(shù)，yt是目標(biāo)值，可計算為:

yt=rt+γQ(st+1,π(st+1)|θQ),

其中，π(·)是一個能夠最大化預(yù)期總收益的策略函數(shù)，一個常用的異步策略是采用貪心的方式選擇動作:

與基于Q函數(shù)估計的DQN方法相對應(yīng)的是策略梯度方法[44]，策略梯度法利用深度學(xué)習(xí)模型作為策略函數(shù)πθ(s,a),通過計算策略梯度的方式直接優(yōu)化策略函數(shù).

為了進(jìn)一步提升策略梯度方法的性能，加速強(qiáng)化學(xué)習(xí)模型的收斂速度，可以將Q值學(xué)習(xí)與策略梯度方法結(jié)合起來，通過價值估計函數(shù)來預(yù)測當(dāng)前狀態(tài)下采用行動后續(xù)會得到的價值，并利用預(yù)測結(jié)果對策略模型進(jìn)行訓(xùn)練，這就是強(qiáng)化學(xué)習(xí)的演員-評價者(actor-critic, AC)框架.

一種目前常用的基于在線策略(on-policy)的AC框架利用一個動作優(yōu)勢函數(shù)A(s,a)來對策略優(yōu)劣進(jìn)行估計，引入優(yōu)勢函數(shù)后的策略梯度為

其中,τ代表狀態(tài)-動作元組(st,at).

基于在線策略的強(qiáng)化學(xué)習(xí)方法需要將訓(xùn)練過程與數(shù)據(jù)收集同步進(jìn)行，經(jīng)過多輪數(shù)據(jù)收集-參數(shù)更新的迭代過程達(dá)到參數(shù)收斂，為了將數(shù)據(jù)收集和模型訓(xùn)練過程解耦合，可以采用基于離線策略(off-policy)的強(qiáng)化學(xué)習(xí)方法，一個常用的基于離線策略的AC框架深度強(qiáng)化學(xué)習(xí)模型是確定性策略梯度算法(deterministic policy gradient, DPG)[45].該方法直接利用價值網(wǎng)絡(luò)梯度回傳的方式計算策略梯度，在連續(xù)動作空間強(qiáng)化學(xué)習(xí)問題上取得了良好的效果.該方法的改進(jìn)版深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)[46]在解決連續(xù)動作空間的路由優(yōu)化問題上有比較廣泛的應(yīng)用.

近些年來的最新工作中，為了解決傳統(tǒng)基于隨機(jī)梯度下降算法的策略優(yōu)化方法所存在的策略更新過度問題,Schulman等人[47]提出了二階強(qiáng)化學(xué)習(xí)方法——置信域策略優(yōu)化方法(trust region policy optimization, TRPO).雖然二階方法具有比一階方法更好的收斂性保證，其過高的計算復(fù)雜度限制了它的應(yīng)用場景.基于TRPO的思想，OpenAI與DeepMind提出了近端策略優(yōu)化方法(proximal policy optimization, PPO)[48],該方法兼具了傳統(tǒng)一階方法的高效和易于實現(xiàn)的特性以及置信域算法的數(shù)據(jù)效率和可靠表現(xiàn)，成為了當(dāng)前的主流強(qiáng)化學(xué)習(xí)算法之一.

3.2 基于Q-Learning的智能路由算法

1994年Boyan等人[16]的工作Q-routing第一次將Q-Learning用在了路由算法上面.Q-routing將路由轉(zhuǎn)發(fā)過程用Markov決策過程(Markov decision process, MDP)進(jìn)行建模，將每個路由節(jié)點視作MDP中的狀態(tài)，路由下一跳所選擇的鄰居節(jié)點作為MDP中的動作，路由每一跳所花費(fèi)的時延作為強(qiáng)化學(xué)習(xí)一次動作所獲得的反饋值.Q-routing中用Q值函數(shù)Qx(d,y)來預(yù)測從當(dāng)前節(jié)點x到目標(biāo)節(jié)點d采用下一跳節(jié)點y所需花費(fèi)的時間.每當(dāng)節(jié)點x向鄰居節(jié)點y發(fā)送一次數(shù)據(jù)包，節(jié)點y立刻會返回預(yù)估的剩余路程時延t給x:

此時利用基于模型的Q-Learning方法,節(jié)點x可以動態(tài)更新自身對應(yīng)的Q值函數(shù)信息，形式化地:

ΔQx(d,y)=η(q+s+t-Qx(d,y)),

其中,η是算法學(xué)習(xí)速率，q和s分別是從x到y(tǒng)的隊列時延和傳輸時延.根據(jù)動態(tài)更新的Q值函數(shù)，Q-routing能夠自適應(yīng)動態(tài)變化的網(wǎng)絡(luò)狀態(tài)并為每個數(shù)據(jù)包選擇時延最短的路由路徑.相比于傳統(tǒng)最短路徑路由算法，Q-routing將時延而不僅僅是路由跳數(shù)作為衡量路徑長短的指標(biāo)，因此能夠有效避免網(wǎng)絡(luò)擁塞的發(fā)生.

雖然Q-routing能夠很快地感知網(wǎng)絡(luò)擁塞的發(fā)生并調(diào)整路由路徑來實現(xiàn)擁塞避免，該方法很難快速地感知到擁塞消除情況.由于Q-Learning模型所限，對于因?qū)?yīng)路徑發(fā)生擁塞而導(dǎo)致短時間內(nèi)不被采用的鄰居節(jié)點，Q-routing方法中路由器只能通過向鄰居節(jié)點發(fā)送額外的請求數(shù)據(jù)包的方式來更新其對應(yīng)的Q值表，這不僅帶來了額外的數(shù)據(jù)傳輸成本，而且受限于額外請求數(shù)據(jù)包的發(fā)送頻率，在全網(wǎng)范圍內(nèi)完成擁塞消除情況的傳遞需要一個較長的時間，這使得Q-routing實際上難以達(dá)到最優(yōu)的路由調(diào)度效果.為了做到快速感知擁塞恢復(fù)，Choi等人[17]對于Q-routing中的擁塞恢復(fù)過程與時間的關(guān)系進(jìn)行了建模，提出采用R函數(shù)來對Q函數(shù)隨時間的變化速率進(jìn)行估計，并將R函數(shù)用于路由決策時對當(dāng)前各鄰居節(jié)點對應(yīng)Q值的計算.實驗表明基于Q值變化預(yù)測的Q-routing方案在網(wǎng)絡(luò)擁塞頻繁出現(xiàn)的情況下相比于原本的Q-routing方案具有更好的收斂速度和穩(wěn)定性.此外，Kumar等人[18]利用對偶強(qiáng)化學(xué)習(xí)對于Q-routing進(jìn)行了改進(jìn)并獲得了更好的性能.

2010年Hu等人[19]的工作將Q-Learning的方法應(yīng)用在了無線傳感器網(wǎng)絡(luò)(WSN)中，提出了QELAR方案.由于WSN的工作環(huán)境復(fù)雜，網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)經(jīng)常變動，所以傳統(tǒng)路由方法應(yīng)用在WSN環(huán)境下往往無法取得很好的效果.QELAR主要解決WSN的壽命問題，類似于Q-routing,QELAR同樣將數(shù)據(jù)包在網(wǎng)絡(luò)中傳輸?shù)倪^程用Markov過程進(jìn)行建模，不同的是QELAR將當(dāng)前節(jié)點及其鄰居節(jié)點的剩余能量狀態(tài)與路徑跳數(shù)相結(jié)合作為強(qiáng)化學(xué)習(xí)的反饋，使得路由算法能夠根據(jù)當(dāng)前系統(tǒng)剩余能量狀態(tài)進(jìn)行智能路由決策，以保證WSN網(wǎng)絡(luò)正常工作的時間盡可能長.

在QELAR之后，Basagni等人[20-21]又提出了MARLIN和MARLIN-Q模型,將WSN網(wǎng)絡(luò)的數(shù)據(jù)包發(fā)送與重傳過程用MDP進(jìn)行建模.圖8中展示了MARLIN-Q方案中每個路由節(jié)點控制數(shù)據(jù)包進(jìn)行轉(zhuǎn)發(fā)的狀態(tài)轉(zhuǎn)移模型示意圖.在MARLIN與MARLIN-Q工作中，數(shù)據(jù)包p在每個路由節(jié)點的狀態(tài)空間S根據(jù)當(dāng)前數(shù)據(jù)包重傳次數(shù)進(jìn)行定義

S={0,1,…,K-1}∪{rcv,drop}.

Fig. 8 States and transitions of node i handling packet p as shown in MARLIN-Q [21]圖8 MARLIN-Q中節(jié)點i處理數(shù)據(jù)包p的狀態(tài)轉(zhuǎn)移模型 [21]

每個路由節(jié)點i在狀態(tài)s可進(jìn)行的動作空間包括選擇的調(diào)制解調(diào)器類型以及對應(yīng)的調(diào)制解調(diào)器所能到達(dá)的下一跳路由節(jié)點:

經(jīng)過調(diào)研，現(xiàn)有基于Q-Learning的智能路由算法大都將數(shù)據(jù)包在網(wǎng)絡(luò)中的轉(zhuǎn)發(fā)過程用MDP進(jìn)行建模，之后將路由優(yōu)化問題轉(zhuǎn)化為基于模型的Q-Learning問題，并在此基礎(chǔ)上構(gòu)建智能路由算法.由于MDP建模以及基于模型的Q-Learning本身的特點，其優(yōu)化目標(biāo)主要為時延、吞吐、能耗等可逐跳累加的性能評價指標(biāo).利用基于模型的Q-Learning方法設(shè)計的智能路由算法本身能夠自適應(yīng)動態(tài)變化的網(wǎng)絡(luò)環(huán)境，且由于其MDP模型已知，其決策過程相比于其他基于深度學(xué)習(xí)的方法具有更好的可解釋性，因此在網(wǎng)絡(luò)狀態(tài)波動性很大的應(yīng)用場景中，例如WSN網(wǎng)絡(luò)，具有比較廣泛的應(yīng)用.然而對于輸入輸出維度更高、優(yōu)化目標(biāo)更復(fù)雜的路由優(yōu)化問題顯式地建立MDP模型十分困難，此外現(xiàn)有基于Q-Learning的路由優(yōu)化方法普遍采用的包級別的路由控制方式難以滿足主干網(wǎng)的高性能需求，因此現(xiàn)有基于Q-Learning的智能路由算法的應(yīng)用場景仍然具有很大的局限性.

3.3 基于深度強(qiáng)化學(xué)習(xí)的智能路由算法

隨著近幾年深度學(xué)習(xí)技術(shù)的發(fā)展，研究者們開始嘗試將深度強(qiáng)化學(xué)習(xí)技術(shù)(DRL)應(yīng)用到智能路由與流量工程方案設(shè)計中.相比于Q-Learning，DRL方法能夠?qū)W習(xí)到更復(fù)雜的策略，以解決狀態(tài)、決策空間更大以及優(yōu)化目標(biāo)更復(fù)雜的路由優(yōu)化問題.

Xu等人[14]將深度強(qiáng)化學(xué)習(xí)用于域內(nèi)流量工程問題中提出了基于深度強(qiáng)化學(xué)習(xí)的流量工程方案DRL-TE.類似于2018年Kumar等人[7]提出的經(jīng)典的半狀態(tài)無關(guān)流量工程方案SMORE,DRL-TE將流量工程問題劃分為靜態(tài)多路徑求解以及在線動態(tài)調(diào)整路徑分流比2部分.DRL-TE采用傳統(tǒng)方法生成路徑，并利用一個深度強(qiáng)化學(xué)習(xí)單元來完成在線動態(tài)調(diào)整路徑分流比過程.DRL-TE方案中深度強(qiáng)化學(xué)習(xí)模型將當(dāng)前每個會話對應(yīng)的時延和吞吐作為強(qiáng)化學(xué)習(xí)的狀態(tài)，將路徑分流比作為強(qiáng)化學(xué)習(xí)的動作，將每個會話的性能評價函數(shù)作為強(qiáng)化學(xué)習(xí)的反饋，從而動態(tài)感知網(wǎng)絡(luò)狀態(tài)信息，控制各條路徑的分流比，并根據(jù)各會話反饋結(jié)果自適應(yīng)地學(xué)習(xí)最優(yōu)分流策略.為了處理分流比所帶來的連續(xù)動作空間問題，DRL-TE采用深度確定性策略梯度算法(DDPG)作為強(qiáng)化學(xué)習(xí)模型，并采用了專為流量工程設(shè)計的經(jīng)驗回放方式來保證強(qiáng)化學(xué)習(xí)模型的收斂性和穩(wěn)定性.相比于SMORE需要準(zhǔn)確預(yù)測下一時刻的流量矩陣才能利用線性規(guī)劃模型解出最優(yōu)的分流比并且只能優(yōu)化有限的目標(biāo)(例如最大鏈路利用率)，DRL-TE只需根據(jù)各會話當(dāng)前流量特征信息即可自動預(yù)測未來的流量變化情況，并做出能最大化各會話總效益函數(shù)值的決策.因此，DRL-TE相比于SMORE方法對應(yīng)用場景需求更少的假設(shè)，具有更好的通用性和魯棒性.DRL-TE在ns-3環(huán)境下進(jìn)行了仿真實驗，實驗結(jié)果表明：相比于傳統(tǒng)路由以及流量工程算法，DRL-TE不論在時延、吞吐還是文中定義的效用函數(shù)指標(biāo)上都具有明顯優(yōu)勢.此外直接采用原始DDPG算法的對比實驗表明利用機(jī)器學(xué)習(xí)模型解決流量工程問題時對原有機(jī)器學(xué)習(xí)算法進(jìn)行針對性地改進(jìn)是十分必要的，直接將現(xiàn)有機(jī)器學(xué)習(xí)模型應(yīng)用在路由優(yōu)化與流量工程問題中可能難以達(dá)到十分理想的效果.

除了流量工程領(lǐng)域，深度強(qiáng)化學(xué)習(xí)同樣被應(yīng)用于智能路由配置優(yōu)化任務(wù)中.Valadarsky等人[31]嘗試?yán)蒙疃葟?qiáng)化學(xué)習(xí)單元根據(jù)歷史流量數(shù)據(jù)對未來的網(wǎng)絡(luò)流量進(jìn)行預(yù)測，并基于強(qiáng)化學(xué)習(xí)模型的流量預(yù)測能力計算出恰當(dāng)?shù)穆酚膳渲?在這篇工作中，Valadarsky等人將歷史流量矩陣作為強(qiáng)化學(xué)習(xí)模型的輸入，每條鏈路的權(quán)值作為強(qiáng)化學(xué)習(xí)模型的輸出，強(qiáng)化學(xué)習(xí)模型(TRPO)根據(jù)學(xué)習(xí)到的經(jīng)驗和知識通過歷史流量矩陣對未來流量進(jìn)行預(yù)測并通過調(diào)整鏈路權(quán)值來進(jìn)行路由配置，以達(dá)到優(yōu)化全網(wǎng)最大鏈路利用率并完成負(fù)載均衡的目標(biāo).Valadarsky等人的工作中指出，路由規(guī)則的表現(xiàn)形式與強(qiáng)化學(xué)習(xí)模型的收斂性有很強(qiáng)的相關(guān)性.對于一個網(wǎng)絡(luò)拓?fù)銰(V,E),如果直接采用一個輸出維度為|V|·|E|的基于目的節(jié)點的路由規(guī)則形式作為上述強(qiáng)化學(xué)習(xí)模型的輸出動作，即為每個節(jié)點v針對每個目的節(jié)點d設(shè)置一個對其所有鄰居節(jié)點的分流比，那么由于輸出維度過高上述強(qiáng)化學(xué)習(xí)模型將難以收斂.因此該工作中強(qiáng)化學(xué)習(xí)模型的動作為每條鏈路設(shè)置一個實數(shù)權(quán)值，鏈路權(quán)值通過一個傳統(tǒng)基于規(guī)則的方式映射成為路由規(guī)則.這使得強(qiáng)化學(xué)習(xí)模型的輸出維度降為|E|，以降低強(qiáng)化學(xué)習(xí)模型的動作空間大小，減輕探索和學(xué)習(xí)難度，達(dá)到加速收斂的效果.該工作采用了稀疏和非稀疏的重力雙峰模型生成了不用類型的流量矩陣序列用于檢測算法性能.仿真實驗結(jié)果表明對于具有明顯規(guī)律特征的流量矩陣，強(qiáng)化學(xué)習(xí)模型能夠通過流量預(yù)測來實現(xiàn)良好的路由配置，達(dá)到優(yōu)于流量無關(guān)最優(yōu)路由[50]并且接近最優(yōu)的路由配置效果.然而當(dāng)流量矩陣不再具有明顯規(guī)律特征時，該方法的性能就會顯著下降.實際上，真實場景下的流量變化可能是無規(guī)律的，包含許多突發(fā)流量的，因此對于上述模型在真實流量數(shù)據(jù)下的流量預(yù)測和路由配置能力仍然是一個值得探索的問題.

雖然DRL模型理論上能夠根據(jù)網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)或歷史信息對未來的流量進(jìn)行預(yù)測并作出最優(yōu)的路由決策，在目前實驗中DRL模型的結(jié)果還遠(yuǎn)遠(yuǎn)沒有達(dá)到最優(yōu).Xu等人[38]的工作對比了若干種強(qiáng)化學(xué)習(xí)模型在路由任務(wù)上的效果，提出了將強(qiáng)化學(xué)習(xí)模型用來解決路由問題的指導(dǎo)性建議.首先作者通過一個Q-routing模型[16]簡單場景部署實驗表明包級別路由控制的強(qiáng)化學(xué)習(xí)智能路由模型對于吞吐較高的應(yīng)用場景難以適用，采用時間段級別路由控制模型將會是比較推薦的方式.其次，將顯式的路徑選擇方式作為強(qiáng)化學(xué)習(xí)單元動作的智能路由方案難以收斂到理想結(jié)果.正如2.2節(jié)所提到的，路徑數(shù)目隨網(wǎng)絡(luò)規(guī)模的增長而指數(shù)增長，基于路徑選擇的方案無疑會大幅增加強(qiáng)化學(xué)習(xí)模型的學(xué)習(xí)和探索能力.基于上述2點，本文最終同樣選擇了通過強(qiáng)化學(xué)習(xí)模型來控制鏈路權(quán)值繼而間接實現(xiàn)路由控制的方案.與Valadarsky等人直接生成實鏈路權(quán)值相比，Xu等人的方案將鏈路權(quán)值離散化處理，進(jìn)一步將動作空間大小從無限降為了有限，并對每一條鏈路對應(yīng)的權(quán)值選擇過程單獨采用一個強(qiáng)化學(xué)習(xí)模型進(jìn)行處理，進(jìn)一步減小了每個強(qiáng)化學(xué)習(xí)模型的決策難度和探索空間.生成的鏈路權(quán)值作為最短路徑算法的邊權(quán)來進(jìn)行路由計算.為了保證這個多智能體的合作路由模型的策略一致性，Xu等人利用最新的多智能體深度確定性策略梯度算法[51](multi-agent deep deterministic policy gradient, MADDPG)來對模型進(jìn)行訓(xùn)練.最終的實驗結(jié)果表明基于離線鏈路權(quán)值的強(qiáng)化學(xué)習(xí)智能路由算法相比于最短路徑路由具有更好的負(fù)載均衡特性，即更短的路由器平均等待隊長.

現(xiàn)有基于深度強(qiáng)化學(xué)習(xí)的智能路由方案在域內(nèi)流量工程和智能路由優(yōu)化任務(wù)上已經(jīng)取得了一定的成果.深度強(qiáng)化學(xué)習(xí)模型具有良好的通用性與泛化性，其既可以優(yōu)化網(wǎng)絡(luò)全局性能評價指標(biāo)，例如全網(wǎng)最大鏈路利用率、路由器平均等待隊長等，也可以優(yōu)化每個會話對應(yīng)的私有效益值函數(shù).此外相比于傳統(tǒng)基于規(guī)則或數(shù)學(xué)模型的路由優(yōu)化算法，基于深度強(qiáng)化學(xué)習(xí)的智能路由算法無需對環(huán)境做出假設(shè)，并且能夠自適應(yīng)動態(tài)變化的網(wǎng)絡(luò)環(huán)境.然而，不難發(fā)現(xiàn)，深度強(qiáng)化學(xué)習(xí)模型的收斂性與其生成路由規(guī)則的形式間具有很強(qiáng)的關(guān)聯(lián)性，過高的輸出維度往往使得深度強(qiáng)化學(xué)習(xí)模型無法收斂.因此現(xiàn)有研究工作中，深度強(qiáng)化學(xué)習(xí)模型普遍通過控制路徑分流比或鏈路權(quán)值的方式間接完成流量控制，而非通過路徑選擇或路徑生成的方式直接生成路由路徑.實際上即使現(xiàn)有工作已經(jīng)盡量降低深度強(qiáng)化學(xué)習(xí)單元的路由決策難度，并取得了顯著進(jìn)展，現(xiàn)有方案在復(fù)雜應(yīng)用場景下的表現(xiàn)仍然有很大的提升空間.另外受限于深度強(qiáng)化學(xué)習(xí)的模型性能，現(xiàn)有方案大部分都采取時間段級別的路由控制方式，包級別的路由控制方式則不太適合于此類智能路由方案.對于路由算法而言，魯棒性和可靠性是十分重要的性質(zhì)，然而現(xiàn)有基于深度強(qiáng)化學(xué)習(xí)的智能路由算法在這方面的研究還遠(yuǎn)遠(yuǎn)不夠.

4 智能路由算法的訓(xùn)練與部署

雖然近些年已經(jīng)有很多基于機(jī)器學(xué)習(xí)的智能路由算法相關(guān)工作，但是這些工作主要針對智能路由算法的原理設(shè)計和算法準(zhǔn)確性、收斂性等問題進(jìn)行研究，而對于智能路由算法在真實場景下的訓(xùn)練與部署還尚未有一個成熟且完整的框架.本文對智能路由算法不同的訓(xùn)練方式與部署方式的優(yōu)勢與不足進(jìn)行了討論，并提出了2類較為合理的智能路由訓(xùn)練與部署框架以使得智能路由算法能夠低成本、高可靠性地在真實場景被部署.

4.1 訓(xùn)練方式：在線與離線

智能路由算法模型的訓(xùn)練方式主要分為在線和離線2種.圖7中給出了現(xiàn)有智能路由方案的訓(xùn)練方式.其中基于監(jiān)督學(xué)習(xí)的智能路由模型全部采用離線訓(xùn)練的方式；而基于強(qiáng)化學(xué)習(xí)的模型則既可以在真實環(huán)境下在線訓(xùn)練也可以在仿真環(huán)境下進(jìn)行離線訓(xùn)練.

通常來說，模型的離線訓(xùn)練過程首先需要從真實環(huán)境中收集數(shù)據(jù)，這些數(shù)據(jù)可能是流量矩陣、網(wǎng)絡(luò)各節(jié)點狀態(tài)信息以及對應(yīng)的路由決策標(biāo)簽等.數(shù)據(jù)經(jīng)過處理后被用于機(jī)器學(xué)習(xí)模型在服務(wù)器上的離線訓(xùn)練過程.訓(xùn)練完成后模型被部署到真實環(huán)境中進(jìn)行在線路由決策.離線訓(xùn)練和在線測試、部署是深度學(xué)習(xí)領(lǐng)域常見的訓(xùn)練部署方式，然而對于智能路由算法，離線訓(xùn)練往往面臨著3個挑戰(zhàn):1)訓(xùn)練數(shù)據(jù)的收集可能需要比較高的成本；2)真實場景下的網(wǎng)絡(luò)狀態(tài)可能與訓(xùn)練數(shù)據(jù)集不同，導(dǎo)致路由算法無法達(dá)到預(yù)期效果甚至出現(xiàn)錯誤；3)對于強(qiáng)化學(xué)習(xí)來說，搭建與真實環(huán)境近似的仿真訓(xùn)練環(huán)境可能很困難.

對于強(qiáng)化學(xué)習(xí)方法，在線訓(xùn)練可以保證模型自適應(yīng)網(wǎng)絡(luò)環(huán)境的變化，并且避免離線仿真環(huán)境搭建所帶來的困難與額外成本.然而在線訓(xùn)練所帶來的路由安全性和可靠性問題使得實際部署中往往難以部署需要在線訓(xùn)練的智能路由方法.實際上，在在線強(qiáng)化學(xué)習(xí)中，安全問題是一個已經(jīng)被廣泛研究的問題[52-53]，強(qiáng)化學(xué)習(xí)模型在訓(xùn)練的初始階段以及訓(xùn)練過程中的探索階段都可能會產(chǎn)生難以預(yù)測的行為，當(dāng)強(qiáng)化學(xué)習(xí)方法應(yīng)用在路由任務(wù)中時，這些難以預(yù)測的行為可能造成包括路由環(huán)路、鏈路擁塞等嚴(yán)重后果.因此，保證在線強(qiáng)化學(xué)習(xí)路由算法訓(xùn)練過程的安全性與可靠性將是其在真實場景下部署的重要前提.

4.2 部署方式：集中式與分布式

隨著越來越多的智能路由算法的提出，如何在現(xiàn)有計算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中部署這些算法正受到越來越多的關(guān)注.智能路由算法的部署方式主要分為分布式與集中式2種.

圖9中給出2種部署方案的框架結(jié)構(gòu)示意圖.智能路由算法部署于集中式控制器中，根據(jù)控制器所收集到的網(wǎng)絡(luò)狀態(tài)信息動態(tài)進(jìn)行路由決策，路由決策通過集中式控制器下發(fā)至各路由節(jié)點中.SDN網(wǎng)絡(luò)結(jié)構(gòu)的提出為智能路由算法的集中式部署在理論上提供了可能，通過將智能路由控制單元作為SDN控制器上的一個應(yīng)用可以完成上述集中式控制過程.在數(shù)據(jù)中心網(wǎng)絡(luò)流量工程這樣相對獨立的應(yīng)用場景下，采用集中式方法部署智能路由調(diào)度方案是一種現(xiàn)階段較為可行的方案.

Fig. 9 Comparison between decentralized and centralized machine learning based routing control system圖9 分布式智能路由控制系統(tǒng)與集中式智能路由控制系統(tǒng)結(jié)構(gòu)對比

集中式方案部署需要在網(wǎng)絡(luò)中部署一個集中式的路由控制器，并設(shè)計一個集中式的路由控制協(xié)議，然而當(dāng)前計算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中路由協(xié)議依然以分布式路由協(xié)議為主.相比于集中式路由協(xié)議，分布式路由協(xié)議具有更好的可擴(kuò)展性.從圖7中可以看出，現(xiàn)有智能路由算法中有很多能夠支持分布式路由決策，這些分布式智能路由算法在收斂性、魯棒性等方面已經(jīng)取得了進(jìn)展，然而想要真正部署，還需要對應(yīng)的路由器硬件的進(jìn)一步發(fā)展和完善[15].隨著可編程路由設(shè)備的發(fā)展，未來在真實網(wǎng)絡(luò)中部署分布式智能路由算法將會成為可能.然而現(xiàn)有分布式智能路由算法主要關(guān)注路由方法的準(zhǔn)確性以及收斂性，并沒有考慮對現(xiàn)有網(wǎng)絡(luò)層結(jié)構(gòu)與協(xié)議的兼容.對于分布式智能路由算法而言，如何在兼容現(xiàn)有網(wǎng)絡(luò)層結(jié)構(gòu)的基礎(chǔ)上進(jìn)行增量式部署將是一個未來值得思考的問題.

4.3 智能路由訓(xùn)練與部署模型設(shè)計

本節(jié)基于上述討論總結(jié)并提出了2類未來具備可行性的智能路由訓(xùn)練與部署框架:1)集中式離線訓(xùn)練與在線決策相結(jié)合的智能路由框架；2)保證安全的在線強(qiáng)化學(xué)習(xí)路由框架.

圖10中給出了集中式離線訓(xùn)練與在線路由決策相結(jié)合的智能路由部署框架的工作流程圖.在這種智能路由部署方案下，路由器數(shù)據(jù)平面需要收集網(wǎng)絡(luò)流量特征信息并向上傳遞給控制層用來完成智能路由模型的訓(xùn)練以及在線路由決策過程.智能路由決策模型在一個單獨的具有足夠計算能力的節(jié)點利用歷史網(wǎng)絡(luò)狀態(tài)信息以及網(wǎng)絡(luò)仿真環(huán)境完成離線訓(xùn)練，并將訓(xùn)練好的模型參數(shù)發(fā)布到在線路由決策單元中.對應(yīng)的路由決策單元既可以采用分布式部署的方式將在線智能路由單元部署到每個路由器的控制平面，也可以采用集中式部署的方式將智能路由單元放在一個集中式的路由控制器中，例如SDN控制器.為了適應(yīng)隨時間動態(tài)變化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及流量特征，上述模型采用閉環(huán)學(xué)習(xí)的方式定期根據(jù)最新的網(wǎng)絡(luò)流量特征對智能路由模型進(jìn)行增量式訓(xùn)練.基于機(jī)器學(xué)習(xí)的智能路由模型的訓(xùn)練過程需要消耗大量計算和存儲資源，采用集中式的離線訓(xùn)練使得網(wǎng)絡(luò)各路由節(jié)點不需要額外部署這些資源，能夠有效降低智能路由算法的部署成本.

Fig. 10 Centralized offline training and online deployment model for machine learning based routing protocol圖10 集中式離線訓(xùn)練與在線部署相結(jié)合的機(jī)器學(xué)習(xí)智能路由部署方案

集中式離線訓(xùn)練加在線路由決策的智能路由部署方案適用于大多數(shù)現(xiàn)有智能路由算法，并且與機(jī)器學(xué)習(xí)離線訓(xùn)練、在線決策的思想相吻合.然而對于強(qiáng)化學(xué)習(xí)模型而言，無論是在線策略(on-policy)模型還是離線策略(off-policy)模型，與環(huán)境的交互是其學(xué)習(xí)過程必不可少的部分.不同于游戲任務(wù)，在路由優(yōu)化問題中搭建一個與真實網(wǎng)絡(luò)環(huán)境相一致的仿真環(huán)境往往依賴于對網(wǎng)絡(luò)場景的精確建模，是一件十分困難的事情[30].與之相對應(yīng)，深度強(qiáng)化學(xué)習(xí)模型開始階段糟糕的策略以及其學(xué)習(xí)過程中的探索行為，使得直接將基于深度強(qiáng)化學(xué)習(xí)的智能路由模型放在真實網(wǎng)絡(luò)環(huán)境中進(jìn)行訓(xùn)練很可能會為網(wǎng)絡(luò)帶來嚴(yán)重的安全性和可靠性問題.為了解決基于深度強(qiáng)化學(xué)習(xí)的智能路由策略在訓(xùn)練過程中所面臨的挑戰(zhàn)，本文參考安全在線強(qiáng)化學(xué)習(xí)的思想[53],提出了具有可靠性保證的深度強(qiáng)化學(xué)習(xí)智能路由模型在線訓(xùn)練方案，圖11給出了該方案的工作流程圖.相比于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法，該方案引入安全監(jiān)測模塊對強(qiáng)化學(xué)習(xí)單元所做出的路由決策是否安全進(jìn)行了基于規(guī)則的判斷，當(dāng)強(qiáng)化學(xué)習(xí)單元所做出的路由決策可能存在安全隱患時，例如包含路由回路、引發(fā)網(wǎng)絡(luò)擁塞等，強(qiáng)化學(xué)習(xí)單元采用一個簡單可靠的路由決策(例如最短路徑路由)對原本的路由決策進(jìn)行替換，并同時給強(qiáng)化學(xué)習(xí)單元施加一個懲罰因子p，以避免強(qiáng)化學(xué)習(xí)單元之后再次生成類似的路由策略.在線安全學(xué)習(xí)在其他網(wǎng)絡(luò)應(yīng)用場景下的相關(guān)工作表明，基于在線安全學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)智能路由方案有能力在不影響原本路由優(yōu)化目標(biāo)的同時保證路由學(xué)習(xí)過程的可靠性[53].它不僅能解決由于模型尚未收斂以及探索過程所帶來安全性問題，而且可以在不保證模型可解釋性的前提下保證模型的可靠性，一定程度上解決了深度學(xué)習(xí)智能路由模型不可解釋性以及網(wǎng)絡(luò)突發(fā)狀況下路由行為不可預(yù)測性所帶來的擔(dān)憂.

Fig. 11 Safe online learning model for deep reinforcement learning based routing algorithm圖11 具有可靠性保證的基于深度強(qiáng)化學(xué)習(xí)的智能路由算法在線學(xué)習(xí)方案

對于智能路由的訓(xùn)練與部署框架，現(xiàn)有研究工作還比較少，但是本文認(rèn)為由智能路由方案所帶來的模型不可解釋性、路由行為的不可預(yù)測性將是其訓(xùn)練部署框架設(shè)計的重要挑戰(zhàn).而利用基于規(guī)則的方案來對智能路由控制單元進(jìn)行約束可能是保證智能路由的可靠性的一個有效手段.

5 智能路由算法所面臨的機(jī)遇與挑戰(zhàn)

近年來，智能路由算法受到越來越多的關(guān)注，本節(jié)針對智能路由算法在解決路由優(yōu)化問題上所具有的優(yōu)勢以及其未來發(fā)展過程所面臨的的挑戰(zhàn)進(jìn)行了探討.

5.1 智能路由算法的優(yōu)勢

數(shù)據(jù)驅(qū)動的智能路由算法通?；谏疃葘W(xué)習(xí)或強(qiáng)化學(xué)習(xí)，其主要具有5個優(yōu)點：

1) 網(wǎng)絡(luò)狀態(tài)敏感.相比于傳統(tǒng)基于模型的路由算法，智能路由算法能夠處理更高維度的網(wǎng)絡(luò)狀態(tài)特征信息，這使得智能路由算法對網(wǎng)絡(luò)狀態(tài)的變化更加敏感，當(dāng)網(wǎng)絡(luò)狀態(tài)發(fā)生變化時能快速收斂，做出更適合當(dāng)前網(wǎng)絡(luò)狀態(tài)的路由決策.

2) 數(shù)據(jù)驅(qū)動.相比于傳統(tǒng)路由算法基于固定的模型求解路由策略，智能路由算法由數(shù)據(jù)驅(qū)動，基于更少的環(huán)境假設(shè)，利用歷史數(shù)據(jù)信息以及對環(huán)境的自發(fā)探索來自動對應(yīng)用場景進(jìn)行建模并完成路由優(yōu)化，因此能夠自適應(yīng)不同應(yīng)用場景與網(wǎng)絡(luò)環(huán)境變化.

3) 面向服務(wù)質(zhì)量.智能路由能夠更好地支持區(qū)分服務(wù)質(zhì)量的路由請求.相比于傳統(tǒng)服務(wù)質(zhì)量路由優(yōu)化方案基于大量對應(yīng)用場景的假設(shè)為每種QoS需求單獨設(shè)計復(fù)雜的優(yōu)化模型，數(shù)據(jù)驅(qū)動的智能路由算法能夠根據(jù)QoS需求自動學(xué)習(xí)得到恰當(dāng)?shù)穆酚蓻Q策.

4) 經(jīng)驗驅(qū)動與記憶特性.相比于傳統(tǒng)基于模型和規(guī)則的路由算法，基于機(jī)器學(xué)習(xí)的智能路由算法能夠通過學(xué)習(xí)歷史數(shù)據(jù)來把過往經(jīng)驗記憶下來，使得模型能像人類一樣“吃一塹長一智”，隨著經(jīng)驗的增長逐步提升路由優(yōu)化效果.

5) 路由決策考慮過去、現(xiàn)在和未來.循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(RNN)及其相應(yīng)擴(kuò)展(GRU,LSTM)能夠很好地將過往歷史信息進(jìn)行建模，而強(qiáng)化學(xué)習(xí)模型則賦予了智能路由算法不僅著眼于當(dāng)前路由效果，更可預(yù)測未來網(wǎng)絡(luò)狀態(tài)變化，提前避免未來可能發(fā)生的網(wǎng)絡(luò)擁塞的能力.

5.2 智能路由算法面臨的挑戰(zhàn)

與智能路由算法的優(yōu)勢相對應(yīng)的，智能路由方法的未來發(fā)展過程同樣面臨著很多挑戰(zhàn)：

1) 網(wǎng)絡(luò)特征信息提取.智能路由方法中，網(wǎng)絡(luò)狀態(tài)信息可能是按照拓?fù)浣Y(jié)構(gòu)的形式進(jìn)行組織的，并且由于網(wǎng)絡(luò)場景的動態(tài)變化，使得網(wǎng)絡(luò)狀態(tài)信息的維度可能發(fā)生改變.傳統(tǒng)的機(jī)器學(xué)習(xí)方法對于這種類型的網(wǎng)絡(luò)狀態(tài)信息的處理上存在困難.現(xiàn)有智能路由算法嘗試?yán)脠D神經(jīng)網(wǎng)絡(luò)模型(GNN)對網(wǎng)絡(luò)狀態(tài)信息進(jìn)行建模和提取[26,30].GNN方法對于不同拓?fù)浣Y(jié)構(gòu)具有良好的泛化性，然而現(xiàn)有GNN方法是否能夠?qū)τ诼酚蓛?yōu)化問題真實場景中動態(tài)變化的大規(guī)模拓?fù)浣Y(jié)構(gòu)完成建模還缺乏足夠的實驗支撐.

2) 算法收斂性.相比于游戲、圖像識別、自然語言處理等已經(jīng)廣泛應(yīng)用機(jī)器學(xué)習(xí)的場景，路由優(yōu)化問題的輸入輸出維度更高，目標(biāo)策略更復(fù)雜，現(xiàn)有的研究表明對于輸入輸出維度很高的復(fù)雜路由優(yōu)化問題，現(xiàn)有機(jī)器學(xué)習(xí)方案往往難以收斂到最優(yōu)解.為了解決模型難以收斂的問題，往往需要通過降低輸入輸出維度，將決策空間離散化，或者采用間接控制路由決策以簡化策略復(fù)雜度的方式來降低模型的收斂難度，然而即使采用了這些方案，很多模型最終的收斂結(jié)果依然距離理論最優(yōu)值存在很大差距.

3) 算法可擴(kuò)展性.可擴(kuò)展性是路由算法所需要滿足的重要特性.現(xiàn)有基于機(jī)器學(xué)習(xí)的智能路由算法主要基于不超過20個節(jié)點的小拓?fù)溥M(jìn)行設(shè)計和實驗.更大的拓?fù)湟馕吨笖?shù)增長的網(wǎng)絡(luò)狀態(tài)數(shù)以及更高的路由決策難度，如何保證智能路由算法在大拓?fù)渖弦廊荒苋〉昧己玫男Ч麑⑹俏磥碇悄苈酚伤惴ㄔO(shè)計面臨的一個挑戰(zhàn).此外當(dāng)拓?fù)湟?guī)模很大時，集中式的路由控制算法可能帶來很高的數(shù)據(jù)交換成本以及網(wǎng)絡(luò)狀態(tài)傳輸延時，影響可擴(kuò)展性；而分布式的智能路由算法如何在大拓?fù)湎卤ＷC各節(jié)點路由策略的一致性將是未來需要解決的問題.

4) 算法可解釋性.智能路由方法所面臨的另一個問題是路由策略的不可預(yù)測性以及不可解釋性，相比于傳統(tǒng)路由基于數(shù)學(xué)模型的傳統(tǒng)路由算法，基于深度學(xué)習(xí)的方法其行為往往具有不可預(yù)測性，當(dāng)出現(xiàn)一個糟糕的路由決策時，操作員很難去定位錯誤原因，至于針對錯誤去更正模型更是一件幾乎不可能的事情.因此，如何提升智能路由算法的可解釋性將是未來智能路由方法發(fā)展過程中面臨的一個挑戰(zhàn).

5) 模型訓(xùn)練成本.對于基于監(jiān)督學(xué)習(xí)的智能路由算法而言，收集足夠多、足夠準(zhǔn)確的帶標(biāo)簽數(shù)據(jù)有時是一個成本很高昂的事情.不同于人臉識別等一次訓(xùn)練一勞永逸的應(yīng)用場景，隨著網(wǎng)絡(luò)環(huán)境的變化，現(xiàn)有智能路由可能需要重復(fù)收集訓(xùn)練數(shù)據(jù)并重新進(jìn)行訓(xùn)練.因此如何提升智能路由訓(xùn)練過程的數(shù)據(jù)效率是智能路由方案部署過程中所面臨的重要挑戰(zhàn).面對類似的問題時，通過元學(xué)習(xí)來降低訓(xùn)練成本是一個可行的解決方案[54]，然而路由領(lǐng)域?qū)@方面尚未有很完善的研究.此外對于基于深度強(qiáng)化學(xué)習(xí)的智能路由方法，無論是在線訓(xùn)練還是離線訓(xùn)練，其高昂的訓(xùn)練成本以及訓(xùn)練過程中對于系統(tǒng)所帶來的可靠性隱患都是亟待解決的挑戰(zhàn).

6) 網(wǎng)絡(luò)突發(fā)情況處理.對于智能路由方法來說，如何處理網(wǎng)絡(luò)突發(fā)狀況是另一個智能路由算法未來發(fā)展過程將面臨的挑戰(zhàn).流量突發(fā)、網(wǎng)絡(luò)設(shè)備故障帶來的網(wǎng)絡(luò)狀態(tài)變化是現(xiàn)實中非常常見的情況，然而這些突發(fā)情況種類多樣，很多突發(fā)情況在訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過，現(xiàn)有數(shù)據(jù)驅(qū)動的智能路由算法很難保證當(dāng)面對這些突發(fā)情況時能夠處理得當(dāng).實際上，即使是Q-Learning這類能夠動態(tài)適應(yīng)環(huán)境變化的方法也無法很好地應(yīng)對網(wǎng)絡(luò)突發(fā)且劇烈的波動，利用“安全在線強(qiáng)化學(xué)習(xí)”[53]的思想來應(yīng)對網(wǎng)絡(luò)突發(fā)狀況變化也許是未來一個可能的解決方案，但如何精確感知網(wǎng)絡(luò)突發(fā)狀況同樣是一個挑戰(zhàn).

7) 真實場景部署.對于智能路由方法來說，如何在真實場景部署是一個巨大的挑戰(zhàn).相比于傳統(tǒng)路由算法來說，智能路由需要更多的計算資源、更高的路由性能，與此同時訓(xùn)練數(shù)據(jù)收集與路由感知過程需要對于原有的路由協(xié)議重新設(shè)計以使得智能路由算法所需要的數(shù)據(jù)能夠被智能單元所獲得.SDN網(wǎng)絡(luò)以及可編程路由設(shè)備的提出使得路由器控制層的計算能力變得更強(qiáng)，然而即便如此智能路由算法也很難在現(xiàn)有網(wǎng)絡(luò)體系結(jié)構(gòu)下進(jìn)行大規(guī)模部署.在優(yōu)化智能路由算法性能并增強(qiáng)其對傳統(tǒng)路由算法兼容性以及可擴(kuò)展性的同時，設(shè)計與智能路由方案相匹配的路由設(shè)備也許會是未來智能路由算法發(fā)展的趨勢.

6 總結(jié)

本文經(jīng)過調(diào)研發(fā)現(xiàn)，現(xiàn)有智能路由算法主要分為基于監(jiān)督學(xué)習(xí)與基于強(qiáng)化學(xué)習(xí)2類：1)基于監(jiān)督學(xué)習(xí)的智能路由方法主要通過用深度學(xué)習(xí)模型替代現(xiàn)有路由算法或輔助傳統(tǒng)路由算法完成路由求解.深度學(xué)習(xí)方法使得智能路由算法對環(huán)境感知更敏感、收斂速度更快，數(shù)據(jù)驅(qū)動的輔助模塊也能夠使得傳統(tǒng)路由算法所做出的路由決策更準(zhǔn)確，并在擁塞發(fā)生之前提前避免.2)基于強(qiáng)化學(xué)習(xí)的路由算法能夠自適應(yīng)不同的路由應(yīng)用場景，并優(yōu)化多種網(wǎng)絡(luò)性能指標(biāo).其中基于模型的Q-Learning方法被廣泛用于無線傳感器網(wǎng)絡(luò)的路由優(yōu)化過程，而深度強(qiáng)化學(xué)習(xí)方法則被應(yīng)用于域內(nèi)流量工程、基于流量預(yù)測的智能路由算法等多樣化的復(fù)雜路由優(yōu)化問題.

本文分析了在線與離線的智能路由訓(xùn)練方案以及集中式和分布式2種智能路由部署方案的優(yōu)缺點，并進(jìn)一步提出了離線集中式訓(xùn)練加在線部署的閉環(huán)學(xué)習(xí)框架以及自適應(yīng)在線訓(xùn)練與安全學(xué)習(xí)相結(jié)合的有可靠性保證的智能路由部署框架.這2種框架為基于機(jī)器學(xué)習(xí)的智能路由算法在真實場景下低成本、高可靠性地部署提供了可能.

本文討論了智能路由算法在未來發(fā)展過程中的機(jī)遇與挑戰(zhàn)，并針對這些挑戰(zhàn)提出了基于機(jī)器學(xué)習(xí)的智能路由算法未來可能的研究方向.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放