王月娟,張?zhí)K寧,吳水明,朱 斐
(1.國(guó)網(wǎng)江蘇省電力有限公司蘇州供電分公司,江蘇 蘇州 215004;2.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
近年來(lái),隨著網(wǎng)絡(luò)的規(guī)模逐步變大,傳統(tǒng)的路由選擇算法越來(lái)越難以處理日益復(fù)雜的網(wǎng)絡(luò);同時(shí),網(wǎng)絡(luò)線路的動(dòng)態(tài)變化、網(wǎng)絡(luò)負(fù)載的不確定性給路由選擇算法帶來(lái)了極大的挑戰(zhàn),因此如何設(shè)計(jì)有效的路由選擇算法是研究人員關(guān)注的熱點(diǎn)和難點(diǎn)。
傳統(tǒng)的靜態(tài)路由選擇算法一般根據(jù)某種固定規(guī)則進(jìn)行路由選擇,對(duì)于網(wǎng)絡(luò)的變化和波動(dòng)不能及時(shí)作出相應(yīng)的調(diào)整,只能依靠人工更新路由表才能適應(yīng)新的網(wǎng)絡(luò)環(huán)境,而動(dòng)態(tài)路由選擇算法能夠根據(jù)網(wǎng)絡(luò)當(dāng)前的狀態(tài)進(jìn)行動(dòng)態(tài)的路由選擇。動(dòng)態(tài)路由選擇算法分為3種:集中式、分布式與混合式[1]。集中式路由選擇算法通過(guò)收集全網(wǎng)的狀態(tài)信息進(jìn)行路由計(jì)算從而得到最優(yōu)的路由選擇策略。這類算法能夠適應(yīng)不同的網(wǎng)絡(luò)環(huán)境并且做出最優(yōu)的決策,但是需要定期從所有路由中獲得數(shù)據(jù),并且需要一個(gè)網(wǎng)絡(luò)控制中心對(duì)數(shù)據(jù)進(jìn)行收集處理,增加了網(wǎng)絡(luò)的成本。分布式路由選擇算法無(wú)需其他路由的信息,通過(guò)處理獲得數(shù)據(jù)動(dòng)態(tài)地調(diào)整策略以適應(yīng)網(wǎng)路波動(dòng),但是復(fù)雜的算法會(huì)降低處理速度,增加網(wǎng)路負(fù)擔(dān)[2]。
人們開始嘗試使用機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行動(dòng)態(tài)路由選擇。在機(jī)器學(xué)習(xí)領(lǐng)域中,強(qiáng)化學(xué)習(xí)是一類重要的學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)方法的Agent通過(guò)與環(huán)境的交互來(lái)獲得獎(jiǎng)賞從而改進(jìn)自身的策略,通過(guò)不斷地迭代得到最優(yōu)策略[3]。時(shí)間差分學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的核心算法之一,被廣泛地應(yīng)用到各類研究與實(shí)踐中[4]。時(shí)間差分學(xué)習(xí)的主要特點(diǎn)是在缺少環(huán)境模型的條件下利用值函數(shù)的估計(jì)值對(duì)值函數(shù)進(jìn)行更新[5],這使得它能夠被用于需要在線更新的任務(wù)當(dāng)中,而不需要等到情節(jié)結(jié)束之后才可以更新。Q-學(xué)習(xí)算法[6]是時(shí)間差分算法中應(yīng)用得最廣泛的算法之一,它的特點(diǎn)是行動(dòng)策略與目標(biāo)策略分離[7],可以從行動(dòng)策略中學(xué)習(xí)到最優(yōu)的目標(biāo)策略。由于強(qiáng)化學(xué)習(xí)能通過(guò)在線學(xué)習(xí)的方式更新,求解最優(yōu)策略,解決未知環(huán)境的最優(yōu)控制問(wèn)題,研究人員將分布式路由選擇算法與強(qiáng)化學(xué)習(xí)相結(jié)合,從而解決傳統(tǒng)動(dòng)態(tài)路由選擇算法成本高和復(fù)雜度高的問(wèn)題。Boyan等人[8]提出Q-路由選擇(Q-routing)算法,將Q-學(xué)習(xí)算法引入路由選擇算法中,比傳統(tǒng)的算法有著更好的性能。但Q-路由選擇方法比較單一,難以適應(yīng)各種應(yīng)用。針對(duì)此,本文提出基于秩的Q-routing(Rank-based Q-routing, RQ-routing)算法,使用具有動(dòng)態(tài)計(jì)算功能的秩函數(shù),對(duì)狀態(tài)進(jìn)行賦予優(yōu)先級(jí)值,求解出最優(yōu)路由選擇,提高傳輸效率;RQ-routing算法中的秩函數(shù)具有靈活性,可以根據(jù)實(shí)際場(chǎng)景設(shè)定不同的秩以滿足場(chǎng)景需求。
強(qiáng)化學(xué)習(xí)利用Agent和環(huán)境的交互,通過(guò)映射動(dòng)作和場(chǎng)景進(jìn)行學(xué)習(xí)以獲得最優(yōu)策略。與其他的機(jī)器學(xué)習(xí)算法不同的是,強(qiáng)化學(xué)習(xí)方法不會(huì)告訴Agent在當(dāng)前狀態(tài)下應(yīng)該采取的最優(yōu)動(dòng)作,而是讓Agent與環(huán)境進(jìn)行交互,通過(guò)不斷地嘗試來(lái)最大化總獎(jiǎng)賞值進(jìn)而獲得最優(yōu)策略。強(qiáng)化學(xué)習(xí)包含2個(gè)最重要的特征——試錯(cuò)探索和延遲獎(jiǎng)賞。在強(qiáng)化學(xué)習(xí)中,由于未告知Agent應(yīng)該采取的動(dòng)作,所以Agent需要遍歷所有可能的動(dòng)作。但是為了得到最大的獎(jiǎng)賞值,Agent又需要選取最優(yōu)動(dòng)作,所以強(qiáng)化學(xué)習(xí)要在探索和貪心中進(jìn)行平衡,找到最優(yōu)解[9]。而延遲獎(jiǎng)賞則是為了使動(dòng)作的選擇具有長(zhǎng)遠(yuǎn)性,可能有些動(dòng)作在立即回報(bào)上表現(xiàn)得很好,但是從長(zhǎng)遠(yuǎn)看并不是最優(yōu)動(dòng)作,有了延遲獎(jiǎng)賞就可以將這些動(dòng)作的獎(jiǎng)賞值降低,從而找到最優(yōu)動(dòng)作。強(qiáng)化學(xué)習(xí)包括了很多經(jīng)典的常用算法,如Q-學(xué)習(xí)方法等,也有很多相關(guān)的研究和應(yīng)用[10-13]。
強(qiáng)化學(xué)習(xí)算法一般由4個(gè)基本元素組成:值函數(shù)(value function)、策略(policy)、獎(jiǎng)賞函數(shù)(reward function)和模型(model)。強(qiáng)化學(xué)習(xí)是一種從交互中學(xué)習(xí)達(dá)到目標(biāo)問(wèn)題的簡(jiǎn)單框架,如圖1所示,其中Agent是學(xué)習(xí)器和決策器,與之進(jìn)行交互的所有東西是環(huán)境。這些交互不斷地進(jìn)行著,Agent選擇動(dòng)作,環(huán)境對(duì)這些動(dòng)作做出響應(yīng),并產(chǎn)生新的場(chǎng)景給Agent[14]。一個(gè)完整的環(huán)境規(guī)范定義了一個(gè)任務(wù),即強(qiáng)化學(xué)習(xí)問(wèn)題的一個(gè)實(shí)例。
圖1 強(qiáng)化學(xué)習(xí)中的交互
在進(jìn)行強(qiáng)化學(xué)習(xí)方法的建模時(shí),Agent和環(huán)境在每一離散時(shí)間步中進(jìn)行交互,Agent感知到環(huán)境的狀態(tài)St∈S,其中S是所有可能狀態(tài)的集合,然后根據(jù)該狀態(tài)做出動(dòng)作At∈A(St),其中A(St)是在狀態(tài)St中所有可能做出動(dòng)作的集合。到下一個(gè)時(shí)刻,Agent從環(huán)境中得到該動(dòng)作的回報(bào)值Rt+1∈,并且到達(dá)一個(gè)新狀態(tài)St+1。
Q-學(xué)習(xí)算法是時(shí)間差分算法中的一種控制算法,它使用狀態(tài)-動(dòng)作對(duì)來(lái)進(jìn)行值函數(shù)估計(jì),對(duì)于每個(gè)時(shí)間步t,通過(guò)得到的獎(jiǎng)賞(Rt+1)、此時(shí)刻的狀態(tài)(St)、動(dòng)作(At)以及下一個(gè)狀態(tài)(St+1)來(lái)計(jì)算誤差進(jìn)行迭代直到收斂。在Q-學(xué)習(xí)中,使用Q(St,At)值來(lái)評(píng)估狀態(tài)St下選擇動(dòng)作At的優(yōu)劣,在學(xué)習(xí)過(guò)程中,Q值的更新公式如下:
Qt+1(St,At)=Qt(St,At)+α(Rt+1+
γmaxAt+1Qt(St+1,At+1)-Qt(St,At))
(1)
其中,α∈(0,1)為學(xué)習(xí)速率,用于控制學(xué)習(xí)更新的速度;γ∈(0,1)用于表示未來(lái)獎(jiǎng)賞的折扣,意味著相較于以后的回報(bào)更看重眼前的獎(jiǎng)賞。
在使用強(qiáng)化學(xué)習(xí)方法對(duì)路由選擇問(wèn)題進(jìn)行建模時(shí),需要定義狀態(tài)、動(dòng)作集、獎(jiǎng)賞函數(shù)和值函數(shù)。
首先,定義狀態(tài)。在路由選擇算法中,狀態(tài)為網(wǎng)絡(luò)中的路由和目標(biāo)路由,網(wǎng)絡(luò)智能體則是所有的路由,目標(biāo)是以最短的時(shí)間將所有的數(shù)據(jù)傳輸?shù)侥繕?biāo)路由[15],其中定義當(dāng)前的路由為x,目標(biāo)路由為d,那么當(dāng)前的狀態(tài)為(d,x)。
然后,定義動(dòng)作集。動(dòng)作集為當(dāng)前狀態(tài)可傳輸數(shù)據(jù)的路由集Y,假設(shè)算法選擇了下一個(gè)路由為y∈Y,那么當(dāng)前的路由選擇將數(shù)據(jù)包發(fā)送至y路由,獲得獎(jiǎng)賞并且到達(dá)下一狀態(tài)(d,y)。
接著,定義獎(jiǎng)賞函數(shù)。由于網(wǎng)絡(luò)的目的是盡快地傳輸數(shù)據(jù),那么就將數(shù)據(jù)傳輸使用的時(shí)間作為獎(jiǎng)賞,該獎(jiǎng)賞分為2部分,數(shù)據(jù)包在該路由隊(duì)列中的等待時(shí)間w和數(shù)據(jù)傳輸時(shí)間t[16]。
最后,定義值函數(shù)。為了方便表示,考慮到數(shù)據(jù)都是傳輸?shù)酵荒繕?biāo)路由d。定義值函數(shù)為Qd(x,y),其中d表示目標(biāo)路由,x表示當(dāng)前狀態(tài),y表示當(dāng)前路由x選擇的動(dòng)作即傳輸數(shù)據(jù)的路由。通過(guò)以上定義,結(jié)合公式(1),可以得到值函數(shù)的更新公式:
Qd(x,y)=Qd(x,y)+
α(w+t+γminzQd(y,z)-Qd(x,y))
(2)
Q-學(xué)習(xí)算法在計(jì)算誤差時(shí)會(huì)在下一個(gè)狀態(tài)選取最優(yōu)動(dòng)作計(jì)算誤差,傳輸數(shù)據(jù)花費(fèi)的時(shí)間越少動(dòng)作越好,所以在式(2)中選取對(duì)應(yīng)值函數(shù)最小的動(dòng)作。
Boyan所提出的Q-routing算法對(duì)比之前的路由選擇算法有著性能上的優(yōu)勢(shì),但是應(yīng)用場(chǎng)景單一。在實(shí)際應(yīng)用中,不同的網(wǎng)絡(luò)架構(gòu)有著不同的需求[17-20],傳統(tǒng)的Q-routing算法很難在不同的場(chǎng)景中作出調(diào)整以滿足不同的需求。
為了適應(yīng)不同場(chǎng)景,可以從算法結(jié)構(gòu)與獎(jiǎng)賞函數(shù)這2個(gè)角度進(jìn)行改進(jìn)。從算法結(jié)構(gòu)改進(jìn)的方法中,需要根據(jù)不同場(chǎng)景的實(shí)際特點(diǎn)重新設(shè)計(jì)算法,雖然有較強(qiáng)的針對(duì)性,能很好地解決該應(yīng)用場(chǎng)景的問(wèn)題,但是對(duì)不同場(chǎng)景都要重新設(shè)計(jì)相應(yīng)算法,因此算法通用性較差,解決問(wèn)題的范圍也受到很大限制;在強(qiáng)化學(xué)習(xí)的框架下,通過(guò)重新定義獎(jiǎng)賞函數(shù)改進(jìn)算法,能使算法具有通用性,但需要對(duì)問(wèn)題進(jìn)行強(qiáng)化學(xué)習(xí)的建模分析。
根據(jù)前文所述的動(dòng)態(tài)路由算法建模,確定了狀態(tài)、動(dòng)作集、獎(jiǎng)賞函數(shù)和值函數(shù)以及值函數(shù)的更新方式。在模型中引入了秩的概念。秩是一種與狀態(tài)一一對(duì)應(yīng)的函數(shù),表示當(dāng)前狀態(tài)在場(chǎng)景中的優(yōu)先級(jí),可以動(dòng)態(tài)計(jì)算,具有更好的泛化能力。在此基礎(chǔ)上,本文提出一種基于秩的Q-routing(Rank-based Q-routing Algorithm, RQ-routing)算法。通過(guò)設(shè)計(jì)秩函數(shù)改變獎(jiǎng)賞信息,對(duì)于不同的場(chǎng)景,算法無(wú)需作出較大的改變,只需要替換相應(yīng)的秩函數(shù),即可適應(yīng)不同的場(chǎng)景,大大減少設(shè)計(jì)成本。例如,使用路由的隊(duì)列長(zhǎng)度作為秩函數(shù)來(lái)進(jìn)行學(xué)習(xí),能夠避免隊(duì)列過(guò)長(zhǎng),減少網(wǎng)絡(luò)擁堵,提高傳輸速度。算法1描述了基于秩的Q-routing算法執(zhí)行的主要步驟。
算法1基于秩的Q-routing算法
輸入:目標(biāo)路由d,路由連通信息
輸出:訓(xùn)練完畢的Q值
1:for 每個(gè)時(shí)間步 do
2:for 每個(gè)路由x do
3:使用ε-greedy選擇動(dòng)作a
4:執(zhí)行動(dòng)作獲得傳輸延時(shí)t與數(shù)據(jù)等待時(shí)間w和下一個(gè)狀態(tài)y
5:δ←t+w+γmaxa′Qd(y,a′)-Qd(x,a)
6:根據(jù)不同需求計(jì)算當(dāng)前的秩R(x)
7:Qd(x,a)←Qd(x,a)+α(R(x)+δ)
8:end for
9:end for
10:return Q
與Q-routing 算法進(jìn)行比較可以看出,本文提出的RQ-routing算法可以通過(guò)設(shè)置不同的秩靈活運(yùn)用于不同場(chǎng)景中。在RQ-routing算法中,如果改變R(x)的更新公式,將所有的R(x)都置為0,則RQ-routing就退化成了Q-routing。RQ-routing算法可以根據(jù)不同的需求設(shè)置不同的秩,同時(shí)對(duì)于網(wǎng)絡(luò)需求的波動(dòng),例如網(wǎng)絡(luò)波谷時(shí)需要提高傳輸速度,網(wǎng)絡(luò)波峰時(shí)需要減少傳輸時(shí)間,都可以通過(guò)調(diào)節(jié)秩來(lái)達(dá)到相應(yīng)的效果,且Q-學(xué)習(xí)的快速收斂能夠保證網(wǎng)絡(luò)較快地調(diào)整到最優(yōu)狀態(tài)。
為了比較Q-routing算法與RQ-routing算法的性能,本文設(shè)計(jì)了一個(gè)簡(jiǎn)單的15路由的網(wǎng)絡(luò)[16],如圖2所示,其中有3個(gè)發(fā)射源(12,13,14)和一個(gè)目標(biāo)源(15)。每個(gè)路由在每個(gè)時(shí)間步可以處理一個(gè)數(shù)據(jù)包,每個(gè)連接都是雙向的且傳輸延遲為一個(gè)時(shí)間步。
圖2 15路由網(wǎng)絡(luò)
不難看出每個(gè)發(fā)射源的最短路徑,其中:
路由12的最短路徑為12→1→4→15;
路由13的最短路徑為13→2→4→15;
路由14的最短路徑為14→3→4→15。
但是由于每個(gè)路由在每個(gè)時(shí)間步只能處理一個(gè)數(shù)據(jù)包,當(dāng)所有發(fā)射源只通過(guò)最短路徑傳輸數(shù)據(jù)時(shí),路由4中就會(huì)發(fā)生擁塞。
一個(gè)解決辦法是:每個(gè)數(shù)據(jù)源傳輸數(shù)據(jù)時(shí)都選擇不同的路徑,且這些路徑?jīng)]有共同的路由。例如,路由12通過(guò)12→1→5→6→15發(fā)送數(shù)據(jù),路由13通過(guò)13→2→7→8→9→10→11→15發(fā)送數(shù)據(jù),路由14通過(guò)14→3→4→15發(fā)送數(shù)據(jù)。最優(yōu)的路由算法要根據(jù)每個(gè)發(fā)射源的情況決定,當(dāng)網(wǎng)絡(luò)負(fù)載較小時(shí),就可以盡量選擇最短路徑。當(dāng)網(wǎng)絡(luò)負(fù)載較大時(shí),為了防止發(fā)生擁塞就要考慮選擇次優(yōu)路徑避免擁塞。
本文通過(guò)仿真實(shí)驗(yàn)?zāi)M了上述的網(wǎng)絡(luò),實(shí)現(xiàn)了Q-routing算法和RQ-routing算法并且在上述仿真網(wǎng)絡(luò)中進(jìn)行了對(duì)比試驗(yàn)。對(duì)比實(shí)驗(yàn)分為2個(gè)部分,分別為低負(fù)載和隨機(jī)高負(fù)載的情況下,通過(guò)實(shí)驗(yàn)數(shù)據(jù)與圖表分析不同情況下Q-routing算法和RQ-routing算法的異同。
首先,對(duì)比低負(fù)載情況下RQ-routing算法和Q-routing算法的效果。表1給出了低負(fù)載情況下不同時(shí)間步傳輸?shù)臄?shù)據(jù)包的個(gè)數(shù),圖3給出了RQ-routing算法和Q-routing算法的效果對(duì)比曲線。
表1 低負(fù)載情況下不同時(shí)間步傳輸數(shù)據(jù)量
圖3 低負(fù)載情況下的對(duì)比實(shí)驗(yàn)效果曲線
在低負(fù)載情況的實(shí)驗(yàn)中,低負(fù)載情況的模擬是所有發(fā)射源都隔一段時(shí)間傳輸一個(gè)數(shù)據(jù)包,網(wǎng)絡(luò)負(fù)載較低,很少出現(xiàn)擁堵。RQ-routing算法的秩就是路由的隊(duì)列長(zhǎng)度。從圖3中可以看出在低負(fù)載網(wǎng)絡(luò)中,2種算法的差異不明顯,說(shuō)明加入秩之后在低負(fù)載網(wǎng)絡(luò)下不會(huì)影響學(xué)習(xí)算法的效果,2種方法都能較快地學(xué)習(xí)到最優(yōu)路徑。另一方面,該實(shí)驗(yàn)選取的秩是隊(duì)列長(zhǎng)度,在低負(fù)載網(wǎng)絡(luò)下發(fā)生擁堵的概率較低,隊(duì)列長(zhǎng)期為空,所以選擇的秩不會(huì)有太大的影響,這說(shuō)明選擇不同的秩在不同的網(wǎng)絡(luò)狀態(tài)下對(duì)性能的影響也不同。
接著,對(duì)比高負(fù)載情況RQ-routing算法和Q-routing算法的效果。低負(fù)載網(wǎng)絡(luò)下的比較試驗(yàn)比較理想化,在實(shí)際應(yīng)用中網(wǎng)絡(luò)的隨機(jī)性很強(qiáng),所以在進(jìn)行高負(fù)載試驗(yàn)時(shí),并不是簡(jiǎn)單地縮減傳輸數(shù)據(jù)的時(shí)間,而是通過(guò)隨機(jī)傳輸?shù)姆绞竭M(jìn)行測(cè)試。每個(gè)發(fā)射源在每個(gè)時(shí)間步都有0.8的概率產(chǎn)生一個(gè)數(shù)據(jù)包,這就使得2個(gè)數(shù)據(jù)包之間的時(shí)間不固定,并且選擇固定的線路網(wǎng)絡(luò)極易發(fā)生擁塞,這就要考驗(yàn)算法的動(dòng)態(tài)調(diào)整的性能。
表2給出了高負(fù)載情況下不同時(shí)間步傳輸?shù)臄?shù)據(jù)包的個(gè)數(shù),圖4給出了RQ-routing算法和Q-routing算法的效果對(duì)比曲線。
表2 高負(fù)載情況下不同時(shí)間步傳輸數(shù)據(jù)量
圖4 高負(fù)載情況下的對(duì)比實(shí)驗(yàn)效果曲線
在高負(fù)載情況的實(shí)驗(yàn)中,仍然使用隊(duì)列的長(zhǎng)度作為秩。在高負(fù)載網(wǎng)絡(luò)中,擁塞是不可避免的,路由要根據(jù)不同的情況調(diào)整策略從而應(yīng)對(duì)高負(fù)載的隨機(jī)網(wǎng)絡(luò)。從圖4中可以看出,在高負(fù)載隨機(jī)網(wǎng)絡(luò)中,RQ-routing相較于Q-routing,在大概120步的時(shí)候顯現(xiàn)出差距,隨著時(shí)間的增長(zhǎng)有著明顯的性能優(yōu)勢(shì)。隨機(jī)性的網(wǎng)絡(luò)使得固定策略不再適用,而是要根據(jù)實(shí)際情況動(dòng)態(tài)調(diào)整,在實(shí)際應(yīng)用中也是如此。RQ-routing通過(guò)設(shè)定秩,減少了網(wǎng)絡(luò)波動(dòng)對(duì)于算法的影響,能夠在相應(yīng)的場(chǎng)景動(dòng)態(tài)地調(diào)整策略,使得算法可以根據(jù)不同的需求進(jìn)行改變從而應(yīng)用到不同的場(chǎng)景當(dāng)中。
通過(guò)2組實(shí)驗(yàn)的對(duì)比,可以得出以下結(jié)論:1)RQ-routing在低負(fù)載場(chǎng)景中能夠與Q-routing達(dá)到幾乎相同的效果,不會(huì)因?yàn)榧尤胫榷绊懶阅埽?)對(duì)于高負(fù)載場(chǎng)景,RQ-routing算法的性能明顯優(yōu)于Q-routing算法,并且隨著時(shí)間增長(zhǎng)差距會(huì)拉大;3)RQ-routing算法能夠通過(guò)設(shè)置不同的秩達(dá)到不同效果,從而滿足多樣化需求。
傳統(tǒng)的路由算法不能根據(jù)網(wǎng)絡(luò)的波動(dòng)動(dòng)態(tài)地調(diào)整路由選擇策略,不能適用于當(dāng)前日益復(fù)雜的網(wǎng)絡(luò)環(huán)境。Q-routing算法雖然能夠動(dòng)態(tài)地調(diào)整策略,但應(yīng)對(duì)的場(chǎng)景比較單一。本文提出了一種基于秩的Q-routing算法,能夠通過(guò)調(diào)節(jié)秩來(lái)應(yīng)對(duì)不同的場(chǎng)景,并且在其他場(chǎng)景下沒(méi)有性能的損失。
本文的工作也有值得進(jìn)一步深入研究的內(nèi)容。例如,基于強(qiáng)化學(xué)習(xí)的路由算法仍然沒(méi)有大規(guī)模的應(yīng)用,但是其適用于解決動(dòng)態(tài)路由以及網(wǎng)絡(luò)波動(dòng)這一類問(wèn)題,有較強(qiáng)的實(shí)用性和廣闊的應(yīng)用前景?,F(xiàn)有的算法只適用于小型的網(wǎng)絡(luò),對(duì)于大型的網(wǎng)絡(luò)沒(méi)有進(jìn)行狀態(tài)的泛化,不能高效地進(jìn)行學(xué)習(xí)。同時(shí)對(duì)于秩的設(shè)定仍然需要人工進(jìn)行,并沒(méi)有進(jìn)行參數(shù)的泛化,這是未來(lái)的工作之一。為了解決這些問(wèn)題,需要將狀態(tài)進(jìn)行函數(shù)近似,通過(guò)函數(shù)近似的方法來(lái)解決大空間的問(wèn)題。同時(shí)對(duì)于秩的設(shè)定可以參考一些方法(如PBT[21])來(lái)進(jìn)行自動(dòng)調(diào)整,獲取最優(yōu)參數(shù)。另外,還可以考慮結(jié)合深度學(xué)習(xí),使用深度強(qiáng)化學(xué)習(xí)的方法,來(lái)解決更大規(guī)模的問(wèn)題。