黃慶東,石斌宇,郭民鵬,袁潤芝,陳 晨
(西安郵電大學(xué)通信與信息工程學(xué)院信息與通信技術(shù)國家級實驗教學(xué)中心 西安 710121)
移 動 自 組 織 網(wǎng) 絡(luò)(mobile Ad hoc networks,MANET)是由移動節(jié)點組成復(fù)雜分布式系統(tǒng)。移動節(jié)點可以自由和動態(tài)地自組織成臨時網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來傳輸每個節(jié)點收集到的信息。MANET 的特點是有限的存儲資源、處理能力以及高度移動性。在網(wǎng)絡(luò)中,移動節(jié)點可以動態(tài)地加入或離開網(wǎng)絡(luò),導(dǎo)致了頻繁和難以預(yù)測的拓?fù)涓淖儯又亓司W(wǎng)絡(luò)任務(wù)的復(fù)雜程度,降低了網(wǎng)絡(luò)通信質(zhì)量。由于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的不斷變化[1-2],無線鏈路在高速移動環(huán)境中經(jīng)常發(fā)生斷裂,如何保持通信鏈路的持續(xù)性成為一個巨大挑戰(zhàn)。因此,在臨時網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息交互過程中選擇穩(wěn)定聯(lián)接鏈路節(jié)點進(jìn)行傳輸對于鏈路聯(lián)接的持續(xù)性有重要意義。
為了增強網(wǎng)絡(luò)的性能因素,目前最有效方法是通過節(jié)點的移動特性來預(yù)測網(wǎng)絡(luò)中鏈路聯(lián)接的穩(wěn)定性程度和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。文獻(xiàn)[3]提出了基于自適應(yīng)神經(jīng)模糊系統(tǒng)來預(yù)測節(jié)點的運動軌跡,根據(jù)預(yù)測得到的軌跡來選擇鏈路節(jié)點進(jìn)行傳輸。文獻(xiàn)[1]通過收集節(jié)點的接收信號強度指示(received signal strength indication, RSSI),將 其 進(jìn) 行 深 度 學(xué) 習(xí) 訓(xùn)練,預(yù)測節(jié)點的運動軌跡。文獻(xiàn)[4-5]通過深度學(xué)習(xí)或機器學(xué)習(xí)方法對節(jié)點的位置進(jìn)行預(yù)測或進(jìn)行鏈路質(zhì)量預(yù)測來選擇最短可靠路徑進(jìn)行信息傳輸。文獻(xiàn)[6]提出一種基于接收信號強度選擇穩(wěn)定路徑的方法,根據(jù)一段時間內(nèi)節(jié)點接收信號強度平均值將鏈路分為強聯(lián)接和弱聯(lián)接兩類,設(shè)定閾值選擇某一閾值內(nèi)的鏈路進(jìn)行路由傳輸。上述算法在研究方法上不盡相同,但都存在一定的局限性?,F(xiàn)有的預(yù)測鏈路穩(wěn)定性的算法中,大多都是僅考慮節(jié)點相對移動性,或僅采集節(jié)點某個時期的運動參數(shù),而這些參數(shù)不能及時反映節(jié)點移動特性的變化,沒有考慮對鏈路穩(wěn)定性的綜合影響。通常在預(yù)測節(jié)點的未來移動性時需大量的測量數(shù)據(jù)以及控制信息,這些因素會形成巨大開銷造成網(wǎng)絡(luò)擁塞,降低網(wǎng)絡(luò)性能。在預(yù)測過程中節(jié)點移動特性是假設(shè)不變的,然而在實際的網(wǎng)絡(luò)中這些情況都會實時變化,算法不能很好地自適應(yīng)環(huán)境變化。因此,本文提出一種基于強化學(xué)習(xí)的分布式自適應(yīng)拓?fù)浞€(wěn)定性方法,通過對網(wǎng)絡(luò)中各個鄰居節(jié)點接收信號強度值自適應(yīng)學(xué)習(xí),得到每個節(jié)點對未來鏈路穩(wěn)定性和拓?fù)浣Y(jié)構(gòu)的判斷依據(jù),提升網(wǎng)絡(luò)性能。
本文將接收信號強度與強化學(xué)習(xí)方法結(jié)合,每個分布式節(jié)點通過鄰居節(jié)點的信號強度值進(jìn)行分布式強化學(xué)習(xí),自適應(yīng)劃分區(qū)間邊界分級處理,形成直接決策區(qū)間和自適應(yīng)強化學(xué)習(xí)區(qū)間,對不同環(huán)境下節(jié)點的聯(lián)接狀態(tài)進(jìn)行分級判斷以及實時更新學(xué)習(xí)。經(jīng)過不斷學(xué)習(xí)每個節(jié)點得到最優(yōu)聯(lián)接策略表,根據(jù)策略表中的值預(yù)測和判斷下一狀態(tài)的鄰居節(jié)點聯(lián)接情況,解決了綜合因素對鏈路穩(wěn)定性的影響。
為了說明鏈路穩(wěn)定性研究在移動自組織網(wǎng)絡(luò)中的重要性,通過圖1 所示場景進(jìn)行簡要說明。從圖1 中可以觀察到,移動自組織網(wǎng)絡(luò)包含4 個節(jié)點A,B,C,D。節(jié)點A 需要向D 發(fā)送數(shù)據(jù)包,所以節(jié)點A 廣播路由請求分組并發(fā)現(xiàn)要發(fā)送數(shù)據(jù)包到D 必須經(jīng)過節(jié)點B 或C。此時節(jié)點B 正迅速遠(yuǎn)離A 和D 節(jié)點,而節(jié)點C 緩慢向A 移動。如果節(jié)點A 選擇B 作為轉(zhuǎn)發(fā)節(jié)點,由于B 的移動性,(A,B)鏈路不穩(wěn)定,很容易斷開。由于C 是緩慢向A 節(jié)點移動,所以在傳輸?shù)倪^程中(A, C)鏈路相比(A, B)將會有更長的時間保持良好穩(wěn)定聯(lián)接。A 選擇C 作為下一跳傳輸節(jié)點轉(zhuǎn)發(fā)到D,更有助于信息的可靠網(wǎng)絡(luò)傳輸。通過上述場景可以看出,根據(jù)平均聯(lián)接有效時長選擇最穩(wěn)定的路徑可以避免未來鏈路失效,從而改善路由。
由于每個節(jié)點具有移動性,作為最短路徑的一條鏈路可能在聯(lián)接建立之后迅速斷開。中斷的鏈路會導(dǎo)致路由服務(wù)質(zhì)量下降。因此,在MANET 中節(jié)點之間構(gòu)建相對穩(wěn)定的拓?fù)渎?lián)接可以避免鏈路故障,很大程度上改善了網(wǎng)絡(luò)通信服務(wù)質(zhì)量。
強化學(xué)習(xí)算法是一類經(jīng)典的在線機器學(xué)習(xí)算法,智能體根據(jù)環(huán)境狀態(tài)輸入,通過與環(huán)境交互得到反饋獎賞來選擇當(dāng)前環(huán)境狀態(tài)的最佳動作[7]。強化學(xué)習(xí)系統(tǒng)主要包括5 個部分:環(huán)境、狀態(tài)s、動作a、 獎勵 r和智能體(Agent)。強化學(xué)習(xí)以“嘗試”的方式進(jìn)行學(xué)習(xí)和強化,并形成好的動作策略。整個系統(tǒng)的框架如圖2 所示。
強化學(xué)習(xí)是由仿生學(xué)習(xí)、自動控制等理論發(fā)展而來,其基本原理是:如果Agent 的某個行為策略導(dǎo)致環(huán)境正的獎勵(強化信號),則此行為策略便會加強,反之減弱。Agent 的目標(biāo)是在每個離散狀態(tài)學(xué)習(xí)最優(yōu)策略使期望獎賞最大化。
強化學(xué)習(xí)中Q-learning 算法由于其較好的算法性能,被廣泛研究和使用。其狀態(tài)集 S由集合{s1,s2,···,si,···} 組成,動作集 A由 {a1,a2,···,aj,···}組成。不同狀態(tài)動作對 (si, aj)對 應(yīng)Q 值矩陣i 行 j列的元素,狀態(tài)動作集對應(yīng)的Q 值可表示為Q 值矩陣。分布式強化學(xué)習(xí)時,每個節(jié)點獨立訓(xùn)練學(xué)習(xí),并保持一個Q 值矩陣不斷學(xué)習(xí)更新。定義評估函數(shù) 值 Qt(si,aj)為 Agent 在 t時 刻 狀 態(tài) si下 選 取 動 作aj計算獲得的Q 值,其中 si∈ S , aj∈A ,并且在下一狀態(tài)選取最優(yōu)動作的折扣獎勵累積值。在Qlearning 算法不斷的學(xué)習(xí)過程中,每個網(wǎng)絡(luò)節(jié)點的Agent 通過遞歸的方式不斷更新該節(jié)點Q 值,以獲得最大的長期累積獎勵,最終可以得到預(yù)期目標(biāo)下此節(jié)點的最佳學(xué)習(xí)策略。各個節(jié)點的Q 值更新函數(shù)為[7]:
式中, α為學(xué)習(xí)率, 0< α<1; γ為獎勵折扣因子,0<γ<1; aj為當(dāng)前動作,為策略在狀態(tài)上對應(yīng)的最大Q 值動作; si為當(dāng)前狀態(tài);為 si執(zhí)行動作aj后轉(zhuǎn)移到的狀態(tài);為在狀態(tài) si下執(zhí)行動作aj后轉(zhuǎn)移到狀態(tài)得到的獎勵值;表示狀態(tài)下所有狀態(tài)動作對中最大Q 值,代表當(dāng)前策略取得的新狀態(tài)最好預(yù)期值對當(dāng)前策略Q 值計算的影響。
強化學(xué)習(xí)應(yīng)用到MANET 中,多數(shù)情況下是解決動態(tài)情況下找尋最短路徑的問題和解決QoS 問題[8-10]。本文在強化學(xué)習(xí)的基礎(chǔ)上結(jié)合移動自組織網(wǎng)絡(luò)中節(jié)點之間信息交互時攜帶的RSSI 值,提出了自適應(yīng)拓?fù)浞€(wěn)定性算法尋找穩(wěn)定鏈路聯(lián)接。
基于Q-learning 的分布式自適應(yīng)拓?fù)浞€(wěn)定性算法是由強化學(xué)習(xí)Q-learning 算法與自適應(yīng)區(qū)間更新算法兩種方法結(jié)合產(chǎn)生一種預(yù)測周圍移動鄰居節(jié)點拓?fù)浞€(wěn)定聯(lián)接的算法。該方法利用強化學(xué)習(xí)思想建立模型,通過實時處理當(dāng)前節(jié)點接收到的鄰居節(jié)點RSSI 值進(jìn)行強化學(xué)習(xí),并對此鄰居節(jié)點的鏈路聯(lián)接狀態(tài)進(jìn)行預(yù)測,每個節(jié)點都維護(hù)一張狀態(tài)Q 值矩陣表以及一個自適應(yīng)學(xué)習(xí)區(qū)間,根據(jù)RSSI值來分區(qū)間判斷當(dāng)前鏈路質(zhì)量,算法的結(jié)構(gòu)框圖如圖3 所示。
圖3中,如果當(dāng)前節(jié)點接收到某個鄰居節(jié)點RSSI 值處于自適應(yīng)區(qū)間 [a,b]內(nèi),則執(zhí)行Q-learning算法進(jìn)行聯(lián)接狀態(tài)預(yù)測;若處于自適應(yīng)區(qū)間外,則執(zhí)行聯(lián)接狀態(tài)直接決策。自適應(yīng)區(qū)間 [a,b]的邊界依據(jù)直接決策失誤情況進(jìn)行上、下邊界的區(qū)間擴展調(diào)節(jié)。通過兩種方法的結(jié)合可以提高判決效率,提升算法判決精度,從而使預(yù)測模型更加高效、快速適應(yīng)環(huán)境的變化做出準(zhǔn)確狀態(tài)判斷。
自適應(yīng)區(qū)間更新算法服務(wù)于Q-learning 算法,為其提供更適合的強化學(xué)習(xí)區(qū)間范圍。本文假設(shè)節(jié)點發(fā)射功率為0 dBm,考慮環(huán)境等因素影響,節(jié)點間穩(wěn)定聯(lián)接臨界強度值為?77 dBm。初始化區(qū)間[a,b]中 上界 a與 下界 b的值都等于?77 dBm,這樣形成3 個 區(qū) 間 [0, a)、 [a, b]、 (b, ?∞)。 區(qū) 間 [a, b]為Qlearning 算法學(xué)習(xí)區(qū)間,進(jìn)行強化學(xué)習(xí)決策;區(qū)間外 [0,a)、 (b, ?∞)進(jìn)行狀態(tài)的直接決策。隨著算法執(zhí)行,區(qū)間 [a,b]的值不斷更新,進(jìn)行區(qū)間擴展。自適應(yīng)區(qū)間更新及決策算法流程如下:
1) 設(shè)定初始的閾值 dwin=?77 dBm,節(jié)點根據(jù)當(dāng)前采集到某鄰居節(jié)點的RSSI,當(dāng)大于閾值判定為穩(wěn)定聯(lián)接狀態(tài) s1,小于閾值判定為非穩(wěn)定聯(lián)接狀態(tài) s2。 狀態(tài)變量 s表示節(jié)點與鄰居節(jié)點的聯(lián)接狀態(tài),表示為:
2) 當(dāng)前節(jié)點根據(jù)其鄰居節(jié)點的RSSI,按照式(2)進(jìn)行狀態(tài)判定,作為下一時刻節(jié)點與此鄰居節(jié)點聯(lián)接狀態(tài)的預(yù)測s?;假設(shè)下一時刻信號強度為RSSI′,又根據(jù)式(2)判定下一時刻實際聯(lián)接狀態(tài)為s′, 若,則根據(jù)情況調(diào)整區(qū)間 [a,b],初始狀態(tài)a=b=?77 dBm。按照流程1)判定出錯時,若a
3) 直接決策:按照式(2)進(jìn)行狀態(tài)直接決策,在直接決策區(qū)間 [0,a)內(nèi) ,直接判決為 s1狀態(tài);在直接決策區(qū)間 (b, ?∞)內(nèi) ,直接判決為 s2狀態(tài)。
4) 節(jié)點根據(jù)每一鄰居節(jié)點前后時刻接收信號強度值,按照式(2)進(jìn)行決策區(qū)間邊界調(diào)整;按照流程3)進(jìn)行直接決策區(qū)間的狀態(tài)判定;而對于直接決策區(qū)間外的自適應(yīng)區(qū)間 [a,b],按照Q-learning 算法進(jìn)行強化學(xué)習(xí)和狀態(tài)決策,并對Q 值矩陣進(jìn)行持續(xù)更新。
5) 不同時刻,節(jié)點按照流程2)~流程4)鄰居節(jié)點接收信號強度進(jìn)行邊界循環(huán)更新和狀態(tài)決策。
該算法可以異步分布式執(zhí)行,網(wǎng)絡(luò)中各個節(jié)點獨立按照上述算法進(jìn)行自主學(xué)習(xí)決策。每個節(jié)點對其各鄰居節(jié)點進(jìn)行聯(lián)接狀態(tài)穩(wěn)定關(guān)系判定,最終由穩(wěn)定聯(lián)接狀態(tài)的鄰居節(jié)點構(gòu)成此節(jié)點的穩(wěn)定鄰居集。由相互穩(wěn)定聯(lián)接的節(jié)點形成移動無線自組織網(wǎng)絡(luò)的穩(wěn)態(tài)拓?fù)洹?/p>
基于Q-learning 的分布式自適應(yīng)拓?fù)浞€(wěn)定性算法中,每一個移動節(jié)點可以視為一個Agent,這樣整個網(wǎng)絡(luò)的動態(tài)變化都可認(rèn)為是一個分布式多Agent 協(xié)作系統(tǒng)。對于每個Agent,假設(shè)其環(huán)境狀態(tài)集為S ,動作集為A, 獎賞函數(shù)為,動作選擇策略為 π(si,aj)。根據(jù)Q-learning 算法基本結(jié)構(gòu)描述如下:
1) 狀態(tài)集S :由離散的狀態(tài)構(gòu)成。狀態(tài)定義為:
式中, s1狀態(tài)為根據(jù)當(dāng)前接收到某鄰居節(jié)點RSSI,節(jié)點與某鄰居節(jié)點處于穩(wěn)定聯(lián)接狀態(tài); s2狀態(tài)為根據(jù)當(dāng)前接收到某鄰居節(jié)點RSSI,與某鄰居節(jié)點處于非穩(wěn)定聯(lián)接狀態(tài)。
2) 動作集 A:每個Agent 可以采取的動作分為預(yù)判穩(wěn)定聯(lián)接狀態(tài)和預(yù)判非穩(wěn)定聯(lián)接狀態(tài)兩個類型。動作集定義為:
式中, a1為 預(yù)判穩(wěn)定狀態(tài); a2為預(yù)判非穩(wěn)定狀態(tài)。
表1 獎勵函數(shù)值表
根據(jù)表1 分析,可以得到獎賞函數(shù)定義式:
4) 動作選擇策略 π(si,aj):Q-learning 算法的策略選擇決定了Agent 怎樣去平衡探索和開發(fā)之間的問題。Agent 通過探索可以持續(xù)學(xué)習(xí)發(fā)現(xiàn)更優(yōu)的策略;通過開發(fā)選擇轉(zhuǎn)向期望狀態(tài)最佳動作。本文算法選擇 ε?貪心策略來確定最優(yōu)動作,每次選擇Q 值最大的動作。即:
5) 更新Q 值函數(shù):綜合動作、獎勵值的設(shè)計,根據(jù)式(1)的方法進(jìn)行函數(shù)的更新。
為了驗證算法有效性和穩(wěn)定性,通過Python仿真環(huán)境設(shè)計了3 組實驗來研究本文所提出算法的性能。為了能夠更加真實地建立MANET 中節(jié)點運動的隨機性以及各個節(jié)點之間速度以及運動方向的隨機性模型,在仿真場景的設(shè)計中采用了MANET中經(jīng)典的運動模型—隨機游走移動模型[11](random walk mobility model, RWM)來驗證本文算法性能。
實驗設(shè)定在150×150 m2的網(wǎng)絡(luò)區(qū)域內(nèi)生成移動節(jié)點,每個移動節(jié)點選擇隨機的方向運動、隨機的運動時間、隨機的停頓時間,實驗中設(shè)定節(jié)點數(shù)目為15 個且每個節(jié)點之間的運動互不影響。表2所示為仿真實驗的系統(tǒng)參數(shù)。
表2 實驗參數(shù)設(shè)置
根據(jù)上述的仿真參數(shù)設(shè)定,將本文算法應(yīng)用到RWM 移動模型中進(jìn)行算法的有效性測試。仿真中設(shè)定RSSI 的測量模型為自由空間傳播模型[12],計算公式如下:
式中,Loss 是傳播損耗,單位為dB,與傳輸路徑有關(guān);d 是距離,單位為km,f是工作頻率,單位為MHz。假設(shè)各個節(jié)點發(fā)射信號為窄帶信號,工作頻率為2 400 MHz,并且發(fā)射功率為0 dBm 時,可以得到 RS SI=?Loss,根據(jù)節(jié)點的最大通信距離d=0.07時 計算得到RSSI 值為 ?7 7 dBm。考慮電磁波在空氣中的損耗,設(shè)定了可以穩(wěn)定聯(lián)接的臨界值為 ?7 7 dBm。
在算法開始執(zhí)行前,設(shè)定初始的學(xué)習(xí)迭代次數(shù)為200 輪、通過學(xué)習(xí)200 輪之后得到策略表以及強化學(xué)習(xí)區(qū)間,對測試數(shù)據(jù)進(jìn)行100 輪預(yù)測來計算準(zhǔn)確率,將100 輪預(yù)測的聯(lián)接狀態(tài)結(jié)果與節(jié)點在實際移動過程中各個節(jié)點聯(lián)接狀態(tài)進(jìn)行統(tǒng)計平均,計算出每個節(jié)點在100 輪預(yù)測過程中的準(zhǔn)確率。
圖5 為仿真環(huán)境都相同的情況下,分別設(shè)定不同學(xué)習(xí)率α 為0.1、0.5、0.7 的準(zhǔn)確率值對比圖。
根據(jù)圖5 中不同學(xué)習(xí)率 α對準(zhǔn)確率的影響曲線分析可知,當(dāng)學(xué)習(xí)率 α的取值為0.1 時所有節(jié)點的準(zhǔn)確率值均維持在95%左右,并且各個節(jié)點之間的預(yù)測準(zhǔn)確率變化值相差不大,整個曲線變化比較平緩;而在學(xué)習(xí)率 α取值為0.5 或0.7 時準(zhǔn)確率比0.1 時均有所下降,并且各個節(jié)點的預(yù)測準(zhǔn)確率相差變大,曲線的變化程度較明顯。出現(xiàn)該現(xiàn)象是由于在執(zhí)行本文算法進(jìn)行預(yù)測的過程中,節(jié)點主要根據(jù)鄰居節(jié)點過去運動經(jīng)驗來判斷下一傳輸時刻聯(lián)接的狀態(tài)程度,如果學(xué)習(xí)率 α增大將增大Agent 的探索過程則對節(jié)點的運動經(jīng)驗的取值變小,從而導(dǎo)致節(jié)點的預(yù)測錯誤的幾率增加。但是在不同學(xué)習(xí)率α的影響下準(zhǔn)確率維持在0.8~0.95,從而證明算法的穩(wěn)定性。因此,在接下來的實驗過程中均選取學(xué)習(xí)率α 為0.1 作為本文算法中的參數(shù)。
為了證明算法的有效性,通過在RWM 模型中分別應(yīng)用本文提出的基于Q-learning 的分布式自適應(yīng)拓?fù)浞€(wěn)定性算法與通過強化學(xué)習(xí)算法直接得到策略表來判斷穩(wěn)定聯(lián)接次數(shù)比較。實驗設(shè)定兩次仿真環(huán)境均相同的情況下,分別統(tǒng)計測試數(shù)據(jù)100 輪中每個節(jié)點預(yù)測聯(lián)接狀態(tài)的準(zhǔn)確次數(shù)率。
根據(jù)圖6 所示,本文提出的基于Q-learning的分布式自適應(yīng)拓?fù)浞€(wěn)定性算法的準(zhǔn)確率比單獨使用Q 學(xué)習(xí)算法的準(zhǔn)確率整體提高了30%左右,故本文算法在預(yù)測的準(zhǔn)確率方面明顯優(yōu)于單獨使用Q 學(xué)習(xí)算法,其原因是各個Agent 通過自適應(yīng)的強化學(xué)習(xí)區(qū)間的不斷更新將每次的學(xué)習(xí)變化范圍擴大,自適應(yīng)區(qū)間外直接判斷聯(lián)接狀態(tài),自適應(yīng)區(qū)間內(nèi)隨著不斷的強化學(xué)習(xí)經(jīng)驗的積累做出更加精確地預(yù)測,提升算法的性能。兩種算法的比較也說明本文算法的有效性。
圖7 為通過隨機的抽取某一輪預(yù)測過程中單個節(jié)點預(yù)測得到的網(wǎng)絡(luò)拓?fù)渎?lián)接關(guān)系,與圖8 的節(jié)點在實際運動過程中的真實聯(lián)接關(guān)系進(jìn)行比較。實驗仿真環(huán)境與上述兩個實驗相同,仿真中實際聯(lián)接穩(wěn)定的閾值設(shè)定為 dwin=?77 dBm,根據(jù)設(shè)定閾值判斷穩(wěn)定聯(lián)接鄰居節(jié)集。
根據(jù)圖7 中處于1 號節(jié)點通信范圍內(nèi)的節(jié)點集合為{4,9,10,13,15},在預(yù)測穩(wěn)定拓?fù)渎?lián)接過程中,生成的聯(lián)接關(guān)系集合為{4,10,13,15},預(yù)測出9 號節(jié)點不能在下一傳輸時刻穩(wěn)定聯(lián)接。通過預(yù)測拓?fù)渎?lián)接關(guān)系與圖8 真實拓?fù)渎?lián)接關(guān)系比較表明,預(yù)測結(jié)果與真實聯(lián)接關(guān)系相一致。強化學(xué)習(xí)的過程中每個Agent 都會對其他節(jié)點的運動特性有累積性的學(xué)習(xí),不會因為節(jié)點處于通信范圍內(nèi)判斷為穩(wěn)定聯(lián)接鏈路,Agent 會根據(jù)節(jié)點當(dāng)前的運動狀態(tài)以及策略表中學(xué)習(xí)得到的經(jīng)驗來有效避免在短時間內(nèi)可能會快速斷開的鏈路聯(lián)接,所以9 號節(jié)點在預(yù)測過程中被判斷非穩(wěn)定聯(lián)接狀態(tài)。
本文通過研究MANET 中移動節(jié)點對網(wǎng)絡(luò)拓?fù)溆绊懀岢隽嘶趶娀瘜W(xué)習(xí)的分布式自適應(yīng)算法。算法中每個節(jié)點通過對其他節(jié)點運動特性學(xué)習(xí)得到下一傳輸時刻穩(wěn)定聯(lián)接的鄰居集合,通過穩(wěn)定聯(lián)接集合預(yù)測移動節(jié)點之間網(wǎng)絡(luò)拓?fù)涞姆€(wěn)定聯(lián)接關(guān)系,可以更好地適應(yīng)網(wǎng)絡(luò)拓?fù)渥兓ANET 中穩(wěn)定的拓?fù)渎?lián)接關(guān)系很大程度上改善了路由選擇,同時也提高了網(wǎng)絡(luò)通信服務(wù)質(zhì)量。實驗結(jié)果表明,基于Q-learning 的分布式自適應(yīng)拓?fù)浞€(wěn)定性算法高效穩(wěn)定且準(zhǔn)確度高,能夠有效地實現(xiàn)網(wǎng)絡(luò)拓?fù)渎?lián)接的穩(wěn)定性選擇。