聶 雷,劉 博,李 鵬,何 亨
(1.武漢科技大學計算機科學與技術學院,湖北 武漢 430065;2.武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)重點實驗室,湖北 武漢 430065)
隨著城市交通的飛速發(fā)展,汽車保有量在近十幾年來急劇增長,導致交通擁堵和安全問題日益突出[1]。近年來,車載自組織網絡VANET(Vehicular Ad hoc NETworks)作為一種結構開放的車輛通信網絡,在交通信號控制、內容協(xié)助下載、車輛路徑規(guī)劃和緊急消息廣播等方面得到了廣泛的研究與應用[2 - 5],有效推動了智能交通的發(fā)展。
車載網絡中的各類服務與應用依賴于接入網絡中數(shù)據(jù)的可靠傳輸和交互,隨著移動通信技術的飛速發(fā)展,具有高速率、低時延優(yōu)勢的5G通信技術近幾年受到了人們的青睞。然而,現(xiàn)階段的5G網絡在短時間內無法實現(xiàn)全面部署,此外單一類型的網絡難以滿足終端用戶的多樣化需求[6],因此多種無線網絡共存的車載網絡,即融合5G通信的異構車載網絡是城市智能交通發(fā)展的必然趨勢。由于車輛的移動性和用戶需求的多樣性,導致異構車載網絡存在拓撲結構頻繁變化和網絡資源利用不均衡的現(xiàn)象。如何保證車輛終端進行高效的網絡選擇和切換,在保障用戶服務質量QoS(Quality of Service)的同時提高網絡資源利用率是現(xiàn)階段亟需解決的問題[7]。
上述問題的求解可以看作是一個多目標優(yōu)化的決策過程,目前有大量基于多屬性決策MADM(Multi-Attribute Decision-Making)的研究成果[8 - 10],與傳統(tǒng)的基于單因素決策的方法[11]相比較,它們能夠較好地提高網絡屬性權重和網絡性能評價的準確性,從而為網絡的選擇和切換提供依據(jù)。然而,該類方法主要針對單臺車輛終端進行決策,無法得到系統(tǒng)整體長期有效的切換策略集合,不利于異構網絡資源的合理利用。Q學習(Q-learning)是一種基于系統(tǒng)狀態(tài)下動作回報價值且與模型無關的強化學習算法,其利用智能體與環(huán)境的交互來迭代學習優(yōu)化策略,從而實現(xiàn)特定的優(yōu)化目標,基于Q學習的方法能夠更加有效地解決異構網絡環(huán)境下的網絡選擇問題。然而,現(xiàn)有基于Q學習的方法通常存在由狀態(tài)空間過大引起的迭代效率低下和收斂速度較慢的問題,同時Q值表更新產生的過高估計現(xiàn)象容易導致網絡資源的不均衡利用。
考慮到未來融合5G通信的異構車載網絡環(huán)境,本文提出一種基于多智能體Q學習的網絡選擇方法MQSM(Multi-agent Q-learning based Selection Method)。該方法的目標是在融合5G通信的異構車載網絡環(huán)境下得到普遍適用的系統(tǒng)長期運動狀態(tài)下的最優(yōu)網絡切換策略集合,在保證車輛終端用戶的良好QoS體驗的同時,提高異構車載網絡的資源利用率。
異構車載網絡環(huán)境下車載終端用戶如何選擇接入網絡可直接影響其服務質量和網絡資源的利用率?;诙鄬傩詻Q策的網絡選擇方法通過網絡的多種屬性對網絡性能進行評估,從而為用戶提供選擇網絡的依據(jù)。文獻[12]提出了一種結合層次分析法AHP(Analytic Hierarchy Process)的多標準訪問選擇方法MCAS(Multi-Criteria Access Selection),通過設計能效、信號強度、網絡成本、延遲和帶寬的效用函數(shù)建立了多約束優(yōu)化模型,并提出了一種啟發(fā)式算法計算效用函數(shù)的最優(yōu)解,極大地提高了對網絡性能評價的準確性。文獻[13]提出了一種基于網絡屬性和用戶偏好的異構網絡選擇方法,該方法結合了3種基于多屬性決策的方法來提高效用函數(shù)的準確性,這些方法包括模糊層次分析法FAHP(Fuzzy Analytic Hierarchy Process)、熵Entropy和最優(yōu)理想解排序法TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)。文獻[14]提出了一種基于效用函數(shù)和TOPSIS的新策略,通過添加或刪除網絡來消除異常排名,并選擇最高排名的網絡作為最優(yōu)解。然而,基于多屬性決策的網絡選擇方法僅從優(yōu)化單臺車輛的角度出發(fā),沒有考慮到系統(tǒng)中其他車輛的信息和整體網絡資源的利用情況。
與基于多屬性決策的網絡選擇方法不同,基于Q學習的網絡選擇方法更加傾向于獲得系統(tǒng)長期有效的最優(yōu)網絡選擇決策集合[15,16]。文獻[17]提出了一種基于Q學習的垂直切換算法,目的是獲得最大化用戶體驗質量QoE(Quality of Experience)效用值的最優(yōu)網絡。然而該模型的回報值獎勵方法過于簡單,難以適應網絡屬性較多的異構車載網絡環(huán)境。文獻[18]提出了一種多智能體協(xié)作學習方法CMA-DQN(Cooperative Multi-Agent learning based on Deep Q-Network),該方法將蜂窩網絡中的用戶進行劃分,通過多個智能體的協(xié)作學習來獲取回報值,并使用Double Q-Learning算法進行Q值表更新,有效解決了單表Q學習在狀態(tài)空間過大時產生的無法正常收斂問題。文獻[19]提出了一種雙Q學習路由協(xié)議DQLR(Double Q-Learning Routing)來預測消息的下一跳傳播,實驗結果表明,雙Q值表交替更新的方式比單表更新的方式更為穩(wěn)定。文獻[20]提出了一種多智能體網絡選擇算法MANSA(Multi-Agent Network Selection Algorithm),將狀態(tài)相似的車輛用戶劃分為一個智能體,每個智能體采用一個Q值表進行學習更新。然而該方法中的智能體彼此之間不交流學習經驗,并且只采用單Q值表更新方式,容易出現(xiàn)過高估計的問題。文獻[21]提出了一種基于Q學習的網絡選擇機制QBNS(Q-learning Based Network Selection),其將網絡容量和用戶的服務質量作為網絡性能的評價指標,通過求解自定義的優(yōu)化方差獲得了更好的總回報值,但該方法同樣存在由單表更新引起的過高估計現(xiàn)象。
基于多屬性決策的網絡選擇方法在評價網絡性能方面具有較高的準確性,例如MCAS[12]方法,然而該類方法無法得到系統(tǒng)整體長期有效的最優(yōu)切換決策集合。基于Q學習的決策方法在上述方面有著獨特的優(yōu)勢,但是現(xiàn)階段仍然存在許多問題,例如MANSA[20]和QBNS[21]方法,雖然都通過Q學習優(yōu)化了決策模型,且前者還提出了一個簡單的多智能體分割方法,但是核心的回報值函數(shù)設計過于簡單,無法準確體現(xiàn)網絡性能效用評分;此外,Q值表更新方式單調,無法應對更為復雜的異構車載網絡環(huán)境。針對以上問題,本文提出了一種基于多智能體Q學習的異構網絡切換方法,其關鍵在于使用一種綜合效用函數(shù)來計算動作的即時回報值,極大地提高了回報獎勵值的準確性,并采用一種多智能體協(xié)作學習方式提高學習迭代的效率,同時引入了多表交替更新來解決過高估計問題,與同類方法相比,該方法具有更好的穩(wěn)定性,提高了網絡資源利用率。
本文將一定地理范圍內的異構車載網絡作為整體進行分析,對應的系統(tǒng)模型如圖1所示。該系統(tǒng)模型展現(xiàn)了一個典型城市交通環(huán)境下的異構車載網絡環(huán)境,且該系統(tǒng)模型滿足以下假設條件:
(1)車輛行駛在多車道的城市道路上,其速度和方向隨著時間在不斷變化;
(2)來自4個移動通信基站的信號(分別是LTE、WLAN1、WLAN2和5G)覆蓋了整個交叉路口及相鄰區(qū)域,行駛在該區(qū)域的車輛被所有基站的信號范圍所覆蓋,且任意車輛同一時刻只接入一個網絡中享受數(shù)據(jù)通信服務;
(3)車輛終端裝配有適用于車與車V2V(Vehicle-to- Vehicle)通信的車載端元OBU(On-Board Unit)和適用于車與基礎設施V2I(Vehicle-to- Infrastructure)通信的移動通信接口,從而支持數(shù)據(jù)的實時傳輸與交互;
(4)車輛傳輸和交互業(yè)務流主要分為語音對話、實時流媒體、網絡交互和后臺下載4種流量類型。
Figure 1 System model圖1 系統(tǒng)模型
Q-learning是一種基于價值(Value-based)且與模型無關的強化學習算法,其利用智能體與環(huán)境的交互來迭代學習優(yōu)化策略,從而實現(xiàn)特定的優(yōu)化目標。Q-learning根據(jù)狀態(tài)空間S={s1,s2,…,sm}和動作集合A={a1,a2,…,an}構建二維矩陣Q值表Q,用于評估期望的累計折扣回報值,并決策當前環(huán)境狀態(tài)的執(zhí)行動作。具體來講,每次迭代過程中智能體首先觀察當前時刻t的環(huán)境狀態(tài)st,并根據(jù)貪婪策略ε-greedy選擇動作at,獲得即時回報值r(st,at);接著,智能體基于下一時刻t+1的最大預期折扣值maxQ(st+1,at+1)更新當前狀態(tài)和動作對應的Q值。即當前狀態(tài)st指向下一狀態(tài)st+1,且Q值的更新公式如式(1)所示:
Q(st+1,at+1)=Q(st,at)+
(1)
其中,α表示學習率,γ表示折扣因子。
重復上述過程直到指向最終時刻狀態(tài),此過程記為完成一次學習。不斷重復學習過程,直到總預期折扣值收斂,則得到最優(yōu)Q值矩陣,此時迭代結束,且每一個狀態(tài)對應的最優(yōu)動作組成了最優(yōu)策略集合。
一般基于單智能體的Q-learning算法的最優(yōu)策略是最大化回報值,而對于基于多智能體的Q-learning算法而言,則是使得所有智能體的策略達到納什均衡(Nash Equilibrium)[22]。本節(jié)采用基于多智能體Q學習的思想解決了單智能體狀態(tài)空間過大導致算法無法正常收斂的問題[23],并基于協(xié)作學習的思想提出一種即時回報值計算方法,提高了動作選擇評價的準確性。
(1)智能體。
本文將異構車載網絡系統(tǒng)視作一個整體,首先根據(jù)車輛行駛方向和速度信息,將相同方向和近似速度的車輛劃分為一個群體,即將所有的車輛終端劃分為N個群體,記作G= (G1,G2,…,GN),且群體Gi(1 ≤i≤N)對應智能體Agenti,群體Gi的狀態(tài)空間為Si(Si?S)。單個群體內的車輛具有相似的運動狀態(tài),因此這些車輛維護了一個相對穩(wěn)定的網絡拓撲。基于車輛之間的信息交互,群體Gi使用智能體Agenti進行迭代學習,并得到該群體的最優(yōu)動作策略集合。每次學習時所有智能體同時執(zhí)行操作,且每個群體均會學習其他群體此刻動作的即時回報值。利用群體間的協(xié)作學習,從而得到異構車載網絡系統(tǒng)的最優(yōu)動作策略集合。
(2)狀態(tài)。
異構車載網絡系統(tǒng)中備選網絡的性能受到多種網絡屬性的影響,例如帶寬B、時延D、延遲抖動J、丟失率L、誤碼率E和成本C。系統(tǒng)中被智能體觀察的狀態(tài)數(shù)量正比于車輛節(jié)點的數(shù)量。
(3)動作。
異構車載網絡系統(tǒng)中,算法的動作選擇就是網絡選擇。備選網絡集合記為Net= {net1,net2,…,netM},其中M表示網絡數(shù)量。
(4)回報值。
群體Gi的智能體Agenti在狀態(tài)st下選擇動作at,然后計算網絡屬性的綜合效用值,接著將網絡的QoS評分記為未考慮其他群體影響的初始即時回報值ri(st,at),且ri(st,at)的計算方法如式(2)所示:
(2)
其中,u(x)表示網絡屬性x的綜合效用值,其計算方法如式(3)所示。
u(x)=βf(x)wx+(1-β)uobj
(3)
其中,f(x)表示網絡屬性x的效用函數(shù),β表示效用值權重因子,wx表示不同決策屬性效用函數(shù)的綜合權重,uobj表示屬性的客觀效用值,且采用最優(yōu)理想解排序法TOPSIS[14]計算uobj。
為了得到更為準確的網絡屬性綜合效用值,wx將主客觀效用值加權求和,且滿足式(4)和式(5):
(4)
wx=μwsub+(1-μ)wobj
(5)
其中,μ(0<μ<1)表示主客觀權重因子,wsub和wobj分別表示主觀和客觀權重。本文采用模糊層次分析法FAHP[13]計算主觀權重wsub,采用熵Entropy[10]計算客觀權重wobj。
除了體現(xiàn)QoS的網絡屬性之外,車載終端接收網絡信號的強度和備選網絡的網絡容量變化也會影響網絡的性能,從而影響動作選擇后的即時回報值和網絡資源的利用率。這里分別引入基于網絡接收信號強度RSS(Recieved Signal Strength)的效用函數(shù)u(rss)和基于網絡容量NC(Network Capacity)的效用函數(shù)u(nc),其計算方法分別如式(6)和式(7)所示:
(6)
(7)
(8)
其中,λ(0<λ<1)表示折扣因子,1≤i,j≤N且i≠j。
計算綜合即時回報值的具體過程如算法1所示。
算法1群體Gi綜合即時回報值算法
輸入:選擇動作at,網絡狀態(tài)st,車輛信息,備選網絡容量capacity,選擇網絡的屬性參數(shù)列表list,網絡屬性的參數(shù)修正值K,網絡接收信號強度門限值Trss,最大網絡容量maxCapacity。
初始化網絡屬性參數(shù)矩陣;
計算車輛終端對at對應的網絡接收信號強度rss;
ifrss elseifcapacity>maxCapacity else{ 根據(jù)式(6)和式(7)對網絡屬性進行參數(shù)預處理; 對于網絡屬性B:list(x)=list(x)·(ω·u(rss)+ (1-ω)·u(nc)); 對于網絡屬性D,J,L,E:list(x)=list(x)+ω(1-u(rss))·K+ (1-ω)·(1-u(nc))·K; 標準化和歸一化參數(shù)矩陣; 使用FAHP計算主觀權重wsub,使用Entropy計算客觀權重wobj,根據(jù)式(5)計算綜合權重wx; 使用TOPSIS計算客觀效用值uobj,根據(jù)式(3)計算綜合效用值u(x); return} 現(xiàn)有的Q-learning算法在進行Q值更新時通常采用單表自更新方式,容易出現(xiàn)過高估計的問題,即導致某一動作的評價值過高,使得在多次迭代后動作的評價值不再準確。針對該問題,本節(jié)基于協(xié)作學習的即時回報值計算方法,采用雙表交替更新的方式進行迭代學習。下面以群體Gi為例描述算法的交替更新過程。 首先在創(chuàng)建Gi的Q值表時,分別創(chuàng)建QA和QB2個相同的Q值表,每一個Q值表是由狀態(tài)子空間Si和動作集合A構成的二維矩陣,儲存每一個動作的長期報酬。2個表同時參與更新,其中一個表負責動作的選擇,另一個表負責Q值的更新。每當更新Q值表時,隨機使用一個表對另一個表進行更新,且一次動作選擇只會對一個Q值表進行更新。對應的2個更新函數(shù)公式分別如式(9)和式(10)所示: (9) (10) 動作的選擇采用ε-greedy策略,公式如式(11)所示: (11) 在學習開始時,系統(tǒng)希望能夠探索所有的狀態(tài)-動作,概率初始值應很大,保證系統(tǒng)能夠學習到所有的可能情況,智能體隨機選擇一個網絡接入動作,下一狀態(tài)同樣采取隨機策略,其更新公式分別如式(9)和式(10)所示: (12) (13) 隨著迭代的進行,系統(tǒng)希望能夠進行更加高效的學習,所以概率應取一個很小的值,保證對最大Q值對應動作進行擴展學習,此時智能體選擇動作報酬最大的動作,下一狀態(tài)同樣采取最優(yōu)選取策略。由于每次學習時都會同時使用2個Q函數(shù),因此,學習效率并不低于傳統(tǒng)的單表更新方式?;诙嘀悄荏wQ學習的網絡選擇算法如算法2所示。 算法2基于多智能體Q學習的網絡選擇算法 輸入:狀態(tài)空間S、動作集合A、學習率α、折扣率γ、探索率ε、學習迭代次數(shù)episode。 輸出:新Q值表。 初始化Q值表; fori=1:episodedo 初始化群體Gi的網絡狀態(tài)空間Si; whileSiis not NULLdo fori=1:Ndo 群體Gi的智能體Agenti觀察當前狀態(tài)st,根據(jù)式(11)選擇動作; Agenti根據(jù)算法1計算群體Gi的綜合即時回報值; Agenti尋找下一狀態(tài)st+1; ifAgenti采取隨機動作 根據(jù)式(12)和式(13)隨機更新QA或者QB; elseifAgenti采取最優(yōu)動作選擇 { if更新QA 根據(jù)式(9)更新QA; elseif更新QB 根據(jù)式(10)更新QB;} 當前狀態(tài)st指向下一狀態(tài)st+1。 endfor endwhile endfor 根據(jù)多智能體納什均衡的收斂性證明[22],算法在多次迭代之后會達到收斂狀態(tài)。在預設迭代次數(shù)完成之后,若收斂成功,則輸出Gi的Q值表,其狀態(tài)對應的最優(yōu)動作策略集合即為Gi的最優(yōu)網絡切換策略集合;若收斂失敗,說明學習迭代無法如期完成,算法收斂性較差。 通過模擬城市場景下的交叉路口,并采用矩陣運算初始化車輛節(jié)點。如圖1所示,異構車載網絡環(huán)境中車輛速度被設置為15~70 km/h,且包含了LTE、WLAN1、WLAN2和5G共4個無線通信基站。網絡及網絡屬性參數(shù)值的設置綜合考慮了文獻[12,13,20,21]的網絡參數(shù)設置,其中,網絡的覆蓋半徑和容量信息如表1所示。網絡屬性參數(shù)初始值如表2所示,除帶寬B和成本C以外,其他網絡屬性參數(shù)值均在一定范圍內波動。網絡屬性參數(shù)權重分配如表3所示。此外,調整參數(shù)的初始值是由多次實驗以及相關參考文獻確定的經驗值,例如根據(jù)Q學習本身的特性,學習率應該保持在較低值,以提高每次學習的精度,折扣率應該保持在較高值,以保證當前動作選擇作為主要回報值參考對象,調整參數(shù)初始值的具體設置如表4所示。 在實驗部分,本文所提出的基于多智能體Q學習的異構車載網絡選擇方法MQSM選取了同類型的MANSA[20]和QBNS[21]方法,以及基于多屬性決策的MCAS[12]方法作為對比對象。通過多次實驗分別比較了4種方法的系統(tǒng)總切換次數(shù)、系統(tǒng)平均總折扣值和網絡容量利用率。 Table 1 Network radius and capacity表1 網絡半徑及容量 Table 4 Initial value of the adjusted parameters表4 調整參數(shù)初始值 首先,4種方法的系統(tǒng)總切換次數(shù)分別在不同車輛數(shù)量和車輛速度下進行了對比,結果如圖2所示??紤]到網絡資源的利用率,過少的切換次數(shù)會導致優(yōu)先接入的5G網絡資源利用較為集中,因此適當?shù)卦黾忧袚Q次數(shù)有利于異構網絡資源的充分利用。從圖2a中可以看出,4種方法的系統(tǒng)總切換次數(shù)均隨著車輛數(shù)量的增加呈現(xiàn)出增長趨勢。其中,基于多屬性決策的MCAS方法的總切換次數(shù)明顯少于另外3種基于Q學習的方法,這是因為MCAS方法針對單臺車輛進行決策,每臺車輛都從優(yōu)化自身的角度出發(fā)優(yōu)先選擇性能最佳的5G網絡,只有當車輛數(shù)量超過一定閾值導致5G網絡負載過大時才會選擇切換到其他網絡中。而基于Q學習的其他3種方法從提高整個系統(tǒng)資源利用率出發(fā),在保證用戶QoS的前提下合理利用所有類型的網絡資源,因此會產生更多的切換次數(shù)。3種基于Q學習的方法中,MANSA和QBNS在車輛數(shù)量增長到70以后都出現(xiàn)了較為明顯的波動情況,其中QBNS的波動尤為明顯,而本文的MQSM方法波動較為平穩(wěn)。產生此結果的原因是QBNS和MANSA均使用了單表更新方式,容易出現(xiàn)某些動作選擇評價值過高估計的現(xiàn)象,導致大量用戶長期接入同一網絡,多次迭代后,此次學習得到的獎勵值超出正常值,大量用戶接入同一網絡且不再進行切換選擇,導致切換次數(shù)大幅度減少。而MQSM使用雙表更新,避免了過高估計問題的大量出現(xiàn),同時MQSM使用了多約束效用函數(shù),將網絡的QoS評分作為即時回報值,大大提高了決策的準確性。圖2b是在車輛數(shù)量為80的情況下,4種方法的系統(tǒng)總切換次數(shù)在不同車輛速度下的變化情況,且均呈現(xiàn)出先增后減的現(xiàn)象。其中,MCAS方法的總切換次數(shù)最少,其他3種基于Q學習的方法相對較多,該結果的原因與圖2a的分析一致。同時可以看出,MQSM相比MANSA更適應速度的變化,具有良好的穩(wěn)定性。 Table 2 Initial value of network attribute parameters表2 網絡屬性參數(shù)初始值 Table 3 Weight distribution of network attribute parameters表3 網絡屬性參數(shù)權重分配 Figure 2 Total handovers of system圖2 系統(tǒng)總切換次數(shù) 其次,比較了3種基于強化學習的方法在不同迭代次數(shù)下的系統(tǒng)平均總折扣值,結果如圖3所示。3種方法平均總折扣值的增長速度均隨著迭代次數(shù)的增加逐漸減小,其中MQSM和MANSA在迭代次數(shù)達到100后趨于收斂,比QBNS更快到達收斂狀態(tài)。這是因為MQSM和MANSA使用了多智能體的協(xié)作模式,相對于單智能體模式的QBNS可以減少狀態(tài)空間,從而加快收斂。未達到收斂狀態(tài)時,MQSM的平均總折扣值比MANSA更低,這是因為其使用了雙Q值表交替更新的方式,使得學習效率相對較低,導致迭代次數(shù)相對較多,但MQSM解決了MANSA單表更新導致的過高估計問題,使得總折扣值相對較小。 Figure 3 Average total discount value of system圖3 系統(tǒng)平均總折扣值 Figure 4 Network resource utilization圖4 網絡資源利用率 最后,比較了4種方法在車輛數(shù)量為100時的網絡資源利用率,結果如圖4所示。5G網絡展現(xiàn)出的優(yōu)秀性能使得其成為車輛終端用戶的主要選擇傾向,QBNS和MANSA的5G網絡占用容量接近甚至超過了5G網絡所能容納用戶數(shù)量的最高值,明顯是總折扣值估計過高,導致大量用戶接入了理論上性能最優(yōu),但實際上已經負載嚴重的5G網絡,使得其他網絡資源無法得到充分利用;MQSM的5G網絡占用容量保持在一個良好的水平,并且其他網絡得到了更好的利用,整體上網絡利用率最高。該結果體現(xiàn)了MQSM的模型設計更為合理,可以在保證5G網絡容量合理利用的同時,提高其他網絡的接入數(shù)量,使系統(tǒng)在長期的運動狀態(tài)下保持較高的網絡資源利用率。 為了獲得異構車載網絡環(huán)境下系統(tǒng)長期有效的最優(yōu)網絡切換決策集合,考慮到未來融合5G通信的異構車載網絡環(huán)境,提出一種基于多智能體Q學習的網絡選擇方法MQSM,用于在保證車輛終端用戶的良好QoS體驗的同時,提高異構車載網絡的資源利用率。該方法構建了一個以Q-learning為基礎的多智能體協(xié)作學習模型,通過設計的多約束效用函數(shù)計算網絡的QoS評分作為回報值獎勵,從而更加準確地評價網絡性能。此外,利用雙Q值表交替更新方式優(yōu)化學習過程,一定程度上解決了過高估計問題。實驗結果表明,該方法在不同的交通條件下均具備良好的適應性和穩(wěn)定性,有效提高了網絡資源利用率。 隨著城市智能交通的發(fā)展,異構車載網絡中車載終端用戶的需求將更加多樣化,用于評估網絡性能的屬性種類和數(shù)量將變得更加復雜,對應的網絡狀態(tài)空間也將更加龐大。當前的多智能體Q學習模型在復雜化后的異構車載網絡中難以發(fā)揮作用,因此在下階段的工作中,將考慮結合深度學習來應對更加復雜的環(huán)境。4.3 基于多智能體Q-learning的網絡選擇
5 實驗與分析
5.1 實驗環(huán)境與參數(shù)
5.2 實驗結果與分析
6 結束語