董春利,王莉
(南京交通職業(yè)技術(shù)學(xué)院電子信息工程學(xué)院,江蘇南京, 211188)
強(qiáng)化學(xué)習(xí)(RL)是指通過在環(huán)境中采取一些行動,來增加獎勵。這種學(xué)習(xí)涉及執(zhí)行使這些獎勵最大化的那些行動。這種類型的學(xué)習(xí)行為與自然學(xué)習(xí)相同,其中代理必須通過命中和試驗機(jī)制自己學(xué)習(xí)以獲得最大獎勵[1]。機(jī)器學(xué)習(xí)(ML)可分為監(jiān)督、無監(jiān)督和半監(jiān)督學(xué)習(xí)。RL(半監(jiān)督)不同于有監(jiān)督和無監(jiān)督學(xué)習(xí)。在監(jiān)督學(xué)習(xí)中,每個動作都有一組指令,目標(biāo)是映射輸入對應(yīng)的輸出并從標(biāo)記數(shù)據(jù)中學(xué)習(xí)規(guī)則。此類中使用回歸和分類模型,取決于值是連續(xù)的,還是離散的。而在無監(jiān)督學(xué)習(xí)的情況下,代理必須發(fā)現(xiàn)未標(biāo)記數(shù)據(jù)的隱藏結(jié)構(gòu)[2]。無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相反,通??梢栽跀?shù)據(jù)不足且未標(biāo)記時應(yīng)用。但是在RL的情況下,代理具有初始點(diǎn)和終點(diǎn),并且要到達(dá)其目的地,代理必須通過操縱環(huán)境來找到最佳可能的行動。達(dá)到最終解決方案后,代理會獲得獎勵,但如果未能達(dá)到,則不會獲得任何獎勵,因此,代理必須學(xué)習(xí)環(huán)境才能獲得最大的獎勵。在RL中,問題的制定是使用馬爾可夫決策過程(MDP) 完成的,解決方案可以是策略或模型庫,并且可以是無模型的,即 Q-learning、SARSA。在這種技術(shù)中,代理與環(huán)境交互并根據(jù)獎勵生成策略,最后系統(tǒng)被訓(xùn)練并提供改進(jìn)的性能。
RL有兩個主要特征:(i)試錯搜索;(ii)延遲獎勵。圖1顯示了RL和深度Q學(xué)習(xí)模式。
圖1 (a)RL示意圖,(b)深度Q學(xué)習(xí)示意圖
模型用于預(yù)測環(huán)境的性質(zhì)。同時使用規(guī)劃和模型的ML設(shè)計是基于模型的機(jī)制。如果沒有環(huán)境模型,則可以通過試錯法進(jìn)行學(xué)習(xí)。RL算法的實現(xiàn)一般有2種方式。
基于值:在基于值的RL算法中,用戶試圖實現(xiàn)最大值函數(shù),這意味著智能體期望現(xiàn)有狀態(tài)的長期回報。
基于策略:在這種方法中,用戶設(shè)計一個策略,其中在每個狀態(tài)下執(zhí)行多個動作,以在未來獲得最大獎勵。策略描述了代理必須在某些環(huán)境條件下采取行動的方法?;旧希呗钥偸怯成錉顟B(tài)和動作的功能。許多格式可以作為策略來實現(xiàn),例如它可以是一個表格、任何搜索過程或可以是一個函數(shù)。RL的想法是最大化該策略的方法。信號獎勵描述了代理采取的行動是好是壞。這個獎勵信號的目的是夸大整體獎勵。策略依賴于信號獎勵,如果代理收到不好的獎勵,它必須修改它的策略,然后再次執(zhí)行操作。獎勵可以分為即時獎勵或延遲獎勵。在延遲獎勵的情況下,代理必須找出導(dǎo)致該獎勵的原因。價值函數(shù)計算即將到來的整體獎勵,價值函數(shù)背后的核心思想是弄清楚狀態(tài)并相應(yīng)地執(zhí)行操作。上面給出了RL的基本圖,它顯示了狀態(tài)及其相關(guān)動作。
基于策略的方法進(jìn)一步分為以下類型:
(1)確定的:對所有狀態(tài)執(zhí)行相同的操作,并由策略模塊處理。
(2)隨機(jī)的:每個動作都對應(yīng)一個基于特定策略的模型。在這種方法中,為所有類型的周圍氛圍或環(huán)境設(shè)計了一個虛擬模型。創(chuàng)建虛擬模型后,智能體的學(xué)習(xí)過程開始在該環(huán)境中執(zhí)行。
在DL中,使用近似于復(fù)雜函數(shù)的神經(jīng)元操作來建立規(guī)則。在移動通信中,DL對于解決復(fù)雜的非凸挑戰(zhàn)和高計算問題具有重要意義。由于神經(jīng)網(wǎng)絡(luò)用于特征提取和學(xué)習(xí)階段,因此該算法可用于多種場景,即非線性模型增強(qiáng)、連續(xù)變化的移動環(huán)境評估、過擬合程度和復(fù)雜度降低以及數(shù)據(jù)最小化的重構(gòu)誤差。DRL是許多科學(xué)領(lǐng)域的革命性和新興工具,特別是在移動通信領(lǐng)域,用于有效地提供各種挑戰(zhàn)的解決方案。深度卷積神經(jīng)網(wǎng)絡(luò)(DNN)旨在學(xué)習(xí)信道的特征并預(yù)測適當(dāng)?shù)恼{(diào)制編碼方案。對于無需人工干預(yù)的智能決策,采用多層構(gòu)建人工神經(jīng)網(wǎng)絡(luò)。為了改善網(wǎng)絡(luò)的參數(shù),人工智能(AI)、機(jī)器/深度學(xué)習(xí)技術(shù)是最好的方法,因為有更少的物理干預(yù)和先進(jìn)的計算約束。
如今,諸如HetNets、物聯(lián)網(wǎng)和無人機(jī)網(wǎng)絡(luò)等先進(jìn)的網(wǎng)絡(luò)被重塑為自主、臨時和分散的形式,在這種形式中,移動用戶、無人機(jī)和物聯(lián)網(wǎng)設(shè)備自行做出決策,即小區(qū)關(guān)聯(lián)、功率控制、數(shù)據(jù)傳輸?shù)?。在這些場景中,MDP 塑造的問題值得做出相應(yīng)的決策,并且算法和學(xué)習(xí)技術(shù)的數(shù)量有助于解決MDP[3]。事實證明,求解計算復(fù)雜的高級和大型網(wǎng)絡(luò)是非常困難的。在這方面,DRL提供了一些必要的好處,例如獨(dú)立決策、通過大狀態(tài)和動作空間提高學(xué)習(xí)速度、學(xué)習(xí)和發(fā)展對通信和環(huán)境的網(wǎng)絡(luò)理解、復(fù)雜的網(wǎng)絡(luò)優(yōu)化、數(shù)據(jù)卸載、干擾管理和網(wǎng)絡(luò)物理攻擊建模。需要在5G環(huán)境下研究基于DRL的5G HetNet聯(lián)合資源管理功能、基于多目標(biāo)DRL的資源管理、靈活的資源管理設(shè)計、基于DRL的5G HetNet負(fù)載均衡。圖2顯示了使用機(jī)器學(xué)習(xí)工具的HO優(yōu)化技術(shù)的類別。
圖2 HO優(yōu)化技術(shù)
對于預(yù)測分析,AI需要在渠道建模方面更加成熟。主要問題是由于巨大的天線導(dǎo)致的高維搜索、發(fā)射和接收信號的關(guān)系、發(fā)射和接收波束的更快組合學(xué)習(xí)、AI模型訓(xùn)練的收斂性。AI/ML/DL的先進(jìn)技術(shù)為5G和超5G的無線網(wǎng)絡(luò)注入活力,以支持現(xiàn)實世界中引入的新興用例。然而,盡管取得了進(jìn)展,但仍然需要解決開放的研究問題和未來的方向。在實際實施中,訓(xùn)練過程的效率需要成熟度,例如學(xué)習(xí)算法的最佳可能參數(shù)更快地收斂。為了從廣泛的測量操作中獲取數(shù)據(jù),從密集的城市傳播區(qū)域、陸地區(qū)域上的高速移動節(jié)點(diǎn)和動態(tài)變化的環(huán)境中,獲得的真實實驗結(jié)果仍然存在差距,以證明學(xué)習(xí)算法的精度[4]。在分層網(wǎng)絡(luò)中,架構(gòu)設(shè)計、網(wǎng)絡(luò)實體通信參數(shù)控制、計算能力、集中或分布式控制性能以及精度要求,仍需要使用 AI/ML/DL方面進(jìn)行探索。先進(jìn)的算法和操作期間的網(wǎng)絡(luò)攻擊技術(shù),也是該領(lǐng)域的一個公開挑戰(zhàn),例如無人機(jī)系統(tǒng)的可靠通信,會話劫持,中間人攻擊等。
正面及負(fù)面,是RL的兩種類型,定義如下:
(1)正面
正面的RL是指由于特殊行為而發(fā)生的事件。它放大了行為的強(qiáng)度和振蕩度,并影響了代理執(zhí)行的活動。它最大化了事件的性能,并在較長時間內(nèi)保持變化,而RL的過度實施,會產(chǎn)生影響活動結(jié)果的過度優(yōu)化狀態(tài)。
(2)負(fù)面
在這種類型的RL中,會采取措施來提高由于不良條件而發(fā)生的行為的強(qiáng)度。應(yīng)停止或減少這些不良條件,以達(dá)到最低性能要求。然而,需要付出很多努力才能達(dá)到該要求的條件。
已經(jīng)進(jìn)行了許多研究來解決未來無線網(wǎng)絡(luò)的最大挑戰(zhàn),例如5G小型蜂窩中的HO管理。新興技術(shù),即D2D、M2M、MIMO、EC、SC、BF、WiFi和SDN、NFV和 CC的融合,以及mMTC、eMBB和uRLLC等即將推出的用例和服務(wù),帶來了新的挑戰(zhàn)。此外,5G超密集小蜂窩( UDSC)網(wǎng)絡(luò)中的高速移動性、高數(shù)據(jù)速率應(yīng)用和有限的資源,也面臨著眾多挑戰(zhàn),仍然需要使用先進(jìn)的ML算法,以優(yōu)化的方式解決一些重大挑戰(zhàn)。
(1)多媒體流量的QoS/QoE;多媒體業(yè)務(wù)對服務(wù)質(zhì)量和服務(wù)能力的要求不同于數(shù)據(jù)和語音業(yè)務(wù)。HO技術(shù)在不同的用例中提供不同的QoS/QoE,以執(zhí)行各種類型的多媒體流量。在考慮HO管理中的QoS/QoE的同時,提供最佳機(jī)器學(xué)習(xí)解決方案是超5G無線小型蜂窩網(wǎng)絡(luò)的一個活躍研究領(lǐng)域,在該網(wǎng)絡(luò)中,將以低延遲和最佳連接性驅(qū)動大量數(shù)據(jù)。
(2)控制通信開銷;現(xiàn)有的HO解決方案需要在所有可用于通信的節(jié)點(diǎn),即宏小區(qū)、小型小區(qū)和UE之間進(jìn)行復(fù)雜且頻繁的協(xié)作。這種現(xiàn)象需要大量的網(wǎng)絡(luò)資源來交換必要的信息。同時考慮提供最好的機(jī)器學(xué)習(xí)解決方案來控制通信開銷,是超5G無線小型蜂窩網(wǎng)絡(luò)的活躍研究領(lǐng)域。
(3)無線回程頻譜效率;在超5G的無線網(wǎng)絡(luò)中,小區(qū)BS需要具有強(qiáng)大能力的無線回程網(wǎng)絡(luò)來處理大量無線連接和靈活的部署。因此,為頻譜資源管理、網(wǎng)絡(luò)復(fù)雜性,和基礎(chǔ)設(shè)施成本,提供最佳機(jī)器學(xué)習(xí)解決方案,以處理超5G無線網(wǎng)絡(luò)中的大量小區(qū),是一個活躍的研究領(lǐng)域。
(4)先進(jìn)技術(shù)整合;在5G小蜂窩網(wǎng)絡(luò)中,毫米波、大規(guī)模MIMO和mMTC是使網(wǎng)絡(luò)容量提高100倍的關(guān)鍵推動力[5]。這些先進(jìn)技術(shù)的大量信令開銷,產(chǎn)生了密集的通信和信號處理。因此,在5G無線網(wǎng)絡(luò)中,使用機(jī)器學(xué)習(xí)提供資源效率、成本效率和抑制干擾,也是一個活躍的研究領(lǐng)域。
(5)安全和隱私問題;超密集5G小型蜂窩網(wǎng)絡(luò)的 HO管理中,最關(guān)鍵的挑戰(zhàn)是安全和隱私問題,因為蜂窩和UE的高密度化。處理通信數(shù)據(jù)的新功能和應(yīng)用程序的數(shù)量,對安全妥協(xié)和隱私問題提出了新的挑戰(zhàn)。 因此,在5G小蜂窩無線網(wǎng)絡(luò)中,使用機(jī)器學(xué)習(xí)進(jìn)行有效反擊也是一個積極的研究方向。