亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于5G的強(qiáng)化學(xué)習(xí)算法分析與挑戰(zhàn)

2022-09-21 01:34:20董春利王莉

電子測試 2022年17期

董春利，王莉

(南京交通職業(yè)技術(shù)學(xué)院電子信息工程學(xué)院，江蘇南京， 211188）

0 引言

強(qiáng)化學(xué)習(xí)（RL）是指通過在環(huán)境中采取一些行動，來增加獎勵。這種學(xué)習(xí)涉及執(zhí)行使這些獎勵最大化的那些行動。這種類型的學(xué)習(xí)行為與自然學(xué)習(xí)相同，其中代理必須通過命中和試驗機(jī)制自己學(xué)習(xí)以獲得最大獎勵[1]。機(jī)器學(xué)習(xí)（ML）可分為監(jiān)督、無監(jiān)督和半監(jiān)督學(xué)習(xí)。RL（半監(jiān)督）不同于有監(jiān)督和無監(jiān)督學(xué)習(xí)。在監(jiān)督學(xué)習(xí)中，每個動作都有一組指令，目標(biāo)是映射輸入對應(yīng)的輸出并從標(biāo)記數(shù)據(jù)中學(xué)習(xí)規(guī)則。此類中使用回歸和分類模型，取決于值是連續(xù)的，還是離散的。而在無監(jiān)督學(xué)習(xí)的情況下，代理必須發(fā)現(xiàn)未標(biāo)記數(shù)據(jù)的隱藏結(jié)構(gòu)[2]。無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相反，通?？梢栽跀?shù)據(jù)不足且未標(biāo)記時應(yīng)用。但是在RL的情況下，代理具有初始點(diǎn)和終點(diǎn)，并且要到達(dá)其目的地，代理必須通過操縱環(huán)境來找到最佳可能的行動。達(dá)到最終解決方案后，代理會獲得獎勵，但如果未能達(dá)到，則不會獲得任何獎勵，因此，代理必須學(xué)習(xí)環(huán)境才能獲得最大的獎勵。在RL中，問題的制定是使用馬爾可夫決策過程(MDP) 完成的，解決方案可以是策略或模型庫，并且可以是無模型的，即 Q-learning、SARSA。在這種技術(shù)中，代理與環(huán)境交互并根據(jù)獎勵生成策略，最后系統(tǒng)被訓(xùn)練并提供改進(jìn)的性能。

1 RL模式

RL有兩個主要特征:（i）試錯搜索;（ii）延遲獎勵。圖1顯示了RL和深度Q學(xué)習(xí)模式。

圖1 (a)RL示意圖，(b)深度Q學(xué)習(xí)示意圖

模型用于預(yù)測環(huán)境的性質(zhì)。同時使用規(guī)劃和模型的ML設(shè)計是基于模型的機(jī)制。如果沒有環(huán)境模型，則可以通過試錯法進(jìn)行學(xué)習(xí)。RL算法的實現(xiàn)一般有2種方式。

基于值：在基于值的RL算法中，用戶試圖實現(xiàn)最大值函數(shù)，這意味著智能體期望現(xiàn)有狀態(tài)的長期回報。

基于策略：在這種方法中，用戶設(shè)計一個策略，其中在每個狀態(tài)下執(zhí)行多個動作，以在未來獲得最大獎勵。策略描述了代理必須在某些環(huán)境條件下采取行動的方法?；旧希呗钥偸怯成錉顟B(tài)和動作的功能。許多格式可以作為策略來實現(xiàn)，例如它可以是一個表格、任何搜索過程或可以是一個函數(shù)。RL的想法是最大化該策略的方法。信號獎勵描述了代理采取的行動是好是壞。這個獎勵信號的目的是夸大整體獎勵。策略依賴于信號獎勵，如果代理收到不好的獎勵，它必須修改它的策略，然后再次執(zhí)行操作。獎勵可以分為即時獎勵或延遲獎勵。在延遲獎勵的情況下，代理必須找出導(dǎo)致該獎勵的原因。價值函數(shù)計算即將到來的整體獎勵，價值函數(shù)背后的核心思想是弄清楚狀態(tài)并相應(yīng)地執(zhí)行操作。上面給出了RL的基本圖，它顯示了狀態(tài)及其相關(guān)動作。

基于策略的方法進(jìn)一步分為以下類型：

(1)確定的：對所有狀態(tài)執(zhí)行相同的操作，并由策略模塊處理。

(2)隨機(jī)的：每個動作都對應(yīng)一個基于特定策略的模型。在這種方法中，為所有類型的周圍氛圍或環(huán)境設(shè)計了一個虛擬模型。創(chuàng)建虛擬模型后，智能體的學(xué)習(xí)過程開始在該環(huán)境中執(zhí)行。

2 深度學(xué)習(xí)(DL)

在DL中，使用近似于復(fù)雜函數(shù)的神經(jīng)元操作來建立規(guī)則。在移動通信中，DL對于解決復(fù)雜的非凸挑戰(zhàn)和高計算問題具有重要意義。由于神經(jīng)網(wǎng)絡(luò)用于特征提取和學(xué)習(xí)階段，因此該算法可用于多種場景，即非線性模型增強(qiáng)、連續(xù)變化的移動環(huán)境評估、過擬合程度和復(fù)雜度降低以及數(shù)據(jù)最小化的重構(gòu)誤差。DRL是許多科學(xué)領(lǐng)域的革命性和新興工具，特別是在移動通信領(lǐng)域，用于有效地提供各種挑戰(zhàn)的解決方案。深度卷積神經(jīng)網(wǎng)絡(luò)（DNN）旨在學(xué)習(xí)信道的特征并預(yù)測適當(dāng)?shù)恼{(diào)制編碼方案。對于無需人工干預(yù)的智能決策，采用多層構(gòu)建人工神經(jīng)網(wǎng)絡(luò)。為了改善網(wǎng)絡(luò)的參數(shù)，人工智能(AI)、機(jī)器/深度學(xué)習(xí)技術(shù)是最好的方法，因為有更少的物理干預(yù)和先進(jìn)的計算約束。

如今，諸如HetNets、物聯(lián)網(wǎng)和無人機(jī)網(wǎng)絡(luò)等先進(jìn)的網(wǎng)絡(luò)被重塑為自主、臨時和分散的形式，在這種形式中，移動用戶、無人機(jī)和物聯(lián)網(wǎng)設(shè)備自行做出決策，即小區(qū)關(guān)聯(lián)、功率控制、數(shù)據(jù)傳輸?shù)?。在這些場景中，MDP 塑造的問題值得做出相應(yīng)的決策，并且算法和學(xué)習(xí)技術(shù)的數(shù)量有助于解決MDP[3]。事實證明，求解計算復(fù)雜的高級和大型網(wǎng)絡(luò)是非常困難的。在這方面，DRL提供了一些必要的好處，例如獨(dú)立決策、通過大狀態(tài)和動作空間提高學(xué)習(xí)速度、學(xué)習(xí)和發(fā)展對通信和環(huán)境的網(wǎng)絡(luò)理解、復(fù)雜的網(wǎng)絡(luò)優(yōu)化、數(shù)據(jù)卸載、干擾管理和網(wǎng)絡(luò)物理攻擊建模。需要在5G環(huán)境下研究基于DRL的5G HetNet聯(lián)合資源管理功能、基于多目標(biāo)DRL的資源管理、靈活的資源管理設(shè)計、基于DRL的5G HetNet負(fù)載均衡。圖2顯示了使用機(jī)器學(xué)習(xí)工具的HO優(yōu)化技術(shù)的類別。

圖2 HO優(yōu)化技術(shù)

對于預(yù)測分析，AI需要在渠道建模方面更加成熟。主要問題是由于巨大的天線導(dǎo)致的高維搜索、發(fā)射和接收信號的關(guān)系、發(fā)射和接收波束的更快組合學(xué)習(xí)、AI模型訓(xùn)練的收斂性。AI/ML/DL的先進(jìn)技術(shù)為5G和超5G的無線網(wǎng)絡(luò)注入活力，以支持現(xiàn)實世界中引入的新興用例。然而，盡管取得了進(jìn)展，但仍然需要解決開放的研究問題和未來的方向。在實際實施中，訓(xùn)練過程的效率需要成熟度，例如學(xué)習(xí)算法的最佳可能參數(shù)更快地收斂。為了從廣泛的測量操作中獲取數(shù)據(jù)，從密集的城市傳播區(qū)域、陸地區(qū)域上的高速移動節(jié)點(diǎn)和動態(tài)變化的環(huán)境中，獲得的真實實驗結(jié)果仍然存在差距，以證明學(xué)習(xí)算法的精度[4]。在分層網(wǎng)絡(luò)中，架構(gòu)設(shè)計、網(wǎng)絡(luò)實體通信參數(shù)控制、計算能力、集中或分布式控制性能以及精度要求，仍需要使用 AI/ML/DL方面進(jìn)行探索。先進(jìn)的算法和操作期間的網(wǎng)絡(luò)攻擊技術(shù)，也是該領(lǐng)域的一個公開挑戰(zhàn)，例如無人機(jī)系統(tǒng)的可靠通信，會話劫持，中間人攻擊等。

3 RL的類型

正面及負(fù)面，是RL的兩種類型，定義如下：

(1)正面

正面的RL是指由于特殊行為而發(fā)生的事件。它放大了行為的強(qiáng)度和振蕩度，并影響了代理執(zhí)行的活動。它最大化了事件的性能，并在較長時間內(nèi)保持變化，而RL的過度實施，會產(chǎn)生影響活動結(jié)果的過度優(yōu)化狀態(tài)。

(2)負(fù)面

在這種類型的RL中，會采取措施來提高由于不良條件而發(fā)生的行為的強(qiáng)度。應(yīng)停止或減少這些不良條件，以達(dá)到最低性能要求。然而，需要付出很多努力才能達(dá)到該要求的條件。

4 結(jié)論

已經(jīng)進(jìn)行了許多研究來解決未來無線網(wǎng)絡(luò)的最大挑戰(zhàn)，例如5G小型蜂窩中的HO管理。新興技術(shù)，即D2D、M2M、MIMO、EC、SC、BF、WiFi和SDN、NFV和 CC的融合，以及mMTC、eMBB和uRLLC等即將推出的用例和服務(wù)，帶來了新的挑戰(zhàn)。此外，5G超密集小蜂窩（ UDSC）網(wǎng)絡(luò)中的高速移動性、高數(shù)據(jù)速率應(yīng)用和有限的資源，也面臨著眾多挑戰(zhàn)，仍然需要使用先進(jìn)的ML算法，以優(yōu)化的方式解決一些重大挑戰(zhàn)。

(1)多媒體流量的QoS/QoE；多媒體業(yè)務(wù)對服務(wù)質(zhì)量和服務(wù)能力的要求不同于數(shù)據(jù)和語音業(yè)務(wù)。HO技術(shù)在不同的用例中提供不同的QoS/QoE，以執(zhí)行各種類型的多媒體流量。在考慮HO管理中的QoS/QoE的同時，提供最佳機(jī)器學(xué)習(xí)解決方案是超5G無線小型蜂窩網(wǎng)絡(luò)的一個活躍研究領(lǐng)域，在該網(wǎng)絡(luò)中，將以低延遲和最佳連接性驅(qū)動大量數(shù)據(jù)。

（2）控制通信開銷；現(xiàn)有的HO解決方案需要在所有可用于通信的節(jié)點(diǎn)，即宏小區(qū)、小型小區(qū)和UE之間進(jìn)行復(fù)雜且頻繁的協(xié)作。這種現(xiàn)象需要大量的網(wǎng)絡(luò)資源來交換必要的信息。同時考慮提供最好的機(jī)器學(xué)習(xí)解決方案來控制通信開銷，是超5G無線小型蜂窩網(wǎng)絡(luò)的活躍研究領(lǐng)域。

（3）無線回程頻譜效率；在超5G的無線網(wǎng)絡(luò)中，小區(qū)BS需要具有強(qiáng)大能力的無線回程網(wǎng)絡(luò)來處理大量無線連接和靈活的部署。因此，為頻譜資源管理、網(wǎng)絡(luò)復(fù)雜性，和基礎(chǔ)設(shè)施成本，提供最佳機(jī)器學(xué)習(xí)解決方案，以處理超5G無線網(wǎng)絡(luò)中的大量小區(qū)，是一個活躍的研究領(lǐng)域。

（4）先進(jìn)技術(shù)整合；在5G小蜂窩網(wǎng)絡(luò)中，毫米波、大規(guī)模MIMO和mMTC是使網(wǎng)絡(luò)容量提高100倍的關(guān)鍵推動力[5]。這些先進(jìn)技術(shù)的大量信令開銷，產(chǎn)生了密集的通信和信號處理。因此，在5G無線網(wǎng)絡(luò)中，使用機(jī)器學(xué)習(xí)提供資源效率、成本效率和抑制干擾，也是一個活躍的研究領(lǐng)域。

(5)安全和隱私問題；超密集5G小型蜂窩網(wǎng)絡(luò)的 HO管理中，最關(guān)鍵的挑戰(zhàn)是安全和隱私問題，因為蜂窩和UE的高密度化。處理通信數(shù)據(jù)的新功能和應(yīng)用程序的數(shù)量，對安全妥協(xié)和隱私問題提出了新的挑戰(zhàn)。因此，在5G小蜂窩無線網(wǎng)絡(luò)中，使用機(jī)器學(xué)習(xí)進(jìn)行有效反擊也是一個積極的研究方向。