亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于5G的強(qiáng)化學(xué)習(xí)算法分析與挑戰(zhàn)

        2022-09-21 01:34:20董春利王莉
        電子測試 2022年17期
        關(guān)鍵詞:監(jiān)督環(huán)境策略

        董春利,王莉

        (南京交通職業(yè)技術(shù)學(xué)院電子信息工程學(xué)院,江蘇南京, 211188)

        0 引言

        強(qiáng)化學(xué)習(xí)(RL)是指通過在環(huán)境中采取一些行動,來增加獎勵。這種學(xué)習(xí)涉及執(zhí)行使這些獎勵最大化的那些行動。這種類型的學(xué)習(xí)行為與自然學(xué)習(xí)相同,其中代理必須通過命中和試驗機(jī)制自己學(xué)習(xí)以獲得最大獎勵[1]。機(jī)器學(xué)習(xí)(ML)可分為監(jiān)督、無監(jiān)督和半監(jiān)督學(xué)習(xí)。RL(半監(jiān)督)不同于有監(jiān)督和無監(jiān)督學(xué)習(xí)。在監(jiān)督學(xué)習(xí)中,每個動作都有一組指令,目標(biāo)是映射輸入對應(yīng)的輸出并從標(biāo)記數(shù)據(jù)中學(xué)習(xí)規(guī)則。此類中使用回歸和分類模型,取決于值是連續(xù)的,還是離散的。而在無監(jiān)督學(xué)習(xí)的情況下,代理必須發(fā)現(xiàn)未標(biāo)記數(shù)據(jù)的隱藏結(jié)構(gòu)[2]。無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相反,通??梢栽跀?shù)據(jù)不足且未標(biāo)記時應(yīng)用。但是在RL的情況下,代理具有初始點(diǎn)和終點(diǎn),并且要到達(dá)其目的地,代理必須通過操縱環(huán)境來找到最佳可能的行動。達(dá)到最終解決方案后,代理會獲得獎勵,但如果未能達(dá)到,則不會獲得任何獎勵,因此,代理必須學(xué)習(xí)環(huán)境才能獲得最大的獎勵。在RL中,問題的制定是使用馬爾可夫決策過程(MDP) 完成的,解決方案可以是策略或模型庫,并且可以是無模型的,即 Q-learning、SARSA。在這種技術(shù)中,代理與環(huán)境交互并根據(jù)獎勵生成策略,最后系統(tǒng)被訓(xùn)練并提供改進(jìn)的性能。

        1 RL模式

        RL有兩個主要特征:(i)試錯搜索;(ii)延遲獎勵。圖1顯示了RL和深度Q學(xué)習(xí)模式。

        圖1 (a)RL示意圖,(b)深度Q學(xué)習(xí)示意圖

        模型用于預(yù)測環(huán)境的性質(zhì)。同時使用規(guī)劃和模型的ML設(shè)計是基于模型的機(jī)制。如果沒有環(huán)境模型,則可以通過試錯法進(jìn)行學(xué)習(xí)。RL算法的實現(xiàn)一般有2種方式。

        基于值:在基于值的RL算法中,用戶試圖實現(xiàn)最大值函數(shù),這意味著智能體期望現(xiàn)有狀態(tài)的長期回報。

        基于策略:在這種方法中,用戶設(shè)計一個策略,其中在每個狀態(tài)下執(zhí)行多個動作,以在未來獲得最大獎勵。策略描述了代理必須在某些環(huán)境條件下采取行動的方法?;旧希呗钥偸怯成錉顟B(tài)和動作的功能。許多格式可以作為策略來實現(xiàn),例如它可以是一個表格、任何搜索過程或可以是一個函數(shù)。RL的想法是最大化該策略的方法。信號獎勵描述了代理采取的行動是好是壞。這個獎勵信號的目的是夸大整體獎勵。策略依賴于信號獎勵,如果代理收到不好的獎勵,它必須修改它的策略,然后再次執(zhí)行操作。獎勵可以分為即時獎勵或延遲獎勵。在延遲獎勵的情況下,代理必須找出導(dǎo)致該獎勵的原因。價值函數(shù)計算即將到來的整體獎勵,價值函數(shù)背后的核心思想是弄清楚狀態(tài)并相應(yīng)地執(zhí)行操作。上面給出了RL的基本圖,它顯示了狀態(tài)及其相關(guān)動作。

        基于策略的方法進(jìn)一步分為以下類型:

        (1)確定的:對所有狀態(tài)執(zhí)行相同的操作,并由策略模塊處理。

        (2)隨機(jī)的:每個動作都對應(yīng)一個基于特定策略的模型。在這種方法中,為所有類型的周圍氛圍或環(huán)境設(shè)計了一個虛擬模型。創(chuàng)建虛擬模型后,智能體的學(xué)習(xí)過程開始在該環(huán)境中執(zhí)行。

        2 深度學(xué)習(xí)(DL)

        在DL中,使用近似于復(fù)雜函數(shù)的神經(jīng)元操作來建立規(guī)則。在移動通信中,DL對于解決復(fù)雜的非凸挑戰(zhàn)和高計算問題具有重要意義。由于神經(jīng)網(wǎng)絡(luò)用于特征提取和學(xué)習(xí)階段,因此該算法可用于多種場景,即非線性模型增強(qiáng)、連續(xù)變化的移動環(huán)境評估、過擬合程度和復(fù)雜度降低以及數(shù)據(jù)最小化的重構(gòu)誤差。DRL是許多科學(xué)領(lǐng)域的革命性和新興工具,特別是在移動通信領(lǐng)域,用于有效地提供各種挑戰(zhàn)的解決方案。深度卷積神經(jīng)網(wǎng)絡(luò)(DNN)旨在學(xué)習(xí)信道的特征并預(yù)測適當(dāng)?shù)恼{(diào)制編碼方案。對于無需人工干預(yù)的智能決策,采用多層構(gòu)建人工神經(jīng)網(wǎng)絡(luò)。為了改善網(wǎng)絡(luò)的參數(shù),人工智能(AI)、機(jī)器/深度學(xué)習(xí)技術(shù)是最好的方法,因為有更少的物理干預(yù)和先進(jìn)的計算約束。

        如今,諸如HetNets、物聯(lián)網(wǎng)和無人機(jī)網(wǎng)絡(luò)等先進(jìn)的網(wǎng)絡(luò)被重塑為自主、臨時和分散的形式,在這種形式中,移動用戶、無人機(jī)和物聯(lián)網(wǎng)設(shè)備自行做出決策,即小區(qū)關(guān)聯(lián)、功率控制、數(shù)據(jù)傳輸?shù)?。在這些場景中,MDP 塑造的問題值得做出相應(yīng)的決策,并且算法和學(xué)習(xí)技術(shù)的數(shù)量有助于解決MDP[3]。事實證明,求解計算復(fù)雜的高級和大型網(wǎng)絡(luò)是非常困難的。在這方面,DRL提供了一些必要的好處,例如獨(dú)立決策、通過大狀態(tài)和動作空間提高學(xué)習(xí)速度、學(xué)習(xí)和發(fā)展對通信和環(huán)境的網(wǎng)絡(luò)理解、復(fù)雜的網(wǎng)絡(luò)優(yōu)化、數(shù)據(jù)卸載、干擾管理和網(wǎng)絡(luò)物理攻擊建模。需要在5G環(huán)境下研究基于DRL的5G HetNet聯(lián)合資源管理功能、基于多目標(biāo)DRL的資源管理、靈活的資源管理設(shè)計、基于DRL的5G HetNet負(fù)載均衡。圖2顯示了使用機(jī)器學(xué)習(xí)工具的HO優(yōu)化技術(shù)的類別。

        圖2 HO優(yōu)化技術(shù)

        對于預(yù)測分析,AI需要在渠道建模方面更加成熟。主要問題是由于巨大的天線導(dǎo)致的高維搜索、發(fā)射和接收信號的關(guān)系、發(fā)射和接收波束的更快組合學(xué)習(xí)、AI模型訓(xùn)練的收斂性。AI/ML/DL的先進(jìn)技術(shù)為5G和超5G的無線網(wǎng)絡(luò)注入活力,以支持現(xiàn)實世界中引入的新興用例。然而,盡管取得了進(jìn)展,但仍然需要解決開放的研究問題和未來的方向。在實際實施中,訓(xùn)練過程的效率需要成熟度,例如學(xué)習(xí)算法的最佳可能參數(shù)更快地收斂。為了從廣泛的測量操作中獲取數(shù)據(jù),從密集的城市傳播區(qū)域、陸地區(qū)域上的高速移動節(jié)點(diǎn)和動態(tài)變化的環(huán)境中,獲得的真實實驗結(jié)果仍然存在差距,以證明學(xué)習(xí)算法的精度[4]。在分層網(wǎng)絡(luò)中,架構(gòu)設(shè)計、網(wǎng)絡(luò)實體通信參數(shù)控制、計算能力、集中或分布式控制性能以及精度要求,仍需要使用 AI/ML/DL方面進(jìn)行探索。先進(jìn)的算法和操作期間的網(wǎng)絡(luò)攻擊技術(shù),也是該領(lǐng)域的一個公開挑戰(zhàn),例如無人機(jī)系統(tǒng)的可靠通信,會話劫持,中間人攻擊等。

        3 RL的類型

        正面及負(fù)面,是RL的兩種類型,定義如下:

        (1)正面

        正面的RL是指由于特殊行為而發(fā)生的事件。它放大了行為的強(qiáng)度和振蕩度,并影響了代理執(zhí)行的活動。它最大化了事件的性能,并在較長時間內(nèi)保持變化,而RL的過度實施,會產(chǎn)生影響活動結(jié)果的過度優(yōu)化狀態(tài)。

        (2)負(fù)面

        在這種類型的RL中,會采取措施來提高由于不良條件而發(fā)生的行為的強(qiáng)度。應(yīng)停止或減少這些不良條件,以達(dá)到最低性能要求。然而,需要付出很多努力才能達(dá)到該要求的條件。

        4 結(jié)論

        已經(jīng)進(jìn)行了許多研究來解決未來無線網(wǎng)絡(luò)的最大挑戰(zhàn),例如5G小型蜂窩中的HO管理。新興技術(shù),即D2D、M2M、MIMO、EC、SC、BF、WiFi和SDN、NFV和 CC的融合,以及mMTC、eMBB和uRLLC等即將推出的用例和服務(wù),帶來了新的挑戰(zhàn)。此外,5G超密集小蜂窩( UDSC)網(wǎng)絡(luò)中的高速移動性、高數(shù)據(jù)速率應(yīng)用和有限的資源,也面臨著眾多挑戰(zhàn),仍然需要使用先進(jìn)的ML算法,以優(yōu)化的方式解決一些重大挑戰(zhàn)。

        (1)多媒體流量的QoS/QoE;多媒體業(yè)務(wù)對服務(wù)質(zhì)量和服務(wù)能力的要求不同于數(shù)據(jù)和語音業(yè)務(wù)。HO技術(shù)在不同的用例中提供不同的QoS/QoE,以執(zhí)行各種類型的多媒體流量。在考慮HO管理中的QoS/QoE的同時,提供最佳機(jī)器學(xué)習(xí)解決方案是超5G無線小型蜂窩網(wǎng)絡(luò)的一個活躍研究領(lǐng)域,在該網(wǎng)絡(luò)中,將以低延遲和最佳連接性驅(qū)動大量數(shù)據(jù)。

        (2)控制通信開銷;現(xiàn)有的HO解決方案需要在所有可用于通信的節(jié)點(diǎn),即宏小區(qū)、小型小區(qū)和UE之間進(jìn)行復(fù)雜且頻繁的協(xié)作。這種現(xiàn)象需要大量的網(wǎng)絡(luò)資源來交換必要的信息。同時考慮提供最好的機(jī)器學(xué)習(xí)解決方案來控制通信開銷,是超5G無線小型蜂窩網(wǎng)絡(luò)的活躍研究領(lǐng)域。

        (3)無線回程頻譜效率;在超5G的無線網(wǎng)絡(luò)中,小區(qū)BS需要具有強(qiáng)大能力的無線回程網(wǎng)絡(luò)來處理大量無線連接和靈活的部署。因此,為頻譜資源管理、網(wǎng)絡(luò)復(fù)雜性,和基礎(chǔ)設(shè)施成本,提供最佳機(jī)器學(xué)習(xí)解決方案,以處理超5G無線網(wǎng)絡(luò)中的大量小區(qū),是一個活躍的研究領(lǐng)域。

        (4)先進(jìn)技術(shù)整合;在5G小蜂窩網(wǎng)絡(luò)中,毫米波、大規(guī)模MIMO和mMTC是使網(wǎng)絡(luò)容量提高100倍的關(guān)鍵推動力[5]。這些先進(jìn)技術(shù)的大量信令開銷,產(chǎn)生了密集的通信和信號處理。因此,在5G無線網(wǎng)絡(luò)中,使用機(jī)器學(xué)習(xí)提供資源效率、成本效率和抑制干擾,也是一個活躍的研究領(lǐng)域。

        (5)安全和隱私問題;超密集5G小型蜂窩網(wǎng)絡(luò)的 HO管理中,最關(guān)鍵的挑戰(zhàn)是安全和隱私問題,因為蜂窩和UE的高密度化。處理通信數(shù)據(jù)的新功能和應(yīng)用程序的數(shù)量,對安全妥協(xié)和隱私問題提出了新的挑戰(zhàn)。 因此,在5G小蜂窩無線網(wǎng)絡(luò)中,使用機(jī)器學(xué)習(xí)進(jìn)行有效反擊也是一個積極的研究方向。

        猜你喜歡
        監(jiān)督環(huán)境策略
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        例談未知角三角函數(shù)值的求解策略
        孕期遠(yuǎn)離容易致畸的環(huán)境
        我說你做講策略
        環(huán)境
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        監(jiān)督見成效 舊貌換新顏
        夯實監(jiān)督之基
        一区二区三区视频亚洲| 亚洲一区二区三区天堂av | 美女和男人一起插插插| 成人午夜视频一区二区无码| 精品亚洲成在人线av无码| 国产精品第一二三区久久| 亚洲中文字幕不卡一区二区三区| 99精品国产在热久久国产乱| 消息称老熟妇乱视频一区二区 | 国产中文制服丝袜另类| 亚洲中文字幕久久无码精品| 国产精品专区第一页天堂2019| 女同国产日韩精品在线| 无码免费人妻超级碰碰碰碰| 一本色综合久久| 日韩人妻少妇一区二区三区| 青青草在线免费观看在线| 国产精品久久久久久久久久影院| 香蕉人妻av久久久久天天| 精品无码av一区二区三区| 亚洲精品成人无百码中文毛片| 人妻中出中文字幕在线| 蜜桃在线播放免费一区二区三区 | 成人国产精品一区二区网站| 欧美成人片一区二区三区| 中文字幕亚洲无线码一区女同| 国产免费一区二区在线视频| 国产精品成人有码在线观看| 日韩啪啪精品一区二区亚洲av | www插插插无码视频网站| 免费a级毛片出奶水| 欧美熟妇性xxx交潮喷| 26uuu在线亚洲欧美| 韩国三级黄色一区二区| 91在线观看国产自拍| 亚洲三级在线播放| 久久中文字幕乱码免费| 无码国产午夜福利片在线观看| 东京道一本热中文字幕| 麻豆文化传媒精品一区观看| 国产精品毛片极品久久|