謝海東,陳遠(yuǎn)清,向雪霜
(中國空間技術(shù)研究院 錢學(xué)森空間技術(shù)實(shí)驗(yàn)室,北京 100190)
隨著5G、物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,大規(guī)模機(jī)器類型通信(mMTC)[1]場景應(yīng)用需求日益凸顯。此時(shí),預(yù)計(jì)未來可能出現(xiàn)每平方公里高達(dá)百萬量級(jí)的連接需求,對(duì)大規(guī)模接入提出了巨大的挑戰(zhàn)。面向上述大規(guī)模高并發(fā)通信治理問題,目前存在諸如NB-IoT、eMTC、Bluetooth、WiFi、ZigBee等一系列通信協(xié)議[2-3],每種協(xié)議在功耗、連接數(shù)量、通信時(shí)延、數(shù)據(jù)可靠性以及使用難易程度等方面有所不同。
在這些通信協(xié)議中,高效的信號(hào)防碰撞算法是體現(xiàn)其處理大規(guī)模高并發(fā)需求的核心能力之一[4]。防碰撞算法的核心目標(biāo)是解決多個(gè)設(shè)備在共享信道中傳輸信號(hào)重合,導(dǎo)致的無效傳輸問題。過多的信號(hào)碰撞會(huì)導(dǎo)致信道利用效率急劇降低,嚴(yán)重時(shí)可能導(dǎo)致通信完全中斷。在典型的合作場景下,現(xiàn)有防碰撞方法在理論上可以實(shí)現(xiàn)優(yōu)秀的通信效率。然而已有算法鮮有考慮在對(duì)抗場景下的防碰撞效能,本文就此基于強(qiáng)化學(xué)習(xí)研究了針對(duì)性的信道碰撞干擾方法,并數(shù)值驗(yàn)證了干擾效果,為防碰撞算法后續(xù)安全與抗干擾研究提供了新思路。
在高并發(fā)數(shù)據(jù)傳輸過程中,為避免信號(hào)沖突導(dǎo)致無效傳輸,通信設(shè)備需要監(jiān)聽共享信道是否處于空閑狀態(tài),并在發(fā)生沖突后運(yùn)用防碰撞算法來盡可能避免后續(xù)沖突。目前典型的防碰撞算法主要包括有線網(wǎng)絡(luò)的退避算法、無線網(wǎng)絡(luò)的Aloha概率性算法和基于樹的確定性算法等[4-6]。
二進(jìn)制指數(shù)退避(Binary Exponential Backoff,BEB)算法[7]最早被運(yùn)用在載波偵聽多路訪問/沖突檢測(Carrier Sense Multiple Access/Collision Detection,CSMA/CD)協(xié)議中,可實(shí)現(xiàn)有線網(wǎng)絡(luò)的分布式防碰撞訪問控制。其核心思想是節(jié)點(diǎn)在遇到?jīng)_突時(shí),廣播干擾信號(hào),并在隨機(jī)的時(shí)延后重新嘗試;時(shí)延大小在逐步增加的二進(jìn)制指數(shù)離散點(diǎn)內(nèi)隨機(jī)選取。因此該算法有助于負(fù)荷的平滑過渡,避免沖突重復(fù)發(fā)生,但這個(gè)算法對(duì)于信道容量的利用效率不高。
當(dāng)沖突發(fā)生時(shí),基于二叉樹的改進(jìn)算法在前者基礎(chǔ)上,按照網(wǎng)絡(luò)節(jié)點(diǎn)靜態(tài)的二叉樹映射,依次發(fā)送數(shù)據(jù)。這類方法可以有效避免沖突的重復(fù),且可有效控制最大網(wǎng)絡(luò)延遲,但性能依賴于二叉樹映射,當(dāng)設(shè)備或需求動(dòng)態(tài)性較強(qiáng)時(shí)可能導(dǎo)致平均延遲增大。
基于交換機(jī)的解決方法,通過交換機(jī)進(jìn)行多個(gè)節(jié)點(diǎn)信息的暫存與中轉(zhuǎn),對(duì)于網(wǎng)內(nèi)獨(dú)立通信可以劃分獨(dú)立沖突域?qū)崿F(xiàn)全雙工通信,網(wǎng)絡(luò)服務(wù)質(zhì)量得到保障,但成本較高。
通過修改網(wǎng)絡(luò)數(shù)據(jù)幀格式,根據(jù)優(yōu)先級(jí)不同,采用不同長度的阻塞信號(hào),降低沖突發(fā)生概率。阻塞信號(hào)長度越長,網(wǎng)絡(luò)優(yōu)先級(jí)別越高。但這種方式依賴于網(wǎng)絡(luò)底層邏輯修改,任意性較強(qiáng),容易造成長阻塞信號(hào)用戶大量占用網(wǎng)絡(luò)資源情況。
純Aloha算法[8-9]是最基本的防碰撞算法,固定數(shù)據(jù)幀長T并按需隨時(shí)發(fā)送。當(dāng)多個(gè)節(jié)點(diǎn)發(fā)生碰撞時(shí),由接收器告警并由發(fā)送端隨機(jī)延后重試,降低繼續(xù)碰撞的概率。這種算法實(shí)現(xiàn)簡單,但存在部分碰撞問題,有效碰撞時(shí)間為2T,最大吞吐率僅能達(dá)到18.4%,相對(duì)較低。
時(shí)隙Aloha(Slotted Aloha,SA)算法,把時(shí)間分成多個(gè)離散時(shí)隙,節(jié)點(diǎn)只在每個(gè)時(shí)隙的開始時(shí)刻才能發(fā)送數(shù)據(jù)。算法中節(jié)點(diǎn)成功識(shí)別或完全碰撞,避免了純Aloha算法中出現(xiàn)的部分碰撞問題,其最大吞吐率可達(dá)36.8%。但在發(fā)生碰撞時(shí),節(jié)點(diǎn)延遲的隨機(jī)性范圍很大,影響了其平均響應(yīng)速度。
幀時(shí)隙Aloha(Framed Slotted Aloha,F(xiàn)SA)算法,規(guī)定若干個(gè)時(shí)隙為一幀,節(jié)點(diǎn)選擇的隨機(jī)延遲必須是幀內(nèi)的某個(gè)時(shí)隙。當(dāng)幀長數(shù)目與節(jié)點(diǎn)數(shù)目相等時(shí),達(dá)到最大吞吐率36.8%。對(duì)于不同需求,均存在最佳的幀長,使得網(wǎng)絡(luò)吞吐率最佳。
動(dòng)態(tài)幀時(shí)隙Aloha (Dynamic Framed Slotted Aloha,DFSA)算法[10-11]考慮根據(jù)節(jié)點(diǎn)數(shù)量動(dòng)態(tài)地調(diào)整幀長,即采用等于節(jié)點(diǎn)數(shù)量的最優(yōu)幀長。在DFSA算法中,非常重要的一項(xiàng)工作就是節(jié)點(diǎn)數(shù)量的估計(jì),大多數(shù)方法是根據(jù)上一幀的幀長、節(jié)點(diǎn)個(gè)數(shù)、沖突情況來估計(jì)當(dāng)前幀中的節(jié)點(diǎn)數(shù)。
當(dāng)節(jié)點(diǎn)數(shù)量較多時(shí),可通過分組等方法將需求簡化。分群時(shí)隙Aloha算法,根據(jù)碰撞時(shí)隙在所分配時(shí)隙中所占的比例,確定是否分群,通過分群依次解決每個(gè)群內(nèi)的數(shù)據(jù)傳輸需求。自適應(yīng)的動(dòng)態(tài)幀時(shí)隙Aloha算法,考慮應(yīng)用中重復(fù)傳輸?shù)囊?,通過分配時(shí)隙號(hào)充分利用已識(shí)別節(jié)點(diǎn)的信息,按時(shí)隙號(hào)依次傳輸避免沖突。
為解決預(yù)測節(jié)點(diǎn)困難問題,使用Q值算法實(shí)時(shí)自適應(yīng)地調(diào)整幀長。節(jié)點(diǎn)在Q值范圍內(nèi)隨機(jī)生成對(duì)應(yīng)傳輸順序的時(shí)隙位置,同時(shí)根據(jù)沖突情況調(diào)整Q值大小。基于分組的位隙Aloha算法,采用位隙Aloha算法中的128位預(yù)定序列,代表128個(gè)位隙。當(dāng)節(jié)點(diǎn)數(shù)量為15時(shí),位隙Aloha算法可獲得最大吞吐率88.38%,但隨著節(jié)點(diǎn)數(shù)量的增加,算法性能急劇下降。
確定性算法[12]主要包括樹分裂 (Tree Splitting,TS) 算法和查詢樹(Query Tree,QT)算法。TS算法[13]將發(fā)生沖突的節(jié)點(diǎn)分成兩個(gè)子集,第一子集在下一個(gè)時(shí)隙響應(yīng),若又發(fā)生沖突,則再次分裂,如此遞歸直到子集中只有1個(gè)節(jié)點(diǎn)為止。該算法要求節(jié)點(diǎn)具有隨機(jī)數(shù)生成器來實(shí)現(xiàn)子集分裂。
QT算法[14]不需要節(jié)點(diǎn)具備隨機(jī)數(shù)生成器和計(jì)數(shù)器,僅要求具有前綴匹配電路,降低了節(jié)點(diǎn)設(shè)計(jì)復(fù)雜度。接收端首先向所有節(jié)點(diǎn)廣播一個(gè)前綴,節(jié)點(diǎn)將其與自己ID比較,若匹配則進(jìn)行響應(yīng),將ID號(hào)的未匹配部分發(fā)送。如果有多個(gè)節(jié)點(diǎn)響應(yīng)出現(xiàn)沖突,則接收端在前綴后增加一位(0或1)生成新前綴,再次查詢,如此重復(fù)。
由于實(shí)際應(yīng)用過程中設(shè)備數(shù)量與需求動(dòng)態(tài)變化,因此事先制定的策略常常難以發(fā)揮預(yù)想的效果。隨著近幾年人工智能技術(shù)的發(fā)展[15],基于智能技術(shù)的防碰撞方法取得了優(yōu)異的效果。例如利用Q學(xué)習(xí)思想動(dòng)態(tài)調(diào)整不同信道下的分配策略[16],面對(duì)不同空間區(qū)域利用能量優(yōu)化思想兼顧節(jié)能與防碰撞[17],針對(duì)需求預(yù)測難的問題利用強(qiáng)化學(xué)習(xí)思想實(shí)現(xiàn)吞吐率最大化[18]。
已有信道防碰撞算法雖然取得了不錯(cuò)的性能,但均沒有考慮干擾存在的情況。近年來很多工作利用智能手段研究無線通信中的干擾對(duì)抗問題[19],例如基于深度學(xué)習(xí)的無線信道干擾攻擊[20],訓(xùn)練智能模型實(shí)現(xiàn)傳輸干擾與抗干擾博弈。本文進(jìn)而考慮運(yùn)用智能手段干擾信道防碰撞算法,下面首先討論信道的數(shù)學(xué)建模,進(jìn)而提出自適應(yīng)信道干擾方法。
退避算法和Aloha概率性算法可以總結(jié)為“先觀測、再傳輸、然后防碰撞”的模式。對(duì)于確定性的算法,其傳輸依賴于控制節(jié)點(diǎn),不存在隨機(jī)性因素,本文不進(jìn)行詳細(xì)討論。為了抽象方便,信道上借鑒性能優(yōu)異的幀時(shí)隙Aloha算法,將時(shí)間劃分為若干離散的幀,幀長為T,每幀包含n個(gè)時(shí)隙。此時(shí)當(dāng)幀長T為無窮大,退化為時(shí)隙Aloha算法的對(duì)應(yīng)信道;當(dāng)數(shù)據(jù)長度為若干時(shí)隙時(shí),可以用于描述純Aloha算法對(duì)應(yīng)信道。
傳輸節(jié)點(diǎn)的目標(biāo)是基于某防碰撞算法,在信道模型框架下建立傳輸連接并完成傳輸。對(duì)于每一個(gè)節(jié)點(diǎn),應(yīng)該觀測歷史m幀的信道信息,并利用防碰撞算法進(jìn)行行為控制,決定是否在下一幀某時(shí)隙進(jìn)行嘗試。此時(shí)如果發(fā)射節(jié)點(diǎn)嘗試發(fā)射的同時(shí)干擾節(jié)點(diǎn)無動(dòng)作,則認(rèn)為發(fā)射成功。因此干擾節(jié)點(diǎn)的目標(biāo)是使用盡可能小的平均發(fā)射功率,使得各個(gè)發(fā)射節(jié)點(diǎn)傳輸嘗試成功率盡可能低,即信道傳輸利用率盡可能小。顯然不同功率對(duì)應(yīng)的干擾效果不同,因此在評(píng)價(jià)方面,每一個(gè)干擾方法應(yīng)當(dāng)有一條干擾功率-信道利用率曲線,本文通過曲線的比較與曲線中典型數(shù)據(jù)點(diǎn)的比較來評(píng)價(jià)干擾的好壞。
本文使用強(qiáng)化學(xué)習(xí)技術(shù)來智能學(xué)習(xí)最佳的干擾策略。強(qiáng)化學(xué)習(xí)符合馬爾可夫過程,無需預(yù)先采集數(shù)據(jù),通過智能體以試錯(cuò)的方式與環(huán)境進(jìn)行交互獲得的獎(jiǎng)賞指導(dǎo)行為,最終學(xué)習(xí)到最佳策略以獲得最大的獎(jiǎng)賞[21]。智能體Agent根據(jù)當(dāng)前環(huán)境狀態(tài)State選擇一個(gè)動(dòng)作Action作用于環(huán)境,環(huán)境基于該動(dòng)作進(jìn)行演化,將一個(gè)獎(jiǎng)懲信號(hào)Reward反饋給智能體,智能體根據(jù)獎(jiǎng)懲信號(hào)和環(huán)境更新狀態(tài)選擇下一輪動(dòng)作。其中動(dòng)作的選擇原則是使得獎(jiǎng)勵(lì)概率最大化,并最終引導(dǎo)智能體取得最佳決策。
基于上述強(qiáng)化學(xué)習(xí),本文提出了自適應(yīng)信道干擾方法(Adaptive Channel Jamming),該方法可自主學(xué)習(xí)不同信道防碰撞算法下的最佳干擾策略。根據(jù)前文中的信道模型,具體方法的流程圖如圖1所示,其中關(guān)鍵要素列舉如下:
圖1 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)信道干擾方法流程圖
智能體Agent采用Deep Q-Network,神經(jīng)網(wǎng)絡(luò)采用雙隱層全連接網(wǎng)絡(luò),每層24個(gè)神經(jīng)元。
觀測量State信道m(xù)幀n時(shí)隙共mn×3形式的矩陣,分別對(duì)應(yīng)歷史m幀n時(shí)隙的節(jié)點(diǎn)傳輸狀態(tài)、干擾節(jié)點(diǎn)動(dòng)作記錄和總信道狀態(tài)記錄。
動(dòng)作Action可選擇干擾與不干擾兩種動(dòng)作。
獎(jiǎng)勵(lì)函數(shù)Reward干擾且傳輸-2分,干擾無傳輸-1分,無干擾有傳輸-1分,無干擾無傳輸2分。
單目標(biāo)干擾考慮一個(gè)發(fā)射節(jié)點(diǎn)和一個(gè)干擾節(jié)點(diǎn)之間的博弈,因此為了簡化模型,去掉不必要的傳輸細(xì)節(jié),僅考慮傳輸節(jié)點(diǎn)隨時(shí)具有通信需求的情況,分別對(duì)比如下防碰撞算法:
無防碰撞算法即節(jié)點(diǎn)有通信需求時(shí)即刻發(fā)送,不考慮是否碰撞與干擾。
最簡防碰撞算法即節(jié)點(diǎn)僅當(dāng)上一時(shí)隙信道無干擾時(shí)嘗試發(fā)送。
概率防碰撞算法即節(jié)點(diǎn)按照一定概率p決定是否嘗試發(fā)送。
上述最簡和概率防碰撞算法是現(xiàn)有典型算法在單目標(biāo)條件下的簡化,應(yīng)測試如下干擾方法:
無干擾干擾節(jié)點(diǎn)不發(fā)出任何干擾信號(hào)。
隨機(jī)干擾干擾節(jié)點(diǎn)以概率p決定是否干擾。
跟蹤干擾干擾節(jié)點(diǎn)監(jiān)測到傳輸后立即干擾。
自適應(yīng)信道干擾本文提出的智能干擾。
表1給出了不同防碰撞策略面對(duì)不同干擾時(shí)的性能表現(xiàn),分別展示信道利用率、傳輸成功率、干擾功率結(jié)果,其中信道利用率是指單位時(shí)間內(nèi),用于有效傳輸?shù)臅r(shí)間占比;傳輸成功率是指無碰撞發(fā)射次數(shù)占總嘗試次數(shù)的比例;干擾功率是指單位時(shí)間內(nèi)發(fā)射干擾信號(hào)的比例。
表1 不同防碰撞策略面對(duì)不同干擾時(shí)的性能
由表1數(shù)據(jù)可以發(fā)現(xiàn),不同防碰撞策略與不同干擾方法之間的關(guān)系是比較復(fù)雜的。無論哪種干擾均產(chǎn)生了干擾效果,信道利用率相比無干擾均有明顯下降。在無防碰撞時(shí),跟蹤干擾效果最強(qiáng),此時(shí)發(fā)射機(jī)一直傳輸信號(hào),干擾機(jī)一直發(fā)出干擾。在最簡防碰撞下,跟蹤干擾效能發(fā)揮不佳,原因是干擾與防碰撞均相隔一個(gè)時(shí)隙,二者恰好錯(cuò)開。在隨機(jī)防碰撞時(shí),無論哪種干擾在相同功率下效果相同,因?yàn)殡S機(jī)發(fā)射不存在可尋找的規(guī)律。
進(jìn)一步自適應(yīng)信道干擾可根據(jù)防碰撞的不同自動(dòng)學(xué)習(xí)到最佳的干擾策略,無論是有規(guī)律可循的還是無規(guī)律的防碰撞策略,均表現(xiàn)最佳。特別是對(duì)于最簡防碰撞策略,智能干擾與防碰撞恰好同步地進(jìn)行發(fā)射與等待,導(dǎo)致以100%的干擾概率干擾了全部傳輸信號(hào),充分體現(xiàn)了智能方法的優(yōu)越性。同時(shí)對(duì)于隨機(jī)防碰撞,智能方法可通過改變獎(jiǎng)勵(lì)函數(shù)來調(diào)整干擾功率與干擾效果的權(quán)衡(表格中僅展示了功率為0.5時(shí)的結(jié)果)。
為了更好地展示功率與效果的權(quán)衡,圖2展示了不同干擾方法干擾效果隨干擾功率的變化曲線,其中無干擾、隨機(jī)干擾、跟蹤干擾分別在圖中體現(xiàn)為單獨(dú)數(shù)據(jù)點(diǎn)。本文提出的自適應(yīng)信道干擾可以通過調(diào)整獎(jiǎng)勵(lì)函數(shù)Reward中的比例關(guān)系,實(shí)現(xiàn)權(quán)衡功率與干擾能力的目的。當(dāng)功率為0,顯然退化到無干擾結(jié)果;同時(shí)當(dāng)功率為1,對(duì)應(yīng)不間斷干擾。
圖2 面對(duì)不同防碰撞時(shí)干擾效果隨干擾功率變化曲線
因此基于強(qiáng)化學(xué)習(xí)的自適應(yīng)信道干擾技術(shù),無論面對(duì)規(guī)律性還是隨機(jī)性的防碰撞算法,總是可以學(xué)習(xí)到最佳的干擾策略,同時(shí)通過獎(jiǎng)勵(lì)函數(shù)的調(diào)整,可以權(quán)衡干擾功率與干擾效果。
為了仿真更加復(fù)雜的情況,本節(jié)考慮有多個(gè)發(fā)射節(jié)點(diǎn)的多目標(biāo)干擾實(shí)驗(yàn)。與單目標(biāo)節(jié)點(diǎn)不同,多個(gè)節(jié)點(diǎn)存在時(shí),需要考慮節(jié)點(diǎn)傳輸需求的動(dòng)態(tài)變化,因此基于信道建模,考慮每一幀中時(shí)隙n=8的情況。如果時(shí)隙內(nèi)僅有一個(gè)嘗試則傳輸成功,有多個(gè)嘗試則發(fā)生碰撞。此時(shí)根據(jù)幀時(shí)隙算法,同時(shí)存在8個(gè)傳輸需求時(shí)效率最高。因此假定系統(tǒng)中共有32個(gè)節(jié)點(diǎn),采用幀時(shí)隙算法,理論信道利用率為0.37。分別考慮無記憶和有記憶兩種簡化幀時(shí)隙防碰撞策略:
無記憶幀時(shí)隙每個(gè)節(jié)點(diǎn)不考慮之前傳輸狀態(tài),每一幀均有p的概率產(chǎn)生傳輸需求,并隨機(jī)選擇一個(gè)時(shí)隙嘗試傳輸。
記憶幀時(shí)隙每個(gè)節(jié)點(diǎn)在上一幀傳輸碰撞后,下一幀繼續(xù)嘗試,當(dāng)上一幀傳輸成功或無需求時(shí),下一幀有p的概率產(chǎn)生傳輸需求,并隨機(jī)選擇一個(gè)時(shí)隙嘗試傳輸。
系統(tǒng)中存在一個(gè)干擾節(jié)點(diǎn),該節(jié)點(diǎn)的目標(biāo)是以最小的功率代價(jià),實(shí)現(xiàn)一段時(shí)間內(nèi)最大可能的信道利用率干擾。下面分別測試無干擾、隨機(jī)干擾、跟蹤干擾與自適應(yīng)信道干擾下的博弈結(jié)果。
表2展示了多目標(biāo)系統(tǒng)中,不同防碰撞算法面對(duì)不同干擾時(shí)的性能表現(xiàn)。當(dāng)采用無記憶幀時(shí)隙算法,在無干擾下信道利用率能夠達(dá)到理論最優(yōu)值;在p=0.25的隨機(jī)干擾下,信道利用率降低至0.28,下降約25%。當(dāng)采用記憶幀時(shí)隙且p=0.10時(shí),信道利用率略微下降至0.33,但此時(shí)當(dāng)給予p=0.25的隨機(jī)干擾時(shí),信道利用率大幅度跌至0.11,表明其缺乏抗干擾能力。調(diào)整概率至p=0.07,此時(shí)在隨機(jī)干擾下信道利用率最大,引入干擾前后信道利用率變化不大,但傳輸成功率下降顯著。上述關(guān)系與理論公式估計(jì)一致,即引入干擾后等價(jià)可用時(shí)隙為n×(1-p干擾),根據(jù)p需求可計(jì)算出每一幀平均需求節(jié)點(diǎn)數(shù)量,進(jìn)而由文獻(xiàn)[18]中的公式估算信道利用率。
表2 多目標(biāo)系統(tǒng)面對(duì)不同干擾時(shí)的性能
接下來關(guān)注智能方法的結(jié)果,在面對(duì)無記憶幀時(shí)隙算法時(shí),由于不存在記憶,因此自適應(yīng)信道干擾可以學(xué)習(xí)到與隨機(jī)干擾一致的最佳干擾策略。在面對(duì)記憶幀時(shí)隙算法時(shí),自適應(yīng)信道干擾學(xué)習(xí)到的策略好于隨機(jī)干擾,取得了更優(yōu)秀的干擾效能。
為了更為清晰地展示自適應(yīng)信道干擾優(yōu)于隨機(jī)干擾的機(jī)理,圖3展示了隨著推演步數(shù)的增加,干擾行為與信道狀態(tài)的變化曲線。從策略上,很明顯不同于隨機(jī)干擾,智能方法采用類似周期性質(zhì)的干擾策略;通過連續(xù)的高強(qiáng)度干擾,使得傳輸需求得不到釋放從而快速積累;然后當(dāng)去除干擾后由于累計(jì)需求量很大,碰撞概率很高導(dǎo)致需求釋放仍然緩慢。智能方法通過類似的干擾→需求過載→高碰撞概率的方式,實(shí)現(xiàn)了相同平均干擾功率下,更有效的信道碰撞干擾。對(duì)于p=0.07的記憶幀時(shí)隙算法,可以實(shí)現(xiàn)相比隨機(jī)干擾強(qiáng)25%的干擾效能。
圖3 在記憶幀時(shí)隙p=0.07時(shí)施加自適應(yīng)信道干擾,各項(xiàng)信道參數(shù)隨推演步數(shù)變化曲線(曲線經(jīng)過平滑處理)
多樣化的防碰撞算法解決了未來大規(guī)模并發(fā)通信的信道防碰撞共享利用問題,但缺少對(duì)于抗干擾能力的考量。本文針對(duì)不同的防碰撞策略,測試了不同干擾策略的干擾效能,并基于強(qiáng)化學(xué)習(xí)思想提出了自適應(yīng)信道干擾方法。數(shù)值實(shí)驗(yàn)表明提出的方法不僅可以自主學(xué)習(xí)到最佳的信道干擾策略,還能在多目標(biāo)的復(fù)雜場景下學(xué)習(xí)到非均勻的干擾策略,實(shí)現(xiàn)超過典型策略的干擾效能。
通過本文所發(fā)現(xiàn)的防碰撞算法抗干擾實(shí)驗(yàn)結(jié)果,未來防碰撞算法應(yīng)該向更加穩(wěn)定與彈性方向發(fā)展。核心是指現(xiàn)有基于幀時(shí)隙思想的防碰撞算法雖然可以實(shí)現(xiàn)0.37的理論最大信道利用率,但當(dāng)需求出現(xiàn)波動(dòng)時(shí)算法性能不夠穩(wěn)定,容易出現(xiàn)過載或閑置的情況,且恢復(fù)均衡所需時(shí)間很長。因此需要設(shè)計(jì)更加穩(wěn)定的算法,確保需求偏離時(shí)能夠快速收斂。同時(shí)彈性是指防碰撞算法應(yīng)當(dāng)自主根據(jù)干擾情況進(jìn)行調(diào)整,從而調(diào)整時(shí)隙數(shù)量滿足需求。