鄒雯雯
(河南農(nóng)業(yè)大學 機電工程學院,河南 鄭州 450003)
在移動互聯(lián)網(wǎng)時代,無線通信成為日常工作和學習的重要工具。 但信號在傳輸過程中有可能被竊聽、截獲,甚至受到人為攻擊。 干擾機可向信號接收方發(fā)送干擾信號,進而引起較高的誤碼率,降低通信質量和用戶體驗。 傳統(tǒng)的跳頻抗干擾系統(tǒng)面臨較為嚴峻的技術挑戰(zhàn),其主要問題在于缺乏主動規(guī)避干擾信號的能力,因此優(yōu)化跳頻抗干擾系統(tǒng)的算法成為解決問題的關鍵。
跳頻抗干擾通信系統(tǒng)的應用場景可簡化為如圖1 所示,正常情況下由發(fā)射機向接收機發(fā)送無線通信信號,但干擾機也能接收同類信號,同時向接收方發(fā)送干擾信號,接收機獲取信號后需進行解碼處理,干擾信號會導致其誤碼率上升。 此處的干擾機用于代表各類人工干擾方式,如主動攻擊、竊聽等。
圖1 跳頻抗干擾系統(tǒng)的通信應用場景
1.2.1 通信模式
跳頻通信是指發(fā)射方和接收方按照相同的頻點序列發(fā)送和接收信息,頻點之間呈正交關系。 進入通信模式后,雙方必須同時選擇同一個頻點,經(jīng)過時間τ 后,跳轉至另一個頻點(也可以繼續(xù)在原頻點通信)。 跳頻技術的應用顯著地提高了通信抗干擾能力,但這種通信技術不能完全避免外部干擾,仍然有部分干擾方式能夠對其發(fā)揮作用。
1.2.2 缺點分析
假設發(fā)射機和接收機在K 個頻點上進行跳頻通信,將頻點編號為0,1,2…(K-1)。 線性掃頻干擾方式能夠在0~(K-1)隨機選擇一個頻點實施干擾,每經(jīng)過時長τ 后,增加一個新的干擾頻點,擴大干擾范圍,這一過程稱為線性掃頻。 隨機周期干擾也能影響跳頻通信技術的性能,這種干擾方式在K 個頻點范圍內(nèi)隨機選擇G 個頻點(G 2.1.1 基于馬爾可夫性的強化學習模型基礎 馬爾可夫性在概率論中具有重要的應用,其含義為一個隨機過程在未來狀態(tài)的概率分布情況僅取決于當前狀態(tài),隨機過程中已經(jīng)產(chǎn)生的歷史狀態(tài)不影響未來的概率分布。 基于強化學習的跳頻抗干擾系統(tǒng)符合這一特點,將跳頻抗干擾模型的通信狀態(tài)表示為si,j,其中i 表示發(fā)射機和接收機的通信時隙,j 表示通信時的頻點,此時馬爾可夫性可表示為: 式中,St=si,j。 從表達式可知,概率分布P 與通信狀態(tài)St和St+1有關。 研究中提出的跳頻抗干擾模型基于馬爾可夫性原理進行通信決策,其中包括5 個參量,可記為M=R,A,P,S,γ,參量的含義按照M 中的順序分別為收益函數(shù)、選擇下一個通信頻點的決策行為、通信頻點發(fā)生遷移的概率、當前的通信狀態(tài)信息、衰減系數(shù)[2]。 2.1.2 強化學習的實現(xiàn)機制 強化學習的根本目標是解決傳統(tǒng)跳頻抗干擾通信模式缺乏干擾識別能力和應變能力的問題,因此其實現(xiàn)機制的核心工作是形成具有識別能力的跳頻通信決策(記為π),以當前的通信狀態(tài)s 為根據(jù),在決策π 的作用下,產(chǎn)生通信決策行為a,這一過程可表示如下: 式中,s 和a 分別表示S 和A 在時刻t 的取值。顯然,a 和s 能夠顯著地影響決策π,可通過狀態(tài)值函數(shù)Vπ(S)和行為值函數(shù)Qπ(s,a)迭代計算π,s,a 之間的關系。 蒙特卡洛法利用統(tǒng)計學原理模擬復雜問題,其特點為通過反復抽樣,逐漸逼近實際情況,反映客觀規(guī)律。 該方法能夠提高跳頻抗干擾系統(tǒng)通信模型的精確度,在具體實施過程中對歷史通信數(shù)據(jù)進行采樣,再實施統(tǒng)計學模擬,最終形成通信軌跡,該軌跡反映了信息發(fā)射方、接收方在各個通信時隙的決策動作。蒙特卡洛法的實施不依賴通信模型,而是利用貝爾曼期望方程進行模擬和近似,進而實現(xiàn)通信決策的收益最大化。 2.2.1 蒙特卡洛法優(yōu)化跳頻抗干擾系統(tǒng)的基本原理 當跳頻抗干擾系統(tǒng)采取決策π 時,當前時刻t 的狀態(tài)為s,將對應的期望回報記為Gt,狀態(tài)值函數(shù)Vπ(S)可描述這一過程。 同樣的,在決策π 背景下,行為值函數(shù)Qπ(s,a)表示狀態(tài)s 對應決策行為a 的期望回報。 式中,Gt表示期望回報。 蒙特卡洛法的主要作用是代替以上兩個函數(shù)中的期望計算過程,以大量的統(tǒng)計學模擬獲得各個通信狀態(tài)的平均值,形成多種通信軌跡。 在蒙特卡洛法的支持下,每個狀態(tài)對應的行為值函數(shù)均可計算出具體的結果,通過對比即可確定最優(yōu)的通信策略。 為了達到全局層面的最優(yōu)決策,就要使用強化學習,探索各種通信狀態(tài)。 此時,經(jīng)過蒙特卡洛法優(yōu)化的跳頻抗干擾決策可表示為: 式中,M 表示決策動作的數(shù)量,ε 代表選擇某個決策動作的概率。 2.2.2 基于蒙特卡洛法的兩種強化學習模型 基于蒙特卡洛法的強化學習對數(shù)據(jù)提出了較高的要求,根據(jù)數(shù)據(jù)的來源,可將強化學習分為在線和離線兩種模式。 (1)在線蒙特卡洛強化學習。 在線強化學習中,將干擾信號表示為時頻矩陣,記為J,以便開展數(shù)學運算;將通信狀態(tài)表示為集合S,決策動作形成的空間記為A。 對行為值函數(shù)和策略π 進行初始化,利用蒙特卡洛法實施迭代運算,策略π 每做出一次跳頻選擇,即可得到一個確定的決策動作,記為ai,所有動作形成決策軌跡T,則有T={a1,a2…aT}。在過程中對每個時隙τt對應的收益Gt、行為值函數(shù)Q(s,a)以及決策π進行同步更新,最終得到最優(yōu)決策π?[3]。 在這種學習模式下,決策π負責在線數(shù)據(jù)采集,因而數(shù)據(jù)采集策略也同步得到更新。 (2)離線蒙特卡洛強化學習。 離線蒙特卡洛法的實施過程與在線法基本一致,主要區(qū)別為數(shù)據(jù)采集策略與算法中優(yōu)化的決策π 不同。 這種學習模型為數(shù)據(jù)采集設計了專門的行為策略,而蒙特卡洛法持續(xù)優(yōu)化的策略稱為原始策略,兩種策略可分別記為π 和π′。 相比于在線蒙特卡洛法,離線方式存在一定的性能優(yōu)勢,降低了策略選擇的隨機性,其每次優(yōu)化的決策π′都是對應狀態(tài)的最優(yōu)策略。 2.3.1 不同強化學習方式的對比 為了獲得最佳的強化學習方法,研究中需對比不同學習路徑的優(yōu)劣性。 除了利用蒙特卡洛法開展強化學習外,還可使用動態(tài)規(guī)劃法和時序差分法。 表1總結了3 種學習方法的特點,既有共性,也有差異,其根本原因在于3 種方法的值函數(shù)計算方式不同。 蒙特卡洛法在值函數(shù)原始定義的基礎上,通過大量的采樣和模擬進行更新,且只有采樣獲得完整的軌跡后才能更新。 動態(tài)規(guī)劃法和時序差分法在更新方式上類似,都采用了自舉。 另外,3 種學習算法對馬爾可夫性的適用性有所差異,蒙特卡洛法可用于處理無馬爾科夫特性的問題,另外兩種算法則適用于存在馬爾科夫特性的問題[4]。 表1 3 種強化學習算法的特點 2.3.2 基于在線時序差分法的強化學習 假設跳頻抗干擾系統(tǒng)當前的狀態(tài)為S,按照策略π 做出選擇,產(chǎn)生行為A,同時得到了狀態(tài)行為值Q(S,A)和收益R。 完成第一次選擇后狀態(tài)發(fā)生了變化,將新的狀態(tài)記為S′,繼續(xù)進行決策,于是產(chǎn)生了與S′對應的A′,R′及Q(S′,A′)。 基于在線時序差分法的強化學習能夠以較高的頻率更新策略,達到收斂的耗時比蒙特卡洛法更短。 該方法的優(yōu)化路徑如下[5],在算法中輸入干擾時頻矩陣J、動作空間A 以及狀態(tài)集合S,對行為值函數(shù)Q(S,A)和原始策略π 進行初始化,利用在線時序差分法開展迭代計算,在策略π的作用下產(chǎn)生第一個動作a,形成行為狀態(tài)對(s,a),持續(xù)按照這一模式進行更新迭代,產(chǎn)生最優(yōu)策略π?。 2.3.3 基于離線時序差分化的強化學習 離線時序差分法的實施步驟與在線時序差分法基本相同,區(qū)別在于狀態(tài)行為值函數(shù)的更新公式,Qlearning 算法可用于離線時序差分中的Q(st,at) 更新,該算法的公式如下: 式中,a′表示時刻t+1 時選擇的行為,其對應的策略為π′。 利用MATLAB 軟件模擬上文設計的強化學習算法模型,對跳頻抗干擾系統(tǒng)分別實施隨機干擾和線性掃頻干擾,如表2 所示為仿真模擬的數(shù)據(jù)。 在隨機干擾模式下,基于離線蒙特卡洛法的強化學習算法未能完成收斂,另外3 種學習算法均能完成收斂,在線蒙特卡洛法的收益最高,但3 種可收斂算法的收益較為接近,離線時序差分法達到收斂所需的迭代次數(shù)最少,明顯優(yōu)于在線時序差分法和在線蒙特卡洛法,說明其在實際應用中具有更高的運行效率,有利于提高通信速度。 在線性掃頻干擾模式下,4 種算法都能實現(xiàn)收斂,從最佳收益來看,在線時序差分法效果最佳,但達到收斂所需的迭代次數(shù)也最高,剩余3 種算法的迭代次數(shù)較為接近,都在180 次左右。 表2 算法仿真結果 為了提高算法模擬的可靠性,多次開展試驗,將總迭代次數(shù)提升至8 萬次。 在隨機干擾模式下,離線時序差分法的平均收斂迭代次數(shù)為98 次,離線蒙特卡洛法為209 次,在線蒙特卡洛法為402 次,反映出離線時序差分法的效率優(yōu)勢。 在線性掃描模式下,同樣開展多次仿真試驗,總迭代次數(shù)達到8 萬次,計算每種強化學習算法達到收斂的平均迭代次數(shù),收斂最快的為離線蒙特卡洛法,迭代次數(shù)為204 次,剩余3 種算法的收斂迭代次數(shù)在400 次左右。 總體而言,利用蒙特卡洛法和時序拆分法能夠提升跳頻抗干擾系統(tǒng)的性能,使其能夠主動規(guī)避隨機干擾和線性掃描干擾。 在跳頻抗干擾系統(tǒng)中引入強化學習算法的目的是提高其對部分干擾信號的識別和規(guī)避能力,防范重點為隨機干擾、線性掃描干擾。 研究過程以蒙特卡洛法和時序差分法為基礎,分別構建在線蒙特卡洛強化學習算法、離線蒙特卡洛強化算法、在線時序差分強化學習算法以及離線時序差分強化學習算法。 對比分析4 種算法的特點,通過MATLAB 仿真試驗對其抗干擾性能進行檢驗。 結果顯示,在線性掃頻干擾模式下,算法均能完成收斂,在線時序差分法性能表現(xiàn)最佳。 在隨機干擾模式下,只有離線蒙特卡洛法未完成收斂,其余算法在性能上基本一致。 下一步需提高仿真檢驗的規(guī)模,取多次試驗的平均值,觀察算法性能表現(xiàn)上的差異性。2 基于強化學習的跳頻抗干擾系統(tǒng)優(yōu)化設計方法
2.1 強化學習的理論基礎
2.2 蒙特卡洛法優(yōu)化跳頻抗干擾系統(tǒng)
2.3 時序差分法優(yōu)化跳頻抗干擾系統(tǒng)
2.4 仿真模擬
3 結語