朱靜茹,張育芝,王安義,李萍
(西安科技大學(xué) 通信與信息工程學(xué)院, 陜西 西安 710054)
煤礦無線通信系統(tǒng)已成為煤礦信息化和安全生產(chǎn)的重要組成部分。與地面無線通信相比,煤礦井下粗糙的巷壁和障礙物會導(dǎo)致煤礦無線通信系統(tǒng)信號幅度大范圍波動,造成信號嚴(yán)重衰落,導(dǎo)致煤礦無線通信系統(tǒng)誤碼率上升,降低了通信質(zhì)量[1]。因此,如何緩解礦井無線信道衰落對礦井無線通信系統(tǒng)性能的影響是亟需解決的問題。國內(nèi)外學(xué)者針對該問題進行了大量研究,采取自適應(yīng)OFDM (Orthogonal Frequency Division Multiplexing,正交頻分復(fù)用)調(diào)制技術(shù)來對抗衰落,提高頻譜利用率,降低誤碼率。文獻[2]將OFDM自適應(yīng)調(diào)制技術(shù)應(yīng)用于井下無線多媒體監(jiān)測場景來緩解頻率選擇性衰落帶來的影響,提高了井下多媒體傳感器網(wǎng)絡(luò)的可靠性。文獻[3]將OFDM自適應(yīng)調(diào)制技術(shù)引入井下無線通信系統(tǒng),解決了煤礦井下多徑干擾嚴(yán)重的問題,提高了井下通信的抗噪性和實時性。文獻[4]設(shè)計了一種能根據(jù)信道特征動態(tài)改變其比特和功率分配的自適應(yīng)OFDM算法,提高了井下無線數(shù)據(jù)傳輸?shù)目垢蓴_性。但以上礦井自適應(yīng)OFDM調(diào)制技術(shù)均假設(shè)信道狀態(tài)已知,依靠提前確定的固定信噪比門限選擇相應(yīng)的調(diào)制方式,調(diào)制方式不夠智能化,且在實際礦井無線信道中由發(fā)送端到達(dá)接收端的信號是時變信號,信號傳輸過程中存在時延,且接收端信噪比估計不是理想估計,導(dǎo)致信號發(fā)送端接收到的反饋信道狀態(tài)與實際信道狀態(tài)不能完全匹配,造成傳統(tǒng)基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)誤碼率高及吞吐量低等問題。
Q-學(xué)習(xí)算法在一定條件下只需采用貪婪策略即可保證收斂,是一種與模型無關(guān)的強化學(xué)習(xí)算法。針對上述問題,本文提出了一種基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制方法,并將其用于礦井自適應(yīng)OFDM調(diào)制系統(tǒng)。發(fā)送端可不用提前已知信道狀態(tài)信息,在與信道的交互中不斷更新狀態(tài)-動作值函數(shù),最終利用狀態(tài)-動作值函數(shù)學(xué)習(xí)出動態(tài)礦井無線衰落信道下的最佳自適應(yīng)調(diào)制策略,達(dá)到降低礦井無線通信系統(tǒng)誤碼率,提高吞吐量的目的。
礦井自適應(yīng)OFDM調(diào)制系統(tǒng)由發(fā)送端、礦井無線信道和接收端組成,如圖1所示。發(fā)送端為礦井下裝有傳感器的小車,可以在狹長的巷道內(nèi)自由移動。
圖1 礦井自適應(yīng)OFDM調(diào)制系統(tǒng)組成Fig.1 Composition of mine adaptive OFDM modulation system
礦井小車在移動過程中的自適應(yīng)調(diào)制過程如圖2所示。發(fā)送端在B1處向接收端發(fā)送信道狀態(tài)信息(Channel State Information,CSI)測試信號,接收端在經(jīng)過時延后收到CSI測試信號,并對接收到的CSI測試信號進行估計后將結(jié)果反饋給發(fā)送端,最后發(fā)送端移動到B3處,根據(jù)接收到的反饋CSI測試信號自適應(yīng)地分配調(diào)制方式。
圖2 礦井信道自適應(yīng)OFDM調(diào)制過程Fig.2 Adaptive OFDM modulation process of mine channel
礦井無線信道易受噪聲等外界因素影響,存在衰落現(xiàn)象。一般可將巷道內(nèi)無線信道衰落分為大尺度衰落和小尺度衰落2種。
1.2.1 巷道內(nèi)大尺度衰落
巷道內(nèi)大尺度衰落包括自由空間路徑損耗和礦井環(huán)境下特定的電磁波傳播損耗[5-6]。對于任意距離,特定時間與位置下的路徑損耗ζ(t,d)服從正態(tài)分布,單位為dB。
(1)
式中:t為時間;d為信號傳輸距離;d0為參考距離;n為路徑損耗指數(shù),表示路徑損耗增長速率;Xσ(t)為陰影衰落,服從均值為0、方差為σ2的正態(tài)分布。
礦井巷道中電磁波傳播損耗與巷道壁的粗糙度、傾斜度和天線的極化方式等相關(guān),其中垂直極化衰減損耗為
(2)
式中:λ為電磁波信號波長;z為收發(fā)天線距離;ω為水平傳播方向的半波數(shù);a,b分別為巷道的寬和高;φ1,φ2分別為兩側(cè)和頂?shù)装宓南鄬殡姵?shù);ρ為垂直傳播方向的半波數(shù)。
水平極化波的總損耗為
Ltotal=Lhor+Lrough+Ltile
(3)
式中:Lhor為水平極化損耗;Lrough為粗糙損耗;Ltile為傾斜損耗。
(4)
(5)
(6)
式中:Δh為巷道表面的起伏高度;?為頂壁和巷道壁的傾斜角度。
1.2.2 巷道內(nèi)小尺度衰落
本文以礦井無線信道普遍采用的Nakagami-m衰落作為巷道內(nèi)小尺度衰落模型,其概率密度函數(shù)[7]為
(7)
式中:r為Nakagami-m包絡(luò);m為衰落因子,表征信號衰落強度,m值越大表示信號衰落越?。沪?·)為Gamma函數(shù);Ω為平均功率。
用Nakagami-m分布能夠準(zhǔn)確地表征多徑信號在復(fù)雜場景的衰落情況。采用正弦求和法仿真Nakagami-m衰落信號,將隨機序列分解為整數(shù)部分和小數(shù)部分,Nakagami-m衰落信號為
(8)
式中:α和β分別為調(diào)整整數(shù)部分和小數(shù)部分的參數(shù),β=2m-αp;p為2m的整數(shù)部分;g1(t),g2(t)為均值為0、方差相等的2個不相關(guān)的實高斯隨機過程。
采用多個正弦波的疊加來逼近隨機過程g1(t)和g2(t),用等間隔方法來獲得多普勒系數(shù)和多普勒頻率。
(9)
式中:N為正弦波個數(shù);cl為第l個正弦波的幅度;fl為第l個正弦波的頻率;θl為第l個正弦波的相位。
(10)
(11)
式中:v為礦井小車運動速度。
1.2.3 礦井無線信道衰落特性分析
發(fā)送端天線采用水平極化方式,v=15 km/h,n=2,a=4 m,b=3 m,φ1=φ2=4.5,ω=1,ρ=1,m=1,N=40,d0=1m,Xσ(t)服從均值為0、方差為5的正態(tài)分布,Δh服從均值為0.1、方差為0.05的正態(tài)分布?;谝陨蠀?shù)對礦井無線信道衰落特性進行分析。礦井無線信道衰落特性如圖3所示,藍(lán)色曲線為大尺度衰落和小尺度衰落疊加后的結(jié)果,總體呈下降趨勢;紅色曲線為擬合結(jié)果,表征了大尺度衰落的趨勢,即收發(fā)端距離越遠(yuǎn),衰落越嚴(yán)重。
圖3 礦井無線信道衰落特性Fig.3 Fading characteristics of mine wireless channel
礦井巷道長且不平整,井下設(shè)備多,影響井下移動設(shè)備的移動速度,不同移動速度對應(yīng)不同的衰落程度,因此,本文對2種礦井小車移動情況下的衰落特性進行分析。
(1) 假設(shè)礦井小車以15 km/h速度從距發(fā)送端100~200 m之間往復(fù)移動,總路程為1 km,用時240 s,勻速移動狀態(tài)下礦井信道衰落特性如圖4所示。隨著礦井小車往復(fù)移動,衰落呈現(xiàn)周期性變化。
(2) 礦井小車從距發(fā)送端100~200 m之間往復(fù)移動,總路程為1 km,前500 m移動速度為15 km/h,后500 m移動速度變?yōu)?0 km/h,總用時210 s,礦井小車移動速度變化狀態(tài)下礦井無線信道衰落特性如圖5所示。與圖4相比,后500 m的信道衰落更加劇烈,這是因為隨著移動速度增大,Nakagami-m衰落更加劇烈。
圖4 礦井小車勻速移動狀態(tài)下礦井無線信道衰落特性Fig.4 Fading characteristics of mine wireless channel as mine cart in the uniform movement state
圖5 礦井小車移動速度變化下礦井無線信道衰落特性Fig.5 Fading characteristic of mine wireless chamel as mine cart in the non-uniform morement state
Q-學(xué)習(xí)算法是Chris Watkins將時間差分與最優(yōu)控制問題融合后提出的一種強化學(xué)習(xí)算法,通過對狀態(tài)-動作值函數(shù)進行估計來逼近最優(yōu)策略。
Q-學(xué)習(xí)算法框架由智能體、環(huán)境、狀態(tài)、動作和獎勵5個要素組成,如圖6所示。在每個時刻,智能體都能從環(huán)境中接收到一個狀態(tài)并通過策略產(chǎn)生一個動作與環(huán)境繼續(xù)交互,環(huán)境會產(chǎn)生新的狀態(tài),同時給出一個獎勵,智能體更新狀態(tài)-動作值函數(shù)并進入下一狀態(tài)。如此循環(huán),智能體與環(huán)境不停交互,從而產(chǎn)生更多的數(shù)據(jù)(狀態(tài)和獎勵),并利用新的數(shù)據(jù)進一步改善智能體所采取的動作,最終學(xué)習(xí)相應(yīng)任務(wù)下的最優(yōu)策略[8-9]。
圖6 Q-學(xué)習(xí)算法原理Fig.6 Principle of Q-learning algorithm
Q-學(xué)習(xí)算法中狀態(tài)-動作值函數(shù)的迭代公式為[10]
Q(S,A)←Q(S,A)+η[R+
γmaxQ(Snext,Anext)-Q(S,A)]
(12)
式中:Q(S,A)為當(dāng)前時刻的狀態(tài)-動作值,S為當(dāng)前時刻的狀態(tài),A為當(dāng)前時刻所采取的動作;η為學(xué)習(xí)率;R為當(dāng)前時刻所采取動作得到的獎勵;γ為折扣因子;Q(Snext,Anext)為下一時刻的狀態(tài)-動作值,Snext為下一時刻的狀態(tài),Anext為下一時刻所采取的動作。
Q-學(xué)習(xí)算法中智能體為發(fā)送端;環(huán)境為礦井無線信道;狀態(tài)集為礦井小車移動過程中不同時刻收到的反饋狀態(tài)信息即信噪比(SNR);動作集為OFDM系統(tǒng)下BPSK、4QAM、8QAM、16QAM 4種調(diào)制方式;獎勵為4種調(diào)制方式在不同信噪比條件下的吞吐量。
基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制根據(jù)不斷更新的狀態(tài)-動作值函數(shù),采用貪婪策略來分配調(diào)制方式,具體步驟[11-13]為
步驟1:隨機初始化Q表(一般為0)。
步驟2:初始化信道狀態(tài)S,使用貪婪策略根據(jù)信道狀態(tài)S選取一個動作A,即為選取一個調(diào)制方式。
步驟3:執(zhí)行動作A,觀測獎勵值R和下一個狀態(tài)Snext。
步驟4:利用式(12)更新Q表。
步驟5:設(shè)置下一狀態(tài)為當(dāng)前狀態(tài),即S=Snext,若S未達(dá)到目標(biāo)狀態(tài),則轉(zhuǎn)至步驟3。
根據(jù)實際信道狀態(tài)計算獎勵值R,貪婪策略以ε的概率隨機選擇未知的一個調(diào)制方式,避免系統(tǒng)陷入局部最優(yōu),1-ε的概率選擇當(dāng)前狀態(tài)下最大狀態(tài)-動作值對應(yīng)的調(diào)制方式;狀態(tài)-動作值更新函數(shù)學(xué)習(xí)率控制連續(xù)時刻所能獲得狀態(tài)-動作值之間的差異,折扣因子γ決定下一時刻所獲得反饋獎勵的大小。因此,合適的貪婪系數(shù)ε、學(xué)習(xí)率η、折扣因子γ是提升整個礦井自適應(yīng)OFDM調(diào)制系統(tǒng)性能的關(guān)鍵。
應(yīng)用Matlab仿真軟件,在礦井小車2種移動狀態(tài)下,對基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)和基于SARSA(State-Action-Reward-State-Action)算法[14-15]、固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)的誤碼率和吞吐量性能進行仿真對比。
仿真環(huán)境如圖1所示,接收端在礦井巷道入口的固定位置接收CSI信號,發(fā)送端處于移動狀態(tài)下進行信號發(fā)送;以4G通信系統(tǒng)為參考,將OFDM系統(tǒng)載波數(shù)設(shè)為1 024個,采用BPSK、4QAM、8QAM、16QAM 4種調(diào)制方式進行自適應(yīng)OFDM調(diào)制。
固定信噪比門限數(shù)值從OFDM系統(tǒng)下4種調(diào)制方式吞吐量隨信噪比變化曲線中得到:當(dāng)SNR<3 dB時選擇BPSK;3 dB≤SNR<8 dB時選擇4QAM;8 dB≤SNR<22 dB時選擇8QAM;SNR≥22 dB時選擇16QAM。Q-學(xué)習(xí)和SARSA算法中ε=0.1,η=0.9,γ=0.9。
2種移動狀態(tài)對應(yīng)的衰落信道信噪比序列為發(fā)射功率減去對應(yīng)的接收功率損耗和加性高斯白噪聲后得到的序列。其中發(fā)射功率為90 dB,加性高斯白噪聲的方差是從7 dB的接收噪聲數(shù)值計算中得到[16]。
在礦井小車勻速移動對應(yīng)的衰落信道下,仿真ε、η和γ取不同值時對基于Q-學(xué)習(xí)算法和SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)吞吐量性能的影響,ε、η和γ的取值范圍為(0,1),步長為0.1,仿真結(jié)果如圖7—圖9所示。
圖7 不同貪婪系數(shù)ε下的系統(tǒng)吞吐量性能Fig.7 System throughput performance under different ε
圖8 不同學(xué)習(xí)率η下的系統(tǒng)吞吐量性能Fig.8 System throughput performance under different η
從圖7可看出,隨著貪婪系數(shù)ε的增大,基于Q-學(xué)習(xí)算法和SARSA算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)吞吐量性能逐漸下降,在貪婪系數(shù)取0.1時,2種系統(tǒng)吞吐量性能均達(dá)到最佳。從圖8可看出,在學(xué)習(xí)率為0.9時,基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)取得最大吞吐量。從圖9可看出,在折扣因子取0.9時,基于Q-學(xué)習(xí)算法和SARSA算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)均可獲得最大吞吐量。
圖9 不同折扣因子γ下的系統(tǒng)吞吐量性能Fig.9 System throughput performance under different γ
綜上,當(dāng)ε=0.1,η=0.9,γ=0.9時,基于Q-學(xué)習(xí)算法和SARSA算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)均可獲得良好的吞吐量性能。
3.2.1 礦井小車勻速移動時仿真結(jié)果
在礦井小車勻速移動情況下,基于固定信噪比門限、SARSA算法、Q-學(xué)習(xí)算法的3種自適應(yīng)OFDM調(diào)制系統(tǒng)性能對比如圖10所示。
(a) 基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)性能
(b) 基于SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能
(c) 基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能
從圖10可看出,在礦井小車勻速運動情況下,基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)的誤碼率小于基于固定信噪比門限和SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng),且誤碼率在經(jīng)過多次迭代學(xué)習(xí)后下降并最終趨于穩(wěn)定。
3.3.2 礦井小車移動速度變化時仿真結(jié)果
在礦井小車移動速度變化情況下,基于固定信噪比門限、SARSA算法、Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能對比如圖11所示。
(a) 基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)性能
(b) 基于SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能
(c) 基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能
從圖11可看出,在移動速度變化情況下,基于SARSA 算法和基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)誤碼率明顯小于基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng);基于SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)在經(jīng)過500次迭代后誤碼率降低并最終趨于穩(wěn)定,基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)在經(jīng)過300次迭代后誤碼率下降并逐漸趨于穩(wěn)定,其收斂速度優(yōu)于SARSA算法。
對礦井小車2種不同移動狀態(tài)下基于固定信噪比門限、SARSA算法、Q-學(xué)習(xí)算法的3種自適OFDM調(diào)制系統(tǒng)的平均誤碼率和總吞吐量進行統(tǒng)計,結(jié)果見表1。
表1 3種自適應(yīng)OFDM調(diào)制系統(tǒng)的平均誤碼率和總吞吐量Table 1 Average bit error rate and throughput of three adaptive OFDM modulation systems
由表1可知,礦井小車勻速移動狀態(tài)下基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)平均誤碼率為1.1×10-3,總吞吐量為3 115 bit,性能最佳;礦井小車移動速度變化情況下基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)平均誤碼率為2.1×10-3,總吞吐量為2 719 bit,性能最佳。
提出了一種基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制方法,并將其應(yīng)用于礦井自適應(yīng)OFDM調(diào)制系統(tǒng)。與基于SARSA算法和固定信噪比門限的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)性能進行了仿真對比,仿真結(jié)果表明:
(1) 通過優(yōu)化Q-學(xué)習(xí)算法中貪婪系數(shù)、學(xué)習(xí)率和折扣因子,可以使基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)吞吐量性能達(dá)到最佳。
(2) 礦井小車在勻速和移動速度變化狀態(tài)下,基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)的平均誤碼率和總吞吐量均優(yōu)于基于SARSA算法和固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)。
(3) Q-學(xué)習(xí)和SARSA算法應(yīng)用于礦井自適應(yīng)OFDM調(diào)制系統(tǒng)時,Q-學(xué)習(xí)算法收斂速度優(yōu)于SARSA算法。