亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Q—學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制研究

2021-07-02 08:57:12朱靜茹張育芝王安義李萍

工礦自動化 2021年6期

朱靜茹，張育芝，王安義，李萍

(西安科技大學(xué) 通信與信息工程學(xué)院，陜西西安 710054)

0 引言

煤礦無線通信系統(tǒng)已成為煤礦信息化和安全生產(chǎn)的重要組成部分。與地面無線通信相比，煤礦井下粗糙的巷壁和障礙物會導(dǎo)致煤礦無線通信系統(tǒng)信號幅度大范圍波動，造成信號嚴(yán)重衰落，導(dǎo)致煤礦無線通信系統(tǒng)誤碼率上升，降低了通信質(zhì)量[1]。因此，如何緩解礦井無線信道衰落對礦井無線通信系統(tǒng)性能的影響是亟需解決的問題。國內(nèi)外學(xué)者針對該問題進行了大量研究，采取自適應(yīng)OFDM (Orthogonal Frequency Division Multiplexing，正交頻分復(fù)用)調(diào)制技術(shù)來對抗衰落，提高頻譜利用率，降低誤碼率。文獻[2]將OFDM自適應(yīng)調(diào)制技術(shù)應(yīng)用于井下無線多媒體監(jiān)測場景來緩解頻率選擇性衰落帶來的影響，提高了井下多媒體傳感器網(wǎng)絡(luò)的可靠性。文獻[3]將OFDM自適應(yīng)調(diào)制技術(shù)引入井下無線通信系統(tǒng)，解決了煤礦井下多徑干擾嚴(yán)重的問題，提高了井下通信的抗噪性和實時性。文獻[4]設(shè)計了一種能根據(jù)信道特征動態(tài)改變其比特和功率分配的自適應(yīng)OFDM算法，提高了井下無線數(shù)據(jù)傳輸?shù)目垢蓴_性。但以上礦井自適應(yīng)OFDM調(diào)制技術(shù)均假設(shè)信道狀態(tài)已知，依靠提前確定的固定信噪比門限選擇相應(yīng)的調(diào)制方式，調(diào)制方式不夠智能化，且在實際礦井無線信道中由發(fā)送端到達(dá)接收端的信號是時變信號，信號傳輸過程中存在時延，且接收端信噪比估計不是理想估計，導(dǎo)致信號發(fā)送端接收到的反饋信道狀態(tài)與實際信道狀態(tài)不能完全匹配，造成傳統(tǒng)基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)誤碼率高及吞吐量低等問題。

Q-學(xué)習(xí)算法在一定條件下只需采用貪婪策略即可保證收斂，是一種與模型無關(guān)的強化學(xué)習(xí)算法。針對上述問題，本文提出了一種基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制方法，并將其用于礦井自適應(yīng)OFDM調(diào)制系統(tǒng)。發(fā)送端可不用提前已知信道狀態(tài)信息，在與信道的交互中不斷更新狀態(tài)-動作值函數(shù)，最終利用狀態(tài)-動作值函數(shù)學(xué)習(xí)出動態(tài)礦井無線衰落信道下的最佳自適應(yīng)調(diào)制策略，達(dá)到降低礦井無線通信系統(tǒng)誤碼率，提高吞吐量的目的。

1 礦井自適應(yīng)OFDM調(diào)制系統(tǒng)

1.1 系統(tǒng)原理

礦井自適應(yīng)OFDM調(diào)制系統(tǒng)由發(fā)送端、礦井無線信道和接收端組成，如圖1所示。發(fā)送端為礦井下裝有傳感器的小車，可以在狹長的巷道內(nèi)自由移動。

圖1 礦井自適應(yīng)OFDM調(diào)制系統(tǒng)組成Fig.1 Composition of mine adaptive OFDM modulation system

礦井小車在移動過程中的自適應(yīng)調(diào)制過程如圖2所示。發(fā)送端在B1處向接收端發(fā)送信道狀態(tài)信息(Channel State Information，CSI)測試信號，接收端在經(jīng)過時延后收到CSI測試信號，并對接收到的CSI測試信號進行估計后將結(jié)果反饋給發(fā)送端，最后發(fā)送端移動到B3處，根據(jù)接收到的反饋CSI測試信號自適應(yīng)地分配調(diào)制方式。

圖2 礦井信道自適應(yīng)OFDM調(diào)制過程Fig.2 Adaptive OFDM modulation process of mine channel

1.2 礦井無線信道衰落模型

礦井無線信道易受噪聲等外界因素影響，存在衰落現(xiàn)象。一般可將巷道內(nèi)無線信道衰落分為大尺度衰落和小尺度衰落2種。

1.2.1 巷道內(nèi)大尺度衰落

巷道內(nèi)大尺度衰落包括自由空間路徑損耗和礦井環(huán)境下特定的電磁波傳播損耗[5-6]。對于任意距離，特定時間與位置下的路徑損耗ζ(t,d)服從正態(tài)分布，單位為dB。

(1)

式中：t為時間；d為信號傳輸距離；d0為參考距離；n為路徑損耗指數(shù)，表示路徑損耗增長速率；Xσ(t)為陰影衰落，服從均值為0、方差為σ2的正態(tài)分布。

礦井巷道中電磁波傳播損耗與巷道壁的粗糙度、傾斜度和天線的極化方式等相關(guān)，其中垂直極化衰減損耗為

(2)

式中：λ為電磁波信號波長；z為收發(fā)天線距離；ω為水平傳播方向的半波數(shù)；a，b分別為巷道的寬和高；φ1，φ2分別為兩側(cè)和頂?shù)装宓南鄬殡姵?shù)；ρ為垂直傳播方向的半波數(shù)。

水平極化波的總損耗為

Ltotal=Lhor+Lrough+Ltile

(3)

式中：Lhor為水平極化損耗；Lrough為粗糙損耗；Ltile為傾斜損耗。

(4)

(5)

(6)

式中：Δh為巷道表面的起伏高度；?為頂壁和巷道壁的傾斜角度。

1.2.2 巷道內(nèi)小尺度衰落

本文以礦井無線信道普遍采用的Nakagami-m衰落作為巷道內(nèi)小尺度衰落模型，其概率密度函數(shù)[7]為

(7)

式中：r為Nakagami-m包絡(luò)；m為衰落因子，表征信號衰落強度，m值越大表示信號衰落越?。沪?·)為Gamma函數(shù)；Ω為平均功率。

用Nakagami-m分布能夠準(zhǔn)確地表征多徑信號在復(fù)雜場景的衰落情況。采用正弦求和法仿真Nakagami-m衰落信號，將隨機序列分解為整數(shù)部分和小數(shù)部分，Nakagami-m衰落信號為

(8)

式中：α和β分別為調(diào)整整數(shù)部分和小數(shù)部分的參數(shù)，β=2m-αp；p為2m的整數(shù)部分；g1(t)，g2(t)為均值為0、方差相等的2個不相關(guān)的實高斯隨機過程。

采用多個正弦波的疊加來逼近隨機過程g1(t)和g2(t)，用等間隔方法來獲得多普勒系數(shù)和多普勒頻率。

(9)

式中：N為正弦波個數(shù)；cl為第l個正弦波的幅度；fl為第l個正弦波的頻率；θl為第l個正弦波的相位。

(10)

(11)

式中：v為礦井小車運動速度。

1.2.3 礦井無線信道衰落特性分析

發(fā)送端天線采用水平極化方式，v=15 km/h，n=2，a=4 m，b=3 m，φ1=φ2=4.5，ω=1，ρ=1，m=1，N=40，d0=1m，Xσ(t)服從均值為0、方差為5的正態(tài)分布，Δh服從均值為0.1、方差為0.05的正態(tài)分布?；谝陨蠀?shù)對礦井無線信道衰落特性進行分析。礦井無線信道衰落特性如圖3所示，藍(lán)色曲線為大尺度衰落和小尺度衰落疊加后的結(jié)果，總體呈下降趨勢；紅色曲線為擬合結(jié)果，表征了大尺度衰落的趨勢，即收發(fā)端距離越遠(yuǎn)，衰落越嚴(yán)重。

圖3 礦井無線信道衰落特性Fig.3 Fading characteristics of mine wireless channel

礦井巷道長且不平整，井下設(shè)備多，影響井下移動設(shè)備的移動速度，不同移動速度對應(yīng)不同的衰落程度，因此，本文對2種礦井小車移動情況下的衰落特性進行分析。

(1) 假設(shè)礦井小車以15 km/h速度從距發(fā)送端100～200 m之間往復(fù)移動，總路程為1 km，用時240 s，勻速移動狀態(tài)下礦井信道衰落特性如圖4所示。隨著礦井小車往復(fù)移動，衰落呈現(xiàn)周期性變化。

(2) 礦井小車從距發(fā)送端100～200 m之間往復(fù)移動，總路程為1 km，前500 m移動速度為15 km/h，后500 m移動速度變?yōu)?0 km/h，總用時210 s，礦井小車移動速度變化狀態(tài)下礦井無線信道衰落特性如圖5所示。與圖4相比，后500 m的信道衰落更加劇烈，這是因為隨著移動速度增大，Nakagami-m衰落更加劇烈。

圖4 礦井小車勻速移動狀態(tài)下礦井無線信道衰落特性Fig.4 Fading characteristics of mine wireless channel as mine cart in the uniform movement state

圖5 礦井小車移動速度變化下礦井無線信道衰落特性Fig.5 Fading characteristic of mine wireless chamel as mine cart in the non-uniform morement state

2 基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制方法

2.1 Q-學(xué)習(xí)算法基本原理

Q-學(xué)習(xí)算法是Chris Watkins將時間差分與最優(yōu)控制問題融合后提出的一種強化學(xué)習(xí)算法，通過對狀態(tài)-動作值函數(shù)進行估計來逼近最優(yōu)策略。

Q-學(xué)習(xí)算法框架由智能體、環(huán)境、狀態(tài)、動作和獎勵5個要素組成，如圖6所示。在每個時刻，智能體都能從環(huán)境中接收到一個狀態(tài)并通過策略產(chǎn)生一個動作與環(huán)境繼續(xù)交互，環(huán)境會產(chǎn)生新的狀態(tài)，同時給出一個獎勵，智能體更新狀態(tài)-動作值函數(shù)并進入下一狀態(tài)。如此循環(huán)，智能體與環(huán)境不停交互，從而產(chǎn)生更多的數(shù)據(jù)(狀態(tài)和獎勵)，并利用新的數(shù)據(jù)進一步改善智能體所采取的動作，最終學(xué)習(xí)相應(yīng)任務(wù)下的最優(yōu)策略[8-9]。

圖6 Q-學(xué)習(xí)算法原理Fig.6 Principle of Q-learning algorithm

Q-學(xué)習(xí)算法中狀態(tài)-動作值函數(shù)的迭代公式為[10]

Q(S,A)←Q(S,A)+η[R+

γmaxQ(Snext,Anext)-Q(S,A)]

(12)

式中：Q(S,A)為當(dāng)前時刻的狀態(tài)-動作值，S為當(dāng)前時刻的狀態(tài)，A為當(dāng)前時刻所采取的動作；η為學(xué)習(xí)率；R為當(dāng)前時刻所采取動作得到的獎勵；γ為折扣因子；Q(Snext,Anext)為下一時刻的狀態(tài)-動作值，Snext為下一時刻的狀態(tài)，Anext為下一時刻所采取的動作。

2.2 基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制

Q-學(xué)習(xí)算法中智能體為發(fā)送端；環(huán)境為礦井無線信道；狀態(tài)集為礦井小車移動過程中不同時刻收到的反饋狀態(tài)信息即信噪比(SNR)；動作集為OFDM系統(tǒng)下BPSK、4QAM、8QAM、16QAM 4種調(diào)制方式；獎勵為4種調(diào)制方式在不同信噪比條件下的吞吐量。

基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制根據(jù)不斷更新的狀態(tài)-動作值函數(shù)，采用貪婪策略來分配調(diào)制方式，具體步驟[11-13]為

步驟1：隨機初始化Q表(一般為0)。

步驟2：初始化信道狀態(tài)S，使用貪婪策略根據(jù)信道狀態(tài)S選取一個動作A，即為選取一個調(diào)制方式。

步驟3：執(zhí)行動作A，觀測獎勵值R和下一個狀態(tài)Snext。

步驟4：利用式(12)更新Q表。

步驟5：設(shè)置下一狀態(tài)為當(dāng)前狀態(tài)，即S=Snext，若S未達(dá)到目標(biāo)狀態(tài)，則轉(zhuǎn)至步驟3。

根據(jù)實際信道狀態(tài)計算獎勵值R，貪婪策略以ε的概率隨機選擇未知的一個調(diào)制方式，避免系統(tǒng)陷入局部最優(yōu)，1-ε的概率選擇當(dāng)前狀態(tài)下最大狀態(tài)-動作值對應(yīng)的調(diào)制方式；狀態(tài)-動作值更新函數(shù)學(xué)習(xí)率控制連續(xù)時刻所能獲得狀態(tài)-動作值之間的差異，折扣因子γ決定下一時刻所獲得反饋獎勵的大小。因此，合適的貪婪系數(shù)ε、學(xué)習(xí)率η、折扣因子γ是提升整個礦井自適應(yīng)OFDM調(diào)制系統(tǒng)性能的關(guān)鍵。

3 仿真分析

應(yīng)用Matlab仿真軟件，在礦井小車2種移動狀態(tài)下，對基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)和基于SARSA(State-Action-Reward-State-Action)算法[14-15]、固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)的誤碼率和吞吐量性能進行仿真對比。

仿真環(huán)境如圖1所示，接收端在礦井巷道入口的固定位置接收CSI信號，發(fā)送端處于移動狀態(tài)下進行信號發(fā)送；以4G通信系統(tǒng)為參考，將OFDM系統(tǒng)載波數(shù)設(shè)為1 024個，采用BPSK、4QAM、8QAM、16QAM 4種調(diào)制方式進行自適應(yīng)OFDM調(diào)制。

固定信噪比門限數(shù)值從OFDM系統(tǒng)下4種調(diào)制方式吞吐量隨信噪比變化曲線中得到：當(dāng)SNR<3 dB時選擇BPSK；3 dB≤SNR<8 dB時選擇4QAM；8 dB≤SNR<22 dB時選擇8QAM；SNR≥22 dB時選擇16QAM。Q-學(xué)習(xí)和SARSA算法中ε=0.1，η=0.9，γ=0.9。

2種移動狀態(tài)對應(yīng)的衰落信道信噪比序列為發(fā)射功率減去對應(yīng)的接收功率損耗和加性高斯白噪聲后得到的序列。其中發(fā)射功率為90 dB，加性高斯白噪聲的方差是從7 dB的接收噪聲數(shù)值計算中得到[16]。

3.1 Q-學(xué)習(xí)算法參數(shù)

在礦井小車勻速移動對應(yīng)的衰落信道下，仿真ε、η和γ取不同值時對基于Q-學(xué)習(xí)算法和SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)吞吐量性能的影響，ε、η和γ的取值范圍為(0，1)，步長為0.1，仿真結(jié)果如圖7—圖9所示。

圖7 不同貪婪系數(shù)ε下的系統(tǒng)吞吐量性能Fig.7 System throughput performance under different ε

圖8 不同學(xué)習(xí)率η下的系統(tǒng)吞吐量性能Fig.8 System throughput performance under different η

從圖7可看出，隨著貪婪系數(shù)ε的增大，基于Q-學(xué)習(xí)算法和SARSA算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)吞吐量性能逐漸下降，在貪婪系數(shù)取0.1時，2種系統(tǒng)吞吐量性能均達(dá)到最佳。從圖8可看出，在學(xué)習(xí)率為0.9時，基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)取得最大吞吐量。從圖9可看出，在折扣因子取0.9時，基于Q-學(xué)習(xí)算法和SARSA算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)均可獲得最大吞吐量。

圖9 不同折扣因子γ下的系統(tǒng)吞吐量性能Fig.9 System throughput performance under different γ

綜上，當(dāng)ε=0.1，η=0.9，γ=0.9時，基于Q-學(xué)習(xí)算法和SARSA算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)均可獲得良好的吞吐量性能。

3.2 仿真結(jié)果

3.2.1 礦井小車勻速移動時仿真結(jié)果

在礦井小車勻速移動情況下，基于固定信噪比門限、SARSA算法、Q-學(xué)習(xí)算法的3種自適應(yīng)OFDM調(diào)制系統(tǒng)性能對比如圖10所示。

(a) 基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)性能

(b) 基于SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能

從圖10可看出，在礦井小車勻速運動情況下，基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)的誤碼率小于基于固定信噪比門限和SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)，且誤碼率在經(jīng)過多次迭代學(xué)習(xí)后下降并最終趨于穩(wěn)定。

3.3.2 礦井小車移動速度變化時仿真結(jié)果

在礦井小車移動速度變化情況下，基于固定信噪比門限、SARSA算法、Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能對比如圖11所示。

(a) 基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)性能

(b) 基于SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)性能

從圖11可看出，在移動速度變化情況下，基于SARSA 算法和基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)誤碼率明顯小于基于固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)；基于SARSA算法的自適應(yīng)OFDM調(diào)制系統(tǒng)在經(jīng)過500次迭代后誤碼率降低并最終趨于穩(wěn)定，基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)在經(jīng)過300次迭代后誤碼率下降并逐漸趨于穩(wěn)定，其收斂速度優(yōu)于SARSA算法。

對礦井小車2種不同移動狀態(tài)下基于固定信噪比門限、SARSA算法、Q-學(xué)習(xí)算法的3種自適OFDM調(diào)制系統(tǒng)的平均誤碼率和總吞吐量進行統(tǒng)計，結(jié)果見表1。

表1 3種自適應(yīng)OFDM調(diào)制系統(tǒng)的平均誤碼率和總吞吐量Table 1 Average bit error rate and throughput of three adaptive OFDM modulation systems

由表1可知，礦井小車勻速移動狀態(tài)下基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)平均誤碼率為1.1×10-3，總吞吐量為3 115 bit，性能最佳；礦井小車移動速度變化情況下基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)平均誤碼率為2.1×10-3，總吞吐量為2 719 bit，性能最佳。

4 結(jié)論

提出了一種基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制方法，并將其應(yīng)用于礦井自適應(yīng)OFDM調(diào)制系統(tǒng)。與基于SARSA算法和固定信噪比門限的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)性能進行了仿真對比，仿真結(jié)果表明：

(1) 通過優(yōu)化Q-學(xué)習(xí)算法中貪婪系數(shù)、學(xué)習(xí)率和折扣因子，可以使基于Q-學(xué)習(xí)算法的礦井自適應(yīng)OFDM調(diào)制系統(tǒng)吞吐量性能達(dá)到最佳。

(2) 礦井小車在勻速和移動速度變化狀態(tài)下，基于Q-學(xué)習(xí)算法的自適應(yīng)OFDM調(diào)制系統(tǒng)的平均誤碼率和總吞吐量均優(yōu)于基于SARSA算法和固定信噪比門限的自適應(yīng)OFDM調(diào)制系統(tǒng)。

(3) Q-學(xué)習(xí)和SARSA算法應(yīng)用于礦井自適應(yīng)OFDM調(diào)制系統(tǒng)時，Q-學(xué)習(xí)算法收斂速度優(yōu)于SARSA算法。