亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種適用于非穩(wěn)態(tài)淺海信道的強化學習自適應調(diào)制方案

2022-12-09 09:26:14邱逸凡張小康陳東升

廈門大學學報(自然科學版) 2022年6期

邱逸凡,張小康,陳東升,童峰

(1.廈門大學水聲通信與海洋信息技術(shù)教育部重點實驗室，福建廈門361005；2.廈門大學海洋與地球?qū)W院，福建廈門361102；3.廈門大學深圳研究院，廣東深圳518000)

有限帶寬和長傳播時延使得水聲信道呈現(xiàn)比陸上無線信道復雜得多的傳輸特性.而由于淺海域存在強烈的海面和海底反射，以及各類人為噪聲的影響，淺海信道相較于深海信道表現(xiàn)出更為強烈的時、空、頻變參特性，對淺海信道水聲通信提出了更高的要求[1].

自適應調(diào)制技術(shù)是提高通信系統(tǒng)信道適應性的有效手段，相對于在同一調(diào)制方式下調(diào)整調(diào)制參數(shù)的自適應調(diào)制方法，采用多調(diào)制方式的自適應調(diào)制可在淺海信道這類惡劣信道下提供更大的適應范圍.Benson等[2]提出了一種基于時延擴展和多普勒擴展以及信噪比條件來選擇相干調(diào)制和非相干調(diào)制的自適應調(diào)制系統(tǒng)；Mani等[3]在此基礎上提出了用可實現(xiàn)的信息速率和均衡后的信噪比作為評判標準的可變速率自適應調(diào)制編碼技術(shù)，并通過實驗驗證其可行性；Radosevic等[4]和Wan等[5]提出了利用自適應比特和功率分配來實現(xiàn)正交頻分復用(orthogonal frequency division multiplexing,OFDM)自適應調(diào)制的算法，并提出了新的評判通信性能的指標.邱逸凡等[6]提出了一種利用信噪比、多徑、多普勒作為信道狀態(tài)信息，多種通信制式切換的自適應調(diào)制方案，利用該信息，能夠有效全面地反映信道條件，仿真結(jié)果證明相較于單一制式，該方案能有效提升通信性能.

雖然上述方案相較于單一制式有不少性能的提升，但是在水聲信道條件下，這些傳統(tǒng)基于閾值判斷和反饋的自適應調(diào)制方式因時延較長而存在反饋過時的問題，往往導致反饋信息無法反映當前信道狀態(tài)，從而造成性能下降.近些年，隨著人工智能研究的火熱開展，機器學習被廣泛應用于各個領域[7-8].作為其中分支之一的強化學習，因其在與環(huán)境交互過程中通過在線試錯獲取數(shù)據(jù)，并自主學習實現(xiàn)模型優(yōu)化的特點，十分適用于數(shù)據(jù)量有限、動態(tài)變化的水聲環(huán)境.已有不少相關(guān)的文獻將強化學習應用于諸如路由協(xié)議[9]、水下物聯(lián)網(wǎng)的網(wǎng)絡中繼和能量控制[10]、水下機器人(AUV)和節(jié)點定位[11]以及自適應通信[12-14]等方向中.強化學習能夠通過不斷試錯和探索學習信道變化，故根據(jù)反饋的獎勵和狀態(tài)值能夠?qū)崿F(xiàn)對下一狀態(tài)的預測，從而有效解決反饋過時的問題.

Song等[12]提出了一種基于Dyna-Q的自適應調(diào)制算法，利用有效信噪比衡量信道狀態(tài)，通過Dyna-Q算法預測下一狀態(tài)和通信吞吐量，并在移動AUV場景下進行了效果驗證；蘇為等[13]提出了一種基于強化學習的自適應調(diào)制編碼方案，該方案在無需知道信道模型的先驗知識下可以根據(jù)信道質(zhì)量服務的需求，來選擇傳輸策略，以提高通信效率；李萍等[14]提出了一種基于Sarsa算法的自適應調(diào)制方法，仿真結(jié)果表明該方法可以保證系統(tǒng)可靠性的同時提高通信吞吐量.總體而言，將強化學習應用于水聲通信自適應調(diào)制的相關(guān)研究還比較有限，且目前的研究大都是基于同一通信制式進行調(diào)制參數(shù)的優(yōu)化調(diào)整，對于具有復雜時-空-頻變參特性的淺海水聲信道而言，具有多個不同通信制式的自適應調(diào)制方案可提供更為突出的調(diào)整能力.此外，Abdallah等[15]中提出針對嘈雜的非穩(wěn)態(tài)環(huán)境，Q學習(QL)算法和Dyna-Q算法都存在一定程度的性能下降，而淺海信道正是一個變化頻繁且復雜的環(huán)境，這可能導致學習過程中，原有環(huán)境已經(jīng)發(fā)生變化.

針對以上情況，本文設計了一種基于重復更新Q學習(RUQL)算法的淺海信道自適應調(diào)制方案，該算法解決了QL存在的策略偏離的問題[15]，同時保持了簡單性.實驗設立5種水聲通信調(diào)制制式，通過試錯和探索來學習出每一狀態(tài)下的最優(yōu)調(diào)制選擇，從而在無需預先知道信道模型的情況下實現(xiàn)自適應以提升通信吞吐量，并利用海試數(shù)據(jù)進行的自適應調(diào)制性分析驗證本文方案的有效性.

1 淺海信道模型

描述聲波在海洋中的傳播有3類常用的模型：射線聲學模型、簡正波模型和拋物線方程近似模型[16].簡正波模型通常用于描述500 Hz以下的聲傳播，而拋物線方程在計算復雜度上比射線模型大得多.因此描述高頻水聲通信模型?；谏渚€聲學進行信道建模.水聲信道沖激響應可以用式(1)描述：

(1)

其中，Ap(t)表示幅度響應，τp(t)是時變信道的時間延遲，δ為狄拉克函數(shù).

淺海信道中，由于海面和海底界面的存在，聲波傳播可以看成柱面擴展，其傳播損失可用下式表示[17]：

10lgA(l,f)=NF+10lgl+

lα(f,S,T,c,pH,z)，

(2)

其中：l是發(fā)射機和接收機的距離(m)；f是頻率(kHz)；參數(shù)NF是一個歸一化因子，與發(fā)射功率的倒數(shù)有關(guān)；α(f,S,T,c, pH,z)是衰減系數(shù)(dB/m)，與環(huán)境參數(shù)頻率f(kHz)、鹽度S(ppt)、溫度T(℃)、聲速c(m/s)、酸堿度pH和深度z(m)有關(guān).

水聲信道中的噪聲可以分為環(huán)境噪聲和外部干擾噪聲，環(huán)境噪聲包含擾動、艦船、風成和熱噪聲等.這些噪聲源組合在統(tǒng)計學上可以近似看成是非白高斯噪聲.而淺海區(qū)域中，生物、人工機械噪聲頻發(fā)，這也使通信環(huán)境變得更加惡劣.針對此類信道，能夠根據(jù)環(huán)境選擇最優(yōu)調(diào)制方式的通信體制顯得十分必要.

2 基于RUQL的自適應調(diào)制

強化學習作為機器學習的分支之一，是一種通過觀察智能體與環(huán)境交互過程中得到的獎賞來學習對應的策略，以實現(xiàn)長期回報最大化的方法.通常用于解決決策、資源分配等問題.馬爾可夫模型作為強化學習中的基本模型，可以用來描述水聲通信的過程.一個馬爾可夫過程包含動作集、狀態(tài)集、狀態(tài)轉(zhuǎn)移概率和回報函數(shù)四要素[18].由于水聲信道的時-空-頻隨機變化的特點，狀態(tài)轉(zhuǎn)移概率難以得知，因而采用強化學習思想中的時序差分學習，該思想結(jié)合了蒙特卡洛方法和動態(tài)規(guī)劃兩種思想的特點，既可以直接從與環(huán)境交互的經(jīng)驗中學習策略，亦可基于目前已得到的其他狀態(tài)的估計值來更新當前狀態(tài)的價值函數(shù).其中，QL和Sarsa兩種經(jīng)典算法被廣泛應用.

Sarsa算法與QL算法都是基于Q表來學習最優(yōu)策略，不同之處在于Sarsa算法進行Q表更新時，當前狀態(tài)下選擇的動作，和下一個狀態(tài)選擇的動作都是已知的.即QL在選擇下一個動作時，是遵循maxQ的結(jié)果，其行為和行為值函數(shù)更新選擇的是不同的策略.而Sarsa算法在選擇下一個動作時遵循貪婪策略，計算Q表時也是用貪婪策略選擇的動作計算得來.因此，Sarsa算法相較于QL算法更加保守.Sarsa算法更新公式如下所示：

Q(St，At)←Q(St，At)+α[Rt+1+

γQ(St+1，At+1)-Q(St，At)]，

(3)

式中，Q為動作價值函數(shù)，S為狀態(tài)集合，A為動作集合，R為獎勵值，α為當前經(jīng)驗的權(quán)重，γ為折扣系數(shù)，t為當前時刻.

與Sarsa算法不同，QL更新動作價值函數(shù)無需知道下一刻的動作，直接根據(jù)下一時刻Q表的最大值進行更新，與生成數(shù)據(jù)的策略無關(guān)，故是一種離軌策略.其更新公式如下：

Q(St，At)←Q(St，At)+α[Rt+1+

γmaxQ(St+1，At+1)-Q(St，At)]，

(4)

Sarsa和QL算法都是基于無模型的強化學習算法，而Dyna-Q則是將基于模型和無模型的強化學習相結(jié)合.它既在模型中學習，也在交互中學習.即在每個迭代過程中，先和環(huán)境交互并更新價值函數(shù)、策略函數(shù)，接著進行n次模型的模擬預測，同樣更新價值函數(shù)、策略函數(shù).這樣同時利用了與環(huán)境交互的經(jīng)驗以及模型的預測，相比傳統(tǒng)QL能夠加速學習過程.

在靜止的馬爾科夫環(huán)境中，QL算法可以得出最優(yōu)策略.然而，由于水聲信道的復雜性，實際環(huán)境并不總是靜止的.而在非平穩(wěn)環(huán)境中，QL算法會存在策略偏差問題[15].策略偏差問題指的是，在傳統(tǒng)QL算法的學習過程中，那些具有暫時性低值的最優(yōu)行動被執(zhí)行的頻率較低，因此，這些行動的值被更新的頻率較低.這會造成一個現(xiàn)象，即當代理人學習最佳行動之前，環(huán)境可能已經(jīng)發(fā)生了變化，從而導致性能下降.

RUQL的基本思想是調(diào)整傳統(tǒng)QL算法中的學習率，使得較少選擇的動作具有較高的學習速率.如果以低概率π(s,a)選擇一個動作，那么不是更新相應的動作值Q(s,a)一次，而是重復更新1/π(s,a)次.更新表達式與QL的更新表達式式(4)一致.

在本文中，考慮使用貪婪算法，即

(5)

其中:π(s,a)為在狀態(tài)s下選擇動作a的概率;是一個小常數(shù)，表示探索率,越高，代理人會更積極地探索行動空間.

本文將表征水聲信道條件的輸出信噪比和多普勒頻偏作為狀態(tài)集合，而將采用的調(diào)制方式作為動作集合，用通信速率和誤碼率的綜合評估作為獎勵值，輸出信噪比的定義如下所示.

(6)

其中，Psignal是信號功率，Pnoise是噪聲功率.

傳統(tǒng)自適應調(diào)制方案根據(jù)仿真來獲得信道質(zhì)量與調(diào)制制式之間的關(guān)系，并把它以查表的形式儲存在通信機中.但實際上由于信道不完全服從理想的分布，加性噪聲也不全是高斯的，導致了固定的切換閾值很難滿足誤碼率的要求.而基于強化學習的自適應調(diào)制編碼算法則可以克服這個問題，它不依賴于完美的數(shù)學模型，能夠根據(jù)系統(tǒng)的實際誤碼率性能來確定信道狀態(tài)和通信制式之間的對應關(guān)系.

3 自適應調(diào)制方案

傳統(tǒng)的自適應調(diào)制方案采用閾值判斷的方法，通過將信道狀態(tài)劃分為多個區(qū)間，將接收端獲得的信道狀態(tài)信息反饋到發(fā)射端，然后根據(jù)預先設定的區(qū)間選擇下一個調(diào)制方式.但由于時延的影響，這種方法存在反饋過時的問題，導致當前的狀態(tài)信息并不能很好地反映當前實際信道，造成通信性能的下降.因此將強化學習與自適應調(diào)制相結(jié)合，在與信道的交互過程中不斷更新狀態(tài)-動作值函數(shù)，并利用該函數(shù)學習出動態(tài)信道下的最佳自適應調(diào)制策略，在保證誤碼率的同時，提高吞吐量性能.

所謂自適應調(diào)制，則是能夠根據(jù)信道狀態(tài)自適應選擇滿足誤碼率前提下的最優(yōu)調(diào)制編碼體制，在信道條件差時選擇穩(wěn)健的調(diào)制方式以保證誤碼率，而在信道條件好時選擇高速的調(diào)制方式以提升吞吐量.因此，誤碼率和通信速率是自適應調(diào)制方案綜合考慮的兩個指標.給出系統(tǒng)吞吐量的定義[12]，當誤碼率大于0.1時，此時通信視為失敗，成功傳輸?shù)谋忍財?shù)已無意義，故此時吞吐量記為0，表達式如下：

(7)

其中：RBE為實際誤碼率；Vt為通信速率,單位為bit/s.

自適應調(diào)制的目標是實現(xiàn)Φ的長期最大化，因此將Φ映射到強化學習中，則可將每次選擇調(diào)制方式后獲得的獎勵與誤碼率和通信速率聯(lián)系起來.目前水聲通信中常用的通信制式主要分為非相干調(diào)制、單載波調(diào)制、多載波調(diào)制三類.其中多進制頻移鍵控(Multiple-ary frequency shift keying，MFSK)、多進制相移鍵控(multiple-ary phase shift keying，MPSK)和OFDM分別為3類中的典型制式，而直接擴頻序列(direct sequence spread spectrum，DSSS)因其魯棒性強也被廣泛應用.考慮到海洋環(huán)境的復雜性，以及不同應用場景對水聲數(shù)據(jù)傳輸需求的多樣性，不同通信體制能提供的水聲信道適應能力比不同調(diào)制參數(shù)要強，因此本文從不同制式出發(fā)，制定出不同制式切換的方案.同時根據(jù)實驗室現(xiàn)有換能器帶寬條件，在各自能夠達到的最大速率基礎上制定了每種制式的通信速率，以表現(xiàn)各種制式在相應場景下的工作特點，設置5種制式：差分正交PSK(DQPSK)、差分二進制PSK(DBPSK)、OFDM、8進制FSK(8FSK)、DSSS.

自適應調(diào)制方案的目標為：保證誤碼率的同時，最大化系統(tǒng)吞吐量.因此，可以將獎勵與每一次成功傳輸?shù)谋忍財?shù)聯(lián)系起來，本文設計的獎勵函數(shù)R如下：

(8)

其中:Vti為第i個制式的通信速率；P為反饋鏈路出錯的概率，這里假設存在某些時刻由于環(huán)境影響，導致接收端獲得的獎勵值并不能正確反饋給發(fā)射端，從而影響下一次的Q表更新;Pfail為0～1的隨機概率.

由于本文采用的每種通信制式的通信速率大小不同，使得在誤碼率0.1以下時，即使高速率制式誤碼率比低速率制式更高，但是吞吐量上仍然會大于低速率制式.因此，誤碼率在0.1以下時，將不再考慮誤碼率對通信性能的影響，只考慮通信速率，同時速率越高，獎勵值越高.系統(tǒng)在接收端解調(diào)后，得到信道狀態(tài)信息和獎勵值，并將這些值返回到發(fā)射端，發(fā)射端根據(jù)獎勵值和當前狀態(tài)更新Q表，并采用貪婪算法選擇下一個調(diào)制方式.每一個輪次代表一次完整的狀態(tài)變化過程，從初始狀態(tài)到終止狀態(tài).經(jīng)歷多輪迭代過程后，算法收斂.基于RUQL的自適應調(diào)制算法，具體步驟如下.

1) 初始化Q(s，a),?St∈S,At∈A;

2) 重復經(jīng)歷一個軟次：

初始化狀態(tài)St；

3) 重復一輪中的每一步

用Q表計算策略π,

根據(jù)策略π選取一個調(diào)制方式At,

執(zhí)行調(diào)制方式At,觀察獎勵值r和下一個狀態(tài)s′,

循環(huán)1/π(s,a)次：

更新Q表

Q(St，At)←Q(St，At)+α[Rt+1+

結(jié)束

s←s′,

直至終止狀態(tài),返回2);

4) 獲得最終策略.

在經(jīng)過多次迭代之后，智能體即發(fā)射端可以獲得策略，即調(diào)制制式的選擇準則.當信道狀態(tài)變化時，則發(fā)射端能夠根據(jù)反饋信息和策略，選擇使長期吞吐量最大化的制式，從而達到性能的穩(wěn)定提升.

4 實驗結(jié)果及分析

4.1 實驗設置

實驗數(shù)據(jù)采集地點為廈門五緣灣海域，海域水深8 m，收發(fā)機距離為608 m，布放深度為5 m.發(fā)射時，信號經(jīng)聲卡、功放、變壓器由發(fā)射換能器發(fā)出；接收時，先由換能器接收信號，再經(jīng)過前置放大和帶通濾波后得到最終的接收信號.換能器帶寬為13～18 kHz，采樣頻率96 kHz，信號帶寬4.8 kHz，中心頻率15.5 kHz.錄制信號共包含DQPSK、OFDM、DPBSK、8FSK、DSSS 5種制式，對應通信速率分別為2 381，2 044，1 172，155，55 bit/s.取每種制式錄制數(shù)據(jù)中的一幀作為原始接收數(shù)據(jù)，進行實錄噪聲、多普勒疊加以模擬信道時變.

在接收端，5種通信制式均采用經(jīng)典方法接收機結(jié)構(gòu)，如表1所示[19-21].所取5種制式原始接收數(shù)據(jù)的RSN在15～23 dB之間，圖1為5種通信制式原始接收數(shù)據(jù)對應的信道響應，可看出信道存在較為明顯的多徑結(jié)構(gòu)，多徑擴展均在3 ms左右.

圖1 被測信道的沖激響應Fig.1Impulse response of the tested channel

表1 5種調(diào)制方式接收機結(jié)構(gòu)

4.2 數(shù)據(jù)處理

在得到每種制式的原始接收數(shù)據(jù)和實錄環(huán)境噪聲后，為了體現(xiàn)通信過程信道變化，在原始接收數(shù)據(jù)上根據(jù)設置的RSN進行實錄噪聲疊加和多普勒頻偏添加，采用時域重采樣對整個輸入信號進行多普勒的疊加.為了便于Q表的建立，將RSN和多普勒頻偏進行離散化處理.RSN和多普勒頻偏分別設置為0～15 dB和0～8 Hz.

定義fDP為多普勒頻偏值(Hz)，因此可以將RSN和多普勒頻偏組成一個二元組(RSN,fDP),作為狀態(tài)的表征.為了體現(xiàn)信道的動態(tài)變化，將設置兩種信道變化過程，每隔一段時間D后，采用另一種變化過程，以此構(gòu)造一個非穩(wěn)態(tài)環(huán)境.第一種變化過程:設置初始狀態(tài)(15，0)，隨后的每一個狀態(tài)按照RSN減小1 dB、多普勒不變，例如(14，0)，(13，0)……，直至RSN減為0 dB；下一狀態(tài)RSN變?yōu)?5 dB，多普勒頻偏增加 1 Hz，即(15，1)，重復上述操作；如此反復，直至終止狀態(tài)(0,8)，從初始狀態(tài)到終止狀態(tài)共有144種狀態(tài).第二種變化過程：設置初試狀態(tài)為(15，8), 隨后的每一個狀態(tài)按照RSN減小1 dB、多普勒不變，例如(14，8)，(13，8)……，直至RSN減為0 dB；下一個狀態(tài)RSN變?yōu)?5 dB，多普勒減小1 Hz，即(15，7)；如此反復，直至終止狀態(tài)(0,0)，同樣一共有144種狀態(tài).

由上述過程可知，在每次RUQL算法的迭代過程中，一共會經(jīng)歷144種信道狀態(tài)，在每個狀態(tài)下，RUQL選擇一種調(diào)制方式，發(fā)射一次數(shù)據(jù)包，因此共有144個數(shù)據(jù)通信包.強化學習中設置參數(shù)α=0.1，γ=0.1；為了更快收斂，將貪婪算法中的設置為0.1，D設置為10，即每10次迭代后環(huán)境發(fā)生一次變化.P=0.1，即獎勵值反饋鏈路出錯的概率為0.1.

同樣地，對文獻[12, 14]提出的Dyna-Q算法和Sarsa算法以及傳統(tǒng)QL算法進行上述的迭代訓練過程，作為對比實驗.

最后，為進一步驗證該方案的可行性，讓信道隨機變化，觀察本文算法是否仍能有效工作.

4.3 實驗結(jié)果

4.3.1 信道規(guī)律變化

信道變化按照4.2中的設置進行，對本文算法得到的結(jié)果進行分析，圖2(a)和(b)分別給出迭代次數(shù)為400和700次時，通信數(shù)據(jù)包的RBE情況.可以看出，隨著迭代次數(shù)的增加，RBE超過0.1的次數(shù)明顯減少.

在700次迭代后，算法收斂，得到策略π.當某一狀態(tài)出現(xiàn)后，接收端記錄該狀態(tài)和獎勵值，并反饋到發(fā)射端，發(fā)射端即可根據(jù)下一狀態(tài)和策略π選擇最優(yōu)調(diào)制方式.根據(jù)策略π進行調(diào)制方式的選擇并統(tǒng)計每次接收數(shù)據(jù)包的RBE和最終得到的Φ,結(jié)果如圖3所示.可以看到在整個發(fā)射過程中，所有的數(shù)據(jù)包的RBE都低于0.1，且總吞吐量最大，達到了131 411 bit.同時加入通信過程中隨信道變化所采用的通信制式表，如表2所示，隨著信道條件逐漸惡劣，所選擇的調(diào)制方式從高速率制式逐漸切換到了穩(wěn)健的低速率制式.

圖2 迭代過程中的RBE曲線Fig.2Curve of RBE in iterative process

圖3 基于RUQL的自適應調(diào)制方案性能圖Fig.3The performance of adaptive modulation scheme based on RUQL

表2 發(fā)射過程中每種狀態(tài)下對應的調(diào)制方式

圖4 自適應調(diào)制方案的誤碼率曲線對比圖Fig.4Comparison of RBE of adaptive modulation schemes

同樣的，將本文算法與Dyna-Q、QL算法和Sarsa算法，以及采用基于閾值判斷的自適應調(diào)制方法[6]進行對比.結(jié)果表明：Dyna-Q和QL算法在嘈雜非平穩(wěn)環(huán)境中，效果幾乎接近一致.這是因為雖然Dyna-Q有效地提高了所有行動的學習率，但是由于反饋鏈路存在出錯的情況，最佳行動的Q值在收到嘈雜的負獎勵時可能會下降.然而，對于本文自適應算法，雖然反饋鏈路出錯帶來的獎勵負值同樣會導致RUQL的Q值下降，但一旦誤碼率低于0.1的行動被嘗試且反饋鏈路不出錯，RUQL將提高該行動的學習率，從而更快地從該效應中恢復過來.同時，RUQL的促進作用隨著行動的選擇越來越頻繁而減弱，學習在嘈雜時變得穩(wěn)定，從而導致其性能高于其他算法.另外，正如前文所分析的，由于Sarsa算法比較保守，其性能低于QL、Dyna-Q和本文算法；固定閾值自適應算法由于反饋延遲問題，在所有自適應調(diào)制算法中性能最差.Dyna-Q自適應調(diào)制法最后得到的系統(tǒng)總吞吐量為129 647 bit.基于QL算法的自適應調(diào)制方法能達到的系統(tǒng)總吞吐量為129 743 bit.基于Sarsa算法的自適應調(diào)制方法能達到的系統(tǒng)總吞吐量為128 633 bit.而基于固定閾值判斷的自適應調(diào)制方法最終的總吞吐量為125 862 bit.如表3所示，在系統(tǒng)吞吐量上，本文算法相較于Dyna-Q、QL、Sarsa和固定閾值判斷的自適應算法分別提升了1.4%、1.3%、2.2%和4.4%.其余單一制式算法，隨著信道條件變差，誤碼率逐漸超過0.1，故系統(tǒng)吞吐量不再隨著接收數(shù)據(jù)包序列增加而提升.

表3 自適應算法效果對比表

固定閾值判斷、Dyna-Q、QL和Sarsa算法的誤碼率對比曲線如圖4所示，可以看出，4種算法中，還有不少誤碼率大于0.1的情況出現(xiàn).

4.3.2 信道隨機變化

接下來，讓信道隨機變化，統(tǒng)計各種制式的誤碼率和系統(tǒng)總吞吐量.信道RSN和多普勒具體變化如圖5所示.從圖6可以看出，在隨機的信道變化狀態(tài)下，RUQL的誤碼率始終保持在0.1以下，而其他自適應調(diào)制算法都出現(xiàn)了誤碼率大于0.1的情況.且如圖7所示，本文自適應調(diào)制方案實現(xiàn)的系統(tǒng)吞吐量始終保持在最高，本文提出的算法相較于其他自適應調(diào)制算法方法仍能保持較好的性能.

圖5 隨機信道狀態(tài)變化情況Fig.5The changing process of random channel state

圖6 信道隨機變化下各種自適應調(diào)制方案性能圖Fig.6The RBE of several adaptive modulation scheme under random channel variation

(b)為(a)中右上角方框的放大圖.圖7 信道隨機變化下各種自適應調(diào)制方案的性能圖Fig.7The performance of several adaptive modulation scheme under random channel variation

5 結(jié) 論

本文設計了一種基于RUQL算法的淺海水聲通信自適應調(diào)制技術(shù)方案，采用RSN和多普勒頻偏作為表征環(huán)境狀態(tài)的要素，在DQPSK、OFDM、DBPSK、8FSK、DSSS 5種通信制式中進行優(yōu)化選擇，綜合誤碼率和系統(tǒng)吞吐量設計了相關(guān)的獎勵函數(shù).實驗結(jié)果表明該方案相較于傳統(tǒng)方法能獲得更好的誤碼率和系統(tǒng)吞吐量.基于本文獲得的初步結(jié)論，下一步將開展不同淺海信道條件下的實驗評估，從而對所提方案進行更充分的有效性分析和性能對比.