亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于UCB的短波認(rèn)知信道選擇算法

2016-05-08 06:22:30王董禮黃國策孫啟祿王葉群

鐵道學(xué)報 2016年12期

王董禮，黃國策，曹鵬，孫啟祿，王葉群

(空軍工程大學(xué) 信息與導(dǎo)航學(xué)院，陜西西安 710077)

短波具有超視距通信能力，開通架設(shè)方便，一直是重要的遠(yuǎn)程和機動通信手段，用途十分廣泛。目前短波電臺各自非合作的頻率競爭和功率競爭不僅導(dǎo)致自身干擾沖突，而且污染了短波電磁環(huán)境，致使其他短波用戶的可用頻率減少和頻譜質(zhì)量下降[1]，使得用戶間沖突碰撞嚴(yán)重，頻譜資源使用比較緊張。短波工業(yè)協(xié)會HFIA(High Frequency Industry Association)的研究表明，看似擁擠的短波頻段存在數(shù)量可觀的頻譜空洞[2,3]，因此，如何高效利用這些空閑的頻譜資源具有重要意義。

認(rèn)知無線電允許認(rèn)知用戶接入頻譜空洞，減少沖突碰撞的同時實現(xiàn)頻譜的高效利用?，F(xiàn)有對認(rèn)知無線電的研究主要集中在短波以上頻段，文獻(xiàn)[4]從動態(tài)頻譜接入DSA(Dynamic Spectrum Access)的角度，提出將認(rèn)知無線電應(yīng)用到短波通信中。文獻(xiàn)[5]分析驗證了短波頻段頻譜空洞的可用性和穩(wěn)定性，指出頻譜空洞持續(xù)時間在數(shù)秒到數(shù)分鐘間具有規(guī)律性，為DSA奠定了基礎(chǔ)。文獻(xiàn)[6]通過感知短波電磁環(huán)境，運用DSA策略實現(xiàn)抗干擾設(shè)計，避開干擾噪聲較強的頻率進(jìn)行實時信道選擇。因此，將認(rèn)知無線電技術(shù)應(yīng)用到短波通信中，可以使短波認(rèn)知用戶根據(jù)周圍環(huán)境動態(tài)選擇最佳工作頻率，調(diào)整自身參數(shù)，優(yōu)化通信效果。

動態(tài)頻譜接入允許短波認(rèn)知用戶[7]在特定時間、地點使用空閑信道，根據(jù)強化學(xué)習(xí)(Reinforcement Learning)理論[8]，通過對信道的探索和利用，動態(tài)接入空閑信道，能夠在最大化自身傳輸機會的同時減少與其他用戶的相互干擾。文獻(xiàn)[9]使用強化學(xué)習(xí)中的UCB(Upper Confidence Bound)算法，驗證其在短波環(huán)境下具有優(yōu)良的性能。由于UCB算法學(xué)習(xí)時間較長，收斂到最優(yōu)信道的速度較慢，影響其在短波環(huán)境下性能的提升。本文在文獻(xiàn)[9]的基礎(chǔ)上，建立適合認(rèn)知背景的評價準(zhǔn)則，提出一種改進(jìn)的UCB算法，該算法借鑒權(quán)重驅(qū)動(Weight-Driven)算法思想[10]，引入信道質(zhì)量差異因子，根據(jù)探索學(xué)習(xí)結(jié)果動態(tài)調(diào)整探索信道數(shù)量和探索系數(shù)，能夠快速收斂于最優(yōu)信道，較原始UCB算法和隨機信道選擇算法具有較高的成功傳輸率和較低的累積接入損失。

1 系統(tǒng)模型

圖1 系統(tǒng)的信道模型

2 UCB算法

2.1 UCB1算法

UCB算法是強化學(xué)習(xí)算法之一，是1995年由AGRAWAL R[13]提出的基于索引的算法，能夠解決MAB中探索新臂以獲得更多收益信息和選擇已有收益最高的臂來獲取最大利益之間的權(quán)衡問題。在認(rèn)知無線電應(yīng)用場景下，該算法不需任何信道先驗信息，通過對歷史決策行為和獲得收益的學(xué)習(xí)進(jìn)行決策，能夠最大化認(rèn)知用戶的累積接入次數(shù)和時間[14]。根據(jù)強化學(xué)習(xí)理論[8]，UCB算法分為探索(Exploration)和利用(Exploitation)兩個階段，該算法能夠在探索學(xué)習(xí)的同時預(yù)測下一時隙最可用的信道，并根據(jù)利用階段的接入結(jié)果更新相應(yīng)信息，因此能夠為短波認(rèn)知用戶選擇最優(yōu)信道提供依據(jù)。

UCB算法在每個時隙更新索引值Bt,k,Tk(t)，并返回使該索引值最大的信道索引號k。索引值Bt,k,Tk(t)的計算方法為

(1)

(2)

式中：am∈{1,2,…,K}為短波認(rèn)知用戶在第m時隙使用UCB算法選取感知的信道索引號；l{am=k}為邏輯表達(dá)式，當(dāng)am=k時，其值為1，反之為0；Tk(t)為在前t個時隙內(nèi)信道k被該算法選擇的次數(shù)。

At,k,Tk(t)為索引值Bt,k,Tk(t)的置信因子，即

(3)

該UCB算法被稱為UCB1算法，其中，α為探索系數(shù)，具體算法如下。

輸入：K，a,{a0,r0,a1,r1,…,at-1,rt-1}

輸出：at

ift

at=t+1

else

at=arg maxk(Bt,k,Tk(t))

end if

returnat

2.2 改進(jìn)UCB1算法

定義信道質(zhì)量差異因子βt為

(4)

(5)

(6)

(7)

(8)

為避免由于學(xué)習(xí)不充分造成的信道誤判，導(dǎo)致無法收斂于最優(yōu)信道，陷入局部最優(yōu)值，應(yīng)當(dāng)在進(jìn)行可觀的N0次接入后再進(jìn)行信道數(shù)量縮減操作。改進(jìn)UCB1算法的具體流程如圖2所示，當(dāng)有新的業(yè)務(wù)傳輸請求時，若t

圖2 改進(jìn)UCB1算法流程圖

3 評價準(zhǔn)則

(9)

3.1 機器學(xué)習(xí)下的評價準(zhǔn)則

在機器學(xué)習(xí)領(lǐng)域，短波認(rèn)知用戶如果選擇最優(yōu)信道(即空閑概率最高的信道)進(jìn)行數(shù)據(jù)傳輸，此時對其他短波用戶產(chǎn)生干擾的可能性較小，因而可以使用最優(yōu)信道選擇比率Poptimal作為準(zhǔn)則評估學(xué)習(xí)算法的性能。

(10)

同樣，從機器學(xué)習(xí)的角度，如果短波認(rèn)知用戶每個時隙選擇最優(yōu)信道，則認(rèn)為能夠取得最佳性能。因此與最優(yōu)信道選擇策略相比，使用改進(jìn)UCB1算法進(jìn)行信道選擇，短波認(rèn)知用戶的累積接入損失為Rt=tμmax-Wt，其中，μmax=max{μ1,μ2,…,μK}。因此，在t足夠大時，短波認(rèn)知用戶的平均累積接入損失為

(11)

式中：θmax=max{θ1,θ2,…,θK}。

3.2 認(rèn)知無線電下的評價準(zhǔn)則

在短波中應(yīng)用認(rèn)知無線電，此時評估改進(jìn)UCB1算法的準(zhǔn)則與機器學(xué)習(xí)領(lǐng)域不同[9,16]。短波認(rèn)知用戶不關(guān)心選擇的信道是否為最優(yōu)信道，而是選擇的信道在當(dāng)前時刻是否空閑，因此最優(yōu)信道選擇比率Poptimal無法用來衡量認(rèn)知背景下該算法的性能，此時用成功傳輸率Psuccess進(jìn)行表征。

(12)

式中：Wt為短波認(rèn)知用戶進(jìn)行信道選擇后接入的累積收益。

在機器學(xué)習(xí)準(zhǔn)則下，短波認(rèn)知用戶趨向接入最優(yōu)信道，由于最優(yōu)信道并非任意時刻空閑，非最優(yōu)信道在未被占用時也能接入進(jìn)行傳輸，因此累積接入損失Rt并未真實反映短波認(rèn)知用戶損失的傳輸機會。考慮機會式頻譜接入OSA(Opportunistic Spectrum Access)策略，此時認(rèn)知用戶能夠獲得信道先驗信息，只要信道組中所有信道并非完全被占用，短波認(rèn)知用戶就能接入未被占用的信道進(jìn)行數(shù)據(jù)傳輸，最大化信道利用率。引入邏輯符號St表示信道組中信道狀態(tài)的整體情況。

(13)

(14)

4 仿真分析

4.1 機器學(xué)習(xí)下的性能分析

圖3為三種算法的最優(yōu)信道選擇比率Poptimal，由于隨機信道選擇算法為非學(xué)習(xí)算法，無法利用歷史信息進(jìn)行學(xué)習(xí)決策，所以其Poptimal最低，約為12.5%(即1/K)；原始UCB1算法的Poptimal隨時隙t增長并趨于穩(wěn)定，在t=5 000時略高于90%，收斂速度較慢，在仿真時間內(nèi)最高可達(dá)94.18%；而改進(jìn)UCB1算法的Poptimal最高，由于該改進(jìn)算法能夠根據(jù)學(xué)習(xí)的信道情況主動縮減探索信道范圍，調(diào)整探索系數(shù)，在t=620時Poptimal達(dá)到90%，收斂于最優(yōu)信道的速度最快，并且隨著時間的增長Poptimal趨于100%。

圖3 最優(yōu)信道選擇比率Poptimal

因為隨機信道選擇算法的累積接入損失Rt較大，只給出改進(jìn)UCB1算法和原始UCB1算法Rt的對比，如圖4所示。由于所選信道并非任意時刻空閑，Rt反映了短波認(rèn)知用戶與其他短波用戶產(chǎn)生沖突的可能，Rt越高意味著較最優(yōu)信道選擇產(chǎn)生的錯誤越多，產(chǎn)生沖突的可能越大，浪費的傳輸機會越多。從圖4可知，改進(jìn)UCB1算法具有更低的Rt，在t=104時僅為80.5，較原始UCB1算法減少47.56%，可見改進(jìn)算法能夠更好地找到最優(yōu)信道，減少累積接入損失。UCB算法通過選擇最優(yōu)信道和周期性的探索其他信道，從而對信道情況進(jìn)行更好的學(xué)習(xí)，因此在圖4的累積接入損失Rt中會出現(xiàn)輕微的跳躍。

圖4 累積接入損失Rt

4.2 認(rèn)知背景下的性能分析

圖5為三種算法的成功傳輸率Psuccess，同樣隨機信道選擇算法的Psuccess最低，約為54%；原始UCB1算法的Psuccess隨時隙t增長并趨于穩(wěn)定，在仿真時間內(nèi)最高可達(dá)88.34%；而改進(jìn)UCB1算法能夠動態(tài)調(diào)整探索信道數(shù)量和探索系數(shù)，保留空閑概率較高的信道，因此其Psuccess最高，最高可達(dá)91.31%，并隨時間增長逐漸趨于90%(仿真條件中信道最高空閑概率為90%)。由于該算法選擇的最優(yōu)信道中，并非每一時刻都是空閑，對比圖3中的Poptimal可知，改進(jìn)UCB1算法的Psuccess低于Poptimal，并且空閑概率較小的信道對成功傳輸率影響不大，通過剔除空閑概率較小的信道，在時隙t較小時，就能達(dá)到較高的成功傳輸率。

圖5 成功傳輸率Psuccess

圖6 對比OSA的累積接入損失

5 結(jié)束語

在短波中應(yīng)用認(rèn)知無線電，能夠提高短波頻段頻譜利用率，減少沖突碰撞的幾率。結(jié)合強化學(xué)習(xí)理論，本文提出基于UCB的短波認(rèn)知信道選擇算法，采用多種指標(biāo)分別在機器學(xué)習(xí)和認(rèn)知背景下驗證算法性能。仿真結(jié)果表明，該算法能夠有效提高信道接入成功傳輸率并降低累積接入損失，具有良好的通信效果。但是隨著短波寬帶技術(shù)的發(fā)展，在每個時隙只選擇一個信道無法滿足寬帶傳輸?shù)男枨螅虼巳绾卫肬CB算法在每個時隙選擇多個可用信道進(jìn)行寬帶傳輸是下一步研究的重點。

參考文獻(xiàn)：

[1]姚富強, 劉忠英, 趙杭生.短波電磁環(huán)境問題研究——對認(rèn)知無線電等通信技術(shù)再認(rèn)識[J].中國電子科學(xué)研究院學(xué)報, 2015, 10(4):156-161.

YAO Fuqiang, LIU Zhongying, ZHAO Hangsheng. Study on the Issues of HF Electromagnetic Environment[J]. Journal of CAEIT, 2015, 10(2):156-161.

[2]WILLIAM F. Summary: Wideband HF Channel Availability Working Group[R/OL]. http://www.hfindustry.com/meetings_presentations/presentation_materials/2015_feb_hfia/presentations/4-HFIAWidebandHF.pdf.

[3]BRAM W. Wide Band HF UK Spectrum Utilisation [R/OL]. http://www.hfindustry.com/ca_meetings/presentation_materials/2015_feb_wb/2-WideBandHFSpectrumAvailability.pdf.

[4]KOSKI E, FURMAN W N. Applying Cognitive Radio Concepts to HF Communications[C]// IET 11th International Conference on Ionospheric Radio Systems and Techniques. New York:IEEE Press, 2009:1-6.

[5]閆建峰,郭銳,田驊. 基于認(rèn)知的短波動態(tài)頻譜孔洞率與時效性研究[J]. 艦船科學(xué)技術(shù), 2011, 33(6):56-60.

YAN Jianfeng，GUO Rui，TIAN Hua. Research on Spectrum Hole Probability and Effectiveness for a Given Period of Time of Dynamic Spectrum of HF Channel Based on Cognition[J]. Ship Science and Technology, 2011, 33(6):56-60.

[6] ZHU Y C, WANG P, LU J X. A New HF Radio Prototype Based on Dynamic Spectrum Anti-Jamming Concept[C]// 6th International ICST Conference on Communications and Networking in China. New York: IEEE Press, 2011:955-958.

[7]彭開志,劉進(jìn),王書誠.基于頻譜檢測的短波認(rèn)知用戶性能優(yōu)化[J].鐵道學(xué)報, 2012, 34(4): 57-63.

PENG Kaizhi, LIU Jin, WANG Shucheng. Optimization of HF Secondary User Performance through Spectrum Sensing[J]. Journal of the China Railway Society, 2012, 34(4): 57-63.

[8] SUTTON R S, BARTO A G. Reinforcement Learning[M].Cambridge:The MIT Press, 1998.

[10] JIANG T, GRACE D, MITCHELL P D. Efficient Exploration in Reinforcement Learning-based Cognitive Radio Spectrum Sharing[J].IET Communications, 2011, 10(5):1 309-1 317.

[11] ROBBINS H. Some Aspects of the Sequential Design of Experiments[J]. Bulletin of the American Mathematical Society, 1952,58(5): 527-535.

[12]趙林靖, 茍俊杰. 基于MAB模型的多信道選擇與接入算法研究[D]. 西安: 西安電子科技大學(xué), 2014.

[13] AGRAWAL R. Sample Mean Based Index Policies with O(log n) Regret for the Multi-armed Bandit Problem[J]. Advances in Applied Probability,1995,27(4):1 054-1 078.

[14] JOUINI W, ERNST D, MOY C, et al. Multi-armed Bandit Based Policies for Cognitive Radio’s Decision Making Issues[C]// 3rd International Conference on Signals, Circuits and Systems (SCS). New York: IEEE Press, 2009:1-6.

[15] AUER P, Cesa-Bianchi N, FISCHER P. Finite Time Analysis of the Multi-armed Bandit Problem[J]. Machine Learning, 2002,47(2-3):235-256.

[16] ROBERT C, MOY C, WANG C X. Reinforcement Learning Approaches and Evaluation Criteria for Opportunistic Spectrum Access[C]// IEEE International Conference on Communications. New York: IEEE Press,2014:1 508-1 513.