黃川,鄭寶玉
(1.南京郵電大學(xué)信號處理與傳輸研究院,江蘇南京210003; 2.福建師范大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,福建福州350007)
一種新型認(rèn)知無線電信道狀態(tài)的預(yù)測算法
黃川1,2,鄭寶玉1
(1.南京郵電大學(xué)信號處理與傳輸研究院,江蘇南京210003; 2.福建師范大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,福建福州350007)
基于部分可測馬爾科夫決策過程(POMDP)模型,結(jié)合認(rèn)知無線電頻譜偵測技術(shù),提出一種新的多無線電多信道環(huán)境下認(rèn)知無線電檢測信道算法.該算法通過對信道狀態(tài)歷史信息的分析,推導(dǎo)出信道信念狀態(tài)的初始分布和轉(zhuǎn)移概率;然后,以此選擇出具有最佳回報的信道以供接入,使得次用戶能獲得最佳帶寬回報,從而達到提高信道利用率的目的.仿真結(jié)果表明,算法獲得相對于傳統(tǒng)認(rèn)知無線電頻譜接入方式更高的信道帶寬,并接近無漏檢和虛警現(xiàn)象的理想情況,有效地提高了信道利用率.
認(rèn)知無線電;多無線電;多信道;馬爾科夫模型;頻譜偵測
新興的認(rèn)知無線技術(shù)為解決非授權(quán)用戶有效利用閑置頻譜,提高頻譜利用率提供了可能[1].然而,由于網(wǎng)絡(luò)的未知性,使得次用戶很難獲得不同信道的精確狀態(tài),而必須依據(jù)當(dāng)前的不完全狀態(tài)信息做出決策.因此,對網(wǎng)絡(luò)的未知性采用部分可測馬爾科夫模型(POMDP)建立信道狀態(tài)信息模型,并以此做出選擇最佳信道的決策具有合理性[2-3〗.文[2]提出了一種基于POMDP模型的認(rèn)知MAC(Media Access Control)協(xié)議,解決了異構(gòu)網(wǎng)絡(luò)中信道選擇決策問題.文[3]在文[2]的基礎(chǔ)上,提出更為具體的以POMDP模型為基礎(chǔ)的頻譜檢測策略、信道選擇決策,以及接入策略的聯(lián)合優(yōu)化方案.上述研究仍存在著兩個問題:其一是信道狀態(tài)間的轉(zhuǎn)移概率是事先給定的,無法根據(jù)實際情況變化;另一個是只有一個無線電收發(fā)器,使得用戶不得不經(jīng)常中斷數(shù)據(jù)傳輸過程轉(zhuǎn)而檢測授權(quán)用戶(或稱為主用戶)是否出現(xiàn),從而浪費信道帶寬.針對上述問題,本文通過建立以POMDP模型為基礎(chǔ)的多無線電系統(tǒng)[4]模型,提出一種與認(rèn)知無線電頻譜偵測技術(shù)相結(jié)合的在異構(gòu)網(wǎng)絡(luò)環(huán)境下的新型信道狀態(tài)預(yù)測算法.
假設(shè)網(wǎng)絡(luò)中每個次用戶配備兩個獨立的,具有認(rèn)知無線電功能的無線電收發(fā)設(shè)備.當(dāng)次用戶從網(wǎng)絡(luò)A向不同的網(wǎng)絡(luò)B移動時,其中一個無線電保持與網(wǎng)絡(luò)A的連接,稱為工作無線電;而另一個無線電處于認(rèn)知偵測狀態(tài),則稱為觀測無線電.由觀測無線電偵測結(jié)果組成的信道狀態(tài)歷史信息,由離散觀測時間序列DT內(nèi)的一系列行為a、回報r、觀測狀態(tài)z和應(yīng)答狀態(tài)k的序列h組成.即
假設(shè)在網(wǎng)絡(luò)B中存在N(0 其中:M=2N,且Si(t)=s1(t)…sN(t),sj(t)∈{0,1},每個信道的帶寬表示為WB,j,j=1,…,N.由于環(huán)境的未知性,設(shè)次用戶可偵測到的信道數(shù)目n≤N. 一個典型POMDP模型可用六元組表示為〈S,A,T,R,Z,O〉[5].其中:S為系統(tǒng)中有限信道狀態(tài)集合;A為次用戶采取的有限行為(觀測,接入)的集合,用A={a1,a2}表示;T表示當(dāng)前信道狀態(tài)s在行為a的作用下變?yōu)閟’的轉(zhuǎn)移函數(shù),記為T(s,a,s′);R為瞬時回報函數(shù),記為R(s,a);Z為用戶對系統(tǒng)狀態(tài)的有限觀測狀態(tài)集合;O為觀測函數(shù),記為O(s′,a,z).此外,ki(t)∈{0,1}表示次用戶在執(zhí)行行為a后得到的應(yīng)答.此處,設(shè)應(yīng)答是無錯的. 由于S是未知的,采用信念狀態(tài)空間B來表示信道狀態(tài)的概率分布,有 其中:b(s)表示信道處于狀態(tài)s的概率.根據(jù)Bayes法則,可得在t+1時隙信念狀態(tài)更新的表達式為 式(4)中:ζ為折扣因子,0<ζ≤1;P為條件轉(zhuǎn)移的概率函數(shù). 以POMDP模型為基礎(chǔ)的多無線電多信道,其信道狀態(tài)預(yù)測算法(CSPA)可分為如下兩個階段. (1)觀測階段.通過一段時間的觀測,將獲得的系統(tǒng)環(huán)境信息記錄到h中,期間的執(zhí)行接入行為僅為向相應(yīng)頻段發(fā)送探測包,并未真正執(zhí)行信道接入操作.(2)預(yù)測階段.通過h,對信道的初始狀態(tài)分布、狀態(tài)轉(zhuǎn)移概率和觀測概率進行估計,并利用啟發(fā)式算法找出具有最大折扣回報的策略π′,在接入時隙次用戶按其接入.在預(yù)測階段,對次用戶來說,信道狀態(tài)個數(shù)M是N的指數(shù),要計算出最大折扣回報是很困難的.然而,實際網(wǎng)絡(luò)中的信道一般是獨立的,有如下定理. 定理1 假設(shè)n個獨立信道,有Λ=[λ1,…,λn],其中λi為信道i在某個時隙t開始時刻所處的狀態(tài),則L是信道狀態(tài)Si(t)的充分統(tǒng)計量. 證明 參見文[6]. 根據(jù)定理1,POMDP模型中信念狀態(tài)空間B={b(Si(t)),i=1,…,n}可簡化為B={b(sk(t)),k= 1,…,n},從而信念空間維度由2n降為n.對于每個信道i來說,其最大折扣回報表達式為 式(7)中:q(θi)為θi的先驗分布.對于次用戶來說,信道i處于空閑或忙狀態(tài)是等可能的,故先驗分布q (θi)為[0,1]上的均勻分布,有 用θi對h的條件期望E{θi|h}估計信道狀態(tài)為空閑的概率,有 信道狀態(tài)轉(zhuǎn)移概率T(s,a,s′)也是未知的.設(shè)psa,s′為信道i執(zhí)行行為a后,狀態(tài)從s轉(zhuǎn)移到s′的轉(zhuǎn)移概率.其中:s,s′∈{0,1),向量Pi=(psa,s′k,a∈A,k=1,…,|S|).在T個時隙中信道i的狀態(tài)從s到s′的轉(zhuǎn)移次數(shù)向量φi=(φsa,s′,a∈A,k=1,…,|S|).在執(zhí)行行為a條件下,Pi服從Dirichlet分布,(psa,s′,…, k1 當(dāng)信道狀態(tài)轉(zhuǎn)移后,向量φ′i=φi+δas,s′.其中:|δas,s′|=|S|,且δas,s′[s′=j]=1,其余為0.用期望值估計轉(zhuǎn)移概率,有 在頻譜偵測中,由于存在漏檢和虛警現(xiàn)象,因此對于次用戶來說,所觀測到的信道狀態(tài)并不一定與信道真實狀態(tài)相符.假設(shè)信道為AWGN,pd為檢測概率,pf為虛警概率,且采用能量檢測器的頻譜偵測方法[2],則有 由于信道真實狀態(tài)的未知性,次用戶可根據(jù)執(zhí)行行為a后得到的應(yīng)答信息k,來驗證觀測狀態(tài)的正確與否,有 從而可求出次用戶可獲得的最大折扣回報.即 為了測試CSPA算法的性能,引入隨機接入算法(Random Access A lgo rithm,RAA)[2]與之比較.在RAA算法中,次用戶在剛進入未知新網(wǎng)絡(luò)時,不使用信道狀態(tài)預(yù)測方法,而是通過每一接入時隙開始時刻的偵測來獲知可以采用的若干信道,并隨機選擇其中一個接入.為了體現(xiàn)公平性,設(shè)新網(wǎng)絡(luò)中每一信道的帶寬均為1個單位,且每個時隙為1個單位時間.設(shè)折扣因子ζ=1.同時比較CSPA算法與理想情況下所獲得的信道帶寬回報,即與不存在漏檢和虛警現(xiàn)象條件下的對比. 信噪比(RSN)和檢測樣本數(shù)目(L)的不同時,虛警率Pf值對檢測率Pd的影響,如圖1所示.從圖1中可知,當(dāng)RSN=10,L=5時,虛警率Pf的變化對檢測率Pd的影響最小,且Pd值在0.9~1.0之間變動.因此,設(shè)Pd=0.95.仿真中,算法對10 000個隨機信道進行運算,然后取回報的平均值(單位每時隙). CSPA算法與RAA算法的對比,如圖2所示.圖2中:觀測時隙TO=30,接入時隙TA=30,信道數(shù)目n= 2.從圖2的平均回報值(δ)曲線可以看到,CSPA算法在剛開始的時隙獲得約0.55的平均回報值,在第14個接入時隙上升至0.73,而后增長平穩(wěn),逐漸趨近于0.74; RAA算法每個時隙的平均回報值穩(wěn)定在0.5左右,在理想情況下,其平均回報值穩(wěn)定在0.755左右. 從圖2的平均回報值百分比(φ)曲線可以看到,CSPA算法能獲得的平均回報值比RAA算法平均多出約43%.表明次用戶采用CSPA算法,在每個時隙都能夠取得最佳的接入策略,因此獲得的信道帶寬平均回報優(yōu)于采用傳統(tǒng)認(rèn)知無線電隨機頻譜接入方式.但是,由于頻譜偵測中存在漏檢和虛警現(xiàn)象,使得算法與無漏檢和虛警現(xiàn)象存在的理想值有一定的偏差. 采用不同的觀測時隙值來比較CSPA算法和RAA算法所獲得的平均回報值,結(jié)果如圖3所示.從圖3中可以看到,觀測時隙分別為30,100時,CSPA算法所獲得的平均回報值略有差異.如果在觀測階段觀測越充分(觀測時隙越長),CSPA算法所獲得的初始信念狀態(tài)和狀態(tài)轉(zhuǎn)移概率越準(zhǔn)確,其獲得的回報越精確.然而,觀測時隙具體的取值應(yīng)根據(jù)實際情況而定,這也是下一步研究工作的重點.從圖中3可以看到,RAA算法由于沒有觀測時隙,故其在不同觀測時隙條件下,其所獲得的平均回報值變化不大,基本穩(wěn)定在0.5左右. 圖3 不同觀測時隙值對算法的影響 Fig.3 Effect of different valuesof observation time slo ts on the algo rithm 圖1 虛警率和檢測率的關(guān)系Fig.1 Relationship of p robability of false alarm and detection 圖2 CSPA算法與RAA算法的對比Fig.2 Comparison of CSPA and RAA 信道數(shù)目對算法的影響,如圖4所示.從圖4中可以看出,當(dāng)可被偵測到的信道數(shù)目由2增加到12時,CSPA算法獲得的平均回報值有顯著的提升.n=2時的平均回報值趨近于0.74,而當(dāng)n=12時,平均回報值趨近于0.98.這是因為可用的信道數(shù)目越多,CSPA算法在每個時隙可能獲得的最大回報機會越大,從而獲得的平均回報越多.由于RAA算法信道選擇的隨機性,信道數(shù)目的增多對其影響不大,基本維持在0.5左右.如果不考慮漏檢和虛警現(xiàn)象對系統(tǒng)的影響,當(dāng)信道數(shù)目足夠大時,其獲得的平均回報值能達到1.由此說明,CSPA算法更適用于多信道環(huán)境. 圖4 信道數(shù)目對算法的影響Fig.4 Effect of different numbers of channel on the algorithm 文中基于POMDP模型,提出了一種在多無線電多信道環(huán)境下帶有認(rèn)知無線電頻譜偵測功能的信道狀態(tài)預(yù)測算法(CSPA),以實現(xiàn)用戶在多信道切換時能得到最佳信道帶寬回報.仿真結(jié)果表明,CSPA算法獲得相對于傳統(tǒng)認(rèn)知無線電頻譜接入方式更高的信道帶寬,并接近無漏檢和虛警現(xiàn)象的理想情況,從而有效地提高了信道利用率. [1] AKYILD IZ I,LEEW Y,VURAN M C,et al.A survey on spectrum management in cognitive radio netwo rks[J]. IEEE Communications Magazine,2008,46(4):40-48. [2] ZHAO Q,TONGL,SWAM IA,et al.Decentralized cognitive MAC fo r opportunistic spectrum access in ad hoc networks:A POMDP framework[J].IEEE Journal on Selected A reas in Communications,2007,25(3):589-600. [3] CHEN Y X,ZHAO Q,SWAM IA.Joint design and separation p rincip le for oppo rtunistic spectrum access in the p resence of sensing errors[J].IEEE Trans on Information Theo ry,2008,54(5):2053-2071. [4] PIAO G,DAV ID K.M ulti-standard radio resource management fo r integrated voice and data services[C]∥IEEE 65th Vehicular Technology Conference.Dublin:IEEE,2007:990-995. [5] KAELBL ING L P,L ITTMAN M L,CASSANDRA A R.Planning and acting in partially observable stochastic domains[J].A Rtificial Intelligence,1998,101(1):99-134. [6] SMALLWOOD R D,SOND IK E J.The op timal control of partially observable Markov p rocesses over a finite ho rizon[J].Operations Research,1973,21(5):1071-1088. A Novel Channel State Prediction Algorithm of Cogn itive Radio HUANG Chuan1,2,ZHENGBao-yu1 Based on the theory of partially observable Markov decision p rocess(POMDP)model,a novel cognitive radio channel sensing algo rithm integrated w ith spectrum sensing technique for cognitive radio under multi-radio multi-channel enviroment.By the analysisof the channel state historical information,the initial distribution of the belief state and transition p robability is derived and the channelw ith op timal reward is selected fo r unlicensed user to imp rove the spectrum utilization.The simulation results demonstrate that the p roposed algorithm has better performance than classical algorithm s. cognitive radio;multi-radio;multi-channel;Markov model;spectrum sensing TN 014;TN 914.4 A (責(zé)任編輯:黃仲一 英文審校:吳逢鐵) 1000-5013(2010)05-0521-05 2009-11-29 鄭寶玉(1945-),男,教授,博士生導(dǎo)師,主要從事無線通信與網(wǎng)絡(luò)信號處理的研究.E-mail:zby@njup t. edu.cn. 國家自然科學(xué)基金資助項目(60972039)2 典型的POMDP模型
3 信道預(yù)測算法及收斂性證明
4 仿真結(jié)果及分析
5 結(jié)束語
(1.Institute of Signal Processing and Transmission,Nanjing University of Posts and Telecommunications,Nanjing 210003,China; 2.School of Mathematics and Computer Science,Fujian Normal University,Fuzhou 350007,China)