盛 響,王少尉
(南京大學(xué) 電子科學(xué)與工程學(xué)院, 江蘇 南京 210023)
在認(rèn)知無線網(wǎng)絡(luò)[1-2]中,用戶被分成主用戶和次用戶。主用戶持有使用授權(quán)頻段的牌照,可以隨時(shí)接入該頻段,而次用戶只能通過頻譜感知[3-5]在不影響主用戶的情況下機(jī)會性地接入該頻段。然而,頻譜感知技術(shù)并不是絕對安全的[6-7]。主用戶仿冒攻擊是一種針對頻譜感知技術(shù)的欺騙性干擾,它通過傳輸偽造的主用戶信號來修改頻譜環(huán)境以阻礙次用戶的頻譜感知[8]。只有深入研究主用戶仿冒攻擊策略即在每個(gè)時(shí)隙如何選定攻擊信道,才能進(jìn)一步確保認(rèn)知無線網(wǎng)絡(luò)的安全性。主用戶仿冒攻擊者(Primary User Emulation Attacker, PUEA)的目的在于阻止次用戶接入頻譜,這要求能在次用戶感知的頻譜空隙上傳輸偽造的主用戶信號。然而實(shí)際上,主用戶仿冒攻擊者并沒有任何關(guān)于頻譜環(huán)境和次用戶行為的先驗(yàn)知識,很可能會攻擊那些被主用戶占據(jù)或未被次用戶感知的頻段,這嚴(yán)重影響了攻擊的有效性。因此,智能的攻擊者需要使其攻擊策略適應(yīng)于非平穩(wěn)的頻譜環(huán)境和次用戶頻譜感知策略,其主要難點(diǎn)有以下兩個(gè)方面:一是攻擊者無法判斷攻擊是否有效,這是因?yàn)楸还舻男诺烙肋h(yuǎn)不會被次用戶接入;二是攻擊者對非平穩(wěn)的認(rèn)知無線網(wǎng)絡(luò)沒有任何先驗(yàn)知識,只能通過觀察信道狀態(tài)來學(xué)習(xí)。對攻擊策略的充分理解可以幫助認(rèn)知無線網(wǎng)絡(luò)量化主用戶仿冒攻擊對次用戶吞吐量的影響,這有助于相應(yīng)的檢測和防御策略的評估。此外,智能的主用戶仿冒攻擊者為其他現(xiàn)有干擾者的策略設(shè)計(jì)提供了一種新思路,并可以指導(dǎo)認(rèn)知無線網(wǎng)絡(luò)中安全機(jī)制的設(shè)計(jì)。這是本文的動機(jī)和意義所在。
文獻(xiàn)[9]提出了基于部分可觀測馬爾可夫決策過程的攻擊策略。這種攻擊策略的部署依賴于攻擊者獲得攻擊結(jié)果的能力。也就是說,攻擊者需要知道是否有次用戶曾感知被攻擊的信道。文獻(xiàn)[10]提出了三種攻擊策略(均勻隨機(jī)攻擊、最大攔截攻擊和選擇性攻擊)來檢驗(yàn)次用戶防御策略的有效性,其假設(shè)次用戶算法的參數(shù)對攻擊者是已知的。次用戶算法的參數(shù)是其對信道的度量,該值越高的信道被感知的概率越大。文獻(xiàn)[11]提出了基于在線學(xué)習(xí)算法EXP3.G的攻擊策略,該策略不依賴于任何關(guān)于認(rèn)知無線網(wǎng)絡(luò)的先驗(yàn)知識,其考慮的系統(tǒng)模型是平穩(wěn)的認(rèn)知無線網(wǎng)絡(luò),也就是該網(wǎng)絡(luò)中頻譜環(huán)境和次用戶頻譜感知策略的統(tǒng)計(jì)特性是固定的。
本文研究了在非平穩(wěn)的認(rèn)知無線網(wǎng)絡(luò)中的主用戶仿冒攻擊策略問題,將攻擊策略問題歸約為在線學(xué)習(xí)問題,并提出了基于湯普森采樣的在線攻擊策略。提出的在線攻擊策略根據(jù)攻擊者觀察到的頻譜環(huán)境信息和次用戶行為不斷更新以最大化攻擊效果,可以有效地適應(yīng)非平穩(wěn)的認(rèn)知無線網(wǎng)絡(luò)。仿真結(jié)果表明,相較于現(xiàn)有的攻擊策略,提出的在線攻擊策略在穩(wěn)態(tài)信道和非穩(wěn)態(tài)信道場景下的兩項(xiàng)性能指標(biāo)(主用戶仿冒累積攻擊和次用戶累積接入)都表現(xiàn)優(yōu)越。
考慮一個(gè)典型的認(rèn)知無線網(wǎng)絡(luò),該網(wǎng)絡(luò)包括K個(gè)授權(quán)信道、N個(gè)次用戶和1個(gè)主用戶仿冒攻擊者。該網(wǎng)絡(luò)以時(shí)隙方式運(yùn)行,即在一個(gè)時(shí)隙內(nèi)授權(quán)信道的狀態(tài)保持不變。
認(rèn)知無線網(wǎng)絡(luò)中主用戶的行為(數(shù)據(jù)傳輸或空閑)決定了授權(quán)信道的主用戶使用狀態(tài)。本文只考慮信道的主用戶使用狀態(tài),而不指定主用戶的行為模式。記K個(gè)信道為K={1,2,…,K},主用戶使用狀態(tài)共計(jì)有2K個(gè)可能。在時(shí)隙t的主用戶使用狀態(tài)表示為Dt=[dt(1),…,dt(K)],其中dt(i)∈{0,1}(當(dāng)信道i被主用戶占據(jù)時(shí)等于0,當(dāng)信道i處于空閑狀態(tài)時(shí)等于1)。值得注意的是,信道主用戶使用狀態(tài)的統(tǒng)計(jì)特性不是固定的,而是時(shí)變的甚至是任意的。
記認(rèn)知無線網(wǎng)絡(luò)中N個(gè)次用戶的集合為N={1,2,…,N}。在每個(gè)時(shí)隙,每個(gè)次用戶依次進(jìn)行頻譜感知和數(shù)據(jù)傳輸。在時(shí)隙t的頻譜感知階段,次用戶j受限于其有限的采樣率只能感知一個(gè)信道qt,j。在數(shù)據(jù)傳輸階段,如果該信道處于空閑狀態(tài),次用戶j接入該信道并傳輸數(shù)據(jù),否則次用戶j保持靜默??紤]多個(gè)次用戶的情形,可以利用現(xiàn)有的控制信道來避免因兩個(gè)次用戶感知同一個(gè)信道而產(chǎn)生的碰撞,這樣的話就可以將N個(gè)次用戶看作1個(gè)可以同時(shí)感知和接入N個(gè)信道的次用戶。記該次用戶群感知的信道為Qt={qt,1,…,qt,N}。
圖1 主用戶仿冒攻擊者的幀結(jié)構(gòu)Fig.1 Time slot structure of PUEA
攻擊者的目標(biāo)是最大化AT。為此,在每個(gè)時(shí)隙,攻擊者不僅需要攻擊最可能被次用戶接入的信道It,還需要觀察能給之后決策帶來最大幫助的信道Jt。這是一個(gè)典型的多臂賭博機(jī)問題[12],一種特殊的在線學(xué)習(xí)問題[13],它可以被描述為:在一系列實(shí)驗(yàn)中,賭徒通過在每個(gè)回合選擇K個(gè)搖臂中的一個(gè)來最大化總獎賞,每個(gè)搖臂都服從賭徒不知道的獎賞分布,該分布的特性只能通過過去的獎賞得到部分反映。具體來說,在時(shí)隙t,定義信道k∈K的獎賞rt(k)為攻擊者攻擊該信道的成功次數(shù)dt(It)·1[It∈Qt]。該問題的攻擊策略可以表示為φ={φ(t)}t≥1,其中φ(t):K→(It,Jt)只依賴于過去t-1個(gè)時(shí)隙觀察到的信道狀態(tài)信息{Om(n)}t>m≥1,n∈Jt。攻擊者的最優(yōu)攻擊策略φ*可表示為:
(1)
上述優(yōu)化問題是很難解決的,一方面信道獎賞分布的統(tǒng)計(jì)特性只能通過觀察結(jié)果部分反映,另一方面信道獎賞分布的統(tǒng)計(jì)特性不是固定的。
湯普森采樣[14-15]是一種旨在解決多臂賭博機(jī)問題的啟發(fā)式算法。該算法的核心思想是在每個(gè)回合根據(jù)每個(gè)搖臂是最優(yōu)搖臂的后驗(yàn)概率隨機(jī)選擇信道,其中后驗(yàn)概率按照貝葉斯規(guī)則根據(jù)觀察結(jié)果進(jìn)行更新。提出的在線攻擊策略分為兩個(gè)階段——攻擊和觀察。
(2)
式中,θ1,k的值在0到1之間且服從貝塔分布。θ1,k的分布B(S1,k,F1,k)可以表示為:
(3)
=(1-θ1,k)·θ2,k
(4)
攻擊者根據(jù)每個(gè)信道是最優(yōu)的概率隨機(jī)選擇一個(gè)信道攻擊。值得注意的是,不需要將上述概率精確計(jì)算出:在每一輪對θ1,k和θ2,k進(jìn)行一次抽樣,然后選擇有著最大獎賞期望的信道就足夠了。記θ1,k和θ2,k的抽樣值為θ1,k(t)和θ2,k(t),有著最大獎賞期望的信道也就是
=argmaxk[(1-θ1,k(t))·θ2,k]
(5)
P(θ1,k,θ2,k|Ot(k))∝P(Ot(k)|θ1,k,θ2,k)P(θ1,k,θ2,k)
(6)
其中,
(7)
將θ1,k和θ2,k的分布代入上述貝葉斯規(guī)則,可得到在觀察到Ot(k)后的參數(shù)更新規(guī)則為:
(8)
考慮實(shí)際網(wǎng)絡(luò)中主用戶占用行為和次用戶感知行為的非平穩(wěn)性,引入遺忘因子來減少過去觀察的影響以適應(yīng)時(shí)變的環(huán)境。在上述貝葉斯更新后,再根據(jù)遺忘因子γ更新所有信道的參數(shù),即
(S1,k,F1,k,S2,k,F2,k)←γ(S1,k,F1,k,S2,k,F2,k)+
(9)
算法1 在線攻擊策略
本節(jié)給出了提出的在線攻擊策略在穩(wěn)態(tài)信道和非穩(wěn)態(tài)信道場景下的仿真結(jié)果。與文獻(xiàn)[11,16]中的設(shè)置相同,假定每個(gè)信道的主用戶使用狀態(tài)服從獨(dú)立的兩狀態(tài)馬爾可夫鏈,信道k的轉(zhuǎn)移概率矩陣可表示為:
(10)
圖2比較了在穩(wěn)態(tài)信道場景下攻擊策略的性能,具體仿真參數(shù)為:K=10,N=1,λ=1,T=2000,γ=0.99??梢钥闯觯涸诰€攻擊策略的主用戶仿冒累積攻擊為376,比PROLA和RA分別高了35%和119%;相應(yīng)的次用戶累積接入為1105,比PROLA、RA和無攻擊者分別少了8%、28%和36%。性能提升的原因有兩方面:①考慮并有效處理了次用戶行為的非平穩(wěn)性帶來的挑戰(zhàn);② 提出的算法能夠更有效而快速地利用觀察信息改進(jìn)攻擊策略。值得注意的是,主用戶仿冒累積攻擊的增加量和次用戶累積接入的減少量是密切相關(guān)但又不完全相同的。以在線攻擊策略為例,相較于無攻擊的情況,主用戶仿冒累積攻擊增加了376,而次用戶累積接入減少了609,這是因?yàn)槊恳淮纬晒Φ闹饔脩舴旅肮魧Υ斡脩舻挠绊懓ㄖ苯拥淖柚勾斡脩艚尤牒烷g接的破壞次用戶對主用戶行為規(guī)律的學(xué)習(xí)。
圖2 穩(wěn)態(tài)信道場景下攻擊策略性能Fig.2 Performance of tested strategies in stationarychannel scenario
圖3比較了在非穩(wěn)態(tài)信道場景下攻擊策略的性能,具體仿真參數(shù)為:K=10,N=1,λ=1,T=2000,γ=0.99,ΔT=100,PΔ∈[0,1]。隨著PΔ的增加,主用戶使用狀態(tài)的非平穩(wěn)性不斷增加,極大影響了次用戶和攻擊者的性能。隨著PΔ從0到1,三種攻擊策略的主用戶仿冒累積攻擊都有著不同程度的下降。其中PROLA的主用戶仿冒累積攻擊下降了40%,而在線攻擊策略的主用戶仿冒累積攻擊只下降了8%,與此同時(shí)兩者之間的差距也從35%增加到了98%。這是因?yàn)橐氲倪z忘因子γ可以很好地處理認(rèn)知無線網(wǎng)絡(luò)中的非平穩(wěn)性。值得注意的是,次用戶累積接入并沒有隨著PΔ的增加而產(chǎn)生一致的變化,這是因?yàn)榇斡脩粼跓o攻擊情況下的累積接入隨著PΔ的增加而減少。在線攻擊策略的次用戶累積接入隨著PΔ的增加甚至有小幅增加的原因在于:主用戶仿冒攻擊的間接影響本質(zhì)上是為次用戶學(xué)習(xí)的環(huán)境添加非平穩(wěn)性,其影響隨著環(huán)境本身非平穩(wěn)性的增加而減弱。
圖3 非穩(wěn)態(tài)信道場景下攻擊策略性能Fig.3 Performance of tested strategies in non-stationary channel scenario
圖4比較了不同λ下的在線攻擊策略性能,具體仿真參數(shù)為:K=40,N=4,λ∈[1,37],T=2000,γ=0.99,ΔT=100,PΔ=0.5。隨著λ從1到37,在線攻擊策略的主用戶仿冒累計(jì)攻擊在穩(wěn)態(tài)和非穩(wěn)態(tài)信道場景下分別提升了30%和90%。這是因?yàn)楣粽咴诿總€(gè)時(shí)隙觀察到的信道狀態(tài)信息隨著λ的增加而增加,也就是說攻擊者的學(xué)習(xí)能力隨著λ的增加而增加。相較于穩(wěn)態(tài)信道場景,λ的增加對非穩(wěn)態(tài)信道場景的影響更大。這是因?yàn)榉欠€(wěn)態(tài)信道場景更為復(fù)雜,攻擊者學(xué)習(xí)起來也更困難。值得注意的是,λ的增加會提高對攻擊者計(jì)算能力的要求,因此需要在性能和代價(jià)間權(quán)衡。在剛開始的階段,通過少量增加λ(如從1到4),主用戶仿冒累積攻擊顯著提高;當(dāng)λ足夠大時(shí)(如從10到13),主用戶仿冒累積攻擊的增加量就幾乎可忽略不計(jì)了。本次仿真中,當(dāng)λ為10時(shí),攻擊者的表現(xiàn)已經(jīng)接近最優(yōu)。
圖4 不同λ下的在線攻擊策略性能Fig.4 Performance of online attacking strategy under different λ
以認(rèn)知無線網(wǎng)絡(luò)中的主用戶仿冒攻擊策略問題為例,通過在線學(xué)習(xí)將攻擊者的觀察和策略更新相結(jié)合以實(shí)現(xiàn)更有效地攻擊,這為無線網(wǎng)絡(luò)中干擾機(jī)如何通過與環(huán)境交互實(shí)現(xiàn)干擾決策優(yōu)化提供了一種思路。具體來說,將主用戶仿冒攻擊策略問題建模為在線學(xué)習(xí)問題,并提出了基于湯普森采樣的在線攻擊策略。該攻擊策略可以有效利用觀察信息實(shí)現(xiàn)在利用高獎賞信道和探索獎賞未知信道之間的權(quán)衡。仿真結(jié)果表明,與現(xiàn)有攻擊策略相比,在線攻擊策略在穩(wěn)態(tài)信道和非穩(wěn)態(tài)信道場景下都表現(xiàn)優(yōu)越,能夠有效適應(yīng)非平穩(wěn)的認(rèn)知無線網(wǎng)絡(luò),并在少量的觀察信道下就達(dá)到接近最優(yōu)的性能。