亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的物理層欺騙檢測方法

        2022-07-18 08:57:54黃琪穎
        無線電通信技術(shù) 2022年4期
        關(guān)鍵詞:效益用戶檢測

        黃琪穎,高 寧,李 瀟,金 石

        (東南大學(xué) 移動(dòng)通信國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210096)

        0 引言

        無線網(wǎng)絡(luò)的開放特性使其極易受到欺騙攻擊的威脅,當(dāng)欺騙攻擊用戶通過偽造合法用戶身份,如偽造媒體訪問控制(Media Access Control,MAC)地址,獲取管理幀或控制幀消息時(shí),會進(jìn)一步發(fā)動(dòng)其他惡意攻擊,如會話劫持、中間人攻擊[1-2]等,因此無線網(wǎng)絡(luò)安全問題亟需解決。傳統(tǒng)的高層認(rèn)證技術(shù)如數(shù)字簽名[3],其安全性主要依賴于構(gòu)造認(rèn)證加密算法的數(shù)學(xué)計(jì)算復(fù)雜性,但隨著計(jì)算機(jī)計(jì)算能力的日益提高,尤其是量子計(jì)算機(jī)的發(fā)展,該技術(shù)面臨被攻破的風(fēng)險(xiǎn)。同時(shí),傳統(tǒng)認(rèn)證技術(shù)需要依賴于復(fù)雜的加密和解密算法,不適用于部分能量受限的傳感網(wǎng)絡(luò),具有較大的局限性。IMT-2030(6G)網(wǎng)絡(luò)技術(shù)組在2021年9月16日發(fā)布的《6G網(wǎng)絡(luò)架構(gòu)愿景與關(guān)鍵技術(shù)展望》白皮書中提出建立“主動(dòng)免疫、彈性自治”的物理層安全內(nèi)生防護(hù)體系[4],從通信底層加強(qiáng)網(wǎng)絡(luò)的安全性,將物理層安全和欺騙檢測深度結(jié)合,具有低復(fù)雜度、低延時(shí)和低開銷的特性,因此受到廣泛關(guān)注。相比于傳統(tǒng)的高層認(rèn)證技術(shù),物理層欺騙檢測機(jī)制利用無線信道或收發(fā)硬件固有的特征信息,提取對應(yīng)的指紋特征,實(shí)時(shí)快速地認(rèn)證發(fā)送用戶身份,其中常用的特征包括:物理層信道信息如接收信號強(qiáng)度指示 (Received Signal Strength Indicator,RSSI)、信道脈沖響應(yīng)(Channel Impulse Response,CIR)[5-6]、信道狀態(tài)信息(Channel Statement Information,CSI)[7]、信道頻率響應(yīng)(Channel Frequency Response,CFR)[8],以及射頻信息如載波頻率偏移(Carrier Frequency Offset,CFO)[9-10]、輸入/輸出不平衡(I/Q imbalance,I/Q不平衡)[11]。研究表明:物理層欺騙檢測方法基于無線信道的時(shí)變性和收發(fā)硬件的隨機(jī)性[12],理論上可以實(shí)現(xiàn)通信的絕對安全。

        現(xiàn)有的物理層欺騙檢測方法中,主要包括基于傳統(tǒng)的固定檢測閾值和基于人工智能(Artificial Intelligence,AI)的動(dòng)態(tài)檢測閾值兩種技術(shù),文獻(xiàn)[13-14]指出物理層欺騙的檢測閾值對于認(rèn)證的性能起到?jīng)Q定性的作用。固定檢測閾值方法在理論上可以達(dá)到最優(yōu)的檢測性能,但是需要已知無線信道環(huán)境的先驗(yàn)知識。然而,隨著無線通信朝著全覆蓋、巨連接等方向發(fā)展,無線環(huán)境變得動(dòng)態(tài)復(fù)雜且未知,信道模型或參數(shù)很難獲取,準(zhǔn)確地選擇固定檢測閾值存在困難。而基于AI算法的物理層欺騙檢測方法可以在通信環(huán)境未知情況下學(xué)習(xí)最優(yōu)檢測閾值,提高檢測性能,因此更適用于未來無線通信的發(fā)展需求。文獻(xiàn)[15]提出一種基于無監(jiān)督機(jī)器學(xué)習(xí)(Unsupervised Machine Learning,UML)的方案,對各個(gè)節(jié)點(diǎn)的特征信息進(jìn)行自適應(yīng)分類來防御欺騙攻擊。文獻(xiàn)[16]利用極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)提出一種基于CFR的方案,通過訓(xùn)練模型進(jìn)而在信息傳輸階段做出認(rèn)證決定。文獻(xiàn)[17]提出基于Q學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)為代表的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)算法,結(jié)合收發(fā)雙方的RSSI特征信息,以最大化貝葉斯風(fēng)險(xiǎn)效益值為目標(biāo)進(jìn)行檢測閾值學(xué)習(xí),實(shí)現(xiàn)95%以上的檢測概率。為保障通信安全、鑒權(quán)接入用戶身份,需要對動(dòng)態(tài)未知環(huán)境下的物理層欺騙攻擊檢測方法進(jìn)行深入研究。然而基于DRL相關(guān)的欺騙攻擊檢測研究大多為離散檢測閾值分析,其會對欺騙檢測帶來一定的性能損失,少有文獻(xiàn)研究基于DRL的檢測閾值連續(xù)控制問題,相關(guān)檢測性能有待分析。

        因此,針對動(dòng)態(tài)未知的無線通信環(huán)境,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的環(huán)境自適應(yīng)物理層欺騙攻擊檢測方法,實(shí)現(xiàn)檢測閾值的動(dòng)態(tài)連續(xù)選擇。首先,接收方接收未知發(fā)送者的數(shù)據(jù)包并獲取CFR表征物理層指紋特征;其次,依據(jù)物理層指紋特征、檢測閾值選擇、貝葉斯風(fēng)險(xiǎn)分別構(gòu)建狀態(tài)集、行為集和瞬時(shí)效益函數(shù),基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)框架提出檢測閾值動(dòng)態(tài)選擇算法;最后,所提算法通過選擇不同的檢測閾值進(jìn)行反復(fù)的試錯(cuò)實(shí)驗(yàn)優(yōu)化檢測閾值選擇策略,最大化貝葉斯風(fēng)險(xiǎn)的效益函數(shù)的期望累積效益。

        1 模型構(gòu)建

        1.1 系統(tǒng)模型

        欺騙攻擊場景示意圖如圖1所示,Alice和Bob是合法用戶,Alice是發(fā)送方,Bob是接收方,Eve是欺騙用戶。設(shè)Alice的天線數(shù)NA,Bob的天線數(shù)NB,Eve的天線數(shù)NE,散射體數(shù)Ns,通信中心頻率f0,信道帶寬W,子載波數(shù)Nf。設(shè)Eve與Alice和Bob之間的距離均大于半個(gè)波長(λ/2),即非法信道與合法信道不相關(guān)。

        圖1 欺騙攻擊場景示意圖

        當(dāng)Alice 向Bob發(fā)送數(shù)據(jù)包進(jìn)行信道探測時(shí),Bob的接收信號可表示為:

        YAB=HABXA+NAB,

        (1)

        式中,XA表示Alice發(fā)送的信道探測信號,HAΒ表示Alice和Bob之間信號的信道頻率響應(yīng),NAB表示Alice和Bob之間信號的信道噪聲,YAB表示Bob接收到的來自Alice的信號。

        當(dāng)Eve偽造合法用戶Alice身份向Bob發(fā)送數(shù)據(jù)包時(shí),Bob的接收信號可表示為:

        YEB=HEBXE+NEB,

        (2)

        式中,XE表示Eve發(fā)送的信道探測信號,HEB表示Eve和Bob之間信號的信道頻率響應(yīng),NEB表示Eve和Bob之間信號的信道噪聲,YEB表示Bob接收到的來自Eve的信號。

        假設(shè)Alice探測信道的頻率足夠快,且在Eve出現(xiàn)之前Bob已獲取合法的CFR信息并存儲為歷史CFR信息樣本。在此情況下,設(shè)CFR的采樣頻率為f∈(f0-W/2,f0+W/2),則第m個(gè)采樣點(diǎn)的信道頻率響應(yīng)可表示為:

        Hm=H(f0-W/2+mΔf)m=(1,2,…,M),

        (3)

        式中,Δf=W/M,M為采樣數(shù)。

        1.2 假設(shè)檢驗(yàn)

        圖2 信道估計(jì)示意圖

        (4)

        (5)

        式中,D0表示發(fā)送用戶為合法發(fā)送方的狀態(tài),D1表示發(fā)送用戶為非法攻擊者的狀態(tài)。

        因此,當(dāng)前CFR信息和歷史CFR信息的歐式距離可表示為:

        (6)

        依據(jù)檢驗(yàn)統(tǒng)計(jì)量L與檢測閾值k進(jìn)行比較,如果L

        (7)

        檢測閾值k的大小直接影響B(tài)ob對于物理層欺騙攻擊檢測的性能。如果檢測閾值k過小,則容易將合法用戶誤認(rèn)為是欺騙用戶;如果k過大,則容易將欺騙用戶漏檢。上述情況可以使用虛警概率和漏檢概率進(jìn)行評估,其中,虛警概率為合法發(fā)送方的數(shù)據(jù)包被誤認(rèn)為是非法攻擊方的數(shù)據(jù)包的概率,漏檢概率為非法攻擊方的數(shù)據(jù)包被誤認(rèn)為是合法發(fā)送方的數(shù)據(jù)包的概率,二者可分別表示為:

        pf=P(D1|D0),

        (8)

        pm=P(D0|D1),

        (9)

        式中,pf表示虛警概率,pm表示漏檢概率。

        1.3 攻擊模型

        無線信道的廣播特性使其容易遭受物理層欺騙攻擊,此欺騙攻擊示意圖如圖3所示。當(dāng)Alice與Bob信道處于空閑時(shí),欺騙用戶Eve通過偽造Alice的MAC地址冒充合法用戶與Bob通信,向Bob發(fā)送欺騙信號以獲得通信權(quán)限,并進(jìn)一步發(fā)動(dòng)其他惡意攻擊。

        圖3 欺騙攻擊示意圖

        設(shè)Eve冒充Alice向Bob發(fā)送欺騙信號的攻擊概率為y∈[0,YMAX),其中最大攻擊概率YMAX<1,此概率取決于Bob接收到的欺騙數(shù)據(jù)包的數(shù)量。如果攻擊概率為0,則表示Eve未向Bob發(fā)送欺騙信號。

        2 基于深度強(qiáng)化學(xué)習(xí)的檢測閾值選擇算法

        考慮動(dòng)態(tài)未知的無線環(huán)境,由于信道模型或參數(shù)很難獲取,接收方很難選擇合適的檢測閾值進(jìn)行發(fā)送方身份鑒權(quán)。為了能夠環(huán)境自適應(yīng)地進(jìn)行物理層欺騙攻擊檢測,引入深度強(qiáng)化學(xué)習(xí)算法,在動(dòng)態(tài)未知環(huán)境中利用當(dāng)前感知信息進(jìn)行試錯(cuò)學(xué)習(xí),依據(jù)反饋的效益進(jìn)行動(dòng)態(tài)連續(xù)的檢測閾值調(diào)整,獲得最佳檢測閾值選擇策略。基于此,本節(jié)根據(jù)DDPG算法框架,提出了檢測閾值動(dòng)態(tài)選擇算法。

        基于DDPG的算法框架設(shè)計(jì)狀態(tài)空間S、行為空間A以及環(huán)境反饋效益r。設(shè)狀態(tài)空間為S={s1,s2,…,st},行為空間為A={k1,k2,…,kt},其中st=[Ht]∈S表示Bob在時(shí)隙t的信道頻率響應(yīng)采樣值;kt∈A表示Bob在時(shí)隙t選擇的檢測閾值。環(huán)境反饋效益r采用貝葉斯風(fēng)險(xiǎn)值[18]進(jìn)行評估。設(shè)Bob接收合法發(fā)送用戶數(shù)據(jù)包的收益為G1,拒絕非法發(fā)送用戶數(shù)據(jù)包的收益是G0,接收非法發(fā)送用戶數(shù)據(jù)包的代價(jià)是C0,拒絕合法發(fā)送用戶數(shù)據(jù)包的代價(jià)是C1,結(jié)合攻擊模型,欺騙檢測的貝葉斯風(fēng)險(xiǎn)值可表示為:

        r=(G1·(1-pf)-C1·pf)·(1-y)+

        (G0·(1-pm)-C0·pm)·y,

        (10)

        式中,等號右邊第一項(xiàng)表示來自合法發(fā)送用戶數(shù)據(jù)包的回報(bào),等號右邊第二項(xiàng)表示來自非法發(fā)送用戶數(shù)據(jù)包的回報(bào)?;诖耍邮辗降男б婧瘮?shù)可表示為:

        r=(G0-G1)·y-(G0+C0)·pm·y-

        (G1+C1)·pf·(1-y)+G1,

        (11)

        進(jìn)而,期望累積效益為現(xiàn)實(shí)critic網(wǎng)絡(luò)得到的Q值,算法的優(yōu)化目標(biāo)即為最大化接收用戶Bob的期望累積效益,學(xué)習(xí)最優(yōu)檢測閾值選擇策略。

        基于DDPG的物理層欺騙攻擊檢測閾值動(dòng)態(tài)選擇算法框架如圖4所示,其訓(xùn)練過程可描述如下:Bob通過和環(huán)境交互,存儲當(dāng)前狀態(tài)、檢測閾值、環(huán)境反饋效益和下一時(shí)刻的狀態(tài),組成四元組{st,at,rt,st+1}并作為訓(xùn)練樣本數(shù)據(jù)放入經(jīng)驗(yàn)池。在訓(xùn)練中,現(xiàn)實(shí)critic網(wǎng)絡(luò)批量取出NG組樣本{sj,aj,rj,sj+1}(j=1,…,NG)作為訓(xùn)練數(shù)據(jù)集,目標(biāo)Q值zj的表達(dá)式為:

        圖4 基于DDPG的物理層欺騙攻擊檢測閾值動(dòng)態(tài)選擇算法框架

        (12)

        其中,λ是折扣因子,rj為當(dāng)前數(shù)據(jù)樣本的瞬時(shí)效益值,sj+1為下一個(gè)數(shù)據(jù)樣本的狀態(tài),θμ′為目標(biāo)actor網(wǎng)絡(luò)參數(shù),θq′為目標(biāo)critic網(wǎng)絡(luò)參數(shù)?,F(xiàn)實(shí)critic網(wǎng)絡(luò)通過最小化損失函數(shù)更新參數(shù):

        (13)

        (14)

        其中,L(θq)為損失函數(shù),θq為現(xiàn)實(shí)critic網(wǎng)絡(luò)參數(shù),αq為現(xiàn)實(shí)critic網(wǎng)絡(luò)學(xué)習(xí)率。現(xiàn)實(shí)actor網(wǎng)絡(luò)通過梯度反向傳播進(jìn)行參數(shù)更新,可表示為:

        (15)

        (16)

        其中,J(θμ)為期望回報(bào),θμ為現(xiàn)實(shí)actor網(wǎng)絡(luò)參數(shù),αμ為現(xiàn)實(shí)actor網(wǎng)絡(luò)學(xué)習(xí)率。

        此外,不同于傳統(tǒng)DQN算法采取的硬更新模式,即每隔一段時(shí)間將當(dāng)前網(wǎng)絡(luò)的參數(shù)賦值給目標(biāo)網(wǎng)絡(luò),所提算法采取間隔一定時(shí)間對目標(biāo)actor網(wǎng)絡(luò)參數(shù)和目標(biāo)critic網(wǎng)絡(luò)參數(shù)進(jìn)行軟更新,即利用當(dāng)前網(wǎng)絡(luò)參數(shù)與目標(biāo)網(wǎng)絡(luò)參數(shù)的凸組合進(jìn)行更新,從而保證算法的自適應(yīng)性并提高學(xué)習(xí)的穩(wěn)定性。軟更新過程可表示為:

        θq′=τθq+(1-τ)θq′,

        (17)

        θμ′=τθμ+(1-τ)θμ′,

        (18)

        其中,τ為軟更新系數(shù),θq′和θμ′分別為目標(biāo)critic網(wǎng)絡(luò)參數(shù)及目標(biāo)actor網(wǎng)絡(luò)參數(shù)。所提算法1的具體流程表示如下。

        算法1 基于DDPG的物理層欺騙攻擊檢測閾值動(dòng)態(tài)選擇算法輸入:學(xué)習(xí)率αq和αμ;折扣系數(shù)λ;軟更新系數(shù)τ;經(jīng)驗(yàn)回放內(nèi)存U,最大容量C;batch大小NG;初始化網(wǎng)絡(luò)參數(shù)包括現(xiàn)實(shí)critic網(wǎng)絡(luò)Q(s,a;θq)、現(xiàn)實(shí)actor網(wǎng)絡(luò)μ(s;θμ)、目標(biāo)critic網(wǎng)絡(luò)Q'(s,a;θq')、目標(biāo)actor網(wǎng)絡(luò)μ'(s;θμ')。輸出:最優(yōu)檢測閾值選擇k*1:for t = 1,2,…do2: 獲取此時(shí)CFR信息并轉(zhuǎn)化為狀態(tài)st=[Ht]3: 與環(huán)境交互并結(jié)合行為噪聲I選擇檢測閾值kt=μ(st;θμ)+I4: 根據(jù)式(6)^(7)建立假設(shè)檢驗(yàn)對數(shù)據(jù)包進(jìn)行檢測5: 根據(jù)式(11)計(jì)算當(dāng)前狀態(tài)的瞬時(shí)效益值rt6: 存儲樣本數(shù)據(jù){st,at,rt,st+1}于經(jīng)驗(yàn)回放內(nèi)存U7: 從U中采樣大小為NB的一批樣本數(shù)據(jù){sj,aj,rj,sj+1}作為訓(xùn)練數(shù)據(jù)集8: 根據(jù)式(13)^(14)計(jì)算目標(biāo)Q值并通過式(14)更新現(xiàn)實(shí)critic網(wǎng)絡(luò)9: 根據(jù)式(15)^(16)使用梯度反向傳播方法更新現(xiàn)實(shí)actor網(wǎng)絡(luò)10: 根據(jù)式(17)^(18)對目標(biāo)網(wǎng)絡(luò)參數(shù)進(jìn)行軟更新11: 更新狀態(tài)st=st+112:end for

        3 仿真結(jié)果和分析

        本文仿真實(shí)驗(yàn)基于IEEE802.11無線網(wǎng)絡(luò)通信標(biāo)準(zhǔn),所提算法的具體仿真參數(shù)如表1所示。中心頻率f0= 5 GHz,信道帶寬W= 10 MHz,子載波數(shù)Nf= 512,散射簇?zé)o線信道的分布狀況未知。使用QuaDRiGa平臺仿真過程中,3個(gè)用戶設(shè)備的位置坐標(biāo)為:合法發(fā)送用戶Alice的位置為[0 0 2],非法用戶Eve的位置為[200 30 2],合法接收用戶Bob的位置為[250 7 3],以上三維坐標(biāo)的單位均為m,Alice的天線數(shù)NA=64,Bob的天線數(shù)NB=64,Eve的天線數(shù)NE=64,散射體數(shù)Ns=5。設(shè)非法發(fā)送用戶的攻擊概率y= 0.4,接收用戶每次接收的數(shù)據(jù)個(gè)數(shù)為Nr=30。在提出的DRL框架中,所有的神經(jīng)網(wǎng)絡(luò)都是三層深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),其中網(wǎng)絡(luò)的隱藏層包含256個(gè)神經(jīng)元?,F(xiàn)實(shí)actor網(wǎng)絡(luò)和現(xiàn)實(shí)critic網(wǎng)絡(luò)都使用Adam優(yōu)化器進(jìn)行參數(shù)更新。接收用戶的環(huán)境反饋效益函數(shù)中收益和代價(jià)參數(shù)的初始值分別設(shè)置為G1=6,G0=9,C0=6,C1=4。檢測算法的學(xué)習(xí)率為1×10-3,折扣因子為0.9,經(jīng)驗(yàn)回放內(nèi)存最大容量為2×104,batch的大小為32,行為噪聲設(shè)置為0.05。狀態(tài)集為歸一化后的當(dāng)前時(shí)隙接收到的數(shù)據(jù)包,維度為30;行為集為檢測閾值k的集合,取值范圍為[0,0.1]。在與環(huán)境的交互過程中,當(dāng)樣本數(shù)達(dá)到經(jīng)驗(yàn)回放內(nèi)存最大容量時(shí),開始進(jìn)行網(wǎng)絡(luò)學(xué)習(xí),并且行為噪聲隨著訓(xùn)練次數(shù)的增加逐漸降低。

        表1 仿真參數(shù)取值及意義

        為了驗(yàn)證不同發(fā)送用戶CFR指紋與合法用戶CFR指紋之間的相關(guān)性,以二者的歐式距離為檢測統(tǒng)計(jì)量對數(shù)據(jù)進(jìn)行了數(shù)值分析,圖5給出了合法用戶和非法用戶的檢測統(tǒng)計(jì)量的數(shù)值統(tǒng)計(jì)結(jié)果。

        由圖5可知,對于用戶接收到的多組CFR指紋,檢測統(tǒng)計(jì)量的數(shù)值呈現(xiàn)波動(dòng)狀態(tài),其中,合法用戶之間CFR指紋的歐式距離的最大值為0.103 6,合法用戶與非法用戶之間的CFR指紋歐氏距離的最小值為接近于0.000 2,由此可知,需要將檢測閾值設(shè)置為0.103 6和0.000 2之間,并且根據(jù)統(tǒng)計(jì)可以得出在檢測閾值設(shè)置為0.07時(shí),可以有效地檢測出絕大多數(shù)欺騙攻擊,虛警概率和漏檢概率均在0.1以下,檢測概率為95.3%。值得指出的是,在動(dòng)態(tài)未知無線環(huán)境下,實(shí)際欺騙檢測無法確定上述優(yōu)化的檢測閾值,因此在以下仿真中,將以優(yōu)化的固定檢測閾值0.07時(shí)的欺騙檢測性能作為基準(zhǔn)進(jìn)行分析和討論。

        圖5 物理層欺騙檢測的測試統(tǒng)計(jì)分析

        圖6(a)是所提算法在檢測欺騙攻擊時(shí),最優(yōu)檢測閾值隨實(shí)驗(yàn)迭代次數(shù)的變化情況,其中以固定檢測閾值0.07作為比較基準(zhǔn);圖6(b)是接收方獲得的相應(yīng)效益,其中以固定檢測閾值的最大效益作為基準(zhǔn),其數(shù)值約為7.06。

        (a) 欺騙檢測中的檢測閾值

        由圖6(a)可知,智能體通過獲取環(huán)境反饋的效益改變檢測閾值選擇策略,所提算法可以實(shí)現(xiàn)檢測閾值的動(dòng)態(tài)連續(xù)選擇。當(dāng)?shù)螖?shù)在168左右時(shí)檢測閾值逐漸收斂為0.082附近,數(shù)值高于固定檢測閾值;當(dāng)?shù)螖?shù)200次時(shí)改變了無線環(huán)境,此時(shí)檢測閾值開始波動(dòng),經(jīng)過若干次迭代,在迭代次數(shù)為302次左右時(shí),檢測閾值近似收斂到0.045附近,數(shù)值小于固定檢測閾值。其原因在于:通過不斷地探索無線環(huán)境,所提算法有機(jī)會學(xué)習(xí)到比固定檢測閾值更優(yōu)的檢測閾值,進(jìn)而提升檢測性能。由圖6(b)可知,在迭代次數(shù)200次前,接收方的效益大部分保持在6.0以上,最終效益可收斂到7.11左右,高于固定檢測閾值的效益。在迭代次數(shù)200次時(shí)改變無線環(huán)境,接收方的效益開始出現(xiàn)波動(dòng),隨后經(jīng)過對新無線環(huán)境的學(xué)習(xí),接收方效益進(jìn)一步收斂到7.16左右,此時(shí),所提算法的效益略高于固定檢測閾值方法。結(jié)果表明:所提算法可以在未知無線環(huán)境下實(shí)現(xiàn)檢測閾值的動(dòng)態(tài)連續(xù)選擇,當(dāng)無線環(huán)境發(fā)生改變時(shí)可以自適應(yīng)地調(diào)整最優(yōu)檢測閾值大小,具有環(huán)境自適應(yīng)性;并且所提算法獲得的效益大于優(yōu)化的固定檢測閾值方法的最大效益,具有較好的檢測性能。

        為了更加直觀地分析所提算法的檢測性能,以虛警概率0.1作為性能基準(zhǔn),分析了所提算法的虛警概率和漏檢概率,結(jié)果如圖7所示。由圖7(a)可知,所提算法在迭代次數(shù)為146次左右開始,虛警概率迅速下降并逐漸收斂,最終虛警概率收斂于0.005附近,低于固定檢測閾值的虛警概率0.05;當(dāng)在迭代次數(shù)200次無線環(huán)境發(fā)生改變,此時(shí)虛警概率逐漸開始波動(dòng),通過對新環(huán)境的學(xué)習(xí),迭代次數(shù)在314次左右算法開始收斂,最終收斂于0.001附近。由此可知,所提算法的虛警概率遠(yuǎn)小于0.1,可以達(dá)到欺騙攻擊檢測的性能要求。在圖7(b)的漏檢概率性能分析中,所提算法的漏檢概率經(jīng)過有限次迭代后迅速下降,當(dāng)?shù)螖?shù)163左右時(shí)開始逐漸收斂,漏檢概率最終收斂于0.023附近;在迭代次數(shù)200時(shí)無線環(huán)境改變,此時(shí)經(jīng)過對新環(huán)境的學(xué)習(xí),漏檢概率最終收斂于0.008附近,低于固定檢測閾值的漏檢概率0.017。

        (a) 虛警概率

        綜上所述,與使用優(yōu)化的固定檢測閾值的欺騙攻擊檢測相比,使用所提算法可以滿足在虛警概率小于0.1的情況下,獲得很好的檢測性能。

        4 結(jié)論

        針對物理層欺騙攻擊的安全威脅,本文提出了一種基于DDPG的欺騙檢測方法。具體地,在建立的被動(dòng)攻擊經(jīng)典模型的基礎(chǔ)上,基于DRL的DDPG算法框架構(gòu)建了狀態(tài)集、行為集和效益函數(shù),并給出了算法的詳細(xì)步驟。該方法使得接收端用戶可以在動(dòng)態(tài)未知環(huán)境下自適應(yīng)地選擇連續(xù)檢測閾值,準(zhǔn)確地鑒權(quán)合法用戶和非法用戶。仿真結(jié)果表明:通過一定次數(shù)的訓(xùn)練后,該算法通過不斷地探索無線環(huán)境,可以學(xué)習(xí)到比優(yōu)化的固定檢測閾值更優(yōu)的檢測閾值,進(jìn)而有效提高了欺騙檢測的性能,檢測概率可以達(dá)到97%以上。

        猜你喜歡
        效益用戶檢測
        草粉發(fā)酵 喂羊效益高
        蓮魚混養(yǎng) 效益提高一倍
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        冬棚養(yǎng)蝦效益顯著,看技術(shù)達(dá)人如何手到“錢”來
        果園有了“鵝幫工” 一舉多得效益好
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        小波變換在PCB缺陷檢測中的應(yīng)用
        被暴雨淋湿爆乳少妇正在播放| 粉嫩国产av一区二区三区| 无套熟女av呻吟在线观看| 亚洲老妈激情一区二区三区| 欧美成人久久久免费播放| 国产一区二区三区视频了| 邻居人妻的肉欲满足中文字幕| 免费在线观看视频播放| 国产乱码一区二区三区爽爽爽| 免费人成视频x8x8| 伊人亚洲综合网色AV另类| 亚洲一区二区三区在线激情| 欧美激情视频一区二区三区免费 | 摸进她的内裤里疯狂揉她动视频| 亚洲久热无码av中文字幕| 国产桃色精品网站| 国产在线av一区二区| 人妻无码一区二区三区免费| 国产思思99re99在线观看| 日本经典中文字幕人妻| 精品亚洲一区二区三区四区五| 狠狠摸狠狠澡| 欧美性xxxx狂欢老少配| 无遮高潮国产免费观看韩国| 日本成人精品在线播放| 国产精品99久久久久久猫咪| h在线国产| 久久精品一区二区三区夜夜| 黑人巨大精品欧美| 亚洲欧洲无码一区二区三区| 久久道精品一区二区三区| 久久久窝窝午夜精品| 中文字幕日本人妻一区| 东京热日本av在线观看| 国产97色在线 | 日韩| 窄裙美女教师在线观看视频| 日本精品一区二区三区试看| 亚洲av无码av在线播放| 国产在视频线精品视频www666| 无码人妻丰满熟妇区免费| 亚洲自拍偷拍色图综合|