亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

無人機中基于C-DQN的資源分配和軌跡優(yōu)化研究

2022-04-18 02:58:30許士勛盧小鳳張志才

測試技術(shù)學(xué)報 2022年2期

沈冰，許士勛，盧小鳳，付芳，張志才

(山西大學(xué) 物理電子工程學(xué)院，山西太原 030006)

0 引言

隨著移動通信技術(shù)的快速發(fā)展，移動網(wǎng)絡(luò)流量需求的時空不均勻性越發(fā)明顯.無人機作為新一代的中繼和終端，具有傳統(tǒng)固定基站所不具有的特點，特別是在極其擁堵和偏遠(yuǎn)地區(qū)，無人機憑借其特有的移動性和視距傳播的優(yōu)勢，作為空中基地來補充和支持現(xiàn)有的地面基礎(chǔ)通信設(shè)施.結(jié)果表明，無人機可更靈活、更經(jīng)濟(jì)地為用戶提供額外的通信和計算資源，以提高通信鏈路性能[1].例如，在通信需求量大的地方充當(dāng)臨時通信熱點，在自然災(zāi)害后快速且靈活地部署通信中繼，在地勢險要處起輔助勘察、搜救工作，在未覆蓋無線網(wǎng)處提供連接等等.

無人機網(wǎng)絡(luò)安全問題一直是不容忽視的存在，這主要是由于無線通信所固有的開放性和廣播性，使得信息極容易被非法截獲.傳統(tǒng)的依靠認(rèn)證和加密技術(shù)雖可以部分解決無人機的安全問題，但近幾年來，物理層安全憑借著其無需使用加密密鑰的特點逐漸成為一個研究熱點，通過設(shè)計其傳輸方式就可以有效阻止竊聽者通過非法渠道獲取信息，以實現(xiàn)網(wǎng)絡(luò)安全[2].

G.Zhang和X.Hong等[3-4]通過聯(lián)合優(yōu)化無人機的飛行軌跡以及合法發(fā)射功率，實現(xiàn)了最大化無人機與路面結(jié)點間的平均保密率；F.cheng等[5]通過聯(lián)合優(yōu)化無人機的運動軌跡和時間調(diào)度來保證具有緩存的無人機中繼無線網(wǎng)絡(luò)的安全性.然而現(xiàn)有的研究大多數(shù)為了保障物理層安全，在優(yōu)化無人機的運動軌跡時，均未考慮到無人機在空中飛行時所需的動力功耗，這顯然是不合理的.另外，在解決非法竊聽問題上，H.Xing等[6]采用功率分裂的方法，避免了使用兩架無人機，有效降低了成本.

本文在優(yōu)化無人機的運動軌跡時，增加了無人機的動力功耗，同時將無人機發(fā)射的通信功率分裂為兩部分，一部分為發(fā)射的保密信息功率，另一部分為發(fā)射的人工干擾噪聲功率，無人機通過發(fā)射人工噪聲來阻止非法竊聽.

1 系統(tǒng)架構(gòu)

1.1 系統(tǒng)模型

本文設(shè)計了一種無人機和地面用戶之間的通信模型，如圖1 所示，無人機(UAV)傳輸保密信息給合法接收者(Legitimate user)，但在傳輸信息的途中，多個竊聽者(Eavesdroppers)會以非法方式竊取信息.因此，為保護(hù)發(fā)送給合法接收者的信息不被竊取，假設(shè)無人機可以制造并發(fā)射人工干擾噪音來隱藏保密數(shù)據(jù).同時，假設(shè)無人機和合法接收者之間的通信可以識別并排除人工噪聲，因此干擾信號只對竊聽者起作用.

圖1 系統(tǒng)模型

系統(tǒng)模型建立了一個三維笛卡爾坐標(biāo)系，假定地面上合法接收者的位置是隨機但不發(fā)生移動的，以(xL,yL,0)表示；無人機的位置是可知的，并位于固定高度H水平飛行，以(xU[n],yU[n],H)表示；3個竊聽者的位置也是隨機但不發(fā)生移動的，以(xEi，yEi,0)表示，其中i={1,2,3}.對于這些隨機位置，只要無人機上配備了光學(xué)相機或Synthetic Aperture Radar(SAR)就可以檢測到[3].

為了簡單起見，本文只關(guān)注無人機在空中飛行通信時的操作，而忽略了其起飛和著陸階段.同時，將無人機的飛行時間T等間隔劃分成N個足夠小的時隙δt，可認(rèn)為無人機在每個時隙δt下都處于準(zhǔn)靜態(tài)過程.

無人機與合法接收者的合法信道用gU2L[n]表示；無人機與竊聽者的竊聽信道和干擾信道用gU2Ei[n]表示.假定gU2L[n]和gU2Ei[n]都為視距(LoS)信道，遵循自由空間路徑損耗模型，無人機到合法接收者的信道增益表示為

(1)

無人機到某個竊聽者的竊聽信道和干擾信道的信道增益表示為

i=1,2,3，

(2)

式中：ξ0是參考距離d0=1 m處的信道功率增益，取決于載波頻率和收發(fā)信機的天線增益.

1.2 無人機通信功率分配模型

在保證傳輸信息安全性的基礎(chǔ)上，假設(shè)無人機采用一種通信功率分割的方法，即將發(fā)射的通信功率分裂為兩部分，即保密信息功率和人工噪聲功率.K.Xu等[7]證明，通過適當(dāng)分裂無人機的發(fā)射功率，相比于沒有功率分裂的情況，整個系統(tǒng)的性能可以得到很大提高.

本文將無人機的發(fā)射功率分為兩部分，其中，一部分pU用于向合法接收者發(fā)送保密信息，而另一部分pJ用于向竊聽者發(fā)送人工噪聲，這兩個功率分別表示為

pU(ρ)=ρpC,

(3)

pJ(ρ)=(1-ρ)pC,

(4)

式中：ρ為功率分配比，需滿足0<ρ<1；pC為無人機的通信總功率.通過調(diào)整功率分配比ρ，使信息在發(fā)送過程中，既能防止被非法竊取，又可以保障在接收端接收到的信號功率仍然較高，以滿足其能量采集的要求.

1.3 下行鏈路安全傳輸模型

本文模型中，由于接收端不可避免地存在高斯白噪聲，因此信道傳送的最大信息速率可以用香農(nóng)定理表示，則合法信道的最大信息傳輸速率

(5)

竊聽信道和干擾信道的最大信息傳輸速率

CU2E，max(ρ,n)=

(6)

根據(jù)式(5)、式(6)，信息的安全容量可以根據(jù)合法信道的信息傳輸速率和竊聽信道、干擾信道的信息傳輸速率表示為

C(ρ,n)=max{E[CU2L(ρ,n)-CU2E,max(ρ,n)],0}.

(7)

1.4 無人機空中動力功耗模型

由于無人機飛行軌跡的不規(guī)則性，將飛行時間劃分成多個足夠小的時隙，即將整個飛行軌跡劃分成無窮小段；由于該模型建立在三維笛卡爾坐標(biāo)系下，對于下一個狀態(tài)，無人機只有向前、向后、向左、向右、懸停這5種選擇.

根據(jù)旋轉(zhuǎn)翼無人機的經(jīng)典飛機動力學(xué)模型，處于固定高度無人機的空氣動力功耗可以表示為水平飛行功率、空中懸停功率和與葉片阻力相關(guān)的剖面功率[8].

水平飛行功率

(8)

空中懸停功率

(9)

對比式(8)、式(9)可以發(fā)現(xiàn)，水平飛行比空中懸停要消耗更少的功率.

與葉片阻力相關(guān)的剖面功率

(10)

式中：CD0是取決于無人機旋翼葉片幾何形狀的阻力系數(shù)，并且可以發(fā)現(xiàn)剖面功率與水平飛行速度的三次方成正比關(guān)系.

根據(jù)式(8)～式(10)，無人機的空中動力功耗模型可以表示為

(11)

1.5 優(yōu)化目標(biāo)

本文的目的是通過不斷優(yōu)化無人機的運動軌跡和功率分配比ρ，即動作a，以達(dá)到在固定能量下實現(xiàn)平均傳輸信息量最大化，即

(12)

s.t.C1: 0<ρ<1,

(13)

C2:xmin≤xU[n]≤xmax,

ymin≤yU[n]≤ymax, ?n,

(14)

C3:zU[n]=H,?n,

(15)

C4:Pc=P.

(16)

C1限制了保密信息功率和人工噪聲功率在總通信功率中的比例大?。籆2限制了無人機的水平飛行范圍；C3固定了無人機的飛行高度，在該高度下可以認(rèn)為無人機躲避了所有建筑物的阻擋，處于無障礙自由飛行狀態(tài)；C4表示了無人機的通信功率為一定值.

1.6 馬爾可夫決策模型(MDP)

由于無人機飛行的下一狀態(tài)只與當(dāng)前狀態(tài)有關(guān)，而與更早之前的狀態(tài)無關(guān)，具有馬爾可夫性.因此，本文將上述優(yōu)化問題和限制條件式(12)～式(16)建模為馬爾可夫決策模型(MDP)，用一個元組表示〈S,A,P,R〉.

S表示狀態(tài)空間，包括無人機與合法接收者的距離dU2L、無人機與竊聽者的距離dU2Ei、保密信息功率pU和噪聲功率pJ，即S={dU2L,dU2E1,dU2E2,dU2E3,pJ,pU}.

A表示動作空間，包括無人機的飛行方向(向前a、向后b、向左l、向右f、懸停h)和功率分配比ρ，即A={a,b,l,f,h,ρ}.

P表示狀態(tài)轉(zhuǎn)移概率，即在狀態(tài)s下采用動作a后轉(zhuǎn)移到下一狀態(tài)s′的概率，但在本模型中，下一個狀態(tài)完全由無人機的飛行方向以及當(dāng)前狀態(tài)所決定，不存在其他不確定因素，因此轉(zhuǎn)移到下一狀態(tài)s′的概率為100%，所以不存在狀態(tài)轉(zhuǎn)移概率.

r表示及時獎勵，可以表示為

(17)

式中：α和β分別表示無人機通信功率和飛行功率的折扣因子，需滿足0<α<1, 0<β<1.

通過不斷地訓(xùn)練學(xué)習(xí)參數(shù)化的狀態(tài)動作價值函數(shù)Q(s,a)，找到最優(yōu)的狀態(tài)動作價值函數(shù)Q*(s,a)，間接找到最優(yōu)的策略π*.根據(jù)貝爾曼方程，動作狀態(tài)價值函數(shù)

Qπ(s,a)=

Eπ[rt+1+γQπ(St+1,At+1)|St=s,At=a],

(18)

式中：γ為后繼狀態(tài)獎勵的折扣因子，需滿足0<γ<1，價值函數(shù)由及時獎勵和后繼獎勵組成，且下一步對當(dāng)前策略的影響最大，時間越遠(yuǎn)，影響越小.

2 C-DQN算法的資源分配

采用C-DQN算法求解馬爾可夫模型中的及時獎勵r，該算法由D.Pathak等[9]提出.如圖2 所示，該算法由兩部分組成：一部分是傳統(tǒng)的DQN模塊；另一部分是基于好奇心的內(nèi)在驅(qū)動模塊.該算法相較于DQN算法(僅能由與環(huán)境交互的外部獎勵驅(qū)動)的最大區(qū)別在于智能體可以由自身的內(nèi)在好奇獎勵所驅(qū)動，使算法的收斂速度更快、收斂值更大.

圖2 C-DQN算法

2.1 DQN模塊

(19)

損失函數(shù)

Loss(θ)=E(yj-Q(sj,aj;θ))2,

(20)

式中：Q是參數(shù)為θ的估計網(wǎng)絡(luò)的狀態(tài)動作價值函數(shù).DQN算法通過梯度下降的策略最小化損失函數(shù)來優(yōu)化DQN神經(jīng)網(wǎng)絡(luò)的參數(shù)θ，該策略可以表示為

(21)

式中：αq是DQN模塊的學(xué)習(xí)率，需滿足0<αq<1.

估計網(wǎng)絡(luò)每隔C步對目標(biāo)網(wǎng)絡(luò)進(jìn)行參數(shù)的更新，可以有效消除時間相關(guān)性.

2.2 基于好奇心的內(nèi)在驅(qū)動模塊

根據(jù)原始的好奇心模型，本文刪除了其反向模型，只保留了前向模型，這是因為反向模型的作用是預(yù)測智能體從st轉(zhuǎn)移到st+1所采取的動作at，但在本文的模型中，已對狀態(tài)空間進(jìn)行了篩選，去除了對智能體無影響的狀態(tài).通過前向模型對下一狀態(tài)進(jìn)行預(yù)測，將狀態(tài)的預(yù)測值與下一狀態(tài)的實際值相比較，即可得到內(nèi)在獎勵.

從經(jīng)驗池中選取at和st，先將原始狀態(tài)st編碼為特征向量φ(st)，再利用前向模型對這兩個輸入進(jìn)行預(yù)測，得到含參數(shù)為?的下一狀態(tài)的預(yù)測值

φpred(st+1)=f(at,φ(st);?).

(22)

損失函數(shù)

(23)

內(nèi)在驅(qū)動模塊通過梯度下降策略最小化損失函數(shù)來優(yōu)化更新好奇心神經(jīng)網(wǎng)絡(luò)的參數(shù)?，該策略可以表示為

(24)

式中：αi是內(nèi)在驅(qū)動模塊的學(xué)習(xí)率，需滿足0<αi<1.

內(nèi)在獎勵與預(yù)測的下一個狀態(tài)有關(guān)，可以表示為

(25)

式中：η是縮放因子，需滿足η>0.當(dāng)內(nèi)在獎勵趨于0時，就表明已不存在好奇心，該模塊已完成參數(shù)的訓(xùn)練更新.

3 算法仿真與數(shù)據(jù)分析

仿真模擬一個固定高度飛行的無人機對地面上一個隨機初始化位置且固定不動用戶的防竊聽通信情景.對該情景采用python仿真器進(jìn)行仿真，具體參數(shù)設(shè)置見表1.

表1 系統(tǒng)參數(shù)

圖3 是不同學(xué)習(xí)率下DQN算法的平均外部獎勵收斂圖.由圖3 可知，αq=0.001曲線收斂速度比αq=0.015曲線更快，且兩者在收斂后的獎勵值趨于相同，雖然αq=0.005曲線的收斂速度比上述兩者更快，但其收斂值明顯更小.因此，綜合考慮，αq=0.001曲線仿真效果更好.

圖3 不同DQN學(xué)習(xí)率下收斂圖

圖4 是不同學(xué)習(xí)率下C-DQN算法的平均外部獎勵收斂圖.由圖4 可知，這3種學(xué)習(xí)率的曲線收斂速度相似，但αq=0.004曲線的收斂值要略大于其它兩種學(xué)習(xí)率的曲線.因此，綜合考慮，αq=0.004曲線仿真效果更好.

圖4 不同C-DQN學(xué)習(xí)率下收斂圖

圖5 是在本文的情景下DQN算法和C-DQN算法的性能比較圖.其中，DQN算法的學(xué)習(xí)率為0.001；C-DQN算法的外部學(xué)習(xí)率為0.004，內(nèi)部學(xué)習(xí)率為0.01.由圖5 可知，當(dāng)C-DQN算法在內(nèi)部獎勵趨于0時，外部獎勵也將趨于穩(wěn)定.對比DQN和C-DQN算法的外部獎勵曲線，可以發(fā)現(xiàn)，兩者的收斂速率近似相同，但后者只需在大約50迭代次數(shù)處就可達(dá)到收斂而前者要在230迭代次數(shù)左右才達(dá)到收斂，后者的收斂速率更快，且后者的外部獎勵在收斂時明顯大于前者的外部獎勵.因此，本文所采用的C-DQN算法性能優(yōu)于DQN算法.

圖5 C-DQN和DQN算法的性能比較

4 總結(jié)

本文提出了一種在無人機系統(tǒng)中實現(xiàn)物理層安全的方法，通過聯(lián)合優(yōu)化無人機的功率分配比和飛行軌跡，實現(xiàn)在固定能量下平均傳輸信息量最大化.由于本文所優(yōu)化的物理量具有后無效性，可將上述問題建模成馬爾可夫模型，并利用C-DQN算法來解決該問題.仿真結(jié)果表明，該算法相比于DQN算法的學(xué)習(xí)效果更佳.