亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

無人機(jī)輔助物聯(lián)網(wǎng)中基于Safe Actor-Critic的信息年齡最小化研究

2024-02-02 14:54:26魏憲鵬張志才

測試技術(shù)學(xué)報(bào) 2024年1期

魏憲鵬，付芳，張志才

（山西大學(xué) 物理電子工程學(xué)院，山西太原 030006）

0 引言

由于無人機(jī)的靈活性、機(jī)動性和低成本，其在物聯(lián)網(wǎng)（Internet of Things，IoT）網(wǎng)絡(luò)中實(shí)時應(yīng)用發(fā)揮著關(guān)鍵作用，如智能交通［1］、災(zāi)難救援［2］、野火預(yù)防［3］等。在這些應(yīng)用程序中，要求將IoT設(shè)備生成的實(shí)時數(shù)據(jù)盡可能新鮮地傳遞給接收器。例如，智能交通中復(fù)雜的數(shù)據(jù)和過時數(shù)據(jù)可能會導(dǎo)致錯誤的操作，甚至造成災(zāi)難性的后果［4］。因此，保證接受數(shù)據(jù)的及時性對無人機(jī)輔助物聯(lián)網(wǎng)網(wǎng)絡(luò)至關(guān)重要。信息年齡（Age of Information，AoI）是一種有效的性能指標(biāo)，其定義為自生成接收器的最新更新以來經(jīng)過的時間量［5］，其中最新收到的數(shù)據(jù)包的年齡值較小，因此，可以通過最小化AoI來保證接收數(shù)據(jù)的時效性。

基于深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）的無人機(jī)軌跡設(shè)計(jì)被認(rèn)為是處理無人機(jī)路徑規(guī)劃問題的有效方法［6-9］，其中無人機(jī)被視為“智能體”，通過與環(huán)境直接交互獲得最優(yōu)軌跡。例如，F(xiàn)u F 等［8］提出了一種基于好奇心驅(qū)動的DQN 路徑規(guī)劃方法；Wang L 等［9］提出了一種基于深度確定性策略梯度算法的無人機(jī)路徑設(shè)計(jì)方法，以降低分布式邊緣計(jì)算系統(tǒng)中用戶的能量開銷。然而，這些優(yōu)化問題大都受短期限制條件約束。眾所周知，無人機(jī)的飛行能量預(yù)算對無人機(jī)的路徑規(guī)劃有很大影響，然而，他們忽略了飛行的能耗成本?？紤]到無人機(jī)承載能量的局限性，Hu X等［10］提出了一種最小化無人機(jī)能耗的無人機(jī)軌跡規(guī)劃方案；Liao Y 等［11］提出了一種多目標(biāo)優(yōu)化方案，以最小化AoI 和無人機(jī)的能耗成本；Sun M 等［12］通過優(yōu)化無人機(jī)的飛行路徑和頻譜分配，在AoI 和飛行能量成本之間找到平衡。上述工作可以有效降低能耗，但不能保證無人機(jī)累積飛行能耗不超過總能耗預(yù)算。此外，在這些方案中，無人機(jī)的可用能量通常沒有得到充分利用，難以獲得最優(yōu)的無人機(jī)路徑規(guī)劃方案，從而導(dǎo)致高AoI。因此，如何充分利用無人機(jī)的能量做出更合理的決策是一個值得研究的問題。

本文研究無人機(jī)的路徑規(guī)劃和用戶關(guān)聯(lián)問題，以在滿足長期飛行能量約束的同時最小化AoI加權(quán)和。

1 系統(tǒng)模型與假設(shè)

1.1 系統(tǒng)模型

無人機(jī)輔助物聯(lián)網(wǎng)場景如圖1 所示。IoT 設(shè)備隨機(jī)部署在室外區(qū)域，在該區(qū)域中，無人機(jī)從起點(diǎn)到目的地巡航，旨在收集IoT 設(shè)備的狀態(tài)信息盡可能新鮮。本文考慮的模型中，無人機(jī)在采集IoT 設(shè)備信息時會處于懸停狀態(tài)，因此不會產(chǎn)生多普勒頻移現(xiàn)象［13］。令K={1,2,…,K}表示所有物聯(lián)網(wǎng)設(shè)備的集合，設(shè)備k的位置由qk=(xk,yk,0),?k∈K表示。UAV 的巡航時間分為T個時隙，每個時隙的長度為τs。假設(shè)UAV 在固定的高度H上運(yùn)動，相應(yīng)地，設(shè)q[t]=(x[t],y[t],H),?t∈T表示UAV 在第t個時隙的位置，q[0]=(xori,yori,H)表示UAV 的初始位置，q[T]=(xdest,ydest,H)表示UAV的目的地。

圖1 系統(tǒng)場景Fig.1 System scenario

1.2 飛行能量消耗模型

無人機(jī)的能源推進(jìn)成本通過式（2）計(jì)算

式中：P0為懸停狀態(tài)恒功率；P1為誘導(dǎo)功率；Utip為葉片的葉尖速度；v0為懸停狀態(tài)的轉(zhuǎn)子平均誘導(dǎo)速度；z0和ρ分別為機(jī)身阻力比和空氣密度；μ和ξ分別為轉(zhuǎn)子堅(jiān)固度和轉(zhuǎn)子盤面積。為了UAV 保留足夠的能量以執(zhí)行其他功能，UAV 的機(jī)動性必須滿足以下能量約束

式中：Efly[T]為整個巡航期間累計(jì)推進(jìn)能耗；Emax為UAV最大允許推進(jìn)能耗［14］。

1.3 無線傳輸與AoI模型

令Gk2U表示從裝置k到位置為q[t]的UAV 的平均信道增益，其在LoS 和非LoS（NLoS）鏈路［15］下求平均，計(jì)算公式為

式中：fc為載波頻率；ρ為光速；Λ為選擇概率；dk2U(q[t])為從設(shè)備k到UAV的距離

設(shè)備k與UAV之間可實(shí)現(xiàn)的數(shù)據(jù)速率

式中：PA[t]為k2U的發(fā)射功率；σ2為設(shè)備k處的高斯白噪聲功率。

1.4 問題建模

通過聯(lián)合優(yōu)化UAV 的軌跡q[t]以及調(diào)度策略z[t]=在滿足能量約束的前提下，使整個飛行周期內(nèi)的長期AoI加權(quán)和最小。問題表述為

式中：ωk為在式（6）中的權(quán)重，表示設(shè)備信息的相對重要性。UAV 的初始和最終位置在式（7）中給出。式（8）為無人機(jī)的速度約束，其中Vmax為UAV 的最大速度。式（9）和式（10）保證UAV在每個時間段內(nèi)最多調(diào)度一個IoT 設(shè)備。式（11）表示Efly[T]整個巡航期間的累計(jì)推進(jìn)能量消耗不能大于Emax。接下來，我們將式（6）建模為一個CMDP，然后采用一種新的DRL 算法，即Safe-Actor-Critic［16］來解決此CMDP問題。

2 約束性馬爾可夫決策過程

本節(jié)將上述優(yōu)化問題（6）建模為CMDP。將CMDP一個元組表示為每個元素具體描述如下：

S=S′∪Sdest為環(huán)境狀態(tài)特征空間，其中S′為瞬態(tài)空間，Sdest為最終狀態(tài)空間。S′包括3個部分：無人機(jī)在t時隙的坐標(biāo)q[t]=(x[t],y[t],H)；物聯(lián)網(wǎng)設(shè)備的位置qk=(xk，yk，0)；物聯(lián)網(wǎng)設(shè)備的AoI值?k∈K，t∈T。Sdest最終狀態(tài)空間為q[T]=(xdest,ydest,H)。

A為動作空間，包括無人機(jī)的速度vt和方向，以及無人機(jī)的調(diào)度策略z[t]。

P為狀態(tài)轉(zhuǎn)移概率函數(shù)。無人機(jī)的坐標(biāo)根據(jù)p[t]=vt*τ+p[t-1]進(jìn)行轉(zhuǎn)移，vt≤Vmax，vt為無人機(jī)在t時刻的飛行速度。

s0∈S為初始狀態(tài)，其中包括q[0]=(x0，y0，H)及?k∈K。

r為獎勵函數(shù)，定義為

式中：Ω為一個正常數(shù)，用于將無人機(jī)誘導(dǎo)到最終位置［17-18］。

c為立即約束代價(jià)，定義為c(s，a)=Pfly[t]τ，c0為約束代價(jià)上限，根據(jù)式（11）有c0=Emax。

式中：T*為從起始狀態(tài)s0到目的地首次成功的時間。安全約束為

解決CMDP 問題的方法是找到最優(yōu)策略π*，使長期收益最大化，且滿足安全約束。CMDP 的優(yōu)化問題被公式化為

如何將長期約束Cπ(s0)轉(zhuǎn)化為可行的單步策略集是求解CMDP的關(guān)鍵。

3 Safe Actor-Critic

3.1 安全策略集

本節(jié)利用Lyapunov函數(shù)理論來構(gòu)建安全策略集。首先，假設(shè)可以獲得式（15）的可行策略，用πb(·|s)∈Π 表示。給定初始狀態(tài)s0和約束閾值c0，Lyapunov函數(shù)定義集為

式中：Bπb，c[?](s)為貝爾曼函數(shù)計(jì)算，即

對于??(s)∈Γπb(s0，c0)，Lyapunov 函數(shù)誘導(dǎo)的安全策略集為

式中：?(s0)≤c0，?π(·|s)∈F?(s)為式（15）的可行性策略。從式（17）中可以看出，較大的? 意味著可以獲得較大的F?(s)，因此，下面的關(guān)鍵工作是構(gòu)造一個合適的Lyapunov函數(shù)?。

根據(jù)文獻(xiàn)［16］中的引理1，關(guān)于π*的長期約束Cπ*(s)可以轉(zhuǎn)化為πb誘導(dǎo)的Lyapunov函數(shù)，寫為

式中：Δ(st)為每一步中可用的附加約束成本，用于擴(kuò)展可行的操作空間并改進(jìn)策略。然而，在沒有π*的先驗(yàn)知識的情況下構(gòu)建Δ(st)是具有挑戰(zhàn)性的。為了降低計(jì)算復(fù)雜度［19］，Δ(st)近似為

3.2 critic部分

以下采用actor-critic 框架來解決問題（15）。在critic 部分，使用DNN 分別評估Q(s,a)，QC(s,a)和QT(s,a)。

在每步中，新生成的數(shù)據(jù)被保存在經(jīng)驗(yàn)池中，即D←(s，a，r，c，s′)∪D，通過從經(jīng)驗(yàn)池中隨機(jī)采樣一批樣本(s，a，r，c，s′)來訓(xùn)練DNN，并通過式（21）更新參數(shù)

同樣QC(s,a)和QT(s,a)也分別通過DNN 近似器Q(s,a;?C)和Q(s,a;?T)進(jìn)行評估。參數(shù)?C和?T通過以下方式更新

3.3 actor部分

基于上節(jié)獲得的QC(s，a)和QT(s，a)以及在式（20）中構(gòu)建的安全策略集，可以計(jì)算出式（15）的最優(yōu)行動概率為

3.4 Safe Actor-Critic算法

Safe Actor-Critic算法的框架如圖2 所示。

圖2 Safe Actor-Critic框架Fig.2 The framework of Safe Actor-Critic

算法收斂性可以在文獻(xiàn)［16］中找到。該算法包括了三部分：actor 部分，critic 部分以及經(jīng)驗(yàn)池，其學(xué)習(xí)率αc，t和αa，t滿足

4 仿真結(jié)果與討論

模擬基于Python的模擬器上實(shí)現(xiàn)，其中環(huán)境的參數(shù)設(shè)置如下：在600 m×600 m的面積上隨即部署K個物聯(lián)網(wǎng)設(shè)備，無人機(jī)在該區(qū)域上空巡航，接收設(shè)備產(chǎn)生的數(shù)據(jù)，其懸停高度固定為H=100 m。傳輸速率的參數(shù)設(shè)置為fc=5.9 GHz，B=1 MHz［20］，pk2U=0.1 W（?k∈K）［20］，σ2=-110 dBm，信道參數(shù)的值為δ=9.61，β=0.16，ηLoS=1 dB，ηNLoS=20 dB［15］。無人機(jī)的能源推進(jìn)成本參數(shù)設(shè)置為：P0=3.4 W，P1=118 W，Utip=60 m/s，Vmax=30 m/s，v0=5.4 m/s，ρ=1.225 km/m2，μ=0.03，z0=0.3，ξ=0.28 m2［21］。

圖3 為所提算法不同Actor 學(xué)習(xí)率之間的收斂性能，其滿足等式（26）且通過反復(fù)試驗(yàn)來設(shè)置。在這一部分中，Critic 的學(xué)習(xí)率被設(shè)定為αc，t=5×10-4。算法總共運(yùn)行500 回合，每個回合中包括100步。

圖3 不同Actor學(xué)習(xí)率獎勵表現(xiàn)Fig.3 The reward performance comparison with different actor’s learning rates

由圖3 可知，當(dāng)學(xué)習(xí)率為αa，t=5×10-4，曲線大約150 回合處達(dá)到收斂，這是因?yàn)閷W(xué)習(xí)率過高，總會導(dǎo)致高方差和低獎勵。然而，當(dāng)學(xué)習(xí)率下降為αa，t=1×10-5時，學(xué)習(xí)速率變慢。相比αa，t=1×10-5和αa，t=5×10-4，學(xué)習(xí)率為αa，t=5×10-5是最佳的學(xué)習(xí)率，該學(xué)習(xí)率在平均收益和方差方面具有良好的性能。

圖4 為不同Critic學(xué)習(xí)率之間的收斂性能，這里Actor的學(xué)習(xí)率被固定為αa，t=5×10-5。同樣發(fā)現(xiàn)算法的收斂性能對學(xué)習(xí)率非常敏感，學(xué)習(xí)率為αc，t=5×10-3導(dǎo)致顯著方差，而αc，t=3×10-4導(dǎo)致較長的學(xué)習(xí)時間，Critic 的最佳學(xué)習(xí)率為αc，t=5×10-4。因此，在下面的部分中，αa，t和αc，t分別被設(shè)為αa，t=5×10-5和αc，t=5×10-4。

圖4 不同Critic學(xué)習(xí)率獎勵表現(xiàn)Fig.4 The reward performance comparison with different critic’s learning rates

為了顯示所提出的基于Safe Actor-Critic（SAC）算法的高效率，還模擬了基于Safe DQN的算法（SDA）［7］和基于拉格朗日Actor-Critic 的算法（LAC）［21］。圖5 為無人機(jī)在不同的總能量預(yù)算下每次SAC、SDA 和LAC 的累積推進(jìn)能量消耗。從圖5 可以看出，當(dāng)Emax=1.1×104J 時，SAC的總推進(jìn)能量成本在收斂后小于1.1×104J，SDA 的能耗成本同樣小于1.1×104J。當(dāng)Emax=2.6×104J 時，SAC 的能耗約2.5×104J。這是因?yàn)镾AC 基于能量預(yù)算Emax為無人機(jī)構(gòu)建了一個安全策略集，因此，總推進(jìn)能量成本不會超過預(yù)算Emax。當(dāng)Emax=1.1×104J 時，LAC 的能量消耗約為1.5×104J。這是因?yàn)長AC 的策略不可能受到長期能源約束的嚴(yán)重限制，即UAV 的每回合的總推進(jìn)能量成本可能超過總能量預(yù)算。

圖5 不同總能量預(yù)算下無人機(jī)飛行的累積推進(jìn)能耗Fig.5 The UAV’s cumulative propulsion energy consumption per episode with different total energy budgets

圖6 為每回合SAC、LAC 和SDA 在不同總能量預(yù)算下的獎勵表現(xiàn)。

圖6 不同能量預(yù)算下每回合獎勵表現(xiàn)Fig.6 The reward performance per episode with different total energy budgets

從圖6 中可以看到，當(dāng)Emax從1.1×104J 增加到Emax=2.6×104J 時，SAC 的獎勵明顯增加，這是因?yàn)镋max越大，則無人機(jī)的可行動空間越大，獲得最優(yōu)策略的機(jī)會越多［22］，獲得的獎勵也越高。當(dāng)Emax=1.1×104J 時，LAC 的獎勵比SAC 高，這是因?yàn)長AC 的策略并不嚴(yán)重受限于圖5 所示的能量預(yù)算。盡管在圖5 中，SDA 同樣受到能量約束，但是從圖6 中可以看出當(dāng)Emax=1.1×104J時，SDA 的獎勵低于SAC，因此，根據(jù)圖5 和圖6 可知，與SDA 和LAC 相比，提出的SAC 可嚴(yán)格滿足推進(jìn)能量消耗預(yù)算要求，并且收斂性能最佳。

圖7 所示為每個回合中不同的總能量預(yù)算下不同物聯(lián)網(wǎng)設(shè)備數(shù)目的AoI值，可見隨著物聯(lián)網(wǎng)設(shè)備數(shù)目的增加，AoI加權(quán)和顯著增加。這是因?yàn)闊o人機(jī)在每個時隙最多連接一臺設(shè)備，部署的設(shè)備越多，平均每臺設(shè)備享受的服務(wù)越少，AoI之和也隨之增加。此外，當(dāng)能量預(yù)算增加時，固定數(shù)量物聯(lián)網(wǎng)設(shè)備的AoI會減少，這是因?yàn)橛辛烁嗟耐七M(jìn)能量預(yù)算，無人機(jī)可以進(jìn)行更靈活的軌跡規(guī)劃，以接收更高AoI值的設(shè)備。

圖7 不同IoT個數(shù)的AoI加權(quán)和Fig.7 The weighted sum AoI of different devices

圖8 顯示了每一階段的平均加權(quán)和AoI 與UAV飛行高度的關(guān)系，可見當(dāng)無人機(jī)的高度增加時，AoI 值增加。由于物聯(lián)網(wǎng)設(shè)備到無人機(jī)的信道增益主要取決于兩者之間的距離，因此在帶寬和發(fā)射功率一定的情況下，飛行高度越高，信道條件越弱，傳輸速率越低。

圖8 不同高度下的建立表現(xiàn)Fig.8 The reward performance versus height

5 結(jié)論和展望

本研究的貢獻(xiàn)總結(jié)如下：

1）聯(lián)合優(yōu)化無人機(jī)的軌跡和物聯(lián)網(wǎng)設(shè)備調(diào)度策略以最小化網(wǎng)絡(luò)的加權(quán)和AoI，其中無人機(jī)累積飛行能量成本受能量預(yù)算限制。

2）由于優(yōu)化目標(biāo)受一組短期約束和長期能量約束的限制，該問題被建模為約束馬爾可夫決策過程（CMDP）。

3）采用Safe Actor-Critic 來求解該CMDP，為保證策略安全，利用Lyapunov函數(shù)構(gòu)建安全策略集，并基于此策略集訓(xùn)練策略網(wǎng)絡(luò)。

在未來的工作中，我們將利用多智能體DRL方法討論多無人機(jī)場景下的AoI最小化問題。