亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于導(dǎo)向強化Q學習的無人機路徑規(guī)劃

        2021-10-20 03:05:46周彬郭艷李寧鐘錫健
        航空學報 2021年9期
        關(guān)鍵詞:規(guī)劃動作環(huán)境

        周彬,郭艷,李寧,鐘錫健

        陸軍工程大學 通信工程學院,南京 210007

        無人機(Unmanned Aerial Vehicle,UAV)作為一種新型的智能載體,具有機動性高、靈活性強、結(jié)構(gòu)簡單、造價低、隱蔽性強和安全性高等優(yōu)勢,在地質(zhì)氣象觀測、快遞運輸?shù)让裼妙I(lǐng)域發(fā)揮了重要作用,同時也被廣泛應(yīng)用于軍事領(lǐng)域中執(zhí)行監(jiān)視、偵察、追蹤等任務(wù)[1]。路徑規(guī)劃是指在有障礙物的環(huán)境中,根據(jù)最短路徑和最短規(guī)劃時間等評估標準,找到一條從初始位置到目標位置的最優(yōu)/較優(yōu)的無碰撞路徑[2]。無人機應(yīng)用場景一般地域廣闊、環(huán)境復(fù)雜,如何快速準確地規(guī)劃出一條安全、快捷的路徑,是無人機應(yīng)用的重要研究方向[3]。

        針對無人機路徑規(guī)劃問題,大量研究進行了有益的探索[4-12]。從所需初始信息的完整程度來看,可將現(xiàn)有的無人機路徑規(guī)劃方法分為兩大類:基于先驗完整環(huán)境信息的全局路徑規(guī)劃方法和基于部分環(huán)境信息的局部路徑規(guī)劃方法[4]。目前,對于全局路徑規(guī)劃方法的研究較為成熟,如A*算法[5]、Voronoi圖[6]和人工勢場法[7]等。但全局路徑規(guī)劃方法大都需要提前建立好完整模型,當環(huán)境復(fù)雜時計算開銷非常大;且在實際應(yīng)用中,無人機面對不斷變化的動態(tài)環(huán)境時很難掌握全局信息,使用確定性方法來實現(xiàn)路徑規(guī)劃過程的最優(yōu)控制是不可行的[8]。因此,基于部分未知或完全未知的環(huán)境信息進行路徑規(guī)劃,更具有實際意義,也更受關(guān)注。在這方面,很多學者已經(jīng)進行了大量研究,并取得了一定的成果,如基于神經(jīng)網(wǎng)絡(luò)(NN)[9]、粒子群優(yōu)化(PSO)[10]和強化學習(RL)[11]等算法的局部路徑規(guī)劃方法。這些方法在一定程度上克服了先驗環(huán)境信息不足的問題,極大地提高了無人機在復(fù)雜環(huán)境下的適應(yīng)性,且能夠獲得較好的路徑[12]。

        隨著機器學習的迅速發(fā)展,人們試圖利用基于深度學習(Deep Learning,DL)和強化學習(Reinforcement Learning,RL)的方法來解決路徑規(guī)劃問題[13]。其中最具代表性的是基于馬爾可夫決策過程的標準Q學習算法[14],作為一種監(jiān)督式學習方法,它能夠根據(jù)環(huán)境的變化,通過學習機制為無人機規(guī)劃出一條較優(yōu)的無碰撞路徑。文獻[15]通過結(jié)合貪婪策略和玻爾茲曼概率選擇策略提出了一種新的動作選擇策略,避免標準Q學習算法陷入局部最優(yōu),并通過啟發(fā)函數(shù)限定無人機飛行的方向角度,加快無人機路徑規(guī)劃的收斂速度。文獻[16]通過基于位置信息的Q學習算法導(dǎo)航無人機,并利用函數(shù)逼近的方法降低Q函數(shù)的維數(shù),加快算法的收斂速度。由此可見,雖然Q學習算法在無人機路徑規(guī)劃問題上研究已久,但如何解決其容易陷入局部最優(yōu)、收斂速度慢等問題仍是現(xiàn)在研究的熱點[17]。

        針對上述問題,本文提出了基于接收信號強度(RSS)的路徑規(guī)劃方法,利用無人機探索環(huán)境獲得的信號強度更新回報值,然后根據(jù)玻爾茲曼(Boltzmann)概率選擇策略指導(dǎo)無人機路徑規(guī)劃。并在仿真中與基于位置信息的Q學習算法比較,驗證了所提算法的優(yōu)越性。同時,根據(jù)無人機飛行環(huán)境的特點,引入“導(dǎo)向強化”原則強化Q學習算法的學習效率,提高路徑規(guī)劃收斂速度,大大減少了迭代次數(shù)。最后,利用數(shù)值仿真驗證了所提算法的優(yōu)越性。

        本文組織如下:第1節(jié)介紹了系統(tǒng)框架和模型,第2節(jié)介紹了基于接收信號強度的導(dǎo)向強化Q學習的無人機路徑規(guī)劃,第3節(jié)進行仿真結(jié)果分析,第4節(jié)給出了結(jié)論。

        1 系統(tǒng)框架和模型建立

        1.1 接收信號強度模型

        一般而言,信號傳輸鏈路所處的環(huán)境決定該傳輸鏈路為視距傳輸模型(LOS)還是非視距傳輸模型(NLOS)。由于無人機與目標點之間的環(huán)境未知,障礙物或建筑等的位置、高度等信息不可完全獲取,無人機與目標信號源之間的信號傳輸可能會受到障礙、建筑等的影響。所以,假設(shè)該鏈路同時存在LOS和NLOS,2種鏈路中的選擇概率由無人機與目標點之間的環(huán)境類型所決定。本文使用一種常用的依概率選擇的傳輸損耗模型[18],無人機ui與可疑信號源D之間的路徑損耗為

        (1)

        LoS的概率由無人機與信號源之間的環(huán)境所決定,可表示為

        (2)

        (3)

        由此可得,無人機ui與可疑信號源D之間的路徑損耗為

        (4)

        假設(shè)無人機和信號源的天線都是全向天線,基于以上的信道模型,無人機ui接收到信號源D的信號強度(RSS)可以表示為

        Sui,D=Pui,D·Hui,D+σ2

        (5)

        1.2 標準Q學習算法

        Q學習算法[19]是一種機器學習的方法,通過智能體(Agent)與環(huán)境反復(fù)交互,學習獲得一個或一系列較優(yōu)的行為,這個學習過程是采用馬爾可夫決策過程(MDP)形式,通過sense-act-learn循環(huán)的方式進行學習,其組元可以表示為{S,A,P(s′|a,s),R(s,a,s′)},其中S表示有限狀態(tài)空間集;A表示有限動作空間集;P(s′|a,s)表示狀態(tài)轉(zhuǎn)移概率函數(shù),即智能體在當前狀態(tài)s時執(zhí)行動作a,轉(zhuǎn)移到下一個狀態(tài)s′的概率,其中s,s′∈S,a∈A;R(s,a,s′)表示回報值,即智能體在狀態(tài)s時執(zhí)行動作a,狀態(tài)轉(zhuǎn)移到s′所得到的回報。

        在標準的Q學習算法中,智能體從環(huán)境中感知得到當前的狀態(tài)s∈S,基于當前的狀態(tài)s和過去學習到的經(jīng)驗知識,智能體決定執(zhí)行某一個動作a∈A,實施該動作之后,智能體依概率P(s′|a,s)轉(zhuǎn)移到下一個狀態(tài)s′∈S并獲得一個回報值R(s,a,s′)。在這個過程中,定義一個Q函數(shù),用于計算某一個狀態(tài)-動作對(s,a)所獲得的期望回報值,Q函數(shù)為關(guān)于變量(s,a)的函數(shù),其一種常用的更新公式為

        Q*(s,a)=Q(s,a)+

        式中:λ∈(0,1)為折扣因子。Q函數(shù)可以概(6)括為智能體在過去學習到的經(jīng)驗知識,并持續(xù)更新。

        1.3 狀態(tài)轉(zhuǎn)移策略

        在本文無人機動作選擇的問題中,假設(shè)無人機所處的狀態(tài)為s,此時的動作空間為A={a1,a2,…,ak,…,aK},k=1,2,…,K,每一個狀態(tài)-動作對對應(yīng)一個Q值,其中一種動作的選擇方案為選擇最大Q值所對應(yīng)的動作,即

        (7)

        式中:as表示在無人機在狀態(tài)s選擇的動作。

        (8)

        式中:P(ak|s)表示無人機處于狀態(tài)s時選擇動作ak∈A的概率;κB>0為玻爾茲曼常數(shù);T為溫度;Z(T)為概率分布的標準化因子:

        (9)

        根據(jù)上述的動作選擇概率公式(8),無人機在狀態(tài)s轉(zhuǎn)移到下一個狀態(tài)s′的概率可表示為

        (10)

        假設(shè)在狀態(tài)s執(zhí)行某個動作ak后,依概率1轉(zhuǎn)移到狀態(tài)s′(指某個特定的狀態(tài)),且執(zhí)行其他動作時,依概率0轉(zhuǎn)移到狀態(tài)s′,即

        (11)

        則,狀態(tài)s到狀態(tài)s′的轉(zhuǎn)移概率可簡化為

        P(s′|s)=P(ak|s)

        (12)

        2 無人機路徑規(guī)劃

        2.1 基于接收信號強度的回報函數(shù)

        在本文研究的無人機搜索目標信號源的過程中,所獲得的關(guān)于目標信號源的信息只有接收信號強度,可以將該信息作為Q學習過程中的回報值,因為無人機搜索目標信號源的過程,可以理解為縮小無人機與目標信號源之間的距離的過程,而其兩者之間的距離越小,則無人機接收到可疑信號的強度就越強,因此可以將回報值定義為

        R(s,a,s′)=Sui,D(s′)

        (13)

        式中:Sui,D(s′)為無人機ui處于狀態(tài)s′時所獲得的目標信號強度。然而,由于相鄰的狀態(tài)之間所接收到的信號強度的差值并不大,單以Sui,D(s′)作為回報值,且依概率選擇動作的隨機性太強,難以收斂。下面提出一種更優(yōu)的方案。

        通過接收到的信號強度的變化,可以判斷無人機的飛行方向是趨向還是背離目標信號源,即由接收信號強度的變化可以獲得方向信息。例如,如果無人機ui在狀態(tài)s獲得的信號強度Sui,D(s)小于在下一個狀態(tài)s′所獲得的信號強度Sui,D(s′)(假設(shè)無人機ui在狀態(tài)s實施動作ak后到達狀態(tài)s′),則說明無人機的飛行方向趨向目標信號源,且如果ΔSss′=Sui,D(s′)-Sui,D(s)越大,說明動作ak方向與目標信號源方向的偏離角越小,故將回報函數(shù)定義為

        R(s,a,s′)=α[Sui,D(s′)-Sui,D(s)]

        (14)

        式中:α為信號強度差系數(shù),α越大,信號強度差在回報函數(shù)中占得比重就越大。

        (四)加強會計信息化建設(shè),會計軟件是行政事業(yè)單位開展財務(wù)管理以及會計工作的重要工具,它的使用極大地提高會計工作的準確性和工作效率,但隨著會計制度的改革不斷深化,會計軟件系統(tǒng)的部分模塊功能在實際工作不能滿足新的需要,因此現(xiàn)有會計核算軟件要根據(jù)政府會計制度的設(shè)置要求及時地進行系統(tǒng)升級與調(diào)試。好的會計軟件的使用可以極大地精簡財務(wù)計算管理工作,也能讓行政事業(yè)單位的財務(wù)狀況更加及時規(guī)范地體現(xiàn)。會計軟件的使用必須符合財政部制定的相關(guān)會計信息化工作規(guī)范和標準,確保利用現(xiàn)代化信息技術(shù)手段開展會計核算及生成的會計信息符合政府會計制度和會計準則。

        2.2 導(dǎo)向強化原則

        方向信息不僅可以作為回報函數(shù)中的一部分,而且可以指導(dǎo)無人機在下一個狀態(tài)s′的動作(無人機的狀態(tài)s′由無人機在狀態(tài)s實施動作ak后到達),因為如果方向ak在狀態(tài)s時趨向于目標信號源,那么在下一個狀態(tài)s′時選擇動作ak也很可能趨向于目標信號源。在標準Q學習算法的基礎(chǔ)上,可以通過方向信息對于無人機動作選擇進行優(yōu)化,稱之為具有“導(dǎo)向強化”原則。動作的選擇由Q值表決定,方向信息對下一個動作的影響可表示為

        Q(s′,ai)=

        (15)

        式中:ak為無人機ui在狀態(tài)s時執(zhí)行的特定動作,ai∈A為無人機ui在狀態(tài)s′時可選擇執(zhí)行的任意動作;ρ∈[0,1]為折扣因子,控制前一步的方向信息對后一步動作的影響的大小,其值越大,方向的導(dǎo)向性越強。

        2.3 導(dǎo)向強化Q學習算法主要步驟

        1) 對當前環(huán)境進行柵格化,確定起始點坐標和目標點坐標,并以目標點為中心建立信號強度場,作為無人機獲取接收信號強度來計算回報值。

        2) 初始化狀態(tài)值,清空Q函數(shù)矩陣和回報矩陣,無人機從起始點開始進行探索并獲取信號強度。

        3) 根據(jù)無人機所在狀態(tài)s位置的Q函數(shù)計算各個動作ak的轉(zhuǎn)移概率,并根據(jù)概率策略選擇動作a。

        4) 執(zhí)行動作a飛行至狀態(tài)s′位置,并獲取新的信號強度。通過回報函數(shù)計算出回報值,更新狀態(tài)s下動作a的Q函數(shù),并根據(jù)導(dǎo)向強化以折扣因子ρ來更新狀態(tài)s′對應(yīng)的Q函數(shù)。

        5) 將當前環(huán)境位置更新至狀態(tài)s′位置,并判斷是否為目標位置或達到最大迭代次數(shù),如果不是,則結(jié)束本次迭代學習過程,迭代次數(shù)+1,繼續(xù)返回到步驟3),否則到步驟6)。

        6) 結(jié)束該次嘗試學習,嘗試次數(shù)+1,并返回到步驟2),繼續(xù)進行下一次嘗試學習。

        7) 最后判斷是否到達可接受目標參數(shù),或已經(jīng)達到設(shè)定的最大嘗試次數(shù),2個條件中只要有一個滿足,則結(jié)束整個學習過程。

        3 仿真及分析

        3.1 實驗環(huán)境

        本節(jié)通過仿真實驗來驗證基于接收信號強度的導(dǎo)向強化Q學習算法的性能。首先將環(huán)境柵格化為100×100區(qū)域網(wǎng)格,以其左下角為坐標原點,建立一個以水平方向為x軸,豎直方向為y軸的坐標系。標記出起始位置和目標位置,紅色星點為起始位置,藍色星點為目標位置,其中3個圓圈內(nèi)部表示為無法穿越的障礙物區(qū)域,其他區(qū)域(在邊界內(nèi)部)為無人機的自由活動區(qū)域(如圖1 所示)。無人機動作空間集合為所在狀態(tài)s位置有上、下、左、右4 個動作,即圖中藍色箭頭指示;而對于障礙區(qū)域則不能進入,即圖中紅色箭頭指示;對角區(qū)域考慮到障礙物形狀不規(guī)則、柵格化不理想等因素,設(shè)計為需要經(jīng)過兩步到達(如圖2所示)。

        圖1 柵格化區(qū)域模型Fig.1 Grid-based environment model

        圖2 無人機動作空間模型Fig.2 UAV action space model

        3.2 實驗分析

        在仿真實驗中,將通過2組實驗分別從基于接收信號強度算法的可行性和導(dǎo)向強化Q學習算法的有效性上進行對比分析。其中,Q學習算法所有學習過程的實驗參數(shù)及關(guān)鍵參數(shù)值如表1所示。

        表1 參數(shù)設(shè)置Table 1 Parameters setting

        圖3為基于接收信號強度的算法產(chǎn)生的路徑軌跡,圖4為基于位置距離的算法產(chǎn)生的路徑軌跡。圖5為多障礙基于接收信號強度的算法產(chǎn)生的路徑軌跡。如圖3~圖5所示,在每次嘗試中都會對周圍的路徑進行探索,并根據(jù)回報值調(diào)整路徑,最終尋得目標點,且基于接收信號的算法在多障礙的情況下也能獲得較好的路徑。

        圖3 基于接收信號強度算法的路徑軌跡Fig.3 Path planning with received signal strength algorithm

        圖4 基于位置距離算法的路徑軌跡Fig.4 Path planning with location distance algorithm

        圖5 多障礙基于接收信號強度算法的路徑軌跡Fig.5 Path planning in multi-obstacles environment with received signal strength algorithm

        如圖6所示,基于接收信號強度的算法前期收斂速度較快,在嘗試20次左右開始收斂;而基于位置距離的算法在嘗試25次左右開始收斂。

        圖6 兩種回報值的收斂過程Fig.6 Convergence process of two reward values

        由此可見,前者比后者具有更好的收斂性,其最少迭代步數(shù)也幾乎是相同的,可以說明以接收信號強度為回報值有較好的規(guī)劃效果。但在研究背景中并無法預(yù)知目標的確切位置,即無人機與目標之間的位置距離并不容易獲得,因此基于接收信號強度的路徑規(guī)劃可以發(fā)揮很好的作用。

        2) 為凸顯改進Q學習算法的優(yōu)勢,仿真中與標準Q學習算法、蟻群算法和粒子群算法進行比較。

        如圖7所示,與其他3種算法相比,導(dǎo)向強化Q學習算法最終規(guī)劃的路徑長度比標準Q學習算法、蟻群算法更優(yōu),有較好的優(yōu)化性能。相對粒子群算法來說,雖然最終規(guī)劃的路徑長度相同,但粒子群算法在50次嘗試后才開始收斂,導(dǎo)向強化Q學習算法在10次嘗試后就逐步收斂到最優(yōu),在算法收斂速度上有絕對優(yōu)勢。

        圖7 不同算法的收斂過程Fig.7 Convergence process of different algorithms

        特別是,標準Q學習算法在嘗試20次左右才開始收斂,相比導(dǎo)向強化Q學習算法收斂速度較慢,且最終優(yōu)化路徑長度效果差。由此可見,“導(dǎo)向強化”原則能夠有效加快Q學習算法的收斂速度,對無人機路徑規(guī)劃有較好的指導(dǎo)效果。

        4 結(jié) 論

        1) 在目標位置信息未知的情況下,該方法以接收信號強度為回報值,能夠迅速準確地規(guī)劃出飛行路徑,與基于位置距離的方法相比,收斂速度更快,表現(xiàn)出了更好的路徑規(guī)劃性能。

        2) 與傳統(tǒng)算法相比,導(dǎo)向強化Q學習算法在收斂性、時間復(fù)雜度和路徑規(guī)劃上優(yōu)勢明顯。從而驗證了“導(dǎo)向強化”原則,可以加快算法收斂速度,在無人機飛行路徑規(guī)劃中有較好的適用性。

        猜你喜歡
        規(guī)劃動作環(huán)境
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        孕期遠離容易致畸的環(huán)境
        環(huán)境
        動作描寫要具體
        規(guī)劃引領(lǐng)把握未來
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        畫動作
        動作描寫不可少
        多管齊下落實規(guī)劃
        精品国模一区二区三区| 亚洲国产综合人成综合网站| 激情人妻另类人妻伦| 久久无码av中文出轨人妻| 久久永久免费视频| 日韩精品中文字幕综合| 中文字幕一二三四五六七区| 国产精品欧美久久久久久日本一道| 又色又污又爽又黄的网站| 久久精品成人91一区二区| 免费看草逼操爽视频网站| 国产午夜免费高清久久影院| 无码粉嫩虎白一线天在线观看| 一区五码在线| 久久国产精品亚洲我射av大全| 国产一二三四2021精字窝| 亚洲啪啪综合av一区| 成人永久福利在线观看不卡| 精品一区二区三区国产av| 午夜三级a三级三点在线观看| 欧美与黑人午夜性猛交久久久| www.日本一区| 粉嫩人妻91精品视色在线看| 蜜臀av无码人妻精品| 少妇高潮喷水正在播放| 亚洲一区极品美女写真在线看 | 国产91第一页| 天堂免费av在线播放| 色先锋av影音先锋在线| 亚洲色在线视频| 国产精品国产三级厂七| 日韩人妻无码精品一专区二区三区| 人妻无码αv中文字幕久久琪琪布 美女视频黄的全免费视频网站 | 蜜桃在线高清视频免费观看网址 | 久久亚洲AV成人一二三区| 国产主播一区二区三区在线观看| 国产freesexvideos中国麻豆 | 免费人成年激情视频在线观看| 欧美人与动牲交片免费| 中文字幕一区二区va| 成人免费自拍视频在线观看 |