亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DDPG的飛行器智能避障仿真應(yīng)用研究

        2021-07-02 01:57:06張仕充時(shí)宏偉
        現(xiàn)代計(jì)算機(jī) 2021年13期
        關(guān)鍵詞:動(dòng)作智能環(huán)境

        張仕充,時(shí)宏偉

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

        0 引言

        飛行器的智能避障指的是在存在障礙物的三維空間環(huán)境中,從出發(fā)點(diǎn)自主避開多個(gè)障礙物體順利達(dá)到目標(biāo)位置的過程。飛行器具有智能避障的能力在無人機(jī)導(dǎo)航、農(nóng)業(yè)無人機(jī)作業(yè)、無人機(jī)救援、民航二次雷達(dá)監(jiān)視以及戰(zhàn)場(chǎng)態(tài)勢(shì)感知決策等場(chǎng)景下具有十分重要的應(yīng)用意義。

        目前,在類似的避障路徑規(guī)劃問題中,已經(jīng)有多種解決算法,例如遺傳算法[1]、蟻群算法[2]等啟發(fā)式算法。但是這些算法存在觀察維度低、局部收斂、動(dòng)作選擇空間離散化以及計(jì)算量太大等問題,很難運(yùn)用在飛行器的智能避障場(chǎng)景下。而強(qiáng)化學(xué)習(xí)[3]作為機(jī)器學(xué)習(xí)的一個(gè)熱門研究領(lǐng)域,其基本思想是通過智能體與環(huán)境進(jìn)行交互,從環(huán)境中獲取一定的獎(jiǎng)賞值,通過最大化地累計(jì)獎(jiǎng)賞值并進(jìn)行學(xué)習(xí),從而找到物體到達(dá)目標(biāo)地點(diǎn)的最優(yōu)策略。其基本過程如圖1所示。飛行器的態(tài)勢(shì)處于一個(gè)連續(xù)變化空間中,并且其在三維空間中進(jìn)行動(dòng)作選擇的空間也是一個(gè)連續(xù)空間。傳統(tǒng)的基于值函數(shù)的Q-learning[4]和SARSA的強(qiáng)化學(xué)習(xí)方法解決連續(xù)變化空間的問題是通過將狀態(tài)動(dòng)作值離散映射到一個(gè)Q表中,而連續(xù)動(dòng)作空間和狀態(tài)空間使用Q表進(jìn)行存取是一種非常耗內(nèi)存并且低效的一種方式。為了改進(jìn)使用Q表的缺點(diǎn),相關(guān)研究提出了Deep Q Network(DQN)算法[5],該算法使用神經(jīng)網(wǎng)絡(luò)來對(duì)狀態(tài)值進(jìn)行擬合,代替Q表,提高了狀態(tài)動(dòng)作空間映射效率且大大減少存儲(chǔ)占用空間。與前文提到的啟發(fā)式算法類似,DQN算法雖然效率更高,但是在面對(duì)高維觀察空間里,同樣只能處理離散和低維的動(dòng)作空間。在飛行器避障等需要連續(xù)動(dòng)作控制的任務(wù)下,確定性策略梯度(De?terministic Policy Gradient,DPG)能夠很好地解決連續(xù)動(dòng)作輸出的場(chǎng)景[6],本文結(jié)合DQN算法和DPG算法,使用基于演員-評(píng)論家算法[7](actor-critic)的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[8]應(yīng)用于飛行器自主避障場(chǎng)景并對(duì)其進(jìn)行仿真實(shí)驗(yàn)。結(jié)果表明該算法能夠較好地學(xué)習(xí)連續(xù)動(dòng)作空間的策略,進(jìn)而為飛行器智能避障等連續(xù)動(dòng)作控制場(chǎng)景提供一定的指導(dǎo)性意義。

        圖1 強(qiáng)化學(xué)習(xí)基本過程

        1 算法原理

        在強(qiáng)化學(xué)習(xí)過程中,智能體和環(huán)境在各個(gè)時(shí)刻進(jìn)行交互,在每個(gè)時(shí)刻t,智能體會(huì)感知到環(huán)境觀測(cè)xt,執(zhí)行一個(gè)動(dòng)作at以及環(huán)境獎(jiǎng)勵(lì)rt,環(huán)境被完全觀察到時(shí),st=xt。

        一個(gè)智能體的行為被定義為策略π,該策略會(huì)把狀態(tài)映射到動(dòng)作空間的一個(gè)概率分布上π:S→P(A)。在強(qiáng)化學(xué)習(xí)概念中,算法模型使用狀態(tài)空間S,動(dòng)作空間A=RN,初始的狀態(tài)分布p(s1),狀態(tài)轉(zhuǎn)移概率p(st+1|st,at)以及獎(jiǎng)勵(lì)函數(shù)r(st,at)來進(jìn)行一個(gè)馬爾可夫決策過程建模。將行為策略π應(yīng)用于馬爾可夫過程來定義一個(gè)馬爾可夫鏈,用Eπ表示該馬爾科夫鏈的期望值。狀態(tài)的總回報(bào)定義為:

        學(xué)習(xí)過程的回報(bào)取決于策略π。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一種策略,該策略可以使初始狀態(tài)Eπ[R1]的期望獎(jiǎng)勵(lì)最大化。

        智能體所獲得的累積回報(bào)用狀態(tài)動(dòng)作值函數(shù)Qπ(公式2)表示。動(dòng)作狀態(tài)值函數(shù)表示在當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a,并且一直遵循策略π到回合結(jié)束,在整個(gè)過程中智能體所獲得的累積回報(bào)。

        傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法中使用Bellman迭代方程求解動(dòng)作狀態(tài)值函數(shù):

        如果目標(biāo)策略是確定的,用函數(shù)μ:S←A表示,進(jìn)一步將上述方程轉(zhuǎn)化為:

        期望僅僅取決于環(huán)境,這就意味著能夠通過不同行為策略μ'產(chǎn)生的狀態(tài)值轉(zhuǎn)換樣本來學(xué)習(xí)Qμ。

        Q-learning作為一個(gè)常用的離線算法[4],它使用貪婪策略(greedy policy):μ(s)=arg maxaQ(s,a),使用由θQ參數(shù)化的函數(shù)逼近器,并通過最小化損耗來對(duì)其進(jìn)行優(yōu)化:

        如果直接將Q-learning用于連續(xù)的動(dòng)作空間是不現(xiàn)實(shí)的,因?yàn)樵谶B續(xù)的動(dòng)作空間找到貪婪策略需要在每一個(gè)時(shí)間步進(jìn)行優(yōu)化,對(duì)于大型的、無限的動(dòng)作空間,優(yōu)化太慢且實(shí)用性不高。

        確定性策略梯度算法(Deterministic Policy Gradi?ent,DPG)維護(hù)一個(gè)參數(shù)化動(dòng)作函數(shù)μ(s|θμ),該函數(shù)通過將狀態(tài)確定性地映射到特定動(dòng)作來指定當(dāng)前策略[6]。在DPG的基礎(chǔ)上,結(jié)合使用actor-critic方法,其中,critic使用Bellman方程學(xué)習(xí),actor網(wǎng)絡(luò)參數(shù)則通過將鏈?zhǔn)揭?guī)則應(yīng)用于公式(4)來更新:

        引入非線性函數(shù)逼近器(神經(jīng)網(wǎng)絡(luò))的缺點(diǎn)是收斂性不能得到保證,同時(shí),這樣的逼近器為學(xué)習(xí)和生成大規(guī)模的狀態(tài)空間是有必要的。DDPG允許神經(jīng)網(wǎng)絡(luò)來在線學(xué)習(xí)大規(guī)模的狀態(tài)和動(dòng)作空間。將神經(jīng)網(wǎng)絡(luò)用于強(qiáng)化學(xué)習(xí)的一個(gè)挑戰(zhàn)是大多數(shù)優(yōu)化算法都假設(shè)樣本是獨(dú)立同分布(Independently and Identically Distributed,IID)的,然而當(dāng)訓(xùn)練樣本來自于環(huán)境中的連續(xù)過程時(shí),不能保證樣本具有獨(dú)立同分布的性質(zhì)。

        DDPG通過使用經(jīng)驗(yàn)重放機(jī)制(replay buffer)來解決這些問題。經(jīng)驗(yàn)池是一個(gè)固定大小且有限的內(nèi)存R。根據(jù)探索策略(exploration policy),狀態(tài)轉(zhuǎn)換樣本采樣于環(huán)境和經(jīng)驗(yàn)池。當(dāng)經(jīng)驗(yàn)池填滿的時(shí)候?qū)?huì)拋棄掉最早存入的樣本。DDPG是一種離線(off-policy)算法,允許算法能夠從一系列不相關(guān)狀態(tài)轉(zhuǎn)換樣本中學(xué)習(xí)。

        在很多環(huán)境中,算法直接用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)Q-learn?ing被證明是不穩(wěn)定的[9]。因?yàn)檎诟碌木W(wǎng)絡(luò)Q(s,a|θQ)也被用于計(jì)算目標(biāo)值yt(見公式6),Q的更新容易不收斂。DDPG算法的解決方式是修改actor-critic和使用軟更新(soft target updates)。DDPG算法模型分別創(chuàng)建了一個(gè)actor和critic網(wǎng)絡(luò)的副本(Q'(s,a|θQ')和μ'(s|θμ'))。用副本網(wǎng)絡(luò)計(jì)算目標(biāo)值,這些目標(biāo)網(wǎng)絡(luò)的權(quán)重參數(shù)通過跟蹤學(xué)習(xí)網(wǎng)絡(luò)延遲更新:

        θ'←τθ+(1 -τ)θ',τ?1。通過這種方式,目標(biāo)值的改變速度被限制得較慢,由此提高了學(xué)習(xí)穩(wěn)定性,使學(xué)習(xí)動(dòng)作值函數(shù)的相對(duì)不穩(wěn)定的問題更接近于監(jiān)督學(xué)習(xí)。DDPG算法的完整描述[8]。

        DDPG算法描述:

        2 模擬仿真實(shí)驗(yàn)

        2.1 狀態(tài)空間設(shè)計(jì)

        狀態(tài)空間(state observation)在強(qiáng)化學(xué)習(xí)算法中主要是對(duì)現(xiàn)實(shí)狀態(tài)環(huán)境進(jìn)行描述。在飛行器避障過程中,基本的狀態(tài)則包括飛行器的經(jīng)緯度坐標(biāo)和高度(lng,lat,hei ght)以及速度(velocity)。實(shí)驗(yàn)中,速度是矢量,此處可以分解成三維坐標(biāo)上的分速度:(velocitylng,velocity lat,velocity height)。

        在仿真實(shí)驗(yàn)中,將經(jīng)緯度坐標(biāo)和高度等信息采用三維坐標(biāo)系表示,將可變環(huán)境觀測(cè)描述為:

        state=[lng,lat,height,velocitylng,velocity lat,velocity height]

        以上的觀測(cè)為可變環(huán)境狀態(tài),除此之外,還有障礙物的屬性,即高度和經(jīng)緯度坐標(biāo),對(duì)于障礙物信息的狀態(tài)觀測(cè)信息,屬于不可變的環(huán)境信息。在實(shí)驗(yàn)中,障礙物信息硬編碼在交互環(huán)境中,在交互過程中,根據(jù)飛行器的狀態(tài)給與獎(jiǎng)勵(lì)或懲罰。

        2.2 決策空間設(shè)計(jì)

        決策空間(action space)指的是智能體做能夠采取的動(dòng)作空間。在飛行器的避障過程中,主要是飛行器的狀態(tài)改變。因此決策行為就是改變飛行器的運(yùn)動(dòng)速度,結(jié)合狀態(tài)空間的做法,在智能體做決策時(shí),主要改變的三維立體坐標(biāo)分速度的變化量,通過這個(gè)變化量使得環(huán)境的狀態(tài)(飛行器的實(shí)時(shí)狀態(tài))被改變。單步動(dòng)作表示為:

        2.3 環(huán)境交互規(guī)則

        環(huán)境是智能體交互的空間,智能體通過與環(huán)境交互來得到獎(jiǎng)賞值,從而影響智能體的動(dòng)作。在環(huán)境中,主要的部分是定義飛行器如何獲得獎(jiǎng)懲的方式以及初始化環(huán)境狀態(tài)。通過定義和編寫step函數(shù)來實(shí)現(xiàn)智能體的每一步動(dòng)作來獲得獎(jiǎng)懲值并且改變環(huán)境的狀態(tài)。在實(shí)現(xiàn)中,將動(dòng)作傳入后,計(jì)算新的環(huán)境狀態(tài),根據(jù)該環(huán)境狀態(tài)來計(jì)算獎(jiǎng)勵(lì)值的大?。喝绻悄荏w已經(jīng)達(dá)到目標(biāo)位置,則給與較大獎(jiǎng)勵(lì)值,回合結(jié)束;如果智能進(jìn)去障礙物區(qū)域,則給予較大的懲罰值(負(fù)的獎(jiǎng)勵(lì)值),回合結(jié)束。除了以上兩種情況,為了讓每一步智能體都有所獎(jiǎng)勵(lì),交互環(huán)境根據(jù)智能體位置和目標(biāo)點(diǎn)的相對(duì)距離來進(jìn)行獎(jiǎng)勵(lì)值的計(jì)算。假設(shè)獎(jiǎng)勵(lì)值是越大越好,交互環(huán)境根據(jù)飛行器位置與目標(biāo)點(diǎn)的相對(duì)距離的相反數(shù)給獎(jiǎng)勵(lì)值,流程如圖2所示。

        圖2 環(huán)境交互規(guī)則流程

        環(huán)境狀態(tài)的更新方法如公式(8)、公式(9),飛行器新的速度等于原速度與速度變化量相加。新的坐標(biāo)等于原坐標(biāo)與單位時(shí)間速度相加。

        在飛行器的每一步運(yùn)行中所得的獎(jiǎng)勵(lì)值計(jì)算方法如式(10)-式(11):

        O表示出發(fā)點(diǎn)位置,L表示飛行器當(dāng)前位置,G表示目標(biāo)點(diǎn)。負(fù)值獎(jiǎng)勵(lì)表示距離目標(biāo)位置越近,獎(jiǎng)勵(lì)越大;e表示碰撞障礙物之后獎(jiǎng)勵(lì)值的懲罰項(xiàng),為常數(shù)。

        2.4 實(shí)驗(yàn)

        本文的應(yīng)用背景設(shè)定為在三維空間中,飛行器從起始點(diǎn)自主達(dá)到目標(biāo)點(diǎn)范圍。在空間中存在多個(gè)障礙物體,當(dāng)飛行器與障礙物體接觸時(shí)任務(wù)失敗。算法的訓(xùn)練目標(biāo)是不斷調(diào)整飛行器的運(yùn)動(dòng)屬性,使得飛行器全程均能避過障礙體區(qū)域,到達(dá)目標(biāo)點(diǎn)范圍,即可完成任務(wù)設(shè)定的目標(biāo)。初始化場(chǎng)景如圖3所示,紅色點(diǎn)為出發(fā)點(diǎn),綠色點(diǎn)為目標(biāo)點(diǎn),其他深色長(zhǎng)方體為障礙物,他們均在同一直線上。

        圖3 初始化場(chǎng)景設(shè)定

        由算法(表1)實(shí)現(xiàn)的DDPG網(wǎng)絡(luò)模型結(jié)構(gòu)圖如圖4所示,其中actor、critic、target_actor、target_critic網(wǎng)絡(luò)為三層全連接網(wǎng)絡(luò),隱藏層均使用ReLU激活函數(shù),網(wǎng)絡(luò)的經(jīng)驗(yàn)重放池容量為10000,獎(jiǎng)勵(lì)折扣系數(shù)為0.99,優(yōu)化器為Adam,學(xué)習(xí)率(learning rate)為0.01,單次訓(xùn)練樣本數(shù)(batch size)為32。

        圖4 DDPG網(wǎng)絡(luò)模型結(jié)構(gòu)

        2.5 仿真結(jié)果分析

        仿真實(shí)驗(yàn)通過DDPG算法與同樣是基于連續(xù)動(dòng)作空間選擇的傳統(tǒng)DPG算法進(jìn)行對(duì)比,兩種算法均在同一交互環(huán)境中運(yùn)行。圖5所示為傳統(tǒng)DPG算法的回合累積獎(jiǎng)勵(lì)變化曲線,圖6所示為DDPG算法的回合累積獎(jiǎng)勵(lì)變化曲線。縱坐標(biāo)表示從單個(gè)回合開始到結(jié)束的回合累積獎(jiǎng)勵(lì)值,橫坐標(biāo)表示回合序號(hào)。每個(gè)回合運(yùn)行步數(shù)為1800步,單步獎(jiǎng)勵(lì)根據(jù)公式(11)計(jì)算得出,由于初始狀態(tài)的出發(fā)點(diǎn)并不在目標(biāo)點(diǎn),兩點(diǎn)之間存在初始距離,所以每回合累積獎(jiǎng)勵(lì)不會(huì)為0。

        圖5 傳統(tǒng)DPG算法回合累積獎(jiǎng)勵(lì)

        圖6 DDPG算法回合累積獎(jiǎng)勵(lì)

        從回合累積折扣獎(jiǎng)勵(lì)看來,傳統(tǒng)DPG算法的回合累積獎(jiǎng)勵(lì)在240回合之前不太穩(wěn)定,之后穩(wěn)定在-13800左右;DDPG算法在經(jīng)過170回合后的回合累積獎(jiǎng)勵(lì)趨于一個(gè)平穩(wěn)值,在-4000左右,由此一直穩(wěn)定到所有回合結(jié)束。根據(jù)公式(11)定義的單步獎(jiǎng)勵(lì)所積累的回合獎(jiǎng)勵(lì)也從側(cè)面反映了規(guī)劃路徑距離和最佳路徑(起始點(diǎn)到目標(biāo)點(diǎn)直線距離)之間的差距。從圖5、圖6可以看出,傳統(tǒng)DPG算法在240回合之后累積獎(jiǎng)勵(lì)絕對(duì)值比DDPG算法在170回合之后累積獎(jiǎng)勵(lì)絕對(duì)值大。這也體現(xiàn)出傳統(tǒng)DPG算法規(guī)劃的路徑與理想最佳路徑之間的最終差距比DDPG算法所規(guī)劃路徑的較大。

        DPG算法第300回合結(jié)束生成的路徑如圖7所示,因?yàn)閱蝹€(gè)回合步數(shù)限制,在單個(gè)回合結(jié)束之后沒有到達(dá)目標(biāo)點(diǎn)位置。DDPG算法在300回合時(shí)生成的規(guī)劃路徑如圖8所示。從出發(fā)點(diǎn)幾乎直線達(dá)到目標(biāo)點(diǎn),由于三維圖像的視角因素,該路線經(jīng)過最低障礙物上方,其余障礙物下方達(dá)到目標(biāo)點(diǎn)位置,并不是直線。觸碰到障礙物體時(shí)會(huì)導(dǎo)致回合結(jié)束,不會(huì)產(chǎn)生到達(dá)目標(biāo)點(diǎn)的完整路徑。在這兩種生成的路徑規(guī)劃圖中,均有一定的走向目標(biāo)地點(diǎn)的運(yùn)動(dòng)趨勢(shì)。但是DDPG得益與Q'網(wǎng)絡(luò)和μ'網(wǎng)絡(luò)的糾正效果以及經(jīng)驗(yàn)重放單元,收斂性較為凸出,網(wǎng)絡(luò)整體學(xué)習(xí)效果較高,DDPG算法比傳統(tǒng)的DPG算法在相同的飛行器避障環(huán)境下路徑的生成效果較優(yōu)秀,而且所需要訓(xùn)練的回合數(shù)較少,所以在飛行器智能避障的連續(xù)動(dòng)作控制場(chǎng)景中,DDPG算法具有一定的應(yīng)用指導(dǎo)價(jià)值。

        圖7 傳統(tǒng)DPG規(guī)劃路徑

        圖8 DDPG規(guī)劃路徑

        3 結(jié)語

        人工智能的主要目標(biāo)之一就是利用未經(jīng)處理的高維傳感數(shù)據(jù)來解決復(fù)雜的任務(wù)。強(qiáng)化學(xué)習(xí)算法DQN的提出,使得機(jī)器的智能程度在某些游戲上能夠達(dá)到或超越人類的游戲水平。但是DQN主要處理離散低維動(dòng)作空間。而現(xiàn)實(shí)生活場(chǎng)景中,存在了各種各樣的連續(xù)控制問題和需求。通過DQN結(jié)合用于連續(xù)動(dòng)作選擇的DPG算法,DDPG吸收這兩種算法各自的優(yōu)勢(shì)。相比較傳統(tǒng)的DPG算法,在連續(xù)動(dòng)作控制上,產(chǎn)生了更好的效果。本文基于DDPG的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)飛行器在空間多障礙體環(huán)境中進(jìn)行智能避障,到達(dá)目標(biāo)地點(diǎn)。飛行器的飛行控制的動(dòng)作選擇是一個(gè)連續(xù)的動(dòng)作空間,該場(chǎng)景和DDPG算法適用場(chǎng)景一致,通過仿真模擬研究,實(shí)驗(yàn)效果較明顯。

        猜你喜歡
        動(dòng)作智能環(huán)境
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動(dòng)作描寫要具體
        畫動(dòng)作
        国产精品女同一区二区免费站| 亚洲xx视频| 三级黄片一区二区三区| 伊人久久大香线蕉av五月| 爱性久久久久久久久| 98bb国产精品视频| 亚洲日本视频一区二区三区| 91偷拍与自偷拍亚洲精品86 | 国产精品无码一区二区三区电影| 久久久久久久久888| 99久久综合狠狠综合久久一区| 久久99免费精品国产| 999精品无码a片在线1级| 狼色精品人妻在线视频| 精品国产91久久久久久久a| 日本视频在线播放一区二区 | 亚洲av老熟女一区二区三区 | 最新在线观看免费的a站国产| 久久天天躁狠狠躁夜夜不卡| 黄 色 人 成 网 站 免 费| 亚洲色偷偷偷综合网另类小说| 免费看黄片的视频在线观看| 日韩欧美成人免费观看| 亚洲综合中文字幕乱码在线| 伊人久久大香线蕉综合av| 亚洲一级电影在线观看| 最新亚洲精品国偷自产在线| 国产精品区一区二区三在线播放 | 欧美黑人巨大xxxxx| 中国人妻沙发上喷白将av| 日本成人午夜一区二区三区| 日韩欧美成人免费观看| 欧美亚洲国产日韩一区二区三区| 精品国精品国产自在久国产应用| 亚洲AV色欲色欲WWW| 不卡av网站一区二区三区| 东京热人妻一区二区三区| 日本动态120秒免费| 亚洲国产色图在线视频| 成人性生交大片免费入口| 久久久久亚洲精品无码网址色欲|