亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無(wú)人機(jī)自主航跡規(guī)劃智能算法綜述

        2023-07-20 22:55:57郭啟敏張鵬王應(yīng)洋王石
        航空兵器 2023年3期
        關(guān)鍵詞:無(wú)人機(jī)自主性

        郭啟敏 張鵬 王應(yīng)洋 王石

        摘 要:自主能力是無(wú)人機(jī)跨代升級(jí)的根本能力和直接推手。 隨著人工智能技術(shù)的顛覆變革, 基于智能算法的自主航跡規(guī)劃技術(shù)成為提高無(wú)人機(jī)自主能力的關(guān)鍵技術(shù), 具有重要研究?jī)r(jià)值。 本文首先總結(jié)國(guó)內(nèi)外相關(guān)研究, 提出對(duì)無(wú)人系統(tǒng)自主性的理解, 對(duì)智能算法應(yīng)用于無(wú)人機(jī)自主航跡規(guī)劃的優(yōu)勢(shì)進(jìn)行分析, 然后從算法改進(jìn)方式入手, 對(duì)進(jìn)化算法、? 群智能算法、? 神經(jīng)網(wǎng)絡(luò)、? 強(qiáng)化學(xué)習(xí)算法和深度強(qiáng)化學(xué)習(xí)等航跡規(guī)劃智能算法進(jìn)行分類(lèi)梳理和總結(jié), 最后結(jié)合當(dāng)前無(wú)人機(jī)自主航跡規(guī)劃面臨的挑戰(zhàn), 對(duì)未來(lái)的研究方向進(jìn)行展望。

        關(guān)鍵詞:無(wú)人機(jī); 航跡規(guī)劃; 自主性; 智能優(yōu)化算法; 機(jī)器學(xué)習(xí)算法; 算法改進(jìn)

        中圖分類(lèi)號(hào): TJ760; V279文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào): 1673-5048(2023)03-0029-12

        DOI: 10.12132/ISSN.1673-5048.2022.0220

        0 引言

        無(wú)人機(jī)在空戰(zhàn)中地位作用日益突出, 如何提高在高對(duì)抗、? 強(qiáng)拒止戰(zhàn)場(chǎng)環(huán)境中的自主作戰(zhàn)能力, 成為各國(guó)重點(diǎn)研究方向, 美軍將自主性列為加速無(wú)人系統(tǒng)作戰(zhàn)應(yīng)用的四大驅(qū)動(dòng)力之一[1]。 無(wú)人機(jī)自主能力涵蓋自主感知、? 自主判斷、? 自主決策、? 自主行動(dòng)等多個(gè)方面。 其中, 無(wú)人機(jī)航跡規(guī)劃是無(wú)人機(jī)遂行任務(wù)的核心環(huán)節(jié), 航跡規(guī)劃的優(yōu)劣關(guān)系到無(wú)人機(jī)的生存和任務(wù)能力。 因此, 無(wú)人機(jī)自主航跡規(guī)劃技術(shù)成為影響無(wú)人機(jī)自主能力的關(guān)鍵因素。

        近年來(lái), 以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)飛速發(fā)展, 實(shí)現(xiàn)與多種應(yīng)用場(chǎng)景的深度融合[2]。 在軍事領(lǐng)域, 人工智能技術(shù)成為推動(dòng)軍事革命的核心力量, 世界軍事大國(guó)紛紛搶先布局人工智能, 塑造未來(lái)新型戰(zhàn)場(chǎng)優(yōu)勢(shì), 掌握智能化戰(zhàn)爭(zhēng)主動(dòng)權(quán)。 將基于人工智能技術(shù)的智能算法應(yīng)用于無(wú)人機(jī)自主航跡規(guī)劃, 能夠避免傳統(tǒng)航跡規(guī)劃算法的不足, 實(shí)現(xiàn)復(fù)雜、? 動(dòng)態(tài)、? 高度不確定性戰(zhàn)場(chǎng)環(huán)境下的自主航跡規(guī)劃。

        1 無(wú)人系統(tǒng)自主性及其內(nèi)涵

        自主性(Autonomy)是行為主體按自己意愿行事的動(dòng)機(jī)、? 能力或特性。 提高無(wú)人系統(tǒng)自主性, 對(duì)壓縮“OODA”回路的循環(huán)周期[3]、? 占據(jù)戰(zhàn)場(chǎng)主動(dòng)權(quán)具有重要意義。

        1.1 無(wú)人系統(tǒng)自主性定義

        20世紀(jì)70年代, 研究人員將自主性概念引入無(wú)人系統(tǒng)領(lǐng)域后, 自主性就成為衡量無(wú)人系統(tǒng)智能化程度的重要指標(biāo), 但至今未形成被廣泛認(rèn)同的定義。 美軍對(duì)無(wú)人系統(tǒng)自主性的研究有3項(xiàng)。

        (1) 圍繞能力需求

        美國(guó)空軍研究實(shí)驗(yàn)室(AFRL)于2000年提出自主作戰(zhàn)概念, 認(rèn)為無(wú)人作戰(zhàn)系統(tǒng)應(yīng)具備態(tài)勢(shì)感知、? 信息處理、? 控制重構(gòu)和自適應(yīng)能力, 能夠在沒(méi)有人類(lèi)干預(yù)情況下, 制定最優(yōu)策略完成給定任務(wù)。 美國(guó)無(wú)人系統(tǒng)自主性等級(jí)工作組(ALFUS)將無(wú)人系統(tǒng)自主性定義為系統(tǒng)具有傳感、? 感知、? 分析、? 通信、? 規(guī)劃、? 決策和執(zhí)行能力, 完成由人類(lèi)指定的任務(wù)或由其他無(wú)人系統(tǒng)分配的任務(wù)[4]。

        (2) 提煉行為特征

        美國(guó)空軍實(shí)驗(yàn)室專(zhuān)家Bruce Clough認(rèn)為, 自主系統(tǒng)能夠不受外界影響進(jìn)行合理決策, 具備在沒(méi)有指揮員指令時(shí)完成任務(wù)和為實(shí)現(xiàn)目標(biāo)開(kāi)發(fā)任務(wù)的能力, 即自主系統(tǒng)有自由意志[5]。 美國(guó)國(guó)防部在《無(wú)人系統(tǒng)綜合路線(xiàn)圖(2011-2036)》[6]中指出, 自主系統(tǒng)能夠在不確定情況下以目標(biāo)導(dǎo)向方式優(yōu)化自身行為。 報(bào)告認(rèn)為無(wú)人系統(tǒng)應(yīng)具備與人類(lèi)操作員和其他無(wú)人系統(tǒng)的交互協(xié)作能力, 以及適應(yīng)環(huán)境、? 任務(wù)變化并從中學(xué)習(xí)的能力。

        (3) 自主行為的核心

        美國(guó)空軍在2019年版《自主地平線(xiàn)》[7]中未明確定義無(wú)人系統(tǒng)自主性, 而是針對(duì)系統(tǒng)行為提出了“WHAT,? WHAT-NOT,? WHY,? NOT-HOW”模型, 即通過(guò)在任務(wù)環(huán)境中告訴無(wú)人系統(tǒng)“做什么、? 不做什么、? 為什么做和不做的后果”來(lái)描述自主行為, 認(rèn)為熟練性、? 可信賴(lài)性和靈活性三組屬性是自主行為的核心。

        國(guó)內(nèi)對(duì)無(wú)人系統(tǒng)自主性研究中, 高勁松等[8]將無(wú)人機(jī)自主性定義為無(wú)人機(jī)在沒(méi)有外界指導(dǎo)下根據(jù)作戰(zhàn)目標(biāo)產(chǎn)生自己意圖的能力。 胡曉峰等[9]認(rèn)為自主性是將決策權(quán)賦予智能系統(tǒng), 使其能夠在特定范圍內(nèi)自由采取行動(dòng)。 劉暢等[10]對(duì)無(wú)人機(jī)可變自主展開(kāi)研究, 認(rèn)為無(wú)人機(jī)系統(tǒng)自主等級(jí)應(yīng)根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)變化、? 任務(wù)需求和操作員意圖共同決定。 鄭劍[11]對(duì)無(wú)人作戰(zhàn)系統(tǒng)自主性的描述較為全面, 即無(wú)人作戰(zhàn)系統(tǒng)根據(jù)自身能力, 精確獲取戰(zhàn)場(chǎng)環(huán)境信息, 通過(guò)系統(tǒng)內(nèi)部間交流協(xié)作, 在操作人員監(jiān)督下進(jìn)行獨(dú)立判斷、? 決策并完成作戰(zhàn)任務(wù)的能力。

        從國(guó)內(nèi)外無(wú)人系統(tǒng)自主性定義研究中, 得出結(jié)論: (1)自主性的重要性體現(xiàn)在復(fù)雜、? 動(dòng)態(tài)、? 高度不確定性的戰(zhàn)場(chǎng)環(huán)境中; (2)自主性是更高級(jí)別的自動(dòng)化, 自主系統(tǒng)通過(guò)目標(biāo)導(dǎo)向方式優(yōu)化自身行為; (3)自主性體現(xiàn)在無(wú)人系統(tǒng)領(lǐng)受任務(wù)后, 在沒(méi)有人類(lèi)干預(yù)情況下獨(dú)立完成任務(wù)的能力; (4)自主性包括自主感知、? 判斷、? 決策和行動(dòng), 自主決策是自主性的核心。

        綜上所述, 對(duì)無(wú)人系統(tǒng)自主性可理解為: 無(wú)人系統(tǒng)自主性的最終目標(biāo)不是讓系統(tǒng)脫離人的控制, 而是實(shí)現(xiàn)人機(jī)合作的高度自主。 自主性代表無(wú)人系統(tǒng)的獨(dú)立性水平, 無(wú)人系統(tǒng)應(yīng)具備在復(fù)雜、? 動(dòng)態(tài)、? 高度不確定性戰(zhàn)場(chǎng)環(huán)境中理解、? 學(xué)習(xí)、? 協(xié)作和自適應(yīng)的能力, 在沒(méi)有人類(lèi)干預(yù)情況下通過(guò)目標(biāo)導(dǎo)向獨(dú)立完成任務(wù)。 無(wú)人系統(tǒng)的自主級(jí)別應(yīng)根據(jù)戰(zhàn)場(chǎng)環(huán)境和操作員意圖動(dòng)態(tài)調(diào)整, 并使無(wú)人系統(tǒng)始終處于操作人員的監(jiān)控下。

        1.2 無(wú)人系統(tǒng)自主性?xún)?nèi)涵

        (1) 自主感知認(rèn)知

        自主感知認(rèn)知是指無(wú)人系統(tǒng)利用自身攜帶的多樣化傳感設(shè)備, 對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)要素進(jìn)行綜合感知, 使用信息融合技術(shù)對(duì)感知信息進(jìn)行融合處理, 實(shí)現(xiàn)對(duì)動(dòng)態(tài)戰(zhàn)場(chǎng)環(huán)境的準(zhǔn)確理解和敵方作戰(zhàn)意圖的準(zhǔn)確判斷, 從而使無(wú)人系統(tǒng)達(dá)到人類(lèi)指揮員的認(rèn)知水平。 自主感知認(rèn)知能力是無(wú)人系統(tǒng)從戰(zhàn)場(chǎng)邊緣進(jìn)入戰(zhàn)場(chǎng)中心的基礎(chǔ)保證。

        (2) 自主規(guī)劃決策

        自主規(guī)劃決策是無(wú)人系統(tǒng)在自主感知認(rèn)知能力基礎(chǔ)上, 綜合分析戰(zhàn)場(chǎng)環(huán)境變化和敵我雙方作戰(zhàn)要素變化, 不依賴(lài)指揮員指令進(jìn)行作戰(zhàn)規(guī)劃, 最終實(shí)現(xiàn)任務(wù)目標(biāo)約束下的快速輔助規(guī)劃決策。 2020年, 在DARPA人工智能近距空戰(zhàn)格斗比賽中, 蒼鷺公司的自主空戰(zhàn)算法以5∶0的總比分擊敗了經(jīng)驗(yàn)豐富的美軍F-16飛行教官。 自主規(guī)劃決策能力是提高無(wú)人系統(tǒng)作戰(zhàn)效能的必然要求。

        (3) 自主協(xié)同交互

        自主協(xié)同交互是指利用協(xié)同交互技術(shù), 解決多無(wú)人系統(tǒng)、? 無(wú)人/有人系統(tǒng)間的協(xié)同問(wèn)題和人機(jī)之間的交互問(wèn)題, 使無(wú)人系統(tǒng)能夠跨系統(tǒng)相互通信、? 共享信息并與人類(lèi)協(xié)同完成作戰(zhàn)任務(wù)。 美國(guó)“忠誠(chéng)僚機(jī)”項(xiàng)目通過(guò)有人機(jī)與自主作戰(zhàn)無(wú)人機(jī)高效集成, 實(shí)現(xiàn)有人-無(wú)人編隊(duì)協(xié)同作戰(zhàn), 對(duì)空中、? 地面目標(biāo)實(shí)施打擊。 自主協(xié)同交互能力是無(wú)人系統(tǒng)融入聯(lián)合作戰(zhàn)體系的關(guān)鍵要素。

        (4) 自主學(xué)習(xí)

        隨著現(xiàn)代戰(zhàn)爭(zhēng)從物理域、? 信息域向認(rèn)知域拓展, 通過(guò)學(xué)習(xí)數(shù)據(jù)中的模式模型, 開(kāi)發(fā)出具備自主學(xué)習(xí)和決策能力的無(wú)人系統(tǒng), 使系統(tǒng)具有類(lèi)人智能[1]。 因此, 未來(lái)無(wú)人系統(tǒng)不是一成不變的, 而是根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)信息不斷學(xué)習(xí)進(jìn)化, 這種學(xué)習(xí)能力將使無(wú)人系統(tǒng)實(shí)現(xiàn)高度自主。 自主學(xué)習(xí)能力是推進(jìn)自主感知認(rèn)知、? 自主規(guī)劃決策、? 自主協(xié)同交互向更深層次發(fā)展的力量倍增器。

        2 航跡規(guī)劃智能算法優(yōu)勢(shì)

        2.1 航跡規(guī)劃問(wèn)題

        無(wú)人機(jī)自主航跡規(guī)劃是在滿(mǎn)足性能約束和保證飛行安全的前提下, 生成一條連接起點(diǎn)和終點(diǎn)的最優(yōu)任務(wù)航線(xiàn)[12], 其實(shí)質(zhì)是一類(lèi)多約束條件下的最優(yōu)化問(wèn)題。

        無(wú)人機(jī)航跡規(guī)劃按任務(wù)需求可分為預(yù)先航跡規(guī)劃和實(shí)時(shí)航跡規(guī)劃。 預(yù)先航跡規(guī)劃是基于環(huán)境先驗(yàn)信息的全局優(yōu)化, 因此在合理時(shí)間內(nèi)得到全局近似最優(yōu)解更具現(xiàn)實(shí)意義; 實(shí)時(shí)航跡規(guī)劃是應(yīng)對(duì)突發(fā)威脅的航線(xiàn)局部?jī)?yōu)化, 需要盡量縮短規(guī)劃時(shí)間以達(dá)到實(shí)時(shí)性要求。

        求解航跡規(guī)劃問(wèn)題的主要方法是將航跡規(guī)劃問(wèn)題轉(zhuǎn)換為狀態(tài)空間的航線(xiàn)優(yōu)化問(wèn)題, 利用優(yōu)化算法獲得最優(yōu)解。 當(dāng)前, 針對(duì)小范圍、? 已知環(huán)境下的航跡規(guī)劃研究已經(jīng)較為成熟, 未來(lái)重點(diǎn)研究方向是大范圍復(fù)雜場(chǎng)景和動(dòng)態(tài)不確定環(huán)境下的航跡規(guī)劃研究[13]。 因此, 航跡規(guī)劃算法的改進(jìn)、? 創(chuàng)新和應(yīng)用也是未來(lái)研究的重點(diǎn)和難點(diǎn)。

        2.2 智能算法優(yōu)勢(shì)分析

        航跡規(guī)劃算法分為傳統(tǒng)優(yōu)化算法和智能算法兩大類(lèi)。 其中傳統(tǒng)優(yōu)化算法又分為圖搜索算法、? 空間采樣算法、? 勢(shì)場(chǎng)法等。 A*算法[14]作為一種被廣泛應(yīng)用的圖搜索算法, 實(shí)現(xiàn)較為簡(jiǎn)單, 但是在大范圍高維空間中搜索效率低, 難以解決多約束的航跡規(guī)劃問(wèn)題; 快速擴(kuò)展隨機(jī)樹(shù)法[15]是一種典型空間采樣算法, 無(wú)需離散化飛行環(huán)境, 搜索速度快, 但是難以獲得最優(yōu)航線(xiàn); 人工勢(shì)場(chǎng)法[16]規(guī)劃速度快、? 實(shí)時(shí)性好, 但在大范圍高維空間中存在局部震蕩、? 局部極小值等情況導(dǎo)致航線(xiàn)不可用。 因此, 傳統(tǒng)優(yōu)化算法能夠在簡(jiǎn)單環(huán)境下具有較好的航跡規(guī)劃效果, 但是難以高效解決復(fù)雜、? 動(dòng)態(tài)、? 高度不確定性戰(zhàn)場(chǎng)環(huán)境下的無(wú)人機(jī)自主航跡規(guī)劃問(wèn)題。

        近年來(lái), 智能算法因具有高并行性、? 強(qiáng)魯棒性、? 自組織自學(xué)習(xí)等特點(diǎn), 被廣泛應(yīng)用于復(fù)雜環(huán)境下的無(wú)人機(jī)自主航跡規(guī)劃問(wèn)題[17]。 與傳統(tǒng)優(yōu)化算法相比, 智能算法在復(fù)雜環(huán)境下有以下優(yōu)勢(shì):

        (1) 魯棒性。 復(fù)雜環(huán)境體現(xiàn)在規(guī)劃空間的復(fù)雜。 自主航跡規(guī)劃問(wèn)題是NP-hard問(wèn)題, 傳統(tǒng)優(yōu)化算法在小規(guī)模空間中具有明顯優(yōu)勢(shì), 隨著空間規(guī)模增大, 計(jì)算復(fù)雜度呈指數(shù)增加, 易產(chǎn)生“組合爆炸”; 智能算法構(gòu)建啟發(fā)式目標(biāo)(獎(jiǎng)勵(lì))函數(shù), 采用并行計(jì)算和自組織、? 自學(xué)習(xí)方式, 在簡(jiǎn)單和復(fù)雜環(huán)境中均表現(xiàn)出良好適用性。

        (2) 實(shí)時(shí)性。 復(fù)雜環(huán)境也體現(xiàn)在約束條件的復(fù)雜, 需全面考慮無(wú)人機(jī)自身性能約束和動(dòng)態(tài)變化的各類(lèi)威脅、? 障礙, 因此, 自主航跡規(guī)劃問(wèn)題是一類(lèi)多極值優(yōu)化問(wèn)題。 與傳統(tǒng)優(yōu)化算法相比, 智能算法在求解多極值優(yōu)化問(wèn)題時(shí), 犧牲得到最優(yōu)航跡的可能卻獲得更快的收斂速度, 更符合航跡規(guī)劃實(shí)時(shí)性需求。

        綜上, 相比傳統(tǒng)優(yōu)化算法, 智能算法在解決多約束條件下的優(yōu)化問(wèn)題上具有明顯優(yōu)勢(shì), 更加適用于復(fù)雜、? 動(dòng)態(tài)、? 高度不確定性戰(zhàn)場(chǎng)環(huán)境下的無(wú)人機(jī)自主航跡規(guī)劃。

        3 無(wú)人機(jī)自主航跡規(guī)劃智能算法

        無(wú)人機(jī)自主航跡規(guī)劃智能算法分為兩類(lèi): 智能優(yōu)化算法和機(jī)器學(xué)習(xí)算法。 圖1為無(wú)人機(jī)自主航跡規(guī)劃智能算法分類(lèi)圖。

        3.1 智能優(yōu)化算法

        智能優(yōu)化算法通過(guò)模擬大自然的某種現(xiàn)象或生物群體的自組織行為解決無(wú)人機(jī)自主航跡規(guī)劃等組合優(yōu)化問(wèn)題, 具有易實(shí)現(xiàn)、? 啟發(fā)性、? 并行處理等特點(diǎn)。

        3.1.1 進(jìn)化算法

        進(jìn)化算法來(lái)源于大自然的生物進(jìn)化現(xiàn)象。 在無(wú)人機(jī)自主航跡規(guī)劃中常用的進(jìn)化算法有遺傳算法和差分進(jìn)化算法。

        (1)? 遺傳算法

        遺傳算法(Genetic Algorithm, GA)是一類(lèi)基于生物進(jìn)化論和遺傳學(xué)機(jī)理的隨機(jī)搜索優(yōu)化算法[18]。 在航跡規(guī)劃中, 對(duì)初始航線(xiàn)進(jìn)行基因編碼, 依據(jù)各類(lèi)約束建立適應(yīng)度函數(shù), 通過(guò)選擇、? 交叉、? 變異等遺傳算子逐代演化出最優(yōu)航跡。

        遺傳算法具有魯棒性、? 隱含并行性[19] 特點(diǎn), 有較強(qiáng)的全局搜索能力, 適用于求解復(fù)雜環(huán)境的無(wú)人機(jī)航跡規(guī)劃問(wèn)題。 但是遺傳算法在算法后期的局部搜索能力差, 同時(shí)存在早熟性收斂、? 規(guī)劃時(shí)間長(zhǎng)的缺點(diǎn)。 針對(duì)上述缺點(diǎn), 研究人員主要從種群初始化、? 遺傳算子、? 種群結(jié)構(gòu)和適應(yīng)度函數(shù)等方面進(jìn)行改進(jìn)。

        ① 種群初始化策略改進(jìn)。 文獻(xiàn)[20]通過(guò)Logistic混沌映射生成初始航線(xiàn), 通過(guò)反向搜索降低初始航線(xiàn)交叉概率, 該算法能夠提高初始航線(xiàn)質(zhì)量, 縮短航跡規(guī)劃時(shí)間。 文獻(xiàn)[21]針對(duì)Logistic映射不能均勻遍歷解空間的缺點(diǎn), 采用Tent映射方法初始化航線(xiàn), 同時(shí)引入自適應(yīng)遺傳算子, 使交叉、? 變異概率隨適應(yīng)度值變化自動(dòng)調(diào)整。

        ② 遺傳算子改進(jìn)。 文獻(xiàn)[22]通過(guò)改進(jìn)輪盤(pán)賭選擇算子和引入插入算子、? 刪除算子, 保證路徑連續(xù)且最短, 采用精英保留策略避免了進(jìn)化過(guò)程丟失最優(yōu)路徑。 文獻(xiàn)[23]提出基于模糊自適應(yīng)遺傳算法的路徑規(guī)劃方法, 通過(guò)模糊邏輯控制器動(dòng)態(tài)調(diào)整交叉、? 變異概率, 在增強(qiáng)多樣性的同時(shí)提高路徑搜索效率。

        ③ 種群結(jié)構(gòu)改進(jìn)。 隨著迭代次數(shù)增加, 高適應(yīng)度航線(xiàn)會(huì)重復(fù)出現(xiàn)(即同質(zhì)化現(xiàn)象), 導(dǎo)致早熟性收斂。 文獻(xiàn)[24]提出一種基于多種群遷移遺傳算法的路徑規(guī)劃方法, 將種群劃分為多個(gè)小種群并賦予不同功能, 利用種群間遷移機(jī)制代替選擇機(jī)制, 有效解決了同質(zhì)化現(xiàn)象。

        ④ 適應(yīng)度函數(shù)改進(jìn)。 文獻(xiàn)[25]將轉(zhuǎn)彎次數(shù)和航線(xiàn)角度等約束引入適應(yīng)度函數(shù), 提高航線(xiàn)平滑度, 但是多約束條件下通過(guò)線(xiàn)性加權(quán)法建立適應(yīng)度函數(shù), 存在權(quán)重選擇難題。 針對(duì)此問(wèn)題, 文獻(xiàn)[26]提出基于改進(jìn)NSGA-Ⅱ算法的多目標(biāo)無(wú)人機(jī)航跡規(guī)劃方法, 同時(shí)對(duì)航線(xiàn)長(zhǎng)度、? 航線(xiàn)威脅、? 最大轉(zhuǎn)彎角等多個(gè)目標(biāo)函數(shù)進(jìn)行優(yōu)化, 得到一組分布多樣化的最優(yōu)路徑。

        (2) 差分進(jìn)化算法

        差分進(jìn)化算法(Differential Evolution, DE)是一類(lèi)基于群體差異的隨機(jī)搜索優(yōu)化算法。 與遺傳算法類(lèi)似, 在航跡規(guī)劃中, 對(duì)初始航線(xiàn)編碼建立各類(lèi)約束的適應(yīng)度函數(shù), 通過(guò)變異、? 交叉、? 選擇等操作, 迭代得到最優(yōu)航跡。

        差分進(jìn)化算法結(jié)構(gòu)簡(jiǎn)單、? 魯棒性強(qiáng), 獨(dú)特的記憶功能使其具有較強(qiáng)的全局搜索能力, 適用于求解無(wú)人機(jī)航跡規(guī)劃等組合優(yōu)化問(wèn)題。 針對(duì)標(biāo)準(zhǔn)差分進(jìn)化算法早熟收斂和收縮停滯[27]等缺點(diǎn), 主要從控制參數(shù)、? 進(jìn)化策略和種群結(jié)構(gòu)等方面改進(jìn), 也可以與其他優(yōu)化算法結(jié)合使用。

        ① 控制參數(shù)、? 進(jìn)化策略改進(jìn)。 文獻(xiàn)[28]引入基于正弦余弦算法的變異策略、? 融合擾動(dòng)的交叉策略和自適應(yīng)縮放因子, 改進(jìn)差分進(jìn)化算法, 應(yīng)用于無(wú)人機(jī)三維航跡規(guī)劃, 得到能夠有效避開(kāi)各類(lèi)障礙的更短航線(xiàn)。 文獻(xiàn)[29]將改進(jìn)差分進(jìn)化算法用于無(wú)人機(jī)低空突防三維航跡規(guī)劃, 采用馮·諾依曼拓?fù)浣Y(jié)構(gòu)和改進(jìn)變異算子優(yōu)化進(jìn)化策略, 使用相對(duì)極坐標(biāo)方式初始化航線(xiàn)縮小解空間, 航跡規(guī)劃效果優(yōu)于標(biāo)準(zhǔn)差分進(jìn)化算法。

        ② 種群結(jié)構(gòu)改進(jìn)。 文獻(xiàn)[30]提出一種多策略融合的差分進(jìn)化算法, 通過(guò)劃分多個(gè)子種群并采取不同變異策略, 使算法兼顧全局和局部搜索能力, 同時(shí)引入基于教學(xué)的參數(shù)自適應(yīng)策略動(dòng)態(tài)調(diào)整縮放因子和交叉概率, 有效解決了多目標(biāo)約束的無(wú)人機(jī)航跡規(guī)劃問(wèn)題。

        ③ 與其他優(yōu)化算法結(jié)合。 文獻(xiàn)[31]提出一種基于APSODE-MS算法的無(wú)人機(jī)三維航跡規(guī)劃方法, 在自適應(yīng)粒子群算法基礎(chǔ)上, 引入含動(dòng)態(tài)縮放因子的差分進(jìn)化算法, 增加航線(xiàn)多樣性, 改善粒子群算法收斂速度慢等問(wèn)題, 具有比傳統(tǒng)PSO和DE算法更好的航跡規(guī)劃效果。

        表1為基于進(jìn)化算法的無(wú)人機(jī)自主航跡規(guī)劃方法的改進(jìn)和對(duì)比。

        3.1.2 群智能算法

        群智能算法主要模擬生物群體與環(huán)境交互而表現(xiàn)出的集體自組織行為。 無(wú)人機(jī)自主航跡規(guī)劃中常用的群智能算法有粒子群算法、? 蟻群算法、? 人工蜂群算法等。

        (1) 粒子群算法

        粒子群算法(Particle Swarm Optimization, PSO)是一類(lèi)模擬鳥(niǎo)群覓食行為的群智能搜索優(yōu)化算法。 在航跡規(guī)劃中, 每個(gè)粒子代表一條航線(xiàn), 建立適應(yīng)度函數(shù)評(píng)價(jià)粒子的航線(xiàn)質(zhì)量, 根據(jù)粒子間信息共享指導(dǎo)粒子運(yùn)動(dòng)由無(wú)序向有序演變, 最終得到最優(yōu)航線(xiàn)。

        粒子群算法具有參數(shù)設(shè)置少、? 搜索速度快等優(yōu)點(diǎn), 被廣泛用于無(wú)人機(jī)自主航跡規(guī)劃, 但是易陷入局部最優(yōu)、? 收斂速度慢等缺點(diǎn)影響了算法的應(yīng)用效果。 研究人員主要從控制參數(shù)、? 更新策略、? 拓?fù)浣Y(jié)構(gòu)和與其他優(yōu)化算法結(jié)合等方面改進(jìn)算法。

        ① 控制參數(shù)改進(jìn)。 文獻(xiàn)[32]設(shè)計(jì)一種隨種群進(jìn)化過(guò)程自適應(yīng)線(xiàn)性變化的加速系數(shù)和最大速度, 提高航跡規(guī)劃的最優(yōu)性和快速性。 文獻(xiàn)[33]采用“階梯式”慣性權(quán)重調(diào)整方法, 相比于線(xiàn)性型、? 指數(shù)型自適應(yīng)參數(shù)調(diào)整方法, 提高了航跡規(guī)劃效率。

        ② 更新策略改進(jìn)。 文獻(xiàn)[34]提出自適應(yīng)學(xué)習(xí)粒子群算法, 在優(yōu)化階段從4種粒子更新策略中自適應(yīng)選擇更新策略, 有效提高航線(xiàn)質(zhì)量。 文獻(xiàn)[35]通過(guò)在更新規(guī)則中引入自適應(yīng)柯西變異算子, 有效改進(jìn)航線(xiàn)質(zhì)量、? 減少規(guī)劃時(shí)間。

        ③ 拓?fù)浣Y(jié)構(gòu)改進(jìn)。 文獻(xiàn)[36]將全局與局部粒子群算法結(jié)合, 提出混合粒子群算法, 與全局或局部粒子群算法相比, 有效縮短多目標(biāo)航跡規(guī)劃時(shí)間。

        ④ 與其他優(yōu)化算法結(jié)合。 文獻(xiàn)[37]將粒子群算法與可見(jiàn)性圖結(jié)合求解無(wú)人車(chē)路徑規(guī)劃問(wèn)題, 采用基于搜索空間縮減技術(shù)的改進(jìn)Dijkstra算法初始化種群, 有效避免 陷入局部最優(yōu)。 文獻(xiàn)[38]在粒子更新階段引入正弦余弦算法, 提高船舶避撞路徑規(guī)劃的速度和準(zhǔn)確性。

        此外, 通過(guò)改變搜索空間和粒子編碼方式, 研究人員提出多種航跡規(guī)劃改進(jìn)算法, 如相位角編碼粒子群算法[39](θ-PSO)、? 量子粒子群算法[40](QPSO), 這兩種改進(jìn)算法的性能均優(yōu)于標(biāo)準(zhǔn)粒子群算法, 但是在復(fù)雜環(huán)境中仍難以找到最優(yōu)航線(xiàn)。 文獻(xiàn)[41]提出一種基于球面矢量的粒子群算法, 將搜索空間從傳統(tǒng)笛卡爾空間轉(zhuǎn)移到配置空間, 通過(guò)球面矢量的幅值、? 仰角和方位角分量與無(wú)人機(jī)運(yùn)動(dòng)分量之間的相互關(guān)系實(shí)現(xiàn)復(fù)雜環(huán)境中的無(wú)人機(jī)航跡規(guī)劃。

        (2) 蟻群算法

        蟻群算法(Ant Colony Optimization, ACO)是一類(lèi)模擬螞蟻覓食行為的群智能搜索優(yōu)化算法, 主要包括初始化、? 構(gòu)建問(wèn)題解和信息素更新三部分。 在航跡規(guī)劃中, 將空間離散化并賦予初始信息素, 螞蟻的搜索路徑代表可行航跡, 通過(guò)信息素迭代更新, 蟻群在正反饋?zhàn)饔孟录械阶顑?yōu)航線(xiàn)。

        蟻群算法具有正反饋特點(diǎn), 魯棒性強(qiáng)、? 實(shí)現(xiàn)簡(jiǎn)單, 被廣泛用于無(wú)人機(jī)自主航跡規(guī)劃, 但是存在易陷入局部最優(yōu)、? 收斂速度慢等問(wèn)題。 研究人員從信息素初始化、? 狀態(tài)轉(zhuǎn)移規(guī)則、? 信息素更新策略、? 搜索策略、? 種群結(jié)構(gòu)等方面改進(jìn)算法來(lái)滿(mǎn)足自主航跡規(guī)劃要求。

        ① 信息素初始化策略改進(jìn)。 傳統(tǒng)蟻群算法采用均勻分布的信息素初始策略, 導(dǎo)致盲目搜索、? 計(jì)算量大等問(wèn)題。 文獻(xiàn)[42]綜合考慮節(jié)點(diǎn)到起點(diǎn)連線(xiàn)距離和節(jié)點(diǎn)到終點(diǎn)距離, 提出航線(xiàn)初始信息素非均勻分布策略, 用更少迭代次數(shù)得到最優(yōu)航線(xiàn)。 文獻(xiàn)[43]引入人工魚(yú)群算法進(jìn)行預(yù)搜索, 優(yōu)化信息素初始分布, 將擁擠度因子引入狀態(tài)轉(zhuǎn)移規(guī)則, 實(shí)現(xiàn)水下無(wú)人航行器三維路徑規(guī)劃。

        ② 狀態(tài)轉(zhuǎn)移規(guī)則、? 信息素更新策略改進(jìn)。 狀態(tài)轉(zhuǎn)移和信息素更新是蟻群算法的核心。 文獻(xiàn)[44]將轉(zhuǎn)彎角引導(dǎo)因子和障礙物排除因子引入狀態(tài)轉(zhuǎn)移規(guī)則, 并提出基于路徑質(zhì)量和自適應(yīng)信息素?fù)]發(fā)因子的信息素更新策略, 提高路徑規(guī)劃速度和避障能力。 文獻(xiàn)[45]提出動(dòng)態(tài)調(diào)整影響因子的參數(shù)自適應(yīng)狀態(tài)轉(zhuǎn)移策略和差異化-動(dòng)態(tài)分級(jí)信息素更新策略, 解決蟻群算法在復(fù)雜環(huán)境中規(guī)劃效率低的問(wèn)題。

        ③ 搜索策略改進(jìn)。 文獻(xiàn)[46]引入一種三維空間局部搜索策略, 根據(jù)無(wú)人機(jī)機(jī)動(dòng)性能約束, 縮小螞蟻可選節(jié)點(diǎn)范圍, 降低空間復(fù)雜度。 文獻(xiàn)[47]提出一種基于概率的隨機(jī)游走搜索策略, 通過(guò)交替使用布朗運(yùn)動(dòng)和柯西運(yùn)動(dòng)構(gòu)造新路徑, 平衡算法搜索和收斂能力。

        ④ 種群結(jié)構(gòu)改進(jìn)。 文獻(xiàn)[48]提出一種雙向并行搜索策略, 將蟻群等分為兩組, 從起點(diǎn)和終點(diǎn)相向搜索, 改進(jìn)算法以較快速度找到最優(yōu)路徑。 文獻(xiàn)[49]提出一種多種群博弈蟻群算法, 將博弈論相關(guān)思想應(yīng)用于蟻群間信息交流, 提高搜索效率和路徑規(guī)劃質(zhì)量。

        (3) 人工蜂群算法

        人工蜂群算法(Artificial Bee Colony, ABC)是一類(lèi)模擬蜜蜂采蜜行為的群智能搜索優(yōu)化算法, 由蜜源、? 引領(lǐng)蜂、? 跟隨蜂、? 偵察蜂四部分組成。 蜜源代表航跡規(guī)劃問(wèn)題的可行解, 引領(lǐng)蜂、? 跟隨蜂進(jìn)行航線(xiàn)的局部搜索和信息共享, 偵察蜂在搜索停滯時(shí)尋找新航線(xiàn), 經(jīng)多次迭代得到的最優(yōu)蜜源即為最優(yōu)航線(xiàn)。

        人工蜂群算法魯棒性強(qiáng), 具有控制參數(shù)少、? 實(shí)現(xiàn)簡(jiǎn)單等優(yōu)點(diǎn), 適用于求解無(wú)人機(jī)自主航跡規(guī)劃問(wèn)題。 但存在局部搜索能力較弱、? 收斂速度較慢等缺點(diǎn)。

        ①? 搜索策略和選擇策略是人工蜂群算法的核心, 主要從這兩方面同時(shí)進(jìn)行改進(jìn)。 文獻(xiàn)[50]提出一種多改進(jìn)策略融合的無(wú)人直升機(jī)航跡規(guī)劃方法, 用搜索策略規(guī)則庫(kù)代替隨機(jī)搜索策略, 在規(guī)則庫(kù)中融合基于自我知識(shí)、? 其他個(gè)體知識(shí)[51]、? 最優(yōu)個(gè)體知識(shí)、? 種群平均知識(shí)的4種搜索策略, 根據(jù)不同飛行環(huán)境選擇合適搜索策略, 采用集成反饋機(jī)制代替輪盤(pán)賭選擇策略, 改進(jìn)算法提高了復(fù)雜環(huán)境下的航跡規(guī)劃質(zhì)量。 針對(duì)傳統(tǒng)人工蜂群算法隨機(jī)搜索策略是一維搜索的局限性, 文獻(xiàn)[52]提出一種基于強(qiáng)化學(xué)習(xí)的人工蜂群算法, 首先為引領(lǐng)蜂和跟隨蜂設(shè)計(jì)不同的搜索策略, 引入基于重尾分布的尺度因子, 提高搜索隨機(jī)性, 其次在引領(lǐng)蜂階段, 通過(guò)強(qiáng)化學(xué)習(xí)算法動(dòng)態(tài)調(diào)整搜索方程中的更新維度, 獲得良好的航跡規(guī)劃效果。 其他改進(jìn)方法有鄰域結(jié)構(gòu)搜索策略[53-54]、? Boltzmann選擇策略[55]、? 排序選擇策略[56]、? 隨機(jī)分組機(jī)制選擇策略[57]等。

        ②? 從蜜源初始化、? 種群結(jié)構(gòu)等方面對(duì)算法進(jìn)行改進(jìn)。 文獻(xiàn)[58]將混沌思想和反向?qū)W習(xí)方法引入蜜源初始化階段, 使蜜蜂能夠充分搜索解空間, 增加種群多樣性。 文獻(xiàn)[59]根據(jù)種群進(jìn)化狀態(tài)自適應(yīng)調(diào)整種群規(guī)模, 平衡算法搜索和收斂能力。 文獻(xiàn)[60]提出一種自適應(yīng)多種群人工蜂群算法, 能夠根據(jù)進(jìn)化狀態(tài)調(diào)整子種群數(shù)量, 具有更好的搜索效果。

        (4) 其他算法

        除常用算法外, 近些年研究人員將多種新型群智能算法用于求解無(wú)人機(jī)自主航跡規(guī)劃問(wèn)題, 如布谷鳥(niǎo)搜索算法[61](Cuckoo Search, CS)、? 蝙蝠算法[62](Bat Algorithm, BA)、? 鯨魚(yú)優(yōu)化算法[63](Whale Optimization Algorithm, WOA)、? 樽海鞘群算法[64](Salp Swarm Algorithm, SSA)、? 郊狼優(yōu)化算法[65](Coyote Optimization Algorithm, COA)等, 這些算法均被證明具有良好的航跡規(guī)劃效果。

        表2為基于群智能算法的無(wú)人機(jī)自主航跡規(guī)劃方法的改進(jìn)和對(duì)比。

        3.2 機(jī)器學(xué)習(xí)算法

        機(jī)器學(xué)習(xí)算法通過(guò)模擬人類(lèi)的學(xué)習(xí)行為, 實(shí)現(xiàn)在航線(xiàn)樣本或飛行環(huán)境中的自主學(xué)習(xí), 解決復(fù)雜環(huán)境下的無(wú)人機(jī)自主航跡規(guī)劃等組合優(yōu)化問(wèn)題, 具有自主性強(qiáng)、? 實(shí)時(shí)性好等優(yōu)勢(shì)。

        3.2.1 神經(jīng)網(wǎng)絡(luò)

        神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)是一類(lèi)模擬生物神經(jīng)網(wǎng)絡(luò)行為的智能計(jì)算模型, 由大量簡(jiǎn)單同質(zhì)的神經(jīng)元相互連接而成, 其信息處理方式是一種基于神經(jīng)元的結(jié)構(gòu)化傳遞[66]。 神經(jīng)網(wǎng)絡(luò)能夠擬合復(fù)雜非線(xiàn)性函數(shù), 因此具有較好的泛化能力、? 非線(xiàn)性映射能力和學(xué)習(xí)能力, 是無(wú)人機(jī)自主航跡規(guī)劃的重要研究方向。

        基于神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)自主航跡規(guī)劃方法分為兩類(lèi)。 一是使用神經(jīng)網(wǎng)絡(luò)直接生成飛行航線(xiàn), 再利用其他方法優(yōu)化航線(xiàn)。 文獻(xiàn)[67]將無(wú)人機(jī)威脅信息、? 搜索信息、? 位置信息作為神經(jīng)網(wǎng)絡(luò)輸入, 引擎推力作為網(wǎng)絡(luò)輸出, 使用神經(jīng)網(wǎng)絡(luò)直接控制無(wú)人機(jī)運(yùn)動(dòng), 再通過(guò)構(gòu)建適應(yīng)度函數(shù), 利用遺傳算法選擇最優(yōu)飛行航線(xiàn), 更新網(wǎng)絡(luò)參數(shù), 有效解決飛行樣本有限、? 環(huán)境信息未知等問(wèn)題, 但此類(lèi)方法存在局限性, 不能確保所得航跡為近似最優(yōu)解。 二是使用神經(jīng)網(wǎng)絡(luò)計(jì)算目標(biāo)函數(shù), 再使用其他方法生成飛行航線(xiàn)。 文獻(xiàn)[68]首先使用動(dòng)態(tài)步長(zhǎng)策略初始化航跡, 使用神經(jīng)網(wǎng)絡(luò)建立威脅能量函數(shù), 網(wǎng)絡(luò)輸入為航點(diǎn)與威脅邊緣距離, 輸出為航點(diǎn)的威脅能量函數(shù)值, 再利用梯度下降法構(gòu)建關(guān)于函數(shù)的運(yùn)動(dòng)方程, 使航線(xiàn)快速遠(yuǎn)離威脅。 此類(lèi)方法利用神經(jīng)網(wǎng)絡(luò)并行計(jì)算特點(diǎn), 同時(shí)檢測(cè)航線(xiàn)是否與所有威脅發(fā)生碰撞, 縮短目標(biāo)函數(shù)計(jì)算時(shí)間, 多與智能優(yōu)化算法結(jié)合使用[69-70]。

        模糊邏輯是運(yùn)用模糊集理論求解不確定性問(wèn)題的人工智能方法, 將模糊邏輯和神經(jīng)網(wǎng)絡(luò)相結(jié)合, 發(fā)揮模糊邏輯推理的結(jié)構(gòu)性知識(shí)表達(dá)能力和神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)能力, 可以實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。 文獻(xiàn)[71]將自適應(yīng)神經(jīng)模糊推理系統(tǒng)應(yīng)用于機(jī)器人路徑規(guī)劃中, 通過(guò)基于模糊推理的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)動(dòng)態(tài)障礙下的路徑規(guī)劃。 文獻(xiàn)[72]提出一種混合神經(jīng)模糊控制器, 先將障礙物距離輸入神經(jīng)網(wǎng)絡(luò)得到目標(biāo)角, 再將目標(biāo)角和障礙物距離輸入模糊系統(tǒng)得到最佳目標(biāo)角度值, 控制機(jī)器人獲得最優(yōu)路徑。

        深度神經(jīng)網(wǎng)絡(luò)是包含多個(gè)隱含層的神經(jīng)網(wǎng)絡(luò), 通過(guò)學(xué)習(xí)飛行樣本的內(nèi)在規(guī)律進(jìn)行航跡規(guī)劃。 文獻(xiàn)[73]提出一種基于殘差卷積神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)實(shí)時(shí)航跡規(guī)劃方法, 從包含環(huán)境信息的訓(xùn)練集中提取的無(wú)人機(jī)位置、? 目標(biāo)位置和局部環(huán)境信息作為網(wǎng)絡(luò)輸入, 網(wǎng)絡(luò)輸出為環(huán)境狀態(tài)和無(wú)人機(jī)航向, 經(jīng)過(guò)離線(xiàn)訓(xùn)練后的網(wǎng)絡(luò)模型具有較好的實(shí)時(shí)航跡規(guī)劃能力。 文獻(xiàn)[74]提出一種端到端的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 將三維航跡規(guī)劃問(wèn)題轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)分類(lèi)問(wèn)題, 引入動(dòng)作分解和合成概念, 通過(guò)2D卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)值迭代過(guò)程, 解決三維航跡規(guī)劃問(wèn)題。

        3.2.2 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是指智能體通過(guò)與環(huán)境交互獲得最優(yōu)行動(dòng)策略的一類(lèi)機(jī)器學(xué)習(xí)方法[66]。 智能體依據(jù)策略π執(zhí)行動(dòng)作at后, 狀態(tài)st轉(zhuǎn)移至新?tīng)顟B(tài)st+1, 同時(shí)環(huán)境反饋給智能體一個(gè)獎(jiǎng)勵(lì)r, 智能體根據(jù)獎(jiǎng)勵(lì)r更新行動(dòng)策略π*并執(zhí)行新的動(dòng)作at+1, 智能體通過(guò)與環(huán)境交互進(jìn)行“試錯(cuò)”學(xué)習(xí), 最終獲得最優(yōu)行動(dòng)策略。 圖2所示為強(qiáng)化學(xué)習(xí)模型。

        無(wú)人機(jī)航跡規(guī)劃問(wèn)題可以轉(zhuǎn)換為從起始狀態(tài)到目標(biāo)狀態(tài)的基于馬爾科夫決策過(guò)程的強(qiáng)化學(xué)習(xí)問(wèn)題, 學(xué)習(xí)得到的最優(yōu)行動(dòng)策略可為無(wú)人機(jī)在復(fù)雜飛行環(huán)境下進(jìn)行自主決策提供依據(jù)。 不同于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí), 強(qiáng)化學(xué)習(xí)不依賴(lài)樣本數(shù)據(jù), 因此適用于飛行樣本較少的無(wú)人機(jī)自主航跡規(guī)劃問(wèn)題。

        文獻(xiàn)[75]提出基于接收信號(hào)強(qiáng)度的導(dǎo)向強(qiáng)化Q-learning算法, 以接收信號(hào)強(qiáng)度作為獎(jiǎng)勵(lì), 以導(dǎo)向強(qiáng)化原則更新Q函數(shù)優(yōu)化動(dòng)作選擇, 通過(guò)在強(qiáng)化學(xué)習(xí)中引入啟發(fā)式思想提高無(wú)人機(jī)在未知環(huán)境下的學(xué)習(xí)效率。 文獻(xiàn)[76]提出一種雙層Q-learning算法, 低層算法處理靜態(tài)障礙信息, 用于全局航跡規(guī)劃, 高層算法處理動(dòng)態(tài)障礙信息, 用于局部航跡規(guī)劃, 通過(guò)在強(qiáng)化學(xué)習(xí)中引入分層思想?yún)f(xié)同規(guī)劃無(wú)人機(jī)無(wú)碰撞路徑。

        3.2.3 深度強(qiáng)化學(xué)習(xí)

        在航跡規(guī)劃中, 復(fù)雜飛行環(huán)境意味著存在高維原始數(shù)據(jù)輸入, 將這些數(shù)據(jù)直接作為強(qiáng)化學(xué)習(xí)的狀態(tài)輸入很難被計(jì)算機(jī)處理和理解, 最終導(dǎo)致維數(shù)災(zāi)難[77]。 借助深度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力逐層提取環(huán)境狀態(tài)信息, 提高系統(tǒng)處理和泛化能力, 這是深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)的思想。

        基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)航跡規(guī)劃方法按照策略更新方式分為基于價(jià)值函數(shù)和基于策略的兩類(lèi)方法。

        (1) 基于價(jià)值函數(shù)的深度強(qiáng)化學(xué)習(xí)方法

        基于價(jià)值函數(shù)的DRL方法是一類(lèi)間接方法, 通過(guò)最大化價(jià)值函數(shù)間接優(yōu)化策略。 DeepMind團(tuán)隊(duì)提出深度Q網(wǎng)絡(luò)[78](Deep Q-Network, DQN), 將卷積神經(jīng)網(wǎng)絡(luò)與Q-learning算法結(jié)合, 使用深度神經(jīng)網(wǎng)絡(luò)端到端的擬合Q表, 一定程度解決了維數(shù)災(zāi)難問(wèn)題。

        文獻(xiàn)[79]提出一種ANOA算法用于無(wú)人車(chē)實(shí)時(shí)路徑規(guī)劃, ANOA算法采用競(jìng)爭(zhēng)Q網(wǎng)絡(luò)(Dueling DQN)結(jié)構(gòu), 將狀態(tài)動(dòng)作值分為狀態(tài)值函數(shù)和動(dòng)作優(yōu)勢(shì)函數(shù)兩部分, 使網(wǎng)絡(luò)能夠?qū)W到在沒(méi)有動(dòng)作影響下的環(huán)境狀態(tài)價(jià)值, 算法效率優(yōu)于DQN算法。 文獻(xiàn)[80]將基于Rainbow模型的深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于海戰(zhàn)場(chǎng)路徑規(guī)劃, Rainbow模型融合了Double DQN網(wǎng)絡(luò)、? 優(yōu)先經(jīng)驗(yàn)回放、? Dueling網(wǎng)絡(luò)、? 噪聲網(wǎng)絡(luò)、? 分布式學(xué)習(xí)、? 多步學(xué)習(xí)等6種DQN算法改進(jìn)機(jī)制, 實(shí)驗(yàn)證明該算法有更優(yōu)的路徑規(guī)劃效果。 文獻(xiàn)[81]將Deep-Sarsa算法用于無(wú)人機(jī)航跡規(guī)劃, Deep-Sarsa在Sarsa算法基礎(chǔ)上, 同樣使用深度神經(jīng)網(wǎng)絡(luò)端到端的擬合Q表, 采用同策略(on-policy)學(xué)習(xí)方法, 學(xué)習(xí)速度更快, 在實(shí)時(shí)航跡規(guī)劃方面有更好表現(xiàn)。

        基于價(jià)值函數(shù)的DRL方法適用于離散動(dòng)作空間的航跡規(guī)劃, 但無(wú)法處理連續(xù)動(dòng)作空間, 且無(wú)法解決隨機(jī)策略問(wèn)題[82]。

        (2) 基于策略的深度強(qiáng)化學(xué)習(xí)方法

        基于策略的DRL方法是一類(lèi)直接方法, 通過(guò)優(yōu)化策略搜索方式直接優(yōu)化策略。 其基本思想是在策略π中引入?yún)?shù)θ構(gòu)建概率函數(shù)πθ(s, a), 通過(guò)學(xué)習(xí)參數(shù)θ逐漸逼近最優(yōu)策略。 參數(shù)化的函數(shù)形式使算法復(fù)雜度不受狀態(tài)動(dòng)作數(shù)的影響, 且函數(shù)輸入可以是連續(xù)的, 因此適用于高維連續(xù)動(dòng)作空間。

        在航跡規(guī)劃研究中, 基于Actor-Critic的深度強(qiáng)化學(xué)習(xí)方法是近些年的研究熱點(diǎn)。 Actor-Critic算法[83]引入價(jià)值函數(shù)評(píng)估策略函數(shù), 使策略學(xué)習(xí)方法可以單步更新, 提高學(xué)習(xí)效率。 其中Actor網(wǎng)絡(luò)由策略梯度法衍生而來(lái), 通過(guò)學(xué)習(xí)策略函數(shù)生成策略, 指導(dǎo)動(dòng)作選擇; Critic網(wǎng)絡(luò)由價(jià)值函數(shù)法衍生而來(lái), 通過(guò)學(xué)習(xí)價(jià)值函數(shù), 對(duì)策略進(jìn)行估值并反饋給Actor網(wǎng)絡(luò)進(jìn)行策略?xún)?yōu)化。 圖3所示為Actor-Critic算法框架。

        通過(guò)對(duì)相關(guān)研究的分析總結(jié), 將基于Actor-Critic的DRL方法分為隨機(jī)策略DRL方法和確定性策略DRL方法。

        ① 隨機(jī)策略DRL方法是指在Actor中利用隨機(jī)策略梯度定理學(xué)習(xí)策略參數(shù)θ進(jìn)行策略?xún)?yōu)化, 在Critic中使用深度神經(jīng)網(wǎng)絡(luò)擬合價(jià)值函數(shù)Q。 由于隨機(jī)策略在相同狀態(tài)下每次選擇的動(dòng)作不同, 因此算法具有良好的探索性。

        信賴(lài)域策略?xún)?yōu)化算法[84](Trust Region Policy Optimization, TRPO)引入信賴(lài)域算法進(jìn)行策略?xún)?yōu)化, 以KL散度作為步長(zhǎng)約束條件, 解決了傳統(tǒng)策略梯度算法步長(zhǎng)選擇不合理的問(wèn)題, 但是計(jì)算過(guò)程復(fù)雜, 未能解決實(shí)際航跡規(guī)劃問(wèn)題。

        近端策略?xún)?yōu)化算法[85](Proximal Policy Optimization, PPO)是TRPO算法的簡(jiǎn)化版本。 算法將新舊策略的KL散度作為懲罰項(xiàng), 大幅簡(jiǎn)化計(jì)算步驟, 學(xué)習(xí)效率更高。 文獻(xiàn)[86]提出一種基于Safe-PPO算法的路徑規(guī)劃方法, 在PPO算法中引入?yún)f(xié)方差自適應(yīng)進(jìn)化策略, 解決傳統(tǒng)PPO算法的方差適應(yīng)性問(wèn)題。 文獻(xiàn)[87]提出一種基于異步多線(xiàn)程 PPO算法的航跡規(guī)劃方法, 引入異步機(jī)制統(tǒng)一全局和局部規(guī)劃過(guò)程, 提高學(xué)習(xí)效率。

        針對(duì)PPO算法大量采樣導(dǎo)致學(xué)習(xí)效率較低的問(wèn)題, 文獻(xiàn)[88]提出了SAC(Soft Actor-Critic)算法, SAC算法是一類(lèi)基于最大熵框架的異策略(off-policy)隨機(jī)策略梯度算法, 最大熵強(qiáng)化學(xué)習(xí)框架平均動(dòng)作選擇概率, 提高空間探索能力, off-policy方法減少了樣本采樣次數(shù), 提高學(xué)習(xí)效率。 在航跡規(guī)劃應(yīng)用中, 文獻(xiàn)[89]將多層并行注意力機(jī)制網(wǎng)絡(luò)模型引入SAC算法, 通過(guò)多代理系統(tǒng)與注意力機(jī)制相結(jié)合提高算法性能, 實(shí)現(xiàn)未知?jiǎng)討B(tài)環(huán)境下的高效路徑規(guī)劃。 文獻(xiàn)[90]提出一種改進(jìn)SAC算法, 通過(guò)建立綜合獎(jiǎng)勵(lì)函數(shù)將問(wèn)題描述為最大化獎(jiǎng)勵(lì)的策略問(wèn)題, 引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制改變樣本權(quán)重, 解決隨機(jī)抽樣樣本利用率低的問(wèn)題, 實(shí)現(xiàn)機(jī)器人自主避障規(guī)劃。

        ② 確定性策略DRL方法是指在Actor中利用確定性策略梯度定理最大化價(jià)值函數(shù)Q進(jìn)行策略?xún)?yōu)化, 在Critic中使用深度神經(jīng)網(wǎng)絡(luò)擬合價(jià)值函數(shù)Q。 由于確定性策略在相同狀態(tài)下每次選擇的動(dòng)作是確定的, 采樣數(shù)據(jù)更少、? 效率更高, 因此算法更適合高維連續(xù)動(dòng)作空間。

        文獻(xiàn)[91]提出深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)。 該算法基于上述思想構(gòu)造4個(gè)網(wǎng)絡(luò)學(xué)習(xí)策略函數(shù)和價(jià)值函數(shù), 通過(guò)獨(dú)立目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)回放機(jī)制打破數(shù)據(jù)相關(guān)性。 在航跡規(guī)劃應(yīng)用中, 文獻(xiàn)[92]提出一種相關(guān)經(jīng)驗(yàn)學(xué)習(xí)DDPG算法以解決無(wú)人機(jī)自主運(yùn)動(dòng)規(guī)劃問(wèn)題, 引入雙重篩選抽樣方法, 利用優(yōu)先經(jīng)驗(yàn)回放機(jī)制和經(jīng)驗(yàn)相關(guān)性函數(shù)找到最適合當(dāng)前無(wú)人機(jī)狀態(tài)的舊經(jīng)驗(yàn)進(jìn)行學(xué)習(xí), 同時(shí)調(diào)整學(xué)習(xí)和動(dòng)作選擇順序, 增加學(xué)習(xí)過(guò)程對(duì)當(dāng)前狀態(tài)動(dòng)作選擇的影響, 獲得比DDPG算法更好的航跡規(guī)劃效果。 雙延遲深度確定性策略梯度算法[93](Twin Delayed DDPG, TD3)是DDPG算法的改進(jìn)版本, 通過(guò)加入目標(biāo)策略平滑、? 裁剪雙Q網(wǎng)絡(luò)、? 策略延遲更新三種改進(jìn)方法, 解決DDPG算法過(guò)高估計(jì)問(wèn)題, 提高了算法效率。 文獻(xiàn)[94]提出一種具有雙流網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)TD3算法, 該算法從環(huán)境變化信息中提取環(huán)境特征, 感知?jiǎng)討B(tài)障礙物運(yùn)動(dòng)趨勢(shì), 使無(wú)人機(jī)能夠在動(dòng)態(tài)環(huán)境中安全快速地到達(dá)終點(diǎn)。

        3.3 算法應(yīng)用比較

        智能優(yōu)化算法和機(jī)器學(xué)習(xí)算法均適用于無(wú)人機(jī)自主航跡規(guī)劃問(wèn)題, 其中智能優(yōu)化算法長(zhǎng)于搜索而不擅長(zhǎng)學(xué)習(xí), 機(jī)器學(xué)習(xí)算法長(zhǎng)于學(xué)習(xí)而不擅長(zhǎng)搜索。 通過(guò)梳理智能算法研究現(xiàn)狀, 對(duì)比智能優(yōu)化算法和機(jī)器學(xué)習(xí)算法應(yīng)用情況, 得到相關(guān)結(jié)論。

        (1) 智能優(yōu)化算法結(jié)構(gòu)簡(jiǎn)單、? 易于實(shí)現(xiàn), 對(duì)計(jì)算機(jī)配置要求不高, 更適合在地面控制站使用。 其多為啟發(fā)式算法, 可拓展性強(qiáng), 通過(guò)融合多重改進(jìn)策略, 適用于多樣化場(chǎng)景的預(yù)先航跡規(guī)劃。

        但是, 在解空間變大時(shí), 該算法普遍存在易陷入局部最優(yōu)、? 收斂速度慢的缺點(diǎn), 難以把握搜索和收斂的平衡, 導(dǎo)致航線(xiàn)規(guī)劃質(zhì)量沒(méi)有保證、? 規(guī)劃時(shí)間較長(zhǎng)等問(wèn)題, 因此在復(fù)雜環(huán)境下的實(shí)時(shí)航跡規(guī)劃效果不理想。

        (2) 機(jī)器學(xué)習(xí)算法具有非線(xiàn)性映射能力, 通過(guò)學(xué)習(xí)航線(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律得到一個(gè)航跡規(guī)劃策略, 當(dāng)環(huán)境發(fā)生變化需要航線(xiàn)重規(guī)劃時(shí), 無(wú)需像智能優(yōu)化算法那樣需要重新進(jìn)行搜索, 適用于實(shí)時(shí)航跡規(guī)劃。

        數(shù)據(jù)驅(qū)動(dòng)是機(jī)器學(xué)習(xí)的特點(diǎn), 但無(wú)人機(jī)航線(xiàn)數(shù)據(jù)較少, 制約了機(jī)器學(xué)習(xí)在航跡規(guī)劃中的應(yīng)用; 深度強(qiáng)化學(xué)習(xí)存在不穩(wěn)定性, 如算法初期盲目搜索會(huì)影響規(guī)劃效率, 數(shù)據(jù)訓(xùn)練不充分、? 超參數(shù)設(shè)置不合理均會(huì)影響航線(xiàn)質(zhì)量; 此外, 機(jī)器學(xué)習(xí)是黑箱模型, 在實(shí)際作戰(zhàn)使用中存在著信任問(wèn)題。

        4 展望

        無(wú)人機(jī)自主航跡規(guī)劃智能算法仍存在很多問(wèn)題有待深入研究, 可從5個(gè)方面進(jìn)行梳理。

        (1) 貼近真實(shí)戰(zhàn)場(chǎng)的環(huán)境模型

        近些年, 無(wú)人機(jī)實(shí)時(shí)三維航跡規(guī)劃成為研究熱點(diǎn), 但是在成果和論文數(shù)量方面仍少于二維預(yù)先航跡規(guī)劃[17]。 隨著各類(lèi)無(wú)人機(jī)在戰(zhàn)場(chǎng)上的廣泛運(yùn)用, 二維預(yù)先航跡規(guī)劃無(wú)法保證無(wú)人機(jī)安全性和任務(wù)能力, 迫切需要無(wú)人機(jī)具備實(shí)時(shí)航跡規(guī)劃能力, 以應(yīng)對(duì)復(fù)雜、? 動(dòng)態(tài)、? 高度不確定的戰(zhàn)場(chǎng)環(huán)境。 傳統(tǒng)優(yōu)化方法依賴(lài)先驗(yàn)環(huán)境信息, 處理復(fù)雜問(wèn)題時(shí)易出現(xiàn)維數(shù)爆炸, 難以解決不確定性信息。 因此, 未來(lái)研究應(yīng)圍繞構(gòu)建貼近真實(shí)戰(zhàn)場(chǎng)的實(shí)時(shí)三維環(huán)境模型展開(kāi), 同時(shí), 如何提高智能算法在該類(lèi)模型下的實(shí)時(shí)性和規(guī)劃效率, 也是未來(lái)研究重點(diǎn)。

        (2) 考慮多類(lèi)約束的目標(biāo)函數(shù)

        智能算法通過(guò)設(shè)計(jì)目標(biāo)(獎(jiǎng)勵(lì))函數(shù)求解最優(yōu)航跡, 現(xiàn)有算法中目標(biāo)函數(shù)考慮要素較少, 難以保證所得航跡的最優(yōu)性、? 可靠性。 因此, 設(shè)計(jì)目標(biāo)函數(shù)時(shí), 應(yīng)考慮在滿(mǎn)足任務(wù)需求和各類(lèi)約束條件下的最小化飛行成本(包括飛行時(shí)間或航跡長(zhǎng)度等)。 其中, 約束通常分為兩類(lèi), 性能約束即無(wú)人機(jī)動(dòng)力學(xué)約束, 如最小轉(zhuǎn)彎角、? 最大俯仰角、? 升限等, 環(huán)境約束指環(huán)境中各類(lèi)障礙和威脅, 如地形、? 建筑、? 敵方偵察打擊裝備等。 此外, 構(gòu)造目標(biāo)函數(shù)時(shí), 大部分文獻(xiàn)通過(guò)線(xiàn)性加權(quán)法將多目標(biāo)優(yōu)化問(wèn)題轉(zhuǎn)換為單目標(biāo)優(yōu)化問(wèn)題求解, 實(shí)現(xiàn)簡(jiǎn)單但難以保證航跡最優(yōu)。 梯度下降法直接優(yōu)化[95]和神經(jīng)網(wǎng)絡(luò)非線(xiàn)性逼近[68]被認(rèn)為是解決此類(lèi)問(wèn)題的有效方法。 因此, 設(shè)計(jì)合理的目標(biāo)函數(shù)是未來(lái)研究中亟待解決的問(wèn)題。

        (3) 智能優(yōu)化算法的設(shè)計(jì)改進(jìn)

        智能優(yōu)化算法是一類(lèi)結(jié)果型算法, 即算法優(yōu)化過(guò)程是通過(guò)直接對(duì)隨機(jī)生成的解集進(jìn)行選擇、? 優(yōu)化等操作得到最優(yōu)解。 此類(lèi)算法便于理解、? 易于實(shí)現(xiàn), 但是存在一些問(wèn)題: 復(fù)雜環(huán)境下運(yùn)算量大、? 易陷入局部最優(yōu)、? 難以把握搜索和收斂的平衡。 因此, 未來(lái)在基于智能優(yōu)化算法的無(wú)人機(jī)自主航跡規(guī)劃方法研究中, 一是要將研究重心放在提高算法搜索效率和搜索精度上, 同時(shí)注重使用新的智能算法[96-97], 因?yàn)檫@些算法與經(jīng)典智能優(yōu)化算法相比, 融合并優(yōu)化了更多改進(jìn)策略, 易于實(shí)現(xiàn)且效率更高; 二是在搜索解空間時(shí)要注重客觀性、? 有效性, 把握不同規(guī)劃階段對(duì)搜索和收斂能力的需求, 提高算法的自組織、? 自學(xué)習(xí)能力。

        (4) 機(jī)器學(xué)習(xí)算法的設(shè)計(jì)改進(jìn)

        機(jī)器學(xué)習(xí)算法是一類(lèi)過(guò)程型算法, 即算法優(yōu)化過(guò)程是通過(guò)學(xué)習(xí)數(shù)據(jù)中的規(guī)律求最優(yōu)解。 機(jī)器學(xué)習(xí)算法理論上更適合復(fù)雜動(dòng)態(tài)的戰(zhàn)場(chǎng)環(huán)境, 但是存在依賴(lài)大量飛行數(shù)據(jù)、? 模型訓(xùn)練時(shí)間較長(zhǎng)等問(wèn)題, 限制了其在無(wú)人機(jī)自主航跡規(guī)劃中的應(yīng)用。 因此, 未來(lái)在基于機(jī)器學(xué)習(xí)算法的無(wú)人機(jī)自主航跡規(guī)劃方法研究中, 一是要將基于模型和無(wú)模型的機(jī)器學(xué)習(xí)算法相結(jié)合, 先從數(shù)據(jù)中學(xué)習(xí)環(huán)境模型, 再基于模型進(jìn)行策略?xún)?yōu)化并反向更新模型, 實(shí)現(xiàn)兩種方法的優(yōu)勢(shì)互補(bǔ); 二是要實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法中多源域的特征遷移、? 任務(wù)遷移, 通過(guò)提高遷移能力提高航跡規(guī)劃算法通用性; 三是要將機(jī)器學(xué)習(xí)與邏輯推理結(jié)合, 開(kāi)展機(jī)器學(xué)習(xí)可解釋性研究, 解決信任危機(jī)。

        (5) 基于算法融合的設(shè)計(jì)改進(jìn)

        利用算法互補(bǔ)性, 將多種優(yōu)化算法融合用于無(wú)人機(jī)自主航跡規(guī)劃, 彌補(bǔ)單一智能算法的缺陷, 是另一種算法改進(jìn)方法。 常用融合方法有: 在不同規(guī)劃階段針對(duì)性選擇不同算法或者利用一種算法的優(yōu)點(diǎn)彌補(bǔ)另一算法的不足。 此外, 文獻(xiàn)[73]提供了另一種改進(jìn)思路, 將A*算法在不同訓(xùn)練場(chǎng)景中得到的最優(yōu)路徑作為樣本用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò), 再將經(jīng)過(guò)訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)用于無(wú)人機(jī)實(shí)時(shí)航跡規(guī)劃。 但是當(dāng)前關(guān)于融合算法的研究較少, 同時(shí)融合算法會(huì)增加算法復(fù)雜度和計(jì)算成本。 因此, 如何設(shè)計(jì)算法融合策略, 使融合算法充分發(fā)揮各自?xún)?yōu)勢(shì), 將是未來(lái)重要的研究方向。

        5 結(jié)語(yǔ)

        由于智能算法在復(fù)雜、? 動(dòng)態(tài)、? 高度不確定性戰(zhàn)場(chǎng)環(huán)境下的良好適應(yīng)性, 其被廣泛應(yīng)用于求解無(wú)人機(jī)自主航跡規(guī)劃問(wèn)題。 研究表明, 智能優(yōu)化算法適用于地圖規(guī)模較小或?qū)崟r(shí)性要求不高的預(yù)先航跡規(guī)劃任務(wù), 機(jī)器學(xué)習(xí)算法適用于實(shí)時(shí)性要求高的實(shí)時(shí)航跡規(guī)劃任務(wù)。

        無(wú)人機(jī)自主航跡規(guī)劃智能算法仍需持續(xù)深入地探索和發(fā)展, 未來(lái)的研究重點(diǎn)是改進(jìn)各類(lèi)智能算法的自身缺陷, 同時(shí)結(jié)合航跡規(guī)劃的特性, 提高算法搜索效率和搜索精度。

        參考文獻(xiàn):

        [1] Fahey H K M, Miller M J.Unmanned Systems Integrated Roadmap FY2017-2042[R]. Washington D C: Department of Defense, 2018.

        [2] Suguna S K, Dhivya M, Paiva S. Artificial Intelligence(AI): Recent Trends and Applications[M]. Boca Raton: CRC Press, 2021.

        [3] United States Air Force Unmanned Aircraft Systems Flight Plan 2009-2047[R]. Washington D C: USAF, 2009.

        [4] Sebbane Y B. Intelligent Autonomy of UAVs: Advanced Missions and Future Use[M]. Boca Raton: CRC Press, 2018: 11-15.

        [5] Clough B. Metrics, Schmetrics! How Do You Track a UAVs Autonomy? [C]∥1st UAV Conference, AIAA, 2002: 3499.

        [6] Unmanned Systems Integrated Roadmap FY2011-2036[R]. Washington D? C: Department of Defense, 2011.

        [7] Zacharias G L. Autonomous Horizons: The Way Forward[M]. Alabama: Air University Press, 2019: 12-33.

        [8] 高勁松, 鄒慶元, 陳哨東. 無(wú)人機(jī)自主性概念研究[J]. 電光與控制, 2007(5): 58-61.

        Gao Jinsong, Zou Qingyuan, Chen Shaodong. Study on the Concept of Autonomy for UAV[J]. Electronics Optics & Control, 2007(5): 58-61.(in Chinese)

        [9] 胡曉峰, 榮明. 智能化作戰(zhàn)研究值得關(guān)注的幾個(gè)問(wèn)題[J]. 指揮與控制學(xué)報(bào), 2018(3): 195-200.

        Hu Xiaofeng, Rong Ming. Several Important Questions of Intelligent Warfare Research[J]. Journal of Command and Control, 2018(3): 195-200.(in Chinese)

        [10] 劉暢, 謝文俊, 張鵬, 等. 復(fù)雜威脅環(huán)境下無(wú)人機(jī)實(shí)時(shí)航線(xiàn)規(guī)劃邏輯架構(gòu)[J]. 北京航空航天大學(xué)學(xué)報(bào), 2020(10): 1948-1957.

        Liu Chang, Xie Wenjun, Zhang Peng, et al. UAV Real-Time Route Planning Logical Architecture in Complex Threat Environment[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020(10): 1948-1957.(in Chinese)

        [11] 鄭劍. 面向任務(wù)的無(wú)人作戰(zhàn)系統(tǒng)自主性等級(jí)評(píng)估與分配技術(shù)研究[D]. 長(zhǎng)沙: 國(guó)防科技大學(xué), 2019: 12-15.

        Zheng Jian. Research on Autonomy Levels Evaluation and Assignment Technology of Mission-Oriented Unmanned Combat System[D]. Changsha: National University of Defense Technology, 2019: 12-15.(in Chinese)

        [12] Aggarwal S, Kumar N. Path Planning Techniques for Unmanned Aerial Vehicles: A Review, Solutions, and Challenges[J]. Computer Communications, 2020, 149: 270-299.

        [13] Shahid N, Abrar M, Ajmal U, et al. Path Planning in Unmanned Aerial Vehicles: An Optimistic Overview[J]. International Journal of Communication Systems, 2022, 35(6): e5090.

        [14] 張一豆, 趙剡, 魏彤. 基于改進(jìn)A*算法的導(dǎo)盲避障路徑規(guī)劃策略研究[J]. 航空兵器, 2017(3): 86-92.

        Zhang Yidou, Zhao Yan, Wei Tong. Improved A* Algorithm for Obstacle Avoidance Path Planning Strategy of the Blind[J]. Aero Weaponry, 2017(3): 86-92.(in Chinese)

        [15] 高升, 艾劍良, 王之豪. 混合種群RRT無(wú)人機(jī)航跡規(guī)劃方法[J]. 系統(tǒng)工程與電子技術(shù), 2020(1): 101-107.

        Gao Sheng, Ai Jianliang, Wang Zhihao. Mixed Population RRT Algorithm for UAV Path Planning[J]. Systems Engineering and Electronics, 2020(1): 101-107.(in Chinese)

        [16] 韓堯, 李少華. 基于改進(jìn)人工勢(shì)場(chǎng)法的無(wú)人機(jī)航跡規(guī)劃[J]. 系統(tǒng)工程與電子技術(shù), 2021(11): 3305-3311.

        Han Yao, Li Shaohua. UAV Path Planning Based on Improved Artificial Potential Field[J]. Systems Engineering and Electro-nics, 2021(11): 3305-3311.(in Chinese)

        [17] Zhao Y J, Zheng Z, Liu Y. Survey on Computational-Intelligence-Based UAV Path Planning[J]. Knowledge-Based Systems, 2018, 158: 54-64.

        [18] 段玉倩, 賀家李. 遺傳算法及其改進(jìn)[J]. 電力系統(tǒng)及其自動(dòng)化學(xué)報(bào), 1998(1): 39-52.

        Duan Yuqian, He Jiali. Genetic Algorithm and Its Modification[J]. Proceedings of the CSU-EPSA, 1998(1): 39-52.(in Chinese)

        [19] Holland J H. Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence[M]. Ann Arbor: University of Michigan Press, 1992.

        [20] Gao M S, Liu Y X, Wei P F. Opposite and Chaos Searching Genetic Algorithm Based for UAV Path Planning[C]∥ IEEE 6th International Conference on Computer and Communications, 2020.

        [21] 文超, 董文瀚, 解武杰, 等. 基于CEA-GA的多無(wú)人機(jī)三維協(xié)同曲線(xiàn)航跡規(guī)劃方法[J/OL]. 北京航空航天大學(xué)學(xué)報(bào). [2022-09-13]. https:∥doi.org/10.13700/j.bh.1001-5965.2021.0787.

        Wen Chao, Dong Wenhan, Xie Wujie, et al. Multi-UAVs 3D Cooperative Curve Path Planning Method Based on CEA-GA [J/OL]. Journal of Beijing University of Aeronautics and Astronautics.[2022-09-13]. https:∥doi.org/10. 13700/ j.bh.1001-5965.2021.0787.(in Chinese)

        [22] 魏彤, 龍琛. 基于改進(jìn)遺傳算法的移動(dòng)機(jī)器人路徑規(guī)劃[J]. 北京航空航天大學(xué)學(xué)報(bào), 2020(4): 703-711.

        Wei Tong, Long Chen. Path Planning for Mobile Robot Based on Improved Genetic Algorithm[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020(4): 703-711.(in Chinese)

        [23] 王吉岱, 王新棟, 田群宏, 等. 基于改進(jìn)模糊自適應(yīng)遺傳算法的移動(dòng)機(jī)器人路徑規(guī)劃[J]. 機(jī)床與液壓, 2021(23): 18-23.

        Wang Jidai, Wang Xindong, Tian Qunhong, et al. Mobile Robot Path Planning Based on Improved Fuzzy Adaptive Genetic Algorithm[J]. Machine Tool & Hydraulics, 2021(23): 18-23.(in Chinese)

        [24] Hao K, Zhao J, Yu K, et al. Path Planning of Mobile Robots Based on a Multi-Population Migration Genetic Algorithm[J]. Sensors, 2020, 20(20): E5873.

        [25] 牛秦玉, 李博. 基于模擬退火遺傳算法的全向AGV路徑規(guī)劃[J/OL]. 計(jì)算機(jī)集成制造系統(tǒng). [2022-09-13]. https:∥kns.cnki.net/ kcms/detail/11.5946.TP.20220517.1105. 014. html.

        Niu Qinyu, Li Bo. Omnidirectional AGV Path Planning Based on Simulated Annealing Genetic Algorithm[J/OL]. Computer Integrated Manufacturing Systems. [2022-09-13]. https:∥kns.cnki. net/kcms/detail/11.5946.TP.20220517.1105.014. html. (in Chinese)

        [26] 樊?huà)桑?雷濤, 董南江, 等. 基于改進(jìn)NSGA-Ⅱ算法的多目標(biāo)無(wú)人機(jī)路徑規(guī)劃[J]. 火力與指揮控制, 2022(2): 43-48.

        Fan Jiao, Lei Tao, Dong Nanjiang, et al. Multi-Objective UAV Path Planning Based on an Improved NSGA-ⅡAlgorithm[J]. Fire Control & Command Control, 2022(2): 43-48.(in Chinese)

        [27] 丁青鋒, 尹曉宇. 差分進(jìn)化算法綜述[J]. 智能系統(tǒng)學(xué)報(bào), 2017(4): 431-442.

        Ding Qingfeng, Yin Xiaoyu. Research Survey of Differential Evolution Algorithms[J]. CAAI Transactions on Intelligent Systems, 2017(4): 431-442.(in Chinese)

        [28] 張宗豪, 徐斌, 胡錚. 應(yīng)用改進(jìn)差分進(jìn)化算法的三維路徑規(guī)劃[J]. 電光與控制, 2022(6): 6-10.

        Zhang Zonghao, Xu Bin, Hu Zheng. Application of Modified Differential Evolution Algorithm in 3D Path Planning[J]. Electronics Optics & Control, 2022(6): 6-10.(in Chinese)

        [29] 彭志紅, 孫琳, 陳杰. 基于改進(jìn)差分進(jìn)化算法的無(wú)人機(jī)在線(xiàn)低空突防航跡規(guī)劃[J]. 北京科技大學(xué)學(xué)報(bào), 2012(1): 96-101.

        Peng Zhihong, Sun Lin, Chen Jie. Online Path Planning for UAV Low-Altitude Penetration Based on an Improved Differential Evolution Algorithm[J]. Journal of University of Science and Technology Beijing, 2012(1): 96-101.(in Chinese)

        [30] Chai X Z, Zheng Z S, Xiao J M, et al. Multi-Strategy Fusion Differential Evolution Algorithm for UAV Path Planning in Complex Environment[J]. Aerospace Science and Technology, 2022, 121: 107287.

        [31] 魯亮亮, 代冀陽(yáng), 應(yīng)進(jìn), 等. 基于APSODE-MS算法的無(wú)人機(jī)航跡規(guī)劃[J]. 控制與決策, 2022(7): 1695-1704.

        Lu Liangliang, Dai Jiyang, Ying Jin, et al. UAV Trajectory Planning Based on APSODE-MS Algorithm[J]. Control and Decision, 2022(7): 1695-1704.(in Chinese)

        [32] Shao S, Peng Y, He C, et al. Efficient Path Planning for UAV Formation via Comprehensively Improved Particle Swarm Optimization[J]. ISA Transactions, 2020, 97: 415-430.

        [33] 方群, 徐青. 基于改進(jìn)粒子群算法的無(wú)人機(jī)三維航跡規(guī)劃[J]. 西北工業(yè)大學(xué)學(xué)報(bào), 2017(1): 66-73.

        Fang Qun, Xu Qing. 3D Route Planning for UAV Based on Improved PSO Algorithm[J]. Journal of Northwestern Polytechnical University, 2017(1): 66-73.(in Chinese)

        [34] Li G S, Chou W S. Path Planning for Mobile Robot Using Self-Adaptive Learning Particle Swarm Optimization[J]. Science China Information Sciences, 2017, 61(5): 1-18.

        [35] 巫茜, 羅金彪, 顧曉群, 等. 基于改進(jìn)PSO的無(wú)人機(jī)三維航跡規(guī)劃優(yōu)化算法[J]. 兵器裝備工程學(xué)報(bào), 2021(8): 233-238.

        Wu Qian, Luo Jinbiao, Gu Xiaoqun, et al. Optimization Algorithm for UAV 3D Track Planning Based on Improved PSO Method[J]. Journal of Ordnance Equipment Engineering, 2021(8): 233-238.(in Chinese)

        [36] 馮輝, 劉夢(mèng)佳, 徐海祥. 基于AHPSO算法的無(wú)人艇多目標(biāo)路徑規(guī)劃[J]. 華中科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2018,46(6): 59-64.

        Feng Hui, Liu Mengjia, Xu Haixiang. Multi-Target Path Planning for Unmanned Surface Vessel Based on AHPSO[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2018, 46(6): 59-64.(in Chinese)

        [37] Krell E, King S A, Garcia Carrillo L R. Autonomous Surface Vehicle Energy-Efficient and Reward-Based Path Planning Using Particle Swarm Optimization and Visibility Graphs[J]. Applied Ocean Research, 2022, 122: 103125.

        [38] Xue H. A Quasi-Reflection Based SC-PSO for Ship Path Planning with Grounding Avoidance[J]. Ocean Engineering, 2022, 247: 110772.

        [39] Hoang V T, Phung M D, Dinh T H, et al. Angle-Encoded Swarm Optimization for UAV Formation Path Planning[C]∥ IEEE/RSJ International Conference on Intelligent Robots and Systems, 2018.

        [40] 金建海, 孫俊, 張安通, 等.? 基于量子粒子群優(yōu)化算法的無(wú)人艇航線(xiàn)規(guī)劃[J]. 船舶力學(xué), 2020, 24(3): 352-361.

        Jin Jianhai, Sun Jun, Zhang Antong, et al. USV Path Planning Based on Quantum-Behaved Particle Swarm Optimization[J]. Journal of Ship Mechanics, 2020, 24(3): 352-361.(in Chinese)

        [41] Phung M D, Ha Q P. Safety-Enhanced UAV Path Planning with Spherical Vector-Based Particle Swarm Optimization[J]. Applied Soft Computing, 2021, 107(2): 107376.

        [42] 劉雙雙, 黃宜慶. 多策略蟻群算法在機(jī)器人路徑規(guī)劃中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(6): 278-286.

        Liu Shuangshuang, Huang Yiqing. Application of Multi-Strategy Ant Colony Algorithm in Robot Path Planning[J]. Computer Engineering and Applications, 2022, 58(6): 278-286.(in Chinese)

        [43] 胡致遠(yuǎn), 王征, 楊洋, 等. 基于人工魚(yú)群-蟻群算法的UUV三維全局路徑規(guī)劃[J]. 兵工學(xué)報(bào), 2022, 43(7): 1676-1684.

        Hu Zhiyuan, Wang Zheng, Yang Yang, et al. Three-Dimensional Global Path Planning for UUV Based on Artificial Fish Swarm and Ant Colony Algorithm[J]. Acta Armamentarii, 2022, 43(7): 1676-1684.(in Chinese)

        [44] Miao C W, Chen G Z, Yan C L, et al. Path Planning Optimization of Indoor Mobile Robot Based on Adaptive Ant Colony Algorithm[J]. Computers & Industrial Engineering, 2021, 156: 107230.

        [45] 肖金壯, 余雪樂(lè), 周剛, 等. 一種面向室內(nèi)AGV路徑規(guī)劃的改進(jìn)蟻群算法[J]. 儀器儀表學(xué)報(bào), 2022, 43(3): 277-285.

        Xiao Jinzhuang, Yu Xuele, Zhou Gang, et al. An Improved Ant Colony Algorithm for Indoor AGV Path Planning[J]. Chinese Journal of Scientific Instrument, 2022, 43(3): 277-285.(in Chinese)

        [46] 魏江, 王建軍, 王健, 等. 基于改進(jìn)蟻群算法的三維航跡規(guī)劃[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(17): 217-223.

        Wei Jiang, Wang Jianjun, Wang Jian, et al. 3D Path Planning Based on Improved Ant Colony Algorithm[J]. Computer Engineering and Applications, 2020, 56(17): 217-223.(in Chinese)

        [47] Liu J, Anavatti S, Garratt M, et al. Modified Continuous Ant Co-lony Optimisation for Multiple Unmanned Ground Vehicle Path Planning[J]. Expert Systems with Applications, 2022, 196: 116605.

        [48] 趙娟平, 高憲文, 符秀輝. 改進(jìn)蟻群優(yōu)化算法求解移動(dòng)機(jī)器人路徑規(guī)劃問(wèn)題[J]. 南京理工大學(xué)學(xué)報(bào), 2011(5): 637-641.

        Zhao Juanping, Gao Xianwen, Fu Xiuhui. Improved Ant Colony Optimization Algorithm for Solving Path Planning Problem of Mobile Robot[J]. Journal of Nanjing University of Science and Technology, 2011(5): 637-641.(in Chinese)

        [49] 陳銀燕, 高安邦. 機(jī)器人導(dǎo)航路徑的多種群博弈蟻群規(guī)劃策略[J]. 機(jī)械設(shè)計(jì)與制造, 2021(1): 272-276.

        Chen Yinyan, Gao Anbang. Robot Navigation Path Planning Strate-gy Based on Multi-Population Game Ant Colony Algorithm[J]. Machinery Design & Manufacture, 2021(1): 272-276.(in Chinese)

        [50] Han Z L, Chen M, Shao S Y, et al. Improved Artificial Bee Colony Algorithm-Based Path Planning of Unmanned Autonomous Helicopter Using Multi-Strategy Evolutionary Learning[J]. Aerospace Science and Technology, 2022, 122: 107374.

        [51] Chen X, Tianfield H, Li K J. Self-Adaptive Differential Artificial Bee Colony Algorithm for Global Optimization Problems[J]. Swarm and Evolutionary Computation, 2019, 45: 70-91.

        [52] Cui Y B, Hu W, Rahmani A. A Reinforcement Learning Based Artificial Bee Colony Algorithm with Application in Robot Path Planning[J]. Expert Systems with Applications, 2022, 203: 117389.

        [53] Xiao S Y, Wang H, Wang W J, et al. Artificial Bee Colony Algorithm Based on Adaptive Neighborhood Search and Gaussian Perturbation[J]. Applied Soft Computing, 2021, 100: 106955.

        [54] Ye T Y, Wang W J, Wang H, et al. Artificial Bee Colony Algorithm with Efficient Search Strategy Based on Random Neighborhood Structure[J]. Knowledge-Based Systems, 2022, 241: 108306.

        [55] Chen M R, Chen J H, Zeng G Q, et al. An Improved Artificial Bee Colony Algorithm Combined with Extremal Optimization and Boltzmann Selection Probability[J]. Swarm and Evolutionary Computation, 2019, 49: 158-177.

        [56] 孔德鵬, 常天慶, 戴文君, 等. 基于排序選擇和精英引導(dǎo)的改進(jìn)人工蜂群算法[J]. 控制與決策, 2019, 34(4): 781-786.

        Kong Depeng, Chang Tianqing, Dai Wenjun, et al. An Improved Artificial Bee Colony Algorithm Based on the Ranking Selection and the Elite Guidance[J]. Control and Decision, 2019, 34(4): 781-786.(in Chinese)

        [57] Zeng T, Wang W J, Wang H, et al. Artificial Bee Colony Based on Adaptive Search Strategy and Random Grouping Mechanism[J]. Expert Systems with Applications, 2022, 192: 116332.

        [58] 魏鋒濤, 岳明娟, 鄭建明. 基于改進(jìn)鄰域搜索策略的人工蜂群算法[J]. 控制與決策, 2019, 34(5): 965-972.

        Wei Fengtao, Yue Mingjuan, Zheng Jianming. Artificial Bee Colo-ny Algorithm Based on Improved Neighborhood Search Strategy[J]. Control and Decision, 2019, 34(5): 965-972. (in Chinese)

        [59] Cui L Z, Li G H, Zhu Z X, et al. A Novel Artificial Bee Colony Algorithm with an Adaptive Population Size for Numerical Function Optimization[J]. Information Sciences, 2017, 414: 53-67.

        [60] Nseef S K, Abdullah S, Turky A, et al. An Adaptive Multi-Population Artificial Bee Colony Algorithm for Dynamic Optimisation Problems[J]. Knowledge-Based Systems, 2016, 104: 14-23.

        [61] Xie C, Zheng H Q. Application of Improved Cuckoo Search Algorithm to Path Planning Unmanned Aerial Vehicle[C] ∥12th International Conference on Intelligent Computing (ICIC), 2016.

        [62] Wang G G, Chu H E, Mirjalili S. Three-Dimensional Path Planning for UCAV Using an Improved Bat Algorithm[J]. Aerospace Science and Technology, 2016, 49: 231-238.

        [63] Yan Z P, Zhang J Z, Zeng J, et al. Three-Dimensional Path Planning for Autonomous Underwater Vehicles Based on a Whale Optimization Algorithm[J]. Ocean Engineering, 2022, 250: 111070.

        [64] 王秋萍, 王彥軍, 戴芳. 多策略集成的樽海鞘群算法的機(jī)器人路徑規(guī)劃[J]. 電子學(xué)報(bào), 2020, 48(11): 2101-2113.

        Wang Qiuping, Wang Yanjun, Dai Fang. Multi-Strategy Ensemble Salp Swarm Algorithm for Robot Path Planning[J]. Acta Electronica Sinica, 2020, 48(11): 2101-2113.(in Chinese)

        [65] 陳都, 孟秀云. 基于自適應(yīng)郊狼算法的無(wú)人機(jī)離線(xiàn)航跡規(guī)劃[J]. 系統(tǒng)工程與電子技術(shù),? 2022, 44(2): 603-611.

        Chen Dou, Meng Xiuyun. UAV Offline Path Planning Based on Self-Adaptive Coyote Optimization Algorithm[J]. Systems Engineering and Electronics, 2022, 44(2): 603-611.(in Chinese)

        [66] 王東. 機(jī)器學(xué)習(xí)導(dǎo)論[M]. 北京: 清華大學(xué)出版社,? 2021.

        Wang Dong. Introduction to Machine Learning[M]. Beijing: Tsin-ghua University Press,? 2021.(in Chinese)

        [67] 李波, 楊志鵬, 賈卓然, 等. 一種無(wú)監(jiān)督學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)全區(qū)域偵察路徑規(guī)劃[J]. 西北工業(yè)大學(xué)學(xué)報(bào), 2021, 39(1): 77-84.

        Li Bo, Yang Zhipeng, Jia Zhuoran, et al. An Unsupervised Learning Neural Network for Planning UAV Full-Area Reconnaissance Path[J]. Journal of Northwestern Polytechnical University, 2021, 39(1): 77-84.(in Chinese)

        [68] 陳俠, 艾宇迪. 應(yīng)用改進(jìn)神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)三維航跡規(guī)劃[J]. 電光與控制, 2018, 25(9): 7-11.

        Chen Xia, Ai Yudi. Application of Improved Neural Network in 3D Path Planning of UAVs[J]. Electronics Optics & Control, 2018, 25(9): 7-11.(in Chinese)

        [69] 陳秋蓮, 鄭以君, 蔣環(huán)宇, 等. 基于神經(jīng)網(wǎng)絡(luò)改進(jìn)粒子群算法的動(dòng)態(tài)路徑規(guī)劃[J]. 華中科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2021, 49(2): 51-55.

        Chen Qiulian, Zheng Yijun, Jiang Huanyu, et al. Improved Particle Swarm Optimization Algorithm Based on Neural Network for Dynamic Path Planning[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2021,49(2): 51-55.(in Chinese)

        [70] Duan H B, Huang L Z. Imperialist Competitive Algorithm Optimized Artificial Neural Networks for UCAV Global Path Planning[J]. Neurocomputing, 2014, 125: 166-171.

        [71] Pothal J K, Parhi D R. Navigation of Multiple Mobile Robots in a Highly Clutter Terrains Using Adaptive Neuro-Fuzzy Inference System[J]. Robotics and Autonomous Systems, 2015, 72: 48-58.

        [72] Muni M K, Parhi D R, Kumar P B, et al. Towards Motion Planning of Humanoids Using a Fuzzy Embedded Neural Network Approach[J]. Applied Soft Computing, 2022, 119: 108588.

        [73] Liu Y, Zheng Z, Qin F Y, et al. A Residual Convolutional Neural Network Based Approach for Real-Time Path Planning[J]. Knowledge-Based Systems, 2022, 242: 108400.

        [74] Wu K Y, Abolfazli Esfahani M, Yuan S H, et al. TDPP-Net: Achieving Three-Dimensional Path Planning via a Deep Neural Network Architecture[J]. Neurocomputing, 2019, 357: 151-162.

        [75] 周彬, 郭艷, 李寧, 等. 基于導(dǎo)向強(qiáng)化Q學(xué)習(xí)的無(wú)人機(jī)路徑規(guī)劃[J]. 航空學(xué)報(bào), 2021,42(9): 498-505.

        Zhou Bin, Guo Yan, Li Ning, et al. Path Planning of UAV Using Guided Enhancement Q-Learning Algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2021,42(9): 498-505.(in Chinese)

        [76] Cui Z Y, Wang Y. UAV Path Planning Based on Multi-Layer Rein-forcement Learning Technique[J]. IEEE Access, 2021, 9: 59486-59497.

        [77] 閆其粹. 解決強(qiáng)化學(xué)習(xí)中維數(shù)災(zāi)問(wèn)題的方法研究[D]. 蘇州: 蘇州大學(xué), 2010: 1-4.

        Yan Qicui. Researches on the Curse of Dimensionality in Reinforcement Learning[D]. Suzhou: Soochow University, 2010: 1-4.(in Chinese)

        [78] Mnih V, Kavukcuoglu K, Silver D, et al. Human-Level Control through Deep Reinforcement Learning[J]. Nature, 2015, 518(7540): 529-533.

        [79] Wu X, Chen H L, Chen C G, et al. The Autonomous Navigation and Obstacle Avoidance for USVs with ANOA Deep Reinforcement Learning Method[J]. Knowledge-Based Systems, 2020, 196: 105201.

        [80] 楊清清, 高盈盈, 郭玙, 等. 基于深度強(qiáng)化學(xué)習(xí)的海戰(zhàn)場(chǎng)目標(biāo)搜尋路徑規(guī)劃[J/OL]. 系統(tǒng)工程與電子技術(shù). [2022-10-17]. https:∥kns.cnki.net/kns8/defaultresult/index.

        Yang Qingqing, Gao Yingying, Guo Yu, et al. Target Search Path Planning for Naval Battle Field Based on Deep Reinforcement Learning[J/OL]. Systems Engineering and Electronics. [2022-10-17]. https:∥kns.cnki.net/kns8/defaultresult/index. (in Chinese)

        [81] Luo W, Tang Q R, Fu C H, et al. Deep-Sarsa Based Multi-UAV Path Planning and Obstacle Avoidance in a Dynamic Environment[C]∥ International Conference on Swarm Intelligence, 2018.

        [82] 閆皎潔, 張鍥石, 胡希平. 基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃技術(shù)綜述[J]. 計(jì)算機(jī)工程, 2021, 47(10): 16-25.

        Yan Jiaojie, Zhang Qieshi, Hu Xiping. Review of Path Planning Techniques Based on Reinforcement Learning[J]. Computer Engineering, 2021, 47(10): 16-25.(in Chinese)

        [83] Grondman I, Busoniu L, Lopes G A D, et al. A Survey of Actor-Critic Reinforcement Learning: Standard and Natural Policy Gra-dients[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2012, 42(6): 1291-1307.

        [84] Schulman J, Levine S, Moritz P, et al. Trust Region Policy Optimization[C]∥32nd International Conference on Machine Learning, 2015: 1889-1897.

        [85] Schulman J, Wolski F, Dhariwal P, et al. Proximal Policy Optimization Algorithms[EB/OL].(2017-08-28)[2022-10-17]. https: ∥arxiv.org/pdf/1707.06347.pdf.

        [86] 別桐, 朱曉慶, 付煜, 等. 基于Safe-PPO算法的安全優(yōu)先路徑規(guī)劃方法[J/OL]. 北京航空航天大學(xué)學(xué)報(bào).[2022-10-17]. https:∥ doi.org/10.13700/j.bh.1001- 5965.2021.0580.

        Bie Tong, Zhu Xiaoqing, Fu Yu, et al. Safety Priority Path Planning Method Based on Safe-PPO Algorithm[J/OL]. Journal of Beijing University of Aeronautics and Astronautics.[2022-10-17].https:∥doi.org/10.13700/j.bh.1001-5965.2021.0580.(in Chinese)

        [87] He Z C, Dong L, Sun C Y, et al. Asynchronous Multithreading Reinforcement-Learning-Based Path Planning and Tracking for Unmanned Underwater Vehicle[J]. IEEE Transactions on Systems Man Cybernetics-Systems, 2022, 52(5): 2757-2769.

        [88] Haarnoja T, Zhou A, Abbeel P, et al. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor[C]∥35th International Conference on Machine Learning, 2018: 1861-1870.

        [89] 韓金亮, 任海菁, 吳淞瑋, 等. 基于多層注意力機(jī)制—柔性AC算法的機(jī)器人路徑規(guī)劃[J]. 計(jì)算機(jī)應(yīng)用研究, 2020,37(12): 3650-3655.

        Han Jinliang, Ren Haijing, Wu Songwei, et al. Robot Path Planning Based on Soft AC Algorithm for Multilayer Attention Mechanism[J]. Application Research of Computers, 2020, 37(12): 3650-3655.(in Chinese)

        [90] Chen P Z, Pei J A, Lu W Q, et al. A Deep Reinforcement Learning Based Method for Real-Time Path Planning and Dynamic Obstacle Avoidance[J]. Neurocomputing, 2022, 497: 64-75.

        [91] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous Control with Deep Reinforcement Learning[EB/OL]. (2019-07-05)[2022-10-17]. https:∥arxiv.org/pdf/1509.02971.pdf.

        [92] Hu Z J, Gao X G, Wan K F, et al. Relevant Experience Learning: A Deep Reinforcement Learning Method for UAV Autonomous Motion Planning in Complex Unknown Environments[J]. Chinese Journal of Aeronautics, 2021, 34(12): 187-204.

        [93] Fujimoto S, van Hoof H, Meger D. Addressing Function Approximation Error in Actor-Critic Methods[EB/OL]. (2018-10-22)[2022-10-17].https:∥arxiv.org/pdf/1802.09477.pdf.

        [94] Zhang S T, Li Y B, Dong Q H. Autonomous Navigation of UAV in Multi-Obstacle Environments Based on a Deep Reinforcement Learning Approach[J]. Applied Soft Computing, 2022, 115: 108194.

        [95] Gebken B, Peitz S, Dellnitz M. A Descent Method for Equality and Inequality Constrained Multiobjective Optimization Problems[EB/OL]. (2017-12-11)[2022-10-17]. https:∥arxiv.org/pdf/1712.03005.pdf

        [96] Hashim F A, Hussien A G. Snake Optimizer: A Novel Meta-Heuristic Optimization Algorithm[J]. Knowledge-Based Systems, 2022, 242: 108320.

        [97] Ntakolia C, Iakovidis D K. A Swarm Intelligence Graph-Based Pathfinding Algorithm(SIGPA) for Multi-Objective Route Planning[J]. Computers & Operations Research, 2021, 133: 105358.

        Review of Intelligent Algorithms for Autonomous Path Planning of UAVs

        Guo Qimin1,2, Zhang Peng1, Wang Yingyang1, Wang Shi3

        (1. Equipment Management and UAV Engineering College, Air Force Engineering University, Xian 710051, China;

        2. Graduate College, Air Force Engineering University, Xian 710051, China; 3. Unit 93057 of PLA , Siping 136400, China)

        Abstract: Autonomous capability is the fundamental ability and direct driving force of UAVs cross-generation upgrade. With the disruptive revolution of artificial intelligence technology, the autonomous path planning technology of UAV based on intelligent algorithm has become a key link to improve the autonomous capability of UAV, which has important research value. This paper firstly summarizes relevant studies of path planning technology at home and abroad, puts forward an understanding of the autonomy of unmanned systems, and analyzes the advantages of intelligent algorithms applied to the autonomous path planning of UAVs. Secondly, starting with algorithm improvement methods, the intelligent algorithms of autonomous path planning of UAVs, such as evolutionary algorithm, swarm intelligence algorithm, neural network, reinforcement learning algorithm and deep reinforcement learning, are classified and summarized. Finally, the future research directions for autonomous path planning technology are prospected based on the current challenges of UAV autonomous path planning.

        Key words: UAV; path planning; autonomy; intelligent evolutionary algorithm; machine learning algorithm; algorithm improvement

        收稿日期: 2022-10-18

        基金項(xiàng)目:? 國(guó)家自然科學(xué)基金項(xiàng)目(62103439); 陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(2021JQ-364)

        作者簡(jiǎn)介: 郭啟敏(1994-), 男, 山東青島人, 碩士研究生。

        *通信作者: 張鵬(1979-), 男, 山西五臺(tái)人, 博士, 副教授。

        猜你喜歡
        無(wú)人機(jī)自主性
        高職院校新開(kāi)設(shè)無(wú)人機(jī)專(zhuān)業(yè)的探討
        人間(2016年26期)2016-11-03 17:52:40
        利用無(wú)人機(jī)進(jìn)行航測(cè)工作的方式方法
        一種適用于輸電線(xiàn)路跨線(xiàn)牽引無(wú)人機(jī)的飛行方案設(shè)計(jì)
        科技視界(2016年22期)2016-10-18 14:30:27
        淺析無(wú)人機(jī)技術(shù)在我國(guó)的發(fā)展前景
        英語(yǔ)學(xué)習(xí)的自主性及其教學(xué)應(yīng)用
        實(shí)用英語(yǔ)教材與藝術(shù)生自主性培養(yǎng)
        發(fā)揮主體作用,加強(qiáng)高中數(shù)學(xué)復(fù)習(xí)的自主性
        發(fā)展性教育督導(dǎo)與學(xué)校辦學(xué)自主性
        人間(2015年21期)2015-03-11 15:24:25
        學(xué)校自評(píng)自主性缺失歸因及強(qiáng)化機(jī)制
        維護(hù)科學(xué)的自主性
        国产在线视频一区二区三| a级毛片在线观看| 草莓视频成人| 日韩毛片久久91| 日本久久久精品免费免费理论| 嫩草伊人久久精品少妇av| 少妇下蹲露大唇无遮挡| 日本午夜精品理论片A级APP发布| 亚洲熟女国产熟女二区三区| 按摩师玩弄少妇到高潮av| 精品乱码一区内射人妻无码| 亚洲色偷拍区另类无码专区| 99综合精品久久| 久久av一区二区三区黑人| 亚洲av无码专区在线| 亚洲精品国产成人| 91精品久久久久含羞草| 日本高清在线播放一区二区| 99国产精品99久久久久久 | 日韩精品人妻系列无码专区免费| 激情中文丁香激情综合| av中文字幕在线直播| 国产精品国产三级国产专播| 无码aⅴ在线观看| 国产精品亚洲婷婷99久久精品| 日韩一区二区av极品| 少妇高潮惨叫久久久久久电影| 欧美激情区| 久久精品国产精品亚洲婷婷| 不卡一区二区视频日本| 污污内射在线观看一区二区少妇 | 亚洲日韩欧洲无码av夜夜摸| 精品综合久久久久久8888| 国产一区二区三区18p| 成人午夜福利视频| chinesefreexxxx国产麻豆| 黄色三级视频中文字幕| 人成综合视频在线播放| 国内精品久久久久影院一蜜桃| 韩国一级成a人片在线观看| 国产少妇高潮在线视频|