羅 杰,董志巖,2,翟 鵬,張立華,2
1(復(fù)旦大學(xué) 工程與應(yīng)用技術(shù)研究院,上海 200433)
2(季華實(shí)驗(yàn)室,佛山 528200)
隨著科技的發(fā)展,無人駕駛飛行器(UAV)開始在各種復(fù)雜場景中取得應(yīng)用[1–4],由于無人機(jī)具有體積小、質(zhì)量輕、機(jī)動(dòng)性好、易于控制、造價(jià)相對(duì)較低、危險(xiǎn)系數(shù)小以及隱蔽性能好等優(yōu)點(diǎn),在軍事和民用領(lǐng)域都具有廣泛的應(yīng)用前景. 因此國內(nèi)外均對(duì)無人機(jī)的機(jī)體結(jié)構(gòu)及飛行控制展開了深入的研究,并取得了不錯(cuò)的成果[5,6].
傳統(tǒng)的無人機(jī)飛行控制器多采用比例-積分-微分(PID)控制算法,這種基于PID 算法在穩(wěn)定環(huán)境中可以達(dá)到很好的控制性能,然而在面臨復(fù)雜場景時(shí),往往容易受到外界干擾的影響,且無法保證穩(wěn)定飛行. 這對(duì)飛行控制器的創(chuàng)新提出了更高的要求,最近的研究表明[7–9],基于強(qiáng)化學(xué)習(xí)的智能控制算法在仿真中表現(xiàn)出了極好的性能,這為無人機(jī)飛控開發(fā)提供了新的方向. 目前的行業(yè)痛點(diǎn)是在實(shí)際中仍然缺乏一套快速的智能無人機(jī)飛控開發(fā)系統(tǒng).
為了提高無人機(jī)智能飛行控制器的開發(fā)速度,本文提出一種基于模型的智能飛控開發(fā)系統(tǒng). 該系統(tǒng)可以實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)控制算法的仿真測試及快速硬件部署,控制器開發(fā)采用基于模型的設(shè)計(jì)方式,可以有效避免代碼編程方式的弊端,并大大提高控制器開發(fā)速度. 本研究還提供了一套仿真測試平臺(tái),我們將開發(fā)的控制器在仿真平臺(tái)和真實(shí)環(huán)境中進(jìn)行飛行測試,驗(yàn)證了該開發(fā)系統(tǒng)的有效性.
智能飛行控制系統(tǒng)的開發(fā)是一個(gè)亟待解決并突破的研究領(lǐng)域[10],研究表明,強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)飛控智能化的一個(gè)重要途徑,目前基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)無人機(jī)控制的理論研究已取得了突出的成果[7,11].
基于強(qiáng)化學(xué)習(xí)的智能算法具備實(shí)現(xiàn)飛行控制的仿真與驗(yàn)證. Koch 等人利用強(qiáng)化學(xué)習(xí)近端策略優(yōu)化(PPO)算法[12]實(shí)現(xiàn)了無人機(jī)仿真控制,經(jīng)過訓(xùn)練的無人機(jī)姿態(tài)控制器在仿真環(huán)境中可以實(shí)現(xiàn)穩(wěn)定飛行并表現(xiàn)出了超過PID 控制器的性能. 文獻(xiàn)[13]中提出了一種基于強(qiáng)化學(xué)習(xí)的新誤差卷積神經(jīng)網(wǎng)絡(luò)控制器設(shè)計(jì)方法,并用于復(fù)合式無人機(jī)的飛行控制,該研究縮小了虛擬仿真和真實(shí)環(huán)境之間的控制性能的差距,實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)在實(shí)際環(huán)境中的應(yīng)用. 文獻(xiàn)[14]中提出了一種新的強(qiáng)化學(xué)習(xí)控制算法,該算法比現(xiàn)有的算法更適用于控制四旋翼飛行器,特別是在非??量痰某跏蓟瘲l件下,仍可以自動(dòng)調(diào)整四旋翼飛行器處于穩(wěn)定的懸停狀態(tài). 更加令人矚目的是,文獻(xiàn)[15]以強(qiáng)化學(xué)習(xí)理論為基礎(chǔ),提出了一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)仿真并將其編譯為可在嵌入式硬件上運(yùn)行的工具鏈,但是開發(fā)方式仍為代碼式編程,對(duì)智能飛控的開發(fā)需要很高的門檻.
盡管強(qiáng)化學(xué)習(xí)智能飛控算法已在仿真中取得突出成就,但在實(shí)際中仍缺乏一套完備的強(qiáng)化學(xué)習(xí)飛行控制器開發(fā)平臺(tái).
本文在智能飛控領(lǐng)域已有研究的基礎(chǔ)上,針對(duì)目前智能飛控開發(fā)存在的痛點(diǎn),提出了一套完備的無人機(jī)智能飛行控制開發(fā)系統(tǒng),整個(gè)系統(tǒng)框架如圖1 所示.
圖1 系統(tǒng)架構(gòu)圖
本系統(tǒng)采用4 層架構(gòu)的模式,分別為: (1)數(shù)據(jù)存儲(chǔ)層; (2)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練層; (3)控制器開發(fā)層;(4)硬件測試層. 其中數(shù)據(jù)存儲(chǔ)層根據(jù)不同數(shù)據(jù)類型分?jǐn)?shù)據(jù)庫存儲(chǔ),對(duì)于關(guān)系型數(shù)據(jù),如不同飛行器模型及不同強(qiáng)化學(xué)習(xí)超參數(shù)對(duì)應(yīng)的控制器性能,存儲(chǔ)在MySQL數(shù)據(jù)庫中. 對(duì)于非關(guān)系型數(shù)據(jù)使用MongoDB 數(shù)據(jù)進(jìn)行存儲(chǔ),MongoDB 數(shù)據(jù)庫是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫,適用于數(shù)據(jù)量大的存儲(chǔ)場景. 在本系統(tǒng)中,需要使用服務(wù)器進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,每次訓(xùn)練的神經(jīng)網(wǎng)絡(luò)參數(shù),采用MongoDB 分布式集群的存儲(chǔ)方式.
強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練層是指進(jìn)行強(qiáng)化學(xué)習(xí)控制器網(wǎng)絡(luò)訓(xùn)練的層,本層采用強(qiáng)化學(xué)習(xí)作為飛行控制器,需要有一個(gè)通用的訓(xùn)練環(huán)境來進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練. 系統(tǒng)選用戴爾R940 服務(wù)器來搭建仿真訓(xùn)練環(huán)境,并在Gazebo仿真模擬器中建立了一個(gè)四旋翼模型,該模型可以根據(jù)強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)輸出的電機(jī)控制量,在俯仰、橫滾、偏航3 個(gè)方向上改變四旋翼姿態(tài). 控制器開發(fā)層主要使用基于模式的設(shè)計(jì)方法(MDB),利用Simulink提供的無人機(jī)自駕儀開發(fā)支持包(Pixhawk pilot support package,PSP)進(jìn)行控制器設(shè)計(jì),并利用自動(dòng)代碼生成技術(shù)將控制器部署到Pixhawk 硬件中. 下面分層介紹整個(gè)系統(tǒng)的實(shí)現(xiàn)原理.
強(qiáng)化學(xué)習(xí)算法的基本原理是通過讓智能體與環(huán)境不斷交互來學(xué)習(xí)最優(yōu)策略,以實(shí)現(xiàn)回報(bào)最大化或完成特定目標(biāo). 整個(gè)交互過程如圖2 所示,在某一時(shí)刻t,智能體從環(huán)境中獲得狀態(tài)值St,根據(jù)當(dāng)前狀態(tài)值并經(jīng)過特定策略的評(píng)估,執(zhí)行最優(yōu)動(dòng)作并獲取下一時(shí)刻的狀態(tài)值St+1. 其中狀態(tài)轉(zhuǎn)換定義為轉(zhuǎn)換到狀態(tài)s′的概率,即當(dāng)前狀態(tài)和動(dòng)作分別為s和a,轉(zhuǎn)換到狀態(tài)s′的概率可以表示為pr{st+1=s′|st=s,at=a}. 智能體的行為由其策略 π定義,該策略 π本質(zhì)上是對(duì)特定狀態(tài)應(yīng)采取動(dòng)作的映射.
圖2 強(qiáng)化學(xué)習(xí)交互圖
本系統(tǒng)在搭建訓(xùn)練平臺(tái)時(shí),將環(huán)境建模為一個(gè)四旋翼無人機(jī)模型,用于模擬無人機(jī)在無重力條件下的飛行(模擬重力只需要在垂直方向加一個(gè)力的分量,在進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí),去除重力作用可以規(guī)避很多不必要的問題,后續(xù)實(shí)驗(yàn)只需要平衡重力即可). 如圖3所示,整個(gè)仿真環(huán)境利用Gazebo 仿真模擬器完成搭建,其中無人機(jī)模型符合動(dòng)力學(xué)特性,可以根據(jù)輸入的信號(hào)驅(qū)動(dòng)電機(jī)并改變飛行姿態(tài).
圖3 強(qiáng)化學(xué)習(xí)仿真環(huán)境中神經(jīng)網(wǎng)絡(luò)與無人機(jī)模型交互圖
根據(jù)強(qiáng)化學(xué)習(xí)算法的理論基礎(chǔ),將智能體建模為一個(gè)4 層的強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),其中輸入層有9 個(gè)節(jié)點(diǎn),代表從Gazebo 環(huán)境中獲取9 個(gè)狀態(tài)信息; 輸出層有4 個(gè)節(jié)點(diǎn),代表電機(jī)的4 個(gè)輸出控制信號(hào); 中間是2 層具有32 個(gè)節(jié)點(diǎn)的隱藏層,整體構(gòu)成了強(qiáng)化學(xué)習(xí)控制器網(wǎng)絡(luò).
神經(jīng)網(wǎng)絡(luò)控制器以無人機(jī)飛行時(shí)的角度、角速度、角速度誤差組成了9 維矢量作為輸入,將無人機(jī)的輸入狀態(tài)向量定義為:
其中,?,θ分別表示俯仰角和橫滾角,ω,β,γ分別表示無人機(jī)的三軸角速度,Du,Dv,Dw是地方坐標(biāo)系中期望速度與當(dāng)前速度分量之間的差異,Dψ是目標(biāo)偏航角與當(dāng)前偏航角之間的差異.
在強(qiáng)化學(xué)習(xí)智能體網(wǎng)絡(luò)的訓(xùn)練中,本實(shí)驗(yàn)使用近端策略優(yōu)化(PPO)算法,該算法在強(qiáng)化學(xué)習(xí)領(lǐng)域有著廣泛的應(yīng)用,在運(yùn)動(dòng)控制領(lǐng)域中具有成功的先例(如半獵豹實(shí)驗(yàn),足式機(jī)器人等). 同時(shí),OpenAI 的Baselines項(xiàng)目[16]中提供了PPO 算法的通用API,本文直接使用Baselines 提供的PPO 算法訓(xùn)練神經(jīng)網(wǎng)絡(luò).
在每一個(gè)訓(xùn)練步驟中,使用智能體網(wǎng)絡(luò)指定的動(dòng)作在Gazebo 模型中執(zhí)行一個(gè)模擬步驟,每個(gè)模擬步驟需要返回一個(gè)獎(jiǎng)勵(lì)以評(píng)估給定動(dòng)作的執(zhí)行情況. 本文在每個(gè)模擬步驟的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)由3 部分組成:飛行時(shí)長、飛行穩(wěn)定性和速度跟蹤誤差. 飛行時(shí)長和飛行穩(wěn)定性這兩項(xiàng)可以使飛行器在保持穩(wěn)定飛行的同時(shí),盡可能飛行更長的時(shí)間,速度跟蹤誤差用來衡量智能體對(duì)輸入指令的跟蹤情況. 因此,本文將獎(jiǎng)勵(lì)函數(shù)定義為:
其中,r是一個(gè)不變的存活獎(jiǎng)勵(lì),用來反映飛行器飛行的時(shí)長,每個(gè)時(shí)間步不斷累加,飛行的時(shí)間越久,累積獎(jiǎng)勵(lì)越大,這有利于獲得更長的飛行時(shí)間. ?∥ω∥2項(xiàng)通過最小化角速度來防止機(jī)體抖動(dòng),以盡可能使機(jī)體保持穩(wěn)定飛行.項(xiàng)求和每個(gè)速度分量誤差的絕對(duì)值,由于獎(jiǎng)勵(lì)是負(fù)數(shù),該項(xiàng)表示懲罰,以最小化跟蹤誤差,從而盡可能準(zhǔn)確地跟蹤目標(biāo)速度.
整個(gè)訓(xùn)練過程在一臺(tái)擁有72 核CPU 和250 GB內(nèi)存的戴爾R940 服務(wù)器上進(jìn)行,通過使用并行計(jì)算,訓(xùn)練100 萬步的PPO 算法大約需要1 h. 通過記錄每個(gè)訓(xùn)練周期智能體獲得的獎(jiǎng)勵(lì),可以得到如圖4 所示的reward 曲線圖,通常在訓(xùn)練結(jié)束之前就實(shí)現(xiàn)了收斂.
圖4 強(qiáng)化學(xué)習(xí)訓(xùn)練過程中reward 曲線圖
在每個(gè)交互周期中,強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)根據(jù)狀態(tài)輸入獲得4 個(gè)電機(jī)的輸出值,并作用于無人機(jī)動(dòng)力學(xué)模型,無人機(jī)根據(jù)不同的控制量來調(diào)節(jié)飛行姿態(tài),以減小實(shí)際速度與期望速度之間的誤差并獲得最優(yōu)的獎(jiǎng)勵(lì)回報(bào). 經(jīng)過不斷的訓(xùn)練優(yōu)化,使強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)得到收斂,我們將調(diào)節(jié)的超參數(shù)及網(wǎng)絡(luò)控制性能保存到MySQL 數(shù)據(jù)庫中,將訓(xùn)練好的網(wǎng)絡(luò)參數(shù)存儲(chǔ)到MongoDB數(shù)據(jù)庫中,以供控制器開發(fā)平臺(tái)使用.
本層將訓(xùn)練完成的強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)參數(shù)用于無人機(jī)飛行控制器的設(shè)計(jì)實(shí)現(xiàn),整體設(shè)計(jì)采用基于模型設(shè)計(jì)方式取代傳統(tǒng)代碼編程的方式. 基于模型設(shè)計(jì)將敏捷原則延伸到包括物理組件和軟件在內(nèi)的系統(tǒng)開發(fā)工作,從需求捕獲、系統(tǒng)架構(gòu)和組件設(shè)計(jì),到實(shí)現(xiàn)、驗(yàn)證、測試和部署,基于模型設(shè)計(jì)可以貫穿整個(gè)開發(fā)周期.
通過手動(dòng)編碼來開發(fā)復(fù)雜的飛行控制器是一項(xiàng)艱難而又不可靠的任務(wù),難以避免編碼錯(cuò)誤、邏輯錯(cuò)誤或未知漏洞帶來的不正確的結(jié)果. Simulink 是一款值得信賴的MBD 開發(fā)工具,通過模塊化編程來避免手動(dòng)編碼開發(fā)存在的問題,為飛行控制器的開發(fā)提供了捷徑. 除此之外,Simulink 具有的自動(dòng)代碼生成能力可以根據(jù)模塊化的控制器自動(dòng)生成可執(zhí)行的控制器軟件,實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)控制算法的快速部署. 因此,本層使用Simulink 來進(jìn)行控制器開發(fā).
如圖5 所示,基于強(qiáng)化學(xué)習(xí)的飛行控制器主要包括以下幾個(gè)模塊: 控制信號(hào)輸入模塊、神經(jīng)網(wǎng)絡(luò)參數(shù)接口模塊、計(jì)算網(wǎng)絡(luò)輸入模塊以及強(qiáng)化學(xué)習(xí)控制系統(tǒng)模塊,模塊內(nèi)部采用獨(dú)立的子系統(tǒng),分別設(shè)計(jì)以完成特定的內(nèi)部功能. 其中信號(hào)輸入模塊讀取遙控器RC 信號(hào),遙控器的控制信號(hào)主要是對(duì)無人機(jī)機(jī)體速度、姿態(tài)角以及油門驅(qū)動(dòng)的控制,同時(shí)將歸一化后的控制信號(hào)傳遞到網(wǎng)絡(luò)計(jì)算模塊進(jìn)行當(dāng)前狀態(tài)值的計(jì)算. 網(wǎng)絡(luò)計(jì)算模塊根據(jù)控制信號(hào)輸入以及傳感器獲取的無人機(jī)姿態(tài)角數(shù)據(jù)計(jì)算出強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的狀態(tài)輸入,即s=(?,θ,ω,β,γ,Du,Dv,Dw,Dψ)T∈R9,并作為當(dāng)前時(shí)刻的狀態(tài)量輸入到強(qiáng)化學(xué)習(xí)控制系統(tǒng)中.
圖5 基于模型的智能飛控設(shè)計(jì)
在Simulink 模型中,需要一個(gè)“控制器參數(shù)接口”模塊用于接收從仿真計(jì)算機(jī)獲得的神經(jīng)網(wǎng)絡(luò)參數(shù). 我們將仿真環(huán)境中訓(xùn)練好的網(wǎng)絡(luò)參數(shù)保存到Matlab 可以讀取的“.mat”文件中,并通過TCP/IP 通信來連接主機(jī)和服務(wù)器,將參數(shù)導(dǎo)入到“控制器參數(shù)接口”模塊. 最終,網(wǎng)絡(luò)參數(shù)與狀態(tài)輸入信號(hào)一起傳入強(qiáng)化學(xué)習(xí)控制系統(tǒng)模塊中,在每一次循環(huán)中,該模塊根據(jù)獲取到的狀態(tài)輸入s,經(jīng)過強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的前向傳遞,計(jì)算出下一步采取的動(dòng)作a. 動(dòng)作a對(duì)應(yīng)的是四旋翼4 個(gè)電機(jī)的輸出油門控制量,油門控制量可直接作用于無人機(jī)并通過改變電機(jī)轉(zhuǎn)速來改變四旋翼的飛行姿態(tài),驅(qū)動(dòng)無人機(jī)進(jìn)行飛行并進(jìn)行姿態(tài)控制.
為了驗(yàn)證強(qiáng)化學(xué)習(xí)飛行控制器的性能,我們搭建了一套半實(shí)物仿真測試平臺(tái)和硬件測試平臺(tái),并進(jìn)行仿真測試實(shí)驗(yàn)以及真機(jī)飛行實(shí)驗(yàn).
硬件在環(huán)仿真(HIL)利用硬件在仿真實(shí)驗(yàn)系統(tǒng)的回路中進(jìn)行實(shí)時(shí)仿真,通過在計(jì)算機(jī)仿真回路中加入一些實(shí)物,并建立數(shù)學(xué)模型,將實(shí)物的動(dòng)態(tài)特性和物理規(guī)律在計(jì)算機(jī)上運(yùn)行試驗(yàn),從而為物理部件創(chuàng)造一個(gè)仿真環(huán)境.
硬件在環(huán)仿真系統(tǒng)已被證明在加快無人駕駛飛行器的控制系統(tǒng)的開發(fā)速度方面的有效性,在無人機(jī)控制器設(shè)計(jì)完成之后,需要測試驗(yàn)證控制器的控制性能,若直接進(jìn)行無人機(jī)實(shí)物測試,可能會(huì)發(fā)生無法預(yù)測的故障. 為了避免安全問題,可以先進(jìn)行HIL 實(shí)驗(yàn),來測試控制器的控制性能. 這是控制器測試的第一步,根據(jù)HIL 測試的結(jié)果,可對(duì)控制器進(jìn)行適當(dāng)?shù)恼{(diào)整.
如圖6 所示,本研究以現(xiàn)有的無人機(jī)仿真軟件為基礎(chǔ)搭建仿真平臺(tái),仿真環(huán)境中包含一架小型四旋翼無人機(jī)模型,為了與強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境中的四旋翼無人機(jī)保持盡可能的一致,實(shí)驗(yàn)時(shí)選用重量為440 g,軸距為225 mm 的“X”結(jié)構(gòu)四旋翼無人機(jī). 同時(shí),無人機(jī)在仿真環(huán)境中飛行無氣流、風(fēng)力等環(huán)境因素的影響,可以很好地規(guī)避其他因素對(duì)控制器性能的影響.
圖6 半實(shí)物仿真測試平臺(tái)
HIL 實(shí)驗(yàn)中,首先將開發(fā)的強(qiáng)化學(xué)習(xí)控制器部署到Pixhawk 硬件,并將Pixhawk 硬件與無人機(jī)仿真軟件建立連接,之后通過遙控器控制飛控硬件發(fā)出驅(qū)動(dòng)信號(hào),并控制仿真無人機(jī)飛行. 最后,可以在仿真平臺(tái)中觀察無人機(jī)的各項(xiàng)飛行數(shù)據(jù)及飛行軌跡,并進(jìn)行分析實(shí)驗(yàn). 軟件界面中,通過三維場景視窗可以觀察無人機(jī)在仿真環(huán)境中的位置和姿態(tài); 軌跡視窗可以記錄無人機(jī)在仿真環(huán)境中的水平飛行軌跡; 參數(shù)視窗用于記錄無人機(jī)在飛行過程中電機(jī)轉(zhuǎn)速、姿態(tài)角數(shù)據(jù)、速度數(shù)據(jù)以及位置數(shù)據(jù). 記錄實(shí)時(shí)采集的數(shù)據(jù),并進(jìn)行對(duì)比實(shí)驗(yàn),最終用于驗(yàn)證所提出開發(fā)平臺(tái)的性能.
開發(fā)的半實(shí)物仿真測試平臺(tái)可以替代真實(shí)無人機(jī)進(jìn)行控制器性能實(shí)驗(yàn),在仿真環(huán)境中可以規(guī)避突發(fā)的安全問題和無法預(yù)測的故障,可以作為控制器測試的第一步.
經(jīng)過第一步控制器的硬件在環(huán)測試后,需要進(jìn)行真機(jī)測試,這樣才能進(jìn)一步驗(yàn)證開發(fā)的控制器在真實(shí)環(huán)境中的可用性. 本研究開發(fā)的智能飛行控制器可以通過自動(dòng)代碼生成將控制器固件部署到Pixhawk 硬件中,并安裝在真實(shí)四旋翼無人機(jī)上飛行. 如圖7 所示,搭建了針對(duì)特定四旋翼無人機(jī)的硬件測試平臺(tái),圖7(a)包括一個(gè)用于測試無人機(jī)飛行姿態(tài)角的云臺(tái)裝置,可將無人機(jī)安裝在云臺(tái)上固定,并測試記錄在飛行過程中的姿態(tài)角,用于對(duì)控制器跟蹤性能的分析. 圖7(b)是在一個(gè)小型四旋翼無人機(jī)上進(jìn)行的飛行測試,我們讓飛手在空曠地帶控制四旋翼無人機(jī)飛行,可以看出本研究提出的智能飛控開發(fā)系統(tǒng)可以在實(shí)際中使用,并具有很好的控制性能.
圖7 控制器真機(jī)測試
本文提出了一套完備的無人機(jī)智能飛行控制系統(tǒng)仿真、測試及部署的一體化平臺(tái). 基于MBD 開發(fā)工具,使用模塊化編程以及自動(dòng)代碼生成技術(shù)將強(qiáng)化學(xué)習(xí)算法部署到Pixhawk 硬件中,并實(shí)現(xiàn)了真實(shí)無人機(jī)的飛行測試. 該平臺(tái)可大大減小智能控制器開發(fā)成本以及規(guī)避代碼開發(fā)中的錯(cuò)誤. 未來的工作中,我們將進(jìn)一步拓展平臺(tái)的功能,以適用于不同無人機(jī)機(jī)型的飛控開發(fā). 同時(shí)將部署平臺(tái)與更多硬件連接交互,以實(shí)現(xiàn)各種復(fù)雜的智能控制系統(tǒng),讓強(qiáng)化學(xué)習(xí)控制算法在實(shí)際中得到更好的應(yīng)用.