亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DDQN的運(yùn)載火箭姿態(tài)控制器參數(shù)設(shè)計(jì)

        2020-09-03 10:45:58柳嘉潤駱無意
        航天控制 2020年4期
        關(guān)鍵詞:姿態(tài)控制裕度控制器

        黃 旭 柳嘉潤 駱無意

        1.北京航天自動控制研究所,北京100854 2.宇航智能控制技術(shù)國家級重點(diǎn)實(shí)驗(yàn)室,北京100854

        0 引言

        隨著現(xiàn)代控制理論和智能控制方法的發(fā)展,一些新的控制方法,如變結(jié)構(gòu)滑??刂坪湍:刂频缺灰氲竭\(yùn)載火箭姿態(tài)控制中。但由于箭載計(jì)算機(jī)計(jì)算能力限制、工程化困難等問題,大多數(shù)火箭姿態(tài)控制設(shè)計(jì)還是依賴于古典控制理論中的頻域設(shè)計(jì)方法[1]。工程中一般在建立運(yùn)載火箭姿態(tài)動力學(xué)模型的基礎(chǔ)上,通過不斷調(diào)節(jié)自動穩(wěn)定裝置的傳遞系數(shù)、校正網(wǎng)絡(luò)參數(shù)和分析系統(tǒng)相關(guān)性能的方式,完成整個(gè)飛行時(shí)段的姿態(tài)控制設(shè)計(jì)并開展仿真驗(yàn)證[2]。這種方法可操作性強(qiáng),但設(shè)計(jì)效率依賴設(shè)計(jì)者的經(jīng)驗(yàn),存在設(shè)計(jì)周期長和通用性差等缺點(diǎn),在工程中具有一定的局限性。

        人類設(shè)計(jì)師利用頻域設(shè)計(jì)方法進(jìn)行火箭姿態(tài)控制系統(tǒng)設(shè)計(jì)的過程本質(zhì)上是一個(gè)序列決策問題。而人工智能(Artificial Intelligence,AI)領(lǐng)域中的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)算法則有效實(shí)現(xiàn)了序列決策的過程。2016年,以DRL算法作為核心技術(shù)之一的 AlphaGo[3]智能體在圍棋比賽中擊敗了人類頂尖職業(yè)棋手李世石,使得DRL算法被研究界普遍認(rèn)可并深入研究。近幾年來,DRL在機(jī)器人技術(shù)[4]、智能駕駛[5]、電子設(shè)計(jì)[6]等諸多領(lǐng)域得到了廣泛的推廣和研究。

        DRL從字面意思就是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合。深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的特征表征能力;強(qiáng)化學(xué)習(xí)則受到生物能夠有效適應(yīng)環(huán)境的啟發(fā),以試錯的機(jī)制與環(huán)境進(jìn)行交互,通過最大化累積獎賞的方式來學(xué)習(xí)到最優(yōu)策略。DRL有效地吸收了兩者的優(yōu)點(diǎn),將抽象思維的表征能力和決策能力集合于一體。而工程中火箭姿態(tài)控制器參數(shù)設(shè)計(jì)規(guī)則相對明確且設(shè)計(jì)過程實(shí)際上就是一個(gè)決策過程,所以可以進(jìn)行基于DRL算法進(jìn)行智能體離線設(shè)計(jì)控制器參數(shù)方面的研究探索。

        航天控制系統(tǒng)正在走向智能化,通過智能技術(shù)的賦能可以使航天裝備變得更聰明[7]。如果可以成功使用智能體代替工程設(shè)計(jì)人員進(jìn)行控制器參數(shù)設(shè)計(jì),不僅可以提高設(shè)計(jì)效率、縮短設(shè)計(jì)時(shí)間,所得結(jié)果也可以給工程設(shè)計(jì)人員提供一定的參考,為人工智能新方法在航天領(lǐng)域的應(yīng)用提供新思路。

        1 姿控系統(tǒng)頻域分析模型

        以三通道交聯(lián)較小、各通道控制器可獨(dú)立設(shè)計(jì)的火箭模型為例。考慮箭體的彈性和推進(jìn)劑晃動,某特征秒的箭體俯仰通道運(yùn)動方程如下[2]:

        (1)

        (2)

        Δφ=Δα+Δθ

        (3)

        (4)

        (5)

        (6)

        1.1 傳遞函數(shù)求解

        根據(jù)式(1)~(6)選取合適的狀態(tài)變量建立對應(yīng)的狀態(tài)空間方程:

        (7)

        要進(jìn)行火箭姿態(tài)控制器設(shè)計(jì)首先要建立姿控系統(tǒng)的頻域分析模型。控制策略選擇工程上常用的基于“小擾動線性化”的增益預(yù)置法。本文僅考慮俯仰通道,整個(gè)姿控系統(tǒng)閉環(huán)回路的結(jié)構(gòu)如圖1所示[9]。

        圖1 俯仰通道姿控系統(tǒng)閉環(huán)回路結(jié)構(gòu)圖

        1.2 控制器參數(shù)選擇

        設(shè)計(jì)參數(shù)包括靜態(tài)增益系數(shù)、動態(tài)增益系數(shù)以及校正網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。借鑒傳統(tǒng)姿態(tài)控制器離線設(shè)計(jì)過程,設(shè)計(jì)出的靜態(tài)增益系數(shù)在飛行過程中一般是以插值表的形式根據(jù)時(shí)間插值得出??蛇x擇有代表性的特征秒點(diǎn),并設(shè)計(jì)這些特征點(diǎn)上的靜態(tài)增益系數(shù),飛行中靜態(tài)增益系數(shù)按時(shí)間插值得出。而性能較好的校正網(wǎng)絡(luò)可以使系統(tǒng)保留一定的裕度,并在最差的飛行環(huán)境中保持穩(wěn)定。文中的校正網(wǎng)絡(luò)分子和分母均包含3個(gè)二階環(huán)節(jié)。見式(8)。

        (8)

        (9)

        一共有14個(gè)待設(shè)計(jì)參數(shù)。

        2 DRL算法選擇與MDP設(shè)計(jì)

        人類工程師在進(jìn)行姿態(tài)控制器設(shè)計(jì)時(shí),通過觀察分析系統(tǒng)開環(huán)傳遞函數(shù)的bode圖調(diào)節(jié)相關(guān)設(shè)計(jì)參數(shù),不斷迭代最終得出相應(yīng)的

        參數(shù)。調(diào)參過程可以理解為一個(gè)離散動作過程,本文選擇基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法:DDQN(Double Deep Q Network)[10]作為智能體訓(xùn)練算法。

        2.1 本問題的馬爾科夫決策過程描述

        強(qiáng)化學(xué)習(xí)本質(zhì)上是解決一個(gè)馬爾科夫決策過程(Markov Decision Process,MDP)。根據(jù)1.2節(jié)選擇的待設(shè)計(jì)參數(shù)和DDQN相關(guān)特點(diǎn),結(jié)合運(yùn)載火箭姿態(tài)控制器設(shè)計(jì)過程建立對應(yīng)的MDP模型:

        M=(S,A,P,R,γ)

        (10)

        a)狀態(tài)集S={s1,s2,s3,…}:狀態(tài)空間由各個(gè)特征秒點(diǎn)的的各實(shí)際裕度張成:

        (11)

        b)動作集A={a1,a2,a3,…}。智能體在調(diào)參中對各參數(shù)在一定范圍內(nèi)進(jìn)行增減,為了縮減智能體動作空間的維度,智能體每一步只調(diào)節(jié)一個(gè)參數(shù)值。待設(shè)計(jì)參數(shù)有14個(gè),則智能體的動作空間中一共有28種動作。

        (12)

        c)狀態(tài)轉(zhuǎn)移概率P:在本文的研究內(nèi)容中,下一個(gè)狀態(tài)可以根據(jù)頻域分析計(jì)算獲得;

        d)立即回報(bào)r:立即回報(bào)的設(shè)置是深度強(qiáng)化學(xué)習(xí)應(yīng)用中非常關(guān)鍵的部分,它的設(shè)置將很大程度上影響到算法的訓(xùn)練效果,應(yīng)用場景目標(biāo)越明確,立即回報(bào)的設(shè)計(jì)越簡單,訓(xùn)練效果越好。這里給出本文的立即回報(bào)設(shè)置:

        (13)

        單星號上標(biāo)代表對應(yīng)裕度的指標(biāo)值。雙星號上標(biāo)代表懲罰因子,即對應(yīng)實(shí)際裕度不滿足指標(biāo)值時(shí),將減去一個(gè)定值以對智能體進(jìn)行懲罰。5個(gè)特征秒點(diǎn)的設(shè)計(jì)指標(biāo)值和懲罰因子一致。ωi代表各個(gè)裕度的權(quán)重。

        當(dāng)設(shè)計(jì)參數(shù)超界或者系統(tǒng)不穩(wěn)定時(shí):

        rt=-1

        (14)

        e)折扣因子γ:用來計(jì)算累計(jì)回報(bào),取值在[0,1]之間,取值根據(jù)實(shí)驗(yàn)時(shí)具體情況進(jìn)行調(diào)節(jié)。本文中取0.95。

        2.2 本文的DDQN算法訓(xùn)練流程

        DDQN是經(jīng)典深度強(qiáng)化學(xué)習(xí)算法DQN(Deep Q Network)[11]的改進(jìn)算法,DDQN一定程度上解決了DQN中的過估計(jì)問題,提高了算法的穩(wěn)定性[12]。

        結(jié)合本文設(shè)計(jì)的MDP模型,給出具體智能體訓(xùn)練算法流程。

        首先初始化記憶回放單元D和兩個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θ和θ-,開始進(jìn)行實(shí)驗(yàn)。每次實(shí)驗(yàn)智能體最多可進(jìn)行1500次調(diào)參。每次調(diào)參后,頻域分析得到的裕度值作為狀態(tài)st經(jīng)過式(16)預(yù)處理,得到φt,將其作為當(dāng)前值網(wǎng)絡(luò)的輸入,輸出各動作的狀態(tài)行為值,使用ε-greedy算法選擇動作at并執(zhí)行,得到下一個(gè)狀態(tài)st+1和立即回報(bào)rt+1,將(φt,at,rt+1,φt+1)存儲到記憶回放單元中。每進(jìn)行一定次數(shù)的調(diào)參,在記憶回放單元中采集一定數(shù)量的樣本,按目標(biāo)函數(shù)式(15)進(jìn)行梯度下降,求解當(dāng)前值網(wǎng)絡(luò)參數(shù),Qπ代表當(dāng)前策略下的對應(yīng)狀態(tài)和動作的值函數(shù),并每隔一定時(shí)間將當(dāng)前值網(wǎng)絡(luò)參數(shù)賦值給目標(biāo)值網(wǎng)絡(luò),如此不斷迭代完成智能體訓(xùn)練。當(dāng)φj+1為本次實(shí)驗(yàn)最終狀態(tài)時(shí),yj的值為rj+1。

        圖2 智能體訓(xùn)練算法流程圖

        (15)

        對狀態(tài)預(yù)處理形式如式(16)所示。s*代表對應(yīng)裕度的指標(biāo)。

        (16)

        3 智能體訓(xùn)練與前向參數(shù)設(shè)計(jì)

        綜合1、2節(jié),進(jìn)行智能體的訓(xùn)練和前向參數(shù)設(shè)計(jì)。

        3.1 智能體訓(xùn)練

        根據(jù)前面章節(jié)的內(nèi)容設(shè)置相關(guān)網(wǎng)絡(luò)參數(shù)和訓(xùn)練超參數(shù)開始進(jìn)行智能體的訓(xùn)練。當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)的結(jié)構(gòu)一致,均使用單隱層BP神經(jīng)網(wǎng)絡(luò),激活函數(shù)選取tanh。單次實(shí)驗(yàn)中,記憶回放單元存儲數(shù)量設(shè)置為300,智能體每進(jìn)行100次調(diào)參,在記憶回放單元中隨機(jī)抽取50個(gè)樣本,按式(15)進(jìn)行梯度下降以更新當(dāng)前值網(wǎng)絡(luò)參數(shù)。每進(jìn)行200次調(diào)參,目標(biāo)值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)對當(dāng)前值網(wǎng)絡(luò)參數(shù)進(jìn)行一次拷貝,以減小兩個(gè)網(wǎng)絡(luò)的相關(guān)性,從而提升網(wǎng)絡(luò)訓(xùn)練效率。設(shè)置ε-greedy算法的ε值為0.85以提高智能體的探索能力,即0.85的概率選擇狀態(tài)行為值最大的那個(gè)動作執(zhí)行,否則隨機(jī)選取一個(gè)動作執(zhí)行。

        當(dāng)網(wǎng)絡(luò)在一定程度上收斂時(shí)結(jié)束智能體訓(xùn)練。訓(xùn)練累計(jì)誤差結(jié)果如圖3所示。訓(xùn)練開始時(shí)誤差較大,累計(jì)變化的斜率很大,隨著訓(xùn)練次數(shù)的增多,誤差減小,斜率放緩。

        圖3 累計(jì)誤差變化隨訓(xùn)練次數(shù)變化曲線

        每次實(shí)驗(yàn)的累計(jì)回報(bào)隨訓(xùn)練次數(shù)的變化曲線如圖4所示,經(jīng)過一定量的實(shí)驗(yàn)后單次實(shí)驗(yàn)的累計(jì)回報(bào)能相對穩(wěn)定在20左右。由于智能體的探索以及其他問題,累計(jì)回報(bào)存在少量波動,但基本保持一個(gè)上升并收斂的趨勢。

        訓(xùn)練過程的波動有多方面的原因:1)基于值函數(shù)方法的強(qiáng)化學(xué)習(xí)算法存在一定的不穩(wěn)定性;2)對記憶庫中樣本進(jìn)行隨機(jī)采樣訓(xùn)練網(wǎng)絡(luò)可能會破壞較好的網(wǎng)絡(luò)參數(shù),而且智能體訓(xùn)練過程加入探索一定程度上會影響收斂;3)由于各個(gè)裕度之間存在的復(fù)雜的交聯(lián)也會影響訓(xùn)練;4)在訓(xùn)練中超參數(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置完全依賴經(jīng)驗(yàn),也是機(jī)器學(xué)習(xí)中一直困擾著研究者們的問題。

        由于火箭姿態(tài)控制器參數(shù)設(shè)計(jì)沒有嚴(yán)格意義上的最優(yōu)參數(shù)集合,所以理論上控制器的可行參數(shù)集合有無窮個(gè)。訓(xùn)練的目的就是讓智能體模擬人類設(shè)計(jì)師的設(shè)計(jì)過程,在不斷調(diào)整參數(shù)分析系統(tǒng)性能的過程中,逐漸變得“老道”,從而成為一位優(yōu)秀的控制器“設(shè)計(jì)師”。

        圖4 單次實(shí)驗(yàn)累計(jì)回報(bào)隨實(shí)驗(yàn)次數(shù)變化曲線

        3.2 智能體前向測試

        為了驗(yàn)證智能體的調(diào)參能力,在一定范圍內(nèi)隨機(jī)初始化控制器參數(shù),使用訓(xùn)練好的智能體調(diào)節(jié)參數(shù),觀察調(diào)參過程中姿態(tài)控制系統(tǒng)綜合性能即單步立即回報(bào)值的變化來評價(jià)智能體。

        在前向測試(圖5)中,對姿態(tài)控制系統(tǒng)進(jìn)行頻域分析后的各個(gè)實(shí)際裕度值進(jìn)行預(yù)處理后作為狀態(tài),輸入到訓(xùn)練好的目標(biāo)值網(wǎng)絡(luò),目標(biāo)值網(wǎng)絡(luò)進(jìn)行前向計(jì)算得到當(dāng)前狀態(tài)對應(yīng)各個(gè)動作的狀態(tài)行為值函數(shù),使用ε-greedy算法選擇一個(gè)動作執(zhí)行,不斷迭代直到本次前向測試結(jié)束,ε-greedy算法的ε值設(shè)置為0.95以作為一個(gè)調(diào)參干擾加入智能體調(diào)參過程。

        圖5 智能體前向測試流程圖

        取一次前向測試實(shí)驗(yàn)的單步立即回報(bào)值變化曲線如圖6所示。智能體經(jīng)過不斷地調(diào)節(jié)參數(shù)使得單步立即回報(bào)增大即使姿態(tài)控制系統(tǒng)的綜合性能增強(qiáng),在經(jīng)過一系列的調(diào)參動作后找到了76個(gè)可行控制器參數(shù)組??梢娖鋼碛幸欢ǖ恼{(diào)參能力。

        圖6 單次前向測試中立即回報(bào)隨時(shí)間步變化曲線

        選取本次前向測試中回報(bào)最大的一組控制器參數(shù)組,繪制5個(gè)特征秒點(diǎn)的姿態(tài)控制系統(tǒng)bode圖(圖7~8)。得到的系統(tǒng)各裕度均符合設(shè)計(jì)指標(biāo)并有一定的冗余。設(shè)計(jì)得到的控制器幅頻特性(圖9)呈現(xiàn)典型的雙漏斗結(jié)構(gòu)。

        圖7 姿控系統(tǒng)開環(huán)幅頻特性曲線

        圖8 姿控系統(tǒng)開環(huán)相頻特性曲線

        圖9 校正網(wǎng)絡(luò)幅頻特性曲線

        4 結(jié)論與未來展望

        智能體的訓(xùn)練和前向測試的結(jié)果表明,該使用智能體代替人工設(shè)計(jì)姿態(tài)控制器參數(shù)的思路具有一定的研究價(jià)值和潛力。當(dāng)然也需要在改進(jìn)強(qiáng)化學(xué)習(xí)算法、深化神經(jīng)網(wǎng)絡(luò)、設(shè)置更加合理的MDP模型等方面繼續(xù)努力。

        強(qiáng)化學(xué)習(xí)的優(yōu)勢在于無過多的先驗(yàn)知識的智能體能在與環(huán)境的不斷交互中學(xué)習(xí)到一些人工設(shè)計(jì)的常用經(jīng)驗(yàn),甚至可能發(fā)現(xiàn)一些工程師未總結(jié)出的經(jīng)驗(yàn)。依托當(dāng)前計(jì)算機(jī)算力等技術(shù)的發(fā)展,相信在不久的將來,進(jìn)行工程設(shè)計(jì)的智能體也能擁有如Alpha Go和Alpha Zero[13]等智能體一樣強(qiáng)大的決策能力,幫助甚至代替人類工程師進(jìn)行一些復(fù)雜的工程設(shè)計(jì)。

        猜你喜歡
        姿態(tài)控制裕度控制器
        風(fēng)擾動下空投型AUV的飛行姿態(tài)控制研究
        多星發(fā)射上面級主動抗擾姿態(tài)控制技術(shù)研究
        基于DFIG可用無功裕度的風(fēng)電場無功電壓控制方法
        電測與儀表(2016年2期)2016-04-12 00:24:36
        基于UC/OS-II四旋翼姿態(tài)控制系統(tǒng)設(shè)計(jì)
        三環(huán)路核電廠的抗震裕度評價(jià)
        基于ANN模型的在線電壓穩(wěn)定裕度評估
        電測與儀表(2015年5期)2015-04-09 11:30:46
        電流互感器磁飽和裕度及其試驗(yàn)裝置的探討
        模糊PID控制器設(shè)計(jì)及MATLAB仿真
        MOXA RTU控制器ioPAC 5542系列
        自動化博覽(2014年9期)2014-02-28 22:33:17
        倍福 CX8091嵌入式控制器
        自動化博覽(2014年4期)2014-02-28 22:31:15
        中文字幕人妻av一区二区| 久热在线播放中文字幕| 亚洲 国产 哟| 激情乱码一区二区三区| 2020国产在视频线自在拍| 成人精品视频一区二区三区尤物 | 自拍偷自拍亚洲精品情侣| 午夜a福利| 人妻丰满熟妇一二三区| 亚洲综合欧美色五月俺也去 | 免费在线亚洲视频| 国内自拍偷拍一区二区| 伊人久久精品亚洲午夜| 国产精品夜间视频香蕉| 无码中文av有码中文av| 亚洲一区二区三区在线激情| 少妇无码太爽了在线播放| 人与禽交av在线播放| 精品无码成人片一区二区| 乳乱中文字幕熟女熟妇| 玩弄白嫩少妇xxxxx性| 富婆如狼似虎找黑人老外| 国产三级在线观看性色av| 在线观看日本一区二区三区四区| 亚洲成av人片在线观看www| 中文毛片无遮挡高潮| av有码在线一区二区三区| 午夜免费电影| 1000部精品久久久久久久久| 亚洲一区二区三区中文视频| 97超碰精品成人国产| 亚洲日本一区二区一本一道| 无码天堂亚洲国产av麻豆| 九九久久精品一区二区三区av| 色欲人妻aaaaaaa无码| 国产精品久久久久久久久鸭| 国产精品女同一区二区久| 人妻少妇哀求别拔出来| 少妇无码一区二区三区| 欧洲无码一级毛片无遮挡| 亚洲天堂av在线网站|