齊義文,李 鑫,張 弛,姜渭宇
(1. 沈陽航空航天大學(xué) 自動(dòng)化學(xué)院,沈陽 110136;2. 北京動(dòng)力機(jī)械研究所 控制中心,北京 100074)
高空直連試驗(yàn)臺(tái)(簡稱高空臺(tái))作為發(fā)動(dòng)機(jī)設(shè)計(jì)、定型、改進(jìn)改型、故障再現(xiàn)與排除的關(guān)鍵試驗(yàn)設(shè)備,模擬并為發(fā)動(dòng)機(jī)提供工作包線內(nèi)不同飛行環(huán)境的壓力、溫度[1]。其中,進(jìn)氣壓力模擬系統(tǒng)作為關(guān)鍵設(shè)備之一,其控制品質(zhì)的優(yōu)劣直接決定試驗(yàn)效果[2]。在高空臺(tái)直連試驗(yàn)過程中,發(fā)動(dòng)機(jī)起動(dòng)、加減速等狀態(tài)所導(dǎo)致的流量瞬變問題對進(jìn)氣壓力調(diào)節(jié)系統(tǒng)造成較大干擾,發(fā)動(dòng)機(jī)流量在1~2 s 內(nèi)變化范圍可達(dá)80%~100%,致使進(jìn)氣壓力調(diào)節(jié)系統(tǒng)受到大幅值階躍干擾。如何消除此類擾動(dòng)對系統(tǒng)的影響,是獲得快速、魯棒、高精度的穩(wěn)/動(dòng)態(tài)控制性能的關(guān)鍵[3]。而PID 控制、自抗擾控制、模糊控制等傳統(tǒng)控制方法存在響應(yīng)速度較慢、魯棒性較弱等局限,難以達(dá)到理想的控制效能。因此,探索性能更優(yōu)異、設(shè)計(jì)更簡便、響應(yīng)速度更快的控制方法十分必要。強(qiáng)化學(xué)習(xí)方法作為人工智能技術(shù)研究熱點(diǎn)與前沿之一,具有不依賴模型、自學(xué)習(xí)、自更新等優(yōu)點(diǎn),可通過試錯(cuò)方式不斷積累經(jīng)驗(yàn),完善控制策略,是解決復(fù)雜系統(tǒng)控制設(shè)計(jì)難題的一種有效手段[4]。
強(qiáng)化學(xué)習(xí)在控制領(lǐng)域已有較多應(yīng)用,Dorokhova 等[5]提出一種基于深度強(qiáng)化學(xué)習(xí)的電動(dòng)汽車充電控制方法,解決了充電模式對電網(wǎng)的不良影響。Mahmoud 等[6]通過強(qiáng)化學(xué)習(xí)方法來調(diào)節(jié)分布式發(fā)電源的輸出電壓,該控制器引入值迭代算法,實(shí)現(xiàn)不同電力干擾下的魯棒控制。Gupta 等[7]提出一種基于深度強(qiáng)化學(xué)習(xí)的加熱控制器,提高智能建筑熱舒適度的同時(shí)最大限度地降低了能源成本。Pi等[8]提出一種基于強(qiáng)化學(xué)習(xí)的四旋翼控制策略,解決了陣風(fēng)等外界干擾下的四旋翼定位難題。趙純等[9]提出一種深度Q-Learning 的交通信號(hào)燈配時(shí)優(yōu)化方案,基于經(jīng)驗(yàn)回放機(jī)制,運(yùn)用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和輸出預(yù)測。李巖等[10]提出一種三流道自適應(yīng)循環(huán)發(fā)動(dòng)機(jī)的確定性策略梯度控制算法,通過在線優(yōu)化壓比計(jì)劃,實(shí)現(xiàn)控制規(guī)律自主尋優(yōu)。裴培等[11]提出一種深度強(qiáng)化學(xué)習(xí)理論的制導(dǎo)控制一體化算法,智能體根據(jù)導(dǎo)彈觀測量生成舵偏轉(zhuǎn)角控制指令準(zhǔn)確攔截目標(biāo)。張汲宇等[12]提出一種基于深度強(qiáng)化學(xué)習(xí)優(yōu)化的智能分層控制器,智能體通過優(yōu)化串級(jí)PI控制器獲得了更好的控制性能。
在高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)控制方面,張松等[13]提出一種復(fù)合控制技術(shù),將PID 控制與模糊控制相結(jié)合,構(gòu)成兼具兩者優(yōu)點(diǎn)的壓力模擬控制系統(tǒng)。朱美印等[14]提出一種基于LMI極點(diǎn)配置的PI增益調(diào)度控制設(shè)計(jì)方法,根據(jù)線性模型推導(dǎo)了基于LMI 極點(diǎn)配置的PI 控制器設(shè)計(jì)方法。喬彥平等[15]提出一種遺傳算法優(yōu)化的進(jìn)氣壓力模擬系統(tǒng),設(shè)計(jì)對應(yīng)的適應(yīng)度函數(shù),實(shí)現(xiàn)了PID 參數(shù)的全局優(yōu)化。周家林等[16]提出一種基于模糊自適應(yīng)PID控制器的自動(dòng)調(diào)壓技術(shù),并對真實(shí)加減速過程中空氣流量的調(diào)節(jié)進(jìn)行了仿真驗(yàn)證。
盡管高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)的控制研究取得了一些進(jìn)展,但多采用遺傳算法優(yōu)化、PID 變參控制等方法,但強(qiáng)化學(xué)習(xí)方法在本領(lǐng)域的應(yīng)用仍為空白。而基于強(qiáng)化學(xué)習(xí)的前饋補(bǔ)償方法具有不依賴模型的優(yōu)點(diǎn),對于強(qiáng)非線性、復(fù)雜程度高的進(jìn)氣壓力模擬系統(tǒng)而言,可有效降低控制設(shè)計(jì)難度,提高系統(tǒng)抗干擾能力,其自學(xué)習(xí)、自更新特性可實(shí)現(xiàn)進(jìn)氣壓力模擬系統(tǒng)的高性能控制。因此,結(jié)合PID控制,本文提出一種基于深度確定性策略梯度(deep de‐terministic policy gradient,DDPG)的前饋補(bǔ)償控制方法,通過DDPG 方法對高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)流量、壓力等擾動(dòng)進(jìn)行前饋補(bǔ)償控制,大大降低PID控制器負(fù)擔(dān),并通過仿真驗(yàn)證了所提出方法的快速性、準(zhǔn)確性、穩(wěn)定性和魯棒性。
本文考慮的高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)模型結(jié)構(gòu)如圖1所示。
圖1 高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)結(jié)構(gòu)圖
高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)主要包括:氣源總管、進(jìn)氣流量調(diào)節(jié)閥門V1、進(jìn)氣壓力調(diào)節(jié)閥門V6、旁路放氣調(diào)節(jié)閥門V4 和高空艙等部分。氣源總管為高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)提供恒定壓力和溫度的氣流,進(jìn)氣流量調(diào)節(jié)閥門V1 主要調(diào)節(jié)進(jìn)氣模擬系統(tǒng)的總流量,進(jìn)氣壓力調(diào)節(jié)閥門V6 和旁路放氣調(diào)節(jié)閥門V4 主要調(diào)節(jié)進(jìn)氣模擬系統(tǒng)中高空艙的進(jìn)氣壓力。高空直連試驗(yàn)過程中,閥門V1 根據(jù)高空艙內(nèi)發(fā)動(dòng)機(jī)流量需求來調(diào)整閥門開度,閥門V4 用于調(diào)節(jié)閥門V6 前壓力,將多余空氣外排,閥門V6 調(diào)節(jié)高空艙進(jìn)氣壓力及內(nèi)部發(fā)動(dòng)機(jī)進(jìn)氣流量。
高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)PID控制原理如圖2 所示,PID 控制器的輸入為高空艙進(jìn)氣壓力誤差,輸出為閥門V6 開度(范圍為0~1),為降低控制系統(tǒng)負(fù)擔(dān)(減少控制器輸出自由度)的同時(shí)提高系統(tǒng)調(diào)壓范圍和性能,保持閥門V6與V4開度相加為1。
圖2 高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)PID控制原理圖
前饋控制屬于一種開環(huán)調(diào)節(jié)方式,通過觀測擾動(dòng)的變化,正確預(yù)測控制偏差,進(jìn)而提前補(bǔ)償干擾,維持系統(tǒng)穩(wěn)定輸出。而反饋控制利用誤差使控制器發(fā)揮作用,故其調(diào)節(jié)速度滯后于內(nèi)/外部干擾作用。與反饋控制相比,前饋補(bǔ)償控制通過讀取干擾值并將其引入反饋調(diào)節(jié),具有更快的調(diào)節(jié)速度,故前饋-反饋組合的控制方式可在減小誤差的基礎(chǔ)上,進(jìn)一步提高系統(tǒng)抗擾能力。
基于DDPG 的前饋補(bǔ)償控制原理如圖3 所示,狀態(tài)空間是智能體感知進(jìn)氣壓力(通過測量進(jìn)氣總壓得到)模擬系統(tǒng)運(yùn)行狀態(tài)的集合,包括進(jìn)氣壓力的誤差、誤差微分、誤差積分等,獎(jiǎng)勵(lì)函數(shù)輸入為進(jìn)氣壓力誤差。DDPG智能體通過狀態(tài)空間感知系統(tǒng)特征,在不同狀態(tài)下,獎(jiǎng)勵(lì)機(jī)制指導(dǎo)其做出最優(yōu)決策,即智能體輸出前饋補(bǔ)償動(dòng)作。DDPG智能體的前饋補(bǔ)償訓(xùn)練過程與PID控制過程同步,當(dāng)系統(tǒng)出現(xiàn)擾動(dòng)(如進(jìn)氣壓力擾動(dòng)、發(fā)動(dòng)機(jī)流量擾動(dòng)等)時(shí),在反饋控制器還未及時(shí)調(diào)整時(shí),智能體便可根據(jù)系統(tǒng)當(dāng)前狀態(tài)和擾動(dòng)量進(jìn)行前饋補(bǔ)償控制,即智能體輸出相應(yīng)動(dòng)作,并與PID 反饋控制器輸出相加得到最終的控制輸出(閥門開度),以達(dá)到更好的控制效能。
圖3 基于DDPG的前饋補(bǔ)償控制原理圖
DDPG是一種融合基于值與策略的強(qiáng)化學(xué)習(xí)算法,明顯不同于深度Q 網(wǎng)絡(luò)(deep Q ner‐work,DQN)算法,DDPG 算法可以處理連續(xù)動(dòng)作[17]。DDPG算法將神經(jīng)網(wǎng)絡(luò)與行動(dòng)器—評(píng)價(jià)器(actor-critic,AC)框架相結(jié)合,AC 算法包含行動(dòng)函數(shù)和評(píng)價(jià)函數(shù),行動(dòng)函數(shù)Actor 生成智能體agent 與環(huán)境交互的動(dòng)作;評(píng)價(jià)函數(shù)Critic用于評(píng)價(jià)智能體agent 執(zhí)行動(dòng)作的優(yōu)劣性。在DDPG 算法中,采用深度神經(jīng)網(wǎng)絡(luò)近似行動(dòng)函數(shù)和評(píng)價(jià)函數(shù),共包括4 個(gè)神經(jīng)網(wǎng)絡(luò),其作用是:Actor估計(jì)網(wǎng)絡(luò)與環(huán)境交互;Critic估計(jì)網(wǎng)絡(luò)通過交互信息更新自身參數(shù),并指導(dǎo)Actor 估計(jì)網(wǎng)絡(luò)更新;Actor 目標(biāo)網(wǎng)絡(luò)與Critic 目標(biāo)網(wǎng)絡(luò)預(yù)測下一時(shí)刻動(dòng)作與動(dòng)作價(jià)值函數(shù)。DDPG算法框架如圖4所示。
圖4 DDPG算法框架圖
基于DDPG 算法的前饋補(bǔ)償控制器設(shè)計(jì)包括如下3部分。
(1)狀態(tài)與動(dòng)作參數(shù)選取
狀態(tài)是智能體感知環(huán)境的特征表達(dá),是動(dòng)作選擇的基礎(chǔ)。為降低神經(jīng)網(wǎng)絡(luò)的擬合難度,狀態(tài)參數(shù)需直觀反映高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)的運(yùn)行特征。此外,動(dòng)作參數(shù)與狀態(tài)參數(shù)之間需具有明確對應(yīng)關(guān)系,否則會(huì)增加網(wǎng)絡(luò)訓(xùn)練難度,甚至無法收斂。本設(shè)計(jì)將可表征進(jìn)氣壓力模擬系統(tǒng)運(yùn)行特征的進(jìn)氣總壓誤差、誤差積分、誤差微分、發(fā)動(dòng)機(jī)流量、PID控制器輸出、DDPG 動(dòng)作輸出作為狀態(tài)參數(shù)。在設(shè)計(jì)初期,考慮到系統(tǒng)進(jìn)氣總壓誤差為主要性能指標(biāo),同時(shí)前饋控制器需具有擾動(dòng)感知能力,故選取進(jìn)氣總壓誤差、發(fā)動(dòng)機(jī)流量作為控制器輸入的狀態(tài)參數(shù);選取閥門V6 開度作為控制器輸出參數(shù),且將閥門V4 與V6 聯(lián)合控制,即兩者開度之和恒定保持為1,其余閥門開度根據(jù)試驗(yàn)過程所需設(shè)置為固定值。在網(wǎng)絡(luò)訓(xùn)練時(shí),通過給定不同目標(biāo)進(jìn)氣總壓指令來滿足高空艙對發(fā)動(dòng)機(jī)不同運(yùn)行狀態(tài)進(jìn)氣總壓的需求。
在實(shí)際訓(xùn)練過程中,由于PID 控制器的參與,即使智能體輸出動(dòng)作維持不變,反饋控制器仍可減少進(jìn)氣總壓誤差,此時(shí)智能體由于得到一定獎(jiǎng)勵(lì)而陷入局部最優(yōu),無法達(dá)到較好的前饋補(bǔ)償控制效果。因此,對狀態(tài)和動(dòng)作參數(shù)進(jìn)行了再設(shè)計(jì)。為解決陷入局部最優(yōu)問題,將PID 控制器輸出、DDPG 控制器輸出作為狀態(tài)參數(shù),將動(dòng)作輸出范圍限定為-0.3~0.3,對應(yīng)閥門V6 開度為減小30°至增加30°;此外,為解決系統(tǒng)遲滯問題、提高智能體動(dòng)作預(yù)測能力,將包含歷史數(shù)據(jù)的誤差積分和包含誤差趨勢的誤差微分作為狀態(tài)參數(shù)。據(jù)此,最終完成狀態(tài)與動(dòng)作參數(shù)選取。
(2)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的合理性直接決定網(wǎng)絡(luò)能否收斂、收斂效果及控制精度。獎(jiǎng)勵(lì)條件與控制目標(biāo)還需具有確切關(guān)系,以起到對網(wǎng)絡(luò)訓(xùn)練的有效指導(dǎo)作用。此處設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)由進(jìn)氣總壓誤差決定,誤差絕對值越小,獎(jiǎng)勵(lì)值越大。設(shè)計(jì)初期采用的獎(jiǎng)勵(lì)函數(shù)如式(1)所示
式中:Pt_e為進(jìn)氣總壓誤差;r為獎(jiǎng)勵(lì)值。該分段獎(jiǎng)勵(lì)函數(shù)的權(quán)重設(shè)計(jì)思路為:進(jìn)氣總壓誤差越大,獎(jiǎng)勵(lì)值越低(扣分越多),即進(jìn)氣總壓誤差與所得獎(jiǎng)勵(lì)成反比,且所能得到的最大獎(jiǎng)勵(lì)為0,分段獎(jiǎng)勵(lì)函數(shù)曲線如圖5所示。小穩(wěn)態(tài)誤差下的獎(jiǎng)勵(lì)值沒變化,故智能體無法進(jìn)一步優(yōu)化穩(wěn)態(tài)誤差,無法滿足控制要求,原因?yàn)榉€(wěn)態(tài)誤差在1kPa 以內(nèi)時(shí),獎(jiǎng)勵(lì)函數(shù)值不變。因此,對進(jìn)氣總壓誤差與獎(jiǎng)勵(lì)條件做了進(jìn)一步設(shè)計(jì),使得穩(wěn)態(tài)誤差在1kPa 以內(nèi)的獎(jiǎng)勵(lì)函數(shù)仍與進(jìn)氣總壓誤差成反比,如圖6所示,以達(dá)到高性能的控制目標(biāo),改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)如式(2)所示
圖5 分段獎(jiǎng)勵(lì)函數(shù)
圖6 改進(jìn)后獎(jiǎng)勵(lì)函數(shù)
最終,采用式(2)的獎(jiǎng)勵(lì)函數(shù),有效減小了穩(wěn)態(tài)誤差,提高了控制精度。
(3)網(wǎng)絡(luò)設(shè)計(jì)與更新
本文設(shè)置Actor 網(wǎng)絡(luò)含有兩個(gè)隱藏層,激活函數(shù)為Relu 函數(shù),層與層之間為全連接方式;Critic 網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,由狀態(tài)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)經(jīng)過相加層后,通過兩個(gè)隱藏層,激活函數(shù)為Relu 函數(shù),其中,狀態(tài)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)均含3個(gè)隱藏層。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
圖7 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
1)Actor估計(jì)網(wǎng)絡(luò)設(shè)計(jì)
以高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)狀態(tài)參數(shù)s 作為Actor估計(jì)網(wǎng)絡(luò)輸入,輸出對應(yīng)閥門開度aV6,更新進(jìn)氣模擬系統(tǒng)狀態(tài)s'并得到獎(jiǎng)勵(lì)r,動(dòng)作aV6與狀態(tài)s的關(guān)系為
式中:aV6∈R 為閥門開度;ωea1∈Rn×m與ωea2∈Rm×l均為權(quán)重矩陣;bea∈Rm為偏置列向量;N∈R 為添加的高斯噪聲,且隨著網(wǎng)絡(luò)迭代次數(shù)增加,噪聲強(qiáng)度逐漸減弱,以此來解決訓(xùn)練過程前、后期不同的探索與收斂需求。
2)Critic估計(jì)網(wǎng)絡(luò)設(shè)計(jì)
用Critic 估計(jì)網(wǎng)絡(luò)評(píng)價(jià)Actor 估計(jì)網(wǎng)絡(luò)在當(dāng)前進(jìn)氣壓力模擬系統(tǒng)狀態(tài)s 下輸出閥門開度動(dòng)作aV6的優(yōu)劣,以s 和aV6作為Critic 估計(jì)網(wǎng)絡(luò)輸入,輸出評(píng)價(jià)函數(shù)Qc(s,aV6)
式中:ωec1∈R(n+l)×m、ωec3~ωec5∈Rn×k、ωec6~ωec8∈Rl×j為權(quán)重矩陣;ωec2∈Rm為權(quán)重列向量;bec1∈Rn+l、bec2~bec3∈Rk、bec4~bec5∈Rj為偏置列向量。
3)Actor與Critic目標(biāo)網(wǎng)絡(luò)設(shè)計(jì)
Actor 目標(biāo)網(wǎng)絡(luò)、Critic 目標(biāo)網(wǎng)絡(luò)分別與Actor 估計(jì)網(wǎng)絡(luò)、Critic 估計(jì)網(wǎng)絡(luò)初始參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu)完全一致。Actor 目標(biāo)網(wǎng)絡(luò)以Actor 估計(jì)網(wǎng)絡(luò)作用后的進(jìn)氣壓力模擬系統(tǒng)s'作為輸入,輸出新的閥門開度動(dòng)作aV6′,Critic目標(biāo)網(wǎng)絡(luò)以s'和aV6′作為輸入,輸出評(píng)價(jià)函數(shù)Qc(s′,aV6′)。
4)網(wǎng)絡(luò)更新
Critic 估計(jì)網(wǎng)絡(luò)的反向傳播誤差如式(5)所示
式中:q為采樣個(gè)數(shù);yi為目標(biāo)評(píng)價(jià)函數(shù)值,計(jì)算公式如式(6)所示
式中:ri為獎(jiǎng)勵(lì);γ 為折扣因子,取值范圍為0~1。基于此,可得出Critic 估計(jì)網(wǎng)絡(luò)權(quán)重與偏置更新公式
式中:αec為Critic 估計(jì)網(wǎng)絡(luò)更新步長。為減小Critic 估計(jì)網(wǎng)絡(luò)的反向傳播誤差Jec,Actor 估計(jì)網(wǎng)絡(luò)需輸出使評(píng)價(jià)函數(shù)Qc(s,aV6)值更大的閥門開度動(dòng)作aV6,Actor 估計(jì)網(wǎng)絡(luò)的反向傳播誤差如式(9)所示
基于此,可得出Actor 估計(jì)網(wǎng)絡(luò)權(quán)重與偏置更新公式,如式(10)和(11)所示
目標(biāo)網(wǎng)絡(luò)與估計(jì)網(wǎng)絡(luò)具有不同的更新頻率,以減弱網(wǎng)絡(luò)間的耦合性。目標(biāo)網(wǎng)絡(luò)以軟更新的方式更新權(quán)重與偏置,即每次只以較小幅度更新網(wǎng)絡(luò)參數(shù)。Critic目標(biāo)網(wǎng)絡(luò)更新公式為
Actor目標(biāo)網(wǎng)絡(luò)更新公式為
式(12)~(15)中:τ為0.1以下的更新系數(shù)。
以上為基于DDPG 算法的前饋補(bǔ)償控制器設(shè)計(jì)內(nèi)容,具體的DDPG 前饋補(bǔ)償控制器學(xué)習(xí)訓(xùn)練過程為:首先,選擇進(jìn)氣壓力模擬系統(tǒng)狀態(tài)集合,用以表征系統(tǒng)運(yùn)行狀態(tài),且選取的狀態(tài)集合包括PID 控制器輸出信息。其次,構(gòu)造前饋補(bǔ)償控制器輸出動(dòng)作(閥門V6開度),特別地,將輸出動(dòng)作與前饋系數(shù)相乘并與PID 控制器輸出相加作為新的閥門V6 開度,前饋系數(shù)用于限定前饋補(bǔ)償控制器輸出范圍,前饋系數(shù)取值為0~1。然后,設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò),并設(shè)定網(wǎng)絡(luò)收斂條件(獎(jiǎng)勵(lì)達(dá)到的設(shè)定閾值),由經(jīng)驗(yàn)集合采樣(如圖4 所示)進(jìn)行網(wǎng)絡(luò)更新,若達(dá)到收斂條件則停止網(wǎng)絡(luò)更新。最后,使用訓(xùn)練完的神經(jīng)網(wǎng)絡(luò)與PID 協(xié)同控制,實(shí)現(xiàn)基于DDPG 算法的高空直連試驗(yàn)臺(tái)進(jìn)氣壓力模擬系統(tǒng)前饋補(bǔ)償智能控制,控制方法流程如圖8 所示。
圖8 進(jìn)氣壓力模擬系統(tǒng)DDPG前饋補(bǔ)償控制方法流程圖
對所設(shè)計(jì)的DDPG 前饋補(bǔ)償控制器進(jìn)行仿真驗(yàn)證,具體包括:進(jìn)氣壓力擾動(dòng)仿真驗(yàn)證和發(fā)動(dòng)機(jī)流量擾動(dòng)仿真驗(yàn)證。
進(jìn)氣壓力擾動(dòng)仿真包括階躍信號(hào)擾動(dòng)、勻速斜坡信號(hào)擾動(dòng)和加速信號(hào)擾動(dòng)仿真。在階躍信號(hào)擾動(dòng)仿真過程中,進(jìn)氣總壓調(diào)節(jié)跨度達(dá)到130~190 kPa,發(fā)動(dòng)機(jī)流量保持不變,流量均進(jìn)行了歸一化處理,單位無量綱,如圖9~11 所示。3 次試驗(yàn)的目標(biāo)進(jìn)氣總壓初始值分別為130 kPa、150 kPa 和170 kPa,第10 s 階躍上升20 kPa,第20 s 階躍下降20 kPa,由此驗(yàn)證進(jìn)氣壓力擾動(dòng)下的控制設(shè)計(jì)性能。(與單純PID 控制器相比,本文所設(shè)計(jì)的DDPG 前饋補(bǔ)償控制器同PID 控制器聯(lián)合作用,實(shí)現(xiàn)了對進(jìn)氣壓力的無超調(diào)控制,且調(diào)節(jié)時(shí)間更快(4s)。具體為,當(dāng)目標(biāo)壓力突變時(shí),DDPG 前饋補(bǔ)償控制器分別在初始0 時(shí)刻、第10 s 和第20 s 輸出非零前饋補(bǔ)償量,以提前消除進(jìn)氣總壓誤差。同時(shí)在PID 控制器的調(diào)節(jié)下,補(bǔ)償量逐漸穩(wěn)定,且在勻速斜坡信號(hào)擾動(dòng)和加速信號(hào)擾動(dòng)仿真過程中,DDPG前饋補(bǔ)償控制器也表現(xiàn)出更優(yōu)的控制性能,實(shí)現(xiàn)了進(jìn)氣壓力擾動(dòng)下的智能自學(xué)習(xí)前饋補(bǔ)償控制),如圖12、13所示。
圖9 壓力階躍信號(hào)擾動(dòng)下仿真對比曲線(初始?jí)毫?30 kPa)
圖10 壓力階躍擾信號(hào)動(dòng)下仿真對比曲線(初始?jí)毫?50 kPa)
圖11 壓力階躍信號(hào)擾動(dòng)下仿真對比曲線(初始?jí)毫?70 kPa)
圖12 壓力勻速斜坡信號(hào)擾動(dòng)下仿真對比曲線
圖13 壓力加速信號(hào)擾動(dòng)下仿真對比曲線
發(fā)動(dòng)機(jī)流量擾動(dòng)仿真包括階躍信號(hào)擾動(dòng)、勻速斜坡信號(hào)擾動(dòng)和加速信號(hào)擾動(dòng)仿真。如圖14~16 所示。在階躍信號(hào)擾動(dòng)仿真過程中,發(fā)動(dòng)機(jī)流量跨度為0.375~1,流量均進(jìn)行了歸一化處理,單位無量綱,3 次試驗(yàn)的發(fā)動(dòng)機(jī)流量初始值分別為0.375、0.625 和0.875,第10 s階躍上升0.125,第20 s 階躍下降至初始流量。目標(biāo)進(jìn)氣總壓保持150 kPa 不變,實(shí)際進(jìn)氣總壓受發(fā)動(dòng)機(jī)流量影響:當(dāng)流量增大時(shí),即高空艙進(jìn)氣通道空氣被發(fā)動(dòng)機(jī)抽吸,導(dǎo)致實(shí)際進(jìn)氣總壓降低;當(dāng)流量減小時(shí),即高空艙進(jìn)氣通道空氣流量高于發(fā)動(dòng)機(jī)需求流量,導(dǎo)致實(shí)際進(jìn)氣總壓升高。在發(fā)動(dòng)機(jī)流量受擾情況下(與單純PID 控制器相比,本文所設(shè)計(jì)的DDPG 前饋補(bǔ)償控制器同PID 控制器聯(lián)合作用,實(shí)現(xiàn)了對進(jìn)氣壓力的無超調(diào)控制,且調(diào)節(jié)時(shí)間更快(4 s)。具體為,當(dāng)實(shí)際進(jìn)氣總壓因發(fā)動(dòng)機(jī)流量擾動(dòng)而變化時(shí),DDPG 前饋補(bǔ)償控制器分別在初始0時(shí)刻、第10 s 和第20 s 輸出非零前饋補(bǔ)償量(如圖14 所示),以提前消除進(jìn)氣總壓誤差,同時(shí)在PID 控制器的調(diào)節(jié)下,補(bǔ)償量逐漸穩(wěn)定,且在勻速斜坡信號(hào)擾動(dòng)和加速信號(hào)擾動(dòng)仿真過程中,DDPG 前饋補(bǔ)償控制器也表現(xiàn)出更優(yōu)的控制性能,實(shí)現(xiàn)了發(fā)動(dòng)機(jī)流量擾動(dòng)下的智能、自學(xué)習(xí)、強(qiáng)抗擾前饋補(bǔ)償控制)如圖17、18所示。
圖14 發(fā)動(dòng)機(jī)流量階躍信號(hào)擾動(dòng)下仿真曲線(初始流量為0.375)
圖15 發(fā)動(dòng)機(jī)流量階躍信號(hào)擾動(dòng)下仿真曲線(初始流量為0.625)
圖16 發(fā)動(dòng)機(jī)流量階躍信號(hào)擾動(dòng)下仿真曲線(初始流量為0.875)
圖17 發(fā)動(dòng)機(jī)流量勻速斜坡信號(hào)擾動(dòng)下仿真對比曲線
圖18 發(fā)動(dòng)機(jī)流量加速信號(hào)擾動(dòng)下仿真對比曲線
綜上,在遭受進(jìn)氣壓力和發(fā)動(dòng)機(jī)流量的不同擾動(dòng)下,所提出的基于深度強(qiáng)化學(xué)習(xí)的高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)前饋補(bǔ)償控制表現(xiàn)出更優(yōu)的快速性、穩(wěn)定性和魯棒性,實(shí)現(xiàn)了高性能、高精度的智能自學(xué)習(xí)控制。
本文提出一種高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)DDPG前饋補(bǔ)償智能控制,得到如下結(jié)論:
(1)基于深度強(qiáng)化學(xué)習(xí)算法的前饋補(bǔ)償控制方法對于高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)這類結(jié)構(gòu)復(fù)雜、耦合關(guān)聯(lián)程度高的非線性系統(tǒng)有較好控制效果,與單純PID控制器相比,本文所設(shè)計(jì)控制器在高空艙進(jìn)氣壓力擾動(dòng)和發(fā)動(dòng)機(jī)流量擾動(dòng)下,均實(shí)現(xiàn)了進(jìn)氣壓力的無超調(diào)控制,且調(diào)節(jié)時(shí)間更短;
(2)選取表征高空臺(tái)進(jìn)氣壓力模擬系統(tǒng)擾動(dòng)變化的數(shù)據(jù)作為狀態(tài)參數(shù),可有效提高前饋控制的擾動(dòng)感知能力,如將進(jìn)氣總壓誤差、發(fā)動(dòng)機(jī)流量作為控制器輸入狀態(tài)參數(shù);
(3)對智能體動(dòng)作輸出進(jìn)行范圍限定可有效解決PID控制器主導(dǎo)作用帶來的智能體陷入局部最優(yōu)問題。