張立憲 盧生奧 韓銘昊 姜芊鵬 李云鵬 徐愷鑫
哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001
強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)作為一種解決非線性隨機(jī)系統(tǒng)最優(yōu)決策問題的有效方法,被認(rèn)為是最有可能通往通用型人工智能的方向之一。近年來,隨著理論研究的深入和計(jì)算機(jī)算力的提高,策略梯度(Policy gradient)[1]、演員-評論家(Actor-Critic)[2]等強(qiáng)化學(xué)習(xí)算法開始越來越多地應(yīng)用于自動控制中,在圍棋、電子游戲等領(lǐng)域已經(jīng)能夠達(dá)到甚至超越人類水平[3-4]。
然而,作為一種黑盒學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)完全通過與環(huán)境交互試錯(cuò)積累經(jīng)驗(yàn),但訓(xùn)練環(huán)境與實(shí)際環(huán)境存在差異(Reality gap),可能存在過擬合(Overfitting)現(xiàn)象,難以保證智能體學(xué)得的控制策略的魯棒性[5];此外,智能體和工作環(huán)境參數(shù)的變化也可能導(dǎo)致任務(wù)失敗,這些因素都限制了其在具有高魯棒性要求場景中的應(yīng)用。隨著應(yīng)用領(lǐng)域的日漸增多,特別是在航天控制中,航天器的姿態(tài)控制、軌跡優(yōu)化等任務(wù)具有風(fēng)險(xiǎn)性高、復(fù)雜度高、不允許失敗等特點(diǎn),這對強(qiáng)化學(xué)習(xí)的魯棒性提出了挑戰(zhàn)。
2005年,Morimoto等[6]提出了魯棒強(qiáng)化學(xué)習(xí)(Robust RL, RRL)的概念,自此,越來越多的學(xué)者開始將目光投向強(qiáng)化學(xué)習(xí)算法的魯棒性保障上。本文將對魯棒強(qiáng)化學(xué)習(xí)的最新研究進(jìn)行分類和總結(jié)。第1節(jié)簡要介紹了強(qiáng)化學(xué)習(xí)的基本概念,闡釋了何為強(qiáng)化學(xué)習(xí)中的魯棒性;第2節(jié)從引入H∞控制理論的魯棒強(qiáng)化學(xué)習(xí)、域隨機(jī)化方法、魯棒對抗強(qiáng)化學(xué)習(xí)3個(gè)類別系統(tǒng)地對魯棒強(qiáng)化學(xué)習(xí)進(jìn)行綜述;第3節(jié)分析并展望了魯棒強(qiáng)化學(xué)習(xí)在航天控制中的應(yīng)用;第4節(jié)對全文總結(jié),并提出了進(jìn)一步研究的思路。
強(qiáng)化學(xué)習(xí)是一種通過“試錯(cuò)”(Trial-and-Error)方式進(jìn)行學(xué)習(xí)的算法。以馬爾可夫決策過程(Markov decision process, MDP)為例,在強(qiáng)化學(xué)習(xí)中,智能體t時(shí)刻的信息用
圖1 強(qiáng)化學(xué)習(xí)算法示意圖
經(jīng)過數(shù)十年的發(fā)展,強(qiáng)化學(xué)習(xí)已經(jīng)成為了一個(gè)龐大的研究領(lǐng)域,產(chǎn)生了動態(tài)規(guī)劃、時(shí)間差分、Q-learning、Sarsa、策略梯度、演員-評論家、Deep-Q-Network等諸多傳統(tǒng)算法,并已在自動控制領(lǐng)域被廣泛應(yīng)用。
在強(qiáng)化學(xué)習(xí)的訓(xùn)練中,為了優(yōu)化策略(即狀態(tài)-動作函數(shù)),智能體需要在環(huán)境中進(jìn)行大量采樣,即不斷探索(Exploration),并利用探索到的信息來優(yōu)化自身在利用(Exploitation)時(shí)的決策,通過不斷迭代和試錯(cuò)來進(jìn)行學(xué)習(xí)。
但是,在航天工程、軍事國防等失敗代價(jià)較高的實(shí)際任務(wù)中,不允許智能體的決策存在失敗的情況,即要求不能試錯(cuò)。因此,必須通過建立仿真環(huán)境進(jìn)行訓(xùn)練,離線生成策略,并遷移到實(shí)際環(huán)境中。然而,實(shí)際環(huán)境和仿真環(huán)境間存在差異,如空間機(jī)器人遙操作問題中關(guān)節(jié)的阻尼無法準(zhǔn)確測量,地外行星探測問題中星表摩擦力未知等,一旦仿真環(huán)境和實(shí)際環(huán)境無法完全匹配,或是存在輕微擾動,在仿真環(huán)境中離線生成的策略將無法在實(shí)際環(huán)境中進(jìn)行控制,即會出現(xiàn)過擬合現(xiàn)象,在一定程度上限制了強(qiáng)化學(xué)習(xí)在實(shí)際環(huán)境中的應(yīng)用。
在自動控制中,如果某種強(qiáng)化學(xué)習(xí)算法能夠在輸入存在小范圍偏差,或是模型存在小范圍不確定性的情況下,仍然保持良好的控制效果,那么這一算法就是魯棒的。文獻(xiàn)[7]指出,建模的誤差可以看作是系統(tǒng)中額外的輸入擾動,因此本文只考慮在輸入存在小范圍偏差的情況下強(qiáng)化學(xué)習(xí)算法的魯棒性。
為了打破仿真環(huán)境和實(shí)際環(huán)境間的壁壘,越來越多的魯棒強(qiáng)化學(xué)習(xí)算法被提出。本節(jié)將對魯棒強(qiáng)化學(xué)習(xí)的最新研究進(jìn)行分類和總結(jié),并從引入H∞控制理論的魯棒強(qiáng)化學(xué)習(xí)、域隨機(jī)化方法、魯棒對抗強(qiáng)化學(xué)習(xí)3個(gè)方面分別分析魯棒強(qiáng)化學(xué)習(xí)的研究進(jìn)展,如圖2所示。
圖2 魯棒強(qiáng)化學(xué)習(xí)的分類
一種常見的方法是在強(qiáng)化學(xué)習(xí)中引入H∞控制。H∞控制理論給出了魯棒控制系統(tǒng)的設(shè)計(jì)方法,不僅能保證控制系統(tǒng)的魯棒性,而且能優(yōu)化部分性能指標(biāo)。如圖3所示,以一般控制系統(tǒng)為例,G為系統(tǒng)的傳遞函數(shù),K為控制器,u為系統(tǒng)輸入的控制量,y為系統(tǒng)的測量輸出,w為輸入擾動,z為被控輸出。
圖3 H∞控制示意圖
H∞控制的目的是即使存在一定的輸入擾動,系統(tǒng)的輸出誤差仍然很小,即w到z的傳遞函數(shù)盡可能的小,用H∞范數(shù)表示為
(1)
式中:‖·‖2為L2范數(shù);γ為設(shè)置的閾值。
(2)
通過進(jìn)一步變換[8],可以將式(2)變化為尋找最優(yōu)解
(3)
其條件為
(4)
式(4)即為哈密頓-雅可比-艾薩克方程(Hamilton-Jacobi-Isaacs equation, HJI equation)。
根據(jù)這一思想,在強(qiáng)化學(xué)習(xí)算法中,在獎賞r(t)外增加干擾獎勵,得到增強(qiáng)型獎勵函數(shù)
q(t)=r(s(t),a(t))+ω(w(t))
(5)
式中:w(t)為干擾;ω(w(t))為用來減少干擾輸入的附加獎賞。
此時(shí)價(jià)值函數(shù)為
(6)
式中:τ為時(shí)間常數(shù)。
HJI方程為
(7)
式中:T(·)為狀態(tài)轉(zhuǎn)移函數(shù)。
針對基于模型的強(qiáng)化學(xué)習(xí)問題,可以利用價(jià)值梯度(Value gradient)理論,將魯棒控制要求轉(zhuǎn)化為微分對策,將連續(xù)時(shí)間強(qiáng)化學(xué)習(xí)控制問題轉(zhuǎn)化為含有增強(qiáng)型獎勵函數(shù)的最大最小準(zhǔn)則優(yōu)化問題。其最優(yōu)解可以直接通過求解HJI方程確定,這種方法在倒立擺的控制仿真中取得了比傳統(tǒng)強(qiáng)化學(xué)習(xí)更好的結(jié)果[9]。
針對無模型強(qiáng)化學(xué)習(xí)問題,一種名為行動者-干擾者-評論家(Actor-Disturber-Critic)的算法被提出,算法框架如圖4所示。行動者和干擾者的策略分別為
圖4 行動者-干擾者-評論家框架[6]
a(t)=ga(Aa(s(t);va)+na(t))
(8)
w(t)=gw(Aw(s(t);vw)+nw(t))
(9)
式中:A(·)為參數(shù)v的函數(shù)逼近器;n(·)為噪聲。
定義TD error
(10)
則算法的更新策略為
(11)
(12)
式中:η為學(xué)習(xí)率。
通過使用這種框架,可以解決大多數(shù)非線性系統(tǒng)最優(yōu)策略不可解釋的問題。在此基礎(chǔ)上,文獻(xiàn)[10]通過信賴域策略優(yōu)化(Trust region policy optimization, TRPO)的方法,引入深度神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器,利用深度強(qiáng)化學(xué)習(xí)(Deep RL, DRL)的思想拓展了無模型魯棒強(qiáng)化學(xué)習(xí)算法,并在很多復(fù)雜非線性機(jī)器人的仿真中驗(yàn)證了魯棒性。文獻(xiàn)[11]進(jìn)一步提出了一種具有魯棒穩(wěn)定性保證的強(qiáng)化學(xué)習(xí)算法,利用最大熵算法搜索李雅普諾夫函數(shù),保證閉環(huán)系統(tǒng)的H∞性能和穩(wěn)定性,實(shí)現(xiàn)了目前最優(yōu)的魯棒性能。
引入H∞控制理論的魯棒強(qiáng)化學(xué)習(xí)可拓展性強(qiáng)、適用方法多,能夠在很大程度上提升算法的魯棒性,但算法依然是有限制的、概率意義下的魯棒,因此,如何更大范圍地提升算法的魯棒性,成為引入H∞控制理論魯棒強(qiáng)化學(xué)習(xí)的研究方向之一。
與引入H∞控制理論的魯棒強(qiáng)化學(xué)習(xí)算法不同,另一種思路是在智能體的訓(xùn)練過程中引入多個(gè)仿真環(huán)境,增強(qiáng)訓(xùn)練得到的策略適應(yīng)不同環(huán)境的能力,以減弱實(shí)際環(huán)境中模型不確定性帶來的影響,這類方法被稱為域隨機(jī)化(Domain randomization)方法,算法框架如圖5所示。
圖5 域隨機(jī)化方法框架
域隨機(jī)化方法最早可追溯至1995年,Jakobi等[12]將傳感器和執(zhí)行器參數(shù)進(jìn)行隨機(jī)化處理,一定程度上減小了噪聲和模型不確定性帶來的影響。
在強(qiáng)化學(xué)習(xí)中,以MDP問題為例,系統(tǒng)模型可以用狀態(tài)轉(zhuǎn)移函數(shù)表示為
st+1=T(st,at)
(13)
通過引入模型參數(shù)μ,得到一組模型
st+1=T(st,at;μ)
(14)
μ~ρμ
(15)
式中:ρμ為參數(shù)μ的概率分布。
此時(shí),問題即轉(zhuǎn)化為最大化目標(biāo)函數(shù)
(16)
可以使用策略梯度等算法進(jìn)行求解。
文獻(xiàn)[13]通過增加擾動,進(jìn)而改變名義模型的參數(shù),得到一組仿真模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)了有限模型集上的策略優(yōu)化,但由于算力限制,其模型集中最多存在10個(gè)模型,在一定程度上限制了算法魯棒性的提高,且沒有將算法遷移到實(shí)際環(huán)境中進(jìn)行測試。文獻(xiàn)[14]將算法應(yīng)用于基于視覺的物體定位問題中,得到的物體探測器的定位精度達(dá)到1.5cm,且在干擾物和部分遮擋物存在的情況下依然有著良好的檢測性能,第一次將僅在模擬RGB圖像上進(jìn)行訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)成功轉(zhuǎn)移到實(shí)際環(huán)境中,證明了算法的魯棒性。文獻(xiàn)[15]在訓(xùn)練時(shí)隨機(jī)初始化摩擦系數(shù)和動作延遲,訓(xùn)練機(jī)器人旋轉(zhuǎn)夾持器中的工具,利用算法控制機(jī)械臂推動物體,將隨機(jī)放置的隨機(jī)物體有效地移動到目標(biāo)位置,進(jìn)一步在實(shí)際任務(wù)中證明了算法的魯棒性。
域隨機(jī)化方法邏輯簡單、實(shí)現(xiàn)方便,但其弊端也相對明顯:在增加仿真環(huán)境個(gè)數(shù)的同時(shí),算法的計(jì)算量會成倍增加;增加仿真環(huán)境只能在一定程度上提高算法的魯棒性,當(dāng)實(shí)際環(huán)境不在仿真環(huán)境的包絡(luò)集合中時(shí),訓(xùn)練的策略很大程度上也不會取得良好的控制效果。因此,域隨機(jī)化方法雖然能夠在一定程度上提高強(qiáng)化學(xué)習(xí)算法的魯棒性,但其提升程度有限,智能性相對較弱。
受引入H∞控制理論的魯棒強(qiáng)化學(xué)習(xí)算法和域隨機(jī)化方法的啟發(fā),2017年,Pinto等[16]提出了魯棒對抗強(qiáng)化學(xué)習(xí)(Robust Adversarial RL, RARL)的概念。與一般的魯棒強(qiáng)化學(xué)習(xí)算法直接由智能體與環(huán)境進(jìn)行交互不同,魯棒對抗強(qiáng)化學(xué)習(xí)引入對手(Adversary)幫助主角(Protagonist)學(xué)習(xí)。對手的目的是產(chǎn)生擾動,進(jìn)而影響主角學(xué)習(xí);主角的目的是在對手的擾動下,仍然能夠完成給定任務(wù),進(jìn)而實(shí)現(xiàn)魯棒的控制性能。
一種自然的想法是讓對手模擬在實(shí)際環(huán)境中所有可能出現(xiàn)的情況[17]。但是,增強(qiáng)魯棒性的本質(zhì)是即使存在能夠讓系統(tǒng)輸出偏差最大的輸入擾動,系統(tǒng)依然能夠保持良好的控制性能,這意味著模擬所有的輸入擾動的計(jì)算效率極低,且在大多數(shù)任務(wù)中,無法獲得實(shí)際環(huán)境的所有可能情況。魯棒對抗強(qiáng)化學(xué)習(xí)將主角的學(xué)習(xí)特性同樣賦予對手,即同時(shí)訓(xùn)練主角與對手兩個(gè)智能體,以優(yōu)化主角的決策,其算法示意圖如圖6所示。
圖6 魯棒對抗強(qiáng)化學(xué)習(xí)算法示意圖
對于主角和對手,其決策分別為
(17)
(18)
系統(tǒng)的狀態(tài)轉(zhuǎn)移函數(shù)和環(huán)境反饋的獎賞分別為
(19)
(20)
為了使對手對主角產(chǎn)生的影響最大,采用零和博弈的思想,規(guī)定主角和對手獲得的獎賞分別為
(21)
(22)
主角和對手的獎賞函數(shù)分別為
(23)
(24)
式中:T為預(yù)測時(shí)域。
最優(yōu)解條件為
(25)
即找出在對手影響最大的情況下獎賞的最大值。
根據(jù)這一思想,一些其他方法也可以歸入魯棒對抗強(qiáng)化學(xué)習(xí)的框架中來。引入H∞控制理論的魯棒強(qiáng)化學(xué)習(xí)可以在某種程度上被認(rèn)為是智能體與環(huán)境之間進(jìn)行連續(xù)動態(tài)的零和博弈,其中環(huán)境即為輸入、狀態(tài)轉(zhuǎn)移函數(shù)、模型不確定性等。域隨機(jī)化方法可以被認(rèn)為是智能體與一系列訓(xùn)練環(huán)境之間的對抗,通過隨機(jī)化模型參數(shù)的方式,建立一系列固定的仿真環(huán)境,智能體通過與仿真環(huán)境之間的博弈進(jìn)而優(yōu)化自身的控制策略,從而提高算法的魯棒性。在此基礎(chǔ)上,文獻(xiàn)[18]引入深度學(xué)習(xí)(Deep learning)的思想,使用深度雙Q學(xué)習(xí)(Deep double Q-learning)算法和深度確定性策略梯度(Deep deterministic policy gradient, DDPG)算法,大幅度提升了算法在倒立擺等常見應(yīng)用中的魯棒性。
魯棒對抗強(qiáng)化學(xué)習(xí)能夠勝任實(shí)際的控制任務(wù),有效地解決了當(dāng)仿真環(huán)境和實(shí)際環(huán)境間存在差異時(shí)的控制問題。然而,關(guān)于對抗與魯棒性之間關(guān)系的理論研究尚處于起步階段,如何從理論上證明算法的魯棒性保障,或?qū)λ惴ǖ目山忉屝赃M(jìn)行研究,成為了魯棒對抗強(qiáng)化學(xué)習(xí)的發(fā)展方向之一。
隨著航天工程逐漸向復(fù)雜化、智能化的方向發(fā)展,任務(wù)場景的非結(jié)構(gòu)化和高交互性的日漸增強(qiáng),對控制算法提出了更高要求[19]。近年來,計(jì)算機(jī)算力的不斷提高讓強(qiáng)化學(xué)習(xí)這類智能控制算法在航天控制中的應(yīng)用成為了可能??臻g在軌維護(hù)、小行星勘探、星球表面著陸、行星基地建造、空天飛行器控制[20]等典型場景也對控制算法的魯棒性提出了新的挑戰(zhàn)。本節(jié)將分析魯棒強(qiáng)化學(xué)習(xí)在航天控制中的應(yīng)用現(xiàn)狀,并對其應(yīng)用前景進(jìn)行展望。
作為一種端到端的智能控制方法,強(qiáng)化學(xué)習(xí)能夠適應(yīng)日益復(fù)雜的航天控制任務(wù)。文獻(xiàn)[21]提出單網(wǎng)絡(luò)積分型強(qiáng)化學(xué)習(xí)(SNIRL)算法,并將其應(yīng)用在再入飛行器姿態(tài)控制問題中。求得最優(yōu)控制律只需要采用評價(jià)網(wǎng)絡(luò)估計(jì)值函數(shù),證明了閉環(huán)系統(tǒng)的穩(wěn)定性。但由于實(shí)際的航天任務(wù)中存在不確定性,當(dāng)實(shí)際環(huán)境與仿真環(huán)境不匹配時(shí),算法很大程度上不能實(shí)現(xiàn)控制,即傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法沒有專門解決魯棒性這一問題。
近年來,越來越多的學(xué)者將目光集中到了航天控制中的魯棒性問題上,我國載人運(yùn)載火箭CZ-2F即利用基于參數(shù)裕度的魯棒設(shè)計(jì)方法提高控制系統(tǒng)的可靠性[22]。對于航天控制任務(wù),由于太空環(huán)境復(fù)雜惡劣,為了提高空間飛行器芯片的可靠性,其計(jì)算單元的密度通常被控制得很低,導(dǎo)致其計(jì)算能力下降,無法進(jìn)行大規(guī)模的訓(xùn)練。因此,要實(shí)現(xiàn)魯棒強(qiáng)化學(xué)習(xí)在航天控制中的應(yīng)用,需要解決的一個(gè)重要問題即為:在空間飛行器星載芯片算力有限的條件下,如何滿足魯棒強(qiáng)化學(xué)習(xí)訓(xùn)練的高計(jì)算量消耗需求。
根據(jù)魯棒強(qiáng)化學(xué)習(xí)算法的訓(xùn)練過程是否在線,可以將應(yīng)用分為3類,即在線訓(xùn)練的魯棒性策略、離線訓(xùn)練的魯棒性策略、離線訓(xùn)練與在線更新相結(jié)合的魯棒性策略,如圖7所示。本部分將分別對這3類應(yīng)用方法進(jìn)行分析,并總結(jié)各類方法的適用場景。
圖7 魯棒強(qiáng)化學(xué)習(xí)在航天控制中的應(yīng)用分類
在少部分航天控制任務(wù)中,魯棒強(qiáng)化學(xué)習(xí)算法可以直接進(jìn)行在線訓(xùn)練,如圖8所示。如在大型航天器的在軌制造/裝配任務(wù)中,雖然環(huán)境特性未知,無法完全由人直接參與決策制定,但是環(huán)境在較長時(shí)間內(nèi)變化緩慢,留給機(jī)械臂進(jìn)行精細(xì)操作的時(shí)間比較充裕,對星載計(jì)算單元的算力要求不高,可以在線進(jìn)行充分的魯棒強(qiáng)化學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)自主、魯棒的任務(wù)規(guī)劃和決策的優(yōu)勢[23]。
圖8 在線訓(xùn)練的魯棒性策略
然而,完全在星載計(jì)算單元上進(jìn)行訓(xùn)練在大多數(shù)情況下是不可行的,一個(gè)常見的思路是訓(xùn)練與應(yīng)用分離,即在地面站預(yù)先做離線訓(xùn)練,并將訓(xùn)練好的魯棒性策略遷移至空間飛行器的控制單元中,在實(shí)際的航天工程任務(wù)中直接應(yīng)用該策略,如圖9所示。
圖9 離線訓(xùn)練的魯棒性策略
這一離線訓(xùn)練方法常用于星表著陸等在線訓(xùn)練計(jì)算量大的任務(wù)中,通過端到端的優(yōu)化學(xué)習(xí)方法,可以解決類似航天器軟著陸這樣的復(fù)雜非線性系統(tǒng)[24]。文獻(xiàn)[25]首次將強(qiáng)化學(xué)習(xí)算法應(yīng)用于行星表面自主著陸問題中,提出了一種基于強(qiáng)化學(xué)習(xí)的制導(dǎo)算法,通過設(shè)計(jì)一種自適應(yīng)制導(dǎo)算法,能夠克服一定的環(huán)境不確定性,可以實(shí)現(xiàn)魯棒、省油、準(zhǔn)確的著陸。算法將訓(xùn)練過程預(yù)先放在地面站進(jìn)行,盡管訓(xùn)練階段的計(jì)算量很大,但是一旦訓(xùn)練完畢,網(wǎng)絡(luò)輸出就由矩陣乘法和函數(shù)求值確定,其計(jì)算量少,且神經(jīng)元的權(quán)重可以很容易地存儲在星載內(nèi)存中,能夠?qū)崿F(xiàn)100 Hz的高頻控制。仿真結(jié)果表明,該算法能夠自主跟蹤逼近最優(yōu)的燃料消耗軌跡,其精度已經(jīng)超出目前火星探測任務(wù)的需求。
在文獻(xiàn)[25]的基礎(chǔ)上,文獻(xiàn)[26]使用策略梯度中的近端策略優(yōu)化(Proximal policy optimization)方法來學(xué)習(xí)策略,將著陸器估計(jì)的狀態(tài)直接映射到每個(gè)引擎的推力指令策略中,能夠在實(shí)際部署的軌道上產(chǎn)生準(zhǔn)確且?guī)缀踝罴训娜剂宪壽E,并能夠在6自由度仿真環(huán)境中抵抗噪聲和系統(tǒng)不確定性影響,進(jìn)一步增強(qiáng)了系統(tǒng)的魯棒性,同時(shí)通過使用不同的衰減因子來獲得獎勵,顯著提高了系統(tǒng)的優(yōu)化性能。
文獻(xiàn)[27]提出了一種自適應(yīng)降落算法,從經(jīng)驗(yàn)中學(xué)習(xí)如何利用著陸器下方的圖像和高度計(jì)數(shù)據(jù),并將此數(shù)據(jù)作為輸入,計(jì)算月球表面精確著陸問題中的最佳推力,利用卷積遞歸神經(jīng)網(wǎng)絡(luò)和元學(xué)習(xí)算法實(shí)現(xiàn)基于圖像和實(shí)時(shí)的導(dǎo)航,證明了算法在月球著陸任務(wù)中控制性能的魯棒性。
離線訓(xùn)練的魯棒強(qiáng)化學(xué)習(xí)方法雖然能很大程度上減輕星載計(jì)算單元的計(jì)算壓力,但也和其他離線算法一樣存在明顯的缺點(diǎn):控制策略離線生成,導(dǎo)致其無法實(shí)時(shí)在線更新優(yōu)化,難以適應(yīng)新的不同環(huán)境,在一定程度上限制了其魯棒性的進(jìn)一步提升。
除了在線訓(xùn)練和離線訓(xùn)練的魯棒強(qiáng)化學(xué)習(xí)應(yīng)用方法,還有一種折衷的思路是離線訓(xùn)練與在線更新相結(jié)合,即先在地面站的計(jì)算中心進(jìn)行大規(guī)模訓(xùn)練,得到初始的魯棒性策略,再將初始策略遷移至空間飛行器中,根據(jù)實(shí)際任務(wù)環(huán)境在線更新,以實(shí)現(xiàn)策略對未知環(huán)境的控制效果,如圖10所示。
圖10 離線訓(xùn)練與在線更新相結(jié)合的魯棒性策略
受限于星載計(jì)算單元的算力,這種離線訓(xùn)練與在線更新相結(jié)合的方法目前只適用于空間機(jī)械臂在軌操作等計(jì)算資源消耗少、采樣周期長的任務(wù)。文獻(xiàn)[23]針對目標(biāo)特性未知的在軌操作環(huán)境,除了上文提到的在線訓(xùn)練方法,還提出了離線訓(xùn)練與在線更新相結(jié)合的方法:首先在地面站進(jìn)行離線訓(xùn)練,訓(xùn)練出初始的魯棒策略,之后在實(shí)際的在軌操作任務(wù)中只需根據(jù)環(huán)境的變化做少量的探索更新,并針對目標(biāo)特性未知的在軌操作環(huán)境研究了典型空間操作機(jī)械臂的路徑規(guī)劃策略,采用Sarsa(λ)強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)目標(biāo)跟蹤及避障的自主路徑規(guī)劃與智能決策。該方法將機(jī)械臂的每一節(jié)視為一個(gè)決策智能體,通過感知由目標(biāo)偏差和障礙距離程度組成的二維狀態(tài),設(shè)計(jì)了符合人工經(jīng)驗(yàn)的擬合獎賞函數(shù),進(jìn)行各機(jī)械臂轉(zhuǎn)動動作的強(qiáng)化訓(xùn)練,最終形成各智能體的狀態(tài)-動作值函數(shù)表,即可作為機(jī)械臂在線路徑規(guī)劃的決策依據(jù)。通過將本方法應(yīng)用于多自由度空間機(jī)械臂路徑規(guī)劃任務(wù),仿真結(jié)果表明,算法能在有限訓(xùn)練次數(shù)內(nèi)實(shí)現(xiàn)對移動目標(biāo)的穩(wěn)定跟蹤與避障,同時(shí)各智能體通過學(xué)習(xí)所得的狀態(tài)-動作值函數(shù)表具備較強(qiáng)的在線自主調(diào)整能力,從而驗(yàn)證了算法具有較強(qiáng)的智能性和魯棒性。
文獻(xiàn)[28]針對空間機(jī)器人的控制問題展開進(jìn)一步研究。自由飄浮的空間機(jī)器人在實(shí)際的空間環(huán)境中運(yùn)動非常緩慢,對系統(tǒng)實(shí)時(shí)性的要求比地面固定基座的機(jī)器人低,這為神經(jīng)網(wǎng)絡(luò)的在線學(xué)習(xí)提供了充分的時(shí)間。針對自由漂浮空間機(jī)器人,文章利用RBF神經(jīng)網(wǎng)絡(luò)來逼近其動力學(xué)模型,設(shè)計(jì)了魯棒控制器對逼近誤差和外部干擾進(jìn)行抑制,建立了新的神經(jīng)網(wǎng)絡(luò)參數(shù)和連接權(quán)值的在線學(xué)習(xí)算法,利用耗散理論設(shè)計(jì)魯棒控制器,在保證系統(tǒng)實(shí)時(shí)性和穩(wěn)定性的前提下,進(jìn)一步提升算法的控制精度??梢哉J(rèn)為其提出的魯棒強(qiáng)化學(xué)習(xí)算法是能夠在線更新的。
文獻(xiàn)[29]針對空間機(jī)械臂從地面裝調(diào)到空間應(yīng)用過程中重力項(xiàng)的變化問題,利用RBF神經(jīng)網(wǎng)絡(luò)在線建模,實(shí)時(shí)逼近重力項(xiàng)。其不依賴于系統(tǒng)的模型,不需要對系統(tǒng)的動力學(xué)方程進(jìn)行參數(shù)線性化,提出了一種神經(jīng)網(wǎng)絡(luò)自適應(yīng)魯棒補(bǔ)償控制策略,通過神經(jīng)網(wǎng)絡(luò)在線建模逼近系統(tǒng)模型中變化的重力項(xiàng),逼近誤差及系統(tǒng)的不確定性通過自適應(yīng)魯棒控制器來補(bǔ)償,進(jìn)而控制空間機(jī)械臂的末端,實(shí)現(xiàn)了地面環(huán)境與空間環(huán)境重力不匹配時(shí)的在軌操控任務(wù)。
綜上,魯棒強(qiáng)化學(xué)習(xí)在航天控制中的應(yīng)用已初步顯現(xiàn),國內(nèi)外多名學(xué)者均針對此展開相關(guān)研究。依據(jù)任務(wù)的復(fù)雜程度,目前魯棒強(qiáng)化學(xué)習(xí)在航天控制中的應(yīng)用主要分為在線訓(xùn)練、離線訓(xùn)練、離線訓(xùn)練與在線更新相結(jié)合3種方法。其中在線訓(xùn)練無需任何先驗(yàn)知識,可以在完全未知的環(huán)境中在線生成魯棒性控制策略,但只適用于任務(wù)相對簡單的航天控制場景;離線訓(xùn)練主要針對任務(wù)復(fù)雜度高、不可能在太空的星載計(jì)算單元上訓(xùn)練的場景,不占用過多的星載計(jì)算資源,但需要事先獲取大量的訓(xùn)練數(shù)據(jù),且無法在實(shí)際環(huán)境中在線更新,一定程度上限制了其魯棒性;用離線訓(xùn)練與在線更新相結(jié)合的方法對前兩種方法進(jìn)行融合,既不過多地占用星載計(jì)算資源,又能夠?qū)崿F(xiàn)策略的實(shí)時(shí)更新,但當(dāng)任務(wù)相對復(fù)雜、采樣周期過短時(shí),算法的計(jì)算消耗即會顯著增加,無法實(shí)現(xiàn)魯棒性策略的實(shí)時(shí)在線更新。
作為一種智能控制算法,魯棒強(qiáng)化學(xué)習(xí)打破了仿真訓(xùn)練和實(shí)際任務(wù)之間的壁壘,在航天器的在軌服務(wù)與操作、地外行星探測、軍事國防等領(lǐng)域都有著十分開闊的應(yīng)用前景,如圖11所示。
圖11 魯棒強(qiáng)化學(xué)習(xí)在航天控制中的部分展望
在航天器的在軌服務(wù)與操作方面,航天工程對航天器的結(jié)構(gòu)和功能提出了復(fù)雜化和智能化的要求,使得航天器在軌維修、模塊更換等需求日益增加,增強(qiáng)航天器的可靠性、降低維護(hù)成本、提高航天器的壽命等對于保障航天器的安全穩(wěn)定運(yùn)行具有重要意義[30],同時(shí)也對控制算法的魯棒性提出了巨大挑戰(zhàn)。由于存在天地大回路信號傳輸時(shí)延、獲取信息有限、不同人決策經(jīng)驗(yàn)的相異性等因素,由地面人員手動進(jìn)行衛(wèi)星控制顯然不切實(shí)際。魯棒強(qiáng)化學(xué)習(xí)算法可以很好地解決這一問題,首先通過仿真環(huán)境離線訓(xùn)練“粗”的初始策略,接著在實(shí)際環(huán)境中在線學(xué)習(xí)“細(xì)”的策略,使用魯棒強(qiáng)化學(xué)習(xí)算法保證策略從仿真環(huán)境遷移到實(shí)際環(huán)境中的魯棒性,即可實(shí)現(xiàn)故障實(shí)時(shí)自動檢測、精細(xì)化故障維修等功能,在無需人為控制的情況下完成航天器的在軌服務(wù)與操作。
在地外行星探測方面,由于行星表面環(huán)境復(fù)雜,需要用離線訓(xùn)練算法對探測器進(jìn)行控制,以避免因未知地形造成的傾倒、空轉(zhuǎn)、卡堵等情況。但由于無法準(zhǔn)確獲得摩擦力等星表環(huán)境參數(shù),仿真環(huán)境與實(shí)際環(huán)境間必定存在差異,可用魯棒強(qiáng)化學(xué)習(xí)算法解決這一問題。通過訓(xùn)練魯棒性策略,探測器由仿真環(huán)境遷移至實(shí)際的星表時(shí)依然能夠取得很好的控制性能,可以在多種地形上安全前行,適應(yīng)不同的未知情況,實(shí)現(xiàn)可靠作業(yè)。
此外,在同樣具有航天背景的軍事國防應(yīng)用中,魯棒強(qiáng)化學(xué)習(xí)可以更加可靠地完成作戰(zhàn)任務(wù)。如在戰(zhàn)場的洲際彈道導(dǎo)彈攔截任務(wù)中,使用魯棒強(qiáng)化學(xué)習(xí)算法能夠更加快速、準(zhǔn)確地完成導(dǎo)彈本體和敵方迷惑性目標(biāo)的識別。我方攔截導(dǎo)彈可以利用魯棒性策略,優(yōu)化攔截方案的規(guī)劃和設(shè)計(jì),在提高攔截成功率的同時(shí)降低彈藥損耗,同時(shí)保護(hù)我方主要軍事目標(biāo)的安全。這種攔截導(dǎo)彈在某種程度上可以被認(rèn)為是一種“會學(xué)習(xí)”的導(dǎo)彈[31],如圖12所示。
圖12 使用魯棒強(qiáng)化學(xué)習(xí)完成洲際彈道導(dǎo)彈攔截任務(wù)
目前,受限于理論水平、硬件設(shè)備等因素,魯棒強(qiáng)化學(xué)習(xí)算法在航天控制中的應(yīng)用正處于起步階段,且算法的魯棒性有待進(jìn)一步提高。但是,隨著理論研究的深入和計(jì)算水平的提高,魯棒強(qiáng)化學(xué)習(xí)算法必將越來越多地應(yīng)用于航天控制中,在提高航天器自主性的同時(shí),充分保證算法的魯棒性。
魯棒強(qiáng)化學(xué)習(xí)是一種具有廣闊應(yīng)用前景的機(jī)器學(xué)習(xí)方法,能夠?yàn)榫哂胁淮_定模型的優(yōu)化控制問題提供有力的分析手段。本文通過對國內(nèi)外研究進(jìn)行總結(jié)與評述,從引入H∞控制理論的魯棒強(qiáng)化學(xué)習(xí)、域隨機(jī)化方法、魯棒對抗強(qiáng)化學(xué)習(xí)3個(gè)類別綜述了魯棒強(qiáng)化學(xué)習(xí),分析總結(jié)了其在航天控制中的應(yīng)用,并對未來應(yīng)用前景進(jìn)行了展望。
魯棒強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)邁向航天控制等實(shí)際應(yīng)用的重要一步。目前,針對魯棒強(qiáng)化學(xué)習(xí)的研究尚未形成成熟的理論體系,因此算法在航天控制中的應(yīng)用大多處于仿真階段,鮮有在實(shí)際航天任務(wù)中使用。此外,太空環(huán)境復(fù)雜惡劣,為了提高航天器芯片的可靠性,計(jì)算單元的密度被控制得很低,導(dǎo)致計(jì)算能力相對變差,無法進(jìn)行大規(guī)模的訓(xùn)練,對算法的學(xué)習(xí)效率、采樣效率以及計(jì)算速度都提出了挑戰(zhàn)。隨著理論研究和硬件性能的不斷發(fā)展,魯棒強(qiáng)化學(xué)習(xí)的研究必定會進(jìn)一步深入,在航天控制等實(shí)際任務(wù)中具有廣闊的應(yīng)用前景。