周嘉明,董龍雷,孟 超,孫海亮
(1.西安交通大學(xué) 航天航空學(xué)院 機(jī)械結(jié)構(gòu)強(qiáng)度與振動(dòng)國家重點(diǎn)實(shí)驗(yàn)室,西安 710049;2.北京宇航系統(tǒng)工程研究所,北京 100076)
振動(dòng)控制方法主要有3種:被動(dòng)控制、主動(dòng)控制和半主動(dòng)控制。被動(dòng)控制不需要外界施加能量,只需一些無源的彈性元件或阻尼元件,如金屬彈簧、橡膠阻尼墊等。被動(dòng)控制的優(yōu)勢(shì)在于結(jié)構(gòu)簡單、可靠性高,但是對(duì)低頻振動(dòng)和寬頻隨機(jī)振動(dòng)的抑制效果較差。隨著控制理論、作動(dòng)傳感技術(shù)和計(jì)算機(jī)科學(xué)的不斷發(fā)展,振動(dòng)主動(dòng)控制技術(shù)已經(jīng)在航空航天、車輛和土木工程等領(lǐng)域取得了諸多成功的應(yīng)用[1-4]。振動(dòng)主動(dòng)控制系統(tǒng)主要由作動(dòng)器、傳感器、控制策略和被控對(duì)象組成。與被動(dòng)控制相比,主動(dòng)控制具有較強(qiáng)的靈活性和環(huán)境適應(yīng)性,但是用于主動(dòng)控制的作動(dòng)器通常價(jià)格昂貴、能耗大、可控力較小,如壓電作動(dòng)器[5]、音圈電機(jī)等,因此學(xué)者們提出了振動(dòng)半主動(dòng)控制技術(shù)。半主動(dòng)控制是一種物理參數(shù)控制技術(shù),主要通過調(diào)節(jié)系統(tǒng)的剛度或阻尼來實(shí)現(xiàn),比如利用形狀記憶合金或磁流變彈性體調(diào)節(jié)剛度[6-7]、利用電/磁流變液調(diào)節(jié)阻尼[8]。
影響振動(dòng)主動(dòng)/半主動(dòng)控制效果的關(guān)鍵因素之一是控制策略。比例積分微分(proportional-integral-derivative,PID)控制是一種使用最為廣泛的控制策略,目前已經(jīng)在很多系統(tǒng)上取得了成熟的應(yīng)用,比如離散系統(tǒng)[9]、連續(xù)體系系統(tǒng)[10-11]等。PID控制很難處理高維反饋信號(hào)和控制信號(hào),這在一定程度上限制了它的應(yīng)用。隨著高維控制問題的出現(xiàn),基于狀態(tài)空間的現(xiàn)代控制理論得到了快速地發(fā)展,這些方法也被引入到振動(dòng)主動(dòng)控制領(lǐng)域,其中最常見的算法包括線性二次調(diào)節(jié)器(linear quadratic regulator,LQR)[12-13]和線性二次高斯控制(linear quadratic gaussian,LQG)[14]。控制器設(shè)計(jì)的前提往往需要建立被控系統(tǒng)精確的數(shù)學(xué)模型,但是實(shí)際系統(tǒng)往往存在不確定性、非線性等復(fù)雜特征,這使得數(shù)學(xué)模型的精度較差,甚至無法得到數(shù)學(xué)模型。為此,學(xué)者們提出了一些智能控制策略,主要包括自適應(yīng)控制[15-18]、模糊控制[19-21]以及神經(jīng)網(wǎng)絡(luò)控制[22-25]等。
現(xiàn)有智能控制策略的設(shè)計(jì)仍然依賴專家經(jīng)驗(yàn)的參與,且需花費(fèi)大量的時(shí)間。強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)是與有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)并列的第三種機(jī)器學(xué)習(xí)范式,旨在通過智能體和環(huán)境的互動(dòng)來最大化累積獎(jiǎng)勵(lì)的期望,其中智能體指強(qiáng)化學(xué)習(xí)算法;環(huán)境指被控對(duì)象的數(shù)學(xué)模型;獎(jiǎng)勵(lì)指智能體采取動(dòng)作(控制信號(hào))后獲得的回報(bào),這是強(qiáng)化學(xué)習(xí)算法能夠?qū)W習(xí)的關(guān)鍵。強(qiáng)化學(xué)習(xí)的核心是強(qiáng)化學(xué)習(xí)算法,常見的算法有Q-Learning、DQN[26]、REINFORCE、A3C[27]以及深度確定性策略梯度(deep deterministic policy gradient,DDPG)等。DDPG是一種基于確定性策略梯度的Actor-Critic算法,優(yōu)勢(shì)在于可以適用于連續(xù)控制問題,將作為本文設(shè)計(jì)振動(dòng)控制器的強(qiáng)化學(xué)習(xí)算法。
挑戰(zhàn)現(xiàn)有控制策略的兩大因素主要是被動(dòng)對(duì)象參數(shù)的不確定性和非線性。為此,本文提出了一種基于強(qiáng)化學(xué)習(xí)的隨機(jī)振動(dòng)主動(dòng)控制策略,這種由強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的控制器稱為RL-NN(neural network controller designed by reinforcement learning)控制器。RL-NN控制器是基于數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)完成的,不依賴系統(tǒng)精確數(shù)學(xué)模型的參數(shù)和大量的領(lǐng)域知識(shí),在一定概率分布范圍內(nèi)產(chǎn)生大量數(shù)據(jù)供強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)即可;另外,神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性表示能力,可以很好地近似被控對(duì)象中的非線性動(dòng)力學(xué)行為。最后,通過兩個(gè)數(shù)值算例對(duì)RL-NN控制器的性能進(jìn)行驗(yàn)證:①考慮不確定性的單自由度系統(tǒng)主動(dòng)控制;②考慮不確定性和非線性的車輛1/4磁流變懸架系統(tǒng)半主動(dòng)控制。
RL-NN控制器是一個(gè)多層神經(jīng)網(wǎng)絡(luò),將傳感器測量的反饋信號(hào)(如位移、速度、加速度等)直接輸入給神經(jīng)網(wǎng)絡(luò),經(jīng)過正向運(yùn)算后將輸出的控制信號(hào)(如電壓、電流等)直接施加在作動(dòng)器上,從而實(shí)現(xiàn)系統(tǒng)閉環(huán)振動(dòng)主動(dòng)/半主動(dòng)控制。RL-NN控制框架示意圖,如圖1所示。
圖1 RL-NN控制框架示意圖Fig.1 Schematic diagram of the RL-NN control framework
不同于一些自適應(yīng)控制算法,RL-NN控制器的參數(shù)是固定的,在控制過程中不需要實(shí)時(shí)更新;其次,該控制器的模型規(guī)模小,方便硬件部署,可以非??焖俚赜?jì)算出反饋信號(hào),一定程度上緩解了控制器的時(shí)滯性。另外,RL-NN控制器允許高維輸入和高維輸出,可以很容易地解決多輸入多輸出控制問題。
RL-NN控制器的參數(shù)(神經(jīng)網(wǎng)絡(luò)各層的權(quán)重和偏置)通過強(qiáng)化學(xué)習(xí)算法與數(shù)據(jù)自主交互學(xué)習(xí)后確定,該過程不依賴于振動(dòng)控制領(lǐng)域知識(shí)。
DDPG是一種基于Actor-Critic的強(qiáng)化學(xué)習(xí)算法,如圖2所示。DDPG算法中包含4個(gè)神經(jīng)網(wǎng)絡(luò),分別是策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)與其對(duì)應(yīng)目標(biāo)網(wǎng)絡(luò)的架構(gòu)是完全相同的,僅存在網(wǎng)絡(luò)參數(shù)的差異性。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)會(huì)不斷將自身參數(shù)通過一種軟更新的方式拷貝給各自的目標(biāo)網(wǎng)絡(luò),其目的主要是為了減少目標(biāo)計(jì)算與當(dāng)前值的相關(guān)性,從而使學(xué)習(xí)過程更加穩(wěn)定、易于收斂。
圖2 DDPG算法示意圖Fig.2 Schematic diagram of DDPG algorithm
由于采用軟更新方法,DDPG算法只需要計(jì)算出策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的梯度,然后通過反向傳播算法更新網(wǎng)絡(luò)的參數(shù)即可。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)損失函數(shù)的表達(dá)式為
yi=ri+γQ′(si+1,μ′(si+1|θu′)|θQ′)
(1)
Q(si,ai|θQ))2
(2)
(3)
式中:Lμ和LQ為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失函數(shù);θμ,θμ′,θQ和θQ′為策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)的參數(shù);μ(·),μ′(·),Q(·)和Q′(·)為策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)的前向計(jì)算函數(shù);s,a和r分別為反饋信號(hào)、控制信號(hào)和回報(bào)信號(hào);γ為回報(bào)信號(hào)的衰減系數(shù);N為學(xué)習(xí)樣本數(shù)目,i=1,2,…,N。
目標(biāo)網(wǎng)絡(luò)參數(shù)的更新采用
θQ′←τθQ+(1-τ)θQ′,
θμ′←τθμ+(1-τ)θμ′
(4)
式中,τ為目標(biāo)網(wǎng)絡(luò)參數(shù)的更新系數(shù),一般τ<<1。
DDPG算法采用了經(jīng)驗(yàn)回放機(jī)制,即通過引入回放池,將計(jì)算得到的元組數(shù)據(jù)(si,ai,ri,si+1)不斷儲(chǔ)存到回放池中,然后通過隨機(jī)采樣的方式選取樣本供算法學(xué)習(xí),經(jīng)驗(yàn)回放機(jī)制可以有效地降低學(xué)習(xí)樣本的時(shí)序相關(guān)性,提升DDPG算法的學(xué)習(xí)能力。對(duì)于反饋信號(hào)中不同物理量量級(jí)存在差異的問題,比如加速度、速度和位移信號(hào)一般存在數(shù)量級(jí)的差異,本文采用批歸一化的方式進(jìn)行處理,這樣可以使神經(jīng)網(wǎng)絡(luò)很好地處理不同數(shù)值范圍的輸入,同時(shí)緩解神經(jīng)網(wǎng)絡(luò)中間層輸出“漂移”、梯度發(fā)散等問題[28]。在訓(xùn)練的過程中,對(duì)策略網(wǎng)絡(luò)的輸出添加一定的高斯噪聲,這樣可以使算法探索潛在的更優(yōu)策略,噪聲的量級(jí)隨著訓(xùn)練逐漸遞減,從而保證“探索”和“開發(fā)”之間的平衡。
本文設(shè)計(jì)RL-NN控制器的步驟主要包括以下3個(gè)部分。
1.3.1 建立被控對(duì)象的數(shù)學(xué)模型
建立可以反映被控系統(tǒng)動(dòng)力學(xué)特性的數(shù)學(xué)模型,模型的參數(shù)滿足特定的概率分布,從而體現(xiàn)被控系統(tǒng)的不確定性。建立數(shù)學(xué)模型的目的主要有兩方面:一是計(jì)算控制信號(hào)at參與后的反饋信號(hào)st+1;二是計(jì)算控制信號(hào)at參與后的回報(bào)信號(hào)rt。本文的回報(bào)信號(hào)均采用位移信號(hào),即強(qiáng)化學(xué)習(xí)的目標(biāo)是最小化控制位置處的振動(dòng)位移。微分方程的數(shù)值解均采用四階龍格-庫塔法獲得。
1.3.2 控制策略的自主學(xué)習(xí)
DDPG算法與被動(dòng)對(duì)象的數(shù)學(xué)模型進(jìn)行數(shù)據(jù)交互,如圖2所示。通過1.2節(jié)中的式(1)~式(4)對(duì)4個(gè)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新,從而實(shí)現(xiàn)控制策略的自主學(xué)習(xí)。本文使用的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均包括兩個(gè)隱含層,每層有32個(gè)神經(jīng)元,隱含層的激活函數(shù)均采用ReLU。策略網(wǎng)絡(luò)輸出層的激活函數(shù)采用tanh,而價(jià)值網(wǎng)絡(luò)輸出層采用線性激活函數(shù)。使用ADAM優(yōu)化器更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù),學(xué)習(xí)率分別設(shè)置為1-5和1-4。其他參數(shù)設(shè)置為:回放池的存儲(chǔ)空間為1×105,隨機(jī)采樣個(gè)數(shù)為N=256,回報(bào)信號(hào)的衰減系數(shù)為γ=0.99,目標(biāo)網(wǎng)絡(luò)參數(shù)的更新系數(shù)為τ=0.001。
1.3.3 獲取RL-NN控制器
記錄并觀察回報(bào)信號(hào)的變化情況,當(dāng)回報(bào)信號(hào)達(dá)到收斂平穩(wěn)趨勢(shì)時(shí)終止學(xué)習(xí),保存策略網(wǎng)絡(luò)的架構(gòu)和參數(shù),最終得到的策略神經(jīng)網(wǎng)絡(luò)便是強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的RL-NN控制器。將RL-NN控制器部署在軟件或硬件平臺(tái)上,將傳感器采集到的反饋信號(hào)作為神經(jīng)網(wǎng)絡(luò)的輸入,通過神經(jīng)網(wǎng)絡(luò)的正向計(jì)算后輸出控制信號(hào),從而完成系統(tǒng)振動(dòng)主動(dòng)/半主動(dòng)控制的閉環(huán)過程。
用于振動(dòng)主動(dòng)控制的單自由度系統(tǒng)的動(dòng)力學(xué)模型,如圖3所示,其動(dòng)力學(xué)控制方程為
圖3 單自由度系統(tǒng)的動(dòng)力學(xué)模型Fig.3 Dynamic model of single-degree-of-freedom system
(5)
主要考慮m,c,k參數(shù)的不確定性,假設(shè)這3個(gè)參數(shù)都滿足均勻分布,不確定性范圍設(shè)置為20%,即m∈[0.8m0,1.2m0],c∈[0.8c0,1.2c0],k∈[0.8k0,1.2k0],其中m0=1 kg,c0=3 Ns/m,k0=100 N/m。m,c,k參數(shù)的不確定性空間,如圖4所示。將大量具有不同參數(shù)的單自由度系統(tǒng)計(jì)算得到的數(shù)據(jù)提供給強(qiáng)化學(xué)習(xí)算法,讓強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)隱藏在數(shù)據(jù)中的不確定性,從而使得RL-NN控制器可以很好地適應(yīng)系統(tǒng)的不確定性。
圖4 單自由度系統(tǒng)參數(shù)不確定性空間Fig.4 Parameter-uncertainty space of single-degree-of-freedom system
單自由度系統(tǒng)的位移控制曲線和控制電壓,如圖5所示。通過1 000次Monte Carlo模擬來驗(yàn)證RL-NN控制器的性能,位移均方根(root mean square,RMS)值的計(jì)算結(jié)果,如表1所示??梢钥闯鲈谙到y(tǒng)參數(shù)具有20%的不確定性時(shí),RL-NN控制器可以實(shí)現(xiàn)97.55%的控制效果,且標(biāo)準(zhǔn)差僅有0.001 8%,這表明強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)到的主動(dòng)控制策略可以很好地適應(yīng)系統(tǒng)參數(shù)的不確定性,且控制性能優(yōu)異、穩(wěn)定性高。
圖5 單自由度系統(tǒng)振動(dòng)主動(dòng)控制結(jié)果(m=0.8 kg,c=2.6 Ns/m,k=117.6 N/m)Fig.5 Active vibration control results of the single-degree-of-freedom system(m=0.8 kg,c=2.6 Ns/m,k=117.6 N/m)
神經(jīng)網(wǎng)絡(luò)在進(jìn)行數(shù)據(jù)外推時(shí)會(huì)出現(xiàn)性能惡化的問題,即泛化能力下降。為此,通過1 000次Monte Carlo模擬來驗(yàn)證系統(tǒng)具有30%,40%,50%以及60%不確定性時(shí)RL-NN控制器的性能,計(jì)算結(jié)果如表1所示。可以看出隨著不確定性的增加,RL-NN控制器的性能出現(xiàn)略微的下降。在60%不確定性情況下,RL-NN控制器可以實(shí)現(xiàn)96.59%的控制效果,方差僅有0.035%,相對(duì)于20%的不確定性,控制效果下降的幅度不足1%。結(jié)果表明在系統(tǒng)參數(shù)不確定性估計(jì)保守的條件下,RL-NN控制器仍具有良好的泛化性能,控制效果優(yōu)異且穩(wěn)定。
表1 單自由度系統(tǒng)位移控制結(jié)果Tab.1 Displacement control result of single-degree-of-freedom system
用于振動(dòng)半主動(dòng)控制的車輛1/4懸架系統(tǒng)的動(dòng)力學(xué)模型,如圖6所示,其動(dòng)力學(xué)控制方程的表達(dá)式為
圖6 車輛1/4懸架系統(tǒng)的動(dòng)力學(xué)模型Fig.6 Dynamics model of quarter-suspension system of vehicle
(6)
式中:m1和m2分別為簧載質(zhì)量和非簧載質(zhì)量;k1和k2分別為彈簧剛度和輪胎剛度;c1為不可控阻尼系數(shù);fc為磁流變阻尼器的可控阻尼力;α0,β0,γ,α1和β1為描述控制電流與可控阻尼力關(guān)系的參數(shù);i為控制電流,i∈[0,3 A]。本文采用的磁流變阻尼器模型和相關(guān)動(dòng)力學(xué)參數(shù)均引用文獻(xiàn)[29]。本算例中,半主動(dòng)元件磁流變阻尼器具有典型的強(qiáng)非線性特性,這對(duì)振動(dòng)半主動(dòng)控制器的設(shè)計(jì)帶來了很大的困難。
車輛1/4懸架系統(tǒng)簧載質(zhì)量m1的位移主動(dòng)控制曲線和控制電流,如圖7所示。為了更好地表明本文所提方法的優(yōu)異性,引入sky-hook控制策略作為對(duì)比。sky-hook控制策略是車輛懸架半主動(dòng)控制領(lǐng)域應(yīng)用最為廣泛的控制策略,可以描述為[30]
圖7 車輛1/4懸架系統(tǒng)振動(dòng)半主動(dòng)控制結(jié)果Fig.7 Semi-active vibration control results of the vehicle 1/4 suspension system
(7)
考慮20%不確定性,對(duì)比被動(dòng)控制(磁流變阻尼器的控制電流為0)和RL-NN控制下簧載質(zhì)量塊m1和非簧載質(zhì)量塊m2的位移RMS值,結(jié)果如表2所示。對(duì)于簧載質(zhì)量,sky-hook的控制效果為46.80%,標(biāo)準(zhǔn)差為1.55%,而RL-NN控制器可以實(shí)現(xiàn)74.39%的控制效果,且標(biāo)準(zhǔn)差僅有0.24%,結(jié)果表明本文所提的方法比sky-hook的控制效果至少高出25%,且控制效果更加穩(wěn)定。對(duì)于非簧載質(zhì)量,sky-hook的控制效果比RL-NN控制高出約1%,這主要是因?yàn)镽L-NN控制器在學(xué)習(xí)過程中回報(bào)信號(hào)未考慮非簧載質(zhì)量造成的,后續(xù)仍有一定的提升空間。
表2 車輛1/4懸架系統(tǒng)位移控制結(jié)果Tab.2 Displacement control result of quarter-suspension system
sky-hook是一種模糊控制策略,可以很好地適應(yīng)系統(tǒng)的不確定性和非線性,是人類專家多年來在理解物理模型的基礎(chǔ)上結(jié)合反復(fù)迭代經(jīng)驗(yàn)總結(jié)出的控制策略。RL-NN控制器僅需要在普通計(jì)算平臺(tái)上學(xué)習(xí)數(shù)小時(shí)便可以超越人類專家水平,這在一定程度上體現(xiàn)了通過強(qiáng)化學(xué)習(xí)來設(shè)計(jì)控制策略的潛力,為復(fù)雜系統(tǒng)振動(dòng)主動(dòng)/半主動(dòng)控制器的設(shè)計(jì)提供新的實(shí)現(xiàn)途徑。
本文提出了一種基于強(qiáng)化學(xué)習(xí)的振動(dòng)主動(dòng)控制策略,即利用強(qiáng)化學(xué)習(xí)算法DDPG設(shè)計(jì)多層神經(jīng)網(wǎng)絡(luò)控制器。通過單自由度系統(tǒng)振動(dòng)主動(dòng)控制計(jì)算表明,RL-NN控制器可以適應(yīng)系統(tǒng)參數(shù)的不確定性,其控制效果可以達(dá)到97%,且穩(wěn)定性優(yōu)異;另外,RL-NN控制器具有良好的泛化性能,在系統(tǒng)參數(shù)不確定性達(dá)到60%時(shí)控制效果下降不足1%。通過車輛1/4懸架振動(dòng)半主動(dòng)控制計(jì)算表明,RL-NN控制器可以適應(yīng)系統(tǒng)參數(shù)的不確定性和非線性,其控制效果達(dá)到74%,比sky-hook高出至少25%,且控制穩(wěn)定性更加突出?;趶?qiáng)化學(xué)習(xí)方法的控制策略可以大幅度縮短控制器設(shè)計(jì)的時(shí)間,僅需要在普通計(jì)算平臺(tái)上學(xué)習(xí)數(shù)小時(shí)便可以達(dá)到甚至超越人類專家水平,這為不確定性和非線性系統(tǒng)的振動(dòng)主動(dòng)/半主動(dòng)控制器的設(shè)計(jì)提供了新的實(shí)現(xiàn)途徑。