何佳琛
(中鐵第四勘察設(shè)計(jì)院集團(tuán)有限公司 武漢 430063)
主動控制措施依靠外部能源供給,可有效抑制大跨度橋梁的風(fēng)致振動。主動控制律是主動控制設(shè)施的設(shè)計(jì)核心,其在很大程度上決定了主動控制設(shè)施的性能及魯棒性。在結(jié)構(gòu)振動控制領(lǐng)域中較常使用的主動控制律設(shè)計(jì)方法主要可分為傳統(tǒng)控制算法和智能控制算法[1]。傳統(tǒng)控制算法通過配置被控系統(tǒng)的極點(diǎn)或最小化既定的代價(jià)函數(shù)等方式來求解主動控制律。李珂等[2]利用線性二次最優(yōu)控制算法為安裝在橋梁甲板上方的主動小翼設(shè)計(jì)了自動控制方案,用于提高大跨度橋梁的顫振臨界風(fēng)速。文永奎[3]利用線性二次高斯控制算法為主動質(zhì)量阻尼器系統(tǒng)(ATMD)設(shè)計(jì)了自動控制方案,成功抑制了斜拉橋施工階段的抖振響應(yīng)。傳統(tǒng)最優(yōu)控制算法雖有能力設(shè)計(jì)出名義上性能最優(yōu)或者次優(yōu)的控制系統(tǒng),但在實(shí)施過程中需要測量結(jié)構(gòu)的全狀態(tài)信息,大跨度橋梁結(jié)構(gòu)復(fù)雜,狀態(tài)信息龐大,由傳感器中大量信息傳輸而引起的時(shí)滯問題將大大影響控制系統(tǒng)的控制效果。
以神經(jīng)網(wǎng)絡(luò)和模糊理論為代表的智能控制算法在處理復(fù)雜性及不確定性方面有較高的能力。何敏等[4]提出了基于神經(jīng)網(wǎng)絡(luò)的大跨橋梁結(jié)構(gòu)電磁驅(qū)動AMD系統(tǒng)輸入電壓的在線實(shí)時(shí)控制方法,用于降低結(jié)構(gòu)的地震響應(yīng)。顏桂云等[5]通過觀測部分樓層加速度和控制力輸出,建立了模糊神經(jīng)網(wǎng)絡(luò)控制器,大幅度降低了高層建筑的橫風(fēng)向振動,解決了傳統(tǒng)控制中有限的傳感器數(shù)目對系統(tǒng)振動狀態(tài)估計(jì)的困難。以神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)辨識和響應(yīng)預(yù)測為前提的控制方案有著反應(yīng)迅速及強(qiáng)魯棒性等優(yōu)點(diǎn),但神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中收斂較為困難,容易陷入局部最小值。模糊神經(jīng)網(wǎng)絡(luò)算法解決了傳統(tǒng)模糊控制中專家知識難定義的問題,但卻需要大量的高質(zhì)量樣本數(shù)據(jù)去訓(xùn)練算法中預(yù)先定義的神經(jīng)網(wǎng)絡(luò),當(dāng)樣本數(shù)據(jù)難以獲得時(shí),其應(yīng)用將受限制。
強(qiáng)化學(xué)習(xí)是人工智能的一個重要分支,其使用智能體與環(huán)境進(jìn)行交互,并通過交互獲得的反饋數(shù)據(jù)來找尋指定目標(biāo)下的最優(yōu)策略。強(qiáng)化學(xué)習(xí)在湍流的主動控制中已有頗多的研究成果[6],但到目前為止,還沒有學(xué)者研究如何利用強(qiáng)化學(xué)習(xí)算法為風(fēng)-橋系統(tǒng)設(shè)計(jì)主動控制律。本文主要探究基于強(qiáng)化學(xué)習(xí)的大跨度橋梁風(fēng)致振動主動控制,以蘇通長江大橋?yàn)楸尘?構(gòu)建大跨度橋梁風(fēng)致振動主動控制與強(qiáng)化學(xué)習(xí)框架各組分之間的對應(yīng)關(guān)系,利用強(qiáng)化學(xué)習(xí)算法為主動質(zhì)量阻尼器(active mass damper,ATMD)設(shè)計(jì)控制律,擬探究其對抖振的控制效果,并與利用線性二次型調(diào)節(jié)器所設(shè)計(jì)出的主動控制律在抑振效果層面進(jìn)行對比分析。以檢驗(yàn)利用強(qiáng)化學(xué)習(xí)算法所設(shè)計(jì)的控制系統(tǒng)在面對隨機(jī)風(fēng)環(huán)境及結(jié)構(gòu)參數(shù)不確定時(shí)的魯棒性能。
在一個完全能觀的環(huán)境中,強(qiáng)化學(xué)習(xí)任務(wù)通常假定滿足馬爾可夫決策過程(Markov decision process,MDP)。標(biāo)準(zhǔn)的馬爾可夫決策過程可用四元組進(jìn)行表示,即MPD=[S,A,p(st+1|st,at),r(st,at,st+1)],S和A分別為狀態(tài)空間和動作空間;p(st+1|st,at)為在當(dāng)前狀態(tài)st下執(zhí)行動作at后,環(huán)境轉(zhuǎn)移到下一個狀態(tài)st+1的概率分布;r(st,at,st+1)為在狀態(tài)st下執(zhí)行動作at后轉(zhuǎn)移到狀態(tài)st+1時(shí)所獲得的獎勵,其與環(huán)境特性相關(guān)并通常由專家指定。在強(qiáng)化學(xué)習(xí)任務(wù)中,智能體的目標(biāo)是通過與環(huán)境進(jìn)行交互,從而找尋到最大化期望累積獎勵Eπ[R(τ)]的策略a=π(s|θ)[7]。大跨度橋梁風(fēng)致振動主動控制與強(qiáng)化學(xué)習(xí)框架各組分之間的對應(yīng)關(guān)系見圖1。
圖1 強(qiáng)化學(xué)習(xí)與大跨度橋梁風(fēng)致振動主動控制對應(yīng)關(guān)系
智能體代表著主動控制系統(tǒng),環(huán)境代表著風(fēng)-橋系統(tǒng),在強(qiáng)化學(xué)習(xí)中,智能體試圖找到最優(yōu)策略π*(a|st)來最大化期望回報(bào)Eπ[R(τ)],在控制系統(tǒng)設(shè)計(jì)中,設(shè)計(jì)者期望找到最優(yōu)控制律u=f(x)來最小化代價(jià)函數(shù)或性能指標(biāo)J,因此,經(jīng)過適當(dāng)?shù)母脑烊缛∠喾磾?shù),代價(jià)函數(shù)可轉(zhuǎn)變?yōu)楠剟詈瘮?shù),此時(shí)最優(yōu)控制律便等價(jià)于最優(yōu)策略。此外,在控制系統(tǒng)設(shè)計(jì)中,控制系統(tǒng)通過用傳感器采集系統(tǒng)響應(yīng)信息來判斷橋梁的動力行為,進(jìn)而給出實(shí)時(shí)控制信號u。在強(qiáng)化學(xué)習(xí)中,智能體通過觀測環(huán)境的狀態(tài)s來了解環(huán)境內(nèi)部的演變,進(jìn)而做出下一步動作a。因此,環(huán)境的狀態(tài)s與系統(tǒng)響應(yīng)信息是對應(yīng)的,控制信號u與動作a是相對應(yīng)的。
蘇通長江公路大橋是主跨為1 088 m的雙塔雙索面斜拉橋,利用ANSYS建立其空間有限元模型,動力分析結(jié)果表明,其第一階橫彎、豎彎,以及扭轉(zhuǎn)模態(tài)對應(yīng)的頻率分別為0.100 7,0.188 0,0.529 8 Hz。在風(fēng)荷載作用下,安裝主動質(zhì)量阻尼器的橋梁,其運(yùn)動方程為
(1)
kei[qei(t)-qsi(t)]-uei(t)
(2)
將式(2)代入式(1),并化為簡潔形式。
(3)
式中:
假定在蘇通大橋主跨1/3截面處對稱布置2個100 t的ATMD,選擇橋梁的一階對稱豎彎頻率作為主控頻率,ATMD的頻率比和阻尼比分別設(shè)為0.99和0.061,作動器提供的最大控制力取為1 000 kN。根據(jù)上述理論,利用newmark-β法求解結(jié)構(gòu)響應(yīng),在不施加控制力ue的情況下(此時(shí)ATMD退化為調(diào)諧質(zhì)量阻尼器TMD),橋梁跨中的位移和加速度響應(yīng)時(shí)程見圖2,位移峰值和均方根值(root mean square,RMS)分別為1.305和0.383 m,加速度峰值和均方根值分別為2.705和0.647 m/s2。
圖2 不施加控制力時(shí)橋梁跨中的位移和加速度響應(yīng)時(shí)程
深度確定性策略梯度強(qiáng)化學(xué)習(xí)算法[8](deep deterministic policy gradient,DDPG)采用神經(jīng)網(wǎng)絡(luò)建模策略函數(shù)a=π(s|θπ)和狀態(tài)-動作值函數(shù)Q(s,a|θQ),并引用深度Q網(wǎng)絡(luò)算法中的經(jīng)驗(yàn)回放機(jī)制和目標(biāo)網(wǎng)絡(luò)機(jī)制進(jìn)一步穩(wěn)定學(xué)習(xí)過程,加快收斂。在學(xué)習(xí)過程中,智能體與環(huán)境進(jìn)行交互并將交互得到的狀態(tài)-動作-下一狀態(tài)-回報(bào)值(st,at,rt,st+1)存入經(jīng)驗(yàn)回放池,隨機(jī)抽取P個經(jīng)驗(yàn)樣本,最小化根據(jù)最優(yōu)貝爾曼方程計(jì)算出的損失函數(shù)L來更新狀態(tài)-動作值函數(shù)Q(s,a|θQ)。
Q(si,ai|θQ)}2
(4)
式中:Q*(·)為目標(biāo)Q網(wǎng)絡(luò);π*(·)為目標(biāo)策略網(wǎng)絡(luò);θQ*和θπ*為相應(yīng)的模型參數(shù)。策略函數(shù)π(s|θπ)根據(jù)策略梯度θπJ進(jìn)行更新。
(5)
基于DDPG算法的ATMD主動控制律求解步驟見表1。
表1 基于DDPG算法的ATMD主動控制律求解步驟
選擇橋梁跨中節(jié)點(diǎn)的豎向加速度響應(yīng)和豎向位移響應(yīng)作為描述風(fēng)-橋系統(tǒng)的狀態(tài)變量s,將作動器所提供的控制力ue選為動作a,將系統(tǒng)的獎勵函數(shù)ri設(shè)置為如式(6)形式。
(6)
式中:系數(shù)a和b分別為位移和加速度相應(yīng)的懲罰項(xiàng),即位移和加速度越大,智能體單步所獲得的獎勵將越小,為獲得較大的總期望回報(bào),智能體必須找尋到盡可能降低位移和加速度的策略,這與減振的目標(biāo)一致;正常數(shù)c可以看作是獎勵函數(shù)的偏置,其保證單步獎勵值處于一個合理的范圍,有助于防止梯度消失現(xiàn)象,加快網(wǎng)絡(luò)收斂,本文采用試錯法將系數(shù)a、b和c的值最終定為1,1和0.8。智能體由策略神經(jīng)網(wǎng)絡(luò)和狀態(tài)-動作值神經(jīng)網(wǎng)絡(luò)組成,兩者均采用如圖3所示的4層神經(jīng)網(wǎng)絡(luò),隱藏層內(nèi)神經(jīng)元個數(shù)均設(shè)為10個,W1~Wn為神經(jīng)網(wǎng)絡(luò)的權(quán)重系數(shù);b為神經(jīng)網(wǎng)絡(luò)的偏置。策略神經(jīng)網(wǎng)絡(luò)和狀態(tài)-動作值神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率分別設(shè)置為0.005和0.001,軟更新因子和折扣因子分別設(shè)置為0.01和0.99,網(wǎng)絡(luò)訓(xùn)練時(shí)終止時(shí)間步取為600 s,經(jīng)驗(yàn)回放池大小設(shè)置為20 000,當(dāng)回放池?cái)?shù)據(jù)儲存量達(dá)到上限之后,先進(jìn)入的數(shù)據(jù)將會被后進(jìn)入的數(shù)據(jù)替代,即新的經(jīng)驗(yàn)知識會代替舊的經(jīng)驗(yàn)知識。采用python語言及開源機(jī)器學(xué)習(xí)框架Tensorflow可編制計(jì)算程序,訓(xùn)練過程見圖4,共訓(xùn)練了M=1 142個回合,獎勵值最終穩(wěn)定在1 800附近。
定義ATMD控制效果評價(jià)指標(biāo)如式(7)~(11)。
(7)
(8)
(9)
(10)
(11)
圖5 基于深度確定性策略梯度算法的大跨度橋梁抖振控制效果(跨中節(jié)點(diǎn))
表2對基于DDPG算法和LQR算法的大跨度橋梁抖振控制效果進(jìn)行了對比,結(jié)果顯示,利用強(qiáng)化學(xué)習(xí)算法為風(fēng)-橋系統(tǒng)設(shè)計(jì)的主動控制系統(tǒng)可達(dá)到與LQR算法相當(dāng)?shù)臏p振效果,均接近30%。但是利用DDPG算法設(shè)計(jì)出的主動控制律在實(shí)施時(shí)僅需要測量橋梁跨中節(jié)點(diǎn)的位移響應(yīng)和加速度響應(yīng),而不需要獲取結(jié)構(gòu)的全狀態(tài)信息,可有效避免時(shí)滯效應(yīng),可實(shí)踐性強(qiáng)。
控制系統(tǒng)的魯棒性是指系統(tǒng)在不確定性的擾動下,具有保持其性能不變的能力。為探究利用強(qiáng)化學(xué)習(xí)所設(shè)計(jì)的ATMD的魯棒性,本文共設(shè)計(jì)了6個工況,工況1和工況2采用諧波合成法重新生成2條和訓(xùn)練時(shí)不同的脈動風(fēng)速樣本,檢驗(yàn)在隨機(jī)風(fēng)環(huán)境下ATMD的工作情況。工況3~6分別考慮橋梁總體剛度退化10%、退化15%、提高10%,以及提高15%時(shí)所設(shè)計(jì)的ATMD的性能。表3給出了不同工況下利用DDPG算法所設(shè)計(jì)的ATMD的減振效果。不同工況下利用DDPG算法設(shè)計(jì)的ATMD的減振率見圖7。
表3 不同工況下利用DDPG算法所設(shè)計(jì)的ATMD的減振效果
圖7 不同工況下利用DDPG算法設(shè)計(jì)的ATMD的減振率
結(jié)果表明,當(dāng)系統(tǒng)產(chǎn)生外部擾動即紊流風(fēng)環(huán)境發(fā)生改變時(shí),利用強(qiáng)化學(xué)習(xí)設(shè)計(jì)的ATMD仍然具備優(yōu)越的控制性能。而當(dāng)橋梁結(jié)構(gòu)本身的剛度矩陣發(fā)生改變時(shí),ATMD的減振性能雖有所衰退,但仍然能有效地降低橋梁結(jié)構(gòu)的風(fēng)致振動。此外,就單個工況而言,在大多數(shù)情況下,均方值控制效果總是優(yōu)于相應(yīng)的峰值控制效果,這種現(xiàn)象可能與強(qiáng)化學(xué)習(xí)的理念有關(guān)。強(qiáng)化學(xué)習(xí)中智能體的目的是找尋到最優(yōu)策略最大化總期望回報(bào),而非最大化單步獎勵,因此,智能體在尋找最優(yōu)策略的過程中,具有較為長遠(yuǎn)的“眼光”,即為了在之后可以獲得較大的期望回報(bào),并不會拒絕過程中出現(xiàn)的相對較小的單步獎勵。在控制器設(shè)計(jì)中,這種學(xué)習(xí)理念可能會導(dǎo)致控制器弱化對響應(yīng)峰值的削減,而是從整體的角度,專注于降低響應(yīng)的均方差值。
為進(jìn)一步說明強(qiáng)化學(xué)習(xí)的通用性,探究其對非線性系統(tǒng)的控制能力,本小節(jié)以寬高比為4的矩形斷面為基礎(chǔ),研究了強(qiáng)化學(xué)習(xí)對非線性渦激振動的控制效果。所采用的矩形斷面寬度和高度分別為300,75 mm;線質(zhì)量為6.085 kg/m;豎向振動頻率為13.43 Hz;質(zhì)量比和阻尼比為0.001 1和0.002 1;Scruton數(shù)和Strouhal數(shù)為6.0和0.136;氣動參數(shù)Y1、Y2、ε分別為6.27,-5.7,1 082.2??紤]在橋梁節(jié)段上施加1個理想的控制力u,則橋梁-理想控制器耦合系統(tǒng)可用以下方程(12)進(jìn)行描述。
(12)
圖8 控制前、后無量綱化的量渦振響應(yīng)時(shí)程
1) 利用強(qiáng)化學(xué)習(xí)算法為風(fēng)-橋系統(tǒng)設(shè)計(jì)的主動控制律可達(dá)到與LQR算法相當(dāng)?shù)臏p振效果。但利用DDPG算法所設(shè)計(jì)出的主動控制系統(tǒng)在實(shí)施時(shí)僅需要測量橋梁跨中節(jié)點(diǎn)的位移響應(yīng)和加速度響應(yīng),而不需要獲取結(jié)構(gòu)的全狀態(tài)信息,可有效避免時(shí)滯效應(yīng),可實(shí)踐性強(qiáng)。
2) 當(dāng)系統(tǒng)產(chǎn)生外部擾動即紊流風(fēng)環(huán)境發(fā)生改變時(shí),利用強(qiáng)化學(xué)習(xí)設(shè)計(jì)的ATMD仍具備優(yōu)越的控制性能。而當(dāng)橋梁結(jié)構(gòu)本身的剛度矩陣發(fā)生改變時(shí),ATMD的減振性能雖有所衰退,但仍然能有效地降低橋梁結(jié)構(gòu)的風(fēng)致振動。
3) 強(qiáng)化學(xué)習(xí)是一個適用范圍廣泛的通用性框架,可用于線性或非線性系統(tǒng)。但由于在強(qiáng)化學(xué)習(xí)的理念中,智能體的目的是找尋到最優(yōu)策略最大化總期望回報(bào),而非最大化單步獎勵,因此利用強(qiáng)化學(xué)習(xí)所設(shè)計(jì)的主動控制系統(tǒng),其均方值控制效果會優(yōu)于相應(yīng)的峰值控制效果。