任峰,高傳強, 2,唐輝, 3,*
1. 香港理工大學(xué) 機械工程學(xué)系 流固耦合研究中心,香港 2.西北工業(yè)大學(xué) 航空學(xué)院,西安 710072 3.香港理工大學(xué) 深圳研究院,深圳 518057
流動控制常常按照是否有外部能量的輸入分為主動流動控制和被動流動控制兩類。其中,被動流動控制主要通過采用修改目標物體的幾何形狀來實現(xiàn),比如在泳衣上采用類似鯊魚表面的溝槽結(jié)構(gòu)以實現(xiàn)減阻[1]。主動流動控制需要引入激勵器(如吹吸射流[2]、合成射流[3]、等離子體激勵器[4]等)以改變局部流動,進而實現(xiàn)全局的控制目標。如果激勵器輸出值根據(jù)流場中傳感器的反饋信號得到,則稱為閉環(huán)控制,否則為開環(huán)控制。流動的時空演化由非線性的Navier-Stokes方程主導(dǎo),往往包含了高維、多頻、多模態(tài)、多尺度等復(fù)雜特征,因此為控制帶來了許多挑戰(zhàn)。
作為實現(xiàn)人工智能最重要的途徑,機器學(xué)習(xí)在近些年吸引了來自各個學(xué)科領(lǐng)域的大量關(guān)注,包括自然語言處理、計算機視覺、機器人等。機器學(xué)習(xí)致力于研究如何通過計算的手段,利用以數(shù)據(jù)為存在形式的“經(jīng)驗”來改善系統(tǒng)自身的性能[5]。因此,對于常常涉及海量數(shù)據(jù)的流體力學(xué)研究來說,機器學(xué)習(xí)亦已廣泛引入[6],包括粒子圖像測速(PIV)、圖像處理[7]、湍流模型[8-9]、氣動外形優(yōu)化[10]等。
作為流體力學(xué)中的重要領(lǐng)域,對流動控制的研究也在不斷引入機器學(xué)習(xí)的概念[6,11-12]。在這個背景下,為了展示目前機器學(xué)習(xí)在流動控制中的應(yīng)用現(xiàn)狀,本文將從3類方法出發(fā),重點回顧目前基于機器學(xué)習(xí)方法的流動控制研究工作,包括面向流動控制基于機器學(xué)習(xí)的系統(tǒng)辨識與降階模型、基于遺傳規(guī)劃的主動流動控制、基于人工神經(jīng)網(wǎng)絡(luò)與深度強化學(xué)習(xí)的主動流動控制。此外,本文將涉及到較為廣泛的具體問題,包括氣動彈性主動控制、鈍體減阻、流致振動、射流摻混、熱對流等。
在復(fù)雜流動的主動控制問題中,基于CFD仿真的主動控制律設(shè)計難度較大,并且由于對非定常流動和控制系統(tǒng)交互耦合的高保真求解往往耗費巨大,因此常建立非定常氣動力降階模型來處理。目前常采用的非定常氣動力降階建模方法可以分成兩大類,即流場特征提取類模型和系統(tǒng)辨識類模型。流場特征提取類模型本質(zhì)上是一種灰箱模型,包括線化穩(wěn)定性分析法、本征正交分解法(POD)和動模態(tài)分解法(DMD)。為了向氣動伺服主動控制系統(tǒng)提供高效高精度的狀態(tài)空間模型,陳剛等[13]采用POD建模方法建立了氣動伺服彈性降階方程,并將其應(yīng)用到主動控制律的設(shè)計中。Ahuja和Rowley[14]基于平衡截斷思想,在POD基礎(chǔ)上發(fā)展了BPOD方法,開展了平板大攻角分離流動的降階建模和閉環(huán)反饋控制研究。
系統(tǒng)辨識類方法主要包括ERA模型和ARX模型。這類模型主要是通過辨識方法構(gòu)建系統(tǒng)的有限輸入和輸出之間的傳遞函數(shù)關(guān)系,本質(zhì)上是一種 “黑箱模型”。這類黑箱模型不僅計算效率高,還方便開展系統(tǒng)特性隨參數(shù)的變化分析,因此在以流動控制為代表的多學(xué)科耦合研究方面具有無可比擬的優(yōu)勢。基于辨識類模型的流動反饋控制過程及其與CFD仿真的關(guān)系如圖1所示,其中降階模型通過CFD仿真數(shù)據(jù)構(gòu)建,具備與CFD仿真相當?shù)牧鲌鲱A(yù)測精度。ERA模型是基于特征系統(tǒng)實現(xiàn)算法,F(xiàn)linois和Morgans[15]采用ERA方法開展了繞鈍體渦街流動的低階模型構(gòu)建及閉環(huán)反饋控制。
圖1 基于系統(tǒng)辨識類降階模型的流動閉環(huán)控制示意圖Fig.1 Schematics of flow closed-loop control based on reduced order modeling via system identification
針對跨聲速氣動彈性與流動控制的分析需求,Gao和Zhang等[16]采用自回歸(ARX)方法構(gòu)建了適用于不穩(wěn)定跨聲速抖振流動的線性降階模型。該模型能準確地刻畫流動穩(wěn)定性隨來流攻角和馬赫數(shù)的變化,捕捉的抖振始發(fā)邊界與數(shù)值模擬和實驗結(jié)果吻合較好。進一步,針對跨聲速復(fù)雜氣動彈性問題的控制問題,張偉偉等[17]還開展了基于低階模型的控制律設(shè)計。其中,閉環(huán)控制以升力和力矩系數(shù)為反饋信號,以機翼尾緣舵面轉(zhuǎn)動的角度和角速度為控制輸出,控制律設(shè)計分別通過極點配置和線性二次型調(diào)節(jié)器(LQR)方法實現(xiàn)。控制結(jié)果采用CFD求解器加以驗證,發(fā)現(xiàn)二者均能有效抑制抖振,甚至能在非線性擾動和非設(shè)計條件下工作,證實其具有較優(yōu)的魯棒性。對控制律的進一步分析發(fā)現(xiàn),最優(yōu)控制參數(shù)在開環(huán)系統(tǒng)的反共振處得到,進而實現(xiàn)了反相控制。
在建立流動系統(tǒng)降階模型的過程中,對氣動力的辨識往往局限于線性層面,為完善對非線性氣動力的系統(tǒng)辨識,許多研究者轉(zhuǎn)向了機器學(xué)習(xí)和非線性系統(tǒng)辨識方法。機器學(xué)習(xí)方法將非線性動力學(xué)系統(tǒng)視為黑箱,通過模型訓(xùn)練進行參數(shù)學(xué)習(xí),得到流場和氣動力的降階模型。基于機器學(xué)習(xí)和非線性系統(tǒng)辨識方法的典型非線性、非定常氣動力模型包括Kriging模型、神經(jīng)網(wǎng)絡(luò)模型、模塊式模型等。Kriging模型是一種非線性的插值方法,將未知函數(shù)視為低階多項式與隨機過程的疊加,其中低階多項式考慮了函數(shù)的全局特性,而隨機多項式考慮了局部特性。Glaz等[18]通過Kriging模型建立了非線性、非定常的氣動力模型,并預(yù)測了NACA0012翼型的非定常氣動力。胡海巖等[19]進一步將該模型擴展到變馬赫數(shù)的非定常氣動力預(yù)測。
神經(jīng)網(wǎng)絡(luò)模型是一種模擬人腦神經(jīng)元處理信息的數(shù)學(xué)模型,具有很強的非線性函數(shù)擬合能力。張偉偉等[20]提出一種遞歸的RBF神經(jīng)網(wǎng)絡(luò)模型,通過神經(jīng)網(wǎng)絡(luò)的非線性建模能力近似大幅運動下的氣動力變化,結(jié)合遞歸結(jié)構(gòu)模型反映氣動力的非定常效應(yīng)。Mannarino和Mantegazza[21]采用類似思路,通過遞歸神經(jīng)網(wǎng)絡(luò)建立非定常非線性氣動力模型,并進行氣動彈性仿真。Winter和Breitsamter[22]通過模糊神經(jīng)網(wǎng)絡(luò)模型,建立了變參數(shù)的氣動力模型用于不同馬赫數(shù)下的顫振邊界。
模塊式模型是一種對線性與非線性動力學(xué)系統(tǒng)進行串聯(lián)建模的模型框架。Wiener模型是一種動態(tài)線性模型和靜態(tài)非線性模型串聯(lián)的模型框架。胡海巖等[23]基于Wiener模型提出一種多輸入多輸出的非線性氣動力降階模型,該模型將通過線性狀態(tài)方程與單層神經(jīng)網(wǎng)絡(luò)串聯(lián)建立Wiener模型,通過逐個建立Wiener模型逐步降低建模誤差。張偉偉等[24]為了考慮更強的氣動力非定常、非線性效應(yīng),將標準Wiener模型中的非線性部分從靜態(tài)非線性拓展為準動態(tài)的非線性模塊,其中線性模塊基于ARX模型,非線性模塊基于RBF神經(jīng)網(wǎng)絡(luò)。結(jié)果表明這種新的Wiener模型架構(gòu)在描述大幅運動的氣動力響應(yīng)上具有很高精度,且通過線性與非線性部分的兩級訓(xùn)練保證模型對小幅運動下動態(tài)線性特征的預(yù)測精度。
模塊式模型在結(jié)構(gòu)小幅運動時,往往難以完全退化成線性模型,而采用并聯(lián)結(jié)構(gòu)模型則可以更好地兼顧系統(tǒng)的線性和非線性特征。Mannarino和Dowell[25]利用非線性狀態(tài)空間模型建立了并聯(lián)結(jié)構(gòu)的氣動力降階模型。Kou和Zhang等[26]提出了分層降階模型(圖2(a)),其中線性的氣動力采用了基于ARX模型的系統(tǒng)辨識方法,非線性部分則利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)實現(xiàn)。線性模型和非線性模型輸出的結(jié)果疊加而產(chǎn)生最終的氣動力系數(shù)。通過在兩種模型之間引入延遲,使得整體模型既適用于準定常問題也適用于非定常問題。
在該項工作的基礎(chǔ)上,Kou和Zhang等[27]繼續(xù)改進設(shè)計了基于機器學(xué)習(xí)的混合降階模型架構(gòu)(圖2(b)),其中線性的氣動力依然采用了基于ARX模型的系統(tǒng)辨識方法,而非線性部分利用多核神經(jīng)網(wǎng)絡(luò)實現(xiàn)??紤]到前述研究中[26]對線性和非線性氣動力的建模彼此獨立,非線性模型引入的偏差對線性模型并不產(chǎn)生影響,因而在改進模型中引入耦合機制和混合模型架構(gòu),使得建模的偏差能夠反饋到輸入數(shù)據(jù)中,從而使模型本身具備一定的自我修正能力。驗證算例也證實模型在處理多種復(fù)雜氣動力預(yù)測問題時均具有較高的精度。
圖2 分層降階模型框架和混合降階模型框架[26-27]Fig.2 Layered model framework and mixed model framework[26-27]
經(jīng)典神經(jīng)網(wǎng)絡(luò)模型采用比較簡單的模型架構(gòu),對于復(fù)雜非線性和大樣本的處理上存在泛化能力不足的問題。近年來隨著深度學(xué)習(xí)方法的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在流體力學(xué)建模中逐漸受到關(guān)注。張偉偉等[28]提出一種基于長短時記憶網(wǎng)絡(luò)模型(LSTM)的非定常非線性氣動力降階模型,該模型能夠用于預(yù)測一定馬赫數(shù)范圍內(nèi)的非定常氣動力響應(yīng)。結(jié)果表明這種模型比經(jīng)典神經(jīng)網(wǎng)絡(luò)具有更高的泛化能力,在流動控制方面具有較大潛力。
Han等[29]發(fā)展了一套混合深度神經(jīng)網(wǎng)絡(luò)方法,用于從高維非定常流動數(shù)據(jù)中提取有用的時間和空間分布特征。該混合網(wǎng)絡(luò)包含了卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短時記憶網(wǎng)絡(luò)(LSTM)和逆卷積神經(jīng)網(wǎng)絡(luò)(DeCNN)。其中卷積神經(jīng)網(wǎng)絡(luò)從高維流場數(shù)據(jù)中提取空間特征以低維形式表達出來;長短時記憶網(wǎng)絡(luò)從低維數(shù)據(jù)中獲取時域特征以預(yù)測未來時刻的流場變化;逆卷積網(wǎng)絡(luò)是卷積網(wǎng)絡(luò)的逆過程,從低維數(shù)據(jù)中恢復(fù)出高維流場信息。該混合網(wǎng)絡(luò)利用不同雷諾數(shù)下均勻來流分別流經(jīng)圓柱和翼型的流場進行訓(xùn)練,在訓(xùn)練完成后預(yù)測未來時刻內(nèi)的流場信息。經(jīng)對比發(fā)現(xiàn),基于該混合網(wǎng)絡(luò)預(yù)測的流場與計算得到的真實流場吻合良好。
劉學(xué)軍等[30]利用最新的生成對抗網(wǎng)絡(luò)(GAN)結(jié)合卷積神經(jīng)網(wǎng)絡(luò),建立了一類可參數(shù)化描述的超臨界翼型與對應(yīng)跨聲速流場之間的對應(yīng)關(guān)系,用以預(yù)測流場并進一步計算出翼型的氣動力系數(shù)。該方法由于在模型內(nèi)部引入了由生成器和評判器構(gòu)成的競爭機制,因而在模型泛化能力上具有獨特優(yōu)勢。盡管作者僅展示將其用于對翼型外形的優(yōu)化,但該方法在系統(tǒng)辨識以及預(yù)測不同來流和攻角條件下的氣動力方面亦具有一定的潛在優(yōu)勢。
須指出,上述機器學(xué)習(xí)與系統(tǒng)辨識和降解模型結(jié)合方面的研究工作目前還主要集中在對非線性氣動力的辨識,即模型的建立層面。利用數(shù)據(jù)驅(qū)動的方式,完善不同控制條件對氣動力乃至流場的影響,為后續(xù)流動控制尤其是閉環(huán)控制律的設(shè)計奠定模型基礎(chǔ)??紤]到流動問題的復(fù)雜性,比如涉及高維強非線性的湍流問題,上述研究仍有相當長的路要走。
遺傳規(guī)劃(GP,也譯作“遺傳編程”)是從遺傳算法(GA)中衍生出來的方法[31]。在主體思想上,遺傳規(guī)劃和遺傳算法都是受“物競天擇,適者生存”的生物進化思想啟發(fā),即一定規(guī)模的種群在接受自然的選擇后,只有具有優(yōu)勢的個體才能夠生存并有機會將自己的優(yōu)勢基因遺傳下去,而未能通過自然選擇的個體將會被淘汰并失去繁衍后代的機會。如此一來,在經(jīng)歷一定世代的進化之后,整個種群適應(yīng)自然的能力將大大提高。為了增加種群的多樣性,在進化過程中還引入了變異機制。與遺傳算法不同的是,在遺傳規(guī)劃中,個體的表達并非簡單的將一組數(shù)字進行二進制基因編碼,而是利用LISP語言將之表達成顯式的數(shù)學(xué)表達式。如此衍生的模型使得遺傳規(guī)劃在保留遺傳算法優(yōu)勢的同時,具備了更加廣闊的應(yīng)用場景:包括具有回歸、分類等特征的通用數(shù)學(xué)問題。表1比較了遺傳算法和遺傳規(guī)劃的差異,其中,在遺傳規(guī)劃的結(jié)構(gòu)形式舉例中,sub、mul、cos分別表示減、乘、余弦函數(shù)。須指出,遺傳規(guī)劃中除了常規(guī)的四則運算外,并不限定數(shù)學(xué)運算的種類,實際應(yīng)用中可根據(jù)研究者對具體問題的理解而添加。
表1 遺傳算法與遺傳規(guī)劃的比較
遺傳算法通過二進制編碼,將可能的參數(shù)組合表達成染色體的形式,染色體的位數(shù)決定了參數(shù)組合有多少可能性。因而,遺傳算法僅能輸出離散而非連續(xù)過渡的參數(shù)組合,其在主動控制中的應(yīng)用也主要限于對控制參數(shù)組合的優(yōu)化。比如,Noack等[32]利用遺傳算法對等離子激勵器的電壓、猝發(fā)頻率、工作周期等參數(shù)進行了優(yōu)化。Minelli等[33]利用遺傳算法研究了高雷諾數(shù)鈍體繞流開環(huán)控制的最優(yōu)參數(shù)條件。此外,在常規(guī)的線性PID控制中,也可在確定3個控制參數(shù)的上下限后利用遺傳算法篩選出最優(yōu)的參數(shù)組合[34]。
對于閉環(huán)控制來說,由于顯式控制律可視為以反饋信號為自變量、以激勵強度為因變量的函數(shù)表達,恰恰與遺傳規(guī)劃的思想相契合。如此一來,由遺傳規(guī)劃生成一系列控制律,代入目標系統(tǒng)中分別評估其性能優(yōu)劣(以特定的損失函數(shù)量化),并執(zhí)行個體直接復(fù)制、交叉配對、變異等進化過程,在一定世代后便可收斂得到一定性能水平的控制律。
遺傳規(guī)劃在主動流動控制中的應(yīng)用最早由Gautier等[35]在對后臺階分離流動的控制實驗中引入。該項研究旨在減小后臺階分離區(qū)面積,其中,控制系統(tǒng)以PIV實驗獲取的二維流場數(shù)據(jù)為反饋信息,從臺階前緣附近壁面處的狹縫射流單元輸出可調(diào)速度以改變流場。作者利用包含500個個體的種群,在經(jīng)過12個演化世代后,即獲得了收斂的控制律?;谧顑?yōu)控制律,分離區(qū)面積相比未控制時減小約80%。相比優(yōu)化后的開環(huán)控制,該控制所包含的低頻分量使得流動更易發(fā)生失穩(wěn),有利于流動在分離后再附。此外,該控制律在更高雷諾數(shù)下測試得到的性能亦優(yōu)于開環(huán)控制,證實基于遺傳規(guī)劃的流動控制方法能夠有效探索較優(yōu)的控制方案。
圖3 剪切混合流動實驗中基于遺傳規(guī)劃的流動控制框架[37]Fig.3 Flow control framework in GP-based mixing layer flow experiments[37]
Li等[38]開展了針對汽車模型減阻的閉環(huán)控制研究,其中以脈沖射流為激勵手段,從模型后方布置的壓力傳感器獲取反饋信號,并采用線性化的遺傳規(guī)劃模型,獲得了22%的減阻效果。
周裕等[39-40]將線性化的遺傳規(guī)劃應(yīng)用到了增強射流摻混的研究中。整個控制系統(tǒng)包含兩個熱線探針用以提供反饋信號,以及多個微射流激勵器,控制性能以射流中心線上平均速度的衰減率進行量化。在使用多組微射流激勵器協(xié)同工作[39]時,利用遺傳規(guī)劃得到的最優(yōu)控制在控制性能大幅提升的基礎(chǔ)上,還發(fā)現(xiàn)了一種新的復(fù)合流動結(jié)構(gòu),該復(fù)合結(jié)構(gòu)兼具蘑菇狀結(jié)構(gòu)、螺旋運動、波動形式的射流柱等特征。而經(jīng)過深入分析發(fā)現(xiàn),這3類特征均有助于射流摻混的增強。該項研究有力證實了機器學(xué)習(xí)應(yīng)用于流體力學(xué)研究時具有發(fā)現(xiàn)新知識的潛力。
在上述研究中,研究者在實驗室條件下成功搭建了閉環(huán)流動控制系統(tǒng),并實現(xiàn)了一定的控制目標,是近年來比較典型的遺傳規(guī)劃在流動控制中的應(yīng)用范例,為后續(xù)工程化應(yīng)用提供了重要參考。
遺傳規(guī)劃在執(zhí)行過程中需要讓一定規(guī)模的種群經(jīng)過多代演化,而其中對每個個體的評價均需要在一次完整的實驗或仿真中進行。在實驗研究中,對個體的評價可以在較短時間內(nèi)自動完成。但在CFD框架下同樣的效率難以實現(xiàn),因此目前鮮見基于遺傳規(guī)劃的主動流動控制在CFD框架下實現(xiàn)。利用GPU加速的格子Boltzmann求解器,唐輝等[41]首次將遺傳規(guī)劃應(yīng)用到對圓柱渦激振動的主動抑制中,圖4展示了求解器與遺傳規(guī)劃的交互框架。在該問題中,CFD求解器用于獲取圓柱在施加不同吹/吸控制時的流場信息及其受到的流體作用力,并通過求解展向結(jié)構(gòu)運動方程以獲得實時的結(jié)構(gòu)動力學(xué)響應(yīng)。遺傳規(guī)劃中使用50個個體的種群規(guī)模并執(zhí)行了25個世代的演化。在演化過程中,僅在3個世代后即收斂至最優(yōu)的控制律,并且發(fā)現(xiàn)最終性能前10位的控制律均表現(xiàn)為吸入模式。此時,圓柱的振動幅度受抑制達94.2%。在權(quán)衡了能量消耗的性能指標中,遺傳規(guī)劃相較最好的開環(huán)控制實現(xiàn)了21.4%的性能提高。從圖5可看出控制后圓柱的尾渦在強度和形態(tài)等方面均發(fā)生了較大的變化。此外,遺傳規(guī)劃控制在雷諾數(shù)100~400范圍內(nèi)均獲得了較一致的控制效果,而傳統(tǒng)的比例控制卻顯示出較差的魯棒性。
圖4 基于遺傳規(guī)劃的渦激振動主動控制系統(tǒng)數(shù)值模擬框架[41]Fig.4 Numerical simulation framework of active flow control loop for suppressing vortex-induced vibrations using GP[41]
圖5 處于渦激振動中的圓柱尾渦形態(tài)Fig.5 Wake pattern of a cylinder undergoing vortex-induced vibrations
上述研究基于高保真數(shù)值模擬手段,避免了實驗條件下可能存在的一些不確定性因素,如測量誤差、外界干擾、硬件的時間滯后等,為開展基于機器學(xué)習(xí)的流動控制提供了重要參考。但囿于機器學(xué)習(xí)過程中的大量硬件、時間成本,在不犧牲計算精度的前提下如何拓展到高雷諾數(shù)下的控制問題,仍是目前面臨的一個重要挑戰(zhàn)。
人工神經(jīng)網(wǎng)絡(luò)(ANN)受生物神經(jīng)系統(tǒng)作用機制啟發(fā)而來。以常見的多層感知機(MLP)為例(圖6),該網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、隱藏層和輸出層,其中隱藏層可以是單層或多層。每一層包含一定數(shù)目的神經(jīng)元,而每一個神經(jīng)元可以接收上一層所有神經(jīng)元傳遞的信息,在經(jīng)過加權(quán)求和處理后施加激活函數(shù),最終結(jié)果作為該神經(jīng)元當前的數(shù)值。該過程數(shù)學(xué)表達式為yi=f(Σwijxj+bi),其中wij為該神經(jīng)元yi接收上一層神經(jīng)元xj的權(quán)系數(shù),f為指定的激活函數(shù),bi為偏置因子。常用的激活函數(shù)包括relu(y=max(0,x))、tanh(y=tanh(x))、sigmoid(y=(1+e-x)-1)、softplus(y=ln(1+ex))等,對應(yīng)函數(shù)圖像如圖7所示。在學(xué)習(xí)過程中,利用網(wǎng)絡(luò)的后向傳播,通過梯度下降等優(yōu)化方法,可以對網(wǎng)絡(luò)中權(quán)系數(shù)和偏置因子的取值進行更新。最終的策略便是由這些權(quán)系數(shù)和偏置因子決定。
圖6 多層感知機示意圖Fig.6 Schematics of multi-layer perceptron
圖7 常見的4種激活函數(shù)Fig.7 Four typical types of activation functions
ANN的誕生是人工智能發(fā)展進程中最重要的里程碑之一。在此基礎(chǔ)上,研究者還發(fā)展出卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶(LSTM)、門控循環(huán)單元(GRU)、生成對抗網(wǎng)絡(luò)(GAN)等更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)[42],以應(yīng)對科學(xué)研究或現(xiàn)實應(yīng)用中的一些復(fù)雜場景。
強化學(xué)習(xí)是機器學(xué)習(xí)中側(cè)重于同環(huán)境進行交互,并在此過程中獲得最大累積獎勵的一類方法。在圍棋比賽中領(lǐng)先人類頂級棋手的AlphaGo[43]、AlphaGo Zero[44]等使得強化學(xué)習(xí)這一概念為世人所熟知。值得指出的是,AlphaGo除采用強化學(xué)習(xí)外,還依賴于現(xiàn)存的棋局比賽數(shù)據(jù)以進行監(jiān)督式學(xué)習(xí)。而比賽表現(xiàn)更為出色的AlphaGo Zero則僅僅使用了改進的強化學(xué)習(xí)方法,在游戲規(guī)則下通過自我對局來不斷地提升自身策略水平,除棋局本身的規(guī)則和對棋局的特征設(shè)計外并不需要任何人類指導(dǎo)。由于強化學(xué)習(xí)常常借助于深度網(wǎng)絡(luò)結(jié)構(gòu),來構(gòu)建模型中復(fù)雜的狀態(tài)輸入和輸出之間的關(guān)系,因此這類方法常被稱為深度強化學(xué)習(xí)(DRL)[45]。2015年發(fā)表于《Nature》上的工作——基于深度強化學(xué)習(xí)獲得與人類水平相接近的控制[46]也使得DRL這一概念成為學(xué)術(shù)研究的熱點。
在包含DRL的控制系統(tǒng)中,智能體(Agent)從環(huán)境中獲取必要的狀態(tài)信息,決定輸出動作的大小以對環(huán)境進行干預(yù),然后通過特定的函數(shù)計算出動作對環(huán)境的影響大小。如圖8所示,該回路與閉環(huán)控制系統(tǒng)思路大體一致,其中狀態(tài)信息(States)由傳感器獲取,動作(Actions)輸出由激勵器執(zhí)行,控制效果評估與動作獎勵(Reward)同義。因此,基于DRL的許多具體應(yīng)用也是針對控制相關(guān)的問題展開的,如機械臂控制[47]、自動駕駛[48]等。由于深度學(xué)習(xí)本身在提取復(fù)雜系統(tǒng)(如混沌系統(tǒng))的非線性特征方面已展現(xiàn)出優(yōu)秀的能力[49],而且從原理的角度來看,大多數(shù)強化學(xué)習(xí)方法本身亦不受系統(tǒng)的非線性特性限制,因此可以預(yù)期,DRL在流動控制中具有極大的應(yīng)用潛力和優(yōu)勢。
圖8 深度強化學(xué)習(xí)與環(huán)境之間的交互回路Fig.8 Interactive loop between DRL agent and environment
湍流是流體力學(xué)的核心問題,對湍流的主動控制也是流體力學(xué)界關(guān)注的焦點[50]。利用神經(jīng)網(wǎng)絡(luò)對壁湍流進行主動流動控制可追溯到Lee等[51]的一項采用壁面吹/吸激勵器旨在減小槽道湍流壁面阻力的研究。該問題提出的背景源于Choi等[52]提出的設(shè)想,即通過從壁面施加與距離壁面y+=10位置處的法向速度相反的吹/吸速度來改變湍流的上揚與下掃運動,進而減小壁面的阻力。Lee等提出,上述y+=10位置的法向速度傳感器可以由壁面上測得的展向切應(yīng)力代替,而二者的關(guān)系可以在控制前預(yù)先由ANN建立(見圖9[51])?;谶@一設(shè)想,作者在Reτ=100的流動工況下,在流向和展向適當位置處提取展向切應(yīng)力,使用100個神經(jīng)元進行訓(xùn)練即獲得了穩(wěn)定的目標速度與壁面切應(yīng)力之間的關(guān)系。利用該關(guān)系即可施加與Choi等所提出設(shè)想類似的閉環(huán)主動控制,換言之,該方法可視為與文獻[52]中直接主動控制方式相對應(yīng)的間接方式。通過對比,這兩種方式產(chǎn)生的激勵作用相當。結(jié)果表明,基于ANN的閉環(huán)控制最終獲得了高達20%的減阻效果。
圖9 基于神經(jīng)網(wǎng)絡(luò)的槽道湍流減阻網(wǎng)絡(luò)結(jié)構(gòu)[51]Fig.9 Network architecture for drag reduction of turbulent channel flow[51]
許春曉針對湍流相干結(jié)構(gòu)和壁湍流的減阻問題展開了大量研究[53]。采用與Lee等[51]相似的思想,楊歌[54]利用主動變形壁面對槽道流動施加了主動控制,并重點對比了神經(jīng)網(wǎng)絡(luò)、次優(yōu)控制等方法在減小壁面阻力方面的性能。發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)可視為次優(yōu)控制在僅考慮物理空間內(nèi)控制點展向流動信息的特例,其最終性能也略遜于次優(yōu)控制。
侯宏和楊建華[55]將神經(jīng)網(wǎng)絡(luò)應(yīng)用于邊界層轉(zhuǎn)捩的主動控制中,其中利用抽吸控制轉(zhuǎn)捩的實驗數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù),從而構(gòu)建了抽吸速度和邊界層轉(zhuǎn)捩位置之間的函數(shù)關(guān)系,據(jù)此通過反推,實現(xiàn)了以最小的抽吸能量代價保持轉(zhuǎn)捩在特定位置發(fā)生的效果。
可以看出,上述早期基于神經(jīng)網(wǎng)絡(luò)的主動流動控制研究大多偏向于在已探明一定的控制策略或物理規(guī)律的基礎(chǔ)上,使用神經(jīng)網(wǎng)絡(luò)對未知關(guān)系進行數(shù)據(jù)回歸操作,因而在探索有別于已有策略之外的控制策略方面具有一定的局限性。比如,在槽道湍流減阻研究中,Choi等[52]提出的線性反饋控制思路尚未被證實為最優(yōu)或在考察其他幾何外形的壁湍流及大雷諾數(shù)范圍時具有普遍意義,新的控制策略尚待發(fā)掘。
對鈍體繞流的主動控制一直是學(xué)術(shù)界和工程界研究的重點,包括鈍體減阻、減小升力波動、抑制振動等。Rabault等[56]利用最新的DRL方法,即近端策略優(yōu)化(PPO),實現(xiàn)了圓柱減阻的閉環(huán)控制。在該問題中,作者在圓柱周圍和尾流中布置了151個速度傳感器,使用一對吹/吸射流器對流動施加控制作用。其中,吹/吸射流器對稱布置在圓柱上下表面,以一個射流器吸入另一個射流器吹出的模式工作。基于PPO方法,根據(jù)傳感器觀測到的流動信息便能實時作出控制決策。基于DRL的學(xué)習(xí)過程見圖10[56],其中橫坐標表示訓(xùn)練集數(shù)(Episode),縱坐標為阻力系數(shù)CD,每次訓(xùn)練可視為一次單獨的數(shù)值模擬算例,所獲得的獎勵函數(shù)采用多種方法進行了平均化處理。經(jīng)過約300次訓(xùn)練集數(shù)的訓(xùn)練后,即可獲得收斂的控制策略。基于該策,可使得圓柱的繞流阻力減小約8%,此時,圓柱的回流區(qū)大幅延長,渦脫落的強度也被大大弱化。
圖10 基于DRL的圓柱繞流主動控制學(xué)習(xí)曲線[56]Fig.10 Learning curves for DRL-based active control of flow past a cylinder[56]
為了提升學(xué)習(xí)效率,Rabault和Kuhnle[57]還提出了多環(huán)境分布式同步學(xué)習(xí)的算法。該算法中,智能體同時收集來自多個環(huán)境中的狀態(tài)信息,以相同的策略給出動作概率分布,控制得到的獎勵值也同樣被收集到智能體中。其中,多環(huán)境的模擬可以在多個設(shè)備中同步完成,相當于構(gòu)建了環(huán)境之間互不干擾的并行計算環(huán)境。如此一來,原先需要在一個環(huán)境中執(zhí)行交互的任務(wù)分散到多個環(huán)境中完成,在幾乎不影響學(xué)習(xí)進程的基礎(chǔ)上,大大減小了學(xué)習(xí)過程所消耗的時間。
基于相同的流動求解器和DRL框架,文獻[58]將上述研究拓展到雷諾數(shù)100~400的范圍。
在此范圍內(nèi),采用4個射流激勵器獲得了最高可達38.7%的減阻率。此外,通過與采用對稱邊界的算例相比,發(fā)現(xiàn)DRL獲得的減阻效果與其十分接近,側(cè)面說明了DRL習(xí)得的策略能夠有效抑制渦的產(chǎn)生和脫落。
采用格子Boltzmann方法求解器,唐輝等[59]首先復(fù)現(xiàn)了Rabault等在層流條件下的控制結(jié)果(見圖11),隨后針對湍流條件下(雷諾數(shù)1 000)圓柱繞流減阻開展了詳實的研究。在該工況下,流動呈現(xiàn)出更加復(fù)雜的非線性特征,這大大增加了DRL習(xí)得較優(yōu)控制策略的難度。針對該問題,作者除采用常規(guī)的隨機初始策略外,還采用層流工況下已習(xí)得的策略作為初始條件,此時DRL智能體在已掌握層流條件下控制策略的基礎(chǔ)上隨即開始探索更加復(fù)雜的流動環(huán)境。結(jié)果發(fā)現(xiàn),兩種初始化策略盡管尋找最優(yōu)控制策略的路徑不同,卻獲得了相一致的最終策略,說明DRL本身具有較優(yōu)的魯棒性。在雷諾數(shù)1 000的工況下,所有獨立的學(xué)習(xí)過程在2 000次的學(xué)習(xí)集數(shù)內(nèi)最終均獲得了約30%的一致減阻效果,此時從時均流場來看,圓柱尾流中的回流區(qū)相比未控制時大幅度延長,且尾流內(nèi)的速度波動和雷諾應(yīng)力均得到了大幅抑制。
圖11 層流條件下的圓柱尾流形態(tài)Fig.11 Wake pattern of a cylinder in laminar flow regime
Ren和Tang等[60]還提出采用閉環(huán)控制系統(tǒng)實現(xiàn)鈍體水動力隱身的設(shè)想,并借助DRL加以實現(xiàn)。在該閉環(huán)控制系統(tǒng)中,激勵器采用了一組前吸后吹射流器,反饋信號由在鈍體尾流中布置的一組速度傳感器陣列提供。實施實時控制時,由DRL智能體根據(jù)反饋信號給出當前的動作輸出。利用這套系統(tǒng),鈍體尾流的速度虧損可以在開啟控制后短時間內(nèi)消除,同時該鈍體受到的流向和展向作用力均趨近于零。此時在距離圓柱2~3倍直徑以外的位置上僅憑借對流場的觀測已經(jīng)難以感知結(jié)構(gòu)體本身的存在,即實現(xiàn)了水動力意義上的隱身。
須指出,上述利用DRL實施的閉環(huán)流動控制雖然都基于CFD工具實現(xiàn),但在設(shè)計系統(tǒng)架構(gòu)時往往也考慮到了實驗的可行性,包括激勵器的選取、傳感器信號的獲取等。作為較新穎的概念,可以預(yù)期,將DRL應(yīng)用到實驗研究中并進而推廣到工程問題中,應(yīng)當是目前許多研究者的共識。不過,計算與實驗之間存在大的差異,包括傳感器獲取數(shù)據(jù)的實時性,傳感器、激勵器和處理器之間的延遲,以及測量的不確定度等。為解決上述問題,不僅需要采用先進的硬件設(shè)備,在數(shù)據(jù)預(yù)處理等算法層面也亟待深入探索。
對流在自然界中十分普遍,在大的空間尺度上包括大氣中的環(huán)流、城市的熱島效應(yīng)等,小尺度上包括換熱器設(shè)計、反應(yīng)釜內(nèi)的對流流動等[61-62]。基于深度強化學(xué)習(xí)PPO方法,Beintema等[63]以Rayleigh-Bénard對流為物理模型開展了以抑制對流、使流動趨穩(wěn)為目標的閉環(huán)控制。在整個寬高比為1的封閉對流腔體內(nèi)布置了8×8個 監(jiān)控點,每個監(jiān)控點提供當前和此前3個時間步的溫度及速度信息,以此作為控制系統(tǒng)的狀態(tài)空間。在滿足下壁面溫度平均值不變的前提下,通過在下壁面布置10個溫度可調(diào)的激勵單元,每個單元僅能輸出兩種離散的溫度值,以此作為控制系統(tǒng)的動作空間??刂七^程以降低Nusselt數(shù)為目標,選取了Prandtl數(shù)為0.71(對應(yīng)常溫下的空氣)和Rayleigh數(shù)為103~107區(qū)間段的工況。在該Rayleigh數(shù)范圍內(nèi),未施加控制的對流流動尚未達到湍流發(fā)生條件。將基于DRL的主動控制與參數(shù)優(yōu)化后的PID控制進行了對比,表明DRL在選取的整個參數(shù)范圍內(nèi)均獲得了較優(yōu)的控制效果,而PID控制在Rayleigh數(shù)達到3×106后即失效,且在所有Rayleigh數(shù)下DRL控制的性能均優(yōu)于PID控制。通過對瞬時溫度和速度場的分析也發(fā)現(xiàn),DRL控制在部分Rayleigh數(shù)條件下能夠破壞大尺度環(huán)流,并誘導(dǎo)產(chǎn)生一對渦流,該流動有利于抑制傳熱過程。
上述研究探索了多個激勵輸出條件下,將深度強化學(xué)習(xí)用于典型對流流動問題的控制,并通過一定Rayleigh數(shù)范圍下與常規(guī)線性控制算法進行比較,證實了算法的有效性。相信后續(xù)圍繞更高Rayleigh數(shù)條件下的閉環(huán)控制,會吸引學(xué)術(shù)界更多的興趣。
自古至今,自然界中的鳥飛魚游都是為人類探索流動現(xiàn)象帶來啟發(fā)的重要源泉。在人工智能飛速發(fā)展的今天,科學(xué)家們也自然思考能否為人造生物體賦予自主思考、決策的智慧,使其在同環(huán)境進行交互的過程中逐漸習(xí)得一定的技能,從而為相關(guān)研究帶來更廣闊的想象力空間[64]。事實上,強化學(xué)習(xí)的思想也較完美地契合了這一想法。
在晴朗的天氣中,遷徙的鳥類可以利用上升的對流氣流所產(chǎn)生的升力助力其飛向更高的天空。為了理解其中的物理機制,并探索如何將這一自然界現(xiàn)象應(yīng)用到滑翔機中以延長其航行距離,Sejnowski等[65]借助強化學(xué)習(xí)方法實現(xiàn)了這一構(gòu)想。他們首先對鳥類滑翔的動力學(xué)模型進行了簡化,并假設(shè)滑翔過程中對背景流場無影響。上升氣流流場建立在邊長1 km的計算域中,利用CFD求解器預(yù)先計算經(jīng)典的Rayleigh-Bénard對流得到。飛鳥在滑翔過程中能夠感知其上升加速度、上升速度、翼展向力矩和當?shù)販囟鹊刃畔ⅲㄟ^基于SARSA模型的強化學(xué)習(xí)智能體作出決策,以此調(diào)整自身的攻角和傾斜角,最終以獲得盡可能大的爬升速度以及爬升到盡可能高的海拔位置為目標。通過學(xué)習(xí),發(fā)現(xiàn)感知上升加速度和展向力矩對于決策最為有利。強化學(xué)習(xí)習(xí)得的策略表明,在遇到單個上升羽流時,控制傾斜角最為有效;而遇到多個上升羽流時,對攻角的控制發(fā)揮著更加重要的作用。此外,該習(xí)得策略可以有效過濾小的湍流脈動的干擾,利用大尺度上升羽流。
Verma等[66]利用強化學(xué)習(xí)研究了魚類在群游過程中,位于后方的魚如何從前面魚的尾渦中提取機械能以助力其游動。該研究基于CFD求解器進行,其中流動通過直接求解Navier-Stokes方程得到,魚的身體擺動通過給定的基準曲率方程與3個參數(shù)可調(diào)的方程疊加得到。身體形狀對應(yīng)的可調(diào)參數(shù)利用基于深度Q網(wǎng)絡(luò)(DQN)的強化學(xué)習(xí)獲得。為了賦予魚記憶過往行為的能力,在DQN模型中還使用了LSTM網(wǎng)絡(luò)。結(jié)果表明,DQN訓(xùn)練后的魚能夠?qū)⒆陨碇糜谇懊骠~產(chǎn)生的渦環(huán)的適當位置來更好地利用渦流中的機械能。利用二維環(huán)境中習(xí)得的策略還成功拓展到三維的環(huán)境中(見圖12[66]),證實了算法的可拓展性和習(xí)得策略的魯棒性。
圖12 三維魚游[66]Fig.12 3D fish swimming[66]
Colabrese等[67]利用強化學(xué)習(xí)探索了具有趨地性的粒子如何運動到最大的高度位置,同時避免在該過程中受到背景流動的影響而陷入渦流中。作者引入經(jīng)典的二維Taylor-Green流動作為背景流動,并假設(shè)這些粒子的行為不會對流動產(chǎn)生影響。運動的粒子能夠感知背景流動中的渦量和自身的運動方向,借助基于Q學(xué)習(xí)的強化學(xué)習(xí)(學(xué)習(xí)過程見圖13[67])所賦予的自主決策能力,判斷出下一步的優(yōu)先運動方向(見圖13子圖),進而調(diào)整其運動軌跡。通過學(xué)習(xí),粒子能夠以較大概率有效利用背景流動的速度趨向高海拔位置運動,而避免陷于渦流中。此外,作者還發(fā)現(xiàn)在對背景流動施加一定程度干擾時,獲得智能的粒子仍能夠較好地完成任務(wù),證實已習(xí)得策略具有較好的抗干擾性。
圖13 10個不同學(xué)習(xí)過程獲得的回報曲線(子圖表示習(xí)得策略,即不同狀態(tài)對應(yīng)的優(yōu)先動作)[67]Fig.13 Learning gain for 10 different learning processes, where the subfigures represent the learnt policy, i.e., preferred action for each state[67]
本文回顧了近年來國內(nèi)外研究者在探索將機器學(xué)習(xí)應(yīng)用到流動控制研究的過程中所取得的進展??梢钥闯?,在特定的研究中,機器學(xué)習(xí)用于主動流動控制,在性能方面較常規(guī)方法能帶來更優(yōu)表現(xiàn),并且能在性能、效率、魯棒性等方面取得較好的平衡。
從應(yīng)用的角度出發(fā),利用機器學(xué)習(xí)可以為流動的閉環(huán)實時控制提供關(guān)鍵的控制律設(shè)計指導(dǎo)。其中,利用遺傳規(guī)劃可直接獲得顯式的控制律數(shù)學(xué)表達式,而對于深度強化學(xué)習(xí)則以神經(jīng)網(wǎng)絡(luò)(動作器)的形式給出了控制律??梢灶A(yù)期,機器學(xué)習(xí)能夠為流動控制的工程化應(yīng)用帶來極大助力,智能化流動控制的概念也將逐漸獲得研究者的青睞。
此外,基于機器學(xué)習(xí)的流動控制方法在改善相應(yīng)問題控制效能的同時,伴隨著新穎、復(fù)雜的物理現(xiàn)象,這也為學(xué)術(shù)研究開拓了更為廣闊的空間,有助于探索新的現(xiàn)象,從中提取概括出新的知識,并形成新的理念。
應(yīng)當指出,機器學(xué)習(xí)在主動流動控制中的應(yīng)用尚處于起步階段,在解決一些復(fù)雜流動問題時仍存在諸多挑戰(zhàn)。此外,基于機器學(xué)習(xí)的流動控制作為一種相對新穎的概念,在許多問題的認識上學(xué)界尚未形成統(tǒng)一的觀點。大體而言,這當中的共性困難包括:
1) 湍流、流致振動等問題中,由于流動系統(tǒng)本身存在強非線性,演化/學(xué)習(xí)過程存在強隨機性,因而基于同樣的初始設(shè)置所產(chǎn)生的結(jié)果往往存在一定的差異,這種差異會影響到結(jié)果的可重復(fù)性。
2) 多輸入多輸出(MIMO)問題中尋找最優(yōu)控制律/控制策略的難度顯著增大。事實上,該問題在不同領(lǐng)域中具有普遍意義,在深度學(xué)習(xí)中,該問題常被稱為“維數(shù)災(zāi)難”[68]。
針對主動流動控制,機器學(xué)習(xí)與降階模型的結(jié)合是一種相對低成本的方法,同時也是極有潛力的解決方案。但在對復(fù)雜非線性問題建模時也存在保真度、易拓展性等諸多需要考量的難題。對于本文提到的遺傳規(guī)劃和深度強化學(xué)習(xí)方法,在展示自身出色能力的同時,也為研究手段提出了較高的挑戰(zhàn):
1) 在數(shù)值模擬研究方面,高效、高精度的計算始終是CFD研究者追求的目標,但常常也是一對相互矛盾的指標。顯然,機器學(xué)習(xí)的引入對上述兩項指標提出了更高的要求。在不影響最終機器學(xué)習(xí)結(jié)果的前提下,如何在二者之間取得較好的平衡,是擺在研究者面前的重要問題。使用并行計算算法和設(shè)備[41]、采用分布式算法[57]等方案是目前較為可行的方法。
2) 在實驗研究方面,機器學(xué)習(xí)要求控制系統(tǒng)具有較低的不確定度和較低的時間延遲,因此也對傳感器、激勵器的硬件性能和算法處理的時效性提出了高要求。
未來在機器學(xué)習(xí)推廣到實際的工程應(yīng)用問題中還伴隨著更具挑戰(zhàn)的課題:比如,對于鈍體減阻問題,實際的工況可能涉及到十分復(fù)雜的情形,如來流具有高湍流度、強擾動、橫流等特征,這些復(fù)合因素往往難以通過數(shù)值模擬或?qū)嶒炄繌?fù)現(xiàn)。因而,在這些情況下,閉環(huán)的流動控制系統(tǒng)如何從受干擾的流動環(huán)境中提取有效狀態(tài)信息并作出反應(yīng),既難以預(yù)測也難以干預(yù)。面向未來和實際應(yīng)用,在研究過程中還存在多種復(fù)雜因素,需要加以關(guān)注并探索解決方案。