亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        強(qiáng)化學(xué)習(xí)方法在翼型拍動(dòng)實(shí)驗(yàn)中的應(yīng)用

        2023-11-02 08:55:20曹博超
        關(guān)鍵詞:正弦動(dòng)作效率

        張 進(jìn),周 雷,曹博超

        (復(fù)旦大學(xué) 航天航空系,上海 200433)

        0 引言

        在傳統(tǒng)的流動(dòng)控制策略設(shè)計(jì)方法中,人們通常采用一種知識(shí)驅(qū)動(dòng)的邏輯:首先,建立一個(gè)數(shù)學(xué)模型,描述所關(guān)注的流體系統(tǒng);然后,在給定的約束條件下,將優(yōu)化算法作用于該數(shù)學(xué)模型,來尋找最優(yōu)的流動(dòng)控制策略。然而,這種自上而下的邏輯在面對(duì)過于復(fù)雜的流動(dòng)問題或問題的參數(shù)空間過大時(shí),會(huì)失效或使計(jì)算代價(jià)變得無法承受[1]。而自然界中的生物,在沒有任何物理和數(shù)學(xué)知識(shí)的情況下,便可以本能地通過在環(huán)境中的不斷試錯(cuò)來改進(jìn)自己的動(dòng)作策略。這種自下而上的經(jīng)驗(yàn)驅(qū)動(dòng)的策略優(yōu)化方法,為解決復(fù)雜流動(dòng)控制問題提供了新的思路。近年來,機(jī)器學(xué)習(xí)技術(shù)的迅速發(fā)展為流動(dòng)控制領(lǐng)域帶來了許多新的技術(shù),尤其是其中的強(qiáng)化學(xué)習(xí)技術(shù)可以很好地復(fù)制生物體這種經(jīng)驗(yàn)驅(qū)動(dòng)的學(xué)習(xí)過程。在強(qiáng)化學(xué)習(xí)的優(yōu)化框架下,不再要求對(duì)流體系統(tǒng)進(jìn)行精確建模,智能體可以僅靠與環(huán)境交互的經(jīng)驗(yàn)來提升自己的表現(xiàn)[2]。正是由于這樣的特點(diǎn),強(qiáng)化學(xué)習(xí)方法逐漸成為解決流動(dòng)控制問題的新范式[3-5]。

        在實(shí)際應(yīng)用中,強(qiáng)化學(xué)習(xí)方法通常被用來尋找最優(yōu)的流動(dòng)控制策略,以達(dá)到某些預(yù)設(shè)的目標(biāo),例如減少阻力、提高升力、增加效率等。近年來,已經(jīng)有許多工作開始使用強(qiáng)化學(xué)習(xí)方法來優(yōu)化流動(dòng)控制策略。Reddy 等[6]利用強(qiáng)化學(xué)習(xí)方法訓(xùn)練了模擬環(huán)境下的固定翼滑翔機(jī),通過控制滾轉(zhuǎn)角,使其能夠利用模擬環(huán)境中的上升熱氣流進(jìn)行爬升。在該工作基礎(chǔ)上,Reddy 等[7]訓(xùn)練了在真實(shí)世界中的固定翼滑翔機(jī),在訓(xùn)練過程中,滑翔機(jī)與氣流環(huán)境進(jìn)行交互,通過執(zhí)行不同的動(dòng)作來實(shí)現(xiàn)飛行控制,經(jīng)過訓(xùn)練和優(yōu)化,滑翔機(jī)可以利用真實(shí)對(duì)流環(huán)境中的上升熱氣流進(jìn)行爬升,實(shí)現(xiàn)了更長(zhǎng)時(shí)間和更高效的滑翔飛行,這提供了一種全新的飛行器自動(dòng)飛行的導(dǎo)航策略。Rabault 等[8]訓(xùn)練智能體控制圓柱兩個(gè)側(cè)向射流的質(zhì)量流率,穩(wěn)定了圓柱的尾跡渦結(jié)構(gòu),降低了圓柱的升力和阻力。Fan 等[9]在實(shí)驗(yàn)和仿真中,訓(xùn)練了湍流中智能體適當(dāng)選擇位于主圓柱下游的兩個(gè)小圓柱的轉(zhuǎn)速,讓整個(gè)系統(tǒng)減阻或效率最大化。Li 等[10]用穩(wěn)定性分析加速了強(qiáng)化學(xué)習(xí)訓(xùn)練過程,并指出智能體感知到足夠的物理信息對(duì)強(qiáng)化學(xué)習(xí)成功訓(xùn)練至關(guān)重要。姚張奕等[11]研究了強(qiáng)化學(xué)習(xí)在翼型分離流動(dòng)控制中的應(yīng)用,發(fā)現(xiàn)將動(dòng)作歷史加入狀態(tài)量可以加速?gòu)?qiáng)化學(xué)習(xí)訓(xùn)練。

        特別的,仿生力學(xué)因其與強(qiáng)化學(xué)習(xí)模仿生物學(xué)習(xí)過程的特點(diǎn)相似,近年來成為強(qiáng)化學(xué)習(xí)與流動(dòng)控制結(jié)合的前沿領(lǐng)域。Gazzola 等[12]用強(qiáng)化學(xué)習(xí)方法訓(xùn)練了數(shù)值模擬環(huán)境中的二維魚模型按照既定軌跡游動(dòng)。Zhu 等[13]用強(qiáng)化學(xué)習(xí)模擬魚類的捕食過程,訓(xùn)練了魚模型通過運(yùn)動(dòng)在圓柱尾跡中進(jìn)行姿態(tài)保持,其穩(wěn)定的位置與Liao[14]對(duì)真實(shí)魚類觀察的位置一致。Gazzola等[15]利用強(qiáng)化學(xué)習(xí)算法訓(xùn)練集群中的個(gè)體保持穩(wěn)定的相對(duì)位置,最后通過進(jìn)化算法找到了最小個(gè)體耗能和最小集群耗能的集群模式。Novati 等[16]和Verma等[17]分別研究了二維和三維模型的集群效應(yīng),研究中上游魚的運(yùn)動(dòng)方式固定,通過強(qiáng)化學(xué)習(xí)算法,將相對(duì)位置、歷史動(dòng)作信息作為狀態(tài),下游魚模型可以利用上游魚產(chǎn)生的尾跡結(jié)構(gòu),使自身速度最大化或者效率最大化,這為研究自然界中魚類的集群行為提供了參考。

        雖然強(qiáng)化學(xué)習(xí)方法目前已經(jīng)有了許多數(shù)值模擬環(huán)境中的應(yīng)用,但是在實(shí)驗(yàn)室的真實(shí)流體環(huán)境中的應(yīng)用還較少。本文擬選擇拍動(dòng)推進(jìn)的效率優(yōu)化問題來驗(yàn)證強(qiáng)化學(xué)習(xí)方法在真實(shí)流體環(huán)境中的有效性。拍動(dòng)推進(jìn)是流動(dòng)控制中一個(gè)經(jīng)典問題,研究拍動(dòng)推進(jìn)有助于設(shè)計(jì)更高效的水下推進(jìn)器和擴(kuò)展流體力學(xué)理論體系[18-19]。在現(xiàn)有的翼型拍動(dòng)相關(guān)研究中,因?yàn)檎疫\(yùn)動(dòng)產(chǎn)生的推力呈周期性且相對(duì)穩(wěn)定,便于建模和控制,研究人員通常在正弦運(yùn)動(dòng)的假設(shè)下,來討論不同參數(shù)對(duì)模型的游動(dòng)性能的影響。Senturk 等[20-21]利用直接數(shù)值模擬方法研究了翼型純俯仰和浮沉運(yùn)動(dòng),討論了斯特勞哈爾數(shù)(St)和雷諾數(shù)(Re)對(duì)性能的影響,研究表明,推力和效率具有很強(qiáng)的雷諾數(shù)依賴性,越大的雷諾數(shù)對(duì)應(yīng)著越高的最優(yōu)效率。Floryan 等[22]和Lagopoulos 等[23]分別提出有關(guān)推力系數(shù)和效率的相似律和下游尾跡結(jié)構(gòu)轉(zhuǎn)變的相似律,借助這些相似律可以預(yù)測(cè)和描述正弦運(yùn)動(dòng)族的游動(dòng)性能。然而,自然界中的生物在狩獵、躲避捕食者、追求配偶或饑餓時(shí)采用了更多樣化的運(yùn)動(dòng)形式[24]。因此,了解非正弦的運(yùn)動(dòng)對(duì)游動(dòng)性能的影響也非常重要。

        目前,學(xué)者對(duì)于非正弦運(yùn)動(dòng)的研究主要涉及間歇性游動(dòng)和非正弦的周期性步態(tài)。Floryan 等[25]對(duì)做間歇性拍動(dòng)的翼型進(jìn)行了實(shí)驗(yàn),研究表明,間歇性運(yùn)動(dòng)通常對(duì)能量是有利的,運(yùn)動(dòng)相同的距離,間歇性運(yùn)動(dòng)比連續(xù)運(yùn)動(dòng)更節(jié)省能量,同時(shí),如果將真實(shí)魚類的代謝耗能納入考慮范圍,連續(xù)游泳可能在能量上更占優(yōu)勢(shì)。Akoz 等[26]計(jì)算了間歇運(yùn)動(dòng)的平均游動(dòng)速度和運(yùn)輸成本后,發(fā)現(xiàn)了最優(yōu)推進(jìn)效率的運(yùn)動(dòng)占空比。類似于間歇性拍動(dòng),非正弦的步態(tài)也可能會(huì)帶來效率的增益。Chao 等[27]對(duì)做雅可比橢圓函數(shù)運(yùn)動(dòng)(包含三角波運(yùn)動(dòng)、正弦運(yùn)動(dòng)、方波運(yùn)動(dòng))的二維翼型進(jìn)行了數(shù)值模擬,發(fā)現(xiàn)正弦運(yùn)動(dòng)具有最高的推進(jìn)效率。van Buren 等[28]的研究支持了這一觀點(diǎn),并進(jìn)一步指出,如果運(yùn)動(dòng)的波形是方波,會(huì)比正弦運(yùn)動(dòng)表現(xiàn)出更大的推力,相應(yīng)地也需要消耗更多的能量,且從尾跡的角度來看,方波運(yùn)動(dòng)的快速啟動(dòng)和停止會(huì)產(chǎn)生雙射流尾跡而不是典型的渦街,三角波和正弦運(yùn)動(dòng)則在下游形成相似的反卡門渦街和單一的射流尾跡。

        除了間歇性游動(dòng)和非正弦的周期性步態(tài)外,更一般的運(yùn)動(dòng)可以是任意一種不規(guī)則、非周期性的運(yùn)動(dòng),這會(huì)導(dǎo)致流場(chǎng)的變化更為復(fù)雜,對(duì)推進(jìn)的影響也更加難以預(yù)測(cè)和控制。由于傳統(tǒng)方法的限制,有關(guān)非周期、不規(guī)律的運(yùn)動(dòng)對(duì)游動(dòng)性能的影響還沒有被充分地討論。本研究擬將拍動(dòng)翼型的效率優(yōu)化問題轉(zhuǎn)化為一個(gè)序列決策問題,建立對(duì)應(yīng)的馬爾可夫決策過程,并引入強(qiáng)化學(xué)習(xí)框架來求解。在這個(gè)框架下,模型可以實(shí)現(xiàn)更一般的運(yùn)動(dòng),并自動(dòng)地通過與水洞環(huán)境的交互來提高自身的運(yùn)動(dòng)效率。本研究的目的是驗(yàn)證強(qiáng)化學(xué)習(xí)方法在流體力學(xué)實(shí)驗(yàn)環(huán)境中優(yōu)化流動(dòng)控制策略的可行性,以期為未來的相關(guān)研究提供參考。

        1 實(shí)驗(yàn)設(shè)備與裝置

        實(shí)驗(yàn)在復(fù)旦大學(xué)航空航天系的循環(huán)式水洞中進(jìn)行,實(shí)驗(yàn)裝置如圖1 所示。實(shí)驗(yàn)段尺寸為0.5 m(高)×0.5 m(寬)× 6 m(長(zhǎng)),水速范圍為0~5 m/s 連續(xù)可調(diào)。實(shí)驗(yàn)?zāi)P蜑镹ACA0012 翼型,弦長(zhǎng)c=200 mm,展長(zhǎng)s=220 mm。實(shí)驗(yàn)中水速U=0.077 m/s,對(duì)應(yīng)的基于弦長(zhǎng)的雷諾數(shù)為Re=1.3×104。轉(zhuǎn)動(dòng)軸位于距離模型前緣25%弦長(zhǎng)處,模型上下兩端裝有單分量的力傳感器測(cè)量來流方向的力,模型上方還搭載一個(gè)扭矩傳感器測(cè)量模型受到的扭矩,模型的轉(zhuǎn)動(dòng)由一個(gè)舵機(jī)驅(qū)動(dòng)(STS3046)。力和力矩傳感器的時(shí)序信號(hào)由數(shù)據(jù)采集卡(JY USB-62401)采集,并與舵機(jī)的動(dòng)作反饋信號(hào)進(jìn)行同步,所有信號(hào)的采樣頻率設(shè)置為80 Hz。在數(shù)據(jù)采集裝置搭建中,對(duì)信號(hào)線以及接頭處進(jìn)行了屏蔽處理以消除環(huán)境噪聲對(duì)信號(hào)的影響。另外,在進(jìn)行平均推力系數(shù)及推進(jìn)效率測(cè)量時(shí),采取5 次重復(fù)性實(shí)驗(yàn)取平均值的方式來消除實(shí)驗(yàn)中的隨機(jī)誤差。

        圖1 實(shí)驗(yàn)裝置Fig.1 Experimental setup

        在拍動(dòng)推進(jìn)系統(tǒng)中,推力系數(shù)和弗勞德推進(jìn)效率是最重要的游動(dòng)性能指標(biāo)。推力系數(shù)和效率的時(shí)平均量定義如下:

        其中:Fx為運(yùn)動(dòng)誘導(dǎo)的力在流向的分量;ρ為水的密度;U為來流速度;s為翼型的展長(zhǎng);c為弦長(zhǎng);為平均有用功率;為平均需用功率;M為轉(zhuǎn)動(dòng)扭矩;ω為轉(zhuǎn)動(dòng)角速度;T為計(jì)算平均值的時(shí)間區(qū)間長(zhǎng)度。本實(shí)驗(yàn)中,在評(píng)價(jià)翼型拍動(dòng)動(dòng)作的平均效率和平均推力系數(shù)時(shí),取T=120s。

        對(duì)于周期性拍動(dòng)推進(jìn)系統(tǒng),其運(yùn)動(dòng)的頻率通常用無量綱參數(shù)斯特勞哈爾數(shù)(St)描述:

        式中:f為周期性運(yùn)動(dòng)的頻率;A為尾緣的擺幅。

        2 基于強(qiáng)化學(xué)習(xí)的流動(dòng)控制

        2.1 強(qiáng)化學(xué)習(xí)算法

        強(qiáng)化學(xué)習(xí)是求解馬爾可夫決策過程上的數(shù)學(xué)框架。一個(gè)典型的馬爾可夫決策過程由M={S,A,R,P,γ}表示。在t時(shí)刻的狀態(tài)st∈S下,智能體可以根據(jù)策略函數(shù)選擇動(dòng)作at~π(st;x)。策略函數(shù)可以將狀態(tài)空間和動(dòng)作空間映射到實(shí)數(shù)域,S×A→[-1,1],參數(shù)由x表示。智能體做出一個(gè)動(dòng)作后,狀態(tài)會(huì)更新為st+1,并且智能體會(huì)得到來自于環(huán)境的獎(jiǎng)勵(lì)信號(hào)rt+1~R(st,at)。強(qiáng)化學(xué)習(xí)的目標(biāo)就是更新策略函數(shù)的參數(shù)x,從而最大化累計(jì)回報(bào)獎(jiǎng)勵(lì)其中 γ ∈[0,1)代表了折扣因子,其值越大代表智能體越重視未來的獎(jiǎng)勵(lì)。

        本文采用PPG(phasic policy gradient)算 法[29]。PPG 算法是一種基于策略梯度的強(qiáng)化學(xué)習(xí)算法,是PPO(proximal policy optimization)算法[30]的一種變體。PPG 算法和PPO 算法均包含兩個(gè)網(wǎng)絡(luò):一個(gè)是策略網(wǎng)絡(luò),實(shí)現(xiàn)狀態(tài)到動(dòng)作的映射at~π(st;x),參數(shù)用x表示;另一個(gè)是價(jià)值網(wǎng)絡(luò),提供對(duì)狀態(tài)價(jià)值函數(shù)V(st;w)=Eπ[Gt|st]的判斷,輔助策略網(wǎng)絡(luò)進(jìn)行更新,參數(shù)用w表示。

        網(wǎng)絡(luò)參數(shù)的更新是通過最小化損失函數(shù)實(shí)現(xiàn)的。PPG 算法的訓(xùn)練分為兩個(gè)交替進(jìn)行的階段。第一個(gè)策略訓(xùn)練階段用來訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),對(duì)應(yīng)的損失函數(shù)為:

        其中:LPG和 LVF分別為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失函數(shù);ρt為重要性抽樣比,代表了新舊策略選擇相同動(dòng)作的概率比值,用于調(diào)整樣本的權(quán)重以準(zhǔn)確估計(jì)新策略的價(jià)值;clip 為裁剪函數(shù),將 ρt裁剪到(1-ε,1+ε)區(qū)間中;ε為控制裁剪程度的超參數(shù),可以控制策略更新的程度;為廣義優(yōu)勢(shì)函數(shù),衡量了智能體在給定狀態(tài)下采取某個(gè)動(dòng)作相對(duì)于平均預(yù)期回報(bào)的優(yōu)勢(shì)程度,用于指導(dǎo)策略更新;t為基于廣義優(yōu)勢(shì)函數(shù)構(gòu)建的對(duì)真實(shí)狀態(tài)價(jià)值函數(shù)值的估計(jì);wold為價(jià)值網(wǎng)絡(luò)舊參數(shù)。通過對(duì) LPG的訓(xùn)練,可以讓策略網(wǎng)絡(luò)最小化廣義優(yōu)勢(shì)函數(shù)。通過對(duì) LVF的訓(xùn)練,可以讓價(jià)值網(wǎng)絡(luò)通過自舉法接近真實(shí)的價(jià)值函數(shù)。更多相關(guān)細(xì)節(jié)可參考文獻(xiàn)[29-30]。

        第二個(gè)輔助訓(xùn)練階段,損失函數(shù)為:

        其中:LJT和 LVF分別為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失函數(shù);DKL(π(st;xold)||π(st;x))為更新前后新舊策略的K-L(Kullback-Leibler divergence)散度;β為控制新舊策略差異的超參數(shù)。LJT由 兩項(xiàng)組成,最小化 Laux項(xiàng),能讓策略網(wǎng)絡(luò)的底層參數(shù)從對(duì)價(jià)值函數(shù)的擬合中獲益,優(yōu)化 β項(xiàng)可以限制網(wǎng)絡(luò)更新的幅度,從而保障訓(xùn)練的穩(wěn)定性。在輔助訓(xùn)練階段,還會(huì)對(duì)價(jià)值網(wǎng)絡(luò)的損失函數(shù)LVF進(jìn)行額外的訓(xùn)練。

        從訓(xùn)練流程來看,PPO 算法相當(dāng)于只有第一個(gè)策略訓(xùn)練階段的PPG 算法。在網(wǎng)絡(luò)結(jié)構(gòu)上,兩者的價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)相同。而PPG 算法的策略網(wǎng)絡(luò)在輸出層有兩個(gè)輸出,一個(gè)輸出策略 π(st;x),另一個(gè)輸出策略網(wǎng)絡(luò)對(duì)價(jià)值的判斷,即V(st;x)。但PPO 算法的策略網(wǎng)絡(luò)只有一個(gè)策略輸出 π(st;x)。

        2.2 動(dòng)作、狀態(tài)設(shè)計(jì)

        強(qiáng)化學(xué)習(xí)中的動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)設(shè)計(jì)非常關(guān)鍵,其直接影響著強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)效果和性能。在流動(dòng)控制的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)中,動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)的設(shè)計(jì)需要配合流動(dòng)物理情況進(jìn)行調(diào)整。實(shí)驗(yàn)中,拍尾定義為模型的尾緣從一端移動(dòng)到另一端的過程,模型的動(dòng)作設(shè)計(jì)為下一個(gè)正弦拍尾動(dòng)作的幅度和頻率,表示為at={At,ft}。研究中,模型會(huì)在一側(cè)擺動(dòng)到最大幅度后開始執(zhí)行下一個(gè)動(dòng)作,并且為了避免模型出現(xiàn)一直在一側(cè)擺動(dòng)的情況,模型每次的拍尾動(dòng)作被強(qiáng)制要求經(jīng)過流向的對(duì)稱面。出于效率與推力間的平衡,單側(cè)的擺動(dòng)角度被限制在7°~20°之間。因?yàn)榻嵌冗^低時(shí),雖然會(huì)得到較高的效率,但推力較小,沒有實(shí)際的意義;另一方面,角度過大時(shí),效率又會(huì)迅速降低,均不利于搜索在較大推力下的高效率游動(dòng)行為。同時(shí),設(shè)定頻率范圍使得單次拍尾的瞬時(shí)St能夠處于0.2~0.8 區(qū)間。智能體可以任意選擇動(dòng)作空間中的拍動(dòng)動(dòng)作組合,達(dá)到優(yōu)化效率的目的。

        為了在給定的均勻來流條件下建立馬爾可夫過程,將強(qiáng)化學(xué)習(xí)智能體的狀態(tài)定義為模型的運(yùn)動(dòng)歷史。智能體觀察到的狀態(tài)是前n個(gè)拍尾動(dòng)作的歷史,表示為st={at-n+1,···,at},本實(shí)驗(yàn)取n=12。在該設(shè)置下,可以使得智能體的狀態(tài)時(shí)間窗口長(zhǎng)度足夠來流流過4c~5c的距離,從而保證更早的拍動(dòng)動(dòng)作對(duì)當(dāng)前翼型的水動(dòng)力學(xué)狀態(tài)的影響可以忽略不計(jì),進(jìn)而保證該問題的馬爾可夫性,即狀態(tài)可以唯一確定當(dāng)前模型周圍的流場(chǎng)。

        2.3 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        在使用強(qiáng)化學(xué)習(xí)算法優(yōu)化一個(gè)長(zhǎng)期高效的智能體時(shí),最直接的方法是將長(zhǎng)期效率作為獎(jiǎng)勵(lì)函數(shù)。但是這樣會(huì)使樣本量減少且訓(xùn)練難度增加。因?yàn)閺?qiáng)化學(xué)習(xí)算法的更新需要 (st,at,rt+1,st+1)的軌跡歷史,如果rt+1是 長(zhǎng)時(shí)間尺度的獎(jiǎng)勵(lì),則st、at也需要是長(zhǎng)時(shí)間尺度的,以滿足馬爾科夫性。而當(dāng)st、at是長(zhǎng)時(shí)間尺度的狀態(tài)和動(dòng)作時(shí),會(huì)出現(xiàn)兩個(gè)問題:第一個(gè)是樣本量變少,在相同時(shí)間內(nèi),軌跡中收集到的(st,at,rt+1,st+1)數(shù)量減少,網(wǎng)絡(luò)參數(shù)更新的次數(shù)降低;第二是搜索難度變大,長(zhǎng)時(shí)間尺度的狀態(tài)空間更復(fù)雜,智能體需要更長(zhǎng)時(shí)間的探索才能學(xué)習(xí)到優(yōu)化策略。有一種簡(jiǎn)單的做法是,將當(dāng)前動(dòng)作的短期效率作為獎(jiǎng)勵(lì)函數(shù)。但這使得優(yōu)化的目標(biāo)變成了累計(jì)短期效率之和,而非長(zhǎng)期效率,因此智能體有可能會(huì)過擬合短期效率,導(dǎo)致陷入局部最優(yōu)解。同時(shí),短期效率與模型的當(dāng)前狀態(tài)強(qiáng)相關(guān),使得訓(xùn)練過程很容易受到實(shí)驗(yàn)噪聲的影響,造成短期效率的波動(dòng),這樣的噪聲可能使得模型無法學(xué)習(xí)到長(zhǎng)期推進(jìn)效率最優(yōu)的策略。在本研究中發(fā)現(xiàn),當(dāng)計(jì)算平均效率的窗口長(zhǎng)度接近水流通過3c長(zhǎng)度的時(shí)間,需要的訓(xùn)練時(shí)間較少并能得到很高的長(zhǎng)期效率表現(xiàn),這個(gè)效率評(píng)價(jià)時(shí)間窗口大概對(duì)應(yīng)8 次拍尾動(dòng)作所需的時(shí)間。

        2.4 網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)設(shè)計(jì)

        數(shù)據(jù)采集卡用C#語(yǔ)言控制,強(qiáng)化學(xué)習(xí)代碼基于Python 語(yǔ)言的Tensorflow 庫(kù)構(gòu)建。

        策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的隱藏層均由兩層LSTM(long short-term memory)網(wǎng)絡(luò)和一層全連接層組成。價(jià)值網(wǎng)絡(luò)的兩層LSTM 的節(jié)點(diǎn)數(shù)分別為64 和128。策略網(wǎng)絡(luò)的兩層LSTM 的節(jié)點(diǎn)數(shù)分別為32 和64。全連接層的節(jié)點(diǎn)數(shù)分別為32 和64。網(wǎng)絡(luò)結(jié)構(gòu)使用LSTM 是為了更好地捕捉時(shí)序信息。策略網(wǎng)絡(luò)比價(jià)值網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)更少是因?yàn)椴呗院瘮?shù)一般有更低的復(fù)雜度。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)率均設(shè)置為0.004,折扣因子 γ設(shè)置為0.999,控制策略訓(xùn)練損失函數(shù)的裁剪系數(shù) ε為0.2,策略網(wǎng)絡(luò)的探索噪聲為0.1,每次更新的批量大小為64。

        2.5 強(qiáng)化學(xué)習(xí)訓(xùn)練流程

        圖2 展示了本研究中強(qiáng)化學(xué)習(xí)的訓(xùn)練流程,并著重說明了單個(gè)回合內(nèi)的交互過程。每個(gè)回合分為兩個(gè)階段,即編譯階段和交互階段。

        圖2 強(qiáng)化學(xué)習(xí)訓(xùn)練流程圖Fig.2 Flowchart of the reinforcement learning procedure

        在編譯階段開始時(shí),上一個(gè)回合的結(jié)束狀態(tài)被作為當(dāng)前回合的初始狀態(tài)(除了第一個(gè)回合是進(jìn)行隨機(jī)初始化)。策略網(wǎng)絡(luò)會(huì)根據(jù)初始狀態(tài)生成下一個(gè)時(shí)刻的動(dòng)作a0,因?yàn)樵诒狙芯康脑O(shè)置中,狀態(tài)僅僅是動(dòng)作的堆疊,所以可以直接推斷出下一個(gè)時(shí)刻的狀態(tài)。由此,智能體可以提前生成回合中所要執(zhí)行的所有動(dòng)作。編譯階段完成后,訓(xùn)練進(jìn)入交互階段,每個(gè)回合的交互階段持續(xù)60 s。在交互階段開始前,模型會(huì)重復(fù)兩次初始狀態(tài)的動(dòng)作來初始化流場(chǎng)。初始化完成后,智能體會(huì)根據(jù)預(yù)先編譯好的動(dòng)作開始運(yùn)動(dòng),并且記錄下交互的軌跡{s0,a0,r0,s1,···,sT,aT,rT}。

        在單個(gè)回合交互階段結(jié)束后,設(shè)定一分鐘的間歇,再開始下個(gè)回合的編譯階段,以避免回合與回合間的流場(chǎng)交叉干擾。智能體在回合間歇內(nèi)按照強(qiáng)化學(xué)習(xí)算法進(jìn)行網(wǎng)絡(luò)參數(shù)更新。單個(gè)回合的最后一個(gè)狀態(tài)sT被記錄用于初始化下一個(gè)回合,通過這樣的方式,可以還原連續(xù)學(xué)習(xí)的過程。實(shí)驗(yàn)的最大回合數(shù)設(shè)為400,整個(gè)迭代學(xué)習(xí)過程都是在水洞實(shí)驗(yàn)室中自動(dòng)進(jìn)行的,無需人為干預(yù),持續(xù)時(shí)間大概為12 h。

        3 結(jié)果與討論

        3.1 算法比較

        為了驗(yàn)證強(qiáng)化學(xué)習(xí)算法的有效性,對(duì)兩種不同的強(qiáng)化學(xué)習(xí)算法(PPO 和PPG 算法)獲得的訓(xùn)練結(jié)果進(jìn)行了對(duì)比。兩組強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)的所有參數(shù)設(shè)置均相同,并計(jì)算了每個(gè)回合(60 s)的平均效率,畫出了兩種算法的學(xué)習(xí)曲線。為了更好地觀察學(xué)習(xí)曲線的變化趨勢(shì),對(duì)效率進(jìn)行了窗口長(zhǎng)度為5 的滑動(dòng)平均處理。從圖3 中可以看出,PPG 算法能夠更快地收斂到一個(gè)較高的推進(jìn)效率水平,且最終表現(xiàn)也優(yōu)于PPO算法。PPG 算法下的智能體可以在150 回合左右將效率穩(wěn)定維持在14%左右,而PPO 算法訓(xùn)練的智能體在250 回合左右才將效率提高到10%左右的水平。

        圖3 不同強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)曲線Fig.3 Learning curves for different reinforcement learning algorithms

        PPG 算法比PPO 算法訓(xùn)練速度更快的原因是PPG實(shí)現(xiàn)了策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)之間的特征共享,同時(shí)將它們的訓(xùn)練解耦,從而有更高的樣本利用率。PPG算法在策略訓(xùn)練階段后還引入了輔助訓(xùn)練階段,通過對(duì) Laux的訓(xùn)練,使得策略網(wǎng)絡(luò)的底層參數(shù)能從擬合價(jià)值函數(shù)的過程中獲益。輔助訓(xùn)練階段還對(duì)價(jià)值網(wǎng)絡(luò)進(jìn)行額外的訓(xùn)練,加快了狀態(tài)價(jià)值函數(shù)的收斂速度,并且價(jià)值網(wǎng)絡(luò)并沒有直接地與策略網(wǎng)絡(luò)共享參數(shù),因此額外訓(xùn)練不會(huì)導(dǎo)致策略網(wǎng)絡(luò)受到價(jià)值網(wǎng)絡(luò)訓(xùn)練的干擾,在更短的回合數(shù)內(nèi)學(xué)習(xí)到了更高效率的運(yùn)動(dòng)策略。

        3.2 訓(xùn)練過程分析

        為了更好地展示出強(qiáng)化學(xué)習(xí)的訓(xùn)練過程,將PPG 算法下不同回合的智能體表現(xiàn)繪制成推力系數(shù)-效率曲線,如圖4 所示。初始的模型推進(jìn)效率大約在4%左右,推力系數(shù)大約為0.2。隨著訓(xùn)練的進(jìn)行,模型的效率不斷提高,最終達(dá)到了14%左右。

        圖4 PPG 算法學(xué)習(xí)路徑Fig.4 Learning path for the PPG algorithm

        同時(shí)給出了相應(yīng)回合下的運(yùn)動(dòng)波形、有用功率(FxU)、需用功率(Mω)時(shí)間歷史,如圖5 所示。從圖5中可以看到智能體的動(dòng)作調(diào)整過程。由圖5(a)對(duì)應(yīng)的第1 回合運(yùn)動(dòng)歷史可以看出,智能體在訓(xùn)練開始時(shí),做的是雜亂無章的隨機(jī)拍動(dòng)動(dòng)作。在大約5~10 s及25~30 s 區(qū)間,模型采取了接近最大擺幅的拍動(dòng),提高了瞬時(shí)有用功率,瞬時(shí)有用功率峰值約為0.05 W,但是這樣的運(yùn)動(dòng)消耗了更大的需用功率,需用功率的峰值約到達(dá)0.8 W。大幅度的擺動(dòng)動(dòng)作雖然能夠提高有用功率,但也需付出更大的需用功率,總體上會(huì)導(dǎo)致效率的降低。由圖5(b)可以看出,在第100 回合時(shí),智能體不再輕易嘗試大幅度的擺動(dòng)動(dòng)作,從而將需用功率控制在較低的范圍中以獲得更高的效率。由圖5(c)可以看出,在大約第200 回合時(shí),智能體運(yùn)動(dòng)的幅度已經(jīng)處于一個(gè)比較穩(wěn)定的范圍,有用功率和需用功率都不再出現(xiàn)類似早期的瞬時(shí)較大變化。但此時(shí)的頻率還偏高,因此在第200 回合后,智能體主要專注于頻率的微調(diào)。如圖5(d)所示,在大約第400 回合時(shí),運(yùn)動(dòng)的幅度和頻率都在一個(gè)更小的范圍內(nèi)波動(dòng),同時(shí)瞬時(shí)需用功率也得到了進(jìn)一步的控制,最終獲得了效率的進(jìn)一步提升。

        圖5 不同回合下的運(yùn)動(dòng)波形、有用功率和需用功率時(shí)間歷程Fig.5 Time history of the motion waveform,useful power and required power after different iterations

        智能體在400 回合的訓(xùn)練過程中,學(xué)會(huì)了控制每一次拍動(dòng)動(dòng)作的角度和頻率,在提高有用功率的同時(shí)避免大幅運(yùn)動(dòng)帶來的需用功率增加,以獲得持續(xù)提升長(zhǎng)期推進(jìn)效率的效果,最終智能體收斂到了一種合適的幅度和頻率下的近似正弦運(yùn)動(dòng)。

        3.3 推力約束下的效率優(yōu)化

        強(qiáng)化學(xué)習(xí)算法的一大優(yōu)勢(shì)是,僅通過修改獎(jiǎng)勵(lì)函數(shù)即可實(shí)現(xiàn)在約束條件下的訓(xùn)練。本實(shí)驗(yàn)通過修改獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)了在給定推力條件下的高效運(yùn)動(dòng)策略搜尋。

        為了訓(xùn)練出能夠?qū)崿F(xiàn)高推力運(yùn)動(dòng)的智能體,將獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為:當(dāng)推力系數(shù)大于給定閾值時(shí),獎(jiǎng)勵(lì)等同于效率;當(dāng)推力系數(shù)小于給定閾值時(shí),獎(jiǎng)勵(lì)為0。對(duì)推力系數(shù)閾值分別為0.6 和0.9 的兩種情況進(jìn)行了訓(xùn)練,學(xué)習(xí)曲線和學(xué)習(xí)路徑如圖6 所示。在圖6(a)中,綠色和紫色曲線分別代表推力系數(shù)閾值0.6 和0.9 的學(xué)習(xí)曲線。在圖6(b,c)中,顏色由淺至深的圓點(diǎn)分別對(duì)應(yīng)了第1、100、200、400 回合,陰影區(qū)域?qū)?yīng)推力系數(shù)大于0.6(綠色)和0.9(紫色)的區(qū)域。

        圖6 推力約束條件下的學(xué)習(xí)曲線和學(xué)習(xí)路徑Fig.6 Learning curves and learning paths under the thrust constraint

        從圖6(a)可以看出,在添加了對(duì)推力的額外要求后,學(xué)習(xí)過程比沒有推力要求時(shí)更慢,并且最終得到的運(yùn)動(dòng)效率更低。在推力系數(shù)閾值為0.6 時(shí),在第200 回合左右,智能體的效率達(dá)到了11%左右。在推力系數(shù)閾值為0.9 時(shí),在第300 回合左右,智能體的效率才穩(wěn)定到了10%左右。由圖6(b,c)可知,最終得到的運(yùn)動(dòng)策略對(duì)應(yīng)的平均推力系數(shù)分別為0.76 和1.02,均高于推力要求閾值。

        學(xué)習(xí)過程變慢的原因是高推力的運(yùn)動(dòng)空間是整體運(yùn)動(dòng)空間的一個(gè)子空間,沒有約束條件時(shí),智能體可以學(xué)習(xí)到任意一個(gè)局部最優(yōu)的運(yùn)動(dòng)策略,但是增加約束條件后,智能體必須要在給定的更狹窄的運(yùn)動(dòng)空間中進(jìn)行探索優(yōu)化,這增加了智能體的探索難度,從而降低了學(xué)習(xí)速度。

        在推力施加約束后,智能體學(xué)習(xí)到的運(yùn)動(dòng)策略效率會(huì)降低。這是因?yàn)樵诟咄屏Φ倪\(yùn)動(dòng)空間中,最優(yōu)運(yùn)動(dòng)效率比起沒有推力約束的最優(yōu)效率要低。比如正弦運(yùn)動(dòng)族的推力達(dá)到某種程度后,效率就會(huì)顯著降低[18-19]。

        3.4 頻率分析及與正弦運(yùn)動(dòng)的比較

        對(duì)加與不加推力約束的最終運(yùn)動(dòng)策略進(jìn)行統(tǒng)計(jì)分析,繪制了運(yùn)動(dòng)策略瞬時(shí)拍動(dòng)頻率和幅度的箱線圖,如圖7 所示。結(jié)果表明,較大的推力系數(shù)閾值可以使得智能體在更高幅度、更高頻率的運(yùn)動(dòng)空間中進(jìn)行探索。不加約束的強(qiáng)化學(xué)習(xí)收斂到的運(yùn)動(dòng)策略的平均幅度為12.5°左右。施加推力約束條件后得到的運(yùn)動(dòng)策略的平均幅度分別約為15°、17°。

        圖7 不同推力約束下的運(yùn)動(dòng)策略頻率和幅度箱線圖Fig.7 Boxplot of the frequency and amplitude for motions under different thrust constraints

        為更好地評(píng)價(jià)智能體學(xué)習(xí)到的運(yùn)動(dòng)策略的表現(xiàn),將其與模型在正弦運(yùn)動(dòng)下的表現(xiàn)進(jìn)行對(duì)比。測(cè)量了不同頻率下擺動(dòng)幅度為±12.5°、±15°、±17°的正弦運(yùn)動(dòng)的性能,每次測(cè)量時(shí)間長(zhǎng)度為120 s,進(jìn)行五組重復(fù)實(shí)驗(yàn)取平均值。同時(shí)利用智能體最終運(yùn)動(dòng)策略網(wǎng)絡(luò)生成運(yùn)動(dòng)時(shí)間序列,并將其表現(xiàn)與正弦運(yùn)動(dòng)的表現(xiàn)在推力-效率圖上進(jìn)行對(duì)比(圖8)。結(jié)果表明,強(qiáng)化學(xué)習(xí)智能體的推進(jìn)效率均達(dá)到了相似正弦運(yùn)動(dòng)下的效率的上邊界。此外,根據(jù)智能體最終運(yùn)動(dòng)形式的所有拍動(dòng)動(dòng)作的平均幅度和平均頻率,計(jì)算出平均St,其數(shù)值范圍約為 0.4~0.55,與正弦運(yùn)動(dòng)下的最優(yōu)St范圍一致。

        圖8 強(qiáng)化學(xué)習(xí)運(yùn)動(dòng)與正弦運(yùn)動(dòng)的比較Fig.8 Comparison between the reinforcement learning motion and the sinusoidal motion

        4 結(jié)論與展望

        本文基于實(shí)驗(yàn)測(cè)量和強(qiáng)化學(xué)習(xí)算法研究了拍動(dòng)翼型的非定常推進(jìn)問題。通過強(qiáng)化學(xué)習(xí)方法,對(duì)拍動(dòng)翼型的非周期動(dòng)作進(jìn)行了優(yōu)化,得到了高效推進(jìn)的非周期運(yùn)動(dòng)策略。并通過改變獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)了智能體在高推力要求下的效率優(yōu)化。研究得出以下主要結(jié)論:

        1)強(qiáng)化學(xué)習(xí)可以作為工程中探索復(fù)雜流動(dòng)問題和高維參數(shù)空間的研究手段。但是使用不同的強(qiáng)化學(xué)習(xí)算法和不同的超參數(shù),會(huì)對(duì)訓(xùn)練表現(xiàn)產(chǎn)生很大影響。本文中,PPG 算法能夠比PPO 算法更快地收斂到更高效率的運(yùn)動(dòng)策略。在真實(shí)的流體環(huán)境中進(jìn)行算法或者超參數(shù)的對(duì)比非常消耗資源,未來可以通過設(shè)計(jì)更加適合流體環(huán)境的算法或在數(shù)值模擬環(huán)境中初步確定超參數(shù)等方式解決該問題。

        2)改變獎(jiǎng)勵(lì)函數(shù)可以訓(xùn)練智能體完成不同的任務(wù)。例如在本實(shí)驗(yàn)中增加了推力的限制,智能體依然能在約束條件下找到優(yōu)化的運(yùn)動(dòng)策略。在實(shí)際工程應(yīng)用中,可以通過修改獎(jiǎng)勵(lì)函數(shù)或調(diào)整強(qiáng)化學(xué)習(xí)框架中的約束條件,來訓(xùn)練適合不同工況的智能體,從而滿足工程中多樣的流動(dòng)控制需求。

        3)研究發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)方法獲得的最終運(yùn)動(dòng)策略與正弦運(yùn)動(dòng)下的最優(yōu)表現(xiàn)相當(dāng)。這也從側(cè)面說明了,在單自由度拍動(dòng)動(dòng)作下,適當(dāng)?shù)恼穹皖l率下的正弦運(yùn)動(dòng)基本是高效率推進(jìn)的最優(yōu)選擇。該結(jié)論與前人對(duì)非正弦拍動(dòng)運(yùn)動(dòng)的研究結(jié)論吻合[27-28]。

        在后續(xù)研究中,擬進(jìn)一步增加模型的自由度,例如加入俯仰運(yùn)動(dòng)-浮沉運(yùn)動(dòng)的組合、擴(kuò)大模型的動(dòng)作空間等。亦可將流體環(huán)境反饋添加到智能體的狀態(tài)量中,讓智能體能夠根據(jù)反饋實(shí)時(shí)地調(diào)整自身動(dòng)作,從而實(shí)現(xiàn)智能體在復(fù)雜來流條件下的動(dòng)作策略優(yōu)化。

        猜你喜歡
        正弦動(dòng)作效率
        例說正弦定理的七大應(yīng)用
        正弦、余弦定理的應(yīng)用
        提升朗讀教學(xué)效率的幾點(diǎn)思考
        甘肅教育(2020年14期)2020-09-11 07:57:42
        “美”在二倍角正弦公式中的應(yīng)用
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        非同一般的吃飯動(dòng)作
        基于VSG的正弦鎖定技術(shù)研究
        跟蹤導(dǎo)練(一)2
        精品国产一区二区三区av免费 | 国产乱沈阳女人高潮乱叫老| 四虎国产精品免费久久麻豆| 亚洲中文字幕一区av| 妺妺窝人体色www婷婷| 全部孕妇毛片| 亚洲九九九| 国产一区二区三区口爆在线| 又紧又大又爽精品一区二区| 少妇厨房愉情理伦片免费 | 久久午夜伦鲁鲁片免费| 国产一区二区三区在线大屁股| 品色堂永远免费| 久久香蕉免费国产天天看| 精品理论一区二区三区| 不卡一本av天堂专区| 中文字幕丰满伦子无码| 亚洲高清无码第一| 日本一区二区三区精品不卡| 亚洲国产精品一区二区成人片国内 | 国产丝袜免费精品一区二区| 国产亚洲一本二本三道| 国产精品免费av片在线观看| 四虎影永久在线观看精品| 久久这里只有精品黄色| 国产在线播放一区二区不卡| 免费精品一区二区三区第35| 女人的天堂av免费看| 国产亚洲一本二本三道| 国产av一区二区三区传媒| 日本亚洲欧美在线观看| 精品色老头老太国产精品| 一本无码中文字幕在线观| 亚洲爆乳少妇无码激情| 亚洲免费观看一区二区三区 | 色老板在线免费观看视频日麻批| 国产精品天天看天天狠| 成人欧美一区二区三区a片| 无码天堂在线视频| 亚洲精品一品区二品区三区| 亚洲中文字幕无码爆乳|