亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對超臨界翼型氣動修型策略的強化學(xué)習(xí)

        2021-07-05 11:06:20李潤澤張宇飛陳海昕
        航空學(xué)報 2021年4期
        關(guān)鍵詞:動作優(yōu)化策略

        李潤澤,張宇飛,陳海昕

        清華大學(xué) 航天航空學(xué)院,北京 100084

        隨著優(yōu)化算法和機器學(xué)習(xí)技術(shù)的發(fā)展,計算機輔助設(shè)計(CAE)在飛行器氣動設(shè)計中可以發(fā)揮更大的作用,但設(shè)計師的經(jīng)驗和判斷仍不可或缺。工程設(shè)計中往往仍需要設(shè)計師結(jié)合自身的經(jīng)驗和理解進行手動修型,或者在優(yōu)化過程中進行實時調(diào)控。

        強化學(xué)習(xí)是一種用于策略學(xué)習(xí)的機器學(xué)習(xí)方法,通過與其所面對的環(huán)境(Environment)不斷交互以積累經(jīng)驗,學(xué)習(xí)如何采取不同動作以提高累積回報。本文探索使用強化學(xué)習(xí)模擬設(shè)計師在手動修型設(shè)計時積累經(jīng)驗的過程,總結(jié)根據(jù)翼型的狀態(tài)選擇修型動作的策略,以形成可遷移的策略模型。

        本文分為以下幾個部分。首先介紹強化學(xué)習(xí)在流體力學(xué)領(lǐng)域的應(yīng)用,針對氣動優(yōu)化設(shè)計解釋強化學(xué)習(xí)的相關(guān)概念。之后介紹翼型參數(shù)化修型的方法和修型動作,以及強化學(xué)習(xí)的相關(guān)算法。在此基礎(chǔ)上,介紹強化學(xué)習(xí)針對超臨界翼型氣動減阻問題的實現(xiàn),并討論相關(guān)訓(xùn)練方法的影響,以及所形成策略的遷移應(yīng)用效果。

        本文是對強化學(xué)習(xí)在氣動優(yōu)化設(shè)計中應(yīng)用的一個探索,希望打通道路,搭好框架。因此進行了諸如CFD分析采用歐拉方程、限制修型步數(shù)為三步等簡化,以上措施不會影響本文的相關(guān)結(jié)論,但也應(yīng)該看到強化學(xué)習(xí)的推廣應(yīng)用還需要開展大量的工作,積累更多的成果。

        1 氣動優(yōu)化設(shè)計與強化學(xué)習(xí)

        1.1 氣動優(yōu)化設(shè)計中的“機器學(xué)習(xí)”

        近年來優(yōu)化在飛行器氣動優(yōu)化設(shè)計中得到了越來越廣泛的應(yīng)用,有些研究通過多種手段提高優(yōu)化方法在工程設(shè)計中的實用性,有些研究利用機器學(xué)習(xí)來提高數(shù)據(jù)的利用率或提高優(yōu)化效率,具體內(nèi)容可參考文獻[1-2]。但是,優(yōu)化是一種數(shù)學(xué)工具,設(shè)計仍離不開人的“知識”,離不開人的經(jīng)驗和判斷[2]。將人的經(jīng)驗引入優(yōu)化之中較為成功的實踐包括“人在回路”[1]。

        設(shè)計師的經(jīng)驗一部分來自積累的統(tǒng)計規(guī)律,一部分是基于流體力學(xué)對物理現(xiàn)象的分析判斷。這些設(shè)計經(jīng)驗都是常規(guī)優(yōu)化算法所無法具備的“知識”。而強化學(xué)習(xí)的訓(xùn)練過程則與設(shè)計師積累經(jīng)驗的過程十分相似,有潛力為優(yōu)化設(shè)計補足此類“知識”。類比于傳統(tǒng)的試錯法(Trial-and-error),強化學(xué)習(xí)通過在幾何修型過程中持續(xù)地采取不同的修型動作并觀察設(shè)計結(jié)果的改變和收益,從而總結(jié)采取動作的策略。當(dāng)強化學(xué)習(xí)觀察的狀態(tài)參數(shù)具有一般性時(如流動結(jié)構(gòu)特征),可以認為強化學(xué)習(xí)在基于物理規(guī)律學(xué)習(xí)修型策略,從而在一定程度上獲得了與設(shè)計師相同的設(shè)計經(jīng)驗。這樣就為優(yōu)化設(shè)計由“人在回路”向“機器人在回路”的轉(zhuǎn)變奠定了基礎(chǔ)。

        目前在優(yōu)化設(shè)計中比較常用的機器學(xué)習(xí)技術(shù)是基于響應(yīng)面的性能快速預(yù)測方法,該方法利用已有數(shù)據(jù)構(gòu)建設(shè)計變量到性能的映射來加速優(yōu)化過程,屬于監(jiān)督學(xué)習(xí)類別。與監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)構(gòu)建的是環(huán)境的狀態(tài)參數(shù)到動作參數(shù)的映射,其目的是學(xué)習(xí)與環(huán)境交互的策略以獲得最大累積回報。在監(jiān)督學(xué)習(xí)中作為映射輸出的性能不再是強化學(xué)習(xí)的輸出,而是作為用來訓(xùn)練的回報。強化學(xué)習(xí)的具體理論可參考文獻[3]。

        強化學(xué)習(xí)研究目前主要集中在機械控制領(lǐng)域和游戲中,在流體力學(xué)方面的應(yīng)用研究較為有限,相關(guān)進展可參考文獻[4]。目前,大部分研究仍然針對強化學(xué)習(xí)的傳統(tǒng)領(lǐng)域,即流動控制問題[5-7]?;趶娀瘜W(xué)習(xí)的幾何優(yōu)化研究則寥寥無幾,已發(fā)表的工作僅有少量針對可變形翼型的非定常變形策略,但其本質(zhì)上仍是控制問題[8]。相比之下,幾何優(yōu)化過程沒有時間導(dǎo)數(shù)。因此,優(yōu)化試圖在盡可能少的步數(shù)達到期望狀態(tài),即優(yōu)化效率占據(jù)了更重要的地位。與此同時,優(yōu)化設(shè)計方法是設(shè)計師在工程設(shè)計中的重要工具,優(yōu)化設(shè)計需要可以體現(xiàn)設(shè)計師的意圖和經(jīng)驗,從而保證設(shè)計結(jié)果能夠具有實用價值。因此,強化學(xué)習(xí)在氣動幾何設(shè)計中期望獲得的不是一種應(yīng)對環(huán)境變化的控制率,而是一種類似于設(shè)計師經(jīng)驗的設(shè)計策略。目前,以學(xué)習(xí)設(shè)計策略為目的,針對優(yōu)化設(shè)計過程的強化學(xué)習(xí)研究在國內(nèi)外仍處于空白狀態(tài)。因而,本文主要目的在于指出在氣動幾何設(shè)計中強化學(xué)習(xí)的內(nèi)涵和特點,并給出在此領(lǐng)域中可提高強化學(xué)習(xí)效果的若干手段與注意事項。

        1.2 氣動幾何設(shè)計中的強化學(xué)習(xí)

        強化學(xué)習(xí)一般分為無模型方法和基于模型的方法?;谀P偷姆椒ㄐ枰獙Νh(huán)境進行建模,如構(gòu)建翼型幾何參數(shù)到性能的響應(yīng)面,而這類強化學(xué)習(xí)算法也就類似于基于響應(yīng)面的優(yōu)化。本文研究的無模型方法則使智能體直接與環(huán)境進行交互,此類方法也是強化學(xué)習(xí)的主流研究方向。無模型方法進一步分為基于策略的(Policy-based)和基于價值的(Value-based)方法,基于策略的方法直接對策略進行建模并對策略模型進行優(yōu)化,而基于價值的方法則相對間接一些。價值函數(shù)表示某一狀態(tài)下(采取某一動作時)獲得累積回報的期望,用于描述到達這一狀態(tài)(采取這一動作)能獲得好處的多少?;趦r值的方法對價值函數(shù)進行建模,在選取動作時采用固定形式的策略,一般在當(dāng)前狀態(tài)下選取使價值最大化的動作。還有另一類結(jié)合策略和價值的演員-評論家(Actor-Critic,AC)方法,這類方法同時包含策略模型(即演員)和價值模型(即評論家),利用價值模型來“評價”演員的策略,提高訓(xùn)練效率。

        另一方面,強化學(xué)習(xí)的策略可分為隨機策略和確定性策略。確定性策略表示針對某一狀態(tài)采取的動作是確定的;而在隨機策略中,策略是一個關(guān)于狀態(tài)和動作的函數(shù),其返回值為在某一狀態(tài)下采取某一動作的概率。一般而言,隨機策略要比確定性策略更加魯棒,訓(xùn)練起來也更加容易。因此在實際應(yīng)用中,智能體在某一狀態(tài)下采取的動作需根據(jù)策略π(s,a)的概率分布進行采樣給出。相應(yīng)地,價值函數(shù)作為累積回報的期望,也需要通過蒙特卡洛方法采樣進行估計。

        智能體的策略模型或價值模型在狀態(tài)和動作是維度較低的離散值時可以使用表格法進行儲存,但是對于連續(xù)空間或維度較大的情形,則需要使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)對價值函數(shù)或策略進行建模(記模型的參數(shù)矢量為θ,φ),此時稱作深度強化學(xué)習(xí)。參數(shù)化策略記為πθ(s,a),價值函數(shù)參數(shù)化模型記作Vφ(s)或Qφ(s,a)。本文使用的近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法就是一種基于演員-評論家模式的深度強化學(xué)習(xí)算法。

        2 翼型的修型設(shè)計

        2.1 增量修型的幾何參數(shù)化

        無論是手動修型、優(yōu)化設(shè)計還是強化學(xué)習(xí)過程都需要對設(shè)計對象進行幾何參數(shù)化。對于翼型而言,Class Shape function Transformation(CST)方法能夠使用盡可能少的控制參數(shù),高精度且光滑地表達翼型幾何[9]。但是由于CST的基函數(shù)在整個弦長范圍內(nèi)都有貢獻,因此通過CST參數(shù)調(diào)整來進行局部幾何的修改是困難的,反而需要多個參數(shù)的協(xié)同調(diào)整才能實現(xiàn)。Straathof等[10]提出將CST結(jié)合B-splines來實現(xiàn)局部修型,雖然能夠有效保持局部修型后的幾何光滑性,但實現(xiàn)相對復(fù)雜且控制參數(shù)較多,因此實際應(yīng)用較為有限。

        鼓包函數(shù)是一種常用的局部修型手段,通過在基礎(chǔ)幾何之上添加外凸或內(nèi)凹的幾何增量,實現(xiàn)對局部幾何的修改。最常用的鼓包函數(shù)Hicks-Henne函數(shù)具有高階連續(xù)光滑的特點,能夠在保證光滑的前提下對幾何進行修型[11]。Hicks-Henne鼓包對單位弦長的翼型進行修型可以表示為

        y=ybasis+∑yb,i

        式中:ybasis為基礎(chǔ)翼型縱坐標(biāo);yb,i為鼓包函數(shù)縱坐標(biāo)。Hicks-Henne鼓包修型通過在原始幾何ybasis的基礎(chǔ)上疊加若干個鼓包函數(shù)實現(xiàn)對幾何的改變,每個鼓包函數(shù)均可表示為

        其中:t1∈(0,1)為鼓包的最高點位置;hb為鼓包的高度;x∈[0,1]為翼型的橫坐標(biāo)。定義鼓包的寬度sb為yb函數(shù)最高點兩側(cè)高度為0.01hb位置的間距,根據(jù)sb和hb可求得t2的值。使用Hicks-Henne鼓包修型時,一般在翼型弦長方向上等間距布置鼓包的最高點位置t1,并保持決定鼓包控制范圍的參數(shù)t2一致。本文為了精準(zhǔn)表達設(shè)計師的修型過程,修型中疊加的各個鼓包的位置、高度和寬度均由強化學(xué)習(xí)模型給出,不預(yù)先指定。圖1展示了不同中心位置t1、寬度sb和高度hb對應(yīng)的鼓包幾何,可以看出通過控制鼓包寬度可以實現(xiàn)更加精確的局部控制。

        圖1 Hicks-Henne鼓包形式Fig.1 Hicks-Henne bump distribution

        為保證鼓包函數(shù)修型結(jié)果的光滑性,可以進一步使用CST方法對鼓包修型后幾何進行最小二乘法擬合。擬合目標(biāo)為最小化CST翼型和鼓包修型幾何的差量,從而在盡可能體現(xiàn)鼓包修型的基礎(chǔ)上保證翼型幾何的合理性。圖2展示了在基礎(chǔ)翼型(黑色虛線)上直接疊加鼓包(t1=0.3,sb=0.4,hb=0.02)后的翼型(綠色實線),以及對鼓包修型幾何使用6階CST方法進行擬合的結(jié)果(藍色實線)。從圖中可以看出從翼型整體來看CST擬合準(zhǔn)確表述了鼓包修型后的幾何差別,但直接疊加鼓包函數(shù)后翼型會出現(xiàn)局部的曲率波動,而經(jīng)CST擬合得到的幾何曲率變化則十分光滑。

        圖2 翼型上表面添加鼓包前后的幾何和曲率分布Fig.2 Geometry and curvature distributions of airfoil upper surface before and after bump modification

        2.2 修型動作及其策略

        優(yōu)化算法,無論是確定性算法(如梯度算法)還是隨機性算法(如差分進化算法),數(shù)學(xué)上都可以描述為

        minf(x)

        s.t.g(x)≤0,x∈D?Rnx

        式中:f為優(yōu)化目標(biāo);g為約束函數(shù)矢量;D為nx維設(shè)計變量x的定義域。優(yōu)化過程相當(dāng)于在定義域中搜索最優(yōu)的x*使得目標(biāo)最小,每一個x對應(yīng)一個個體。以CST參數(shù)作為設(shè)計變量為例,每一個個體都由相應(yīng)的x決定實際的幾何。

        相比之下,設(shè)計師在手動設(shè)計時,幾何的改變都是通過增量的形式進行疊加,因此稱為增量修型(Incremental modification)。增量修型對設(shè)計對象和設(shè)計過程的描述與優(yōu)化不同。在傳統(tǒng)的試錯法中,設(shè)計師通過對當(dāng)前設(shè)計對象的性能進行分析,結(jié)合壓力分布或其他流動結(jié)構(gòu)特征進行判斷,對不合理的區(qū)域進行修型,并根據(jù)修型后的表現(xiàn)決定下一步的修型操作[1]。以翼型設(shè)計為例,設(shè)計師的修型操作并不是對優(yōu)化所使用的CST參數(shù)進行調(diào)整,而是直接對幾何進行了局部調(diào)整,比如說增加了鼓包。此時設(shè)計師操作的參數(shù)是鼓包的參數(shù)(如鼓包位置、高度、寬度),不妨稱這些參數(shù)為動作參數(shù)a。這一過程可以記作:

        增量修型過程相當(dāng)于在一個樹形結(jié)構(gòu)的設(shè)計空間內(nèi)進行搜索(見圖3)。樹中的每個節(jié)點都是一個可能出現(xiàn)的幾何xi,都可以從若干動作中選取一個而進入到相應(yīng)的下一級節(jié)點,而設(shè)計師的一系列動作就形成了一條修型軌跡(見圖3中紅色軌跡)。設(shè)計師根據(jù)第t步修型結(jié)果決定下一步的動作at時,只利用了修型軌跡中采用的動作{a0,a1,…,at-1}和相應(yīng)的收益與代價。雖然如前所述,在每個動作后獲得的幾何仍可以使用CST擬合進行光滑,但設(shè)計師并不需要關(guān)心這個過程和它涉及的參數(shù)。

        需要額外指出的是,當(dāng)動作是正交可疊加的,或者說動作調(diào)換先后順序而不影響最終幾何時,樹形結(jié)構(gòu)的不同節(jié)點對應(yīng)的幾何可能是相同的,因此到達某一幾何的動作路徑可能不唯一。另外,在實際設(shè)計過程中,設(shè)計師如果發(fā)現(xiàn)某一動作得到的結(jié)果不合理,是可以退回上級節(jié)點重新選取動作或節(jié)點的(見圖3中綠色軌跡)。

        圖3 增量修型的樹形結(jié)構(gòu)Fig.3 Tree structure of incremental modification

        相比優(yōu)化而言,增量修型更接近設(shè)計師手動修型的過程,有以下幾點優(yōu)勢:① 增量修型的設(shè)計變量(即動作空間,如鼓包參數(shù)等)相比優(yōu)化(如CST參數(shù))大幅減少,因此每一步修型的動作選擇的搜索空間要小得多;② 增量修型一般是局部修型,從流動結(jié)構(gòu)的角度而言,修型的針對性強、目的更明確,因而對流動結(jié)構(gòu)的改善效率更高;③ 基 于流動結(jié)構(gòu)對幾何進行修型的策略更有物理基礎(chǔ),相關(guān)物理機制的引入使得策略更容易具有普適性,相比于基于數(shù)據(jù)庫構(gòu)建響應(yīng)面會擁有更強的推廣和遷移能力;④ 訓(xùn)練增量修型使用的策略和通過強化學(xué)習(xí)形成的策略都與設(shè)計師的設(shè)計經(jīng)驗直觀對應(yīng),因此既可以便捷地利用設(shè)計師的經(jīng)驗來提高增量修型的效率,也可以通過強化學(xué)習(xí)等工具來幫助設(shè)計師學(xué)習(xí)和總結(jié)新的設(shè)計策略。

        當(dāng)然,增量修型可遵循不同數(shù)學(xué)方法的指導(dǎo),以獲得更高的效率并獲得最優(yōu)的性能。類比梯度算法,當(dāng)算法從初始位置(x0)向最優(yōu)值位置(x*)出發(fā)時,基于貪心算法的最速下降法(圖4[12]綠線)試圖在當(dāng)前步的梯度方向獲得最大改進后再確定下一步的前進方向,往往優(yōu)化效率較低。相比而言,牛頓法、共軛梯度法等梯度算法都利用其他信息對每一步的前進方向進行調(diào)整,從而提高優(yōu)化效率(見圖4紅線)。同樣,增量修型的挑戰(zhàn)也主要來自于搜索空間的樹形結(jié)構(gòu)帶來的軌跡依賴特性,即當(dāng)前步采取的動作和相應(yīng)的回報都與之前的軌跡相關(guān)。因此,為避免陷入局部最優(yōu)或損失效率,增量修型中選取每一步的動作時同樣不應(yīng)使用最大化當(dāng)前回報的貪心算法。強化學(xué)習(xí)可以看作一種可行的非貪心算法,因為其目標(biāo)是最大化整條軌跡的累積回報,而不是最大化每一步的當(dāng)前回報。

        圖4 最速下降法與牛頓法優(yōu)化路徑對比[12]Fig.4 Comparison of optimal paths between gradient descent method and Newton method[12]

        3 強化學(xué)習(xí)使用的算法與環(huán)境

        3.1 近端策略優(yōu)化算法

        近端策略優(yōu)化(PPO)算法是OpenAI推出并首選的強化學(xué)習(xí)算法[13],近期已經(jīng)在很多復(fù)雜的問題中取得了很多成果,如在多人在線游戲DOTA2中取得戰(zhàn)勝世界冠軍團隊,與人類選手對抗達到94%勝率的成績[14]。PPO算法是一種基于演員-評論家模式的深度強化學(xué)習(xí)算法,該算法源自于對置信域策略優(yōu)化方法(TRPO)[15]、能高效采樣的帶有經(jīng)驗回放的表演者-評論者算法(ACER)[16]和廣義優(yōu)勢估計(GAE)[17]的結(jié)合和改進,做到了算法實現(xiàn)復(fù)雜程度、參數(shù)調(diào)試和訓(xùn)練代價之間的良好平衡。使得在每一步策略優(yōu)化過程中,既能實現(xiàn)策略的改進,又不至于使策略變化過大而導(dǎo)致崩潰。PPO算法中的一個常用形式PPO-clip算法見附錄A算法A1。

        本文中策略模型和價值函數(shù)模型均使用含有2層隱藏層的人工神經(jīng)網(wǎng)絡(luò)模型,隱藏層節(jié)點數(shù)為128。GAE算法中的“偏差-方差平衡參數(shù)”(Bias-variance tradeoff)取為0.8,PPO-clip算法的參數(shù)ε取0.05。

        3.2 強化學(xué)習(xí)的環(huán)境構(gòu)建

        強化學(xué)習(xí)中智能體通過與環(huán)境持續(xù)交互來學(xué)習(xí)策略,而環(huán)境則需要在輸入當(dāng)前狀態(tài)和動作后,輸出當(dāng)前回報和下一狀態(tài)。在翼型減阻設(shè)計中,環(huán)境包括了翼型參數(shù)化造型與幾何變形,CFD計算和結(jié)果輸出2個部分。

        本文使用CST方法對翼型上下表面進行參數(shù)化造型,在增量修型中使用Hicks-Henne鼓包函數(shù)在翼型上表面幾何進行疊加。使用以9階CST方法對鼓包修型幾何進行最小二乘法擬合,從而充分體現(xiàn)鼓包修型對翼型性能的影響,并保證翼型幾何的合理性。本文采用的動作是對翼型的上表面添加鼓包,動作參數(shù)為鼓包最高點的弦向位置xb、最高點的高度hb(使用弦長進行單位化)和鼓包寬度sb。為便于算法調(diào)試和驗證,對鼓包動作空間進行離散,其中xb=0.01, 0.1, 0.2, …, 0.9;hb=-0.010, -0.005, 0.005, 0.010;sb=0.2, 0.4。對動作離散后,每步可采用的動作有80種可能。

        本文中的強化學(xué)習(xí)在訓(xùn)練過程中使用基于RAE2822生成的4層完全翼型樹,即前3層中每個節(jié)點均含有全部80個子節(jié)點(Child)。因此該完全翼型樹共有518 481個節(jié)點,涵蓋了從RAE2822翼型出發(fā)的三步修型中所有可能出現(xiàn)的狀態(tài)。翼型樹中各節(jié)點的最大厚度tmax、來流馬赫數(shù)Ma∞、升力系數(shù)CL與基礎(chǔ)翼型相同,均采用定升力系數(shù)進行計算。計算工況和基礎(chǔ)翼型的狀態(tài)參數(shù)見表1。

        表1 計算工況和基礎(chǔ)翼型的狀態(tài)參數(shù)

        翼型使用橢圓迭代生成的C型網(wǎng)格,翼型上下表面共分布201個網(wǎng)格點,高度方向分布73個網(wǎng)格,總網(wǎng)格量約20 000。計算采用基于有限體積方法的可壓縮RANS方程求解器NSAWET進行求解,該求解器求解精度和魯棒性在大量應(yīng)用情形中得到了檢驗[18]。本文的主要目的是打通強化學(xué)習(xí)在氣動設(shè)計中使用的道路,為了縮短計算時間, 翼型氣動計算使用了Euler方程分析,這不會影響強化學(xué)習(xí)能夠習(xí)得減阻修型策略的一般性結(jié)論。計算使用MUSCL重構(gòu)格式和Roe通量格式,采用LU-SGS隱式時間推進進行求解。從計算結(jié)果中提取阻力系數(shù)CD,激波位置Xsw,激波波前壁面馬赫數(shù)Maw1,翼型前緣吸力峰壁面馬赫數(shù)MawLE,以上流動結(jié)構(gòu)參數(shù)的定義參見文獻[18]。

        強化學(xué)習(xí)環(huán)境的實現(xiàn)如算法A2所示。由于計算量隨修型步數(shù)迅速增加,因此同樣從發(fā)展方法的角度出發(fā),本文在訓(xùn)練中限制修型步數(shù)為3。這一限制不會影響本文的相關(guān)結(jié)論。

        為方便強化學(xué)習(xí)的調(diào)試和分析,首先完成翼型樹中所有節(jié)點的計算,以查表法代替算法A2中的2~3步,從而搭建強化學(xué)習(xí)的快速訓(xùn)練環(huán)境。翼型樹中單激波翼型所占比例為83%,其中相對基礎(chǔ)翼型減阻的最大值為17.6 counts(1 count=0.000 1),減阻量在16 counts以上的比例為0.1%, 在15 counts 以上占0.28%,在12 counts以上占2.3%, 減阻量大于0的占40.7%。由于訓(xùn)練環(huán)境使用預(yù)先獲得的三步修型翼型完全樹,且每個修型步的幾何改變量有限,因此翼型樹中阻力最小的節(jié)點不是無激波翼型,但這并不影響本文關(guān)于強化學(xué)習(xí)方法的研究和結(jié)論的正確性。

        4 針對翼型減阻修型策略的強化學(xué)習(xí)

        4.1 基于預(yù)訓(xùn)練的策略模型初始化

        強化學(xué)習(xí)是一種通過與環(huán)境持續(xù)交互獲得狀態(tài)和獎勵,從而學(xué)習(xí)合理策略的一種通用算法。強化學(xué)習(xí)算法具有很強的泛化能力,能夠在多種環(huán)境中進行學(xué)習(xí)。但是這種泛化能力也導(dǎo)致強化學(xué)習(xí)算法從零開始學(xué)習(xí)(即隨機生成初始策略),沒有針對特定問題的特點和先驗知識來幫助模型進行學(xué)習(xí),導(dǎo)致學(xué)習(xí)效率較低。預(yù)訓(xùn)練(Pretraining)是一種有效提升強化學(xué)習(xí)效率的方法,如對圖像特征提取部分進行預(yù)訓(xùn)練[19],利用已有的策略模型進行預(yù)訓(xùn)練[20],基于示例軌跡的模仿學(xué)習(xí)(Imitation learning)[21]等。

        其中,基于模仿學(xué)習(xí)的預(yù)訓(xùn)練是指在強化學(xué)習(xí)之前,使用監(jiān)督學(xué)習(xí)方法對策略模型進行初始化的過程。這一過程實際上是一個構(gòu)建策略模型的“狀態(tài)-動作”映射的擬合過程,而示例軌跡中每一步的{狀態(tài),動作}都作為用來擬合的樣本。本文針對PPO算法提出一種基于模仿學(xué)習(xí)的預(yù)訓(xùn)練算法(見算法A3),通過人工提供若干優(yōu)秀的動作軌跡示例(擁有高累積回報的動作序列),訓(xùn)練策略模型盡可能復(fù)現(xiàn)這些示例,從而為強化學(xué)習(xí)算法提供較為合理的初始策略模型和價值函數(shù)模型。

        在RAE2822的完全樹中選取若干個總回報較高的軌跡作為示例,詳見表A1。表A1中每個修型步的參數(shù)以{t1,hb,sb}的形式給出。圖5顯示了示例5的各個修型步的鼓包函數(shù)分布和相應(yīng)翼型的壁面馬赫數(shù)Maw分布,其中上方的封閉曲線為壁面馬赫數(shù)分布,下方的鼓包曲線為修型中的鼓包函數(shù)幾何。示例5為總回報較高且壁面馬赫數(shù)分布較為光滑的一個示例,可以看出其修型策略為:首先在前緣附近向外凸起以提高吸力平臺對升力的貢獻,從而可以減弱激波;其次在激波前方下凹,試圖減弱波前的流動加速;最后在波后上凸,以增大波后背壓,從而減弱激波。

        圖5 修型過程中的壁面馬赫數(shù)分布和 相應(yīng)的鼓包幾何Fig.5 Wall Mach number distributions and bump geometries during bump modification

        圖6給出了預(yù)訓(xùn)練中的模型擬合殘差收斂過程,其中各曲線分別使用表A1中前10組、4組和1組 示例來擬合策略模型,圖中3條殘差收斂曲線均為10次預(yù)訓(xùn)練過程的平均值。預(yù)訓(xùn)練的學(xué)習(xí)率(Learning rate)為0.005,迭代步數(shù)(Iteration)為200,模型初始參數(shù)為隨機生成得到,訓(xùn)練算法為適應(yīng)性矩估計算法(Adam)。由于預(yù)訓(xùn)練使用的模擬學(xué)習(xí)是一個對“狀態(tài)-動作”映射的擬合過程,因此應(yīng)該保證一個狀態(tài)有且只有一個動作與之相對應(yīng),這樣才有可能使訓(xùn)練誤差有效下降。否則,若相同的狀態(tài)對應(yīng)2個不同的動作,那么擬合模型不可能同時準(zhǔn)確表達2個樣本,則訓(xùn)練誤差較大。因此,在選取示例時,在相同狀態(tài)下盡可能地選取相近的動作,以保證策略初始化中神經(jīng)網(wǎng)絡(luò)訓(xùn)練的有效性。從圖6中可以看出使用較少的示例可以降低樣本中同一狀態(tài)對應(yīng)不同動作的可能性,因此可以有效地降低訓(xùn)練誤差,而使用更多的示例時,訓(xùn)練誤差很難進一步下降。

        表A1 模仿學(xué)習(xí)中的鼓包修型示例Table A1 Bump modification examples for imitation learning

        圖6 預(yù)訓(xùn)練中模型殘差收斂曲線Fig.6 Loss convergence of pretraining process

        另一方面,更多的示例能涵蓋更多的狀態(tài),而過少的樣本更容易導(dǎo)致過擬合。將上述預(yù)訓(xùn)練得到的初始策略模型在訓(xùn)練環(huán)境中進行測試,統(tǒng)計結(jié)果見表A2。表A2記錄了10次預(yù)訓(xùn)練的結(jié)果,其中最后1行是10次的平均值。表A2中每行記錄該次預(yù)訓(xùn)練得到的模型在訓(xùn)練環(huán)境中500次測試的累積回報的平均值和最優(yōu)值。表A2中的6列數(shù)據(jù)分為3組,分別是使用不同數(shù)量示例時的預(yù)訓(xùn)練結(jié)果,與圖6中的殘差收斂過程相對應(yīng)。

        可以看出使用不同數(shù)量示例時,表A2最后1行數(shù)據(jù)中的最優(yōu)累積回報都能達到較高的值,即各個模型都有一定概率能夠復(fù)現(xiàn)示例演示的軌跡。但由于使用了隨機策略,因此有很大可能會進入示例未涵蓋的狀態(tài)。這些狀態(tài)下的動作是由擬合得到的初始策略模型預(yù)測給出,因而需要避免模型過擬合以保證動作預(yù)測的合理性。使用10組示例時樣本數(shù)量更多,更不容易過擬合,因而平均累積回報更高。但是總體而言,表A2中各個初始策略模型的魯棒性都不是很好,平均累積回報都較低。因此,需要使用強化學(xué)習(xí)算法對策略模型進行進一步改進。

        4.2 初始策略對強化學(xué)習(xí)的影響

        將4.1節(jié)中預(yù)訓(xùn)練得到的初始策略模型在訓(xùn)練環(huán)境中進行強化學(xué)習(xí),迭代步數(shù)為200。強化學(xué)習(xí)的每一步迭代(Iteration)中,基于當(dāng)前策略完成nτ=50條軌跡,并統(tǒng)計每一步迭代中nτ條軌跡的累積回報的平均值。每一步迭代在獲得nτ條軌跡后,基于PPO算法利用這些軌跡對策略模型進行改進,其中Adam算法步數(shù)為10,學(xué)習(xí)率為 0.000 01。

        圖7中展示了強化學(xué)習(xí)過程中減阻量的提升過程,圖中曲線為重復(fù)10次強化學(xué)習(xí)的平均值。圖7縱坐標(biāo)的平均累積回報即為每一步迭代中nτ條修型軌跡的減阻量的平均值;橫坐標(biāo)表示迭代步數(shù)(Iteration,在強化學(xué)習(xí)中也稱一條軌跡為一個Episode,因此強化學(xué)習(xí)研究中Episode值為nτ×Iteration)。圖7中的不同顏色曲線表示基于不同初始策略的強化學(xué)習(xí)過程。雖然從圖6中可以看出使用不同數(shù)量的示例對預(yù)訓(xùn)練模型的平均累積回報影響較小,但圖7表明示例選取對于強化學(xué)習(xí)訓(xùn)練過程有較大影響。示例數(shù)量更多,多樣性適度增加有利于提高強化學(xué)習(xí)的效率,減小訓(xùn)練過程的方差。

        圖7 強化學(xué)習(xí)訓(xùn)練過程的平均累計回報收斂曲線Fig.7 Convergence curves of average cumulative reward during reinforcement learning process

        表A3展示了在表A2的10個初始策略模型的基礎(chǔ)上進行強化學(xué)習(xí)的結(jié)果,其中最后1行是10次強化學(xué)習(xí)的平均值。表A3中每行都是該次強化學(xué)習(xí)得到的模型在訓(xùn)練環(huán)境中500次測試的累積回報的平均值和最優(yōu)值。表A3中的6列數(shù)據(jù)分為3組,與表A2相對應(yīng)??梢钥闯?,強化學(xué)習(xí)后的最優(yōu)累積回報都可能達到較高的值,但使用較少示例時累積回報平均值較低,方差較大,也就是說策略模型的魯棒性較差,隨機性過強。因此,使用更多的示例進行預(yù)訓(xùn)練對強化學(xué)習(xí)形成更為魯棒的策略更有利。

        表A2 預(yù)訓(xùn)練模型的累積回報Table A2 Cumulative rewards of pretrained models

        表A3 強化學(xué)習(xí)模型的累積回報Table A3 Cumulative rewards of reinforcement learning models

        4.3 強化學(xué)習(xí)策略的遷移應(yīng)用

        強化學(xué)習(xí)獲得的策略是根據(jù)當(dāng)前翼型的激波位置、強度和前緣吸力峰來選擇鼓包參數(shù),從4.1節(jié)預(yù)訓(xùn)練中的示例軌跡可以看出,這種策略有一定的物理基礎(chǔ),因而在類似的問題中具有遷移能力。本節(jié)對增量修型中基礎(chǔ)翼型的來流馬赫數(shù)Ma∞、升力系數(shù)CL、厚度和彎度進行改變,形成相應(yīng)的測試環(huán)境,討論強化學(xué)習(xí)得到的策略的遷移能力。此時,測試環(huán)境的算法2中的2~3步無法通過查表法實現(xiàn),只能使用CFD計算。

        在遷移應(yīng)用中,為提高策略的魯棒性,將隨機策略的高斯分布標(biāo)準(zhǔn)差由訓(xùn)練中使用的0.03提高至0.05,增量修型步數(shù)取為5。使用策略模型在每個測試環(huán)境下進行20次測試,記錄每次測試獲得軌跡的最大減阻量,并統(tǒng)計20條軌跡的最優(yōu)值和平均值。

        表A4展示了RAE2822作為基礎(chǔ)翼型在其他工況下的阻力系數(shù)CD0,策略遷移應(yīng)用的最大減阻量的最優(yōu)值、平均值和步數(shù)。表A4中最大減阻量的步數(shù)反映了該策略模型在測試環(huán)境中實際起作用的步數(shù),即有效修型步數(shù)。也就是說,在有效修型步數(shù)之后,策略模型給出的動作無法進一步減阻,策略失效。表A4中編號0是強化學(xué)習(xí)模型在其訓(xùn)練環(huán)境中的表現(xiàn),其余各行的測試環(huán)境與訓(xùn)練環(huán)境有不同的來流馬赫數(shù)或升力系數(shù),相應(yīng)的基礎(chǔ)翼型的壁面馬赫數(shù)分布見圖8。從圖中可以看出在不同的工況下,基礎(chǔ)翼型的流動形態(tài)比較相似,但是激波位置和強度、前緣吸力峰有所區(qū)別。表A4結(jié)果顯示相比于訓(xùn)練環(huán)境有更強激波的工況下,減阻量更大,有效的修型步數(shù)更多。對于激波更弱的情形,強化學(xué)習(xí)模型也能夠?qū)崿F(xiàn)減阻,但在5步修型中一般只有前1~2步有效,后續(xù)的修型步對阻力沒有改善。

        表A4 強化學(xué)習(xí)模型在其他工況下的修型累積回報和修型步數(shù)Table A4 Cumulative rewards and steps of reinforcement learning models in other flight conditions

        圖8 RAE2822翼型在不同工況下的壁面馬赫數(shù)分布Fig.8 Wall Mach number distributions of RAE2822 airfoil in different flight conditions

        表A5展示了在Ma∞=0.73,CL=0.70工況下不同基礎(chǔ)翼型的結(jié)果。其中通過對翼型上下表面進行等比例放縮改變基礎(chǔ)翼型的最大相對厚度tmax。對翼型彎度的改變是對翼型上表面CST參數(shù)放縮rcamber倍,保持下表面CST參數(shù)不變。由于得到的翼型的相對厚度發(fā)生了變化,對該翼型上下表面再等比例放縮,將最大相對厚度調(diào)整到原始值。圖9展示了相應(yīng)編號的基礎(chǔ)翼型幾何。與改變工況的測試環(huán)境類似,強化學(xué)習(xí)模型在RAE2822翼型幾何變形后的測試環(huán)境中大多能夠獲得有效的減阻修型效果。在激波較弱的情形下減阻量相對較小,尤其是第5組測試中策略失效,說明在使用由單個基礎(chǔ)翼型的三步修型構(gòu)成的翼型樹作為訓(xùn)練環(huán)境時,強化學(xué)習(xí)得到的修型策略適用范圍有一定的局限性。但對于大部分情形,尤其是激波較強的情形,修型有效步數(shù)更多,減阻量更大。

        圖9 不同翼型的幾何和壁面馬赫數(shù)分布Fig.9 Geometries and wall Mach number distributions of different airfoils

        從上面的測試環(huán)境中強化學(xué)習(xí)模型的遷移應(yīng)用可以看出,不同基礎(chǔ)翼型和工況下的軌跡經(jīng)歷的流動形態(tài)是不同的,因此策略模型會根據(jù)具體的狀態(tài)參數(shù)(即激波位置、強度和前緣吸力峰)選取鼓包的位置、寬度和高度進行修型,因此采取的動作與預(yù)訓(xùn)練中的示例也會有所不同。圖10展示了表A5中編號1和8兩組測試中的最優(yōu)修型軌跡,可以看出策略模型根據(jù)所處狀態(tài)對動作的調(diào)整。其中上方的封閉曲線為壁面馬赫數(shù)分布,下方的鼓包曲線為修型中的鼓包函數(shù)幾何。圖10(a) 中第1步試圖抬高前緣附近的吸力,但前緣吸力峰反而下降,因而第2步采用相反動作,進而在第3步增大吸力平臺逆壓梯度,從而減弱激波和減小阻力。圖10(b)則在波前連續(xù)使用下凹的鼓包,從而有效減弱激波。以上2種策略與預(yù)訓(xùn)練中的示例均有所不同,體現(xiàn)出強化學(xué)習(xí)的策略對不同狀態(tài)的適應(yīng)能力和模型的遷移能力。

        表A5 強化學(xué)習(xí)模型在其他翼型幾何上的修型累積回報和修型步數(shù)Table A5 Cumulative rewards and steps of reinforcement learning models for other baseline airfoils

        圖10 策略測試中軌跡的壁面馬赫數(shù)分布 和鼓包幾何Fig.10 Wall Mach number distributions and bump geometries during policy tests

        5 結(jié) 論

        本文針對設(shè)計師在氣動修型中的經(jīng)驗積累過程,提出并實現(xiàn)了基于強化學(xué)習(xí)獲得氣動修型策略模型的訓(xùn)練方法。整理了強化學(xué)習(xí)在氣動優(yōu)化設(shè)計中應(yīng)用的相關(guān)概念,并針對翼型減阻問題給出了強化學(xué)習(xí)環(huán)境的搭建方法,最終獲得了幾何增量修型的策略模型,并對策略模型進行了分析與遷移應(yīng)用測試,得到了以下幾點結(jié)論:

        1) 預(yù)訓(xùn)練中,使用基于示例的模仿學(xué)習(xí)獲得的初始策略模型在訓(xùn)練環(huán)境中的修型表現(xiàn)方差很大,且平均減阻量只有3~4 counts。不同數(shù)量的示例對策略的魯棒性改進有限,且提供合理、優(yōu)秀的示例較為困難。

        2) 預(yù)訓(xùn)練能夠有效提高強化學(xué)習(xí)的訓(xùn)練效率。使用較少的示例容易導(dǎo)致預(yù)訓(xùn)練時模型過擬合,強化學(xué)習(xí)效率無法提高;雖然更多的示例會導(dǎo)致預(yù)訓(xùn)練的訓(xùn)練誤差難以降低,但能夠有效提高強化學(xué)習(xí)效率。強化學(xué)習(xí)得到的策略模型的表現(xiàn)更加魯棒,能夠?qū)崿F(xiàn)三步修型平均減阻12 counts的減阻效果。

        3) 強化學(xué)習(xí)得到的策略模型具有一定的推廣能力。將得到的策略模型遷移使用到其他來流工況或基礎(chǔ)翼型的環(huán)境中進行測試,在大部分情形能夠?qū)崿F(xiàn)有效減阻。

        上述研究結(jié)果表明,強化學(xué)習(xí)具有學(xué)習(xí)氣動修型策略的能力,且能夠根據(jù)不同的翼型和工況采取相應(yīng)的動作實現(xiàn)減阻。因此,在經(jīng)過更加充分的訓(xùn)練后,強化學(xué)習(xí)有潛力獲得能夠適用任意超臨界翼型的修型策略,從而極大提高優(yōu)化設(shè)計效率。

        猜你喜歡
        動作優(yōu)化策略
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        動作描寫要具體
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        畫動作
        動作描寫不可少
        东京热加勒比久久精品| 久久精品亚洲熟女av蜜謦| 风韵人妻丰满熟妇老熟女视频| 久久久免费看少妇高潮| 少妇被粗大的猛烈进出免费视频| 国产卡一卡二卡三| 久久综合给日咪咪精品欧一区二区三 | 波多野结衣一区二区三区免费视频| 国产无遮挡又黄又爽无VIP| 一个人看的在线播放视频| 在线视频中文字幕一区二区三区| 深夜爽爽动态图无遮无挡| 人妻少妇偷人精品无码| 欧美尺寸又黑又粗又长| 亚洲av日韩精品久久久久久 | 人妻熟妇乱又伦精品视频| 先锋中文字幕在线资源| 色av综合av综合无码网站| 免费国产黄线在线播放| 久久精品国产白丝爆白浆| 久久老熟女一区二区三区福利| 又粗又大又硬毛片免费看| 青草视频在线播放| 国产激情对白一区二区三区四 | 少妇人妻系列中文在线| 一本色道久久88—综合亚洲精品 | 97一区二区国产好的精华液 | 香蕉视频一级片| 中文国产成人精品久久一区| 青青草视频在线免费视频| 少妇真人直播免费视频| 亚洲欧洲无码一区二区三区| 久久久久人妻精品一区5555| 三级日本理论在线观看| 亚洲国产成人片在线观看| 精品视频999| 美女性色av一区二区三区| 粗大的内捧猛烈进出看视频| 人人澡人人澡人人看添av| 国产免费人成视频在线播放播| 日韩一本之道一区中文字幕|