亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度強(qiáng)化學(xué)習(xí)在翼型分離流動(dòng)控制中的應(yīng)用

        2022-07-14 02:16:50姚張奕史志偉董益章
        實(shí)驗(yàn)流體力學(xué) 2022年3期
        關(guān)鍵詞:吹氣后緣流動(dòng)

        姚張奕,史志偉,董益章

        南京航空航天大學(xué) 非定??諝鈩?dòng)力學(xué)與流動(dòng)控制工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,南京 210016

        0 引 言

        人類(lèi)大腦理解、分類(lèi)信息并進(jìn)行學(xué)習(xí)的過(guò)程一直是人們研究的熱點(diǎn)。在人工智能(AI)研究領(lǐng)域,創(chuàng)造出一種能夠像人類(lèi)大腦一樣自行學(xué)習(xí)決策的算法是科學(xué)家研究的重要目標(biāo)。追溯到20世紀(jì)80年代末,Sutton提出的強(qiáng)化學(xué)習(xí)(RL)算法框架給出了可行性答案。在這個(gè)框架中,智能體通過(guò)與環(huán)境進(jìn)行互動(dòng)獲得獎(jiǎng)勵(lì)來(lái)積累經(jīng)驗(yàn)、自我學(xué)習(xí)。

        近年來(lái),深度神經(jīng)網(wǎng)絡(luò)的興起給強(qiáng)化學(xué)習(xí)提供了強(qiáng)大的新工具。深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合,稱(chēng)為“深度強(qiáng)化學(xué)習(xí)(DRL)”,其通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)高維狀態(tài)空間進(jìn)行特征提取和函數(shù)擬合,消除了經(jīng)典強(qiáng)化學(xué)習(xí)的主要障礙。當(dāng)前,DRL 在多個(gè)領(lǐng)域都展現(xiàn)了前所未有的強(qiáng)大潛力,不但能夠進(jìn)行機(jī)器人控制和自然語(yǔ)言處理,還在多種游戲(Atari 游戲、Go、Dota II、Starcraft II、Poker等)中都達(dá)到了高手的水平。與此同時(shí),DRL 也被應(yīng)用到工業(yè)中,如韋夫(Wayve)公司通過(guò)實(shí)驗(yàn)和仿真來(lái)訓(xùn)練自動(dòng)駕駛汽車(chē),Google 使用DRL 來(lái)控制其數(shù)據(jù)中心的散熱。

        流動(dòng)分離作為流動(dòng)控制中的經(jīng)典問(wèn)題,一直是學(xué)者們研究的熱點(diǎn)。對(duì)機(jī)翼分離流控制技術(shù)的研究主要集中在邊界層吹吸氣控制方面。吹氣控制方式主要有直接吹氣(含非定常吹氣和微量吹氣等)控制和前緣縫翼控制2 種。Chng 等對(duì)Clark-Y 翼型進(jìn)行吹吸氣控制,將吹氣控制裝置設(shè)置在翼型前緣附近,沿流向吹氣,將吸氣控制裝置設(shè)置在翼型后緣附近,沿流向吸氣;實(shí)驗(yàn)結(jié)果表明,進(jìn)行吹吸氣控制后,翼型的流動(dòng)分離被抑制,氣動(dòng)特性明顯提升。Coiro 等對(duì)機(jī)翼表面的分離流動(dòng)采用非定常吹氣控制進(jìn)行研究,將非定常吹氣裝置安裝在機(jī)翼上表面的中間部位,總結(jié)了無(wú)量綱激勵(lì)頻率和動(dòng)量系數(shù)對(duì)非定常吹氣控制效果的影響,將實(shí)驗(yàn)結(jié)果與數(shù)值模擬結(jié)果對(duì)比,證明該吹氣控制方式具有良好的控制效果。

        近年來(lái),深度強(qiáng)化學(xué)習(xí)也被應(yīng)用在流動(dòng)控制領(lǐng)域。Verma 等使用DRL 模擬魚(yú)群在復(fù)雜流場(chǎng)中的游動(dòng),訓(xùn)練出一個(gè)“聰明的游泳者”,能通過(guò)調(diào)整自身位置和身體變形與迎面而來(lái)的渦流動(dòng)量同步,提高游泳效率。東京大學(xué)的Shimomura 等在NACA-0015 翼型上采用介質(zhì)阻擋放電(Dielectric Barrier Discharge,DBD)等離子體激勵(lì)器對(duì)翼型進(jìn)行了閉環(huán)分離控制實(shí)驗(yàn),采用DRL 算法對(duì)激勵(lì)器的激勵(lì)頻率進(jìn)行優(yōu)化選擇,證明在不同迎角下使用DRL 算法訓(xùn)練的網(wǎng)絡(luò)可以選擇最優(yōu)頻率。Guéniat 等對(duì)圓柱繞流控制進(jìn)行了嘗試,在仿真環(huán)境下使用RL 算法對(duì)流動(dòng)進(jìn)行控制,實(shí)現(xiàn)了減阻的效果。Pivot 等采用計(jì)算仿真方法,模擬低雷諾數(shù)(Re=200)二維圓柱繞流流場(chǎng),通過(guò)RL 算法控制圓柱的自旋轉(zhuǎn)從而抑制尾跡區(qū)的流動(dòng),達(dá)到減阻目的(減阻率約為17%)。Xu 等在圓柱后方上下布置2 個(gè)相同的小圓柱,在Re=240 時(shí)使用DRL 算法訓(xùn)練網(wǎng)絡(luò),通過(guò)控制小圓柱的自旋轉(zhuǎn)來(lái)抑制尾流的分離。Rabault 與Tang等也采用計(jì)算仿真方法模擬了低雷諾數(shù)下二維圓柱繞流流場(chǎng),通過(guò)在圓柱上下端點(diǎn)處加裝射流孔,對(duì)圓柱進(jìn)行零質(zhì)量射流控制;仿真結(jié)果表明,使用DRL 算法訓(xùn)練的網(wǎng)絡(luò)成功地穩(wěn)定了卡門(mén)渦街,且圓柱受到的阻力也降低了約8%。由此可見(jiàn),深度強(qiáng)化學(xué)習(xí)正作為一種可行的控制策略,逐漸與流動(dòng)控制領(lǐng)域的研究相結(jié)合。

        本研究的目的是設(shè)計(jì)一種基于深度強(qiáng)化學(xué)習(xí)算法的閉環(huán)控制系統(tǒng),該系統(tǒng)可以根據(jù)流場(chǎng)中的翼型表面壓力系數(shù)選擇合適的前緣吹氣量,抑制大迎角下的流動(dòng)分離,實(shí)現(xiàn)非定常吹氣,減小系統(tǒng)的吹氣量。實(shí)驗(yàn)中,NACA0012 翼型以固定的迎角放置于流場(chǎng)中,選擇深度強(qiáng)化學(xué)習(xí)中性能優(yōu)異的TD3(Twin Delayed Deep Deterministic Policy Gradients)算法作為控制系統(tǒng)的核心驅(qū)動(dòng),由壓力傳感器測(cè)得的表面壓力實(shí)時(shí)數(shù)據(jù)以及智能體自身的動(dòng)作輸出作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),通過(guò)迭代實(shí)驗(yàn)使智能體自我學(xué)習(xí)抑制流動(dòng)分離的最佳控制策略。

        1 實(shí)驗(yàn)方案

        1.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)在南京航空航天大學(xué)(NUAA)非定??諝鈩?dòng)力學(xué)實(shí)驗(yàn)室的1 m 非定常低噪聲低湍流度風(fēng)洞中進(jìn)行。風(fēng)洞為開(kāi)口風(fēng)洞,實(shí)驗(yàn)段開(kāi)口為1.5 m(寬)×1.0 m(高)。實(shí)驗(yàn)?zāi)P蜑槎SNACA0012 翼型,弦長(zhǎng)200 mm,展長(zhǎng)400 mm,模型上表面布置了6 個(gè)測(cè)壓孔,測(cè)壓孔均勻分布在機(jī)翼中部,相鄰孔之間的距離為20 mm,與前緣的距離分別為弦長(zhǎng)c 的20%、30%、40%、50%、80%、90%,如圖1所示。實(shí)驗(yàn)風(fēng)速10 m/s,基于弦長(zhǎng)定義的雷諾數(shù)為1.36×10,機(jī)翼迎角16°。射流激勵(lì)器采用沿翼型上表面均勻吹氣的形式,氣體從模型側(cè)邊通入,經(jīng)一級(jí)緩沖區(qū)和二級(jí)緩沖區(qū)(設(shè)2 個(gè)緩沖區(qū)的目的是保證激勵(lì)器出口氣體速度基本一致),從翼型上表面吹出。激勵(lì)器的位置如圖1所示,與前緣的距離為弦長(zhǎng)的10%,射流縫高1 mm,射流出口方向與翼型弦線成30°夾角。射流出口速度由電磁比例閥(PVQ 系列)進(jìn)行無(wú)級(jí)控制,控制頻率為100 Hz,出口速度與電磁比例閥控制信號(hào)(即電壓信號(hào))正相關(guān),范圍為0~22 m/s,如圖2所示。機(jī)翼表面的壓力系數(shù)由動(dòng)態(tài)壓力傳感器(MS4515DO 系列)通過(guò)測(cè)壓孔測(cè)得,采樣頻率為100 Hz,準(zhǔn)確度為±0.25%。本文通過(guò)補(bǔ)償微壓計(jì)給出9 個(gè)標(biāo)準(zhǔn)壓力點(diǎn),使用壓力傳感器進(jìn)行了7 次重復(fù)性測(cè)試,絕對(duì)誤差為±0.2 Pa,如圖3所示。

        圖1 翼型截面Fig.1 Airfoil section view

        圖2 電壓與射流出口速度對(duì)應(yīng)關(guān)系Fig.2 Correspondence between voltage and jet velocity

        圖3 傳感器重復(fù)性測(cè)試Fig.3 Sensor repeatability test

        1.2 深度強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)通常被定義為在馬爾科夫決策鏈(MDP)下尋找最優(yōu)策略從而獲得最高累積獎(jiǎng)勵(lì)的問(wèn)題。馬爾科夫決策鏈可以由1 個(gè)元組(,,P,)表示,其中S 和A 分別表示狀態(tài)空間和動(dòng)作空間;P為狀態(tài)轉(zhuǎn)移分布,表示在狀態(tài)s 下采取動(dòng)作a 后轉(zhuǎn)移到新?tīng)顟B(tài)s的概率分布;R 表示在狀態(tài)s 下采取動(dòng)作a 后獲得的獎(jiǎng)勵(lì)。

        圖4 強(qiáng)化學(xué)習(xí)的基本框架Fig.4 The basic framework of reinforcement learning

        強(qiáng)化學(xué)習(xí)的目的就是要找出最佳的策略π,從而最大化長(zhǎng)期回報(bào)()=E[]。其中,表示策略的相關(guān)參數(shù),p則是MDP 中的狀態(tài)轉(zhuǎn)移分布。因此,學(xué)習(xí)的目標(biāo)是找到一組參數(shù)(*)可以使目標(biāo)函數(shù)J()最大化。策略梯度法是通過(guò)估計(jì)?J(),然后執(zhí)行梯度上升算法找到網(wǎng)格參數(shù)*。?J()可以估算為:

        式中,Qs,a)表示從s開(kāi)始行動(dòng)、遵循策略做出動(dòng)作a后獲得的預(yù)期回報(bào),一般稱(chēng)之為Q 函數(shù)。與之相關(guān)的還有值函數(shù)V s),表示從s開(kāi)始、遵循策略所能獲得的預(yù)期回報(bào)。Q 函數(shù)與值函數(shù)的相關(guān)表達(dá)式以及它們之間的關(guān)系如下:

        本研究采用的深度強(qiáng)化學(xué)習(xí)算法為T(mén)D3 算法。該算法包含了6 個(gè)深度神經(jīng)網(wǎng)絡(luò)(1 個(gè)Actor 網(wǎng)絡(luò)、2 個(gè)Critic 網(wǎng)絡(luò)以及各自對(duì)應(yīng)的Target 網(wǎng)絡(luò))。TD3算法設(shè)置2 個(gè)Critic 網(wǎng)絡(luò),可有效緩解Q 函數(shù)值(簡(jiǎn)稱(chēng)Q 值)高估的問(wèn)題,延遲Actor 網(wǎng)絡(luò)的更新,減少積累誤差,從而降低方差。此外,還引入了一種SARSA 型正則化技術(shù),通過(guò)改變時(shí)序差分目標(biāo)自舉出相似的狀態(tài)動(dòng)作對(duì)。

        1.3 基于深度強(qiáng)化學(xué)習(xí)的控制策略控制

        圖5為翼型流動(dòng)分離的閉環(huán)控制系統(tǒng)示意圖,圖中C為壓力系數(shù)。在實(shí)驗(yàn)中,狀態(tài)空間分為2 種:第1 種是翼型上表面距前緣40%、90%弦長(zhǎng)位置的壓力系數(shù);第2 種在第1 種的基礎(chǔ)上額外增加智能體的動(dòng)作輸出,即將智能體的動(dòng)作輸出也納入到觀測(cè)環(huán)境中。為了提高智能體的動(dòng)態(tài)性能,智能體的輸入不僅包括當(dāng)前時(shí)刻的觀測(cè)量S,還會(huì)往前追加4 步,即智能體的實(shí)際觀測(cè)量為{S,S,SS,S}。動(dòng)作空間為施加在電磁比例閥上的電壓,體現(xiàn)為射流出口速度。射流激勵(lì)器的控制信號(hào)為0~5 V,對(duì)應(yīng)的射流出口速度為0~22 m/s;激勵(lì)器的控制頻率為100 Hz。

        圖5 閉環(huán)控制系統(tǒng)示意圖Fig.5 Schematics of the closed-loop control system

        后緣附近的壓力系數(shù)能夠反映流動(dòng)分離是否被抑制。當(dāng)氣流附著到機(jī)翼表面時(shí),由于壓力恢復(fù),后緣的壓力系數(shù)C會(huì)接近于零。因此,獎(jiǎng)勵(lì)值R通過(guò)機(jī)翼后緣處(距前緣90%弦長(zhǎng))給出,獎(jiǎng)勵(lì)函數(shù)可設(shè)置為2 類(lèi):

        第1 類(lèi)為離散型獎(jiǎng)勵(lì)函數(shù):

        式中,C為懲罰系數(shù),C為函數(shù)分段點(diǎn)。依據(jù)流動(dòng)分離是否被抑制,將獎(jiǎng)勵(lì)離散為0 和1,同時(shí)附加一個(gè)額外的懲罰項(xiàng)CA,用于懲罰吹氣量的大小,輸出動(dòng)作越大,懲罰項(xiàng)會(huì)越大。圖6顯示了迎角16°時(shí),距前緣90%弦長(zhǎng)處的壓力系數(shù)的時(shí)間變化圖。圖中,射流激勵(lì)器在第4 s 時(shí)以最大的動(dòng)作(5 V)啟動(dòng),壓力系數(shù)從–0.50 增加到–0.05,流動(dòng)分離被抑制。根據(jù)該結(jié)果,將C設(shè)定為–0.30,當(dāng)距前緣90%弦長(zhǎng)處壓力系數(shù)大于–0.30 時(shí),可以認(rèn)為流動(dòng)分離已經(jīng)被抑制或者一定程度上被抑制。

        圖6 翼型后緣壓力系數(shù)隨時(shí)間變化Fig.6 Time variation of the pressure coefficient of the airfoil trailing edge

        第2 類(lèi)為連續(xù)型獎(jiǎng)勵(lì)函數(shù):

        當(dāng)后緣處的壓力系數(shù)C越接近目標(biāo)壓力系數(shù)C時(shí),智能體得到的獎(jiǎng)勵(lì)值越接近于0;當(dāng)后緣處的壓力系數(shù)C越偏離目標(biāo)壓力系數(shù)C時(shí),智能體會(huì)得到一個(gè)更大的負(fù)值;同時(shí),智能體還附加有吹氣的懲罰量。

        離散型獎(jiǎng)勵(lì)函數(shù)的目標(biāo)是抑制翼型的流動(dòng)分離,而連續(xù)型獎(jiǎng)勵(lì)函數(shù)的目標(biāo)則是希望對(duì)后緣處的壓力系數(shù)進(jìn)行精確控制。

        圖7展示了智能體的簡(jiǎn)要學(xué)習(xí)流程,圖中L()為網(wǎng)絡(luò)參數(shù)的損失函數(shù)。每一個(gè)完整的時(shí)間步包含了控制部分和訓(xùn)練部分。在開(kāi)始的時(shí)間節(jié)點(diǎn)上,智能體根據(jù)測(cè)壓孔測(cè)量的翼型表面壓力系數(shù)S和Actor 網(wǎng)絡(luò)給出的電磁比例閥控制信號(hào)A來(lái)控制翼型前部的射流速度;在結(jié)束的時(shí)間節(jié)點(diǎn)上測(cè)得翼型表面壓力系數(shù)S,根據(jù)設(shè)置的獎(jiǎng)勵(lì)函數(shù)返回一個(gè)獎(jiǎng)勵(lì)值R;將{S,AR,S作為一組數(shù)據(jù)存入經(jīng)驗(yàn)池B 中。訓(xùn)練部分即從經(jīng)驗(yàn)池中隨機(jī)選擇一批數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),對(duì)Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)進(jìn)行參數(shù)更新,而Target 網(wǎng)絡(luò)則根據(jù)相應(yīng)網(wǎng)絡(luò)參數(shù)的變化進(jìn)行平滑更新。

        圖7 智能體簡(jiǎn)要學(xué)習(xí)流程Fig.7 TD3 algorithm learning process

        2 結(jié)果與討論

        在實(shí)驗(yàn)中,對(duì)于訓(xùn)練的智能體而言,訓(xùn)練前沒(méi)有獲得任何的先驗(yàn)知識(shí),初始化的智能體輸出在給定輸出范圍的中值(2.5 V)附近。實(shí)驗(yàn)每一幕為500 個(gè)時(shí)間步,即5 s。每一幕的總獎(jiǎng)勵(lì)值被定義為500 個(gè)時(shí)間步獲得的總獎(jiǎng)勵(lì)值。在訓(xùn)練過(guò)程中,由于每一次輸出動(dòng)作都會(huì)附加一個(gè)隨機(jī)噪聲,總獎(jiǎng)勵(lì)值并不能準(zhǔn)確地表示智能體的性能,因此在每訓(xùn)練20 幕之后增加測(cè)試環(huán)節(jié)。由于獎(jiǎng)勵(lì)函數(shù)不同,智能體每一幕獲得的總獎(jiǎng)勵(lì)值也不盡相同,因此下文中的總獎(jiǎng)勵(lì)值均經(jīng)過(guò)統(tǒng)一化處理,以離散型獎(jiǎng)勵(lì)、C=0010為計(jì)算方式。實(shí)驗(yàn)探究了觀測(cè)量改變(2 種方式,即僅以翼型表面壓力數(shù)據(jù)作為觀測(cè)量或?qū)⒁硇捅砻鎵毫?shù)據(jù)和智能體自身動(dòng)作一同作為觀測(cè)量)對(duì)智能體性能的影響,獲得了離散型獎(jiǎng)勵(lì)和連續(xù)型獎(jiǎng)勵(lì)下智能體的訓(xùn)練效果,最后對(duì)訓(xùn)練完成的智能體在其他迎角和風(fēng)速下的控制效果進(jìn)行了測(cè)試。

        2.1 獎(jiǎng)勵(lì)值的變化趨勢(shì)圖

        圖8顯示了懲罰系數(shù)C=0.010 時(shí)、離散型獎(jiǎng)勵(lì)下測(cè)試環(huán)節(jié)總獎(jiǎng)勵(lì)值隨幕數(shù)的變化規(guī)律。在訓(xùn)練初始階段,由于初始化的智能體輸出動(dòng)作在2.5 V 附近,射流出口氣體速度低,不能抑制翼型的流動(dòng)分離,無(wú)法獲取流動(dòng)再附帶來(lái)的獎(jiǎng)勵(lì)收益,因此智能體更趨向于降低吹氣量以減小吹氣懲罰,每一幕的總獎(jiǎng)勵(lì)值一直徘徊在0 附近。直到某一刻,一個(gè)巨大的動(dòng)作噪聲將輸出動(dòng)作帶到了5.0 V 附近,射流吹氣量陡然增大,流動(dòng)分離被抑制,智能體學(xué)到了有益的經(jīng)驗(yàn),總獎(jiǎng)勵(lì)值便開(kāi)始上升,隨后穩(wěn)定在250 左右。如圖9所示,此時(shí)在智能體的控制下,翼型表面靠近后緣處的壓力系數(shù)在–0.50~0 之間波動(dòng),輸出動(dòng)作開(kāi)始周期性變化,但是動(dòng)作集中在0 V 附近,智能體傾向于少吹氣。如圖8所示,在60 幕的時(shí)候,智能體達(dá)到了當(dāng)前參數(shù)設(shè)置下的最佳控制策略,隨后獎(jiǎng)勵(lì)值又開(kāi)始下降。

        圖8 測(cè)試環(huán)節(jié)總獎(jiǎng)勵(lì)值隨幕數(shù)變化Fig.8 The total reward value of the test session varies with episodes

        圖9 第20 幕測(cè)試下翼型后緣壓力系數(shù)和輸出電壓隨時(shí)間變化Fig.9 Time variation of the pressure coefficient of the airfoil trailing edge and the output voltage at twentieth episode

        2.2 僅觀測(cè)壓力數(shù)據(jù)的控制結(jié)果對(duì)比

        圖10 展示了僅以翼型表面壓力系數(shù)為觀測(cè)量時(shí)、在不同懲罰系數(shù)下翼型表面后緣處壓力系數(shù)隨時(shí)間的變化和智能體輸出動(dòng)作隨時(shí)間的變化。由于獎(jiǎng)勵(lì)函數(shù)不同,相同時(shí)序后緣壓力系數(shù)在不同獎(jiǎng)勵(lì)函數(shù)下獲得的獎(jiǎng)勵(lì)也有所不同(圖中的總獎(jiǎng)勵(lì)值均經(jīng)過(guò)統(tǒng)一化處理)??梢钥闯觯寒?dāng)懲罰系數(shù)C=0 時(shí),即對(duì)智能體的輸出動(dòng)作不存在懲罰時(shí),智能體毫不猶豫地選擇了以最大動(dòng)作5.0 V 輸出,抑制了流動(dòng)分離;而相對(duì)于定常吹氣,周期性的激勵(lì)肯定是更好的選擇,但是當(dāng)獎(jiǎng)勵(lì)函數(shù)中不存在動(dòng)作的懲罰時(shí),智能體無(wú)法學(xué)到該控制律。當(dāng)懲罰系數(shù)C升高至0.005 時(shí),懲罰項(xiàng)開(kāi)始對(duì)智能體的控制策略產(chǎn)生影響,翼型后緣壓力系數(shù)穩(wěn)定在–0.30 以上,這表明翼型的流動(dòng)分離得到抑制,并且動(dòng)作輸出開(kāi)始周期性波動(dòng),波動(dòng)的區(qū)間限制在2.0~5.0 V。當(dāng)懲罰系數(shù)C=0.010 時(shí),訓(xùn)練出的智能體達(dá)到了最好的性能表現(xiàn),輸出動(dòng)作從0 和5.0 V 開(kāi)始周期性波動(dòng),無(wú)量綱激勵(lì)頻率F=0.13。將智能體10 s 內(nèi)的動(dòng)作輸出進(jìn)行加權(quán)平均后,吹氣量比定常吹氣(5.0 V)減少約52%。當(dāng)懲罰系數(shù)增大至0.020 時(shí),由于懲罰項(xiàng)的占比過(guò)大,智能體難以逃脫低輸出帶來(lái)的低懲罰,陷入局部最優(yōu)難以跳出,智能體的控制策略更傾向于集中在0 V 附近,控制效果不理想。

        圖10 不同懲罰系數(shù)下翼型后緣壓力系數(shù)和輸出電壓隨時(shí)間變化Fig.10 Time variation of airfoil trailing edge pressure coefficient and output voltage with different Ca

        圖11 展示了將獎(jiǎng)勵(lì)函數(shù)設(shè)置為連續(xù)獎(jiǎng)勵(lì)時(shí)、在智能體控制下翼型表面后緣處壓力系數(shù)隨時(shí)間的變化和智能體輸出動(dòng)作隨時(shí)間的變化。將獎(jiǎng)勵(lì)連續(xù)化后,數(shù)值上與離散型獎(jiǎng)勵(lì)相差了一個(gè)數(shù)量級(jí),因而也將懲罰系數(shù)減小了一個(gè)數(shù)量級(jí),獎(jiǎng)勵(lì)函數(shù)R=-|C-(020)0001。由圖可見(jiàn),連續(xù)型獎(jiǎng)勵(lì)設(shè)置下的智能體也訓(xùn)練出周期性的激勵(lì),但是并不能將后緣處壓力系數(shù)穩(wěn)定在目標(biāo)值–0.20 附近,波動(dòng)范圍很大;但是,它也可以將翼型后緣壓力系數(shù)控制在–0.30 以上,只是輸出動(dòng)作在1.6~5.0 V 之間波動(dòng),總獎(jiǎng)勵(lì)值略低于離散型獎(jiǎng)勵(lì)下的控制策略。

        圖11 連續(xù)獎(jiǎng)勵(lì)函數(shù)下翼型后緣壓力系數(shù)和輸出電壓隨時(shí)間變化Fig.11 Time variation of continuous reward function airfoil trailing edge pressure coefficient and output voltage

        由此可見(jiàn),不論是離散型獎(jiǎng)勵(lì),還是連續(xù)型獎(jiǎng)勵(lì),僅以翼型表面壓力數(shù)據(jù)作為觀測(cè)量,訓(xùn)練出的智能體并不能很好地達(dá)到效果。在強(qiáng)化學(xué)習(xí)中,對(duì)算法性能影響較大的因素是決策鏈的馬爾可夫性質(zhì)。馬爾可夫性質(zhì)表示系統(tǒng)下一個(gè)狀態(tài)只和當(dāng)前狀態(tài)有關(guān),而與之前的狀態(tài)無(wú)關(guān)。換言之,根據(jù)當(dāng)前的觀測(cè)量加上動(dòng)作量就可以完全確定未來(lái)狀態(tài)軌跡的分布。而在真實(shí)的動(dòng)力學(xué)系統(tǒng)中,由于存在實(shí)驗(yàn)時(shí)間延遲以及誤差,系統(tǒng)真實(shí)狀態(tài)無(wú)法被完全且準(zhǔn)確地獲取,進(jìn)而導(dǎo)致決策鏈的非馬爾可夫性質(zhì)。下面將在觀測(cè)量中引入智能體以往采取的動(dòng)作量,進(jìn)一步增強(qiáng)系統(tǒng)的馬爾可夫性質(zhì),并對(duì)控制結(jié)果進(jìn)行討論。

        2.3 壓力數(shù)據(jù)與控制動(dòng)作一同作為觀測(cè)量的控制結(jié)果對(duì)比

        將智能體自身的動(dòng)作輸出加入到觀測(cè)量,即觀測(cè)量變?yōu)?.04 s 內(nèi)翼型表面壓力數(shù)據(jù)以及智能體自身動(dòng)作輸出的時(shí)間序列。圖12 展示了將動(dòng)作加入觀測(cè)量后離散獎(jiǎng)勵(lì)函數(shù)下不同懲罰系數(shù)對(duì)智能體最終訓(xùn)練結(jié)果的影響。可以發(fā)現(xiàn),當(dāng)懲罰系數(shù)C= 0.010時(shí),智能體表現(xiàn)出了更加嚴(yán)格的周期性控制,控制頻率更高,并且壓力系數(shù)穩(wěn)定在–0.10 以上,與定常吹氣(5.0 V)效果基本一致,但吹氣量更少,為定常吹氣的50%。而當(dāng)C=0.020 時(shí),智能體則表現(xiàn)出了極致的貪婪,在滿足C> –0.30 的前提下盡可能地減少吹氣,當(dāng)壓力系數(shù)開(kāi)始下降并將降至–0.30 時(shí),智能體才會(huì)提前進(jìn)行一次5.0 V 的動(dòng)作輸出,將壓力系數(shù)拉回。圖13 對(duì)2 種控制律進(jìn)行了傅里葉變換,可以發(fā)現(xiàn),當(dāng)C=0.010 時(shí),傅里葉變換后的幅值P 只有一個(gè)峰值,對(duì)應(yīng)的無(wú)量綱激勵(lì)頻率F=0.50,這表明智能體訓(xùn)練出了一種固定單一頻率的控制律,這種周期性激勵(lì)方式是抑制翼型流動(dòng)分離的一種典型控制律。當(dāng)C=0.020 時(shí),對(duì)控制律進(jìn)行傅里葉變換后,沒(méi)有確定的主導(dǎo)頻率,存在多個(gè)頻率共同作用。

        圖12 離散獎(jiǎng)勵(lì)函數(shù)、不同懲罰系數(shù)下翼型后緣壓力系數(shù)和輸出電壓隨時(shí)間變化Fig.12 Time variation of airfoil trailing edge pressure coefficient and output voltage with different Ca under discrete rewards

        圖13 不同控制律的傅里葉變換Fig.13 Fourier transform of different control laws

        圖14 展示了將獎(jiǎng)勵(lì)函數(shù)設(shè)置為連續(xù)獎(jiǎng)勵(lì)時(shí),不同目標(biāo)壓力系數(shù)C下智能體控制的翼型表面后緣壓力系數(shù)隨時(shí)間的變化和智能體輸出動(dòng)作隨時(shí)間的變化。可以看出,當(dāng)C為-0.10 和-0.20 時(shí),智能體可以將翼型后緣壓力系數(shù)穩(wěn)定地控制在C附近。當(dāng)C=010時(shí),后緣處(0.9 c)壓力系數(shù)起初會(huì)有一點(diǎn)超調(diào)量,隨后便穩(wěn)定在010附近,上下波動(dòng)不超過(guò)±0.03。當(dāng)C=020時(shí),智能體也可以將后緣處(0.9 c)壓力系數(shù)控制在020附近,上下波動(dòng)在±0.05 以?xún)?nèi)。將2 種控制律進(jìn)行傅里葉變換后(圖15)可以發(fā)現(xiàn),兩者都有一個(gè)主導(dǎo)頻率(即F≈0.66),不同的是兩者主頻的幅值。當(dāng)C=010時(shí),在F=0處幅值P=4.0 V,而C=020時(shí)的P=3.0 V,說(shuō)明2 種控制律在基準(zhǔn)動(dòng)作上也有所不同。與僅將壓力系數(shù)作為狀態(tài)輸入相比,加入動(dòng)作量狀態(tài)輸入后,智能體的性能大大提升,能夠根據(jù)獎(jiǎng)勵(lì)函數(shù)的設(shè)置將壓力系數(shù)穩(wěn)定在目標(biāo)值附近。

        圖14 連續(xù)獎(jiǎng)勵(lì)函數(shù)下翼型后緣壓力系數(shù)和輸出電壓隨時(shí)間變化Fig.14 Time variation of continuous reward function airfoil trailing edge pressure coefficient and output voltage

        圖15 不同控制律的傅里葉變換Fig.15 Fourier transform of different control laws

        圖16 為智能體在不同迎角與風(fēng)速條件下的性能表現(xiàn)。智能體是在迎角16°、實(shí)驗(yàn)風(fēng)速10 m/s 的狀態(tài)下進(jìn)行訓(xùn)練的,目標(biāo)壓力系數(shù)C=–0.20。訓(xùn)練完成后,將迎角調(diào)節(jié)為15°和17°,或?qū)?shí)驗(yàn)風(fēng)速調(diào)整為8 和12 m/s。 由圖16(a)~(c)可以看出,在改變風(fēng)速和降低迎角的情況下,智能體可以將翼型后緣壓力系數(shù)穩(wěn)定控制在C附近;相較于訓(xùn)練工況,測(cè)試工況壓力系數(shù)波動(dòng)較大;不同狀態(tài)下,輸出的控制律也有所不同。由此可見(jiàn),通過(guò)訓(xùn)練的智能體具備良好的泛化能力。但是在增大迎角的情況下(圖16(d)),智能體的泛化能力減弱,不能完成后緣壓力系數(shù)穩(wěn)定控制的任務(wù)。

        圖16 不同迎角與風(fēng)速下翼型后緣壓力系數(shù)和輸出電壓隨時(shí)間變化Fig.16 Time variation of airfoil trailing edge pressure coefficient and output voltage under different angles of attack and wind speeds

        3 結(jié) 論

        本文將深度強(qiáng)化學(xué)習(xí)應(yīng)用在翼型分離流的主動(dòng)控制實(shí)驗(yàn)中,在無(wú)需獲取翼型模型的情況下,其能夠根據(jù)獎(jiǎng)勵(lì)函數(shù)完成不同的控制任務(wù)。實(shí)驗(yàn)研究了基于深度強(qiáng)化學(xué)習(xí)算法的射流激勵(lì)器在NACA0012 翼型上的閉環(huán)流動(dòng)控制,對(duì)比了不同狀態(tài)輸入和不同獎(jiǎng)勵(lì)函數(shù)對(duì)控制效果的影響。結(jié)果表明:

        1)基于DRL 算法的閉環(huán)控制系統(tǒng)可以實(shí)現(xiàn)大迎角下流動(dòng)分離的抑制,并且是在沒(méi)有任何先驗(yàn)知識(shí)的情況下完成了控制律的訓(xùn)練。與定常吹氣相比,訓(xùn)練出的非定常吹氣可以在滿足抑制分離的條件下減少50%的吹氣量。在訓(xùn)練過(guò)程中,DRL 算法不僅能訓(xùn)練出典型控制律,還可以發(fā)現(xiàn)新的控制方案。

        2)獎(jiǎng)勵(lì)函數(shù)的設(shè)置對(duì)于智能體的訓(xùn)練效果有很大的影響。離散型獎(jiǎng)勵(lì)中,懲罰系數(shù)的大小直接影響智能體的策略;而采用不同的獎(jiǎng)勵(lì)(離散型和連續(xù)型獎(jiǎng)勵(lì))也會(huì)導(dǎo)致控制效果的差異。

        3)對(duì)于機(jī)翼大迎角流動(dòng)分離這類(lèi)準(zhǔn)周期運(yùn)動(dòng),將動(dòng)作量加入觀測(cè)量可以極大地改善智能體性能。加入動(dòng)作量后,離散型獎(jiǎng)勵(lì)可以訓(xùn)練出更高頻率的控制律,此外還可以在滿足條件的情況下盡可能地減小吹氣量;連續(xù)型獎(jiǎng)勵(lì)訓(xùn)練出的智能體可以將后緣壓力系數(shù)穩(wěn)定控制在目標(biāo)值附近,這是開(kāi)環(huán)控制難以做到的。在改變風(fēng)速和降低迎角的情況下,智能體具有良好的泛化能力。

        猜你喜歡
        吹氣后緣流動(dòng)
        吹氣龍
        流動(dòng)的光
        流動(dòng)的畫(huà)
        烏云
        水陸兩棲飛機(jī)方向舵附面層控制研究
        機(jī)翼后緣連續(xù)變彎度對(duì)客機(jī)氣動(dòng)特性影響
        柔性后緣可變形機(jī)翼氣動(dòng)特性分析
        為什么海水會(huì)流動(dòng)
        TNF-α和PGP9.5在椎體后緣離斷癥軟骨終板的表達(dá)及意義
        流動(dòng)的光線
        中文字幕日韩精品一区二区三区 | 狠狠色欧美亚洲综合色黑a| av一区二区三区有码| 第一次处破女18分钟高清| 国产高清一区二区三区视频| 99热最新在线观看| 日本精品熟妇一区二区三区| 青青河边草免费在线看的视频| 人妻无码中文字幕| 久久亚洲欧洲无码中文| 成人午夜视频在线观看高清| 日韩av一区二区观看| 美女把尿囗扒开让男人添| 国产精品露脸张开双腿| 国产中文字幕亚洲综合| 亚洲美女av一区二区在线| 精品国产一区av天美传媒| 天天躁日日躁狠狠躁一区| 在线观看免费的黄片小视频| 亚洲成av人片不卡无码| 亚洲色欲色欲www在线播放| 99久久这里只精品国产免费| 白嫩少妇高潮喷水av| 国产精品无码久久综合| 国内精品九九久久久精品| 日本精品人妻在线观看| 免费久久久一本精品久久区| 日本无码人妻波多野结衣| 国产91对白在线观看| 亚洲av高清一区二区| 成人午夜福利视频| 久久中文字幕乱码免费| 中文字幕这里都是精品| 夜夜高潮夜夜爽夜夜爱爱一区 | 欧美成人高清手机在线视频| 国产毛片精品av一区二区| 蜜臀av无码人妻精品| 尤物视频一区二区| 日韩一区中文字幕在线| 久久99国产精品久久99| 84pao强力打造免费视频34|