余柏楊,呂宏強,周巖,羅振兵,劉學軍
1.南京航空航天大學 計算機科學與技術(shù)學院/人工智能學院模式分析與機器智能工業(yè)和信息化部重點實驗室,南京 211106
2.空氣動力學國家重點實驗室,綿陽 621000
3.氣動噪聲控制重點實驗室,綿陽 621000
4.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京 210023
5.南京航空航天大學 航空學院,南京 210016
6.國防科技大學 空天科學學院,長沙 410073
流動控制技術(shù)是流體力學研究的前沿和熱點之一,高效的流動控制系統(tǒng)能夠顯著提高飛行器動力性能、節(jié)約大量燃料、降低碳排放。流動控制技術(shù)主要分為被動控制和主動控制2 種方式。被動控制[1]不需要額外的能量,具有控制簡單、易于實現(xiàn)、設計制造成本低的特點。主動控制[2]則是引入輔助能量的控制方式。主動流動控制技術(shù)發(fā)展的核心問題是研制高性能的流動控制激勵器[3],在不同的應用條件和控制目的下,對激勵器的工作性能要求也有所不同,因此獲得激勵器工作性能參數(shù)變化規(guī)律,對激勵器優(yōu)化設計和實際應用意義重大。
在激勵器工作性能參數(shù)研究實驗中,傳統(tǒng)的方法需要對每個工況參數(shù)設置不同數(shù)值,通過大量的對比實驗來研究各個不同參數(shù)對實驗結(jié)果的影響程度,需耗費大量的時間和資源。機器學習[4]的快速發(fā)展為流動控制技術(shù)提供了新的發(fā)展方向。Minelli 等[5]通過遺傳算法實現(xiàn)了高雷諾數(shù)鈍體繞流開環(huán)控制的最優(yōu)參數(shù)預測。Ren 等[6]采用格子Boltzmann 方法求解器第一次還原了層流條件下的控制效果,并對湍流條件下圓柱繞流減阻進行了探究。Rabault 等[7]使用近端策略優(yōu)化方法完成了圓柱減阻的閉環(huán)主動控制。侯宏等[8]在邊界層轉(zhuǎn)捩的主動控制中使用了神經(jīng)網(wǎng)絡模型構(gòu)建了抽吸速度和邊界層轉(zhuǎn)捩位置之間的映射關(guān)系。這些基于機器學習的主動流動控制技術(shù)都取得了比較理想的效果,但其中分析激勵器參數(shù)對控制效果參數(shù)影響的工作較少。因此,本文重點通過已有實驗數(shù)據(jù)研究激勵器參數(shù)和控制效果參數(shù)之間的關(guān)系,分析影響控制效果參數(shù)的重要因素,指導實驗中激勵器參數(shù)的設置。
本文從有限的實驗數(shù)據(jù)(樣本容量小于30)中挖掘數(shù)據(jù)之間的關(guān)系,屬于小樣本機器學習問題[9]。在機器學習中對小樣本問題的處理一般有3 個步驟:1)使用不易過擬合的模型(如非參數(shù)化模型);2)簡化問題,采用特征重要性分析方法,若存在重要性較弱的特征,可將其刪除;3)交叉驗證(適用于小樣本數(shù)據(jù)集的模型驗證方法)。
高斯過程回歸(Gaussian Process Regression,GPR)是一種非參數(shù)化機器學習模型,已廣泛應用于小樣本的非線性問題。羅亦泳等[10]構(gòu)建了基于GPR的GPS 高程轉(zhuǎn)換模型,將GPR 與其他擬合模型進行對比,通過將17 個GPS 點劃分為不同比例的訓練和測試數(shù)據(jù)集,分析了不同比例的訓練數(shù)據(jù)集對不同GPS 高程轉(zhuǎn)換模型精度的影響。羅亦泳[11]將64 期大壩變形觀測數(shù)據(jù)劃分為50 期訓練數(shù)據(jù)和14 期測試數(shù)據(jù),通過GPR 構(gòu)建了大壩變形預測模型,并建立了預測結(jié)果的方差及置信區(qū)間的估計方法,對預測結(jié)果進行了可靠性分析。孫斌等[12]為了提高風速預測的精度,采用了一種基于GPR 的風速預測模型,并將GPR 與支持向量機、最小二乘支持向量機和BP 神經(jīng)網(wǎng)絡進行了比較。這些工作均證明了GPR 模型能夠成功地對小樣本回歸問題進行建模,具有較好的推廣性。
特征重要性分析是分析監(jiān)督學習中不同輸入?yún)?shù)對輸出參數(shù)影響程度的方法,可獲得重要特征參數(shù),降低數(shù)據(jù)中冗余信息的干擾,改善模型的性能。常用的方法包括卷積神經(jīng)網(wǎng)絡、LASSO 回歸、自動關(guān)聯(lián)確定(Automatic Relevance Determination,ARD)和隨機森林(Random Forest,RF)等。張韶輝等[13]利用LASSO 回歸分析篩選出了與冠心病密切相關(guān)的血脂指標。黃梅等[14]在分類挖掘中采用了基于隨機森林的特征重要性分析方法。劉鑫童[15]基于深度卷積神經(jīng)網(wǎng)絡對甲狀腺超聲圖像進行了系統(tǒng)分析并提取了重要特征。Sun 等[16]使用spalart allmaras湍流模型生成的訓練數(shù)據(jù)對ANN 湍流模型進行訓練,使用optimal brain surgeon 算法確定輸入特征的相關(guān)性。已有的這些工作表明:通過特征重要性分析,有效提高了研究者對有監(jiān)督學習問題的理解;有針對性地利用好重要特征,可以提高模型預測精度。通過特征重要性分析,刪除重要性較弱的特征適用于小樣本問題中樣本容量小于特征維度的情況,而本文數(shù)據(jù)的樣本容量大于特征維度,滿足高斯過程回歸模型對樣本數(shù)量的要求,因此本文保留所有特征,重點分析不同激勵器參數(shù)對控制效果參數(shù)的影響程度。
為了驗證小樣本機器學習中模型的泛化性能,通常采用交叉驗證方法將原始數(shù)據(jù)集劃分為訓練集和測試集,避免為追求高準確率而在訓練集上產(chǎn)生過擬合,保證模型在樣本外數(shù)據(jù)上的預測準確率。訓練集和測試集數(shù)據(jù)的不同劃分,會使模型準確率發(fā)生明顯的變化,為了消除這一變化因素,通常采用K 折交叉驗證實現(xiàn)模型驗證。胡偉杰等[17]通過GPR 對180 個樣本采用5 折交叉驗證,預測了導彈氣動性能,對比了不同數(shù)據(jù)劃分比例下GPR 模型的預測結(jié)果和穩(wěn)定性。高赫等[18]基于GPR 對2 578 個樣本采用了5 折交叉驗證,控制了連續(xù)式風洞馬赫數(shù),采用了隨機劃分數(shù)據(jù)集與分組劃分數(shù)據(jù)集2 種策略進行建模。Nematzadeh 等[19]采用不同的機器學習算法作為分類器,對原始乳腺癌和預后性威斯康辛乳腺癌進行分類,利用K 折交叉驗證對不同機器學習算法進行了乳腺癌分類比較分析。
在超聲速條件下,本文利用逆向等離子體合成射流流動控制技術(shù)[20]進行半球體激波控制實驗[21]。實驗數(shù)據(jù)包括15 個樣本,每個樣本的參數(shù)包括控制對象參數(shù)(頭錐直徑)、主動激勵參數(shù)(腔體體積、電極間距、放電電容、出口直徑、擊穿電壓)和控制效果參數(shù)(最大脫體距離)。每個樣本的電極間距和擊穿電壓都是相同的,回歸模型無法學習這2 個參數(shù)與最大脫體距離的映射關(guān)系,故實驗中不考慮該參數(shù)。采用GPR[22]學習得到激勵器參數(shù)(頭錐直徑、腔體體積、放電電容、出口直徑)到控制效果參數(shù)(最大脫體距離)的映射規(guī)律,利用K 折交叉驗證中的留一交叉驗證法評估GPR 模型的預測結(jié)果,采用特征重要性分析方法分析各激勵器參數(shù)對最大脫體距離的影響程度,分析激勵器參數(shù)影響程度與控制效果預測精度的關(guān)系。本文工作對激勵器控制對象參數(shù)和主動激勵參數(shù)實驗設計具有一定參考價值。
本文研究方案(圖1)可分為4 部分:第1 部分是工程實驗環(huán)節(jié),使用逆向等離子體合成射流流動控制技術(shù),設置不同的激勵器參數(shù)進行實驗,獲得不同參數(shù)組合對應的控制效果,并對各個參數(shù)屬性值進行標準化處理;第2 部分使用高斯過程回歸對數(shù)據(jù)進行建模,得到重要的激勵器參數(shù)與控制效果參數(shù)之間的映射關(guān)系;第3 部分采用特征重要性分析對各個激勵器參數(shù)進行特征重要性排序;第4 部分使用建立好的回歸模型對控制效果參數(shù)進行預測,并評估模型的預測性能,分析激勵器參數(shù)影響程度與控制效果預測精度的關(guān)系。若預測精度不足,則需要重新調(diào)整實驗設置,根據(jù)激勵器參數(shù)影響程度和控制效果預測精度的關(guān)系增加實驗樣本;若預測精度滿足要求,則可用于指導后續(xù)主動流動控制實驗。
圖1 研究方案Fig.1 Research program
如表1所示,實驗采集的數(shù)據(jù)包含控制對象參數(shù)(頭錐直徑)、主動激勵參數(shù)(腔體體積、電極間距、放電電容、出口直徑、擊穿電壓)和控制效果參數(shù)(最大脫體距離)。激勵器頭錐直徑會影響等離子體合成射流的速度和流場結(jié)構(gòu)。激勵器腔體體積[23]是影響射流流場特性的重要結(jié)構(gòu)參數(shù),反映激勵器工作氣體質(zhì)量,決定腔內(nèi)氣體溫度及壓力的變化,并最終影響流場發(fā)展及射流速度。電極間距[24]是造成不同等離子體分布的關(guān)鍵結(jié)構(gòu)參數(shù),不同電極間距下外電場分布形態(tài)和數(shù)值的差異是形成2 種典型分布(類彌散和離散通道)模式的直接原因。放電電容[25]與等離子體合成射流速度呈正相關(guān):大電容產(chǎn)生更多的能量沉積,實現(xiàn)腔體的充分加熱,可產(chǎn)生速度更大的等離子體射流和強度更大的前驅(qū)激波;小電容所產(chǎn)生的等離子體射流流場內(nèi)壓縮波數(shù)增加,前驅(qū)激波強度減弱。出口直徑[25]會影響等離子體合成射流的速度和耗散時間,且與前驅(qū)激波的強度呈正相關(guān)。激勵器工作擊穿電壓[23]與激勵器所處環(huán)境壓強呈正相關(guān),與放電頻率呈負相關(guān)。
表1 實驗數(shù)據(jù)Table 1 Experimental data
在一個開有出口孔縫的小腔體內(nèi)放電產(chǎn)生等離子體,通過加熱腔內(nèi)氣體使等離子體增壓膨脹并高速噴出,產(chǎn)生速度高達數(shù)百米每秒的高能射流,即等離子體合成射流。射流鋒面前方有一道呈球?qū)ΨQ的結(jié)構(gòu),為前驅(qū)激波的強壓縮波。前驅(qū)激波與射流出口孔縫之間的距離即為脫體距離。當高能射流達到最大長度時,前驅(qū)激波與射流出口孔縫之間達到最大脫體距離。拍攝等離子體合成射流流場的發(fā)展過程,截取高能射流達到最大長度時的一幀圖像作為最大脫體距離圖像,如圖2所示。通過在圖像中測量前驅(qū)激波最遠點與射流出口孔縫2 個像素點之間的距離得到本研究所需的最大脫體距離。
圖2 最大脫體距離圖像示例Fig.2 An example image of maximum out of body distance
將控制對象參數(shù)和主動激勵參數(shù)作為高斯過程回歸模型的輸入、控制效果參數(shù)作為高斯過程回歸模型的輸出,其參數(shù)設置同表1。圖2即顯示了一組控制效果參數(shù)的實驗結(jié)果。
在將數(shù)據(jù)輸入機器學習的模型之前,為避免參數(shù)數(shù)值范圍不同對建模效果產(chǎn)生影響,需要將數(shù)據(jù)進行標準化處理。標準化公式為:
本文針對激勵器控制效果預測的小樣本回歸問題,提出了基于高斯過程回歸的預測模型,模型框架如圖3所示。以逆向等離子體合成射流實驗為例,輸入為4 維參數(shù)向量(頭錐直徑、放電電容、腔體體積和出口直徑)。首先將4 維參數(shù)向量作為輸入數(shù)據(jù)輸入到GPR 模型中訓練模型,然后將GPR 模型輸出的預測值與實驗獲得的最大脫體距離真實值進行對比,使用誤差評估方法計算最大脫體距離的真實值與預測值之間的誤差,得到GPR 模型的預測精度。本文的樣本數(shù)為15,特征維度為4,滿足使用高斯過程回歸模型的最低樣本容量要求[26]。
圖3 基于GPR 的控制效果參數(shù)預測模型框架Fig.3 The framework of control effect parameter prediction model based on GPR
1.2.1 GPR 的模型假設
高斯過程可視為定義在函數(shù)f(x)上的一個分布,其性質(zhì)由均值函數(shù)和協(xié)方差函數(shù)決定:
式中:x、x′ ∈Rd,為d維輸入向量;m(x)為均值函數(shù);k(x,x′)為協(xié)方差函數(shù)。
假設訓練集為{(xi,yi)|i=1,···,n},n 為訓練集樣本數(shù)。對于回歸問題,模型如下:
式中:ε~N(0,)為高斯噪聲;xi為第i個輸入向量,xi ∈Rd;yi為對應的觀測值,yi∈R。為計算方便,將yi中心化,均值設置0,這時所有觀測值構(gòu)成的列向量y=[y1,y2,···,yn]T的先驗概率分布為:
式中:X為特征矩陣,矩陣中每一行代表一個輸入向量;K(X,X)=Kn=(kij)n×n為n×n階對稱正定協(xié)方差矩陣,矩陣元素kij=k(xi,xj);In為n階單位矩陣。
1.2.2 GPR 的訓練
假設一個協(xié)方差函數(shù)的超參數(shù)集合為θ=,m為超參數(shù)的數(shù)量,通常采用極大似然法確定θ的最優(yōu)值。觀測值y的邊緣概率分布為:
通過式(7)可以得到訓練集的負對數(shù)邊際似然函數(shù)為:
式中,C=K(X,X)+,|C|為矩陣C的行列式。GPR 模型的優(yōu)化目標為:
計算L(θ)關(guān)于各超參數(shù)θi的偏導數(shù),然后采用共軛梯度下降法等優(yōu)化算法迭代更新超參數(shù)來最小化L(θ)。
1.2.3 協(xié)方差函數(shù)的選擇
本文使用的協(xié)方差函數(shù)有Polynomial(Poly)核、Squared exponential isotropic(SEiso)核、Squared exponential automatic relevance determination(SEard)核、Stationary+Matern(SM)核和Additive(Add)核[27]。
Poly 是一種非標準核函數(shù),比較適用于正交歸一化后的數(shù)據(jù)。根據(jù)平方指數(shù)協(xié)方差函數(shù)的超參數(shù)取值,可以分為2 種核函數(shù):當向量對應的各個維度帶寬取值相同時,得到的核函數(shù)就是各向同性的平方指數(shù)核,即SEiso 核;當向量對應的各個維度帶寬取值不同時,得到的核函數(shù)就是各向異性的平方指數(shù)核,即SEard 核。SM 協(xié)方差函數(shù)是將多種單一的核函數(shù)相加構(gòu)成的復雜協(xié)方差函數(shù)。Add 作為加性協(xié)方差函數(shù),在輸入向量的各個維度定義基本的協(xié)方差函數(shù)。
1.2.4 GPR 的預測
對于測試集中的一個樣本x*,其對應的預測值f*與觀測值y的聯(lián)合先驗分布為:
通過式(10)和一些矩陣運算,可以得到預測值f*的條件概率分布為:
式中:
式(12)為預測值,式(13)為預測的方差,可以評估預測的不確定度。
本文使用的特征重要性分析[28]方法有LASSO回歸、隨機森林和自動關(guān)聯(lián)確定。不同的特征重要性分析方法的準則不同,通過綜合比較多種特征重要性分析方法的結(jié)果,增加分析結(jié)果的置信程度。
1.3.1 LASSO 回歸
數(shù)據(jù)集D={(x1,y1),(x2,y2),···,(xN,yN)},其中N 為數(shù)據(jù)集樣本數(shù)。考慮最簡單的線性回歸模型,以平方誤差作為損失函數(shù),則優(yōu)化目標為:
式中,w 為權(quán)重向量。當樣本特征很多而樣本數(shù)相對較少時,式(14)很容易陷入過擬合。為了緩解過擬合問題,對式(14)引入L1 正則:
式中,λ >0,為正則化參數(shù)。式(15)為LASSO 的優(yōu)化目標[29]。LASSO 采用L1 正則,可以產(chǎn)生稀疏解(w 許多分量為0)。根據(jù)這一特性進行特征選擇,權(quán)重絕對值大的分量對結(jié)果的影響大。
1.3.2 隨機森林
隨機森林[30]是以決策樹[31]為基學習器構(gòu)建的模型。RF 可以用于特征重要性分析,計算特征重要性的方法主要有2 種:
1)采用平均不純度減少準則
通過不純度能夠確定節(jié)點,即最優(yōu)條件。一個森林能夠計算每個特征平均減少的不純度,并把平均減少的不純度作為特征重要性分析的值。
2)采用平均準確性減少準則
RF 在構(gòu)建每一棵基決策樹時,使用bootstrap的方式對樣本進行有放回采樣,因此每次都會有一些樣本不參與決策樹的構(gòu)建,這些樣本即為袋外數(shù)據(jù)(out of bag data),可以利用這些數(shù)據(jù)進行特征重要性評估。對于RF 中的每一棵基決策樹,先利用袋外數(shù)據(jù)進行測試得到測試誤差,然后將這些測試數(shù)據(jù)[e1,e2,···,em]的某個特征順序打亂(改變測試樣本特征值)再得到m 個測試誤差,將其作為該特征的重要性。若一個特征發(fā)生改變對預測結(jié)果影響很大,則說明該特征比較重要。
1.3.3 自動關(guān)聯(lián)確定
假設輸入空間是二維,x=(x(1),x(2)) ,ARD 核的形式為:
可以看出,隨著特定ηi(對輸入空間距離的伸縮變換參數(shù))的減小,函數(shù)受輸入變量x(i)的影響變小。將x=(x(1),x(2))代入式(16)得到 :
假設η2很小,則即:
此時核函數(shù)的取值幾乎不受輸入變量x(2)的影響,說明x(2)對最終輸出的影響不大。利用ARD 協(xié)方差函數(shù)的這個性質(zhì),可以判斷出不同特征對結(jié)果的影響大小,并且整個過程無需人為干預,模型可自適應地從數(shù)據(jù)中學得這種關(guān)系。
采用均方根誤差(RMSE)作為訓練和測試誤差:
模型驗證采用K 折交叉驗證,其本質(zhì)是創(chuàng)建一系列訓練集和測試集,先計算模型在每個測試集上的準確率,再計算平均值。具體步驟如下:1)將原始數(shù)據(jù)集劃分為相等的K 部分;2)將第1 部分作為測試集,其余作為訓練集;3)訓練模型,計算模型在測試集上的準確率;4)每次用不同的部分作為測試集,重復步驟2)和3) K 次;5)將平均準確率作為最終的模型準確率。留一交叉驗證法是K 折交叉驗證的一個特例,將數(shù)據(jù)子集劃分的數(shù)量與樣本數(shù)相同(K=N),每次只留一個樣本用于測試,這種方法適用于小樣本的情況。由于本文屬于小樣本問題,且樣本的參數(shù)取值跨度很大,參數(shù)的分布密度較低,因此采用原始數(shù)據(jù)的4 個激勵器參數(shù)特征、15 個樣本進行留一交叉驗證實驗,即每次選取14 個樣本作為訓練數(shù)據(jù),留一個樣本來評估模型預測的結(jié)果,重復實驗15 次,取15 次實驗結(jié)果的平均RMSE 評價模型性能。
不同核函數(shù)的訓練均方根誤差盒狀圖如圖4所示,測試誤差均值如表2所示。由圖4可知,SM 和Add 核訓練誤差明顯比其他核函數(shù)低,表明其對訓練數(shù)據(jù)的擬合程度更好。但由表2可知,這2 種核函數(shù)的測試誤差明顯高于其他核函數(shù),而二次多項式核函數(shù)Poly2 雖然在訓練數(shù)據(jù)集上誤差高于SM 和Add 核,但在測試數(shù)據(jù)集上獲得了最高的預測精度。這是由于SM 和Add 核所含超參數(shù)較多,在樣本數(shù)較少的情況下容易產(chǎn)生過擬合。多項式核、SEiso核和SEard 核都只含有2 個超參數(shù),在小樣本訓練的情況下具有較好的泛化性能。
圖4 訓練數(shù)據(jù)集上GPR 不同核函數(shù)對應的預測RMSE 盒狀圖Fig.4 Boxplot of RMSE for models with different kernel functions of GPR on training data set
表2 測試數(shù)據(jù)集上GPR 不同核函數(shù)對應的預測RMSE 均值Table 2 Mean RMSE for models with different kernel functions of GPR on test data set
2.2.1 皮爾遜相關(guān)系數(shù)
皮爾遜相關(guān)系數(shù)[32]可以衡量2 個變量(x(1),x(2))的線性相關(guān)程度,其值介于-1 和1 之間,計算公式如下:
式中,μ為樣本均值,σ為標準差。通過計算逆向射流數(shù)據(jù)不同特征和最大脫體距離之間的皮爾遜相關(guān)系數(shù),得到如圖5所示的相關(guān)性熱圖??梢钥闯觯^錐直徑、放電電容與最大脫體距離相關(guān)性較強,且呈正相關(guān);腔體體積、出口直徑與最大脫體距離呈負相關(guān),且出口直徑與最大脫體距離之間的線性相關(guān)性最弱。
圖5 皮爾遜相關(guān)系數(shù)Fig.5 Pearson correlation coefficients
2.2.2 特征重要性分析
通過皮爾遜相關(guān)系數(shù)可以初步得出各個特征與最大脫體距離之間的線性相關(guān)性,但復雜流場的頭錐直徑、腔體體積、放電電容、出口直徑與最大脫體距離之間并不是簡單的線性關(guān)系。為了進一步挖掘它們之間的關(guān)系,利用ARD、LASSO、RF 這3 種特征重要性分析方法得到各個特征的重要性,如圖6~8 所示。
ARD 核函數(shù)自適應可以確定重要特征的特點,通過高斯過程回歸得到各個維度的帶寬L(歸一化后),L 越大,則特征對結(jié)果的影響越小。定義特征重要性為L–1。由圖6可知,頭錐直徑對結(jié)果的影響最大,出口直徑對結(jié)果的影響最小。這也從某種角度為后期實驗指明了方向:對結(jié)果影響較小的特征,實驗過程中的采樣數(shù)量可以盡量少;相反,對結(jié)果影響較大的特征,實驗過程中的采樣數(shù)量可以盡量多。這樣可以最大限度地減少實驗次數(shù),增加數(shù)據(jù)的多樣性,從有限的數(shù)據(jù)中挖掘盡可能多的有用信息。
圖6 ARD 特征重要性分析結(jié)果Fig.6 Results of feature importance analysis from ARD
由皮爾遜相關(guān)系數(shù)可知,頭錐直徑、腔體體積、放電電容和出口直徑之間無明顯的線性相關(guān)性,所以此時可以利用LASSO 來分析特征重要性。將LASSO 的正則化參數(shù)設為0.1,得到各個特征權(quán)重的絕對值。從圖7可以看出,利用LASSO 得到的特征重要性分析結(jié)果與ARD 方法的結(jié)果完全一致。
圖7 LASSO 特征重要性分析結(jié)果Fig.7 Results of feature importance analysis from LASSO
RF 有2 種計算特征重要性的方式,在本實驗中采用平均準確性減少準則,因為平均不純度減少準則對取值個數(shù)較多的特征存在一定的偏好,會使特征重要性估計不準確。由于本文只有4 個特征,所以在訓練RF 時并沒有引入屬性擾動,為了增加結(jié)果的穩(wěn)定性,將基決策樹的個數(shù)設為100。由圖8可知,與前述2 種方法一樣,RF 的結(jié)果也是頭錐直徑對最大脫體距離影響最大,而出口直徑對最大脫體距離影響最小。
圖8 RF 特征重要性分析結(jié)果Fig.8 Results of feature importance analysis from RF
上述特征重要性分析方法針對實驗樣本的參數(shù)進行,而樣本的數(shù)量有限,因此實驗結(jié)果只適用于樣本的參數(shù)取值范圍(頭錐直徑30~70 mm,腔體體積250~3 000 mm3,放電電容80~640 nF,出口直徑1.5~9.0 mm)。 由特征重要性分析結(jié)果可知:相對而言,頭錐直徑對最大脫體距離影響最大;其次是腔體體積和放電電容,這2 個參數(shù)對最大脫體距離的影響相差不大;出口直徑影響最小。
圖9和表3顯示了最大脫體距離的預測結(jié)果,其中紅框、綠框和藍框標注出了預測不夠準確的樣本。對應表3中的實驗數(shù)據(jù)可以發(fā)現(xiàn),紅色方框中樣本的頭錐直徑分別為30 和70 mm,藍色方框中樣本的放電電容分別為80 和160 nF,綠色方框中樣本的腔體體積分別為3000、500 和250 mm3。頭錐直徑作為最大脫體距離最重要的影響特征,放電電容和腔體體積作為次重要的特征,實驗數(shù)據(jù)在這3 個特征上分布密度較低,導致模型的預測不夠準確。對比發(fā)現(xiàn)黃框中樣本的預測相對準確(真實值與預測值誤差的均值最?。?,對應于采樣密度較低的出口直徑。由于出口直徑是重要性最小的特征,因此對最大脫體距離預測精度的影響較小。除顏色框中的樣本外,其余樣本在各個特征維度上的分布密度較大,因此預測結(jié)果均較為準確。根據(jù)以上分析,為提高模型預測精度,設計實驗時應加大對控制效果參數(shù)影響較大的激勵器參數(shù)的設置密度,減少對控制效果參數(shù)影響較小的激勵器參數(shù)的設置密度,以減少實驗次數(shù),最大程度利用實驗資源。
圖9 最大脫體距離真實值和預測值Fig.9 Real and predicted values of maximum out of body distance
表3 實驗數(shù)據(jù)及預測結(jié)果Table 3 Experimental data and prediction results
1)使用逆向等離子體合成射流激波控制實驗數(shù)據(jù)對激勵器參數(shù)和控制效果參數(shù)之間的映射關(guān)系進行建模,建立了高斯過程回歸模型。對比多種核函數(shù)下高斯過程回歸的預測效果,采用二次多項式核函數(shù)Poly2 的高斯過程回歸預測效果最好,因此對于樣本量少的數(shù)據(jù)集,使用“簡單”的核函數(shù)能夠得到更為準確的預測結(jié)果。
2)采用3 種特征重要性分析方法(ARD、LASSO、RF)分析各個激勵器參數(shù)特征對最大脫體距離的影響程度,結(jié)果發(fā)現(xiàn)頭錐直徑對最大脫體距離的影響程度最大,放電電容和腔體體積的影響次之且相近,出口直徑的影響最小。
3)對結(jié)果影響比較大的特征(如頭錐直徑、放電電容和腔體體積)應增加其采樣數(shù)量;反之,對結(jié)果影響較小的特征(如出口直徑)可以減少其采樣數(shù)量,以減少實驗次數(shù)。
4)本文提出的應用于逆向等離子體合成射流激波控制實驗的控制效果分析方法,也適用于工程設計中其他類似控制問題研究。通過對少量實驗數(shù)據(jù)內(nèi)隱含的激勵器參數(shù)和控制效果參數(shù)之間的映射關(guān)系建模,并對激勵器參數(shù)進行重要性分析,可以得到合理的實驗參數(shù)設置方式,提高實驗效率和控制效果預測精度。