陳靜杰,王 希
(1.中國民航大學 電子信息與自動化學院,天津 300300;2.中國民航大學 計算機科學與技術學院,天津 300300;3.中國民航大學 中國民航環(huán)境與可持續(xù)發(fā)展研究中心(智庫),天津 300300;4.中國民航大學 綜合交通大數(shù)據(jù)應用技術國家工程實驗室,天津 300300)
目前,國內(nèi)外很多學者運用不同的方法對飛機油耗進行了預測,主要分為基于飛機性能參數(shù)的油耗模型[1]和基于飛行數(shù)據(jù)分析的油耗模型。Baklacioglu等[2]設計了一種遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡拓撲結構,綜合巡航飛行階段和燃油消耗對實際空速和高度變化的依賴性,利用實際飛行數(shù)據(jù)預測飛機的燃油流量;Lawrance等[3]提出了基于動力學的參數(shù)化、簡單的線性、高斯過程回歸和k近鄰回歸4種基于近期歷史高頻飛行數(shù)據(jù)生成的燃料模型來預測飛機燃料消耗;Singh等[4]提出了一個降低航空燃料消耗的綜合框架,利用混合層次分析-過程熵方法,采用成對比較矩陣,對這些子因素相對于“航空油耗降低”目標的優(yōu)先等級進行了測量;陳靜杰等提出一種基于距離最大法的領域搜索聚類算法,運用標準歐氏距離和近鄰搜索策略不斷地迭代更新,對飛機油耗進行精準分類[5];對QAR數(shù)據(jù)進行統(tǒng)計,找出下降過程油耗的特征指標,并利用Pearson和K-means進行相關系數(shù)特征選取和對應油耗聚類[6];針對飛機的爬升階段提出一種綜合性的自適應GA-BP強預測模型,克服了突變數(shù)據(jù)所產(chǎn)生的影響[7]。
然而足夠規(guī)模實測航班QAR數(shù)據(jù)表明,由于油耗數(shù)據(jù)的分散性,影響飛機油耗的眾多變量之間往往存在著非線性映射關系[8],很多學者采用神經(jīng)網(wǎng)絡、支持向量機回歸、高斯過程、核函數(shù)主成分分析、核偏最小二乘等非線性建模技術[9-13]。然而復雜的非線性問題難以用單一的全局模型來解決,因此,非線性建模技術局部學習方法[14]中的即時學習算法被提出,該算法能夠很好地處理非線性過程,以及動態(tài)更新以適應突變的特征,利用歷史數(shù)據(jù)中最相關的樣本來構建在線本地模型。
針對飛機油耗數(shù)據(jù)受多種外界因素影響而存在復雜非線性的問題,為了精準地對飛機油耗進行預測,本文提出一種基于即時學習和增強自適應差分進化相關向量機的油耗預測方法,采用即時學習算法構建最相關樣本,接著引入增強優(yōu)化的相關向量機模型,對飛機油耗進行預測。為驗證本文方法的有效性和準確性,與其它優(yōu)化方法進行對比測試,驗證了本文所提出動態(tài)更新數(shù)據(jù)庫的即時學習算法,以及增強自適應差分進化算法相關向量機模型具有更高預測精度,提高了飛機油耗的預測準確率。
即時學習(just-in-time learning,JITL)算法是一種基于局部建模理論和數(shù)據(jù)庫科學的學習方法,該方法基于相似輸入產(chǎn)生相似輸出的原理,依據(jù)某種準則設計合理的相似性度量,選擇與當前工作點相似性較大的歷史數(shù)據(jù)組建立一系列局部模型,從而實現(xiàn)對當前工作點的輸出估計值,根據(jù)當前待測樣本Xq和歷史數(shù)據(jù)中的樣本Xi, 計算它們距離和角度大小[15,16],公式如下
(1)
(2)
式中: ΔXq=Xq-Xq-1, ΔXi=Xi-Xi-1,θi為ΔXq與ΔXi的夾角,決定了建模的精度,當cos(θi)<0時,則認為Xi偏離于Xq, 可認為兩個樣本的相似度較低,放棄選用該樣本。當cos(θi)≥0時,即Xq與Xi間的夾角較小,相似性較好,則當前待測樣本Xq與數(shù)據(jù)集中的樣本Xi的相似度公式如下
(3)
式中:λ∈[0,1] 為權值系數(shù),D(Xq,Xi)∈[0,1],D(Xq,Xi) 的值越大,說明Xq與Xi越相似。針對當前的工況點Xq, 根據(jù)相似度準則選擇最相近的數(shù)據(jù)建立局部模型。
即時學習算法能夠很好處理非線性過程,依據(jù)每個工作點的狀態(tài)在線構建若干最相關樣本的局部模型,并且不斷更新以適應突變動態(tài),從而獲得較好的預測精度,該算法局部建立模型時需要樣本數(shù)據(jù)較少,因此選取該算法對飛機油耗預測過程中的樣本數(shù)據(jù)進行預處理。算法首先對數(shù)據(jù)進行歸一化處理,當一個查詢樣本(即歷史樣本)進入時,將該歷史數(shù)據(jù)樣本和新預測樣本進行相似度量的計算,選取進行建模所需的樣本集,將所得到的樣本集進行建模,得到預測輸出值,此時該預測過程全部結束,舍棄所建立的模型,等待下一個查詢樣本進入進行新的循環(huán)操作,具體流程如圖1所示。
圖1 即時學習建模原理
算法能夠很好地解決解決飛機油耗數(shù)據(jù)受多種外界因素影響而存在復雜非線性的問題,該方法將數(shù)據(jù)進行歸一化處理,考慮了輸入輸出樣本之間的相關性,利用相似度指標對輸入樣本和輸出樣本進行相似度計算,對相似度進行綜合后,最后選出與當前工作點相似性較大的歷史數(shù)據(jù)組作為相關樣本集,即重構樣本,這樣能夠不斷地根據(jù)每一個狀態(tài)建立系統(tǒng)若干局部模型,并且有效剔除存在異常值的樣本。
(4)
式中: Φ(xi)=[1,k(xi,x1),…,k(xi,xl)]T,k(x,xi) 為非線性基函數(shù)。
則訓練樣本集的似然函數(shù)式為
(5)
式中:Φ∈Rn×(n+1)是核函數(shù)矩陣,其中w和σ2的似然估計容易導致過擬合現(xiàn)象,所以為權值定義高斯先驗概率分布
(6)
式中:α=(α0,α1,…,αn)T。
由貝葉斯準則計算連接權值后的后驗概率分布為
p(w,α,σ2/t)=p(w/t,α,σ2)p(α,σ2/t)
(7)
其中
(8)
式中:后驗均值μ=σ-2∑ΦTt, 協(xié)方差∑=(σ-2ΦTΦ+A)-1,A=diag(α0,α1,…,αn)。
根據(jù)概率預測公式,所求條件概率為
(9)
2.1.1 RVM中核函數(shù)的差分進化算法優(yōu)化
相關向量機中,核函數(shù)參數(shù)是影響相關向量機性能的關鍵參數(shù),其值的確定對整體模型的性能起著至關重要的影響。為了能夠高效優(yōu)化核函數(shù)參數(shù),引入了差分進化算法(differential evolution,DE)。
該算法是一種基于隨機種群的搜索方法[17],算法通過變異、交叉和選擇等操作獲得最優(yōu)個體,具體步驟如下:
(10)
式中:j∈(1,2,…,D);i∈(1,2,…,NP);rand(0,1) 是[0,1]之間的均勻分布的隨機數(shù)。
(11)
式中:隨機選擇整數(shù)r1,r2,r3∈{1,2,…,Np};F是縮放因子,控制搜索步長。
(12)
式中:交叉概率因子CR∈(0,1];randj,i∈[0,1];jrand∈{1,2,…,D}, 避免變異失效即產(chǎn)生實驗個體與目標個體相同。
(4)選擇操作:用貪婪選擇的策略進行一對一篩選,選擇子個體與父個體中適應度較優(yōu)者保存到下一代
(13)
2.1.2 DE的增強自適應算法優(yōu)化
DE算法仍具有易早熟,較難搜索到全局最優(yōu)解等缺陷。增強自適應差分進化算法(enhanced fitness-adaptive differential evolution,EFADE)能夠引入新的三角變異算子和兩種自適應方案來更新控制參數(shù),在全局搜索和局部開發(fā)之間尋求更好的平衡,并通過優(yōu)化過程提高算法的收斂速度[18]。
(14)
(15)
(16)
(17)
f(xbest)=f(xmin)=min{f(xi)},i=1,2,3
(18)
(2)參數(shù)F自適應:F與種群的收斂速度密切相關,F(xiàn)的值由搜索空間中產(chǎn)生差分向量的兩個隨機變量之間相對位置動態(tài)地調整差分向量值的大小,以協(xié)調全局搜索和局部搜索能力。具體方法如下:
在每一代G上根據(jù)均勻分布,獨立生成縮放因子F1、F2和F3
Fi=rand(0,ki),i=1,2,3
(19)
(20)
式中:rand(a,b) 是返回(a,b)之間的實數(shù)的函數(shù);為了避免擾動函數(shù)為零,采用了小的恒定值ε=0.0001; 若ki>1, 則令ki=1。
(3)參數(shù)CR自適應:CR反應了實驗個體繼承和變異的程度,實際上控制著種群的多樣性。一個好的搜索策略在算法的初期應該進行全面搜索,以保持種群的多樣性;在算法的后期應該增強局部搜索,以加快收斂速度。在每一代G中,根據(jù)以下兩個均勻分布中的一個,獨立地生成每個單獨目標向量的交叉概率CR:
(1)CR1∈[0.05,0.15];
(2)CR2∈[0.9,1];
在每一代中,這兩個集合是根據(jù)它們在進化過程中的經(jīng)驗自適應地選擇的
(21)
(22)
(23)
(24)
RVM模型核函數(shù)參數(shù)值的確定對整體模型的性能起著至關重要的影響,人為設置參數(shù)不當會產(chǎn)生預測誤差。為了能夠自適應地獲得高效的優(yōu)化核函數(shù)參數(shù),引入差分進化算法對相關向量機進行改進,但差分進化算法仍具有易早熟,較難搜索到全局最優(yōu)解等缺陷,基于此,提出了增強自適應差分進化相關向量機模型,能夠在全局搜索和局部開發(fā)之間尋求更好的平衡,RVM參數(shù)可自適應獲取最優(yōu)值,從而提高了預測精度?;谥貥嫎颖镜腅FADE-RVM飛機油耗預測流程如圖2所示。
圖2 基于重構樣本的EFADE-RVM飛機油耗預測流程
(1)對油耗數(shù)據(jù)進行歸一化預處理,采用即時學習算法進行相似性度量計算,并建立局部模型選取最相關樣本,對數(shù)據(jù)進行重構;
(2)初始化相關參數(shù),并建立相關向量機的模型;
(3)采用相關向量機對油耗數(shù)據(jù)進行學習,用相對誤差來判斷是否達到最優(yōu);
(4)采用差分進化算法對核函數(shù)參數(shù)進行優(yōu)化,并使用增強自適應算法防止差分進化算法過早結束,從而搜索全局最優(yōu)解;
(5)統(tǒng)計飛機油耗訓練誤差,如誤差不滿足算法結束要求,則返回步驟(3);
(6)訓練終止,根據(jù)最優(yōu)核函數(shù)參數(shù)建立飛機油耗預測模型。
為評價所提方法的預測性能,采用均方根誤差RMSE和決定系數(shù)R2作為預測精度的評價指標,計算公式如下
(25)
(26)
本文選取QAR數(shù)據(jù)中A330機型2013年各航程飛機油耗數(shù)據(jù)為樣本進行飛機油耗預測研究,從中選取1000組數(shù)據(jù),變化曲線如圖3所示。
圖3 數(shù)據(jù)變化曲線
從飛機油耗數(shù)據(jù)中選取800組作為訓練樣本,200組作為測試樣本。為了進一步分析該算法的性能,分別采用RVM、DE-RVM、SADE-RVM、EFADE-RVM這4種建模方法對飛機油耗進行建模預測,預測效果如圖4(a)所示,可以看出與其它4種方法相比,EFADE-RVM更接近真實值,獲得了更好的預測結果,另外,從圖4(b)殘差圖可以看出EFADE-RVM總體殘差較小。4種建模方法對應的RMSE和R2見表1,可以看出相比較單一的RVM算法,基于RVM改進的后3種算法的均方根誤差和決定系數(shù)都有明顯的改善,其中EFADE-RVM算法獲得了更高的預測精度。
圖4 基于JITL和EFADE-RVM飛機油耗預測結果
表1 不同比例建模的RMSE
即時學習中,局部數(shù)據(jù)的數(shù)量選取對模型的精度起著重要的影響作用,在EFADE-RVM模型的基礎上,選取原訓練樣本中不同比例的樣本分別進行模型建立,觀察在不同數(shù)據(jù)比例下,模型的預測效果。所得均方根誤差變化如圖5所示,可以看出當比例為40%~90%時,JITL-EFADE-RVM均比EFADE-RVM獲得了更好的RMSE值,說明本文所提出的方法對預測結果的精度有所提升;當比例為10%~30%時,由于訓練數(shù)據(jù)不足,JITL-EFADE-RVM的RMSE反而比EFADE-RVM低;當選取的比例為100%時,JITL-EFADE-RVM相當于普通EFADE-RVM,并且當比例為60%時,即當選取訓練樣本比例為60%時,RMSE值達到最小,預測精度最高,具體RMSE見表2。
圖5 不同訓練樣本比例建模的RMSE
表2 不同比例建模的RMSE
總體看來,與比例為100%時的RMSE相比,除10%~30%外,其余比例下的樣本建模所得到的均方根誤差值都有所改善(100%的比例相當于未使用即時學習時的EFADE-RVM),可以看出,基于即時學習的重構樣本方法能夠有效利用相似度指標建立系統(tǒng)若干局部模型,剔除存在異常值的樣本,能夠很好地處理非線性過程存在的問題,從而動態(tài)地更新數(shù)據(jù)庫從而獲得較好的預測精度。
本文針對飛機油耗數(shù)據(jù)受多種外界因素影響而存在復雜非線性的問題,利用即時學習能夠根據(jù)相似度定義指標、動態(tài)獲取數(shù)據(jù)集和增強自適應差分進化算法能夠自適應獲得預測模型中的最優(yōu)核函數(shù),首先對油耗數(shù)據(jù)采用即時學習算法,選取最相關樣本集,接著建立相關向量機模型,并采用差分進化算法來選取向量機的最優(yōu)核函數(shù),以及增強自適應算法來引入三角變異算子和兩種自適應方案更全面、更快地搜索全局最優(yōu)解,來對飛機油耗數(shù)據(jù)進行預測。結果表明本文提出的模型取得了更好的預測精度,對非線性飛機油耗預測問題提供了參考方法。運用其它建模和優(yōu)化方法進行對比分析從而獲得更好的預測結果將會是今后進一步的工作任務。