郭毅博,牛猛,王海迪,陳艷華,薛均曉,袁玥,侯立碩,徐明亮,潘俊
(1.鄭州大學(xué)信息工程學(xué)院,河南鄭州450001;2.中國航空工業(yè)集團(tuán)公司金城南京機(jī)電液壓工程研究中心,江蘇 南京211106)
燃油測量系統(tǒng)是飛機(jī)燃油系統(tǒng)的重要組成部分。對(duì)飛機(jī)各油箱內(nèi)當(dāng)前剩余燃油量的實(shí)時(shí)精確測算,是實(shí)現(xiàn)飛機(jī)耗油順序優(yōu)化、飛機(jī)重心控制及飛機(jī)熱管理等的基礎(chǔ)。飛機(jī)燃油測量精度對(duì)飛機(jī)續(xù)航時(shí)間、有效載重、重心等控制均有重要意義。
通過安裝在飛機(jī)機(jī)身不同部位的各類傳感器采集飛機(jī)燃油相關(guān)信息,例如,陀螺儀可采集飛行姿態(tài),氣壓高度計(jì)可采集飛行高度,電容式測量桿可采集飛機(jī)油箱內(nèi)燃油面的高度。傳感器傳輸?shù)臄?shù)據(jù)隨飛機(jī)狀態(tài)的改變而變化,將傳感器輸出的數(shù)據(jù)組合起來便可得到一個(gè)多維時(shí)序數(shù)據(jù),即飛機(jī)燃油數(shù)據(jù)。圖1為飛機(jī)各個(gè)部位傳感器數(shù)據(jù)采集示意,各時(shí)序數(shù)據(jù)反映了飛機(jī)的狀態(tài)。常用的飛機(jī)燃油測量方法是通過分析飛機(jī)燃油數(shù)據(jù),學(xué)習(xí)飛機(jī)運(yùn)動(dòng)姿態(tài)、飛機(jī)油箱內(nèi)燃油面高度等信息與飛機(jī)燃油之間的映射關(guān)系得到的,其測量精度與燃油數(shù)據(jù)的質(zhì)量息息相關(guān)。
圖1 飛機(jī)各個(gè)部位傳感器數(shù)據(jù)采集示意Fig.1 Schematic diagram of sensor data acquisition in various parts of aircraft
然而,由于飛機(jī)高空飛行過程中受多種因素影響,燃油數(shù)據(jù)會(huì)出現(xiàn)相當(dāng)規(guī)模的缺失或錯(cuò)誤。例如,飛機(jī)在進(jìn)行大幅度機(jī)動(dòng)動(dòng)作時(shí),油箱內(nèi)燃油會(huì)產(chǎn)生劇烈晃動(dòng),難以形成可測量的油面,測量桿難以采集準(zhǔn)確數(shù)據(jù)。另外,傳感器可能因受電磁干擾無法正常工作,或采集數(shù)據(jù)出現(xiàn)誤差。同時(shí),各類傳感器的數(shù)據(jù)采集頻率并不完全一致,在進(jìn)行數(shù)據(jù)融合和時(shí)空對(duì)齊時(shí)易出現(xiàn)數(shù)據(jù)缺失,缺失數(shù)據(jù)常用“/”表示(如圖1所示)。時(shí)序數(shù)據(jù)中部分信息缺失會(huì)導(dǎo)致其隱含的歷史變化規(guī)律丟失,使得后續(xù)很難做出準(zhǔn)確的分析和預(yù)測,因此,需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
對(duì)缺失值的處理方法主要有2種:直接刪除法和缺失值填充法。直接刪除法是直接丟棄包含缺失值樣本的方法。該方法雖然可以保證數(shù)據(jù)完整,但因數(shù)據(jù)樣本量減少,造成樣本多樣性缺失,不利于后續(xù)分析。缺失值填充法是根據(jù)特定規(guī)則填充缺失值的方法,主要分為基于統(tǒng)計(jì)學(xué)的填充方法、基于機(jī)器學(xué)習(xí)的填充方法和基于生成對(duì)抗網(wǎng)絡(luò)的填充方法3種。其中,前2種填充方法沒有考慮時(shí)間序列上下文關(guān)系,燃油數(shù)據(jù)缺失值填充效果較差;而基于生成對(duì)抗網(wǎng)絡(luò)的填充方法引入了博弈論思想,使填充的完整序列數(shù)據(jù)更符合真實(shí)序列數(shù)據(jù)分布。然而,當(dāng)輸入數(shù)據(jù)過長時(shí),基于生成對(duì)抗網(wǎng)絡(luò)的填充方法會(huì)出現(xiàn)信息丟失,無法學(xué)習(xí)時(shí)序數(shù)據(jù)中較長時(shí)間段的歷史變化規(guī)律,影響數(shù)據(jù)填充效果。
本文對(duì)基于生成對(duì)抗網(wǎng)絡(luò)的缺失值填充方法進(jìn)行了改進(jìn),在算法模型的生成器部分引入注意力機(jī)制的Seq2seq模型,這在一定程度上解決了輸入數(shù)據(jù)過長時(shí)信息丟失的問題。此外,本文還將缺失數(shù)據(jù)位置信息用于填充算法,從而有效改善數(shù)據(jù)填充效果。
根據(jù)統(tǒng)計(jì)學(xué)規(guī)律進(jìn)行缺失值填充。如AMIRI等[1]用 上 一 次 觀 測 值(last)進(jìn) 行 缺 失 值 填 充,PURWAR等[2]用眾數(shù)(mode)進(jìn) 行缺失值 填充,KANTARDZIC等[3]用均值(mean)進(jìn)行缺失值填充,這些方法雖然能將缺失值補(bǔ)充完整,但因只考慮單個(gè)維度的統(tǒng)計(jì)信息,忽略了其他維度,導(dǎo)致填充效果較差。
通過機(jī)器學(xué)習(xí)相關(guān)算法構(gòu)建填充模型、學(xué)習(xí)數(shù)據(jù)樣本分布規(guī)律、生成相應(yīng)的填充值。MAZUMDE等[4]采 用 基 于 期 望 最 大 化(expectationmaximization,EM)的填充方法,不斷迭代計(jì)算最大化期望和求解期望至均衡,得到概率模型,并將由概率模型得到的估計(jì)值作為填充值。HASTIE等[5]采用基于矩陣分解(matrix factorization,MF)的填充方法,將缺失時(shí)序數(shù)據(jù)看作矩陣,先使用奇異值分解(SVD)[6]、主 成 分 分 析(PCA)[7]、非 負(fù) 矩 陣 分 解(NMF)[8]、概率矩陣分解(PMF)[9]等算法將矩陣分解為多個(gè)子矩陣的乘積,再將子矩陣相乘得到對(duì)應(yīng)的相似矩陣,最后進(jìn)行缺失值填充。NIKFALAZAR等[10]整合決策樹與模糊聚類的優(yōu)點(diǎn),通過迭代學(xué)習(xí)對(duì)數(shù)值型缺失數(shù)據(jù)和分類型缺失數(shù)據(jù)進(jìn)行插補(bǔ)。KHAN等[11]將單一和多種插補(bǔ)法混合,提出一種多鏈方程的單中心插補(bǔ)方法用于類別估算和數(shù)值數(shù)據(jù)的插補(bǔ)。馮憲凱等[12]對(duì)基于DBSCAN算法的缺失值填充方法進(jìn)行了改進(jìn),通過定義由數(shù)據(jù)對(duì)象密集程度自適應(yīng)調(diào)節(jié)大小的MinPts鄰域,并用其代替不變的ε鄰域,從而提高了處理后缺失值記錄的正確率。BATISTA等[13]采用基于k近鄰(k-nearest neighbor,k NN)的填充方法,先找到與時(shí)序數(shù)據(jù)中缺失值距離最近的k個(gè)數(shù)據(jù),再將這些數(shù)據(jù)的均值作為填充值。參數(shù)k值的選擇會(huì)影響該算法模型的精度,k值過小會(huì)導(dǎo)致模型精度下降。張楷卉等[14]用平均比率法進(jìn)行基礎(chǔ)填充,以提供完整數(shù)據(jù)條件,在模糊C均值聚類框架下進(jìn)行同類數(shù)據(jù)聚集,并利用局部距離策略改進(jìn)模糊C均值聚類,此方法主要用于處理大型數(shù)據(jù)集。以上方法在計(jì)算過程中均未考慮時(shí)序數(shù)據(jù)在時(shí)間維度上的上下文依賴關(guān)系,易造成填充值與時(shí)序數(shù)據(jù)的隱含規(guī)律不相符,填充效果較差,無法滿足缺失值填充任務(wù)的要求。
基于此,考慮深度學(xué)習(xí)算法中循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間序列任務(wù)中的優(yōu)秀表現(xiàn),將循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于缺失值填充。CHE等[15]用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的填充方法,先用部分完整的時(shí)序數(shù)據(jù)訓(xùn)練多層循環(huán)神經(jīng)網(wǎng)絡(luò)模型,再用該模型預(yù)測時(shí)序數(shù)據(jù)中每個(gè)缺失值。郝雨微[16]提出2種改進(jìn)措施,一種是在深度模型中引入4種缺失模式用于預(yù)測任務(wù),另一種是設(shè)計(jì)新的雙向多任務(wù)循環(huán)結(jié)構(gòu),采用插補(bǔ)法進(jìn)行缺失時(shí)序數(shù)據(jù)填充。FEDUS等[17]采用基于自編碼器的填充方法,先用編碼器將包含缺失值的時(shí)序數(shù)據(jù)映射為一個(gè)固定長度的中間向量,再將其解碼為相應(yīng)的完整時(shí)序數(shù)據(jù),最后填充缺失值。
以上方法雖然能有效提取時(shí)序數(shù)據(jù)在時(shí)間維度上的上下文依賴關(guān)系,但需采用完整的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。另外,若用傳統(tǒng)的填充算法對(duì)缺失時(shí)序數(shù)據(jù)先填充,再訓(xùn)練,則會(huì)導(dǎo)致模型精度降低。因此,基于機(jī)器學(xué)習(xí)的填充方法只適用于時(shí)序數(shù)據(jù)中缺失值占比較小且樣本量較多的情況,即可從時(shí)序數(shù)據(jù)中挑選出足夠的完整數(shù)據(jù)用于模型訓(xùn)練。
通過生成對(duì)抗網(wǎng)絡(luò)建立填充模型,學(xué)習(xí)數(shù)據(jù)集樣本的分布規(guī)律,并將生成器輸出作為填充值。YOON等[18]提出基于生成對(duì)抗網(wǎng)絡(luò)的缺失值填充方法,使用生成器生成與原始數(shù)據(jù)集分布相同的新的數(shù)據(jù)樣本,并根據(jù)生成樣本進(jìn)行缺失值填充。SHANG等[19]在此基礎(chǔ)上對(duì)多模態(tài)數(shù)據(jù)進(jìn)行了研究,該方法能夠?qū)W習(xí)多模態(tài)數(shù)據(jù)各維度之間的關(guān)系,并以此填充某個(gè)模態(tài)數(shù)據(jù)中的缺失值。羅永洪等[20]根據(jù)生成對(duì)抗網(wǎng)絡(luò)與時(shí)序數(shù)據(jù)時(shí)間間隔特性,對(duì)缺失的時(shí)序數(shù)據(jù)進(jìn)行降維,以提高缺失值填充效率。以上3種方法均可直接對(duì)缺失數(shù)據(jù)進(jìn)行訓(xùn)練,但均未考慮時(shí)序數(shù)據(jù)的上下文依賴關(guān)系,不適合時(shí)序數(shù)據(jù)。
LUO等[21]將自編碼器模型引入生成對(duì)抗網(wǎng)絡(luò),通過運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)取得了較好的填充效果。但當(dāng)輸入的時(shí)序數(shù)據(jù)較長時(shí),由于編碼器很難將所有重要信息壓縮為一個(gè)低維中間向量,因此易出現(xiàn)信息丟失,這在一定程度上影響填充效果。為此,本文在生成器部分引入了注意力機(jī)制的Seq2seq模型,旨在有效解決信息丟失問題。
首先,定義缺失燃油數(shù)據(jù)為其中,x T可具體表示為x kt,表示該數(shù)據(jù)中時(shí)刻t數(shù)據(jù)的第k個(gè)元素值,d表示數(shù)據(jù)的維度,T表示數(shù)據(jù)的長度,R表示實(shí)數(shù)。
其次,定義缺失燃油數(shù)據(jù)相應(yīng)的缺失標(biāo)識(shí)矩陣Q∈Rd×T為
其中,qtk表示缺失標(biāo)識(shí)矩陣第t行第k列的元素。
最后,填充完整的燃油數(shù)據(jù)可表示為
其中,x'T可具體表示為x k't,表示該數(shù)據(jù)時(shí)刻t數(shù)據(jù)的第k'個(gè)元素值。
真實(shí)完整的燃油數(shù)據(jù)可表示為
其中,y T可具體表示為y kt,表示該數(shù)據(jù)中時(shí)刻t數(shù)據(jù)的第k個(gè)元素值。
根據(jù)以上定義,舉例說明如下。假設(shè)燃油數(shù)據(jù)為
則對(duì)應(yīng)的缺失標(biāo)識(shí)矩陣為
式(4)中,/表示缺失值,式(5)中,1表示數(shù)據(jù)完整,0表示數(shù)據(jù)缺失。
將缺失燃油數(shù)據(jù)填充完整,得到完整燃油數(shù)據(jù),可表示為
谷歌提出了可用于解決Seq2seq問題的Transformer模 型[22],該 模 型 以 全 注 意 力 層(attention)結(jié)構(gòu)代替LSTM,實(shí)現(xiàn)了高效并行,但目前Transformer模型大多用于自然語言處理(natural language processing,NLP),較少用于時(shí)間序列,其在時(shí)序數(shù)據(jù)上的性能尚很難確定,而大量實(shí)驗(yàn)證明LSTM能夠有效處理時(shí)序數(shù)據(jù)[23],將LSTM與生成對(duì)抗網(wǎng)絡(luò)相結(jié)合可有效提高缺失值填充效果。將博弈論思想引入傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)[21],所構(gòu)建的模型主要包含生成器(G)和判別器(D)兩部分。其中,生成器主要用于學(xué)習(xí)真實(shí)數(shù)據(jù)樣本的分布狀況,并生成完整燃油數(shù)據(jù);判別器主要用于判斷輸入數(shù)據(jù)樣本的真實(shí)性,即判斷輸入數(shù)據(jù)樣本是真實(shí)的還是由生成器生成的。
為避免傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練困難、生成器生成數(shù)據(jù)缺乏多樣性的問題,本文引入了Wasserstein生成對(duì)抗網(wǎng)絡(luò)(WGAN)模型[25]的改進(jìn)方法,即用W距離替代JS散度。WGAN的優(yōu)化函數(shù)為
由于本文的目的是填充缺失值,而不是直接生成新的數(shù)據(jù)樣本,因此需對(duì)生成器輸入部分進(jìn)行相應(yīng)的改動(dòng)。在傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)中,生成器的輸入是服從高斯分布的隨機(jī)噪聲向量,而在燃油數(shù)據(jù)缺失值填充中,其輸入是一段包含缺失值的時(shí)間序列X。
本文方法的整體結(jié)構(gòu)如圖2所示。先通過編碼器將生成器輸入數(shù)據(jù)映射為一個(gè)維度固定的低維向量z,然后將向量z重構(gòu)為完整的時(shí)序數(shù)據(jù),得到完整時(shí)間序列Y'。此外,判別器的輸入包含2種數(shù)據(jù),一種為真的完整時(shí)間序列Y,另一種為假的填充后的完整時(shí)間序列Y';其輸出為輸入數(shù)據(jù)是真實(shí)樣本的概率。生成器和判別器經(jīng)交替迭代訓(xùn)練,最終達(dá)到均衡,此時(shí)二者的損失值不再降低,生成器的輸出數(shù)據(jù)樣本與真實(shí)完整序列數(shù)據(jù)樣本的分布相符,之后只需將生成的數(shù)據(jù)填充至原始數(shù)據(jù)中的缺失處。
2.2.1 生成器結(jié)構(gòu)
生成器內(nèi)部采用Seq2seq模型[26],該模型通過自編碼器實(shí)現(xiàn),自編碼器由一個(gè)編碼器和一個(gè)解碼器組成,其中編碼器可將輸入的缺失燃油數(shù)據(jù)壓縮為多個(gè)低維中間向量z1,z2,…,zn,而解碼器可通過解碼這些中間向量得到完整的燃油數(shù)據(jù)。
圖2 本文方法整體結(jié)構(gòu)Fig.2 The overall architecture of the method
本文通過向輸入數(shù)據(jù)中加入噪聲的方式增加數(shù)據(jù)多樣性,增強(qiáng)Seq2seq模型的泛化能力。但直接以一定概率將輸入數(shù)據(jù)置為0的方式會(huì)導(dǎo)致輸入數(shù)據(jù)缺失率增加,不利于缺失值填充任務(wù)。為此,本文直接生成一個(gè)符合高斯分布的隨機(jī)噪聲向量,并將其與輸入數(shù)據(jù)拼接為新的輸入數(shù)據(jù)。此外,基于輸入數(shù)據(jù)中缺失值的上下文依賴關(guān)系對(duì)缺失值填充任務(wù)的重要性,自編碼器的2個(gè)部分均使用循環(huán)神經(jīng)網(wǎng)絡(luò),其中,編碼器使用BiLSTM模型[27],解碼器使用LSTM模型[28]。
BiLSTM模型包含前向計(jì)算和后向計(jì)算兩部分。在前向計(jì)算中,數(shù)據(jù)以正序輸入,模型中時(shí)刻t的隱藏層狀態(tài)h→t能學(xué)到時(shí)刻t之前的所有輸入信息;在后向計(jì)算中,數(shù)據(jù)以逆序輸入,模型中時(shí)刻t的隱藏層狀態(tài)h←t能學(xué)到時(shí)刻t之后的所有輸入信息。將2個(gè)隱藏層狀態(tài)拼接起來,可得時(shí)刻t的隱藏層狀態(tài)為[h→t,h←t]。在LSTM模型中,時(shí)刻t'的隱藏層狀態(tài)為st'。
由于Seq2seq模型中引入了注意力機(jī)制[22],編碼器與解碼器之間保留了多個(gè)固定長度的中間向量zi。計(jì)算方法如下:
編碼器中每個(gè)時(shí)刻的隱藏層狀態(tài)ht與解碼器中前一時(shí)刻的隱藏層狀態(tài)st'-1之間的相關(guān)程度用et't表示
其中,v表示權(quán)重向量,W和U分別為權(quán)重矩陣。
對(duì)et't進(jìn)行歸一化,可得對(duì)應(yīng)的注意力概率分布:
由ht和at't可得中間向量zt':
由zt'和st'-1可得解碼器當(dāng)前時(shí)刻的隱藏層狀態(tài):
將所有時(shí)刻的解碼器隱藏層狀態(tài)信息用于填充數(shù)據(jù)。
為保證生成器輸入數(shù)據(jù)與輸出數(shù)據(jù)相關(guān),在損失函數(shù)中引入了自編碼器模型中的重建誤差損失。生成器的損失函數(shù)包含對(duì)抗網(wǎng)絡(luò)損失和重建誤差兩部分。其中,對(duì)抗網(wǎng)絡(luò)損失用于評(píng)估生成器生成樣本與真實(shí)樣本的相似程度;重建誤差用于評(píng)估時(shí)序數(shù)據(jù)缺失值填充效果。由于重建誤差只針對(duì)非缺失部分的時(shí)序數(shù)據(jù),需要先計(jì)算缺失標(biāo)識(shí)矩陣。生成器的損失函數(shù)為
其中,λ表示降噪自編碼器重構(gòu)損失的系數(shù);X表示輸入的缺失部分的時(shí)序數(shù)據(jù);M表示缺失標(biāo)識(shí)矩陣。生成器的訓(xùn)練目標(biāo)是使生成樣本被識(shí)別為“真”的概率最大,并使重建誤差最小。
2.2.2 判別器結(jié)構(gòu)
判別器主要由卷積層、注意力層、循環(huán)層和連接層(FC)組成。卷積層主要用于學(xué)習(xí)時(shí)間維度上的短期上下文依賴關(guān)系;注意力層主要用于選擇與輸出相關(guān)性高的數(shù)據(jù);循環(huán)層主要用于學(xué)習(xí)時(shí)間維度上的長期上下文依賴關(guān)系;連接層主要用于將循環(huán)層的輸出映射為一維向量,用Softmax函數(shù)計(jì)算輸入數(shù)據(jù)是“真”的概率。判別器的訓(xùn)練目標(biāo)是盡可能地將真實(shí)樣本識(shí)別為”真”,將生成樣本識(shí)別為”假”。其注意力層結(jié)構(gòu)如圖3所示;損失函數(shù)為
圖3 注意力層結(jié)構(gòu)Fig.3 The architecture of deep attention
實(shí)驗(yàn)數(shù)據(jù)來自某型號(hào)飛機(jī)油箱的多自由度地面轉(zhuǎn)動(dòng)試驗(yàn)臺(tái)。該試驗(yàn)臺(tái)能改變油箱的滾轉(zhuǎn)角和俯仰角,使油箱能在一定角度范圍內(nèi)做旋轉(zhuǎn)運(yùn)動(dòng),模擬飛機(jī)的機(jī)動(dòng)動(dòng)作或模擬巡航飛行時(shí)油箱內(nèi)燃油的變化情況。傳感器的輸出隨時(shí)間變化,綜合每時(shí)刻傳感器的輸出數(shù)據(jù)可得到一個(gè)多維時(shí)序數(shù)據(jù),即飛機(jī)燃油數(shù)據(jù),生成實(shí)驗(yàn)數(shù)據(jù)集。共進(jìn)行了120組實(shí)驗(yàn),每組實(shí)驗(yàn)時(shí)長為1 h,有效采樣頻率為5 Hz。
實(shí)驗(yàn)驗(yàn)證所用數(shù)據(jù)集有時(shí)間長度數(shù)據(jù)集和模型驗(yàn)證數(shù)據(jù)集2種。
3.1.1 時(shí)間長度數(shù)據(jù)集選擇
首先,從燃油數(shù)據(jù)中篩選完整的子序列,根據(jù)不同的樣本長度參數(shù),將每個(gè)子序列分割為不同長度的數(shù)據(jù)樣本,樣本序列長度分別設(shè)為100,200,300,400,500,600,然后,隨機(jī)丟棄30%的數(shù)據(jù),根據(jù)丟棄位置生成相應(yīng)的缺失標(biāo)識(shí)矩陣,最后,將分割后的數(shù)據(jù)和相應(yīng)的缺失標(biāo)識(shí)矩陣匯總,得到不同樣本序列長度的數(shù)據(jù)集。
3.1.2 參數(shù)λ選擇
參數(shù)λ可影響對(duì)抗網(wǎng)絡(luò)損失和重建損失在生成器損失函數(shù)中的比例,λ值越大,重建損失所占比例越大。用缺失比例為30%的模型驗(yàn)證數(shù)據(jù)集,模型中設(shè)置不同的參數(shù)λ值。
3.1.3 模型驗(yàn)證數(shù)據(jù)集選擇
首先,從燃油數(shù)據(jù)中篩選出完整的子序列,將其分割為樣本序列長度為100的數(shù)據(jù)樣本,然后,隨機(jī)丟棄不同比例的數(shù)據(jù),丟棄比例分別設(shè)為10%,20%,30%,40%,50%,60%,根據(jù)丟棄位置生成相應(yīng)的缺失標(biāo)識(shí)矩陣,最后,將分割后的數(shù)據(jù)和相應(yīng)的缺失標(biāo)識(shí)矩陣匯總,得到不同缺失比例的數(shù)據(jù)集。缺失值填充任務(wù)數(shù)據(jù)集屬性如表1所示。
表1 缺失值填充任務(wù)數(shù)據(jù)集屬性Table 1 Missing value population task dataset attributes
用均方誤差(MSE)作為評(píng)價(jià)指標(biāo),評(píng)價(jià)填充效果。其計(jì)算公式為
其中,n表示樣本數(shù),y i表示真實(shí)樣本,y'i表示生成樣本,MSE越小,說明y i與y'i之間差距越小,即準(zhǔn)確度越高,填充效果越好。
3.3.1 不同樣本序列長度對(duì)比實(shí)驗(yàn)
不同樣本序列長度下填充方法的填充效果如圖4(a)所示。隨著樣本序列長度的增加,填充方法的MSE逐漸提升,當(dāng)樣本序列長度大于400后,MSE基本趨于穩(wěn)定。考慮樣本序列長度對(duì)填充速度的影響,將樣本序列長度設(shè)置為400。
3.3.2 參數(shù)λ選擇實(shí)驗(yàn)
不同參數(shù)λ下的填充效果如圖4(b)所示。當(dāng)參數(shù)λ接近于1或0時(shí),填充效果較差,即生成器損失函數(shù)的兩部分均有助于提升填充效果。當(dāng)參數(shù)λ為0.3時(shí),MSE最低,即填充效果最佳。
3.3.3 不同缺失比例下填充算法對(duì)比實(shí)驗(yàn)
圖4(c)為不同缺失比例下基于last、mean、MF、EM、k NN、GAIN及本文方法7種填充方法的填充效果對(duì)比。
由圖4(c)可知,各填充方法的MSE隨缺失比例的增加整體呈上升趨勢,說明缺失比例是影響填充方法準(zhǔn)確度的重要因素之一。此外,在缺失比例相同的情況下,本文方法的MSE均低于其他填充方法,說明7種方法中本文方法的填充效果最佳。
圖4 實(shí)驗(yàn)結(jié)果對(duì)比Fig.4 Comparative experimental results
表2 不同缺失比例下各填充方法的均方誤差Table 2 MSE of various filling algorithms at different missing scales
各填充方法在不同缺失比例下的MSE如表2所示,整體來看,本文方法在各缺失比例下均能達(dá)到最佳填充效果。
提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的飛機(jī)燃油數(shù)據(jù)缺失值填充方法,并針對(duì)地面轉(zhuǎn)動(dòng)試驗(yàn)臺(tái)采集到的飛機(jī)燃油數(shù)據(jù)進(jìn)行缺失值填充實(shí)驗(yàn)。為解決輸入數(shù)據(jù)較長時(shí)存在的信息缺失問題,在生成器部分引入了注意力機(jī)制的Seq2seq模型。此外,用缺失標(biāo)識(shí)矩陣優(yōu)化損失函數(shù)。結(jié)果表明,與其他6種填充方法相比,本文方法填充效果更佳,學(xué)習(xí)能力更強(qiáng),可應(yīng)用于其他領(lǐng)域的時(shí)序數(shù)據(jù)缺失值填充及輔助后續(xù)數(shù)據(jù)分析,對(duì)提升飛機(jī)燃油測量等的精度有重要意義。