亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種非規(guī)則采樣航空時(shí)序數(shù)據(jù)異常檢測方法

        2021-07-05 11:10:04閆媞錦夏元清張宏偉韋閩峰周彤
        航空學(xué)報(bào) 2021年4期
        關(guān)鍵詞:檢測方法模型

        閆媞錦,夏元清,*,張宏偉,韋閩峰,周彤

        1. 北京理工大學(xué) 自動(dòng)化學(xué)院,北京 100081 2.北京航天自動(dòng)控制研究所,北京 100070

        航天器是極其復(fù)雜且昂貴的飛行器,具有數(shù)千個(gè)遙測傳感器,詳細(xì)記錄了溫度、輻射、功率、儀器和計(jì)算活動(dòng)等方面的時(shí)序信息。一旦出現(xiàn)無法監(jiān)測和響應(yīng)異常狀態(tài)的情況,航天任務(wù)很可能會失敗。考慮到這些傳感器數(shù)據(jù)的復(fù)雜性,如大量的缺失、噪聲隨時(shí)間推移而累積等,如何有效快速監(jiān)控這些傳感器的數(shù)據(jù)以監(jiān)測航天器的運(yùn)行狀態(tài)是十分關(guān)鍵且重要的問題[1]。

        當(dāng)前多維時(shí)序異常檢測方法因其廣泛的應(yīng)用場景而備受關(guān)注。常見的異常檢測方法可分為3類[2-3]:基于統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。當(dāng)前航天器遙測數(shù)據(jù)的異常檢測主要為基于統(tǒng)計(jì)的方法,如差分整合移動(dòng)平均自回歸(ARIMA)模型、基于局部加權(quán)回歸散點(diǎn)平滑法的周期和趨勢(STL)分解、小波變換等,用于指示何時(shí)偏離預(yù)定范圍,專家系統(tǒng)[4-5]也已經(jīng)成為少量航天器狀態(tài)監(jiān)測的重要方法。但上述方法有較大的局限性,例如無法快速處理大量數(shù)據(jù)、耗費(fèi)人力且需要專家信息等。而基于機(jī)器學(xué)習(xí)的方法主要包括聚類[6]、貝葉斯學(xué)習(xí)[7]等,但這類方法無法建立多維時(shí)序數(shù)據(jù)維度間的依賴關(guān)系;而基于深度學(xué)習(xí)的方式則是當(dāng)前較為活躍的研究領(lǐng)域。其中,基于監(jiān)督學(xué)習(xí)[8-9]的方法在訓(xùn)練過程中由于需要標(biāo)簽信息,只能檢測到已知異常類型,具有較大局限性,因此無監(jiān)督方法[10-15]如今受到更多學(xué)者的關(guān)注?;跓o監(jiān)督的異常檢測方法可分為以下兩類:

        第1類為確定性模型。為檢測航空時(shí)序數(shù)據(jù)的異常,文獻(xiàn)[8]采用長短期記憶網(wǎng)絡(luò)(LSTM)對多維時(shí)序數(shù)據(jù)每個(gè)通道進(jìn)行預(yù)測,并采用預(yù)測誤差確定異常點(diǎn);文獻(xiàn)[13,16]采用基于LSTM的自編碼器模型建模正常時(shí)序的分布,并采用重構(gòu)誤差判定傳感器數(shù)據(jù)的異常。雖然LSTM相比于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)更能建模長時(shí)依賴,但它是完全確定性的模型,缺乏魯棒性,無法很好地處理噪聲數(shù)據(jù)。

        第2類為隨機(jī)性模型。文獻(xiàn)[17]同時(shí)結(jié)合高斯混合模型(GMM)和深度自編碼器(DAE)并提出基于高斯混合模型的深度自編碼器(DAGMM)模型;然而,它僅用于考慮多維變量而不是多維序列,無法考慮時(shí)序數(shù)據(jù)中的時(shí)序依賴。文獻(xiàn)[12]結(jié)合對抗生成網(wǎng)絡(luò),采用博弈思想對正常數(shù)據(jù)分布進(jìn)行學(xué)習(xí)。以往的工作表明,由于隨機(jī)變量建模的方式可以學(xué)習(xí)時(shí)序數(shù)據(jù)的概率分布,其異常檢測效果比確定性方法好。

        此外,上述方法都是針對規(guī)則采樣且缺失率較低的多維時(shí)序數(shù)據(jù)建模的。但航空時(shí)序數(shù)據(jù)往往會存在大量的缺失,甚至本身采樣間隔就不是常值,上述方法便會失效。過去幾年中,已提出了很多方法用于解決時(shí)序數(shù)據(jù)中的缺失問題[18-19]。一類直觀的方法是填充法,例如平滑或插值法[20]、譜分析[21]、核方法[22]、多重插補(bǔ)法[23]和期望最大化(EM)算法[19]等。然而此類方法會導(dǎo)致整體流程的割裂,且都是基于某種假設(shè)對缺失數(shù)據(jù)進(jìn)行填充,因此可能無法求得最優(yōu)預(yù)測。

        針對上述方法存在的問題,本文提出了非規(guī)則采樣多維時(shí)序異常檢測算法(Irregularly sampled Multivariate time series Anomaly Detection,IMAD)模型,針對非規(guī)則采樣的多維航空時(shí)序數(shù)據(jù),采用特殊結(jié)構(gòu)的門控循環(huán)單元[24](Gated Recurrent Unit,GRU)建模,在模型層面解決缺失值及采樣不規(guī)則的問題;此外,采用變分自編碼器[25](VAE)引入隨機(jī)性,建模正常時(shí)序數(shù)據(jù)的分布,提高魯棒性,并采用重構(gòu)概率[26]表明數(shù)據(jù)異常的概率;接著,根據(jù)極值理論[27]自適應(yīng)確定合適閾值檢測異常;最終,在兩個(gè)真實(shí)航空時(shí)序數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證IMAD模型的有效性。

        1 GRU模型與變分自編碼器

        首先,介紹用于時(shí)間序列數(shù)據(jù)建模的GRU基本形式以及變分自編碼器的基本架構(gòu)。

        1.1 GRU模型

        RNN對于序列數(shù)據(jù)建模具有較好的效果,每一時(shí)刻可以將其看為一個(gè)非線性狀態(tài)空間模型,但它無法對時(shí)序數(shù)據(jù)的長時(shí)依賴進(jìn)行建模。因此,LSTM和GRU相繼被提出以解決此問題。相比RNN,GRU包含一個(gè)重置門rt和一個(gè)更新門zt控制隱藏狀態(tài)ht,更新過程為

        (1)

        1.2 變分自編碼器

        變分自編碼器是一種深度貝葉斯模型,它建立了兩個(gè)隨機(jī)變量x和z之間的聯(lián)系。首先,假設(shè)z服從某先驗(yàn)分布p(z),如多元高斯分布,而后x由神經(jīng)網(wǎng)絡(luò)構(gòu)成的條件分布pθ(x|z)中采樣得到,其中下標(biāo)θ代表神經(jīng)網(wǎng)絡(luò)中的參數(shù),pθ(x|z)分布的具體形式根據(jù)具體任務(wù)決定;此外,由于真實(shí)的后驗(yàn)分布pθ(x|z)難以計(jì)算,VAE中采用變分推斷的方式,用神經(jīng)網(wǎng)絡(luò)估計(jì)后驗(yàn)分布qφ(z|x),通常假設(shè)估計(jì)后驗(yàn)分布滿足高斯分布N(μ(x),σ(x)),其中μ(x)和σ(x)為用神經(jīng)網(wǎng)絡(luò)計(jì)算得到的期望和標(biāo)準(zhǔn)差。最終,x的最大似然估計(jì)為

        (2)

        根據(jù)詹森不等式,可得

        (3)

        不等式式(3)右側(cè)為變分下界,記為L。隨機(jī)梯度變分貝葉斯(SGVB)算法是有效優(yōu)化變分下界的一種方式。此外,蒙特卡羅采樣法經(jīng)常用于估計(jì)式(2)中的期望項(xiàng),從而加快訓(xùn)練速度,本文中仍采用此方法。

        2 問題定義

        假設(shè)有一非規(guī)則采樣且?guī)в腥笔е档亩嗑S航空遙測時(shí)序數(shù)據(jù)X=[x1,x2, …,xN],其中N為時(shí)序數(shù)據(jù)的長度,xt∈RD表示第t次的觀測值為D維向量。由于時(shí)間跨度角度,采用步長為1的滑窗策略逐段進(jìn)行異常檢測,即xt-T:t∈RD×(T+1)為從第t-T~t次觀測的序列,由于數(shù)據(jù)中具有較多缺失值,采用M=[m1,m2, …,mt]表示缺失值指示矩陣,并用Δ=[δ1,δ2, …,δN]表示由相鄰兩有觀測值的時(shí)刻間隔δt組成的矩陣,其形狀與輸入X相同,st為第t個(gè)觀測值對應(yīng)的時(shí)刻,示例為

        (4)

        3 IMAD整體結(jié)構(gòu)

        如圖1所示,IMAD算法異常檢測的流程包括兩部分:離線訓(xùn)練和在線檢測。數(shù)據(jù)預(yù)處理為兩部分共用模塊。預(yù)處理模塊的主要步驟包括將數(shù)據(jù)進(jìn)行歸一化,并對數(shù)據(jù)進(jìn)行滑窗分段:

        圖1 IMAD算法異常檢測流程Fig.1 Overall structure of IMAD for anomaly detection

        (5)

        式中:μx和σx分別為輸入數(shù)據(jù)的期望及標(biāo)準(zhǔn)差。

        在離線訓(xùn)練階段,預(yù)處理過后的數(shù)據(jù)輸入至模型訓(xùn)練,并輸出每個(gè)觀測值的異常分?jǐn)?shù),這些異常分?jǐn)?shù)通過基于極值理論的自動(dòng)閾值選擇模塊確定合適閾值,以便線上異常檢測使用。此外,離線訓(xùn)練保存的模型通常會進(jìn)行周期性的更新,從而能夠持續(xù)學(xué)習(xí)輸入數(shù)據(jù)分布的變化。在線上檢測部分,首先加載離線訓(xùn)練中保存的模型,新觀測的實(shí)時(shí)數(shù)據(jù)通過預(yù)處理模塊后給到線上檢測模塊,從而得到新觀測值的異常分?jǐn)?shù),一旦分?jǐn)?shù)超過選定閾值,則報(bào)警給地面運(yùn)維人員。

        離線模型架構(gòu)及訓(xùn)練策略將于4.1~4.3節(jié)中介紹,線上檢測模塊將于4.4節(jié)中介紹,而自動(dòng)閾值選擇模塊則在4.5節(jié)中給出詳細(xì)的策略。

        4 方法設(shè)計(jì)

        首先介紹處理非規(guī)則采樣且?guī)笔е禃r(shí)序數(shù)據(jù)建模方法,然后給出離線模型的整體架構(gòu)和訓(xùn)練方法,最后給出線上檢測的方式和自動(dòng)閾值選擇策略。

        4.1 非規(guī)則采樣且有缺失值時(shí)序數(shù)據(jù)建模

        式(1)的表達(dá)形式是建立在所有變量均可觀測的前提下的,而對于存在大量缺失的情況,可在GRU輸入前,對輸入變量xt和隱藏狀態(tài)ht加入可學(xué)習(xí)的時(shí)間衰減項(xiàng):

        (6)

        (7)

        式中:Vr、Vz和V為因mt新增神經(jīng)網(wǎng)絡(luò)參數(shù);xt和ht-1通過式(5)得到。圖2展示了GRU與帶有可訓(xùn)練遲滯項(xiàng)的GRU(GRU with trainable Decays)的不同之處,圖中γx和γh分別為x和h的衰減因子。

        圖2 GRU與GRU-D對比Fig.2 Comparison between GRU and GRU-D

        此外,采用以下3類GRU-D的變體作為非規(guī)則采樣且有缺失值的時(shí)序建模的實(shí)驗(yàn)對比,用于證明GRU-D單元的有效性:

        1) 假設(shè)在未觀測時(shí)刻輸入變量X保持不變,此類方法記為GRU-forward,此時(shí)對應(yīng)的形式為

        xt=mtxt+(1-mt)xt′

        (8)

        2) 用輸入變量X的均值對缺失值進(jìn)行填充,此類方法記為GRU-mean,此時(shí)對應(yīng)的形式為

        (9)

        3) 將上述得到的變量X與缺失值指示矩陣M、觀測時(shí)間間隔矩陣Δ連接起來,一同送入GRU中,此類方法記為GRU-simple。此類方法進(jìn)一步考慮了時(shí)間間隔和缺失值位置,相比GRU-forward和GRU-mean利用了更多的信息。

        4.2 模型架構(gòu)

        圖3 時(shí)序異常檢測網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure for time series anomaly detection

        (10)

        4.3 訓(xùn) 練

        訓(xùn)練采用SGVB算法直接優(yōu)化式(3)中的下界,且文獻(xiàn)[26]提到訓(xùn)練時(shí)蒙特卡羅采樣每次采一個(gè)樣本就足夠。此外,訓(xùn)練時(shí)采用重參數(shù)化方法進(jìn)行采樣,即不直接從z~N(μ(x),σ(x))中采樣,而是引入一個(gè)新的隨機(jī)變量ξ~N(0,I),從而將采樣z重寫為z(ξ)=μz+ξσz。此時(shí),每次采樣僅需從標(biāo)準(zhǔn)正態(tài)分布中采一個(gè)樣本,便可得到對應(yīng)的采樣z,這解決了采樣操作不可導(dǎo)的問題,從而使其能像訓(xùn)練普通神經(jīng)網(wǎng)絡(luò)一樣使用隨機(jī)梯度下降訓(xùn)練變分自編碼器。在訓(xùn)練中,訓(xùn)練數(shù)據(jù)每輪訓(xùn)練首先進(jìn)行隨機(jī)打亂,有利于隨機(jī)梯度下降的優(yōu)化。此外,應(yīng)保證給到模型中的每批數(shù)據(jù)足夠大,從而能使訓(xùn)練過程中的損失比較穩(wěn)定。最終,考慮到缺失值的情況,模型的損失為

        lg(pθ(xt-T:t|zt-T:t))M·S

        (11)

        式中:S為比例系數(shù),S=size(M)/sum(M)。實(shí)際上,模型損失第3項(xiàng)可看作重構(gòu)損失,而前兩項(xiàng)恰好可以寫成Kullback-Leibler(KL)散度的形式。S用于平衡損失中各項(xiàng)的大小,從而避免模型只注重學(xué)習(xí)重構(gòu)項(xiàng)lg(pθ(xt-T:t|zt-T:t))而忽略了KL散度,進(jìn)而解決了缺失數(shù)據(jù)引起的性能衰退問題。此外,與普通自編碼器相比,VAE額外加入了KL散度,使得估計(jì)后驗(yàn)分布qφ(z|x)與假設(shè)先驗(yàn)分布pθ(z)之間的距離盡量小,此時(shí)重構(gòu)輸出的分布中對應(yīng)的標(biāo)準(zhǔn)差不為0,從而能夠用統(tǒng)計(jì)的角度判斷輸入變量的異常概率。

        4.4 線上檢測

        模型訓(xùn)練完成保存后,可用于判斷某一時(shí)刻的觀測變量xt是否存在異常。由于模型的輸入滑窗長度為T+ 1,根據(jù)文獻(xiàn)[26]可知,VAE中可采用條件概率lgpθ(xt|zt-T:t)作為數(shù)據(jù)異常檢測的評價(jià)分?jǐn)?shù),采用此重構(gòu)概率作為異常分?jǐn)?shù)St。異常分?jǐn)?shù)越大,表明輸入變量xt可以較好地重構(gòu),即若某觀測變量符合輸入變量的整體分布,則此觀測變量能以較高置信度進(jìn)行重構(gòu)。反之,異常分?jǐn)?shù)越小,代表重構(gòu)輸出和輸入變量之間差距較大,即若異常分?jǐn)?shù)St小于某閾值后,則輸入變量xt被標(biāo)記為異常,并告警給地面運(yùn)維人員。閾值選擇策略將會在4.5節(jié)中介紹。

        4.5 自動(dòng)閾值選擇策略

        在離線訓(xùn)練時(shí),計(jì)算每個(gè)觀測值的異常分?jǐn)?shù),最終可得到一個(gè)異常分?jǐn)?shù)構(gòu)成的序列{S1,S2, …,SN′},而后則可根據(jù)極值理論[27](EVT)自動(dòng)選取合適的閾值。

        EVT用于發(fā)現(xiàn)極端值的分布規(guī)律,而極端值一般都分布在概率分布的尾部。EVT的優(yōu)點(diǎn)是它并不對數(shù)據(jù)做任何的前提假設(shè),此外文獻(xiàn)[27]還提出了POT(Peaks Over Threshold)算法,其基本思想是利用廣義帕累托分布(GPD)擬合某概率分布的尾部極端值分布。因此,根據(jù)POT學(xué)習(xí)異常分?jǐn)?shù)的閾值。由于小于此閾值的被認(rèn)為是異常,因此,采用廣義帕累托分布:

        (12)

        (13)

        式中:N′為觀測值的數(shù)目;N′th為滿足S< th的數(shù)目;q為滿足S

        5 實(shí)驗(yàn)驗(yàn)證

        首先介紹兩個(gè)真實(shí)多維航空時(shí)序數(shù)據(jù)集;而后給出評價(jià)指標(biāo),對比方法和實(shí)驗(yàn)參數(shù)設(shè)置;最后給出實(shí)驗(yàn)對比結(jié)果和分析。

        5.1 數(shù)據(jù)集介紹及模型評價(jià)指標(biāo)

        土壤水分監(jiān)測衛(wèi)星時(shí)序數(shù)據(jù)集(SMAP)和火星科學(xué)實(shí)驗(yàn)室探測器“好奇號”時(shí)序數(shù)據(jù)集(MSL)是美國國家航天航空局的衛(wèi)星公開時(shí)序數(shù)據(jù)集,其基本信息如表1所示。每個(gè)數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,且兩部分?jǐn)?shù)據(jù)都有對應(yīng)的標(biāo)簽。圖4給出了SMAP中數(shù)據(jù)歸一化后一些典型的異常數(shù)據(jù)段??梢钥闯鯯MAP數(shù)據(jù)不同階段的數(shù)據(jù)分布特性具有明顯差別,且不同通道之間數(shù)據(jù)互相影響,序列整體呈現(xiàn)高度非線性且缺失值較多的特性,因此這類時(shí)序數(shù)據(jù)的異常檢測任務(wù)較為復(fù)雜。然而,遙測數(shù)據(jù)是地面運(yùn)維人員監(jiān)測航天器異常事件的重要工具。

        表1 數(shù)據(jù)集基本信息Table 1 Dataset information

        圖4 SMAP數(shù)據(jù)集異常點(diǎn)示例Fig.4 Examples of anomalies in SMAP dataset

        采用精準(zhǔn)率(Precision)、召回率(Recall)和F1分?jǐn)?shù)作為異常檢測結(jié)果的評價(jià)指標(biāo),其中:

        (14)

        由于以往一些方法有閾值確定方法,依然按照原來策略確定閾值;對于無閾值確定方法的模型,遍歷可能的閾值找出F1分?jǐn)?shù)最高時(shí)的指標(biāo)F1best進(jìn)行比較。實(shí)際上,異常發(fā)生往往會持續(xù)一段時(shí)間,因此只要在異常發(fā)生期間有報(bào)警,則認(rèn)為此段異常能夠正確報(bào)警。

        5.2 對比方法及實(shí)驗(yàn)參數(shù)設(shè)置

        首先,針對帶有缺失值的多維時(shí)序數(shù)據(jù)異常監(jiān)測任務(wù),在模型框架不變的基礎(chǔ)上,對比了GRU-D的模型的一些變體,用于證明GRU-D模型對帶缺失值數(shù)據(jù)異常監(jiān)測的有效性。然后,由于以往較少有做帶有大量缺失值的多維時(shí)序數(shù)據(jù)異常檢測工作,因此也對比了一些針對規(guī)則采樣且缺失率較低的多維時(shí)序數(shù)據(jù)異常檢測方法:基于變分自編碼器的單維時(shí)序異常檢測算法Donut逐通道進(jìn)行異常檢測,用于驗(yàn)證直接建模多維模型比逐維度異常檢測效果好;帶有非參數(shù)動(dòng)態(tài)閾值策略的LSTM模型[1](LSTM-NDT)用于驗(yàn)證RNN和VAE結(jié)合的效果比只用LSTM的模型好;基于LSTM的自編碼器模型[28](LSTM-AE)用于驗(yàn)證VAE異常監(jiān)測的有效性;基于高斯混合模型的自編碼器[17]用于驗(yàn)證RNN時(shí)序數(shù)據(jù)建模的有效性。

        實(shí)驗(yàn)中設(shè)定滑窗長度為100,GRU-D的隱藏層維度為20,隱變量z的維度設(shè)定為3,每批數(shù)據(jù)大小設(shè)為50,訓(xùn)練迭代5次,在訓(xùn)練中采用Adam優(yōu)化器,初始的學(xué)習(xí)率設(shè)定為10-3。此外,在訓(xùn)練階段,將訓(xùn)練集拆分出30%的數(shù)據(jù)當(dāng)作驗(yàn)證集,用于評估訓(xùn)練的程度,在訓(xùn)練中使用早停策略,防止模型過擬合。對于自動(dòng)閾值選擇模塊,兩數(shù)據(jù)集中滿足異常分?jǐn)?shù)小于閾值的期望概率q=10-4;此外,為了保證線下訓(xùn)練和線上運(yùn)行的一致性,線下的閾值策略往往需要仔細(xì)設(shè)置,因此實(shí)驗(yàn)中,下分位數(shù)在0~0.07的范圍內(nèi)以訓(xùn)練集異常檢測效果為指標(biāo)進(jìn)行啟發(fā)式搜索,最終對SMAP而言,下分位數(shù)設(shè)定為0.07;對MSL而言,下分位數(shù)設(shè)定為0.01。所有方法實(shí)驗(yàn)中的隨機(jī)數(shù)種子設(shè)定為3,均在24 G顯存的泰坦服務(wù)器(NVIDIA GeForce RTX TITAN)上運(yùn)行完成,所有結(jié)果均為同參數(shù)下運(yùn)行10次的平均值。

        5.3 實(shí)驗(yàn)結(jié)果及分析

        分3個(gè)部分進(jìn)行驗(yàn)證,首先,按不同比例隨機(jī)丟棄一部分?jǐn)?shù)據(jù),并比較IMAD模型與其變體的異常監(jiān)測效果;而后,與規(guī)則采樣多維時(shí)序異常監(jiān)測方法對比;最后,分析模型對于隱變量z的敏感程度。

        5.3.1 IMAD模型與其變體對比

        比較將IMAD模型中的GRU-D模塊替換成其變體,保持實(shí)驗(yàn)參數(shù)不變,將兩真實(shí)數(shù)據(jù)集按照0.1~0.5的比例隨機(jī)丟棄進(jìn)行實(shí)驗(yàn)對比,最終得到不同方法異常檢測的F1分?jǐn)?shù)隨缺失率變化的對比。

        由圖5可知,GRU-D相比于其他變體方法的異常檢測效果好,尤其是在MSL數(shù)據(jù)集上,在缺失率從0.1變化到0.5時(shí),基于GRU-D的方法異常檢測效果比其他所有變體都要好,證明帶有可學(xué)習(xí)參數(shù)的指數(shù)衰減法相比直接用均值和最近時(shí)刻觀測值的填充法更能有效建模帶有大量缺失值的數(shù)據(jù);單從模型表達(dá)效果隨缺失率變化來看,隨著缺失率的變化,基于GRU-D的IMAD模型的異常檢測效果在小范圍內(nèi)波動(dòng),證明基于GRU-D模型的IMAD模型在含有缺失值的多維時(shí)序數(shù)據(jù)異常檢測任務(wù)中具有較強(qiáng)的魯棒性;而其他3種變體隨著缺失率的上升,異常檢測的F1分?jǐn)?shù)值呈下降趨勢。此外,基于GRU-simple的IMAD模型異常檢測結(jié)果大體上比基于GRU-forward和GRU-mean的IMAD模型好,說明缺失值指示值及兩相鄰觀測值時(shí)間間隔對于建模帶有缺失值有重要作用。

        圖5 不同缺失率下模型性能對比Fig.5 Comparison of performance of models with different missing rates

        5.3.2 IMAD模型與規(guī)則采樣數(shù)據(jù)檢測方法對比

        對比IMAD模型與規(guī)則采樣且缺失值較少的時(shí)序數(shù)據(jù)異常檢測方法(Donut、LSTM-NDT、LSTM-AE以及DAGMM),由于這些方法并沒有針對非規(guī)則采樣且具有較多缺失值的時(shí)序數(shù)據(jù)進(jìn)行建模,因此,用SMAP和MSL全量的數(shù)據(jù)驗(yàn)證上述模型的效果,并與IMAD在帶有缺失值且缺失率為0.3的SMAP和MSL數(shù)據(jù)的異常檢測效果進(jìn)行對比。此外,由于在Donut和LSTM-AE中沒有給出最終確定合適閾值的方式,采用網(wǎng)格搜索得到的F1best分?jǐn)?shù)對各個(gè)方法進(jìn)行比較,最終結(jié)果如圖6所示。對于存在自動(dòng)閾值選擇策略的方法,則對比閾值確定出的精準(zhǔn)率、召回率和F1分?jǐn)?shù),結(jié)果如表2所示。

        圖6 不同方法異常檢測能力上界對比Fig.6 Comparison of anomaly detection of upper boundary performance of different methods

        表2 不同異常檢測性能對比

        由圖6可知,在MSL數(shù)據(jù)集上,缺失率為0.3 時(shí)IMAD算法的F1best分?jǐn)?shù)最高,而在SMAP數(shù)據(jù)集上,帶有缺失值的IMAD算法F1best分?jǐn)?shù)為0.840 5, 略低于LSTM-NDT算法的0.887 5,高于其他3種對比算法,說明即使數(shù)據(jù)具有一定的缺失比例,IMAD算法依然能維持較好的異常檢測效果上界。

        LSTM-NDT是基于預(yù)測的異常檢測方法,此類方法具有較大的局限性,一些時(shí)序數(shù)據(jù)由于分布復(fù)雜很難預(yù)測[28],如MSL中時(shí)序數(shù)據(jù)的分布模式變化較大,因此LSTM-NDT在此數(shù)據(jù)集上效果較差;在MSL中所有基于重構(gòu)的方法效果均比此方法更好,因此基于重構(gòu)的模型相比基于預(yù)測的模型在異常檢測任務(wù)上對不同數(shù)據(jù)分布的魯棒性更強(qiáng),表2也再一次證明了這一點(diǎn)。

        此外,由于MSL相比SMAP數(shù)據(jù)維度和異常種類更多,Donut這類逐個(gè)通道進(jìn)行異常檢測的方式在此數(shù)據(jù)集上F1best分?jǐn)?shù)僅為0.689 4;而IMAD則為0.903 8,這證明了建模多維時(shí)序數(shù)據(jù)通道之間依賴性的有效性;與LSTM-AE方法對比,IMAD算法證明了采用VAE建模隨機(jī)判斷異常值相比重構(gòu)誤差具有更強(qiáng)的魯棒性;與DAGMM相比,IMAD模型證明了RNN系列模型建模時(shí)序數(shù)據(jù)的有效性??傮w而言,與對比方法在全量數(shù)據(jù)上的異常檢測效果上界相比,IMAD采用缺失率為0.3的數(shù)據(jù)訓(xùn)練測試仍然具有優(yōu)勢,這證明了IMAD算法能在建模缺失值和不規(guī)則采樣時(shí)序數(shù)據(jù)的同時(shí),保持一個(gè)較高的模型表達(dá)能力,從而能夠有效保證航天器狀態(tài)的監(jiān)測。

        在實(shí)際使用中,無法采用對測試集遍歷的方式尋找異常檢測效果最優(yōu)時(shí)對應(yīng)閾值的方法,而圖6只是比較了各個(gè)模型的表達(dá)上界,如何能夠自動(dòng)確定合適閾值逼近上界是地面運(yùn)維人員關(guān)心的問題。從表2可以看出,DAGMM由于無法建模時(shí)序依賴關(guān)系,且文獻(xiàn)[17]中給出的自動(dòng)閾值確定策略較差,導(dǎo)致其實(shí)際性能與IMAD算法通過POT算法自動(dòng)確定的閾值表現(xiàn)相差較大,而在SMAP數(shù)據(jù)集上,IMAD算法與LSTM-NDT算法有約5%的差距,但在另一個(gè)分布復(fù)雜的數(shù)據(jù)集上,IMAD相比LSTM-NDT能有更好的異常檢測效果。

        表3給出了IMAD算法采用POT自動(dòng)閾值選擇策略給出算法得到的F1分?jǐn)?shù)與F1best分?jǐn)?shù)對比,可以看出,一旦設(shè)置好POT兩個(gè)重要的參數(shù),模型在不同缺失率下得到的F1分?jǐn)?shù)與模型性能的上界整體差距較小,這證明了基于極值理論自動(dòng)確定閾值的有效性。

        5.3.3 超參數(shù)對于模型性能的影響

        對于自編碼器模型而言,滑窗長度和隱藏層z的維度對于模型性能是十分重要的。為避免RNN建模長序列引起的梯度消失或爆炸問題,引入滑窗輸入策略,由于本文數(shù)據(jù)集采樣頻率高且局部平穩(wěn),此參數(shù)對模型性能影響較弱。但對于隱藏層z的維度,若取較大的值,則可能無法獲取輸入xt有效的低維表示,此時(shí)重構(gòu)異常檢測效果會較差;若取較小的值,則可能無法學(xué)習(xí)到輸入變量xt的特征,造成訓(xùn)練的欠擬合,同樣會導(dǎo)致異常檢測效果較差。因此,模型對于隱藏層z維度的敏感程度會顯著地影響模型的魯棒性。針對缺失率從0.1變化到0.5時(shí)的兩航空時(shí)序數(shù)據(jù)集,觀測隱藏層的維度從1變化到14時(shí)的F1best分?jǐn)?shù)的變化,以表示其模型表達(dá)能力的上界隨z維度的變化,最終結(jié)果如圖7所示。

        從圖7可以看出,固定缺失率時(shí),IMAD算法在兩個(gè)數(shù)據(jù)集上的F1best分?jǐn)?shù)在一個(gè)較小的范圍內(nèi)波動(dòng),且能夠維持在一個(gè)較高的標(biāo)準(zhǔn)上。此外,對比同一個(gè)維度不同缺失率下的F1best分?jǐn)?shù)可知,在MSL數(shù)據(jù)集上,當(dāng)缺失率為0.3時(shí),總體異常檢測性能稍好于其他缺失率的情況;而在SMAP數(shù)據(jù)集上,則是缺失率為0.4時(shí)效果稍好??赡艿脑蚴钱?dāng)缺失率較小時(shí),額外輸入的相鄰觀測值時(shí)間間隔矩陣以及缺失值指示矩陣大部分為無用信息,對于模型的表達(dá)能力造成了一定的干擾;而缺失率較大時(shí),由于數(shù)據(jù)缺失較多,模型沒有足夠的數(shù)據(jù)有效學(xué)習(xí)數(shù)據(jù)的分布,此時(shí)效果也會稍差。

        圖7 隱藏層z維度變化對IMAD性能的影響Fig.7 Influence of hidden z dimension on performance of IMAD

        但值得注意的是,圖7中兩個(gè)數(shù)據(jù)集上即使是最差的F1best分?jǐn)?shù),仍然要比使用全量數(shù)據(jù)的對比算法中Donut、LSTM-AE的高,且相比DAGMM及LSTM-NDT在不同數(shù)據(jù)集上的泛化性能更好一些,這表明不確定性建模對于不同數(shù)據(jù)分布的魯棒性,對多維航空時(shí)序數(shù)據(jù)檢測是十分重要的。

        基于VAE的異常檢測模型實(shí)際上是通過學(xué)習(xí)正常數(shù)據(jù)的分布形態(tài)進(jìn)行異常檢測的。圖8給出了z的維度取3時(shí),正常數(shù)據(jù)及異常數(shù)據(jù)在隱藏空間的分布情況,可以看出,當(dāng)將包含異常點(diǎn)的滑窗數(shù)據(jù)給到離線訓(xùn)練模型中時(shí),其編碼得到的低維表示(紅色點(diǎn))與正?;皵?shù)據(jù)編碼得到的低維表示(藍(lán)色點(diǎn))在空間中耦合不可分離。這種不可分性表明即使模型輸入數(shù)據(jù)中包含異常點(diǎn),其低維表示與正常輸入數(shù)據(jù)的低維表示是相近的,因此其對應(yīng)的重構(gòu)值仍然是趨于正常的。此時(shí),異常點(diǎn)和與其對應(yīng)的重構(gòu)值之間有較大差距,導(dǎo)致其重構(gòu)概率lgp(x|z)相比正常值對應(yīng)的重構(gòu)

        圖8 輸入變量xt的隱層表示Fig.8 Latent representation of input variable xt

        概率小,從而能夠判別異常點(diǎn)。同時(shí),這也說明VAE模型學(xué)習(xí)了正常數(shù)據(jù)的分布,因此,即使xt包含異常值,依然能將其編碼至正常數(shù)據(jù)編碼對應(yīng)的低維流形中去。

        6 結(jié) 論

        航天器狀態(tài)實(shí)時(shí)監(jiān)測是航天任務(wù)能夠順利完成的重要保障,而由于航空時(shí)序數(shù)據(jù)具有維度大、時(shí)間長、缺失值多、采樣不規(guī)則等特性,實(shí)現(xiàn)實(shí)時(shí)的線上異常檢測較為困難,針對上述非規(guī)則采樣且?guī)в腥笔е档暮娇者b測多維時(shí)序數(shù)據(jù)異常檢測問題,首先提出了IMAD算法,采用GRU-D從模型層面建模多維非規(guī)則采樣有缺失值數(shù)據(jù);然后使用VAE建模不確定性,采用重構(gòu)概率進(jìn)行異常檢測;最終采用POT算法自動(dòng)確定合適閾值。在兩個(gè)真實(shí)航空時(shí)序數(shù)據(jù)集上,IMAD均取得了超出當(dāng)前最新異常檢測算法的效果。多個(gè)實(shí)驗(yàn)表明,IMAD在缺失率、參數(shù)、數(shù)據(jù)集變化時(shí),能夠維持較好的異常檢測效果,具有較強(qiáng)的魯棒性。

        在本文方法的框架上仍有較多工作可以探究,如通過引入生成對抗網(wǎng)絡(luò),采用博弈的思想進(jìn)一步提高魯棒性;此外,IMAD中隱層分布假設(shè)服從對角高斯分布,與實(shí)際情況不符,引入更復(fù)雜的分布可能可進(jìn)一步提高其異常檢測的性能。

        猜你喜歡
        檢測方法模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        可能是方法不對
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測中的應(yīng)用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        久久免费视亚洲无码视频| 精品国模人妻视频网站| av在线高清观看亚洲| 男女无遮挡高清性视频| 粉嫩被粗大进进出出视频| 久久精品片| 亚洲中字幕永久在线观看| 久久老熟女一区二区三区| 男人的天堂中文字幕熟女人妻| 狼人香蕉香蕉在线28 - 百度| 国产精品无码不卡一区二区三区| 99热最新在线观看| 免费在线av一区二区| 精品亚洲一区二区三洲| 日日噜噜夜夜狠狠va视频v| 国产精品538一区二区在线| 把插八插露脸对白内射| 亚洲欧美日韩国产综合专区| 亚洲av本道一本二本三区| 日本国产成人国产在线播放| 欧美怡红院免费全部视频| 中文字幕在线观看国产双飞高清| 国内自拍第一区二区三区 | 欧美熟妇另类久久久久久多毛| 国产成人a级毛片| 三男一女吃奶添下面| 精品人妻丰满久久久a| 男女深夜视频网站入口| 亚洲av无码专区亚洲av网站| 亚洲中文字幕无码中字| 我和丰满老女人性销魂| 视频国产自拍在线观看| 超碰国产精品久久国产精品99| 亚洲国产精品久久艾草| 国产精品 人妻互换| 久久久精品久久日韩一区综合| 国产尤物二区三区在线观看| 水蜜桃视频在线观看入口| 成人乱码一区二区三区av| 欧美va免费精品高清在线| 2021国内精品久久久久精免费|