亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于滑動窗口的直升機序列異常檢測算法

        2023-03-04 13:34:14趙子晗段同樂張冬寧
        計算機測量與控制 2023年2期
        關(guān)鍵詞:特征檢測

        趙子晗,段同樂,張冬寧

        (中國電子科技集團(tuán)公司 第54研究所,石家莊 050081)

        0 引言

        隨著科學(xué)技術(shù)的發(fā)展和人類社會的進(jìn)步,我們不管是在科技領(lǐng)域還是生活領(lǐng)域都積累了大量的數(shù)據(jù)信息,而且數(shù)據(jù)的規(guī)模越來越大,在如今數(shù)據(jù)爆發(fā)式增長的情況下,如何管理好并應(yīng)用好這些數(shù)據(jù)就顯得尤為重要。在這個需求基礎(chǔ)上,數(shù)據(jù)分析等相關(guān)技術(shù)應(yīng)運而生[1-2]。大數(shù)據(jù)分析的廣泛應(yīng)用與進(jìn)展,也導(dǎo)致了科研人員們針對于軍事工程應(yīng)用中海量數(shù)據(jù)的管理問題有了全新的認(rèn)識與要求,而大數(shù)據(jù)挖掘中的一項十分關(guān)鍵的分支應(yīng)用便是異常檢測,異常檢測技術(shù)對于機械故障診斷、疾病監(jiān)測、保險欺騙檢測以及身份辨別等領(lǐng)域都發(fā)揮著相當(dāng)重要的作用[3-6],對于軍事應(yīng)用中的海量數(shù)據(jù)而言,異常數(shù)據(jù)中往往蘊含著顯著的行為信息,如何提取合適的異常特征并針對無標(biāo)簽數(shù)據(jù)進(jìn)行有效率的異常檢測,成為了當(dāng)前面臨的難題[7-8]。

        當(dāng)前無標(biāo)簽的序列在異常檢測算法中往往存在著對數(shù)據(jù)的信息掌握不全面、不能合理使用的情況,采用深度學(xué)習(xí)方法又面臨著算法可解釋性差等問題[10-14],基于此我們以直升機飛行數(shù)據(jù)為例對序列異常檢測進(jìn)行研究,采用基于滑動窗口的直升機序列異常檢測算法,提升算法檢測效率,實現(xiàn)算法優(yōu)化;同時選取特征變量,通過對比分析闡述算法的有效性和可解釋性[15-18]。

        1 飛行數(shù)據(jù)異常檢測技術(shù)

        1.1 異常及異常檢測相關(guān)定義

        在異常檢測技術(shù)中,異常是指信息中不滿足所規(guī)定的正常行為的狀態(tài),在一般過程中,信息通常是由一個或多個常規(guī)的形成機制產(chǎn)生的,其他的形成機制所產(chǎn)生的信息,一般可視為異常數(shù)據(jù)。所以,當(dāng)某些數(shù)據(jù)點明確的區(qū)別或者脫離了通常的點集時,我們就可以大膽猜測其為異常模式所產(chǎn)生的。而序列性異常則是指在一定時刻上,或是在相對空間上具有天然序列性特征的數(shù)據(jù)。這些數(shù)列既可以是單特征變量的,也可以是多特征變量的[19-22]。系列中異常數(shù)據(jù)產(chǎn)生的因素也有許多,其中主要包括以下原因:

        因為工作的疏忽,造成信息的閱讀、錄入、統(tǒng)計等產(chǎn)生的錯誤;因為不同的數(shù)據(jù)庫系統(tǒng)的度量內(nèi)容和時間通常并不相同,可能導(dǎo)致了在合并來自不同數(shù)據(jù)庫系統(tǒng)的信息上出現(xiàn)的問題;因為其內(nèi)部結(jié)構(gòu)的許多內(nèi)部特征,如上下文關(guān)系、因果關(guān)系等難以避免的序列特征特異性產(chǎn)生的錯誤。

        而現(xiàn)如今針對飛行序列異常檢測通常要面臨以下兩個主要的難題:

        首先,不同于測試用的有標(biāo)簽的明確數(shù)據(jù)集,應(yīng)用于工業(yè)工程生產(chǎn)中的數(shù)據(jù)集往往同時具備數(shù)據(jù)量非常龐大和缺乏標(biāo)簽這兩個特征。以直升機的飛行數(shù)據(jù)收集工作為例,數(shù)據(jù)量往往可以到達(dá)百萬量級,但因為給數(shù)據(jù)打標(biāo)簽的工作通常是由行業(yè)內(nèi)相關(guān)專家針對相應(yīng)的特征變量手動進(jìn)行,所以要得到一個具有準(zhǔn)確異常標(biāo)簽的訓(xùn)練數(shù)據(jù)集,往往需要花費非常大的時間代價。由于異常的形成因素很多,所以收集已打好標(biāo)簽并橫向上涵蓋該時間切片情況下,任何可能的異常行為數(shù)據(jù)往往比收集帶標(biāo)記的正常數(shù)據(jù)的困難更大,但總的來說,針對在大數(shù)據(jù)環(huán)境下的無標(biāo)記數(shù)據(jù),相關(guān)標(biāo)簽的稀缺性使得異常檢測的難度驟增[23]。

        其次是數(shù)據(jù)類型的動態(tài)變化特性。在很多問題上我們都無法單純地從數(shù)據(jù)模型展開解釋,需要從其生成的時間流程、行為等來確定異常,而加入了時間的概念后,現(xiàn)階段識別或標(biāo)簽出來的異常的行為也不一定在下一個時間結(jié)點下依然存在著意義,也因此在縱向上統(tǒng)一特征對應(yīng)的異常界定也很困難,正常數(shù)據(jù)和異常數(shù)據(jù)邊界的不確定性會導(dǎo)致隨著動態(tài)數(shù)據(jù)的識別訓(xùn)練過程中不斷增加新類型的異常模式。

        1.2 國內(nèi)外研究現(xiàn)狀

        隨著科技的發(fā)展,國內(nèi)外對于飛行數(shù)據(jù)的異常檢測技術(shù)都有了長足的發(fā)展:國外對直升機狀態(tài)的檢測從最初依賴工人專業(yè)素養(yǎng)和工作經(jīng)驗的的“看”“嗅”“聽”“摸”的人工模式逐漸發(fā)展為利用傳感器與計算機設(shè)備相結(jié)合的HUMS技術(shù),對于直升機實時監(jiān)測分析的能力得到顯著提高。在這期間Guanguli和Chopra等人建立了非線性氣動彈性方程,模擬了質(zhì)量塊丟失、槳葉吸潮、變距拉桿損壞等具體的故障[24];B.V.Jammu 提出里SBCN神經(jīng)網(wǎng)絡(luò)用于OH-58A直升機的診斷;Mao Yang和Chopra等在直升機上對旋翼和機身耦合進(jìn)行了異常檢測等[25]。而我國在Hums方面的研究開展的比較晚,直升機故障檢測技術(shù)也發(fā)展的相對緩慢?!靶颖尽⒇毿畔ⅰ钡幕疑到y(tǒng)理論逐漸應(yīng)用于直升機領(lǐng)域[26];姚飛虎在盲源分離的人工免疫技術(shù)的基礎(chǔ)上創(chuàng)建的旋翼故障診斷方法[27];鄧升平在模擬旋翼不平衡實驗中建立的支持向量機和廣義神經(jīng)網(wǎng)絡(luò)的兩種故障診斷模型[28-29]等,都為相關(guān)領(lǐng)域提供了堅實的基礎(chǔ)。

        因飛行數(shù)據(jù)異常檢測中異常標(biāo)簽的匱乏,監(jiān)督型學(xué)習(xí)方法不能很好地發(fā)揮其算法優(yōu)勢,通常要使用已知的正常樣本數(shù)據(jù)來進(jìn)行學(xué)習(xí)檢測,當(dāng)前在點異常檢測領(lǐng)域所采用的方法基本可分為三類,即基于密度或超平面劃分的方法、基于線性模型的方法和基于在線計算的方法:

        首先是基于密度或超平面劃分的方法中比較有代表性的三個算法:LOF算法、KNN算法和Iforest算法。其中LOF方法(Local Outlier Factor局部離群因子檢測)是根據(jù)密度的離群點測量技術(shù)中一個常用方法。其算法主要好處在于:它同時兼顧了數(shù)據(jù)子集的局部與全局特征。LOF由于性能好,因此特別適合于中高維的數(shù)據(jù)子集;KNN算法(k-NearestNeighbor算法)又稱k-近鄰算法。其算法原理是對信息的排序。使用KNN算法測試時序數(shù)據(jù)異常值的優(yōu)點在于訓(xùn)練時間較短,對數(shù)值無假設(shè),準(zhǔn)確率高。比較適于對樣本容量較大的雷雨自動分析,也可以進(jìn)行非線性回歸,但缺點是運算工作量較大,對稀有類別的數(shù)據(jù)精確度低,可解釋性也較差;Iforest方法是一種基于集成學(xué)習(xí)技術(shù)的快速異常分析方法,既不需要數(shù)學(xué)模型又不需要有標(biāo)簽的訓(xùn)練,同時具有線性的時間復(fù)雜度和高準(zhǔn)確性。但是Iforest不能使用太大維度的數(shù)據(jù)。因為每次切數(shù)據(jù)都是隨機選擇某個維度,建了樹之后依然有大量的維度數(shù)據(jù)不能被利用。并且高維數(shù)據(jù)還可能存在大量噪音維度或者無關(guān)維度,使得樹的構(gòu)建難度增大。Iforest算法的確在異常檢驗領(lǐng)域中發(fā)揮了很大影響,促進(jìn)了重心推斷理論的進(jìn)展,而且在分類聚類和異常檢驗領(lǐng)域中都有了明顯的成效。

        基于線性模型的代表性算法之一為PCA(principal component analysis)即主成分分析方法,是目前最為廣泛應(yīng)用的數(shù)據(jù)降維技術(shù)。PCA是一個基于目標(biāo)數(shù)據(jù)特征性的最佳正交變換,稱它為最佳正交變換主要因為它具備以下較好的特點:轉(zhuǎn)換后與新的能量正交或不有關(guān);轉(zhuǎn)換矢量更趨平衡、能量更趨集中等。PCA由于簡單而有效,廣泛應(yīng)用于數(shù)據(jù)處理中特征選取、數(shù)據(jù)壓縮等各個方面。

        基于在線計算的方法如LODA,除了快速和準(zhǔn)確的特性之外,LODA還能夠?qū)G失變量的數(shù)據(jù)操作和更新。此外,LODA可以識別出被仔細(xì)檢查的樣本與大多數(shù)樣本不同的特征。當(dāng)目標(biāo)是找出導(dǎo)致異常的原因時,此功能非常有用。

        上述方法主要是以將點異常分析的研究為重點目標(biāo),而在針對無標(biāo)簽數(shù)據(jù)的序列異常分析方面,現(xiàn)階段使用的主要是神經(jīng)網(wǎng)絡(luò)的方法,包括了自編碼網(wǎng)絡(luò)系統(tǒng)、對抗網(wǎng)絡(luò)系統(tǒng)和循環(huán)神經(jīng)網(wǎng)絡(luò)等最先進(jìn)的深入學(xué)習(xí)模式,以變分自編碼網(wǎng)絡(luò)系統(tǒng)為例,它融合了機器學(xué)習(xí)與貝葉斯學(xué)習(xí)二者的優(yōu)勢,對于異常情況的模擬訓(xùn)練有著更好的擬合效果,且可以充分發(fā)揮貝葉斯方法針對小樣本學(xué)習(xí)的穩(wěn)定性。再比如,訓(xùn)練神經(jīng)網(wǎng)絡(luò)可以廣泛應(yīng)用于處理各種序列數(shù)據(jù)現(xiàn)象的神經(jīng)網(wǎng)絡(luò)框架中,但一直無法解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中所存在的時間梯度消失的問題??偟膩碚f,現(xiàn)階段用神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行飛行數(shù)據(jù)序列異常檢測是一種非常值得研究應(yīng)用的發(fā)展方向。

        2 算法設(shè)計與實現(xiàn)

        序列異常檢測中數(shù)據(jù)有一定順序特征,導(dǎo)致了傳統(tǒng)的異常檢測技術(shù)單一地解析各種數(shù)據(jù)實例,卻忽視了數(shù)據(jù)的序列特性,從而導(dǎo)致測試的復(fù)雜度和準(zhǔn)確率都差強人意。而常用的神經(jīng)網(wǎng)絡(luò)的方法雖然一定意義上解決了序列特性,但是受限于算法本身,其可解釋性較差,對于工業(yè)級數(shù)據(jù)并不具備很好的普適性。

        基于此背景下,我們提出并證明了一種基于滑動窗口的序列異常檢測算法,通過分別引入兩個滑動窗口來滿足對于異常檢測所需特征的提取和多提取特征的時間關(guān)聯(lián)性需求,滑動窗口的引入獲取了序列統(tǒng)計特征,充分提取了時間片段的統(tǒng)計特征,從而實現(xiàn)了序列異常檢測問題到點異常檢測問題的轉(zhuǎn)換,在點異常檢測問題的基礎(chǔ)上我們就能有更多的驗證手段和檢測方法來驗證檢測效率的提升。我們在annthyroid、arrhythmia、breastw、cardio、mammography、musk、pendigits、pima、satellite、satimage-2、seismic_bumps、shuttle、thyroid、wbc這14個帶標(biāo)簽的公開數(shù)據(jù)集上,按照各個數(shù)據(jù)集已知的異常比例對各個算法設(shè)置異常比例參數(shù)為運行算法計算auc評分并取均值,并統(tǒng)計每個算法能在多少數(shù)據(jù)集上獲得最高評分。其結(jié)果見表 1。

        表1 算法選擇標(biāo)準(zhǔn)

        通過綜合比對算法檢測的評分和算法能夠獲得最高評分的數(shù)據(jù)集個數(shù)后,我們最終在算法內(nèi)部選擇使用Iforest和PCA與滑動提取序列特征的窗口相結(jié)合。

        所采用的序列異常檢測算法流程如圖1所示。

        圖1 序列異常檢測算法流程圖

        1)數(shù)據(jù)預(yù)處理。將原始數(shù)據(jù)按照序列順序進(jìn)行篩選,即將數(shù)據(jù)劃分為某個平臺仿真實現(xiàn)的某時間區(qū)間內(nèi)的全部數(shù)據(jù),并標(biāo)注相應(yīng)的時間關(guān)系。

        2)特征提取。通過提取數(shù)據(jù)的波動情況和數(shù)據(jù)的統(tǒng)計信息來完成特征提取的任務(wù)。通過計算時間窗口內(nèi)的2-范數(shù)值和范數(shù)變化率,得到數(shù)據(jù)的波動情況。

        (1)

        其中:X={x1,x2,…,xn}。范數(shù)變化率即為相鄰時間窗口間的范數(shù)值之差。

        再使用時間窗口獲取數(shù)據(jù)統(tǒng)計信息。數(shù)據(jù)的統(tǒng)計信息可以反映該段時間內(nèi)數(shù)據(jù)的總體狀況。本算法中選取的特征值見表2。

        表2 統(tǒng)計特征表

        用T={T1,T2,…,Tn-1,Tn}來表示m維時間序列,Ti代表第i時刻參數(shù)項數(shù)據(jù)值。其中:

        (2)

        引入滑動窗口W1,設(shè)置窗口大小為k、滑動步長為step_1,計算每k個時間步內(nèi),第j項的參數(shù)數(shù)據(jù)的范數(shù)值和范數(shù)變化率。

        (3)

        DNj(Tk)=Nj(Tk)-Nj(Tk-1)

        (4)

        通過公式(3)、(4)計算得到波動特征數(shù)據(jù)集D,D的維度為u*v,其中m為選取飛行特征數(shù)量,

        (5)

        v=2*m

        (6)

        n為總數(shù)據(jù)個數(shù)。

        引入第二個滑動窗口W2, 設(shè)置窗口大小為k*、滑動步長為step_2,計算波動特征數(shù)據(jù)集中每k*個時間步內(nèi),各項參數(shù)數(shù)據(jù)的統(tǒng)計特征值,最終得到帶有波動統(tǒng)計信息的特征數(shù)據(jù)集S。

        S的維度為x*y,其中:

        (7)

        y=v*z

        (8)

        z為所選統(tǒng)計特征的數(shù)量。

        圖2 提取波動特征數(shù)據(jù)集示意圖

        圖3 提取帶統(tǒng)計特征的波動特征數(shù)據(jù)集示意圖

        3)聚類分析。對于數(shù)據(jù)集S,使用mean-shift均值漂移的方法進(jìn)行聚類,針對數(shù)據(jù)集,隨機選擇b個樣本計算其兩兩之間的距離,并用距離的c分位數(shù)作為聚類方法所選用的半徑(c分位數(shù)即數(shù)據(jù)中小于等于該數(shù)的比例為c。),將高維數(shù)據(jù)集S聚類。b通常選取100,c通常選取3。

        4)異常檢測。這里我們選用iforest作為算法內(nèi)層的異常檢測手段,其流程分為兩個步驟進(jìn)行:

        首先是訓(xùn)練樹形模型:從全量數(shù)據(jù)中抽取部分樣本,然后隨機選擇一個特征作為起始節(jié)點,在該特征的最大值和最小值之間隨機選擇一個值,將樣本數(shù)據(jù)中小于該取值的數(shù)據(jù)劃到左分支,大于等于該取值的劃到右分支。接下來在劃分好的兩個分支數(shù)據(jù)中不斷迭代上述全部步驟,直到滿足數(shù)據(jù)不可再分(只包含一條數(shù)據(jù),或者全部數(shù)據(jù)相同)和二叉樹達(dá)到限定的最大深度這兩個條件時退出,即完成iTree 構(gòu)建。

        其次是進(jìn)行模型預(yù)測:通過估算它在每棵iTree中的路徑長度來計算得到所選數(shù)據(jù)x的異常得分。先隨機選取一棵iTree,從根節(jié)點開始按不同特征的取值從上往下,直到到達(dá)某葉子節(jié)點。假設(shè)iTree的訓(xùn)練樣本中同樣落在x所在葉子節(jié)點的樣本數(shù)為T.size,則數(shù)據(jù)x在這棵iTree上的路徑長度h(x) ,可以用式(9)對其進(jìn)行計算:

        h(x)=e+C(T.size)

        (9)

        式(9)中,e表示數(shù)據(jù)x從iTree的根節(jié)點到葉節(jié)點過程中經(jīng)過的邊的數(shù)目,C(T.size)表示在一棵用T.size條樣本數(shù)據(jù)構(gòu)建的二叉樹的平均路徑長度。通常情況下,我們可以用公式(10)對C(n)進(jìn)行計算:

        (10)

        數(shù)據(jù)x最終的異常分值Score(x)綜合了多棵 iTree 的結(jié)果:

        Score(x)=2-E(h(x))/C(φ)

        (11)

        其中:E(h(x))表示數(shù)據(jù)x在多棵iTree路徑長度的均值,C(φ)表示用φ條數(shù)據(jù)構(gòu)建完成的二叉樹的平均路徑長度。

        從異常分值的公式看,如果數(shù)據(jù)x在多棵iTree中的平均路徑長度越短,得分越接近1,表明數(shù)據(jù)x越異常;如果數(shù)據(jù)x在多棵iTree中的平均路徑長度越長,得分越接近0,表示數(shù)據(jù)x越正常。

        得到上一步驟的聚類結(jié)果后,對S中的每一類分別使用Iforest算法進(jìn)行異常檢測,異常比例θ進(jìn)行統(tǒng)一設(shè)置。

        5)降維可視化。選取降維算法時要注意到數(shù)據(jù)線性變化和數(shù)據(jù)損耗的情況。PCA(principal component analysis),即主成分分析方法,是目前最為廣泛應(yīng)用的數(shù)據(jù)降維技術(shù)。因為PCA是一個基于目標(biāo)數(shù)據(jù)特征性的最佳正交變換,稱它為最佳正交變換主要因為它具備以下較好的特點:轉(zhuǎn)換后與新的能量正交或不有關(guān);轉(zhuǎn)換矢量更趨平衡、能量更趨集中等。PCA系統(tǒng)由于簡單而有效,廣泛應(yīng)用于數(shù)據(jù)處理中特征選取、數(shù)據(jù)壓縮等各個方面?;诖?,本算法中我們選取PCA方法將高維數(shù)據(jù)集S降維到2維,并進(jìn)行聚類結(jié)果和異常檢測結(jié)果的可視化。

        通過1)~5),我們便在本算法內(nèi)部實現(xiàn)了Iforest算法和PCA算法同滑動窗口的結(jié)合,實現(xiàn)了從序列異常到帶序列特征的點異常的問題轉(zhuǎn)換。完成了基于滑動窗口的序列異常檢測算法的算法設(shè)計部分。

        3 實驗結(jié)果及其分析

        3.1 數(shù)據(jù)分析處理

        3.1.1 數(shù)據(jù)特征

        通過對實際飛行數(shù)據(jù)的模擬仿真獲取的數(shù)據(jù)共2 376 662條,飛行時間涵蓋六個月;對特征的類型進(jìn)行歸類可知主要涵蓋直升機架次時間、操控信息和位置信息這三類,特征屬性可見表 3。

        表3 直升機數(shù)據(jù)集特征表

        由于直升機自身的速度限制,不能在很短的時間使得經(jīng)緯度發(fā)生較大的改變,因此我們剔除掉經(jīng)緯度屬性分析,轉(zhuǎn)而使用速度和高度分析空間位置的變化情況。

        直升機的姿態(tài)角度說明如圖 4所示:航向角為將機體水平方向映射向地面,并與預(yù)定目標(biāo)(一般正北)所形成的夾角,右偏航方向則為正。橫滾角表示機翼橫軸線與地平面角度,以右傾為正;橫滾表示機翼橫軸線與地平面夾角,右傾斜為正;俯仰角表示機身縱軸與地平面的角度,以抬頭方向為正。

        圖4 飛機方向角示意圖

        3.1.2 數(shù)據(jù)預(yù)處理

        通過觀察數(shù)據(jù)文件發(fā)現(xiàn)數(shù)據(jù)中包含一些特殊的特征屬性,其經(jīng)緯度為0的異常噪點數(shù)據(jù),與實際經(jīng)緯度顯然不符,將這些數(shù)據(jù)作為噪點數(shù)據(jù)消除。

        經(jīng)過對數(shù)據(jù)的觀察,經(jīng)緯度范圍相對固定,經(jīng)度在[110,120],緯度在[30,40],因此消除經(jīng)度在[110,120]之外、緯度在[30,40]之外的噪點。

        3.1.3 異常檢測特征選取

        為了直觀地分析不同特征對于異常檢測的影響,我們先對已選擇的特征進(jìn)行可視化分析,由于四維及以上已經(jīng)超出人腦的空間感受,因此可視化時選擇最多三維。

        圖5展示了某一數(shù)據(jù)集文件中飛行狀態(tài)中的方向角特征的變化情況,使用Iforest異常檢測算法設(shè)置異常比例為0.01進(jìn)行異常檢測,通過plt繪制灰度圖,正常點為深色,異常點為淺色。從圖中可發(fā)現(xiàn)直升飛機方向角的數(shù)據(jù)聚為4簇,猜測飛行中存在四種模式,考慮受到機組以及飛行狀態(tài)的影響存在不同的差別,所以分別獲取每個簇對其進(jìn)行進(jìn)一步的分析。

        圖5 數(shù)據(jù)文件中方向角特征異常檢測結(jié)果

        為了研究航線的飛行規(guī)律,我們也嘗試按照經(jīng)緯度繪制不同平臺飛機的航線,圖6顯示的某一平臺上一天采集并記錄到的的航線實例。我們使用pandas加載飛行數(shù)據(jù)記錄,過濾掉航速為0的靜止?fàn)顟B(tài)記錄,提取出飛行軌跡的經(jīng)度和緯度列表,根據(jù)經(jīng)緯度數(shù)據(jù)取點連線,繪制了地圖和飛行軌跡,飛行軌跡結(jié)果見圖6。

        圖6 某一平臺記錄的飛行軌跡圖

        可以發(fā)現(xiàn),飛機一次飛行的經(jīng)、緯度改變很小,其它平臺也有類似特點,所以經(jīng)、緯度不作為檢測特征。對所有數(shù)據(jù)進(jìn)行可視化分析表明飛行狀態(tài)不隨航向發(fā)生明顯變化,且呈現(xiàn)較為明顯的四個簇,每個簇受到飛行平臺和機組的不同顯現(xiàn)出細(xì)微的變化。這與實際也十分契合,因為不同的操作方式不會隨著直升機航向的變化而發(fā)生變化,只與周圍環(huán)境以及自身飛行狀態(tài)有關(guān)。飛機姿態(tài)由航向角,俯仰角和橫滾角確定,航向角僅對航向有影響,因此航向角不作為姿態(tài)異常的檢測特征。最終選擇高度、俯仰角、橫滾角和航速特征作為異常檢測特征。

        3.2 不同航線上的實驗驗證

        3.2.1 算法有效性驗證

        為了驗證算法效率的提升,我們將本算法和上文中提及的幾種常用的點異常檢測算法應(yīng)用于網(wǎng)絡(luò)上幾種不同類別的帶有異常標(biāo)簽的公開數(shù)據(jù)集上,進(jìn)行對比試驗。

        我們選取了三個不同行業(yè)帶有不同異常類別的公開數(shù)據(jù)集,分別為annthyoid、breastw和wbc,針對這三個數(shù)據(jù)集分別使用Iforest算法、PCA算法和本文提出的滑動窗口算法進(jìn)行異常檢測,并使用auc評分進(jìn)行異常檢測效率的對比分析,進(jìn)行三次試驗后,分別對得分取均值作為結(jié)果填入表中,結(jié)果見表 4。

        表4 多種算法對比auc評分

        其中橫坐標(biāo)為所用的數(shù)據(jù)集,縱坐標(biāo)為所使用的異常檢測方法,前兩種為滑動窗口中使用到的普適性算法,第三種為本文提出的基于滑動窗口的序列異常檢測算法,從結(jié)果分析上來看,相較于Iforest算法和PCA算法,基于滑動窗口的序列異常檢測算法有一定的提升,雖然基于滑動窗口的序列異常檢測算法僅在兩個數(shù)據(jù)集上跑到了最大值,但是在其他數(shù)據(jù)集上和其他算法的auc評分差距都很小,從而最終相對算法的平均auc評分最高。

        由此可見,使用基于滑動窗口的序列異常檢測算法在算法層面上實現(xiàn)了兩個優(yōu)化,首先是相較于普通的異常檢測算法的檢測效率有一定的提升;同時將序列異常檢測問題轉(zhuǎn)化為點異常檢測問題,解決了以往算法不能很好地獲取數(shù)據(jù)間序列特征的問題。

        3.2.2 針對聚類結(jié)果的預(yù)實驗分析

        為了驗證本算法針對無標(biāo)簽數(shù)據(jù)集的檢測效果,我們將其應(yīng)用于直升機飛行數(shù)據(jù)集上進(jìn)行預(yù)實驗:選取三條航線數(shù)據(jù),以A1-2021-X1-Y1為例,其表示為2021年X1月Y1日記錄在A1平臺上的全部航線數(shù)據(jù)。通過對比不同航線聚類結(jié)果和異常檢測結(jié)果來進(jìn)行驗證分析。

        所有實驗所選擇的飛行特征都為高度、俯仰、橫滾和航速,且對所有特征都進(jìn)行歸一化處理;窗口均選擇參數(shù)為W1=5,步長為2,W2=2,步長為1;異常檢測算法均使用Iforest,異常比例設(shè)置為0.02;使用PCA將特征數(shù)據(jù)集S降維至2維,進(jìn)行可視化分析。

        1)實驗一。

        數(shù)據(jù)選擇:A1-2021-X1-Y1。

        聚類半徑選擇距離中的2分位數(shù),半徑為0.855 1,聚為4類。

        圖7 A1-2021-X1-Y1聚類結(jié)果、異常檢測圖

        2)實驗二。

        數(shù)據(jù)選擇:A2-2021-X2-Y2。

        聚類半徑選擇距離中的6分位數(shù),半徑為1.711,聚為4類。

        圖8 A2-2021-X2-Y2聚類結(jié)果、異常檢測圖

        3)實驗三。

        數(shù)據(jù)選擇:A3-2021-X3-Y3。

        聚類半徑選擇距離中的3分位數(shù),半徑為0.601 7,聚為8類。

        圖9 A3-2021-X3-Y3聚類結(jié)果、異常檢測圖

        上述實驗中圖 7、圖 8和圖 9中三個左圖均為將帶有統(tǒng)計信息特征數(shù)據(jù)集S使用上述參數(shù)進(jìn)行聚類后使用PCA降維至二維的展示,圖中每一種顏色深淺代表高維中聚類的一類。圖 7、圖 8和圖 9中三個右圖則為將帶有統(tǒng)計信息特征數(shù)據(jù)集S中每一類使用Iforest進(jìn)行異常檢測并降維可視化至二維平面的示意圖,圖中圓點為正常數(shù)據(jù)點,三角為異常數(shù)據(jù)點。

        通過對比三組實驗可以發(fā)現(xiàn),通過在高維進(jìn)行聚類并異常檢測后,其降到二維后同一類的點基本在一片區(qū)域內(nèi),但由于原本維度較大,使用PCA降至二維后所選取的特征在二維中不一定是明顯的分類,因為損失了部分信息,導(dǎo)致在二維中看起來接近的部分其實是不同的類別。降至低維時其同時篩選出的異常數(shù)據(jù)均在二維平面所展示類的邊緣部分,符合對異常點的定義(即離群點)。同時反映出在這些時間段內(nèi),數(shù)據(jù)的某些或某幾個特征存在較大的波動變化。因此從算法上和直觀上,都可以展示出該異常檢測算法有一定的正確性和可解釋性。

        最終篩選出存在異常波動的時間窗口。在短時間內(nèi),可以認(rèn)為飛行習(xí)慣不會產(chǎn)生較大變化。此時若新增序列加入,可以通過該飛機的歷史航線飛行記錄對其窗口的統(tǒng)計特征進(jìn)行聚類,計算出新序列的統(tǒng)計特征,并計算其與各類中心的距離。若距離各個中心都較遠(yuǎn),超過某一閾值,則表示該段序列相較原飛行數(shù)據(jù)可能存在異常,反之則代表其大概率為正常。但若新增序列距離上次聚類時間較長,飛行員的飛行習(xí)慣以及直升機的屬性等可能發(fā)生改變,導(dǎo)致數(shù)據(jù)聚類的中心發(fā)生改變。因此為了保證檢測效率,需要使用最近一段的飛行數(shù)據(jù)重新進(jìn)行聚類,更新聚類中心。

        3.2.3 針對特征變量的實驗分析

        通過預(yù)實驗分析,我們驗證了基于滑動窗口的序列異常檢測算法可以應(yīng)用于無標(biāo)簽的直升機飛行數(shù)據(jù)上,接下來將通過飛行特征隨時序變化的趨勢來驗證該異常檢測算法的有效性和可解釋性。

        我們針對試驗所選擇的飛行特征為高度、俯仰、橫滾和航速,將會以對比實驗的形式分別,分析以不同飛行特征作為序列異常檢測特征時,特征的變化規(guī)律、檢測為異常時飛行特征是否發(fā)生突變等情況,驗證算法有效性和可解釋性。

        通過對實驗數(shù)據(jù)的篩選處理,我們最終選擇了A、B兩條航線通過對比試驗的方式對四個飛行特征進(jìn)行驗證。

        A航線:

        所選航線為A4-2021-X4-Y4,其數(shù)據(jù)條數(shù)為4 352條。如圖10、11所示,所選聚類分位數(shù)為3分位數(shù),聚類半徑為1.235 9,將高維數(shù)據(jù)聚為2類。將其降維后,可以看到異常點幾乎分布在每一類的周圍。將其中的高度-時間圖和俯仰-時間圖繪制出來,將異常窗口起始用點標(biāo)明,并將異常點在灰度圖中顯示??梢钥吹?,在高度-時間圖中,異常點基本處于高度突變且頻率較密的地方,同時俯仰角也都在突變區(qū)域。由此可見在異常點處其飛行情況確實存在較大波動。

        圖10 A4-2021-X4-Y4聚類結(jié)果、異常檢測結(jié)果圖

        圖11 A4-2021-X4-Y4高度-時間圖、俯仰-時間圖

        B航線:

        所選航線為A5-2021-X5-Y5,其數(shù)據(jù)條數(shù)為6 408條。如圖12、13所示,所選聚類分位數(shù)為2分位數(shù),聚類半徑為1.211 0,將高維數(shù)據(jù)聚為2類。將其降維后,可以看到異常點幾乎分布在每一類的周圍。將其中的橫滾-時間圖和航速-時間圖繪制出來,將異常窗口起始用點標(biāo)明,并將異常點在灰度圖中顯示,可以看到,在航速-時間圖中,異常點基本處于高度突變且頻率較密的地方,對應(yīng)到橫滾-時間圖中可見異常點基本處于高度突變狀態(tài)中,綜合二者可分析得到異常點處其飛行情況確實存在較大波動。

        圖12 A5-2021-X5-Y5聚類結(jié)果、異常檢測結(jié)果

        圖13 A5-2021-X5-Y5橫滾-時間圖、航速-時間圖

        由此,可以證明基于滑動窗口的序列異常檢測算法不僅在算法層面上對于檢測效率有一定的提升,在面向數(shù)據(jù)層面上也能適應(yīng)數(shù)據(jù)集中多維度的特征變量,滑動窗口對于序列特征的數(shù)據(jù)波動情況和數(shù)據(jù)統(tǒng)計信息有一定的有效性和可解釋性。

        4 結(jié)束語

        為了解決無標(biāo)簽的序列異常檢測問題中常常出現(xiàn)的對于數(shù)據(jù)序列特征獲取不充分、無法有效利用;且采用深度學(xué)習(xí)的方法往往可解釋性較差的問題,使用基于滑動窗口的序列異常檢測算法來完成針對直升機飛行數(shù)據(jù)的異常檢測:使用多個帶標(biāo)簽的公開數(shù)據(jù)集驗證了算法檢測效率的提升;并使用無標(biāo)簽數(shù)據(jù)集驗證了算法針對序列異常檢測問題的有效性和可解釋性。可以為直升機飛行數(shù)據(jù)等無標(biāo)簽數(shù)據(jù)的序列異常檢測和提供一定的幫助與提升。在后續(xù)研究中將針對算法在工業(yè)生產(chǎn)中面向?qū)崟r數(shù)據(jù)流和數(shù)據(jù)漂移等情況進(jìn)一步分析研究。

        猜你喜歡
        特征檢測
        抓住特征巧觀察
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        久久一本日韩精品中文字幕屁孩| 国产99视频一区二区三区| 日韩精品一区二区三区视频| 五月天综合在线| 亚洲一区sm无码| 亚洲AV无码一区二区三区精神| 国产精品国产三级国产一地| 91久久国产精品综合| 国产天堂av在线播放资源| 久久久国产精品123| 97人妻精品一区二区三区| 国产精品美女久久久久| 亚洲午夜精品久久久久久人妖| 五月婷婷激情六月| 亚洲国产免费公开在线视频| 少妇高潮呻吟求饶视频网站| 亚洲日本人妻少妇中文字幕| 性高朝久久久久久久3小时| 好男人社区影院www| 国产人妻人伦精品1国产盗摄| 色狠狠色狠狠综合一区| 日本一区二区三区啪啪| 亚洲高清激情一区二区三区| 久久女人精品天堂av影院麻| 国产熟妇与子伦hd| 精品乱码久久久久久久| 内射交换多p国产| 欧美日韩中文亚洲另类春色| 日本人妻av在线观看| 久久成人精品国产免费网站| 日本视频一区二区三区在线| 中文字幕无码成人片| 熟妇人妻无乱码中文字幕| 免费成人毛片| 国产av天堂亚洲国产av麻豆| 白白色福利视频在线观看| 午夜视频在线瓜伦| 中国女人做爰视频| 久久国产精品波多野结衣av| 欧美深夜福利视频| 亚洲一区二区三区厕所偷拍|