亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多元異常數(shù)據(jù)的三種典型檢測方法對比*

        2021-12-22 06:28:48集美大學誠毅學院江曉露
        關(guān)鍵詞:馬氏協(xié)方差編碼器

        集美大學誠毅學院 江曉露

        異常檢測在醫(yī)療、金融等領(lǐng)域有著廣泛的應(yīng)用,其中尤以多元無監(jiān)督數(shù)據(jù)的異常檢測比一元數(shù)據(jù)更普遍存在,且更為復雜。本文從三種典型檢測方法入手,針對一組多元無監(jiān)督數(shù)據(jù)集進行了異常檢測的實驗。三種方法分別是基于統(tǒng)計的馬氏距離、基于劃分思想的孤立森林、以及基于深度學習的自編碼器,它們代表了異常檢測方法的三個大的領(lǐng)域。文章在同一個數(shù)據(jù)集使用這三種方法,探索和討論了三種方法實驗過程和實驗結(jié)果的異同。

        0 引言

        可疑故障的檢測,又稱為異常檢測。異常檢測在醫(yī)療、金融、網(wǎng)絡(luò)安全、銀行、網(wǎng)絡(luò)服務(wù)、交通運輸和制造業(yè)等領(lǐng)域有著非常廣泛的應(yīng)用。數(shù)據(jù)的異常值[1]在統(tǒng)計上指的是與給定樣本的其余部分不一致的一小部分觀測值,一般來說異常值的界定與對總體數(shù)據(jù)選擇何種模型有關(guān)。異常檢測中多元數(shù)據(jù)的情況更為復雜一些,多元數(shù)據(jù)中的異常值往往在其分量中并非異常,而在對數(shù)據(jù)結(jié)構(gòu)建模后,才能發(fā)現(xiàn)它們的存在?,F(xiàn)實中的異常檢測通常是多元的,且很多時候是沒有標簽的,對于無監(jiān)督的多元數(shù)據(jù),異常檢測方法常見有以下幾種典型:

        (1)基于統(tǒng)計距離。多元統(tǒng)計學異常檢測方法常見的是使用馬氏距離(Mahalanobis Distance)。它通過樣本協(xié)方差矩陣標準化數(shù)據(jù),測量了標準化后的多變量觀測值到數(shù)據(jù)集樣本平均值的距離。利用正態(tài)分布數(shù)據(jù)的馬氏距離服從卡方分布這一性質(zhì),根據(jù)需要的異常比例我們可以找到馬氏距離的閾值,從而找到可疑的多元觀測值。2005年王斌會[2]和陳一非提出基于文件馬氏距離的多元異常檢測,2018年張紅飛[3]等提出了基于改進馬氏距離的空壓機健康狀態(tài)評估。

        (2)基于劃分思想。除了傳統(tǒng)的統(tǒng)計方法外,在高維數(shù)據(jù)集中實現(xiàn)異常檢測的一種有效方法是使用孤立森林(Isolation Forest)。孤立森林[4]通過遞歸地隨機分割數(shù)據(jù)集,一直往復,直到所有的樣本點都是孤立的。在這種隨機分割的策略下,異常點通常具有較短的路徑。2020年,陳佳等[5]提出基于邊緣計算框架的孤立森林網(wǎng)絡(luò)異常檢測方法進行DoS的異常檢測,李倩等[6]采用基于模糊孤立森林算法的多維數(shù)據(jù)異常檢測方法有效解決了樣本數(shù)據(jù)對于每一屬性的異常程度不同的問題。

        (3)基于深度學習。深度學習是機器學習領(lǐng)域中一個新的研究方向,在搜索技術(shù)、數(shù)據(jù)挖掘、機器翻譯等相關(guān)領(lǐng)域取得了很多成果。自編碼器作為常見的深度學習去噪工具,也常被用于進行多元數(shù)據(jù)的異常識別。自編碼器先將高維數(shù)據(jù)壓縮降維,再將低維數(shù)據(jù)擴展到原來的維度,這樣就重新構(gòu)造了原始輸入。在這個過程中,由于少部分異常數(shù)據(jù)不能很好地學習到數(shù)據(jù)的模型,重新構(gòu)造后與原始數(shù)據(jù)有較大的差異。通過對比重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)的差異的大小,可以識別出異常數(shù)據(jù)。2019年馬波等[7]探索了變分自編碼器在機械故障預(yù)警中的應(yīng)用。2020年張常華等[8]在自編碼器異常檢測中結(jié)合了主成分分析方法。

        本文將使用以上三種方法探索異常檢測,嘗試找到多元數(shù)據(jù)異常檢測的三種代表性方法的各自優(yōu)劣之處,也作為其他領(lǐng)域多元數(shù)據(jù)異常檢測的參考。

        1 數(shù)據(jù)介紹

        本次實驗的多元數(shù)據(jù)是某商業(yè)銀行分行在某年1-4月的ATM機交易統(tǒng)計數(shù)據(jù),觀測值共131013個,無標簽。為直觀起見,我們只選擇兩個特征,分別是每分鐘總共發(fā)生的交易總筆數(shù)、每分鐘交易成功筆數(shù)和業(yè)務(wù)量的比率,簡稱交易量和成功率。實驗將在所有的觀測值上建立模型檢測異常值,但為了清晰直觀的顯示效果,三種檢測的結(jié)果最后會在圖上的125個隨機抽取的樣本上標注出正常和異常標簽。

        2 利用馬氏距離進行異常檢測

        馬氏距離,又稱統(tǒng)計距離,樣本觀測值x到樣本中心μ的馬氏距離被定義為:

        其中μ和Σ是總體數(shù)據(jù)的均值和協(xié)方差。在實踐中,μ和Σ常用估計值替代。標準的協(xié)方差估計方法是協(xié)方差最大似然估計,但這種估計方法對數(shù)據(jù)集中是否存在異常值非常敏感。最小協(xié)方差行列式估計器(Minimum Covariance Determinant),簡稱MCD,是PJ Rousseeuw在1984年引入的數(shù)據(jù)集協(xié)方差的穩(wěn)健估計器[9]。MCD找到一個樣本量為h的子集IMCD使得在所有大小為h的子集中,該子集的協(xié)方差矩陣的行列式是最小的,我們利用這個子集計算均值和協(xié)方差的估計量:

        其中MCDk是一個比例常數(shù),保證了協(xié)方差估計量的一致性和無偏性。

        根據(jù)MCD估計出的均值和協(xié)方差可以計算每個觀測值的馬氏距離。馬氏距離越大觀測值異常的概率越大。正態(tài)總體的馬氏距離服從自由度為p的卡方分布,其中p為樣本觀測值的維度。實驗中p為2。取顯著性水平 0.1α=,利用卡方分布的分位點獲得馬氏距離的閾值。鑒于成功率偏高的數(shù)據(jù)不會是異常值這一基本事實,將實驗判別出的成功率偏高的異常值給予正常的標簽,后面兩個異常檢驗方法也是一樣,不再贅述。在此基礎(chǔ)上,共找到13152個異常點。在抽樣的125個樣本中,識別為異常值的樣本點有13個。

        3 利用孤立森林進行異常檢測

        孤立森林(Isolation Forest)由周志華教授等人于2008年在第八屆IEEE數(shù)據(jù)挖掘國際會議上提出。它是一種無監(jiān)督的方法,通過從訓練集中隨機選取一個特征,在該特征的最大值最小值之間隨機選取一個分界點,將訓練集進行劃分;不斷重復上述過程,直到只剩一個樣本或相同樣本或達到樹的深度限制。圖1展示了正常點xi和異常點xo被孤立的過程。正常的樣本點需要分割多次才會被孤立,異常點則需要更少的次數(shù)。

        圖1 孤立森林的模型演示Fig.1 Model demonstration of isolated forest

        通過被孤立的路徑長度來表示一個樣本點被孤立的程度,路徑長度h(x)的計算公式為

        其中e表示樣本觀測值x從字數(shù)的根節(jié)點到葉節(jié)點過程中經(jīng)過的邊的數(shù)目,C(T.size)表示在一棵用T.size條樣本數(shù)據(jù)構(gòu)建的二叉樹的平均路徑長度。樣本的“孤立”程度可以通過分值

        來判斷,其中 ()()Ehx表示樣本點x在孤立森林中所有孤立樹的路徑長度的平均值,表示單棵孤立樹的訓練樣本數(shù)。

        Sklearn中將異常分數(shù)添加負號并減去適當偏移量,使異常分數(shù)越小異常程度越大,且默認零為正常和異常的分界點。本次實驗設(shè)置0.1為孤立森林的異常比例進行孤立森林建模,計算出的樣本的異常分數(shù)圖如圖2。在所有數(shù)據(jù)中被檢測為異常的有8291個。在抽樣的125個樣本中,識別為異常值的樣本點有6個。

        圖2 數(shù)據(jù)點平均路徑長度頻次圖Fig.2 Frequency chart of average path length of data points

        4 利用自編碼器進行異常檢測

        1986年Rumelhart提出自編碼器的概念[10],并將其用于高維復雜數(shù)據(jù)處理,促進了神經(jīng)網(wǎng)絡(luò)的發(fā)展。自編碼器是神經(jīng)網(wǎng)絡(luò)的一種,經(jīng)過訓練后能嘗試將輸入復制到輸出。在輸入到輸出的過程中,數(shù)據(jù)會有所偏移。模型學習到了大部分好的特征,使得異常點相比正常點偏離原數(shù)據(jù)更遠。

        最簡單的自編碼器由一個隱藏層產(chǎn)生編碼,再由輸出層產(chǎn)生解碼。自編碼器在大于5維的數(shù)據(jù)上表現(xiàn)更好,本次實驗的數(shù)據(jù)只用到2維,為使自編碼器能夠取得較好的效果,實驗先將2維擴展成6維,再對6維的數(shù)據(jù)進行編碼和解碼,最后將6維數(shù)據(jù)重新降維成2維,輸出和輸入都設(shè)定為ATM數(shù)據(jù),圖3顯示了數(shù)據(jù)的轉(zhuǎn)換過程。訓練的過程中隨機選取了5%的數(shù)據(jù)作為驗證集,自編碼器的訓練結(jié)果如圖4所示有穩(wěn)定的收斂效果。計算出輸入和輸出的差距,設(shè)定輸入輸出差的閾值為0.11,得到檢測出的異常值。共檢測出13655個異常點,在抽取的125個樣本中,異常點有11個。

        圖3 自編碼器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Neural network structure of self encoder

        圖4 自編碼器的收斂過程Fig.4 Convergence process of self encoder

        5 實驗結(jié)果

        在隨機抽取的125個樣本中三種方法檢測出的異常點如圖5,孤立森林和馬氏距離選擇的異常點比較相似,大部分選擇的是成功率偏低的數(shù)據(jù)。自編碼器與前二者比較,綜合了兩個維度,更多分布在了數(shù)據(jù)集的外圍。運行時間來看,馬氏距離的檢測費時最少,孤立森林其次,自編碼器費時最多。在訓練完的模型上,如果想對新的樣本進行判別,三種方法都可以直接判斷,無需重新建模。

        圖5 利用三種方法的異常檢測Fig.5 Anomaly detection using three methods

        馬氏距離的判別是基于統(tǒng)計分布的,在大部分的統(tǒng)計推斷中,我們常把數(shù)據(jù)的分布假設(shè)為正態(tài)分布,這樣的假設(shè)與許多實際應(yīng)用中的數(shù)據(jù)不符,比如本次實驗采用的ATM機數(shù)據(jù),當數(shù)據(jù)與正態(tài)分布偏離較多的時候,許多的正常點不會集中在數(shù)據(jù)中心附近,這樣的檢測容易導致誤判率的上升。

        孤立森林是利用劃分進行判別的,選取隨機的分界點的思路也使得適用的數(shù)據(jù)可以不限數(shù)據(jù)分布。孤立森林的方法的算法并不復雜,具有線性的時間復雜度,在處理大數(shù)據(jù)時速度快,且精準度較高,在工業(yè)界應(yīng)用范圍比較廣。

        自編碼器在本次實驗中更貼合數(shù)據(jù)的分布。4層的神經(jīng)網(wǎng)絡(luò)雖未消耗很多的時間,但在精度上并未體現(xiàn)出絕對的優(yōu)勢。深度學習的學習效果很大程度上依賴于數(shù)據(jù)量和模型的復雜度,數(shù)據(jù)量指的是樣本點的數(shù)量及維度。在數(shù)據(jù)量未達到要求時使用深度學習,將無法體現(xiàn)深度學習的優(yōu)勢。

        6 結(jié)語

        綜合來說,馬氏距離不適合普通的多元數(shù)據(jù)單獨使用,更適合用于對其他方法的檢測結(jié)果進行參照,如本次實驗中孤立森林和自編碼器的檢測結(jié)果在馬氏距離的度量下更易看出檢出數(shù)據(jù)是否合理。自編碼器在低維數(shù)據(jù)上使用效果不佳,可以使用先擴維再降維的方式對維度不高的數(shù)據(jù)進行轉(zhuǎn)換,但效果不如直接使用高維數(shù)據(jù)好。在中小型數(shù)據(jù)中,孤立森林將是更優(yōu)的選擇,可以快速準確地達到檢測的要求。

        猜你喜歡
        馬氏協(xié)方差編碼器
        一類時間變換的強馬氏過程
        有環(huán)的可逆馬氏鏈的統(tǒng)計確認
        關(guān)于樹指標非齊次馬氏鏈的廣義熵遍歷定理
        基于FPGA的同步機軸角編碼器
        一致可數(shù)可加馬氏鏈不變測度的存在性
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報器
        自動化學報(2016年8期)2016-04-16 03:38:55
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
        多總線式光電編碼器的設(shè)計與應(yīng)用
        国产第一页屁屁影院| 国产精品久久久三级18| 久久久久久久极品内射| 国产va免费精品观看| 在线a人片免费观看国产| 久久91精品国产91久久跳舞| 精品无人区无码乱码毛片国产| 免费观看又色又爽又黄的| 在线播放国产女同闺蜜| 日本免费a一区二区三区| 激情综合五月婷婷久久| 99久久国产综合精品五月天| 国产成人乱色伦区小说| 亚洲av乱码国产精品观看麻豆| 狠狠躁夜夜躁av网站中文字幕| 污污内射在线观看一区二区少妇| 国产 中文 制服丝袜 另类| 国产在线播放免费人成视频播放| 高黄暴h日本在线观看| 日韩亚洲av无码一区二区不卡| 中文乱码字幕高清在线观看| 极品少妇一区二区三区四区视频| 无码国产精品一区二区免费式芒果| 亚洲精品欧美二区三区中文字幕| 国产特级毛片aaaaaa| 99精品一区二区三区免费视频| 成人性生交大片免费看7| 激情人妻另类人妻伦| 中文无码乱人伦中文视频在线v| 国产精品一区2区三区| 国产乱人伦偷精品视频还看的| 亚洲国产成人一区二区精品区| 久久97精品久久久久久久不卡| 亚洲另类激情专区小说婷婷久| 国产激情视频高清在线免费观看| 91日韩东京热中文字幕| 亚洲精品无amm毛片| 欧美成人www免费全部网站| 国产精品视频白浆免费看| 三年片在线观看免费观看大全中国| 最新亚洲人成无码网www电影|