亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自編碼器和集成學(xué)習(xí)的半監(jiān)督異常檢測(cè)算法*

        2020-09-03 11:11:22夏火松孫澤林
        關(guān)鍵詞:檢測(cè)方法

        夏火松,孫澤林

        (武漢紡織大學(xué)管理學(xué)院,湖北 武漢 430073)

        1 引言

        異常檢測(cè)是數(shù)據(jù)挖掘中一種重要的分析方法,Hawkins[1]將異常定義為“一種與大部分?jǐn)?shù)據(jù)偏離較大的數(shù)據(jù),可能產(chǎn)生于不同的機(jī)制”。異常既可能由實(shí)驗(yàn)數(shù)據(jù)的誤差和變異產(chǎn)生,也可能由于此類(lèi)數(shù)據(jù)來(lái)源于不同的類(lèi)別。所以,異常檢測(cè)的應(yīng)用主要在2個(gè)方面,一是在數(shù)據(jù)整理過(guò)程中對(duì)數(shù)據(jù)清洗,減少噪聲對(duì)模型的影響;二是將異常點(diǎn)本身作為研究對(duì)象,挖掘異常值產(chǎn)生的實(shí)際意義,后者主要應(yīng)用在金融欺詐、網(wǎng)絡(luò)監(jiān)控、醫(yī)療診斷等方面。

        異常檢測(cè)方法從早期的應(yīng)用統(tǒng)計(jì)檢驗(yàn),再到基于密度聚類(lèi)[2]、鄰近度、可視化的異常檢測(cè)方法,如今更多的是用大數(shù)據(jù)驅(qū)動(dòng)的異常數(shù)據(jù)挖掘方法[3,4],針對(duì)不同的目標(biāo),檢驗(yàn)異常程度的方式也不同?;诰垲?lèi)[2]的方法是異常檢驗(yàn)中最常用的方法,該方法通過(guò)對(duì)樣本進(jìn)行聚類(lèi)分析,使樣本點(diǎn)按特征分成不同的簇,將未分入簇中的點(diǎn)視為異常點(diǎn)。Souza等[5]提出一種基于多方向分解技術(shù)和多元技術(shù)相結(jié)合的異常檢測(cè)方法,將張量因子分解HOSVD(Higher Order Singular Value Decomposition)算法與K-means分類(lèi)算法相結(jié)合,用于識(shí)別智能城市傳感器的數(shù)據(jù)模式?;诟怕式y(tǒng)計(jì)的異常檢驗(yàn)方法出現(xiàn)相對(duì)較早,其基本假設(shè)為正常數(shù)據(jù)位于高概率區(qū)域,異常數(shù)據(jù)出現(xiàn)在統(tǒng)計(jì)分布低概率的區(qū)域,這類(lèi)方法通常依賴(lài)數(shù)據(jù)分布和先驗(yàn)概率。Bayerstadler等[6]提出了多項(xiàng)式貝葉斯?jié)撟兞磕P?,總結(jié)了潛變量的行為模式,基于貝葉斯收縮技術(shù)的馬爾可夫鏈蒙特卡洛算法來(lái)估計(jì)模型參數(shù),對(duì)欺詐性和濫用性索賠的識(shí)別方法進(jìn)行了改進(jìn)。Liu等[7]構(gòu)造了一種新的測(cè)試統(tǒng)計(jì)量族,組合新的統(tǒng)計(jì)量適應(yīng)不同的尾部概率,以檢測(cè)平均位移判斷異常點(diǎn)的存在。Jiang等[8]提出了一種基于概率表示框架的動(dòng)態(tài)極大極小概率機(jī)DMPM(Dynamic Minimax Probability Machine)診斷過(guò)程故障的方法,建立一個(gè)信息準(zhǔn)則來(lái)確定DMPM的最優(yōu)降維順序,能廣泛地應(yīng)用在工業(yè)故障診斷過(guò)程中。基于鄰近度的方法可進(jìn)一步分為基于距離[9]和基于密度的方法。任家東等[10]通過(guò)比較樣本點(diǎn)之間的相對(duì)距離和稀疏性來(lái)判斷異常點(diǎn),提出了一種多層次入侵檢測(cè)模型,基于KNN和隨機(jī)森林來(lái)檢測(cè)網(wǎng)絡(luò)異常行為。基于可視化的異常檢驗(yàn)方法利用計(jì)算機(jī)模擬、人機(jī)交互等技術(shù),可以直觀(guān)地判斷異常點(diǎn)是否存在。Liu等[11]將圖形分析技術(shù)應(yīng)用在異常檢測(cè)上,用異構(gòu)圖表示相關(guān)關(guān)系,通過(guò)分析局部和全局特征來(lái)識(shí)別異常。對(duì)于結(jié)構(gòu)復(fù)雜、異常屬性不同的情況,常用集成異常檢測(cè)算法組合來(lái)識(shí)別異常,楊先圣等[12]通過(guò)融合3種異常檢測(cè)算法,以boost提升框架來(lái)增強(qiáng)檢測(cè)效率。Eshghi等[13]提出了一種基于Dempster-Shafer和MCDM的異常檢測(cè)方法,利用多準(zhǔn)則決策方法、直覺(jué)模糊集和證據(jù)推理將交易變量行為趨勢(shì)結(jié)合起來(lái),提高異常檢測(cè)的精度。

        在多數(shù)情況下異常數(shù)據(jù)是無(wú)標(biāo)記的,因此異常檢測(cè)研究多從無(wú)監(jiān)督學(xué)習(xí)的視角出發(fā)[14]。而在僅有少量標(biāo)簽或者能直觀(guān)地判斷出異常存在的情況下,半監(jiān)督學(xué)習(xí)對(duì)于異常檢驗(yàn)的效果更好。Elkilang等[15]提出了一種基于聚類(lèi)的半監(jiān)督離群點(diǎn)檢測(cè)方法,該方法將正常數(shù)據(jù)和未標(biāo)記數(shù)據(jù)點(diǎn)表示為二部圖,用無(wú)參數(shù)聚類(lèi)技術(shù)對(duì)二部圖進(jìn)行聚類(lèi),將未標(biāo)記的數(shù)據(jù)點(diǎn)分為異常點(diǎn)和正常點(diǎn),并在分類(lèi)數(shù)據(jù)集和文本數(shù)據(jù)集上驗(yàn)證了其有效性。Adeli等[16]提出了一種基于線(xiàn)性判別分析最小二乘公式的半監(jiān)督魯棒判別分類(lèi)方法,利用有標(biāo)記訓(xùn)練數(shù)據(jù)和無(wú)標(biāo)記測(cè)試數(shù)據(jù)同時(shí)檢測(cè)樣本異常得分和特征噪聲。

        近幾年有學(xué)者結(jié)合深度學(xué)習(xí)的思想來(lái)檢測(cè)高維數(shù)據(jù)的異常[17],Deng等[18]提出了一種基于張量-塔克分解和遺傳算法的單分類(lèi)塔克機(jī)GA-OCSTuM(Genetic Algorithm-One Class Support Tucker Machine),這類(lèi)無(wú)監(jiān)督的大數(shù)據(jù)異常檢測(cè)方法在保留數(shù)據(jù)結(jié)構(gòu)信息的同時(shí),提高了異常檢測(cè)的準(zhǔn)確性和效率。Munir等[19]針對(duì)時(shí)間序列提出了一種基于深度學(xué)習(xí)的異常檢測(cè)方法DeepAnT(Deep Learning for Anomaly Detection in Time Series),首先用深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練未標(biāo)記數(shù)據(jù),預(yù)測(cè)時(shí)間序列的正常行為,并對(duì)15種異常算法進(jìn)行詳細(xì)的評(píng)估,證明了DeepAnT算法的準(zhǔn)確性。Chakraborty等[20]提出了一種基于深度堆疊自編碼器和概率神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)框架來(lái)提升異常檢測(cè)技術(shù)的性能。Kieu等[21]提出了一個(gè)時(shí)間序列離群點(diǎn)檢測(cè)框架,利用自動(dòng)編碼器來(lái)重建豐富的時(shí)間序列特征。

        綜上所述,早期的異常檢測(cè)研究停留在參數(shù)檢驗(yàn)、區(qū)間估計(jì)等統(tǒng)計(jì)回歸方法,對(duì)于數(shù)據(jù)量少維度低的數(shù)據(jù)有不錯(cuò)的識(shí)別效果,但隨著數(shù)據(jù)量和數(shù)據(jù)維度的不斷增加以及異常類(lèi)型的多樣化、復(fù)雜化,傳統(tǒng)的應(yīng)用統(tǒng)計(jì)方法難以取得很好的效果,數(shù)據(jù)挖掘的應(yīng)用已經(jīng)是大勢(shì)所趨。并且多數(shù)據(jù)情況下采用無(wú)監(jiān)督學(xué)習(xí)算法解決異常檢測(cè)問(wèn)題,算法通過(guò)bagging和feature bagging集成,而boosting應(yīng)用很少見(jiàn)。針對(duì)以上問(wèn)題,本文基于異常集成視角,提出了一種AE-AdaBoost(Auto Encoder-Adaboos)半監(jiān)督異常檢測(cè)模型,首先用正常數(shù)據(jù)集訓(xùn)練出一個(gè)自編碼器[22],然后導(dǎo)入實(shí)驗(yàn)數(shù)據(jù)進(jìn)行特征選擇,在編解碼的過(guò)程中增大異常點(diǎn)的異常程度(如圖1所示),再將處理后的數(shù)據(jù)導(dǎo)入AdaBoost提升框架中,融合孤立森林iforest、局部異常因子LOF(Local Outlier Factor)、K-means 3種基分類(lèi)器,依次檢測(cè)全局異常、局部異常點(diǎn)和異常簇,在每一輪訓(xùn)練過(guò)程中,以最小化指數(shù)損失函數(shù)來(lái)更新分類(lèi)器的權(quán)重,以此提高模型檢測(cè)的準(zhǔn)確率。我們?cè)赨CI的5組異常數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采用準(zhǔn)確率、ROC曲線(xiàn)和AUC作為評(píng)價(jià)標(biāo)準(zhǔn),結(jié)果表明,該模型在有效提取關(guān)鍵特征的基礎(chǔ)上提高了AdaBoost的穩(wěn)定性,在異常檢測(cè)的準(zhǔn)確率上要高于目前主流的異常檢測(cè)算法。

        Figure 1 The abnormal degree increased after AE training圖1 AE訓(xùn)練后異常程度增大

        2 算法原理

        2.1 基于自編碼器的降維

        自編碼器AE(AutoEncoder)[23]作為非監(jiān)督學(xué)習(xí)的多層神經(jīng)網(wǎng)絡(luò),包含編碼器、隱含層、解碼器3部分,其工作原理如圖2所示。首先將輸入數(shù)據(jù)X進(jìn)行壓縮編碼得到隱含層數(shù)據(jù),再將隱含的數(shù)據(jù)解碼,通過(guò)訓(xùn)練網(wǎng)絡(luò)使輸出X′等于輸入,將原始數(shù)據(jù)X映射到隱含層H,得到隱含層特征Z,編碼函數(shù)為f(X),解碼函數(shù)為g(X),將隱含特征Z映射到輸出X′,訓(xùn)練過(guò)程中損失函數(shù)為:

        Loss(X,X′)=‖X-X′‖2

        (1)

        Figure 2 Structure of AutoEncoder圖2 自編碼器的結(jié)構(gòu)

        編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)用神經(jīng)網(wǎng)絡(luò)的激活函數(shù)表示如下:

        Z=δ(WX+b)

        (2)

        X′=δ′(W′Z+b′)

        (3)

        其中,δ()、δ′()為非線(xiàn)性激活函數(shù),W,b,W′,b′為線(xiàn)性變換的權(quán)重和偏置。

        最小化損失函數(shù)來(lái)優(yōu)化編碼器和解碼器中的參數(shù),等價(jià)成為非線(xiàn)性?xún)?yōu)化問(wèn)題;

        minδ,W,bLoss(X,X′)=

        ‖X-δ′(δ(WX+b))+b′‖2

        (4)

        2.2 基于iforest、LOF和K-means的異常檢測(cè)

        (1)孤立森林iforest[24]。在異常檢測(cè)領(lǐng)域中,iforest是一種基于Ensemble的異常檢驗(yàn)算法,用二叉樹(shù)對(duì)數(shù)據(jù)進(jìn)行迭代劃分,該算法用蒙特卡洛方法得到一個(gè)收斂值,在數(shù)據(jù)集中隨機(jī)選擇一個(gè)特征作為起始節(jié)點(diǎn),并在此特征最大值和最小值之間隨機(jī)取值作為分支點(diǎn),重復(fù)上述步驟,直到子節(jié)點(diǎn)中只包含一個(gè)數(shù)據(jù)或者樹(shù)的深度達(dá)到閾值,迭代完成后,計(jì)算數(shù)據(jù)點(diǎn)在樹(shù)中的層數(shù)即高度,將葉到根的高度作為異常分?jǐn)?shù),分離一個(gè)點(diǎn)所需的維度越小,即高度越低,那么該點(diǎn)異常的可能性越大。iforest算法不適合特別高維的數(shù)據(jù),因?yàn)樵诘^(guò)程中,每次切割數(shù)據(jù)空間都只是選取一個(gè)維度和其中的一個(gè)特征,生成樹(shù)后仍有大量的維度沒(méi)有被使用,造成對(duì)全局變量敏感,而對(duì)于局部異常往往檢驗(yàn)效果很差。

        (2)局部異常因子LOF(Local Outlier Factor)[25]。LOF算法則只著重針對(duì)局部異常點(diǎn),通過(guò)比較樣本點(diǎn)與其鄰域點(diǎn)的平均可達(dá)密度來(lái)判斷樣本是否為異常點(diǎn)。但是,LOF是通過(guò)計(jì)算樣本點(diǎn)的第K鄰域來(lái)確定平均可達(dá)密度的,而不是全局計(jì)算,所以對(duì)于全局異常點(diǎn)的檢測(cè)效果較差,而且很難發(fā)現(xiàn)稀疏分布下的異常簇。

        (3)K-means[26]。K-means是典型的聚類(lèi)算法,它將樣本點(diǎn)按照特征劃分成不同的簇,將不屬于任何簇的點(diǎn)視為異常點(diǎn)。算法首先隨機(jī)選擇K個(gè)樣本作為初始聚類(lèi)中心,得到初始均值向量,再計(jì)算樣本與各均值向量的距離(歐氏距離),根據(jù)距離最近的均值向量確定樣本點(diǎn)的簇標(biāo)記,對(duì)劃分后的簇重新計(jì)算簇中心,更新均值向量并進(jìn)行迭代,直到均值向量保持不變。傳統(tǒng)的K-means算法因?yàn)槭请S機(jī)選擇初始聚類(lèi)中心的而具有不穩(wěn)定性,如果初始聚類(lèi)中心包含離群點(diǎn),那么聚類(lèi)的效果會(huì)很差。

        2.3 基于A(yíng)daBoost的提升框架

        AdaBoost算法是Freund和Schapire根據(jù)在線(xiàn)分配算法提出的,他們?cè)敿?xì)分析了AdaBoost算法錯(cuò)誤率的上界,以及為了使強(qiáng)分類(lèi)器達(dá)到錯(cuò)誤率,算法所需要的最多迭代次數(shù)等相關(guān)問(wèn)題。在實(shí)際應(yīng)用中,由于單獨(dú)算法的檢驗(yàn)準(zhǔn)確率較低,而且泛化能力較弱,常用集成學(xué)習(xí)的方法來(lái)融合基學(xué)習(xí)器,發(fā)揮各自的優(yōu)點(diǎn)來(lái)提升檢驗(yàn)的準(zhǔn)確率。集成學(xué)習(xí)可分為序列集成方法和并行集成方法,以boost[27]為代表的序列集成方法根據(jù)基學(xué)習(xí)器之間的關(guān)聯(lián)順序,對(duì)上個(gè)學(xué)習(xí)器學(xué)習(xí)錯(cuò)誤的樣本,在下個(gè)學(xué)習(xí)器中增加其權(quán)重,通過(guò)加性模型組合弱學(xué)習(xí)器成為強(qiáng)學(xué)習(xí)器來(lái)提升學(xué)習(xí)效果。以Bagging[28]為代表的并行集成方法基于自助抽樣的方法,采用投票的方式獲得最終的結(jié)果。

        大多數(shù)異常檢測(cè)研究都是基于無(wú)監(jiān)督學(xué)習(xí)的,針對(duì)無(wú)標(biāo)簽的情況,常用bagging集成方法來(lái)訓(xùn)練模型,而在有標(biāo)簽或有部分標(biāo)簽的情況下,半監(jiān)督學(xué)習(xí)的效果往往優(yōu)于前者。由于本文主要研究有標(biāo)簽問(wèn)題,而且基學(xué)習(xí)器的精度較高,所以以AdaBoost集成方法來(lái)融合基學(xué)習(xí)器優(yōu)化檢測(cè)效果。AdaBoost是一種基于提升思想的迭代式算法,通過(guò)依次訓(xùn)練不同的弱分類(lèi)器,迭代更新數(shù)據(jù)權(quán)值,組合弱分類(lèi)器產(chǎn)生一個(gè)強(qiáng)分類(lèi)器。算法過(guò)程如算法1所示。

        算法1AdaBoost算法

        輸入:D={(x1,y1),…,(xm,ym)},yi∈{-1,1},xi為第i個(gè)樣本,yi為其標(biāo)簽,基學(xué)習(xí)算法Φi,訓(xùn)練輪數(shù)為T(mén),x={x1,x2,…,xn}。

        步驟1初始化樣本權(quán)值分布:D1(x)=1/m;

        步驟2 fort= 1,2,…,T

        將權(quán)值分布代入基學(xué)習(xí)算法中訓(xùn)練,得出分類(lèi)器ht(x);

        步驟3ht(x)誤差εt=Px~Dt(ht(x)≠F(x));/*F(x)為x的真實(shí)函數(shù)*/

        步驟4 ifεt>0.5thenbreak;

        步驟5 else更新樣本分布:

        其中αt=(1/2)ln((1-εt)/εt),Zt為規(guī)范化因子;

        步驟6 endfor

        3 算法設(shè)計(jì)

        本文提出的算法如圖3所示,算法由2部分組成,即自動(dòng)編碼器的數(shù)據(jù)降維和AdaBoost提升框架的檢測(cè)部分。將原始數(shù)據(jù)輸入AE的輸入層,經(jīng)過(guò)編碼解碼后通過(guò)反向傳播得到最優(yōu)參數(shù),最終在隱含層得到降維后的數(shù)據(jù),并且在訓(xùn)練過(guò)程中,異常點(diǎn)的異常程度被增大,更利于模型準(zhǔn)確地檢測(cè)出異常點(diǎn)。AE算法流程如算法2所示。

        Figure 3 Algorithm in this paper圖3 本文算法

        算法2AE算法

        輸入:D={(x1,y1),…,(xm,ym)},xi是n維數(shù)據(jù),yi為數(shù)據(jù)標(biāo)簽,Z是隱含層的特征,Z的維度n′

        輸出:隱含層特征Z。

        步驟1對(duì)數(shù)據(jù)xi進(jìn)行編碼,得到隱含層特征:Z=δ(WX+b),其中δ()是編碼器的非線(xiàn)性激活函數(shù),W和b是線(xiàn)性變換的權(quán)重和偏置。

        步驟2對(duì)隱含層特征Z解碼,得到重建的輸出:X′=δ′(W′Z+b′),其中δ′()是解碼器的非線(xiàn)性激活函數(shù),W′和b′是線(xiàn)性變換的權(quán)重和偏置。

        步驟3通過(guò)反向傳播使輸出等于輸入,以最小化損失函數(shù)訓(xùn)練模型,求得編碼器和解碼器的最優(yōu)參數(shù):

        minδ,W,bLoss(X,X′)=

        ‖X-δ′(δ(WX+b))+b′‖2

        算法3本文算法

        輸入:降維后數(shù)據(jù)S={(x′1,y1),…,(x′m,ym)},x′i是n′維數(shù)據(jù),yi為數(shù)據(jù)標(biāo)簽,弱分類(lèi)器h1(x)為iforest,弱分類(lèi)器h2(x)為L(zhǎng)OF,弱分類(lèi)器h3(x)為K-means。

        步驟1初始化數(shù)據(jù)分布D′1=(W11,…,W1n),W1i=1/m,其中i=1,2,…,n。

        步驟2調(diào)用分類(lèi)器h1(x)訓(xùn)練數(shù)據(jù)分布D1,通過(guò)交叉驗(yàn)證調(diào)整iTree數(shù)量,根據(jù)樣本標(biāo)簽設(shè)置異常比,以最小化誤差e1訓(xùn)練iforest。

        步驟5基于數(shù)據(jù)分布D2調(diào)用分類(lèi)器h2(x)來(lái)訓(xùn)練,通過(guò)交叉驗(yàn)證調(diào)整LOF算法中的K值,以最小化誤差e2訓(xùn)練LOF的閾值t1:(t1,k)=arg mint1,ke2,比較異常得分score和閾值t1來(lái)確定異常值:

        步驟8基于數(shù)據(jù)分布D3調(diào)用分類(lèi)器h3(x)來(lái)訓(xùn)練,通過(guò)交叉驗(yàn)證調(diào)整K-means算法中的聚類(lèi)簇個(gè)數(shù)k,選擇各聚類(lèi)中心的相對(duì)距離D作為異常得分score,以最小化誤差e3訓(xùn)練K-means得到閾值t2:(D,k)=argminD,ke3,比較相對(duì)距離D和閾值t2來(lái)確定異常值:

        在A(yíng)daBoost提升框架中,首先選擇基于Ensemble的異常檢測(cè)算法iforest對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,在檢測(cè)出全局異常點(diǎn)后,在下一輪訓(xùn)練中,增大未被識(shí)別出的局部異常點(diǎn)和異常簇的權(quán)重使其被重點(diǎn)關(guān)注,接下來(lái)融合LOF算法,進(jìn)一步對(duì)局部異常點(diǎn)檢測(cè)。經(jīng)過(guò)以上2步,模型對(duì)于數(shù)據(jù)集的不同種類(lèi)異常點(diǎn)已有良好的檢測(cè)效果,為了增強(qiáng)模型的泛化能力和穩(wěn)定性,模型最后針對(duì)特殊的異常簇進(jìn)行補(bǔ)充檢測(cè),減小了傳統(tǒng)K-means由于初始聚類(lèi)中心隨機(jī)性造成的誤差,隨機(jī)選取前2個(gè)分類(lèi)器檢測(cè)出的正常點(diǎn)作為初始聚類(lèi)中心,以計(jì)算各聚類(lèi)中心的相對(duì)距離找出異常簇。

        4 實(shí)驗(yàn)與分析

        將本文算法與當(dāng)前主流的異常檢驗(yàn)算法進(jìn)行實(shí)驗(yàn)對(duì)比,并檢驗(yàn)自編碼器的特征選擇對(duì)于異常檢測(cè)的影響。首先將iforest、OCSVM(One Class SVM)、LOF、AdaBoost 4種異常檢測(cè)算法進(jìn)行比較,選擇準(zhǔn)確率、AUC值和ROC曲線(xiàn)作為泛化性能的評(píng)估指標(biāo)。

        準(zhǔn)確率基于樣本混淆矩陣(如表1所示)計(jì)算,公式如下:

        (5)

        Table 1 Confusion matrix of classification results表1 分類(lèi)結(jié)果混淆矩陣

        選取UCI機(jī)器學(xué)習(xí)庫(kù)中5個(gè)高維異常數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,分別為:Letter數(shù)據(jù)集、Optdigits數(shù)據(jù)集、MNIST數(shù)據(jù)集、Arrhythmia數(shù)據(jù)集、Speech數(shù)據(jù)集,其維度依次為:32維,64維,100維,274維,400維(如表2所示)。樣本數(shù)據(jù)維度不斷增大,以此來(lái)檢驗(yàn)AE降維在異常檢測(cè)過(guò)程中起到的作用。對(duì)于每個(gè)數(shù)據(jù)集,采用留出法的思想分配數(shù)據(jù),即60%的數(shù)據(jù)用來(lái)訓(xùn)練,40%的數(shù)據(jù)用來(lái)測(cè)試。對(duì)于iforest、OCSVM、LOF的參數(shù)設(shè)置,采用網(wǎng)格搜索法來(lái)尋求最優(yōu)解。

        Table 2 List of outlier datasets表2 異常數(shù)據(jù)集列表

        4.1 實(shí)驗(yàn)1

        將本文算法與單獨(dú)的異常檢測(cè)算法iforest、LOF、OCSVM進(jìn)行對(duì)比,用交叉驗(yàn)證法獲得iforest、LOF算法的最優(yōu)參數(shù),實(shí)驗(yàn)結(jié)果如表3所示。對(duì)于異常比重較小的數(shù)據(jù)集,數(shù)據(jù)分布較為集中,LOF對(duì)局部異常更敏感,所以有較好的準(zhǔn)確率,OCSVM有能力獲取數(shù)據(jù)集的分布形狀,對(duì)于高維大樣本數(shù)據(jù)集,在未知其數(shù)據(jù)分布的情況下,OCSVM的識(shí)別能力較強(qiáng),所以隨著樣本數(shù)據(jù)量和維度的升高,OCSVM的檢測(cè)準(zhǔn)確率也隨之提高。從圖4可以看出,本文算法的性能要優(yōu)于單獨(dú)異常檢測(cè)算法的。

        Table 3 Average accuracy of integrated algorithm and individual algorithm表3 集成算法和單獨(dú)算法的平均準(zhǔn)確率 %

        Figure 4 ROC curve and AUC of each algorithm on 5 datasets圖4 各算法在5個(gè)數(shù)據(jù)集上的ROC曲線(xiàn)和AUC

        4.2 實(shí)驗(yàn)2

        將本文算法與bagging集成算法、ILD-BOOST(Iforest-LOF-DBSCAN BOOST)集成算法[12]在未降維的條件下進(jìn)行對(duì)比,bagging集成算法選擇feature bagging[29]法,對(duì)以上5個(gè)數(shù)據(jù)集進(jìn)行異常檢測(cè),準(zhǔn)確率如表4所示。通過(guò)表4中的數(shù)據(jù)可以得出,本文算法對(duì)比無(wú)監(jiān)督集成學(xué)習(xí),異常檢測(cè)的效果更好。

        Table 4 AUC of 3 integrated algorithms for anomaly detection表4 3種集成算法異常檢測(cè)的AUC

        4.3 實(shí)驗(yàn)3

        首先選用主成分分析對(duì)數(shù)據(jù)降維,在此基礎(chǔ)上,分別對(duì)比了iforest、LOF和feature bagging與本文算法的集成準(zhǔn)確率,結(jié)果如表5所示。相比于單獨(dú)算法,本文算法的檢測(cè)準(zhǔn)確率要高得多,feature bagging算法效果更依賴(lài)弱分類(lèi)器的準(zhǔn)確性,而本文算法則能夠取長(zhǎng)補(bǔ)短地融合弱分類(lèi)器,降低模型的偏差,所以在有標(biāo)簽的條件下,本文算法得到的效果更好。下一步將在本文算法的基礎(chǔ)上,選擇不同的降維方法比較檢測(cè)的正確率。PCA和KPCA作為線(xiàn)性降維和非線(xiàn)性降維的經(jīng)典方法,將其設(shè)置為對(duì)照組用來(lái)檢測(cè)自編碼器的降維效果。對(duì)PCA算法,選取95%的貢獻(xiàn)率來(lái)確定主成分的個(gè)數(shù),對(duì)KPCA算法,選擇徑向基作為核函數(shù)來(lái)保證原始數(shù)據(jù)降維后損失較小。將本文算法與PCA-AdaBoost(Principal Component Analysis-AdaBoost)、KPCA-AdaBoost(Kernel Principal Component Analysi-AdaBoost)進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。隨著維度的增加,PCA對(duì)非線(xiàn)性結(jié)構(gòu)的處理能力較差,所以準(zhǔn)確率提升效果佳,由于徑向基核函數(shù)能夠?qū)⒌途S空間映射到高維空間,所以KPCA處理非線(xiàn)性結(jié)構(gòu)的數(shù)據(jù)效果較好,但是由于核函數(shù)的計(jì)算開(kāi)銷(xiāo)太大,時(shí)間效率低,在實(shí)際應(yīng)用中使用率不高。所以,自編碼器是高維非線(xiàn)性數(shù)據(jù)降維的首選方法。

        Table 5 Accuracy of each algorithms under PCA dimension reduction表5 PCA降維下各算法檢測(cè)準(zhǔn)確率 %

        Table 6 Average accuracy of algorithms under different dimension reduction methods表6 不同降維方法下算法平均準(zhǔn)確率 %

        4.4 實(shí)驗(yàn)4

        對(duì)比本文算法與深度自編碼器(DAE)的檢測(cè)準(zhǔn)確率,DAE算法以平均絕對(duì)誤差作為損失函數(shù),迭代次數(shù)和隱含層數(shù)取損失函數(shù)趨于收斂的最小值,隱含層節(jié)點(diǎn)數(shù)為上層的一半,將重建誤差作為異常分?jǐn)?shù),誤差過(guò)大的數(shù)據(jù)點(diǎn)作為異常點(diǎn),實(shí)驗(yàn)結(jié)果如表7所示。由表7可以看出,DAE算法通過(guò)對(duì)比數(shù)據(jù)間的重構(gòu)誤差,獲得了較高的異常檢測(cè)率,但是在高維數(shù)據(jù)集上AE-AdaBoost算法表現(xiàn)得更好。并且在效率成本上,DAE花費(fèi)的訓(xùn)練時(shí)間較長(zhǎng),沒(méi)有集成提升框架的高效性。

        Table 7 Comparison of accuracy between AE-AdaBoost algorithm and DAE algorithm表7 AE-AdaBoost與DAE算法準(zhǔn)確率對(duì)比 %

        5 結(jié)束語(yǔ)

        本文通過(guò)將自編碼器和AdaBoost集成算法組合在一起,提出AE-AdaBoost半監(jiān)督異常檢測(cè)算法。相比于傳統(tǒng)的異常檢測(cè)算法,本文算法通過(guò)自編碼器對(duì)高維數(shù)據(jù)降維,并且在編碼解碼過(guò)程中增大異常點(diǎn)的異常程度,使異常點(diǎn)在數(shù)據(jù)集中更容易被識(shí)別,相比于PCA降維能更好地識(shí)別異常點(diǎn)并提取非線(xiàn)性特征,相較于KPCA算法,在計(jì)算復(fù)雜度以及時(shí)間效率上有更大提升。利用iforest、LOF、K-means 3種異常檢測(cè)算法對(duì)不同異常類(lèi)型的敏感特性,全方位地檢測(cè)數(shù)據(jù)中存在的異常點(diǎn)。相比于單一算法,集成提升框架能融合每個(gè)弱分類(lèi)器的優(yōu)勢(shì),增加檢測(cè)準(zhǔn)確率,很好地解決了高維異常數(shù)據(jù)的檢測(cè)問(wèn)題。在后續(xù)研究中,可以考慮在半監(jiān)督的異常檢測(cè)模型中加入強(qiáng)化學(xué)習(xí)以及融合馬爾科夫鏈對(duì)異常檢測(cè)做進(jìn)一步研究。

        猜你喜歡
        檢測(cè)方法
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        學(xué)習(xí)方法
        可能是方法不對(duì)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国精产品推荐视频| 国产欧美日韩在线观看 | 国产精品亚洲lv粉色| 亚洲日韩av无码一区二区三区人| 中文字幕乱码人妻一区二区三区| 精品人体无码一区二区三区 | 欧洲美女黑人粗性暴交| japanesehd中国产在线看| 欧美成人久久久| 久久爱91精品国产一区| 国产一区二区三区激情视频| 黑人上司粗大拔不出来电影| 欧美日韩精品一区二区在线观看| 中文字幕人成人乱码亚洲 | 日本道免费精品一区二区 | 国产成人精品日本亚洲i8| 国产一精品一av一免费| 波多野结衣aⅴ在线| 日本女优一区二区在线免费观看| 中文字幕av长濑麻美| 亚洲精品午夜无码专区| 亚洲色大成网站www在线观看| av手机天堂在线观看| 亚洲欧洲日产国码av系列天堂 | 特级做a爰片毛片免费看| 又爆又大又粗又硬又黄的a片| 精品一区二区三区影片| 亚洲女同av在线观看| 欧美成免费a级毛片| 亚洲国产精品特色大片观看完整版| 国产精品亚洲ΑV天堂无码| 91久久香蕉国产熟女线看| 国产偷国产偷精品高清尤物| 看黄网站在线| 国内精品久久人妻互换| 欧美怡春院一区二区三区| 亚洲精品欧美二区三区中文字幕| 精品久久久久久国产潘金莲| 精品国内日本一区二区| 国产女人高潮视频在线观看 | 视频一区视频二区亚洲|