亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度信念網(wǎng)絡(luò)和線性單分類SVM的高維異常檢測(cè)

        2018-02-01 03:27:57李昊奇應(yīng)娜郭春生王金華
        電信科學(xué) 2018年1期
        關(guān)鍵詞:實(shí)驗(yàn)檢測(cè)

        李昊奇,應(yīng)娜,郭春生,王金華

        ?

        基于深度信念網(wǎng)絡(luò)和線性單分類SVM的高維異常檢測(cè)

        李昊奇,應(yīng)娜,郭春生,王金華

        (杭州電子科技大學(xué),浙江 杭州 310018)

        針對(duì)目前高維數(shù)據(jù)異常檢測(cè)存在的困難,提出一種基于深度信念網(wǎng)絡(luò)和線性單分類支持向量機(jī)的高維異常檢測(cè)算法。該算法首先利用深度信念網(wǎng)絡(luò)具有良好的特征提取功能,實(shí)現(xiàn)高維數(shù)據(jù)的降維,然后基于線性核函數(shù)的單分類支持向量機(jī)實(shí)現(xiàn)異常檢測(cè)。選取UCI機(jī)器學(xué)習(xí)庫(kù)中的高維數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明,該算法在檢測(cè)正確率和計(jì)算復(fù)雜度上均有明顯優(yōu)勢(shì)。與PCA-SVDD算法相比,檢測(cè)正確率有4.65%的提升。與自動(dòng)編碼器算法相比,其訓(xùn)練和測(cè)試時(shí)間均有顯著下降。

        異常檢測(cè);高維數(shù)據(jù);深度信念網(wǎng)絡(luò);單分類支持向量機(jī)

        1 引言

        異常檢測(cè)是數(shù)據(jù)挖掘中的重要組成部分。異常數(shù)據(jù)是指在數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)或者與數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)不服從相同統(tǒng)計(jì)模型的小部分?jǐn)?shù)據(jù)[1]。而異常檢測(cè)就是要識(shí)別出異常數(shù)據(jù)從而消除不符合預(yù)期行為的模式問題。異常檢測(cè)在信用卡欺詐、網(wǎng)絡(luò)入侵、健康醫(yī)療監(jiān)控等諸多生活領(lǐng)域中均有重要應(yīng)用[2]。

        在異常檢測(cè)中,單分類支持向量機(jī)(one-class support vector machine,OCSVM)是常用的有效手段[3]。OCSVM是對(duì)二分類支持向量機(jī)的一種細(xì)化,是在異常檢測(cè)領(lǐng)域中的重要經(jīng)典算法。當(dāng)確定合適的參數(shù)配置時(shí),OCSVM對(duì)于異常數(shù)據(jù)的檢測(cè)可以提供良好的泛化能力。在OCSVM中,有兩種經(jīng)典算法用于異常檢測(cè),分別為基于超平面支持向量機(jī)(plane based support vector machine,PSVM)和基于超球面的支持向量描述(support vector data description,SVDD)法。相比較而言,利用超球面分類的SVDD算法性能優(yōu)于基于PSVM算法。因此,通常采用SVDD算法進(jìn)行異常檢測(cè)。

        然而,隨著互聯(lián)網(wǎng)的快速發(fā)展和物聯(lián)網(wǎng)的逐漸普及,數(shù)據(jù)的收集更加容易。這導(dǎo)致數(shù)據(jù)庫(kù)的規(guī)模和數(shù)據(jù)的復(fù)雜性急劇增加,從而產(chǎn)生大量的高維數(shù)據(jù)。如證券交易數(shù)據(jù)、Web用戶數(shù)據(jù)、網(wǎng)絡(luò)多媒體數(shù)據(jù)等。維度的迅速增長(zhǎng),使得傳統(tǒng)的OCSVM方法對(duì)高維數(shù)據(jù)的異常檢測(cè)效率逐漸下降,從而導(dǎo)致高維數(shù)據(jù)的異常檢測(cè)成為數(shù)據(jù)挖掘的難點(diǎn)[4]。

        高維數(shù)據(jù)存在的普遍性使得對(duì)高維數(shù)據(jù)挖掘的研究有著非常重要的意義。但“維度災(zāi)難”問題導(dǎo)致對(duì)高維數(shù)據(jù)挖掘變得異常困難。即在分析高維數(shù)據(jù)時(shí),所需的空間樣本數(shù)會(huì)隨維數(shù)的增加而呈指數(shù)倍增長(zhǎng)。對(duì)于高維數(shù)據(jù)的處理,傳統(tǒng)的多元統(tǒng)計(jì)分析方法存在很多的局限性,同時(shí)高維數(shù)據(jù)空間中的稀疏性使得采用非參數(shù)方法的大樣本理論也并不適用。因此,采用數(shù)據(jù)降維是處理高維數(shù)據(jù)的最主要的高效手段。

        在機(jī)器學(xué)習(xí)領(lǐng)域中,所謂降維就是指采用某種映射方法,將原高維空間中的點(diǎn)映射到新的低維空間中[5]。經(jīng)典的數(shù)據(jù)降維方法如主成分分析[6](principle component analysis,PCA)法、局部線性嵌入[7](locally linear embedding,LLE)法和典型相關(guān)分析[8](canonical correlation analysis,CCA)法等在特征提取和數(shù)據(jù)降維方面有著廣泛的應(yīng)用。但這些降維方法均屬于線性降維,只能提取數(shù)據(jù)間的線性關(guān)系,從而導(dǎo)致在處理高維數(shù)據(jù)時(shí)存在著統(tǒng)計(jì)特性的漸進(jìn)性難以實(shí)現(xiàn)、算法頑健性低等問題。盡管對(duì)PCA和CCA基于核函數(shù)改進(jìn)后的核主成分分析(kernel principle component analysis,KPCA)法和核典型相關(guān)分析[9](kernel canonical correlation analysis,KCCA)法可以解決非線性降維的問題,但算法的復(fù)雜度較高、效率較低。

        對(duì)于解決高維的異常檢測(cè)問題,近幾年有多種經(jīng)典的方法被提出。參考文獻(xiàn)[10]直接提出了OCSVM中的經(jīng)典算法,即基于超球面的支持向量數(shù)據(jù)描述法。該算法雖然對(duì)當(dāng)時(shí)的高維數(shù)據(jù)異常檢測(cè)起了很大的推動(dòng)作用,但算法的正確率偏低。參考文獻(xiàn)[11]將PCA算法和OCSVM相結(jié)合,將數(shù)據(jù)利用經(jīng)典的線性降維方法PCA進(jìn)行降維,在OCSVM中采用非線性核函數(shù)進(jìn)行異常檢測(cè)。由于線性降維的局限性,其結(jié)果并沒有很大的提升。參考文獻(xiàn)[12]利用改進(jìn)后的KPCA算法和OCSVM進(jìn)行異常檢測(cè)。檢測(cè)結(jié)果雖有所提升,但由于非線性核函數(shù)計(jì)算量大,對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試所需要的時(shí)間較長(zhǎng),導(dǎo)致該算法的效率不高。參考文獻(xiàn)[13]利用自動(dòng)編碼器(autoencoder,AE),通過對(duì)比不同數(shù)據(jù)間的重構(gòu)誤差進(jìn)行異常檢測(cè)。其識(shí)別率雖有所提升,但測(cè)試效率依然不高。

        本文提出利用深度信念網(wǎng)絡(luò)(deep belief network,DBN)進(jìn)行數(shù)據(jù)降維,再利用基于線性核函數(shù)的單分類支持向量機(jī)這種組合模型實(shí)現(xiàn)異常檢測(cè)。深度信念網(wǎng)絡(luò)本質(zhì)上是一種概率生成模型,通過無監(jiān)督的訓(xùn)練方法由底層至頂層逐層訓(xùn)練而成。與其他傳統(tǒng)的線性降維方法相比,深度信念網(wǎng)絡(luò)最大的特點(diǎn)就是利用其自身非線性的結(jié)構(gòu)進(jìn)行特征提取,將數(shù)據(jù)從高維空間映射至低維空間,從而降低數(shù)據(jù)的維度。這種非線性降維方法可以在最大程度上保留原始數(shù)據(jù)的高維特征,并且算法的復(fù)雜度較低,相比于其他算法可以更有效地解決高維數(shù)據(jù)的異常檢測(cè)問題。實(shí)驗(yàn)結(jié)果表明,本文提出的混合算法模型,即將深度信念網(wǎng)絡(luò)和線性單分類支持向量機(jī)組合在一起解決高維數(shù)據(jù)的異常檢測(cè)問題,在檢測(cè)正確率和測(cè)試效率上都有很大提升。

        2 算法設(shè)計(jì)

        本文所提出的算法(DBN-OCSVM)模型如圖1所示,該模型由兩部分組成,即底層的DBN和頂層的OCSVM。DBN由2個(gè)限制玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)堆疊而成。將原始數(shù)據(jù)首先輸入DBN的輸入層,經(jīng)RBM1訓(xùn)練后,輸入層數(shù)據(jù)被映射至隱藏層1。隱藏層1的輸出作為RBM2的輸入繼續(xù)訓(xùn)練后得到隱藏層2。隱藏層2的數(shù)據(jù)即DBN的輸出,并將其輸入OCSVM中進(jìn)行異常檢測(cè)。

        圖1 DBN-OCSVM結(jié)構(gòu)

        圖2 OCSVM-SVDD算法示意

        在OCSVM中,使用SVDD算法進(jìn)行異常檢測(cè)。SVDD為無監(jiān)督訓(xùn)練算法,與有監(jiān)督的二分類SVM相比,它并不是要尋找能夠區(qū)分?jǐn)?shù)據(jù)的最優(yōu)超平面,而是尋找能夠包含大多數(shù)正常數(shù)據(jù)的最優(yōu)超球面。如圖2所示,當(dāng)輸入空間的數(shù)據(jù)不可分時(shí),構(gòu)造一個(gè)映射函數(shù),將輸入空間中的數(shù)據(jù)映射到特征空間中。在特征空間中,尋找支持向量構(gòu)造一個(gè)將絕大多數(shù)點(diǎn)包圍在其中并具有最小半徑的最優(yōu)超球面。由支持向量確定的超球面即正常數(shù)據(jù)類的描述模型,超球面外的點(diǎn)被判斷為離群類數(shù)據(jù)點(diǎn),即異常數(shù)據(jù)。

        在SVDD的核函數(shù)選取中,選擇線性函數(shù)代替?zhèn)鹘y(tǒng)方法中的徑向基函數(shù)(radical basis function,RBF)。在SVM中,核函數(shù)的選擇對(duì)算法的性能起著重要的作用,利用核函數(shù)可以將線性不可分的輸入空間映射到更高維的特征空間,從而將正常數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行完全分離。通常,相比較線性核函數(shù)而言,RBF等非線性核函數(shù)可以將數(shù)據(jù)映射到更適于線性分類的特征空間,從而提高SVM的分類性能。但利用本文提出的模型,經(jīng)DBN進(jìn)行降維以及特征提取后的數(shù)據(jù)通過線性核函數(shù)依然可以進(jìn)行優(yōu)秀的分類,從而規(guī)避了線性核函數(shù)的缺點(diǎn),反而突出了其優(yōu)點(diǎn)。即降低了算法的時(shí)間復(fù)雜度和空間復(fù)雜度,提高了系統(tǒng)的運(yùn)行速率。

        3 算法原理

        3.1 基于深度信念網(wǎng)絡(luò)的高度降維

        DBN的實(shí)質(zhì)是由一個(gè)高斯—伯努利型RBM作為底層,上層接有多個(gè)伯努利—伯努利型RBM,這樣將多個(gè)RBM堆疊起來便得到了所需要的生成模型DBN。將第一個(gè)RBM訓(xùn)練后得到的輸出作為下一個(gè)RBM的輸入繼續(xù)訓(xùn)練,如此往復(fù),經(jīng)過訓(xùn)練后的各個(gè)RBM參數(shù)就是DBN的初始化參數(shù)。

        其等價(jià)于:

        根據(jù)該能量配置函數(shù),設(shè)定可見層和隱藏層的聯(lián)合概率密度為:

        在RBM中負(fù)對(duì)數(shù)似然度對(duì)于任意一個(gè)模型參數(shù)的導(dǎo)數(shù)為:

        3.2 基于單分類支持向量機(jī)的異常檢測(cè)

        則上述問題便可以轉(zhuǎn)化為:

        4 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)中將DBN-SVDD算法與SVDD算法、PCA-SVDD算法和AE算法進(jìn)行比較,從檢測(cè)正確率和訓(xùn)練以及測(cè)試時(shí)間方面對(duì)比3種算法的性能。本實(shí)驗(yàn)采用的數(shù)據(jù)集來自UCI機(jī)器學(xué)習(xí)庫(kù),數(shù)據(jù)均采集于真實(shí)的生活。共選取4個(gè)高維數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,其分別為:森林覆蓋集(forest covertype,F(xiàn)C)、基于傳感器檢測(cè)的氣體種類集(gas senor array drift,GAS)、日?;顒?dòng)集(daily and sport activity,DSA)和基于智能設(shè)備穿戴的人類活動(dòng)集(human activity recognition using smartphone,HAR)。其維數(shù)分別為:54、128、315和561維。采用不同維度的數(shù)據(jù)集進(jìn)行測(cè)試,從而更好地評(píng)估本文算法性能。

        表1 3種算法在RBF核函數(shù)下的異常檢測(cè)正確率

        表2 3種算法在線性核函數(shù)下的異常檢測(cè)正確率

        在以下實(shí)驗(yàn)中,用DBN后所加的數(shù)字表示DBN的層數(shù)。例如:DBN1和DBN3分別表示為具有1層和3層隱藏層的深度信念網(wǎng)絡(luò)。在實(shí)驗(yàn)一和實(shí)驗(yàn)二中,默認(rèn)的DBN為具有2層隱藏層的深度信念網(wǎng)絡(luò)。對(duì)于DBN的每個(gè)隱藏層神經(jīng)元個(gè)數(shù),根據(jù)參考文獻(xiàn)[18]的方法在最優(yōu)性能下確定。

        (1)實(shí)驗(yàn)一

        將DBN-SVDD算法與SVDD、PCA-SVDD 兩種經(jīng)典算法分別在線性(linear)核函數(shù)和徑向基函數(shù)(radical basis function,RBF)下進(jìn)行實(shí)驗(yàn)對(duì)比。通過對(duì)以上4個(gè)數(shù)據(jù)集進(jìn)行異常檢測(cè),其識(shí)別率見表1、表2(識(shí)別率保留百分號(hào)前小數(shù)點(diǎn)后兩位),并將表1、表2的數(shù)據(jù)繪制成圖3、圖4的折線。

        圖3 RBF函數(shù)下3種算法對(duì)4個(gè)數(shù)據(jù)集的異常檢測(cè)正確率

        圖4 DBN-SVDD算法下兩種核函數(shù)的異常檢測(cè)正確率對(duì)比

        通過觀察表1、表2中的數(shù)據(jù)以及圖3、圖4,可以得出以下結(jié)論。

        ? ? 對(duì)于PCA方法降維,當(dāng)使用線性核函數(shù)時(shí),對(duì)于低維數(shù)據(jù)集如FC、GAS,異常檢測(cè)的正確率有一定提升;當(dāng)數(shù)據(jù)維度較高時(shí),如DSA、HAR,利用PCA降維相比于SVDD算法其測(cè)試結(jié)果幾乎沒有提升。

        ? ?對(duì)于SVDD和PCA-SVDD這兩種算法,無論使用線性核函數(shù)或者徑向基函數(shù),隨著數(shù)據(jù)維度的增加,其異常檢測(cè)的正確率逐漸下降。而使用DBN-SVDD算法其異常檢測(cè)結(jié)果基本不受數(shù)據(jù)維度的影響,在各種維度的數(shù)據(jù)中,其檢測(cè)結(jié)果都要優(yōu)于另外兩種算法。

        ? ?對(duì)于DBN-SVDD算法,當(dāng)使用線性核函數(shù)和徑向基函數(shù)時(shí),對(duì)實(shí)驗(yàn)結(jié)果基本不產(chǎn)生影響。這說明利用DBN更好地提取了高維數(shù)據(jù)中的特征,即使用線性核函數(shù)也有很好的檢測(cè)結(jié)果。

        (2)實(shí)驗(yàn)二

        將AE算法與DBN-SVDD算法分別在檢測(cè)正確率和檢測(cè)效率上進(jìn)行比較。對(duì)于DBN-SVDD混合模型,訓(xùn)練和測(cè)試的時(shí)間包括數(shù)據(jù)降維部分和降維后異常檢測(cè)兩部分的總和,訓(xùn)練和測(cè)試的時(shí)間為SVDD平均迭代1 000次的時(shí)間值。

        首先將DBN-SVDD分別在線性和RBF兩種核函數(shù)下的異常檢測(cè)率與AE算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表3。

        由表3可以看出,AE算法的平均異常檢測(cè)正確率為97.24%,與DBN-SVDD算法在RBF核下的97.63%以及線性核下的97.65%幾乎沒有差別。說明AE算法通過對(duì)比數(shù)據(jù)間的重構(gòu)誤差,在異常檢測(cè)正確率上也可以達(dá)到很好的效果。再將兩種算法的訓(xùn)練和測(cè)試時(shí)間進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果分別見表4和表5。

        表3 DBN-SVDD與AE算法的異常檢測(cè)正確率對(duì)比

        表4 DBN-SVDD與AE算法的訓(xùn)練時(shí)間對(duì)比(單位:s)

        由表4可以看出,DBN-SVDD算法下兩種核函數(shù)分別進(jìn)行訓(xùn)練的時(shí)間基本一致,這也進(jìn)一步表明DBN對(duì)高維數(shù)據(jù)進(jìn)行特征提取的優(yōu)良特性。對(duì)于AE算法,其訓(xùn)練時(shí)間平均為0.772 1 s,分別為線性核DBN-SVDD的5.5倍和RBF核的4.4倍,進(jìn)一步說明了DBN-SVDD算法的高效性。

        由表5可以看出,AE算法的測(cè)試時(shí)間平均時(shí)間為3.993 0 ms,均大于線性核DBN-SVDD和RBF核SVDD算法。與AE算法相比,線性核函數(shù)的測(cè)試平均時(shí)間為0.281 3 ms,時(shí)間縮短了近13.2倍;RBF核函數(shù)的測(cè)試平均時(shí)間為0.473 1 ms,時(shí)間縮短了近7.4倍。對(duì)于DBN-SVDD算法,其采用線性核函數(shù)所測(cè)試的時(shí)間小于采用RBF核函數(shù)進(jìn)行測(cè)試的時(shí)間。這是由于RBF核函數(shù)具有更高的計(jì)算復(fù)雜度,因此需要花費(fèi)更多的時(shí)間。由于采用線性核函數(shù)和RBF核函數(shù),異常檢測(cè)正確率幾乎一致,而采用線性核函數(shù)進(jìn)行測(cè)試的平均時(shí)間為0.281 3 ms,相比于采用核函數(shù)的0.473 1 ms,時(shí)間降低了40.54%。因此,采用線性核函數(shù)在很大程度上縮短了進(jìn)行數(shù)據(jù)測(cè)試的時(shí)間,提高異常檢測(cè)效率。

        表5 DBN-SVDD與AE算法的測(cè)試時(shí)間對(duì)比(單位:ms)

        表6 線性核函數(shù)下不同DBN隱藏層數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

        (3)實(shí)驗(yàn)三

        在確定DBN-SVDD混合模型為最優(yōu)算法的前提下,探究DBN隱藏層的層數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響。由于過多的層數(shù)會(huì)增加模型的復(fù)雜性和算法計(jì)算量,因此只討論最多3層隱藏層對(duì)實(shí)驗(yàn)結(jié)果的影響。在實(shí)驗(yàn)1中,進(jìn)行了具有2層隱藏層的DBN測(cè)試。接下再分別對(duì)DBN1和DBN3在線性核函數(shù)下進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果見表6。

        將表5中的實(shí)驗(yàn)結(jié)果繪制成圖5后可以看出,具有1層隱藏層的DBN1屬于“淺層模型”,導(dǎo)致其最終實(shí)驗(yàn)測(cè)試結(jié)果除了在GAS數(shù)據(jù)集為97.02%,略高于其他兩種算法外,在其余數(shù)據(jù)集的測(cè)試結(jié)果均低于另外兩種“深層模型”。對(duì)于DBN3,其實(shí)驗(yàn)結(jié)果與DBN2相比除了在FC數(shù)據(jù)集上有較大波動(dòng)外(檢測(cè)率降低了0.90%),在其他數(shù)據(jù)集上的檢測(cè)結(jié)果相差甚微,只在0.18%~0.35%范圍波動(dòng),基本相同。而對(duì)于DBN3而言,其網(wǎng)絡(luò)模型的復(fù)雜度以及計(jì)算量均高于DBN2。因此,確定具有2層隱藏層的DBN2為最佳網(wǎng)絡(luò)模型。

        5 結(jié)束語(yǔ)

        本文通過將深度信念網(wǎng)絡(luò)和單分類支持向量機(jī)組合到一起,提出DBN-SVDD算法模型。通過數(shù)據(jù)降維的方式,該算法很好地解決了高維數(shù)據(jù)的異常檢測(cè)問題。利用DBN的非線性特性以及逐層遞進(jìn)的特征提取方式來獲得高維數(shù)據(jù)中的低維特征,良好地解決了“維數(shù)災(zāi)難”問題。通過實(shí)驗(yàn),確定了DBN2為最佳的降維網(wǎng)絡(luò)模型。采用線性核的DBN-SVDD算法在測(cè)試時(shí)間上相比RBF核可以降低34.9%。對(duì)比PCA-SVDD算法,其檢測(cè)正確率最高提升了4.65%;對(duì)比AE算法,其測(cè)試時(shí)間縮短到1/13。

        圖5 不同DBN隱藏層數(shù)下的異常檢測(cè)正確率

        [1] 王忠偉, 陳葉芳, 肖四友, 等. 一種高維大數(shù)據(jù)全近鄰查詢算法[J]. 電信科學(xué), 2015, 31(7): 52-62.

        WANG Z W, CHEN Y F, XIAO S Y, et al. An AkNN algorithm for high-dimensional big data[J]. Telecommunications Science, 2015, 31(7): 52-62.

        [2] CHANDOLA V, BANERJEE A, KUMAR V. Anomaly detection:A survey[J]. ACM Computing Surveys, 2009, 41(3): 1-58.

        [3] SHIN H J, EOM D H, KIM S S. One-class support vector machines—an application in machine fault detection and classification[J]. Computers & Industrial Engineering, 2005, 48(2): 395-408.

        [4] 李昕, 錢旭, 王自強(qiáng). 一種高效的高維異常數(shù)據(jù)挖掘算法[J]. 計(jì)算機(jī)工程, 2010, 36(21): 34-36.

        LI X, QIAN X, WANG Z Q. Efficient data mining algorithm for high-dimensional outlier data[J]. Computer Engineering, 2010, 36(21): 34-36.

        [5] TENENBAUM J B, DE S V, LANGFORD J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319.

        [6] POMERANTSEV A L. Principal component analysis(PCA)[M]. New York: John Wiley & Sons, Inc., 2014: 4229-4233.

        [7] ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323.

        [8] GONZALEZ I, DéJEAN S, MARTIN P G P, et al. CCA: an R package to extend canonical correlation analysis[J]. Journal of Statistical Software, 2008, 23(12).

        [9] CHENOURI S, LIANG J, SMALL C G. Robust dimension reduction[J]. Wiley Interdisciplinary Reviews Computational Statistics, 2015, 7(1): 63-69.

        [10] 程輝, 方景龍, 王大全, 等. 超平面支持向量機(jī)簡(jiǎn)化性能分析[J]. 電信科學(xué), 2015, 31(8): 78-83.

        CHENG H, FANG J L, WANG D Q, et al. Performance analysis of simplification of hyperplane support vector machine[J]. Telecommunications Science, 2015, 31(8): 78-83.

        [11] GEORGE A. Anomaly detection based on machine learning dimensionality reduction using PCA and classification using SVM[J]. International Journal of Computer Applications, 2012, 47(21): 5-8.

        [12] BAO S, ZHANG L, YANG G. Trajectory outlier detection method based on kernel principal component analysis[J]. Journal of Computer Applications, 2014, 34(7): 2107-2110.

        [13] SAKURADA M, YAIRI T. Anomaly detection using autoencoders with nonlinear dimensionality reduction[C]//Mlsda Workshop on Machine Learning for Sensory Data Analysis, December 2, 2014, Gold Coast, Australia QLD, Australia. New York: ACM Press, 2014: 4-11.

        [14] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2002, 14(8): 1771-1800.

        [15] SUBRAMANIAM S, PALPANAS T, PAPADOPOULOS D, et al. Online outlier detection in sensor data using non-parametric models[C]//International Conference on Very Large Data Bases, September 12-15, 2006, Seoul, Korea. New York: ACM Press, 2006: 187-198.

        [16] MOORE B. Principal component analysis in linear systems: controllability, observability, and model reduction[J]. IEEE Transactions on Automatic Control, 2003, 26(1): 17-32.

        [17] HU C, HOU X, LU Y. Improving the architecture of an autoencoder for dimension reduction[C]//Ubiquitous Intelligence and omputing, 2014 IEEE, Intl Conf on and IEEE, Intl Conf on and Autonomic and Trusted Computing, and IEEE, Intl Conf on Scalable Computing and Communications and ITS Associated Workshops, Dec 9-12, 2014, Bali, Indonesia. Piscataway: IEEE Press, 2014: 855-858.

        [18] HINTON G E. A practical guide to training restricted Boltzmann machines[M]. Berlin: Springer Berlin Heidelberg, 2012: 599-619.

        [19] YANG J, DENG T, SUI R. An adaptive weighted one-class svm for robust outlier detection[M]. Berlin: Springer Berlin Heidelberg, 2016.

        [20] LIN C J. A practical guide to support vector classification[EB/OL]. (2003-01-31)[2017-06-21]. http://www.researchgate.net/publication/ 200085999_A_Practical_Guide_to_Support_Vector_Classication.

        High-dimensional outlier detection based on deepbelief network and linear one-class SVM

        LI Haoqi, YING Na, GUO Chunsheng, WANG Jinhua

        Hangzhou Dianzi University, Hangzhou 310018, China

        Aiming at the difficulties in high-dimensional outlier detection at present, an algorithm of high-dimensional outlier detection based on deep belief network and linear one-class SVM was proposed. The algorithm firstly used the deep belief network which had a good performance in the feature extraction to realize the dimensionality reduction of high-dimensional data, and then the outlier detection was achieved based on a one-class SVM with the linear kernel function. High-dimensional data sets in UCI machine learning repository were selected to experiment, result shows that the algorithm has obvious advantages in detection accuracy and computational complexity. Compared with the PCA-SVDD algorithm, the detection accuracy is improved by 4.65%. Compared with the automatic encoder algorithm, its training time and testing time decrease significantly.

        outlier detection, high-dimensional data, deep belief network, one-class SVM

        TP183

        A

        10.11959/j.issn.1000?0801.2018006

        2017?06?21;

        2017?09?26

        國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61372157);“電子科學(xué)與技術(shù)”浙江省一流學(xué)科A類基金資助項(xiàng)目(No.GK178800207001)

        The National Natural Science Foundation of China(No.61372157), Zhejiang Provincial First Class Disciplines: Class A-Electronic Science and Technology (No.GK178800207001)

        李昊奇(1992?),男,杭州電子科技大學(xué)碩士生,主要研究方向?yàn)樯疃葘W(xué)習(xí)與數(shù)據(jù)挖掘。

        應(yīng)娜(1978?),女,博士,杭州電子科技大學(xué)副教授、碩士生導(dǎo)師,主要研究方向?yàn)樾盘?hào)處理與人工智能。

        郭春生(1971?),男,博士,杭州電子科技大學(xué)副教授、碩士生導(dǎo)師,主要研究方向?yàn)槟J阶R(shí)別與人工智能。

        王金華(1992?),女,杭州電子科技大學(xué)碩士生,主要研究方向?yàn)樯疃葘W(xué)習(xí)與自然語(yǔ)言處理。

        猜你喜歡
        實(shí)驗(yàn)檢測(cè)
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        蜜桃精品国产一区二区三区 | 欧美日韩在线观看免费| 国产女主播强伦视频网站| 一区二区三区乱码专区| 亚洲av成人无码一二三在线观看| 在线观看免费人成视频色9| 亚洲VA中文字幕无码毛片春药| 午夜av福利亚洲写真集| 亚洲国产精品一区二区毛片| 激情内射日本一区二区三区| 久久99国产亚洲高清观看韩国| 国产精品,在线点播影院| 久久av粉嫩一区二区| 亚洲性无码一区二区三区| 久久亚洲国产精品成人av秋霞| 亚洲AV永久无码精品表情包| 一区二区高清免费日本| 午夜性色一区二区三区不卡视频 | 日韩精品视频一区二区三区| 国产女合集小岁9三部| 91精品亚洲一区二区三区| 精品一级一片内射播放| 国产永久免费高清在线| 久久中文字幕乱码免费| 亚洲免费成年女性毛视频| 国产精品午夜夜伦鲁鲁| 国产成熟人妻换╳╳╳╳| 亚洲AV激情一区二区二三区| av免费在线播放一区二区| 在线观看人成视频免费| 欧美不卡视频一区发布| 午夜国产精品视频免费看电影| 国内免费自拍9偷1拍| 国产又爽又黄又刺激的视频| 国产香蕉尹人在线视频播放| 国产亚洲精品视频在线| 色天使久久综合网天天| 国产又黄又猛又粗又爽的a片动漫| 亚洲美女国产精品久久久久久久久| 偷拍一区二区三区高清视频| 亚洲色国产欧美日韩|