亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于多視角聚類的離群檢測(cè)算法

        2016-06-22 09:17:59姚鵬古平重慶大學(xué)計(jì)算機(jī)學(xué)院重慶400044
        現(xiàn)代計(jì)算機(jī) 2016年14期
        關(guān)鍵詞:檢測(cè)

        姚鵬,古平(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)

        ?

        一種基于多視角聚類的離群檢測(cè)算法

        姚鵬,古平
        (重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶400044)

        摘要:

        關(guān)鍵詞:

        0 引言

        離群檢測(cè)(Outlier Detection)是數(shù)據(jù)挖掘技術(shù)的一個(gè)研究方向,其目的是從大量數(shù)據(jù)中找到小部分異常的,與常規(guī)數(shù)據(jù)不同的數(shù)據(jù)。大多數(shù)算法使用Hawkins的離群點(diǎn)定義:“離群點(diǎn)的表現(xiàn)與其他點(diǎn)如此不同,以至于讓人懷疑它是由不同機(jī)制產(chǎn)生的”。目前,離群檢測(cè)在網(wǎng)絡(luò)入侵檢測(cè)、信用卡欺詐檢測(cè)、故障診斷、災(zāi)害預(yù)測(cè)、圖像處理分析等領(lǐng)域都得到廣泛的應(yīng)用[1-2]?,F(xiàn)有的離群點(diǎn)檢測(cè)方法分類有基于分布的、基于距離的、基于密度的、基于聚類的、基于深度的[3-4]等。

        以前的數(shù)據(jù)挖掘算法中,數(shù)據(jù)集的屬性是被認(rèn)真挑選過的。但在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的個(gè)數(shù)和維度都很多,數(shù)據(jù)的特征可能淹沒在高維的數(shù)據(jù)中,而只在特定的子空間有所體現(xiàn),有些離群點(diǎn)也只能在子空間中觀察到。此時(shí),離群檢測(cè)任務(wù)不僅僅為了找出離群點(diǎn),同時(shí)要找出相關(guān)的子空間,從不同的視角去全面評(píng)估數(shù)據(jù),而不是傳統(tǒng)的在全部屬性空間尋找離群點(diǎn)。聚類分析是根據(jù)數(shù)據(jù)集的特征,將數(shù)據(jù)劃分成有意義或者有用的簇,從而獲得數(shù)據(jù)集所包含的某種內(nèi)部結(jié)構(gòu)。傳統(tǒng)的聚類算法在做數(shù)據(jù)分析時(shí),只挖掘數(shù)據(jù)中單個(gè)合理的模式,然而在實(shí)際應(yīng)用中,數(shù)據(jù)往往蘊(yùn)含著多個(gè)合理且有價(jià)值的特征模式。例如,在文檔數(shù)據(jù)中,既存在文檔主題模式,又存在文檔的寫作風(fēng)格模式。因此,人們希望從數(shù)據(jù)中挖掘多個(gè)相異且有價(jià)值的聚類結(jié)果,以便給決策者提供更多的選擇空間。具體到離群檢測(cè)應(yīng)用中,我們希望從多個(gè)視角對(duì)數(shù)據(jù)進(jìn)行分析,獲得更全面的離群點(diǎn)集。

        多視角聚類(multi-view clustering)是近年來新興的一種數(shù)據(jù)分析方法,有的文獻(xiàn)也稱為替代聚類(alternative clustering)[5,13]或無冗余聚類(non-redundant clustering)[6]。多視角聚類在進(jìn)行數(shù)據(jù)分析時(shí),一方面希望得到的高質(zhì)量聚類結(jié)果,即捕捉到數(shù)據(jù)集本身所蘊(yùn)含的某種合理內(nèi)在結(jié)構(gòu);另一方面要求所得到的多個(gè)聚類之間無冗余,即希望從多角度全方位觀測(cè)分析數(shù)據(jù)?,F(xiàn)有的多視角聚類算法可以分為同步學(xué)習(xí)和順序?qū)W習(xí)兩類。同步多視角聚類算法力圖從數(shù)據(jù)集中同時(shí)挖掘出多個(gè)相異且有價(jià)值的聚類模式;順序多視角聚類算法是在已知一個(gè)或多個(gè)聚類結(jié)果的情況下,再求一個(gè)與已知模式不同的高質(zhì)量聚類結(jié)果。同步學(xué)習(xí)過程和順序?qū)W習(xí)過程均可挖掘出數(shù)據(jù)集中的多個(gè)劃分模式,不同的是順序多視角學(xué)習(xí)算法在學(xué)習(xí)一個(gè)新的聚類模式時(shí),充分考慮已知的數(shù)據(jù)劃分模式,可將這些先驗(yàn)知識(shí)融入到多視角學(xué)習(xí)的過程中[7]。

        本文算法實(shí)現(xiàn)基于順序多視角聚類的離群檢測(cè)算法KDAC,采用譜聚類來獲得高質(zhì)量聚類,同時(shí)使用希爾伯特-施密特獨(dú)立性準(zhǔn)則HSIC保證新的聚類和前面的聚類無冗余,重復(fù)執(zhí)行獲得多個(gè)視角,對(duì)多個(gè)視角進(jìn)行離群分析,提高離群檢測(cè)的精確度。

        1 基于多視角聚類的離群檢測(cè)算法

        1.1基本定義

        1.2譜聚類

        譜聚類是一種基于譜圖理論的聚類算法,不同于傳統(tǒng)的k均值、EM算法,它不要求數(shù)據(jù)是凸形的,能夠在任意形狀的數(shù)據(jù)中進(jìn)行聚類并得到全局最優(yōu)的結(jié)果。譜聚類算法的基本思想是構(gòu)造數(shù)據(jù)集的相似度矩陣,求出矩陣的特征值和特征向量,選擇合適的特征向量將原始數(shù)據(jù)點(diǎn)映射到低維空間中進(jìn)行聚類。

        1.3HSIC

        HSIC是一種基于核的獨(dú)立性度量方法,是在再生核希爾伯特空間上定義互協(xié)方差算子,在互協(xié)方差算子中找出可度量獨(dú)立性的統(tǒng)計(jì)量,從而來獲得獨(dú)立性的大小。HSIC使用Hilbert-Schmidt互協(xié)方差算子,通過對(duì)該算子范數(shù)的經(jīng)驗(yàn)估計(jì)來評(píng)估獨(dú)立性[11]。

        假設(shè)X,Y兩個(gè)空間,定義F為X的再生核希爾伯特空間,X到F的映射記為φ:MF,則兩點(diǎn)在核空間的內(nèi)積可由核函數(shù)k1(x,x')=<φ(x),φ(x')>得到,類似的定義Y的核空間G,映射φ,核函數(shù)k2(.,.)。互協(xié)方差算子Cxy:GF定義為Cxy=Exy[(φ(x)-μy)(φ(y)-μy)]。Cxy可以看成Hilbert-Schmidt算子,而所謂的HSIC即定義為Cxy的Hilbert-Schmidt算子范數(shù),即HSIC (pxy,F(xiàn),G)=。對(duì)已知的數(shù)據(jù)Z={(x1,y1),…,(xn, yn)}時(shí)可以得到HSIC的經(jīng)驗(yàn)估計(jì):

        其中K1,K2,H∈Rn×n,K1,K2是Gram矩陣,K1,ij=k1(xi,xj),K2,ij=k2(xi,xj),Hij=δij-n-1。公式(2)已被證明具有收斂速度快和運(yùn)算簡(jiǎn)單等優(yōu)點(diǎn),其HSIC值越大說明X,Y關(guān)聯(lián)性越強(qiáng),若X和Y獨(dú)立,HSIC值為0。

        1.4多視角生成算法

        在譜聚類中,相似度矩陣K定義在全部數(shù)據(jù)屬性上,然而有些屬性可能是噪聲或無關(guān)的,因此需要對(duì)數(shù)據(jù)進(jìn)行降維,在低維空間進(jìn)行譜聚類。定義d×q(其中q<d)的轉(zhuǎn)換矩陣W,則XW∈Rn×q表示降維后的數(shù)據(jù)矩陣。在算法每輪迭代中,給定Y,目標(biāo)是發(fā)現(xiàn)一個(gè)替代聚類U以及U所在的子空間W。該問題可表示為優(yōu)化問題:

        公式(3)中的第一項(xiàng)HSIC(XW,U)用譜聚類準(zhǔn)則公式(1)表示:

        上述優(yōu)化問題的最優(yōu)解在HSIC(XW,U)較大并且HSIC(XW,Y)較小時(shí)獲得。HSIC(XW,U)大表示聚類劃分U是在XW中的一個(gè)高質(zhì)量聚類,HSIC(XW,Y)小表示W(wǎng)空間中的聚類與已知聚類結(jié)果Y關(guān)聯(lián)度較低,W是一個(gè)新奇的聚類子空間。

        通過交替的優(yōu)化矩陣U和W來得到公式(4)的最優(yōu)解,可分解為下面兩個(gè)步驟:

        ②假設(shè)U是固定的,優(yōu)化W。當(dāng)U固定時(shí),公式(4)可轉(zhuǎn)化為:

        交替執(zhí)行步驟1,2直到數(shù)據(jù)收斂,對(duì)U進(jìn)行k均值聚類可獲得一個(gè)新奇且高質(zhì)量聚類劃分。之后對(duì)W空間進(jìn)行離群檢測(cè),如應(yīng)用LOF算法[12],LOF值大的數(shù)據(jù)為離群點(diǎn),獲得在W視角下的離群點(diǎn)集。重復(fù)多次可獲得不同視角下的離群點(diǎn)集。整體算法KDAC步驟描述如下:

        輸入:數(shù)據(jù)X,已獲得劃分矩陣Y,子空間維數(shù)q,簇個(gè)數(shù)c。

        輸出:轉(zhuǎn)換矩陣W,離群度LOF。

        1.初始化W=I。

        3.有步驟2得到的U,根據(jù)1.4節(jié)的維度增加算法更新W。

        4.重復(fù)步驟2,3直到收斂。

        5.對(duì)U進(jìn)行k均值聚類,劃分結(jié)果Yi合并到Y(jié)。

        6.計(jì)算XW中各數(shù)據(jù)點(diǎn)的LOF。

        2 實(shí)驗(yàn)結(jié)果及分析

        為了測(cè)試KDAC算法的有效性,選取LOF和LDOF作為對(duì)比算法,驗(yàn)正top-n離群點(diǎn)的精確度。算法使用Python編寫,實(shí)驗(yàn)環(huán)境:Intel Core i3,2.4GHz,內(nèi)存4GB,Windows 10操作系統(tǒng)。

        2.1Yeast data set

        酵母數(shù)據(jù)集(yeast data set)包含1484個(gè)樣本,每個(gè)樣本有9個(gè)屬性,有一個(gè)屬性是類標(biāo)屬性。實(shí)驗(yàn)中從樣本中選擇1299條記錄作為正常數(shù)據(jù),加入20個(gè)離群點(diǎn)。KDAC算法中取c=4,q=6。實(shí)驗(yàn)結(jié)果如圖1所示。

        由圖1看出,相比LOF和LDOF,KDAC能獲得較好的精確度。

        2.2KDD-Cup 1999數(shù)據(jù)集

        KDD-Cup 1999是一個(gè)網(wǎng)絡(luò)入侵檢測(cè)的數(shù)據(jù)集,它有五種數(shù)據(jù)對(duì)象,包括正常的連接,各種入侵和攻擊等。實(shí)驗(yàn)時(shí)對(duì)數(shù)據(jù)集進(jìn)行修改,在原來41維屬性中選取32維連續(xù)屬性,并使入侵?jǐn)?shù)據(jù)(50個(gè)離群點(diǎn))占2%。實(shí)驗(yàn)結(jié)果如圖2所示。

        如圖2所示在維度較高情況下,KDAC算法優(yōu)于LOF和LDOF算法。在包含很多無關(guān)屬性的高維情況下,距離很難再作為樣本相似性的度量。而KDAC將數(shù)據(jù)映射到多個(gè)低維空間,因而更有效檢測(cè)離群點(diǎn)。

        圖1 yeast數(shù)據(jù)集

        圖2 KDD-Cup 1999數(shù)據(jù)集

        3 結(jié)語

        本文基于多視角聚類進(jìn)行離群檢測(cè),該算法一方面采用譜聚類,以確保高質(zhì)量的聚類結(jié)果;另一方面通過希爾伯特-施密特獨(dú)立性準(zhǔn)則,以確保新的聚類結(jié)果相對(duì)于已知?jiǎng)澐帜J绞菬o冗余的。從得到的多個(gè)不同的視角,獲得對(duì)數(shù)據(jù)集更全面的認(rèn)識(shí)。實(shí)驗(yàn)結(jié)果表明,該方法能有效解決離群檢測(cè)問題,對(duì)高維數(shù)據(jù)集有更好的效果。

        參考文獻(xiàn):

        [1]Chandola V,Banerjee A,Kumar V.Anomaly Detection:A Survey[J].Acm Computing Surveys,2009,41(3):75-79.

        [2]Zimek A,Schubert E,Kriegel H P.A Survey on Unsupervised Outlier Detection in High-Dimensional Numerical Data[J].Statistical Analysis & Data Mining the Asa Data Science Journal,2012,66(1):72-8.

        [3]薛安榮,姚林,鞠時(shí)光,等.離群點(diǎn)挖掘方法綜述[J].計(jì)算機(jī)科學(xué),2008,35(11):13-18.

        [4]Kriegel H P,Kr?ger P,Schubert E,et al.Interpreting and Unifying Outlier Scores[J].SDM,2011:13-24.

        [5]Qi Z J,Davidson I.A Principled and Flexible Framework for Finding Alternative Clusterings[C].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.2009:717-726.

        [6]Gondek D,Hofmann T.Non-Redundant Clustering with Conditional Ensembles[C].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Chicago,Illinois,USA,August 21-24,2005.2005:70-77.

        [7]婁錚錚,葉陽東,劉瑞娜.基于IB方法的無冗余多視角聚類[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1865-1875.

        [8]Luxburg U V.A Tutorial on Spectral Clustering[J].Statistics & Computing,2007,17(17):395-416.

        [9]Shi J,Malik J.Normalized Cuts and Image Segmentation[J].IEEE Trans.pattern Anal.mach.intell,2000,22(8):888-905.

        [10]Ng A Y,Jordan M I,Weiss Y.On Spectral Clustering:Analysis and an Algorithm[J].Proceedings of Advances in Neural Information Processing Systems,2001,14:849-856.

        [11]Gretton A,Bousquet O,Smola A,et al.Measuring Statistical Dependence with Hilbert-Schmidt Norms[M].Algorithmic Learning Theory.Springer Berlin Heidelberg,2005:63-77.

        [12]Breunig M M,Kriegel H P,Ng R T,et al.LOF:Identifying Density-Based Local Outliers[J].Acm Sigmod Record,2000,29(2):93-104.

        [13]Dy J G,Jordan M I.Iterative Discovery of Multiple Alternative Clustering Views[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,36(7):1340-1353.

        姚鵬(1990-),男,河南許昌人,研究生,研究方向?yàn)殡x群檢測(cè)

        古平(1976-),男,重慶人,副教授,研究方向?yàn)閿?shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

        Multi-View Clustering Based Outlier Detection Algorithm

        YAO Peng,GU Ping
        (College of Computer Science,Chongqing University,Chongqing 400030)

        Abstract:

        Complex data sets usually contain different organization patterns,traditional outlier detection algorithm cannot make full use of multi-view information and cause outlier missing from a single point of view.Proposes a multi-view clustering outlier detection algorithm,which on the one hand uses a spectral clustering algorithm to ensure high quality of clustering results;on the other hand,through Hilbert-Schmidt independence criterion to ensure that the new clustering result and the known partition model comparison are not redundant.And then gets more accurate outlier sets through the multi -view of the outlier analysis.The results show that the algorithm can improve the accuracy of outlier detection.

        Keywords:

        復(fù)雜數(shù)據(jù)集通常包含不同的組織模式,傳統(tǒng)的離群檢測(cè)算法從單一視角尋找離群點(diǎn),不能充分利用多視角信息,造成信息遺漏。提出一種基于多視角聚類的離群檢測(cè)算法,該算法一方面采用譜聚類,以確保高質(zhì)量的聚類結(jié)果;另一方面通過希爾伯特-施密特獨(dú)立性準(zhǔn)則,以確保新的聚類結(jié)果相對(duì)于已知?jiǎng)澐帜J绞菬o冗余的。對(duì)得到多個(gè)視角進(jìn)行離群分析,從而得到更準(zhǔn)確的離群集。研究結(jié)果表明,該算法能夠提高離群檢測(cè)精度。

        離群檢測(cè);多視角;譜聚類;希爾伯特-施密特獨(dú)立性準(zhǔn)則

        文章編號(hào):1007-1423(2016)14-0043-05

        DOI:10.3969/j.issn.1007-1423.2016.14.009

        作者簡(jiǎn)介:book=47,ebook=48

        收稿日期:2016-03-22修稿日期:2016-04-30

        Outlier Detection;Multi-View;Spectral Clustering;Hilbert-Schmidt Independence Criterion

        猜你喜歡
        檢測(cè)
        QC 檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        “有理數(shù)的乘除法”檢測(cè)題
        “有理數(shù)”檢測(cè)題
        “角”檢測(cè)題
        “幾何圖形”檢測(cè)題
        99久久久无码国产精品免费砚床| av天堂最新在线播放| 国产高清在线观看av片 | 美女脱了内裤洗澡视频| 久久久国产乱子伦精品| 国产suv精品一区二区| 久久亚洲成a人片| 亚洲国产天堂av成人在线播放| 音影先锋中文字幕在线| 亚洲h在线播放在线观看h| 欧美日韩亚洲成人| 亚洲中文字幕国产综合| 国产精品高潮呻吟av久久黄| 亚洲精品无码国产| 久久频道毛片免费不卡片| 亚洲在线视频一区二区| 日韩精品人妻中文字幕有码在线| 亚洲精品成人网线在线播放va| 五月天国产精品| 一区二区三区日本在线| 免费观看国产短视频的方法| 乱人伦中文无码视频| 亚洲日韩精品久久久久久| 国产av精品久久一区二区| 欧美日本精品一区二区三区| 久久av高潮av无码av喷吹| 亚洲一区区| 高清不卡日本v二区在线| 亚洲日韩av一区二区三区中文| 国产A√无码专区| 国产亚洲青春草在线视频| 日韩精品极品免费视频观看| 国产裸体xxxx视频在线播放| 亚洲熟妇网| 精品国产av一区二区三四区| 无码人妻一区二区三区在线| 少妇厨房愉情理伦片bd在线观看| 亚洲av五月天天堂网| 亚洲国产成人av二区| 国产自偷自偷免费一区| 日韩免费高清视频网站|