亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于屬性熵和加權(quán)余弦相似度的離群算法

        2014-06-13 04:43:44劉愛(ài)琴荀亞玲太原科技大學(xué)計(jì)算機(jī)學(xué)院太原030024
        關(guān)鍵詞:離群高維信息熵

        劉愛(ài)琴,荀亞玲 (太原科技大學(xué)計(jì)算機(jī)學(xué)院,太原 030024)

        離群數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要分支,其目的是找出隱含在海量數(shù)據(jù)中的相對(duì)稀疏而孤立的異常數(shù)據(jù)模式。離群數(shù)據(jù)挖掘有著廣泛的應(yīng)用,例如網(wǎng)絡(luò)非法入侵檢測(cè)及天文學(xué)上新星體發(fā)現(xiàn)等[1]。

        目前,很多數(shù)據(jù)的維數(shù)非常高,有的甚至高達(dá)上百維,如何提高高維數(shù)據(jù)離群挖掘的效率是目前研究的一個(gè)重點(diǎn)。在高維數(shù)據(jù)空間中,數(shù)據(jù)的稀疏性意味著每個(gè)點(diǎn)都可以看作離群數(shù)據(jù),因此傳統(tǒng)的基于統(tǒng)計(jì)的、基于分類(lèi)的、基于距離以及基于聚類(lèi)等方法的離群數(shù)據(jù)挖掘算法不再能有效發(fā)現(xiàn)離群數(shù)據(jù)[2]。當(dāng)前用于高維離群檢測(cè)的方法有基于信息理論的、基于余弦相似度、基于子空間的、基于基尼指標(biāo)的、基于屬性相關(guān)性分析等算法?;谛畔⒗碚摰碾x群挖掘算法通過(guò)分析數(shù)據(jù)集的信息熵來(lái)進(jìn)行離群挖掘,此類(lèi)算法基于這樣的假設(shè):離群點(diǎn)增加了數(shù)據(jù)集的不規(guī)則性。典型的算法有基于信息熵的快速貪婪算法[3]和信息熵度量的離群數(shù)據(jù)挖掘算法[4]和基于信息熵的相對(duì)離群點(diǎn)的檢測(cè)方法等[5]。ANNA K使用余弦相似度來(lái)度量高維數(shù)據(jù)中的離群對(duì)象,也是一種比較有效的方法[6]。所謂子空間技術(shù)是針對(duì)全空間而言的。在數(shù)據(jù)的所有屬性中,選取若干維屬性所組成的數(shù)據(jù)空間為子空間。離群挖掘即找到容易識(shí)別離群點(diǎn)的子空間,子空間技術(shù)對(duì)高維數(shù)據(jù)效率很高。AGARWAL C等提出一種基于子空間的離群數(shù)據(jù)挖掘算法[7],該算法的基本思想是首先將高維數(shù)據(jù)投影到低維子空間,然后在子空間中考察數(shù)據(jù)的行為,并利用遺傳算法搜索稀疏子空間,把稀疏子空間中的數(shù)據(jù)定義為離群數(shù)據(jù),但搜索子空間的進(jìn)化算法是隨機(jī)搜索算法,并不能確保搜索到所有的異常子空間,算法的完備性和準(zhǔn)確性無(wú)法得到保證。ZHANG J F等利用概念格作為子空間描述工具,提出了一種低維子空間離群數(shù)據(jù)挖掘方法,并利用概念格和稠密度系數(shù)提高了算法的正確性和完備性[8]。王磊等利用屬性相關(guān)性分析思想,刪除了高維數(shù)據(jù)集中的冗余屬性,并結(jié)合并行運(yùn)算及微粒群算法,提高了離群檢測(cè)的準(zhǔn)確性和效率[9]。石巖等人在屬性相關(guān)分析的基礎(chǔ)上,采用基尼指標(biāo)作為離群度量因子,挖掘出不同離群程度的數(shù)據(jù)點(diǎn)[10]。

        1 相關(guān)研究

        為了提高高維離群檢測(cè)的精度,倪巍偉等人將子空間和信息熵的概念相結(jié)合,提出了基于局部信息熵的加權(quán)子空間離群點(diǎn)檢測(cè)算法(SPOD)[11]。其相關(guān)的概念定義如下:

        假設(shè)數(shù)據(jù)集D=(O,A),對(duì)象集O={o1,o2,…om},屬性集A={A1,…Ad},對(duì)象o∈O關(guān)于屬性Ai的值記為∏Ai(o).

        定義1(對(duì)象o的k-距離)。存在對(duì)象p∈O,使得至少有k個(gè)對(duì)象p′∈O滿足dist(o,p′)≤dist(o,p′),并且最多有k-1個(gè)對(duì)象p′∈O滿足dist(o,p′)

        定義2(對(duì)象o的k-鄰域)。對(duì)象o的k-鄰域是其鄰居對(duì)象的集合,即:

        δ=Nk(o)={q∈O|dist(o,q)≤k-dist(o)}

        (1)

        定義3(局部屬性熵)。對(duì)o∈O,Ai∈A,對(duì)象o關(guān)于屬性Ai的局部信息熵定義為:

        (2)

        其中:

        dmax=max{dist(∏Ai(o),∏Ai(q))|q∈Nk(o)}

        dmin=min{dist(∏Ai(o),∏Ai(q))|q∈Nk(o)}

        SPOD算法是一種檢測(cè)精度較高的離群挖掘算法,但存在以下不足:(1)依據(jù)局部屬性熵而設(shè)置的屬性權(quán)重為一固定值,并不能反映屬性本身的離群程度,且需要人為設(shè)置;(2)需兩次計(jì)算每個(gè)對(duì)象的k-鄰域。首次計(jì)算各對(duì)象的k-鄰域δ其目的是最終確定每個(gè)對(duì)象各個(gè)屬性在該鄰域δ內(nèi)的權(quán)重參數(shù)ω.其后將會(huì)根據(jù)權(quán)重ω再次計(jì)算每個(gè)對(duì)象的k-鄰域δ′,并計(jì)算加權(quán)密度等,檢測(cè)基于鄰域δ′的局部離群點(diǎn)。計(jì)算鄰域是SPOD算法中最耗時(shí)的一個(gè)步驟,其時(shí)間復(fù)雜度為:O(d×m2).兩次計(jì)算鄰域直接造成算法運(yùn)行時(shí)間變長(zhǎng),運(yùn)算效率降低。此外,k-鄰域δ′及加權(quán)密度等相關(guān)量的計(jì)算是基于權(quán)重參數(shù)ω進(jìn)行的,而權(quán)重ω是根據(jù)另一不同的鄰域k-鄰域δ內(nèi)的離群屬性而設(shè)置的,因此鄰域δ′及其相關(guān)量的計(jì)算理論上并不是完全必要和合理的。

        本文給出一種基于屬性熵和加權(quán)余弦相似度的離群數(shù)據(jù)挖掘算法LEAWCD.該算法首先根據(jù)局部屬性熵分析每個(gè)對(duì)象各個(gè)屬性在k-鄰域δ內(nèi)的屬性偏離度,并據(jù)此自動(dòng)設(shè)置相應(yīng)的屬性權(quán)向量;然后使用對(duì)高維數(shù)據(jù)更有效的加權(quán)余弦相似度來(lái)度量各對(duì)象的離群程度,從而實(shí)現(xiàn)各對(duì)象在k-鄰域δ內(nèi)的局部離群點(diǎn)檢測(cè)。

        2 基于屬性熵和加權(quán)余弦相似度的離群數(shù)據(jù)挖掘算法

        2.1 局部加權(quán)離群度量因子的計(jì)算

        在SPOD算法中,若對(duì)象o關(guān)于屬性Ai的局部屬性熵大于其k-鄰域δ內(nèi)各對(duì)象關(guān)于Ai的屬性熵均值,則將屬性Ai視為對(duì)象o在k-鄰域δ內(nèi)的離群屬性。文中引入屬性偏離度來(lái)進(jìn)一步判斷和衡量屬性離群的程度。

        定義4(對(duì)象o的局部屬性偏離度)。對(duì)象o關(guān)于屬性Ai的局部屬性偏離度定義為:

        (3)

        其中:分子 LEAAi(o)為對(duì)象o關(guān)于屬性Ai的局部屬性熵,分母為對(duì)象o的k-鄰域δ內(nèi)所有對(duì)象關(guān)于屬性Ai的局部屬性熵均值。當(dāng)deviateLevel(o,Ai)大于1時(shí),表明屬性Ai為對(duì)象o在k-鄰域δ內(nèi)的離群屬性,且其值越大,說(shuō)明該屬性離群的程度越高。

        在文獻(xiàn)[11]中,將不同屬性分別賦以不同的權(quán)值。對(duì)于離群屬性設(shè)置為一固定的權(quán)重λ(λ>1),而非離群屬性權(quán)重設(shè)為1.由于權(quán)重λ的值需要人為設(shè)置,因此挖掘結(jié)果易受人為因素影響,且固定的權(quán)重值無(wú)法精確反映屬性離群的程度。本文使用屬性權(quán)向量對(duì)不同屬性的權(quán)重進(jìn)行定義。

        (4)

        其中,當(dāng)deviateLevel(o,Ai)>1時(shí),根據(jù)屬性偏離度的定義,屬性Ai為離群屬性。此時(shí)權(quán)重參數(shù)不再需要人工設(shè)置,而是設(shè)定為該屬性的屬性偏離度,以直接反映該離群屬性的離群程度。deviateLevel(o,Ai)≤1時(shí),屬性Ai為非離群屬性,仍保持權(quán)值1不變。

        (5)

        (6)

        參照文獻(xiàn)[6],對(duì)象的局部加權(quán)離群因子定義如下:

        (7)

        ω1KOF用于度量對(duì)象的局部離群程度,計(jì)算所有對(duì)象的ω1KOF,并按升序排列,離群因子最小的n個(gè)對(duì)象就是所求的局部離群點(diǎn)。

        2.2 算法的描述

        輸入:數(shù)據(jù)集D,鄰域?qū)ο髷?shù)k,離群點(diǎn)個(gè)數(shù)n.

        輸出:離群點(diǎn)集

        2.運(yùn)用式(6),計(jì)算每個(gè)對(duì)象在其k-鄰域δ內(nèi)的加權(quán)中值向量,并用式(7)確定每個(gè)對(duì)象的局部加權(quán)離群因子ω1KOF;

        3.依據(jù)局部加權(quán)離群因子ω1KOF采用快速排序法將各對(duì)象按升序排序;

        4.輸出前n個(gè)對(duì)象,即為所求離群點(diǎn)集。

        3 實(shí)驗(yàn)

        在PentiumIII-1.0G CPU,256M內(nèi)存,Windows XP操作系統(tǒng),DBMS為ORACLE9i環(huán)境下,用Visual C++6.0實(shí)現(xiàn)了SPOD和LEAWCD算法。實(shí)驗(yàn)中采用國(guó)家天文臺(tái)提供的晚型星、高紅移類(lèi)星體以及類(lèi)星體三個(gè)天體光譜數(shù)據(jù)集。

        (1)算法的精確度比較

        為了驗(yàn)證LEAWCD算法的正確性,選取SPOD[11]算法作為比較算法。其中,這三個(gè)數(shù)據(jù)集的維數(shù)為44維,兩種算法需共同設(shè)置的參數(shù)為鄰域中點(diǎn)數(shù)目k=7;另外,SPOD算法還需設(shè)置離群屬性權(quán)重λ=1.5.

        表1 算法的檢測(cè)精確度比較

        (2)算法對(duì)數(shù)據(jù)集維度的伸縮性

        為了測(cè)試算法對(duì)數(shù)據(jù)集維度的伸縮性,在高紅移類(lèi)星體光譜數(shù)據(jù)中分別取維數(shù)為10、20、30、40維對(duì)SPOD和LEAWCD算法的運(yùn)算效率進(jìn)行比較。實(shí)驗(yàn)中,除維數(shù)外,其余參數(shù)的設(shè)置與測(cè)試算法精確度的實(shí)驗(yàn)相同。由圖可知,在不同維度下,LEAWCD算法的運(yùn)行時(shí)間基本上為SPOD算法的一半。這是因?yàn)閷?duì)于這兩個(gè)算法,計(jì)算鄰域都是最耗時(shí)的步驟,其復(fù)雜度為O(d×m2).在SPOD算法中,需要兩次計(jì)算k-鄰域,而在本文算法中,僅需計(jì)算一次k-鄰域,因此本文LEAWCD算法其運(yùn)行時(shí)間大約為SPOD算法的一半。

        圖1 算法對(duì)數(shù)據(jù)集維數(shù)的伸縮性

        4 結(jié)束語(yǔ)

        目前的離群數(shù)據(jù)挖掘算法應(yīng)用到高維數(shù)據(jù)時(shí)會(huì)出現(xiàn)“維災(zāi)難”,效率較低。LEAWCD算法通過(guò)屬性偏離度自動(dòng)設(shè)置權(quán)重,并使用對(duì)高維有效的加權(quán)余弦相似度來(lái)度量各對(duì)象的離群程度,實(shí)現(xiàn)了高維離群點(diǎn)檢測(cè)。理論分析和實(shí)驗(yàn)結(jié)果表明,LEAWCD算法在減少用戶依賴(lài),縮短運(yùn)行時(shí)間,提高檢測(cè)精度上具有較明顯優(yōu)勢(shì)。

        參考文獻(xiàn):

        [1] 薛安榮,鞠時(shí)光,何偉華,等.局部離群點(diǎn)挖掘算法研究[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1-9.

        [2] ARINDAM B,VIPIN K.Anomaly detection:a survey[J].ACM Computing Surveys (CSUR),2009,41(3):1-58.

        [3] HE Z Y,XU X F,DENG S H.A fast greedy algorithm for outlier mining[C]∥Proceedings of PAKDD′2006(LNAD918).Singapore:NTU,2006:567-576.

        [4] 張賀,蔡江輝,張繼福.信息熵度量的離群數(shù)據(jù)挖掘算法[J].智能系統(tǒng)學(xué)報(bào),2010,5(2):150-157.

        [5] 于紹越,商琳.基于信息熵的相對(duì)離群點(diǎn)的檢測(cè)方法:ENBROD[J].南京大學(xué)學(xué)報(bào),2008,44(2):212-218.

        [6] ANNA K.A fast outlier detection strategy for distributed high-dimensional data sets with mixed attributes[J].Data Mining and Knowledge Discovery,2010(20):259-289.

        [7] AGARWAL C,YU P S.An effective and efficient algorithm for high-dimensional outlier detection[J].The International Journal on Very Large Data Bases,2005,14(2):211-221.

        [8] ZHANG J F,JIANG Y Y,CHANG KAI H,et al.A concept lattice based outlier mining method in low dimensional subspaces[J].Pattern Recognition Letters,2009,30 (15):1434-1439.

        [9] 王磊,張繼福.基于屬性相關(guān)分析的離群數(shù)據(jù)并行挖掘算法[J].太原科技大學(xué)學(xué)報(bào),2011,32(5):364-368.

        [10] 石巖,劉愛(ài)琴,張繼福.一種基于基尼指標(biāo)的高維數(shù)據(jù)離群挖掘算法[J].太原科技大學(xué)學(xué)報(bào),2013,34(3):161-165.

        [11] 倪巍偉,陳耿,陸介平,等.基于局部信息熵的加權(quán)子空間離群點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)研究與發(fā)展,2008,45(7):1189-1192.

        猜你喜歡
        離群高維信息熵
        基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類(lèi)算法
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢(xún)算法
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷(xiāo)售潛在客戶中的應(yīng)用
        基于信息熵的IITFN多屬性決策方法
        一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
        離群的小雞
        高維Kramers系統(tǒng)離出點(diǎn)的分布問(wèn)題
        免费国产黄网站在线观看 | 人妻丝袜中文字幕久久| 日本妇女高清一区二区三区| 色综合久久蜜芽国产精品| 麻豆精品久久久久久久99蜜桃| 国产午夜在线观看视频播放| 国产激情视频在线观看你懂的| 国产精品成人一区二区不卡| 免费人成视频x8x8入口| 欧美黑人又粗又大久久久| 在线无码免费看黄网站| 亚洲精品国产亚洲av| 亚洲精品~无码抽插| 国产在线精品一区二区不卡| 波多吉野一区二区三区av| 一区二区在线观看日本视频| 国产精品精品自在线拍| 久久人人97超碰超国产| 久久久精品国产亚洲麻色欲| 国产黄色三级一区二区三区四区 | 中国老熟妇自拍hd发布| 天天草夜夜草| 国产精品自拍网站在线| 国产午夜片无码区在线播放| 亚洲国产成人精品无码区99| 国产剧情无码中文字幕在线观看不卡视频 | 精品999日本久久久影院| 久久国产精品不只是精品 | 无码国产精品一区二区免费97 | 亚洲av熟女中文字幕| 夜夜揉揉日日人人青青| 亚洲专区欧美| av男人的天堂手机免费网站| 黑人巨大精品欧美| 国产一区二区三区在线观看免费 | 亚洲黄色电影| 97色人阁俺也去人人人人人| 白浆国产精品一区二区| 人妻中文无码久热丝袜| 久久国产国内精品对话对白| 久久婷婷综合色一区二区|