亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向分類型矩陣數(shù)據(jù)的無監(jiān)督孤立點檢測算法

        2019-01-23 06:36:24吳曉林曹付元
        關(guān)鍵詞:耦合度信息熵定義

        吳曉林,曹付元

        1)山西大學(xué)計算機與信息技術(shù)學(xué)院, 山西太原030006;2)山西大學(xué)計算智能與中文信息處理教育部重點實驗室, 山西太原 030006

        數(shù)據(jù)挖掘通常分為關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、類別判定、類別描述和孤立點檢測[1]4種類型.孤立點檢測作為數(shù)據(jù)挖掘的一個重要任務(wù),被廣泛用于信用卡防欺詐、 網(wǎng)絡(luò)監(jiān)測、 電子商務(wù)、 故障檢測、 惡劣天氣預(yù)報和衛(wèi)生系統(tǒng)監(jiān)測[2]等方面.HAWKINS[3]給出了孤立點的本質(zhì)性定義,認(rèn)為孤立點是在數(shù)據(jù)集中與眾不同的對象,可能這些數(shù)據(jù)并非隨機偏差,而是由完全不同的機制產(chǎn)生的. 孤立點檢測可以形式化地描述為:給定一個包含n個對象的數(shù)據(jù)集和期望的孤立點數(shù)目p, 根據(jù)算法找到明顯不同的、異常的前p個對象,這p個對象就是所要找的孤立點.

        現(xiàn)有的孤立點檢測算法主要有基于距離的方法[1, 4]、基于密度的方法[5]和基于偏離的方法[6]等.這些算法的輸入都是一個包含n個對象的數(shù)據(jù)集,且每個對象由一個矢量描述.但是,在許多實際應(yīng)用中,數(shù)據(jù)集中一個對象通常由多個矢量描述.表1列舉了某超市顧客的部分購物信息.

        表1 超市顧客的部分購物信息Table 1 Shopping information of some supermarket users

        表1由兩部分組成,顧客編號、性別和年齡是顧客的基本信息,日期、產(chǎn)品編號、產(chǎn)品名稱和價錢是顧客的購買信息.觀察表1,發(fā)現(xiàn)其中的數(shù)據(jù)具有以下特征:

        1)相關(guān)性.顧客基本信息和購買信息兩部分?jǐn)?shù)據(jù)可能存在一定的相關(guān)性,表現(xiàn)在不同性別或年齡的顧客可能有不同的購物偏好.例如,表1中25歲和26歲的女性顧客購買傾向相似,她們僅購買了食品,而32歲的男性顧客則購買了家用電器和日用品.

        2)一對多.表1中每個顧客均對應(yīng)不止1條記錄.例如,顧客19910506有5條購買記錄,而顧客19830712有6條購買記錄.

        3)混合性.描述一個對象的屬性既有分類型又有數(shù)值型.比如產(chǎn)品編號是分類型屬性,價錢是數(shù)值型屬性.

        4)演化性.某些屬性值會隨著時間的推移而改變.例如,顧客19830712在某天買了生活用品,但在另一天只買了食品,顧客購買動態(tài)的變化隱含了顧客行為的變化.

        從表1中所列的顧客購物日期、產(chǎn)品編號、產(chǎn)品名稱和價錢可見,每個顧客可能購買多個商品,并且每種商品可能同時被多個用戶購買.此外,商品也可以由一個顧客多次購買.通過交易記錄可以找到不同顧客的購買特征.如表1中前3名顧客都買了食品,但最后一位顧客沒有買食品,他購買了其他顧客沒有購買的3件商品,說明最后一位顧客與前3位用戶的購物傾向差異最大.因此,可認(rèn)為編號為19850216的顧客在表1中是一個孤立點.表1所示的數(shù)據(jù)集結(jié)構(gòu)被廣泛用于銀行、保險、電信和醫(yī)療等領(lǐng)域.

        若使用現(xiàn)有的孤立點檢測算法來處理矩陣數(shù)據(jù),最直接的方法是壓縮和轉(zhuǎn)換數(shù)據(jù),轉(zhuǎn)換成用一個矢量表示一個對象.對于數(shù)值型變量,通常用均值來表示,而對于分類型變量,則選擇用頻率高的屬性值來代表.但是,在數(shù)據(jù)壓縮和轉(zhuǎn)換的過程中通常會有大量信息被丟失,因此該方法不足以完全反映用戶的真實行為.為更好地找出矩陣數(shù)據(jù)中的孤立點,需要發(fā)展新的孤立點檢測算法.

        孤立點檢測是通過一種有效的方法挖掘給定數(shù)據(jù)集中與多數(shù)對象不同的少數(shù)對象,可將其視為基于對象之間定義的不相似性(相似性)度量的問題.在實際應(yīng)用中,矩陣數(shù)據(jù)集大部分以混合屬性來描述,對于數(shù)值型描述的矩陣數(shù)據(jù),可通過Hausdorff距離[7]或其他衍生距離公式來度量對象之間的相似性;而分類型矩陣數(shù)據(jù)之間由于缺乏固有的幾何特性,很難定義矩陣對象之間的相似性.因此,如何對分類型矩陣數(shù)據(jù)進行孤立點檢測是一個非常具有挑戰(zhàn)性的問題.

        針對分類型矩陣數(shù)據(jù),本研究通過定義一種矩陣對象本身的內(nèi)聚度和該對象與其他矩陣對象間的耦合度,給出了矩陣對象的孤立因子計算公式,提出一種面向分類型矩陣數(shù)據(jù)的孤立點檢測算法,并通過真實數(shù)據(jù)集上的實驗結(jié)果驗證了算法的有效性.

        1 孤立點檢測相關(guān)工作

        20世紀(jì)60年代后期,孤立點檢測首次被提出,并一直受到人們的關(guān)注.?dāng)?shù)據(jù)挖掘和機器學(xué)習(xí)的不斷發(fā)展,推動了孤立點檢測的研究,且進一步產(chǎn)生了許多新算法.根據(jù)數(shù)據(jù)標(biāo)簽的可用性,可將孤立點檢測方法分為監(jiān)督檢測、半監(jiān)督檢測和無監(jiān)督檢測3大類.原則上,監(jiān)督檢測和半監(jiān)督檢測都需要訓(xùn)練集,而無監(jiān)督檢測不需要任何訓(xùn)練集.監(jiān)督檢測包括正類和負(fù)類標(biāo)簽的實例,而半監(jiān)督檢測訓(xùn)練集中通常只包括正類標(biāo)簽的實例.現(xiàn)階段關(guān)于監(jiān)督的孤立點檢測研究相對較少,下面僅討論無監(jiān)督和半監(jiān)督檢測的相關(guān)工作.

        無監(jiān)督孤立點檢測方法不需要任何帶標(biāo)簽的數(shù)據(jù),且假設(shè)數(shù)據(jù)集中的大多數(shù)對象是正類.根據(jù)數(shù)據(jù)類型可分為數(shù)值型孤立點檢測和分類型孤立點檢測.針對數(shù)值型數(shù)據(jù),BREUNIG[5]提出了一種局部異常因子(local outlier factor, LOF)算法,主要通過比較對象p與其鄰域?qū)ο蟮拿芏缺戎祦砼袛嘣搶ο笫欠駷楣铝Ⅻc,該比值越接近1,表明p與其鄰域?qū)ο竺芏仍浇咏琾可能和鄰域同屬一簇;該比值越小,說明p的密度大于其鄰域點密度越多,p為密集點;該比值越大,說明p的密度小于其鄰域點密度越多,總之,兩者差值越大,p越可能是異常點.此外,LOF算法易受到計算第k個近鄰距離的影響.JIANG 等[8]基于DüNTSCH等給出的信息熵模型提出了一種無監(jiān)督孤立點檢測算法.在一個給定的信息系統(tǒng)中,首先計算相對基數(shù),通過對比此基數(shù),將所有對象分為兩類:屬于少數(shù)類的對象和屬于多數(shù)類的對象.然后,計算每個對象的相對熵,屬于少數(shù)群體且相對熵很高的對象更可能成為一個孤立點.針對分類型數(shù)據(jù),WU 等[9]提出了一種基于信息理論的分類型無監(jiān)督孤立點檢測算法,基于熵和全相關(guān)系數(shù)提出了全熵的概念,給出了一個孤立點的新定義,并建立了孤立點檢測的優(yōu)化模型.基于該模型,定義了對象的孤立因子的函數(shù)公式,提出ITB-SS和ITB-SP兩種孤立點檢測方法.PANG等[10]介紹了一種新的框架SelectVC,它通過迭代學(xué)習(xí)選擇值耦合將值選擇和孤立點得分組合去發(fā)現(xiàn)高維分類型數(shù)據(jù)中的孤立點,通過實例POP(partial outlierness propagation)驗證了SelectVC的性能.

        半監(jiān)督孤立點檢測方法在訓(xùn)練階段不需要負(fù)類標(biāo)簽的實例,只需要在訓(xùn)練數(shù)據(jù)集中構(gòu)建正類實例的模型,將測試數(shù)據(jù)集中與正類模型不同的實例識別為孤立點.針對數(shù)值型數(shù)據(jù),DANESHPAZHZHOUH等[11]提出了一種在給定少數(shù)正類實例標(biāo)簽信息情況下的半監(jiān)督孤立點檢測算法,該算法分為兩個階段:首先,從正類和未標(biāo)記的實例中提取一個負(fù)類候選集;然后,在候選集中采用基于信息熵的算法來檢測前N個孤立點.通過第1階段的計算,數(shù)據(jù)集的大小顯著減少,降低了算法的時間復(fù)雜度.TANG等[12]提出了一種基于局部核密度估計的局部孤立點檢測算法,通過考慮k個最近鄰、反向最近鄰和共享最近鄰來估計局部核密度,計算每個對象的相對密度來檢測孤立點.針對分類型數(shù)據(jù),NOTO等[13]提出了一個處理分類型數(shù)據(jù)的半監(jiān)督孤立點檢測算法,利用訓(xùn)練集中的正實例構(gòu)建一組特征模型,然后將與這些模型不匹配的實例識別為孤立點.LENCO等[14]介紹了一種處理分類型數(shù)據(jù)的半監(jiān)督孤立點檢測算法,給定一組訓(xùn)練實例(都屬于正常類),分析特征之間的關(guān)系,建立一個表示正常實例特征的模型,然后使用一組基于分類屬性距離的技術(shù)來區(qū)分正常類數(shù)據(jù)和異常類數(shù)據(jù).綜上可知,盡管現(xiàn)階段孤立點檢測算法有很多,但是處理的數(shù)據(jù)集中每個對象都是由1條記錄描述,對于矩陣數(shù)據(jù)集尚無有效處理算法,為此,本研究提出一種針對分類型矩陣數(shù)據(jù)的孤立點檢測算法.

        2 一種分類型矩陣數(shù)據(jù)無監(jiān)督孤立點檢測算法

        通常用孤立因子定義一個對象的孤立程度. 在軟件工程中,通常以耦合度和內(nèi)聚度為標(biāo)準(zhǔn)來衡量模塊的獨立程度.耦合度是軟件系統(tǒng)結(jié)構(gòu)中模塊之間緊密程度的度量.模塊之間的連接越緊密,耦合性越強,模塊的獨立性越差.內(nèi)聚度是衡量模塊功能強弱的指標(biāo),如果模塊中的元素緊密相關(guān),則模塊的內(nèi)聚度就高.本研究通過矩陣對象與其他對象之間的耦合程度,以及其自身的內(nèi)聚程度來確定一個對象的孤立因子.

        2.1 耦合度

        定義1給定一個矩陣數(shù)據(jù)集X, 對于任意Aj∈A, IND({Aj})是由Aj確定的不可區(qū)分關(guān)系,X/IND({Aj})={B1,B2,…,Bk}記為由IND({Aj})導(dǎo)出的一個劃分. IND({Aj})在X上的信息熵定義為

        (1)

        (2)

        其中,Xis在屬性Aj上的相對信息熵REAj(Xis),且

        (3)

        對于任意Aj∈A,Xis∈X, 當(dāng)刪除By時,若信息熵大幅降低,則可認(rèn)為By中的元素在X中出現(xiàn)的頻率很低;反之,若信息熵減幅很小或增加,則認(rèn)為By中的元素在X中出現(xiàn)的頻率很高.因此,相對信息熵REAj(Xis)能夠反映Xis的孤立程度.相對信息熵REAj(Xis)越高,則Xis越孤立.

        若X/IND({Aj})={By,X-By}, 則MEAj(Xis,By)=0, 相應(yīng)地, REAj(Xis)=1. 因此,對于任意的Xis∈X, 有0≤REAj(Xis)≤1.

        給定一個矩陣數(shù)據(jù)集X, 為找到X中的孤立點,首先可根據(jù)一個給定的標(biāo)準(zhǔn)將X中的所有對象分成兩類:屬于X中的少數(shù)群體的對象和屬于X中多數(shù)群體的對象.此標(biāo)準(zhǔn)可定義為:

        (4)

        若RC(Xis,By)>0, 則Xis屬于多數(shù)類;反之,若RC(Xis,By)≤0, 則Xis屬于少數(shù)類.

        ODAj(Xis)= REAj(Xis)×

        (5)

        少數(shù)類中對象與多數(shù)類中的對象相比,少數(shù)類中對象更可能為孤立點.如果RC(Xis,By)≤0, 則Xis屬于少數(shù)類;相應(yīng)地,相對信息熵REAj(Xis)越大,孤立度也越大,因此,Xis可能越孤立.

        基于給定Xis∈X在屬性Aj上的孤立度,下面給出矩陣對象耦合度的定義.

        定義5給定一個矩陣數(shù)據(jù)集X, 對于任意一個對象Xi, 耦合度定義為

        Cou(Xi)=

        (6)

        2.2 內(nèi)聚度

        考慮對象的耦合度后,可進一步定義矩陣對象的內(nèi)聚度.

        (7)

        由于0≤MEAj(Xi)≤lbri, 所以歸一化為HEAj(Xi)=MEAj(Xi)/lbri.

        可見,一個矩陣對象內(nèi)聚度可定義為

        (8)

        2.3 孤立因子

        在定義了一個矩陣對象的耦合度和內(nèi)聚度的基礎(chǔ)上,該矩陣對象的孤立因子可定義為:

        定義7給定一個矩陣對象Xi, 其孤立因子為

        OF(Xi)= (1-Cou(Xi))×

        (1+Coh(Xi))

        (9)

        在矩陣數(shù)據(jù)中檢測孤立點,既要考慮矩陣對象的耦合度,也要考慮內(nèi)聚度,但對象的耦合度占主要因素,因此,要減少內(nèi)聚度所占的權(quán)重,將內(nèi)聚度加1.矩陣對象的孤立因子越大,孤立度越大.

        2.4 例子

        給定一個矩陣數(shù)據(jù)集X={X1,X2,X3,X4,X5},A={A1,A2}, 見表2.

        表2 一個矩陣數(shù)據(jù)集Table 2 A matrix-object data set

        矩陣對象X1的孤立因子計算過程如下:

        1)根據(jù)定義2,每個屬性上的信息熵分別為

        ME({A1})=1.927 5

        ME({A2})=1.828 9

        2)根據(jù)定義3,對象X1中,每個X1s所在的等價類刪除時的信息熵為

        MEA1(X11)=1.685 5

        MEA2(X11)=MEA2(X13)=1.657 7

        MEA1(X12)=MEA1(X13)=1.488 5

        MEA2(X12)=1.352 0

        由此可得相對熵

        REA1(X11)=0.125 5

        REA2(X11)=REA2(X13)=0.093 6

        REA1(X12)=REA1(X13)=0.227 7

        REA2(X12 )=0.260 7

        3)根據(jù)定義4,相對標(biāo)準(zhǔn)為

        RC([X11]A1)= 5.500 0

        RC([X11]A2)=RC([X13]A2)=6.750 0

        RC([X12]A1)=RC([X13]A1)=1.750 0

        RC([X12]A2)=1.750 0

        4)根據(jù)定義5,可得

        ODA1(X11)=0.043 6

        ODA2(X11)=ODA2(X13)=0.029 2

        ODA1(X12)=ODA1(X13 )=0.102 8

        ODA2(X12 )=0.117 7

        5)根據(jù)定義6,可得對象X1的耦合度為

        Cou(Xi)=0.570 2

        6)根據(jù)定義7,可得對象X1的內(nèi)聚度為

        Coh(Xi)=0.579 2

        7)根據(jù)定義8可得對象X1的孤立因子為

        OF(X1 )=0.678 8

        同理可得,OF(X2 )=0.820 3、OF(X3 )= 0.820 3、OF(X4 )= 0.728 1和OF(X5 )=1.265 9. 可見,X5的孤立因子最大,即孤立度最大.

        3.5 算法實現(xiàn)

        圖1給出了分類型矩陣數(shù)據(jù)孤立點檢測算法(outlier detection algorithm for matrix-object data, ODAMD)的偽代碼.

        圖1 ODAMD算法偽代碼Fig.1 The pseudocode of ODAMD algorithm

        3 實 驗

        為驗證本算法的有效性,在3個真實數(shù)據(jù)集上進行了實驗,分別是從Data website(http://www.datatang.com)下載的Market basket data; 從UCI網(wǎng)站(http://archive.ics.uci.edu/ml)下載的Microsoft web data; 從MovieLens 網(wǎng)站(http://grouplens.org/datasets/movielens/)上下載的MovieLens data.首先,對數(shù)據(jù)集進行預(yù)處理并給出評價指標(biāo);然后,將提出的方法與3種孤立點檢測算法進行比較.

        3.1 數(shù)據(jù)預(yù)處理

        在大多數(shù)情況下,真實數(shù)據(jù)集的分布是無序的.實驗中3個真實數(shù)據(jù)集中的孤立點也沒有明確標(biāo)注信息.為解決此問題,首先要對給定的數(shù)據(jù)集進行預(yù)處理.通過可視化技術(shù),可以刪除一些點,以獲得相對清晰的數(shù)據(jù)分布,也可以清楚地看到一些對象是孤立的,因此,能夠得到一個帶有標(biāo)記信息的數(shù)據(jù)集.最后,在新的數(shù)據(jù)集上運行本算法并評估算法的性能.為獲得給定分類型數(shù)據(jù)集的分布,使用多維尺度變換(multi-dimensional scaling, MDS)技術(shù)[15]來可視化數(shù)據(jù)集,該技術(shù)的主要方法是將距離公式獲得的n階距離方陣傳遞給Matlab的mdscale函數(shù),獲得n個點的坐標(biāo),然后可視化這n點來反映數(shù)據(jù)的分布.以下是3個真實數(shù)據(jù)集的預(yù)處理過程.

        3.1.1 Market basket data

        從Data website下載的Market basket data記錄了1 001個用戶交易信息,每個用戶有4個屬性(用戶ID、時間、產(chǎn)品名稱和產(chǎn)品ID).本研究只考慮用戶ID和產(chǎn)品ID,而不考慮時間和產(chǎn)品名稱,因為所有用戶在屬性時間上都具有相同的值,而產(chǎn)品名稱的值與產(chǎn)品ID是一一對應(yīng)的. 此外,Market basket data的突出特點是每個用戶都有7條交易記錄. 因此, 每個用戶是一個典型的分類型矩陣對象.

        圖2 預(yù)處理后的Market basket數(shù)據(jù)集分布Fig.2 Distribution of preprocessed Market basket data

        Market basket data的預(yù)處理過程為:首先,通過MDS技術(shù)對數(shù)據(jù)集進行可視化;然后,在坐標(biāo)系中選擇位于x<-0.2,y<0.2或x>0.5內(nèi)的對象,形成一個包含319個矩陣對象的新數(shù)據(jù)集.新數(shù)據(jù)集的分布如圖2.其中,“+”和“+×”表示新生成的數(shù)據(jù)集,“+”表示的對象可認(rèn)為孤立點.從圖2可見,經(jīng)過統(tǒng)計分析可得,“+”表示的對象屬性值出現(xiàn)頻率很低.

        3.1.2 Microsoft web data

        從UCI下載的Microsoft web data是通過對網(wǎng)站www.microsoft.com上的日志進行采樣和處理而創(chuàng)建的.它記錄了32 711名匿名用戶在1998年2月訪問該網(wǎng)站時的信息,每個人可多次訪問網(wǎng)站.每個用戶都有2個屬性,包括用戶ID和統(tǒng)一資源定位符(uniform resource locator, URL). 因此, 每個用戶都是一個分類型矩陣對象.

        預(yù)處理過程為:在初始數(shù)據(jù)可視化后,選擇橫坐標(biāo)值位于x<0或x>0.68的點,形成589個對象的新矩陣數(shù)據(jù)集,然后可視化新矩陣數(shù)據(jù)集,結(jié)果如圖3.

        圖3 預(yù)處理后的Microsoft web數(shù)據(jù)集分布Fig.3 Distribution of preprocessed Microsoft web data

        從圖3可見,數(shù)據(jù)集由兩部分組成,其中由符號“+”表示的對象可被視為新數(shù)據(jù)集中的孤立點.

        3.1.3 MovieLens data

        實驗使用了MovieLens數(shù)據(jù)集,它包含6 040個用戶對3 900部電影的1 000 209條評分,由4個屬性表示,分別為UserID(用戶編號)、MovieID(電影編號)、Rating(評分)和Timestamp(時間).因為屬性Timestamp在每個記錄具有不同的值,因此不考慮該屬性.

        預(yù)處理過程為:在初始數(shù)據(jù)集可視化后,選擇坐標(biāo)系中-0.10.6范圍內(nèi)的對象作為新的數(shù)據(jù)集.新數(shù)據(jù)的可視化結(jié)果如圖4.

        圖4 預(yù)處理后的MovieLens數(shù)據(jù)集分布Fig.4 Distribution of preprocessed MovieLens data

        從圖4可見,數(shù)據(jù)集是由一個大類和一些散點組成的,這些由符號“+”描繪的散點可看作是孤立點.

        3.1.4 數(shù)據(jù)預(yù)處理結(jié)果

        預(yù)處理后的數(shù)據(jù)集如表3.其中,p為孤立點的數(shù)目.

        表3 預(yù)處理后的數(shù)據(jù)集Table 3 Preprocessed data set

        3.2 評價指標(biāo)

        為驗證孤立點檢測算法的性能,使用精確度(Precision)、召回率(Recall)、F-度量(F-measure)[16]進行評價.這3個評價指標(biāo)的計算公式分別為

        (10)

        (11)

        (12)

        其中,TruePositive為檢索到準(zhǔn)確的孤立點數(shù)目;FalsePositive為檢索到不是孤立點的數(shù)目;FalseNegative為未檢索到的孤立點數(shù)目.

        精確度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率;召回率是檢索出的相關(guān)文檔數(shù)與文檔庫中所有相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率;F-度量是這兩個指標(biāo)的綜合評價指標(biāo),用來反映總體指標(biāo).Precision和Recall的值在[0, 1]內(nèi),且越接近1,實驗結(jié)果越好.

        3.3 實驗結(jié)果

        為驗證本研究提出的孤立點檢測算法的有效性,將ODAMD算法與基于共同近鄰(common-neighbor-besed, CNB)算法[17]、LOF和基于信息熵(information entropy-beased, IE-based)算法[8]進行比較.由于現(xiàn)階段沒有方法可以處理分類型矩陣數(shù)據(jù)集,所以先將矩陣數(shù)據(jù)集進行了壓縮,每個矩陣對象用頻率最高的屬性值來表示,新生成的數(shù)據(jù)集中,一個對象只有一條記錄,然后在新生成的數(shù)據(jù)集中進行實驗.

        真實數(shù)據(jù)集上的實驗結(jié)果如表4至表6.從表4至表6可見,提出的孤立點檢測算法效率很高,但其他方法并不理想. 因為數(shù)據(jù)集進行壓縮時,會導(dǎo)致許多信息的丟失.

        表4 不同算法在真實數(shù)據(jù)集中的精確度Table 4 Precision of different algorithms in real data sets

        表5 不同算法在真實數(shù)據(jù)集中的召回率Table 5 Recall of different algorithms in real data sets

        表6 不同算法在真實數(shù)據(jù)集中的F-度量Table 6 F-measure of different algorithms in real data sets

        為進一步驗證提出的算法的擴展性,在真實數(shù)據(jù)集上設(shè)置不同的孤立點數(shù)目,檢測新算法與比較算法的精確度,實驗結(jié)果如圖5至圖7.

        圖5 不同算法在Market basket數(shù)據(jù)集上不同孤立點數(shù)目的精確度Fig.5 (Color online) Precision of different algorithms for different number of outliers in Market basket data

        圖6 不同算法在Microsoft web數(shù)據(jù)集上不同孤立點數(shù)目下的精確度Fig.6 (Color online) Precision of different algorithms for different number of outliers in Microsoft web

        圖7 不同算法在MovieLens數(shù)據(jù)集上不同孤立點數(shù)目下的精確度Fig.7 (Color online) Precision of different algorithms for different number of outliers in MovieLens data

        從圖5至圖7可見,隨著孤立點數(shù)目的增加,提出算法的準(zhǔn)確率比較高且比較穩(wěn)定,而3個比較算法精確度偏低,且不穩(wěn)定.比如CNB算法在數(shù)據(jù)集中存在4個孤立點時,精確度為1,但在其他孤立點數(shù)目的情況下,精確度比較低.

        結(jié) 語

        針對在實際應(yīng)用中廣泛存在的分類型矩陣數(shù)據(jù),提出一種新的孤立點檢測算法ODAMD.首先,定義了一個矩陣對象與其他對象間的耦合度;然后,基于信息熵定義了一個矩陣對象自身的內(nèi)聚度,在此基礎(chǔ)上給出了分類型矩陣對象的孤立因子計算方法.在真實數(shù)據(jù)集上的實驗結(jié)果證明,本研究提出的孤立點檢測算法行之有效.

        猜你喜歡
        耦合度信息熵定義
        中國北方蒸散-降水耦合度時空變化與水熱因子的關(guān)系
        干旱氣象(2022年5期)2022-11-16 04:40:24
        基于信息熵可信度的測試點選擇方法研究
        雙速感應(yīng)電機繞組耦合度研究
        防爆電機(2022年1期)2022-02-16 01:13:58
        遼寧省經(jīng)濟與生態(tài)環(huán)境耦合協(xié)調(diào)性分析
        基于信息熵的實驗教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        一種基于信息熵的雷達動態(tài)自適應(yīng)選擇跟蹤方法
        基于耦合度分析的家禽孵化過程模糊解耦控制系統(tǒng)
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        基于信息熵的IITFN多屬性決策方法
        修辭學(xué)的重大定義
        亚洲中文字幕在线精品2021| 久久久老熟女一区二区三区| 精品成人av人一区二区三区 | 中国凸偷窥xxxx自由视频| 色哟哟网站在线观看| 丰满少妇被猛男猛烈进入久久| 欧美日韩精品一区二区在线观看 | 成在线人免费无码高潮喷水| 国产视频精品一区白白色| 国产福利一区二区三区视频在线看| 国产91精品丝袜美腿在线| 国产精品国产三级国产专区50| 国产午夜免费啪视频观看| 成人一区二区三区国产| 99人中文字幕亚洲区三| 亚洲成av人片在www鸭子| 久久午夜福利无码1000合集| 18精品久久久无码午夜福利| 狠狠综合久久av一区二区| 无套内谢孕妇毛片免费看看| 亚洲 成人 无码 在线观看| 91亚洲人成手机在线观看| avtt一区| 毛片av在线尤物一区二区| 久久本道久久综合一人| 免费看黄色亚洲一区久久| 日韩精品人成在线播放| 永久免费人禽av在线观看 | 成人无码网www在线观看| 最新福利姬在线视频国产观看| 91快射视频在线观看| 欧美性猛交99久久久久99按摩| 肉色丝袜足j视频国产| 人妻少妇久久中文字幕一区二区| 一本久久a久久精品亚洲| 音影先锋色天堂av电影妓女久久| 一区二区高清视频在线观看| 内射爆草少妇精品视频| 男女性爽大片视频| 国产精品狼人久久久久影院| 丰满的少妇xxxxx青青青|