夏火松,魏 翔
在Web客戶信息處理過程中,面對(duì)龐大的數(shù)據(jù)庫,人們所需的信息只是其中的小部分,而且往往是其中較為特殊的一部分信息,它們隱藏在海量數(shù)據(jù)當(dāng)中。如何能夠快速而有效地找到它們并且能夠獲知其特殊的原因,就成為當(dāng)務(wù)之急。目前,成熟的信息管理技術(shù)能夠?yàn)橛脩籼峁?shù)據(jù)獲取、存儲(chǔ)、管理、搜索等豐富的功能,而以分類、聚類、關(guān)聯(lián)分析為主的數(shù)據(jù)挖掘技術(shù)也不斷發(fā)展和完善,但離群數(shù)據(jù)的挖掘技術(shù)及其應(yīng)用卻仍然十分有限,其原因在于現(xiàn)有的離群數(shù)據(jù)挖掘算法的效率依然不高,穩(wěn)定性也不強(qiáng),其所得到的離群信息也很有限。針對(duì)客戶信息管理過程中的這些情況,本文將在傳統(tǒng)的離群數(shù)據(jù)挖掘算法的基礎(chǔ)上,以保持挖掘結(jié)果穩(wěn)定性為前提,以提高挖掘效率為目標(biāo),嘗試探索出新的途徑。為了在檢測(cè)離群數(shù)據(jù)的同時(shí)也能夠獲得其為什么離群的相關(guān)信息,本文將把特征屬性挖掘的過程融入其中。
離群數(shù)據(jù)分析方法主要有以下幾種:一是基于統(tǒng)計(jì)的方法[1],已知或假定給定數(shù)據(jù)集符合某種概率分布模型,然后通過對(duì)該模型進(jìn)行不一致性檢驗(yàn)來確定離群數(shù)據(jù),這一檢驗(yàn)過程需要知道數(shù)據(jù)的分布模型及其參數(shù)以及預(yù)期的離群數(shù)據(jù)數(shù)目;二是基于距離的方法,定義和計(jì)算數(shù)據(jù)對(duì)象與數(shù)據(jù)集中其它對(duì)象的距離并以此來查找該數(shù)據(jù)對(duì)象的鄰居數(shù)量,離群數(shù)據(jù)即為那些鄰居數(shù)量不足的數(shù)據(jù)對(duì)象,該方法不依賴于統(tǒng)計(jì)模型及檢驗(yàn);三是基于密度的方法[2~4],從數(shù)據(jù)對(duì)象間的距離的概念出發(fā),結(jié)合數(shù)據(jù)對(duì)象的鄰居數(shù)量或與鄰居的平均距離得到了“密度”的概念,該方法能夠檢測(cè)到一類特殊的離群數(shù)據(jù)——局部離群數(shù)據(jù),最有代表性的算法即是Breunig等提出的LOF算法[5];四是基于深度的方法,先把每個(gè)數(shù)據(jù)對(duì)象映射為維數(shù)據(jù)空間中的點(diǎn)并賦予深度值,再依據(jù)深度值按層重組數(shù)據(jù)集,然后在深度較小的層中搜索離群數(shù)據(jù),該方法僅在維度低于4的數(shù)據(jù)集上應(yīng)用效果較好,有代表性的算法是DEEPLOC算法[6];五是基于偏離的方法[7~8],通過對(duì)數(shù)據(jù)集的主要特征進(jìn)行檢測(cè)來發(fā)現(xiàn)離群數(shù)據(jù),目前該方法及其算法大多數(shù)還停留在理論研究上,實(shí)際應(yīng)用較少。本文所做的研究是基于距離的方法展開的。
基于距離的離群數(shù)據(jù)挖掘方法最初是由Knorr和Ng提出的[9],給定數(shù)據(jù)集T,如果T中存在超過p部分的數(shù)據(jù)與某一個(gè)數(shù)據(jù)對(duì)象O之間的距離大于D值,則稱數(shù)據(jù)對(duì)象O為基于距離的離群數(shù)據(jù),記為DB(p,D)-outlier,其中p和D是參數(shù)。這一方法的提出,不僅為離群數(shù)據(jù)挖掘提供了一種新的算法,而且為研究者們打開了思路,為后續(xù)離群數(shù)據(jù)挖掘算法的提出做了鋪墊?;诰嚯x的離群數(shù)據(jù)挖掘算法的優(yōu)點(diǎn)在于,能夠直觀地反映離群數(shù)據(jù)與數(shù)據(jù)集中其它數(shù)據(jù)之間的關(guān)系,且易于理解和計(jì)算,在實(shí)際應(yīng)用中也收到了良好的效果。這種方法實(shí)際上已經(jīng)包含并擴(kuò)展了早期的基于統(tǒng)計(jì)的算法思想,同時(shí)相對(duì)不一致性檢驗(yàn)所需的計(jì)算量來看,該方法的計(jì)算量已顯著降低,故其在應(yīng)用中能夠達(dá)到和超越基于統(tǒng)計(jì)的算法的效果。另外,它對(duì)數(shù)據(jù)集中數(shù)據(jù)的維數(shù)沒有限制,可以完成對(duì)高維數(shù)據(jù)的處理和挖掘工作。
但這種方法也存在很大的缺陷,需要用戶給出參數(shù)p和D的值才能進(jìn)行離群數(shù)據(jù)挖掘,然而這兩個(gè)參數(shù)卻很難給的恰到好處,同時(shí)其值的微小變化都有可能對(duì)最終的結(jié)果造成較大影響,這就需要用戶憑經(jīng)驗(yàn)做出判斷并對(duì)進(jìn)行p和D的取值反復(fù)嘗試以求得到較好的結(jié)果。這不僅給用戶使用帶來諸多不便,而且這一不確定性嚴(yán)重影響了結(jié)果的穩(wěn)定性和算法應(yīng)用的廣度和深度。此外,該方法不能有效地反映離群程度,雖然相對(duì)基于統(tǒng)計(jì)的方法計(jì)算量顯著下降但其復(fù)雜度仍然較高,為O(d?N2),其中d為數(shù)據(jù)集中數(shù)據(jù)對(duì)象的維度,N為數(shù)據(jù)對(duì)象的數(shù)量。針對(duì)這些主要缺陷,很多學(xué)者對(duì)算法進(jìn)行了不同程度的改進(jìn),如基于索引的算法[10]引進(jìn)了索引的思想來改進(jìn)算法,但建立索引需要一定時(shí)間;循環(huán)嵌套算法主要通過減少I/O的次數(shù)來改善算法的效率;基于單元的算法[11]通過將數(shù)據(jù)集劃分為單元,利用單元及其鄰居的性質(zhì)來發(fā)現(xiàn)異常數(shù)據(jù),從而提高了檢測(cè)的效率。
在離群數(shù)據(jù)挖掘算法的應(yīng)用過程中,用戶查找到離群數(shù)據(jù)后,自然會(huì)關(guān)心是哪些屬性導(dǎo)致離群數(shù)據(jù)與其它數(shù)據(jù)不同的,即它為什么離群,于是有學(xué)者提出了離群數(shù)據(jù)知識(shí)集[12]的概念。一個(gè)高維空間上的離群數(shù)據(jù)的離群特征往往在該空間的子空間上就會(huì)表現(xiàn)出來了。這就需要尋找到能夠解釋離群數(shù)據(jù)為什么離群的屬性集合。離群數(shù)據(jù)知識(shí)集就是描述離群數(shù)據(jù)離群的最小屬性集合,它通過數(shù)據(jù)的屬性來反映離群數(shù)據(jù)的異常行為特征,這些屬性能夠解釋離群數(shù)據(jù)發(fā)生異常的原因,可以對(duì)離群數(shù)據(jù)的合理性和有效性進(jìn)行評(píng)價(jià),它們就是離群特征屬性。在檢測(cè)出離群數(shù)據(jù)并發(fā)現(xiàn)其相應(yīng)的離群特征屬性后,離群數(shù)據(jù)與導(dǎo)致其離群的屬性間的對(duì)應(yīng)關(guān)系就一目了然了,用戶可以直觀地了解離群數(shù)據(jù)之所以離群的緣由。
定義1包含有n個(gè)數(shù)據(jù)對(duì)象Ai(i=1,2,…,n),且每個(gè)數(shù)據(jù)對(duì)象Ai有d維屬性aik(i=1,2,…,n;k=1,2,…,d)的數(shù)據(jù)集記為Dataset(n,d)。
定義2由d維屬性Vk(k=1,2,…,d)構(gòu)成的屬性空間為其子空間SubSpace(Dim)=∏k∈DimVk,其中Dim?{1,2,…,d},并用|Dim|表示集合Dim所包含的元素?cái)?shù)量,即為子空間SubSpace(Dim)的維數(shù)。
根據(jù)定義1和定義2,對(duì)數(shù)據(jù)集Dataset(n,d)中各個(gè)數(shù)據(jù)對(duì)象Ai(i=1,2,…,n)的每一維屬性分量aik(i=1,2,…,n;k=1,2,…,d)有aik∈Vk(i=1,2,…,n;k=1,2,…,d),進(jìn)而Ai∈Space(d),故數(shù)據(jù)集可以表示為Dataset(n,d)={Ai|Ai∈ Space(d),i=1,2,…,n}。
距離的定義有很多種,這里引入兩種應(yīng)用最為廣泛的距離定義,歐氏距離(即歐幾里得距離)和絕對(duì)距離(即曼哈頓距離),它們的定義如下:
定義3在多維屬性空間SubSpace(Dim)中,數(shù)據(jù)對(duì)象Ai={aik|k∈Dim}與Aj={ajk|k∈Dim}的歐氏距離和絕對(duì)距離分別為:
其中{wk}為權(quán)重系數(shù)集。
定義4在多維屬性空間SubSpace(Dim)中,某數(shù)據(jù)對(duì)象Ai與最近的m個(gè)最近鄰居Aj1,Aj2,…,Ajm之間的距離的平均值,稱為平均近鄰距離,記為dist_MND,即
這里dist.表示一種距離,即用歐氏距離或絕對(duì)距離進(jìn)行計(jì)算(下文同)。
例如,一個(gè)二維空間中的六個(gè)數(shù)據(jù)對(duì)象如圖1所示,圖中用虛線標(biāo)示出了數(shù)據(jù)對(duì)象A2和A6分別與各自最近的三個(gè)鄰居的連接,以及相應(yīng)的平均近鄰距離的圓弧大小。很明顯,在這六個(gè)數(shù)據(jù)對(duì)象中,A6屬于離群對(duì)象,其平均近鄰距離較大,而其它非離群對(duì)象的平均近鄰距離則相對(duì)較小。為了能對(duì)其進(jìn)行數(shù)值上的比較,需進(jìn)一步作一些定義。
圖1
定義5在多維屬性空間SubSpace(Dim)中,記dist_Max為最大可達(dá)距離,即
定義6(離群因子)數(shù)據(jù)對(duì)象Ai的離群因子(Outlier Factor)為:
該離群因子通過計(jì)算基于已選定屬性空間的每一個(gè)數(shù)據(jù)對(duì)象的平均近鄰距離與該屬性空間中的最大可達(dá)距離的比值,來衡量各個(gè)數(shù)據(jù)對(duì)象的離群程度,既能通過數(shù)據(jù)對(duì)象與最近鄰居的距離來反映其偏離的程度,又可以通過將其與最大可達(dá)距離求比值來統(tǒng)一數(shù)量等級(jí),以便于對(duì)數(shù)據(jù)對(duì)象在基于不同屬性空間下的離群因子進(jìn)行考察和比較。為了進(jìn)一步研究離群數(shù)據(jù)對(duì)象的離群原因,即其特征屬性,下面對(duì)離群屬性空間作定義。
定義7(離群屬性空間)若數(shù)據(jù)對(duì)象Ai在屬性空間SubSpace(Dim)及其任意子空間中是離群數(shù)據(jù)對(duì)象,則稱該屬性空間為Ai的離群屬性空間,則|Dim|即為該離群屬性空間的維數(shù)。
定義8(離群特征屬性)數(shù)據(jù)對(duì)象Ai的離群屬性空間中的各維屬性即構(gòu)成該數(shù)據(jù)對(duì)象的離群特征屬性的集合,記為OFA(Ai)。
由上述對(duì)圖1的分析,在這二維空間中的六個(gè)數(shù)據(jù)對(duì)象中A6是離群數(shù)據(jù)對(duì)象。若分別將它們對(duì)兩個(gè)維度Vk1和Vk2作投影,如下圖所示,圖2(a)中,A1的投影點(diǎn)明顯偏離其它五個(gè)數(shù)據(jù)對(duì)象的投影點(diǎn),說明A2在維度Vk1為離群數(shù)據(jù)對(duì)象,即該維度為離群數(shù)據(jù)對(duì)象A2的一維離群屬性空間。圖2(b)中,此六個(gè)數(shù)據(jù)對(duì)象在維度Vk2上的投影點(diǎn)均沒有明顯偏離,因而該維度不屬于離群數(shù)據(jù)對(duì)象A2的離群屬性空間。因此,OFA(Ai)=Vk1,Vk1即為A2的離群特征屬性。
圖2
離群數(shù)據(jù)對(duì)象的離群特征屬性是反映其離群的主要原因,本文擬從數(shù)據(jù)對(duì)象的每一維屬性出發(fā),設(shè)計(jì)離群數(shù)據(jù)挖掘方法,以期在挖掘離群數(shù)據(jù)的同時(shí)發(fā)現(xiàn)離群數(shù)據(jù)對(duì)象的多維離群特征屬性。
步驟1:對(duì)數(shù)據(jù)集中所有數(shù)據(jù)對(duì)象就其在每一維屬性Vk(k=1,2,…,d)上的屬性值{aik}(i=1,2,…,n),?k=1,2,…,d,分別進(jìn)行排序操作得到{as1k,as2k,…,asnk},?k=1,2,…,d,使 得 as1k<as2k<…<asnk,其 中{s1,s2,…,sn}是{1,2,…,n}的一個(gè)排列,相當(dāng)于是排序后的屬性值對(duì)應(yīng)原始數(shù)據(jù)集中屬性值的位置指針。
步驟2:對(duì)每一維屬性Vk(k=1,2,…,d)上的所有數(shù)據(jù)對(duì)象計(jì)算dist_MND(Ai,k,m)值,?k=1,2,…,d,采用的是絕對(duì)距離進(jìn)行計(jì)算。由于步驟1中已經(jīng)對(duì)屬性Vk上的屬性值進(jìn)行了排序,因此該值可以通過對(duì){as1k,as2k,…,asnk}中連續(xù)的m+1個(gè)值計(jì)算絕對(duì)距離及相應(yīng)均值即可,并對(duì)首尾兩處的計(jì)算稍作調(diào)整,具體如下:
步驟3:計(jì)算各維屬性Vk(k=1,2,…,d)中的最大可達(dá)距離dist_Max(k),?k=1,2,…,d,由于步驟1中已對(duì)屬性值排序,并擬采用絕對(duì)距離進(jìn)行計(jì)算,則
步驟4:計(jì)算每個(gè)數(shù)據(jù)對(duì)象Ai(i=1,2,…,n)的一維離群因子OF(Ai,k,m),并將其就所選維度集合Dim求和值作為綜合離群因子,即
步驟5:將OF(Ai,Dim,m)值進(jìn)行逆序排序,取其前p?100%項(xiàng)對(duì)應(yīng)的Ai及其中間過程結(jié)果作為最終的離群數(shù)據(jù)挖掘結(jié)果輸出。這些輸出結(jié)果包括:綜合離群因子OF(Ai,Dim,m),作為離群數(shù)據(jù)離群程度衡量指標(biāo),一般取前0.1%-5%作為離群數(shù)據(jù),也可由用戶自行選擇;一維屬性離群因子OF(Ai,k,m),作為離群特征屬性判別依據(jù),一般以該離群數(shù)據(jù)的最大的[|Dim|?20%]+1個(gè)一維屬性離群因子所對(duì)應(yīng)的屬性作為離群特征屬性。此外,將各數(shù)據(jù)對(duì)象按各一維屬性離群因子進(jìn)行排序,可為進(jìn)一步分析離群原因提供參考依據(jù)。
2.3.1 復(fù)雜度比較分析
采用上述方法進(jìn)行挖掘的主要耗時(shí)部分在于步驟1,即對(duì)各個(gè)數(shù)據(jù)對(duì)象在每一維屬性維度上進(jìn)行排序。目前,排序算法已經(jīng)非常成熟,我們采用的是穩(wěn)定的歸并排序[13]的方法,其時(shí)間復(fù)雜度為O(n?log2n),空間復(fù)雜度為O(n)。因而步驟1的時(shí)間復(fù)雜度為O(d?n?log2n),空間復(fù)雜度為O(d?n),而步驟2、步驟3和步驟4的時(shí)間復(fù)雜度為O(n),故該挖掘方法的時(shí)間復(fù)雜度為O(d?n?log2n),空間復(fù)雜度為O(d?n)。這與傳統(tǒng)的離群數(shù)據(jù)分析方法的時(shí)間復(fù)雜度O(d?n2)相比,降低了一個(gè)數(shù)量等級(jí),而空間復(fù)雜度并沒有增加。
從實(shí)際運(yùn)用角度來看,首先,該方法可以大大縮減數(shù)據(jù)預(yù)處理的過程,而傳統(tǒng)方法往往要經(jīng)過大量的數(shù)據(jù)處理才能進(jìn)行進(jìn)一步操作。其次,該方法充分利用了排序原理,運(yùn)用成熟的排序算法可以顯著調(diào)高整體的處理速度。再次,該方法將離群數(shù)據(jù)分析與其相應(yīng)特征屬性挖掘過程兼并完成,而無需進(jìn)行二次挖掘。這也是較為突出的一點(diǎn)。
3.3.2 I/O情況分析
從輸入方面看,該方法自始至終需要用戶確定的參數(shù)有三個(gè),此三個(gè)參數(shù)非常容易確定,且可以直接應(yīng)用默認(rèn)值,而不會(huì)對(duì)挖掘結(jié)果造成顯著影響。這三個(gè)參數(shù)分別是m,Dim,p。其中,根據(jù)方法的內(nèi)在性質(zhì)及相關(guān)試驗(yàn)表明,對(duì)較為緊密的數(shù)據(jù)集處理時(shí)m設(shè)定為1或2即可,當(dāng)檢測(cè)結(jié)果不理想或數(shù)據(jù)集較為稀疏時(shí)可以設(shè)定2≤m≤5,一般不超過6。參數(shù)Dim實(shí)際上是讓用戶選定對(duì)哪幾維度進(jìn)行離群數(shù)據(jù)和相應(yīng)特征屬性檢測(cè),一般選擇所有維度或根據(jù)需要選擇即可。對(duì)參數(shù)p則可有可無,因?yàn)檩敵鼋Y(jié)果本身就是將數(shù)據(jù)對(duì)象按OF值的逆序排列結(jié)果,參數(shù)p則只是用來控制顯示的數(shù)量。因此,該方法對(duì)用戶設(shè)定參數(shù)的要求比較低。
從輸出方面看,該方法能夠給出傳統(tǒng)的基于距離的離群數(shù)據(jù)挖掘方法所不能給出的離群因子指標(biāo),同時(shí)還能給出其相應(yīng)的離群屬性空間中的各特征屬性的離群因子,使用戶可以較清晰地了解各個(gè)數(shù)據(jù)對(duì)象的離群程度,以及它們?yōu)楹坞x群、是由于哪幾個(gè)特征屬性造成的離群,故該方法的輸出結(jié)果較為直觀、易于理解。
3.3.3 應(yīng)用分析
針對(duì)Web客戶信息的數(shù)據(jù)量大、維數(shù)高的特點(diǎn),我們?cè)O(shè)計(jì)的該挖掘分析方法的重點(diǎn)在于,能夠在保持一定的算法穩(wěn)定性的前提下提高算法的運(yùn)行速度和執(zhí)行效率,省去不必要的步驟,以適應(yīng)處理大量的、高維的數(shù)據(jù)的要求。同時(shí)盡可能地簡(jiǎn)化操作,方便用戶使用。
在對(duì)特征屬性的挖掘方面,目前的研究思路主要是通過先對(duì)離群數(shù)據(jù)進(jìn)行分析,再對(duì)離群對(duì)象的特征屬性進(jìn)行挖掘的兩步方法,因而應(yīng)用過程中需要對(duì)數(shù)據(jù)集進(jìn)行反復(fù)搜索,這并不能適應(yīng)處理大量的、高維的數(shù)據(jù)的要求。而本文所述方法的優(yōu)點(diǎn)即在于能夠?qū)㈦x群數(shù)據(jù)分析及其特征屬性挖掘作為一個(gè)整體進(jìn)行處理,從而大大提高離群特征屬性的發(fā)現(xiàn)效率,避免對(duì)數(shù)據(jù)集進(jìn)行大規(guī)模的重復(fù)遍歷,這是我們對(duì)離群特征屬性挖掘研究做的新的探索。
另外,若在允許等量的消耗存儲(chǔ)空間的條件下,將原始數(shù)據(jù)進(jìn)行了轉(zhuǎn)化并存儲(chǔ),這將有利于簡(jiǎn)化對(duì)新增數(shù)據(jù)對(duì)象的分析處理工作,因而有較高的可擴(kuò)展性能。
表1 離群數(shù)據(jù)及其知識(shí)集挖掘結(jié)果(m=1,Dim={G,A,…,S},p=0.5%)
表2 離群數(shù)據(jù)及其知識(shí)集挖掘結(jié)果(m=2,Dim={G,A,…,S},p=0.5%)
為了模擬Web客戶信息及其屬性值,同時(shí)反映該方法相對(duì)于傳統(tǒng)離群數(shù)據(jù)分析方法的不同特性和效果,這里使用文獻(xiàn)[11]中所使用的NHL數(shù)據(jù)集進(jìn)行對(duì)比研究,該數(shù)據(jù)集曾多次被用于進(jìn)行離群數(shù)據(jù)分析研究。該數(shù)據(jù)集為NHL(National Hockey League)在1995~1996年度職業(yè)球員的比賽統(tǒng)計(jì)信息,樣本量為991,維度為10,屬性名稱分別為Goals,Assists,Points,Plus/Minus,Penalties in Minutes,Even Strength Goals,Power Play Goals,Short-Handed Goals,Game-Winning Goals,Shots。實(shí)驗(yàn)環(huán)境為Matlab7.10,設(shè)定參數(shù)為m=1,Dim為所有10個(gè)維度,p=0.5%,結(jié)果見表1。
在給出的前5個(gè)離群數(shù)據(jù)對(duì)象中,結(jié)合綜合離群因子和一維屬性離群因子可以看出,前三個(gè)數(shù)據(jù)對(duì)象是顯著離群,其離群特征屬性分別為OFA(Mario Lemieux)={PP,S H},OFA(Jaromir Jagr)={G,GW},OFA(Sergei Fedorov)={+-,GW}。與文獻(xiàn)[11]中的結(jié)果進(jìn)行比較,兩者均檢測(cè)到Mario Lemieux和Jaromir Jagr兩個(gè)離群數(shù)據(jù)對(duì)象,特征屬性檢測(cè)結(jié)果也較相近,由于兩者數(shù)據(jù)源有所差異且選取的維度不同,因而對(duì)檢測(cè)結(jié)果有一定影響??傮w來看,該方法能夠達(dá)到傳統(tǒng)方法所能獲得的準(zhǔn)確度。
為測(cè)試檢測(cè)結(jié)果的穩(wěn)定性,調(diào)整參數(shù)m=2,結(jié)果見表2。
實(shí)驗(yàn)結(jié)果表明,當(dāng)參數(shù)m由1改為2時(shí),所得到的三個(gè)顯著離群數(shù)據(jù)對(duì)象的結(jié)果不變且其離群因子值沒有發(fā)生大的變化,這說明本算法對(duì)顯著離群的數(shù)據(jù)對(duì)象的檢測(cè)效果比較穩(wěn)定。
本文所設(shè)計(jì)的離群數(shù)據(jù)分析方法的時(shí)間復(fù)雜度為O(d?n?log2n),空間復(fù)雜度為O(d?n),且檢測(cè)結(jié)果比較準(zhǔn)確、穩(wěn)定,算法效率較傳統(tǒng)方法有大幅度提高,有利于應(yīng)用于對(duì)大量的、高維的Web客戶信息的處理工作。該方法能夠一次性完成對(duì)離群數(shù)據(jù)的分析和對(duì)其相應(yīng)特征屬性的挖掘過程,這對(duì)離群數(shù)據(jù)的特征屬性挖掘方法是一項(xiàng)有益的探索。該方法對(duì)用戶的使用要求較低,參數(shù)設(shè)置簡(jiǎn)便,且參數(shù)的小幅改變不會(huì)對(duì)檢測(cè)結(jié)果造成嚴(yán)重影響。通過離群因子OF值來表示離群程度,簡(jiǎn)單而易于理解。另外還具有一定的可擴(kuò)展性,其中間過程數(shù)據(jù)有重復(fù)利用的價(jià)值。因此,本文所設(shè)計(jì)的方法為客戶信息管理中的離群數(shù)據(jù)分析工作提供了新的思路和方法。
[1]Barnett VLT.Outliers in Statistical Data[M].New York:John Wiley&Sons,1994.
[2]Breunig MM,Kriegel HP,Ng RT,et al.OPTICS-OF:Identifying Lo?cal Outliers[C].In Proceedings of the 3rd European Conference on Principles and Practice of Knowledge Discovery in Databases,Prague,1999.
[3]熊君麗.高維空間下基于密度的離群點(diǎn)探測(cè)算法實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2006,(15).
[4]崔貫勛,朱慶生.一種改進(jìn)的基于密度的離群數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)應(yīng)用,2007,27(3).
[5]Breunig MM,Kriegel HP,Ng RT,et al.LOF:Identifying Densi?ty-Based Local Outliers[C].In Proceedings of ACM SIGMO 2000 In?ternational Conferenceon Management of Data,Dalles,TX,2000.
[6]Struyf A,Rousseeuw PJ.High-dimensional Computation of the Deep?est Location[J].Computational Statisticsand Data Analysis,2000,3.
[7]鄭建國(guó),焦李成.偏差檢測(cè)挖掘方法研究[J].計(jì)算機(jī)工程,2001(8).
[8]黃洪宇,林甲祥.離群數(shù)據(jù)挖掘綜述[J].計(jì)算機(jī)應(yīng)用研究,2006,(8).
[9]Knorr EM,NgRT.Finding Intentional Knowledge of Distance-Based Outliers[C].In Proceedings of the 25th VLDBConference,Edinburgh,Scotland,1999.
[10]Sephen DB,Mark S.Mining Distance-based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule[C].In Proceed?ings of the Ninth ACM SIGKDD International Conference on Knowl?edge Discovery and Data Mining,Washington DC,USA,2003.
[11]Anguylli F,Pizzuti C.Fast Outlier Detection in High Dimensional Spaces[C].In Proceedings of the Sixth European Conference on the Principles of Data Miningand Knowledge Discovery,2002.
[12]Chen Z,Tang J,Fu AW.Modeling and Efficient Mining of Intention?al Knowledgeof Outliers[C].Hong Kong:2003.
[13]Jyrki K,Tomi P,Jukka T.Practical In-Place Mergesort[J].Nordic Journal of Computing,1996,(3).