亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于高效離群數(shù)據(jù)分析方法的客戶信息及特征屬性挖掘

2012-09-26 09:12:06夏火松

統(tǒng)計(jì)與決策 2012年19期

夏火松,魏翔

0 引言

在Web客戶信息處理過程中，面對(duì)龐大的數(shù)據(jù)庫，人們所需的信息只是其中的小部分，而且往往是其中較為特殊的一部分信息，它們隱藏在海量數(shù)據(jù)當(dāng)中。如何能夠快速而有效地找到它們并且能夠獲知其特殊的原因，就成為當(dāng)務(wù)之急。目前，成熟的信息管理技術(shù)能夠?yàn)橛脩籼峁?shù)據(jù)獲取、存儲(chǔ)、管理、搜索等豐富的功能，而以分類、聚類、關(guān)聯(lián)分析為主的數(shù)據(jù)挖掘技術(shù)也不斷發(fā)展和完善，但離群數(shù)據(jù)的挖掘技術(shù)及其應(yīng)用卻仍然十分有限，其原因在于現(xiàn)有的離群數(shù)據(jù)挖掘算法的效率依然不高，穩(wěn)定性也不強(qiáng)，其所得到的離群信息也很有限。針對(duì)客戶信息管理過程中的這些情況，本文將在傳統(tǒng)的離群數(shù)據(jù)挖掘算法的基礎(chǔ)上，以保持挖掘結(jié)果穩(wěn)定性為前提，以提高挖掘效率為目標(biāo)，嘗試探索出新的途徑。為了在檢測(cè)離群數(shù)據(jù)的同時(shí)也能夠獲得其為什么離群的相關(guān)信息，本文將把特征屬性挖掘的過程融入其中。

1 理論回顧

1.1 離群數(shù)據(jù)分析方法

離群數(shù)據(jù)分析方法主要有以下幾種：一是基于統(tǒng)計(jì)的方法[1]，已知或假定給定數(shù)據(jù)集符合某種概率分布模型，然后通過對(duì)該模型進(jìn)行不一致性檢驗(yàn)來確定離群數(shù)據(jù)，這一檢驗(yàn)過程需要知道數(shù)據(jù)的分布模型及其參數(shù)以及預(yù)期的離群數(shù)據(jù)數(shù)目；二是基于距離的方法，定義和計(jì)算數(shù)據(jù)對(duì)象與數(shù)據(jù)集中其它對(duì)象的距離并以此來查找該數(shù)據(jù)對(duì)象的鄰居數(shù)量，離群數(shù)據(jù)即為那些鄰居數(shù)量不足的數(shù)據(jù)對(duì)象，該方法不依賴于統(tǒng)計(jì)模型及檢驗(yàn)；三是基于密度的方法[2～4]，從數(shù)據(jù)對(duì)象間的距離的概念出發(fā)，結(jié)合數(shù)據(jù)對(duì)象的鄰居數(shù)量或與鄰居的平均距離得到了“密度”的概念，該方法能夠檢測(cè)到一類特殊的離群數(shù)據(jù)——局部離群數(shù)據(jù)，最有代表性的算法即是Breunig等提出的LOF算法[5]；四是基于深度的方法，先把每個(gè)數(shù)據(jù)對(duì)象映射為維數(shù)據(jù)空間中的點(diǎn)并賦予深度值，再依據(jù)深度值按層重組數(shù)據(jù)集，然后在深度較小的層中搜索離群數(shù)據(jù)，該方法僅在維度低于4的數(shù)據(jù)集上應(yīng)用效果較好，有代表性的算法是DEEPLOC算法[6]；五是基于偏離的方法[7～8]，通過對(duì)數(shù)據(jù)集的主要特征進(jìn)行檢測(cè)來發(fā)現(xiàn)離群數(shù)據(jù)，目前該方法及其算法大多數(shù)還停留在理論研究上，實(shí)際應(yīng)用較少。本文所做的研究是基于距離的方法展開的。

1.2 基于距離的離群挖掘方法

基于距離的離群數(shù)據(jù)挖掘方法最初是由Knorr和Ng提出的[9]，給定數(shù)據(jù)集T，如果T中存在超過p部分的數(shù)據(jù)與某一個(gè)數(shù)據(jù)對(duì)象O之間的距離大于D值，則稱數(shù)據(jù)對(duì)象O為基于距離的離群數(shù)據(jù)，記為DB(p,D)-outlier，其中p和D是參數(shù)。這一方法的提出，不僅為離群數(shù)據(jù)挖掘提供了一種新的算法，而且為研究者們打開了思路，為后續(xù)離群數(shù)據(jù)挖掘算法的提出做了鋪墊?；诰嚯x的離群數(shù)據(jù)挖掘算法的優(yōu)點(diǎn)在于，能夠直觀地反映離群數(shù)據(jù)與數(shù)據(jù)集中其它數(shù)據(jù)之間的關(guān)系，且易于理解和計(jì)算，在實(shí)際應(yīng)用中也收到了良好的效果。這種方法實(shí)際上已經(jīng)包含并擴(kuò)展了早期的基于統(tǒng)計(jì)的算法思想，同時(shí)相對(duì)不一致性檢驗(yàn)所需的計(jì)算量來看，該方法的計(jì)算量已顯著降低，故其在應(yīng)用中能夠達(dá)到和超越基于統(tǒng)計(jì)的算法的效果。另外，它對(duì)數(shù)據(jù)集中數(shù)據(jù)的維數(shù)沒有限制，可以完成對(duì)高維數(shù)據(jù)的處理和挖掘工作。

但這種方法也存在很大的缺陷，需要用戶給出參數(shù)p和D的值才能進(jìn)行離群數(shù)據(jù)挖掘，然而這兩個(gè)參數(shù)卻很難給的恰到好處，同時(shí)其值的微小變化都有可能對(duì)最終的結(jié)果造成較大影響，這就需要用戶憑經(jīng)驗(yàn)做出判斷并對(duì)進(jìn)行p和D的取值反復(fù)嘗試以求得到較好的結(jié)果。這不僅給用戶使用帶來諸多不便，而且這一不確定性嚴(yán)重影響了結(jié)果的穩(wěn)定性和算法應(yīng)用的廣度和深度。此外，該方法不能有效地反映離群程度，雖然相對(duì)基于統(tǒng)計(jì)的方法計(jì)算量顯著下降但其復(fù)雜度仍然較高，為O(d?N2)，其中d為數(shù)據(jù)集中數(shù)據(jù)對(duì)象的維度，N為數(shù)據(jù)對(duì)象的數(shù)量。針對(duì)這些主要缺陷，很多學(xué)者對(duì)算法進(jìn)行了不同程度的改進(jìn)，如基于索引的算法[10]引進(jìn)了索引的思想來改進(jìn)算法，但建立索引需要一定時(shí)間；循環(huán)嵌套算法主要通過減少I/O的次數(shù)來改善算法的效率；基于單元的算法[11]通過將數(shù)據(jù)集劃分為單元，利用單元及其鄰居的性質(zhì)來發(fā)現(xiàn)異常數(shù)據(jù)，從而提高了檢測(cè)的效率。

1.3 離群特征屬性

在離群數(shù)據(jù)挖掘算法的應(yīng)用過程中，用戶查找到離群數(shù)據(jù)后，自然會(huì)關(guān)心是哪些屬性導(dǎo)致離群數(shù)據(jù)與其它數(shù)據(jù)不同的，即它為什么離群，于是有學(xué)者提出了離群數(shù)據(jù)知識(shí)集[12]的概念。一個(gè)高維空間上的離群數(shù)據(jù)的離群特征往往在該空間的子空間上就會(huì)表現(xiàn)出來了。這就需要尋找到能夠解釋離群數(shù)據(jù)為什么離群的屬性集合。離群數(shù)據(jù)知識(shí)集就是描述離群數(shù)據(jù)離群的最小屬性集合，它通過數(shù)據(jù)的屬性來反映離群數(shù)據(jù)的異常行為特征，這些屬性能夠解釋離群數(shù)據(jù)發(fā)生異常的原因，可以對(duì)離群數(shù)據(jù)的合理性和有效性進(jìn)行評(píng)價(jià)，它們就是離群特征屬性。在檢測(cè)出離群數(shù)據(jù)并發(fā)現(xiàn)其相應(yīng)的離群特征屬性后，離群數(shù)據(jù)與導(dǎo)致其離群的屬性間的對(duì)應(yīng)關(guān)系就一目了然了，用戶可以直觀地了解離群數(shù)據(jù)之所以離群的緣由。

2 離群數(shù)據(jù)及其離群屬性空間挖掘模型

2.1 模型建立

定義1包含有n個(gè)數(shù)據(jù)對(duì)象Ai(i=1,2,…,n)，且每個(gè)數(shù)據(jù)對(duì)象Ai有d維屬性aik(i=1,2,…,n;k=1,2,…,d)的數(shù)據(jù)集記為Dataset(n,d)。

定義2由d維屬性Vk(k=1,2,…,d)構(gòu)成的屬性空間為其子空間SubSpace(Dim)=∏k∈DimVk，其中Dim?{1,2,…,d}，并用|Dim|表示集合Dim所包含的元素?cái)?shù)量，即為子空間SubSpace(Dim)的維數(shù)。

根據(jù)定義1和定義2，對(duì)數(shù)據(jù)集Dataset(n,d)中各個(gè)數(shù)據(jù)對(duì)象Ai(i=1,2,…,n)的每一維屬性分量aik(i=1,2,…,n;k=1,2,…,d)有aik∈Vk(i=1,2,…,n;k=1,2,…,d),進(jìn)而Ai∈Space(d)，故數(shù)據(jù)集可以表示為Dataset(n,d)={Ai|Ai∈ Space(d),i=1,2,…,n}。

距離的定義有很多種，這里引入兩種應(yīng)用最為廣泛的距離定義，歐氏距離(即歐幾里得距離)和絕對(duì)距離(即曼哈頓距離)，它們的定義如下：

定義3在多維屬性空間SubSpace(Dim)中，數(shù)據(jù)對(duì)象Ai={aik|k∈Dim}與Aj={ajk|k∈Dim}的歐氏距離和絕對(duì)距離分別為：

其中{wk}為權(quán)重系數(shù)集。

定義4在多維屬性空間SubSpace(Dim)中，某數(shù)據(jù)對(duì)象Ai與最近的m個(gè)最近鄰居Aj1,Aj2,…,Ajm之間的距離的平均值，稱為平均近鄰距離，記為dist_MND，即

這里dist.表示一種距離，即用歐氏距離或絕對(duì)距離進(jìn)行計(jì)算(下文同)。

例如，一個(gè)二維空間中的六個(gè)數(shù)據(jù)對(duì)象如圖1所示，圖中用虛線標(biāo)示出了數(shù)據(jù)對(duì)象A2和A6分別與各自最近的三個(gè)鄰居的連接，以及相應(yīng)的平均近鄰距離的圓弧大小。很明顯，在這六個(gè)數(shù)據(jù)對(duì)象中，A6屬于離群對(duì)象，其平均近鄰距離較大，而其它非離群對(duì)象的平均近鄰距離則相對(duì)較小。為了能對(duì)其進(jìn)行數(shù)值上的比較，需進(jìn)一步作一些定義。

圖1

定義5在多維屬性空間SubSpace(Dim)中，記dist_Max為最大可達(dá)距離，即

定義6(離群因子)數(shù)據(jù)對(duì)象Ai的離群因子(Outlier Factor)為：

該離群因子通過計(jì)算基于已選定屬性空間的每一個(gè)數(shù)據(jù)對(duì)象的平均近鄰距離與該屬性空間中的最大可達(dá)距離的比值，來衡量各個(gè)數(shù)據(jù)對(duì)象的離群程度，既能通過數(shù)據(jù)對(duì)象與最近鄰居的距離來反映其偏離的程度，又可以通過將其與最大可達(dá)距離求比值來統(tǒng)一數(shù)量等級(jí)，以便于對(duì)數(shù)據(jù)對(duì)象在基于不同屬性空間下的離群因子進(jìn)行考察和比較。為了進(jìn)一步研究離群數(shù)據(jù)對(duì)象的離群原因，即其特征屬性，下面對(duì)離群屬性空間作定義。

定義7(離群屬性空間)若數(shù)據(jù)對(duì)象Ai在屬性空間SubSpace(Dim)及其任意子空間中是離群數(shù)據(jù)對(duì)象，則稱該屬性空間為Ai的離群屬性空間，則|Dim|即為該離群屬性空間的維數(shù)。

定義8(離群特征屬性)數(shù)據(jù)對(duì)象Ai的離群屬性空間中的各維屬性即構(gòu)成該數(shù)據(jù)對(duì)象的離群特征屬性的集合，記為OFA(Ai)。

由上述對(duì)圖1的分析，在這二維空間中的六個(gè)數(shù)據(jù)對(duì)象中A6是離群數(shù)據(jù)對(duì)象。若分別將它們對(duì)兩個(gè)維度Vk1和Vk2作投影，如下圖所示，圖2(a)中，A1的投影點(diǎn)明顯偏離其它五個(gè)數(shù)據(jù)對(duì)象的投影點(diǎn)，說明A2在維度Vk1為離群數(shù)據(jù)對(duì)象，即該維度為離群數(shù)據(jù)對(duì)象A2的一維離群屬性空間。圖2(b)中，此六個(gè)數(shù)據(jù)對(duì)象在維度Vk2上的投影點(diǎn)均沒有明顯偏離，因而該維度不屬于離群數(shù)據(jù)對(duì)象A2的離群屬性空間。因此，OFA(Ai)=Vk1，Vk1即為A2的離群特征屬性。

圖2

離群數(shù)據(jù)對(duì)象的離群特征屬性是反映其離群的主要原因，本文擬從數(shù)據(jù)對(duì)象的每一維屬性出發(fā)，設(shè)計(jì)離群數(shù)據(jù)挖掘方法，以期在挖掘離群數(shù)據(jù)的同時(shí)發(fā)現(xiàn)離群數(shù)據(jù)對(duì)象的多維離群特征屬性。

2.2 過程設(shè)計(jì)

步驟1：對(duì)數(shù)據(jù)集中所有數(shù)據(jù)對(duì)象就其在每一維屬性Vk(k=1,2,…,d)上的屬性值{aik}(i=1,2,…,n),?k=1,2,…,d，分別進(jìn)行排序操作得到{as1k,as2k,…,asnk},?k=1,2,…,d，使得 as1k＜as2k＜…＜asnk，其中{s1,s2,…,sn}是{1,2,…,n}的一個(gè)排列，相當(dāng)于是排序后的屬性值對(duì)應(yīng)原始數(shù)據(jù)集中屬性值的位置指針。

步驟2：對(duì)每一維屬性Vk(k=1,2,…,d)上的所有數(shù)據(jù)對(duì)象計(jì)算dist_MND(Ai,k,m)值，?k=1,2,…,d，采用的是絕對(duì)距離進(jìn)行計(jì)算。由于步驟1中已經(jīng)對(duì)屬性Vk上的屬性值進(jìn)行了排序，因此該值可以通過對(duì){as1k,as2k,…,asnk}中連續(xù)的m+1個(gè)值計(jì)算絕對(duì)距離及相應(yīng)均值即可，并對(duì)首尾兩處的計(jì)算稍作調(diào)整，具體如下：

步驟3：計(jì)算各維屬性Vk(k=1,2,…,d)中的最大可達(dá)距離dist_Max(k),?k=1,2,…,d，由于步驟1中已對(duì)屬性值排序，并擬采用絕對(duì)距離進(jìn)行計(jì)算，則

步驟4：計(jì)算每個(gè)數(shù)據(jù)對(duì)象Ai(i=1,2,…,n)的一維離群因子OF(Ai,k,m)，并將其就所選維度集合Dim求和值作為綜合離群因子，即

步驟5：將OF(Ai,Dim,m)值進(jìn)行逆序排序，取其前p?100%項(xiàng)對(duì)應(yīng)的Ai及其中間過程結(jié)果作為最終的離群數(shù)據(jù)挖掘結(jié)果輸出。這些輸出結(jié)果包括：綜合離群因子OF(Ai,Dim,m)，作為離群數(shù)據(jù)離群程度衡量指標(biāo)，一般取前0.1%-5%作為離群數(shù)據(jù)，也可由用戶自行選擇；一維屬性離群因子OF(Ai,k,m)，作為離群特征屬性判別依據(jù)，一般以該離群數(shù)據(jù)的最大的[|Dim|?20%]+1個(gè)一維屬性離群因子所對(duì)應(yīng)的屬性作為離群特征屬性。此外，將各數(shù)據(jù)對(duì)象按各一維屬性離群因子進(jìn)行排序，可為進(jìn)一步分析離群原因提供參考依據(jù)。

2.3 挖掘方法說明與比較分析

2.3.1 復(fù)雜度比較分析

采用上述方法進(jìn)行挖掘的主要耗時(shí)部分在于步驟1，即對(duì)各個(gè)數(shù)據(jù)對(duì)象在每一維屬性維度上進(jìn)行排序。目前，排序算法已經(jīng)非常成熟，我們采用的是穩(wěn)定的歸并排序[13]的方法，其時(shí)間復(fù)雜度為O(n?log2n)，空間復(fù)雜度為O(n)。因而步驟1的時(shí)間復(fù)雜度為O(d?n?log2n)，空間復(fù)雜度為O(d?n)，而步驟2、步驟3和步驟4的時(shí)間復(fù)雜度為O(n)，故該挖掘方法的時(shí)間復(fù)雜度為O(d?n?log2n)，空間復(fù)雜度為O(d?n)。這與傳統(tǒng)的離群數(shù)據(jù)分析方法的時(shí)間復(fù)雜度O(d?n2)相比，降低了一個(gè)數(shù)量等級(jí)，而空間復(fù)雜度并沒有增加。

從實(shí)際運(yùn)用角度來看，首先，該方法可以大大縮減數(shù)據(jù)預(yù)處理的過程，而傳統(tǒng)方法往往要經(jīng)過大量的數(shù)據(jù)處理才能進(jìn)行進(jìn)一步操作。其次，該方法充分利用了排序原理，運(yùn)用成熟的排序算法可以顯著調(diào)高整體的處理速度。再次，該方法將離群數(shù)據(jù)分析與其相應(yīng)特征屬性挖掘過程兼并完成，而無需進(jìn)行二次挖掘。這也是較為突出的一點(diǎn)。

3.3.2 I/O情況分析

從輸入方面看，該方法自始至終需要用戶確定的參數(shù)有三個(gè)，此三個(gè)參數(shù)非常容易確定，且可以直接應(yīng)用默認(rèn)值，而不會(huì)對(duì)挖掘結(jié)果造成顯著影響。這三個(gè)參數(shù)分別是m，Dim，p。其中，根據(jù)方法的內(nèi)在性質(zhì)及相關(guān)試驗(yàn)表明，對(duì)較為緊密的數(shù)據(jù)集處理時(shí)m設(shè)定為1或2即可，當(dāng)檢測(cè)結(jié)果不理想或數(shù)據(jù)集較為稀疏時(shí)可以設(shè)定2≤m≤5，一般不超過6。參數(shù)Dim實(shí)際上是讓用戶選定對(duì)哪幾維度進(jìn)行離群數(shù)據(jù)和相應(yīng)特征屬性檢測(cè)，一般選擇所有維度或根據(jù)需要選擇即可。對(duì)參數(shù)p則可有可無，因?yàn)檩敵鼋Y(jié)果本身就是將數(shù)據(jù)對(duì)象按OF值的逆序排列結(jié)果，參數(shù)p則只是用來控制顯示的數(shù)量。因此，該方法對(duì)用戶設(shè)定參數(shù)的要求比較低。

從輸出方面看，該方法能夠給出傳統(tǒng)的基于距離的離群數(shù)據(jù)挖掘方法所不能給出的離群因子指標(biāo)，同時(shí)還能給出其相應(yīng)的離群屬性空間中的各特征屬性的離群因子，使用戶可以較清晰地了解各個(gè)數(shù)據(jù)對(duì)象的離群程度，以及它們?yōu)楹坞x群、是由于哪幾個(gè)特征屬性造成的離群，故該方法的輸出結(jié)果較為直觀、易于理解。

3.3.3 應(yīng)用分析

針對(duì)Web客戶信息的數(shù)據(jù)量大、維數(shù)高的特點(diǎn)，我們?cè)O(shè)計(jì)的該挖掘分析方法的重點(diǎn)在于，能夠在保持一定的算法穩(wěn)定性的前提下提高算法的運(yùn)行速度和執(zhí)行效率，省去不必要的步驟，以適應(yīng)處理大量的、高維的數(shù)據(jù)的要求。同時(shí)盡可能地簡(jiǎn)化操作，方便用戶使用。

在對(duì)特征屬性的挖掘方面，目前的研究思路主要是通過先對(duì)離群數(shù)據(jù)進(jìn)行分析，再對(duì)離群對(duì)象的特征屬性進(jìn)行挖掘的兩步方法，因而應(yīng)用過程中需要對(duì)數(shù)據(jù)集進(jìn)行反復(fù)搜索，這并不能適應(yīng)處理大量的、高維的數(shù)據(jù)的要求。而本文所述方法的優(yōu)點(diǎn)即在于能夠?qū)㈦x群數(shù)據(jù)分析及其特征屬性挖掘作為一個(gè)整體進(jìn)行處理，從而大大提高離群特征屬性的發(fā)現(xiàn)效率，避免對(duì)數(shù)據(jù)集進(jìn)行大規(guī)模的重復(fù)遍歷，這是我們對(duì)離群特征屬性挖掘研究做的新的探索。

另外，若在允許等量的消耗存儲(chǔ)空間的條件下，將原始數(shù)據(jù)進(jìn)行了轉(zhuǎn)化并存儲(chǔ)，這將有利于簡(jiǎn)化對(duì)新增數(shù)據(jù)對(duì)象的分析處理工作，因而有較高的可擴(kuò)展性能。

表1 離群數(shù)據(jù)及其知識(shí)集挖掘結(jié)果(m=1，Dim={G,A,…,S}，p=0.5%)

表2 離群數(shù)據(jù)及其知識(shí)集挖掘結(jié)果(m=2，Dim={G,A,…,S}，p=0.5%)

4 實(shí)驗(yàn)分析

4.1 準(zhǔn)確度比較

為了模擬Web客戶信息及其屬性值，同時(shí)反映該方法相對(duì)于傳統(tǒng)離群數(shù)據(jù)分析方法的不同特性和效果，這里使用文獻(xiàn)[11]中所使用的NHL數(shù)據(jù)集進(jìn)行對(duì)比研究，該數(shù)據(jù)集曾多次被用于進(jìn)行離群數(shù)據(jù)分析研究。該數(shù)據(jù)集為NHL(National Hockey League)在1995～1996年度職業(yè)球員的比賽統(tǒng)計(jì)信息，樣本量為991，維度為10，屬性名稱分別為Goals，Assists，Points，Plus/Minus，Penalties in Minutes，Even Strength Goals，Power Play Goals，Short-Handed Goals，Game-Winning Goals，Shots。實(shí)驗(yàn)環(huán)境為Matlab7.10，設(shè)定參數(shù)為m=1，Dim為所有10個(gè)維度，p=0.5%，結(jié)果見表1。

在給出的前5個(gè)離群數(shù)據(jù)對(duì)象中，結(jié)合綜合離群因子和一維屬性離群因子可以看出，前三個(gè)數(shù)據(jù)對(duì)象是顯著離群，其離群特征屬性分別為OFA(Mario Lemieux)={PP,S H}，OFA(Jaromir Jagr)={G,GW}，OFA(Sergei Fedorov)={+-,GW}。與文獻(xiàn)[11]中的結(jié)果進(jìn)行比較，兩者均檢測(cè)到Mario Lemieux和Jaromir Jagr兩個(gè)離群數(shù)據(jù)對(duì)象，特征屬性檢測(cè)結(jié)果也較相近，由于兩者數(shù)據(jù)源有所差異且選取的維度不同，因而對(duì)檢測(cè)結(jié)果有一定影響?？傮w來看，該方法能夠達(dá)到傳統(tǒng)方法所能獲得的準(zhǔn)確度。

4.2 穩(wěn)定性測(cè)試

為測(cè)試檢測(cè)結(jié)果的穩(wěn)定性，調(diào)整參數(shù)m=2，結(jié)果見表2。

實(shí)驗(yàn)結(jié)果表明，當(dāng)參數(shù)m由1改為2時(shí)，所得到的三個(gè)顯著離群數(shù)據(jù)對(duì)象的結(jié)果不變且其離群因子值沒有發(fā)生大的變化，這說明本算法對(duì)顯著離群的數(shù)據(jù)對(duì)象的檢測(cè)效果比較穩(wěn)定。

5 結(jié)論

本文所設(shè)計(jì)的離群數(shù)據(jù)分析方法的時(shí)間復(fù)雜度為O(d?n?log2n)，空間復(fù)雜度為O(d?n)，且檢測(cè)結(jié)果比較準(zhǔn)確、穩(wěn)定，算法效率較傳統(tǒng)方法有大幅度提高，有利于應(yīng)用于對(duì)大量的、高維的Web客戶信息的處理工作。該方法能夠一次性完成對(duì)離群數(shù)據(jù)的分析和對(duì)其相應(yīng)特征屬性的挖掘過程，這對(duì)離群數(shù)據(jù)的特征屬性挖掘方法是一項(xiàng)有益的探索。該方法對(duì)用戶的使用要求較低，參數(shù)設(shè)置簡(jiǎn)便，且參數(shù)的小幅改變不會(huì)對(duì)檢測(cè)結(jié)果造成嚴(yán)重影響。通過離群因子OF值來表示離群程度，簡(jiǎn)單而易于理解。另外還具有一定的可擴(kuò)展性，其中間過程數(shù)據(jù)有重復(fù)利用的價(jià)值。因此，本文所設(shè)計(jì)的方法為客戶信息管理中的離群數(shù)據(jù)分析工作提供了新的思路和方法。

[1]Barnett VLT.Outliers in Statistical Data[M].New York:John Wiley&Sons,1994.

[2]Breunig MM,Kriegel HP,Ng RT,et al.OPTICS-OF:Identifying Lo?cal Outliers[C].In Proceedings of the 3rd European Conference on Principles and Practice of Knowledge Discovery in Databases,Prague,1999.

[3]熊君麗.高維空間下基于密度的離群點(diǎn)探測(cè)算法實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2006,(15).

[4]崔貫勛,朱慶生.一種改進(jìn)的基于密度的離群數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)應(yīng)用,2007,27(3).

[5]Breunig MM,Kriegel HP,Ng RT,et al.LOF:Identifying Densi?ty-Based Local Outliers[C].In Proceedings of ACM SIGMO 2000 In?ternational Conferenceon Management of Data,Dalles,TX,2000.

[6]Struyf A,Rousseeuw PJ.High-dimensional Computation of the Deep?est Location[J].Computational Statisticsand Data Analysis,2000,3.

[7]鄭建國(guó),焦李成.偏差檢測(cè)挖掘方法研究[J].計(jì)算機(jī)工程,2001(8).

[8]黃洪宇,林甲祥.離群數(shù)據(jù)挖掘綜述[J].計(jì)算機(jī)應(yīng)用研究,2006,(8).

[9]Knorr EM,NgRT.Finding Intentional Knowledge of Distance-Based Outliers[C].In Proceedings of the 25th VLDBConference,Edinburgh,Scotland,1999.

[10]Sephen DB,Mark S.Mining Distance-based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule[C].In Proceed?ings of the Ninth ACM SIGKDD International Conference on Knowl?edge Discovery and Data Mining,Washington DC,USA,2003.

[11]Anguylli F,Pizzuti C.Fast Outlier Detection in High Dimensional Spaces[C].In Proceedings of the Sixth European Conference on the Principles of Data Miningand Knowledge Discovery,2002.

[12]Chen Z,Tang J,Fu AW.Modeling and Efficient Mining of Intention?al Knowledgeof Outliers[C].Hong Kong:2003.

[13]Jyrki K,Tomi P,Jukka T.Practical In-Place Mergesort[J].Nordic Journal of Computing,1996,(3).