亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

加權三支決策增量軟聚類算法及性能分析

2019-10-15 02:21:53申彥博袁潔紀淑娟張純金

軟件導刊 2019年8期

申彥博袁潔紀淑娟張純金

摘要：現有的增量聚類算法雖然解決了數據增量和類簇重疊問題，但在距離度量時沒有考慮屬性重要度不同，且普遍擁有較高的時間復雜度。針對以上問題，提出一種基于屬性重要度的加權三支決策增量軟聚類算法（W-TIOC-TWD算法），將屬性重要度考慮到距離度量中，彌補了現有算法在聚類過程中將所有屬性的重要程度視為相等的不足。該算法還引入離群點概念，降低了算法的時間復雜度?；谌斯祿蚒CI數據集的實驗結果表明，W-TIOC-TWD算法的聚類準確率優(yōu)于比較算法。

關鍵詞：聚類分析;增量聚類;離群點;三支決策理論;屬性重要度

DOI：10. 11907/rjdk. 191251 開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP312 文獻標識碼：A 文章編號：1672-7800（2019）008-0042-07

A Weighted Three-way Decision Incremental Clustering Algorithm

and Performance Analysis

SHEN Yan-bo1，YUAN Jie1，JI Shu-juan1，2，ZHANG Chun-jin3

（1. College of Computer Science and Engineering， Shandong University of Science and Technology;

2. Key Laboratory for Wisdom Mine Information Technology of Shandong Province， Shandong University of Science and Technology;

3. Network Information Center， Shandong University of Science and Technology， Qingdao 266590，China）

Abstract：Though the existing incremental clustering algorithms can solve the problem of data increment and class overlap， those algorithms do not consider the difference of attribute importance in distance measurement and generally have a higher time complexity. To solve the above problems， this paper proposes the W-TIOC-TWD algorithm. Taking attribute importance into the calculation of distance measure， this algorithm can cover the shortage that equally regard the importance of all attributes in the process of clustering. Moreover， the definition of outlier point is proposed， which improves the time efficiency of this algorithm. To verify the effectiveness and accuracy of this algorithm， experiments on artificial datasets and UCI datasets are implemented. Experimental results show that the W-TIOC-TWD algorithm outperform the comparison algorithms.

Key Words：clustering analysis; incremental clustering; outlier point; three-way decision theory; attribute importance

基金項目：國家自然科學基金項目（71772107，71403151，61502281，61433012）;青島社會科學規(guī)劃研究項目（QDSKL1801138）;山東省重點研發(fā)計劃項目（2018GGX101045）;山東省自然科學基金項目（ZR2018BF013，ZR2013FM023，ZR2014FP011）;山東省研究生質量提升計劃項目（2016）;山東科技大學領軍人才計劃項目（2014）;泰山學者攀登計劃項目（2014）

作者簡介：申彥博（1994-），男，山東科技大學計算機科學與工程學院碩士研究生，研究方向為人工智能與智能商務信息處理;袁潔（1992-），女，山東科技大學計算機科學與工程學院碩士研究生，研究方向為人工智能與智能商務信息處理;紀淑娟（1977-），女，博士，山東科技大學計算機科學與工程學院、山東省智慧礦山信息技術重點實驗室副教授、博士生導師，研究方向為人工智能與智能商務信息處理;張純金（1977-），男，碩士，山東科技大學網絡信息中心工程師，研究方向為智能信息處理和網絡安全。

0 引言

聚類分析[1]作為一種常用的數據挖掘技術，廣泛應用在推薦系統(tǒng)、話題追蹤與檢測等領域。傳統(tǒng)的聚類算法大多是靜態(tài)硬聚類算法，無法處理動態(tài)變化的數據，并且數據對象經過聚類后只能劃分到唯一的類簇中，聚類準確率低。為此，人們提出了基于增量的聚類算法。這類算法基本特點是：增量數據到來后，只需在原聚類結果基礎上對增量數據進行聚類，無需重新聚類整個數據集，從而避免了大量的重復計算。然而，增量聚類算法依然屬于硬聚類算法，存在著數據對象只能劃分到唯一類簇的局限性。軟聚類算法則有效解決了這一問題，使得一個數據對象可以屬于多個類簇。

基于樹結構的三支決策增量聚類算法[2]（TIOC-TWD算法）同時解決了數據增量和類簇重疊問題，但該算法在聚類時沒有將屬性重要程度考慮到距離計算公式中;此外，該算法將密度為1的點也標記為代表點，使構建搜索樹以及增量更新時浪費大量時間。針對以上問題，本文提出一種基于屬性重要度的加權三支決策增量軟聚類算法（W-TIOC-TWD算法），將屬性重要度考慮到距離度量中，彌補了TIOC-TWD算法在聚類過程中將所有屬性的重要程度視為相等的不足，提高了聚類結果準確率;同時，本文對密度為1的點進行隔離，降低了算法的時間復雜度。

1 相關工作

為降低時間成本，提高聚類準確率，提高聚類算法動態(tài)處理變化數據集能力，解決數據對象重疊問題，研究人員提出了很多增量聚類算法和軟聚類算法。

1.1 基于增量的聚類算法

Charkraborth等[3]將K-means算法應用到增量聚類中，對離增量數據最近的簇進行聚類操作;Pham等[4]提出一種基于目標優(yōu)化的增量K-means聚類算法，能對大數據集快速進行增量聚類。但這兩種算法都是基于K-means思想實現的，需要人為設定聚類個數并且算法只能發(fā)現球狀類簇。

ALM等[5]對DBSCAN算法進行了擴展，提出了新的增量DBSCAN聚類算法，并使用有效性評測指標GDI和DB對聚類結果進行評價。實驗結果表明增量DBSCAN聚類算法較傳統(tǒng)的DBSCAN算法更有效率，但該算法仍未解決算法參數敏感問題。為解決DBSCAN算法受參數影響較大問題，劉青寶等[6]提出了一種基于相對密度的增量式聚類算法，但算法聚類形成的類簇都必須由全部數據組成，在進行增量更新時內存占用問題很難解決。

在基于網格的增量聚類研究中，LEI等[7]提出了新的增量聚類算法IGrid算法，算法基于網格對空間多維數據進行統(tǒng)計分析，利用網格聚類思想處理增量聚類問題，該算法可以發(fā)現任意形狀的類簇;劉卓等[8]將網格聚類與數據流聚類相結合，使得網格聚類在數據流中得到進一步發(fā)展，但是基于網格的聚類算法仍無法解決參數敏感問題。

1.2 軟聚類算法

二支決策硬聚類算法都存在不能發(fā)現重疊類簇的缺點。為滿足應用領域對聚類的需求，人們提出了軟聚類算法。Labroche等[9]提出了在線模糊中心聚類算法，該算法可以檢測奇異數據對象和重疊的類簇，但需要人工指定數據集中最終的類簇個數;Peters等[10]提出了一種動態(tài)粗糙聚類算法，該算法主要使用粗糙集理論檢測數據集結構的改變，且算法還定義了一些標準度量新增數據與已有數據對象間的結構一致性，并對增量數據進行聚類。但在實際數據處理過程中，這些判斷標準很難確定;Perez-Suarea等[11]提出了一種基于圖理論的動態(tài)重疊聚類算法DClustR，算法根據數據的密度相關性尋找一組節(jié)點完成圖的覆蓋，且只對受增量數據影響的圖進行更新，但該算法的缺點是發(fā)現的類簇都比較小。

近幾年提出的三支決策思想為解決重疊聚類問題提供了新思路。三支決策[12]是對傳統(tǒng)二支決策的擴展，其在二支決策基礎上增加了不承諾決策，即三支決策由接受、拒絕、不承諾3種決策組成，分別對應于粗糙集模型的正域、邊界域和負域。于洪等[13]將三支決策思想與K-means算法相結合，提出了一種基于K-means的自動三支決策聚類方法，該算法能夠發(fā)現重疊類簇，并能自動確定類簇個數。然而，該算法對聚類個數的確定依賴于近鄰選取。

1.3 三支決策增量聚類算法（TIOC-TWD）

為解決上述問題，于洪等提出了基于樹結構的三支決策增量聚類算法（TIOC-TWD算法）。圖1展示了TIOC-TWD算法流程。TIOC-TWD算法由4部分組成，算法1、算法2采用離線計算方法，算法3、算法4采用在線計算方法。算法1為三支決策重疊聚類算法，采用歐式距離尋找數據集的代表點，對數據集進行初始聚類;算法2的主要任務是創(chuàng)建代表點搜索樹;算法3的基本思想是在增量數據到來后尋找增量數據的鄰居代表點;算法4是更新增量算法，更新代表點搜索樹和代表點關系，得到增量后的聚類結果。

圖1 TIOC-TWD算法流程

TIOC-TWD算法能同時解決增量聚類和重疊聚類問題，實驗結果證明該算法的聚類準確率要高于其它增量重疊聚類算法。但TIOC-TWD算法在初始聚類時，將密度為1的點記為代表點，使算法在創(chuàng)建代表點搜索樹及增量更新時浪費了大量時間。此外，算法在距離度量時并未考慮數據各屬性重要度不同的問題，無法增強重要屬性或消除冗余屬性對聚類結果的影響，不能體現數據各屬性之間的差異性，大大降低了聚類結果的準確率。

2 W-TIOC-TWD算法

針對TIOC-TWD算法不足，本文提出一種基于屬性重要度的加權三支決策增量軟聚類算法（W-TIOC-TWD算法），下面闡述算法定義及執(zhí)行步驟。

2.1 基本概念及定義

定義1：代表點。如果條件|Neighbor（r）|≥ζ成立，ζ是密度閾值，就稱 r為代表點，其代表了以r為中心、以δ為半徑數據區(qū)域內所有數據對象。

定義2：代表區(qū)域。每個代表點 r 代表了以r為中心，以δ為半徑的球形數據空間區(qū)域，將該球形區(qū)域作為代表點r的代表區(qū)域。

定義3：代表區(qū)域相似度。設D維數據空間中任意2個代表點分別為[ri]、[rj]，則按照如下方式定義它們代表區(qū)域之間的相似性值大小。

[SimilarR（ri，rj）=Cover（ri）？Cover（rj）min（Cover（ri），Cover（ri））]? （1）

式中，[Cover（ri）]，[Cover（rj）]各自表示[ri]、[rj]代表區(qū)域數據對象的個數，[Cover（ri）？Cover（rj）]表示代表點[ri]、[rj]代表區(qū)域重疊部分中數據對象的個數。

定義4：數據元素相似性。算法中兩個數據元素的相似性采用歐氏距離計算，計算公式如下：

[d（xi，xj）=k=1m（xi，k-xj，k）2]? ? ? ?（2）

定義5：樹節(jié)點。設代表點搜索樹第i層第j個樹節(jié)點為[Nodeij]，[Nodeij]所包含的代表點集合為[{r1，r2，？，][rNodeij}]。[Nodeij]的值范圍采用一個區(qū)間表示為[Nodeij=][[Nodeij.left，Nodeij.right]]，其中，[Nodeij]左值和右值分別計算，即[Nodeij.left=min{ri1.left，？，riNodeij.left}]，[Nodeij.right=][max{ri1.right，？，riNodeij.right}]。一個樹節(jié)點由多個代表點組成，并且在第i維屬性上組成樹節(jié)點的代表點的數學值范圍區(qū)間在樹節(jié)點的值范圍區(qū)間內。

定義6：數值范圍相似性。設兩個數值的范圍代表區(qū)間分別為R1、R2，其代表區(qū)間的數據元素個數分別為[R1]、[R2]，其中R1=[R1.left，R1.right]，R2=[R2.left，R2.right]，則當R1[？]R2[≠φ]時，稱R1與R2這兩個數值范圍代表區(qū)間元素相似，即當R1[？]R2[≠φ]時認為兩個數值范圍是相似的。

定義7：數據非負標準化。在對數據集進行熵權重計算前，先對數據集進行非負標準化，將數據元素映射成[0，1]范圍內的數據。

[rij=xij-min（xij）max（xij）-min（xij）]? ? ? ? ? （3）

定義8：信息熵。屬性j的信息熵[14]計算公式如下：

[Ej=-1lnni=1nbijlnbij]? ? （4）

其中，[bij=riji=1nrij]。

定義9：熵權值。屬性j的熵權值計算公式為：

[wj=1-Ejk=1m（1-Ek）]? ? ? ? ? （5）

由公式（5）可知，信息熵越大，對應的屬性熵權值越小，屬性重要程度越低。

定義10：基于熵權值的加權距離?；陟貦嘀档募訖嗑嚯x計算公式如下：

[d（xi，xj）=k=1nwi2（xi，k-xj，k）2]? ? ? ? ? ? （7）

其中[wi=1-Eik=1m（1-Ek）]，m為屬性個數。

定義11：離群點。假設數據集U在聚類之后，若聚類結果中存在不屬于任何一個類簇且密度為1的代表點組成的類簇，則將此類簇定義為離群點并進行隔離。

2.2 W-TIOC-TWD算法

W-TIOC-TWD算法基本思想是：①通過對具有不同權重的各屬性進行加權求和改進距離度量;②提出離群點這一概念，通過隔離離群點方法降低算法的時間復雜度。

W-TIOC-TWD算法由3部分組成：算法1為加權靜態(tài)重疊聚類算法，算法2為創(chuàng)建代表點搜索樹算法，算法3為增量更新算法。算法1的基本思想：首先對標準化處理的數據集進行屬性權重計算，然后利用改進的距離計算公式尋找數據集的代表點，對數據集進行初始聚類，最后對初始聚類結果中的離群點進行隔離;算法2的主要任務是根據屬性重要度創(chuàng)建代表點搜索樹;算法3的基本思想是將增量數據與離群點結合，通過搜索樹尋找增量數據集的鄰居代表點，得到增量后的聚類結果。

圖2簡要展示了算法流程，其中紅色虛線框內部分為W-TIOC-TWD算法與TIOC-TWD算法（圖1所示）的改進之處。下面介紹W-TIOC-TWD算法中每個子算法實現。

2.2.1 加權靜態(tài)重疊聚類算法（算法1）

針對TIOC-TWD中忽略屬性重要度這一不足，提出一種加權靜態(tài)重疊聚類算法（詳見算法1）。首先，對標準化處理的數據集進行屬性權重計算，為數據各屬性分配權重。屬性重要度分配能夠起到強化重要屬性消除冗余屬性作用[13];然后，利用改進的距離計算公式尋找數據集代表點，對數據集進行初始聚類;最后，對初始聚類結果中的離群點進行隔離。

圖2 W-TIOC-TWD算法流程

2.2.2 創(chuàng)建代表點搜索樹算法（算法2）

樹結構具有簡單、快速、易查找和更新的特點，適合處理動態(tài)增量問題。搜索樹的創(chuàng)建由屬性重要度大小確定，采用自上向下的方式構建。本算法樹結構節(jié)點由若干個代表點組成，每個樹節(jié)點代表了這些代表點所處的數據空間區(qū)域。本文在建立搜索樹時根據信息熵（公式4）確定屬性優(yōu)先程度，信息熵值越大其所對應屬性的模糊程度越高，需要根據更多信息確定。

2.2.3 增量更新算法（算法3）

針對新到來的增量數據提出增量更新算法。該算法由3部分組成：①根據算法1中代表點的尋找方法尋找增量數據代表點;②利用算法2創(chuàng)建的代表點搜索樹，尋找增量數據代表點的鄰居代表點;③對發(fā)生變化的代表點及代表區(qū)域進行更新，即更新代表點搜索樹和代表點關系圖。

增量更新算法與原算法不同之處是，增量數據各屬性的權重由初始數據集和增量數據集共同組成的數據集整體確定。

2.2.4 算法性能分析

為降低算法的時間復雜度，提高算法效率，本文提出離群點這一概念，下面介紹隔離離群點方法對算法性能的影響。

算法1是加權靜態(tài)重疊聚類算法，設數據塊大小為h，數據屬性個數為m，代表點總數為|R|，則計算距離矩陣及尋找數據對象鄰居所需時間為[O（n2）]，根據鄰居個數數據對象的排序時間為[O（nlog（n））]。假設代表點代表區(qū)域中的數據對象個數為p，則尋找代表點所需時間為[O（R*p*m+][nlog（n））]，創(chuàng)建代表點關系圖所需時間為[O（2*R2）]。通過計算發(fā)現，尋找代表點及創(chuàng)建代表點關系圖的時間復雜度均與|R|的大小直接相關。由此可知，通過隔離離群點的方法可使|R|變小，從而降低尋找代表點及創(chuàng)建代表點關系圖的時間復雜度。

Algorithm1：加權靜態(tài)重疊聚類算法

Input：初始數據集[U]，閾值[α，β，δ];權重[wi];

Output：聚類結果集，R，Neighbor（[ri]）;

過程：

初始化R=[φ]、代表點鄰居集合Neighbor（[ri]）=[φ]、類簇集合C=[φ] ;

根據式（5）計算數據集的屬性權重值[wi];

利用公式（7）生成距離矩陣[Distance（x，y）];

計算每個數據元素的鄰居數據Neighbor（[xi]）;

按照[Neigbor（xi）]值大小排序距離矩陣[Distance（x，y）]中[xi]所在的行;

將[Distance（x，y）]中第一行的數據對象（設為[x1]）作為[rnew]的幾何中心;

[cover（rnew）]中的每個元素[xi]，刪除距離矩陣[Distance（x，y）]中[xi]所在的行;

將新生成的代表點[rnew]添加到代表點集合R中，并從代表點集合中根據定義11進行離群點的隔離;

for（對于任意兩個代表點[ri]）;

根據公式（1）計算相似度并添加強弱連通邊構建代表點無向關系圖;

寬度優(yōu)先搜索算法尋找代表點無向關系圖中的強連通子圖;

for （任意強連通子圖[G]）;

for （強聯通子圖中的每一個代表點[ri]）;

[Pos（Cnew）=Pos（Cnew）∪Cover（ri）];

for （與強聯通子圖有弱邊相連的每一個代表點[rj]）;

[Bnd（Cnew）=Bnd（Cnew）∪Cover（rj）];

[Cnew= Pos（Cnew）∪Bnd（Cnew）];

最終的聚類結果C=C[？][Cnew];

算法2 為創(chuàng)建代表點搜索樹算法，最壞情況下代表點搜索樹一共有m層，每層需要對|R|個代表點進行排序，則需要進行[（R*（R-1））]次計算，從而分裂節(jié)點，所以算法2的時間復雜度為[O（m*（RlogR+R*（R-1））），]也與|R|的大小直接相關。

算法3是增量更新算法。假設離群點的個數為|r|，增量數據塊有[R]個代表點，樹節(jié)點共有L個子節(jié)點，查找新增代表點鄰居代表點的時間復雜度為[O（m*（L*log（L）+][L+（R-|r|））]。假設每個代表點的代表區(qū)域有k1個數據對象，鄰居代表點集合大小為k2，則算法3的時間復雜度為[O（|R|*（m*（L*log（L）+L）+R-|r|））]。通過計算可知，隨著離群點個數|r|的增加，算法3的時間復雜度降低。

由于W-TIOC-TWD算法的3個子算法串行執(zhí)行，所以該算法的時間復雜度為[O（sum（算法1，算法2，算法3））]。通過對3個子算法時間復雜度的分析可知，本文通過隔離離群點方法，分別降低了3個子算法的時間復雜度。所以，隔離離群點方法可以降低W-TIOC-TWD算法的總體時間復雜度，提高算法時間效率。

Algorithm2：創(chuàng)建代表點搜索樹算法

Input：初始數據集U，代表點集合R

Output：代表點搜索樹

過程：

根據公式（4）計算初始數據集U各屬性的[Ej]值;

按照[Ej]由大到小的順序對數據各屬性進行排序;

對每個代表點的各維屬性的屬性值范圍進行排序，按照代表點在第j維屬性的左值由小到大對代表點排序，并依次計算代表點的值范圍相似度。

采用降序排序后的數據集屬性集合創(chuàng)建搜索樹的每一層樹節(jié)點，即屬性重要度越高的屬性越先用于構造樹的節(jié)點。

3 實驗結果分析

為了定性和定量評估W-TIOC-TWD算法性能，設計兩組實驗：第一組實驗在人工數據集上對算法進行定性分析，驗證W-TIOC-TWD算法是否具有在增量數據下的類簇合并、增長以及發(fā)現新類簇等能力;第二組實驗基于UCI[15]真實數據集進行定量分析，以準確率（Accuracy）作為評價指標，以最新、效果最好的增量軟聚類算法TIOC-TWD算法和增量聚類算法OFCMD算法[16]作為比較算法。

Algorithm3：增量更新算法

Input：①增量數據集代表點集合R;②代表點無向關系圖G;③參數[α、β、δ];

Output：聚類結果C={[C1]，…[Ci]，…[Cn]}

過程：

for （對任意增量數據代表點[rwait] ）

FindNeighbor（[rwait]）;//尋找代表點[rwait]的鄰居代表點

//Mapping each [xi] in [rwait] to neighbor representative points in[Rneighbor]

for （[rwait]代表區(qū)域中的任意一個[xi]）

for （[rwait]中的任意代表點[ri]）

根據公式（7）計算[xi]與[ri]之間的距離;

if （distance（[xi]，centriod [ri]）[≤][δ]）

Cover（[ri]）=Cover（[ri]）[？][xi];

if（there exists [xi] which cant map to any[? Rneighbor]）

for（[Rneighbor]中的任意代表點[ri]）

for （代表點 [ri] 中的任意 [xj] ）

if distance（[xj]，centriod[ rwait]）[≤][δ]

Cover（[rwait]）=Cover（[rwait]）[？][xj];

add [rwait] to [ Rneighbor]

else

for（對于每一個樹節(jié)點 [nodeij] in Path）

從樹節(jié)點 [nodeij] 中尋找代表點[rwait]，并將其從[nodeij] 中刪除掉;

更新發(fā)生變化的代表點無向關系圖G

for （each representative point [ri] in[ Rneighbor]）

for（each representative point [ri] in neighbor（[ri]））

根據公式（1）計算[ri]、[rj]代表區(qū)域的相似性，構建無向連通圖;

new=0

for（ each changed sub-graph [G'] in G）

new=+1;

for （each representative point [ri] in [G']）

POS（[Cnew]）=POS（[Cnew]）[？]Cover（[ri]）;

for（each [rj] which is linked to [G] with weak edge）

BND（[Cnew]）=BND（[Cnew]）[？]Cover（[rj]）;

C=C[？][Cnew];

3.1 數據與預處理

本文實驗數據集為3個人工數據集和6個UCI真實數據集，數據集規(guī)模如表1所示。

第一組實驗所用到的人工數據集D1、D2、D3是在二維坐標下隨機生成的，維度即屬性個數，且每組數據都屬于一個類，其余6個數據集為第二組實驗所用的真實數據集。letterABC和LetterAGI均為數據集Letter的一部分，letter ABC包括字母類A、B和C三個類標簽，letter AGI包括字母A、G和I三個類標簽;pendigits1234和pendigits1469均來自數據集 pendigits，pendigits1234包括1、2、3和4四個類標簽，pendigits1469包括數字類1、4、6和9四個類標簽。實驗參數有3個，其中δ為距離閾值、α和β為連通邊強弱閾值。

表1 數據集

3.2 實驗設置

第一組實驗，隨機選擇D2數據集80%的數據以及D1全部數據作為初始數據集，D2剩余20%數據作為增量數據，驗證本文算法的類簇增長功能;隨機選取D1數據集80%作為初始數據集，20%作為增量數據集，驗證本文算法具有類簇合并功能;選取D3作為初始數據集，D1作為增量數據集驗證本文算法具有發(fā)現新類簇功能。

第一組實驗參數以0.1的間隔對參數進行插值調整，參數取值范圍為[0，1]，實驗參數δ、α、β分別設置為0.35、0.25、0.01。

第二組實驗將每個真實數據集劃分為初始訓練數據集和增量數據集兩個部分。隨機選取真實數據集60%數據作為初始訓練數據集，剩余40%的數據分別均分為4組和2組，模擬連續(xù)4次每次10%的數據增量實驗，以及連續(xù)2次每次20%的數據增量實驗，具體增量數據流如圖3和圖4所示。

圖3 連續(xù)4次10%增量數據流

圖4 連續(xù)兩次20%增量數據流

第二組實驗參數采用0.1為間隔的插值分析方法進行調整，參數的取值范圍[0，1]，W-TIOC-TWD算法采用δ、α、β 三個參數最優(yōu)值，見表2。

3.3 評價指標

在第二組定量實驗中，用準確率作為評價指標對比本文算法與比較算法的性能。

定義12 準確率（Accuracy）：設樣本集X包括k個類，準確率計算公式如下：

[Accuracy=i=1kaiX]? ? ? （8）

其中，[ai]表示被正確聚類到類[Ci]中的對象數，[X]表示集合中包含的元素數。

表2 參數最優(yōu)值

3.4 實驗結果及分析

3.4.1 人工數據集實驗結果及分析

增量數據到來時，本文算法對類簇增長、合并、發(fā)現新類簇等處理能力實驗結果如圖5-圖7所示。

由圖5和圖6可知，類2的數據個數隨著增量數據的到來而增長。由圖7和圖8可知，隨著增量數據的到來，類1和類2的邊界域數據個數超過一定量時，兩個類合并成一個類。由圖9和圖10可知，增量數據到來時，算法能夠識別出新產生的類2。

結論1：通過在人工數據集的實驗可知，當增量數據集到來時，W-TIOC-TWD算法具有使類簇增長、類簇合并和發(fā)現新類簇的能力。

圖5 初始聚類結果一? ? ? ? ? ? ? ? ? ? ? ?圖6 增量聚類結果一

圖7 初始聚類結果二? ? ? ? ? ? ? ? ? ? ? 圖8 增量聚類結果二

圖9 初始聚類結果三? ? ? ? ? ? ? ? ? 圖10 增量聚類結果三

3.4.2 UCI數據集實驗結果及分析

基于UCI[15]真實數據集上的橫向定量比較實驗結果如表3、表4所示。

表3 增量數據為10%時對比試驗結果

表4 增量數據為20%時對比試驗結果

由表3可知，在增量數據為10%時，W-TIOC-TWD算法在LetterABC、LetterAGI、 Pendigists1469數據集上的聚類準確率比TIOC-TWD算法和OFCMD算法有明顯提高，其余3個數據集上的準確率也和最高值相差無幾。

由表4可知，在增量數據為20%時，W-TIOC-TWD算法在數據集LetterABC、LetterAGI、Banknote、Pendigists1469上的聚類準確率比其余算法要高，而在數據集Waveform、Pendigists1234上，本文算法準確率也與最高值相差無幾。

通過增量占比為40%，模擬連續(xù)4次10%以及兩次20%的增量聚類實驗結果可知，將各屬性的重要程度以加權方式體現在距離度量計算中，可以有效加強重要屬性對聚類結果的積極影響，消除冗余屬性對聚類結果的消極影響，從而提高聚類準確率，由此驗證了本文算法的有效性。

結論2：通過在UCI真實數據集的實驗可知，在增量數據為10%和20%時，本文W-TIOC-TWD算法在聚類準確率上要優(yōu)于其余兩種算法。通過本文算法與其余兩種算法實驗對比，證明了本文提出的加權距離公式有效解決了數據各屬性重要程度不同的問題，驗證了本文所提出的距離加權公式的有效性。

4 結語

在分析增量聚類以及軟聚類算法研究現狀基礎上，為降低現有算法的時間復雜度，解決現有算法未考慮數據各屬性重要度這一問題，提出一種加權三支決策增量軟聚類算法（W-TIOC-TWD）。該算法將屬性重要度考慮到距離度量公式中，給出一種基于屬性重要度的加權距離度量方法。將各屬性重要度的不同體現在算法中，并提出離群點這一概念。利用隔離離群點的方法降低算法的時間復雜度，并從算法的角度分析這一行為的有效性。通過在人工數據集實驗可知，W-TIOC-TWD算法具有使類簇增長、合并以及發(fā)現新類簇的功能。通過UCI真實數據集上實驗，證明本文算法在聚類準確率上優(yōu)于其余兩種算法，證明W-TIOC-TWD算法的有效性。

雖然本文在一定程度上提高了聚類性能，但仍有很多方面值得進一步研究：①本文所提算法中涉及到的參數，均是通過插值法選取最優(yōu)參數，在接下來的工作中，可以考慮采用貝葉斯理論、層次分析法、優(yōu)化算法、博弈論、統(tǒng)計學等方法解決最優(yōu)參數選擇問題;②考慮到當下數據具有格式多樣、結構復雜、數量龐大、實時更新等特點，進一步提高本文算法的普適性尤為重要;③本文算法利用三支決策的思想對數據進行聚類，但未將算法應用到實際推薦系統(tǒng)中，下一步研究可考慮將W-TIOC-TWD算法應用到包含增量和重疊數據的推薦系統(tǒng)中。

參考文獻：

[1] 海沫. 大數據聚類算法綜述[J]. 計算機科學，2016，43（S1）：380-383.

[2] YU H， ZHANG C， WANG G. A Tree-based incremental overlapping clustering method using the three-way decision theory[J]. Knowledge-Based Systems，2016， 91（C）：189-203.

[3] SANJAY CHARKRABORTH，NAGWANI N K. Analysis and study of incremental k-means clustering algorithm[J]. High Performance Architecture and Grid Computing， 2011（169）： 338-341.

[4] PHAM D T，DIMOV S S，NGUYEN C D. An incremental k-means algorithm[J]. ARCHIVE Proceedings of the Institution of Mechanical Engineers Part C Journal of Mechanical Engineering Science 1989-1996 （vols 203-210）， 2004， 218（7）：783-795.

[5] ALM S，KUMAR K R S. A density based dynamic data clustering algorithm based on incremental dataset[J].? Journal of Computer Science，2012，（5）：656-664.

[6] 劉青寶，侯東風，鄧蘇，等. 基于相對密度的增量式聚類算法[J]. 國防科技大學學報， 2006，28（5）：73-79.

[7] LEI G，YU X，YANG X，et al. An incremental clustering algorithm based on grid[C]. Fuzzy Systems and Knowledge Discovery （FSKD），2011 Eighth International Conference on，2011：1099-1103.

[8] 劉卓，楊悅，張健沛，等. 不確定度模型下數據流自適應網格密度聚類算法[J]. 計算機研究與發(fā)展，2014， 51（11）：218-221.

[9] LABROCHE N. Online fuzzy medoid based clustering algorithms[J].? Neurocomputing，2014（126）： 141-150.

[10] PETERS G，WEBER R，NOWATZKE R. Dynamic rough clustering and its applications[J]. Applied Soft Computing，2012，12（10）： 3193-3207.

[11] PéREZ-SUáREZ A，MARTíNEZ-TRINIDAD J F，CARRASCO- OCHOA J A，et al. An algorithm based on density and compactness for dynamic overlapping clustering[J].? Pattern Recognition， 2013，46（11）： 3040-3055.

[12] YAO Y Y. The? superiority of three-way decisions in probabilistic? rough set models[J]. Information Sciences，2011，181（6）：1080-1096.

[13] 于洪，毛傳凱. 基于k-means的自動三支決策聚類方法[J].? 計算機應用，2016，36（8）： 2061-2065.

[14] BARBARá D，LI Y，COUTO J. Coolcat： an entropy-based algorithm for categorical clustering[J]. Giteseerx， 2002，1（4）：582-589.

[15] LABROCHE N. Online fuzzy medoid based clustering algorithms[J].? Neurocomputing，2014（126）：141-155.

[16] 周漩，張鳳鳴，惠曉濱，等. 基于信息熵的專家聚類賦權方法[J].? 控制與決策，2011，26（1）：153-156.

[17] KOHAVI？R，？BECKER B.Machine learning repository[EB/OL].? [2014-11-16]. http：// archive.ics.uci. edu/ ml/.

（責任編輯：杜能鋼）