亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進的K-Prototypes聚類算法

2020-11-10 07:10:18孫志冉

計算機工程與應用 2020年21期

孫志冉，蘇航，梁毅

北京工業(yè)大學信息學部，北京 100124

1 引言

聚類算法[1]作為數(shù)據(jù)挖掘領域的重要組成部分，能夠在無標記樣本的條件下，根據(jù)各數(shù)據(jù)對象的相關信息，將相似的對象進行分類，使得同一類中的對象盡可能相似，不同類中的對象差異盡可能大，從而發(fā)現(xiàn)數(shù)據(jù)的潛在結構和組織規(guī)律。在現(xiàn)實的應用中，數(shù)據(jù)集中不僅包含著年齡、身高等定量的數(shù)值屬性，還包含如性別、職業(yè)等類別屬性，同時包含數(shù)值型屬性和類別型屬性的混合型數(shù)據(jù)集無處不在。為解決混合型數(shù)據(jù)的聚類問題，Huang 提出了由K-Means[2]和K-Modes[3]算法結合而成的，可處理混合型數(shù)據(jù)的K-Prototypes[3]聚類算法。該算法具備簡單高效的特點，應用也十分廣泛，但是仍然存在不足，如隨機選擇初始聚類中心導致算法穩(wěn)定性和準確率較差、需要人為確定類簇個數(shù)等。

針對原始K-Prototypes 算法的問題，近年來有不少學者進行了不同程度的優(yōu)化。針對屬性值距離度量表示不準確的問題，陳韡等[4]改進了分類屬性的距離計算公式，不單單考慮樣本與聚類中心的距離，還加入了樣本與類簇中已有數(shù)據(jù)之間的差異；Sangam等[5]考慮每個類別的相對頻率和分布，對分類屬性采用加權漢明距離測度；Cui等[6]提出了RS-K-Prototypes算法，將數(shù)值數(shù)據(jù)離散化為分類數(shù)據(jù)，利用粗糙集刻畫屬性值之間的距離，并進行異常值檢查，但如果不同類的屬性值數(shù)據(jù)范圍之間存在交叉，則離散化數(shù)據(jù)難以準確分類，聚類結果很大程度上受離散化情況的影響。針對類簇邊界數(shù)據(jù)對象歸屬應具有模糊性，而在劃分迭代過程中沒有考慮模糊性的問題，Chen等[7]考慮到樣本在類簇歸屬上的模糊性，根據(jù)模糊隸屬度的思想，提出了模糊K-Prototypes（FuzzyK-Prototypes，F(xiàn)KP）算法。針對忽視了各屬性對聚類結果的貢獻可能不同的問題，Ji等提出了IWKM算法和WFK-Prototypes 算法[8]，利用模糊集和模糊質心的思想，考慮了不同屬性對聚類過程的不同影響力，在一定程度上提高了聚類精度；歐陽浩等人[9]根據(jù)信息熵對分類屬性賦權值，并利用粗糙集表示對象之間的差異度；Yao 等[10]提出了基于K-Prototypes 的 KLS 算法，改進了距離算法的距離公式，對數(shù)值型和分類型屬性的權重進行了統(tǒng)一，可以滿足敏感屬性的多級隱私保護要求，但該算法的權重是由專家預先指定，需要大量人工干預。為改進傳統(tǒng)算法隨機選擇初始中心點的問題，Zheng 等[11]提出了進化K-Prototypes（EvolutionaryKPrototypes，EKP）算法，引入了具有全局搜索能力的進化算法（Evolutionary Algorithm，EA），改進了K-Prototypes聚類結果對初始選點敏感，容易造成局部最優(yōu)的問題，但未對距離計算方式改進，所以結果仍不太理想；文獻[12]基于先驗信息利用最大最小距離算法確定類簇個數(shù)和初始中心，但該算法需要有類標簽信息；文獻[13-15]都能夠根據(jù)密度和距離分布[16]選擇初始聚類中心，但DC-MDACC 算法[13]中心點受置信因子參數(shù)影響較大，DPCM[14]算法利用拐點進行選擇，對于多個類簇的識別，效果不佳，DP-MD-FN 算法[15]引入了額外的閾值截斷參數(shù)來選擇中心點，參數(shù)需先驗知識，且可能選出同一類簇的兩個高密度點，造成聚類結果有誤。

以上算法從不同方面改進了原算法的不足，但鮮少有能自動確定類簇個數(shù)的改進方法，且大多算法初始選點隨機具有不穩(wěn)定性。為解決該問題，本文提出基于密度自動確定聚類中心的DACKP 算法，該算法根據(jù)數(shù)據(jù)對象的密度和數(shù)據(jù)對象間的距離，實現(xiàn)類簇個數(shù)的自動識別，并選擇出初始聚類中心，優(yōu)化初始選點造成的局部最優(yōu)問題，保證聚類結果的準確性。另外，在聚類過程中還優(yōu)化了距離公式，考慮各屬性對聚類的不同影響，并保存類簇中重要屬性值，以達到更好的聚類效果。

2 傳統(tǒng)K-Prototypes聚類算法

K-Prototypes 聚類算法是對K-Means 和K-Modes 聚類算法的擴展，用于處理混合型數(shù)據(jù)的聚類問題。

定義1設S=(U,A,V,f)是一個信息系統(tǒng)，其中U={x1,x2,…,xn}是由n(n≥1)個數(shù)據(jù)對象組成的有限數(shù)據(jù)集合，xi(1 ≤i≤n)表示由m(m≥1)個屬性描述的數(shù)據(jù)對象；A={a1,a2,…,amr,amr+1,amr+2,…,amr+mc}表示m個屬性組成的有限屬性集合，其中a1～amr表示mr個數(shù)值型屬性，amr+1～amr+mc表示mc個分類型屬性，即m=mr+mc；V={vj|1 ≤j≤m}表示所有屬性值域的集合，vj表示屬性aj的取值集合，aj∈A，若1 ≤j≤mr，則vj由實數(shù)域表示數(shù)值屬性取值集合，根據(jù)實際需求確定上下界，若mr＜j≤m，則vj={v1j,v2j,…,vnjj}表示分類屬性取值集合，nj表示分類屬性aj的不同取值個數(shù)；f:U×A→V表示一個數(shù)據(jù)對象的映射信息函數(shù)，對?xi∈U,aj∈A，有f(xi,aj)∈vj。

定義2數(shù)據(jù)集U聚類過程中的類簇劃分表示為集合C={C1,C2,…,Ck}，其中k為類簇個數(shù)，U，并且Ci?Cj=?(1 ≤i,j≤k,i≠j)，即C是U的一個劃分。

定義3屬性值在類簇Cl中的出現(xiàn)比例表示為并且0 ≤。

定義4數(shù)據(jù)集U聚類過程中類簇的中心點表示為集合Z={z1,z2,…,zk}，zl表示類簇Cl的中心點，且對每個中心點zl(1 ≤l≤k)都有：

數(shù)據(jù)對象xi和類中心zl的相異度為：

K-Prototypes算法的目標函數(shù)可描述為：

其中，wli∈{0,1} ，1表示數(shù)據(jù)對象xi被劃分到第l個類簇中，0 表示數(shù)據(jù)對象xi沒有被劃分到第l個類簇中，每個數(shù)據(jù)對象被劃分且僅被劃分到一個類簇中。

K-Prototypes 算法的步驟為：輸入為數(shù)據(jù)集U和類簇個數(shù)k；首先從數(shù)據(jù)集中隨機選擇k個樣本作為初始聚類中心Z；然后根據(jù)相異度度量公式（2）把數(shù)據(jù)集中的樣本x逐一分配到最近的類簇中，并按照公式（1）更新聚類中心Z，迭代劃分和更新聚類中心的過程，直到目標函數(shù)F不再發(fā)生變化，即每個數(shù)據(jù)對象不再改變所屬聚類時算法結束，得到聚類結果C。

K-Prototypes 聚類算法達到迭代終止條件，即目標函數(shù)F減小到不再變化時，則認為算法收斂，但目標函數(shù)可能有多個極值點，而初始聚類中心的選擇，可能導致算法收斂到局部最優(yōu)，所以K-Prototypes 聚類算法對初始聚類中心敏感。另外算法采用公式（2）來度量數(shù)據(jù)對象間的相異度，忽略了數(shù)值屬性對聚類結果的影響，以及不同屬性對聚類結果的不同影響；由于分類屬性聚類中心單值表示的問題，造成屬性缺失，不能準確刻畫類簇的信息，造成分類屬性的相異度度量忽略了類內對象的總體相異度，并且當相異度相同時，算法不能準確地劃分到相似性更大的類簇中。K-Prototypes 算法還需指定類簇數(shù)目，而對于無序的數(shù)據(jù)集，類簇數(shù)目往往很難確定。針對上述問題，本文提出了一種改進K-Prototypes算法。

3 改進的K-Prototypes算法

針對K-Prototypes 算法的不足，本文提出了新的相異度度量方法，并解決隨機選取初始聚類中心的問題，且可自動確定類簇數(shù)目，提高算法的準確率和穩(wěn)定性。

3.1 新相異度度量公式

本文提出的相異度度量方法，使用信息熵來確定各屬性的重要程度，對各屬性進行加權；對于分類屬性相異度度量采用多Modes的聚類中心，不單單保留類簇內出現(xiàn)頻率最高的值，而是保留全部屬性值及其出現(xiàn)頻率，并給出混合屬性的相異度度量公式。

信息熵表示事件發(fā)生的概率，對于數(shù)值屬性aj(1 ≤表示在屬性aj下對象xi的取值所占的比重；對于分類屬性aj(mr＜j≤m) ，表示在屬性aj下第t個屬性值所占的比重，其中ntj表示屬性值為的對象個數(shù)，故各屬性的信息熵表示為：

屬性在聚類過程中的重要程度與其屬性值構成的差異度成正比。熵值越大則屬性值差異度越大，故該屬性的權重值應該更高，反之，熵值越小表明屬性值差異度越小，故該屬性的權重值應該更低。屬性aj權重值表示為0 ≤ωj≤ 1 。

根據(jù)定義4可知，傳統(tǒng)算法對分類屬性聚類中心的表示是直接選擇頻率最高的屬性值，這不能準確地刻畫類簇內的信息，在多于一個類簇出現(xiàn)頻率最高的屬性值相同時，數(shù)據(jù)對象到每個類簇的距離相同，算法不能準確劃分到更相近的類簇中，故本文將聚類中心的分類屬性值表示為該屬性的所有屬性值及其出現(xiàn)頻率組合，則聚類中心的映射函數(shù)定義為：

基于權重和聚類中心的優(yōu)化，本文給出的相異度度量公式定義為：

3.2 初始聚類中心點的選取

為解決隨機或人工干預選擇聚類中心的問題，考慮到數(shù)據(jù)的實際分布情況，結合文獻[16]提出的數(shù)據(jù)分布的密度和高密度距離定義，本文使其應用到混合數(shù)據(jù)集上，并提出了初始聚類中心點的選取方法，能夠有效地確定初始中心點和類簇個數(shù)。該方法首先進行聚類中心的預選取，然后進行優(yōu)化確認最終的中心點集合和類簇個數(shù)。

（1）聚類中心預選?。和ǔＧ闆r下，中心點往往分布在數(shù)據(jù)對象密度較高的區(qū)域中，且不同類簇之間的間距較大，根據(jù)這兩個假設，文獻[16]定義兩個關鍵參數(shù)：①每個數(shù)據(jù)對象xi的局部密度ρi，常用截斷核和高斯核兩種定義方式，分別如公式（7）和（8）所示，公式（7）取值為離散的整數(shù)，往往用于大規(guī)模數(shù)據(jù)集，公式（8）取值為實數(shù)；②每個數(shù)據(jù)對象xi到局部密度高于它且距離最近的數(shù)據(jù)點xj之間的距離δi，定義如公式（9）：

其中，d(xi,xj)表示數(shù)據(jù)對象xi和xj之間的距離，dl為截斷距離，由近鄰占比pd來確定，通常pd∈[1%，2%]，即所有d(xi,xj)由小到大排序后第1%到2%的值取作dl；為了能更好適用于混合數(shù)據(jù)集，結合3.1節(jié)中提出相異度度量公式，數(shù)據(jù)對象之間的距離公式描述為：

其中：

由于聚類中心的局部密度應該大于其周圍數(shù)據(jù)對象的局部密度，且不同類簇的聚類中心之間的距離應該相對較遠，故聚類中心點應為ρi和δi都較高的數(shù)據(jù)點，則設定預選初始中心點集合Zp應滿足：

其中，μ(δ)表示所有數(shù)據(jù)對象δi的均值，μ(ρ)表示ρi的均值。通過均值篩選掉大部分單個類簇中的多余密度較大的點，以及δi值過大但密度較小的噪聲點。

（2）聚類中心優(yōu)化：預選中心點集合中包含了實際應有的中心點，但也包含了非中心點（高密度類簇內，中心點附近往往存在密度同樣較大的點），如圖1所示，多余的中心點導致紅色框內的原本一個類簇，分為了兩個類簇。為防止這種情況，需要將原本屬于一個類簇的預選中心點進行合并，如圖2 所示，兩個中心點之間的距離應為大于2dl，若小于2dl，則表示兩個中心點屬于同一個類簇。

圖1 R15數(shù)據(jù)集上的錯誤聚類結果

圖2 中心點距離決策圖

最終中心點選取過程：首先對Zp集合中的數(shù)據(jù)根據(jù)公式（12）計算ηi，ηi綜合考慮了ρi和δi，且忽略了量綱的差異，ηi值越大越可能成為中心點。

然后將數(shù)據(jù)對象按照ηi從大到小排序，選ηi最大的數(shù)據(jù)對象作為確認的中心點，添加到最終的初始中心點集合Z0中；其余預選中心點按照排序后的順序，依次計算與排序在它之前的數(shù)據(jù)對象之間的距離，若皆大于2dl則表示該對象可作為初始中心點，將xi添加入Z0中，初始中心點集合Z0表示為：

最終將集合Z0中元素作為初始中心點，集合Z0大小作為類簇個數(shù)。

3.3 DACKP算法

改進后的DACKP 算法主要包括聚類中心點預選取，確定中心點和迭代聚類劃分過程3 個步驟，基本步驟描述如下：

輸入：數(shù)據(jù)集U和近鄰占比pd

輸出：聚類劃分結果C

步驟1根據(jù)公式（10）計算任意兩個數(shù)據(jù)對象之間的距離d(xi,xj),1 ≤i,j≤n。

步驟2根據(jù)pd，確定截斷距離dl，根據(jù)公式（8）對每個數(shù)據(jù)對象xi計算其局部密度ρi。

步驟3根據(jù)公式（9）對每個數(shù)據(jù)對象xi計算其高密度距離δi。

步驟4計算δi和ρi的均值μ(δ)和μ(ρ)，并根據(jù)公式（11）得到預選初始中心點集合Zp。

步驟5對 ?xi∈Zp，根據(jù)公式（12）計算其ηi值，并進行由大到小排序。

步驟6根據(jù)公式（13）確定最終初始中心點集合Z0。

步驟7使用相異度度量公式（6）計算每個數(shù)據(jù)點到各個聚類中心之間的相異度，并把數(shù)據(jù)集中的樣本逐一分配到最近的類簇中。

步驟8更新聚類中心Z，數(shù)值型屬性類中心為該類簇中所有該屬性值的平均值，分類型屬性類中心為類簇中該屬性各屬性值及其出現(xiàn)的頻率。

步驟9重復上述步驟7 和步驟9 的過程，直到目標函數(shù)F不再發(fā)生變化，即每個數(shù)據(jù)對象不再改變所屬聚類時算法結束。

通過分析可知，傳統(tǒng)K-Prototypes 算法的時間復雜度為O(nkT)，其中n表示數(shù)據(jù)對象個數(shù)，k表示類簇個數(shù)，T表示迭代次數(shù)；本文算法的主要計算開銷有：中心點選取的時間復雜度為O(n2)、迭代計算的時間復雜度為O(nkT′)，一般情況下k∈[2,n][17]，T′為改進后算法的迭代次數(shù)，根據(jù)實驗結果，準確的聚類中心使其值較小T′?n，所以本文算法的時間復雜度為O(n2)。中心點的選取雖然耗時較多，提高了算法的復雜度，但避免了盲目的隨機選點，提高聚類的有效性。

4 實驗結果

為驗證本文提出的算法的有效性，本文使用了人工合成數(shù)據(jù)集和UCI 機器學習庫中的數(shù)據(jù)集進行驗證，如表1 所示，本文分別選取了數(shù)值屬性數(shù)據(jù)集、分類屬性數(shù)據(jù)集和混合屬性數(shù)據(jù)集。并根據(jù)數(shù)據(jù)集類型，將DACKP 算法分別和K-Means 算法、DPC 算法[16]、FuzzyK-Means（FCM）算法、K-Modes 算法、K-Prototypes（KP）算法、DPCM算法、FuzzyK-Prototypes（FKP）算法進行比較。實驗環(huán)境為Intel?Core? i7-4790K CPU @ 4.00 GHz，16 GB內存，操作系統(tǒng)為Microsoft Windows 10。

表1 驗證數(shù)據(jù)集描述

為了評估聚類算法效果，本文采用的評價指標包括正確率（AC）、類精度（PE）、召回率（RE）和執(zhí)行劃分步驟的迭代次數(shù)（Iter），評價指標定義如下：

其中，n表示的是數(shù)據(jù)集中對象的總個數(shù)，ni表示的是被正確分配到第i個類簇的對象個數(shù)，cni表示的是聚類結果中第i個類簇的對象個數(shù)，pni表示的是真實標簽中第i個類簇的對象個數(shù)。

在對比實驗中，對于隨機初始選點的K-Means、FCM、K-Modes、KP 和FKP 算法，給出正確的聚類個數(shù)參數(shù)，并采用了100次隨機初始選點，最終統(tǒng)計平均值；KP算法的重要參數(shù)γ=分類屬性個數(shù)/數(shù)值屬性個數(shù)[9]；DPCM算法依照原文參數(shù)pd=1.5%，給出正確聚類個數(shù)，選擇η值最大的數(shù)據(jù)對象作為初始中心點；DPC和本文算法同樣取pd=1.5%。

數(shù)據(jù)集R15和D31為人工合成的二維數(shù)據(jù)集，其聚類結果如圖3、圖4所示，不同顏色代表不同類簇，“*”表示初始中心點?？芍庇^看出，本文算法可準確地識別出類簇數(shù)和初始中心，得到正確的聚類結果。

圖3 本文算法在R15數(shù)據(jù)集上的聚類結果

圖4 本文算法在D31數(shù)據(jù)集上的聚類結果

如表2 給出的各算法在數(shù)值屬性和分類數(shù)據(jù)集上的評價結果，對于數(shù)值屬性數(shù)據(jù)集，K-Means 算法對初始選點敏感、DPC 算法對參數(shù)也有依賴性，得到的結果并不能代表其最佳水平，F(xiàn)CM算法引入模糊理論，其結果普遍優(yōu)于K-means 和DPC 算法。本文算法相較K-Means和DPC表現(xiàn)較好，準確率上和FCM幾乎持平，但本文算法迭代次數(shù)有明顯的優(yōu)勢，收斂速度更優(yōu)。在分類數(shù)據(jù)集上的實驗結果，本文算法因改進了分類屬性相異度表示和穩(wěn)定了中心點的選取，達到了良好的聚類效果。

表2 數(shù)值屬性和分類屬性數(shù)據(jù)集實驗結果比較

本文驗證混合屬性數(shù)據(jù)集聚類效果，結果如表3所示。KP 和FKP 因中心點選擇不穩(wěn)定，相似度度量方法過于粗糙，導致在各數(shù)據(jù)集效果皆不佳；DPCM 算法對于非高密度的點會因一個數(shù)據(jù)對象劃分錯誤，造成連鎖反應，導致準確率低。本文算法在German Credit Data數(shù)據(jù)集準確率略差，主要是以為該數(shù)據(jù)集類簇分布比例差異較大，使用導致初始選點不夠準確，但在精準度和召回率上要優(yōu)于其他算法。在其他數(shù)據(jù)集上本文算法聚類指標都高于其他算法均能有效的聚類。根據(jù)多個混合屬性數(shù)據(jù)集實驗結果，與傳統(tǒng)KP算法相比，本文算法平均準確率提高了8.52%，與DPCM算法和FKP算法相比，平均準確率分別提高了4.28%和8.33%，且本文算法能保證聚類的穩(wěn)定性。

表3 混合屬性數(shù)據(jù)集實驗結果比較

5 結束語

本文提出的DACKP 算法，結合數(shù)據(jù)對象的密度分布優(yōu)化了初始聚類中心的選取問題，且可自動地確定類簇數(shù)目，另外通過區(qū)分每個屬性對聚類結果的不同影響權重，和優(yōu)化聚類中心的表示方式，改進了相異度計算公式，強化了屬性間的差異性和類內相似性。本文使用人工數(shù)據(jù)集和UCI 數(shù)據(jù)集進行驗證，實驗結果表明，改進后的DACKP 算法與其他算法相比，聚類結果的準確率、精準率和召回率都有所提高。但算法對于類簇分布比例差異較大的數(shù)據(jù)集提升效果并不明顯，如何改善此類數(shù)據(jù)集的聚類效果和提升算法的時間復雜度是下一步的主要工作。