亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

最小方差優(yōu)化初始聚類中心的K-means 算法

2014-12-02 01:12:02謝娟英王艷娥

計算機工程 2014年8期

謝娟英，王艷娥

(陜西師范大學(xué)計算機科學(xué)學(xué)院，西安 710062)

1 概述

聚類分析是數(shù)據(jù)挖掘研究的一項重要技術(shù)［1］，屬于無監(jiān)督機器學(xué)習(xí)方法，它基于物以類聚原理，分析和探索事物的內(nèi)在聯(lián)系和本質(zhì)。在聚類分析過程中，以相似度為基礎(chǔ)，使得同一類簇中的模式具有較高的相似度，而不同類簇的模式具有很低的相似度。聚類分析廣泛應(yīng)用于模式識別、數(shù)據(jù)分析、圖像處理等領(lǐng)域［2］。常用的聚類分析方法包括基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法和基于變換的聚類算法［1-2］。

K-means 算法是一種典型的基于劃分的聚類算法，該算法將一個含有n 個樣本的集合劃分為K 個子集合，其中每個子集合代表一個類簇，同一類簇中的樣本具有高度的相似性，不同類簇中的樣本相似度較低。K-means 算法以其思路簡潔、收斂速度快成為應(yīng)用最廣泛的聚類算法。但傳統(tǒng)K-means 算法需要預(yù)先提供確定的類簇數(shù)K，在K 值給定的前提下，隨機產(chǎn)生初始聚類中心進行聚類，聚類結(jié)果的隨機性很大，嚴(yán)重依賴于初始聚類中心，經(jīng)常收斂于局部最優(yōu)解。關(guān)于K-means 算法的研究形成2 個分支，一是如何確定好的初始聚類中心;二是如何確定合適的K 值。

本文在分析關(guān)于K-means 優(yōu)化初始聚類中心研究的基礎(chǔ)上，提出一種基于樣本空間分布的最小方差優(yōu)化K-means 初始聚類中心的聚類算法，以克服現(xiàn)有優(yōu)化K-means 初始聚類中心的算法需要人為選擇一定參數(shù)，聚類結(jié)果嚴(yán)重依賴于參數(shù)選擇的缺點。根據(jù)樣本的分布特征，計算樣本的相似度、平均距離及方差;選擇方差最小，且相距較遠(yuǎn)(不小于樣本間平均距離)的K 個樣本作為K-means 算法的初始聚類中心，避免傳統(tǒng)K-means 算法隨機選取初始聚類中心所導(dǎo)致的聚類結(jié)果不穩(wěn)定和不可靠現(xiàn)象，以及現(xiàn)有優(yōu)化初始聚類中心的K-means 算法過多依賴于參數(shù)選擇的問題。

2 K-means 算法介紹及研究現(xiàn)狀

K-means 算法以類簇數(shù)K 為參數(shù)，將n 個樣本劃分為互不相交的K 個類簇，同一類簇中的樣本相似度較高，而不同類簇的樣本相似度較低。常用的相似度判斷是計算樣本間的歐氏距離。K-means算法的基本思想是:首先從n 個樣本集中隨機選擇K 個樣本作為初始聚類中心，根據(jù)每個樣本與各個聚類中心的相似度，將其分配給最相似的聚類中心，得到K 個互不相交的類簇集合;然后重新計算每個類簇的新中心，再將每個樣本根據(jù)相似性原理分配給最近的簇中心重新計算每個類簇的新中心，分配每個樣本到距離最近的類簇。這個過程不斷重復(fù)，直到各個類簇的中心不再變化，得到原始樣本集合的K 個互不相交的穩(wěn)定的類簇。

然而，K-means 算法是一個局部搜索過程，其聚類結(jié)果依賴于初始聚類中心以及初始劃分［3］，并且K-means 算法的最終結(jié)果只是相對于初始劃分更好，未必是全局最優(yōu)的劃分［4］。但是，如果初始聚類中心選擇得好，初始劃分按照Forgy 方法產(chǎn)生，即按照最近鄰方法將樣本分配到各個初始聚類中心產(chǎn)生初始聚類，聚類結(jié)果將會達(dá)到全局最優(yōu)［5］。為此，諸多學(xué)者致力于K-means 算法的最佳初始聚類中心選擇研究。文獻［6］提出確定性的初始聚類中心選擇方法，根據(jù)樣本的局部密度選擇Kmeans 算法的K 個初始聚類中心;為提高聚類性能，文獻［7］在K-means 算法的迭代過程中對每個類簇的新中心重新進行計算;文獻［8-9］研究了Kmeans 算法的初始化問題;文獻［10］等利用譜方法估計特征中心得到K-means 算法的初始聚類中心;文獻［11-14］分別采用不同的樣本密度計算方法估計樣本點的密度，選擇相互距離最遠(yuǎn)的K 個處于高密度區(qū)域的樣本作為K-means 算法的初始聚類中心;文獻［15］采用密度敏感度量樣本的相似性，計算樣本密度，啟發(fā)式地生成K-means 算法的初始聚類中心;文獻［16-17］根據(jù)樣本的空間分布信息以及密度RPCL 算法確定K-means 的初始聚類中心;文獻［18］利用密度網(wǎng)格優(yōu)化K-means 聚類。以上這些優(yōu)化K-mean 算法一定程度上改善了K-mean的聚類性能，但因需要主觀選擇一些參數(shù)，在一定程度上缺少了客觀性。因此，本文基于每個類簇中心的樣本方差最小原理，提出基于樣本分布緊密度的最小方差優(yōu)化初始聚類中心的K-means 聚類算法。

3 本文算法

傳統(tǒng)K-means 算法隨機選取的初始聚類中心有可能是一些孤立點或噪聲點，或者不同類簇的初始聚類中心位于同一個類簇，導(dǎo)致聚類結(jié)果可能偏離數(shù)據(jù)集樣本的真實分布，得到錯誤的聚類結(jié)果，或者使聚類的收斂速度緩慢甚至很難收斂。選取相互距離較遠(yuǎn)的樣本作為初始聚類中心，可避免初始聚類中心可能位于同一類簇的缺陷，但對噪聲點非常敏感，可能導(dǎo)致聚類結(jié)果的偏差。文獻［6，11-17］分別研究了基于密度優(yōu)化初始聚類中心的K-means 算法，以解決K-means 算法選擇相互距離較遠(yuǎn)的樣本為初始聚類中心時，可能選擇到噪音點的問題。然而，盡管這些研究使得這一問題得到一定程度的改善，提高了聚類結(jié)果的準(zhǔn)確性，但是這些文獻中涉及到了密度調(diào)節(jié)系數(shù)或噪聲調(diào)節(jié)系數(shù)，聚類結(jié)果直接依賴于這些參數(shù)的選擇，參數(shù)選擇不好，聚類結(jié)果會變得非常差。因此，這些研究帶有很大程度上的主觀性，需要對原始數(shù)據(jù)集有一定的先驗知識和經(jīng)驗值，且有些算法的執(zhí)行時間過長，不能處理較大數(shù)據(jù)集。

本文以樣本的方差作為選取K-means 初始聚類中心的啟發(fā)信息，以樣本間的平均距離為半徑，選擇K 個位于不同區(qū)域且在該區(qū)域方差最小的樣本作為初始聚類中心，不需要其他參數(shù)選擇，提出基于樣本分布緊密度的最小方差優(yōu)化初始聚類中心的Kmeans 聚類算法。根據(jù)方差的定義可知，本文的優(yōu)化K-means 算法選擇的初始聚類中心為緊密度較高，即周圍樣本分布比較密集的樣本，從而保證K-means算法快速地收斂到全局最優(yōu)解或近似全局最優(yōu)解，而且初始聚類中心的選擇無需人工干預(yù)，不需要輸入任何參數(shù)，保證了K-means 算法聚類結(jié)果的客觀性和穩(wěn)定性。

3.1 算法原理

方差是數(shù)據(jù)集中各數(shù)據(jù)與其平均數(shù)之差的平方和的期望，樣本方差的算術(shù)平方根為樣本標(biāo)準(zhǔn)差［19］。樣本方差與樣本標(biāo)準(zhǔn)差都是衡量一個樣本波動大小的量，樣本方差或樣本標(biāo)準(zhǔn)差越大，樣本數(shù)據(jù)的波動就越大。在概率論與數(shù)理統(tǒng)計中，方差用來度量隨機變量與其數(shù)學(xué)期望(即均值)之間的偏離程度。方差和標(biāo)準(zhǔn)差是測算樣本離散趨勢最重要和最常用的指標(biāo)。方差是測算數(shù)值型數(shù)據(jù)離散程度的最重要方法。

K-means 算法的初始聚類中心如果選擇到每一個類簇的中心，其方差將最小?；诖嗽恚疚耐ㄟ^計算數(shù)據(jù)集所有樣本的方差，以及所有樣本間的距離均值R，啟發(fā)式地選擇位于樣本分布密集區(qū)域，且相距較遠(yuǎn)的樣本為K-means 的初始聚類中心。啟發(fā)式選擇過程為:首先選擇方差最小的那個樣本為第一個類簇的初始中心，以R 為半徑做圓;然后，在圓之外的樣本中，尋找方差最小的樣本作為第二個類簇的初始中心，以R 為半徑做圓;重復(fù)在剩余樣本中選擇下一個類簇的初始聚類中心，直到第K 個類簇的初始中心選擇到。此時，便得到了K-means 算法的初始聚類中心向量。

3.2 基本概念

假設(shè)待聚類的數(shù)據(jù)集為:

K 個初始聚類中心分別為C1，C2，…，Ck，用W1，W2，…，Wk表示K 個類簇所包含的樣本集合，所有樣本的集合為W。

定義1 樣本xi，xj之間的歐氏距離:

定義2 樣本xi到所有樣本距離的平均值:

定義3 樣本xi的方差:

定義4 數(shù)據(jù)集樣本的平均距離:

定義5 聚類誤差平方和:

3.3 算法步驟

算法步驟描述如下:

(1)確定初始聚類中心

1)根據(jù)定義1～定義3 計算數(shù)據(jù)集中每一個樣本的方差，在數(shù)據(jù)集W 中尋找方差最小的樣本將其作為第一個類簇的初始聚類中心C1;根據(jù)定義4計算數(shù)據(jù)集樣本的平均距離cmean，令:

2)如果c?K，則令c=c +1，在數(shù)據(jù)集W 中尋找方差最小的樣本將其作為第c 個類簇的初始聚類中心Cc，并令:

否則，找到K 個初始聚類中心C1，C2，…，Ck，轉(zhuǎn)步驟(2)。

3)轉(zhuǎn)步驟2)。

(2)構(gòu)造初始劃分

1)根據(jù)定義1 計算數(shù)據(jù)集中每個樣本到各個初始聚類中心的距離，根據(jù)相似性原理將樣本分配到距離最近，即最相似的類簇中，得到初始劃分。

2)計算每一個類簇中所有樣本的均值，作為該類簇的新中心。

3)根據(jù)定義5 計算當(dāng)前聚類結(jié)果的聚類誤差平方和E。

(3)重新分配樣本并更新聚類中心

1)根據(jù)定義1 計算數(shù)據(jù)集中每個樣本到各個類簇中心的距離，根據(jù)相似性原理將樣本分配到距離最近的類簇中。

2)計算每一個類簇中所有樣本的均值，作為該類簇的新中心。

3)根據(jù)定義5 計算當(dāng)前聚類結(jié)果的聚類誤差平方和E'。

4)如果E' -E?10-10，即聚類中心不再變化，則算法結(jié)束，輸出聚類結(jié)果;否則，令E=E'，轉(zhuǎn)向步驟3)。

4 仿真實驗

為驗證本文算法的聚類效果及其穩(wěn)定性，分別在UCI 數(shù)據(jù)集和隨機生成的人工模擬數(shù)據(jù)集兩大類數(shù)據(jù)集上進行測試，并與文獻［11，13，15，16］以及傳統(tǒng)K-means 算法的聚類結(jié)果進行比較，其中傳統(tǒng)Kmeans 算法的聚類結(jié)果是執(zhí)行100 次的平均值，文獻［11，13，15］的實驗結(jié)果是調(diào)整參數(shù)所取得的最好結(jié)果。各算法聚類結(jié)果的評價除采用聚類誤差平方和、聚類時間、聚類準(zhǔn)確率這些常用評價方法外，還采用了外部評價法的Rand 指數(shù)、Jaccard 系數(shù)和Adjusted Rand Index 參數(shù)。其中外部評價方法是一種基于預(yù)先給定的分布結(jié)構(gòu)，即在數(shù)據(jù)集樣本類標(biāo)已知情況下對待測試的聚類算法的聚類性能進行評價的有效指標(biāo)［16，20-23］，Adjusted Rand Index 參數(shù)是其中最好的聚類有效性評價準(zhǔn)則［24］。

4.1 實驗數(shù)據(jù)集

實驗使用的UCI 機器學(xué)習(xí)數(shù)據(jù)庫［25］的10 個測試聚類算法的常用數(shù)據(jù)集的描述如表1 所示。

表1 實驗所用的UCI 數(shù)據(jù)集描述

測試本文算法聚類效果的人工模擬數(shù)據(jù)集包含11 組，其中1 組不含噪音，其他10 組分別含有5%，10%，15%，20%，25%，30%，35%，40%，45% 和50%不同比例的噪音。這些人工模擬數(shù)據(jù)集每組都含有3 類分別符合不同正態(tài)分布的600 個樣本，每類200 個。第i 類的橫坐標(biāo)x 的均值為縱坐標(biāo)y的均值為，第i類的標(biāo)準(zhǔn)差為σi。噪音樣本分布在第3 類，其標(biāo)準(zhǔn)差為σl。隨機生成的人工模擬數(shù)據(jù)集的生成參數(shù)如表2 所示。

表2 隨機生成的人工模擬數(shù)據(jù)集的各項參數(shù)

4.2 實驗結(jié)果與分析

下面分別是本文算法在UCI 數(shù)據(jù)集和人工模擬數(shù)據(jù)集上的實驗結(jié)果與分析。需要說明的是用于實驗對比的優(yōu)化初始聚類中心K-means 算法是在最佳參數(shù)設(shè)置下的運行結(jié)果。對比算法嚴(yán)重依賴于參數(shù)調(diào)整，本文采用其他算法的最好實驗結(jié)果與本文算法的實驗結(jié)果進行對比，以說明本文算法的優(yōu)越性。

4.2.1 UCI 數(shù)據(jù)集的聚類結(jié)果與分析

表3 為各算法在10 組UCI 數(shù)據(jù)集上的聚類誤差平方和比較;表4 是各算法在這10 組UCI 數(shù)據(jù)集的聚類時間比較。表3～表4 中加粗的數(shù)據(jù)表示最佳的聚類結(jié)果，下同。

表3 各算法在UCI 數(shù)據(jù)集的聚類誤差平方和比較

表4 各算法在UCI 數(shù)據(jù)集的聚類時間比較 s

由表3 聚類誤差平方和比較可見，傳統(tǒng)K-means算法運行100 次的平均聚類誤差平方和在Ionosphere 數(shù)據(jù)集最優(yōu)，本文算法在不需要任何初始參數(shù)調(diào)整條件下在該數(shù)據(jù)集上的聚類誤差平方和明顯優(yōu)于文獻［16］的結(jié)果，且不差于文獻［11，13，15］的聚類誤差平方和。表3 的實驗結(jié)果還顯示，本文算法在Iris，Haberman，Balance-scale 3 個數(shù)據(jù)集上的聚類誤差平方和略高于在文獻［16］的算法，但在其他數(shù)據(jù)集上都取得了很好的聚類效果，特別是在Soybean-small 和new-thyroid 數(shù)據(jù)集上，本文算法的聚類誤差平方和絕對地優(yōu)于其他優(yōu)化初始聚類中心的K-means 算法的最好聚類誤差平方和，以及傳統(tǒng)K-means 算法的平均實驗結(jié)果。以上聚類誤差平方和的分析可見，本文算法在不需要任何參數(shù)調(diào)整的條件下，得到了很好的初始聚類中心，是一種不依賴任何參數(shù)調(diào)整的優(yōu)化初始聚類中心的K-means 聚類算法。

表4 關(guān)于各算法聚類時間的比較揭示，傳統(tǒng)Kmeans 聚類算法的運行時間最快;本文算法的運行時間優(yōu)于文獻［11，13，15］優(yōu)化初始聚類中心的Kmeans 算法;與本文在文獻［16］的優(yōu)化初始聚類中心的K-means 聚類算法相比，本文算法只在Pima Indians Diabetes 和Haberman 這2 個數(shù)據(jù)集上的運行時間較快，但是本文算法不需要選擇任何參數(shù)?？傮w時間分析顯示，本文算法和文獻［16］算法的時間性能差別不大，不如傳統(tǒng)K-means 快速，但優(yōu)于文獻［11，13，15］的算法。

圖1(a)～圖1(d)分別是各算法的聚類準(zhǔn)確率、聚類結(jié)果的Rand Index 參數(shù)、Jaccard 系數(shù)以及Adjusted Rand Index 參數(shù)的比較。

圖1 UCI 數(shù)據(jù)集的聚類結(jié)果

由圖1(a)關(guān)于聚類準(zhǔn)確率的比較可見，本文算法的聚類準(zhǔn)確率在各個數(shù)據(jù)集上都最優(yōu)，特別是Iris和Soybean-small 2 個數(shù)據(jù)集上，本文算法的聚類準(zhǔn)確率接近90%。圖1(b)關(guān)于各算法在10 個UCI 機器學(xué)習(xí)數(shù)據(jù)庫數(shù)據(jù)集上的Rand 指數(shù)可見，本文采用樣本空間分布緊密度啟發(fā)的優(yōu)初始聚類中心Kmeans 算法在9 個數(shù)據(jù)上取得了最好的實驗結(jié)果;在Iris 數(shù)據(jù)集上，本文算法的性能位居第二，不如文獻［16］優(yōu)化初始聚類中心的K-means 算法的Rand指數(shù)，但優(yōu)于其他優(yōu)化初始聚類中心K-means 算法。圖1(c)關(guān)于各算法聚類結(jié)果的Jaccard 系數(shù)比較可見，本文算法在各個數(shù)據(jù)集上都最優(yōu)。圖1(d)關(guān)于最有效的聚類結(jié)果評價指標(biāo)Adjusted Rand Index 的比較顯示，本文算法具有最好的聚類效果。

以上結(jié)果表明，相比于其他優(yōu)化初始聚類中心的K-means 算法的聚類結(jié)果嚴(yán)重依賴參數(shù)選擇的缺陷，本文算法在不依賴于任何參數(shù)調(diào)整的條件下，可取得較好的聚類效果，并且聚類結(jié)果比較穩(wěn)定。

4.2.2 人工模擬數(shù)據(jù)集的聚類結(jié)果分析

在人工模擬數(shù)據(jù)集上分別運行傳統(tǒng)K-means 算法、文獻［11，13，15，16］算法和本文算法，所得聚類誤差平方和如表5 所示;各算法的聚類時間如表6所示。表5 的聚類誤差平方和比較可見，文獻［13］算法的聚類誤差平方和最小(優(yōu))，本文算法與文獻［15，16］的聚類誤差平方和相同，優(yōu)于傳統(tǒng)Kmeans 算法的聚類誤差平方和，以及文獻［11］的聚類誤差平方和。表6 各算法聚類時間的比較顯示，K-means 算法運行速度最快，文獻［15］算法需要的聚類時間最長，本文算法的聚類時間和文獻［13，16］的聚類時間基本持平，都優(yōu)于文獻［11］的優(yōu)化Kmeans 聚類算法。從聚類時間比較可見，本文算法是一種快速的K-means 聚類算法。

表5 人工模擬數(shù)據(jù)集的聚類誤差平方和比較

表6 人工模擬數(shù)據(jù)集的聚類時間比較 s

圖2(a)～圖2(d)分別展示了各聚類算法的聚類準(zhǔn)確率、聚類結(jié)果的Rand Index 參數(shù)、Jaccard 系數(shù)以及Adjusted Rand Index 參數(shù)。

圖2(a)關(guān)于各算法聚類準(zhǔn)確率的比較顯示，本文算法和文獻［15-16］算法的聚類準(zhǔn)確率相同，都高于文獻［11，13］的優(yōu)化K-means 聚類算法，以及傳統(tǒng)K-means 算法;另外，圖2(a)的實驗結(jié)果顯示Kmeans 算法的聚類準(zhǔn)確率最差。圖2(b)～圖2(d)關(guān)于聚類結(jié)果的外部評價參數(shù)Rand 參數(shù)、Jaccard 系數(shù)、Adjusted Rand Index 參數(shù)的比較顯示，本文算法和文獻［15-16］達(dá)到了同樣好的聚類效果，都優(yōu)于文獻［11，13］的算法和傳統(tǒng)K-means 算法;另外，圖2的結(jié)果比較還揭示傳統(tǒng)K-means 算法的聚類效果最差。

圖2 人工模擬數(shù)據(jù)集的聚類結(jié)果

以上關(guān)于人工模擬數(shù)據(jù)集的實驗結(jié)果分析表明，本文基于樣本分布緊密度的最小方差優(yōu)化初始聚類中心的K-means 算法在含有不同比例噪聲的人工模擬數(shù)據(jù)集上都取得了很好的聚類效果，聚類準(zhǔn)確率高且聚類結(jié)果穩(wěn)定。另外，本文算法的聚類結(jié)果不依賴于任何參數(shù)調(diào)整，而文獻［11，13，15］的聚類算法如果參數(shù)選擇不合適，聚類結(jié)果會變得非常差。

5 結(jié)束語

針對傳統(tǒng)K-means 算法初始聚類中心隨機選取帶來的聚類結(jié)果不穩(wěn)定，以及現(xiàn)有優(yōu)化初始聚類中心的K-means 算法的參數(shù)選取較多，聚類結(jié)果嚴(yán)重依賴于參數(shù)選擇的問題，本文利用類簇中心的樣本方差最小、具有最高緊密度原理，提出了最小方差優(yōu)化初始聚類中心的K-means 聚類算法。UCI 機器學(xué)習(xí)數(shù)據(jù)庫數(shù)據(jù)集以及帶有同比例噪音的人工模擬數(shù)據(jù)集的仿真實驗表明，本文算法與傳統(tǒng)K-means 算法以及現(xiàn)有優(yōu)化初始聚類中心的K-means 算法相比，不僅提高了聚類準(zhǔn)確率、聚類結(jié)果穩(wěn)定，而且對噪音數(shù)據(jù)有較好的免疫性，能客觀地呈現(xiàn)出原始樣本的分布狀況。

［1］Han Jiawei，Kamber M.Data Mining:Concepts and Techniques［M］.2nd ed.Beijing，China:China Machine Press，2011.

［2］孫吉貴，劉杰，趙連宇.聚類算法研究［J］.軟件學(xué)報，2008，19(1):48-61.

［3］Pena J M，Lozano J A，Larranaga P.An Empirical Comparison of Four Initialization Methods for the KMeans Algorithm［J］.Pattern Recognition Letters，1999，20(10):1027-1040.

［4］Vance F.Clustering and the Continuous K-Means Algorithm［J］.Los Alamos Science，1994，22:138-134.

［5］Jain A K，Murty M N，F(xiàn)lynn P J.Data Clustering:A Review［J］.ACM Computing Survey，1999，31 (3):264-323.

［6］Kaufman L，Rousseeuw P J.Finding Groups in Data:An Introduction to Cluster Analysis［M］.New York，USA:John Wiley ＆ Sons，Inc.，1990.

［7］Dhillon I S，Guan Yuqiang，Kogan J.Refining Clusters in High Dimensional Text Data［C］//Proceedings of the 2nd SIAM Workshop on Clustering High Dimensional Data.Arlington，USA:［s.n.］，2002:59-66.

［8］Khan S S，Ahmad A.Cluster Center Initialization for Kmeans Clustering［J］.Pattern Recognition Letters，2004，25(11):1293-1302.

［9］Deelers S，Auwatanamongkol S.Enhancing K-means Algorithm with Initial Cluster Centers Derived from Data Partitioning Along the Data Axis with the Highest Variance［J］.Proceedings of World Academy of Science，Engineering and Technology，2007，26:323-328.

［10］錢線，黃萱菁，吳立德.初始化K-means 的譜方法［J］.自動化學(xué)報，2007，33(4):342-346.

［11］袁方，周志勇，宋鑫.初始聚類中心優(yōu)化的Kmeans 算法［J］.計算機工程，2007，33(3):65-66.

［12］賴玉霞，劉建平.K-means 算法的初始聚類中心的優(yōu)化［J］.計算機工程與應(yīng)用，2008，44(10):147-149.

［13］王塞芳，戴芳，王萬斌，等.基于初始聚類中心優(yōu)化的K-均值算法［J］.計算機工程與科學(xué)，2010，32(10):105-107.

［14］韓凌波，王強，蔣正峰，等.一種改進的K-means 初始聚類中心選取算法［J］.計算機工程與應(yīng)用，2010，46(17):150-152.

［15］汪中，劉貴全，陳恩紅.一種優(yōu)化初始中心點的Kmeans 算法［J］.模式識別與人工智能，2009，22(2):299-304.

［16］謝娟英，郭文娟，謝維信，等.基于樣本空間分布密度的初始聚類中心優(yōu)化K-均值算法［J］.計算機應(yīng)用研究，2012，29(3):888-892.

［17］謝娟英，郭文娟，謝維信，等.基于密度RPCL 的Kmeans 算法［J］.西北大學(xué)學(xué)報，2012，32(3):646-650.

［18］米源，楊燕，李天瑞.基于密度網(wǎng)格的數(shù)據(jù)流聚類算法［J］.計算機科學(xué)，2011，38(12):178-181.

［19］盛驟，謝式千，潘承毅，等.概率論與數(shù)理統(tǒng)計［M］.2 版.北京:高等教育出版社，1997.

［20］張惟皎，劉春煌，李芳玉.聚類質(zhì)量的評價方法［J］.計算機工程，2005，31(20):10-12.

［21］于劍，程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍［J］.中國科學(xué):E 輯，2002，32(2):274-280.

［22］楊燕，靳蕃，Kamel M.聚類有效性評價綜述［J］.計算機應(yīng)用研究，2008，41(6):1631-1632.

［23］Hubert L，Arabie P.Comparing Partitions［J］.Journal of Classification，1985，2:193-218.

［24］Vinh N X，Epps J，Nailey J.Information Theoretic Measures for Clustering Comparison:Is a Correction for Chance Necessary?［C］//Proceedings of the 26th International Conference on Machine Learning.Montreal，Canada:［s.n.］，2009:1073-1080.

［25］Frank A，Asuncion A.UCI Machine Learning Repository［D］.Irvine，USA:School of Information and Computer Science，University of California，2010.