逄琳 劉方愛
摘 要:針對傳統(tǒng)的聚類算法對數(shù)據(jù)集反復(fù)聚類,且在大型數(shù)據(jù)集上計算效率欠佳的問題,提出一種基于層次劃分的最佳聚類數(shù)和初始聚類中心確定算法——基于層次劃分密度的聚類優(yōu)化(CODHD)。該算法基于層次劃分,對計算過程進行研究,不需要對數(shù)據(jù)集進行反復(fù)聚類。首先,掃描數(shù)據(jù)集獲得所有聚類特征的統(tǒng)計值;其次,自底向上地生成不同層次的數(shù)據(jù)劃分,計算每個劃分數(shù)據(jù)點的密度,將最大密度點定為中心點,計算中心點距離更高密度點的最小距離,以中心點密度與最小距離乘積之和的平均值為有效性指標(biāo),增量地構(gòu)建一條關(guān)于不同層次劃分的聚類質(zhì)量曲線;最后,根據(jù)曲線的極值點對應(yīng)的劃分估計最佳聚類數(shù)和初始聚類中心。實驗結(jié)果表明,所提CODHD算法與預(yù)處理階段的聚類優(yōu)化(COPS)算法相比,聚類準(zhǔn)確度提高了30%,聚類算法效率至少提高14.24%。所提算法具有較強的可行性和實用性。
關(guān)鍵詞:聚類算法;層次劃分;最佳聚類數(shù);初始聚類中心;聚類有效性指標(biāo)
中圖分類號: TP301.6 文獻標(biāo)志碼:A英文標(biāo)題