夏永泉,孫靜茹,WU Xin-wen,支 俊,王 兵,謝希望
?
基于改進(jìn)K均值聚類(lèi)算法的星點(diǎn)聚類(lèi)研究
夏永泉1,孫靜茹1,WU Xin-wen2,支 俊1,王 兵1,謝希望1
(1. 鄭州輕工業(yè)學(xué)院計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450000; 2.格里菲斯大學(xué)工程信息技術(shù)學(xué)院,昆士蘭 布里斯班 4000)
針對(duì)高分辨率天文圖像中的星點(diǎn)聚類(lèi)研究中存在的2個(gè)問(wèn)題:①天文圖像的分辨率較高,且圖像處理速度較慢;②選取何種聚類(lèi)算法對(duì)天文圖像中的星點(diǎn)進(jìn)行聚類(lèi)分析效果較好。在研究中,問(wèn)題1采用圖像分塊的方法提高圖像的處理速度;問(wèn)題2提出了一種改進(jìn)的K均值聚類(lèi)算法,以解決傳統(tǒng)的K均值聚類(lèi)算法的聚類(lèi)結(jié)果易受到值和初始聚類(lèi)中心隨機(jī)選擇影響的問(wèn)題。該算法首先在用K均值聚類(lèi)算法對(duì)數(shù)據(jù)初步聚類(lèi)的基礎(chǔ)上確定合適的值,其次用層次聚類(lèi)對(duì)數(shù)據(jù)聚類(lèi)確定初始聚類(lèi)中心,最后在此基礎(chǔ)上再采用K均值聚類(lèi)算法進(jìn)行聚類(lèi)。通過(guò)MATLAB仿真實(shí)驗(yàn)的結(jié)果表明,該算法的聚類(lèi)結(jié)果與效率優(yōu)于其他聚類(lèi)算法。
k值;初始聚類(lèi)中心;K均值聚類(lèi)算法;層次聚類(lèi)
對(duì)于天文圖像中星點(diǎn)的提取識(shí)別,國(guó)內(nèi)外眾多專(zhuān)家學(xué)者都進(jìn)行了研究,其中,王龍等[1]提出一種星敏感器星點(diǎn)聚類(lèi)提取方法;全偉和房建成[2]提出一種基于蟻群聚類(lèi)算法的快速星圖識(shí)別方法;王春歆等[3]提出一種基于層次聚類(lèi)的弱小目標(biāo)檢測(cè)算法。雖然這些文獻(xiàn)通過(guò)聚類(lèi)算法提取識(shí)別星點(diǎn),但是很少對(duì)星點(diǎn)進(jìn)行聚類(lèi)分析的研究。
本文主要對(duì)天文圖像中星點(diǎn)作聚類(lèi)分析。星點(diǎn)聚類(lèi)分析可采用的算法有很多,其中K均值聚類(lèi)算法是最著名和最常用的方法之一。但是,由于傳統(tǒng)的K均值聚類(lèi)算法必須在聚類(lèi)前設(shè)定值和隨機(jī)選取聚類(lèi)中心,最后得到的聚類(lèi)結(jié)果會(huì)受到值和聚類(lèi)中心的影響。若選取的值和聚類(lèi)中心不合適,不僅會(huì)增加迭代的次數(shù)還會(huì)導(dǎo)致聚類(lèi)結(jié)果不理想。張素潔和趙懷慈[4]提出一種算法,基于SSE (sum of the squared error)選取聚類(lèi)個(gè)數(shù),基于聚類(lèi)中心點(diǎn)所在的周?chē)鷧^(qū)域相對(duì)比較密集、聚類(lèi)中心點(diǎn)之間距離相對(duì)較遠(yuǎn)的選取原則來(lái)選取初始聚類(lèi)中心;GUPTA等[5]提出一種混合PSO和K均值聚類(lèi)的算法,用PSO算法優(yōu)化K均值聚類(lèi)的結(jié)果。魏建東等[6]提出基于DBI度量的層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)算法;陶瑩等[7]通過(guò)全局化思想對(duì)K均值算法的改進(jìn),避免選取出初始聚類(lèi)中心;CHAKRABARTY[8]提出一種質(zhì)心初始化技術(shù),用于K均值聚類(lèi)算法;AKTHAR等[9]提出2種選取K均值聚類(lèi)的初始聚類(lèi)中心的方法,一種是從高密度區(qū)域選擇最遠(yuǎn)距離的點(diǎn)作為初始聚類(lèi)中心,另一種是從高密度區(qū)域選擇最近距離的點(diǎn)作為初始聚類(lèi)中心;CHOUHAN和PUROHIT[10]提出了基于PSO和K均值算法的文檔聚類(lèi)方法,通過(guò)在K均值聚類(lèi)之前使用PSO方法進(jìn)行尋找最優(yōu)點(diǎn)并作為K均值聚類(lèi)的初始聚類(lèi)中心;丁明月和莊曉東[11]提出了自適應(yīng)K均值算法,利用灰度直方圖來(lái)確定初始聚類(lèi)中心;于化龍和韓雪峰[12]提出改進(jìn)K均值聚類(lèi)算法的銀行分類(lèi)算法,根據(jù)類(lèi)間最大相似度均值選擇初始聚類(lèi)中心;張紅云和李萍萍[13]提出基于層次聚類(lèi)的K均值算法研究,采用層次方法對(duì)文檔進(jìn)行初始聚類(lèi),得到的聚類(lèi)總數(shù)作為K均值算法中的值,在此基礎(chǔ)上,通過(guò)K均值聚類(lèi)對(duì)聚類(lèi)結(jié)果進(jìn)行修訂。
上述文獻(xiàn)用到了各種方法來(lái)確定值和優(yōu)化初始聚類(lèi)中心,但本文提出一種新的方法來(lái)確定初始聚類(lèi)中心,①通過(guò)K均值聚類(lèi)算法的聚類(lèi)準(zhǔn)則函數(shù)值來(lái)確定合適的值;②使用經(jīng)過(guò)層次聚類(lèi)算法聚類(lèi)后的結(jié)果計(jì)算出對(duì)應(yīng)的聚類(lèi)中心作為初始聚類(lèi)中心;③在此基礎(chǔ)上進(jìn)行K均值聚類(lèi)。
由于天文圖像的分辨率一般都比較大,所以直接對(duì)天文圖像進(jìn)行星點(diǎn)聚類(lèi)效率很低甚至不能實(shí)現(xiàn),因此本文進(jìn)行聚類(lèi)算法前先對(duì)天文圖像進(jìn)行分塊,之后再對(duì)每一塊子圖像進(jìn)行特征提取,確定合適的值和初始聚類(lèi)中心,其次完成每一塊子圖像的星點(diǎn)聚類(lèi),最后以每一塊子圖像的聚類(lèi)中心作為新的數(shù)據(jù),采用本文聚類(lèi)算法進(jìn)行聚類(lèi)得到整幅天文圖像的聚類(lèi)結(jié)果。
一般圖像分塊是將1幅圖像分為若干個(gè)圖像塊,如2×2,4×4,8×8。而本文采用的分塊機(jī)制與之不同。本文采用的是按照一定大小的對(duì)圖像依行列的方式直接進(jìn)行分塊,即將1幅高分辨率的天文圖像按照分辨率的大小分成若干塊。假定原始圖像I經(jīng)過(guò)灰度轉(zhuǎn)換后分辨率大小為,設(shè)置子圖像的寬高大小為,取值為2(=1,2,3,4,···),則天文圖像被分成()×()塊。
本文選取顏色及紋理2類(lèi)特征。其原因是從直觀上觀察每個(gè)星點(diǎn)的大小、明暗度、顏色以及光芒如何發(fā)散的不同,而顏色特征可以反映星點(diǎn)的明暗度和顏色,紋理特征可以反映星點(diǎn)的大小和光芒如何發(fā)散的。
1.2.1 顏色特征
大部分的彩色圖像是基于RGB顏色3基色模型,但是RGB顏色空間體制并不適應(yīng)人的視覺(jué)特點(diǎn)。所以本文采用更加符合人眼視覺(jué)特征的HIS顏色空間。HSI顏色空間模型是色調(diào)(ue)、飽和度(Saturation)和強(qiáng)度(Identity)首字母的簡(jiǎn)稱(chēng)。H表示顏色的種類(lèi),S表示顏色的純度,I表示亮度信息。HSI顏色空間是由RGB顏色空間轉(zhuǎn)換得來(lái)的,轉(zhuǎn)換關(guān)系如下
其中
1.2.2 紋理特征
紋理特征提取有多種方法,如灰度差分統(tǒng)計(jì)、自相關(guān)函數(shù)、灰度共生矩陣等。本文使用灰度共生矩陣描述紋理。1幅圖像的灰度共生矩陣能反映圖像灰度方向,相鄰間隔和變化幅的綜合信息。為了能夠更加直觀地以共生矩陣描述紋理狀況,選取以下5個(gè)標(biāo)量來(lái)表征灰度共生矩陣的特征。
(1) 能量。是灰度共生矩陣元素值的平方和,反映了圖像灰度分布均勻程度和紋理粗細(xì)度。
(2) 對(duì)比度。反映了圖像的清晰度和紋理溝紋深淺的程度。返回整幅圖像中像素和其相鄰像素之間的亮度反差。
(3) 相關(guān)性。是度量灰度共生矩陣元素在行列方向上的相似程度,因此,相關(guān)性的值反映了圖像中局部灰度相關(guān)性。返回整幅圖像中像素與其相鄰像素是如何相關(guān)的度量值。
(4) 熵。是圖像所具有的信息量的度量。表示圖像中紋理的非均勻程度或復(fù)雜程度。
(5) 平穩(wěn)度。反映圖像紋理的同質(zhì)性,度量圖像紋理局部變化的多少。返回度量灰度共生矩陣中元素的分布到對(duì)角線緊密程度。
綜合以上2種特征,可以定義一個(gè)樣本有8個(gè)特征值,則可以看作是一個(gè)8維的特征向量,即
其中,1為對(duì)比度;2為相關(guān)性;3為熵;4為均勻度;5為能量;6為,7為,8為。
傳統(tǒng)的K均值聚類(lèi)算法中的值必須是用戶(hù)人為最先確定,即分成多少類(lèi)。但是合適的值,用戶(hù)是不可知的。因此本文通過(guò)對(duì)星點(diǎn)進(jìn)行不同值下的K均值聚類(lèi)算法,選取合適的值。選取適當(dāng)?shù)闹档囊粋€(gè)普遍方法是通過(guò)遍歷得到某一范圍聚類(lèi)數(shù)的誤差平方和。誤差平方和準(zhǔn)則是一種簡(jiǎn)單而又廣泛應(yīng)用的聚類(lèi)準(zhǔn)則,以評(píng)價(jià)聚類(lèi)的優(yōu)劣。
傳統(tǒng)的K均值聚類(lèi)算法在聚類(lèi)前隨機(jī)選取聚類(lèi)中心,并根據(jù)初始聚類(lèi)中心進(jìn)行循環(huán)迭代,直到聚類(lèi)中心不在變化停止。因此,初始聚類(lèi)中心的不同可能導(dǎo)致聚類(lèi)結(jié)果的不穩(wěn)定,會(huì)產(chǎn)生多個(gè)局部最優(yōu)值。
本文算法通過(guò)以層次聚類(lèi)作為前期處理,得到初步聚類(lèi)結(jié)果,根據(jù)聚類(lèi)結(jié)果選擇相應(yīng)的聚類(lèi)中心的方法優(yōu)化初始聚類(lèi)中心。以此聚類(lèi)中心作為K均值聚類(lèi)的算法的初始聚類(lèi)中心,進(jìn)行K均值聚類(lèi)算法。
前期處理中層次聚類(lèi)是首先定義樣本之間和類(lèi)與類(lèi)之間的距離,在各自成類(lèi)的樣本中,將距離最近的2類(lèi)合并,重新計(jì)算新類(lèi)與其他類(lèi)間的距離,并按最小距離歸類(lèi)。重復(fù)此過(guò)程,每次減少一類(lèi),直到所有的樣本稱(chēng)為一類(lèi)為止。
根據(jù)式(4)定義包含個(gè)數(shù)據(jù)的特征值矩陣可用一個(gè)行8列的矩陣表示。那么第個(gè)樣品和第個(gè)樣品的特征值向量見(jiàn)式(7),2個(gè)樣品的距離可根據(jù)歐式距離式(8)求得d,即
類(lèi)與類(lèi)之間的距離選取的是ward距離,用D表示第個(gè)類(lèi)G到第個(gè)類(lèi)G的距離。先計(jì)算1,2,···中各樣本與類(lèi)重心(即均值)的歐氏距離,然后將之取平方求和,得出結(jié)果稱(chēng)為離差平方和。若通過(guò)計(jì)算,把距離最近的2個(gè)類(lèi)(G和G)合并,使之成一個(gè)新的類(lèi)(G),那么這2個(gè)類(lèi)(G和G)和合并后的新類(lèi)G的離差平方和分別為[14]式(9)~(11),即
其中,
μ,μ,μ分別為類(lèi)G,G,G的重心;W,W,W為各自類(lèi)內(nèi)樣本分散程度的度量。G和G之間平方距離表示為
根據(jù)歐氏距離和ward距離完成層次聚類(lèi),并根據(jù)層次聚類(lèi)的聚類(lèi)結(jié)果計(jì)算出相應(yīng)的聚類(lèi)中心。聚類(lèi)中心以某一類(lèi)中的所有樣本特征的平均值表示,根據(jù)式(13)可計(jì)算出其特征值,即
由于圖像分辨率較大,所以在聚類(lèi)分析時(shí),需對(duì)每塊子圖像進(jìn)行星點(diǎn)聚類(lèi)分析,再對(duì)子圖像之間進(jìn)行聚類(lèi)分析從而得到整幅天文圖像的聚類(lèi)分析。
1.5.1 子圖像的星點(diǎn)聚類(lèi)
首先通過(guò)腐蝕膨脹提取出每個(gè)圖像塊中的星點(diǎn),并提取其紋理特征和顏色特征。其次對(duì)同1幅圖像作3種方法的聚類(lèi)分析,且分別記錄聚類(lèi)時(shí)間和誤差平方和的值。
(1) 傳統(tǒng)的K均值聚類(lèi)算法。首先在整個(gè)數(shù)據(jù)集中任意選取個(gè)數(shù)據(jù)作為初始聚類(lèi)中心,然后根據(jù)其他數(shù)據(jù)對(duì)象與個(gè)聚類(lèi)中心的距離大小,將數(shù)據(jù)對(duì)象劃分到距離最近的相似類(lèi)中。所有數(shù)據(jù)劃分后,重新計(jì)算個(gè)聚類(lèi)中每個(gè)聚類(lèi)的全部數(shù)據(jù)對(duì)象的平均值,該平均值所在的數(shù)據(jù)點(diǎn)作為新的聚類(lèi)中心,經(jīng)過(guò)多次迭代,直到連續(xù)2次的聚類(lèi)中心相同,說(shuō)明此時(shí)數(shù)據(jù)對(duì)象類(lèi)別劃分完畢,即得到個(gè)聚類(lèi)。
(2) 文獻(xiàn)[5]方法。一種混合PSO和K均值聚類(lèi)的算法,用PSO算法優(yōu)化K均值聚類(lèi)的結(jié)果。先進(jìn)行一次傳統(tǒng)的K均值聚類(lèi)算法,再對(duì)得到的聚類(lèi)結(jié)果運(yùn)用PSO算法優(yōu)化。
(3) 本文方法也稱(chēng)改進(jìn)的K均值聚類(lèi)算法。通過(guò)算法確定值和初始聚類(lèi)中心。將傳統(tǒng)的K均值聚類(lèi)算法改進(jìn)成了一種自適應(yīng)選取值的并優(yōu)化了初始聚類(lèi)中心的K均值聚類(lèi)算法。
1.5.2 整幅圖像的星點(diǎn)聚類(lèi)
若對(duì)整幅圖像直接進(jìn)行聚類(lèi)分析,時(shí)間過(guò)長(zhǎng)甚至得不到結(jié)果,所以需要通過(guò)對(duì)子圖像之間的聚類(lèi)分析得到整幅圖像的值,即可將整幅圖像中的星點(diǎn)分成若干類(lèi)。本文算法如下:
(1) 對(duì)每塊子圖像進(jìn)行聚類(lèi)分析。根據(jù)式(4),式(5)和式(11)得到每塊圖像的值和每一類(lèi)的聚類(lèi)中心的特征值。通過(guò)循環(huán)得到所有的子圖像的聚類(lèi)中心的特征值矩陣;
(2) 對(duì)聚類(lèi)中心的特征值矩陣采用本文算法進(jìn)行聚類(lèi)分析,得到的聚類(lèi)結(jié)果中的值就是整幅圖像的值。
實(shí)驗(yàn)平臺(tái)選取matlabR2013b,4核CPU i5-3470,內(nèi)存4 GB,操作系統(tǒng)Windows 8。
聚類(lèi)實(shí)驗(yàn)中將分辨率為40000×30131的天文圖像按照2048×2048大小的分塊分辨率分成圖像塊,對(duì)每一個(gè)圖像塊中的星點(diǎn)進(jìn)行3種方法的聚類(lèi)分析,得到3種算法的聚類(lèi)準(zhǔn)則函數(shù)值和聚類(lèi)時(shí)間,并根據(jù)所有的圖像塊的聚類(lèi)中心的聚類(lèi)結(jié)果得到天文圖像的值。
(1)值的確定。根據(jù)不同的值,對(duì)同一幅圖像進(jìn)行多次傳統(tǒng)的均值聚類(lèi),分別得到聚類(lèi)準(zhǔn)則函數(shù)值。以一張圖像為例,值與聚類(lèi)準(zhǔn)則函數(shù)值的關(guān)系變化如圖1所示。
從圖1可看出,隨著值的增加,聚類(lèi)準(zhǔn)則函數(shù)值越小。其中在=3之后,聚類(lèi)準(zhǔn)則函數(shù)值的減少速度越來(lái)越平緩,而=3之前,聚類(lèi)準(zhǔn)則函數(shù)值的急劇減少,即星點(diǎn)分成3類(lèi)比較合適。
(2) 分析3種算法聚類(lèi)結(jié)果的優(yōu)劣。選取多幅圖像實(shí)驗(yàn),證明改進(jìn)后的算法得到的結(jié)果的優(yōu)越性。由于傳統(tǒng)的K均值聚類(lèi)的結(jié)果具有不穩(wěn)定性,所以選用多次結(jié)果的平均值作為最終結(jié)果。圖像的分辨率較大所以分成的塊數(shù)較多,因此任意選取其中的16組進(jìn)行實(shí)驗(yàn)結(jié)果顯示(表1)。選取的原則是對(duì)角線選取。實(shí)驗(yàn)結(jié)果見(jiàn)。
圖1 k值與聚類(lèi)準(zhǔn)則函數(shù)值的關(guān)系變化圖
表1 聚類(lèi)準(zhǔn)則函數(shù)值表
聚類(lèi)結(jié)果折線圖如圖2所示。
圖2 聚類(lèi)結(jié)果圖
從表1可以看出,3種聚類(lèi)算法的準(zhǔn)則函數(shù)值相差的不大,只有幾個(gè)數(shù)值相差較大,說(shuō)明3種聚類(lèi)算法在一些圖像上進(jìn)行聚類(lèi)分析時(shí)差異性較大,但大部分圖像的差異性較小。
從圖2可以看出,改進(jìn)的K均值聚類(lèi)的每個(gè)結(jié)點(diǎn)的值都小于傳統(tǒng)的K均值和文獻(xiàn)[5]方法的聚類(lèi)準(zhǔn)則函數(shù)值,由于聚類(lèi)準(zhǔn)則函數(shù)值越小,代表聚類(lèi)的效果越好,所以說(shuō)明改進(jìn)后的聚類(lèi)結(jié)果優(yōu)于傳統(tǒng)的聚類(lèi)結(jié)果和文獻(xiàn)[5]的聚類(lèi)結(jié)果。圖3顯示了部分聚類(lèi)效果圖。
(A1)(B1)(C1) (A2)(B2)(C2)
(3) 分析3種算法的速度。對(duì)同一幅圖像分別采用3種算法聚類(lèi),分別記錄其聚類(lèi)時(shí)間。表2根據(jù)條件(2)中的圖像所運(yùn)行的聚類(lèi)時(shí)間。
聚類(lèi)時(shí)間折線圖如圖4所示。
從圖4可以看出改進(jìn)的K均值聚類(lèi)時(shí)間和傳統(tǒng)的K均值聚類(lèi)時(shí)間均小于文獻(xiàn)[5]方法的聚類(lèi)時(shí)間,雖然文獻(xiàn)[5]的聚類(lèi)結(jié)果優(yōu)于傳統(tǒng)的K均值聚類(lèi)算法,但是時(shí)間要高于傳統(tǒng)的K均值聚類(lèi)算法,因?yàn)槲墨I(xiàn)[5]方法使用PSO算法優(yōu)化K均值聚類(lèi)結(jié)果,增加了時(shí)間消耗。改進(jìn)的K均值聚類(lèi)算法和傳統(tǒng)的K均值聚類(lèi)算法的聚類(lèi)時(shí)間相差較小,但還是低于傳統(tǒng)的K均值聚類(lèi)算法,由于初始聚類(lèi)中心的優(yōu)化而減少了迭代次數(shù),從而減少了聚類(lèi)時(shí)間。故改進(jìn)的K均值聚類(lèi)算法優(yōu)于其他兩種方法。
表2 聚類(lèi)時(shí)間表
圖4 聚類(lèi)時(shí)間圖
綜上,改進(jìn)的K均值聚類(lèi)算法的聚類(lèi)結(jié)果和效率優(yōu)越于其他聚類(lèi)算法。
本文針對(duì)高分辨率天文圖像中星點(diǎn)聚類(lèi)問(wèn)題進(jìn)行研究,利用改進(jìn)的K均值聚類(lèi)算法進(jìn)行聚類(lèi)分析。改進(jìn)的K均值聚類(lèi)算法通過(guò)不同值下的K均值聚類(lèi)算法找到合適的值,采用層次聚類(lèi)算法得到初步聚類(lèi)結(jié)果,并計(jì)算出聚類(lèi)中心,以此為K均值算法的初始聚類(lèi)中心,在得到的值和初始聚類(lèi)中心時(shí)進(jìn)行K均值聚類(lèi)算法。通過(guò)實(shí)驗(yàn)結(jié)果證明改進(jìn)的K均值聚類(lèi)算法的聚類(lèi)結(jié)果和效率均比其他聚類(lèi)算法優(yōu)越,說(shuō)明改進(jìn)的K均值聚類(lèi)算法更適用于星點(diǎn)聚類(lèi)。
[1] 王龍, 楊孟飛, 鐘紅軍, 等. 星敏感器星點(diǎn)聚類(lèi)提取方法[J]. 中國(guó)科學(xué): 技術(shù)科學(xué), 2015(3): 257-262.
[2] 全偉, 房建成. 一種基于蟻群聚類(lèi)算法的快速星圖識(shí)別方法[J]. 宇航學(xué)報(bào), 2008, 29(6): 1814-1818.
[3] 王春歆, 沈同圣, 張玉葉. 基于層次聚類(lèi)的弱小目標(biāo)檢測(cè)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2006, 44(19): 24-27.
[4] 張素潔, 趙懷慈. 最優(yōu)聚類(lèi)個(gè)數(shù)和初始聚類(lèi)中心點(diǎn)選取算法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 34(6): 1617-1620.
[5] GUPTA A, PATTANAIK V, SINGH M. Enhancing K means by unsupervised learning using PSO algorithm [C]//2017 International Conference on Computing, Communication and Automation. New York: IEEE Press, 2017: 228-233.
[6] 魏建東, 陸建峰, 彭甫镕. 一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究[J]. 電子設(shè)計(jì)工程, 2015(6): 5-8.
[7] 陶瑩, 楊鋒, 劉洋, 等. K均值聚類(lèi)算法的研究與優(yōu)化[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2018, 28(6): 96-98.
[8] CHAKRABARTY A. An empirical seed initialization idea for K-Means algorithm inspired by CLIQUE algorithm [C]//2017 International Conference on Information Technology (ICIT). New York: IEEE Press, 2017: 21-23.
[9] AKTHAR N, AHAMAD M V, AHMAD S. MapReduce model of improved K-means clustering algorithm using Hadoop MapReduce [C]//Second International Conference on Computational Intelligence and Communication Technology. New York: IEEE Press, 2016: 192-198.
[10] CHOUHAN R, PUROHIT A. An approach for document clustering using PSO and K-means algorithm [C]//2018 2nd International Conference on Inventive Systems and Control (ICISC).New York: IEEE Press, 2018: 19-20.
[11] 丁明月, 莊曉東. 基于數(shù)據(jù)融合的K均值聚類(lèi)彩色圖像分割方法[J]. 青島大學(xué)學(xué)報(bào): 工程技術(shù)版, 2018, 33(2): 46-50, 62.
[12] 于化龍, 韓雪峰. 基于改進(jìn)K均值聚類(lèi)的銀行客戶(hù)分類(lèi)算法[J]. 湘潭大學(xué)自然科學(xué)學(xué)報(bào), 2018, 40(3): 129-132.
[13] 張紅云, 李萍萍. 一種基于層次聚類(lèi)的K均值算法研究[J]. 微計(jì)算機(jī)信息, 2010, 26(12): 228-229.
[14] 王學(xué)民. 應(yīng)用多元分析[M]. 上海: 上海財(cái)經(jīng)大學(xué)出版社, 2009.
Star Point Clustering Based on Improved K-Means Clustering Algorithm
XIA Yong-quan1, SUN Jing-ru1, WU Xin-wen2, ZHI Jun1, WANG Bing1, XIE Xi-wang1
(1. School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou Henan 450000, China; 2. Faculty of Engineering and Information Technology, Griffith University, Brisbane Queensland 4000, Australia)
Two problems in the study of star point clustering in high resolution astronomical images: ① The resolution of the astronomical image is higher, and the image processing speed is slower. ② Which clustering algorithm is selected to cluster the star points in the astronomical image is better. In the research, problem 1 uses image segmentation method to improve image processing speed. problem 2 proposes an improved K-means clustering algorithm to solve the traditional K-means clustering algorithm clustering results are susceptible to-value and The initial clustering center randomly selects the problem of impact. Firstly, the K-means clustering algorithm is used to determine the appropriate-value based on the preliminary clustering of data. Secondly, the clustering is used to determine the initial clustering center by data clustering. Finally, K-means clustering is used. The algorithm performs clustering. The simulation results of MATLAB show that the clustering results and efficiency of the algorithm are better than other clustering algorithms.
k-value; initial cluster center; K-means clustering algorithm; hierarchical clustering
TP 391.41
10.11996/JG.j.2095-302X.2019020358
A
2095-302X(2019)02-0358-06
2018-10-18;
2019-01-13
國(guó)家自然科學(xué)基金項(xiàng)目(81501547);河南省科技攻關(guān)項(xiàng)目(172102410080)
夏永泉(1972-),男,遼寧綏中人,副教授,博士。主要研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)、模式識(shí)別與人工智能研究。 E-mail:694473762@qq.com