基于C均值算法的新疆維吾爾醫(yī)草藥圖像的分割研究
木拉提·哈米提1, 伊力扎提·阿力甫1, 嚴(yán)傳波1, 阿布都艾尼·庫吐魯克1,
孫靜1, 艾賽提·買提木沙2, 楊芳1, 員偉康1, 孔喜梅1, 張歲霞1
(新疆醫(yī)科大學(xué)1醫(yī)學(xué)工程技術(shù)學(xué)院;2公共衛(wèi)生學(xué)院, 烏魯木齊830011)
摘要:目的為提高新疆維吾爾醫(yī)草藥圖像的分類和檢索準(zhǔn)確率,對新疆維吾爾醫(yī)草藥圖像進行感興趣區(qū)域分割研究。方法分別采用閾值法、硬C均值(HCM)聚類算法和模糊C均值(FCM)聚類算法分割圖像,將分割后的圖像與原始圖像進行迭代,分割15幅新疆維吾爾醫(yī)藥材圖像,并將分割結(jié)果與手工分割結(jié)果進行比較,以評價分割算法的優(yōu)劣。結(jié)果利用閾值法分割后的圖像與手工分割圖像進行比較,15幅圖像的面積大小差異的平均值為12.7%,表面平均距離的平均值為2.79灰度值;利用HCM聚類算法分割后圖像的面積大小差異的平均值為12.2%,表面平均距離的平均值為2.7灰度值;利用FCM聚類法分割后圖像面積大小差異的平均值為9.04%,表面平均距離的平均值為0.96灰度值。結(jié)論閾值分割算法的分割速率比其他2種算法快,但該方法可能出現(xiàn)過度分割現(xiàn)象而導(dǎo)致信息的流失;硬C均值聚類算法能夠較好地保留感興趣區(qū)域,但分割時圖像背景無法完全舍去而導(dǎo)致無用信息的摻雜;模糊C均值聚類算法分割速率相對較慢,但其整體分割準(zhǔn)確率卻高于以上2種算法,該算法較適于新疆維吾爾醫(yī)藥材圖像的分割。本研究對后期圖像的特征提取、分類和檢索奠定基礎(chǔ)。
關(guān)鍵詞:新疆維吾爾草藥; 閾值分割法; 硬C均值聚類算法; 模糊C均值聚類算法; 分割草藥圖像
中圖分類號:R318.04文獻標(biāo)識碼:A
doi:10.3969/j.issn.1009-5551.2015.07.003
[收稿日期:2015-04-19]
基金項目:國家自然科學(xué)基金(81160182,81460281,61201125); 江西民族傳統(tǒng)藥協(xié)同創(chuàng)新項目(JXXT201401001-2); 留學(xué)人員科技活動擇優(yōu)資助項目(2013-277)
作者簡介:木拉提·哈米提(1957-),男(維吾爾族),教授,碩士生導(dǎo)師,研究方向:醫(yī)學(xué)圖像處理及生物醫(yī)學(xué)信號分析,E-mail:murat.h@163.com。
Xinjiang Uygur herbal medicine image segmentation based on
C-mean clustering method
Hamit Murat1, Alip Elzat1, YAN Chuanbo1, Kutluk Abdugheni1, SUN Jing1, Matmusa Asat2,
YANG Fang1, YUAN Weikang1, KONG ximei1, ZHANG Suixia1
(1CollegeofMedicalEngineeringTechnology;2CollegeofPublicHealth,
XinjiangMedicalUniversity,Urumqi830011,China)
Abstract:ObjectiveTo improve the accuracy of classification and retrieval of Xinjiang Uygur herbal medicine images by segmenting the interesting area from the image of the herbal medicine. Methods15 Xinjiang Uygur herbal medicine images were segmented by means of threshold method, hard C mean method and fuzzy C mean method. The whole medicine image was segmented by clustering similar pixels from different pixel level by getting rid of useless group. The segmented image was iterated with the original image. The area size difference and the average surface distance were compared and evaluated. ResultsThe average surface distance and the mean area size difference are 12.7% and 2.79 with threshold method, 12.2% and 2.7 with hard C mean method and 9.04% and 0.96 with fuzzy C mean method respectively. ConclusionBy three segmentation methods with 15 images, it's concluded that the threshold segmentation algorithm was proved simple and fast,but with some interesting areas missing and information missing. The HCM segmentation method could keep almost all the interesting areas but with some useless features. The FCM method also could keep the interesting areas and also can wipe away more background area than HCM method. Therefore, FCM segmentation method was proved more appropriate for the Xinjiang Uygur medicine image segmentation, which served as a basic research on Xinjiang Uygur medicine image feature extraction, classification and retrieval.
Key words: Xinjiang Uygur herbal medicine; threshold segmentation method; hard C mean clustering method; fuzzy Cmean method; segment herbal image
維吾爾醫(yī)學(xué)是我國傳統(tǒng)民族醫(yī)學(xué),有著悠久的歷史,是維吾爾族人民在長期的生產(chǎn)實踐中,與疾病不斷作斗爭的科學(xué)總結(jié)和智慧結(jié)晶,是中國傳統(tǒng)醫(yī)藥寶庫中的瑰寶。新疆幅員遼闊,地理環(huán)境獨特性和生態(tài)環(huán)境多樣性孕育了豐富的藥材資源[1-4]。目前針對新疆維吾爾藥材圖像的研究較少,維吾爾藥材圖像檢索系統(tǒng)不僅能為新疆各大醫(yī)院和醫(yī)學(xué)院校廣泛應(yīng)用,還可面對社會大眾,讓更多人了解新疆維吾爾醫(yī)藥材的價值。圖像分割是圖像處理中的一個重要環(huán)節(jié)。對圖像進行準(zhǔn)確分割不僅能提高圖像特征提取、分類及檢索的準(zhǔn)確率,還能減少計算量,從而提高檢索系統(tǒng)的整體性能。因此分割方法的選擇至關(guān)重要。
基于聚類分析的圖像分割算法是按照一定的圖像像素相似度準(zhǔn)則,將圖像像素點分配到不同的類別或者是簇中去,并且使得同一類中的像素的特征屬性相差最小,不同區(qū)域的像素特征屬性相差最大。在基于聚類分析圖像分割方法中,最常用的聚類算法包括C均值聚類算法(HCM)、模糊C均值聚類算法(FCM)。C均值聚類算法(HCM)的主要思想是先選K個初始類均值,確定閾值,按照就近原則確定每個像素的歸屬,按照新的劃分,再次確定聚類均值,直到聚類中心新舊類均值之差小于預(yù)先設(shè)置的某一閾值[5-6]。模糊C均值算法是通過使模糊目標(biāo)函數(shù)最優(yōu)化來實現(xiàn)聚類,其是在模糊數(shù)學(xué)基礎(chǔ)上對C均值算法進行推廣,給予每個像素點對于個各類的一個隸屬度,即一個像素點可以在一定程度上屬于多個類,而不是像C均值聚類那樣規(guī)定每個像素點能且只能屬于某一類,隸屬度的使用能夠更好地適應(yīng)分類過程中用邊緣像素亦此亦彼的特點,適合處理事物內(nèi)在的不確定性[7-8]。HCM屬于硬聚類算法,其特點是在分類過程中認(rèn)為每個待識別的像素對象是嚴(yán)格的屬于且只屬于某一個類別,而模糊C均值(FCM)引入了隸屬度函數(shù),用模糊劃分,作為對其的改進。FCM使得每個圖像像素對象對某個類的隸屬度值為0~1,以此來表示像素屬于某個類別的程度。FCM具有非監(jiān)督模糊聚類標(biāo)定的特點,利用這個特點來進行圖像分割,不僅能夠有效減少人為的介入,且能夠很好地適應(yīng)圖像中存在的模糊性和不確定性。由于模糊聚類建立了不確定描述樣本對類別的的歸屬問題,因此更能反映客觀實際問題。
本研究分別利用閾值法、硬C均值法、模糊C均值法分割15幅新疆維吾爾醫(yī)草藥圖像,并與手工分割的圖像結(jié)果進行比較,以評價分算方法的優(yōu)劣。
1分割算法
1.1閾值法本研究采用的15幅新疆維吾爾醫(yī)藥材圖像的感興趣區(qū)域普遍集中在特定的區(qū)域中,因此利用閾值法對藥材圖像進行分割。
1.2C均值聚類算法(HCM)硬C均值聚類算法步驟如下[9-11]:(1)根據(jù)具體圖像特征,確定聚類分組的組數(shù)c和聚類中心更新閾值。(2)憑實踐經(jīng)驗從n個樣本集中選出c個具有代表性的樣本作為初始聚類中心。(3)逐個把n個待分配的樣本按照最小距離分配原則將其歸入與其最近的聚類中心的那一類中。(4)計算新的聚類的樣本均值,將樣本均值作為初始聚類中心,更新聚類中心。(5)對新的聚類中心重復(fù)3、4步驟直至2次聚類中心的差值小于所設(shè)定的閾值或者所有樣本歸入固定的類中,所有樣本分配不再改變?yōu)橹埂?/p>
(1)
(2)
之后,該目標(biāo)函數(shù)又被推廣到更普遍的形式,出現(xiàn)了基于目標(biāo)函數(shù)模糊聚類的一般描述:
(dik)2=‖xk-v1‖=(xk-v1)TA(xk-v1),1≤i≤C,1≤k≤n
(3)
其中dik為歐式距離, m為柔性參數(shù)(加權(quán)指數(shù)),對于m,當(dāng)其值為1時,F(xiàn)CM算法就類似于HCM算法(硬聚類)[7]。 m值越趨近于1則像素的隸屬度越分明,迭代次數(shù)減少,收斂越快,分割時間也越短。m越大,劃分越模糊,當(dāng)m很大時,分割效果不理想。其中A代表一個s×s 的對稱正定矩陣,當(dāng)A是一個單位矩陣時,上式為歐氏距離。
聚類的目標(biāo)是希望取到最小值,當(dāng)與點簇中心靠近的像素被分配到高隸屬度值,遠離中心的點被分配到低隸屬度值時,標(biāo)準(zhǔn)FCM算法是最佳的[13-16]。
即希望
(5)
(6)
優(yōu)化的一階必要條件:
(7)
(9)
當(dāng)2次聚類中心的差值小于所設(shè)定的閾值ε時,則停止。閾值影響著聚類的精確度和速度。當(dāng)閾值的設(shè)定過小時,可能會導(dǎo)致過度計算,并且無法收斂,閾值過大時,算法則會過早收斂,分割不穩(wěn)定[18-20]。其迭代優(yōu)化算法步驟可概括為:(1)初始化:給出聚類個數(shù)c(2≤c≤n),柔性參數(shù)m,和停止迭代的閾值ε;令迭代次數(shù)為N,初始化聚類中心v(0)。(2)計算更新重新劃分的矩陣,按照公式(11)計算新的隸屬度值uik。(3)更新聚類中心v(N)。(4)當(dāng)‖vN+1-v(N)‖<ε時,算法停止,并且輸出劃分的矩陣和相應(yīng)的聚類中心。否則N=N+1,轉(zhuǎn)至第2步。算法通過不斷的更新劃分的矩陣和聚類中心來達到期望效果,并且該算法的收斂性已被證實[21]。
(10)
(11)
2分割結(jié)果與分析
2.1取空白場與原圖像的疊加取空白場是數(shù)字圖像分割研究中最常見的方法之一。使分割后數(shù)字圖像變成灰度值為0與255組成的矩陣,從而得到感興趣區(qū)域形狀,并與原圖像進行疊加。HCM算法、閾值法和FCM算法分割后圖像取空白場的結(jié)果見圖1。
圖像的疊加原理是將2個矩陣進行卷積從而得到新的矩陣。本研究選取的新疆維吾爾醫(yī)藥材圖像為RGB彩色圖像,因此利用R 、G、B 3個同道分別與分割后圖像進行卷積運算,將卷積得到的3個矩陣重新組成R、G、B通道來實現(xiàn)原圖的分割,圖2為彩色圖像分成3個通道后的結(jié)果, 3種算法分割后的圖像見圖3。
2.2分割結(jié)果的評價本研究采用醫(yī)學(xué)影像計算與計算機輔助介入準(zhǔn)則(medical image computing and computer assisted intervention, MIC-CAI)對分割算法進行比較:
原圖
HCM算法分割后圖像取空白場
閾值法分割后圖像取空白場
FCM算法分割后圖像取空白場
圖1不同方法分割后圖像取空白場的結(jié)果圖
原圖
原RGB圖像的R分量
原RGB圖像的G分量
原RGB圖像的B分
圖2彩色圖像分成3個通道后的結(jié)果圖
原圖
閾值法分割后的圖像
HCM分割后的圖像
FCM分割后的圖像
圖33種算法分割后的圖像
(12)
(13)
式中volseg表示分割后的面積,volreg表示手工分割以的面積,A表示計算機分割后圖像,B表示手工分割后的圖像。a和b分別為A和B上的點,dist(a,b)表示a與b的距離,NA與NB分別表示A、B上點的個數(shù)。這些參數(shù)可以直觀地表示分割結(jié)果的質(zhì)量。m1和m2越小,表示計算機分割與手工分割的結(jié)果越接近,m1和m2為零,表示計算機分割與手工分割結(jié)果一致,結(jié)果見表1、2,圖4、5。
表1 面積大小差異評價法
表2 平均表面距離評價法
圖4面積大小差異評價法對比圖
圖5平均表面距離評價法對比圖
3討論
本研究根據(jù)新疆維吾爾醫(yī)藥材圖像的特征,利用閾值法、硬C均值法(HCM)和模糊C均值法(FCM)分別對15幅新疆維吾爾醫(yī)藥材圖像進行分割,采用面積大小差異和平均表面距離評價法對分割后的圖像與手工分割的圖像進行比較,以評價分割算法的優(yōu)劣。結(jié)果表明利用閾值法分割后圖像的面積大小差異的平均值為12.7%,表面平均距離的平均值為2.79灰度值;利用HCM聚類算法分割后圖像的面積大小差異的平均值為12.2%,表面平均距離的平均值為2.7灰度值;利用FCM聚類法分割后圖像的面積大小差異的平均值為9.04%,表面平均距離的平均值為0.96灰度值。結(jié)果顯示,閾值分割算法的分割速率比其他2種算法快,但該方法可能出現(xiàn)過度分割現(xiàn)象而導(dǎo)致信息的流失;硬C均值聚類算法能夠較好地保留感興趣區(qū)域,但分割時圖像背景無法完全舍去而導(dǎo)致無用信息的摻雜;模糊C均值聚類算法分割速率相對較慢,但該算法能得到較完整的感興趣區(qū)域,其整體分割準(zhǔn)確率高于以上2種算法,因此該算法較適于新疆維吾爾醫(yī)藥材圖像的分割。本研究通過比較研究,找到較適于新疆維吾爾醫(yī)藥材圖像的分割算法,為后期圖像的特征提取、分類和檢索奠定基礎(chǔ)。
參考文獻:
[1]胡婷,姚華.新疆維吾爾醫(yī)醫(yī)院現(xiàn)狀分析及對策思考[J].中國民族民間醫(yī)藥,2011,16:20(16):9-11.
[2]謝玲,潘葦芩,劉麗霞,等.新疆維吾爾藥材種植現(xiàn)狀及發(fā)展思路初探[J].新疆中醫(yī)藥,2009,27(6):77-80.
[3]國家中醫(yī)藥管理局.中華本草:維吾爾藥卷[M].上海:上??茖W(xué)技術(shù)出版社,2005:1-367.
[4]新疆維吾爾自治區(qū)革命委員會衛(wèi)生局.新疆中草藥(維吾爾文)[M].烏魯木齊:新疆人民出版社,1973:610-611.
[5]Rafael C,Gonzale Z. Digital image processing second edition[M].北京:電子工業(yè)出版社,2003:68.
[6]王艷華,管一弘. 基于模糊集理論的醫(yī)學(xué)圖像分割的應(yīng)用[D]. 昆明理工大學(xué), 2009.
[7]王志兵,魯瑞華.改進的基于模糊C-均值聚類的圖像分割算法[J].西南大學(xué)學(xué)報, 2009,38(3):58-59.
[8]李艷紅.基于模糊聚類分析的圖像分割算法研究[D].武漢理工大學(xué),2007.
[9]曹可勁,趙宗貴,江漢.基于證據(jù)理論和硬c-均值法的不確定性信息聚類[J].模式識別與人工智能,2006,13(3):182-186.
[10]張榮虎,崔夢夭,鐘勇.基于HCM聚類的連續(xù)域模糊關(guān)聯(lián)算法[J].計算機工程,2011,37(1):161-163.
[11]姜惠蘭,關(guān)穎,劉飛,等.用HCM聚類算法RBF網(wǎng)絡(luò)診斷輸電線路故障[J].高電壓技術(shù),2005,31(6):81-84.
[12]毛罕平,張艷誠,胡波. 基于模糊C均值作物病害葉片圖像的分割研究[J].農(nóng)業(yè)工程學(xué)報,2008,24(9):136-140.
[13]蔡琴.基于內(nèi)容的圖像檢索綜述[J].考試周刊,2013,8:120-122.
[14]詹洪陳,王懷登,何菁,等.基于內(nèi)容的圖像檢索[J].現(xiàn)代電子技術(shù),2014,37(7):68-70.
[15]王娟,孔兵,賈巧麗.基于顏色特征的圖像檢索技術(shù)[J].計算機系統(tǒng)應(yīng)用,2011,20 (7):160-164.
[16]劉益新,郭依正.灰度直方圖特征提取的Matlab實現(xiàn)[J].電腦知識與技術(shù),2009,5(32):9032-9034.
[17]Li ZY, Weng GR. Segmentation of cDNA microarray image using fuzzy c-mean algorithm and mathematical morphology[J]. Key Eng Mater, 2011,464(1): 159-162.
[18]Jaffer MA, Ahmed B, Naveed N, et al.Color video segmentation using fuzzy C-mean clustering with spatial information[J]. WSEAS Transactions on Signal Processing,2009,5(4):138-140.
[19]Selvakumar J, Lakshmi A ,Arivoli T. Brain tumor segmentation and its area calculation in brain MR images using K-Mean clustering and fuzzy C-Mean algorithm[J].Inter Conf Adv Eng,2012:186-190.
[20]Balti A, Sayadi M, Fnaiech F. Segmentation and enhancement of fingerprint images using K-means, Fuzzy C-mean algorithm and statistical features [J]. International Conference on Communications, Computing and Control Applications (CCCA 2011), 2011:1-5.
[21]Wang WG, Wang D,Wang L, et al. Fuzzy C-mean clustering image segmentation algorithm research for sport graphics based on artificial life[J]. Inter Conf Inform Tech Manage Innov,2012:1046-1049.
(本文編輯施洋)