譚 征,祝曉鳳
(煙臺大學計算機與控制工程學院,山東 煙臺 264005)
醫(yī)學圖像精確處理技術(shù)一直是受到國內(nèi)外相關(guān)專家學者關(guān)注的課題,對數(shù)字化醫(yī)學影像的處理和分析日益成為國內(nèi)外研究熱點之一[1].醫(yī)學圖像的識別需要人工參與的工作較多,采用計算機處理時也會遇到較多困難,例如圖像中存在大量噪聲,拍攝圖像時光源所在的位置對圖像的灰度有明顯影響等.這些干擾因素使得直接進行圖像分割與識別的精確度較低.在數(shù)據(jù)挖掘領(lǐng)域,實用性聚類分析受到越來越多的關(guān)注.密度聚類算法DBSCAN[2](Density-Based Spatial Clustering of Applications with Noise)是聚類挖掘中的經(jīng)典算法之一,該算法能夠識別各種復雜形狀,有效排除噪聲干擾,聚類結(jié)果不受輸入順序的影響,因而得到廣泛應用[3-5].文獻[3]將DBSCAN算法應用于網(wǎng)格計算中的資源管理,將資源分成若干個相似的集合,實現(xiàn)對資源屬性的劃分.由于密度聚類算法在處理實際數(shù)據(jù)集的過程中,常常要對同一數(shù)據(jù)集進行多次的聚類分析,以獲取不同層次有意義的或者感興趣的知識.空間聚類中I/O消耗大,若采用統(tǒng)一參數(shù),聚類質(zhì)量會較差[4].文獻[5]針對空間數(shù)據(jù)挖掘討論了DBSCAN算法中的2個參數(shù)的選擇,利用參數(shù)的設置,去除噪音等低密度數(shù)據(jù),通過調(diào)整參數(shù),獲取高密度簇.
本文以某醫(yī)院提供的染色精子醫(yī)學圖像為研究對象,圖像中精子的頭部和尾部灰度值差別較大,數(shù)據(jù)點密度差別也很大,如果采用調(diào)整參數(shù)的方式,需要多次測試參數(shù)的取值.因此本文對圖像采用分步處理的方式,利用兩階段的DBSCAN 算法對樣本圖像進行聚類分析,盡可能減少噪音數(shù)據(jù)點的干擾,從源圖像中識別出目標圖像,自動對清晰度不高的醫(yī)學圖像數(shù)據(jù)進行不規(guī)則形狀聚類劃分,顯示圖像樣本中測試細胞的數(shù)目,為醫(yī)護人員判定患者的患病情況提供有效依據(jù).
由于原始數(shù)據(jù)圖像存在噪聲等干擾信息,因此需要預處理步驟盡可能地去除噪聲和光源偽影干擾,凸顯目標位置對比度,盡可能保留有效數(shù)據(jù),刪除干擾數(shù)據(jù),減輕計算量;把精子頭部、尾部分開處理以提高聚類算法的效果.本文的預處理過程包括:(1)RGB圖像轉(zhuǎn)化成灰度圖.(2)借助灰度直方圖確定閾值以實現(xiàn)對高密度區(qū)域(精子頭部)的分割.(3)通過對背景進行估計來移除背景.(4)最后通過線性變換增強目標對象的灰度.
(1)RGB圖像轉(zhuǎn)化成灰度圖
將圖1所示原始圖像的RGB轉(zhuǎn)化為灰度圖像是依據(jù)公式:I=0.299×R+0.587×G+0.114×B進行的[6],顯示并將整個RGB圖像轉(zhuǎn)化成灰度圖像,見圖2.
圖1 原始圖像
圖2 灰度圖像
(2)高密度區(qū)域分割
灰度直方圖是關(guān)于灰度級的函數(shù),用于描述圖像中具有該灰度級像素的個數(shù),即一個灰度圖像最基本的統(tǒng)計特征[6].
根據(jù)灰度直方圖設定精子頭部、尾部分離的閾值,頭部是亮區(qū),即灰度值高于集中區(qū)域灰度值,范圍:140~150.由圖2可知圖像的反差很小,對比度不高.對灰度圖像進行二值化處理,圖像中所有大于閾值T的灰度值可用數(shù)值1取代,而所有小于或等于T的灰度值可用數(shù)值0取代,分離并保留出頭部數(shù)據(jù),此時仍然有少量背景噪音點,見圖3.
圖3 頭部數(shù)據(jù)二進制圖像
(3)背景模型估計及背景移除
如果對整體圖像設置對比度閾值來進行二值化,會有很高的誤差,很多目標細胞位置不能正常顯示,而且在目標細胞周圍產(chǎn)生大量的噪音點,很難進一步去除,因此本文根據(jù)用戶設置的背景閾值估算背景像素[7].由于背景為暗區(qū),灰度級較低,使用背景閾值范圍內(nèi)的灰度最小值估計本區(qū)域范圍內(nèi)的背景值,見圖4.源數(shù)據(jù)圖像與背景圖像做減法,由于整體數(shù)據(jù)都做了減法,整體的圖像會變得很暗,但是背景光照的干擾卻極大減弱了.
圖4 背景估計
(4)對比度提高
背景移除后,包括目標細胞在內(nèi)圖像都變暗了,需要對整體圖像增強,此處采用線性灰度變換的方法.設原始圖像像素灰度f的范圍為[a,b],線性變換后的圖像灰度g范圍為[a′,b′],灰度g與灰度f之間的關(guān)系為
采用線性變換的方式對圖像中的每一個像素灰度做線性拉伸,有效地改善了圖像的視覺效果,見圖5.提高目標細胞的亮度,削弱背景的亮度,提高整個圖像目標細胞的對比度.將灰度圖像轉(zhuǎn)化為二進制圖像,成為DBSCAN算法可以處理的數(shù)據(jù),但是目標細胞周圍有噪音點.
圖5 對比度提高的圖像
DBSCAN算法是基于密度的聚類算法,由于它可以確定出任意不規(guī)則形狀的高密度簇,因此得到很廣泛的應用.DBSCAN算法中的參數(shù)包括對象的鄰域半徑ε以及該鄰域內(nèi)數(shù)據(jù)點的閾值MinPts.某點的ε鄰域內(nèi)的點數(shù)超過閾值,便成為核心點.該算法通過判斷該點是否為核心點,進而決定如何擴展簇.本文采用DBSCAN算法對數(shù)據(jù)圖像進行聚類,給出其中重要參數(shù)Eps和Minpts的確定方法.
DBSCAN算法描述如下:
輸入: 包含n個數(shù)據(jù)對象的數(shù)據(jù)集合,半徑Eps,鄰域中數(shù)據(jù)對象數(shù)目閾值MinPts;
輸出: 簇聚類結(jié)果.
(1) Repeat;
(2) 從數(shù)據(jù)集合中抽出一個未處理的數(shù)據(jù)點;
(3) IF正在處理點為核心點 THEN 找出對于該核心點是直接密度可達和間接可達的所有數(shù)據(jù)對象,形成一個密度簇;
(4) ELSE繼續(xù)處理下一個點;//正在處理點為非核心對象,不標記處理標簽;
(5) UNTIL 所有數(shù)據(jù)點都被處理.
DBSCAN對Eps和Minpts的參數(shù)很敏感,參數(shù)的選擇可以通過實驗確定.
首先調(diào)用DBSCAN算法直接對預處理(1)、(2)后的圖像進行聚類,結(jié)果發(fā)現(xiàn),由于噪聲的影響,聚類結(jié)果不準確,樣本圖像中的精子數(shù)量為38個,識別的結(jié)果是55個,而且識別出的細胞尾部被截斷,見圖6.
觀察發(fā)現(xiàn),精子頭部圖像屬高密度區(qū),而尾部密度低更易受噪聲的影響,因此本文提出了兩階段的圖像識別算法.第一階段先聚出細胞頭部,以確定精子的數(shù)量;第二階段以頭部為聚類的核心點,識別精子的尾部,而不是采用DBSCAN進行全新的計算.
圖6 使用一次DBSCAN算法處理結(jié)果
兩階段的DBSCAN算法的步驟如下:
輸入:原始數(shù)據(jù)圖像G(512×512,RGB彩色圖像),Eps,Minpts;
輸出:發(fā)現(xiàn)的各簇;
步驟:
(1)RGB圖像G轉(zhuǎn)化成灰度圖;
(2)高密度區(qū)域分割,保留精子頭部數(shù)據(jù)HG;
(3)對HG進行DBSCAN密度聚類,得出各簇C1,C2,…,Ck,每簇是一個精子的頭部;
(4)尾部圖像TG:=G-精子頭部數(shù)據(jù)HG;
(5)對TG進行背景估計和背景移除;
(6)通過線性變換增強TG圖像并二值化;
(7)利用DBSCAN算法,在TG中以C1,C2,…,Ck中的點為核心點,找出所有密度可達的簇.(注:此步驟為每個頭部找出相應的尾部.)
(8)返回.
算法中的步驟1、2、5、6分別對應預處理方法的(1)~(4).作為實際的應用,可以將每個精子的頭部與尾部的比例計算出來,提供給用戶.CT染色精子樣本圖中的染色情況對應精子的蛋白質(zhì)含量,為醫(yī)生判定精子的活性提供依據(jù).統(tǒng)計各精子的頭尾比例,可以提供對病人的整體情況分析.
對于DBSCAN算法,調(diào)整的參數(shù)主要有Eps和Minpts.本文的做法是先對數(shù)字圖像進行分析,找到一個我們認為的最佳參數(shù),然后相對已確定的參數(shù)值,2個參數(shù)分別有變大、變小和不變3種情況,共有9種組合,對這9種組合分別進行實驗(見表1),結(jié)果證明,本文確定的參數(shù)為最佳參數(shù)組合.
(1)參數(shù)選擇
表1 參數(shù)變化對聚類結(jié)果的影響
圖7 Eps和 Minpoints取值
(2)該參數(shù)下的實驗結(jié)果
按以上參數(shù)Eps=2.12,Minpts=9運行兩階段的DBSCAN算法,得出頭部細胞簇如圖8所示,最終結(jié)果如圖9所示.樣本中的38個精子清晰可見,尾部完整.
(3)最佳參數(shù)的確認
Eps和Minpts相對于(1)中已確定的數(shù)值,各有3種變化:變大、變小、不變.根據(jù)排列組合,共有9種情況,本文分別做了實驗,結(jié)果見表1.輸入不變,得到在不同的參數(shù)下的輸出.由表1可知,編號為2、3、5的實驗結(jié)果中圖像識別受參數(shù)影響較大,即Eps變小且Minpts不變、Eps不變且Minpts變大、Eps變小且Minpts變大.在這3種條件下,會使形成核心對象的條件變的更為嚴格,在本文樣例中,甚至無法聚出完整細胞.
圖8 精子頭部簇
圖9 最終的結(jié)果
(4)不同方法時間特性分析對比
文中的DBSCAN算法的執(zhí)行方法較傳統(tǒng)使用方法做了調(diào)整,分為兩步,因為每步的聚類目標明確,使得不僅準確度得到提高,運行效率也得到改善.Minpts值取為9,Eps值取為2.12,在同一臺機器上(軟、硬件環(huán)境一致),一次調(diào)用DBSCAN算法的執(zhí)行時間為94.364 7 s,而本文算法的方法執(zhí)行時間為30.455 3 s,提高了運行效率.
改善圖像質(zhì)量,快速、高效地實現(xiàn)圖像修正重現(xiàn),最大限度地避免噪聲和光源偽影干擾,清晰呈現(xiàn)目標圖像,為現(xiàn)代醫(yī)學臨床診斷治療提供了有力保證.本文在圖像預處理的基礎(chǔ)上,描述了如何通過二次調(diào)用密度聚類算法清晰呈現(xiàn)精子細胞圖像的過程,并確定了DBSCAN算法中2個參數(shù)的最佳值.在實驗中發(fā)現(xiàn)DBSCAN對處理大量數(shù)據(jù)時時間復雜度比較高,從而使系統(tǒng)分析響應較慢.圖像預處理的過程中削弱干擾數(shù)據(jù)上不夠完美,使得處理結(jié)果仍然受到圖像清晰度的影響.這些都是今后的研究中有待進一步解決的.
參考文獻:
[1] 張霞,汪超. 醫(yī)學圖像處理技術(shù)及發(fā)展趨勢[J]. 中外醫(yī)學研究,2010,8(7):22-23.
[2] 毛國君,段立娟,王石,等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2007.
[3] 馬晨明,黃德才,吳天虹,等. 基于QoS的網(wǎng)絡資源聚類管理[J]. 浙江工業(yè)大學學報,2009,37(4):421-425.
[4] 畢方明,王為奎,陳龍. 基于空間密度的群以噪聲發(fā)現(xiàn)聚類算法研究[J]. 南京大學學報:自然科學版,2012,48(4):491-498.
[5] 孫鵬,韓承德,曾濤. S-DBSCAN:一種基于DBSCAN發(fā)現(xiàn)高密度簇的算法[J].高技術(shù)通訊,2012,22(6):589-595.
[6] 秦襄培,鄭賢中. MATLAB圖像處理寶典[M].北京:電子工業(yè)出版社,2011.
[7] 韓曉軍. 數(shù)字圖像處理技術(shù)與應用[M]. 北京:電子工業(yè)出版社,2009.