郭依正, 倪紅軍
(南京師范大學(xué)泰州學(xué)院,江蘇 泰州 225300)
在醫(yī)學(xué)領(lǐng)域中圖像的識別技術(shù)應(yīng)用在不斷提高,對于肝臟的計算機斷層掃描(Computed Tomography,CT)圖像,利用計算機尋找合適的智能識別方法,輔助醫(yī)生進行診斷,已成為計算機和醫(yī)學(xué)交叉領(lǐng)域的研究熱點[1-2]。
特征提取與選擇是圖像識別過程的核心環(huán)節(jié),直接影響著最終結(jié)果的優(yōu)劣。典型的圖像特征包括顏色特征(肝臟CT圖像是典型的灰度圖像,可以提取反映圖像灰度分布的灰度特征)、形狀特征和紋理特征[3-5]。文獻[3]中使用了Gabor紋理特征對肝臟疾病進行分類,文獻[4]中結(jié)合共生矩陣和矩特征進行病灶CT圖像識別,文獻[5]中使用形狀特征區(qū)分肝癌、囊腫和血管瘤等非正常肝組織。
在實際應(yīng)用中,僅僅利用一類特征是很難完整描述一副圖像內(nèi)容的。為了提高正常和異常圖像的識別率,本文綜合提取了顏色、形狀和紋理特征,用局部線性嵌入(Locally Linear Embedding,LLE)的方法對特征數(shù)據(jù)進行降維融合,通過比較實驗,采用改進的混合核函數(shù)支持向量機(Support Vector Machines,SVM)進行分類識別。
本文采用綜合提取顏色、形狀和紋理3類特征形成的組合特征不僅維數(shù)較高,而且特征之間也存在冗余,為了有效利用各類特征,在對組合特征采用標(biāo)準(zhǔn)差變換和極差轉(zhuǎn)換進行規(guī)格化后,利用LLE方法對特征數(shù)據(jù)進行降維融合;再與其他同類典型流形學(xué)習(xí)算法[6-8]進行實驗比較;最后采用改進的混合核函數(shù)支持向量機即Sigmoid核函數(shù)和RBF核函數(shù)線性組合形成的混合核函數(shù)支持向量機進行分類識別。
實驗圖像采集于某醫(yī)院影像診斷科,本文從近4萬余幅腹部CT圖像中,選擇了2 000幅圖像作為本研究的實驗數(shù)據(jù),其中包含1 000幅肝臟正常醫(yī)學(xué)圖像和1 000幅肝臟異常的醫(yī)學(xué)圖像。
每幅CT圖均是灰度級為256的灰度圖,即像素取值范圍為0~255;圖像分辨率為512×512。由于不同個體、不同斷層掃描的腹部CT圖差別較大,為了提高肝臟異常與否的識別率,本文采用交互式自動分割方法獲取感興趣區(qū)域(Region of Interest,ROI),即由用戶點擊感興趣區(qū)域的中心點,通過軟件自動分割出大小為m×n的感興趣區(qū)域。
如圖1所示,分別給出了隨機抽取的兩幅正常肝臟CT圖和兩幅異常肝臟CT圖所確定的感興趣區(qū)域(標(biāo)“-ROT”的圖),本實驗中m=60,n=120。
圖1 隨機抽取的CT圖及其感興趣區(qū)域
本文的實驗方案如圖2所示,主要包括圖像預(yù)處理、特征提取、特征選擇優(yōu)化、改進的SVM識別4個部分:①圖像預(yù)處理的主要工作是獲取感興趣區(qū)域;②特征提取的主要工作是分別利用灰度直方圖、Hu不變矩、Gabor方法提取感興趣區(qū)域的顏色、形狀、紋理特征;③特征選擇優(yōu)化的主要工作是將前述的組合特征規(guī)格化到[0 1]區(qū)間,以及基于LLE的特征降維融合;④通過改進的SVM識別得到圖像異常與否的判斷結(jié)果。
圖2 CT圖像處理與識別實驗方案
特征的提取過程具體包括基于灰度直方圖的顏色特征提取、基于Hu不變矩的形狀特征提取以及基于Gabor的紋理特征提取,為后繼特征選擇和分類識別做準(zhǔn)備。
(1)顏色特征是描述圖像內(nèi)容的最直接的視覺特征。本文基于灰度直方圖,對每幅圖像的感興趣區(qū)域提取了均值μ、方差σ2、傾斜度μs、峰態(tài)μk、能量μN、熵μE等特征。
(2)形狀特征是反映目標(biāo)形狀信息的特征。形狀特征提取是圖像特征提取的重要組成部分,本文提取了基于Hu不變矩的形狀特征,它們具有位移、縮放、旋轉(zhuǎn)等不變性[9]。對每幅圖像的感興趣區(qū)域提取了M1,M2,…,M77個不變矩特征作為圖像的形狀特征。
(3)紋理特征是一種區(qū)域性特征。紋理特征能較好地描述圖像疏密等表面特性,對于區(qū)分肝臟是否異常意義重大。
對于一幅給定的P×Q大小的灰度圖像I(x,y),提取基于Gabor變換的紋理特征[10-11],其離散Gabor小波變換為
在不同方向和尺度上計算變換后的系數(shù)幅度序列
以系數(shù)幅度序列的均值μm,n和標(biāo)準(zhǔn)方差σm,n為分量構(gòu)成特征向量f來描述圖像的紋理:
式中:m,n分別是指定小波的尺度和方向,m=0,1,…,s-1;n=0,1,…,k-1;s為尺度數(shù),k為方向數(shù)。本文實驗中s=4,k=5,即對每幅感興趣區(qū)域提取的Gabor紋理特征向量為f=(μ0,0,σ0,0,μ0,1,σ0,1,…,μ3,4,σ3,4)。
通過上述方法,每幅圖像提取了3類特征,合并構(gòu)成了表征CT圖像內(nèi)容的特征矢量。但因特征矢量維數(shù)高、特征間存在冗余等,并不適合直接用于分類識別,為此,本文采用LLE算法對特征進行降維融合??紤]到特征之間的數(shù)值范圍相差較大,因而需要采用標(biāo)準(zhǔn)差變換和極差轉(zhuǎn)換對提取的特征進行規(guī)格化[12],將所有特征規(guī)格化到[0 1]區(qū)間,從而消除量綱對分類識別的影響。
輸入的高維特征記為X={X1,X2,…,Xn},Xi∈RD,用局部線性嵌入方法進行特征降維,把X映射到低維空間后變?yōu)閅={Y1,Y2,…,Yn},Yi∈Rd。采用K鄰域法或者ε鄰域法,找到離目標(biāo)樣本點最近的K個數(shù)據(jù)點,作為該目標(biāo)點的鄰近點。代價函數(shù)為
式中:Wi,j為Xi和Xi,j間的重構(gòu)加權(quán)值,Xi,j表示Xi的第j個近鄰點,且滿足,如果Xj不是Xi的近鄰點,則Wi,j=0,代價函數(shù)越小,重建的越好。約束關(guān)系為:
式中:M=(I-W)T(I-W)為稀疏陣,需要求解M中最小的(d+1)個特征值所對應(yīng)的特征向量。低維流形Y就是由第2個到第(d+1)個特征向量組合成。
取得了分類特征,下一步應(yīng)構(gòu)建分類器。支持向量機(SVM)已經(jīng)成為當(dāng)前解決分類和回歸等問題方面最流行且功能強大的一種工具[13]。SVM是典型的兩類分類器,其分類函數(shù)[14]為
式中:α是拉格朗日因子;k為核函數(shù);C為懲罰因子。
在使用核函數(shù)SVM時,不同的核函數(shù)往往產(chǎn)生不同的分類效果。目前使用較多的核函數(shù)有Poly(多項式)核函數(shù)、RBF(徑向基)核函數(shù)和Sigmoid核函數(shù)[15]。RBF核函數(shù)屬于局部核,具有良好的局部特性和插值能力,但泛化性能較弱;而Sigmoid核函數(shù)具有較好的全局分類性能和推廣能力,但學(xué)習(xí)能力較弱。
本文將Sigmoid核函數(shù)和RBF核函數(shù)線性組合形成混合核函數(shù)為
式中:δ為核函數(shù)的權(quán)值,δ∈(0,1),本實驗中δ=0.4。
為了對所提方法的有效性進行驗證,本文以前述的實驗方案,實驗用Core i5-4200U/1.6GHz/8GB/240GB計算機,在仿真軟件為Matlab 2012b平臺下,用圖1所示的“za-ROI”和圖2所示的“ya-ROI”2幅圖像為例,通過計算得到了3類特征提取方法提取的特征值,如表1所列,特征值保留3位小數(shù),其中,基于Gabor的紋理特征維數(shù)較高,這里只給出了前四維。
表1 3類特征提取方法所提取的特征示例
特征提取并規(guī)格化后采用LLE算法對組合特征進行降維融合,為了驗證降維后的特征能更好地表達原始醫(yī)學(xué)圖像感興趣區(qū)域的內(nèi)容信息,實驗將各單類特征及融合后特征分別用于分類識別。在圖像數(shù)據(jù)庫中各選擇100幅正常及異常圖像作為訓(xùn)練樣本,目的是能將輸入的肝臟圖像分成正常、異常兩類,分類器統(tǒng)一采用混合核函數(shù)SVM。
圖像識別實驗分別對200、500和800幅待識別圖像進行分類,使用基于灰度直方圖的顏色特征,圖像識別率平均為46.9%,使用基于Hu不變矩的形狀特征,圖像識別率平均為41.7%,使用基于Gabor的紋理特征,圖像識別率平均為83.8%,使用本文基于LLE算法融合后的特征,圖像識別率平均為95.8%。
結(jié)果表明,融合后的特征能更好地表達醫(yī)學(xué)肝臟CT圖像的內(nèi)容,圖像識別率更高。僅使用單類特征只能表達圖像的部分屬性,單類特征分類不能兼顧多方面的考慮,而多類特征融合分類表現(xiàn)出了更優(yōu)越的性能。此外,就單類特征而言,Gabor紋理特征的識別率顯著高于顏色特征和形狀特征的識別率。
為了進一步驗證局部線性嵌入方法降維融合效果,本文還做了橫向比較,將局部線性嵌入算法與拉普拉斯特征映射(Laplacian Eigenmaps,LE)、等距映射(Isometric Mapping,ISOMAP)等典型流形學(xué)習(xí)(Manifold Learning)算法[8]分別做了實驗,結(jié)果如圖3所示。
圖3 LLE與其他典型降維算法比較
實驗結(jié)果表明,局部線性嵌入算法較其他典型流形學(xué)習(xí)算法,在本實驗中,表現(xiàn)出了更好的魯棒性,局部線性嵌入算法在維數(shù)降到11維時達到了最佳識別率。局部線性嵌入算法更能發(fā)掘高維樣本空間內(nèi)非線性結(jié)構(gòu)及規(guī)律,實現(xiàn)優(yōu)化。進一步的實驗發(fā)現(xiàn),基于Sigmoid核函數(shù)和RBF核函數(shù)線性組合形成的混合核函數(shù)支持向量機用于分類識別,較單一核函數(shù)SVM的識別率提高了5%以上。
本文針對醫(yī)學(xué)肝臟CT圖像提出的基于LLE特征降維及改進SVM的肝臟圖像識別方法,通過特征組合、局部線性嵌入算法的特征降維融合、混合核函數(shù)支持向量機分類器,取得了更高的識別率,并經(jīng)實驗驗證了本文方法的可行性和有效性。結(jié)果表明:基于LLE的特征降維融合比單類特征更好的表達了圖像內(nèi)容,待識別圖像經(jīng)改進的混合核函數(shù)SVM分類后,平均識別率為95.8%。
本文的識別結(jié)果可以為醫(yī)生輔助診斷提供參考。對于原始醫(yī)學(xué)肝臟CT圖像內(nèi)容信息復(fù)雜,如何實現(xiàn)自動精確的多類別識別(例如判斷是肝囊腫、還是肝硬化、抑或是肝癌等)值得繼續(xù)深入研究。