劉銀鳳,張俊杰,周濤,夏勇,吳翠穎
(1.寧夏醫(yī)科大學附屬心腦血管病醫(yī)院 神經內科,寧夏 銀川 750001;2.寧夏醫(yī)科大學 理學院,寧夏 銀川 750004;3.西北工業(yè)大學 計算機學院,陜西 西安 710100)
近年來,隨著空氣質量的惡化、二手煙危害的加深、職業(yè)因素的影響等原因,肺癌已成為世界范圍內發(fā)病率及死亡率最高的惡性腫瘤[1-2],早期發(fā)現(xiàn)是提高肺癌患者治療效果的有效途經[3]。隨著醫(yī)學影像技術的不斷發(fā)展,計算機斷層掃描成像(computed tomography, CT)也成為最能夠凸顯肺部疾病征象的影像學手段[4],現(xiàn)有的多層螺旋CT能夠顯現(xiàn)以往胸片難以發(fā)現(xiàn)的肺部結節(jié)狀小病灶,臨床上稱之為肺結節(jié),肺結節(jié)是肺癌的早期表現(xiàn)形式[5],其中部分惡性結節(jié)極易發(fā)展為肺癌,因此,肺結節(jié)的準確檢測在肺癌治療中的重要性日益凸顯。與計算機專業(yè)學科交叉的計算機輔助檢測(computer-aided detection,CAD)技術能夠從海量的醫(yī)學影像中提取出具有重要參考價值的圖像特征數(shù)據,經過初篩后針對待定信息結合影像醫(yī)生的二次判斷實現(xiàn)肺結節(jié)的雙重篩選,從而在降低醫(yī)生工作量的同時輔助醫(yī)生作出準確的定性判別結果[6],因此,特征級肺結節(jié)檢測也成為生物醫(yī)學工程領域的研究熱點之一,如Santos[7]等提取Tsallis熵和香農熵作為描述特征,利用支持向量機(support vector machine, SVM)對結節(jié)區(qū)域和非結節(jié)區(qū)域進行分類識別;Netto[8]等利用SVM在提取的部分形狀特征和紋理特征集合的基礎上,實現(xiàn)對肺結節(jié)的有效識別;Ye[9]等選用局部形狀特征和局部散度信息作為ROI的特征表達,最后基于SVM進行肺結節(jié)的識別檢測。雖然以上文獻對肺結節(jié)的檢測方法進行了一定的探討,但整體來看,這些方法在特征結構的設計和分類器的構建方面還存在以下不足:
(1)提取特征集合量化ROI時,較少考慮全局特征和局部特征的結合、二維特征和三維特征的結合,并且過少的特征數(shù)據量難以全面地刻畫ROI的特征信息。
(2)分類識別時,分類器的選取難以與數(shù)據特性相匹配,并且未經過優(yōu)化的分類器難以勝任復雜的醫(yī)療數(shù)據。
基于以上原因,本研究提出了一種基于多維特征和SVM核函數(shù)優(yōu)化的自動化肺結節(jié)檢測模型。針對第一個問題,提取了形狀特征、灰度特征和紋理特征共92維特征分量刻畫ROI;針對第二個問題,采用網格尋優(yōu)算法優(yōu)化SVM核函數(shù)并進行肺結節(jié)的分類識別。本研究以100例肺結節(jié)患者的肺部CT影像為原始數(shù)據構建檢測模型,然后以100例肺結節(jié)患者的CT影像為檢測數(shù)據驗證該模型的有效性,實驗結果表明,該模型能夠在一定程度上提升特征結構的合理性和分類識別性能,從而提高肺結節(jié)的檢測效果。
圖像特征是用于描述圖像內容的最基本屬性,選取合理的特征是進行肺結節(jié)準確檢測的關鍵問題。醫(yī)學圖像往往涉及人體各類組織器官,具有數(shù)據海量性、灰度模糊性、結構復雜性、噪聲顯著性等特點,良好的特征既能夠描述結節(jié)的輪廓形狀、灰度分布、與其他組織結構的差異性,也應能夠對圖像的平移、旋轉、縮放等幾何變化具有不變性。
特征的選取并不具有唯一性,對于不同類別的物體、甚至不同成像系統(tǒng)產生的醫(yī)學圖像,都具有特征差異性。如圖1所示,在二維單層CT切片上,血管(圖1(a) )通常為呈長條型并伴有彎曲或分叉,灰度值較低,并由中央區(qū)域向四周遞減性擴散,肺結節(jié)(見圖1(b)、圖1(c))較血管更趨近于圓形,灰度分布相對均勻,而且有些結節(jié)(見圖1(c))甚至存在腔洞。
圖1 肺結節(jié)和血管示例圖
ROI特征由其描述的全面性(即特征分量的維度,過少的特征描述量無法以“多視角”的方式“觀測”病灶的特性)和刻畫的準確性(即反映特征真實性的程度,特征量化數(shù)值偏離真實信息較多會造成特征區(qū)分度過低)共同影響,大量的噪聲信息會降低ROI的特征提取精度,影響最終檢測結果,因此,為全面、準確的表達肺結節(jié)ROI的形態(tài)結構、局部特性,本研究在對肺結節(jié)ROI醫(yī)學征象分析的基礎上,分別從二維和三維角度對病灶進行定性分析和定量刻畫。
(1)形狀特征
形狀特征是最直觀的視覺特征,是醫(yī)生從病理方面更好的理解和判斷肺結節(jié)的重要描述信息。圓形腫塊征、分葉征、棘狀突起征、結節(jié)征與空泡征是描述肺結節(jié)的主要醫(yī)學征象,通常表現(xiàn)在幾何形狀、邊緣粗糙度、拓撲結構的差異上,本研究主要提取的形狀特征如下:
歐拉數(shù)(Eo=C-H,C是連通區(qū)域個數(shù),H表示空洞數(shù))能夠度量結節(jié)的空泡征,計算區(qū)域的空洞數(shù)目,其值越小,表示結節(jié)空洞數(shù)目越多。
幾何不變矩取決于ROI的坐標,描述了灰度值的密度分布情況,Hu定義了7種不變矩,用于描述幾何不變性[5]。
(2)灰度特征
肺部 CT圖像是灰度成像, 區(qū)域間的灰度級差異可以量化表示為不同的組織和結構?;叶忍卣魇怯枚康姆椒枋鰣D像區(qū)域的最基本、最簡單的特征,本研究提取的灰度特征如下:
均值(E(I)=∑I*P(I),P(I)圖像I的像素分數(shù))反映了圖像整體的明暗程度,方差(D(I)=E[(I-E(I))2])反映了圖像的對比度,由于血管的亮度較大,對比度強,信息量豐富,所以,相近大小情況下,其灰度均值、方差也較結節(jié)大。
偏斜度(skewness,S(I)=∑(I-E(I))3P(I))是指像素概率分布非對稱的度量,反映在曲線的偏斜程度上。通過觀察可以發(fā)現(xiàn),血管大多為高亮區(qū)域,更傾向于偏態(tài)分布。
峰度(kurtosis,K(I)= ∑(I-E(I))4P(I))是指像素概率分布銳度的度量,反映在分布曲線頂峰的高低程度,峰度系數(shù)越大,分布就有更多的極端值,血管的峰度系數(shù)一般大于結節(jié)。
邊緣梯度(gradient,G(x,y)=dx(i,j)+dy(i,j) )反映了圖像邊緣上的灰度變化,可以由此描述結節(jié)和其他組織的邊緣差異。
拉普拉斯散度均值(Elm(Ai)=mean(Ai×La))根據拉普拉斯算子La與原始CT影像卷積后的結果發(fā)現(xiàn),結節(jié)周圍灰度值差異較小的區(qū)域其散度卻有明顯的不同,因此,計算拉普拉斯散度有利于區(qū)分肺結節(jié)與干擾雜質。
拉普拉斯散度距離(Eld(Ai)=max(Ai×La)-min(Ai×La))是拉普拉斯散度的最大值與最小值的差值,描述了區(qū)域散度的變化范圍。
(3)紋理特征
一階灰度統(tǒng)計特征描述了圖像灰度級分布的相關信息,基于統(tǒng)計法的紋理特征是從間隔等距離的空間像素間變化關系刻畫肺結節(jié)潛在的特征,目前常用的幾種表示方法有灰度共生矩陣(gray-level co-occurrence matrix,GLCM),灰度梯度共生矩陣(gray level-gradient co-occurrence matrix),Tamura紋理特征。
GLCM本身只能描述紋理的粗細,為定量的描述紋理特性,需要從中提取以下有關特征量:
圖像的灰度和梯度分別是構成一幅圖像區(qū)域和邊緣輪廓的基本要素,灰度-梯度共生矩陣不僅反應了圖像灰度和梯度的分布規(guī)律,同時也描述了各像素點與其鄰域點之間的空間關系[10]。Tamura紋理特征的六個分量對應著六種直觀視覺感觸,分別是粗糙度、對比度、方向度、 線性度、規(guī)整度和粗略度,前三個分量就可以充分描述紋理的視覺特征,彌補了GLCM視覺特征不明顯的缺點。
分類器的優(yōu)化可通過兩種形式實現(xiàn):優(yōu)化單個分類器的參數(shù)設置;多個分類器以Adaboost的方式加權增強。SVM是一種基于統(tǒng)計理論的機器學習方法,其主要思想是利用有限的訓練樣本構造最佳超平面,使距離超平面最近的不同分類元素之間的距離最大化。SVM具有學習能力強、訓練時間短、選擇參數(shù)少、泛化能力好、擬合精度高、局部最優(yōu)即全局最優(yōu)等優(yōu)點,常被用于目標檢測,模式識別[11-12]。SVM的優(yōu)化函數(shù)和分類函數(shù)為:
(1)
(2)