陳樹越,黃 萍,朱 軍,劉佳鑌
(常州大學(xué) 信息科學(xué)與工程學(xué)院, 江蘇 常州 213164)
肺癌[1,2]的早期表現(xiàn)形式[3-5]是直徑小于3 cm的肺內(nèi)類圓形肺結(jié)節(jié)。如何準(zhǔn)確識(shí)別肺結(jié)節(jié)是肺部疾病診斷的難點(diǎn),對于預(yù)防早期肺癌具有重要醫(yī)學(xué)意義。
針對孤立性肺結(jié)節(jié)的識(shí)別方法,Khobragade等[6]使用基于ANN的圖像分類算法來檢測肺部疾病,但存在過擬合的問題;Zhou等[7]提出基于SVM和CT圖像特征水平融合的肺結(jié)節(jié)檢測算法,但使用SVM時(shí)對參數(shù)和核函數(shù)的選取比較困難。相對上述傳統(tǒng)的分類算法,極限學(xué)習(xí)機(jī)(ELM-extreme learning machine)的泛化性能更好,能夠避免局部最小值和過擬合等問題。Chen等[8]利用基于小波的ELM在癲癇發(fā)作方面做了預(yù)測研究,實(shí)驗(yàn)研究表明該方法不僅提高了檢測精度,而且提高了學(xué)習(xí)效率;孫俊等[9]在生菜葉片的研究中,利用ELM分類算法對氮素水平做了分類;Lu等[10]將改進(jìn)的ELM算法應(yīng)用到腦部檢測系統(tǒng)中,結(jié)果表明改進(jìn)的ELM對于病理性腦部檢測的結(jié)果更加準(zhǔn)確可靠。因此將ELM算法引入肺結(jié)節(jié)的識(shí)別,但在分類過程中,不相關(guān)特征會(huì)使分類器的性能下降。為了解決上述問題,將Relief特征加權(quán)框架運(yùn)用于ELM分類中。首先根據(jù)候選結(jié)節(jié)的特征利用k-means聚類算法去除大量干擾結(jié)節(jié)檢測的血管,然后利用Relief特征加權(quán)ELM分類算法對候選結(jié)節(jié)分類。實(shí)驗(yàn)結(jié)果表明,基于Relief特征加權(quán)ELM能較好地適用于肺結(jié)節(jié)識(shí)別。
肺結(jié)節(jié)CT圖像檢測與識(shí)別的研究對象主要是肺部CT圖像中的孤立性肺結(jié)節(jié)。圖1為肺結(jié)節(jié)檢測與識(shí)別的流程。
圖1 肺結(jié)節(jié)檢測與識(shí)別
為了減小肺結(jié)節(jié)的檢測范圍,提高結(jié)節(jié)檢測的準(zhǔn)確率,肺實(shí)質(zhì)分割在肺結(jié)節(jié)檢測與分類過程中必不可少。因此,利用一種自動(dòng)分割肺實(shí)質(zhì)區(qū)域的方法[11],該方法結(jié)合了閾值處理、區(qū)域生長以及形態(tài)濾波等技術(shù)。
如圖2(a)所示肺部CT圖像,肺實(shí)質(zhì)與其周圍區(qū)域的灰度值相差較大,可首先采用最大類間方差閾值法對肺部CT圖像進(jìn)行初始分割,如圖2(b)所示。利用區(qū)域生長、填充等方法來去除干擾組織,如背景、血管等,得到的肺實(shí)質(zhì)模板如圖2(c)所示。最后將此肺實(shí)質(zhì)模板乘以原始圖像即為要得到的完整的肺實(shí)質(zhì),如圖2(d)所示。
圖2 肺實(shí)質(zhì)分割
采用最優(yōu)閾值法對肺實(shí)質(zhì)進(jìn)行初始分割,去除肺實(shí)質(zhì)中的干擾部分,得到肺實(shí)質(zhì)感興趣區(qū)域。由于一些面積非常小的高亮噪聲點(diǎn)的存在,因此利用連通成分的方法來去除這些高亮噪聲點(diǎn),最終得到的感興趣區(qū)域如圖3所示。
圖3 感興趣區(qū)域
通常情況下肺結(jié)節(jié)表現(xiàn)為圓形,而血管根據(jù)切片的方向不同表現(xiàn)為圓形血管、條狀血管、交叉型血管。由圖3所示的初步分割后的感興趣區(qū)域可以看出,感興趣區(qū)域含有大量的假陽性結(jié)節(jié),大量的候選結(jié)節(jié)會(huì)增加后續(xù)特征提取與分類的工作量。因此為了進(jìn)一步提取候選結(jié)節(jié),減少假陽結(jié)節(jié)的數(shù)量,對初步分割后得到的感興趣區(qū)域進(jìn)行篩選。
由于類圓形血管和初期的肺結(jié)節(jié)的形狀特征相同,所以僅僅通過形狀特征不能排除干擾候選結(jié)節(jié)篩選的假陽性。由于血管的灰度分布均勻,像素灰度值相差不大,而肺結(jié)節(jié)的灰度呈正態(tài)分布,中間亮,兩邊比較暗,像素灰度值相差較大,所以肺結(jié)節(jié)的灰度直方圖熵值比血管的灰度直方圖熵值大。利用k-means聚類與類圓度和灰度直方圖熵這兩個(gè)特征對感興趣區(qū)域進(jìn)一步提取候選結(jié)節(jié),減少假陽性結(jié)節(jié),得到最終要提取的候選結(jié)節(jié)如圖4所示。
圖4 候選結(jié)節(jié)
圖4中黑色邊框部分表示聚類后得到的候選結(jié)節(jié),由于每張孤立性肺結(jié)節(jié)的CT圖像中最多含有一個(gè)肺結(jié)節(jié),所以圖中得到的候選結(jié)節(jié)中仍然存在假陽性。
1.3.1 特征提取
候選肺結(jié)節(jié)特征選擇的優(yōu)劣將直接影響肺結(jié)節(jié)的分類結(jié)果。通過孤立性肺結(jié)節(jié)在CT圖像中的表現(xiàn)形態(tài),提取類圓度M1和灰度直方圖熵M2對感興趣區(qū)域聚類,降低候選結(jié)節(jié)的假陽性,提高檢測效率。針對候選結(jié)節(jié)中仍然存在假陽性,繼續(xù)對候選結(jié)節(jié)進(jìn)行識(shí)別分類,提取候選結(jié)節(jié)的特征,如灰度均值A(chǔ)ve、緊湊度M3和紋理特征,其中候選結(jié)節(jié)區(qū)域的紋理特征是通過灰度共生矩陣來分析肺結(jié)節(jié)的空間分布特征,選擇對比度Con,相關(guān)性Cor,能量Ery和熵Ent這4個(gè)參數(shù)作為描述反應(yīng)候選結(jié)節(jié)區(qū)域變化的因子,反應(yīng)不同灰色尺度在相對空間的分布特征。
(1)類圓度用來表示目標(biāo)區(qū)域與圓形的相似度。其值越接近于1,說明與圓越相似。其表達(dá)式為
(1)
式中:A為肺結(jié)節(jié)區(qū)域內(nèi)像素的總和。
(2)灰度直方圖熵表示圖像灰度區(qū)域的信息量,其表達(dá)式為
(2)
式中:c(k)為各個(gè)元素歸一化后得到的相應(yīng)的灰度級(jí)的分布概率。
(3)灰度均值
(3)
式中:圖像I大小為M×N,I(x,y)為像素的(x,y)的灰度值。
(4)緊湊度表示邊緣光滑的程度。邊界越復(fù)雜越粗糙,緊湊度越小[12]。其表達(dá)式為
(4)
式中:P是區(qū)域輪廓的周長。
(5)對比度Con反映圖像紋理溝紋的深淺程度和清晰度。紋理溝紋越淺,對比度越小,圖像越模糊;反之,對比度變大,視覺效果也變得清晰。其表達(dá)式為
(5)
(6)相關(guān)性Cor用來衡量局部領(lǐng)域的線性依賴性。其表達(dá)式為
(6)
(7)能量Ery反映圖像灰度分布均勻性。圖像的紋理越粗,能量越大,反之越小。其表達(dá)式為
(7)
(8)熵Ent用來度量圖像具有的信息量。圖像中紋理越少,則該圖像的熵值越小,反之越大。其表達(dá)式為
Ent=-∑i,jp(i,j)logp(i,j)
(8)
1.3.2 特征歸一化
由于每個(gè)特征的提取都是單獨(dú)進(jìn)行的,因此各個(gè)特征的數(shù)量級(jí)不同。所以不能直接將提取的特征數(shù)據(jù)直接進(jìn)行分類處理,需要對特征進(jìn)行歸一化處理。采用零均值標(biāo)準(zhǔn)化的方法將原始數(shù)據(jù)集歸一化為均值為0、方差為1的數(shù)據(jù)集,歸一化公式如下
(9)
式中:μ和σ分別為原始數(shù)據(jù)的均值和方差。
ELM[13]是在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上發(fā)展而來的,用來求解單隱層神經(jīng)網(wǎng)絡(luò)的算法。ELM通過隨機(jī)初始化輸入權(quán)重和偏置來產(chǎn)生唯一的解。
對于有L個(gè)隱層節(jié)點(diǎn)的單隱層神經(jīng)網(wǎng)絡(luò)可以用數(shù)學(xué)模型描述如下
(10)
Hβ=T
(11)
式中:H是隱藏層節(jié)點(diǎn)的輸出,β為輸出權(quán)重,T為期望輸出
(12)
一旦輸入權(quán)重Wi和隱藏層的偏置bi被確定,隱藏層的輸出矩陣H就可以被唯一確定。通過求解Hβ=T線性系統(tǒng)代替訓(xùn)練單隱層神經(jīng)網(wǎng)絡(luò)。因此輸出權(quán)重β可以被確定為
(13)
式中:H+是矩陣H的Moore-Penrose廣義逆。
Relief算法是由Kira等[14]提出的,目前已經(jīng)廣泛的應(yīng)用于數(shù)據(jù)特征選擇、分類等方面。特征屬性的重要程度主要根據(jù)樣本類內(nèi)和類間的距離來評判。
(14)
由于一些弱相關(guān)的特征會(huì)影響分類結(jié)果的準(zhǔn)確性,因此給出了基于Relief特征加權(quán)的ELM分類算法(Relief-ELM算法)。
2.3.1 特征權(quán)重的計(jì)算
當(dāng)一個(gè)屬性類別比較容易判斷時(shí),意味著與同類樣本間的距離較近,此時(shí)特征屬性的權(quán)重就較小。反之,與非同類樣本間的距離較遠(yuǎn),特征屬性的權(quán)重就較大。在此規(guī)則基礎(chǔ)上,將Relief算法用于候選結(jié)節(jié)特征權(quán)重的計(jì)算,算法如下。
Algorithm 1:求解訓(xùn)練集特征權(quán)重
Input:帶有標(biāo)簽的候選結(jié)節(jié)特征數(shù)據(jù)X
Output:每組數(shù)據(jù)的權(quán)重向量
(2)fori=1 ton;
(3)隨機(jī)選擇一個(gè)樣本xi
(4)尋找xi類內(nèi)最近鄰樣本L和類間最近鄰樣本M
利用式(14)對候選結(jié)節(jié)的特征權(quán)值進(jìn)行訓(xùn)練,特征分類能力越強(qiáng)的賦予的權(quán)重越大,反之,特征分類能力越弱的賦予的權(quán)重越小。
2.3.2 Relief-ELM分類模型思想
根據(jù)求出的候選結(jié)節(jié)各個(gè)特征的權(quán)值,對歸一化后的候選結(jié)節(jié)的特征數(shù)據(jù)進(jìn)行縮放,將各個(gè)特征屬性向量乘以相應(yīng)權(quán)重,作為輸入樣本輸入到ELM網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,最后利用訓(xùn)練好的ELM網(wǎng)絡(luò)模型對肺結(jié)節(jié)測試數(shù)據(jù)集中的圖像進(jìn)行自動(dòng)分類。具體算法如下:
肺結(jié)節(jié)檢測訓(xùn)練算法:
Algorithm 2:肺結(jié)節(jié)訓(xùn)練算法
Input:L:隱藏層層數(shù),T:醫(yī)生對肺結(jié)節(jié)訓(xùn)練樣本的診斷結(jié)果,W:各個(gè)候選結(jié)節(jié)特征對應(yīng)的特征權(quán)重;
Output:ELM的參數(shù)β;
(1)fori=1 toL
(2)隨機(jī)生成隱藏層偏置參數(shù)bi
(3)根據(jù)式(12)計(jì)算隱藏層輸出矩陣H;
(5)返回β
肺結(jié)節(jié)分類算法描述如下:
Algorithm 3:肺結(jié)節(jié)分類算法
Input:F為測試樣本,L,W,b,β;
Output:T對測試樣本的分類結(jié)果;
(1)利用F,W,b計(jì)算隱藏層輸出矩陣H;
(2)根據(jù)式(11)計(jì)算候選結(jié)節(jié)的分類結(jié)果T;
(3)返回T。
根據(jù)返回的結(jié)果T與醫(yī)生對肺結(jié)節(jié)的診斷結(jié)果進(jìn)行對比來判斷分類器的分類效果。
交叉驗(yàn)證能夠在有限的學(xué)習(xí)數(shù)據(jù)中從多個(gè)方向?qū)W習(xí)樣本來獲取盡可能多的有效信息,能夠有效地避免過擬合的問題,保證分類器的分化性能。采用四折交叉驗(yàn)證,將肺部CT圖像被隨機(jī)分成4組,使得每組數(shù)量幾乎相等;用第一組作為測試集,其余的3組作為訓(xùn)練集,獲得第一組分類的準(zhǔn)確率A1;其余各組依照上面的方法對所有的數(shù)據(jù)進(jìn)行分類得到其余兩組的準(zhǔn)確率A2,A3,A4。計(jì)算分類的準(zhǔn)確率如下式所示
ACCfinal=avg(A1,A2,A3,A4)
(15)
根據(jù)肺結(jié)節(jié)醫(yī)學(xué)影像表現(xiàn),聚類后的候選結(jié)節(jié)要么是結(jié)節(jié),要么是非結(jié)節(jié)即血管兩種情況。采用臨床醫(yī)學(xué)界的一種診斷疾病的方法-金標(biāo)準(zhǔn)來判斷目標(biāo)區(qū)域是否為結(jié)節(jié)。肺結(jié)節(jié)診斷評價(jià)標(biāo)準(zhǔn)見表1。
表1 肺結(jié)節(jié)診斷評價(jià)標(biāo)準(zhǔn)
其中,TP表示結(jié)節(jié)被正確劃分的個(gè)數(shù);FN表示結(jié)節(jié)被錯(cuò)誤劃分的個(gè)數(shù);TN表示非結(jié)節(jié)被正確劃分的個(gè)數(shù);FP表示非結(jié)節(jié)被錯(cuò)誤劃分的個(gè)數(shù)。肺結(jié)節(jié)分類識(shí)別檢測的結(jié)果采用敏感度、特異性、誤診率、漏診率、準(zhǔn)確率作為實(shí)驗(yàn)分類性能的評價(jià)指標(biāo)。計(jì)算公式如式(16)所示
(16)
實(shí)驗(yàn)數(shù)據(jù)采用肺部影像數(shù)據(jù)庫聯(lián)盟(lung image database consortium,LIDC)數(shù)據(jù)集[15]。從LIDC數(shù)據(jù)集中選擇128幅肺部CT圖像作為實(shí)驗(yàn)數(shù)據(jù),根據(jù)放射科醫(yī)生的注釋得知每幅圖像中只有一個(gè)結(jié)節(jié)。聚類后得到248個(gè)候選結(jié)節(jié),其中包含128個(gè)真陽結(jié)節(jié)和120個(gè)假陽結(jié)節(jié)。
實(shí)驗(yàn)將248個(gè)樣本的8個(gè)特征屬性數(shù)據(jù)運(yùn)用Relief特征加權(quán)算法進(jìn)行實(shí)驗(yàn),求出不同的特征屬性在分類中不同的貢獻(xiàn)。類圓度、灰度直方圖熵、灰度均值、緊湊度、對比度、相關(guān)性、能量和熵等8個(gè)屬性按照順序在Relief算法中通過四折交叉運(yùn)算計(jì)算出的權(quán)重均值變化趨勢如圖5所示。其中,類圓度為8.14,灰度直方圖熵為6.81,灰度均值為7.80,緊湊度為1.15,對比度為0.16,相關(guān)性為0.11,能量為1.07,熵為0.17。
圖5 8個(gè)特征屬性的權(quán)重
按照從大到小順序排列,可知各個(gè)屬性的權(quán)重關(guān)系如下:屬性1>屬性3>屬性2>屬性4>屬性7>屬性8>屬性5>屬性6,可以看出屬性1類圓度是最主要的影響因素。其次是屬性3灰度均值和屬性2灰度直方圖熵,后面幾個(gè)屬性的權(quán)重大小相近,但是還是對分類有著不同的重要程度。
本文在特征選擇為了獲得最優(yōu)特征組合,根據(jù)各個(gè)特征屬性權(quán)重的大小,從大到小不斷組合特征屬性,得到的準(zhǔn)確率見表2。
表2 不同特征組合后的準(zhǔn)確率
由表2可以看出特征屬性1、3、2、4、7即類圓度、灰度均值、灰度直方圖熵、緊湊度、能量這5個(gè)特征組合所得的分類準(zhǔn)確率最高,所以將這5個(gè)特征選為最優(yōu)特征組合。
對比實(shí)驗(yàn)中檢測肺結(jié)節(jié)的步驟是:首先根據(jù)肺結(jié)節(jié)的形狀和灰度特征對感興趣區(qū)域聚類得到候選結(jié)節(jié);然后提取候選結(jié)節(jié)的幾何特征和紋理特征,最后利用支持向量機(jī)(SVM)和極限學(xué)習(xí)(ELM)進(jìn)行分類,將結(jié)節(jié)和非結(jié)節(jié)分離開來?;诮徊骝?yàn)證的3種分類算法的肺結(jié)節(jié)檢測錯(cuò)誤率的對比見表3。其中Y表示被檢測為非結(jié)節(jié)的樣本數(shù)量/該組結(jié)節(jié)樣本數(shù),N表示被檢測為結(jié)節(jié)的樣本數(shù)量/該組非結(jié)節(jié)樣本數(shù),T表示被錯(cuò)檢的數(shù)量/該組測試的總的樣本數(shù)。從表中SVM算法、ELM算法以及本文算法相比較可以看出,SVM算法的錯(cuò)檢率為13.31%,ELM算法的錯(cuò)檢率為6.45%,可以看出相對于傳統(tǒng)的分類算法,ELM算法的錯(cuò)檢率減少了一半,具有更好的分類性能。而本文算法的錯(cuò)檢率只有4.03%,較傳統(tǒng)的ELM分類算法錯(cuò)檢率有所降低,說明經(jīng)過特征加權(quán)優(yōu)化后的ELM相對于傳統(tǒng)的ELM更適用于肺結(jié)節(jié)的檢測。
表3 錯(cuò)檢率對比
本文算法與SVM分類算法和ELM算法對比見表4。從表格實(shí)驗(yàn)數(shù)據(jù)分析可知:本文方法對于肺結(jié)節(jié)檢測的精確度達(dá)到95.97%,而對比實(shí)驗(yàn)SVM和ELM方法得到的準(zhǔn)確率分別為是86.69%、93.55%,準(zhǔn)確率分別提高了9.28%,2.42%。由于漏診對于患者是致命的,所以對于肺結(jié)節(jié)的檢測應(yīng)該盡量減少漏診。本文方法在漏診率方面,相比較于SVM算法和ELM算法分別降低了12.15%、4.66%,這對于患者能夠提高肺癌的診斷質(zhì)量和效率。本文方法的誤診率相對于對比實(shí)驗(yàn)的方法分別降低了5.96%、0.18%。
根據(jù)式(16)計(jì)算出對比實(shí)驗(yàn)SVM算法的敏感度和特異性分別為83.69%,90.65%,ELM算法的敏感度和特異性分別為91.18%,96.43%,而本文算法的敏感度和特異性分別為95.38%,96.61%。本文算法相對于SVM算法有11.69%敏感度的提高和5.96%特異性的提高。而相對于傳統(tǒng)的ELM算法有4.2%敏感度的提高和0.18%特異性的提高,這表明在權(quán)重分配時(shí),Relief-ELM算法分配的權(quán)重科學(xué),適用于肺結(jié)節(jié)的分類,具有較高的靈敏度和特異性。
表4 對比實(shí)驗(yàn)
不同算法的分類性能評價(jià)如圖6所示,從圖中可以直觀地看出對比實(shí)驗(yàn)SVM算法和ELM算法的準(zhǔn)確率、敏感度和特異性都低于本文方法,而漏診率和誤診率均高于本文方法,表明Relief-ELM的各項(xiàng)評價(jià)指標(biāo)都優(yōu)于SVM算法和ELM算法。
圖6 不同算法的分類性能比較
所提出的基于聚類和特征加權(quán)ELM的兩級(jí)分類肺結(jié)節(jié)識(shí)別方法,首先利用肺結(jié)節(jié)的灰度和形狀特征提取候選結(jié)節(jié),剔除假陽性結(jié)節(jié),降低后續(xù)的工作量;再提取候選結(jié)節(jié)的特征,利用Relief特征加權(quán)算法對候選結(jié)節(jié)的每個(gè)特征賦予不同的權(quán)重,提高了診斷的準(zhǔn)確率。權(quán)重較高的特征對于類別的區(qū)分能力就較強(qiáng),權(quán)重低的對類別的區(qū)分能力就較弱。實(shí)驗(yàn)結(jié)果表明:相對于SVM算法和傳統(tǒng)的ELM算法,Relief-ELM對肺結(jié)節(jié)的分類具有較好的分類性能,在提高準(zhǔn)確率的同時(shí),能夠降低誤診率和漏診率。今后的研究工作是在當(dāng)前工作的基礎(chǔ)上對已經(jīng)檢測出的肺結(jié)節(jié)進(jìn)行良惡性分類。