朱英亮,仇旭陽(yáng),徐 磊
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院, 上海 200093)
如今,肺癌已嚴(yán)重威脅人類的身體健康,在中國(guó),肺癌在發(fā)病率和死亡率方面在城市人群里居于第一位.由于肺癌早期癥狀不明顯,容易發(fā)生誤診.在診斷不明而進(jìn)行手術(shù)切除的結(jié)節(jié)中約有一半是良性.因此,進(jìn)行早期地準(zhǔn)確診斷并給出合理的治療方案具有非常重大的意義.CT作為無(wú)創(chuàng)輔助診斷的一種重要手段,由于其非介入性、高分辨率等特點(diǎn),在臨床上被廣泛使用.
肺癌在初期表現(xiàn)為結(jié)節(jié)癥狀,利用計(jì)算機(jī)輔助技術(shù)協(xié)助專家對(duì)肺部CT圖像進(jìn)行分析成為臨床上的主要應(yīng)用.
目前利用圖像分析技術(shù)來(lái)輔助醫(yī)生進(jìn)行良惡性肺結(jié)節(jié)的診斷已在臨床上得到了廣泛的應(yīng)用,也是當(dāng)前醫(yī)學(xué)圖像分析領(lǐng)域的熱門(mén)研究課題之一,很多學(xué)者提出了不同的算法模型進(jìn)行良惡性肺結(jié)節(jié)的分類.Sangamithraa等人[1]利用灰度共生矩陣提取肺部結(jié)節(jié)的紋理特征,然后利用反向傳播網(wǎng)絡(luò)(BPN)完成良惡性肺結(jié)節(jié)的分類.Hien等人[2]提出了一種基于圖像小細(xì)胞集的灰度密度分布特征提取算法,利用該算法提取肺部的灰度密度特征,最后用隨機(jī)森林進(jìn)行結(jié)節(jié)的分類. Akram Sheeraz等人[3]提出了一種基于混合特征的支持向量機(jī)(SVM)肺結(jié)節(jié)檢測(cè)和良惡性分類系統(tǒng).但是該方法易受閾值的影響.Duan[4]提出用高斯混合模型(GMM)將提取的結(jié)節(jié)特征分組,再利用Relief和前向選擇算法找局部最優(yōu)特征,最后用最優(yōu)路徑森林進(jìn)行結(jié)節(jié)分類,達(dá)到平均89.8%的識(shí)別率.Yang[5]提出了一種新型的多判別生成對(duì)抗網(wǎng)絡(luò)模型,該模型與編碼器相結(jié)合,用于肺結(jié)節(jié)的良性和惡性分類,識(shí)別率達(dá)到了95.32%,但是運(yùn)行時(shí)間過(guò)長(zhǎng)以及網(wǎng)絡(luò)復(fù)雜.Xie[6]等人一種基于多視角知識(shí)的協(xié)同(MV-KBC)深度學(xué)習(xí)模型,基于ResNet-50網(wǎng)絡(luò)進(jìn)行訓(xùn)練,惡性結(jié)節(jié)的識(shí)別率達(dá)到了95.7%,但是網(wǎng)絡(luò)足夠復(fù)雜,需求的數(shù)據(jù)集大,訓(xùn)練極為耗時(shí),要求的硬件性能過(guò)高.
近些年來(lái),在傳統(tǒng)算法中灰度共生矩陣(GLCM)被各種研究表明是模式識(shí)別的有力基礎(chǔ),利用GLCM計(jì)算出的紋理屬性有助于理解圖像內(nèi)容的細(xì)節(jié),GLCM的使用比主成分分析法(PCA)具有更高的準(zhǔn)確率[7].Raju[8]等人使用了一種高效的與GLCM屬性相關(guān)的模糊C均值(FCM)分割算法,用于在超聲腎圖像中對(duì)腎囊腫和腫瘤進(jìn)行分類.IUW Mulyono[9]等人利用灰度共生矩陣(GLCM)從parijoto水果中提取紋理特征,然后使用K最近鄰(KNN)方法對(duì)它們進(jìn)行分類.Swati Jayade[10]等人提出利用GLCM提取皮膚癌變區(qū)域的圖像特征,將這些特征作為SVM分類器的輸入來(lái)進(jìn)行分類.Huang[11]等人利用灰度共生矩陣提取海洋渦旋的紋理特征進(jìn)行海洋渦旋識(shí)別.Zhou[12]利用灰度共生矩陣提取肺部CT圖像的9種紋理特征.但是良惡性肺小結(jié)節(jié)紋理區(qū)別主要在邊緣[13].因此本文利用灰度-梯度共生矩陣(GGCM)提取肺部CT圖像的14種紋理特征,并改進(jìn)了灰度-梯度共生矩陣中提取邊緣的算子.在此基礎(chǔ)上,本文重點(diǎn)提出了一種基于新的距離度量的ReliefF算法使得重要特征能夠讓同類樣本聚合,不同類樣本分離,并且消除了樣本差異化及數(shù)量的影響,進(jìn)而計(jì)算出對(duì)應(yīng)的紋理特征的權(quán)重值,最后將權(quán)值應(yīng)用到改進(jìn)的k-means算法中構(gòu)建結(jié)節(jié)分類模型.本文所選數(shù)據(jù)集為L(zhǎng)IDC,其中共有1018個(gè)研究實(shí)例.本文從中選取128個(gè)實(shí)例,這些實(shí)例統(tǒng)計(jì)共有452個(gè)肺結(jié)節(jié)(包括247個(gè)惡性結(jié)節(jié),205個(gè)良性結(jié)節(jié),根據(jù)XML文件獲取結(jié)節(jié)良惡性信息).LIDC數(shù)據(jù)庫(kù)中都有一個(gè)XML注釋文件用來(lái)保存肺結(jié)節(jié)的主要特征信息,包含結(jié)節(jié)的惡性程度(良惡性結(jié)節(jié)),大結(jié)節(jié)(直徑≥3mm)的輪廓坐標(biāo),小結(jié)節(jié)(直徑<3mm)的中心點(diǎn)坐標(biāo)等.從247個(gè)惡性結(jié)節(jié)中隨機(jī)選取180個(gè),205個(gè)良性結(jié)節(jié)中隨機(jī)選取150個(gè)作為訓(xùn)練集,剩下的良惡性結(jié)節(jié)作為測(cè)試集.本文采用準(zhǔn)確率和平均準(zhǔn)確率兩種指標(biāo)來(lái)衡量提出算法對(duì)良惡性肺結(jié)節(jié)分類的準(zhǔn)確性和有效性.
本文提出的方法主要包括以下4個(gè)步驟,并且算法流程圖如圖1所示.
1)運(yùn)用中值濾波去除噪聲和直方圖均衡化對(duì)CT圖像進(jìn)行增強(qiáng);
2)提取CT圖像中肺結(jié)節(jié)區(qū)域;
3)運(yùn)用改進(jìn)的灰度-梯度共生矩陣提取肺結(jié)節(jié)ROI區(qū)域的紋理特征;
圖1 本文算法流程圖Fig.1 Algorithm flow chart
4)用改進(jìn)的ReliefF和改進(jìn)的k-means算法對(duì)紋理特征權(quán)重聚類,構(gòu)建結(jié)節(jié)分類模型.
本文運(yùn)用中值濾波和直方圖均衡算法對(duì)CT圖像進(jìn)行濾波和增強(qiáng).并對(duì)CT圖像進(jìn)行256級(jí)灰度轉(zhuǎn)換,而后進(jìn)行16級(jí)灰度壓縮,圖2為處理后的CT圖像及其直方圖.
圖2 預(yù)處理后的CT圖像及其直方圖Fig.2 Preprocessed CT images and their histograms
本文所選用的肺結(jié)節(jié)CT圖像數(shù)據(jù)的ROI(region of interest)區(qū)域是LIDC/IDRI數(shù)據(jù)庫(kù)中已經(jīng)劃分好的,由4個(gè)放射學(xué)專家進(jìn)行手動(dòng)劃分,并將ROI區(qū)域位置信息保存在XML文件中,XML文件包含了切片CT原始數(shù)據(jù)的所有信息,將XML中ROI區(qū)域信息讀出后對(duì)肺結(jié)節(jié)進(jìn)行分割,為后面的灰度-梯度共生矩陣提取肺結(jié)節(jié)特征做準(zhǔn)備.如圖3所示,白色的線所示區(qū)域即肺結(jié)節(jié)區(qū)域.
對(duì)圖像進(jìn)行分類和識(shí)別最重要的就是對(duì)圖像特征進(jìn)行提取,然后選取相關(guān)性強(qiáng)的特征進(jìn)行分類.圖像的特征形式包括顏色、形狀、紋理及空間關(guān)系等,利用紋理特征進(jìn)行疾病的分析已在臨床上得到了廣泛的應(yīng)用,是用于疾病診斷的重要輔助手段.其中利用灰度共生矩陣(GLCM)提取圖像的紋理特征在特征分類中得到了較為廣泛的應(yīng)用,但是僅僅利用灰度共生矩陣來(lái)提取肺結(jié)節(jié)的紋理特性是不夠的.因?yàn)榱紣盒孕〗Y(jié)節(jié)的紋理特性主要區(qū)別是邊緣,因此灰度-梯度共生矩陣(GGCM)成為了一種更好的選擇,但是其一般的做法是利用邊緣算子例如Sobel和Canny等進(jìn)行提取邊緣來(lái)獲取梯度信息,但是Sobel和Canny等算子容易造成邊緣信息缺失.本文針對(duì)這一缺陷,提出了一種邊緣檢測(cè)算子,可以有效避免結(jié)節(jié)邊緣信息的泄露,更好地提取紋理特性來(lái)進(jìn)行良惡性結(jié)節(jié)的識(shí)別.假設(shè)圖像為f,邊緣檢測(cè)算子(式(1))為:
圖3 CT圖像中肺結(jié)節(jié)的ROI區(qū)域Fig.3 ROI of pulmonary nodules in CT images
(1)
其中Gσ是高斯核,σ為標(biāo)準(zhǔn)差,本文實(shí)驗(yàn)中φ=2.如圖4所示為本文改進(jìn)邊緣檢測(cè)算法應(yīng)用在肺部CT圖像上的效果.圖4左側(cè)為Sobel算子的檢測(cè)結(jié)果,肺結(jié)節(jié)邊緣發(fā)生泄漏;右側(cè)為本文提出算法的檢測(cè)結(jié)果,結(jié)節(jié)邊緣信息完整.這能夠讓灰度-梯度共生矩陣提取更完整的結(jié)節(jié)邊緣信息,得到更全面的紋理特征.本文利用改進(jìn)的灰度-梯度共生矩陣提取肺結(jié)節(jié)區(qū)域的小梯度優(yōu)勢(shì)、大梯度優(yōu)勢(shì)、灰度分布不均勻性、梯度分布不均勻性、能量、灰度平均和梯度平均等14個(gè)相關(guān)的紋理特征,并且按照測(cè)試樣本與訓(xùn)練樣本3:1的比例,隨機(jī)選擇部分?jǐn)?shù)據(jù)作為測(cè)試樣本,分別用灰度-梯度共生矩陣提取
圖4 CT圖像邊緣檢測(cè)算法對(duì)比Fig.4 CT image edge detection algorithm comparison
14個(gè)相應(yīng)的特征紋理數(shù)據(jù),然后將這些進(jìn)行平均化處理得到相應(yīng)的良性和惡性結(jié)節(jié)的14個(gè)紋理特征數(shù)據(jù)的對(duì)比圖,如圖5所示.從圖中可以看到,灰度-梯度共生矩陣提取的紋理特征中有些特征例如灰度差、小梯度優(yōu)勢(shì)、相關(guān)性等特征就能很好區(qū)分良惡性肺結(jié)節(jié)(由于改進(jìn)了邊緣檢測(cè)算子,因此梯度信息可以很好區(qū)分良惡性結(jié)節(jié)),而有些例如灰度平均、梯度平均等紋理特征就不能很好區(qū)分良惡性結(jié)節(jié),因此需要在這14個(gè)紋理特征空間中剔除無(wú)關(guān)(區(qū)分效果不明顯)的特征量,縮小特征空間.
利用圖像的特征進(jìn)行分類或者檢測(cè)時(shí),需要將提取出來(lái)的特征進(jìn)行一定程度上的冗余特征的去除.因?yàn)闊o(wú)關(guān)特征不僅會(huì)加大運(yùn)算量和時(shí)間,而且會(huì)干擾分類的正確性.因此,如何從提取的眾多特征中找出相關(guān)性最大的特征成為利用紋理特征進(jìn)行結(jié)節(jié)分類的關(guān)鍵性的一步.由于Relief系列算法簡(jiǎn)單高效,使其得到了廣泛的應(yīng)用.并且沒(méi)有數(shù)據(jù)類型的限制,
圖5 良惡性結(jié)節(jié)紋理特征對(duì)比Fig.5 Comparison of texture characteristics of benign and malignant nodules Average feature weight curve
根據(jù)特征和類別之間的相關(guān)性的大小來(lái)給相應(yīng)的特征分配不同大小的權(quán)重,并且將權(quán)重小于某個(gè)閾值的特征剔除,達(dá)到選取特征的目的,但是它只能處理兩類別的數(shù)據(jù).Kononenko[14]將Relief算法做了改進(jìn),使得能夠處理多類別問(wèn)題,即ReliefF算法.每次從訓(xùn)練集中隨機(jī)選擇一個(gè)樣本R,從該樣本的同類和不同類中各選擇k個(gè)最近鄰樣本,然后根據(jù)式(2)計(jì)算特征I的特征權(quán)重:
(2)
式中,diff(I,Ri,Hj) 和diff(I,Ri,Mj(C)) 為兩樣本在特征I上的歐式距離,用來(lái)表征兩樣本的相似程度,因此ReliefF算法的核心思想主要是讓重要的特征(分配的權(quán)重系數(shù)盡可能大)使得同類樣本盡可能靠近,不同類的樣本盡可能遠(yuǎn)離,達(dá)到更好地分類效果.
Huang[15]提出特征選擇的準(zhǔn)確度與訓(xùn)練集樣本的數(shù)量是呈正相關(guān)的.在實(shí)際情況中,不同特征所對(duì)應(yīng)的樣本數(shù)量是不一樣的,并不是均勻分布的.并且每次算法運(yùn)行時(shí)選中的樣本點(diǎn)都不相同,因此屬性權(quán)值必會(huì)波動(dòng),也就是需要考慮樣本間的差異.因此本文提出改進(jìn)的ReliefF算法.
假設(shè)一個(gè)訓(xùn)練樣本集含有N個(gè)類別,則特征I的特征權(quán)重計(jì)算式為:
(3)
式(3)為本文改進(jìn)的算法.其中Ldist的計(jì)算公式為:
(4)
在式(4)中,uc為與樣本R同類別樣本的中心,uj為與R不同類別的樣本中心,實(shí)驗(yàn)中δs=0.5,δd=1.5.本文用新的距離計(jì)算方法取代歐式距離的計(jì)算方法,式(4)中第1項(xiàng)能使同一類別的樣本盡可能靠近,第2項(xiàng)能使不同樣本盡可能相離,這樣使得相關(guān)性強(qiáng)的特征能有效地進(jìn)行分類.與此同時(shí)為了消除ReliefF算法中樣本數(shù)量對(duì)特征權(quán)值的影響,在計(jì)算特征權(quán)重時(shí),考慮類別數(shù)N和樣本數(shù)Aj以及不同類的最近鄰樣本M,使得特征權(quán)重評(píng)價(jià)更加均衡.
為了消除其他特征分量的噪聲干擾,對(duì)樣本Ri在更新特征I的權(quán)值時(shí),近鄰樣本的選擇以該維特征分量上的距離為準(zhǔn)則,那么樣本間的距離可表示為式(5):
(5)
通過(guò)以上分析可知,本文改進(jìn)的ReliefF算法使得特征權(quán)重分配更加均衡,新的距離計(jì)算公式使得重要特征能讓同類樣本更加聚合,不同類樣本相互分離,達(dá)到了更好的分類效果.另外本文綜合考慮樣本數(shù)量不均勻所帶來(lái)的權(quán)重值計(jì)算的缺陷,同時(shí)也減小了不相關(guān)特征的噪聲影響,使近鄰樣本的選擇更準(zhǔn)確.
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù),選取數(shù)據(jù)類型為威斯康星州乳腺癌數(shù)據(jù)集(Breast Cancer Wisconsin (Original) Data Set),此數(shù)據(jù)集有699個(gè)樣本,每條數(shù)據(jù)有11個(gè)屬性,但是可以用于提取的只有9個(gè)特征.在訓(xùn)練集上用ReliefF、Zhou[12]提出的W-ReliefF和本文算法進(jìn)行特征選擇的對(duì)比實(shí)驗(yàn).根據(jù)式(4)隨機(jī)選取k個(gè)近鄰樣本,由于隨機(jī)k值的不同將導(dǎo)致不同的特征權(quán)重,因此本文采取平均值的方法,將3個(gè)算法各運(yùn)行10次,最后取10次權(quán)重結(jié)果的平均值作為最后的特征權(quán)重系數(shù).各個(gè)屬性權(quán)重的大小分布如圖6所示.由圖6所示,ReliefF算法的平均特征權(quán)值從大到小為1>6>3>8>7>5>2>9>4,W-ReliefF算法的平均特征權(quán)值從大到小為1>7>5>8>3>9>6>2>4,本文改進(jìn)算法的平均特征權(quán)值從大到小為1>8>5>7>9>3>6>2>4.從圖6可以明顯看出屬性9的平均權(quán)值在3種方法當(dāng)中變化小.因此選定屬性9作為權(quán)重閾值的邊界,因此可以明顯得到W-ReliefF在ReliefF的基礎(chǔ)上將屬性6剔除了,而本文算法在W-ReliefF的基礎(chǔ)上將屬性3剔除了,因此本文提出的算法進(jìn)一步壓縮了屬性空間,而且剔除了傾向于占大多數(shù)的良性樣本的屬性3和6,保留了重要的屬性特征.
圖6 平均特征權(quán)值曲線圖Fig.6 Average feature weight curve
為了進(jìn)一步驗(yàn)證本文提出的改進(jìn)的ReliefF算法的有效性,從UCI數(shù)據(jù)庫(kù)中隨機(jī)選取8個(gè)用于分類并且類別數(shù)不少于2的樣本作為訓(xùn)練集進(jìn)行實(shí)驗(yàn).表1為所選的訓(xùn)練集的信息.
由于訓(xùn)練集樣本中各類別的樣本數(shù)量分布不一樣,可以用表1的不平衡度來(lái)進(jìn)行描述,可表示為式(6):
(6)
其中分子表明各個(gè)類別最大樣本數(shù)與最小樣本數(shù)之差(Nc為每個(gè)類別包含的樣本數(shù)),分母表明每個(gè)類別的平均樣本數(shù)(n為樣本總數(shù),N為類別總數(shù)).式(6)表明各個(gè)類別最大與最小樣本數(shù)占每個(gè)類別具有的樣本數(shù)的比例之差,可以反應(yīng)類別數(shù)據(jù)的分布情況.在數(shù)據(jù)集上分別運(yùn)行ReliefF、W-ReliefF和本文改進(jìn)的算法各20次,然后求出每個(gè)屬性平均權(quán)重系數(shù),進(jìn)行比較后,選出有效的屬性.最后運(yùn)用k-means算法對(duì)特征選擇后的有效屬性進(jìn)行分類,求出分類準(zhǔn)確率,結(jié)果如表2所示,圖7為特征選擇結(jié)果.
表1 所選訓(xùn)練集概況Table 1 Overview of the selected training set
表2 特征選擇前后的分類準(zhǔn)確率比較Table 2 Comparison of classification accuracy before and after feature selection
由圖7可知,本文算法會(huì)使得數(shù)據(jù)集特征空間減小,去除相關(guān)性小的特征,并且效果比W-ReliefF和ReliefF算法好.表2中給出經(jīng)過(guò)兩種算法進(jìn)行特選擇后再利用k-means分類的準(zhǔn)確率對(duì)比,帶有“↑”符號(hào)的,表示準(zhǔn)確率上升明顯,“↓”符號(hào)的表示準(zhǔn)確率有所降低.數(shù)據(jù)表明利用本文算法進(jìn)行特征選擇后,識(shí)別準(zhǔn)確率明顯提高的有6組數(shù)據(jù),比其他算法的識(shí)別準(zhǔn)確率都要高.本文改進(jìn)的ReliefF算法比W-ReliefF算法效果更好,原因是本算法不僅考慮了樣本中各類別數(shù)的不均衡度,平衡了各特征權(quán)重系數(shù)的分配.而且在此基礎(chǔ)上利用重要的特征能使得同類樣本聚集,不同樣本盡可能分開(kāi)的特性,重新設(shè)計(jì)了距離選擇公式.并且改進(jìn)了近鄰樣本選擇的標(biāo)準(zhǔn),更好地去除了冗余特征,使得識(shí)別的準(zhǔn)確率更高.
圖7 特征選擇結(jié)果圖Fig.7 Feature selection result graph
聚類算法是將一堆數(shù)據(jù)按照它們各自的特性分為幾個(gè)類別,它是一種無(wú)監(jiān)督學(xué)習(xí),使得同一類別中的數(shù)據(jù)相似性盡可能大,不同類別中的數(shù)據(jù)差異性盡可能大.k-means算法因其效率高、原理簡(jiǎn)單,實(shí)現(xiàn)容易等得到了廣泛的應(yīng)用.由于聚類算法是根據(jù)特征間的相似度來(lái)劃分的,因此,一般將內(nèi)部特征間差異的相似度作為一個(gè)很重要的衡量指標(biāo),一般定義樣本點(diǎn)到數(shù)據(jù)中心點(diǎn)之間的距離的方法來(lái)描述數(shù)據(jù)之間的差異性[16].
k-means算法是基于歐式距離,該算法的核心公式為:
(7)
k-means算法的優(yōu)點(diǎn)是效率高并且易于實(shí)現(xiàn),但是也有一些的不足之處:
1)k-means算法以k為參數(shù),需要事先人為設(shè)定好k值,也就是類別的個(gè)數(shù),而k值的選定是難以估計(jì)的.然而本文研究的主要是良惡性結(jié)節(jié)的二分類問(wèn)題,k值可以預(yù)先設(shè)定為k=2,因此可以忽略k值設(shè)定的影響.
2)k-means算法在聚類過(guò)程中,采用歐式距離來(lái)描述樣本之間的相似度,這種描述方式是假設(shè)樣本數(shù)據(jù)各個(gè)維度對(duì)于相似度的衡量作用是相同的,即沒(méi)有考慮樣本數(shù)據(jù)屬性之間的差異.重新計(jì)算每個(gè)類的質(zhì)心(即為聚類中心),重復(fù)這樣的過(guò)程,直到質(zhì)心不再改變,最后確定了每個(gè)樣本的所屬類別.因此算法的缺點(diǎn)是對(duì)類別規(guī)模差異太大的數(shù)據(jù)效果不好,并且對(duì)噪聲和離群點(diǎn)十分敏感,對(duì)于不同權(quán)重系數(shù)的特征屬性不能有效區(qū)分.因此本文對(duì)k-means算法做出對(duì)應(yīng)的改進(jìn)策略,使其更準(zhǔn)確地進(jìn)行良惡性結(jié)節(jié)的分類.
針對(duì)k-means算法的缺點(diǎn),本文利用改進(jìn)的ReliefF算法縮減樣本數(shù)據(jù)的特征空間,并賦予特征相應(yīng)的不同權(quán)重值.并將不同大小的特征權(quán)重引入k-means算法中,此時(shí)的k-means算法改變了數(shù)據(jù)各個(gè)維度對(duì)于相似度的衡量作用,可以很好的消除噪點(diǎn)和離群點(diǎn)的影響.另外本文引入改進(jìn)ReliefF算法中的距離法則,同類樣本盡可能靠近,不同樣本盡可能分開(kāi)的思想,因此本文改進(jìn)的k-means算法(式(8))為:
(8)
權(quán)重在聚類過(guò)程中實(shí)現(xiàn)等值聚類起著至關(guān)重要的作用,且改進(jìn)的k-means算法中的wi是一個(gè)非負(fù)數(shù),是由本文改進(jìn)的ReliefF算法得到的各紋理特征對(duì)應(yīng)的權(quán)值wi.
在模式識(shí)別的過(guò)程中,分類就是將具有相同特性的樣本歸為一類,而具有另外共性的歸為另一類.在醫(yī)學(xué)圖像的輔助診斷系統(tǒng)中,分類器可以用于病人病情決策.本文利用改進(jìn)的ReliefF算法與改進(jìn)k-means算法結(jié)合起來(lái)構(gòu)建良惡性結(jié)節(jié)的分類器.
對(duì)于提取的紋理特征利用改進(jìn)的ReliefF算法計(jì)算特征權(quán)重,將權(quán)重大小進(jìn)行比較分析,運(yùn)行程序20次,統(tǒng)計(jì)結(jié)果如圖8所示.由圖8可知,灰度差、相關(guān)性、小梯度優(yōu)勢(shì)等特征的權(quán)重最大,權(quán)重大的特征是最主要的影響因素,從多次計(jì)算規(guī)律來(lái)看,不同的特征有不同的重要程度,因此有著不同大小的特征權(quán)重,選取多個(gè)特征的組合進(jìn)行實(shí)驗(yàn)分析,本文將特征按照1-14進(jìn)行編號(hào).
本文利用改進(jìn)的ReliefF算法對(duì)特征賦予權(quán)重的高低進(jìn)行從大到小排序,并且選擇相應(yīng)的權(quán)重?cái)?shù)據(jù),再利用改進(jìn)的 k-means算法進(jìn)行聚類分析,實(shí)驗(yàn)結(jié)果如表3所示.
表3 應(yīng)用不同屬性組合分類成功率Table 3 Success rate of classification by applying different combinations of attributes
從表3的實(shí)驗(yàn)結(jié)果可以看出,選擇特征權(quán)重最大的8個(gè)屬性(灰度差、梯度差、能量、小梯度優(yōu)勢(shì)、相關(guān)性、灰度熵、混合熵、逆差矩)用于結(jié)節(jié)分類,分類的正確率是最高的,同時(shí)實(shí)驗(yàn)結(jié)果表明特征權(quán)重小的屬性會(huì)增加特征空間的維度,影響分類的精度.因此利用灰度-梯度共生矩陣提取出的紋理特征可作為良惡性結(jié)節(jié)分類的選擇特征.在此基礎(chǔ)上,本文將最大的8個(gè)紋理特征權(quán)重加入到改進(jìn)的k-means算法中去,構(gòu)建一個(gè)結(jié)合了改進(jìn)ReliefF以及改進(jìn)的k-means算法的良惡性結(jié)節(jié)分類器.本文提出的良惡性結(jié)節(jié)分類器是基于紋理特征進(jìn)行識(shí)別的,實(shí)驗(yàn)結(jié)果如表4所示.
表4 肺結(jié)節(jié)分類準(zhǔn)確率Table 4 Classification accuracy of pulmonary noclules
由表4可以看出,根據(jù)紋理特征可以進(jìn)行良惡性肺結(jié)節(jié)的識(shí)別,實(shí)驗(yàn)結(jié)果表明:本文提出的算法對(duì)于惡性結(jié)節(jié)識(shí)別率高,良性結(jié)節(jié)識(shí)別率良好,并且改進(jìn)的ReliefF和k-means算法均有效,準(zhǔn)確率都有一定提升.如表5所示,本文將提出的算法與其他算法的識(shí)別率進(jìn)行了比較,從比較結(jié)果中發(fā)現(xiàn)本文提出的算法相比其他傳統(tǒng)算法較優(yōu),使得良性結(jié)節(jié)的識(shí)別率有了一定的提升.但相對(duì)于文獻(xiàn)[6]提出的多視角知識(shí)的協(xié)同(Multi-View Knowledge-Based Collaborative)深度學(xué)習(xí)模型存在差距,原因是此方法ResNet-50網(wǎng)絡(luò)來(lái)提取結(jié)節(jié)的外觀、體素和形狀特性,然后再利用基于知識(shí)的協(xié)作(Knowledge-Based Collaborative)子模型進(jìn)行分類.網(wǎng)絡(luò)深度深,模型復(fù)雜度高. 文獻(xiàn)[5]提出多將判別生成對(duì)抗網(wǎng)絡(luò)模型與編碼器相結(jié)合,用于肺結(jié)節(jié)的良性和惡性分類的算法也比本文識(shí)別率優(yōu),但是網(wǎng)絡(luò)復(fù)雜,訓(xùn)練耗時(shí).這些對(duì)于本文有進(jìn)一步啟發(fā),下一步工作可以利用深度學(xué)習(xí)的網(wǎng)絡(luò)提取肺結(jié)節(jié)不同視角的特征,再與編碼器相結(jié)合,最后利用本文改進(jìn)的方法進(jìn)行分類.
表5 幾種算法的比較Table 5 Comparison of several algorithms
圖8 改進(jìn)ReliefF算法計(jì)算20次屬性的權(quán)重分布誤差棒圖Fig.8 Improved ReliefF algorithm calculates the error bar graph of weight distribution of 20 attributes
本文對(duì)肺部CT圖像首先利用改進(jìn)了邊緣檢測(cè)算子的灰度-梯度共生矩陣提取了14種紋理特征參數(shù),然后通過(guò)改進(jìn)的ReliefF算法使得分類作用大的特征將同類樣本聚合,不同類樣本分開(kāi),并且降低特征空間的維度.最后本文對(duì)k-means算法的距離度量進(jìn)行改進(jìn),引入同類樣本聚合、不同類樣本分開(kāi)的距離度量準(zhǔn)則,將重要特征的權(quán)重引入到此算法中進(jìn)行良惡性肺結(jié)節(jié)的分類.本文構(gòu)建了從提取紋理特征到冗余特征去除再到分類的算法模型.并且在實(shí)驗(yàn)測(cè)試集上通過(guò)大量實(shí)驗(yàn)以及識(shí)別率對(duì)比得出不同紋理特征對(duì)于分類的貢獻(xiàn)效果各不相同,紋理特征空間存在冗余特征,需要通過(guò)一定手段進(jìn)行特征空間的壓縮,本文實(shí)驗(yàn)發(fā)現(xiàn)灰度梯度共生矩陣提取的紋理特征中灰度差、梯度差、能量、小梯度優(yōu)勢(shì)、相關(guān)性等8個(gè)重要特征的組合可以得到最好的分類結(jié)果,本文算法可以達(dá)到良性結(jié)節(jié)83.46%,惡性結(jié)節(jié)95.02%的識(shí)別率.