周依蓮
(復(fù)旦大學附屬中山醫(yī)院,上海 200032)
肺癌是最常診斷的癌癥,是75歲或以上男性癌癥死亡的主要原因。非小細胞肺癌(NSCLC)可大致分為三類,包括肺腺癌、鱗狀細胞癌和大細胞肺癌,占全球新肺癌診斷的85%以上。由于存在各種治療方式,肺癌的早期診斷和準確分類是臨床治療的最重要的程序之一[1-3]。
特征選擇在典型的基于醫(yī)學圖像的計算機輔助設(shè)計(CAD)系統(tǒng)中起著至關(guān)重要的作用,該系統(tǒng)包括圖像預(yù)處理、感興趣區(qū)域(ROI)的分割、特征提取、特征選擇和分類。特征選擇的主要目的是識別與組織學發(fā)現(xiàn)相關(guān)的診斷相關(guān)的醫(yī)學圖像特征,因為大多數(shù)實質(zhì)性肺癌診斷基于組織學標準。值得注意的是,特征選擇已被廣泛接受為各種應(yīng)用中的預(yù)處理技術(shù),包括數(shù)據(jù)挖掘、機器學習和分類[4]。
盡管之前已經(jīng)提出了許多措施,但它們的可用性仍然是一個挑戰(zhàn),因為它們可能仍然具有誤導(dǎo)性。例如,通過使用分類器錯誤率測量,可以保證高精度的分類,同時一些特征與應(yīng)用無關(guān)??紤]到這一點,我們提出了一種錯誤發(fā)現(xiàn)率(FDR)控制的特征選擇方法,旨在降低特征的不相關(guān)性以及提高CT圖像中肺癌分類的準確性。FDR用于約束特征選擇過程中不相關(guān)特征的數(shù)量。通過將FDR控制在較低水平,我們的方法的性能是通用的、靈活的,并且獨立于設(shè)計,應(yīng)用中的特征數(shù)量和未知回歸系數(shù)的值。
為了評估所提出的特征選擇技術(shù)的性能,引入SVM以在肺癌CT數(shù)據(jù)集中對NSCLC進行分類。我們進行了最先進的特征選擇策略,分類方法之間的對比實驗,并且我們的方法在不同的FDR設(shè)置下相互比較。此外,在評估過程中包括接收器操作特性曲線(ROC)和相應(yīng)的曲線下面積(AUC),實驗結(jié)果表明最佳平均AUC為(0.86±0.02)。
1.1. 材料 (1)CT圖像數(shù)據(jù)集:圖像數(shù)據(jù)集由來自中國山東省千佛山醫(yī)院的CT掃描圖像組成。使用SonolineSienna?和7.5 MHz線性陣列B模式40 mm探頭換能器捕獲每個圖像,并保存為醫(yī)學數(shù)字成像和通信格式。CT圖像的切片厚度設(shè)定為4.75 mm,像素尺寸為0.33 mm/px,圖像分辨率為1.5 px。該數(shù)據(jù)集包含696個CT圖像,其中374個良性和322個惡性病例通過活組織檢查進行病理學確定。兩組的平均年齡和標準差分別為(50.8±6.3)和(48.6±7.1)。(2)預(yù)處理:為了提高圖像的質(zhì)量,在隨后的圖像處理之前手動分割每個CT圖像的ROI。兩位放射科醫(yī)師在醫(yī)院進行了肺野分割和腫瘤識別。此外,通過使用區(qū)域生長方法對腫瘤進行分割,隨機這兩位放射科醫(yī)師中的一位設(shè)置相應(yīng)的種子點。(3)功能:在實驗中僅使用CT圖像中的紋理特征和形態(tài)特征。值得注意的是,所提出的特征選擇方法可以適用于幾乎所有類型的圖像特征。因此,我們將深入研究所提出方法在下一研究中各種特征的應(yīng)用。具體而言,根據(jù)不同的圖像比例從每個預(yù)處理的CT圖像中手動提取26個形態(tài)特征和1465個紋理特征。由于本文中包含了許多功能,因此我們未提及所有這些功能的詳細信息。
表1 采用不同平均值和特征的AUC方法
1.2 方法 提出了一個兩階段框架來實現(xiàn)特征選擇和圖像分類。在第一階段中,可以通過在特定FDR級別下使用基于基于仿冒濾波器的特征選擇策略來提供最佳特征子集。在下一步中,利用SVM對肺癌CT圖像進行分類。
通過利用具有十倍留一交叉驗證策略的SVM分類器來評估CT圖像中的特征子集與肺癌之間的關(guān)系。為了評估FDR機制的性能,通過將FDR控制在0.03、0.05和0.10而產(chǎn)生的潛在特征子組獲得最佳特征子集。此外,我們在最先進的方法和提出的CT圖像肺癌分類方法之間進行了比較實驗。AUC被作為實驗中的主要測量指標。相對于隨機猜測(AUC=0.5)評估AUC的統(tǒng)計學顯著性。
通常,對于較小的FDR(平均值),所有類型特征的分類性能較高。例如,F(xiàn)DR為0.03(AUCavg:0.86,AUCstd:0.01,P<0.05)的擬議方法的性能優(yōu)于FDR0.05(AUCavg:0.82,AUCstd:0.02,P>0.05)和FDR 0.10(AUCavg:0.81,AUCstd:0.03,P>0.05)(表1所示)(AUCavg:0.89,AUCstd:0.01,P<0.05),比FDR設(shè)定為0.1的紋理特征要好得多(AUCavg:0.74,AUCstd:0.05,P>0.05)同時,組合特征可以產(chǎn)生(AUCavg:0.86,AUCstd:0.01,P<0.05)比單一類型的特征更好的結(jié)果,包括形態(tài)特征(AUCavg:0.84,AUCstd:0.02,P>0.05)和紋理特征(AUCavg:0.78,AUCstd:0.05,P>0.05)。為了比較最先進的特征選擇方法和我們的特征選擇方法之間的性能,我們選擇了以下基于特征選擇的分類方法和基于非特征選擇的分類技術(shù)基于不同的組合CT圖像中的圖像特征,并將它們的AUC值與我們的方法進行比較。值得注意的是,基于特征選擇的方法旨在選擇最佳特征,而非特征選擇技術(shù)則側(cè)重于檢測和分類程序。
已經(jīng)提出了各種基于特征選擇的技術(shù)來實現(xiàn)CT圖像中良性和惡性肺病變之間的區(qū)分。然而,這些方法中的大多數(shù)都集中在分類的準確性上,并且可能忽略了特征與歧視之間的相關(guān)性。因此,我們提出了一種新穎的特征選擇技術(shù),該技術(shù)不僅可以優(yōu)化計算特征子集,還可以約束不相關(guān)特征的FDR。所提出的方法適用于CT圖像特征的不同組合,包括紋理、形態(tài)以及紋理和形態(tài)特征的組合。首先,所提出的特征選擇機制顯著提高了圖像分類的準確性。通過比較實驗,我們還發(fā)現(xiàn),以最低的FDR值可以獲得所提方法的最佳性能,這表明通過消除不相關(guān)的特征,較低的FDR將更有利于增強辨別性能。其次,可以將不同類型圖像特征的組合視為提高歧視有效性的另一種方式。此外,當前使用的特征可能不足以完全表示CT圖像的特征。第三,控制FDR值和適當類型的圖像特征可以共同優(yōu)化CT圖像中肺癌的分類性能。最重要的是,所有觀察結(jié)果表明,具有小FDR的組合特征可能能夠捕獲CT圖像中的內(nèi)部結(jié)構(gòu)。
除了在幾乎所有機器視覺任務(wù)中都表現(xiàn)出色的深度學習之外,基于手工制作的基于特征的方法在機器視覺領(lǐng)域也發(fā)揮了重要作用,盡管它們可能不像最近的深度學習那樣受歡迎。要注意的是,所提出的方法用于選擇醫(yī)學圖像中手工制作的特征的最佳子組,而基于深度學習的方法被設(shè)計為自動提取特征[5]。
近年來,深度傾斜通常會受到小樣本問題的影響。在我們的案例中,我們沒有足夠的肺癌圖像。因此,相反,我們選擇了特征選擇機制,已經(jīng)證明通過如上所述的許多相關(guān)研究是有效的。
為了解決先前提出的特征選擇技術(shù)中存在的問題,我們提出了用于肺CT圖像中的NSCLC辨別的FDR約束特征選擇算法。所提出的方法可以用于構(gòu)建臨床上可接受的肺癌CAD系統(tǒng),因為它可以產(chǎn)生相對于組織學結(jié)果的最合適的特征并且提高良性和惡性肺病變的分類準確性。此外,特征選擇流程中的FDR控制機制也應(yīng)該對其他類型的CAD系統(tǒng)有用,包括乳腺癌、腦腫瘤和阿爾茨海默病。然而,所提出的方法的性能仍然缺乏足夠的樣品。因此,我們將繼續(xù)研究更大的醫(yī)學圖像數(shù)據(jù)集對所提出技術(shù)的有效性以及基于FDR約束的特征識別策略在其他醫(yī)學圖像分析任務(wù)中的應(yīng)用,包括多光譜眼圖像和自然圖像處理。