陳洪波, 傅嘉文, 黎浩江, 劉立志, 陳樹超, 朱志華
(1.桂林電子科技大學 生命與環(huán)境科學學院,廣西 桂林 541004;2.中山大學 腫瘤防治中心, 廣州 510060)
隆突下淋巴結轉移是肺癌、食管癌重要的轉移途徑之一,也是影響患者預后的重要原因[1-2]。正確鑒別其異常淋巴結的性質是臨床采取有效治療措施的關鍵。食管癌無隆突下淋巴結轉移患者5年生存率60.9%,有隆突下淋巴結轉移26.7%[3]。手術入路應以淋巴結轉移的分布模式為基礎,而淋巴結轉移是不可預測的。因此,治療前淋巴結轉移情況的準確評估對疾病分期、治療方案的選擇和預后的評價具有重要意義。
CT掃描具有較高的組織對比度和空間分辨力,使病灶及淋巴結大小、形態(tài)結構、影像學的異質性、與鄰近器官的關系更為直觀的顯示,且研究表明CT診斷與術后病理的結果具有一致性[4-5]。但隆突下淋巴結的良惡性判別目前仍依賴于細針穿刺活檢[6-7]。
近年來發(fā)展的影像組學利用醫(yī)學影像中的特征信息來量化隆突下淋巴結的微環(huán)境,為隆突下淋巴結的良惡性分析提供了一種新方法[8-9]。影像組學已經(jīng)成為疾病臨床研究中非常重要的研究方法。通過影像組學對肺部腫瘤或頭頸部腫瘤的CT圖像進行定量分析后發(fā)現(xiàn),在獨立的肺部腫瘤和頭頸癌患者數(shù)據(jù)集中,大量的放射影像學特征具有預后能力[10]。放射特征與腫瘤特異性的聚集和臨床存在關聯(lián)[11]。隨著醫(yī)學數(shù)據(jù)的大量激增,機器學習在醫(yī)學領域的應用越來越重要[12-13]。因此,如何使用影像組學和機器學習,正確地在術前識別隆突下淋巴的轉移性,將對食管癌和肺癌的預后產(chǎn)生重大影響。
本研究將提取CT圖像中反映ROI內灰度值變化規(guī)律的統(tǒng)計特征和紋理特征[14],利用XGBoost[15]等機器學習的方法,無創(chuàng)地判斷隆突下淋巴結的良惡性,以輔助醫(yī)生對肺癌和食管癌患者的診斷準確率,并做出有效的個性化治療方案。
本研究由中山大學腫瘤防治中心倫理委員會審查通過。該中心提供了80例肺癌患者的胸部增強CT圖像數(shù)據(jù)。其中,隆突下淋巴結良性(未轉移)40例,惡性(轉移)40例。淋巴結良惡性由組織切片病理結果得到。具有5年以上工作經(jīng)歷的醫(yī)生勾畫了胸部CT圖像的隆突下淋巴結區(qū)域。從80例肺癌患者的胸部CT圖像中勾畫了1 103層CT圖像。
數(shù)據(jù)的預處理為灰度調窗和目標區(qū)域提取?;叶日{窗的目的是突顯目標的特征,本實驗中的窗寬為380,窗位為60。對醫(yī)生勾畫的目標區(qū)域進行特征提取、良惡性分類等處理。
如圖1所示,從調窗的胸部CT圖像中提取醫(yī)生勾畫的隆突下淋巴結區(qū)域的圖像。對目標區(qū)域的圖像提取影像組學特征,對提取的特征進行標準化和特征選擇后,采取XGBoost方法進行良惡性分類。
圖1 隆突下淋巴結良惡性識別的方法
1.2.1 影像組學特征提取
Pyradiomics是流行的醫(yī)學影像組學特征提取方法[16-17]。通過Pyradiomics提取了目標區(qū)域的統(tǒng)計類特征和紋理類特征。統(tǒng)計類(fist order)通過常用的基本度量描述了ROI區(qū)域灰度值的分布情況。紋理類(texture)是一種反映圖像中同質現(xiàn)象的視覺特征,它體現(xiàn)了目標區(qū)域的具有緩慢變化或者周期性變化的表面結構組織排列屬性,具有旋轉不變性和灰度不變性等顯著特點。
本研究對隆突下淋巴結區(qū)域的圖像提取了91維影像組學特征,其中統(tǒng)計特征18個,包括能量、熵、均值、方差、偏度、峰度等;紋理特征73個,包括灰度共生矩陣(GLCM)22個屬性、灰度大小區(qū)域矩陣(GLSZM)16個屬性、灰度游程矩陣(GLRLM)16個屬性、相鄰灰度差分矩陣(NGTDM)5個屬性、灰度相關矩陣(GLDM)14個屬性。
對于某些機器學習模型如SVM,目標函數(shù)是假設所有的特征都是零均值并且具有同一階數(shù)上的方差。若某個特征的方差比其他特征大幾個數(shù)量級,則在學習算法中占據(jù)主導位置,導致模型泛化能力降低。相對于XGBoost模型標準化數(shù)據(jù)的最大好處是加快訓練速度。因此選擇去均值,除以方差來進行特征標準化。
1.2.2 特征選擇
特征選擇主要分為3類:過濾式、包裹式、嵌入式。過濾式主要包括方差分析、單變量分析(卡方檢驗、互信息、F檢驗)。包裹式主要通過一個基模型對數(shù)據(jù)進行多次訓練,每次得到特征得分,并且刪除得分較低的特征,直至滿足設定要求,典型的算法有遞歸式特征消除。嵌入式主要通過機器學習算法得到各個特征的權重系數(shù),按照從大到小選擇特征數(shù)量,典型的算法有基于L1正則的線性模型、樹模型。使用遞歸式特征消除進行特征選擇,并且使用線性SVM模型對提取的91維特征進行評分,每次刪除評分排名最低的特征,重復選取,直到選取性能最好的特征數(shù)量。
1.2.3 XGBoost分類
XGBoost由陳天奇博士提出,是一種可伸縮的端到端Tree boosting系統(tǒng)。也是一種極端梯度提升樹,相比于梯度提升樹,XGBoost使用了目標函數(shù)的二階泰勒展開式,并將樹模型復雜度加入正則項,同時實現(xiàn)了并行計算,優(yōu)化了模型訓練速度,由此獲得了更好的性能。本研究使用XGBoost對隆突下淋巴結的良惡性進行分類分析。模型經(jīng)過網(wǎng)格搜索后,選擇最優(yōu)的模型參數(shù)如表1所示。
1.2.4 實驗過程與統(tǒng)計分析
為了驗證本方法的有效性,使用SVM方法進行對照實驗。同時采用十折交叉驗證法驗證算法的性能。十折交叉驗證法是將良惡性隆突下淋巴結樣本各分為10組,每次隨機選擇一組正樣本和負樣本作為測試樣本,其他9組作為訓練樣本。輪流將其中9組作為訓練樣本,一組作為測試樣本,每次試驗得出相應的正確率。進行10次十折交叉驗證,以正確率的均值作為對算法準確性的最終估計。
表1 XGBoost最優(yōu)參數(shù)
對于一個肺癌患者的隆突下淋巴結將分布在多層CT圖像。三維淋巴結的良惡性的判斷有2種可能情況,即良性、惡性。將每個患者的多層CT圖像輸入模型,得到每層圖像的識別概率(0~1),取多層CT圖像識別概率的均值,并且認為大于0.5的為良性,小于0.5的為惡性。由此得到單個患者的分類情況。采用準確度(accuracy),敏感度(sensitivity)和特異度(specificity)來評價算法性能。
Accuracy=(nTP+nTN)/(nTN+nTP+nFN+nFP),
Sensitivity=nTP/(nTP+nFN),
Specificity=nTN/(nTN+nFP),
其中:nTP為惡性的惡性淋巴結樣本數(shù);nTN為良性的良性淋巴結樣本數(shù);nFN為良性的惡性淋巴結樣本數(shù);nFP為惡性的良性淋巴結樣本數(shù)。
對二維CT圖像中隆突下淋巴結的良惡性進行判別時,利用遞歸式特征消除(RFE)方法對提取的91維影像組學特征進行選擇。選擇不同的特征數(shù)量對良惡性的淋巴識別的性能是不穩(wěn)定的。圖2為在模型參數(shù)最優(yōu)的條件下,選取不同數(shù)量的特征,十折交叉模型的平均準確率。由圖2可知,XGBoost算法比SVM模型識別準確率高。當選擇特征維度等于3時,2種模型的良惡性淋巴的識別率達到最好的狀態(tài)。這3個特征分別為熵、中值、聯(lián)合熵。隨著選擇的特征數(shù)量增加,2種方法的準確率都微幅下降,這也說明了特征選擇得越多,冗余信息也隨之越多,也影響了識別的效果。后續(xù)將對特征維度等于3時的結果進行分析。
圖2 不同特征數(shù)量的識別準確率
采用十折交叉和ROC曲線來評估模型對二維單張CT圖像的識別效果。表2為十折交叉驗證的結果,由表2可知,XGBoost模型識別準確率略高于SVM,達到80%。為了準確反映模型的性能,圖3顯示了“受試者工作特征”(ROC)曲線,通過計算曲線下面積AUC評估模型的可靠性。由圖3可知,2種方法的可行性都比較好,AUC均超過0.83。
表2 二維CT圖像十折交叉驗證的結果
圖3 模型ROC曲線
表3為三維隆突下淋巴分類結果。表4為2種方法的準確度、敏感度和特異度的分類性能。由表4可知,XGBoost模型的準確度、敏感度均優(yōu)于SVM,而特異度相同。由結果可看出,XGBoost對于惡性隆突下淋巴結的識別具有更好的性能。
表3 三維隆突下淋巴分類結果
表4 隆突下淋巴分類性能分析
為對CT圖像中的隆突下淋巴結進行良惡性分類,利用影像組學方法對CT圖像中的隆突下淋巴結進行特征提取。通過淋巴結區(qū)域的統(tǒng)計特征和紋理特征,選擇熵、中值、聯(lián)合熵3個特征時,獲得的分類性能最好。利用XGBoost方法對隆突下淋巴良惡性分類進行建模。實驗結果表明,隆突下淋巴結的良惡性準確率為0.813,敏感度為0.825,特異度為0.800,此性能要高于SVM方法。本研究將有助于肺癌和食管癌的精確診斷和個性化治療方案的制定。