王鑫超 ,崔曹哲 ,胡奕奕 ,李肖萌 ,孟霞霞 ,武志芳
1. 山西醫(yī)科大學公共衛(wèi)生學院,山西 太原 030001;
2. 山西醫(yī)科大學第一醫(yī)院核醫(yī)學科,山西 太原 030001;
3. 分子影像精準診療省部共建協(xié)同創(chuàng)新中心,山西 太原 030001
肺癌是中國發(fā)病率和死亡率最高的惡性腫瘤,其中80%以上為非小細胞肺癌(non-small cell lung cancer,NSCLC)[1-2]。早期肺癌通常無明顯癥狀,只有26%的患者在Ⅰ期或Ⅱ期被確診;不同肺癌分期患者生存情況亦不同,Ⅰ期患者的5年相對生存率為57%,而Ⅳ期患者下降到4%,此外大多數(shù)國家肺癌患者確診后的5年相對生存率僅為10%~20%[3-4]。肺癌的治療前分期、分型及分化程度等與手術方式的選擇、治療方案的制訂及患者的生存預后密切相關。
目前正電子發(fā)射體層成像(positron emission tomography,PET)/計算機體層成像(computed tomography,CT)顯像是肺癌診斷與分期的常用影像學方法之一[5]。臨床上?;赑ET/CT圖像的定性視覺物理特征及相應半定量指標來區(qū)分良惡性病變[6]。自2012年荷蘭學者Lambin等[7]提出影像組學概念和方法,基于高通量數(shù)據的影像組學特征結合臨床、病理及基因等信息而構建的風險預測模型,被廣泛應用于臨床診斷、療效評估、預后與生存估測等方面,極大地推動了大數(shù)據和人工智能在臨床診療中的應用[7-9]。但是,影像組學特征維度提升導致的共線性和過擬合問題逐漸凸顯,而目前沒有明確標準來判斷何種模型或特征選擇方法在具體任務和數(shù)據類型中表現(xiàn)最好。因此,比較多種特征選擇方法以獲得更強魯棒性的模型至關重要[10]。
本研究擬從臨床早期NSCLC患者的PET/CT圖像中提取特定影像組學特征并與相關臨床資料結合,構建患者3年總生存期(overall survival,OS)預測模型,探討不同影像組學特征選擇方法對模型效能的影響,以期為臨床提供提高生存預測效能的特征選擇方法。
回顧并收集2017年3月—2018年9月進行治療前18F-脫氧葡萄糖(fluorodeoxyglucose,F(xiàn)DG)PET/CT檢查、并進行手術切除的早期NSCLC患者,依照美國癌癥聯(lián)合委員會(American Joint Committee on Cancer,AJCC)分期,Ⅰ期、Ⅱ期為臨床早期NSCLC患者[11-12]。收集患者臨床及影像學資料,包括年齡、性別、吸煙史、病理T分期、病理學分型、病理組織學分級、淋巴結轉移、治療方式和PET最大標準攝取值(the maximum standardized uptake value,SUVmax)。利用患者院內電子病歷并結合電話隨訪,記錄患者首次確診NSCLC后診療及疾病進展情況,3年OS定義為患者首次確診為NSCLC至任何原因導致的死亡或隨訪截止日期的時間。
納入標準:① 在治療前進行18F-FDG PET/CT全身掃描;② 術后病理學檢查明確為早期NSCLC。排除標準:① 臨床數(shù)據不全;② 有其他惡性腫瘤病史;③ 多原發(fā)灶肺癌;④ PET/CT檢查前接受過抗腫瘤治療或手術切除。
使用美國GE公司的Discovery MI PET/CT機進行掃描。掃描前,所有患者禁食至少6 h,患者靜脈注射2.96~3.70 MBq/kg18F-FDG,休息約60 min進行掃描(從顱頂至股骨中段)。CT采集參數(shù):管電壓120 kV,管電流自動調為60~150 mA(x、y軸或z軸開啟自動調節(jié)),噪聲指數(shù)18.00,螺距0.984,旋轉速度0.5 s,層厚2.8 mm,探測器覆蓋范圍為40 mm。PET成像以3 min/床的List-mode模式(記錄每個重合事件的檢測時間及其空間坐標的采集模式)進行全身采集。軸向視野25 mm,矩陣256×256。
本研究圖像分割由2名核醫(yī)學科醫(yī)師(含1名高年資醫(yī)師)共同協(xié)商并利用3D Slicer版本4.4.0(https://www.slicer.org/)分別對PET和CT圖像逐層勾畫腫瘤感興趣區(qū)(region of interest,ROI),CT于肺窗上手動勾畫;PET采用SUVmax的41%進行閾值法半自動勾畫。利用MATLAB進行特征提取,每個患者共提取72個特定影像組學特征包括形態(tài)特征(15個)、全局特征(5個)、拉普拉斯高斯特征(14個)、灰度共生矩陣特征(6個)、相鄰灰度差矩陣特征(15個)、灰度游程長度矩陣特征(6個)、灰度區(qū)域級矩陣特征(11個)。其中PET圖像特征33個,CT圖像特征39個。
形態(tài)特征通過計算幾何學特征以反映整個腫瘤的三維空間結構,并對其進行量化研究;全局特征即一階統(tǒng)計學特征,根據ROI中不同坐標點像素值,反映ROI整體的構型特征;拉普拉斯高斯特征屬于濾波特征,使用不同高斯卷積濾波對圖像進行降噪處理后以拉普拉斯算子作為邊緣檢測算子提高算子對噪聲和離散點的魯棒性,反映圖像邊緣檢測的形態(tài)特征;灰度級變化特征反映圖像ROI空間亮度變化等局部特征,在PET圖像中可揭示腫瘤的代謝異質性,在CT圖像中則可揭示腫瘤解剖學差異。
對上述影像組學特征進行歸一化處理。之后采用不同方式進行特征選擇:① 過濾式——互信息(mutual information,MI)算法。依據每個特征對患者生存狀態(tài)與生存時間的信息貢獻大小,以0.05為閾值分別進行特征篩選,最終在對生存狀態(tài)以及生存時間均有貢獻的特征中選取前5個的特征進入模型構建。② 包裝式——遞歸特征消除(recursive feature elimination,RFE)算法。根據貪心算法原理,利用隨機森林分類器篩選特征,分別以生存狀態(tài)與生存時間為目標,以5個特征為保留目標,每次排除1個特征,經過訓練模型,依據代價函數(shù)計算結果對所有特征進行排序,依據排序結果,刪除影響最小的特征,最終選取5個特征進入模型構建。③ 嵌入式——最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)算法。該算法通過構建損失函數(shù),將不重要的特征權重置為0,經過10折交叉驗證,最終選取5個特征進入模型構建,通過LASSO算法對特征進行篩選。④ 對于臨床和影像學資料,利用單因素Cox分析法,選取P<0.20的特征進行分析[13]。分別構建Cox比例風險回歸模型并采用一致性指數(shù)(concordance index,C-index)評估4種模型的預測效能,并以生存結局為因變量,利用最高維特征根檢測模型自變量間共線性,評價何種特征選擇方法篩選特征所構建模型的效果最好。
利用R 4.1.1與SPSS 26.0分析數(shù)據。對于正態(tài)分布的定量資料采用Student t檢驗;對于非正態(tài)分布的定量資料,兩組間采用Mann-Whitney U檢驗,多組間比較采用Kruskal-Wallis檢驗;對于定性資料采用χ2檢驗比較組間差異;非正態(tài)分布的定量資料間相關分析采用Spearman分析;定量資料與生存結局間相關分析采用點二列相關分析。P<0.05為差異有統(tǒng)計學意義。
本研究共收集符合納入、排除標準的早期NSCLC患者98例并進行隨訪,其中17例患者失訪(失訪率12.3%),最終納入81例患者進行研究。其中60例(74.1%)生存、21例(25.9%)死亡,中位OS為28個月,患者中位年齡為63.0歲。具體情況見表1。
表1 81例NSCLC患者臨床及影像學資料
2.2.1 影像組學特征間的相關分析
對81例患者PET、CT圖像的影像組學特征進行特征間相關性分析并繪制熱圖(圖1),r>0.50時認為特征間可能存在共線性。結果顯示有Contrast與GLV(rs=0.546,P<0.01)、Contrast與Variance(rs=0.504,P<0.01)、entropy_4與uniformity_4(rs=-0.569,P<0.01)、Contrast_2與Variance_2(rs=0.523,P<0.01)、SumAverage_1與AutoCorrelation_1(rs=-0.531,P<0.01)5對特征間可能存在共線性,在特征篩選中應考慮以上變量之間的多重共線性對模型擬合的影響。
圖1 影像組學特征間相關性分析熱圖
2.2.2 影像組學特征間與生存結局的相關分析
對影像組學特征與患者生存結局進行相關性分析(表2),結果顯示,影像組學特征中形態(tài)特征、灰度級變化特征和拉普拉斯高斯特征中均有與生存結局相關的特征,且相關程度高于SUVmax與生存結局的相關程度(rpb=-0.006,P>0.05)。
表2 影像組學特征與患者3年總生存結局的相關性分析(rpb)
本研究共采用MI算法、RFE算法、LASSO算法、單因素Cox分析4種方法進行特征選擇,LASSO算法對特征進行篩選的情況見圖2,4種方法的特征選取情況見表3。
表3 不同特征選取方法篩選特征情況
圖2 LASSO算法對特征進行篩選的情況
根據不同方法所篩選的特征構建Cox回歸模型以預測NSCLC患者3年OS,通過自主采樣進行模型內部交叉驗證并利用C-index評價模型的預測效果。結果顯示,以LASSO法篩選變量構建的模型(C-index=0.83)預測能力最好,而以MI法篩選變量構建的模型(C-index=0.59)預測能力最差;LASSO和RFE法篩選變量構建模型預測能力優(yōu)于單純臨床因素構建的模型(C-index=0.73);最高維特征根越接近0,表明所篩選特征間存在共線性的可能越大,結果表明MI法無法避免特征共線性。對LASSO篩選變量構建Cox模型繪制列線圖表明影像組學特征能夠作為預測變量進行模型構建。具體評價效果見表4、圖3。
圖3 基于LASSO方法篩選特征所構建Cox模型繪制的列線圖
表4 不同特征選取方法篩選所構建Cox回歸模型C指數(shù)
隨著影像設備、人工智能以及大數(shù)據算法等不斷融合、發(fā)展,更多定量圖像特征被提取,使得醫(yī)學影像組學分析成為可能[14-15]。影像組學的不斷發(fā)展使其數(shù)據維度逐漸升高,而相同類別影像組學特征存在一定共線性,因此特征選擇變得越來越重要[10]。
目前影像組學特征的篩選方法共有過濾式、包裝式、嵌入式3種,但因研究目的和數(shù)據的差異,特征選擇以及模型構建方法尚無法統(tǒng)一。目前有研究[16]基于不同原理構建特征選擇方法,而Han等[17]、Dalal等[18]、Fontaine等[19]研究比較了不同特征選擇以及模型構建方法的差異,但只是針對各自研究選取最佳組合。本研究在3種方法中各選取1種進行特征選擇,LASSO能夠有效地消除特征間的共線性,其選取的灰度級變化類特征能夠有效地預測患者生存,這與相關研究[20-21]結果相一致。影像組學特征可通過間接像素點的灰度變化來反映腫瘤內部無法被人眼發(fā)現(xiàn)的特征,在生存分析上具有一定價值,但具體機制尚不清楚,因此本研究引入相關臨床資料一同用于生存預測。
本研究存在一定的不足:① 病例數(shù)有限,應進一步擴大病例數(shù),通過大樣本數(shù)據研究以及多中心數(shù)據進行外部驗證以得到更加穩(wěn)定、可靠的結果;② 對于呈現(xiàn)較高相關性的影像組學特征,應繼續(xù)尋找篩選方法分析除共線性特征之外其余特征之間的交互作用,以進一步選取合適的特征進行模型構建。
綜上,利用影像組學特征構建模型之前,有必要分析不同圖像數(shù)據所提取特征間共線性及冗余度等,選擇多種特征選擇方法,經比較選擇合適的特征并選擇聯(lián)合模型構建方法,以提高模型效能,對臨床決策提供科學支持。