孫大楨 ,劉秋芳,李 楠,黃 鋼,王利生,宋少莉
1. 上海交通大學(xué)自動化系,上海 200210;
2. 復(fù)旦大學(xué)附屬腫瘤醫(yī)院核醫(yī)學(xué)科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海 200032;
3. 上海市分子影像學(xué)重點實驗室,上海健康醫(yī)學(xué)院,上海 201318
肺癌是最常見的癌癥之一,肺腺癌作為肺癌最主要的組織學(xué)類型,其治療方法一直是腫瘤學(xué)的重要課題[1-2]。近年來,分子靶向治療已成為發(fā)展迅速的肺癌治療方法之一,表皮生長因子受體(epidermal growth factor receptor,EGFR)基因作為一個有效靶點,受到了許多研究者[3]的關(guān)注。多項研究[4]表明,相比于EGFR野生型或是其他突變,存在EGFR突變的腫瘤對酪氨酸激酶抑制劑(tyrosine kinase inhibitor,TKI)的反應(yīng)率更高。因此,準(zhǔn)確鑒別患者的EGFR突變狀態(tài)成為了選擇治療方法的重要一環(huán)。
目前,臨床上主要通過對腫瘤活檢標(biāo)本進行基因檢測來判斷EGFR的突變狀況。然而,這種方法一方面受限于腫瘤本身的異質(zhì)性,另一方面,用于檢測的標(biāo)本中腫瘤細胞含量也可能不足,從而影響基因檢測結(jié)果的準(zhǔn)確性[5-6]。因此,可靠、非侵入的EGFR檢測方法就顯得極為重要。
一些研究者已經(jīng)開始關(guān)注影像學(xué)特征與EGFR突變之間的關(guān)聯(lián)性。Dai等[7]、Rizzo等[8]嘗試探究包括空氣支氣管造影、胸膜牽拉、病灶尺寸等計算機體層成像(computed tomography,CT)影像學(xué)特征與EGFR突變之間的聯(lián)系,但這些研究對CT解剖結(jié)構(gòu)信息的利用程度非常有限;影像組學(xué)作為新興的分析手段,也已經(jīng)被許多研究者[9-11]用于構(gòu)建基于影像學(xué)特征的EGFR預(yù)測模型。然而,這些研究均為小樣本、單中心數(shù)據(jù),其提取的影像組學(xué)特征往往會受到數(shù)據(jù)來源、成像條件的影響,難以保證穩(wěn)定性。在先前的研究[12]中,我們使用統(tǒng)計學(xué)顯著性檢驗的方法直接剔除了在兩個不同數(shù)據(jù)來源間有顯著差異的影像組學(xué)特征,并構(gòu)建了對肺腺癌EGFR亞型的預(yù)測模型。
然而,直接將不穩(wěn)定特征去除的做法,很容易導(dǎo)致有效信息丟失,降低預(yù)測模型的效能。因此,在本研究中,我們繼續(xù)使用先前研究[12]中的數(shù)據(jù),針對多中心正電子發(fā)射體層成像(positron emission tomography,PET)/CT影像中不同斷層間隔的CT影像預(yù)處理,提出了幾種簡便直觀的預(yù)處理方案,并通過對比實驗探究不同處理方法對影像組學(xué)特征的穩(wěn)定性以及特征預(yù)測能力的影響。
收集2016年1月—2017年12月于上海交通大學(xué)附屬仁濟醫(yī)院(醫(yī)院1)和復(fù)旦大學(xué)附屬腫瘤醫(yī)院(醫(yī)院2)治療的肺腺癌患者共148例,其中88例來自醫(yī)院1,60例來自醫(yī)院2。納入標(biāo)準(zhǔn):① 經(jīng)病理學(xué)檢查確診的肺腺癌患者;② 進行過EGFR突變測試;③ 腫瘤為EGFR野生型,以及EGFR突變類型包括19外顯子缺失或21外顯子L858R錯義;④ 治療前18F-FDG PET/CT掃描數(shù)據(jù)可獲取。
醫(yī)院1和醫(yī)院2的圖像采集分別使用了德國Siemens公司的Biogragh mCT和Biogragh 16HR設(shè)備。患者在禁食至少6 h按照7.4 MBq/kg的劑量注射放射性示蹤劑,并在注射1 h后開始圖像采集。使用Biograph mCT對應(yīng)的CT掃描參數(shù):管電壓120 kV,電流140 mA,掃描層厚和層間距均為3 mm;隨后的PET掃描采集時間為每個床位3 min,使用CT圖像對PET迭代重建來進行衰減校正。使用Biogragh 16HR的場合,CT掃描設(shè)定為管電壓120 kV,電流140 mA,掃描層厚和層間距均為3 mm,隨后的PET掃描采集時間為每個床位2~3 min,并使用高斯濾波進行迭代重建。
EGFR突變狀態(tài)由對應(yīng)醫(yī)院的病理科對手術(shù)切除的標(biāo)本進行病理學(xué)檢查獲取。檢測方法為利用ARMS工具包提供的擴增難治突變系統(tǒng)實時技術(shù),對EGFR第18、19、20、21外顯子進行測試。
1.4.1 圖像分割
PET/CT圖像采用人工分割,由2名影像科醫(yī)師獨立進行,進行分割的醫(yī)師對病理學(xué)檢查結(jié)果和EGFR基因檢測結(jié)果不知情。分割工具采用ITK-SNAP,僅分割主要腫瘤,沿病灶邊緣外側(cè)進行逐層勾畫。分割在CT圖像上進行,然后通過軟件對齊到相應(yīng)的PET圖像上。
1.4.2 影像預(yù)處理
由于不同來源的兩組數(shù)據(jù)的PET影像斷層間隔均為5 mm,因此本研究主要考慮對CT圖像進行處理。采用的方法:① 將兩組數(shù)據(jù)的CT灰度值范圍歸一化至同一值域,如公式(1)所示,對圖像序列中的每個像素I(x,y)進行處理:
其中max(I)、min(I)分別為原圖像的灰度最大、最小值,[a,b]為歸一化的目標(biāo)值域。
② 將醫(yī)院1的CT影像降采樣。③ 將來自醫(yī)院2的CT影像通過插值的方式升采樣。方法②、③中對圖像的升、降采樣,通過在Z軸方向上對原圖像序列S進行重采樣縮放來實現(xiàn),如公式(2)所示:
其中az為Z軸上的縮放系數(shù),由斷層間隔和像素間距共同確定,Rescale為通過計算機編程實現(xiàn)的重采樣函數(shù)。
我們分別對這3種方法及其組合進行了如下實驗:將所有CT影像的灰度歸一化到同一范圍;對來自醫(yī)院1的CT影像進行降采樣;對來自醫(yī)院2的CT影像進行升采樣;將所有CT影像的灰度歸一化到同一范圍后,對醫(yī)院1的影像進行降采樣;將所有CT影像的灰度歸一化到同一范圍后,對醫(yī)院2的影像進行升采樣。另外,作為參考,我們也將不進行額外預(yù)處理的基線情況納入了對比。影像預(yù)處理操作在Python 3.6.2版本下,使用Simpleitk軟件包[13]完成。
1.4.3 影像組學(xué)特征提取
影像組學(xué)特征的提取使用Pyradiomics軟件包[14]進行。提取的特征總體包括3類,即形態(tài)學(xué)特征、圖像一階統(tǒng)計量和紋理特征。PET和CT圖像的特征提取各自獨立進行。對CT圖像,特征提取在原影像以及經(jīng)過小波變換后的圖像上進行,共提取了1 470個CT影像組學(xué)特征。對于PET影像,特征僅在原圖像進行計算,沒有引入額外的圖像變換,共提取100個PET影像組學(xué)特征。
1.4.4 特征的穩(wěn)定性預(yù)篩查
對每個特征根據(jù)其影像來源進行Mann-Whitney U檢驗,P<0.05即認為該特征在兩個來源間差異有統(tǒng)計學(xué)意義。為了確保后續(xù)分析所采用的影像組學(xué)特征受到數(shù)據(jù)來源的影響最小,我們將閾值放寬,僅選取P>0.20的特征作為穩(wěn)定特征進入后續(xù)的篩選。預(yù)篩查所涉及的統(tǒng)計檢驗使用scipy軟件包進行。
1.4.5 特征篩選及預(yù)測模型構(gòu)建
按照1∶3的比例,將患者劃分為訓(xùn)練集(111例)和測試集(37例)。特征篩選在訓(xùn)練集中進行,具體流程如下:首先,計算穩(wěn)定特征的方差膨脹系數(shù)(variance inflation factor,VIF)[15],刪除VIF值最大的特征后,反復(fù)迭代,直到所有特征的VIF值都低于閾值(本研究中設(shè)為10);隨后,構(gòu)建隨機森林(random forest,RF)分類模型,利用該模型對剩余特征進行重要性得分,保留重要性排序在前四分之一的特征;最后,使用最小絕對收縮與選擇算子(least absolute shrinkage and selection operator,LASSO)回歸模型進一步精簡特征,從而獲得最優(yōu)的特征子集。根據(jù)篩選出的特征子集,采用logistic回歸(logistic regression,LR)算法在訓(xùn)練集上搭建分類模型,并在測試集上測試,模型參數(shù)通過在訓(xùn)練集進行5折交叉驗證決定。特征篩選和建模流程中涉及的所有操作均在Python 3.6.2版本下,利用scikit-learn和statsmodels軟件包實現(xiàn)。
148例患者的基本資料如表1所示,存在EGFR突變的患者占比為50.7%(75/148),其中26例(34.7%)為男性,49例(65.3%)為女性。訓(xùn)練集和測試集中存在EGFR突變的患者占比分別為51.4%(57/111)和48.6%(18/37)。年齡、腫瘤大小、TNM分期差異無統(tǒng)計學(xué)意義。
表1 148例患者的基本資料
如表2所示,所有預(yù)處理方式都能提高影像組學(xué)特征的穩(wěn)定性。其中,灰度范圍歸一化與降采樣兩種方法的組合效果最好,相比基線情況提升了30.8%,有63.9%(939/1470)的特征在兩組間差異無統(tǒng)計學(xué)意義;單獨進行升采樣的效果最差,保留了854個穩(wěn)定特征,相比基線情況提升了18.9%。
表2 不同預(yù)處理方式對特征穩(wěn)定性的影響
不同預(yù)處理方法對應(yīng)的LR分類器,在訓(xùn)練集、測試集上分別繪制ROC曲線并計算曲線下面積(area under curve,AUC),如圖1所示。灰度范圍歸一化與降采樣組合的方法,在訓(xùn)練集與測試集上都取得了最好的鑒別效能,其AUC分別為0.862和0.716;在基線情況下,模型在測試集的表現(xiàn)幾乎與隨機相同。另外,僅進行灰度范圍歸一化時,模型在測試集上相較于基線提升了0.16的AUC;單獨進行升、降采樣并不能顯著提高模型性能,尤其是在降采樣下,模型的測試AUC降低到0.442,劣于隨機和基線模型。
圖1 不同預(yù)處理方式對應(yīng)的影像組學(xué)模型鑒別EGFR突變狀態(tài)的ROC曲線
臨床上EGFR突變狀態(tài)的判斷有重要意義。影像組學(xué)通過從影像中高通量地提取特征,能夠以一種非侵入的方式了解腫瘤的異質(zhì)性,在預(yù)測EGFR突變狀態(tài)上的應(yīng)用也受到眾多研究者關(guān)注。Mei等[16]使用CT影像組學(xué)特征結(jié)合臨床信息建模,其模型AUC值為0.664;Li等[17]使用PET/CT影像組學(xué)特征結(jié)合臨床信息,進一步提高了鑒別EGFR突變的準(zhǔn)確度。我們的先前研究[12]引入了多中心數(shù)據(jù),但側(cè)重于判斷EGFR的具體亞型,對于多中心數(shù)據(jù)的處理僅限于直接排除受到成像參數(shù)顯著影響的特征。
不同成像條件對影像組學(xué)分析的影響是影像組學(xué)的熱點問題之一。已有研究[18-19]指出,CT的斷層間隔、PET影像的重建算法對于計算的影像組學(xué)特征都有很大的影響。Zhao等[20]發(fā)現(xiàn),紋理特征相比于形態(tài)學(xué)和一階圖像統(tǒng)計量更容易受到這些因素的影響。區(qū)別于上述研究,本研究圍繞肺腺癌的EGFR突變預(yù)測,探究了幾種針對不同成像條件的CT影像進行預(yù)處理的方法,并通過對比實驗展現(xiàn)這些方法對特征的穩(wěn)定性以及特征預(yù)測能力的影響。
我們將兩個數(shù)據(jù)源間不存在顯著性差異的特征視為穩(wěn)定特征。本研究中所涉及的三個方法即灰度范圍歸一化、降采樣和升采樣,分別相較于基線情況多保留了25.2%、30.5%和18.9%的穩(wěn)定特征。灰度范圍歸一化能夠直接抵消不同數(shù)據(jù)來源、成像設(shè)備帶來的圖像值域偏差,從而提高特征的穩(wěn)定性;重采樣是一種直觀的數(shù)據(jù)對齊手段,其中,降采樣的過程不會引入新的信息,而升采樣所涉及到的插值過程則不可避免地會給影像增加不可靠的信息,因此降采樣方法在提高特征穩(wěn)定性上的表現(xiàn)更好。
更穩(wěn)定的特征是否代表著更強的預(yù)測能力呢?從預(yù)測建模結(jié)果看,特征的穩(wěn)定性與特征實際的預(yù)測能力并非完全正相關(guān)。一方面,歸一化與降采樣結(jié)合的方法提取出的特征穩(wěn)定性最佳,其對應(yīng)的預(yù)測模型在測試集中AUC指標(biāo)也最高;另一方面,單獨的升、降采樣方法,在提高特征穩(wěn)定性的同時,并沒有提高預(yù)測能力,在測試集上相比基線分別有0.026和-0.064的AUC變化。與灰度歸一化方法結(jié)合后,對應(yīng)的預(yù)測模型分別提高了0.138和0.274的測試集AUC,但對于特征穩(wěn)定性的提升卻相當(dāng)有限,僅額外多保留了1.2%和0.3%的穩(wěn)定特征量。我們猜測這種結(jié)果出現(xiàn)的原因是灰度范圍歸一化對于升、降采樣的過程產(chǎn)生了一定的約束作用,降低了圖像變換對有效信息的影響。
本研究存在以下局限性:① 對多中心數(shù)據(jù)處理的方法挖掘不夠充分。本文探討的幾種處理方法都比較直觀,沒有考慮其他復(fù)雜方法,尤其是近年來興起的基于深度學(xué)習(xí)的方法;② 本研究中采用的LR分類模型,常用來衡量特征的預(yù)測能力,為了得到最優(yōu)的分類模型還需要引入更多先進的機器學(xué)習(xí)算法;③ 雖然本研究收集了兩個不同中心的數(shù)據(jù),但總樣本量仍然偏少,并且缺乏外部獨立驗證,需要收集更多數(shù)據(jù)以驗證目前結(jié)果。
綜上所述,我們基于PET/CT影像組學(xué)構(gòu)建了鑒別肺腺癌患者EGFR突變狀態(tài)的分類模型,圖像預(yù)處理分析結(jié)果表明可以采用灰度范圍歸一化結(jié)合降采樣的方式來處理多中心CT數(shù)據(jù),以提高特征穩(wěn)定性和模型分類效能。我們期待今后進一步收集不同來源的影像數(shù)據(jù),探究其他多中心情境下的數(shù)據(jù)處理方式,并在更多的臨床任務(wù)中構(gòu)建更加可靠的影像組學(xué)模型。