唐彩銀,李通,段紹峰,張繼
1. 泰州市人民醫(yī)院 影像科,江蘇 泰州 225300;2. GE(中國)醫(yī)療精準(zhǔn)醫(yī)學(xué)院,江蘇 南京 210000
肺癌是我國乃至全世界相關(guān)死亡的主要原因,以活檢或手術(shù)切除為基礎(chǔ)的病理檢查是鑒別的金標(biāo)準(zhǔn),但其應(yīng)用主要受到固有的侵入性操作和取樣誤差的限制[1],因此亟需一種無創(chuàng)、有效的方法來幫助準(zhǔn)確診斷肺腺癌(Lung Adenocarcinoma,ADC)和肺鱗狀細(xì)胞癌(Squamous Cell Carcinoma,SCC)。多層螺旋CT是一種常規(guī)的、廣泛應(yīng)用于肺部疾病篩查的檢查技術(shù),但在大多數(shù)的情況下,ADC和SCC患者在增強(qiáng)圖像上會表現(xiàn)出相似的視覺形態(tài)特征,這給放射科醫(yī)師的診斷帶來了困難,影像組學(xué)分析可以更
回顧性分析89例病理診斷為ADC或者SCC的患者的影像資料,其影像資料來源于泰州市人民醫(yī)院PACS系統(tǒng)。所有病例均應(yīng)符合以下納入標(biāo)準(zhǔn):① CT掃描后行腫瘤切除或活檢獲得ADC或SCC的組織病理學(xué)證據(jù);② 所有患者均接受CT增強(qiáng)掃描;③ 所有病灶均顯示實(shí)性腫塊,其短軸直徑至少為10 mm以保證感興趣區(qū)(Region of Interest,ROI)有足夠的面積;④ 在CT掃描前沒有接受任何治療。排除標(biāo)準(zhǔn):① 接受過腫瘤任何治療或病變短軸直徑小于10 mm的患者;② 組織病理證實(shí)為其他類型肺癌者。最后排除掉2例小細(xì)胞肺癌和2例腺鱗癌,共有85例患者參與本研究,其中51例ADC(年齡30~83歲,男性29例,女性22例),34例SCC(年齡38~77歲,男性19例,女性15例)。
所有病例采用西門子FORCE CT進(jìn)行掃描,掃描范圍由肺尖至雙側(cè)腎上腺水平。掃描參數(shù):球管電壓120 kV,管電流110~240 mA,開啟實(shí)時動態(tài)曝光劑量調(diào)節(jié)(Care-Dose 4D),準(zhǔn)直×層數(shù)為0.6 mm×128,球管旋轉(zhuǎn)時間0.5 s/圈。螺旋因子0.9,掃描層厚5 mm。增強(qiáng)對比劑采用碘海醇(350 mgI/mL),增強(qiáng)CT在注入造影劑60 s后進(jìn)行掃描,靜脈團(tuán)注70 mL,流速2.5 mL/s。
1.3.1 圖像分割
采用ITK-SNAP(Version 3.40)軟件在增強(qiáng)圖像上勾畫ROI,因?yàn)槟[瘤在增強(qiáng)圖像上顯示出更好的輪廓和邊緣,將增強(qiáng)后的DICOM格式圖像分別導(dǎo)入ITK-SNAP軟件,選擇病灶的最大橫截面勾畫2D的ROI。所有的病灶勾畫采用雙盲法,由1位具有10年以上呼吸系統(tǒng)腫瘤影像診斷經(jīng)驗(yàn)的高年資醫(yī)師及1位研究生獨(dú)立完成,出現(xiàn)分歧時協(xié)商解決。沿著腫瘤薄層CT增強(qiáng)圖像中最大層面瘤體邊緣內(nèi)側(cè)1~2 mm處手動勾畫ROI,選擇標(biāo)準(zhǔn):選擇腫塊實(shí)質(zhì)區(qū),避免鈣化、壞死和空泡。對于那些腫瘤與鄰近組織粘連或伴有肺葉和節(jié)段性肺不張者,勾畫醫(yī)師需避免將粘連組織或肺組織納入ROI。
1.3.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)集被隨機(jī)分配到訓(xùn)練集或驗(yàn)證集中,其比例為7:3。訓(xùn)練集中的所有病例用于訓(xùn)練預(yù)測模型,而驗(yàn)證集中的病例用于獨(dú)立評估模型的性能。分析前,將方差為零的變量好地檢測出亞顯微組織的變化,并可以利用醫(yī)學(xué)影像的灰度分布特征來評價(jià)病變內(nèi)部的異質(zhì)性[2]。因此,對CT圖像進(jìn)行更詳細(xì)的組學(xué)分析是十分必要的,有助于放射科和腫瘤科醫(yī)師提高基于影像的疾病診斷的準(zhǔn)確性,更好地了解ADC和SCC之間差異[3]。本研究利用CT增強(qiáng)掃描獲取靜脈期圖像,再進(jìn)行影像組學(xué)分析,探討CT影像組學(xué)特征在鑒別SCC與ADC中的臨床價(jià)值。排除在分析之外,然后用中值填充方法替換需要填充的缺失值和異常值。最后,用標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
1.3.3 紋理特征提取和模型建立
將勾畫的ROI與原始圖像導(dǎo)入AK軟件(版本3.2.0,GE醫(yī)療中國)提取影像組學(xué)特征,AK軟件基于pyradiomics開發(fā),所提取的特征均符合ISBI標(biāo)準(zhǔn)。將生成的影像組學(xué)特征,通過相關(guān)性檢驗(yàn)、單因素方差分析或秩和檢驗(yàn)、單因素Logistic回歸檢驗(yàn)、隨機(jī)森林算法進(jìn)行組學(xué)特征的篩選。在相關(guān)性檢驗(yàn)中,設(shè)置相關(guān)性系數(shù)為0.7、單因素Logistic回歸分析檢驗(yàn)中P值為0.05,在建立訓(xùn)練數(shù)據(jù)集最優(yōu)特征子集的基礎(chǔ)上,建立基于多元素Logistic回歸和貝葉斯機(jī)器學(xué)習(xí)算法的Rad score評分模型。
通 過 受 試 者 操 作 特 征(Receiver Operating Characteristic,ROC)曲線來確定機(jī)器學(xué)習(xí)模型的性能,并計(jì)算靈敏度、特異度、準(zhǔn)確率和曲線下面積(Area Under the Curve,AUC)。本研究的所有統(tǒng)計(jì)分析均使用R軟件(版本3.5.1)和Python軟件(版本3.5.6)進(jìn)行。P<0.05為兩組試驗(yàn)數(shù)據(jù)差異有統(tǒng)計(jì)學(xué)意義。
ADC和SCC患者的典型影像學(xué)表現(xiàn)如圖1所示。
圖1 ADC和SCC患者的典型影像學(xué)表現(xiàn)
經(jīng)過單因素方差分析或秩和檢驗(yàn)、單因素Logistic回歸分析、相關(guān)性檢驗(yàn)、隨機(jī)森林算法對所提取的280個紋理特征的高維數(shù)據(jù)進(jìn)行降維,篩選得到8個影像組學(xué)特 征( 圖2):① wavelet-HHL_glszm_SmallAreaEmphasis;② wavelet-HHH_firstorder_Kurtosis;③ wavelet-HLL_firstorder_Skewness;④ waveletLHL_glcm_Correlation;⑤ wavelet-LHH_glcm_Correlation; ⑥ log-sigma-1-0-mm-3D_firstorder_90Percentile; ⑦ log-sigma-4-0-mm-3D_gldm_De pendenceNonUniformityNormalized;⑧ wavelet-LLH_glrlm_LongRunHighGrayLevelEmphasis。
圖2 相關(guān)特征在Logistic建模中訓(xùn)練集和驗(yàn)證集中的相關(guān)系數(shù)
根據(jù)這8個特征通過Logistic回歸分析方法建立模型,通過ROC曲線計(jì)算訓(xùn)練集的AUC為0.97、靈敏度83.3%、特異度97.1%、準(zhǔn)確率91.5%;驗(yàn)證集的AUC為0.89、靈敏度80.2%、特異度73.3%、準(zhǔn)確率84.6%(表1、圖3)。
表1 訓(xùn)練集和測試集在Logistic和貝葉斯模型的預(yù)測效能
圖3 基于Logistic回歸模型中訓(xùn)練集和驗(yàn)證集ROC曲線
根據(jù)這個8個紋理特征以及對應(yīng)的權(quán)重,構(gòu)建影像組學(xué)標(biāo)簽,Rad score=4.5391×特征①+1.3817×特征②+[-2.5380×特征③]+2.2218×特征④+[-1.5687×特征⑤]+[-2.5499×特征⑥]+0.8153×特征⑦+0.4616×特征⑧。訓(xùn)練集和驗(yàn)證集的每例患者的影像組學(xué)評分的分布情況如圖4所示,Rad score在兩組患者中有明顯的分布差異。
圖4 Rad score對模型的評價(jià)
影像組學(xué)的方法能將圖像信息轉(zhuǎn)化為高維度的定量特征數(shù)據(jù),全面描述腫瘤內(nèi)部的異質(zhì)性,能夠彌補(bǔ)傳統(tǒng)診斷模式的不足。本研究探討CT增強(qiáng)圖像影像組學(xué)特征在鑒別SCC和ADC中臨床價(jià)值,結(jié)果顯示基于多因素Logistic回歸機(jī)器學(xué)習(xí)算法計(jì)算的訓(xùn)練集和驗(yàn)證集的AUC分別為0.97和0.89,高于基于貝葉斯機(jī)器學(xué)習(xí)算法模型的計(jì)算值,表明基于多因素Logistic回歸機(jī)器學(xué)習(xí)算法的CT靜脈期增強(qiáng)圖像影像組學(xué)在鑒別SCC和ADC中有較大的臨床應(yīng)用價(jià)值。
本研究結(jié)果顯示,基于多因素Logistic回歸機(jī)器學(xué)習(xí)算法預(yù)測模型來鑒別SCC與ADC的效能最佳。本研究通過使用相關(guān)性檢驗(yàn)、單因素方差分析或秩和檢驗(yàn)、單因素Logistic 回歸分析、隨機(jī)森林算法四種降維方法最終篩選出8個定量影像組學(xué)特征,包括6個小波特征、2個高斯拉普拉斯變換特征,其中waveletLHL_glcm_Correlation、wavelet-LHH_glcm_Correlation中correlation反映了圖像中局部灰度的相關(guān)性。有研究指出correlation對鑒別肺腫瘤有一定價(jià)值[4-5],本研究顯示correlation在ADC和SCC中存在明顯差異,進(jìn)一步提示影像組學(xué)特征correlation在評價(jià)肺癌分型中的潛在價(jià)值。通過圖像變換之后提取出影像組學(xué)特征能夠有效地表達(dá)腫瘤的信息[6]。直方圖是灰度級圖像的函數(shù),通過定量方式比較反映腫瘤內(nèi)部異質(zhì)性的生物指標(biāo):① 峰度(Kurtosis),表征概率密度分布曲線在平均值處峰值高低的特征數(shù);② 偏度(Skewness),代表像素灰度值相對于平均值分布的不對稱程度。眾所周知,沒有一個影像組學(xué)特征是一致的、有利的,研究中需要合理地經(jīng)過圖像的變換如小波變換、高斯拉普拉斯變換[7]來提取紋理特征,提高紋理分析的分類精度。上述特征在一定程度上解釋了模型采用何種特征來做分類的,這些特征也可應(yīng)用于其他類型的研究(如疾病術(shù)后預(yù)測)和疾病鑒別診斷等[8]。訓(xùn)練集中AUC值比較高,預(yù)測效果比較好,但因?yàn)檎w的數(shù)據(jù)量不大,可能會出現(xiàn)過擬合的現(xiàn)象。但通過獨(dú)立的驗(yàn)證集驗(yàn)證,驗(yàn)證效能效果比較好,可以排除過擬合的情況發(fā)生。通過Rad score評價(jià)模型可以看出,驗(yàn)證集的效能整體要比訓(xùn)練集低,進(jìn)一步說明了該方法驗(yàn)證的有效性。影像組學(xué)特征與腫瘤血管的生長是密切相關(guān)的,本研究可進(jìn)一步證實(shí)影像組學(xué)標(biāo)簽與組織病理學(xué)相關(guān)性。使用增強(qiáng)的CT圖像進(jìn)行分型的原因,主要考慮增強(qiáng)后的圖像對病灶的范圍勾畫更加準(zhǔn)確,結(jié)合腫瘤定位特征可以進(jìn)一步提高準(zhǔn)確率[9]。后續(xù)的研究會增加其他期相的對比。
本研究比較多因素Logistic回歸和貝葉斯機(jī)器學(xué)習(xí)方法的預(yù)測效果,發(fā)現(xiàn)多因素Logistic回歸機(jī)器學(xué)習(xí)方法對AUC、準(zhǔn)確度和特異度指標(biāo)的預(yù)測效果好,而在靈敏度方面貝葉斯機(jī)器學(xué)習(xí)方法預(yù)測效果較好。多因素Logistic回歸模型能夠準(zhǔn)確預(yù)測靜脈期CT增強(qiáng)圖像影像組學(xué)特征來鑒別ADC和SCC。ADC和SCC患者術(shù)前的準(zhǔn)確鑒別診斷,對腫瘤的治療至關(guān)重要。CT影像組學(xué)特征與各種腫瘤的組織病理學(xué)特征及臨床結(jié)果的相關(guān)性被認(rèn)為是一種豐富的診斷信息來源[10]。多項(xiàng)研究表明,影像組學(xué)分析可以定量評估SCC與ADC內(nèi)部紋理特征的不同,從而有助于做出鑒別診斷[11-12]。如LIU等[13]回顧性分析了87例患者的薄層CT圖像,提取了5個影像組學(xué)特征,并用此特征建立預(yù)測鑒別SCC和ADC模型,準(zhǔn)確率為95.4%,但后者沒有通過驗(yàn)證集來進(jìn)一步驗(yàn)證模型的可靠性,其結(jié)果的可重復(fù)性及可靠性有待進(jìn)一步驗(yàn)證。羅婷等[14]研究采用熵總值、聚類萌及球面不對稱性3個紋理特征建立模型,其鑒別非浸潤性腺癌與浸潤性腺癌的靈敏度、特異度、準(zhǔn)確度分別為77.8%、91.7%和83.3%。盡管影像組學(xué)定量特征是用數(shù)學(xué)的模式表示的,但這些定量特征和傳統(tǒng)影像特征存在一定相關(guān)性。隨著影像組學(xué)在肺癌鑒別診斷中的廣泛應(yīng)用,影像組學(xué)預(yù)測模型有望成為一種無創(chuàng)鑒別肺癌病理類型的手段[15-16]。
局限性與展望:本研究屬于回顧性分析,具有以下局限性:① 本研究訓(xùn)練集和驗(yàn)證集的樣本量比較小,特別是驗(yàn)證集,需要多中心臨床研究進(jìn)行可重復(fù)性驗(yàn)證;② 本研究僅對增強(qiáng)后的靜脈期圖像進(jìn)行比較,未比較平掃及動脈期時相的優(yōu)劣;③ 圖像的分割,本研究采取二維最大病灶ROI,可能三維勾畫能夠提供更豐富的信息。
基于CT增強(qiáng)掃描靜脈期定量特征構(gòu)建影像組學(xué)標(biāo)簽預(yù)測SCC與ADC具有良好的預(yù)測效能,這將有助臨床醫(yī)師進(jìn)行術(shù)前的無創(chuàng)鑒別。