董詩潔,胡曉欣,王 葳,楊 孟,岳 磊,童 彤,顧雅佳
復(fù)旦大學(xué)附屬腫瘤醫(yī)院放射診斷科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海200032
子宮頸癌是婦科常見的三大惡性腫瘤之一。以往子宮頸癌高發(fā)年齡在50~55歲,目前,子宮頸癌患者已經(jīng)呈現(xiàn)年輕化的趨勢,高發(fā)年齡已降到40~45歲。子宮頸癌病因主要與人乳頭瘤病毒(human papillomavirus,HPV)感染有關(guān),早婚、早產(chǎn)和免疫力低下等普通人群都容易發(fā)生感染而患上子宮頸癌[1~2]。
早期子宮頸癌患者的常見癥狀為性接觸出血,經(jīng)期延長和經(jīng)量增多,出現(xiàn)不規(guī)則的陰道出血,而一些內(nèi)生型、頸管型的子宮頸癌患者直到中晚期也可能未出現(xiàn)明顯癥狀。晚期子宮頸癌患者會出現(xiàn)尿急、尿頻和鄰近組織受累等表現(xiàn),預(yù)后不良,并且影響著放療野的范圍。目前子宮頸癌的治療方案主要是基于國際婦產(chǎn)科聯(lián)盟(International Federation of Gynecology and Obstetrics,F(xiàn)IGO)制定的2018年子宮頸癌分期系統(tǒng)[3]。在2018年子宮頸癌FIGO分期系統(tǒng)中,首次將淋巴結(jié)轉(zhuǎn)移納入了FIGO分期系統(tǒng)的ⅢC期,其中盆腔淋巴結(jié)轉(zhuǎn)移為ⅢC1期,主動脈淋巴結(jié)轉(zhuǎn)移為ⅢC2期。若子宮頸癌患者診斷為淋巴結(jié)轉(zhuǎn)移,則放化療為首選的治療方式,目前比較權(quán)威的是美國國立綜合癌癥網(wǎng)絡(luò)(National Comprehensive Cancer Network,NCCN)指南,推薦使用CT、MRI或者PET/CT來評估子宮頸癌淋巴結(jié)轉(zhuǎn)移,其中PET/CT的準確率可達75%,但是費用較高[4]。CT和MRI是目前比較常規(guī)的評估手段,但是判斷淋巴結(jié)假陽性率為24%,對于小于1 cm的轉(zhuǎn)移淋巴結(jié)假陽性率更是達 到60%[5]。
傳統(tǒng)的影像學(xué)診斷主要是根據(jù)形態(tài)學(xué)來進行形態(tài)特征分析,評估子宮頸癌病變,缺乏準確的組織病理學(xué)信息和分化程度的判斷。針對淋巴結(jié)轉(zhuǎn)移的診斷標準,通常是以淋巴結(jié)直徑大小來判別是否發(fā)生轉(zhuǎn)移。但是這種標準會導(dǎo)致特異度高和靈敏度低。隨著科學(xué)技術(shù)的不斷進步,人工智能和大數(shù)據(jù)分析已經(jīng)成為各個領(lǐng)域的熱點[6]。在醫(yī)學(xué)影像領(lǐng)域,影像組學(xué)技術(shù)可通過提取醫(yī)學(xué)圖像中大量的特征數(shù)據(jù)信息,經(jīng)過數(shù)據(jù)處理和建模后,可對子宮頸癌淋巴結(jié)轉(zhuǎn)移與否進行預(yù)測分析,可為子宮頸癌的診斷提供更多的信息[7]。本文研究利用影像組學(xué)分析來確定子宮頸癌患者是否發(fā)生淋巴結(jié)轉(zhuǎn)移。
回顧性分析2015年6月—2019年9月在復(fù)旦大學(xué)附屬腫瘤醫(yī)院經(jīng)術(shù)后病理學(xué)檢查證實的子宮頸癌非淋巴結(jié)轉(zhuǎn)移患者和子宮頸癌淋巴結(jié)轉(zhuǎn)移患者共202例的臨床資料,每例患者都符合2018年FIGO公布的最新子宮頸癌分期系統(tǒng)標準,子宮頸癌非淋巴結(jié)轉(zhuǎn)移患者為ⅠA2~ⅡB期,子宮頸癌淋巴結(jié)轉(zhuǎn)移患者為ⅢC期。所有患者在治療前都經(jīng)過MRI檢查和后期進行了盆腔淋巴結(jié)清掃手術(shù),并獲得病理學(xué)檢查結(jié)果,一共排除20例患者。排除標準:①術(shù)前進行過放療或化療。② 患有其他惡性腫瘤。③病灶過小,無法進行準確勾畫,導(dǎo)致無法正常進行影像組學(xué)特征的提取。經(jīng)過復(fù)旦大學(xué)附屬腫瘤醫(yī)院倫理委員會批準,并得到患者知情同意。
將符合標準的182例患者按照7∶3的比例隨機分成2組。131例患者被分到訓(xùn)練集,51例患者被隨機分到驗證集。根據(jù)病理學(xué)檢查結(jié)果,訓(xùn)練集包括72例淋巴轉(zhuǎn)移患者和59無例淋巴結(jié)轉(zhuǎn)移患者。
所有患者都經(jīng)過術(shù)前MRI檢查。本文使用3.0T GE磁共振掃描儀(GE HD 3T),使用4通道相控陣線圈。①T2WI序列掃描方案:橫斷位和矢狀位(TE/TR,82.9 ms/3336 ms),視野FOV 288 mm×288 mm,層厚4 mm,層間0.5 mm。采用快速自旋回波FSE序列進行掃描。② T1C+序列增強掃描方案:橫斷位和矢狀位(TR/TE,4.5 ms/7.5 ms),視野FOV 390 mm×312 mm,層厚4 mm,層間1 mm,采用LAVA序列動態(tài)增強掃描。MRI增強對比劑采用Gd-DTPA,劑量為0.2 mmol/kg,采用高壓注射器經(jīng)手背靜脈注入,流率為2.5 mL/s,其后以同樣流率注入15 mL 0.9%NaCl溶液沖洗管內(nèi)殘留的Gd-DTPA。
使用美國GE公司PACS中存檔的常規(guī)矢狀位和橫斷位T2WI序列圖像、矢狀位和橫斷位T1C+序列圖像,將這些圖像導(dǎo)出,格式為DICOM。由于影像組學(xué)的分析是以病灶的圖像為本體,所以子宮頸癌病變區(qū)域的精準分割非常重要[8]。本文的ROI分割圖像分別由具有15年資質(zhì)的放射科醫(yī)師手動分割,使用的分割軟件為ITKSNAP,并且以nⅡ格式輸出三維ROI圖像。進行ROI勾畫時需要注意:①勾畫時應(yīng)注意病灶的大小、形態(tài)和邊緣等,盡量勾畫腫瘤區(qū)域侵犯的邊界。② 只勾畫子宮頸腫瘤所侵犯的范圍,不勾畫子宮體、陰道、直腸等受累區(qū)域。③子宮頸癌病灶中若出現(xiàn)壞死和囊變等,ROI勾畫時也要避免這些區(qū)域。④ 勾畫ROI時要盡量避開子宮頸癌內(nèi)的黏液。
圖1 女性患者,子宮頸鱗狀細胞癌ⅡB級 Fig.1 Female patients with cervical squamous cell carcinoma of the level type ⅡB
采用Pyradiomics分別從10種圖像類型和6種不同特征體系來提取每例患者的影像組學(xué)特征[9]。其中10種圖像類型分別為:①原始圖像類型;② 小波變換濾波器類型;③高斯-拉普拉斯濾波器類型;④ 平方濾波器類型;⑤ 平方根濾波器類型;⑥ 對數(shù)濾波器類型;⑦ 指數(shù)濾波器類型;⑧ 梯度濾波器類型;⑨ 二維局部二值模式類型;⑩ 三維局部二值模式類型。6種特征體系分別為一階特征體系、形狀特征體系、灰度共生矩陣特征體系、灰度區(qū)域大小矩陣特征體系、灰度行程矩陣特征體系和灰度相關(guān)矩陣特征體系[10]。對T2WI和T1C+序列而言,一階特征體系提取324個特征,形狀特征體系提取240個特征,灰度共生矩陣特征體系提取432個特征,灰度區(qū)域大小矩陣特征體系提取320個特征,灰度行程矩陣特征體系提取253個特征,灰度相關(guān)矩陣特征體系提取264個特征,鄰域灰度差矩陣提取90個特征。對T2WI-T1C+聯(lián)合序列而言,提取特征數(shù)為T2WI和T1C+序列的總和。
1.5.1 臨床特征
在單變量分析中,Mann-WhitneyU檢驗用于連續(xù)變量的檢驗,卡方檢驗用于分類變量的檢驗,以檢驗臨床特征和潛在預(yù)后結(jié)果的表現(xiàn)。獲得知情同意后,從患者臨床記錄中獲取臨床資料。本文所有患者的臨床特征包括年齡、妊娠次數(shù)、分娩次數(shù)、流產(chǎn)次數(shù)、首次性交年齡、月經(jīng)狀態(tài)、癌癥家族史。
1.5.2 數(shù)據(jù)預(yù)處理和特征篩選
從T2WI序列、T1C+序列和兩者聯(lián)合序列提取的醫(yī)學(xué)影像組學(xué)特征[11],特征篩選步驟為:⑴ 去除掉數(shù)據(jù)中的無效數(shù)據(jù),如文本信息、無效數(shù)字和空數(shù)據(jù)等,其中T2WI序列和T1C+序列去除無效數(shù)據(jù)后,分別提取了1831個特征,聯(lián)合序列一共提取3659個特征。⑵ 去除無效數(shù)據(jù)后,再將數(shù)據(jù)分為訓(xùn)練集和測試集。⑶ 采用隨機上采樣、隨機下采樣和SMOTH方法來實現(xiàn)訓(xùn)練集的數(shù)據(jù)平衡,避免數(shù)據(jù)集中的樣本比例不平衡。⑷ 數(shù)據(jù)歸一化。方法包括:①Normalize to unit;② Normalize to 0-center;③Normalize to unit with 0-center。⑸ 特征選擇:①多變量方差分析法(analysis of variance,ANOVA);② 遞歸特征消除法(recursive feature elimination,RFE);③Relief算法。⑹ 數(shù)據(jù)降維:使用皮爾森相關(guān)系數(shù)(Pearson correlation coefficient,PCC)降維方法,通過遍歷所有影像組學(xué)特征,兩兩計算皮爾森相關(guān)系數(shù),當系數(shù)大于閾值0.86時,隨機去除其中一個,使得降維后的特征不具有高相似度。⑺ 分類方法:支持向量機(support vector machine,SVM)分類算法。⑻ 交叉驗證:對訓(xùn)練數(shù)據(jù)進行拆分,分為訓(xùn)練集和驗證集,本文選取的是五折交叉驗證(5-folder)法。
1.5.3 模型比較與評估
本研究建立的3個影像組學(xué)模型分別為T2WI序列影像組學(xué)模型、T1C+序列影像組學(xué)模型和T2WI+T1C影像組學(xué)模型。所有模型采用AUC值、95% CI下AUC值、準確率、真陽性和假陽性來評估各自模型的性能,并顯示不同特征的特征貢獻度。
根據(jù)病理學(xué)檢查結(jié)果將患者分成淋巴結(jié)轉(zhuǎn)移組和非淋巴結(jié)轉(zhuǎn)移組。在訓(xùn)練集和驗證集中,將淋巴結(jié)轉(zhuǎn)移組和非淋巴結(jié)轉(zhuǎn)移組進行單變量分析,結(jié)果顯示,差異均無統(tǒng)計學(xué)意義(P>0.05,表1)。
表1 訓(xùn)練集及驗證集患者的臨床特征Tab.1 Clinical characteristics of patients in the training set and test set
建立模型之前,我們選取一小部分數(shù)據(jù),其中2例子宮頸癌淋巴結(jié)轉(zhuǎn)移女性患者,2例子宮頸癌非淋巴結(jié)轉(zhuǎn)移女性患者和3位正常子宮頸女性。對未經(jīng)過任何濾波器處理的影像組學(xué)特征值進行可視化處理,可發(fā)現(xiàn)各個特征之間的相關(guān)性,并且都被分到各自的一組中[12]。使用聚類和降維分析可初步觀察影像組學(xué)特征,判斷子宮頸癌淋巴轉(zhuǎn)移的效能,結(jié)果發(fā)現(xiàn),分類效果顯著(圖2)。
圖2 影像組學(xué)特征聚類分析圖 Fig.2 Radiomic image feature cluster analysis diagram
經(jīng)過數(shù)據(jù)預(yù)處理和特征篩選后,在AUC和特征數(shù)的比較上,通過生成AUC值得方差,利用minimum criteria和standard error of the minimum criteria選擇最優(yōu)特征數(shù),即在最高AUC值下一個標準差范圍內(nèi),選擇最小特征數(shù)[13]。
黑點代表當各自模型的最適合的特征個數(shù)。T2WI-T1C+聯(lián)合序列模型選取這16個特征時,為最適合的特征個數(shù),這些特征將使T2WI-T1C+聯(lián)合序列模型訓(xùn)練線性SVM模型具有最高的AUC值。綜合比較,可見采用的圖像序列不同,利用影像組學(xué)方法建立的模型的預(yù)測性能也不同,基于T2WI-T1C+聯(lián)合序列建立的SVM算法模型較T2WI序列建立的SVM算法模型和T1C+序列建立SVM算法模型而言,其AUC、靈敏度和特異度整體較高,模型性能也較佳(圖3)。
圖3 3個模型最佳特征數(shù)Fig.3 The best number of features for three models
T2WI序列模型提取了14個影像組學(xué)特征(圖4),T1C+序列模型提取了16個影像組學(xué)特征(圖5),T2WI-T1C+聯(lián)合序列模型提取了16個影像組學(xué)特征(圖6)。對各個模型的特征系數(shù)的權(quán)重取其絕對值,可以更加直觀地反映排名情況。在各自序列的采用受試者工作特征(receiver operating characteristic,ROC)曲線中,T1C+序列模型的16個影像組學(xué)特征訓(xùn)練集AUC=0.819,測試集AUC=0.781(圖7、表2)。T2WI序列模型的14個影像組學(xué)特征訓(xùn)練集AUC=0.810,測試集AUC=0.773。T2WI-T1C+聯(lián)合序列模型提取的這16個特征用于訓(xùn)練線性SVM模型,具有最高的訓(xùn)練集AUC=0.841,測試集AUC值=0.803。在各個特征前添加了T2序列前綴T2WI和T1C+序列前綴T1C+。T2WI-T1C+聯(lián)合序列模型提取的T2序列影像組學(xué)特征8個,分別為T2WI_LBP-3D_firstorder_RootMeanSquared、T2WI_Wavelet-LLH_firstorder_Skewness、T2WI_LBD-3D_glszm_LargeDependenceEmphasis、T2WI_Exponential_glszm_SizeZoneNonUniformity、T2WI_Wavelet-HHH_glszm_SmallAreaLowGrayLevelEmphasis、T2WI_Wavelet-HLH_firstorder_AbsoluteDeviation、T2WI_Log-sigma-5-0-mm-3D_firstorder_Kurtosis、T2WI_Log-sigma-3-0-mm-3D_glcm_Informal Measure of Correlation 2。在T1C+序列中提取的影像特征有8個,分別為T1C+_LBP-3D_glcm_ClusterTendency,T1C+_Exponential_glcm_DifferenceEntropy、T1C+_Wavelet-HHH_glcm_Difference Average、T1C+_Wavelet-HLH_glcm_ClusterProminence、T1C+_wavelet-LHH_firstorder_Kurtosis、T1C+_Exponential_firstorder_RobustMean、T1C+_Logsigma-3-0-mm-3D_gldm_DependenceVariance、T1C+_Wavelet-LHL_glcm_Average Intensity。
圖4 T2WI模型特征系數(shù)權(quán)重Fig.4 Weight feature coefficients of the T2WI model
圖5 T1C+模型特征系數(shù)權(quán)重Fig.5 Weight feature coefficients of the T1C+model
圖6 T2WI-T1C+模型特征系數(shù)權(quán)重Fig.6 Weight feature coefficients of the T2WI-T1C+model
圖7 3個模型的訓(xùn)練集和驗證集ROC曲線 Fig.7 ROC curves of training set and verification set of the three models
表2 各組模型比較Tab.2 The comparison of each model group
本研究建立了一種術(shù)前個體化預(yù)測子宮頸癌淋巴結(jié)轉(zhuǎn)移的T2WI序列模型、T1C+序列模型和T2WI-T1C+聯(lián)合序列模型。在SVM算法模型下,利用minimum criteria和standard error of the minimum criteria選擇最優(yōu)特征數(shù),在最高AUC值下的標準差范圍內(nèi),T2WI序列模型提取了14個特征,T1C+序列模型提取了16個特征,T2WIT1C+聯(lián)合序列模型提取了16個特征。在3個模型中,T2WI-T1C+聯(lián)合序列模型預(yù)測淋巴結(jié)轉(zhuǎn)移的訓(xùn)練集和驗證集的準確率最高,分別為0.831和0.785,可作為無創(chuàng)的影像標志物輔助臨床醫(yī)師進行子宮頸癌淋巴結(jié)轉(zhuǎn)移的預(yù)測。
對于T2WI序列模型,T2WI序列與水的含量關(guān)系密切,對水的靈敏度較高,也能反映腫瘤壞死囊變的信息[14]。提取的14個特征中,提取的一階統(tǒng)計特征體系特征有7個,一階統(tǒng)計特征體系與淋巴結(jié)轉(zhuǎn)移的權(quán)重總系數(shù)為8.0897。紋理特征體系提取了7個特征,其中灰度區(qū)域大小矩陣體系提取了5個,與淋巴結(jié)轉(zhuǎn)移的權(quán)重總系數(shù)為4.3602。灰度共生矩陣特征體系提取了2個,與淋巴結(jié)轉(zhuǎn)移的權(quán)重總系數(shù)為1.5641。T2WI序列以一階統(tǒng)計特征體系為主,權(quán)重總系數(shù)要大于紋理特征體系。
對于T1C+序列模型而言,與T2WI序列模型相比,AUC較高的原因可能是加入了對比劑后,腫瘤區(qū)域的異質(zhì)性相關(guān)的信息更為豐富,包括囊變、壞死和鈣化等,而且T1C+序列主要反映的是組織中新生血管的通透性,腫瘤級別越高,相對應(yīng)的新生血管就越多,增加了血管的通透性,加重了增強程度,組織的壞死囊變顯示更清晰[15]。提取的16個特征中,一階統(tǒng)計特征體系特征有7個,一階統(tǒng)計特征體系與淋巴結(jié)轉(zhuǎn)移的權(quán)重總系數(shù)為6.5657。紋理特征體系提取了9個特征,灰度級共生矩陣體系提取了7個,與淋巴結(jié)轉(zhuǎn)移的權(quán)重總系數(shù)為7.061?;叶葏^(qū)域大小矩陣體系提取了2個特征,與淋巴結(jié)轉(zhuǎn)移的權(quán)重總系數(shù)為0.8902。T1C+序列以紋理特征體系為主,權(quán)重總系數(shù)大于一階統(tǒng)計特征體系,說明增強后紋理特征更加顯著。一階統(tǒng)計特征體系提取的特征可能反映腫瘤壞死囊變的信息。T1C+模型中灰度共生矩陣特征體系提取的特征權(quán)重排名第一,而在T2WI序列模型中,無灰度共生矩陣體系特征,說明灰度共生矩陣體系特征可能反映新生血管的通透性。
T2WI-T1C+聯(lián)合序列模型的一階統(tǒng)計特征和紋理特征對子宮頸癌淋巴結(jié)轉(zhuǎn)移的分類預(yù)測具有較大的價值。在提取的16個特征中,一階統(tǒng)計特征有6個,其淋巴結(jié)轉(zhuǎn)移權(quán)重總系數(shù)為8.1938。紋理特征體系提取了10個特征,灰度級共生矩陣提取了6個,灰度相關(guān)矩陣特征體系與淋巴結(jié)轉(zhuǎn)移權(quán)重總系數(shù)為8.3413?;叶葏^(qū)域大小矩陣體系提取了3個,灰度區(qū)域大小矩陣體系與淋巴結(jié)轉(zhuǎn)移權(quán)重總系數(shù)為3.1471。灰度區(qū)域大小矩陣體系提取了1個,灰度區(qū)域大小矩陣體系與淋巴結(jié)轉(zhuǎn)移權(quán)重總系數(shù)為1.0433。在T2WI-T1C+聯(lián)合序列模型中,一個特征來自于T2WI序列模型,兩個特征來自于T1C+序列模型,其中LBP-3D_firstorder_RootMeanSquared特征在T2WI序列模型提取的特征中排名位居第2,在T2WI-T1C+聯(lián)合序列模型提取特征中位居第1。T1C+模型的T1C+_Exponential_glcm_DifferenceEntropy、T1C+_LBP-3D_glcm_ClusterTendency特征排名分別為第2位和第3位,在T2WI-T1C+聯(lián)合序列模型提取特征中排到第6位和第2位。T2WI_LBP-3D_firstorder_RootMeanSquare、T1C+_LBP-3D_glcm_ClusterTendency、T1C+_Exponential_glcm_DifferenceEntropy可能是子宮頸癌淋巴結(jié)轉(zhuǎn)移預(yù)測的重要參數(shù)。LBP-3D_firstorder_RootMeanSquared特征和LBP-3D_glcm_ClusterTendency特征是三維局部二值模式濾波類型的一階特征體系提取的均方根和聚類趨勢,Exponential_glcm_DifferenceEntropy是指數(shù)濾波類型提取的差異信息熵[16]。對于T2WI-T1C+聯(lián)合序列模型,其預(yù)測子宮頸癌淋巴結(jié)轉(zhuǎn)移的AUC和準確率是最高的,說明多序列建立的影像組學(xué)模型有助于子宮頸癌淋巴結(jié)轉(zhuǎn)移的判斷,主要原因可能是多序列模型可以進行互相補充圖像信息,進而可以更加全面、客觀地反映腫瘤的異質(zhì)性[16]。
Kan等[17]基于143例子宮頸癌患者的MRI圖像,利用T2WI和DCE序列紋理特征去區(qū)分淋巴結(jié)是否轉(zhuǎn)移,提取出970個放射組學(xué)特征及7個臨床特征,并且在訓(xùn)練集中使用最小冗余最大相關(guān)方法(minimum redundancy maximum relevance,MRMR)排序特征,進而將排名前10位的放射組學(xué)特征用于訓(xùn)練線性SVM模型。其中放射組學(xué)特征區(qū)分淋巴結(jié)是否轉(zhuǎn)移在試驗組AUC為0.753,在驗證組中AUC為0.754,特征主要包括灰度共生矩陣特征和灰度區(qū)域大小矩陣特征。本文除了特征提取方法與特征排序方法不同外,建立的算法模型也是SVM模型。其中本文T2WI-T1C+聯(lián)合序列模型提取的特征數(shù)為3846個,T2WI-T1C+聯(lián)合序列模型的試驗組AUC與驗證組AUC都要高,分別為0.841和0.803。由此可見,提取特征類型和數(shù)目越多,可能在一定程度上提升模型區(qū)分淋巴結(jié)是否轉(zhuǎn)移的準確率。
本文研究局限在于:①本研究屬于單中心研究,樣本量不多。② 本文屬于回顧性研究,當時的常規(guī)盆腔MRI未加入彌散序列,故我們只提取了T2WI和T1C+序列的特征。后續(xù)還可以結(jié)合更多序列特征[如彌散序列(apparent diffusion coefficient,ADC)],可能會提取更多有價值的特征。③作為回顧性研究,在患者選擇上可能存在一定偏倚。
本研究采用不同的圖像序列,利用影像組學(xué)方法建立的模型預(yù)測性能也是不同的。在我們建立的3個序列模型中,T2WI-T1C+聯(lián)合序列模型預(yù)測子宮頸癌淋巴結(jié)轉(zhuǎn)移的效能最優(yōu),所提取的MRI影像組學(xué)特征參數(shù)對輔助臨床醫(yī)師進行子宮頸癌淋巴結(jié)判斷具有一定的預(yù)測價值。