江少凡,宋陽,薛蘊(yùn)菁,蔣日烽
膠質(zhì)瘤是顱內(nèi)最常見的惡性腫瘤,即使通過積極的手術(shù)、放化療和靶向藥物等治療,預(yù)后仍然很差。近幾年來有研究者逐漸開展了膠質(zhì)瘤分子、基因?qū)用娴难芯?所研究的基因主要有IDH、EGFR、MGMT及1p/19q等[1-2]。IDH基因中以IDH1突變最常見,其作用是降低腫瘤細(xì)胞增殖程度和減少血管生成,使膠質(zhì)瘤侵襲性相對減低,故有IDH1突變的膠質(zhì)瘤患者具有相對良好的預(yù)后[3]。針對IDH1突變型膠質(zhì)瘤的靶向藥物治療手段已逐步開展。因此,對于膠質(zhì)瘤尤其是無法切除的膠質(zhì)瘤患者而言,無創(chuàng)性預(yù)測IDH1突變有助于指導(dǎo)臨床盡早制訂合理準(zhǔn)確的治療策略。
影像組學(xué)技術(shù)可基于常規(guī)MRI圖像提取的腫瘤病灶的高通量定量特征,在腦腫瘤的診斷方面具有高度特異性和無創(chuàng)性的綜合優(yōu)勢。既往的研究結(jié)果表明單一序列對腦腫瘤的診斷效能有限,多個(gè)序列組合能獲得更好的診斷效能[4-5]。但既往對多種序列組合和多種機(jī)器學(xué)習(xí)(machine learning,ML)模型進(jìn)行比較的相關(guān)研究報(bào)道較少或不全面。本研究中通過多種序列及組合、特征選擇方式、降維方式及ML分類器的組合使用來構(gòu)建多種ML影像組學(xué)模型,評價(jià)各模型對IDH1突變膠質(zhì)瘤的預(yù)測效能。
1.一般資料
回顧性分析2014年1月-2021年12月在本院于術(shù)前接受3.0T MR檢查并經(jīng)病理證實(shí)的腦膠質(zhì)瘤患者的病例資料。納入標(biāo)準(zhǔn):①病理診斷為腦膠質(zhì)瘤;②首次接受膠質(zhì)瘤手術(shù)治療且術(shù)前未接受任何相關(guān)治療;③術(shù)前行3.0T MR檢查,檢查序列需包括標(biāo)準(zhǔn)化采集的T2WI、T2-FLAIR、DWI及對比增強(qiáng)T1WI。排除標(biāo)準(zhǔn):①圖像質(zhì)量較差,圖像信噪比較低和/或有明顯偽影等;②病灶過小(腫瘤直徑<1.0 cm);③免疫組化檢查未檢測IDH1。根據(jù)納入和排除標(biāo)準(zhǔn),最終納入161例腦膠質(zhì)瘤患者:低級別(WHO Ⅰ~Ⅱ級)66例,高級別(WHO Ⅲ~Ⅳ級)95例;IDH1突變型70例,IDH1野生型91例。IDH1突變型病例中,男41例,女29例;年齡23~68歲,平均(44.05±12.15)歲。IDH1野生型病例中,男54例,女37例;年齡3~77歲,平均(51.36±16.77)歲。按照7∶3的比例將161例患者隨機(jī)分為訓(xùn)練集和測試集。訓(xùn)練集113例,IDH1突變型與野生型例數(shù)比為50/63;測試集共48例,IDH1突變型與野生型例數(shù)比為20/28。
本研究經(jīng)福建醫(yī)科大學(xué)附屬協(xié)和醫(yī)院倫理委員會批準(zhǔn)。為保護(hù)患者隱私,隱去患者姓名等識別信息,所有入組患者的影像資料以數(shù)字編號表示。
2.MRI檢查方法
使用GE Discovery 750 3.0T、Siemens Trio Tim 3.0T或Siemens Prisma 3.0T磁共振儀,收集的橫軸面序列有T2WI、T2-FLAIR、DWI及對比增強(qiáng)T1WI,各序列標(biāo)準(zhǔn)化采集參數(shù)如下。T2WI:TR 4000 ms,TE 90 ms,體素分辨率0.5 mm×0.5 mm×5.0 mm;T2-FLAIR:TR 9000 ms,TE 145 ms,體素分辨率0.6 mm×0.6 mm×5.0 mm;DWI序列:TR 4000 ms,TE 60 ms,體素分辨率1.4 mm×1.4 mm×5.0 mm,b值選用0和1000 s/mm2,自動生成ADC圖(本研究提取的是ADC圖的組學(xué)特征);對比增強(qiáng)T1WI:TR 1750 ms,TE 9.0 ms,體素分辨率0.6 mm×0.6 mm×5.0 mm。將患者4個(gè)序列圖像的DICOM格式轉(zhuǎn)化為Nifti格式后,采用SPM12軟件將所有序列的圖像向T2WI圖像進(jìn)行配準(zhǔn)。
3.ROI勾畫及特征提取
由2位放射科醫(yī)師(分別具有5和10年工作經(jīng)驗(yàn))利用ImageJ軟件(https://imagej.nih.gov/ij)共同進(jìn)行ROI的勾畫。勾畫方法:對每例患者的前期已配準(zhǔn)好的所有序列圖像進(jìn)行觀察,對強(qiáng)化不明顯或無強(qiáng)化的腦膠質(zhì)瘤選擇T2-FLAIR序列進(jìn)行ROI的勾畫(圖1);對于強(qiáng)化明顯的腦膠質(zhì)瘤則在對比增強(qiáng)T1WI圖像上進(jìn)行ROI的勾畫(圖2);通過觀察T2WI和T2-FLAIR圖像,在腫瘤實(shí)體區(qū)域逐層勾畫ROI,注意避開腫瘤內(nèi)的液化壞死區(qū)。因所有圖像先期均進(jìn)行了配準(zhǔn),故在任意一個(gè)序列上勾畫的ROI均可同步到其它序列。最后生成感興趣體積 (volume of interst,VOI).利用FAE Pro V0.4.1軟件(https://github.com/salan668/FAE)中的pyradiomics模塊提取各序列VOI的影像組學(xué)特征。
圖1 右額葉腦膠質(zhì)瘤ROI勾畫示意圖。a)T2-FLAIR序列顯示腫瘤呈不均勻高信號;b)T2-FLAIR序列,沿腫瘤邊緣勾畫ROI。
4.最佳序列的篩選和模型的構(gòu)建
使用FAE軟件,將訓(xùn)練集和測試集中各序列所提取的組學(xué)特征按數(shù)據(jù)平衡化、數(shù)據(jù)歸一化、特征選擇、特征降維和分類建模的順序進(jìn)行。
首先,在測試集中篩選最佳的序列或組合,具體步驟如下。①數(shù)據(jù)平衡化:上采樣;②數(shù)據(jù)歸一化:均值歸一化;③特征選擇:采用方差分析法(analysis of variance,ANOVA)進(jìn)行特征選擇,特征數(shù)的范圍設(shè)置為1~20;④特征降維:對每兩個(gè)特征使用皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCC)法進(jìn)行分析,如果其r值大于0.9,則在 FAE 軟件中隨機(jī)刪除其中一個(gè)特征;⑤分類建模:分別采用四種算法即線性判別分析(linear discriminant analysis,LDA)、最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)回歸(LASSO regression,LR)、邏輯回歸(logistic regression,LG)和支持向量機(jī)(support vector machine,SVM)建立機(jī)器學(xué)習(xí)模型。在訓(xùn)練集中采用10折交叉驗(yàn)證對模型進(jìn)行訓(xùn)練。序列或組合總計(jì)15種,通過比較其ROC曲線的AUC篩選出最佳序列或組合。以上所有流程都是在Python 3.7.6上使用FAE Pro V0.4.1軟件來完成的[6]。
然后,基于最佳序列組合,將其提取的組學(xué)特征采用多種算法按照上述步驟重新進(jìn)行建模,主要步驟和方法如下。①數(shù)據(jù)平衡化:上采樣;②數(shù)據(jù)歸一化:均值歸一化;③采用2種方式進(jìn)行特征選擇,分別是方差分析和特征權(quán)重算法(Relief),特征數(shù)的范圍設(shè)置為1~20;④選用2種方式進(jìn)行特征降維,分別是PCC和主成分分析(principal component analysis,PCA);⑤然后,采用LDA、LR、LG和SVM四種算法分別建立機(jī)器學(xué)習(xí)模型。通過上述步驟和算法的組合共獲得16種機(jī)器學(xué)習(xí)模型。
訓(xùn)練集通過10折交叉驗(yàn)證對模型進(jìn)行訓(xùn)練。在測試集中對16種機(jī)器學(xué)習(xí)模型進(jìn)行驗(yàn)證,通過FAE軟件的one-standard error法、ROC曲線和Delong檢驗(yàn)篩選出具有較好擬合度和AUC最大的機(jī)器學(xué)習(xí)模型,記錄其相應(yīng)的診斷敏感度、特異度和符合率等效能指標(biāo)值,然后,將此最佳機(jī)器學(xué)習(xí)模型聯(lián)合臨床指標(biāo)(年齡、性別、病理分級及KPS評分)構(gòu)建聯(lián)合模型,分析聯(lián)合模型的診斷效能。
所有AUC值的95%CI采用bootstrape法進(jìn)行1000次重采樣得到。
5.統(tǒng)計(jì)學(xué)方法
臨床資料的組間比較使用SPSS 23.0統(tǒng)計(jì)軟件。計(jì)數(shù)資料用頻數(shù)表示,符合正態(tài)分布的計(jì)量資料采用均數(shù)±標(biāo)準(zhǔn)差表示。采用獨(dú)立樣本t檢驗(yàn)比較訓(xùn)練集和測試集之間患者年齡和KPS評分的差異,采用卡方檢驗(yàn)比較訓(xùn)練集和測試集之間患者性別構(gòu)成、腫瘤病理級別和IDH1突變率的差異。采用Delong檢驗(yàn)比較不同機(jī)器學(xué)習(xí)模型AUC的差異。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.臨床資料
訓(xùn)練集和測試集中患者年齡、性別、KPS評分、腫瘤分級和IDH1突變率的差異均無統(tǒng)計(jì)學(xué)意義(P>0.05),詳見表1。
表1 訓(xùn)練集和測試集臨床資料的比較
2.特征提取結(jié)果
T2WI、T2-FLAIR、ADC圖及對比增強(qiáng)T1WI四個(gè)序列均各自提取了98個(gè)影像組學(xué)特征,包括灰度共生矩陣(gray level co-occurence matrix,GLCM)特征24個(gè)、灰度行程長度矩陣(gray level run-length matrix,GLRLM)特征16個(gè),灰度區(qū)域大小矩陣(gray level size zone matrix,GLSZM)特征16個(gè)、鄰域灰度差矩陣(neighbouring gray tone difference matrix,NGTDM)特征5個(gè)、一階特征18個(gè)和形態(tài)特征19個(gè)。
3.篩選最佳序列或組合
基于15個(gè)序列或序列組合提取的組學(xué)特征所構(gòu)建的預(yù)測IDH1突變型膠質(zhì)瘤的四種機(jī)器學(xué)習(xí)模型在訓(xùn)練集和測試集中的AUC值詳見表2。基于ADC圖和對比增強(qiáng)T1WI序列提取的組學(xué)特征所構(gòu)建的4種機(jī)器學(xué)習(xí)模型在測試集中的AUC分別為0.888、0.872、0.896和0.877,均高于其它序列或組合的AUC值,故此序列組合為最佳。
表2 基于不同序列及組合的四種機(jī)器學(xué)習(xí)模型預(yù)測膠質(zhì)瘤IDH1突變的AUC值
4.基于最佳序列構(gòu)建ML模型及其效能分析
基于ADC圖+增強(qiáng)T1WI序列提取的組學(xué)特征,采用2種降維方式,2種特征選擇方式以及4種分類器共構(gòu)建了16種ML模型,通過FAE軟件的one-standard error法排除過擬合或明顯欠擬合數(shù)據(jù)后剩下5種ML模型,以其構(gòu)建的算法組合命名,分別為PCA_ANOVA_LDA、PCA_ANOVA_LR、PCA_ANOVA_LG、PCA_ANOVA_SVM和 PCC_Relief_LDA。
5種ML模型在訓(xùn)練集和測試集中預(yù)測IDH1突變型的效能分析結(jié)果詳見表3。5種模型在測試集中的AUC為0.656、0.766、0.854、0.814和0.810,在測試集中的AUC分別為0.596、0.829、0.808、0.821和0.818。Delong檢驗(yàn)結(jié)果(圖3):在訓(xùn)練集中,PCA_ANOVA_LDA的AUC低于另外4種ML模型(P=0.047、0.006、0.041、0.040),另外4種ML模型之間AUC的差異均無統(tǒng)計(jì)學(xué)意義(P>0.05);在測試集中,PCA_ANOVA_LDA的AUC低于另外4種ML模型(P=0.011、0.025、0.013、0.017),另外4種ML模型之間AUC的差異無統(tǒng)計(jì)學(xué)意義(P>0.05),其中以PCA_ANOVA_LR的AUC最大,為0.829(95%CI:0.658~0.966),特異度為0.864,敏感度為0.765,符合率為0.821,構(gòu)建該ML模型的組學(xué)特征及權(quán)重系數(shù)見表4。
表3 基于ADC和增強(qiáng)T1WI序列的組學(xué)特征構(gòu)建的不同機(jī)器學(xué)習(xí)模型的診斷效能
表4 PCA_ANOVA_LR模型中的組學(xué)特征及其權(quán)重系數(shù)
圖3 數(shù)據(jù)擬合較好的5種ML模型在訓(xùn)練集和測試集中的ROC曲線,顯示PCA_ANOVA_LDA模型在訓(xùn)練集和測試集中的AUC均低于另外4種ML模型。a)訓(xùn)練集;b)測試集。
5.臨床資料結(jié)合最佳影像組學(xué)模型的效能分析
將最佳影像組學(xué)模型PCA_ANOVA_LR進(jìn)一步與四項(xiàng)臨床指標(biāo)相結(jié)合構(gòu)建組合模型,通過FAE軟件的one-standard error法排除了過擬合和欠擬合的組合模型后,擬合度較好的各組合模型在訓(xùn)練集和測試集中的效能分析結(jié)果詳見表5。在測試集中,以結(jié)合了KPS評分、病理分級和影像組學(xué)模型的聯(lián)合模型的AUC最大,為0.874(95%CI:0.722~0.985)。
表5 臨床資料聯(lián)合影像組學(xué)模型構(gòu)建的聯(lián)合模型的診斷效能
本研究結(jié)果顯示基于ADC圖+對比增強(qiáng)T1WI序列組合提取的影像組學(xué)特征所構(gòu)建的4種機(jī)器學(xué)習(xí)模型在測試集中預(yù)測膠質(zhì)瘤IDH1突變型的AUC值高于其它序列及組合,提示這個(gè)序列組合具有較好且穩(wěn)定的診斷效能?;谠撔蛄薪M合進(jìn)一步構(gòu)建的16種ML影像組學(xué)模型中,PCA_ANOVA_LR、PCA_ANOVA_LG、PCA_ANOVA_SVM和PCC_Relief_LDA這4種模型均具有較好的診斷效能,其中PCA_ANOVA_LR在測試集中的AUC最大,聯(lián)合KPS評分、病理分級后的聯(lián)合模型的AUC進(jìn)一步提高。
決定膠質(zhì)瘤患者預(yù)后的最主要因素是細(xì)胞增殖程度和血供程度,兩者也是反映膠質(zhì)瘤侵襲性強(qiáng)弱的指標(biāo),而與之相對應(yīng)的MRI征象是DWI上腫瘤的擴(kuò)散受限程度和對比增強(qiáng)T1WI上腫瘤的強(qiáng)化程度,膠質(zhì)瘤IDH1的異質(zhì)性能很好地在DWI的ADC圖和對比增強(qiáng)T1WI序列上得以體現(xiàn),這與既往相關(guān)研究中序列的選擇結(jié)果相一致[7-9]。本研究結(jié)果亦顯示出基于多序列組合所構(gòu)建的影像組學(xué)模型較單序列模型更加具有優(yōu)勢,在建模時(shí)應(yīng)重點(diǎn)關(guān)注ADC圖和對比增強(qiáng)T1WI序列所提取的組學(xué)特征。
本研究的樣本量并不多,未納入隨機(jī)森林和決策樹這2種分類器,原因是這兩者都屬于同一類型的分類器,比較適合對大樣本數(shù)據(jù)進(jìn)行評價(jià),在小樣本數(shù)據(jù)的分析中出現(xiàn)錯(cuò)誤的概率較高,容易出現(xiàn)數(shù)據(jù)的過擬合。如郁義星等[10]基于132例肝癌患者的肝膽期MRI圖像提取的組學(xué)特征構(gòu)建了6種機(jī)器學(xué)習(xí)模型來預(yù)測肝細(xì)胞癌微血管侵犯,結(jié)果顯示隨機(jī)森林和決策樹模型在訓(xùn)練集中的AUC為1或接近1,提示數(shù)據(jù)可能存在過擬合現(xiàn)象。而 LDA、LR、LG和SVM這4種分類器對訓(xùn)練樣本量的依賴較小,適合小樣本高維數(shù)據(jù)的分類[11-13]。Peng等[14]對105例膠質(zhì)瘤患者基于其T2WI+增強(qiáng)T1WI序列使用SVM分類器建立影像組學(xué)模型,結(jié)果顯示模型在測試集中預(yù)測膠質(zhì)瘤IDH1類型的AUC為0.799。Chen等[15]基于175例低級別星形細(xì)胞瘤患者的增強(qiáng)T1WI序列提取組學(xué)特征,并利用LDA分類器建立組學(xué)模型,模型在訓(xùn)練集和測試集中的AUC分別為0.801和0.799。上述研究中的病例數(shù)與本研究中相近且均未出現(xiàn)數(shù)據(jù)過擬合的情況,故本研究選擇了對小樣本二分類問題有較好訓(xùn)練效果的LDA、LR、LG和SVM這4種分類器進(jìn)行建模。
本研究中還發(fā)現(xiàn)基于ADC圖+增強(qiáng)T1WI序列提取的組學(xué)特征所構(gòu)建的16個(gè)機(jī)器學(xué)習(xí)模型中,有11個(gè)模型出現(xiàn)了較明顯的數(shù)據(jù)欠擬合。數(shù)據(jù)欠擬合即訓(xùn)練集與測試集之間AUC的差異較大,且訓(xùn)練集的AUC值低于測試集,出現(xiàn)欠擬合現(xiàn)象的原因可能是數(shù)據(jù)分布不平衡。筆者發(fā)現(xiàn)本研究中無明顯數(shù)據(jù)欠擬合的5種機(jī)器學(xué)習(xí)模型中有4種是由PCA_ANOVA方法構(gòu)建的,筆者認(rèn)為可能有以下兩方面原因:一、要改善訓(xùn)練集中數(shù)據(jù)欠擬合的問題即提高模型的診斷效能,主要解決方法有增加特征數(shù)、減少正則化參數(shù)和使用非線性模型(如SVM等),而PCA作為一種高維數(shù)據(jù)的降維方式,可以使得降維造成的損失最小,主要作用就是保留訓(xùn)練集的特征信息,相當(dāng)于增加了訓(xùn)練集的特征數(shù),而PCC的降維方式是如果2個(gè)特征的相關(guān)系數(shù)值大于 0.9,則隨機(jī)刪除其中一個(gè)特征,因此相較于PCC,PCA能保留更多的訓(xùn)練集特征數(shù),從而可提高訓(xùn)練集的診斷效能[16];二、ANOVA特征選擇方式是通過選擇與目標(biāo)變量相關(guān)性最強(qiáng)的指標(biāo),可以減少過擬合風(fēng)險(xiǎn)和提高訓(xùn)練集的診斷效能,而Relief特征選擇方法是將權(quán)重小于某個(gè)閾值的特征移除,減少了訓(xùn)練集的特征數(shù),從而可導(dǎo)致模型在訓(xùn)練集中的診斷效能降低。同時(shí)本研究結(jié)果顯示在訓(xùn)練集和測試集中,LDA分類器所構(gòu)建的PCA_ANOVA_LDA與PCC_Relief_LDA兩個(gè)模型之間AUC均存在差異,筆者認(rèn)為LDA作為一種線性分類器,其穩(wěn)定性可能不及LR、LG和SVM。
患者的性別、年齡、腫瘤的病理分級及KPS評分均是評價(jià)膠質(zhì)瘤的主要臨床指標(biāo),既往研究中也有將臨床資料與影像組學(xué)模型結(jié)合的報(bào)道[4,17]。陳洋等[18]通過Log-rank檢驗(yàn)以及多因素邏輯回歸分析,發(fā)現(xiàn)KPS評分、病理級別及IDH基因型均與膠質(zhì)瘤預(yù)后密切相關(guān),本研究結(jié)果亦顯示影像組學(xué)模型結(jié)合KPS評分和病理分級后得到的聯(lián)合模型的預(yù)測效能進(jìn)一步提高。
此外,與以往的研究不同,本研究將高、低級別膠質(zhì)瘤一起納入研究,使組學(xué)模型不受病理分級的影響,更加適合在術(shù)前預(yù)測膠質(zhì)瘤IDH1突變,在近期的研究中也有類似報(bào)道[17]。2021年發(fā)布的第5版中樞神經(jīng)系統(tǒng)腦腫瘤分類標(biāo)準(zhǔn)進(jìn)一步弱化了腫瘤分級對膠質(zhì)瘤分型的作用,而IDH基因則是首個(gè)得到公認(rèn)的與膠質(zhì)瘤分型相關(guān)的關(guān)鍵基因。
本研究具有一定的局限性:第一,為單中心研究,沒有外部數(shù)據(jù)的驗(yàn)證,這是由于外部機(jī)構(gòu)的MRI掃描參數(shù)無法做到與本研究中完全一致;第二,由于本研究為回顧性分析,且入組條件較為嚴(yán)格,盡管納入的樣本是目前本中心能收集到的全部病例,但樣本量還是相對較小,今后還將繼續(xù)搜集相關(guān)病例以擴(kuò)大樣本量來進(jìn)一步驗(yàn)證本研究的結(jié)果;第三,本研究中僅選用了常規(guī)序列進(jìn)行研究和分析,沒有將采用了新技術(shù)(如磁共振三維動脈自旋標(biāo)記、擴(kuò)散峰度成像等)的相關(guān)數(shù)據(jù)納入研究,原因是目前相應(yīng)樣本量還較少。
綜上所述,基于ADC+T1WI增強(qiáng)序列組合提取的影像組學(xué)特征,采用方差分析的特征選擇方法、主成分分析的降維方法以及LASSO回歸的分類方式所構(gòu)建的機(jī)器學(xué)習(xí)模型對膠質(zhì)瘤IDH1突變具有較好的預(yù)測效能,結(jié)合臨床KPS評分和腫瘤病理分級所構(gòu)建的聯(lián)合模型可進(jìn)一步提高預(yù)測效能。