陳思璇,許悅,葉梅萍,李揚(yáng),于芷軒,青釗,2,王正閣,張冰,2,張?chǎng)?
作者單位:1.南京大學(xué)醫(yī)學(xué)院附屬鼓樓醫(yī)院醫(yī)學(xué)影像科,南京210093;2.南京大學(xué)腦科學(xué)研究院,南京210093;3.南京大學(xué)健康醫(yī)療大數(shù)據(jù)國(guó)家研究院,南京210093
膠質(zhì)瘤是由不同分化階段的神經(jīng)上皮組織衍生的膠質(zhì)細(xì)胞生成的腫瘤的總稱,它是中樞神經(jīng)系統(tǒng)最常見(jiàn)的腫瘤[1]。O6-甲基鳥(niǎo)嘌呤-DNA 甲基轉(zhuǎn)移酶(O6-methylguanine-DNA methyltransferase,MGMT)啟動(dòng)子甲基化是評(píng)估腦膠質(zhì)瘤患者對(duì)烷化劑藥物替莫唑胺敏感性的重要分子依據(jù),并且是評(píng)價(jià)腦膠質(zhì)瘤患者預(yù)后情況的重要分子指標(biāo),在指導(dǎo)臨床制訂治療方案以延長(zhǎng)患者生存期方面具有重要價(jià)值[2-3]。檢測(cè)MGMT啟動(dòng)子甲基化對(duì)診斷及鑒別診斷腦膠質(zhì)瘤具有重要意義。而目前檢測(cè)主要依賴于手術(shù)獲取組織進(jìn)行基因分析[4]。
分子診斷、人工智能算法的迅速發(fā)展使得利用影像組學(xué)研究腫瘤分子標(biāo)志物成為熱門研究課題之一。影像組學(xué)是指高通量地提取大量影像特征,應(yīng)用自動(dòng)化數(shù)據(jù)特征化算法將影像數(shù)據(jù)轉(zhuǎn)化為具有高分辨率、可深度挖掘的特征空間數(shù)據(jù)并進(jìn)行建模分析,對(duì)疾病診斷、治療及預(yù)后等進(jìn)行客觀定量分析,其可以反映潛在的組織和病變特征,如腫瘤的異質(zhì)性[5,6]。MGMT 啟動(dòng)子甲基化與膠質(zhì)瘤MRI 研究不充分,預(yù)測(cè)膠質(zhì)瘤MGMT 啟動(dòng)子甲基化仍然是臨床上面臨的挑戰(zhàn),需要進(jìn)一步的研究[7]。選擇不同影像組學(xué)模型及影像圖像建模會(huì)影響模型的診斷性能[7-8]。
目前在運(yùn)用影像組學(xué)進(jìn)行膠質(zhì)瘤MGMT啟動(dòng)子甲基化的預(yù)測(cè)研究中,研究主要局限在膠質(zhì)母細(xì)胞瘤以及單一的影像組學(xué)方法研究,缺乏對(duì)不同影像組學(xué)模型進(jìn)行對(duì)比研究,因此,本研究基于MRI 平掃T1WI、T2WI、ADC和增強(qiáng)T1WI的影像組學(xué)特征,采用不同的影像組學(xué)模型構(gòu)建模型進(jìn)行研究,探討膠質(zhì)瘤MGMT啟動(dòng)子甲基化狀態(tài)的預(yù)測(cè)效能。
回顧性分析2017 年1 月至2019 年12 月南京鼓樓醫(yī)院符合以下標(biāo)準(zhǔn)的患者病例,納入標(biāo)準(zhǔn):(1)經(jīng)手術(shù)切除,病理證實(shí)WHO 分級(jí)2~4 級(jí)(WHO 2021 版中樞神經(jīng)系統(tǒng)腫瘤分類);(2)術(shù)前行MRI 平掃及增強(qiáng)檢查(T1WI、T2WI、ADC、T1WI 增強(qiáng)序列);(3)術(shù)前均未進(jìn)行腫瘤治療。排除標(biāo)準(zhǔn):(1)圖像質(zhì)量不佳;(2)圖像序列缺損。共114例符合上述標(biāo)準(zhǔn)的患者納入研究,其中MGMT 啟動(dòng)子甲基化陽(yáng)性58 例,陰性56 例。數(shù)據(jù)按8∶2 的比例分割為訓(xùn)練組與驗(yàn)證組,訓(xùn)練組91 例,驗(yàn)證組23例。本回顧性研究經(jīng)南京大學(xué)醫(yī)學(xué)院附屬鼓樓醫(yī)院醫(yī)學(xué)倫理委員會(huì)批準(zhǔn)(編號(hào):2019-065-01),免除受試者知情同意。
采用Philips Achieva 3.0 T MRI掃描儀和聯(lián)影uMR770 3.0 T MRI 掃描儀。MR 增強(qiáng)掃描:軸位T1WI增強(qiáng)掃描,對(duì)比劑為釓噴替酸葡甲胺(Gd-DPTA),用量為0.2 mmol/kg。掃描參數(shù)如表1所示。
表1 MRI掃描參數(shù)Tab.1 MRI scanning parameters
使 用ITK-SNAP 軟 件( 版 本3.8.0,https://itksnap.org/)對(duì)未進(jìn)行預(yù)處理T2WI 及T1WI 增強(qiáng)DICOM 原始圖像進(jìn)行三維分割。在T2WI 及T1WI 增強(qiáng)圖像上,由2 名影像科醫(yī)生(具有3 年工作經(jīng)驗(yàn))分別獨(dú)立勾畫(huà)腫瘤加水腫區(qū)域及腫瘤核心區(qū)域2 種感興趣區(qū)域(region of interest,ROI) (腫瘤加水腫區(qū)域參考T2WI 高信號(hào)區(qū)域勾畫(huà),腫瘤核心區(qū)通過(guò)參照增強(qiáng)T1WI強(qiáng)化區(qū)域勾畫(huà)),ROI包含每層病灶的圖像。如果兩位影像科醫(yī)生勾畫(huà)的ROI 之間存在的差異低于5%,將兩個(gè)ROI 融合。如果兩個(gè)ROI 之間存在的差異高于5%,由1名影像科醫(yī)生(具有10年工作經(jīng)驗(yàn))來(lái)確定最終勾畫(huà)。
為了能夠高通量地從MRI圖像中提取腫瘤部分的影像組學(xué)特征,我們采用開(kāi)源軟件PyRadiomic(https://pyradiomics.readthedocs.io/en/latest/index.html)從T1WI、T2WI、增強(qiáng)T1WI、ADC 這四個(gè)序列的腫瘤加水腫區(qū)和腫瘤核心區(qū)中分別提取影像組學(xué)特征,將各個(gè)序列配準(zhǔn)至相同的物理空間,從而使得同一個(gè)患者的ROI在各個(gè)序列上對(duì)應(yīng)相同的病灶區(qū)域。每個(gè)患者在四種序列中的兩種ROI 區(qū)域,即共計(jì)8 種區(qū)域中進(jìn)行影像組學(xué)特征提取。在每個(gè)區(qū)域中,我們提取了86 個(gè)特征:包含18 個(gè)一階特征,68 個(gè)紋理特征(包括14個(gè)灰度依賴矩陣特征、16個(gè)灰度尺寸區(qū)域矩陣特征、16個(gè)灰度游程長(zhǎng)度矩陣特征、22個(gè)灰度共生矩陣特征),基于以上特征可以量化腫瘤不同維度的特性。對(duì)于每個(gè)患者能夠提取8 個(gè)區(qū)域的86 個(gè)特征,總計(jì)688個(gè)特征。
1.4.1 數(shù)據(jù)歸一化
由于不同特征計(jì)算出的數(shù)值差別較大,需將不同特征直接的數(shù)值縮放到同一數(shù)量級(jí),利用Normalize to unit 對(duì)特征矩陣進(jìn)行歸一化處理,計(jì)算公式如公式1,其中表示第n個(gè)特征,m表示樣本數(shù)[9]。
1.4.2 數(shù)據(jù)降維
采用主成分分析(principal component analysis,PCA)方式進(jìn)行數(shù)據(jù)降維,將潛在相關(guān)的高維特征轉(zhuǎn)變?yōu)榫€性獨(dú)立的低維特征。
1.4.3 特征選擇
利用多變量方差分析(analysis of variance,ANOVA)對(duì)多變量進(jìn)行統(tǒng)計(jì)分析,計(jì)算每個(gè)降維特征對(duì)label 的F值權(quán)重,從大到小排序后,篩選最相關(guān)的特征[9]。
1.4.4 模型建立及評(píng)估
分別采用邏輯回歸(Logistic regression,LR)算法、Lasso 的邏輯回歸算法(Logistic regression via Lasso,LR-Lasso)、支持向量機(jī)(support vector machine,SVM)、貝葉斯分類器(native Bayes,NB)構(gòu)建診斷模型。應(yīng)用5 折交叉驗(yàn)證方式進(jìn)行驗(yàn)證。繪制ROC 曲線用于評(píng)估不同模型的預(yù)測(cè)性能,并且計(jì)算模型的曲線下的面積(area under curve,AUC)、準(zhǔn)確率、特異度、敏感度,根據(jù)模型在測(cè)試集上的AUC來(lái)篩選最優(yōu)模型,實(shí)驗(yàn)建模流程圖如圖1所示。
圖1 實(shí)驗(yàn)流程圖。Fig.1 Experimental flow chart.
應(yīng)用SPSS 軟件(22.0 版)對(duì)臨床基本資料進(jìn)行統(tǒng)計(jì)分析,組間性別、腫瘤分級(jí)差異采用Pearson Chi-squared 檢驗(yàn)進(jìn)行評(píng)估,年齡分布的差異采用獨(dú)立樣本t檢驗(yàn)進(jìn)行評(píng)估。P<0.05 認(rèn)為差異具有統(tǒng)計(jì)學(xué)意義。本實(shí)驗(yàn)使用的特征選擇和分類方法、模型建立采用Python 中的scikit-learn包(scikit-learn 版 本0.22,Python 版 本3.7)以及FeAture Explorer 軟件(https://github.com/salan668/FAE)。
共有MGMT 啟動(dòng)子甲基化結(jié)果大腦膠質(zhì)瘤患者117 例,排除圖像缺損、質(zhì)量不佳的病例3 例,最終共納入114例,分為訓(xùn)練組(91例)和驗(yàn)證組(23例),包括58 例膠質(zhì)瘤MGMT 啟動(dòng)子甲基化陽(yáng)性(平均年齡52歲;男/女=27/31)和陰性56例(平均年齡56歲;男/女=36/20)。本試驗(yàn)的臨床特征如表2 所示,兩組在性別和年齡上差異無(wú)統(tǒng)計(jì)學(xué)意義。
表2 兩組間一般資料的比較Tab.2 Comparison of general data between the two groups
本研究共計(jì)提取688個(gè)特征,經(jīng)標(biāo)準(zhǔn)化處理并經(jīng)PDA 降維,得到4 個(gè)模型預(yù)測(cè)效能如下:LR 模型的AUC值、準(zhǔn)確率為0.90 和91% (表3,圖2);SVM 模型的AUC值、準(zhǔn)確率為0.89 和87% (表4,圖3);LR-Lasso 模型的AUC 值、準(zhǔn)確率為0.80 和74% (表5,圖4),NB 模型的AUC 值、準(zhǔn)確率為0.69 和74% (表6,圖5)。基于LR模型預(yù)測(cè)效能最高。
圖2 LR 模型在交叉驗(yàn)證集(CV Validation)、訓(xùn)練集(Train)、測(cè)試集(Test)中的ROC 曲線。 圖3 SVM 模型在交叉驗(yàn)證集(CV Validation)、訓(xùn)練集(Train)、測(cè)試集(Test)的ROC 曲線。 圖4 LR-Lasso 模型在交叉驗(yàn)證集(CV Validation)、訓(xùn)練集(Train)、測(cè)試集(Test)中的ROC 曲線。 圖5 NB 模型在交叉驗(yàn)證集(CV Validation)、訓(xùn)練集(Train)、測(cè)試集(Test)中的ROC曲線。Fig. 2 ROC curves of LR model in cross validation set, training set and validation set. Fig. 3 ROC curves of SVM model in cross validation set, training set and validation set. Fig. 4 ROC curves of LR-Lasso model in cross validation set, training set and validation set. Fig. 5 ROC curves of NB model in cross validation set,training set and validation set.
表3 LR模型預(yù)測(cè)膠質(zhì)瘤MGMT啟動(dòng)子甲基化狀態(tài)的性能Tab.3 The performance of LR model in predicting the status of MGMT promoter methylation in glioma
表4 SVM模型預(yù)測(cè)膠質(zhì)瘤MGMT啟動(dòng)子甲基化狀態(tài)的性能Tab.4 The performance of SVM model in predicting the status of MGMT promoter methylation in glioma
表5 LR-Lasso模型預(yù)測(cè)膠質(zhì)瘤MGMT啟動(dòng)子甲基化狀態(tài)的性能Tab.5 The performance of LR-Lasso model in predicting the status of MGMT promoter methylation in glioma
表6 NB模型預(yù)測(cè)膠質(zhì)瘤MGMT啟動(dòng)子甲基化狀態(tài)的性能Tab.6 The performance of NB model in predicting the status of MGMT promoter methylation in glioma
本研究基于T1WI、T2WI、ADC 和增強(qiáng)T1WI 的影像組學(xué)特征,采用LR、LR-Lasso、SVM、NB 影像組學(xué)算法構(gòu)建模型對(duì)膠質(zhì)瘤MGMT啟動(dòng)子甲基化的預(yù)測(cè)效能進(jìn)行研究,結(jié)果發(fā)現(xiàn)影像組學(xué)模型對(duì)術(shù)前預(yù)測(cè)腦膠質(zhì)瘤MGMT 啟動(dòng)子甲基化的狀態(tài)具有一定應(yīng)用價(jià)值,LR模型預(yù)測(cè)效能最佳(AUC 值、準(zhǔn)確率分別為0.90 和91%),SVM 模型的診斷效能較好(AUC 值、準(zhǔn)確率分別為0.89和87%),LR-Lasso模型預(yù)測(cè)效能尚可(AUC值、準(zhǔn)確率分別為0.80 和74%),NB 模型預(yù)測(cè)效能欠佳(AUC 值、準(zhǔn)確率分別為0.69 和74%)。本研究創(chuàng)新性地對(duì)不同影像組學(xué)模型的效能進(jìn)行了評(píng)估與對(duì)比,篩選最適合預(yù)測(cè)膠質(zhì)瘤MGMT啟動(dòng)子甲基化狀態(tài)的影像組學(xué)模型,為無(wú)創(chuàng)評(píng)估膠質(zhì)瘤MGMT 啟動(dòng)子甲基化狀態(tài)提供新途徑,對(duì)實(shí)現(xiàn)腦膠質(zhì)瘤精準(zhǔn)個(gè)體化治療具有一定的臨床指導(dǎo)意義。
MGMT 啟動(dòng)子甲基化是近年研究較多的腦膠質(zhì)瘤分子標(biāo)志物,是評(píng)估腦膠質(zhì)瘤患者對(duì)烷化劑藥物替莫唑胺敏感性的重要分子依據(jù),并且是評(píng)價(jià)腦膠質(zhì)瘤患者預(yù)后情況的重要分子指標(biāo),在指導(dǎo)臨床制訂治療方案以提高療效及改善預(yù)后方面具有重要價(jià)值[2-3,10]。目前組織及分子病理學(xué)分析是檢測(cè)MGMT啟動(dòng)子甲基化金標(biāo)準(zhǔn),但獲取標(biāo)本不僅是有創(chuàng)操作、過(guò)程復(fù)雜、可重復(fù)性差,而且由于標(biāo)本取材的限制,有時(shí)不能反映腫瘤組織的整體情況,使得無(wú)創(chuàng)的影像組學(xué)方法成為腦腫瘤分子標(biāo)志物的研究熱點(diǎn)[4,11-12]。
本研究基于T1WI、T2WI、ADC 和增強(qiáng)T1WI 的MRI影像組學(xué)特征,采用LR、LR-Lasso、SVM、NB 影像組學(xué)算法構(gòu)建模型對(duì)膠質(zhì)瘤MGMT啟動(dòng)子甲基化的預(yù)測(cè)效能進(jìn)行研究,發(fā)現(xiàn)LR 模型預(yù)測(cè)效能最高,SVM 模型的診斷效能較高,LR-Lasso模型預(yù)測(cè)效能尚可,NB模型預(yù)測(cè)效能欠佳。LR 模型在時(shí)間和內(nèi)存需求上非常高效,它可以用較少的資源處理大型數(shù)據(jù),其對(duì)于數(shù)據(jù)中小噪聲的魯棒性較好,在部分臨床預(yù)測(cè)模型中,其他種類機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能并沒(méi)有優(yōu)于LR[13]。SVM 在相對(duì)小樣本,高維數(shù)特征、非線性問(wèn)題具有一定優(yōu)勢(shì)[14]。LR和SVM模型均屬于分類判別模型,常用于二分類。兩種模型均屬于線性分類算法,因此兩種算法結(jié)果比較相近。本實(shí)驗(yàn)中基于LR模型預(yù)測(cè)效能最高,LR 模型與SVM 模型診斷效能差別不大,均具有較好的預(yù)測(cè)效能,這與上述兩種模型的特點(diǎn)及之前的研究相符。Sasaki 等[15]利用Lasso 算法預(yù)測(cè)膠質(zhì)母細(xì)胞瘤MGMT甲基化狀態(tài)的準(zhǔn)確率為67%,而本研究LR-Lasso 預(yù)測(cè)膠質(zhì)瘤MGMT 啟動(dòng)子甲基化準(zhǔn)確率為74%,與之前的研究結(jié)果相符。NB是一種基于條件概率和計(jì)數(shù)的非常簡(jiǎn)單的算法,由于算法非常簡(jiǎn)單,NB 算法建模性能常常被其他經(jīng)過(guò)適當(dāng)訓(xùn)練的分類算法超越,這可能是本研究中NB 模型預(yù)測(cè)效能不佳的原因。
本研究基于T1WI、T2WI、ADC 和增強(qiáng)T1WI 的MRI影像組學(xué)特征,采用不同影像組學(xué)模型構(gòu)建預(yù)測(cè)模型,驗(yàn)證了影像組學(xué)預(yù)測(cè)MGMT 啟動(dòng)子甲基化狀態(tài)方面具有較高應(yīng)用價(jià)值,這與之前的研究相符。Xi等[16]對(duì)98 例膠質(zhì)母細(xì)胞瘤用支持向量機(jī)建模,發(fā)現(xiàn)聯(lián)合T1WI、增強(qiáng)T1WI 和T2WI 模型的預(yù)測(cè)準(zhǔn)確率最高(0.86)。Wei 等[17]在T1WI、ADC 和FLAIR 圖像上從腫瘤和瘤周水腫提取影像組學(xué)特征,應(yīng)用LR 建模預(yù)測(cè)MGMT啟動(dòng)子甲基化,訓(xùn)練集AUC為0.92,驗(yàn)證集AUC為0.90,預(yù)測(cè)效能優(yōu)于臨床因素和ADC參數(shù)。Jiang等[18]發(fā)現(xiàn)MRI 影像組學(xué)有助于預(yù)測(cè)低級(jí)別膠質(zhì)瘤患者M(jìn)GMT 啟動(dòng)子甲基化狀態(tài),而不同序列的影像組學(xué)特征的融合可能會(huì)提高預(yù)測(cè)效能。有學(xué)者基于EfficientNet-B3卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建獨(dú)立的基于T2WI、T1WI 增 強(qiáng)、T2WI 聯(lián) 合T1WI 增 強(qiáng) 的 預(yù) 測(cè) 模 型(T2-net、T1C-net、TS-net),TS-net 模型的準(zhǔn)確度為81.8%,AUC為0.78[7]。上述的研究主要局限在單一的影像組學(xué)或深度學(xué)習(xí)方法研究,缺乏對(duì)不同影像組學(xué)模型進(jìn)行對(duì)比研究。然而每種分類算法具有各自的優(yōu)點(diǎn)及局限性,因此有必要嘗試多種分類算法,并且評(píng)估不同算法的性能[19-20]。
本研究的創(chuàng)新點(diǎn)在于采用多種(包括LR、LR-Lasso、SVM、NB)而非一種分類算法,比較了不同算法構(gòu)建模型預(yù)測(cè)的效能,這與之前的一些僅用單一分類算法的研究不同。本研究使用多種算法建模是因?yàn)閱蝹€(gè)分類算法的成功可能會(huì)受到機(jī)會(huì)因素影響,并且可能存在數(shù)據(jù)穩(wěn)定的問(wèn)題。本研究發(fā)現(xiàn)診斷效能較高的分類算法并不局限于單一的算法,LR及SVM 算法構(gòu)建模型均取得了較高的預(yù)測(cè)準(zhǔn)確度。本研究的ROI 及序列選擇與之前的一些研究有所不同,之前的研究大多提取單序列、1 種ROI 特征,而本研究的腫瘤分割區(qū)域包括2種ROI (既包括腫瘤加水腫區(qū)域的ROI,又包括腫瘤核心區(qū)域的ROI),并匹配到包括T1WI、T2WI、增強(qiáng)T1WI、ADC 的4 個(gè)序列中,從而提取的腫瘤影像組學(xué)特征更全面。此外,本研究的特征降維方法與之前的一些研究有所不同,之前一些研究使用Pearson相關(guān)進(jìn)行單因素分析降維,而本研究中影像組學(xué)特征降維采用PCA方法,通過(guò)線性變換將潛在相關(guān)的高維特征轉(zhuǎn)變?yōu)榫€性獨(dú)立的低維特征,優(yōu)點(diǎn)是去除特征之間的互相影響的因子,并且不受數(shù)據(jù)集以外的因素干擾;計(jì)算方法簡(jiǎn)單,主要運(yùn)算是特征值分解,易于實(shí)現(xiàn)。
本研究的局限性在于采用回顧性研究,樣本量相對(duì)較少,樣本可能存在偏倚;另外,研究中的ROI分割是人工勾畫(huà),操作不方便,效率較低,并且具有一定主觀性;此外,采用同一家醫(yī)院的數(shù)據(jù),掃描參數(shù)相同,模型具有局限性;采用PCA 降維得到的綜合特征是經(jīng)過(guò)計(jì)算得到的各個(gè)特征的含義具有一定的模糊性,算法降維得到的不是直接從原始圖像中提取的原始特征,而是綜合計(jì)算的特征,而主成分與原始特征間的關(guān)系以直線方程表示,不能直接用于闡釋和說(shuō)明[20-22]。本研究應(yīng)用的影像組學(xué)算法種類較少,也具有一定局限性。下一步還需與其他研究中心合作開(kāi)展多中心研究,進(jìn)一步增加病例數(shù)、更換降維方法及影像組學(xué)算法,增加模型的穩(wěn)定性。
綜上所述,MRI 影像組學(xué)模型對(duì)術(shù)前預(yù)測(cè)腦膠質(zhì)瘤MGMT 啟動(dòng)子甲基化的狀態(tài)具有一定應(yīng)用價(jià)值,為評(píng)估膠質(zhì)瘤預(yù)后、鑒別復(fù)發(fā)與假進(jìn)展提供更多信息,為實(shí)現(xiàn)腦膠質(zhì)瘤精準(zhǔn)治療提供新思路。
作者利益沖突聲明:全部作者均聲明無(wú)利益沖突。