石鈺陽何 平* 劉 奕安利智田 宇
(1、河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401 2、天津醫(yī)科大學(xué)研究生院,天津300203)
腦膠質(zhì)瘤是最常見的中樞神經(jīng)系統(tǒng)腫瘤,WHO將其分為I~I(xiàn)V級,高級別膠質(zhì)瘤術(shù)后復(fù)發(fā)率和病死率極高,嚴(yán)重威脅人們的身心健康[1]。烷化劑是惡性膠質(zhì)瘤常用的化療藥物之一,但是一些患者出現(xiàn)較高的耐藥性,使得臨床治療效果不佳[2]。近年來研究表明,烷化劑耐藥的主要原因是由于DNA修復(fù)蛋白O6-甲基鳥嘌呤-DNA甲基轉(zhuǎn)移酶(MGMT)的存在。故2016年WHO做出更新,將MGMT啟動(dòng)子甲基化增加為膠質(zhì)瘤預(yù)后的獨(dú)立預(yù)測指標(biāo),自此對MGMT啟動(dòng)子甲基化的測定被提到了前所未有的高度[3]。
MGMT啟動(dòng)子甲基化作為腦膠質(zhì)瘤中重要的分子生物學(xué)標(biāo)記,已逐漸在臨床病理學(xué)診斷中展開應(yīng)用,然而醫(yī)學(xué)上常用的病理免疫組化檢測MGMT啟動(dòng)子的甲基化狀態(tài)并不完全可靠[4]。
放射組學(xué)將宏觀的影像量化,并客觀的預(yù)測微觀分子表達(dá),以期于術(shù)前給予臨床及病理指導(dǎo)。多項(xiàng)研究探討了利用紋理特征預(yù)測MGMT甲基化狀態(tài)的有效性[5],但這些特征可能不能完全表征圖像,從而限制了模型的潛力。近年來的研究通過分析多區(qū)域特征來探索腫瘤的微環(huán)境,證明了多區(qū)域圖像分析對腫瘤的診斷及預(yù)后治療有重要臨床意義[6-7]。
多項(xiàng)研究證明將量化的MRI放射組學(xué)特征與機(jī)器學(xué)習(xí)方法相結(jié)合[8-9],建立模型可以用于臨床診斷。支持向量機(jī)(Support Vector Machine,SVM)作為一種監(jiān)督學(xué)習(xí)的分類方法,在解決高維非線性,以及小樣本數(shù)據(jù)分類問題中具有很大優(yōu)勢,并且已成功應(yīng)用在基因識別和癌癥腫瘤診斷方面[10]。粒子群優(yōu)化-支持向量機(jī)(Particle Swarm Optimization-Support Vector Machine,PSO-SVM)算法較SVM算法有操作簡單、能快速尋找支持向量機(jī)參數(shù)最優(yōu)組合的特點(diǎn)。本文基于多區(qū)域多參數(shù)MRI放射學(xué)特征建立PSO-SVM腦膠質(zhì)瘤MGMT分類模型,以期準(zhǔn)確預(yù)測腦膠質(zhì)瘤患者M(jìn)GMT啟動(dòng)子甲基化狀態(tài)。
在這項(xiàng)研究中,影像學(xué)和臨床數(shù)據(jù)來源于天津市某醫(yī)院放射科,包括患者的年齡、性別、膠質(zhì)瘤級別和放射組學(xué)特征。共有127例患者符合研究標(biāo)準(zhǔn),納入標(biāo)準(zhǔn)為:(1)經(jīng)病理學(xué)證實(shí)的原發(fā)性中樞神經(jīng)系統(tǒng)膠質(zhì)瘤。(納入級別WHO II~I(xiàn)V級);(2)預(yù)處理T1WI增強(qiáng)序列和T2WI序列影像;(3)有效MGMT甲基化狀態(tài)。
1.2.1 圖像分割
該數(shù)據(jù)集包括127名患者的889個(gè)切片。由126個(gè)星級2級、98個(gè)少突2級、483個(gè)膠母4級、98個(gè)間變少突3級和84個(gè)間變星級3級膠質(zhì)瘤類型圖像組成。除影像外,在不知任何臨床及病理資料的情況下,由2名影像科醫(yī)生參考橫軸位多序列(T2WI、DWI、ADC、FLAIR、T1WI增強(qiáng))原始圖像,共同商議確定瘤體及水腫邊界,再由其中1人逐層勾畫。
腫瘤勾畫標(biāo)準(zhǔn):(1)增強(qiáng)T1WI上無強(qiáng)化的腫瘤,以T2WI上腫瘤異常高信號邊緣作為瘤體邊界,再將上述輪廓復(fù)制到其它序列上;(2)增強(qiáng)T1WI上于病變內(nèi)部呈散在斑片樣不規(guī)則強(qiáng)化的腫瘤(病變于ADC圖上呈明顯不均質(zhì)性,無法區(qū)分瘤體及瘤周水腫),以T2WI上腫瘤異常高信號邊緣作為瘤體邊界,再將上述輪廓復(fù)制到其它序列上;(3)增強(qiáng)T1WI上呈明顯實(shí)性團(tuán)塊樣強(qiáng)化或環(huán)形強(qiáng)化的腫瘤,以增強(qiáng)T1WI上瘤體強(qiáng)化邊緣作為腫瘤邊界,如果強(qiáng)化以外的區(qū)域于FLAIR/T2WI上呈高信號,而于ADC上呈明顯低信號者,則需要將ADC上低信號的區(qū)域納入勾畫范圍。再將上述輪廓復(fù)制到其它序列上。水腫勾畫標(biāo)準(zhǔn):FLAIR像上除腫瘤外的高信號區(qū)且在TIWI-CE上顯示為低信號的區(qū)域定義為水腫區(qū)。于FLAIR上勾畫水腫邊界,再將上述輪廓復(fù)制到其它序列上,圖1顯示一個(gè)分割實(shí)例,紅色區(qū)域?yàn)槟[瘤,綠色區(qū)域?yàn)樗[。
圖1 FLAIR上的分割結(jié)果
1.2.2 特征提取與特征選擇
實(shí)驗(yàn)中,我們對每名患者均分別從腫瘤區(qū)域(T1WI增強(qiáng)、T2WI、FLAIR和ACD序列)和水腫區(qū)域(T2WI、FLAIR和ACD序列)中每個(gè)序列各提取1029個(gè)特征。提取的特征包括三種特征集:(1)247個(gè)一階統(tǒng)計(jì)量用于描述圖像的體素強(qiáng)度分布;(2)767個(gè)紋理特征用于反映圖像表面的特性;(3)15個(gè)形狀特征用于描述感興趣區(qū)域(Region Of Interest,ROI)的三維大小和形狀。
高維數(shù)據(jù)處理時(shí),我們采用主成分分析(Principal Component Analysis,PCA)降維方法。如圖2所示,MIN-MAX歸一化后的1029維放射組學(xué)特征經(jīng)過PCA,保留原始數(shù)據(jù)95%以上的信息,降到30維進(jìn)行建模,既保留了原始數(shù)據(jù)的重要信息又提高了模型的效率和準(zhǔn)確率。
圖2 特征提取示例
1.2.3 支持向量機(jī)
SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,它以分類的泛化性能為目標(biāo),分布意義下錯(cuò)誤率最小。對于有限的訓(xùn)練樣本具有較高的學(xué)習(xí)能力,非訓(xùn)練樣本具有良好的預(yù)測能力,因此,適用于腦膠質(zhì)瘤MGMT啟動(dòng)子甲基化狀態(tài)分類這種非線性問題。
一個(gè)非線性可分的二分類問題,且兩種樣本的標(biāo)簽分別是{+1,-1},這個(gè)優(yōu)化問題寫成:
3 每餐食物都要有一定質(zhì)和量的蛋白質(zhì) 人體沒有為蛋白質(zhì)設(shè)立儲存?zhèn)}庫,如果一次食用過量的蛋白質(zhì),勢必造成浪費(fèi);相反,如果食物中蛋白質(zhì)不足時(shí),寶寶的生長發(fā)育就會受影響。
根據(jù)拉格朗日對偶性,定義拉格朗日函數(shù),其中a=(a1,a2,…,aN)T為拉格朗日乘子向量:
由于噪音的存在,引入松弛變量δ≥0解決非線性可分的問題,懲罰因子C代表離群點(diǎn)帶來損失的嚴(yán)重程度,此時(shí)最優(yōu)化目標(biāo)和約束條件為:
此時(shí)的分類決策函數(shù)為:
1.2.4 PSO-SVM算法
PSO-SVM算法即采用PSO算法優(yōu)化SVM核函數(shù)參數(shù)σ和懲罰因子C。對于低維平面線性不可分的數(shù)據(jù),通過一個(gè)映射將低維平面的點(diǎn)投放到高維平面中,低維映射到高維,需要引入核函數(shù),避開直接在高維空間中進(jìn)行計(jì)算,引入核函數(shù)k,分類決策函數(shù)為:
徑向基核函數(shù)(Radical Basis Function,RBF)既能實(shí)現(xiàn)非線性映射,而且參數(shù)較少,選取RBF函數(shù)作為核函數(shù):
此時(shí)的分類決策函數(shù)為:
上述公式中,wk為慣性因子,c1和c2為學(xué)習(xí)因子,通常c1=c2=2,φ1和φ2為[0,1]之間的隨機(jī)數(shù)。將優(yōu)化后得到的局部最優(yōu)解和全局最優(yōu)解作為支持向量機(jī)的核函數(shù)和懲罰參數(shù),帶入到支持向量機(jī)的目標(biāo)函數(shù)中,優(yōu)化后的目標(biāo)函數(shù)對腦膠質(zhì)數(shù)據(jù)達(dá)到最高的精確度。
1.2.5 基于PSO-SVM的腦膠質(zhì)瘤MGMT分類模型
依據(jù)前面所述的SVM算法原理、PSO優(yōu)化算法以及PCA降維方法,建立基于PSO-SVM算法的MGMT甲基化狀態(tài)分類模型。把127名患者樣本分為訓(xùn)練集和測試集,其中訓(xùn)練集99例,包括57例MGMT啟動(dòng)子甲基化,42例MGMT啟動(dòng)子未甲基化;測試集28例,包括19例MGMT啟動(dòng)子甲基化,9例未甲基化。
基于PSO-SVM的腦膠質(zhì)瘤MGMT分類流程圖如圖3所示,示意圖顯示了圖像分割、特征提取、特征選擇和建模過程。建立具有多區(qū)域多參數(shù)MRI放射組學(xué)模型,首先,對從MRI提取出的放射組學(xué)特征進(jìn)行MIN-MAX處理并降維;其次,不同序列的樣本訓(xùn)練集均以RBF函數(shù)作為核函數(shù),同時(shí)引入PSO算法優(yōu)化分類模型,得到最優(yōu)懲罰因子C和核函數(shù)參數(shù)g;最后,將多參數(shù)MRI放射組學(xué)特征和支持向量機(jī)最優(yōu)參數(shù)組合,構(gòu)建模型。
圖3 PSO-SVM腦膠質(zhì)瘤MGMT分類
采用受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)對模型進(jìn)行評估,AUC為ROC曲線的下面積,是一種衡量學(xué)習(xí)器優(yōu)劣的性能指標(biāo)。
本文將從腦瘤區(qū)域和水腫區(qū)域提取出的7組特征與PSO-SVM算法結(jié)合,模型中有兩個(gè)重要的參數(shù),c是懲罰系數(shù),即對誤差的寬容度,c過大或小,泛化能力變差,g是RBF核函數(shù)的自帶參數(shù),影響支持向量個(gè)數(shù),支持向量個(gè)數(shù)影響訓(xùn)練與預(yù)測速度。在PSO-SVM模型中,腦膠質(zhì)瘤MGMT甲基化狀態(tài)檢測精度均能達(dá)到90%以上,表明提出分類方案評估的整體診斷性能較好。其中,預(yù)測集相應(yīng)序列特征模型中,水腫區(qū)T2WI(96%,AUC=0.89 )和ADC序列(100%,AUC=0.90 )特征的測試結(jié)果高于腫瘤區(qū)T2WI(92%,AUC=0.73 )和ADC序列(90%,AUC=0.77 )。結(jié)果最好的情況是水腫區(qū)ADC序列特征,c和g的值分別為23和0.001 ,程序運(yùn)行時(shí)間約26秒,在訓(xùn)練集中AUC為0.98 ,準(zhǔn)確率為100%,在測試集中進(jìn)一步證實(shí)預(yù)測性能,AUC為0.90 ,準(zhǔn)確率為100%,腦膠質(zhì)瘤樣本全部分類正確。腦膠質(zhì)瘤樣本全部分類正確。PSO-SVM模型在腫瘤及水腫區(qū)域預(yù)測性能如表1所示。
表1 PSO-SVM在腫瘤及水腫區(qū)域預(yù)測性能
圖4用ROC曲線評價(jià)模型的診斷性能,圖4(a)顯示了在腫瘤區(qū)域,基于T1WI序列中提取的多參數(shù)放射學(xué)特征預(yù)測腦膠質(zhì)瘤MGMT甲基化狀態(tài)結(jié)果最好,訓(xùn)練集AUC達(dá)到0.95 ,在測試集中進(jìn)一步驗(yàn)證,AUC為0.88 。圖4(b)顯示了水腫區(qū)域,基于ADC序列中提取的多參數(shù)放射學(xué)特征預(yù)測腦膠質(zhì)瘤MGMT甲基化狀態(tài)效果最好,訓(xùn)練集AUC高達(dá)0.98 ,在測試集中進(jìn)一步驗(yàn)證,AUC為0.90 。
圖4 訓(xùn)練集和測試集的受試者工作特性(ROC)曲線
腫瘤區(qū)T1WI增強(qiáng)序列在測試集中,25/28例預(yù)測正確,3/28例預(yù)測錯(cuò)誤;水腫區(qū)ADC序列在測試集全部預(yù)測正確,顯示出更好的診斷性能。此外,本文實(shí)驗(yàn)訓(xùn)練集和測試集樣本放射學(xué)圖像分別從兩個(gè)機(jī)器進(jìn)行掃描,訓(xùn)練模型可以應(yīng)用于測試集,表明模型具有較強(qiáng)魯棒性。
文獻(xiàn)[11]Xi等人證明T1WI、T2WI以及增強(qiáng)T1WI序列放射組學(xué)特征作為預(yù)測膠質(zhì)母細(xì)胞瘤中MGMT啟動(dòng)子甲基化潛在影像學(xué)標(biāo)記,訓(xùn)練集準(zhǔn)確率為86.59 %,測試集準(zhǔn)去率為80%。本研究擴(kuò)大數(shù)據(jù)集,表明這些放射組學(xué)特征在星型細(xì)胞瘤、間變少突和間變星形膠質(zhì)瘤中預(yù)測效果依然良好,測試集準(zhǔn)確率高達(dá)90%~96%。文獻(xiàn)[12]Yoon RG等人報(bào)道ADC值與MGMT啟動(dòng)子甲基化和預(yù)后相關(guān),我們的實(shí)驗(yàn)結(jié)果表明在腫瘤區(qū)T1WI增強(qiáng)、T2WI和FLAIR序列預(yù)測精度高于ADC序列預(yù)測精度,這與文獻(xiàn)[13]Wei等人的研究一致,但是Wei等人研究僅限于星型細(xì)胞瘤,且觀察的ADC成像分辨率相對較低,本研究結(jié)果表明,增加其它類膠質(zhì)瘤后,水腫區(qū)ADC序列模型預(yù)測性能最佳。
此外,大多數(shù)研究只針對腫瘤區(qū)單參數(shù)或者多參數(shù)MRI特征分析,文獻(xiàn)[14]Lemee等人發(fā)現(xiàn)GBM在水腫區(qū)存在遺傳異質(zhì)性,文獻(xiàn)[15]Zhi-Cheng Li等人發(fā)現(xiàn),水腫區(qū)模型可以識別膠質(zhì)瘤的影像學(xué)預(yù)測因子。我們的研究基于腫瘤區(qū)和水腫區(qū)提取了一階、形狀和紋理特征三類特征,全面的反映微環(huán)境中顆粒結(jié)構(gòu)差異信息以及MGMT甲基化相關(guān)的重要原型成像特征,提高了預(yù)測性能,多區(qū)域多參數(shù)MRI鑒別腦膠質(zhì)瘤MGMT甲基化狀態(tài)是一種高效的輔助診斷方法。
目前研究存在幾個(gè)局限性:(1)數(shù)據(jù)集臨床資料樣本少,未來尋求更大的數(shù)據(jù)集來建立模型,提高模型魯棒性;(2)本文中描述腫瘤和水腫ROI的人工分割方法耗時(shí)耗力,引用基于深度學(xué)習(xí)的自動(dòng)分割方法,可以提高我們模型和臨床診斷的客觀性。
綜上所述,MGMT啟動(dòng)子甲基化狀態(tài)與腫瘤耐藥及患者預(yù)后關(guān)系密切,MGMT啟動(dòng)子甲基化能夠促進(jìn)化學(xué)治療藥物對腫瘤的抑制作用,MGMT啟動(dòng)子甲基化狀態(tài)作為了腦膠質(zhì)瘤的重要分子標(biāo)記物,該項(xiàng)分子測評已經(jīng)逐漸在臨床診斷中展開應(yīng)用。根據(jù)MRI影像特征與分子之間的聯(lián)系可以預(yù)測病理結(jié)果為臨床提供指導(dǎo),本文基于多區(qū)域多參數(shù)MRI放射組學(xué)特征建立PSO-SVM模型鑒別腦膠質(zhì)瘤患者M(jìn)GMT啟動(dòng)子甲基化狀態(tài),結(jié)果表明,本研究的腫瘤及水腫區(qū)模型均能準(zhǔn)確預(yù)測腦膠質(zhì)瘤患者M(jìn)GMT啟動(dòng)子甲基化狀態(tài),且是一種無創(chuàng)高效的方法,臨床醫(yī)生及病理醫(yī)生可以使用機(jī)器學(xué)習(xí)模型進(jìn)行MGMT啟動(dòng)子甲基化狀態(tài)的預(yù)判,為患者制定更完善的個(gè)性化診療及病理診斷。