劉偉芬,范 明,厲力華
(杭州電子科技大學自動化學院,浙江 杭州 310018)
世界衛(wèi)生組織發(fā)表的2020年全球癌癥報告顯示,全球每年有六分之一的人死于癌癥,其中乳腺癌是全球女性中最常被確診的癌癥類型,也是女性癌癥死亡的主要原因[1]。乳腺癌作為一種高度異質(zhì)性的疾病,不同患者個體間或者同一患者體內(nèi)不同部位腫瘤細胞間從基因型到表型上都存在差異[2],這種復雜性與多樣性給乳腺癌的診療帶來巨大困難。針對乳腺癌異質(zhì)性導致的治療后復發(fā)、轉(zhuǎn)移和耐藥性,研究者運用基因表達分析方法對腫瘤進行分型。Perou等[3]首先依據(jù)基因譜表達方法對乳腺腫瘤進行不同亞型的分類,成為乳腺癌分子分型的基礎。然而乳腺癌全基因組分析成本過高,隨著分子生物醫(yī)學研究的不斷發(fā)展,臨床上采取免疫組化方法來檢測孕激素受體(Progesterone Receptor,PR)、雌激素受體(Estrogen Receptor,ER)、細胞增殖相關核抗原(Ki-67 抗原)、人類表皮生長因子受體2(Human Epidermal Growth factor 2,HER-2)、等生物分子標記信息,將乳腺癌分為4種分子分型,分別為管腔A型(Luminal A)、管腔B型(Luminal B)、HER-2過表達型(HER-2)、基底細胞樣型(Basal-like)[4]。不同分子分型的乳腺癌在發(fā)病率、治療反應、預后、復發(fā)轉(zhuǎn)移風險等臨床表現(xiàn)上存在很大差異,分子亞型是乳腺癌腫瘤異質(zhì)性的體現(xiàn)[5-7]。
目前,臨床檢查主要通過活檢穿刺獲取患者的病理信息,但是活檢對人體有侵入式傷害,易受其他因素干擾,無法對腫瘤內(nèi)部的異質(zhì)性進行描述,也無法反映腫瘤組織的整體情況[2]。隨著醫(yī)學影像學技術的不斷發(fā)展,影像學檢查作為非侵入式無創(chuàng)檢測技術,能描述腫瘤組織的時間與空間性質(zhì),與病理學檢查形成互補[8]。DCE-MRI是磁共振成像最主要的技術之一。DCE-MRI需要靜脈注射造影劑釓噴酸葡胺(Gadolinium-diethylenetetramine Pentaacetic Acid,Gd-DTPA),對注射前中后不同時間點的同一位置進行多組掃描,全面描述造影劑流入和流出腫瘤的動力學過程,間接反映腫瘤內(nèi)不同部位的血流特性[8-9]。研究表明影像學分析可用于乳腺癌分子亞型預測。Grimm等[10]用計算機視覺法從腫瘤DCE-MRI影像中提取了56個圖像特征,揭示了特征與Luminal A型、Luminal B型之間的關聯(lián)性。王世健等[11]使用計算機半自動化方法從腫瘤影像中提取了65維特征,表明DCE-MRI特征可作為潛在乳腺癌分子分型的影像學標記。Fan等[12]使用進化算法從腫瘤DCE-MRI中識別了24個重要影像特征,并結(jié)合2個臨床病理學特征,對乳腺癌分子亞型進行預測,揭示了從腫瘤DCE-MRI獲得的特征是預測乳腺癌分子亞型的潛在生物標志物。Mazurowski等[13]研究了腫瘤DCE-MRI影像及背景實質(zhì)之間的增強率關系,指出Luminal B型與腫瘤強化動態(tài)及背景組織相關。乳腺影像特征與分子分型的關聯(lián)性研究雖已取得一定進展,但相關研究多數(shù)只針對腫瘤影像進行分析,忽略了腫瘤周圍腺體組織對腫瘤的新陳代謝及浸潤生長的動態(tài)調(diào)控作用。例如,腫瘤間質(zhì)干細胞能夠分泌驅(qū)化因子用于應答癌細胞發(fā)出的信號,并反作用于癌細胞,激發(fā)侵襲行為[14];位于腫瘤周邊的巨噬細胞能夠通過間質(zhì)降解酶促進癌細胞局部侵襲與生長[15]等。為充分利用腫瘤與腺體之間的相互關系,全面探索乳腺癌腫瘤及腺體影像特征對分子分型預測的重要作用,本文研究聯(lián)合腫瘤及腺體影像特征,建立基于腫瘤和腺體融合的影像組學分子分型預測模型。
本文實驗所用的數(shù)據(jù)采自浙江省中醫(yī)院,所有病例在DCE-MRI檢查前均未進行任何乳腺手術或者化療。對205例病例進行病理信息統(tǒng)計,患者均為女性,年齡分布在29~84歲,平均年齡52歲;絕經(jīng)94例,未絕經(jīng)111例;分子分型Luminal A型50例,Luminal B型75例,Basal-like型32例,HER-2型33例。以不同分子分型對經(jīng)期狀態(tài)進行卡方檢驗,對年齡進行方差分析,P值分別為0.096 7和0.154 5,表明經(jīng)期狀態(tài)及年齡在4種分子分型中沒有統(tǒng)計差異。
DCE-MRI影像數(shù)據(jù)由德國西門子8通道雙乳房線圈MAGNETOM Verio 3.0T超導型磁共振成像系統(tǒng)采集?;颊吒┡P于雙側(cè)乳腺線圈上,雙乳對稱自然垂懸于乳腺線圈中央。動態(tài)增強掃描參數(shù)設置如下:重復時間(TR)4.51 ms,回聲時間(TE)1.61 ms,層厚(ST)1 mm,翻轉(zhuǎn)角度(FA)10°,視野(FOV)340 mm×340 mm,采集矩陣(AM)448×448,層間距1 mm,像素分辨率0.759 mm×0.759 mm。使用0.2 mmol/kg的造影劑Gd-DTPA以4 ml/s的速度靜脈注射,注射前首先掃描獲取蒙片序列記作S0序列,注射后每隔60 s采集一個增強序列,記作S1,S2,S3,S4,S5序列。
由于造影劑的增強作用,在增強序列中,腫瘤區(qū)域信號明顯高于背景組織,采用自適應的空間模糊C-均值聚類(Fuzzy C-Means,F(xiàn)CM)算法與馬爾科夫隨機場(Markov Random Field,MRF)相互結(jié)合的三維分割方法對乳腺腫瘤DCE-MRI影像進行分割[16]。首先,人工標注腫瘤區(qū)域起止切片、腫瘤最大截面切片的粗略輪廓及中心點;然后,根據(jù)DCE-MRI上下切片之間的強空間相似性,以腫瘤最大徑所在圖像切片兩端為起始位置,以上一張切片的腫瘤分割結(jié)果作為下一張切片的分割起始模板,采用FCM算法對腫瘤進行級聯(lián)分割粗分割;最后,運用MRF調(diào)整粗邊緣實現(xiàn)精細分割。
乳腺腺體是指乳房組織內(nèi)包括乳腺血管、輸乳管、纖維結(jié)締組織等的乳腺實質(zhì)性部分。造影劑對乳腺血管有增強作用,但是對輸乳管、纖維結(jié)締組織等無增強作用,在增強序列中進行自適應聚類分割的方法不再適用;而蒙片序列中腺體組織信號平穩(wěn)均勻,且高于脂肪信號,故在蒙片序列中進行腺體的分割。首先,綜合灰度變換、均值濾波、邊緣檢測、連通區(qū)域分析、多角度差分、圖像相似度比較等圖像處理基本方法,確定乳房區(qū)域邊緣;然后,采用FCM算法分離腺體與背景區(qū)域;最后,選取腫瘤外20 mm內(nèi)的腺體區(qū)域作為感興趣區(qū)域[17]。
本文的研究針對DCE-MRI病灶影像選擇1個蒙片序列(S0),2個減影序列,分別為第3增強序列減去蒙片序列(S3-S0)、第5增強序列減去蒙片序列(S5-S0),以及1個增強率序列,即第5增強序列減去第3增強序列,再除以第3增強序列減去蒙片序列(S5-S3)/(S3-S0),共4個序列進行分析,分別提取111維特征。具體包括:中位數(shù)、極差、標準差、信息熵等19維統(tǒng)計特征[18];體積、中心距、矩形度、粗糙度等17維形態(tài)特征[19];基于灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)[20]的對比度、同質(zhì)性、集群突出物、能量等24維紋理特征,基于灰度區(qū)域大小矩陣(Gray-Level Size Zone Matrix,GLSZM)[21]的小區(qū)域優(yōu)勢、大區(qū)域優(yōu)勢、區(qū)域大小非一致性、區(qū)域比等16維紋理特征,基于灰度游程矩陣(Gray-level Run-Length Matrix,GLRLM)[22]的短游程優(yōu)勢、長游程優(yōu)勢、游程分布、游程比等16維紋理特征,基于鄰域灰度差矩陣(Neighboring Gray Tone Difference Matrix,NGTDM)[23]的粗糙度、復雜度等5維紋理特征,基于灰度相關矩陣(Gray Level Dependence Matrix,GLDM)[24]的小依賴因子、大依賴因子、依賴方差等14維紋理特征。
為了探究DCE-MRI影像腫瘤和腺體的聯(lián)合對乳腺癌分子分型預測性能的影響,將205例病例數(shù)據(jù)集按照2∶1的比例隨機劃分為訓練集與測試集,即訓練集137例,測試集68例,對腫瘤和腺體提取的特征分別建立單特征及多特征機器學習模型,最后使用不同的融合方法對腫瘤/腺體多特征模型進行融合,以預測乳腺癌分子分型。通過對已知數(shù)據(jù)的學習,實現(xiàn)未知數(shù)據(jù)的預測,預測未知數(shù)據(jù)時出現(xiàn)的誤差被稱為泛化誤差。因此,需要制定合理的策略,本文選取十折交叉驗證(10-fold cross-validation)進行模型性能驗證,十折交叉驗證結(jié)合網(wǎng)格搜索法(Grid Search Method,GSM)進行影像特征選擇和模型參數(shù)選擇。最后根據(jù)測試結(jié)果繪制接受者工作特征(Receiver Operating Characteristic,ROC)曲線評價模型的性能。為了對模型進行量化分析,計算ROC曲線下面積(Area Under the ROC,AUC),AUC的取值在0~1之間,AUC越大,說明模型預測性能越好。
1.5.1 基于腫瘤/腺體影像的單特征模型
對DCE-MRI影像腫瘤和腺體提取的特征進行單特征分析。分別對4種分子分型進行預測,如預測Luminal A型時,令Luminal A型為1,非Luminal A型為0。以訓練集構(gòu)建支持向量機(Support Vector Machine,SVM)模型進行訓練和預測,計算AUC評價模型的性能,采用t檢驗比較單個特征在不同分子分型標簽下的統(tǒng)計學差異,最后繪制4種分子分型的最優(yōu)單特征盒形圖。
1.5.2 基于腫瘤/腺體的多特征預測模型
由于腫瘤存在異質(zhì)性,單個特征可能無法對其進行客觀有效的描述,為分析多特征共同作用的效果,建立基于腫瘤/腺體的多特征預測模型。DCE-MRI影像經(jīng)特征提取后,獲得了相當數(shù)量的影像特征,但不是每個特征都對乳腺癌分子分型預測起重要作用,因此,使用無監(jiān)督學習的特性選擇法,即皮爾遜相關性分析對特征進行降維處理。通過計算特征之間的兩兩相關性,篩選出相關性大于0.9的特征對,比較該特征對中2個特征與其他特征相關性大于0.9的數(shù)量總和,剔除數(shù)量總和較大特征,完成去冗余過程。初步篩選后,在訓練集中,采用有監(jiān)督學習的SVM-RFE算法獲得特征重要性排序,依據(jù)重要性排序,在訓練集中逐個添加特征,依次建立SVM預測模型,運用留一法交叉驗證計算AUC,最大AUC對應的特征子集即為最優(yōu)特征子集。由于采用RBF核函數(shù)涉及到懲罰因子c和徑向作用范圍g參數(shù)的選取設定,故采用固定的參數(shù)組,針對每個特征子集,結(jié)合十折交叉驗證法與網(wǎng)格搜索法,查找對應SVM模型最優(yōu)參數(shù)。在訓練集中,以最優(yōu)特征子集及其對應的最優(yōu)模型參數(shù)建立SVM多特征預測模型,使用測試集來評價模型的性能。
1.5.3 基于腫瘤和腺體的預測模型融合
基于腫瘤/腺體的多特征預測分析中,對訓練集進行特征篩選,獲得最優(yōu)特征子集,建立SVM預測模型,用測試集AUC評價模型性能。由于基于腫瘤/腺體的多特征預測模型相互獨立,可采用模型融合的方法結(jié)合2個預測模型以提升學習性能。本文研究采用概率平均法、概率加權(quán)平均法和Stacking學習法進行模型的融合。概率平均法將基于腫瘤/腺體影像特征的預測模型賦予相同權(quán)值,對腫瘤/腺體模型預測分析得到的概率預測值求平均值,作為融合模型的預測結(jié)果。概率加權(quán)平均法將腫瘤/腺體預測模型進行融合,對預測性能較好的模型設置更高的權(quán)值,相對表現(xiàn)較差的模型設置較低的權(quán)值,具體權(quán)值占比為(AUC腫瘤/腺體-0.5)/(AUC腫瘤-0.5+AUC腺體-0.5)。Stacking學習法通過留一法交叉驗證來選擇初始數(shù)據(jù)集,訓練初級學習器,以初級學習器的預測結(jié)果作為新特征輸入次級學習器,得到最終決策結(jié)果,學習器采用SVM模型。
DCE-MRI單個影像特征對分子分型的預測結(jié)果如表1所示。從表1可以看出,對于腫瘤預測Luminal A型、Luminal B型、Basal-like型、HER-2型性能最優(yōu)的單特征對應AUC分別為0.840 9,0.681 9,0.729 3,0.799 4。對于腺體預測Luminal A型、Luminal B型、Basal-like型、HER-2型性能最優(yōu)的單特征對應AUC分別為0.704 8,0.653 2,0.743 6,0.737 4。Luminal A型、Luminal B型、HER-2型單序列最優(yōu)單特征P值均小于0.05,說明分布差異具有統(tǒng)計學意義,Basal-like型單序列最優(yōu)單特征P值大于0.05,分布差異沒有統(tǒng)計學意義。比較腫瘤與腺體,腫瘤單特征模型總體效果更好。
表1 最優(yōu)單特征模型預測結(jié)果
乳腺癌分子分型預測任務的最優(yōu)單特征盒形圖如圖1所示。圖1(a)中,Luminal A型的腫瘤最優(yōu)單特征為與區(qū)域具有相同標準二階中心距的橢圓的短軸長度,腺體最優(yōu)單特征為基于灰度區(qū)域大小矩陣的區(qū)域大小非一致性,圖1(a)特征值大小表明,相對于其他分型,Luminal A型腫瘤體積小,腺體內(nèi)部灰度分布均勻。圖1(b)中,Luminal B型的腫瘤最優(yōu)單特征為基于灰度共生矩陣的信息相關性度量,腺體最優(yōu)單特征為基于灰度區(qū)域大小矩陣的區(qū)域比,圖1(b)特征值大小表明,相對于其他分型,Luminal B型腫瘤內(nèi)部相關性低,腺體內(nèi)部差異性高。圖1(c)中,Basal-like型的腫瘤最優(yōu)單特征為基于灰度區(qū)域大小矩陣的灰度方差,腺體最優(yōu)單特征為四分位距,圖1(c)特征值大小表明,相對于其他分型,Basal-like型腫瘤灰度強度的變化小,腺體灰度級分布范圍大。圖1(d)中,HER-2型的腫瘤最優(yōu)單特征為最大直徑,腺體最優(yōu)單特征為基于灰度游程矩陣的游程分布,圖1(d)特征值大小表明,相對于其他分型,HER-2型腫瘤體積大,腺體灰度分布均勻。
注:“*”表示P<0.05,“**”表示P<0.01,“***”表示P<0.000 1。圖1 乳腺癌分子分型預測任務的最優(yōu)單特征盒形圖
對DEC-MRI各序列影像進行多特征預測分析,結(jié)果如表2所示。
表2 腫瘤/腺體多特征模型AUC
從表2可以看出,(S5-S3)/(S3-S0)序列預測Luminal A型效果最佳,測試集AUC為0.801 4;S3-S0序列預測Luminal B型效果最佳,測試集AUC為0.650 2;(S5-S3)/(S3-S0)序列預測Basal-like型效果最佳,測試集AUC為0.593 8;S0序列預測HER-2型效果最佳,測試集AUC為0.662 9。對于腺體模型,S3-S0序列預測Luminal A型取得了最佳效果,測試集AUC為0.711 2;(S5-S3)/(S3-S0)序列預測Luminal B型取得了最佳效果,測試集AUC為0.621 0;S0序列預測Basal-like型取得了最佳效果,測試集AUC為0.601 9;(S5-S3)/(S3-S0)序列預測HER-2型取得了最佳效果,測試集AUC為0.647 8。
在腫瘤/腺體上分別將4個序列特征串聯(lián)融合,模型預測效果得到明顯提升。對于腫瘤模型,Luminal A型測試集AUC為0.801 4,優(yōu)于所有單序列;Luminal B型測試集AUC為0.751 0,優(yōu)于所有單序列;Basal-like型測試集AUC為0.631 0,優(yōu)于所有單序列;HER-2型測試集AUC為0.768 4,優(yōu)于所有單序列;對于腺體模型,Luminal A型測試集AUC為0.702 1,僅次于S3-S0序列;Luminal B型測試集AUC為0.620 0,僅次于(S5-S3)/(S3-S0)序列;Basal-like型測試集AUC為0.604 2,優(yōu)于所有單序列;HER-2型測試集AUC為0.713 7,優(yōu)于所有單序列。結(jié)果表明,相比單特征預測模型,多特征預測模型可以更大限度地利用從影像數(shù)據(jù)中提取的信息,提升了模型的泛化能力,提高了模型的預測性能。
分別采用概率平均法、概率加權(quán)平均法和Stacking學習法這3種不同的影像組學特征聯(lián)合方法,將基于腫瘤和腺體分別構(gòu)建的預測模型進行融合,得到預測結(jié)果如表3所示。
表3 腫瘤和腺體預測模型融合AUC
從表3可以看出,相對于腫瘤/腺體模型的多序列融合模型,腫瘤和腺體融合模型在Luminal B型、Basal-like型和HER-2型上的預測效果均得到提升。相比于腫瘤模型序列融合的Luminal B型最優(yōu)AUC,概率加權(quán)平均法和Stacking學習法融合模型預測性能均有所提高,其中概率加權(quán)平均法預測Luminal B型的達到最優(yōu)AUC,為0.757 3;相比于腫瘤模型序列融合的Basal-like型最優(yōu)AUC,概率平均法、概率加權(quán)平均法和Stacking學習法融合模型預測性能均有所提高,其中概率加權(quán)平均法預測Basal-like型達到最優(yōu)AUC,為0.656 3;相比于腫瘤模型序列融合的HER-2型最優(yōu)AUC,概率平均法、概率加權(quán)平均法和Stacking學習法預融合模型預測性能也均有所提高,其中概率平均法預測HER-2型的達到最優(yōu)AUC,為0.785 3。Luminal A型的預測在腫瘤多序列融合模型中達到最優(yōu)AUC,為0.801 4。
綜上可知,腫瘤和腺體融合模型對于Luminal A型、Luminal B型、和HER-2型均取得了良好的預測效果,Basal-like型稍差。Basal-like型是一種特殊的亞型,其腫瘤異質(zhì)性程度高,腫瘤細胞轉(zhuǎn)移存在異常機制,易于復發(fā)[25],預后差且無針對性的標準治療方案[26],因此預測精度低于其他亞型[27]。
實驗及分析表明,本文聯(lián)合腫瘤和腺體影像進行乳腺癌分子分型預測基本達到預期效果。但是,也存在局限性,一是樣本數(shù)據(jù)集規(guī)模較小,且分子分型樣本分布不均衡,后續(xù)研究可以通過增加數(shù)據(jù)集來提高模型的魯棒性;二是乳房腺體區(qū)域個體化差異大,分割精度相對粗糙,如何進行有效、精準、快速的腺體分割有待進一步研究。
針對現(xiàn)階段腫瘤空間異質(zhì)性的問題,本文提出一種融合腫瘤和周圍腺體影像特征的乳腺癌分子分型預測研究方法。相對僅分析腫瘤影像特征的方法而言,有效提高了乳腺癌分子分型預測模型的預測性能,為乳腺癌的精準診療提供參考。后續(xù)將通過增加不同機型不同分辨率的數(shù)據(jù)進行驗證,進一步提升模型的臨床應用性。