植彪,余建群,呂賽群
1.病例資料
回顧性搜集2014年1月-2019年6月本院194例符合要求的乳腺癌患者的影像資料及臨床資料。納入標(biāo)準(zhǔn):(1)經(jīng)外科手術(shù)切除或經(jīng)超聲引導(dǎo)下穿刺活檢術(shù)取得病理結(jié)果證實(shí)為乳腺癌,且有分子分型者;(2)T1-2N1M0期乳腺癌患者:乳腺腫塊長(zhǎng)徑小于5 cm,可伴有同側(cè)腋窩淋巴結(jié)單發(fā)轉(zhuǎn)移,無(wú)遠(yuǎn)處轉(zhuǎn)移;(3)穿刺活檢或外科手術(shù)前1周內(nèi)行乳腺動(dòng)態(tài)增強(qiáng)MRI及超聲檢查,且圖像合格者。
194例中,根據(jù)免疫組化結(jié)果,將雌激素受體(ER)、孕激素受體(PR)以及人表皮生長(zhǎng)因子受體2(HER-2)均為陰性表達(dá)的68例早期乳腺癌患者納入“三陰組”,其余126例為“非三陰組”。
2.掃描技術(shù)與參數(shù)
采用Siemens Avanto 1.5T磁共振儀行乳腺平掃和動(dòng)態(tài)增強(qiáng)掃描。常規(guī)平掃序列和掃描參數(shù)如下。(1)FLASH T1WI:層厚1.00 mm,層間距0.20 mm,TR 8.6 ms,TE 4.7 ms,翻轉(zhuǎn)角20°,視野340 mm×340 mm,分辨率323×448,接收帶寬350 Hz/Px,層數(shù)144;(2)壓脂TSE T2WI:層厚4.00 mm,層間距0.80 mm,層數(shù)34,TR 5600 ms,TE 59 ms,TI 170 ms,回波鏈 13,翻轉(zhuǎn)角140°,視野340 mm×340 mm,分辨率320×320,接收帶寬252Hz/Px;(3)壓脂高分辨率T1WI:層厚0.70mm,層間距0.14mm,層數(shù)208,TR 12.7ms,TE 6.21ms,翻轉(zhuǎn)角12°,視野340×340mm,分辨率435×512,接收帶寬350Hz/Px;(4)矢狀面壓脂T2WI:層厚4.00 mm,層間距1.00 mm,層數(shù)28,TR 3400 ms,TE 68 ms,回波鏈長(zhǎng)度 13,翻轉(zhuǎn)角180°,視野200 mm×200 mm,分辨率192×256,接收帶寬150 Hz/Px。
壓脂DWI掃描參數(shù):層厚4.00 mm,層間距0.80 mm,層數(shù)34,TR 7100 ms,TE 89 ms,回波鏈長(zhǎng)度160,翻轉(zhuǎn)角90°,視野380 mm×380 mm,分辨率160×160,接收帶寬1250 Hz/Px,b值取0、600和800 s/mm2。
磁共振動(dòng)態(tài)增強(qiáng)掃描前經(jīng)肘靜脈用高壓注射器團(tuán)注對(duì)比劑Gd-DTPA,劑量0.2 mmol/kg,隨后經(jīng)高壓注射器推注生理鹽水20 mL;在注射對(duì)比劑前進(jìn)行1次掃描,注射對(duì)比劑后行5期掃描,時(shí)間間隔約50 s。掃描參數(shù):壓脂T1WI序列,TR 4.43 ms,TE 1.73 ms,視野340 mm×340 mm,層厚1.70 mm,層間距0.34 mm,層數(shù)120,翻轉(zhuǎn)角10°,分辨率336×448,接收帶寬350 Hz/Px。
乳腺彩色超聲多普勒檢查:使用GE S8超聲成像儀和7~10 MHz淺表探頭,掃查手法為放射狀掃查,發(fā)現(xiàn)乳腺腫塊后再行彩色多普勒檢查,觀察病灶血流情況。
3.圖像分析與評(píng)價(jià)
由兩位不知病理結(jié)果的診斷醫(yī)師(均具有5年以上乳腺疾病影像診斷經(jīng)驗(yàn)醫(yī)師)在 PACS 系統(tǒng)工作站上分別對(duì)MRI及超聲圖像進(jìn)行評(píng)價(jià)。當(dāng)觀察者意見(jiàn)不一致時(shí)(比如對(duì)T1WI、T2WI信號(hào)的長(zhǎng)或短、是否彌散受限等不一致時(shí)),納入第三位同樣具有5年以上乳腺影像診斷工作經(jīng)驗(yàn)的醫(yī)師共同商量后決定。
記錄MRI圖像上腫塊的位置、形態(tài)、邊緣、大小、信號(hào)強(qiáng)度、強(qiáng)化是否均勻、時(shí)間-信號(hào)強(qiáng)度曲線、擴(kuò)散是否受限以及磁共振BI-RADS分類(lèi)。記錄超聲圖像上腫塊的回聲強(qiáng)弱及均勻度、有無(wú)血流信號(hào)以及超聲BI-RADS分類(lèi)。乳腺M(fèi)RI及超聲檢查均要評(píng)價(jià)有無(wú)乳頭受累、有無(wú)同側(cè)腋窩淋巴結(jié)轉(zhuǎn)移,當(dāng)意見(jiàn)不一致時(shí),納入第三位高年資醫(yī)師商量后取得一致意見(jiàn)。
4.統(tǒng)計(jì)分析
一般資料中對(duì)計(jì)數(shù)資料的組間比較采用秩和檢驗(yàn),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。從納入的194例早期(T1-2N1M0)乳腺癌病例中隨機(jī)抽取70%(136例)的病例作為訓(xùn)練集,采用決策樹(shù)和隨機(jī)森林法分別建立風(fēng)險(xiǎn)預(yù)測(cè)模型,然后將隨機(jī)抽取的30%(58例)的病例作為測(cè)試集進(jìn)行驗(yàn)證;使用Logistic線性回歸法進(jìn)行結(jié)果預(yù)測(cè),分別得出3種方法預(yù)測(cè)早期三陰乳腺癌的符合率、敏感度、特異度、陽(yáng)性預(yù)測(cè)值(positive predictive value,PPV)及陰性預(yù)測(cè)值(negative predictive value,NPV),并且對(duì)3種統(tǒng)計(jì)方法得出的結(jié)果進(jìn)行比較。
三陰組和非三陰組的臨床指標(biāo)、MRI動(dòng)態(tài)增強(qiáng)表現(xiàn)和超聲表現(xiàn)的對(duì)比分析結(jié)果見(jiàn)表1。統(tǒng)計(jì)分析結(jié)果顯示,乳腺腫塊的長(zhǎng)徑、短徑、邊界情況、MRI BI-RADS分類(lèi)、超聲BI-RADS分類(lèi)、血流信號(hào)、乳頭是否受累以及有無(wú)同側(cè)腋窩單發(fā)淋巴結(jié)轉(zhuǎn)移這些指標(biāo)在三陰乳腺癌組與非三陰乳腺癌組之間的差異具有統(tǒng)計(jì)學(xué)意義(P<0.05)。在各個(gè)預(yù)測(cè)因子中,當(dāng)腫瘤更大、邊界不清晰、有血流信號(hào)、乳頭受累、伴有同側(cè)淋巴結(jié)單發(fā)轉(zhuǎn)移、以及超聲/MRI的BI-RADS分類(lèi)更高時(shí)更傾向于發(fā)生三陰型乳腺癌(圖1)。
表1 三陰乳腺癌與非三陰乳腺癌組的對(duì)比
圖1 三陰性左乳浸潤(rùn)性導(dǎo)管癌,該患者術(shù)后左側(cè)腋窩發(fā)現(xiàn)單發(fā)淋巴結(jié)轉(zhuǎn)移。a)T1WI示左乳內(nèi)側(cè)有等信號(hào)腫塊(箭),邊界不清;b)增強(qiáng)T1WI示左乳腫塊呈明顯不均勻強(qiáng)化,并可見(jiàn)乳頭受累(箭);c)DWI示病灶呈高信號(hào)(箭);d)ADC圖示病灶呈低信號(hào);e)超聲圖像示腫塊回聲不均(箭),可見(jiàn)血流信號(hào)。
2.決策樹(shù)模型分析結(jié)果
基于訓(xùn)練集中136例的組間差異有統(tǒng)計(jì)學(xué)意義的指標(biāo),訓(xùn)練集與測(cè)試集比例為7∶3,找到最優(yōu)劃分屬性是決策樹(shù)生長(zhǎng)的關(guān)鍵,節(jié)點(diǎn)分裂方式的選擇是基于基尼系數(shù)的屬性分裂方式,采用基尼值(Gini(D))表示節(jié)點(diǎn)的純度,其公式為:
(1)
其中,D為數(shù)據(jù)集合,n為樣本的類(lèi)別數(shù),Pi為D中第i類(lèi)樣本所占比。Gini(D)越小則數(shù)據(jù)集D的純度越高。通過(guò)軟件計(jì)算獲得最優(yōu)決策樹(shù),也就是Gini(D)最小的最優(yōu)屬性,建立的組合危險(xiǎn)因素的決策樹(shù)模型見(jiàn)圖2。決策樹(shù)模型的AUC達(dá)0.833(P<0.05)。
圖2 決策樹(shù)模型。圖中1表示是三陰型乳腺癌,2表示是非三陰型乳腺癌。Ulcer≥2表示有乳頭受累,LNM≥2表示有同側(cè)淋巴結(jié)轉(zhuǎn)移;TIC<3表示TIC類(lèi)型為I和II型;BI-RAD_MRI表示MRI的腫瘤分類(lèi),1、2、3、4a、4b、4c和5類(lèi)分別賦值為1~7分;BFS≥2為腫瘤內(nèi)有血流信號(hào)。該決策樹(shù)模型選擇了以上6個(gè)判別指標(biāo),在決策樹(shù)模型左側(cè)表示滿足(yes),右側(cè)(no)表示不滿足。圖中各彩色方塊內(nèi)第二行的數(shù)字代表此次判別的符合率,第3行的百分比表示測(cè)試集中最終落在這個(gè)判別的百分比。 圖3 隨機(jī)森林模型中各個(gè)變量重要性示意圖。重要性居前3的因素分別為有無(wú)乳頭受累、有無(wú)同側(cè)淋巴結(jié)轉(zhuǎn)移及病灶的短徑。 圖4 隨機(jī)森林模型(森林的樹(shù)的個(gè)數(shù)為500,每棵樹(shù)的分叉數(shù)為3)預(yù)測(cè)三陰性乳腺癌的ROC曲線,AUC=0.917。
基于上述方法建立的決策樹(shù)模型,對(duì)測(cè)試集(58例)的數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果顯示決策樹(shù)模型預(yù)測(cè)三陰性乳腺癌的符合率為0.763,敏感度為0.720,特異度為0.794,陽(yáng)性預(yù)測(cè)值為0.720,陰性預(yù)測(cè)值為0.794。
3.隨機(jī)森林法分析結(jié)果
隨機(jī)森林是由互相獨(dú)立、互不關(guān)聯(lián)的決策樹(shù)構(gòu)成的,步驟為隨機(jī)抽取樣本、隨機(jī)屬性選擇、構(gòu)建決策樹(shù)、輸出結(jié)果并驗(yàn)證。對(duì)于訓(xùn)練集(136例)中的每例患者的數(shù)據(jù),采用“放回抽樣”的方式,由多棵決策樹(shù)輸出隨機(jī)森林模型。結(jié)果表明,乳頭受累、同側(cè)淋巴結(jié)轉(zhuǎn)移及病灶的短徑是兩種算法共同呈現(xiàn)的預(yù)測(cè)三陰性乳腺癌的前3位重要因素(圖3)。ROC曲線分析結(jié)果見(jiàn)圖4,隨機(jī)森林模型的AUC達(dá)0.917(P<0.05)。
基于上述方法建立的隨機(jī)森林模型,對(duì)測(cè)試集(58例)的數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果顯示此模型預(yù)測(cè)早期三陰性乳腺癌的符合率為0.932,敏感度為0.833,特異度為1.000,陽(yáng)性預(yù)測(cè)值為1.000,陰性預(yù)測(cè)值為0.897。
4.Logistic線性回歸分析
根據(jù)兩組間秩和檢驗(yàn)的結(jié)果,對(duì)組間差異有統(tǒng)計(jì)學(xué)意義的8個(gè)參數(shù),包括腫瘤長(zhǎng)徑、短徑、邊界、乳頭受累情況、同側(cè)腋窩淋巴結(jié)單發(fā)轉(zhuǎn)移情況、瘤體血流信號(hào)、MRI和超聲的BI-RADS分類(lèi),將其納入Logistic回歸分析中,結(jié)果見(jiàn)表2。本研究結(jié)果表明,在預(yù)測(cè)三陰乳腺癌的變量中,以腫塊邊界不清晰和同側(cè)淋巴結(jié)單發(fā)轉(zhuǎn)移的風(fēng)險(xiǎn)指數(shù)最高。通過(guò)對(duì)模型系數(shù)的綜合檢驗(yàn)和模型匯總(卡方檢驗(yàn),P<0.01說(shuō)明模型擬合好),將組合危險(xiǎn)因素變量以亞變量的形式輸入,通過(guò)測(cè)試集數(shù)據(jù)得出預(yù)測(cè)早期三陰乳腺癌的符合率為0.887,敏感度為0.960,特異度為0.750,陽(yáng)性預(yù)測(cè)值為0.877,陰性預(yù)測(cè)值為0.911。
表2 Logistic線性回歸分析結(jié)果
5.三種模型的預(yù)測(cè)結(jié)果對(duì)比
決策樹(shù)、隨機(jī)森林和Logistic回歸三種模型通過(guò)測(cè)試集預(yù)測(cè)早期三陰乳腺癌均有較好的效能匯總,結(jié)果見(jiàn)表3。
表3 多參數(shù)模型的預(yù)測(cè)結(jié)果
結(jié)果顯示:三種多參數(shù)模型均可用于預(yù)測(cè)早期三陰乳腺癌,其中隨機(jī)森林模型具有更高的符合率、特異度以及陽(yáng)性預(yù)測(cè)值;Logistic回歸分析模型具有更高的敏感度、陰性預(yù)測(cè)值;而決策樹(shù)模型的診斷效能指標(biāo)在3個(gè)預(yù)測(cè)模型中均較低??偟膩?lái)說(shuō),隨機(jī)森林法優(yōu)于logistic回歸,Logistic回歸優(yōu)于決策樹(shù)。
根據(jù)全球癌癥統(tǒng)計(jì)2018年的數(shù)據(jù)顯示,全球女性最常見(jiàn)的惡性腫瘤為乳腺癌,是103個(gè)國(guó)家女性癌癥患者導(dǎo)致死亡的主要原因之一,已成為嚴(yán)重威脅女性健康的首位疾病[1-2]。其發(fā)病病因尚不明確,遺傳因素和雌激素內(nèi)分泌異常是導(dǎo)致該疾病發(fā)生的主要原因[3]。乳腺癌具有不同的亞型,按分子分型,乳腺癌可分為四型:luminal A型、luminal B型、Erb-B2型和Basal-like型,這是由Perou等[4]于2000年率先提出的,后被廣泛應(yīng)用。不同分子亞型的乳腺癌患者具有高度的異質(zhì)性,而三陰型乳腺癌的特征表現(xiàn)為高浸潤(rùn)性,相較于其他分子亞型在診治上難度加大,因此,對(duì)于三陰乳腺癌的早發(fā)現(xiàn)、早診斷和早治療將明顯提升患者的生存率和生存質(zhì)量、對(duì)降低患者精神和經(jīng)濟(jì)雙重負(fù)擔(dān)具有重要意義。
目前,數(shù)據(jù)挖掘技術(shù)已得到廣泛應(yīng)用。Herent等[5]在MRI圖像的基礎(chǔ)上,構(gòu)建了DL(deep learning)模型用于診斷良、惡性乳腺腫塊。Qi等[6]構(gòu)建了乳腺超聲圖像數(shù)據(jù)集,并創(chuàng)建新的卷積神經(jīng)網(wǎng)絡(luò)模型以實(shí)現(xiàn)在超聲圖像中識(shí)別乳腺惡性腫塊。Ha等[7]也利用216例乳腺癌患者的MRI圖像,將CNN用于預(yù)測(cè)乳腺癌的分子亞型。還有研究結(jié)果表明從乳腺X線(mammograph,MG)圖像上提取的定量組學(xué)特征可以預(yù)測(cè)腫瘤的分子亞型[8]。張文等[9]基于術(shù)前多期增強(qiáng)CT建立的影像組學(xué)標(biāo)簽,可預(yù)測(cè)三陰性乳腺癌,從而有助于輔助臨床分期。多種模型的探索和應(yīng)用對(duì)于個(gè)性化醫(yī)療以及精準(zhǔn)醫(yī)學(xué)具有重要意義。
本研究納入194例早期乳腺癌病例,采用決策樹(shù)、隨機(jī)森林以及Logistic線性回歸構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型。決策樹(shù)可以清楚的看到每個(gè)節(jié)點(diǎn),像一棵樹(shù)狀的流程圖,能看到每個(gè)預(yù)測(cè)因子的判定過(guò)程,滿足“三陰組”的歸于節(jié)點(diǎn)的左側(cè),反之歸于節(jié)點(diǎn)的右側(cè),其缺點(diǎn)是不能顯示各個(gè)預(yù)測(cè)因子的優(yōu)勢(shì)比。隨機(jī)森林模型中是否有乳頭受累、是否有同側(cè)腋窩單發(fā)淋巴結(jié)轉(zhuǎn)移和病灶短徑是前三位的重要因素,但它不能看到各個(gè)預(yù)測(cè)因子的判定過(guò)程。Logistic回歸可以看到每一個(gè)變量對(duì)最終判斷的風(fēng)險(xiǎn)度影響,比如,本研究中腫瘤邊界不清楚患者,其三陰乳腺癌的風(fēng)險(xiǎn)指數(shù)是邊界清楚患者的43倍。本研究將三個(gè)模型用于評(píng)價(jià)三陰乳腺癌,能看到其各自的優(yōu)勢(shì),以達(dá)到準(zhǔn)確預(yù)測(cè)早期三陰乳腺癌的目的。未來(lái)還可以結(jié)合多種模型的優(yōu)勢(shì),相互補(bǔ)充,建立混合模型,有研究表明,混合模型較傳統(tǒng)模型相比更科學(xué)、更準(zhǔn)確[10]。
隨著人工智能軟件的使用和完善,利用軟件有可能建立腫瘤檢測(cè)的多參數(shù)模型,近年來(lái)國(guó)內(nèi)外學(xué)者利用數(shù)據(jù)挖掘技術(shù),構(gòu)建了多種疾病風(fēng)險(xiǎn)預(yù)測(cè)模型[11-12]。AI在影像醫(yī)學(xué)的發(fā)展具有巨大的機(jī)遇與挑戰(zhàn),其診斷效能高于傳統(tǒng)放射醫(yī)師,診斷醫(yī)師在AI的輔助下能提高診斷水平、縮短診斷時(shí)間[13-15]。FDA已經(jīng)將基于乳腺成像的人工智能計(jì)算機(jī)輔助軟件于2018年正式列為II類(lèi)設(shè)備,大大推動(dòng)了醫(yī)學(xué)影像學(xué)的發(fā)展;通過(guò)多種多參數(shù)模型的建立與完善,并整合到影像科醫(yī)生日常工作中,使其更好地輔助并服務(wù)臨床工作。
本研究結(jié)合194例早期乳腺癌患者的乳腺動(dòng)態(tài)增強(qiáng)磁共振以及聯(lián)合彩超檢查的影像學(xué)相關(guān)指標(biāo),建立多參數(shù)模型對(duì)乳腺癌亞型(三陰乳腺癌)進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),嘗試將影像學(xué)診斷的高度提高到疾病分子亞型水平,為精準(zhǔn)醫(yī)療及疾病的個(gè)性化治療提供依據(jù)。本研究中,決策樹(shù)、“隨機(jī)森林以及Logistic回歸三種模型用于預(yù)測(cè)早期三陰乳腺癌均具有較高的符合率、敏感度和特異度。后續(xù)可增加訓(xùn)練集數(shù)據(jù)、增加有效預(yù)測(cè)因子,可提高模型的可靠性及穩(wěn)定性。推測(cè)這種影像+AI技術(shù)+臨床的模式,將有美好的前景。
本研究存在一定的不足之處:其一,三陰乳腺癌是乳腺癌的一種病理亞型,從影像學(xué)的角度比較難確診,雖然考量的角度很多,但真正有效的信息不夠多,目前主要還是常用指標(biāo),如腫瘤長(zhǎng)徑、短徑、邊界、血流信號(hào)、有無(wú)乳頭受累和同側(cè)淋巴結(jié)單發(fā)轉(zhuǎn)移、以及超聲/MRI的BI-RADS分類(lèi)等。其二,本研究樣本量相對(duì)較小,這對(duì)于機(jī)器學(xué)習(xí)模型來(lái)說(shuō),形成穩(wěn)定有效的分類(lèi)方法還不夠,容易產(chǎn)生偏倚及混淆,后續(xù)可以擴(kuò)大樣本量,進(jìn)一步深入研究。其三,應(yīng)納入更多的影像學(xué)檢查方法及相關(guān)指標(biāo),如乳腺X線檢查、超聲造影等,同時(shí)還可以納入部分實(shí)驗(yàn)室檢查相關(guān)指標(biāo),比如患者激素水平、基因檢測(cè)指標(biāo)等。