黃 程,毛 寧,李天平,張 涵,張永霞,謝海柱
(1.濱州醫(yī)學(xué)院醫(yī)學(xué)影像學(xué)院,山東 煙臺(tái) 264003;2.山東省煙臺(tái)毓璜頂醫(yī)院影像科,山東 煙臺(tái) 264000)
乳腺癌是女性最常見(jiàn)的惡性腫瘤[1]。由于三陰性乳腺癌缺乏用于治療的雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)及表皮生長(zhǎng)因子受體2(human epidermal growth factor receptor 2,HER2)基因的表達(dá),治療困難,預(yù)后較差[2]。因此,早期明確診斷三陰性乳腺癌并及時(shí)進(jìn)行針對(duì)性治療尤為重要。
乳腺對(duì)比增強(qiáng)能譜X 線攝影(contrast-enhanced spectral mammography,CESM)已成為診斷乳腺疾病的主要檢查方法之一[3],然而肉眼觀察對(duì)判斷其分子分型價(jià)值有限。影像組學(xué)是一種運(yùn)用計(jì)算機(jī)算法從醫(yī)學(xué)影像圖像中高通量地提取數(shù)字化特征的方法[4],具有一定的臨床應(yīng)用價(jià)值[5-6]?;贑ESM 的影像組學(xué)預(yù)測(cè)三陰性乳腺癌的價(jià)值已有文獻(xiàn)報(bào)道[7-8],但缺少測(cè)試集且對(duì)模型的評(píng)價(jià)方法過(guò)于單一。因此,筆者將研究對(duì)象分為測(cè)試集及訓(xùn)練集,并運(yùn)用更完善的模型評(píng)估方法,進(jìn)一步探討基于CESM 重建圖的影像組學(xué)模型預(yù)測(cè)三陰性乳腺癌的價(jià)值。
1.1 一般資料 回顧性分析2017 年7 月至2020 年6 月在煙臺(tái)毓璜頂醫(yī)院行乳腺CESM 檢查的女性乳腺癌患者787 例。本研究經(jīng)煙臺(tái)毓璜頂醫(yī)院醫(yī)學(xué)倫理委員會(huì)同意。其中檢查時(shí)間為2017 年7 月至2019 年10 月的605 例患者為訓(xùn)練集,檢查時(shí)間為2019 年11 月至2020 年6 月的182 例患者為測(cè)試集。訓(xùn)練集中非三陰性乳腺癌502 例,三陰性乳腺癌103 例;測(cè)試集中非三陰性乳腺癌153 例,三陰性乳腺癌29 例。為解決訓(xùn)練集患者分類不平衡問(wèn)題,從訓(xùn)練集非三陰性乳腺癌患者中隨機(jī)刪除399 例,三陰性乳腺癌患者與非三陰性乳腺癌患者各103 例。
1.2 納入及排除標(biāo)準(zhǔn) ①納入標(biāo)準(zhǔn):行CESM 檢查,且病理證實(shí)為乳腺癌;其分子分型經(jīng)免疫組化檢查證實(shí)。②排除標(biāo)準(zhǔn):CESM 檢查前有乳腺手術(shù)、化療、放療、激素、靶向治療史;患有其他惡性腫瘤;圖像質(zhì)量不理想;多灶性乳腺癌;非腫塊型乳腺癌;臨床資料不完整者。
1.3 儀器與方法 采用GE Senographe DS 全數(shù)字化乳腺機(jī)。對(duì)比劑為碘海醇(碘含量350 mg/mL),劑量1.3 mL/kg 體質(zhì)量,注射流率3.0 mL/s。注射2 min后開(kāi)始采集圖像,按常規(guī)乳腺攝影時(shí)的壓迫方法,選取頭尾位及內(nèi)外斜位進(jìn)行投照,在5 min 內(nèi)完成4 個(gè)視圖的采集,即頭尾位與內(nèi)外斜位的低能圖、重建圖。首先采集正常側(cè)乳腺的圖像,然后采集病變側(cè)乳腺的圖像。由2 名低年資醫(yī)師(醫(yī)師1、2,均有4 年CESM 診斷經(jīng)驗(yàn))使用Radcloud 軟件(http://radcloud.cn)分別在頭尾位、內(nèi)外斜位重建圖中手動(dòng)勾畫(huà)腫瘤的邊界,勾畫(huà)ROI(圖1);再由1 名高年資醫(yī)師(醫(yī)師3,具有10 年乳腺影像診斷經(jīng)驗(yàn))進(jìn)行審核。
圖1 女,62 歲,ROI 勾畫(huà)示意圖 圖1a 頭尾位勾畫(huà)示意圖 圖1b內(nèi)外斜位勾畫(huà)示意圖
1.4 影像組學(xué)特征的提取及一致性 運(yùn)用Radcloud軟件提取影像組學(xué)特征,包括一階統(tǒng)計(jì)學(xué)特征、形狀特征及紋理特征。勾畫(huà)ROI 時(shí),隨機(jī)選擇150 例患者,由2 名醫(yī)師同時(shí)勾畫(huà),根據(jù)ROI 內(nèi)的影像組學(xué)特征評(píng)估2 名醫(yī)師每個(gè)特征的一致性;2 周后由醫(yī)師1 再次勾畫(huà),評(píng)估ROI 內(nèi)每個(gè)影像組學(xué)特征不同時(shí)間的一致性,保留具有較高一致性的影像組學(xué)特征進(jìn)一步分析。余238 例圖像的ROI 由醫(yī)師1 勾畫(huà)完成。
1.5 選擇影像組學(xué)特征與建立模型 對(duì)訓(xùn)練集影像組學(xué)特征行單變量分析,保留在三陰性乳腺癌患者與非三陰性乳腺癌患者中差異有統(tǒng)計(jì)學(xué)意義的特征。后運(yùn)用最小絕對(duì)值收斂和選擇算子(least absolute shrinkage and selection operator,LASSO)算法對(duì)影像組學(xué)特征進(jìn)一步篩選,結(jié)合十折交叉驗(yàn)證選擇LASSO 中超參數(shù)λ 的最佳取值。篩選剩余影像組學(xué)特征建立用于預(yù)測(cè)三陰性乳腺癌的邏輯回歸模型。
1.6 模型評(píng)價(jià) 運(yùn)用模型計(jì)算每例患者為三陰性乳腺癌的概率,訓(xùn)練集的約登指數(shù)作為截?cái)嘀?,概率大于該截?cái)嘀祫t預(yù)測(cè)為三陰性乳腺癌。運(yùn)用ROC 曲線(準(zhǔn)確率及平衡準(zhǔn)確率)對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)估,其中平衡準(zhǔn)確率為特異度與敏感度的平均值。運(yùn)用自舉法計(jì)算AUC 的95%置信區(qū)間(95%CI)。運(yùn)用決策曲線對(duì)模型在測(cè)試集中不同診斷閾值的凈收益進(jìn)行評(píng)估。凈收益為以該閾值為診斷閾值時(shí),對(duì)患者進(jìn)行治療后綜合考慮未獲益患者比例與獲益患者比例后獲得的獲益,以幫助臨床醫(yī)師進(jìn)行臨床決策。
1.7 統(tǒng)計(jì)學(xué)分析 運(yùn)用R(3.6 版本)進(jìn)行統(tǒng)計(jì)分析?;颊吣挲g以表示,分別統(tǒng)計(jì)訓(xùn)練集、測(cè)試集中不同分子分型、乳腺影像報(bào)告和數(shù)據(jù)系統(tǒng)(prostate imaging reporting and data system,PI-RADS)分類及組織學(xué)分級(jí)的患者例數(shù)。運(yùn)用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficient,ICC)評(píng)價(jià)特征的一致性,不同醫(yī)師與不同時(shí)間的ICC 均大于0.8 則相應(yīng)影像組學(xué)特征具有較高的一致性。當(dāng)計(jì)量資料滿足正態(tài)性及方差齊性時(shí),運(yùn)用單變量方差分析,否則運(yùn)用Mann-Whitney U 檢驗(yàn)。以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
2.1 一般資料 訓(xùn)練集206 例,年齡(55.18±10.25)歲,其中Luminal A 型、Luminal B 型、Her-2 過(guò)表達(dá)型及三陰性乳腺癌分別為41、39、23、103 例,PI-RADS 分類Ⅲ、Ⅳ、Ⅴ類患者分別為41、145、20 例,組織學(xué)分級(jí)為Ⅰ、Ⅱ、Ⅲ級(jí)患者分別47、82、72 例。測(cè)試集182 例,年齡(54.36±10.05)歲,其中Luminal A型、Luminal B 型、Her-2 過(guò)表達(dá)型及三陰性乳腺癌分別為59、64、30、29 例,PI-RADS 分類Ⅲ~Ⅴ類分別為33、131、18 例,組織學(xué)分級(jí)Ⅰ~Ⅲ級(jí)分別為44、77、61 例。
2.2 特征篩選 在1 409 個(gè)特征中1 056 個(gè)特征具有較高的一致性,最終12 個(gè)影像組學(xué)特征納入模型,其中4 個(gè)提取自頭尾位重建圖像,8 個(gè)提取自內(nèi)外斜位重建圖像。12 個(gè)影像組學(xué)特征均為紋理特征。模型例稱及其相應(yīng)系數(shù)見(jiàn)表1。
表1 模型中包含的特征及參數(shù)
2.3 模型評(píng)價(jià) 模型在訓(xùn)練集及測(cè)試集中的AUC分別為0.87[95%CI(0.82,0.92)]、0.86[95%CI(0.80,0.92)],截?cái)嘀禐?.54,準(zhǔn)確率分別為0.81、0.77,敏感度分別為0.79、0.76,特異度分別為0.83、0.77,平衡準(zhǔn)確率分別為0.81、0.76(圖2a)。在對(duì)測(cè)試集進(jìn)行的決策曲線分析中,閾值概率<0.68 時(shí),其凈收益大于“均為陽(yáng)性”與“均為陰性”模型(圖2b)。
圖2 模型的評(píng)價(jià) 圖2a 模型在訓(xùn)練集與測(cè)試集中的ROC 曲線圖2b 模型在測(cè)試集中的決策曲線。
三陰性乳腺癌由于其獨(dú)特的生物學(xué)特性,早期明確診斷對(duì)提高療效、改善患者預(yù)后具有重要意義。本研究基于CESM 檢查頭尾位與內(nèi)外斜位重建圖的影像組學(xué)特征建立邏輯回歸模型預(yù)測(cè)三陰性乳腺癌,在訓(xùn)練集與測(cè)試集中均有良好表現(xiàn),在決策曲線分析中表現(xiàn)出了較高的凈收益。
目前已有相關(guān)研究探究了基于CESM 的影像組學(xué)對(duì)預(yù)測(cè)三陰性乳腺癌的價(jià)值。La 等[7]提取了CESM圖像內(nèi)的影像組學(xué)特征并建立模型區(qū)分三陰性乳腺癌與非三陰性乳腺癌,AUC 為0.76。但該研究?jī)H52 例患者,缺少測(cè)試集,結(jié)果缺乏可靠性。此外,模型的評(píng)價(jià)指標(biāo)僅包含AUC。Marino 等[8]評(píng)估了基于100 例患者CESM 圖像的影像組學(xué)模型對(duì)預(yù)測(cè)乳腺癌分子分型的價(jià)值;雖然模型在預(yù)測(cè)三陰性乳腺癌時(shí)準(zhǔn)確率高達(dá)100%,但依舊缺少測(cè)試集,結(jié)果缺乏可靠性,需進(jìn)一步驗(yàn)證;對(duì)模型的評(píng)估僅用到了準(zhǔn)確率,評(píng)價(jià)指標(biāo)過(guò)于單一,未對(duì)模型全面評(píng)估。本研究共納入388 例患者,其中測(cè)試集182 例,且運(yùn)用ROC曲線對(duì)模型進(jìn)行評(píng)估,均取得良好表現(xiàn);其中AUC高于La Forgia 等[7]的研究,訓(xùn)練集準(zhǔn)確率低于Marino等[8]的研究,這可能是由于其模型存在過(guò)擬合,而本研究為解決過(guò)擬合問(wèn)題,在運(yùn)用LASSO 篩選特征的過(guò)程中運(yùn)用了十折交叉驗(yàn)證。
在機(jī)器學(xué)習(xí)的分類模型訓(xùn)練過(guò)程中,因變量分類不平衡是常見(jiàn)的問(wèn)題之一。在既往研究中,通常運(yùn)用系統(tǒng)性過(guò)采樣(synthetic minority oversampling,SMOTE)算法解決分類不平衡問(wèn)題[9-12]。該算法雖解決了分類不平衡問(wèn)題,但易導(dǎo)致部分訓(xùn)練集數(shù)據(jù)并非患者真實(shí)數(shù)據(jù),對(duì)模型準(zhǔn)確率造成一定影響。本研究非三陰性乳腺癌患者多于三陰性乳腺癌患者,分類不平衡問(wèn)題明顯,后運(yùn)用隨機(jī)欠采樣方法刪除部分訓(xùn)練集中的非三陰性乳腺癌患者,使訓(xùn)練集中三陰性乳腺癌患者與非三陰性乳腺癌患者的數(shù)量達(dá)到平衡,測(cè)試集中保持原始樣本量,既解決了訓(xùn)練集分類不平衡問(wèn)題,又客觀地反映了模型在真實(shí)三陰性乳腺癌與非三陰性乳腺癌患者比例下的表現(xiàn)。
MRI 檢查是目前乳腺癌最重要的診斷方法之一[13-14]。Wang 等[15]研究了基于動(dòng)態(tài)增強(qiáng)掃描MRI檢查(dynamic contrast enhanced-magnetic resonance imaging,DCE-MRI)的影像組學(xué)模型預(yù)測(cè)三陰性乳腺癌的價(jià)值,AUC 達(dá)0.78。Leithner 等[16]建立了基于DCE-MRI 和ADC 圖的影像組學(xué)特征模型預(yù)測(cè)乳腺癌分子分型的模型,在預(yù)測(cè)三陰性乳腺癌中AUC 達(dá)0.86。本研究中模型在測(cè)試集中的AUC 為0.86,表明基于CESM 重建圖像的影像組學(xué)模型預(yù)測(cè)三陰性乳腺癌的表現(xiàn)不差于DCE-MRI。
本研究存在一定的局限性:①為回顧性研究,且樣本來(lái)自單中心,應(yīng)運(yùn)用前瞻性多中心研究進(jìn)一步探究;②手動(dòng)勾畫(huà)ROI,效率低下,不利于大樣本研究,且存在一定主觀性,對(duì)結(jié)果的可重復(fù)性造成了一定影響;③模型僅應(yīng)用了影像組學(xué)特征,未加入臨床預(yù)測(cè)因子,應(yīng)加入臨床預(yù)測(cè)因子對(duì)模型進(jìn)一步優(yōu)化;④應(yīng)用的機(jī)器學(xué)習(xí)方法單一,應(yīng)加入深度學(xué)習(xí)進(jìn)一步探究;⑤影像組學(xué)特征僅提取于重建圖像,應(yīng)結(jié)合低能圖像影像組學(xué)特征對(duì)模型進(jìn)一步優(yōu)化。
綜上所述,基于CESM 重建圖像的影像組學(xué)模型對(duì)預(yù)測(cè)三陰性乳腺癌具有一定的價(jià)值。在未來(lái)的研究中應(yīng)進(jìn)一步加大樣本量并結(jié)合深度學(xué)習(xí)進(jìn)行多中心研究,提高模型的預(yù)測(cè)效能。