【摘要】背景術(shù)前新輔助治療(NAT)是治療局部晚期乳腺癌的標(biāo)準(zhǔn)化手段,但只有部分患者對NAT敏感,在NAT前對患者進(jìn)行療效預(yù)測至關(guān)重要。既往研究利用統(tǒng)計(jì)學(xué)方法結(jié)合臨床數(shù)據(jù)或深度學(xué)習(xí)方法結(jié)合影像學(xué)圖像預(yù)測乳腺癌NAT療效,效果欠佳。目的利用多示例學(xué)習(xí)(MIL)方法訓(xùn)練基于乳腺癌粗針穿刺全切片圖像(WSI)的深度學(xué)習(xí)(DL-CNB)模型,實(shí)現(xiàn)對病理性完全緩解(pCR)的預(yù)測和相關(guān)腫瘤區(qū)域的可視化。方法采用回顧性研究模式,收集北京朝陽醫(yī)院2019年4月—2022年4月收治的經(jīng)NAT的乳腺癌患者的臨床資料和NAT前穿刺蘇木精一伊紅(HE)染色切片。依據(jù)納排標(biāo)準(zhǔn)共篩選出195例患者。根據(jù)Miller-Payne(MP)分級將患者分為pCR組( MP=5 級, n=40 )和 non-pCR 組( MP=1~4 級, n=155 )。首先對臨床資料進(jìn)行分析,構(gòu)建pCR影響因素的Logistic回歸模型。將所有WSI圖像按照 4:1 的比例隨機(jī)劃分為訓(xùn)練集和測試集,并從訓(xùn)練集中取出 25% 的數(shù)據(jù)作為驗(yàn)證集。標(biāo)記每張WSI中全部腫瘤細(xì)胞區(qū)域,通過滑動(dòng)窗口取塊、數(shù)據(jù)篩選、數(shù)據(jù)增強(qiáng)、歸一化處理等步驟準(zhǔn)備訓(xùn)練集。對比5種卷積神經(jīng)網(wǎng)絡(luò)模型,選擇最優(yōu)模型作為DL-CNB的特征提取器。設(shè)置參數(shù)訓(xùn)練DL-CNB模型。利用獨(dú)立測試集測試模型,評價(jià)DL-CNB的預(yù)測價(jià)值。根據(jù)由注意力模塊獲得的權(quán)重繪制熱力圖,實(shí)現(xiàn)WSI中與預(yù)測相關(guān)重要區(qū)域的可視化。結(jié)果pCR 組組織學(xué)分級高、ER 陰性、PR 陰性、HER2陽性、Ki-67高表達(dá)的患者占比高于non-pCR 組( Plt;0.05 )。與 HR+/HER2- 相比, ( OR=10.189 , 95%CI=3.225~32.187 )和 HR+/HER2+ ( OR=3.349 95%CI=1.152~9.737 )可測預(yù)患者達(dá)到pCR狀況( Plt;0.05 )。Logistic回歸模型的受試者工作特征曲線下面積(AUC)為 0.769 ,準(zhǔn)確率為 81.000% 。DL-CNB模型獨(dú)立測試集AUC為0.914,準(zhǔn)確率為 84.211% 。隨機(jī)選取獨(dú)立測試集中某張標(biāo)簽為
和某張標(biāo)簽為pCR的WSI腫瘤區(qū)域進(jìn)行可視化展示。結(jié)論DL-CNB 模型實(shí)現(xiàn)了通過乳腺癌穿刺 WSI對新輔助治療pCR的預(yù)測和重要區(qū)域的可視化,其預(yù)測結(jié)果優(yōu)于臨床數(shù)據(jù)預(yù)測模型。由此,本研究能夠?yàn)榉螻AT適應(yīng)證的乳腺癌患者提供臨床決策參考,輔助實(shí)現(xiàn)個(gè)體化精準(zhǔn)治療,對改善患者生活質(zhì)量及生存預(yù)期具有重大意義。
【關(guān)鍵詞】乳腺腫瘤;乳腺癌新輔助治療;穿刺病理全切片圖像;深度學(xué)習(xí)模型;多示例學(xué)習(xí)算法;精準(zhǔn)治療【中圖分類號(hào)】R737.9【文獻(xiàn)標(biāo)識(shí)碼】A DOI:10.12114/j.issn.1007-9572.2023.0512
【Abstract】BackgroundPreoperative neoadjuvant therapy(NAT)isastandardized treatment forlocall advanced breastcancer.However,onlyaportionof patientsaresensitivetoNAT,henceitisvery important topredictthetreatment eficacy beforeNAT.Previous studies haveused statisticalmethods combined with clinicaldataordeeplearning methods combinedwithmedicalimaging topredict theefficacyofNATinbreastcancer,butwithoutgoodresults.ObjectiveAdeep learningmodel basedoncore-needlebiopsy whole slide images(WSI)of breastcancer(DL-CNB)was trainedusing the multipleinstancelearning(MIL)methodtopredictpathologicalcompleteresponse(pCR)andvisualizerelatedtumorareas.MethodsAretrospectivestudywasconducted tocollcttheclinicaldataandbiopsyhematoxylin-eosin(HE)stainedslidesof breastcancerpatientswhoreeivedNATin Beijing Chaoyang Hospitalfrom April2O19 toApril2O22.A totalof195 patients were selected according to the inclusion and exclusion criteria.Patients were divided into pCR group(MP=5, n=40 )and non-pCR group(MP=1-4, n =155)according to Miler-Payne(MP)grading.The clinical data were analyzed and the Logistic regression modelof pCRinfluencingfactors wasconstructed.All WSimages wererandomlydividedintotrainingsetandtestsetinaratioof (204號(hào) 4:1 ,and 25% of the data fromthe training set was taken as verificationset.Al tumor cell regions ineach WSI were labeled, andthetraining setwaspreparedbysliding window extraction,data screning,dataenhancement,andnormalization.Compared with fiveconvolutional neuralnetwork models,theoptimal model wasselectedasthefeature extractorofDL-CNB.Parameters weresetto traintheDL-CNB model.The predictive valueofDL-CNBwas evaluatedbyusing independenttestset.Torealizethe visualizationoftheimportantregions relatedtopredictioninthe WSI,heatmapwasdrawnacording tothe weightsobtained by theattention-basedmodule.ResultsTheproportionof patients withhighhistologicalgrade,ERnegative,PR negative,HER2 positiveandKi-67high expresioninpCR groupwashigherthanthatinnon-pCRgroup,andthediffrencewasstatistically significant ( Plt;0.05 ).Compared with the HR+/HER2-,HR-/HER2 + (OR=10.189, 95%Cl=3.225-32.187 )andHR +/ HER2 + (OR=3.349,95%CI=1.152-9.737)predicted patients' achie pCR( Plt;0.05 ).The AUC of the logistic regressmodel is 0.769,with an accuracy of 81.000% . The AUC of DL-CNB model in the independent test set was O.914,and the accuracy was 84.211% .Pieces of tumor region labeled non-pCRand pCR in the independent test set were randomly selected for visual display.ConclusionThe DL-CNB model enables the predictionofpCR inneoadjuvant therapyand visualizationof important regions byWSIofbreastcancerbiopsies.The predictionresultsare beterthantheclinicaldataLogisticregresionmethod. Therefore,wecan provide clinicaldecision-making reference forbreastcancer patients who meet the indications ofNAT,and assistherealizationofindividualizedprecisiontreatment,whichisof greatsignificancetoimprovethequalityoflifeandsurvival expectancy for patients.
【Key words】Breast cancer;Neoadjuvanttherapyfor breast cancer;Biopsy pathological WSI;Deep learning model; Multiple instance learning algorithm;Precision therapy
術(shù)前新輔助治療(NAT)是治療局部晚期乳腺癌的標(biāo)準(zhǔn)化手段[1]。NAT后達(dá)到病理性完全緩解(pCR)的患者有更高的總生存率和無疾病生存率[2]。遺憾的是,雖然NAT的意義已得到認(rèn)可,但只有部分患者對NAT敏感,那些NAT后疾病穩(wěn)定甚至疾病進(jìn)展的患者,在承受治療不良反應(yīng)的同時(shí),延誤了最佳治療時(shí)機(jī),導(dǎo)致預(yù)后不良[3]。因此,在NAT前對患者進(jìn)行療效預(yù)測至關(guān)重要。
近年來,人工智能(AI)在醫(yī)學(xué)影像圖像處理領(lǐng)域取得了巨大進(jìn)展。已有研究利用乳腺癌NAT前多參數(shù)超聲圖像[4]、增強(qiáng)磁共振成像(MRI)圖像[5-6]和鉬靶圖像[7]訓(xùn)練出深度學(xué)習(xí)(DL)模型,成功預(yù)測NAT后pCR。相比于影像學(xué),病理是診斷乳腺癌的“金標(biāo)準(zhǔn)”,乳腺穿刺也是每個(gè)確診乳腺癌患者的必做檢查。目前在各類腫瘤中,利用DL模型實(shí)現(xiàn)了對全切片圖像(WSI)中癌細(xì)胞的識(shí)別[8]和疾病診斷[9],甚至由WSI預(yù)測腫瘤分子分型[10]、患者生存率[11-12]和疾病復(fù)發(fā)風(fēng)險(xiǎn)[13]。然而,針對DL模型方法學(xué)習(xí)乳腺癌腫瘤細(xì)胞特征、構(gòu)建NAT療效預(yù)測模型的研究較少,僅通過穿刺病理圖像訓(xùn)練的預(yù)測模型表現(xiàn)不理想[14]。本研究期望構(gòu)建基于乳腺癌穿刺WSI腫瘤細(xì)胞區(qū)域的DL模型,實(shí)現(xiàn)對pCR的預(yù)測和相關(guān)腫瘤區(qū)域的可視化。
對象與方法
1.1 研究對象
回顧性分析2019年4月—2022年4月首都醫(yī)科大學(xué)附屬北京朝陽醫(yī)院收治的195例經(jīng)NAT的乳腺癌患者的臨床資料和NAT前穿刺蘇木精-伊紅(HE)染色切片。納入標(biāo)準(zhǔn):患者經(jīng)粗針穿刺病理學(xué)確診為浸潤性乳腺癌;患者接受規(guī)范的 NAT?4 周期;NAT后接受手術(shù)治療(包括乳癌改良根治術(shù)、乳腺單純切除 + 前哨淋巴結(jié)活檢術(shù)、乳癌保乳術(shù));臨床資料完整。排除標(biāo)準(zhǔn):NAT前已接受其他治療;有嚴(yán)重器質(zhì)性疾病,無法耐受完整NAT周期及手術(shù);已有遠(yuǎn)處轉(zhuǎn)移;無法獲得的外院穿刺病理切片;遺失或低質(zhì)量的病理切片。本研究已通過首都醫(yī)科大學(xué)附屬北京朝陽醫(yī)院倫理委員會(huì)批準(zhǔn)(批準(zhǔn)號(hào):2021-科-102)。
1.2 分組
由2名及以上經(jīng)驗(yàn)豐富的病理科醫(yī)生根據(jù)患者NAT前穿刺切片與術(shù)后大體標(biāo)本對比得到Miller-Payne(MP)分級[15]。MP分級5級為pCR組( n=40 ),MP分級1\~4級為 組( n=155 )。
1.3 研究指標(biāo)
1.3.1臨床數(shù)據(jù):記錄所有納人患者的年齡、腫瘤最大徑、cT分期、 cN 分期、組織學(xué)分級、腋窩淋巴結(jié)狀態(tài)、雌激素受體(ER)、孕激素受體(PR)、人表皮生長因子受體(HER2)、細(xì)胞增殖指數(shù)Ki-67、分子分型等臨床資料。其中 HER2+ 定義為免疫組織化學(xué)染色(IHC) 3+ 或 IHC2+ 且原位雜交(ISH)擴(kuò)增陽性。1.3.2腫瘤區(qū)域:首先將所有乳腺癌穿刺HE染色切片掃描成為WSI。為避免觀察者間差異,兩名醫(yī)生分別獨(dú)立標(biāo)記每張WSI中全部腫瘤細(xì)胞區(qū)域。每位患者對應(yīng)1\~3張切片不等。
1.4深度學(xué)習(xí)模型開發(fā)
使用Python3.7通過基于注意力機(jī)制的多示例學(xué)習(xí)(MIL)[16]訓(xùn)練方法構(gòu)建深度學(xué)習(xí)(DL-CNB)模型。在MIL中,每個(gè)訓(xùn)練樣本都是由多個(gè)示例(instance)組成的包(bag),包是有標(biāo)簽的,但示例本身是沒有標(biāo)簽的。MIL的目標(biāo)是通過綜合考慮包中的所有示例來預(yù)測出整個(gè)包的標(biāo)簽。DL-CNB模型結(jié)構(gòu)見圖1。本研究將所有WSI圖像按照 4:1 的比例隨機(jī)劃分為訓(xùn)練集和測試集(測試集為獨(dú)立測試集,與訓(xùn)練集數(shù)據(jù)無重合),并從訓(xùn)練集中取出 25% 的數(shù)據(jù)作為驗(yàn)證集。
1.4.1訓(xùn)練數(shù)據(jù)準(zhǔn)備:(1)滑動(dòng)窗口取塊。從每張?jiān)糤SI分割得到的每塊腫瘤區(qū)域內(nèi)通過滑動(dòng)窗口的方式裁剪出大量非重疊正方形小塊(patch),其中每個(gè)patch的像素大小是 256×256 。(2)數(shù)據(jù)篩選。統(tǒng)計(jì)每個(gè)patch中腫瘤區(qū)域的占比面積,保留占比面積大的patches用于后續(xù)模型的訓(xùn)練。(3)數(shù)據(jù)增強(qiáng)。在每張WSI內(nèi)隨機(jī)構(gòu)建M個(gè) bag ,每個(gè) bag 內(nèi)隨機(jī)包含N個(gè)不重復(fù)的patches。同時(shí)采用水平翻轉(zhuǎn)、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方式,減少模型過擬合,增加模型的魯棒性。(4)數(shù)據(jù)歸一化。對數(shù)據(jù)增強(qiáng)過后的訓(xùn)練集數(shù)據(jù)進(jìn)行統(tǒng)一歸一化處理,減少圖像因染色或掃描等采集過程中產(chǎn)生的誤差。(5)標(biāo)簽設(shè)定。將pCR組患者的所有bag標(biāo)注為陽性,non-pCR 組患者的所有bag 標(biāo)注為陰性。
1.4.2特征提?。簩⒚總€(gè)bag中的N個(gè)patches作為一個(gè)整體輸入到卷積神經(jīng)網(wǎng)絡(luò)(CNN)中進(jìn)行特征提取,得到一個(gè)N維特征向量。比較AlexNet、VGG19、ResNet101、DenseNet121和Inception-v3模型在訓(xùn)練集(含驗(yàn)證集)中的表現(xiàn),選出最佳的特征提取器。
1.4.3特征學(xué)習(xí):提取到的N維特征向量首先通過一個(gè)全連接層處理為固定維度大小,然后輸入到注意力模塊(由2個(gè)全連接層和1個(gè)雙曲正切激活函數(shù)組成)中,得到每個(gè)patches的權(quán)重。將N個(gè)權(quán)重和對應(yīng)的原始特征向量加權(quán)求和后送入分類器中,輸出bag的分類概率。
1.4.4模型訓(xùn)練和測試:在模型訓(xùn)練階段,使用交叉熵[17]作為損失函數(shù),隨機(jī)梯度下降(SGD)[18]作為優(yōu)化器更新模型參數(shù)。其中學(xué)習(xí)率為1e-4,權(quán)重衰減為1e-3。使用余弦退火策略[19]調(diào)整學(xué)習(xí)率。在測試階段,將獨(dú)立測試集中患者所有bag的模型輸出進(jìn)行聚合來預(yù)測患者NAT療效。繪制受試者工作特征(ROC)曲線,計(jì)算ROC曲線下面積(AUC)、準(zhǔn)確率(ACC)、靈敏度(SENS)等預(yù)測指標(biāo)評價(jià)模型的預(yù)測價(jià)值。
注:A為將患者穿刺WSI中的腫瘤區(qū)域裁剪成正方形小塊(patch)并隨機(jī)構(gòu)建 M 個(gè)bag,B為模型特征提取階段和基于注意力機(jī)制的多示例學(xué)習(xí)階段,C為測試過程中將 M 個(gè) 的預(yù)測分?jǐn)?shù)進(jìn)行聚合得到患者的最終預(yù)測結(jié)果。 MIL= 多示例學(xué)習(xí), CNN= 卷積神經(jīng)網(wǎng)絡(luò),pCR= 病理性完全緩解, non-pCR= 未達(dá)到病理性完全緩解。
1.4.5重要區(qū)域的可視化:每個(gè)bag內(nèi)的所有patches經(jīng)過注意力模塊處理后,可得到各patches的重要性權(quán)重值。根據(jù)權(quán)重值的大小,創(chuàng)建熱力圖來可視化每張WSI中與預(yù)測相關(guān)的重要區(qū)域。
1.5 統(tǒng)計(jì)學(xué)方法
臨床數(shù)據(jù)分析采用SPSS20.0統(tǒng)計(jì)軟件。計(jì)數(shù)資料以相對數(shù)表示,組間比較采用Pearson χ2 檢驗(yàn)或Yates連續(xù)性修正。多因素分析采用二元Logistic回歸分析。以 Plt;0.05 為差異有統(tǒng)計(jì)學(xué)意義。
2結(jié)果
2.1臨床數(shù)據(jù)預(yù)測結(jié)果
2.1.1兩組間臨床資料比較:pCR組和 non-pCR 組的年齡、cT分期、 cN 分期比較,差異無統(tǒng)計(jì)學(xué)意義( Pgt;0.05 );pCR組組織學(xué)分級高、ER陰性、PR陰性、HER2陽性、Ki-67高表達(dá)、分子分型HER2陽性、三陰性乳腺癌(TNBC)的患者占比高于non-pCR組,差異有統(tǒng)計(jì)學(xué)意義( Plt;0.05 ),見表1。
2.1.2影響NAT療效的多因素分析:以NAT效果為因變量(賦值:non- , pCR=1 ),以組織學(xué)分級(賦值:實(shí)測值)、Ki-67(賦值:實(shí)測值)、分子分型為自變量,納入二元Logistic回歸分析。結(jié)果顯示,只有分子分型是預(yù)測NAT療效的影響因素( Plt;0.05 )。
與 HR+/HER2- 相比, HR-/HER2+ ( OR=10.189 , 95%CI= 3.225\~32.187)和 HR+/HER2+ ( OR=3.349 , 95%CI=1.152~ 9.737)可預(yù)測患者達(dá)到 狀況( Plt;0.05 )。見表2。在納入全部患者( n=195 )臨床數(shù)據(jù)的情況下,Logistic回歸模型的AUC為0.769,準(zhǔn)確率為 81.000% 。
2.2DL-CNB模型對WSI腫瘤區(qū)域的預(yù)測結(jié)果
2.2.1不同特征提取模型訓(xùn)練效果對比:在特征提取模塊,對比了AlexNet、VGG19、ResNet101、DenseNet121和Inception-v3五種常用于圖像特征提取的卷積神經(jīng)網(wǎng)絡(luò)模型。其在DL-CNB模型訓(xùn)練中的表現(xiàn)見表3。在驗(yàn)證集中,VGG19訓(xùn)練得到的AUC和準(zhǔn)確率最高( AUC=0.881 , ACC=90.000% ),優(yōu)于其他模型在驗(yàn)證集中的表現(xiàn)。因此,最終以VGG19作為DL-CNB模型的特征提取器,用于模型的測試階段。
2.2.2DL-CNB模型在測試集中的預(yù)測結(jié)果:將劃分出的獨(dú)立測試集導(dǎo)入構(gòu)建好的DL-CNB模型進(jìn)行測試,測試結(jié)果見表3。本研究模型獨(dú)立測試集AUC達(dá)到0.914,準(zhǔn)確率達(dá)到 84.221% ,優(yōu)于以全部患者臨床數(shù)據(jù)構(gòu)建的Logistic回歸模型。另外,在獨(dú)立測試集中,DL-CNB模型的ROC曲線整體高于臨床數(shù)據(jù)預(yù)測模型(圖2)。
2.2.3重要區(qū)域的可視化:隨機(jī)選取獨(dú)立測試集中某張標(biāo)簽為 non-pCR 和某張標(biāo)簽為pCR的WSI腫瘤區(qū)域進(jìn)行可視化展示(圖3)。熱力圖中權(quán)重值越大(紅色)代表其對預(yù)測結(jié)果貢獻(xiàn)越大,權(quán)重值越?。ㄋ{(lán)色)代表其對預(yù)測結(jié)果貢獻(xiàn)越小。
3討論
乳腺癌是全球女性最常見的惡性腫瘤。乳腺癌的NAT能夠縮小腫瘤病灶,降低腫瘤分期,變不能手術(shù)為能手術(shù),提高保乳率,改善患者術(shù)后生存率和生活質(zhì)量。
隨著乳腺癌NAT規(guī)范化的普及,NAT后達(dá)到pCR的患者比率逐年上升。然而,化療藥及靶向藥的毒性作用依然存在,嚴(yán)重影響到 non-pCR 患者的生活質(zhì)量。因此,臨床醫(yī)生需在NAT前對患者進(jìn)行區(qū)分,僅對NAT敏感患者進(jìn)行NAT推薦,避免不必要的毒性作用。
臨床數(shù)據(jù)最易獲取和分析,目前已有大量研究利用乳腺癌NAT患者的臨床數(shù)據(jù)預(yù)測NAT療效,結(jié)果相互佐證,趨于一致。腫瘤最大徑越小[20]、組織學(xué)分級越高[21]、Ki-67表達(dá)越高[22]、腫瘤浸潤淋巴細(xì)胞密度越大[23]、三陰性、HER-2 陽性[24]的患者,更趨向于達(dá)到pCR。本研究同樣分析了40例pCR患者和155例 患者的臨床數(shù)據(jù),并以Logistic回歸模型的預(yù)測表現(xiàn)作為衡量DL模型的基線。本研究結(jié)果顯示,腫瘤大小與是否達(dá)到
無統(tǒng)計(jì)學(xué)相關(guān)性,與既往研究結(jié)論不一致[20],可能是近年來規(guī)范化的新輔助化療及靶向藥物的使用導(dǎo)致cT分期較高的患者也能實(shí)現(xiàn)pCR。組織學(xué)分級、Ki-67表達(dá)在pCR組與non-pCR 組之間差異存在統(tǒng)計(jì)學(xué)意義,與既往結(jié)論一致[21-22],但在多因素Logistic回歸中對pCR的影響差異無統(tǒng)計(jì)學(xué)意義。本研究發(fā)現(xiàn),分子分型是影響NAT療效的獨(dú)立因素,HER2陽性和三陰性的患者更傾向于獲得pCR,該結(jié)論與既往研究一致[24]。在AI預(yù)測領(lǐng)域,有研究使用5種機(jī)器學(xué)習(xí)模型分析乳腺癌NAT患者的種族、年齡、腫瘤大小、病理特征、分子分型、臨床分級等對NAT療效的影響,其中隨機(jī)森林(RF)分類器表現(xiàn)最佳,對 NAT療效的預(yù)測呈現(xiàn)出了0.88的AUC[25],高于本研究使用的Logistic回歸模型( AUC=0.769 )。然而相比于影像及病理學(xué)圖像隱藏的海量特征,臨床數(shù)據(jù)所包含的信息甚少,其預(yù)測價(jià)值有待考慮。
近年來,深度學(xué)習(xí)在乳腺癌影像學(xué)圖像處理領(lǐng)域取得了巨大進(jìn)展,實(shí)現(xiàn)了NAT療效的預(yù)測。SKARPING等[7]對鉬靶圖像中腫瘤部位及健側(cè)乳腺對應(yīng)部位分別進(jìn)行特征提?。≧esNet18)、特征串聯(lián)、分類,預(yù)測結(jié)果表現(xiàn)為 AUC=0.71 。另有研究使用AlexNet對軸位和矢位增強(qiáng)MRI圖像進(jìn)行特征提取,通過支持向量機(jī)(SVM)對串聯(lián)特征分類,測試集中矢位圖表現(xiàn)優(yōu)于軸位( ACC=0.73 ,AUC=0.75 ),在臨床數(shù)據(jù)輔助下矢位圖預(yù)測效果可達(dá)ACC=0.84 、 AUC=0.80AA[5] 。TALEGHAMAR等[4]利用多參數(shù)定量超聲圖像進(jìn)行訓(xùn)練,其中特征提取模塊使用殘差注意力網(wǎng)絡(luò)(RAN),預(yù)測結(jié)果表現(xiàn)為 ACC=0.88 !AUC=0.86 。但是乳腺多參數(shù)定量超聲和增強(qiáng)MRI檢查費(fèi)用高昂、設(shè)備短缺,不能在基層醫(yī)院得到普及,暫未被列入乳腺癌常規(guī)檢查中。相比于影像學(xué),病理是診斷乳腺癌的“金標(biāo)準(zhǔn)”,乳腺穿刺也是每個(gè)確診乳腺癌患者的必做檢查。因此,本研究選擇使用乳腺癌NAT前粗針穿刺病理WSI作為研究對象,在無需臨床數(shù)據(jù)輔助的情況下DL-CNB模型測試集的AUC、ACC均超過上述基于影像學(xué)圖像的DL模型。
目前國內(nèi)外利用DL方法學(xué)習(xí)乳腺癌腫瘤細(xì)胞特征、構(gòu)建NAT療效預(yù)測模型的研究較少。國內(nèi)有學(xué)者利用UNet++ 網(wǎng)絡(luò)對乳腺癌患者NAT前的穿刺WSI進(jìn)行腫瘤區(qū)域和細(xì)胞核的分割,通過手工特征提取進(jìn)行細(xì)胞核層次的特征排序,結(jié)合分類器訓(xùn)練的模型可預(yù)測MP分級,準(zhǔn)確率達(dá)到 82.35%[26] 。然而,手工特征提取需要人工將圖像特征轉(zhuǎn)化為可供計(jì)算機(jī)分析的數(shù)據(jù),在這樣的人為干預(yù)下,隱藏在圖像中的不可見特征難以被充分利用。后續(xù)有學(xué)者利用InceptionV3網(wǎng)絡(luò)實(shí)現(xiàn)了腫瘤區(qū)域分割和pCR的預(yù)測,其中預(yù)測模型使用了快速集成深度學(xué)習(xí)策略,僅通過穿刺病理圖像訓(xùn)練的預(yù)測模型AUC為0.82,次于圖像聯(lián)合臨床數(shù)據(jù)的預(yù)測模型(AUC=0.89)[14]由此可見,用于學(xué)習(xí)WSI細(xì)胞核特征并預(yù)測pCR的DL模型還有待優(yōu)化。本研究提出基于注意力機(jī)制的多示例學(xué)習(xí)(MIL)方法,包括特征提取模塊和多示例學(xué)習(xí)模塊。其中本研究特征提取模塊發(fā)現(xiàn)VGG19效果優(yōu)于AlexNet、ResNet、Inception-v3等既往乳腺癌NAT療效預(yù)測模型中的特征提取網(wǎng)絡(luò)。構(gòu)建的DL-CNB模型在獨(dú)立測試集中表現(xiàn)優(yōu)秀,預(yù)測準(zhǔn)確率達(dá)到 84.211% AUC達(dá)到0.914,高于上述既往圖像預(yù)測模型。另外,注意力機(jī)制是解決信息超載問題的一種資源分配方案,將bag中的instance(即patches)賦予了直觀意義的權(quán)重,決定了哪些instance對bag的標(biāo)簽更加重要。由此本研究實(shí)現(xiàn)了預(yù)測結(jié)果的可解釋性,將WSI中的重要區(qū)域進(jìn)行了可視化。
注:括號(hào)中的數(shù)據(jù)為ROC曲線下面積(AUC)。
圖2DL-CNB模型和臨床數(shù)據(jù)Logistic模型預(yù)測獨(dú)立測試集中患者 pCR 的ROC曲線比較
Figure2 Comparison of receiver operating characteristic(ROC)curves between DL-CNB and clinical data-Logistic regression model for predicting pCRof patients from independent test set
本研究局限性:(1)數(shù)據(jù)僅來自一所醫(yī)院,缺乏多中心驗(yàn)證。(2)我院對于NAT療效病理評估局限于乳腺原發(fā)病灶,未考慮腋窩淋巴結(jié)情況,在未來的研究中可以將MP分級替換為殘余腫瘤負(fù)荷(RCB)分級,以嚴(yán)格pCR的定義。(3)在數(shù)據(jù)集準(zhǔn)備階段,腫瘤區(qū)域的劃分耗費(fèi)了大量的時(shí)間和精力,后續(xù)研究可考慮利用 UNet++ 網(wǎng)絡(luò)對腫瘤區(qū)域進(jìn)行自動(dòng)分割。
4小結(jié)
本研究利用基于注意力機(jī)制的多示例學(xué)習(xí)方法成功訓(xùn)練出深度學(xué)習(xí)(DL-CNB)模型,實(shí)現(xiàn)了通過乳腺癌穿刺WSI對NATpCR的預(yù)測,其預(yù)測結(jié)果優(yōu)于臨床數(shù)據(jù)預(yù)測模型。另外,本研究實(shí)現(xiàn)了預(yù)測結(jié)果的可解釋性,將WSI以熱力圖的方式進(jìn)行了重要區(qū)域的可視化。通過DL-CNB模型,本研究能夠?yàn)榉螻AT適應(yīng)證的乳腺癌患者提供臨床決策參考,輔助實(shí)現(xiàn)個(gè)體化精準(zhǔn)治療,對改善患者生活質(zhì)量及生存預(yù)期具有重大意義。
作者貢獻(xiàn):羅云昭負(fù)責(zé)臨床數(shù)據(jù)和穿刺病理WSI的收集和標(biāo)注、統(tǒng)計(jì)學(xué)處理、深度學(xué)習(xí)模型的搭建及測試,并撰寫論文初稿;蔣宏傳提出臨床數(shù)據(jù)研究指標(biāo),制定納排標(biāo)準(zhǔn),負(fù)責(zé)研究對象的選??;徐峰提出研究思路,設(shè)計(jì)研究方案,負(fù)責(zé)研究的質(zhì)量控制及審校,并對論文負(fù)責(zé);所有作者確認(rèn)了論文的最終稿。
本文無利益沖突。
羅云昭D https://orcid.org/0000-0002-8311-2432
蔣宏傳D https://orcid.org/0000-0001-8602-6049
徐峰D https://orcid.org/0000-0002-5709-0188
注:A為某 non-pCR 患者 WSI中某塊腫瘤區(qū)域的熱力圖,B為某pCR患者WSI中某塊腫瘤區(qū)域的熱力圖。紅色代表其對預(yù)測結(jié)果貢獻(xiàn)越大,藍(lán)色代表其對預(yù)測結(jié)果貢獻(xiàn)越小。
參考文獻(xiàn)
[1」GRADISHARWJ,MORANMS,ABRAHAMJ,etal.Breast cancer,version 3.2O22,NCCN clinical practice guidelines in oncology[J].JNatl Compr Canc Netw,2022,20(6):691- 722.DOI: 10.6004/jnccn.2022.0030.
[2] SPRING L M,F(xiàn)ELL G,ARFE A,et al. Pathologic complete response after neoadjuvant chemotherapy and impact on breast cancer recurrence and survival:a comprehensive Meta-analysis[J]. Clin CancerRes,2020,26(12):2838-2848.
[3]AGARWALR,UNNIKRISHNANUG,KEECHILATP,et al. Pathological complete response in locally advanced breast cancer after neoadjuvant chemotherapy:survival outcome and its relevance as a surrogate end point[J].South Asian Journal of Cancer,2O2O,9(3): 136-140.D0I: 10.1055/s-0040-1721238.
[4]TALEGHAMAR H,ALI JALALIFAR S, CZARNOTA G J, et al. Deep learning of quantitative ultrasound multi-parametric images at pre-treatment to predict breast cancer response to chemotherapy[J]. SciRep,2022,12(1):2244.
[5]MASSAFRAR,COMES MC,BOVES,et al.Robustness evaluation of a deep learning model on sagittal and axial breast DCEMRIs to predict pathological complete response to neoadjuvant chemotherapy[J].JPers Med,2022,12(6):953.
[6]DAMMU H,REN T,DUONG TQ. Deep learning prediction of pathological complete response,residual cancer burden,and progression-free survival in breast cancer patients [J].PLoS One, 2023,18(1) :e0280148.DOI:10.1371/journal.pone.0280148.
[7] SKARPINGI,LARSSON M,F(xiàn)oRNVIK D.Analysis of mammograms using artificial intelligence to predict response to neoadjuvant chemotherapy in breast cancer patients:proof of concept [J].EurRadiol,2022,32(5):3131-3141.
[8]CAMPANELLA G,HANNA MG,GENESLAWL,et al. Clinicalgrade computational pathology using weakly supervised deep learning on wholeslideimages[J].Nat Med,2019,25(8):1301- 1309.DOI: 10.1038/s41591-019-0508-1.
[9]MERCAN E,MEHTA S,BARTLETT J,et al. Assessment of machine learning of breast pathology structures for automated differentiation of breast cancer and high-risk proliferative lesions[J]. JAMA Network Open,2019,2(8):e198777.
[10] WOERL A C,ECKSTEIN M,GEIGER J,et al. Deep learning predicts molecular subtype of muscle-invasive bladder cancer from conventional histopathological slides[J].Eur Urol,202o,78(2): 256-264. D0I: 10.1016/j.eururo.2020.04.023.
[11] SKREDE O J,DE RAEDT S,KLEPPE A,et al. Deep learning for prediction of colorectal cancer outcome:a discovery and validation study[J].Lancet,2020,395(10221):350-360.
[12] ZHAO K,LI Z H,YAO S,et al. Artificial intellgence quantified tumour-stroma ratio is an independent predictor for overall survival in resectable colorectal cancer[J].EBioMedicine,2O20,61: 103054.DOI: 10.1016/j.ebiom.2020.103054.
[13] LUCAS M,JANSEN I,VAN LEEUWEN T G,et al. Deep learning-based recurrence prediction in patients with non-muscleinvasive bladder cancer[J].Eur Urol Focus,2O22,8(1): 165-172. DOI: 10.1016/j.euf.2020.12.008.
[14]LI FL,YANG YQ,WEI Y N,et al. Deep learning-based predictive biomarker of pathological complete response to neoadjuvant chemotherapy from histological images in breast cancer [J].JTransl Med,2021,19(1):348.
[15]OGSTON KN,MILLERID,PAYNE S,et al.A new histological grading system to assess response of breast cancers to primary chemotherapy:prognostic significance and survival[J].Breast (Edinburgh,Scotland),2003,12(5):320-327.
[16] ILSE M, TOMCZAK J M,WELLING M. Attention-based deep multiple instance learning[Z].International conference on machine learning,2018:2127-2136.
[17]WUYN.Cross entropy[M].Computer Vision:A Reference Guide.Boston:Springer International Publishing,2O21:225-226.
[18]THEODORIDIS S. Stochastic Gradient Descent[M].Machine learning. Oxford:Academic Press,2015:161-231.
[19] LOSHCHILOV I,HUTTER F. SGDR: Stochastic gradient descent with warm restarts[Z].International Conference on Learning Representations,2017:1-16.
[20]GOORTS B,VAN NIJNATTEN TJA,DE MUNCKL,et al. Clinical tumor stage is the most important predictor of pathological complete response rate after neoadjuvant chemotherapy in breast cancer patients[J].Breast Cancer Res Treat,2017,163(1): 83-91.DOI: 10.1007/s10549-017-4155-2.
[21] XIAO Y,DING JH,MA DC,et al. Predicting pathological complete response in neoadjuvant dual blockade with trastuzumab and pertuzumab in HER2 gene amplified breast cancer[J].Front Immunol,2022,13:877825.DOI:10.3389/fimmu.2022.877825.
[22] CHEN P X,WANG C,LU R L,et al. Multivariable models based on baseline imaging features and clinicopathological characteristics to predict breast pathologic response after neoadjuvantchemotherapy in patients with breast cancer[J].Breast Care(Basel, Switzerland),2022,17(3):306-315.
[23]DENKERT C,VON MINCKWITZG,DARB-ESFAHANI S, et al.Tumour-infiltrating lymphocytes and prognosis in diferent subtypes of breast cancer:A pooled analysis of 3771 patients treated with neoadjuvant therapy[J].Lancet Oncol,2018,19(1): 40-50. DOI: 10.1016/s1470-2045(17)30904-
[24]HAQUE W,VERMA V, HATCH S, et al. Response rates and pathologic complete response by breast cancer molecular subtype following neoadjuvant chemotherapy[J].Breast Cancer Res Treat,2018,170(3):559-567.
[25]METI N, SAEDNIA K,LAGREE A,et al. Machine learning frameworks to predict neoadjuvant chemotherapy response in breast cancer using clinical and pathological features[J].JCO Clin CancerInform,2021,5:66-80.D0I:10.1200/cci.20.00078.
[26]徐春燕,謝嘉偉,楊春霞,等.基于病理穿刺切片組織形態(tài)學(xué) 分析的乳腺癌新輔助化療療效預(yù)測[J].四川大學(xué)學(xué)報(bào)(醫(yī)學(xué) 版),2021,52(2):279-285.D0I:10.12182/20210360505. (收稿日期:2024-08-25;修回日期:2024-12-18)