張博雅,李席如
1.南開大學(xué)醫(yī)學(xué)院,天津 300071;2.解放軍總醫(yī)院第一醫(yī)學(xué)中心普通外科,北京 100853;*通信作者 李席如2468li@sina.com
乳腺癌居惡性腫瘤發(fā)病率首位[1]?;谌橄賆線攝影的乳腺癌普查策略有助于早發(fā)現(xiàn)、早診斷、早治療。數(shù)字乳腺斷層合成(digital breast tomosynthesis,DBT)是一種新興的三維成像技術(shù),可以減輕傳統(tǒng)乳腺X線攝影常見的偽影,改善病灶征象顯示水平,提高乳腺病變的檢出率[2]。
深度學(xué)習(xí)(deep learning,DL)以其強大的自動圖像特征提取能力,可以處理大量醫(yī)學(xué)影像數(shù)據(jù),基于深度學(xué)習(xí)的計算機輔助檢測與診斷系統(tǒng)(computeraided detection and diagnosis systems,CAD)有望給人工智能(artificial intelligence,AI)乳腺影像領(lǐng)域帶來變革。此外,DBT的臨床應(yīng)用仍處于普及階段,為DLCAD能附加到嚴(yán)格的醫(yī)療管理的工作流程提供了一個獨特的機會[2]。本文對深度學(xué)習(xí)的相關(guān)概念、在數(shù)字乳腺斷層合成中的研究進(jìn)展、臨床效能及面臨的挑戰(zhàn)和對策進(jìn)行綜述。
深度學(xué)習(xí)是一種以多層神經(jīng)網(wǎng)絡(luò)為架構(gòu)的計算模型,較傳統(tǒng)CAD的最大優(yōu)勢是其可以自動提取并學(xué)習(xí)特征信息,發(fā)掘人類認(rèn)知以外的圖像的深層信息[3]。深度學(xué)習(xí)在醫(yī)療影像中的應(yīng)用可以概括性地分為圖像級別及像素級別,圖像級別主要用于判斷是否存在病灶及良惡性分類,像素級別可以用于病灶檢測及分割[3]。深度學(xué)習(xí)算法各異,其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是最具代表性的神經(jīng)網(wǎng)絡(luò),作為一種前饋神經(jīng)網(wǎng)絡(luò),其中主要包括5種類型的層:輸入層、卷積層、池化層、全連接層及輸出層,輸入層輸入原始圖像,卷積層自動提取圖像特征,池化層簡化特征信息,全連接層擬合分類,輸出層輸出預(yù)測結(jié)果[3]。其中卷積層和池化層多層交替排列,可以實現(xiàn)從低層級向高層級不斷地自動提取特征,簡化特征信息[3]。
影像科醫(yī)師閱片時主要關(guān)注兩類病灶:軟組織病灶及鈣化灶,其中軟組織病灶可以分為腫塊、結(jié)構(gòu)扭曲及不對稱。深度學(xué)習(xí)在數(shù)字乳腺斷層合成中的應(yīng)用進(jìn)展見表1。
表1 深度學(xué)習(xí)在數(shù)字乳腺斷層合成中的應(yīng)用研究
2.1 軟組織病灶分類、檢測及分割模型 腫塊的DLDBT模型因腫塊易于標(biāo)記定位較常見,然而檢測結(jié)構(gòu)扭曲是DBT較傳統(tǒng)乳腺X線攝影成像的主要優(yōu)勢,DBT可以減輕腺體對病灶的遮蓋[17]。Samala等[4]建立了一個DL-DBT腫塊檢出模型,將在自然影像集ImageNet中訓(xùn)練的CNN模型,在DBT數(shù)據(jù)集中分階段微調(diào)遷移學(xué)習(xí),ROC曲線下面積(AUC)可達(dá)0.91。Fotin等[18]對比深度學(xué)習(xí)與機器學(xué)習(xí)的DBT腫塊及結(jié)構(gòu)扭曲檢出分類模型性能,深度學(xué)習(xí)的敏感度、AUC等均優(yōu)于機器學(xué)習(xí)。然而與分類模型相比,影像科醫(yī)師對于病灶檢測與分割的需求更為迫切。部分模型利用深度學(xué)習(xí)提取特征,機器學(xué)習(xí)分類實現(xiàn)腫塊定位,Yousefi等[19]利用深度卷積神經(jīng)網(wǎng)絡(luò)從二維圖像上提取圖像特征,再應(yīng)用多實例隨機森林行腫塊良惡性分類;Li等[9]設(shè)計的基于RCNN的結(jié)構(gòu)扭曲檢測模型,在80%的敏感度時,假陽性率為1.95假陽性率/體層。但鑒于RCNN計算時間過長,醫(yī)學(xué)影像較自然影像復(fù)雜,目前普遍采用faster RCNN分析醫(yī)學(xué)影像數(shù)據(jù)。Fan等[7]提出一個基于faster RCNN的腫塊檢測模型,為每層DBT影像生成具有檢測到腫塊的置信度的候選框,若同一組多層DBT 影像乳房腫塊的候選框的交互比>0.5,則將其合并,最終腫塊的置信度為候選框中的最大置信度,據(jù)此檢測病灶,該模型的AUC為0.96(敏感度為90%,0.76假陽性率/乳房),優(yōu)于基于深度卷積神經(jīng)網(wǎng)絡(luò)模型。該團(tuán)隊在此基礎(chǔ)上開發(fā)了一種基于3D-掩膜(mask)-RCNN的模型,以ResNet-FPN為主干網(wǎng)絡(luò),不僅可以檢測病灶,還可以處理病灶分割任務(wù),結(jié)果顯示3D-mask RCNN病灶檢測性能優(yōu)于2D-mask RCNN和Faster RCNN[6]。執(zhí)行腫塊分割任務(wù)時,平均精度達(dá)到0.93,假陰性率為0.053[6]。Zhang等[5]在ResNet-FPN的基礎(chǔ)上開發(fā)了REPLICA模型,引入基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)于ResNet和FPN之間,使模型專注于影像中的必要特征,整合全局信息,平均精度(交互比取50%時)達(dá)到50.4,至少高于作為基線的faster RCNN模型13.1%,注意力機制提高病灶檢測與分割任務(wù)的效能。
基于YOLO算法的一階段模型是目前的研究熱點,可以同時執(zhí)行病灶分類和位置信息表征,是一個統(tǒng)一的、端對端的過程[20]。YOLO將檢測問題轉(zhuǎn)化為回歸問題,首先將圖像以網(wǎng)格均分,對每個單元格行候選框及置信度預(yù)測,直接得到候選框的定位及分類。與二階段模型滑動候選框方法相比,YOLO可以顯著提升病灶檢測速度[20]。此外,YOLO算法泛化能力強,遷移學(xué)習(xí)時模型魯棒性高[20]。Buda等[10]提出一個基于YOLO的腫塊及結(jié)構(gòu)扭曲的檢測模型,該模型在應(yīng)用焦點損失函數(shù)優(yōu)化參數(shù)時性能最佳,敏感度為65%時,假陽性率為2假陽性率/體層,與faster RCNN的二階段模型相當(dāng)。Hassan等[21]對比了faster R-CNN與多個YOLO算法檢測DBT病灶的性能,結(jié)果顯示faster RCNN預(yù)測的準(zhǔn)確性更高,可能與YOLO算法本身精確性較RCNN不佳、適用條件受限有關(guān)。但隨著YOLO v1到Y(jié)OLO v5、YOLOF的不斷迭代,相信YOLO在DBT病灶檢測領(lǐng)域具有廣闊的應(yīng)用前景。
與經(jīng)典的CNN利用像素塊逐個分類不同,U-net作為全卷積網(wǎng)絡(luò)的經(jīng)典架構(gòu)將CNN全連接層全部替換成卷積層,可以實現(xiàn)對圖片逐像素的預(yù)測,是經(jīng)典的端到端的分割方法,模型更加高效,避免了像素塊帶來的重復(fù)存儲和計算卷積的問題[22]。Lai等[8]基于此提出一個23層的基于U-net的腫塊分割模型。逐層對DBT影像行概率預(yù)測,并將預(yù)測整合出最終結(jié)論。研究對比線性判別分析、支持向量機、CNN等多種算法,U-net算法的性能最優(yōu)(AUC=0.86)。
2.2 鈣化分類、檢測模型 乳房微鈣化點簇可以用于檢測乳腺癌,并預(yù)測其侵襲性。鑒于微鈣化點簇散布在DBT的多個成像層面中,且直徑較小,影像科醫(yī)師易漏診。鑒于2D-CNN不能充分利用DBT的三維圖像的空間信息,并且淺層卷積網(wǎng)絡(luò)不能提取出更具代表性的信息。Wichakam等[23]提出標(biāo)準(zhǔn)3D-CNN模型(8層卷積層)。因此,卷積模型的復(fù)雜度越高,模型性能可能越好。標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)不能有效提取分辨率各向異性的DBT的信息。Xiao等[13]建立了2D ResNet34和3D各向異性ResNet融合的決策樹模型,待2D和3D模型獨立做出結(jié)論后,在輸出時取2個模型的平均值,AUC可達(dá)0.88,且文中復(fù)現(xiàn)了前文所述的模型,對比可得該模型性能最佳。Zheng等[11]亦提出一個以ResNET-18作為主干網(wǎng)絡(luò),綜合考慮2D、3D全局信息的模型,模型AUC可達(dá)0.98,敏感度為90%時,0.051假陽性率/體層,值得注意的是,該模型在877例中國女性DBT檢查數(shù)據(jù)庫中訓(xùn)練測試。
2.3 多類型病灶檢測模型 上述DL-DBT模型多僅針對一種病變類型,臨床應(yīng)用較低效。對于DL-DBT多病灶類型檢測模型,Mendel等[16]應(yīng)用VGG19深度卷積神經(jīng)網(wǎng)絡(luò)提取特征,然后將這些特征輸入支持向量機分類器,以預(yù)測乳腺鈣化、腫塊及結(jié)構(gòu)扭曲惡性的可能性,AUC可達(dá)0.98。Lotter等[15]提出一種三階段的全自動深度學(xué)習(xí)模型。第一階段,訓(xùn)練一個預(yù)先訓(xùn)練好的ResNet模型進(jìn)行病灶分類,這個經(jīng)過訓(xùn)練的ResNet 用作RetinanNet 的主干網(wǎng)絡(luò);第二階段,RetinanNet用于病灶檢測;第三階段,利用第二階段提取的候選區(qū)域?qū)BT簡化后的二維圖像分類。為了驗證模型的泛化性,該模型在5個中心進(jìn)行測試,AUC平均為0.95,經(jīng)河南省人民醫(yī)院測試發(fā)現(xiàn),在低篩查率和乳腺致密腺體比例較大的中國人群中,AUC可達(dá)0.97[15]。鑒于現(xiàn)有網(wǎng)絡(luò)均需要強標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練,耗費人力、物力,Swiecicki等[14]提出一個以圖像補全算法為核心的DBT無監(jiān)督病灶檢測模型,該模型以生成對抗網(wǎng)絡(luò)為基礎(chǔ),利用無病灶的DBT圖像訓(xùn)練,先移除一部分圖像,再利用生成對抗網(wǎng)絡(luò)補全缺失部分圖像,兩圖像的差異以MSE或鑒別器損失量化,差異值越大,則該補全區(qū)域為病灶的概率越大。然而,該研究未對病灶和正常組織分割的差異值做出界定。
AI系統(tǒng)整合至DBT病灶評估的工作流程中,影像科醫(yī)師可以在AI-DBT系統(tǒng)的定位和導(dǎo)航報告的基礎(chǔ)上進(jìn)行評估,通過點擊DBT簡化后的二維圖像上標(biāo)注出的病灶,可以跳轉(zhuǎn)至病灶分布所在層的DBT影像,減少工作負(fù)荷,提高評估的準(zhǔn)確性。Pinto等[24]將AI輔助診斷系統(tǒng)附加到影像科醫(yī)師的工作流程中,在190例患者DBT檢查數(shù)據(jù)中進(jìn)行分析,結(jié)果顯示AI輔助診斷的影像科醫(yī)師AUC(0.88)大于獨立診斷醫(yī)師(0.85),并且敏感度提高5%,假陽性率降低27%。Conant等[25]的AI系統(tǒng)在輔助影像科醫(yī)師評估260例DBT檢查的軟組織和鈣化灶時,AUC、敏感度和特異度均得到顯著提高,并且閱讀時間減少53%。Chae等[26]的研究均得到相似的結(jié)果。然而,AI輔助下影像科醫(yī)師的表現(xiàn)均不如AI單獨診斷,提示影像科醫(yī)師可能過于依賴AI診斷結(jié)果,未能正確利用AI。因此,一方面需要對AI系統(tǒng)定期跟蹤檢測性能;另一方面,有必要加強對影像科醫(yī)師的嚴(yán)格培養(yǎng)和AI輔助系統(tǒng)應(yīng)用的正確宣教。最后,亟須大規(guī)模、多中心研究驗證AI輔助診斷系統(tǒng)的臨床應(yīng)用效果。
深度學(xué)習(xí)對DBT的檢測與診斷模型的性能主要受兩方面因素影響:算法及數(shù)據(jù),上文已敘述算法的進(jìn)展。數(shù)據(jù)量的大小及組成直接影響深度學(xué)習(xí)模型的性能。此外,深度學(xué)習(xí)決策過程的不可解釋性也是受到關(guān)注的問題,直接影響其臨床推廣應(yīng)用的價值。
4.1 深度學(xué)習(xí)訓(xùn)練數(shù)據(jù) DL-DBT的模型訓(xùn)練依賴于大量、高質(zhì)量標(biāo)注的訓(xùn)練集,公開數(shù)據(jù)集是廣大研究者開發(fā)、評估模型的堅實基礎(chǔ)。目前主要的公開數(shù)據(jù)集是乳腺X線攝影數(shù)字化數(shù)據(jù)集和Optimam乳腺X線攝影數(shù)據(jù)集[27]。Buda等[10]發(fā)布了5 060例DBT檢查的數(shù)據(jù)集;Zhang等[5]的模型開發(fā)已經(jīng)利用該數(shù)據(jù)集,為了使深度學(xué)習(xí)在醫(yī)療領(lǐng)域更好地發(fā)展,提倡研究者公開數(shù)據(jù)集。目前為了解決數(shù)據(jù)量不足的問題,主要有以下幾個解決方案:①遷移學(xué)習(xí)可以有效解決高質(zhì)量標(biāo)注數(shù)據(jù)缺乏的問題。即利用源領(lǐng)域高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練模型,再通過微調(diào)卷積層參數(shù)將模型遷移至數(shù)據(jù)匱乏的目標(biāo)領(lǐng)域,以提升模型的泛化性能[28]。自然圖像集和傳統(tǒng)乳腺X線攝影數(shù)據(jù)集的預(yù)訓(xùn)練模型均在遷移至DBT后表現(xiàn)出良好的性能[16,28]。②數(shù)據(jù)增強,利用旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等數(shù)據(jù)增強技術(shù),在現(xiàn)有DBT圖像的基礎(chǔ)上生成新的訓(xùn)練樣本,克服數(shù)據(jù)不足的缺點,提高分類精度[29]。③利用弱標(biāo)簽數(shù)據(jù)訓(xùn)練模型,Lotter等[15]為了解決強標(biāo)記數(shù)據(jù)缺乏的問題,采用少量強標(biāo)簽和大量弱標(biāo)簽相結(jié)合的形式訓(xùn)練模型,而U-net模型僅需利用弱標(biāo)簽數(shù)據(jù)集訓(xùn)練模型,即可實現(xiàn)病灶的檢測與分割。④數(shù)據(jù)非均衡問題需要引起重視,在檢測任務(wù)中,由于含有病灶的DBT圖像數(shù)量非常有限,訓(xùn)練難度很大。Swiecicki等[14]建立的生成對抗網(wǎng)絡(luò)圖像補全模型,有效利用了大量非病灶的影像數(shù)據(jù),為解決該問題提供了一個有價值的思路。
4.2 深度學(xué)習(xí)的可解釋性 深度學(xué)習(xí)的“黑盒”模型是深度學(xué)習(xí)臨床應(yīng)用的主要阻礙。深度學(xué)習(xí)無法提供決策過程。一個合格的醫(yī)療系統(tǒng)必須是透明的、可理解的、可解釋的,被醫(yī)師和患者信任。為了更好地讓醫(yī)師及患者理解模型,定位和分割模型較分類模型在可解釋性上具有明顯優(yōu)勢,病灶定位標(biāo)注是一種直觀的、增強可解釋性的方案[6-7,10,15]。對于模型內(nèi)部而言,算法間的可解釋性亦不同,注意力機制的引入提高了模型的可解釋性,基于注意力機制的網(wǎng)絡(luò)可以控制不同空間位置處特征的重要性,以引導(dǎo)網(wǎng)絡(luò)其他部分可見的信息[30]。
深度學(xué)習(xí)在數(shù)字乳腺斷層合成領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力,工程師及影像科醫(yī)師共同努力不斷完善深度學(xué)習(xí)模型。然而目前仍面臨諸多挑戰(zhàn):①深度學(xué)習(xí)的不可解釋是臨床推廣最主要的障礙,亟須可解釋性更好的模型。②DL-DBT量化分析有望建立短期腫瘤復(fù)發(fā)率及遠(yuǎn)隔器官轉(zhuǎn)移風(fēng)險預(yù)測模型。此外,亦可監(jiān)測全身信息,整合影像學(xué)、基因組學(xué)、病理學(xué)、電子醫(yī)療檔案等數(shù)據(jù),建立評估療效、預(yù)后及制訂全身診療模式的通用模型,推動個體化診療的發(fā)展,有潛力給腫瘤診療模式帶來變革。③AI-DBT的臨床推廣需要克服一些基本的法律及倫理問題。
利益沖突 所有作者均聲明不存在利益沖突