蔣芙蓉,趙靜文,劉翔,石蘊玉,湯顯,宋家琳
1.上海工程技術大學電子電氣工程學院,上海 201620;2.第二軍醫(yī)大學附屬長征醫(yī)院超聲科,上海 200003
癌癥是全球主要的死亡原因之一。據(jù)國際癌癥研究機構(IARC)統(tǒng)計,2020年全球有1 929 萬例新病例,996 萬例與癌癥相關的死亡。到2040年,預計每年新增病例數(shù)將達到2 950 萬,與癌癥相關的死亡人數(shù)將達到1 640萬[1]。外科病理學報告不僅是簡單記錄或刻板印證臨床猜想的一種手段,對于腫瘤病理學而言,它是診斷的主宰因素和確定治療方案的一個重要決策因素[2],因此,組織病理診斷是臨床診斷的金標準[3-5]。但是,在顯微鏡下觀察組織病理圖像并給出診斷的方式是有誤差的,主要原因有(1)長時間的閱片使得病理醫(yī)師不堪重負[6];(2)診斷主要依靠醫(yī)師的主觀經(jīng)驗[7-8];(3)有資質的病理醫(yī)師配備數(shù)目極少且分布不均。
近年來,計算機應用的蓬勃發(fā)展促進了計算機輔助診斷(Computer-Aided Diagnosis, CAD)病理圖像的興起,利用CAD 既可以遵循統(tǒng)一的量化評價標準,大大減輕病理醫(yī)師的負擔,同時也可以解決醫(yī)療資源地區(qū)分布不平衡的問題。近年來,該領域涌現(xiàn)出大量的研究成果,本研究將對此進行梳理總結。
在臨床醫(yī)學中,CT、MRI及超聲圖像是醫(yī)生診斷病情并給出治療建議的常用依據(jù)。由于組織病理圖像信息量更豐富、形態(tài)特征更明顯,因而成為病理醫(yī)師臨床診斷的金標準。圖1從診斷病理學的角度揭示了從組織病理到診斷的工作流程,理解這一過程對于自動化分析病理圖像至關重要[9]。
圖1 組織病理學工作流程圖Figure 1 Histopathology workflow diagram
隨著數(shù)字病理掃描儀和計算機技術的發(fā)展,WSI已逐漸取代傳統(tǒng)切片成為病理學家診斷病情的依據(jù)。傳統(tǒng)切片的診斷流程一般是醫(yī)生通過顯微鏡觀察病理切片的組織區(qū)域并給出診斷,這種方式需要病理醫(yī)生不斷調整顯微鏡視野去支持診斷結論[10]。WSI是通過石蠟組織切片之后進行染色,再利用全自動顯微鏡掃描平臺得到。其中,染色方法一般為蘇木精-伊紅染色法,這是一種由堿性染液蘇木精和酸性染液伊紅構成的染色方法,主要應用于生物醫(yī)學。蘇木精使細胞核內的染色質與胞質內的核酸著紫藍色,伊紅使細胞質和細胞外基質中的成分著紅色。病理醫(yī)師主要根據(jù)細胞核的形態(tài)及分布進行病理學診斷[11]。
WSI通常以多分辨率金字塔結構存儲,放大倍率從1 至40 不等(圖2)[12]。與傳統(tǒng)切片圖像相比,WSI具有以下優(yōu)點:(1)載玻片的數(shù)字化使得病理醫(yī)師可在計算機上而不是通過顯微鏡觀察病理圖像,打破時間和空間的限制,促使遠程會診成為可能;(2)WSI 可永久保存,彌補了玻璃切片易褪色、易碎的缺陷;(3)WSI 分辨率高,色彩逼真,可從中觀察出豐富的病理信息[13-15]。然而,圖像文件包含原始圖像的多個縮減采樣版本,且尺寸較大,病變區(qū)域在低倍率下難以分辨,在高倍率下處理相當耗時。因此,實現(xiàn)WSI的全自動處理和分析仍是一個技術難題[16]。
圖2 金字塔式WSIFigure 2 Pyramid whole slide image
隨著計算機技術的普及,人工智能已滲透入生活的許多方面,醫(yī)療領域更是如此。數(shù)年前,疾病診斷主要依靠病理學家獨立完成,高強度的顯微鏡閱片方式使醫(yī)師不堪重負,并且受醫(yī)生主觀經(jīng)驗影響,最終的診斷結果也因人而異。相比之下,CAD 以其準確率高、便捷惠民、解放人力等優(yōu)勢促進了智慧醫(yī)療的蓬勃發(fā)展,越來越多的學者也投身于CAD 在病理圖像方面的研究。一般而言,組織病理圖像的輔助診斷和其他醫(yī)療影像類似,主要分階段進行,大致分為以下幾個步驟:(1)圖像預處理;(2)感興趣區(qū)域分割;(3)特征提取與選擇;(4)疾病分類。本研究主要對感興趣區(qū)域分割和疾病分類兩大任務中的研究進展進行梳理歸納。
鑒于病理學家利用病理圖像診斷病情的步驟,在機器學習領域,CAD 首先需準確分割出病變區(qū)域,即感興趣區(qū)域,以便后期進行分類診斷。在病理學圖像中,染色使不同的細胞結構呈現(xiàn)不同的顏色。細胞核是組織病理學中的感興趣區(qū)域,因此常常以細胞核的形態(tài)變化作為病變分類的主要參考依據(jù)。目前,機器學習在這一任務中的方式主要有: 弱監(jiān)督、有監(jiān)督、無監(jiān)督。
Jia等[17]提出一種弱監(jiān)督學習算法來分割癌癥區(qū)域,在多實例學習框架下,引入關于正例的約束條件,用全卷積網(wǎng)絡分割癌變區(qū)域,該實驗的F-score為0.622,性能超越先前的方法。Cui等[18]提出一種有監(jiān)督的全卷積神經(jīng)網(wǎng)絡,首先對圖像進行顏色歸一化和分割為小塊的預處理;其次提出核-邊界模型用于檢測每個小塊,經(jīng)由拼接得到粗糙的預測結果;最后運用快速和非參數(shù)的后處理得到精確的細胞核分割結果。實驗最終在數(shù)據(jù)集BCD 和BNC 上得到了優(yōu)越的量化指標,在BCD 數(shù)據(jù)集上的精準率為0.942,在BNC 數(shù)據(jù)集上的精準率為0.920。Moriya 等[19]提出一種將無監(jiān)督學習和常規(guī)聚類相結合的方法,首先采用球形K-Means算法提取聚類質心,其次將傳統(tǒng)的K-Means算法應用于由質心提取的表示,最終將聚類標簽投影到目標圖像。實驗最終將肺癌標本的70張圖像分割成3 類區(qū)域:浸潤性癌、非侵入性癌及正常組織,所提出的方案優(yōu)于多閾值Otsu 和傳統(tǒng)的KMeans 方法,3 種方法的NMI 分別為0.626、0.167、0.168;其中,NMI 是度量聚類時,X 和Y 的相似程度,值域為[0,1 ],值越高代表聚類越準確。
此外,分割算法的計算復雜度也成為廣大研究者的研究重點,Sulimowicz 等[20]從4 個方面實現(xiàn)了更精確和更快的感興趣區(qū)域分割。(1)在使用從粗到細拓撲保持分割作為基線的前提下,提出使用超像素規(guī)則性優(yōu)化方案來避免不規(guī)則和極小的超像素;(2)采用預測策略,僅聚焦于更精細圖像級別的重要超像素;(3)將從最粗糙的圖像級別獲取的信息重新運用于其他精細的圖像級別;(4)采用高效的并行化方案,運用自適應數(shù)據(jù)劃分,從而得到較高的加速度。實驗最終在數(shù)據(jù)集BSD500 和NLST 上進行驗證,結果表明該算法相較于基準模型,速度提升了13倍。
作為病理圖像診斷的另一重要任務,病理圖像分類可為醫(yī)師提供輔助意見,幫助醫(yī)生制定治療方案。同時,疾病尤其是癌癥圖像的分類主要依靠病理醫(yī)師的主觀經(jīng)驗,不同的醫(yī)師可能會給出不同的診斷結果,因此實現(xiàn)病理圖像的自動分類對CAD 至關重要。
基于梯度增強樹分類器和幾個常見深度神經(jīng)網(wǎng)絡,Rakhlin 等[21]使用10 倍交叉驗證,在數(shù)據(jù)集ICIAR 2018 Grand Challenge on Breast Cancer Histology Images 上得到優(yōu)于其他傳統(tǒng)方法的性能。為避免在大尺寸圖像上提取局部特征的弊端,Xu等[22]針對20 倍和40 倍放大倍數(shù)做提取斑塊處理,并丟棄只有白色背景的補丁,隨即將其輸入到AlexNet,提取特征向量,進行特征選擇之后采用支持向量機進行最終分類。
在處理大尺寸WSI 時,大多研究將整張WSI 分塊輸入模型中,從而進行分類;但這種基于塊的處理忽略了相鄰斑塊間的關系,因此會降低分類性能。為改善這種情況,Takahama 等[23]提出一種結合特征提取模型和分割模型的病理圖像分類模型,從分類模型中提取斑塊特征,繼而輸入分割模型中,得到腫瘤概率熱圖,此方法同時考慮了全局特征和局部信息,相比傳統(tǒng)的基于塊的分類方法,性能有所提高。
此外,基于片級的處理方式會帶來計算負擔,并且疾病和健康類別的特征區(qū)分不明顯,甚至會共享幾個幾何特征。Li 等[24]提出一種分析綜合模型學習與共享特征算法,即引入聯(lián)合分析和綜合學習模型,將低秩共享字典和共享分析算子集成到該框架中,實現(xiàn)了計算簡單的病例圖像分類。
雖然機器學習方法在一定程度上減輕了專業(yè)醫(yī)師的負擔,診斷結果與專業(yè)病理學家相當甚至有所超越,但前期的特征提取仍依靠人工完成。隨著深度學習的發(fā)展,可以省去人工提取特征的步驟,實現(xiàn)病理圖像端到端的全自動診斷。深度學習發(fā)展至今,卷積神經(jīng)網(wǎng)絡一直是最常用的模型,只需將圖像及圖像標簽輸入模型中進行訓練測試,便可輸出相應的診斷結果。其中,基于AlexNet[25]、VGGNet[26]、GoogLeNet[27]等網(wǎng)絡的病理圖像診斷取得了長足發(fā)展。
Wang[28]選擇了27 層的GoogLeNet,通過塊級預測來區(qū)分腫瘤組織和正常組織,然后匯總進行腫瘤概率熱圖的繪制,提取熱圖上的28 個幾何和形態(tài)學特征進行計算,構建隨機森林分類器,完成整張WSI的分類任務,同時還可定位腫瘤所在部位。此外,實驗在WSI 的40 倍放大倍數(shù)下獲得了最佳性能,AUC為0.925。Motlagh等[29]首先利用ResNet V1 50實現(xiàn)4種類型癌癥的檢測分類,其次采用ResNet V1 50 和ResNet V1 152分別對良性腫瘤和惡性腫瘤實現(xiàn)亞型分類。在實驗環(huán)節(jié),和Inception 網(wǎng)絡做對比評價,總結得出Inception 網(wǎng)絡更適用于組織病理圖像的自動分類。為不改變模型結構,Spanhol 等[30]提出一種基于斑塊分類再聚合的策略,即對輸入圖像做一定修改,隨即輸入到AlexNet 中,表現(xiàn)出比傳統(tǒng)學習更優(yōu)異的性能,也避免了模型修改的計算代價。
在實踐中,病理學家一般會在圖像的多個放大級別下切換,以準確評估疾病類型。然而在深度學習中,圖像一般在輸入到卷積神經(jīng)網(wǎng)絡模型前就已固定好放大倍數(shù),此流程與病理醫(yī)師診斷流程不一致,有可能會造成誤判[31]。Lao等[32]集成多個放大級別的圖像構建圖像集,采用成熟的ResNet 網(wǎng)絡對BreakHis 數(shù)據(jù)集進行CAD。實驗證明,此方法的分類準確率高于任一種固定放大級別的性能。
視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像,獲得需要重點關注的目標區(qū)域,然后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關注目標的細節(jié)信息,抑制其他無用信息。近年來,注意力機制在深度學習多個領域被廣泛使用,醫(yī)學診斷領域也不例外[33]。Sun 等[34]開發(fā)了一種聯(lián)合卷積神經(jīng)網(wǎng)絡和注意力機制的網(wǎng)絡模型,突出局部的形態(tài)學特征,此舉可有效提供診斷依據(jù);最后采用10倍交叉驗證,使用3 個常見的指標(Accuracy、Sensitivity、Specificity)量化評估結果,總體性能超過3位副主任醫(yī)師的診斷結果。Mehta 等[35]基于注意力機制提出HATNet 結構,通過擴展單詞包模型來學習全局表示;該方法通過匯集局部和全局的信息,使得網(wǎng)絡能夠在無標記情況下學習到圖像特征以進行分類。
不可避免地,在病理圖像數(shù)據(jù)收集層面,類別分布可能會不平衡。因此Momeni 等[36]提出Deep Recurrent Attention Module(DRAM),該模型在每個時間點t,有選擇地聚焦在大塊區(qū)域中的一個給定位置(一瞥),然后模型從這個一瞥中提取特征,更新其內部狀態(tài),并選擇下一個要關注的位置。這個過程重復固定數(shù)量的步驟,在此期間,模型以一致的方式遞增地組合信息??傮w架構可分解成由多層神經(jīng)網(wǎng)絡組成的多個子組件,其中每個子組件將一些輸入向量映射成輸出向量,最后實現(xiàn)匯總分類。實驗證明,通過選擇性地選擇聚焦位置,DRAM 可實現(xiàn)與最先進的算法[37-39]有相當?shù)男阅堋?/p>
為了能針對誤標記的病理圖像,提高診斷準確性,Li 等[40]提出反向主動學習策略來去除訓練集中的誤標記補丁,其次提出用于分類的atrous DenseNet網(wǎng)絡,將DenseNet 的普通卷積替換為atrous 卷積,實現(xiàn)多尺度特征提取。
針對組織病理圖像較復雜的特點,越來越多的研究傾向使用多種網(wǎng)絡結構集成的概念,以結合不同模型的優(yōu)勢。Hashimoto 等[41]提出一個集多尺度、區(qū)域對抗和多實例于一體的端到端系統(tǒng),以實現(xiàn)癌癥疾病的亞型分類,其性能明顯優(yōu)于其他病理專家和常規(guī)卷積神經(jīng)網(wǎng)絡方法。Alom 等[42]提出Inception Recurrent Residual Convolutional Neural Network(IRRCNN)模型,該模型融合了Inception-v4、ResNet 及RCNN 的優(yōu)勢,在BreakHis 和Breast Cancer Classification Challenge 2015 兩個公開數(shù)據(jù)集上獲得了優(yōu)異的性能。
雖然公開數(shù)據(jù)集的存在使得病理圖像的輔助診斷有較為統(tǒng)一的評價對比,但數(shù)據(jù)集規(guī)模仍較小,難以支撐深度學習對于大規(guī)模標注數(shù)據(jù)的需求。除了常見的數(shù)據(jù)增強預處理方法外,在實際的輔助診斷進程中,新興的遷移學習方法也廣泛應用于病理診斷領域。
然而,經(jīng)典的AlexNet、VggNet層數(shù)較少,現(xiàn)代的卷積神經(jīng)網(wǎng)絡結構層數(shù)越來越多,且層級連接也更為復雜,如ResNet和DenseNet。因此,隨之而來的研究和嘗試也促進了深度學習,甚至是遷移學習的發(fā)展。
ResNet 引入跳躍連接,避免了神經(jīng)網(wǎng)絡訓練在層數(shù)太多時導致的信息丟失,解決了梯度消失和信息爆炸的問題。另外,大多病理組織圖像為彩色圖像,使用ResNet可以學習到顏色和文本特征,利于分類[46]。DenseNet 中的Dense Block 模塊利用了該模塊中前面所有層的信息,即每一個layer 都和前面的layer 稠密連接,通過這一連接方式,增加了梯度的傳遞,特征得到了重用,相比ResNet擁有更少的參數(shù)數(shù)量,甚至減少了在小樣本數(shù)據(jù)上的過擬合[47]。Talo等[48]使用預先訓練好的DenseNet-161 及ResNet-50模型,分別用于灰色和彩色病理圖像的分類,該研究還發(fā)現(xiàn)彩色病理圖像相比灰色病理圖像的分類準確率高出1個百分點,原因是DenseNet只學習到文本特征,而ResNet額外學習了顏色特征。
隨著各種成像技術的興起和自動診斷需求的上升,醫(yī)學圖像檢索成為生物醫(yī)學工程領域一項富有挑戰(zhàn)性的任務。基于內容的圖像檢索和基于文本的圖像檢索是醫(yī)學圖像檢索中最流行的辦法,但是基于文本關鍵字的檢索方法在應對大規(guī)模醫(yī)學數(shù)據(jù)時有局限性,也對人工標記有很大要求;基于內容的圖像檢索由于關注圖像的實際視覺內容,因而具有更強的客觀性[49]。在病理圖像檢索層面,基于內容的組織病理圖像檢索是廣大研究者關注的熱點。組織病理圖像檢索是通過提取病理圖像的形態(tài)結構信息,從數(shù)字病理庫中查找在圖像內容上與醫(yī)生提供的感興趣區(qū)域最相似的圖像區(qū)域,并將圖像區(qū)域所在的病例返回給醫(yī)生,醫(yī)生可以逐一查看檢索返回的相似區(qū)域,同時參考相似病例的專家診斷意見,幫助醫(yī)生更全面地了解查詢圖像包含的病變情況,做出更可靠的診斷[50]。
為提高整體的檢索精度,李琛[51]提出粒子群-核極限學習機算法,利用粒子群算法[52]來優(yōu)化核極限學習機中的參數(shù),然后進行預分類,綜合顏色和紋理特征進行病理圖像檢索,最后調用MATLAB GUI 界面構建病理圖像檢索的一體化平臺。
經(jīng)典的底層特征雖具有不錯的可解釋性,但難以區(qū)別不同的病變類別。為提高檢索精度,Caicedo等[53]將用于文本分析的詞袋模型應用到組織病理圖像檢索領域,底層特征映射到高層特征,有效地提高檢索準確率。此外,其他成像方式的檢索也可應用上述方法,如Kamath 等[54]將詞袋模型應用到X-ray圖像檢索,利用具有旋轉不變性的加速穩(wěn)健特征算法進行特征提取以構建視覺詞匯,繼而采用K-means算法排除無關特征,最終保留下最魯棒的80%特征;對于每個特征包編碼,計算視覺單詞的出現(xiàn)次數(shù),使用支持向量機多類分類器實現(xiàn)檢索功能,返回匹配圖像。采用以上方法檢索病理圖像由于基于浮點特征會導致時間復雜度較大。為提高深度學習的可解釋性和檢索效率,受病理學家決策過程的啟發(fā),Peng等[55]設計了一個面向分類和檢索的多任務學習框架。通過添加三重損失函數(shù)比較樣本間距離,采用柯西哈希損失函數(shù)加速最近鄰搜索,此方式直觀且易被理解,檢索得到10 張最相似圖像可以有效支持醫(yī)師進行臨床決策。從概念上而言,組織病理圖像檢索是一個可以為醫(yī)師提供輔助參考意見的決策平臺?;跈C器學習和深度學習診斷的輸出結果較為單一,難以為醫(yī)師提供充足的診斷證據(jù)。而組織病理圖像檢索的實用性和可解釋性卻更勝一籌,在流程上更加人性化,能提供相關參考意見,但醫(yī)生的工作壓力仍然很大。未來在自動檢索方面如果可以發(fā)展一體化診斷治療平臺,將會大大提高診斷效率。
人工智能在多個領域皆有應用和發(fā)展,醫(yī)學領域也不例外。病理診斷作為臨床診斷的金標準,是病理醫(yī)師提供診斷報告的最可靠的依據(jù),但人工診斷方式仍有較大的主觀性,缺乏統(tǒng)一的量化標準。計算機技術和成像技術的快速發(fā)展使得在計算機上觀察組織病理圖像成為可能,CAD 病理圖像也成為新的熱點及趨勢。本研究參照病理專家的常規(guī)診斷流程,按圖像類型、圖像處理及病理診斷等方面總結了以往的重要成果,同時也提出幾點改進方向:(1)深度學習一直由于缺乏可解釋性而被稱為“黑匣子”,難以被醫(yī)學界理解接受,模擬病理醫(yī)師的診斷思路來設計CAD模型是必須的;(2)單一模型的性能相比多模型結合的性能仍有局限,若利用多種經(jīng)典模型并加以改進會更有利于病理診斷;(3)生成對抗網(wǎng)絡在擴充數(shù)據(jù)集層面已有大量應用,在實際診斷方面的潛力仍待挖掘;(4)隨著各種移動設備的興起,開發(fā)CAD的一體化平臺為大勢所趨??傊诮M織病理圖像的CAD 是一個需要長期注入精力的領域。