岳 萌,劉月平
隨著乳腺癌精準治療的發(fā)展,對病理診斷提出了更高的要求。實際臨床工作中,乳腺病理診斷工作重點是對乳腺癌的規(guī)范性診斷,尤其是ER、PR、Ki-67、HER-2等與治療及預后相關的免疫組化指標的判讀,費時費力,且不同醫(yī)師之間判讀的一致性差?;谟嬎銠C圖像分析的發(fā)展,客觀、定量的全切片數字化掃描圖像(whole slide imaging, WSI)應運而生,而人工智能(artificial intelligence, AI)可以解決病理診斷的痛點。AI是模擬人類智能的計算機系統(tǒng),機器學習(machine learning, ML)是AI的一個子領域,其通過開發(fā)算法,使計算機直接從數據中“學習”、解決問題。大多數ML算法可作為數學模型,將樣本的一組變量特征映射到結果標簽中。隨著計算能力的增長,深度學習(deep learning, DL)利用數百萬個類似神經元的單元來學習圖像像素值與其語義標簽之間的復雜關系。具有檢測器分層模式的卷積神經網絡(convolutional neural network, CNN)基于圖像的檢測和分割,以識別和量化細胞和組織學特征,在圖像識別問題上具有優(yōu)越性;遞歸神經網絡(recurrent neural network, RNN)使用自連接檢測器模式進行序列處理。目前ML已被廣泛用于由標注的組織病理數據集中建立的學習模型,因此可提供更準確的預后預測,識別潛在的藥物靶向指標。該文重點闡述ML和AI的算法在乳腺癌病理診斷、預后中的應用現狀、發(fā)展以及挑戰(zhàn)。
1.1 AI輔助乳腺癌病理定性診斷乳腺癌病理診斷過程中,首先要確定是否為浸潤性癌、確定腫瘤類型及TNM分期。Cruz-Roa等[1]利用CNN從乳腺癌WSI中獲取的patch建模,區(qū)分是否為浸潤性導管癌,用來自多中心的400張已標注的切片訓練模型,并在200張標注的切片上驗證其性能,F-1得分為75.86%。Spanhol等[2]使用BreaKHis數據集訓練分類器可區(qū)分出8種良性和惡性乳腺腫瘤,準確性可達93.2%。
1.2 AI輔助淋巴結轉移的診斷按照AJCC N分期標準,淋巴結分期不同預后不同,準確檢測早期乳腺癌患者的腋窩淋巴結情況,能更好地預測乳腺癌患者術后的無復發(fā)生存時間和總生存時間。在ML輔助淋巴結轉移的病理診斷上,目前已開發(fā)了多種DL算法,并在挑戰(zhàn)賽中驗證了其性能,在有限時間內模擬診斷場景,顯示出算法的效能明顯優(yōu)于參與的11位病理醫(yī)師[3]。具體是使用了2個中心270例淋巴結切片作為訓練集(其中110例陽性,160例陰性),驗證了129例淋巴結圖像(49例陽性,80例陰性),算法最佳曲線下面積(area under the curve,AUC)達到0.99,而病理醫(yī)師的最佳性能AUC為0.88。另外,ML輔助評估淋巴結轉移的效率也明顯高于病理醫(yī)師,有報道顯示ML輔助評估淋巴結微轉移及無轉移在時間上分別縮短了1.9倍和1.2倍[4-5]。
準確預測早期乳腺癌患者的腋窩淋巴結情況,建立淋巴結轉移風險預測模型,可有效減少術后并發(fā)癥,改善患者預后,輔助外科醫(yī)師準確制定腋窩淋巴結清掃方案。對此筆者收集了4 038例乳腺癌患者的活檢病理WSI圖片及臨床病理學指標。應用Tabular Learning模型,以是否存在淋巴結轉移作為監(jiān)督信號,聯合訓練2個模態(tài)的DL網絡,從而得到最終的模型預測。結果顯示將臨床病理指標提取的Tabular特征和病理圖片的整體信息相結合后,利用臨床病理指標的特征指導多示例模型在示例層面的注意力分配,提升了多示例學習在弱監(jiān)督信號下的學習效率和性能。目前已報道使用臨床指標的較好預測效果AUC為0.74[6],而筆者針對單模態(tài)的DL網絡帶來了性能的顯著增益,再結合病理圖片這一模態(tài)的信息,最終AUC可達到0.88(未發(fā)表數據)。
1.3 AI輔助組織學分級乳腺癌Nottingham組織學分級與患者的治療和預后均有顯著相關性,目前病理醫(yī)師主要基于視覺評估腫瘤組織的形態(tài)學特征,即根據小管形成的比例、核異型性和核分裂半定量計數,且病理醫(yī)師之間的判讀一致性較差。
核分裂計數是較有意義且費力的工作,核碎裂、凋亡細胞和不規(guī)則核的炎癥細胞常干擾病理醫(yī)師的判讀,而ML在自動判讀核分裂計數方面具有優(yōu)越性。2013年Veta等[7]設立的核分裂計數挑戰(zhàn)賽中,建立的數據集中包含12張訓練切片、11張測試切片,合計約1 000個標注的核分裂圖像。獲勝者使用了10層深度CNN,在與病理醫(yī)師判讀的一致性上總F-1值為0.61,個別病理醫(yī)師的總F-1分數>0.75,因而AI在核分裂計數方面也嶄露頭角。另外,病理醫(yī)師計數細胞核分裂費時費力也導致了病理醫(yī)師之間判讀的高度不一致。免疫組化PHH3染色對識別核分裂具有較高的敏感性。筆者團隊應用免疫組化PHH3染色識別出腫瘤細胞核分裂,褪染后行HE染色,保證AI可以識別同一個平面的瘤細胞,為CNN進行標注,經過幾個輪次的迭代訓練,AI可自動識別疑似的核分裂象,同時訓練網絡要過濾掉假陽性細胞(未發(fā)表數據)。有研究在近100張WSI中得到22 000多張標注的patch,但CNN并未能達到TUPAC16水平。病理醫(yī)師標注的差異性是一個重要原因[8]。但其后續(xù)工作表明,使用CNN輔助核分裂檢測可以提高病理醫(yī)師之間的一致性[9]。
小管形成和核異型性是乳腺癌組織學分級的另外兩個重要因素。目前尚無關于這兩個因素自動判讀算法的報道。已發(fā)表的研究多聚焦于分析其相關的組織結構,訓練CNN檢測計算有關核的數據[10]。
1.4 AI輔助免疫組化判讀生物標志物狀態(tài)是乳腺癌診斷的重要內容。通過評估免疫組化ER、PR、HER-2和Ki-67表達水平確定患者治療方案,但其在不同觀察者之間存在顯著差異,因此需要基于ML幫助病理醫(yī)師進行乳腺癌常規(guī)免疫組化的指標評估。
免疫組化染色強度的自動定量是早期ML在乳腺癌數字病理領域的應用。隨著AI的發(fā)展,有研究者使用自動細胞圖像系統(tǒng)來確定HER-2不同染色強度的乳腺癌細胞比例,發(fā)現與FISH和免疫組化主觀評估的結果相比,算法與FISH檢測HER-2狀態(tài)之間的一致性更高[11]。用核識別算法量化免疫組化的ER和PR表達,發(fā)現主觀判讀和算法量化之間的一致性為0.9[12]。有學者使用公開的數字圖像分析軟件分析了60例乳腺癌免疫組化HER-2 2+或3+的病例,結果顯示算法的預測與病理醫(yī)師按照共識評估結果完全一致[13]。直接從HE切片上預測乳腺癌的生物標志物狀態(tài),是最近AI在乳腺病理領域研究的熱點,可完全避免免疫組化染色對判讀的影響。有研究建立了基于組織學特征和DL的模型來預測ER狀態(tài),在571張HE組織芯片圖像上進行了訓練,并在288張圖像上進行測試,最終預測的準確度為84%[14]。Ki-67與乳腺癌的進展密切相關。國際乳腺癌Ki-67工作組最新發(fā)布的Ki-67評估,推薦采用標準化的視覺評估方法判讀Ki-67。并通過使用一系列平臺和軟件評價Ki-67自動評估的可行性,結果顯示同一品牌掃描儀的8個軟件平臺,平均自動評分ICC為0.89(95%CI=0.81~0.96),達到預期的研究標準,與病理醫(yī)師主觀評分相似,ICC=0.87(95%CI=0.81~0.93)[15]。
1.5 AI助力分子檢測乳腺癌分子亞型可以更好的指導患者個體化治療,也是腫瘤異質性的分子生物學基礎。但由于平臺差異、批次效應等,基因表達的分類尚未充分開展。因此,有研究建立了一種新的乳腺癌分子監(jiān)督分類模型DeepCC[16]。首先從公共數據庫獲得每個腫瘤樣本的基因數據集進行富集分析。每個患者的富集得分與基因變異相關的分子模式,稱為功能譜。然后以功能譜作為輸入,利用多層人工神經網絡功能,使用一致的分子分型系統(tǒng)PAM50,進一步評估DeepCC分類器對乳腺癌中跨平臺基因編譯的魯棒性。結果顯示,在5個獨立的乳腺癌數據集中,樣本在深度特征空間分配的亞型中分布更緊密;在2個關于結直腸癌和乳腺癌分類的案例研究中,與隨機森林、支持向量機、梯度提升機和多項Logistic回歸算法相比,DeepCC分類器和DeepCC單一樣本預測值總體上均具有更高的敏感性、特異性和準確性。此外,DeepCC學習到的深層特征捕獲了與不同分子亞型相關的生物學特征,從而使患者分子亞型內的分布和亞型間分離更加完善,因此大大減少了以前無法分類的樣本數。總之,DeepCC提供的癌癥分類框架,對丟失的數據具有魯棒性,并可用于單個樣本預測,更有利于促進癌癥分子亞型的臨床應用。
有研究使用機器監(jiān)督學習算法和特征選擇方法,建立能區(qū)分浸潤性導管癌早期和晚期的預測模型數據集。從癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)數據庫中選取610例不同分期的浸潤性導管癌RNA-seq基因表達譜進行預測模型訓練。去除近零方差特征和相關系數大于80%的特征。利用pythonsicikit學習庫,對線性建模、線性回歸和隨機森林等不同的特征進行訓練和評價,選擇最重要的基因特征進行豐富的分類器訓練,根據腫瘤不同分期的特異性基因表達譜對腫瘤進行有效分類。結果顯示采用十倍交叉驗證進行評估時,基于隨機森林的模型在訓練數據集上的auROC為0.93,取得了最佳性能。在所有的預測模型中,隨機森林達到了整體所有基因表達模型精確召回曲線下的最大面積;通過對選擇的基因特征進行差異表達分析,根據選定的特征可分離早期和晚期的類標簽,將數據集可視化到三維空間中,早期和晚期的樣本可以得到很好的分類[17]。
腫瘤組織的許多形態(tài)學特征具有預后價值,如細胞核形狀、結構及腫瘤浸潤淋巴細胞(tumor infiltrating lymphocytes, TILs)等定量特征均能夠獨立地預測乳腺腫瘤患者的復發(fā)風險。
一項研究使用CNN量化TCGA數據庫中TILs圖像的結構,可預測13種不同癌癥亞型的預后[18]。在三陰型乳腺癌建模后,根據淋巴細胞與癌細胞的空間接近程度,可鑒定出三種不同類別的淋巴細胞。腫瘤內淋巴細胞與癌細胞的比例是生存預后的獨立預測因子,且與TMA基因表達譜確定的細胞毒性T淋巴細胞蛋白4(cytotoxic T lymphocyte protein 4, CTLA-4)表達水平相關。進一步研究顯示,免疫細胞的空間分布與ER陽性乳腺癌的晚期復發(fā)有關[19]。也有研究使用經典的ML算法對乳腺癌活檢組織的特征進行分析,可預測新輔助治療反應,其中周圍組織中的淋巴細胞密度是最有效的預測因子[20]。
復發(fā)風險也是評估預后的一個重要方面。最近有學者開發(fā)了一種新型的ML處理架構,使用回顧性研究乳腺導管原位癌(ductal carcinoma in situ, DCIS)患者(n=344例)的WSI和長期臨床病理隨訪數據預測DCIS同側復發(fā)的風險[21]。首先,將分類器應用于WSI,通過處理架構對數字化WSI進行分析,標注腫瘤間質、正常/良性導管、腫瘤性導管、密集淋巴細胞和血管的區(qū)域。研究者對標注區(qū)域相關的結構和空間組織特征進行了復發(fā)風險分類器訓練,以預測復發(fā)風險,該復發(fā)分類器在獨立的驗證集中很好預測了10年的復發(fā)風險(85%)。與單純臨床病理變量預測相比,該分類器顯示出更高的準確性、特異性、陽性預測值、一致性和風險比。此外,驗證隊列還確定了可能從其他治療中受益的患者。
目前大多數研究主要是探討腫瘤上皮細胞特征影響預后的機制,有研究從乳腺癌患者樣本的WSI中提取上皮和間質區(qū)域的兩種形態(tài)、空間關系和總體圖像特征相關的特征。這些特征用于訓練預后模型,顯示與乳腺癌患者隊列的總體生存率密切相關。與上皮區(qū)域提取的特征(P=0.02)相比,間質區(qū)提取的特征預后價值更高(P<0.004),此結論在兩個中心得到進一步驗證[22]。
雖然關于AI及數字病理在病理行業(yè)的研究成果捷報頻傳,但數字病理的應用率仍較低,且面臨較多挑戰(zhàn)。AI在乳腺病理領域應用的阻礙因素可能有:(1)工作量較大,實現條件較高?,F階段,AI輔助病理診斷并未減少病理切片的存儲需要,且增加圖像儲存條件,甚至可能使工作流程更為復雜。此外,AI應用對于人員、設備的要求較高,需要資金支持,因此數字病理目前應用率尚不理想。(2)圖像質量控制標準化較困難。AI的應用很大程度上依賴于輸入數據的數量和質量,基于圖像的模型,圖像質量會對AI性能產生很大影響。而目前尚缺乏針對數字化切片一致的文件格式及集成的信息系統(tǒng)[23]。此外,用于訓練AI算法的數字化切片應背景干凈,無偽影且組織齊全,才可開發(fā)出具有良好預測性能的模型。除圖像的質量外,標注的質量更重要。AI用于生物結構分割方面,其性能取決于病理醫(yī)師對學習數據集標注的保真性[24]。如果標注有高度可變性,將導致對模型的監(jiān)控信號不一致,可能會導致模型失敗。此外,模型性能的評估常與參考標準不一致。參考標準的嚴格程度決定了評估結果的可信賴性。因此,需要由專業(yè)的病理醫(yī)師建立準確標注的參考數據集,使AI算法性能的評估標準化。(3)需要進行系統(tǒng)驗證和日常性能監(jiān)控?;谔囟ㄈ蝿臻_發(fā)的ML工具,最重要的是要考慮其實際工作場景。不同病例的AI評估結果可能會有差異,若缺乏正確的應用場景會降低醫(yī)師的信任度,阻礙AI在乳腺病理中的應用。因此需要進行系統(tǒng)驗證和日常性能監(jiān)控[25]。首先,驗證應選擇符合預期結果的病例。例如,所應用的病例在診斷前、后,需要選擇代表性的多中心數據對基于ML的模型進行充分驗證,確保方法的通用性和可操作性。此外,回顧性評估數據集可能會因為包含不可預料的偏移導致真實世界驗證失敗。前瞻性研究可以提高對ML模型的信任度,性能隨著時間推移而得到驗證,但由于需要與真實世界的臨床工作流程融會貫通,實施起來也更具挑戰(zhàn)性。另一方面,在實際應用中,ML模型可作為病理醫(yī)師診斷的輔助工具,需要通過多個病例,多項讀者研究對人機界面進行額外評估。在這方面,模型的可解釋性是重要方面。因為缺乏可解釋性會降低醫(yī)師的信任度[26]。若醫(yī)師無法理解算法的結果,則可能會忽略算法的結果,從而限制其實用性。顯示可信度水平或限定向醫(yī)師顯示的信息量可緩解此問題。也有研究探索了可解釋性,以了解在識別腫瘤時引發(fā)模型激活的輸入特征是什么。盡管如此,無論是在乳腺領域還是在整個AI行業(yè),提高可解釋性仍然是研究的重點領域[27]。
國內目前已有集合AI算法的AI顯微鏡獲批,但仍未得到大范圍應用。ML應用于數字病理研究中的標注多來自病理醫(yī)師的標準,模型的表現可能與專家水平更為接近,進而可推動普通病理醫(yī)師應用該模型。試想,若結合疾病特異性、總體生存率、對治療的反應及其他結果變量,完美建立不受人為因素約束的預后模型,且驗證顯示相比現有的風險分層系統(tǒng),可更好地預測患者的生存,則可能會得到廣泛應用。ML工具用于數字病理的優(yōu)勢還表現在對現有工作流程的改進。自動化工具可使病理醫(yī)師工作更加高效,特別是在處理一些繁重的工作時(如計數核分裂、Ki-67計數)。數字病理ML的成功也取決于其實現的細節(jié)。算法非軟件工具,若不以一種易于病理醫(yī)師理解的方式給出其預測,那么即使最好的模型也難以被接受?!皠?chuàng)新即有未來”,要使ML真正應用于乳腺癌病理診斷領域,引領并擔負AI在乳腺癌病理領域驗證是病理專家不容置疑的責任。
隨著WSI技術廣泛用于乳腺病理的初步診斷,也會使基于AI的工具逐漸被病理醫(yī)師所接受。一旦AI在乳腺病理學領域的應用增加,不僅有望能輔助乳腺病理醫(yī)師的工作,減輕其工作量并提高診斷準確性,而且還可提供更多基于顯微鏡下視野的形態(tài)特征信息預測乳腺癌患者預后。