周燕燕,鄧 楊,包 驥,步 宏,2
四川大學(xué)華西醫(yī)院 1臨床病理研究所 2病理科,成都 610041
人工智能(artificial intelligence,AI)被認(rèn)為是推動科學(xué)發(fā)展的重要驅(qū)動力,正在融入社會生活的各個方面[1-2]。在與現(xiàn)實結(jié)合應(yīng)用過程中,由于存在數(shù)據(jù)隱私泄露、不可解釋、決策失誤以及責(zé)任無法界定等情況,AI面臨不被信任的危機(jī),阻礙了其在實踐中的進(jìn)一步發(fā)展。為促進(jìn)AI的實踐應(yīng)用,華東師范大學(xué)軟件學(xué)院院長何積豐院士于2017年 11月首次提出了可信人工智能(trusted artificial intelligence,TAI)的概念。2020年,歐盟發(fā)布了《人工智能白皮書》,提出AI“可信生態(tài)系統(tǒng)”,旨在落實AI應(yīng)用的管理框架,促進(jìn)AI的使用[3]。中國信息通信研究院聯(lián)合京東探索研究院于2021年7月發(fā)布了國內(nèi)首本《可信人工智能白皮書》,提出TAI是從技術(shù)和工程實踐的角度,落實倫理治理,實現(xiàn)創(chuàng)新發(fā)展和風(fēng)險治理的有效平衡,其具備如下五要素:數(shù)據(jù)保護(hù)、透明可釋、多元包容、可控可靠和明確責(zé)任[4]。
隨著AI的發(fā)展以及全視野數(shù)字圖像(whole slide image,WSI)的出現(xiàn),使用計算機(jī)輔助病理診斷逐漸成為現(xiàn)實。病理AI經(jīng)過近幾年的發(fā)展,已能夠有效識別病理切片上的組織生物學(xué)特征,在腫瘤區(qū)域識別、組織學(xué)分級、預(yù)測分子分型等任務(wù)中均取得了一定成效[5]。但病理AI廣泛應(yīng)用于臨床診斷尚未實現(xiàn),TAI的提出為解決數(shù)據(jù)安全共享、AI可解釋性以及多模態(tài)信息融合問題提供了可行技術(shù)方案,將進(jìn)一步促進(jìn)AI在臨床醫(yī)療及病理中的推廣應(yīng)用。
目前,AI已展示出在圖像識別和大數(shù)據(jù)處理方面的優(yōu)勢,但AI技術(shù)尤其是深度學(xué)習(xí)技術(shù)對數(shù)據(jù)具有很強(qiáng)的依賴性,需要大量數(shù)據(jù)用于模型訓(xùn)練以得到高性能的系統(tǒng)。單一醫(yī)療機(jī)構(gòu)的病理數(shù)據(jù)常常無法達(dá)到訓(xùn)練模型的數(shù)據(jù)要求,成立中心數(shù)據(jù)庫、擴(kuò)大數(shù)據(jù)量用于模型訓(xùn)練是理想的解決方案[6]。然而,由于隱私數(shù)據(jù)保護(hù)法規(guī)的頒布(如歐盟《通用數(shù)據(jù)保護(hù)條例》[7]及中國香港《人類數(shù)據(jù)隱私條例》[8]等)以及人們數(shù)據(jù)保護(hù)意識的提高,隱私保護(hù)逐漸受到重視,將不同機(jī)構(gòu)間數(shù)據(jù)集合并成立數(shù)據(jù)中心的難度較大,“數(shù)據(jù)孤島”現(xiàn)象不斷浮現(xiàn),導(dǎo)致AI在病理領(lǐng)域的應(yīng)用受阻[9-10]。
為了在保護(hù)數(shù)據(jù)隱私安全的條件下解決“數(shù)據(jù)孤島”問題,技術(shù)人員建議引入聯(lián)邦學(xué)習(xí)(federated learning,F(xiàn)L)技術(shù)。FL是一種多分布式聯(lián)合學(xué)習(xí)技術(shù),在數(shù)據(jù)有限共享的前提下,通過中心數(shù)據(jù)庫傳遞系統(tǒng)參數(shù),在多個數(shù)據(jù)庫間開展學(xué)習(xí),力求獲得高精度的系統(tǒng)[11]。FL并非全新的算法,其已廣泛應(yīng)用于放射學(xué)圖像分析領(lǐng)域,解決影像數(shù)據(jù)分散的問題,并取得了不俗成效[12]。FL在病理領(lǐng)域起步較放射領(lǐng)域晚,但也在逐步開展應(yīng)用,Lu等[13]使用FL算法成功訓(xùn)練了一套基于WSI預(yù)測生存周期的系統(tǒng),與單一數(shù)據(jù)集訓(xùn)練系統(tǒng)相比,該系統(tǒng)具有更高的性能。
然而在實際應(yīng)用中,由于各數(shù)據(jù)中心病理切片的試劑和制作工藝不同、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致切片質(zhì)量存在較大差異,直接使用此類數(shù)據(jù)進(jìn)行FL訓(xùn)練將會影響整個系統(tǒng)的性能,因此需采用標(biāo)準(zhǔn)化數(shù)據(jù)集進(jìn)行訓(xùn)練。為獲得標(biāo)準(zhǔn)化數(shù)據(jù),在病理制片方面,建議通過醫(yī)聯(lián)體及醫(yī)共體制訂標(biāo)準(zhǔn)制片流程,以減小切片受試劑和染色步驟的影響;同時以機(jī)器自動化染色代替手工操作,從而減少手工染色誤差。在計算機(jī)技術(shù)方面,可對數(shù)據(jù)集進(jìn)行預(yù)處理,使數(shù)據(jù)在FL訓(xùn)練前達(dá)到較高的均一化,以進(jìn)一步提高數(shù)據(jù)標(biāo)準(zhǔn)化率??傊?,F(xiàn)L在病理AI領(lǐng)域的應(yīng)用仍有較大空間,未來將對病理AI的發(fā)展提供極大幫助。
機(jī)器學(xué)習(xí)是常用的AI技術(shù)之一,但由于機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)算法內(nèi)部架構(gòu)過于復(fù)雜,技術(shù)人員難以檢測到模型內(nèi)部的偏差,且系統(tǒng)決策難以追溯到輸入特征,醫(yī)生與AI缺乏有效交互,導(dǎo)致醫(yī)生對AI并不信任,影響了其在醫(yī)療領(lǐng)域的應(yīng)用,因此需增強(qiáng)AI模型的可解釋性。深度學(xué)習(xí)解釋的方法種類很多,可簡單分為系統(tǒng)自帶解釋屬性的事前解釋和在系統(tǒng)決策后加入事后解釋模型的事后解釋2種方式[14]。
目前病理領(lǐng)域大多采用標(biāo)注的數(shù)據(jù)直接訓(xùn)練算法模型,得到數(shù)字病理系統(tǒng),然后置入可解釋模型,解釋決策的原因,屬于事后解釋。事后解釋能夠可視化輸入數(shù)據(jù)特征與決策之間的關(guān)系,常用于標(biāo)記AI決策依據(jù)的特征,幫助人類理解AI系統(tǒng)。通用的解釋模型有反卷積網(wǎng)絡(luò)(deconvolution)、積分梯度(integrated gradients)、梯度加權(quán)類激活映射(gradient-weighted class activation mapping,Grad-CAM)以及模型無關(guān)的局部可解析性算法(local interpretable model agnostic explanation,LIME)等,已在研究中廣泛應(yīng)用[15]。例如,Yu等[16]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)訓(xùn)練系統(tǒng)識別肺鱗癌和腺癌,并使用Grad-CAM模型解釋決策,根據(jù)顯示區(qū)域重要性的熱力圖來看,AI的決策特征來源于正確的鱗癌和腺癌組織區(qū)域。Sousa等[17]使用LIME解釋CNN模型如何從淋巴結(jié)圖像中判斷腫瘤細(xì)胞,發(fā)現(xiàn)CNN判斷依據(jù)的圖像特征與專家診斷依據(jù)的圖像特征基本一致。
但事后解釋模型多基于輸入及輸出關(guān)系得出類似解析,雖可對AI系統(tǒng)的解釋提供參考,但解釋結(jié)果未必真實[18-19],因此還需從技術(shù)上對模型進(jìn)行完善。Li等[20]設(shè)計了一種基于Shapley Value的特征重要性估算解釋模型,在腦CT圖像中用于確定自閉癥分類模型中不同腦區(qū)的重要性。由于對于解釋結(jié)果存疑,該團(tuán)隊繼而基于DeepSHAP設(shè)計了一種Dist DeepSHAP解釋方法,在生成重要性圖像的同時生成對應(yīng)的不確定圖像,通過重要性圖像確定模型決策的特征,再通過不確定圖像排除不確定性高的區(qū)域,從而獲得模型決策與圖像特征的關(guān)聯(lián)性[21]。
由于病理醫(yī)生關(guān)注圖像特征與決策之間的關(guān)系,根據(jù)圖像特征構(gòu)建具有可解釋能力的系統(tǒng)亦是可靠的辦法。研究者根據(jù)病理AI實際情況提出,可通過改善傳統(tǒng)訓(xùn)練模式、開發(fā)AI與病理結(jié)合的新模式以及使用新的算法達(dá)到提升可解釋性的目標(biāo)。Sarder[22]在模型數(shù)據(jù)標(biāo)注和訓(xùn)練中,從分割特征完整的信息單元提取定量特征以區(qū)分信息單元,再對整體進(jìn)行信息聚合,得到了便于解釋的模型。Hegde等[23]開發(fā)了一種基于深度學(xué)習(xí)的組織病理學(xué)圖像反向圖像搜索工具SMILY,對于輸入的圖像,模型輸出相似的圖像及信息,從而回答了何種圖像特征決定模型決策的問題。
圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)是一種用于處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其特點是可以捕獲實例之間的相互依賴關(guān)系并進(jìn)行分析,故模型本身具有可解釋性。對于醫(yī)學(xué)圖像而言,可將圖像拆分成特征進(jìn)行結(jié)構(gòu)學(xué)習(xí),通過面關(guān)聯(lián)特征之間的關(guān)系,對模型作出解釋。因其學(xué)習(xí)和建模過程類似于病理醫(yī)生學(xué)習(xí)病理圖像診斷的過程,是一種有潛力的可解釋性算法,GNN的預(yù)測過程如圖1所示。GNN能關(guān)聯(lián)決策與圖像特征之間的關(guān)系,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,具有更高的可解釋性[24-25]。GNN在病理領(lǐng)域的應(yīng)用目前仍較少,本研究團(tuán)隊正在開展GNN方面的研究,提出以甲狀腺細(xì)胞病理為基礎(chǔ),采用GNN技術(shù)進(jìn)行特征提取。利用GNN能夠可視化地提取局部節(jié)點和節(jié)點間的空間關(guān)系特征,解決當(dāng)前CNN缺乏空間關(guān)系以及可解釋性的問題。
圖1 圖神經(jīng)網(wǎng)絡(luò)預(yù)測過程
病理診斷需基于臨床資料、診斷意見等文本數(shù)據(jù),病理、影像、超聲等圖像數(shù)據(jù),分子檢測等組學(xué)數(shù)據(jù)多種信息,而目前AI的預(yù)測往往僅基于病理圖像,AI模型對多模態(tài)數(shù)據(jù)利用不足,導(dǎo)致其預(yù)測效能難以進(jìn)一步提升。結(jié)合多種整合信息設(shè)計的AI模型,單一特征失誤對決策的影響更小,決策結(jié)果更加可靠,有利于AI在病理中的應(yīng)用。
如何整合來自不同維度的信息呢?知識圖譜(knowledge graph,KG)的提出成為解決這一難題的突破口。KG本質(zhì)上是一種語義網(wǎng)絡(luò),由節(jié)點(實體)和邊(實體之間的關(guān)系)組成,在KG中,可以很好地處理各種維度的信息如圖像、文本、診斷數(shù)據(jù)、描述信息等,并作出決策。若在病理AI中引入KG,能有效整合病理診斷中不同來源的數(shù)據(jù),結(jié)合多種信息作出決策,提升病理AI的效能[26]。近年來,研究者利用已有的臨床知識(如醫(yī)學(xué)教材、診療指南等)進(jìn)行結(jié)構(gòu)化表示構(gòu)建KG系統(tǒng),開發(fā)醫(yī)療語義搜索引擎、醫(yī)療問答系統(tǒng)、醫(yī)療決策支持系統(tǒng)等,從而在臨床環(huán)節(jié)有效進(jìn)行輔助決策,例如國內(nèi)百度的“靈醫(yī)”、阿里巴巴的“Doctor You”、騰訊的“覓影”、國外的“沃森醫(yī)生”等。在病理學(xué)領(lǐng)域,KG系統(tǒng)也正在構(gòu)建中,如對早期乳腺癌進(jìn)行預(yù)后評估的“Adjuvant Online”系統(tǒng)等[27]。但目前此類系統(tǒng)主要基于文本信息構(gòu)建,還需克服圖像數(shù)據(jù)處理等困難,相信隨著病理AI與KG的共同發(fā)展,多模態(tài)信息融合病理AI的輔助病理診斷將很快能夠?qū)崿F(xiàn)。
隨著病理切片全數(shù)字化的實現(xiàn)、更多機(jī)器學(xué)習(xí)方法的出現(xiàn)以及計算機(jī)算力的提升,使用計算機(jī)輔助病理診斷將逐漸成為現(xiàn)實。但目前病理AI仍處于研究階段,廣泛應(yīng)用于臨床診斷尚未實現(xiàn),未來可通過TAI等新技術(shù)手段提升病理AI的系統(tǒng)性能,促進(jìn)其臨床應(yīng)用?,F(xiàn)階段,建議通過制訂病理制片標(biāo)準(zhǔn)和規(guī)范以提高切片質(zhì)量,并通過FL技術(shù)解決“數(shù)據(jù)孤島”問題;使用各種解釋方法以及GNN提升AI模型的可解釋性;使用KG研發(fā)功能全面的AI系統(tǒng),從技術(shù)上達(dá)到TAI,配合診斷過程的可視化與交互性,使病理診斷結(jié)果更加可靠可控;使用KG以及機(jī)器學(xué)習(xí)模型搭建知識庫,助力缺乏經(jīng)驗的病理醫(yī)生快速成長。此外,在AI實踐應(yīng)用的過程中,仍需完善相關(guān)規(guī)范,從國家層面推進(jìn)AI在病理中的應(yīng)用。相信在不久的未來,TAI將極大促進(jìn)AI在病理領(lǐng)域的落地實踐和技術(shù)推廣。
作者貢獻(xiàn):周燕燕負(fù)責(zé)查閱文獻(xiàn)、撰寫論文;鄧楊負(fù)責(zé)整理文獻(xiàn)和論文修訂;包驥、步宏負(fù)責(zé)論文構(gòu)思及終稿審校。
利益沖突:所有作者均聲明不存在利益沖突