井 杰, 王蓓蕾, 劉善榮
(海軍軍醫(yī)大學(xué)第一附屬醫(yī)院實驗診斷科,上海 200433)
人工智能(artificial intelligence,AI)是利用計算機(jī)程序模擬、延伸和擴(kuò)展人類智能應(yīng)用的先進(jìn)科學(xué)技術(shù)[1]。近年來,“醫(yī)療+AI”模式在影像智能判讀[2]、手術(shù)機(jī)器人[3]、新藥研發(fā)[4]等領(lǐng)域已有廣泛研究。然而,多數(shù)AI具有“黑箱”特點,其行為高度不透明[5],醫(yī)生無法了解機(jī)器的決策機(jī)制、發(fā)生錯誤的原因以及避免錯誤的方法,限制了其臨床應(yīng)用。近年來,有學(xué)者提出可解釋人工智能(explainable artificial intelligence,XAI)的概念,即將可解釋性作為額外的設(shè)計驅(qū)動因素來構(gòu)建AI系統(tǒng),用可理解的方式向用戶解釋或呈現(xiàn)其行為[6]。檢驗醫(yī)學(xué)是臨床輔助診療的重要組成[7],具有廣泛的臨床可解釋性,長期以來通過提供客觀數(shù)據(jù)來協(xié)助臨床決策。因此,通過XAI技術(shù)對檢驗數(shù)據(jù)進(jìn)行集成和分析,深度挖掘其內(nèi)在價值,開發(fā)可解釋的檢驗AI工具,必將顯著提高檢驗數(shù)據(jù)的臨床應(yīng)用價值,為智慧醫(yī)療的跨越式發(fā)展提供重要支撐。本文立足于檢驗醫(yī)學(xué)的研究現(xiàn)狀,結(jié)合XAI的基本概念、重要性及實現(xiàn)方法,重點探討基于檢驗知識圖譜的檢驗XAI的研究思路,展望其未來應(yīng)用前景,探討其面臨的挑戰(zhàn)和應(yīng)用局限性。
檢驗醫(yī)學(xué)是現(xiàn)代醫(yī)學(xué)的重要組成部分,臨床決策所需信息的70%來自檢驗[7]。實驗室檢查涵蓋臨床化學(xué)、血液學(xué)、免疫學(xué)、微生物學(xué)在內(nèi)的2 000多項指標(biāo),為臨床醫(yī)生提供大量客觀數(shù)據(jù)以輔助臨床決策[8]。在急診室,超過41%的疾病需要通過實驗室數(shù)據(jù)確診[9]。癌癥、內(nèi)分泌、感染性和遺傳性等疾病需要通過實驗室數(shù)據(jù)確診或協(xié)助確診[10]。檢驗數(shù)據(jù)也支持循證醫(yī)學(xué)實踐指南的發(fā)展,在1 230個針對23種疾病的臨床實踐指南中,有37%涉及實驗室檢查[11]。由此可見,檢驗醫(yī)學(xué)可以為臨床實踐提供大量顯性或隱性的專業(yè)知識。
眾所周知,實驗室儀器自動化的發(fā)展產(chǎn)生了大量的結(jié)構(gòu)化或半結(jié)構(gòu)化的檢驗數(shù)據(jù)[12-13]。近年來,檢驗醫(yī)學(xué)在方法和結(jié)果的標(biāo)準(zhǔn)化、歸一化方面取得了重大進(jìn)展[10,14],國際臨床實驗室結(jié)果協(xié)調(diào)聯(lián)盟組織統(tǒng)一和標(biāo)準(zhǔn)化臨床實驗室檢測過程和參考區(qū)間,實現(xiàn)了臨床實驗室檢測結(jié)果和實驗過程優(yōu)化的一致性,極大改善了臨床實驗室的標(biāo)準(zhǔn)化。由此可見,檢驗醫(yī)學(xué)可以為臨床實踐提供海量高質(zhì)量、標(biāo)準(zhǔn)化、歸一化的檢驗數(shù)據(jù)。
然而,目前臨床醫(yī)生對檢驗數(shù)據(jù)的解讀能力仍然存在不足。首先,檢驗項目越來越多,其臨床意義持續(xù)更新,不同疾病、不同病程對應(yīng)的檢驗結(jié)果更是復(fù)雜多變,很多醫(yī)生無法及時更新相關(guān)知識;其次,臨床??苹l(fā)展趨勢不可避免,多數(shù)醫(yī)生只熟悉自己專科常用的檢驗項目,對其他??频臋z驗項目并不熟悉,很容易忽視超出其??浦R范圍的關(guān)鍵結(jié)果和重要參數(shù);第三,疾病影響著機(jī)體的整體狀態(tài),當(dāng)眾多檢驗指標(biāo)發(fā)生異常時,綜合分析檢驗數(shù)據(jù)的相互關(guān)聯(lián)難度極大,即使是經(jīng)驗豐富的醫(yī)生也很容易忽視其內(nèi)在關(guān)系[15],從而造成疾病的漏診或誤診。因此,通過XAI技術(shù)對檢驗數(shù)據(jù)進(jìn)行集成和分析,深度挖掘檢驗數(shù)據(jù)中的隱藏價值,開發(fā)基于實驗室數(shù)據(jù)的檢驗XAI工具,為提高實驗室診斷價值展示了巨大的應(yīng)用前景。基于此,檢驗醫(yī)學(xué)與XAI的融合勢在必行。
XAI是指基于一些AI原則所創(chuàng)建的有效和能被用戶所理解的AI系統(tǒng),其主要目的是通過提供可解釋的細(xì)節(jié)或理由讓用戶更容易理解模型運行的復(fù)雜行為[16]。不同研究者開發(fā)了多種檢驗AI系統(tǒng)[17-18],但由于缺乏可解釋性,尚無檢驗AI產(chǎn)品被應(yīng)用于臨床。由此可見,加強(qiáng)檢驗XAI的研究具有重大意義。一方面,當(dāng)使用可解釋模型時,用戶可以通過提取數(shù)據(jù)之間的因果關(guān)系獲得臨床檢驗相關(guān)知識,從而增強(qiáng)對模型的理解和信任;另一方面,XAI所提供的解釋可以幫助AI研發(fā)人員更好地理解模型存在的數(shù)據(jù)偏差,及可能失敗的原因,解決模型的內(nèi)部缺陷,提高系統(tǒng)的性能和安全性。
近年來,AI專家從模型內(nèi)外2個角度對XAI模型的可解釋問題提出了兩大解決方案,包括“模型自身可解釋”和“模型以外可解釋”。前者是通過直接設(shè)計具有內(nèi)在可解釋性的算法實現(xiàn)模型的可解釋功能[15],包括線性回歸、邏輯回歸在內(nèi)的廣義線性模型,以及梯度增強(qiáng)機(jī)、隨機(jī)森林、極端梯度提升在內(nèi)的樹集成模型;后者將模型預(yù)測與解釋分開,主要包括可視化解釋、影響方法、基于實例的解釋、基于知識的解釋4種技術(shù)類型。
2.2.1 可視化解釋 可視化解釋是探尋深度神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型內(nèi)部工作機(jī)制最直接的途徑,其技術(shù)方法主要包括:代理模型、部分依賴圖(partial dependence plot,PDP)和個體條件期望(individual conditional expectation,ICE)。代理模型即用來解釋復(fù)雜模型的簡單模型,雖然計算量小,但其計算結(jié)果和高精度模型的計算分析結(jié)果相近[19]。PDP是一種圖形表示,有助于可視化特定特征對機(jī)器學(xué)習(xí)(machine learning,ML)模型預(yù)測結(jié)果的平均邊際影響[20]。ICE是一種與PDP類似的圖形表示,能深入到單個樣本,分析某一特征變化對單個樣本的影響,并給出每個樣本的預(yù)測值[21]。
2.2.2 影響方法 影響方法通過更改模型輸入或內(nèi)部參數(shù)來評估特征的重要性或相關(guān)性,并記錄特征更改對模型性能的影響程度,以解釋模型決策。影響方法主要有敏感性分析、層級相關(guān)性傳播和特征重要性3種。敏感性分析通過使每個特征在可能的范圍內(nèi)變動來預(yù)測這些特征的變化對模型輸出值的影響程度[22]。層級相關(guān)性傳播[23-24]將模型決策的重要性信號從模型的輸出層神經(jīng)元逐層傳播到模型的輸入層,使模型的決策結(jié)果可在特征上找到解釋,得到每個特征參與分類決策的貢獻(xiàn)大小。特征重要性則是通過改變特征值,計算模型預(yù)測誤差的變化,從而量化每個輸入變量對模型預(yù)測結(jié)果的貢獻(xiàn)[25]。
2.2.3 基于實例的解釋 基于實例的解釋技術(shù)通過選擇數(shù)據(jù)集的特定實例來解釋AI模型的行為,包括原型和批評解釋,以及反事實解釋。原型是指從數(shù)據(jù)集中選擇的具有代表性的實例,數(shù)據(jù)集中的實例關(guān)系是由與原型的相似性決定的[26]。為了避免過度泛化,數(shù)據(jù)集也需要展示批評點,即不能被一組原型有效代表的實例。模型可預(yù)測原型和批評的結(jié)果,以解釋模型決策,并發(fā)現(xiàn)模型算法的弱點。反事實解釋描述了一種因果關(guān)系,即“如果沒有輸入特征X,則預(yù)測結(jié)果Y不會發(fā)生”,通過對原始實例的輸入特征進(jìn)行最小條件的更改,以獲得不同預(yù)定輸出結(jié)果的新實例,從而解釋模型的決策行為[27]。
2.2.4 知識提取的解釋 基于知識的解釋主要包括提取內(nèi)部知識和引入外部知識的解釋方法。前者指提取原數(shù)據(jù)集中已有的知識建立解釋模型;后者指利用外部輸入的知識,如常識、概念、語料庫等固有概念,建立解釋模型。目前,基于知識提取的方法主要包括知識蒸餾和知識圖譜。知識蒸餾是一種降低模型復(fù)雜度的模型壓縮方法,可將信息從深層網(wǎng)絡(luò)傳遞到淺層網(wǎng)絡(luò)[28]。知識圖譜是由多個三元組組成的語義網(wǎng)絡(luò),主要用于描述現(xiàn)實世界中的實體、概念及事件間的客觀關(guān)系。知識圖譜可以將數(shù)據(jù)集或者知識庫中的任一元素看作是一個實體,通過描述相鄰實體之間的不同關(guān)系,以及實體與實體之間存在的路徑,共同構(gòu)成以實體、關(guān)系和路徑為支撐的知識網(wǎng)絡(luò)。
目前,與其他可解釋方法相比,知識圖譜具有的海量規(guī)模、語義豐富、結(jié)構(gòu)友好、質(zhì)量精良的知識是其關(guān)鍵優(yōu)點,為機(jī)器理解語言提供了重要的背景知識。由于目前XAI的可解釋方法大都面向各領(lǐng)域?qū)<遥瑢I(yè)術(shù)語難以被普通用戶理解,因此基于容易理解的檢驗知識圖譜的XAI技術(shù)來構(gòu)建檢驗XAI,具有更廣闊的應(yīng)用前景。
檢驗知識圖譜的構(gòu)建主要包括概念層設(shè)計、實例層學(xué)習(xí)和知識圖譜應(yīng)用3個方面[29]。首先,將醫(yī)學(xué)檢驗相關(guān)文獻(xiàn)和實驗室信息系統(tǒng)(laboratory information system,LIS)中存儲的有效數(shù)據(jù)作為知識庫,并對知識庫進(jìn)行概念層設(shè)計。檢驗知識圖譜的概念層設(shè)計包含4級實體概念,第1級是醫(yī)學(xué)檢驗實體,第2級是患者基本信息實體、檢驗實體和診斷實體,第3級是檢驗項目實體,第4級是具體的檢驗指標(biāo)實體。同時,定義不同實體之間的相互關(guān)系,即實驗室檢查中不同實體之間所發(fā)生的醫(yī)療事實聯(lián)系,如檢驗指標(biāo)實體和檢驗項目實體共同構(gòu)成檢驗實體。然后,根據(jù)規(guī)定的知識提取規(guī)則,從大量的醫(yī)學(xué)檢驗相關(guān)文獻(xiàn)和LIS存儲的數(shù)據(jù)中提取與概念層相匹配的醫(yī)學(xué)檢驗事實,構(gòu)造出實例層。最后,將醫(yī)學(xué)檢驗實體、醫(yī)學(xué)檢驗實體關(guān)系和醫(yī)學(xué)檢驗事實以三元組的形式存儲,得到醫(yī)學(xué)檢驗知識圖譜。知識圖譜的應(yīng)用是根據(jù)輸入的實體,通過圖數(shù)據(jù)庫的搜索機(jī)制,實現(xiàn)對知識圖譜三元組中任一要素及相關(guān)信息的搜索。
迄今為止,AI共經(jīng)歷了2代發(fā)展[30-31]。第1代AI是基于知識驅(qū)動AI模型,其推理過程是完全基于人類專家定義的規(guī)則;第2代AI是以深度學(xué)習(xí)算法為代表的數(shù)據(jù)驅(qū)動AI模型,該模型利用統(tǒng)計方法將模型的輸入數(shù)據(jù)轉(zhuǎn)換為輸出結(jié)果。因此,近幾年相關(guān)學(xué)者提出了全新的“第3代AI”的概念[30]。大體說來,是通過結(jié)合知識驅(qū)動和數(shù)據(jù)驅(qū)動方法,構(gòu)建一個更強(qiáng)大、兼具可解釋性和魯棒性的AI系統(tǒng),推動AI的創(chuàng)新應(yīng)用?;诖?,基于知識圖譜的檢驗XAI的研究思路為:(1)單純知識驅(qū)動檢驗XAI。檢驗金標(biāo)準(zhǔn)即可診斷。如根據(jù)乙型肝炎血清學(xué)標(biāo)志物檢測結(jié)果診斷乙型肝炎。疾病預(yù)測是完全基于已有檢驗知識的推理,其顯著優(yōu)勢是輸出結(jié)果具有可解釋性和容易理解,缺陷是只限于確定性推理方法來解決特定問題。(2)“知識+數(shù)據(jù)”雙驅(qū)動的檢驗XAI。疾病的預(yù)測既有知識的推理也有模型算法的統(tǒng)計分析,其工作流程見圖1。首先,檢驗XAI自動提取患者所有實驗室檢測數(shù)據(jù),輸入檢驗知識圖譜,構(gòu)建異常指標(biāo)與疾病的關(guān)系網(wǎng);如圖1中“某患者”有35項指標(biāo)異常,經(jīng)檢驗知識圖譜過濾,發(fā)現(xiàn)與包括胰腺癌、感染及阻塞性黃疸等在內(nèi)的157種疾病有關(guān),然后自動調(diào)取所對應(yīng)的單病種ML算法模型,自動計算患病風(fēng)險概率值[32]。值得注意的是,上述單病種ML算法模型,即基于大量歷史患者檢驗數(shù)據(jù)所構(gòu)建而成的數(shù)據(jù)驅(qū)動模型,優(yōu)點是具有大數(shù)據(jù)處理優(yōu)勢,可自動搜索和處理大量變量,從而可靠地對結(jié)果進(jìn)行分類和預(yù)測[32],但輸出結(jié)果缺乏可解釋性是其面臨的主要問題。然后,檢驗XAI按照患病概率、嚴(yán)重程度對預(yù)測疾病進(jìn)行排序;如檢驗XAI對圖1中“某患者”預(yù)測的胰腺癌、感染及阻塞性黃疸等疾病,按照患病概率進(jìn)行降序排序。同時,檢驗XAI以一種可視化方式展示模型算法的“可解釋性”,即不同異常檢測指標(biāo)在所預(yù)測疾病中的權(quán)重分析。此外,檢驗XAI還可依據(jù)檢驗知識圖譜提供異常指標(biāo)的臨床意義。最后,檢驗XAI以高風(fēng)險疾?。ㄈ缫认侔⒅酗L(fēng)險疾?。ㄈ绺腥荆┘暗惋L(fēng)險疾病(如阻塞性黃疸)的方式輸出相應(yīng)的實驗室診斷。
圖1 檢驗XAI的工作流程圖
檢驗知識圖譜和ML算法在“知識+數(shù)據(jù)”雙驅(qū)動檢驗XAI疾病預(yù)測過程中的作用是相輔相成的。一方面,檢驗知識圖譜的作用在于檢驗醫(yī)學(xué)常識的推理,不僅為檢驗XAI初步確定了ML的疾病診斷范圍,還提供了疾病診斷過程所需的臨床證據(jù);另一方面,ML使檢驗XAI具有更好的疾病預(yù)測能力,可發(fā)現(xiàn)疾病新的風(fēng)險因 素,并驅(qū)動檢驗知識圖譜的更新迭代。
目前,臨床上大多數(shù)輔助檢查(包括影像和病理)都是以診斷報告的形式提供給臨床醫(yī)生。長期以來,檢驗醫(yī)學(xué)僅有檢驗數(shù)據(jù),卻不能為臨床提供客觀的診斷報告,主要是由于個體化檢驗數(shù)據(jù)變化大,每位患者不同疾病、不同病程、不同治療情況的檢驗數(shù)據(jù)復(fù)雜多變;不同異常檢驗指標(biāo)對應(yīng)的臨床意義不同,聯(lián)合意義更多、更廣,難以分析。因此,通過檢驗XAI對檢驗大數(shù)據(jù)進(jìn)行集成和分析,挖掘檢驗數(shù)據(jù)隱藏的診斷價值,成為輔助臨床醫(yī)生解讀復(fù)雜檢驗數(shù)據(jù)的突破口[33-34]。檢驗XAI的主要功能是根據(jù)異常檢驗數(shù)據(jù)及時生成基于算法的疾病診斷預(yù)測或推薦。智能化的檢驗報告?zhèn)戎赜跈z驗AI預(yù)測結(jié)果的可解釋性。未來,檢驗XAI可為臨床醫(yī)生提供與輔助診療相關(guān)的智能化檢驗報告,包括疾病預(yù)測、異常檢驗指標(biāo)分析、異常指標(biāo)與預(yù)測疾病的對應(yīng)關(guān)系分析等[35]。除此之外,智能化的檢驗報告可提示臨床醫(yī)生該患者需進(jìn)一步完善的檢驗項目,及患者檢驗指標(biāo)變化趨勢等。
檢驗XAI在疾病診療領(lǐng)域具有廣闊的應(yīng)用前景,但其產(chǎn)品研發(fā)仍面臨挑戰(zhàn),臨床應(yīng)用存在一定局限性。首先,數(shù)據(jù)質(zhì)量問題是檢驗XAI研發(fā)面臨的主要挑戰(zhàn)。一方面,醫(yī)院內(nèi)不同醫(yī)療數(shù)據(jù)庫之間缺少有效的協(xié)同機(jī)制,數(shù)據(jù)采集和存儲標(biāo)準(zhǔn)不一,結(jié)構(gòu)化程度低,質(zhì)量不統(tǒng)一,影響了檢驗大數(shù)據(jù)的應(yīng)用;另一方面,不同醫(yī)院之間缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,不同企業(yè)承建的醫(yī)院信息系統(tǒng),受限于企業(yè)之間的技術(shù)壁壘,數(shù)據(jù)共享和互通程度較低,存在“數(shù)據(jù)孤島”現(xiàn)象[36]。使得檢驗XAI研發(fā)所用的數(shù)據(jù)只能來自有限的公開數(shù)據(jù)集或自備數(shù)據(jù)庫,存在著數(shù)據(jù)量過小、質(zhì)量欠佳以及標(biāo)注不規(guī)范等問題,勢必影響其疾病預(yù)測的準(zhǔn)確性和應(yīng)用的普適性。此外,僅依靠檢驗科,無法獨立完成檢驗XAI的建立,需要病理、影像、手術(shù)及用藥等相關(guān)數(shù)據(jù)的佐證和支撐,因此臨床科室的參與度是很重要的因素[37]。在臨床實際運用過程中,檢驗XAI僅依據(jù)檢驗數(shù)據(jù)提供相應(yīng)的診斷結(jié)果相對片面,臨床醫(yī)生可基于檢驗XAI的疾病推薦,也可綜合患者的病史、影像和病理等結(jié)果,以及自身臨床經(jīng)驗進(jìn)行綜合判斷,最終給出相應(yīng)診斷和臨床決策指導(dǎo)(如預(yù)約其他輔助檢查、手術(shù)、隨訪等)。
檢驗醫(yī)學(xué)是臨床輔助診療的重要支撐。隨著AI與醫(yī)學(xué)領(lǐng)域的深度融合,檢驗醫(yī)學(xué)與AI的結(jié)合作為一種新的醫(yī)療模式正在快速發(fā)展。為了避免AI模型的“黑箱”預(yù)測,基于知識圖譜的檢驗XAI通過對檢驗大數(shù)據(jù)的集成和分析,可為臨床醫(yī)生提供及時、準(zhǔn)確的輔診信息,改變傳統(tǒng)檢驗醫(yī)學(xué)的運用模式,從而推動檢驗醫(yī)學(xué)由被動性醫(yī)學(xué)向主動性醫(yī)學(xué)轉(zhuǎn)化。