鄭少宇,滕 飛△,馬 征,陳澤君,馬 虹,吳 潔
(1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都 611700;2.四川省成都市第六人民醫(yī)院 610000)
截至2018年11月,全國(guó)醫(yī)療衛(wèi)生機(jī)構(gòu)全年總診療人次達(dá)75.4億人次,較2017年同比提高3.2%[1]。在就醫(yī)人數(shù)逐年增加的背后,是我國(guó)醫(yī)療衛(wèi)生體制改革的不斷深化和醫(yī)療行業(yè)體量的高速擴(kuò)張。在這樣的環(huán)境下,傳統(tǒng)的醫(yī)學(xué)知識(shí)存儲(chǔ)模式和應(yīng)用方法都受到了極大的挑戰(zhàn)。
在存儲(chǔ)模式方面,近年來(lái)興起的知識(shí)圖譜憑借其易拓展、易解釋、易應(yīng)用等諸多優(yōu)勢(shì),在醫(yī)學(xué)知識(shí)存儲(chǔ)領(lǐng)域得到廣泛應(yīng)用。在中文醫(yī)學(xué)知識(shí)圖譜方面,近期較突出的研究成果有CMeKG[2]、中醫(yī)藥知識(shí)圖譜[3-4]等。這些知識(shí)圖譜結(jié)構(gòu)化地表示了常見(jiàn)疾病與其癥狀、治療方案等之間的關(guān)系,對(duì)于臨床工作有著重要意義。
隨著醫(yī)學(xué)知識(shí)存儲(chǔ)模式一同改變的還有醫(yī)學(xué)知識(shí)的應(yīng)用方式。其中,臨床決策支持作為最早提出的數(shù)字化醫(yī)學(xué)知識(shí)應(yīng)用方式之一,已從最初只能支持單病種診療輔助的專(zhuān)家系統(tǒng),發(fā)展出了醫(yī)學(xué)知識(shí)問(wèn)答、臨床環(huán)節(jié)質(zhì)控、慢病管理等多種應(yīng)用形式,業(yè)內(nèi)亦不乏Watson、惠美、嘉和美康等優(yōu)秀成果。但由于臨床工作的特殊性,使用知識(shí)圖譜進(jìn)行決策支持仍面臨諸多困難。主要原因是:(1)臨床知識(shí)結(jié)構(gòu)復(fù)雜,應(yīng)用級(jí)圖譜的構(gòu)建難度和成本較高;(2)臨床工作專(zhuān)業(yè)化程度極高,致使臨床輔助方法設(shè)計(jì)難度較大。
鑒于目前我國(guó)醫(yī)療行業(yè)對(duì)于高質(zhì)量臨床決策支持系統(tǒng)的迫切需求及臨床醫(yī)學(xué)知識(shí)圖譜構(gòu)建和應(yīng)用所面臨的諸多難點(diǎn),本研究選擇以知識(shí)圖譜作為知識(shí)載體,從臨床工作的實(shí)際流程和需求出發(fā),探究醫(yī)學(xué)知識(shí)圖譜在臨床決策支持領(lǐng)域的應(yīng)用方法。設(shè)計(jì)了流程化的臨床醫(yī)學(xué)知識(shí)圖譜構(gòu)建方法,并根據(jù)臨床工作的實(shí)際流程開(kāi)發(fā)了支持在圖譜上直接進(jìn)行邏輯推理的臨床決策支持系統(tǒng)。
與大多數(shù)知識(shí)圖譜構(gòu)建工作所涉及的流程類(lèi)似,醫(yī)學(xué)知識(shí)圖譜的構(gòu)建也需要經(jīng)過(guò)本體建模和實(shí)例抽取兩個(gè)步驟。且由于醫(yī)學(xué)知識(shí)的特殊性,應(yīng)用級(jí)醫(yī)學(xué)圖譜對(duì)于知識(shí)準(zhǔn)確性的要求遠(yuǎn)高于通識(shí)領(lǐng)域,因此更需要合理的圖譜構(gòu)建流程。
在中文醫(yī)學(xué)知識(shí)圖譜方面,近年來(lái)較成熟的有CMeKG[2]、中醫(yī)藥知識(shí)圖譜[3-4]等面向多疾病的大規(guī)模圖譜,以及乳腺腫瘤知識(shí)圖譜[5]、高發(fā)性孕期疾病知識(shí)圖譜[6]等面向單一病種的中小規(guī)模圖譜。上述圖譜多圍繞疾病、藥物和治療手段這三類(lèi)實(shí)體為核心進(jìn)行構(gòu)建,著重知識(shí)描述而非面向特定的知識(shí)應(yīng)用,因此部分圖譜的復(fù)雜度遠(yuǎn)不能達(dá)到臨床決策支持的要求。以癥狀類(lèi)實(shí)體為例,多數(shù)圖譜中該類(lèi)實(shí)體僅有“癥狀名”這一屬性,而缺失了癥狀對(duì)于某一疾病而言的持續(xù)時(shí)間、發(fā)生條件等臨床工作中重點(diǎn)關(guān)注的信息,這也是目前多數(shù)醫(yī)學(xué)知識(shí)圖譜的普遍缺陷。
臨床決策支持的概念最早可以追溯到20世紀(jì)50年代末,80年代由BUCHANAN等研制出了首個(gè)臨床決策支持系統(tǒng)(CDSS)。國(guó)內(nèi)CDSS研究,大致可分為基于規(guī)則、基于案例和基于模型三類(lèi),陳全福等[7]使用案例推理(case-based reasoning,CBR),通過(guò)深度學(xué)習(xí)算法對(duì)案例進(jìn)行匹配,進(jìn)而給出診療建議。葉楓等[8]針對(duì)老年癡呆癥的診斷,設(shè)計(jì)了一個(gè)老年癡呆癥臨床決策支持系統(tǒng),用于輔助醫(yī)生對(duì)老年癡呆癥進(jìn)行診斷。劉永斌等[9]提出基于知識(shí)庫(kù)的臨床決策支持系統(tǒng)技術(shù)框架,通過(guò)建立權(quán)威知識(shí)庫(kù)來(lái)為臨床工作提供建議。上述工作為中文CDSS構(gòu)建提供了寶貴的實(shí)踐經(jīng)驗(yàn),但也反映了目前CDSS構(gòu)建中面臨的諸如推理機(jī)可解釋性欠佳、知識(shí)庫(kù)構(gòu)建困難等常見(jiàn)問(wèn)題。
知識(shí)圖譜構(gòu)建主要分為本體層建模和實(shí)例層構(gòu)建兩個(gè)階段。目前本體層建模方法主要有7步法、骨架法、TOVE法、SENSUS法[10]等,這些抽取方法主要還是依托領(lǐng)域?qū)<?,根?jù)需要覆蓋的知識(shí)領(lǐng)域和面向的實(shí)際任務(wù)進(jìn)行知識(shí)分類(lèi)。本研究主要參考7步法和骨架法進(jìn)行圖譜本體層設(shè)計(jì)。
2.2.1提取領(lǐng)域知識(shí)中的類(lèi)及屬性
領(lǐng)域知識(shí)通過(guò)抽象以后可得到基本的類(lèi)和屬性。其中,類(lèi)是指領(lǐng)域知識(shí)中的核心概念,如臨床醫(yī)學(xué)知識(shí)中的“疾病”“癥狀”等概念,類(lèi)的實(shí)例稱(chēng)為知識(shí)元。屬性可以分為對(duì)象屬性和數(shù)據(jù)屬性?xún)煞N。對(duì)象屬性用于定義類(lèi)之間關(guān)系,如“(疾病)-表現(xiàn)為-(癥狀)”,而數(shù)據(jù)屬性則用于定義類(lèi)與描述該類(lèi)某一特征的字符串之間的關(guān)系,如“(疾病)-名稱(chēng)-String”。根據(jù)臨床工作中涉及的知識(shí)領(lǐng)域,可以將相關(guān)知識(shí)分為理論知識(shí)和臨床經(jīng)驗(yàn)兩個(gè)大類(lèi),每個(gè)大類(lèi)又包含若干主要知識(shí)源。通過(guò)對(duì)主要知識(shí)源中的重要術(shù)語(yǔ)進(jìn)行標(biāo)注和歸類(lèi),提取出了臨床知識(shí)領(lǐng)域的核心概念。
2.2.2臨床醫(yī)學(xué)知識(shí)圖譜的本體層建模
將知識(shí)來(lái)源中抽象出的類(lèi)及屬性加以組織后得到了圖1所示的本體層模型。該本體層中包含疾病、癥狀(癥狀下設(shè)一般癥狀、體征、異常檢查結(jié)果3個(gè)子類(lèi))、檢查、治療等共計(jì)9個(gè)類(lèi)和ID、名稱(chēng)、別名、類(lèi)型、描述、部位、條件等共計(jì)26種屬性,其中14種為數(shù)據(jù)屬性,12種為對(duì)象屬性。在這些屬性中,為了使得圖譜的知識(shí)維度足以支撐臨床輔助工作,本研究圍繞癥狀設(shè)計(jì)了多種特有數(shù)據(jù)屬性,如附加詞、條件、人群等,使得對(duì)于臨床醫(yī)學(xué)知識(shí)的描述更加完整、具體。部分屬性和關(guān)系的釋義見(jiàn)表1、表2。
表1數(shù)據(jù)屬性釋義
續(xù)表1數(shù)據(jù)屬性釋義
圖1 臨床醫(yī)學(xué)知識(shí)圖譜的本體層
表2 對(duì)象屬性釋義
由于目前無(wú)監(jiān)督的方法在面向醫(yī)學(xué)文本進(jìn)行實(shí)體識(shí)別時(shí)效果并不理想,因此本研究選用了半監(jiān)督的方法來(lái)進(jìn)行知識(shí)抽取工作。工作主要集中在抽取各知識(shí)源中的疾病、癥狀實(shí)體及其相關(guān)屬性。在面向醫(yī)學(xué)教材和臨床指南等核心知識(shí)源時(shí),采用多角色并行標(biāo)注的方法開(kāi)展知識(shí)抽取工作,具體流程如下,(1)前期準(zhǔn)備:根據(jù)本體層的知識(shí)分類(lèi)體系和語(yǔ)義標(biāo)準(zhǔn)制訂了《中文醫(yī)學(xué)文獻(xiàn)命名實(shí)體和實(shí)體關(guān)系標(biāo)注規(guī)范》,并根據(jù)多角色標(biāo)注的任務(wù)需求開(kāi)發(fā)了智能協(xié)同文本標(biāo)注系統(tǒng)。(2)多角色標(biāo)注:利用多名非醫(yī)學(xué)專(zhuān)業(yè)人員并行標(biāo)注,在抽取過(guò)程中,大部分癥狀屬性缺乏專(zhuān)業(yè)詞表,以癥狀的“條件”屬性為例,常見(jiàn)的有“白天加重”“夜間加重”“躺臥時(shí)加重”等,這些詞在醫(yī)學(xué)系統(tǒng)中屬于通用詞匯,但缺少標(biāo)準(zhǔn)化的、統(tǒng)一的描述方法。因此需要將標(biāo)注過(guò)程中發(fā)現(xiàn)的全部癥狀條件交由專(zhuān)家進(jìn)行對(duì)齊,從而得到該屬性的標(biāo)準(zhǔn)詞表。對(duì)于文本中出現(xiàn)過(guò)的非標(biāo)準(zhǔn)詞匯,則作為標(biāo)準(zhǔn)詞的一種映射。映射表與標(biāo)準(zhǔn)詞表共同構(gòu)成了癥狀某一屬性的專(zhuān)業(yè)詞表。(3)知識(shí)評(píng)審:對(duì)于標(biāo)注結(jié)果中出現(xiàn)的標(biāo)注沖突、存疑結(jié)果和部分隨機(jī)抽查結(jié)果,反饋給醫(yī)院專(zhuān)家進(jìn)行審核。(4)知識(shí)存儲(chǔ):通過(guò)審核的抽取結(jié)果轉(zhuǎn)換成圖結(jié)構(gòu)進(jìn)行存儲(chǔ),通過(guò)多角色+專(zhuān)家評(píng)審的方法,最大限度地保證了核心知識(shí)圖譜的準(zhǔn)確度。
在面向高質(zhì)量的網(wǎng)絡(luò)醫(yī)學(xué)知識(shí)時(shí),由于網(wǎng)頁(yè)本身為半結(jié)構(gòu)化數(shù)據(jù),因此可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)+模板對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行批量處理,所得結(jié)果同樣需要經(jīng)過(guò)上述(3)、(4)步驟。最終通過(guò)人工并行標(biāo)注和自動(dòng)標(biāo)注兩種手段在不同知識(shí)源中的合理應(yīng)用,在保證知識(shí)質(zhì)量的前提下,實(shí)現(xiàn)了圖譜的快速擴(kuò)充。
截止成稿時(shí),構(gòu)建的臨床醫(yī)學(xué)知識(shí)圖譜已覆蓋呼吸內(nèi)科、消化內(nèi)科、兒科、心血管內(nèi)科等十余個(gè)主要科室的800余種常見(jiàn)疾病,以及相關(guān)癥狀、檢查、治療等數(shù)千條,初步具備了開(kāi)展臨床診斷輔助系統(tǒng)設(shè)計(jì)所需要的數(shù)據(jù)量,圖譜中的實(shí)體數(shù)目和關(guān)系統(tǒng)計(jì)見(jiàn)表3,部分關(guān)系三元組見(jiàn)圖2。
表3 床醫(yī)學(xué)知識(shí)圖譜數(shù)據(jù)統(tǒng)計(jì)
圖2 知識(shí)圖譜中部分三元組
目前基于醫(yī)學(xué)知識(shí)圖譜開(kāi)展決策支持工作是醫(yī)療信息化領(lǐng)域的研究熱點(diǎn)之一。本研究在傳統(tǒng)CDSS結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)了基于知識(shí)圖譜的診斷推理模塊,通過(guò)在知識(shí)圖譜上模擬臨床作業(yè)思維進(jìn)行查詢(xún)和計(jì)算,實(shí)現(xiàn)了在重要臨床環(huán)節(jié)的同步?jīng)Q策支持。最終完成的原型系統(tǒng)由CDSS前端接口(A),推理診斷模塊(B)和知識(shí)庫(kù)管理模塊(C)3個(gè)部分組成,系統(tǒng)結(jié)構(gòu)如圖4所示。
圖3 CDSS結(jié)構(gòu)圖
為便于決策支持工作的介入,同時(shí)直接利用知識(shí)圖譜進(jìn)行臨床推理,本研究將單病診斷輔助工作劃分為下述6個(gè)步驟,(1)癥狀特征采集:通過(guò)監(jiān)聽(tīng)現(xiàn)病史輸入欄,癥狀輸入后會(huì)先利用專(zhuān)業(yè)詞表進(jìn)行一次消歧,將同義詞或描述不規(guī)范的癥狀名稱(chēng)規(guī)范化,并利用模板切分出癥狀的表現(xiàn)形式和持續(xù)時(shí)間。(2)相關(guān)疾病檢索:在知識(shí)圖譜中檢索含有當(dāng)前癥狀的疾病。(3)檢索結(jié)果排序:利用病歷中統(tǒng)計(jì)得到的疾病概率和癥狀權(quán)重進(jìn)行排序,按疾病與現(xiàn)病史的相關(guān)度降序排列,排序結(jié)果以JSON文件的形式返回前端。(4)答案生成:通過(guò)解析JSON文件,重繪前端界面中疾病展示模塊的內(nèi)容,使用者可以直觀地獲取與現(xiàn)病史相關(guān)的所有疾病信息,包括相關(guān)疾病的伴隨癥狀及確診所需要的檢查項(xiàng)目,為制訂后續(xù)問(wèn)診計(jì)劃提供思路。(5)生成流程記錄:在下達(dá)診斷后,會(huì)評(píng)估操作流程的規(guī)范程度和診斷結(jié)果的可靠度并生成流程記錄文件,對(duì)于不符合臨床規(guī)范的診斷流程或診斷結(jié)果,將其流程記錄模塊等待專(zhuān)家核查。(6)下達(dá)診斷。其中步驟(2)、(3)、(4)一般會(huì)循環(huán)執(zhí)行多次??偟膩?lái)說(shuō),診斷輔助工作通過(guò)癥狀特征驅(qū)動(dòng),利用相關(guān)疾病排序、伴隨癥狀提醒、相關(guān)檢查提醒、診斷結(jié)果檢驗(yàn)4種手段共同推動(dòng)問(wèn)診工作的進(jìn)行,幫助醫(yī)務(wù)人員實(shí)時(shí)、全面地了解當(dāng)前患者的相關(guān)疾病,為后續(xù)問(wèn)診提供思路。
考慮各醫(yī)院硬件條件不同,CDSS選擇以Web端的形式進(jìn)行開(kāi)發(fā),同時(shí)與傳統(tǒng)HIS系統(tǒng)進(jìn)行了整合,在不改變醫(yī)務(wù)人員既有作業(yè)習(xí)慣的前提下,實(shí)現(xiàn)對(duì)于醫(yī)務(wù)人員的決策支持。系統(tǒng)界面功能概覽見(jiàn)圖4。
圖4 軟件功能概覽
通過(guò)學(xué)習(xí)成都市某三甲醫(yī)院呼吸內(nèi)科近13萬(wàn)份病歷的統(tǒng)計(jì)特征,并用其現(xiàn)病史部分作為輸入,第一診斷作為標(biāo)準(zhǔn)輸出,通過(guò)識(shí)別現(xiàn)病史中的癥狀特征進(jìn)行疾病推薦。由于本系統(tǒng)返回的癥狀是列表形式,故以實(shí)際診斷結(jié)果出現(xiàn)在推薦列表前N的比例作為實(shí)驗(yàn)評(píng)測(cè)結(jié)果,呼吸科門(mén)診病歷TOP-1命中率61.4%,TOP-3命中率67.3%,TOP-5命中率68.8%。該實(shí)驗(yàn)證明了最終設(shè)計(jì)出的CDSS可以有效地在主要臨床環(huán)節(jié)進(jìn)行實(shí)時(shí)決策輔助,對(duì)于主要科室當(dāng)中的常見(jiàn)疾病均有較好的預(yù)測(cè)結(jié)果。同時(shí)系統(tǒng)交互方式也符合門(mén)診醫(yī)生當(dāng)前的工作習(xí)慣,得到了醫(yī)院專(zhuān)家的認(rèn)可。
醫(yī)學(xué)知識(shí)圖譜應(yīng)用范圍極廣,但由于臨床醫(yī)學(xué)知識(shí)的復(fù)雜性,使得流程化的知識(shí)圖譜構(gòu)建工作難以進(jìn)行,同時(shí),復(fù)雜的臨床工作流程進(jìn)一步加大了醫(yī)學(xué)知識(shí)圖譜在臨床決策工作中的應(yīng)用難度。本研究在充分分析臨床知識(shí)結(jié)構(gòu)和臨床工作特點(diǎn)的基礎(chǔ)上,設(shè)計(jì)了構(gòu)建支持臨床決策的醫(yī)學(xué)知識(shí)圖譜的可行流程,并開(kāi)發(fā)了與圖譜結(jié)構(gòu)匹配的CDSS原型系統(tǒng)。在后續(xù)研究工作中,擬利用深度學(xué)習(xí)技術(shù)深入發(fā)掘醫(yī)學(xué)領(lǐng)域的診斷規(guī)則和模式,并逐步擴(kuò)大知識(shí)圖譜規(guī)模,進(jìn)一步提高CDSS的可靠性,為大型CDSS的開(kāi)發(fā)打下基礎(chǔ)。