李躍艷,王 昊,鄧三鴻,陳 艷
(1.南京大學信息管理學院,南京 210023;2.江蘇省數(shù)據(jù)工程與知識服務重點實驗室,南京 210023;3.南京大學生命科學學院,南京 210023)
近年來,亞健康問題突出,伴隨著互聯(lián)網(wǎng)醫(yī)療和智慧健康興起,醫(yī)學文本數(shù)據(jù)量快速增長,公眾對醫(yī)學文本知識結構化的需求不斷增加,對海量的醫(yī)學文本形式的數(shù)據(jù)進行有效的抽取、組織和分析,是有效發(fā)揮醫(yī)學健康大數(shù)據(jù)的價值并成功推進現(xiàn)代醫(yī)學應用的關鍵。本體和語義網(wǎng)技術的引入和發(fā)展,為醫(yī)學知識結構化管理提供了切實可行的行動方案,擴展了智慧健康知識結構化管理的內涵,是實現(xiàn)精準醫(yī)學的有力保障。其中,醫(yī)學知識的完整性和系統(tǒng)性是計算機正確理解知識并發(fā)現(xiàn)知識的前提保障。然而,以往醫(yī)學本體往往描述了對象的靜態(tài)特征,并給出了對象的狀態(tài)屬性,僅描述了一些既定的知識,例如,疾病本體、基因-蛋白本體、疾病-表型本體,對這些本體結構缺乏動態(tài)特征的描述,無法揭示知識之間的動態(tài)關聯(lián),因此無法基于動態(tài)特征實現(xiàn)醫(yī)學知識發(fā)現(xiàn)。
敘事性文本是一種以敘事功能為主的文學作品,是對現(xiàn)實世界的記錄,是人文學者通過文字等方式對一系列事件的清晰描述和有序組織,其一直以來是人文學者的研究對象。敘事醫(yī)學(narrative medicine)是一門新興學科,最初由美國哥倫比亞大學Rita Charon醫(yī)師于2001年提出[1]。“敘事醫(yī)學”指的是一種醫(yī)療模式,通過培養(yǎng)臨床醫(yī)生認識、感知、解釋、回應患者疾病的故事及患者困境的敘事能力,提升醫(yī)生對患者的親和、理解與共情能力及對自身醫(yī)療行為的反思[2]。本文提出了醫(yī)學敘事性文本的概念。醫(yī)學敘事性文本是采用文字語言表達一系列醫(yī)學領域事件及其之間的關系,包括人為引發(fā)的,例如,現(xiàn)實發(fā)生的醫(yī)療事件等;還包括其他非人為引發(fā)的,例如,微生物的入侵、機體的防御、炎癥反應機制、免疫機制和藥物作用過程等。與一般的敘事性文本不同的是,參與對象有所差異。一般的敘事性文本的對象主體是人物、機構、團體等由人發(fā)起的,而這里的醫(yī)學敘事性文本的對象主體除了人物等,還包括一些自然力和非自然力物體,例如,細胞、微生物、生物分子等。
日奈特認為敘事著重表現(xiàn)行動和事件[3]。由此可以看出,事件是構成敘事的基礎。以“事件域”為單位來體驗、認識和理解現(xiàn)實世界,并將其作為知識塊以本體形式結構化展示,這是符合人們的一般認知規(guī)律的。與“概念”相比,“事件”關系到多方面的概念。傳統(tǒng)本體所使用的概念模型屬于靜態(tài)模型,能夠較好地反映客觀世界中靜態(tài)事物的存在規(guī)律,特別是事物的分類與非分類關系,但卻難以反映更高層次和更復雜的語義信息。而事件本體是一種粒度更大的、動態(tài)的、具有完整意義的結構化知識,它可以描述包含事件的動作、時間、對象、地點等要素的完整事件信息,同時可以描述事件之間復雜的關聯(lián)關系。
綜上所述,醫(yī)學領域知識結構化被越來越多的學者關注,建設高質量、大規(guī)模、機器可理解的醫(yī)學文本語料庫,促進醫(yī)學文本向智慧數(shù)據(jù)的轉變已經(jīng)成為研究者的共識,而事件知識域表示方法可以保留更加豐富的語義內涵。因此,本文基于事件本體構建醫(yī)學知識本體模型,旨在滿足醫(yī)學研究在大數(shù)據(jù)情境下的智慧健康需求。
目前,國外關于醫(yī)學知識庫的構建、規(guī)范化程度以及具體應用研究已經(jīng)較為成熟。關于知識庫的構建包括DO(disease ontology)[4]、OMIM(online mendelian inheritance in man)[5]、MEDLINEplus[6]、eDGAR[7]、IDO (infectious disease ontology)[8]、ORDO(Orphanet rare disease ontology)[9]、ERNEYE(European reference network on rare eye dis‐ease)[10]、MalaCards[11]等以疾病為主的知識庫,HPO(human phenotype ontology)[12]、PhenPath[13]等以表型為主的知識庫,SYMP(symptom ontology)[14]等以癥狀為主的知識庫,ChEBI(chemical entities of biological interest)[15]等與生物相關的化學實體知識庫,UniProt[16]、STITCH(search tool for interac‐tions of chemicals)[17]、PDB(protein data bank)[18]、BioGRID(biological general repository for interaction datasets)[19]等以蛋白質為主的知識庫,GO(gene ontology)[20]、QuickGo[21]、HGNC(the HUGO gene nomenclature committee)[22]等以基因為主的知識庫,Cellosaurus[23]等以細胞系為主的細胞知識庫,TC‐MID (traditional Chinese medicine integrated data‐base)[24]、HIT(herb ingredients'targets)[25]、Drug‐Bank[26]等以藥物為主的知識庫,VO(vaccine ontol‐ogy)[27]等以疫苗為主的知識庫。這些知識庫通過重用已有知識本體實現(xiàn)了知識庫之間的關聯(lián),為醫(yī)學信息的相關查詢和決策提供了有力支持和幫助。關于規(guī)范化描述,主要通過遵循統(tǒng)一的開發(fā)原則,解決知識庫之間的互操作和可擴展問題,進而實現(xiàn)知識庫之間的語義關聯(lián)。其中,OBO庫(OBO Foundry)[28]旨在開發(fā)一系列非冗余且可互操作的本體,這些本體的語法統(tǒng)一,邏輯結構科學合理;在OBO開發(fā)原則的基礎上,XOD(eXtensible ontol‐ogy development)提出本體開發(fā)的四個關鍵原則[29],包括本體術語重用,本體語義對齊,使用ODP(ontology design patterns)本體設計模式開發(fā)和編輯新術語、注釋和關系[30-32],以及采用多社區(qū)協(xié)作的眾包模式開發(fā)本體。關于醫(yī)學知識庫的具體應用研究包括:基于基因型和表型的疾病分類方法[33],基于基因和中藥化學成分尋找新藥[34],基于基因、生物學過程和癥狀與疾病的關系發(fā)現(xiàn)密切相關的疾病[35],利用化學物質、基因、疾病和癥狀之間的關系推斷生物醫(yī)學中的潛在關系[36]等。
然而,國內關于醫(yī)學知識庫的研究才剛剛起步,雖有一些有意義的理論探索,但是還未形成有一定影響力、可以規(guī)模應用的知識庫。其中大多是由企業(yè)主導的,例如,OpenKG[37]旨在構建可信的包括醫(yī)學在內的中文開放知識圖譜,EpiK[38]銘識協(xié)議旨在依托區(qū)塊鏈技術構建人類永恒知識庫,“千言”計劃[39]旨在構建面向自然語言處理和生成任務的中文開源數(shù)據(jù)集合;CDD(China Disease Knowl‐edge Total Database,中國疾病知識總庫)[40]、上海曙光醫(yī)院中醫(yī)藥知識圖譜[41]等尚未公開發(fā)布數(shù)據(jù)集,無法獲得底層數(shù)據(jù),難以實現(xiàn)深層次利用、開發(fā)和關聯(lián)。
基于事件的研究已經(jīng)發(fā)展成為將“事件”看作一種知識表示的方式。Nelson[42]早在1986年提出了基于腳本的通用事件表示模型,他認為事件是由對象和關系組成的,并將事件作為分類知識的基礎。Langacker[43]結合彈子球模型、舞臺模型以及原型角色提出“典型事件模型”結構,包括施事者、受事者和背景。Filatova等[44]提出了“元事件”是由動詞(或者動名詞)和動詞連接的行為構成的,這些行為的主要連接成分是三類命名實體:參與者(人名和機構名)、地點和時間。王寅[45]提出了“事件域認知模型”(event-domain cognitive model,ECM),認為一個基本事件域主要包括行為(action)和事體(being);一個行為包括動態(tài)性行為和靜態(tài)性行為,是由很多具體的子行為或動作構成的,一個事體是由很多個體構成的,相當于將事件定義為一個三元組{事體,動作,事體}。事件多元組模型認為事件包括動詞和動詞連接的高頻名詞或者命名實體[46]。劉宗田等[47]采用六元組形式化表示事件,包括動作、對象、時間、環(huán)境、斷言、語言表現(xiàn)。在此基礎上,事件的概念逐漸被信息檢索[48]、信息抽取[49]、自動文摘[50]、自動問答[51]等知識處理領域所采用。在語義網(wǎng)中,事件本體的引入,使知識表示、知識組織更加結構化,更加符合人類認知過程。
典型的事件本體語義表示模型,包括Event On‐tology[52]、ABC[53]、Event-Model-F[54]、SEM(simple event model)[55]等通用領域的事件本體模型和NIAO(narrative image annotation ontology)[56]、CIDOC CRM(CIDOC conceptual reference model)[57]、sche‐ma.org[58]等專業(yè)領域事件本體模型。但是這些事件本體模型僅定義了事件的構成要素,即僅描述了靜態(tài)知識,缺少對動作這一動態(tài)性行為的描述以及事件間的動態(tài)關聯(lián),導致事件信息不夠全面和具體。朱文躍等[59]構建了突發(fā)領域事件本體模型,實驗結果表明,通過考慮事件的動作要素以及事件間的關聯(lián)關系可以清晰地描述事件的完整性、語義性和可擴展性。宋寧遠等[60]通過引入敘事和事件等概念,構建基于情節(jié)本體的敘事性文本語義結構化表示方法,標注結果表明,敘事性本體表示能很好地展示和描述小說文學作品中事件動態(tài)發(fā)展的有序性和語義性。
綜上所述,從研究對象來看,以往醫(yī)學知識庫只能體現(xiàn)醫(yī)學靜態(tài)知識之間的簡單關系,無法體現(xiàn)醫(yī)學知識之間的復雜關系;從研究方法來看,以往事件本體主要是概念和概念關系的集合,忽略了事件的動態(tài)性,很難描述事件的狀態(tài)變化,僅是在傳統(tǒng)本體模型的基礎上整合了事件的部分構成元素,如人物、時間、地點等,并沒有實現(xiàn)真正意義上的基于事件知識表示的本體構建;從研究內容來看,關于醫(yī)學文本知識表示和組織對“事件”這一整體知識結構單元認識不夠深入,缺乏對醫(yī)學動態(tài)知識的組織和描述,事件間關系揭示不夠全面,實際應用不夠完善。因此,構建符合實際用戶需求的醫(yī)學知識庫成為時代所需,實現(xiàn)更細粒度的醫(yī)學知識結構化表示成為關鍵所在?;诖?,本文基于敘事性理論和事件知識表示,借鑒國外構建醫(yī)學知識庫的成功經(jīng)驗,通過深入分析醫(yī)學文本內部特征,挖掘細粒度醫(yī)學知識及其之間的關聯(lián),從而構建完整的、計算機能夠理解的、符合人們一般認知規(guī)律的、基于事件本體的醫(yī)學知識本體模型,并在此基礎上探索醫(yī)學知識的發(fā)現(xiàn),為醫(yī)學知識發(fā)現(xiàn)和決策提供有力支持和幫助。
本文能夠為實現(xiàn)醫(yī)學知識組織提供新的路徑,為實現(xiàn)更高層次和更復雜的醫(yī)學語義知識的結構化表示提出新的研究視角,為構建完整的醫(yī)學知識本體提供系統(tǒng)性研究方法,為計算機輔助實現(xiàn)基于結構化知識的新知識挖掘任務提供可能性。
醫(yī)學領域涉及廣泛的學科知識,其數(shù)據(jù)、信息和知識呈現(xiàn)高度復雜性。為實現(xiàn)醫(yī)學知識結構化組織、推進醫(yī)學知識深層次利用、打造醫(yī)學智能知識服務體系,本文基于敘事性理論,根據(jù)事件知識表示方法,采用本體和語義網(wǎng)技術,設計了從數(shù)據(jù)建模到數(shù)據(jù)融合再到數(shù)據(jù)聯(lián)勤的基于敘事性文本的醫(yī)學知識庫構建框架,如圖1所示。
將醫(yī)學健康知識標準化和規(guī)范化,有助于降低醫(yī)生誤診率、提高醫(yī)生決策能力和提升國民醫(yī)學素質。實現(xiàn)醫(yī)學知識庫構建主要有以下幾個任務和目標:①多源異構醫(yī)學數(shù)據(jù)采集。將不同來源、不同類型、不同結構、不同格式的醫(yī)學數(shù)據(jù)轉換成統(tǒng)一的形式。②醫(yī)學知識本體模型構建。根據(jù)是否具有敘事性特征,將醫(yī)學知識分為靜態(tài)概念和動態(tài)事件,分別構建醫(yī)學靜態(tài)概念本體模型和醫(yī)學動態(tài)事件本體模型。③醫(yī)學知識抽取。借助已有的外部數(shù)據(jù)庫(結構化詞表和已有本體知識庫),采用自動抽取方式從非結構化文本數(shù)據(jù)中抽取具體的知識,包括概念、屬性、關系、事件等。④醫(yī)學知識融合。借助自然語言處理和已有關聯(lián)數(shù)據(jù)模型結構特征實現(xiàn)實體對齊和屬性對齊,將不同來源的知識元素分門別類,形成完整的沒有歧義的知識體系。⑤醫(yī)學知識存儲和展示。通過設置公理規(guī)則實現(xiàn)知識補全,從而采用自動編碼生成本體文件,結合第三方可視化庫進行知識圖譜結果展示。⑥醫(yī)學知識挖掘。借助醫(yī)學知識本體能夠以機器理解的方式表達完整的規(guī)范化的領域知識優(yōu)勢,結合自然語言處理、機器學習、深度學習、社會網(wǎng)絡分析方法,融合醫(yī)學信息多維度內容特征和結構特征,實現(xiàn)智能檢索、自動問答、信息推薦、決策支持和藥物發(fā)現(xiàn)等醫(yī)學知識挖掘任務。
本文的主要貢獻是基于事件本體構建完整的符合人們一般認知規(guī)律的醫(yī)學知識本體模型,其人工方式主要體現(xiàn)在前期基礎模型構建,而最終醫(yī)學知識庫主要采用文本挖掘和機器學習等方法實現(xiàn)自動構建;其系列研究目標旨在通過引入事件本體將具有敘事性特征的醫(yī)學文本采用計算機可以理解的語義網(wǎng)思維進行描述,并通過機器學習等方法實現(xiàn)最終醫(yī)學知識庫構建。圖1中最后一列表示每一階段任務所采用的自動構建方法。
圖1 基于敘事性文本的醫(yī)學知識庫構建框架
如何按照知識的內在關系將醫(yī)學知識進行結構化表示與組織,成為目前醫(yī)學大數(shù)據(jù)時代亟待深入研究的問題。本文根據(jù)是否具有敘事性特征,將醫(yī)學文本數(shù)據(jù)分為醫(yī)學敘事性文本數(shù)據(jù)和醫(yī)學概念性文本數(shù)據(jù)。醫(yī)學敘事性文本數(shù)據(jù)是對醫(yī)學動態(tài)事件的描述,醫(yī)學概念性文本數(shù)據(jù)是對醫(yī)學靜態(tài)概念的描述。為了構建醫(yī)學知識本體模型,本文通過分析醫(yī)學敘事性文本特征和醫(yī)學概念性文本特征分別構建醫(yī)學動態(tài)事件本體模型和醫(yī)學靜態(tài)概念本體模型,并實現(xiàn)兩者的深層次關聯(lián)。
定義1.將醫(yī)學知識本體模型(medical knowl‐edge ontology model,MKOM)形式化表示為
其中,MDEOM表示醫(yī)學動態(tài)事件本體模型;MSCOM表示醫(yī)學靜態(tài)概念本體模型。
定義2.將醫(yī)學靜態(tài)概念本體模型(medical static concepts ontology model,MSCOM)形式化定義為一個四元組結構:
其中,MSC_Classes表示醫(yī)學靜態(tài)概念類;MSC_Relations表示醫(yī)學靜態(tài)概念所有關系的集合,包括分類關系和非分類關系,分類關系可構成概念類之間的層次關系,非分類關系可構成概念類之間或概念類和屬性之間的語義關系;MK_Individuals表示醫(yī)學靜態(tài)概念的實例集合;MK_Rules表示醫(yī)學靜態(tài)概念的規(guī)則集合,用于概念間的推理。
定義3.將醫(yī)學動態(tài)事件本體模型(medical dy‐namic event ontology model,MDEOM)形式化定義為一個四元組結構:
其中,MDE_Classes表示醫(yī)學動態(tài)事件;MDE_Re‐lations表示醫(yī)學動態(tài)事件所有關系的集合,包括事件類之間的分類關系和非分類關系,分類關系可構成事件類之間的層次關系,非分類關系可構成事件類之間的語義關系;MK_Individuals表示醫(yī)學動態(tài)事件的實例集合;MK_Rules表示醫(yī)學動態(tài)事件的規(guī)則集合,用于事件間的推理。
為了實現(xiàn)醫(yī)學知識之間的動態(tài)關聯(lián),我們需要根據(jù)具體應用厘清并定義醫(yī)學中的靜態(tài)概念,以便更好地展示醫(yī)學動態(tài)事件與靜態(tài)概念之間的知識體系和關聯(lián)關系。靜態(tài)概念類是醫(yī)學相關概念的集合,包括醫(yī)學實體概念和醫(yī)學學術社交網(wǎng)絡實體概念。其中醫(yī)學實體是指與醫(yī)學知識相關的實體概念,是為了建立醫(yī)學概念之間的簡單關聯(lián);學術社交網(wǎng)絡實體是為了實現(xiàn)醫(yī)學科學學的統(tǒng)計分析。
基于此,借鑒PKG(PubMed knowledge graph)知識結構模型思想[61],本文設計了醫(yī)學靜態(tài)概念本體模型,使醫(yī)學實體之間、學術社交網(wǎng)絡實體之間以及醫(yī)學實體和學術社交網(wǎng)絡實體之間實現(xiàn)關聯(lián),其不僅有利于醫(yī)學實體的實時監(jiān)測、動態(tài)管理和統(tǒng)計分析,例如,了解相關醫(yī)學人員的科研動態(tài)及其國家醫(yī)學科研水平;而且有利于醫(yī)學知識發(fā)現(xiàn),例如,發(fā)現(xiàn)權威學者,推薦相似學者,合理分配科研資源,實現(xiàn)醫(yī)生之間相互合作。
在當下的防疫工作中,新冠疫情已成為國家重視、社會關注、人民關心的熱點話題。盡管病毒很小,但人類對付它們的手段十分有限,一直以來,病毒變異速度快、靶點數(shù)量少、開發(fā)周期長等原因,導致疫苗及其特效藥的研制成為醫(yī)學工作者不易解決的問題?,F(xiàn)階段,治療病毒疾病的主要途徑是通過藥物干擾并破壞病毒感染過程。其中,病毒入侵是病毒感染環(huán)節(jié)的第一步,也是最重要的一步,針對病毒入侵過程采取藥物治療是最根本的治療手段。因此,深入了解并厘清病毒的入侵機制,對病毒疫苗和藥物的快速研發(fā)以及干預措施的及時制定具有至關重要的作用。
基于此,本文對病毒入侵機體過程中涉及的靜態(tài)概念進行知識結構化表示,來說明醫(yī)學靜態(tài)概念的知識結構化表示方法。圖2是本文設計的關于病毒入侵過程的靜態(tài)概念本體模型圖。
圖2 病毒入侵過程靜態(tài)概念本體模型圖
3.2.1 靜態(tài)概念類
由于許多醫(yī)學本體相互重疊,缺乏與其他更廣泛使用的本體的互操作性而形成了孤島。為了促進本體的開放性和互操作性,支持數(shù)據(jù)的共享和集成,通過調研大量醫(yī)學相關本體[62],根據(jù)本文提出的11個核心實體概念(圖2),結合已有醫(yī)學本體中的術語及其屬性關系(包括DO[4]、HPO[12]、ChEBI[15]、UniProt[16]、GO[20]、TCMID[24]、PKG[61]),來 實現(xiàn) 與常用醫(yī)學本體的關聯(lián)和集成。通過集成這些可信的外部數(shù)據(jù)集,可以在醫(yī)學實體之間、學術社交網(wǎng)絡實體之間以及醫(yī)學實體和學術社交網(wǎng)絡實體之間建立關聯(lián),從而實現(xiàn)更深層次、更廣范圍的研究。圖2反映了與病毒入侵機體過程相關的醫(yī)學領域和學術社交領域之間的靜態(tài)概念及其靜態(tài)概念之間的邏輯結構,其中主要包括7個醫(yī)學實體:病毒實體(virus)、疾病實體(disease)、細胞實體(cell)、化學成分實體(chemical)、藥物實體(drug)、生物分子實體(biomacromolecule)、疾病過程實體(process),以及4個學術社交網(wǎng)絡實體:學者實體(author)、論文實體(article)、項目實體(project)和地理位置實體(location)。
3.2.2 靜態(tài)概念的屬性設置
為了構造并設計一個系統(tǒng)的、穩(wěn)健的且功能強大的病毒入侵機體過程靜態(tài)概念知識本體,本文根據(jù)病毒入侵機體過程知識體系結構及其學術社交關系結構定義醫(yī)學靜態(tài)概念之間的關聯(lián)關系,主要包括分類關系和非分類關系。
分類關系用于描述實體間的層次結構語義關系,其中包括類與子類(SubClassOf)關系以及概念實例(InstanceOf)關系等,例如,冠狀病毒傳染性疾病是病毒傳染性疾病的子類,新型冠狀病毒是冠狀病毒的實例。
非層次關系是在關系集合中除去分類關系之外的剩余所有關系。表1是醫(yī)學靜態(tài)概念間的主要非層次關系。
其中藥物和疾病之間的治療關系,具體包括實驗用藥(TreatOf_EM)、臨床用藥(TreatOf_CM)、理論計算發(fā)現(xiàn)(Treat Of_TC)、數(shù)據(jù)挖掘發(fā)現(xiàn)(Treat Of_DM)。
從表1可知,除了醫(yī)學實體之間的關系,本文進一步定義了醫(yī)學實體和醫(yī)學學術社交網(wǎng)絡實體之間的關系,例如,學者和醫(yī)學實體之間的關注關系(FocusOn)、學者和論文之間的發(fā)表關系(Publish)、論文和項目之間的資助關系(FundedBy)等。
表1 醫(yī)學靜態(tài)核心概念間的主要非層次關系
綜上所述,通過分類關系和非分類關系的設置將不同的醫(yī)學靜態(tài)概念實體進行關聯(lián),從而形成完整的醫(yī)學靜態(tài)概念本體模型。
醫(yī)學動態(tài)事件本體模型是醫(yī)學知識本體模型的核心。相比于醫(yī)學靜態(tài)概念本體模型,動態(tài)事件本體模型的引入可以更清晰、全面、深入地描述醫(yī)學知識,解釋醫(yī)學內部知識之間的復雜關系。也就是說,動態(tài)事件類的引入可以解釋醫(yī)學靜態(tài)概念之間的關聯(lián)原因,這對于實現(xiàn)醫(yī)學知識的深層次挖掘和醫(yī)學知識服務等決策支持至關重要。
醫(yī)學動態(tài)事件本體模型主要以“事件”為知識結構單元,“事件”知識表示方法本身就是一種具有動態(tài)特征知識組織方法。通過動作這一動態(tài)性描述,可以使事件信息更加全面和具體;通過事件之間的時序關系和語義關系,可以進一步動態(tài)揭示事件發(fā)展順序特征以及邏輯結構特征。
3.3.1 事件和事件類
(1)事件(event):本文在已有事件本體模型的基礎上,結合醫(yī)學敘事性文本內容和結構特征,將醫(yī)學敘事性文本中的事件形式化表示為一個四元組e={A,O,T,V},其中,事件四元組中的元素稱為事件要素,分別表示動作、對象、時間和環(huán)境。
A(動作,action):動作是事件的核心元素,表示事件的發(fā)生方式,描述了事件的動態(tài)變化特征,例如,“入侵”“轉錄”“翻譯”等動作指示詞是區(qū)分不同事件類的主要依據(jù),通過動作這一動態(tài)性描述,事件信息更加形象和具體。
O(角色,role):角色表示事件的參與對象,通常包括:主體(subject),動作的發(fā)起者;媒介(medium),動作的推動者;客體(object),動作的承受者。角色可以是人物、機構、團體等,也可以是微生物、細胞或者生物分子,如病毒、細胞、蛋白質、酶、氨基酸、核苷酸和糖蛋白等。
T(時間,time):在現(xiàn)實的醫(yī)療事件中,時間要素指具體的時間指示詞,例如,“2019年1月5日,武漢一名女性不幸感染新冠”事件中的時間要素是“2019年1月5日”。在自然力和非自然力醫(yī)學事件中,時間要素往往沒有具體的時間指示詞,但是動作狀態(tài)的變化往往呈現(xiàn)出一定的時序特征,因此,可以根據(jù)動作信息挖掘時間信息。將動作顯性映射為對象的狀態(tài)隨時間變化而變化的過程,可以使動作描述更加具體。
V(環(huán)境,environment):環(huán)境表示事件發(fā)生所處的空間位置,具體包括:以位置指示詞等用來指明事件發(fā)生所處的具體空間區(qū)域(place),例如,武漢等地名指示詞,細胞膜等病毒吸附發(fā)生所處的空間位置;以及事件發(fā)生所處的環(huán)境特征(fea‐ture),例如,天氣晴朗等表示自然環(huán)境特征的指示詞,弱酸性條件等生物變化過程所需的環(huán)境特征。
基于此,本文定義了7個對象屬性,表示事件及其事件要素之間的關系,分別為:hasAction,表示事件發(fā)生的動作;hasSubject,表示事件的發(fā)起者;hasMedium,表示事件的推動者;hasObject,表示事件的承受者;hasTime,表示事件發(fā)生的時間;hasPlace,表示事件發(fā)生的地點;hasFeature,表示事件發(fā)生所處的環(huán)境特征。
(2)事件類:是具有相同動作要素的一系列事件的統(tǒng)稱。
為支持醫(yī)學事件類型的正確識別和映射,本文參照突發(fā)事件層次關系結構[39],進一步構建了醫(yī)學事件類的本體層次結構。第一和第二層是上層事件本體結構,第三層及其更細層次是具體醫(yī)學事件類層次關系結構,如圖3所示。
圖3 醫(yī)學事件類的本體層次結構
第一層根據(jù)事件類主體類別劃分為兩類:人類事件類和自然事件類。
第二層進一步根據(jù)事件類的主體數(shù)量把人類事件類劃分為個人事件類和公共事件類。多人參與的事件類為公共事件類,單個人參與的事件類為個人事件,例如,死亡和醫(yī)療事故的區(qū)別。除人類事件類外,自然事件類可以分為自然力事件類和非自然力事件類。自然力事件類通常是大自然作用下發(fā)生的醫(yī)學事件,如空氣污染致病等;非自然力事件類是指一切除了人類和大自然的物體作用下發(fā)生的醫(yī)學事件,如微生物污染致病等。
第三層及其更細層次劃分是指具體醫(yī)學事件類層次關系結構。主要根據(jù)事件類之間的組成關系確定醫(yī)學事件類之間的層次關系,例如,“病毒生命歷程”包括“病毒入侵”“病毒轉錄”“病毒翻譯”“病毒復制”和“病毒釋放”等事件類。其中“病毒入侵”過程包括“受體結合”“膜融合”等過程。因此,“病毒入侵”是“受體結合”和“膜融合”的上位事件類,“受體結合”和“膜融合”是“病毒入侵”的下位事件類。
3.3.2 事件間的關系
敘事性文本的復雜性在于強調以事件為基礎,事件間具有較為豐富的關聯(lián)關系。事件間的關系較為復雜,并且事件之間的關系具有方向性和動態(tài)性。Speer等[63]、Mann等[64]認為事件間的關系通常包括時間關系和因果關系兩大類。仲兆滿等[65]認為事件間的關系包括分類關系和非分類關系。宋寧遠等[60]將敘事性文本中的事件關系分為時序關系和語義關系兩大類;其中,時序關系用于動態(tài)表示事件在時間維度上的先后次序,語義關系用于動態(tài)表示事件在邏輯發(fā)展上的語義關聯(lián);這兩類關系共同作用于事件關聯(lián),是構成敘事的核心,是構成事件網(wǎng)絡的基礎,是事件動態(tài)特征的主要表現(xiàn)?;诖耍疚膶︶t(yī)學事件之間的時序關系和語義關系進行語義建模。
(1)時序關系。時序關系是事件間的基本關系,決定事件發(fā)生的先后順序,是事件動態(tài)發(fā)展的重要特征。結合事件本體模型中關于事件間時序關系的定義,本文認為事件間的時序關系包括11種,如表2所示。
表2 事件間的時序關系
為了實現(xiàn)本體知識的時序推理和時序擴展,本文定義了時間屬性特性,主要包括互逆屬性(in‐verseOf)和對稱屬性(SymmetricProperty)。其中,屬性:Before和屬性:After是一對互逆屬性,屬性:Be‐ginMeetsEnd和屬性:EndMeetsBegin是一對互逆屬性,屬性:BeingOverlapsHad和屬性:HadOverlapsBe‐ing是一對互逆屬性,屬性:During和屬性:Outside是一對互逆屬性;屬性:Equals、屬性:Starts和屬性:Finishes是對稱屬性。例如,事件A的發(fā)生時間在事件B的發(fā)生時間之前,那么可以推理出事件B的發(fā)生時間在事件A的發(fā)生時間之后。
(2)語義關系。事件的動態(tài)發(fā)展往往遵循一定的邏輯秩序。語義關系是事件邏輯發(fā)展的主要線索,通常決定事件的動態(tài)發(fā)展方向。結合相關事件本體模型中關于事件間語義關系的定義,本文認為事件間的語義關系包括10種,如表3所示。
表3 事件間的語義關系
因果關系、跟隨關系、并發(fā)關系和條件關系都屬于相關關系,但關聯(lián)強度不同。因果關系是有因才有果;跟隨關系不是因果關系,但是經(jīng)常一前一后出現(xiàn),可能跟隨發(fā)生,時間上有先后但不能間隔太久,并且沒有重疊以及經(jīng)常一起出現(xiàn)的即為跟隨關系;并發(fā)關系,時間上有重疊但不完全重疊,以及經(jīng)常一起出現(xiàn)并同時發(fā)生;條件關系,一個事件發(fā)生需要滿足另一個事件的發(fā)生。其中,因果關系和條件關系突出強調了兩個事件之間的語義相關性,是決定事件動態(tài)發(fā)展方向的直接推動力;跟隨關系和并發(fā)關系,從時間發(fā)展順序上看,是時序關系,但是這兩種關系更強調了兩個事件之間的相關性,即不僅是簡單的時間發(fā)生上的先后次序,而且表明兩者是具有語義相關的,是維持事件動態(tài)發(fā)展方向的潛在作用力;排斥關系則表明兩個事件不可能同時發(fā)生;組成關系用于確定事件和事件類之間的層次關系。
為了實現(xiàn)本體知識的語義推理和語義擴展,本文定義了語義屬性特性,主要包括互逆屬性(in‐verseOf)和對稱屬性(SymmetricProperty)。其中,屬性:Reason和屬性:Result是一對互逆屬性,屬性:PreFollow和屬性:ProFollow是一對互逆屬性,屬性:Condition和屬性:Conclusion是一對互逆屬性,屬性:isComposeOf和屬性:Composed是一對互逆屬性;屬性:Concur和屬性:Opposite是對稱屬性。例如,已知事件A是事件B發(fā)生的原因,那么可以推理出事件B是事件A發(fā)生的結果。
靜態(tài)概念本體模型和動態(tài)事件本體模型的關聯(lián)融合是實現(xiàn)醫(yī)學知識本體模型完整構建的基礎,它們之間的關聯(lián)融合是通過靜態(tài)概念本體模型中定義的醫(yī)學實體實現(xiàn)關聯(lián)的,即動態(tài)事件本體模型中事件四要素——角色的定義域是靜態(tài)概念本體模型中的4種醫(yī)學實體——病毒實體、細胞實體、化學成分實體和生物分子實體,這些醫(yī)學實體是醫(yī)學動態(tài)事件的參與對象,是醫(yī)學事件發(fā)生的必要條件,是區(qū)分不同醫(yī)學事件的顯著特征。在靜態(tài)概念本體模型中,以“概念”為知識表示單元,醫(yī)學實體通過對象屬性將不同醫(yī)學實體進行關聯(lián),其建立的是醫(yī)學實體之間的簡單關聯(lián),例如,病毒與疾病之間的致病關系;在動態(tài)事件本體模型中,以“事件”為知識表示單元,醫(yī)學實體是事件四要素中的一個元素,通過“事件”知識結構單元建立關聯(lián)關系,使醫(yī)學實體之間的關系更加具體、形象,例如,“SARS-CoV-2病毒S蛋白”和“心肌細胞的ACE2蛋白”是“SARS-CoV-2病毒受體結合”事件的主體參與對象,兩者是該事件發(fā)生的必要條件,如果沒有這兩種蛋白的結合,SARS-CoV-2病毒無法完成病毒入侵細胞過程。
至此,醫(yī)學知識本體模型構建完成。為判斷模型的可行性和合理性,本文通過案例分析驗證以“事件”為知識表示單元構建的醫(yī)學知識本體模型能夠更好地組織和表示具有敘事性特征的醫(yī)學文本,使計算機和人類能夠更加系統(tǒng)地基于人類邏輯思維理解和揭示醫(yī)學知識;同時為驗證本體模型在醫(yī)學知識發(fā)現(xiàn)上的有效性,本文根據(jù)參與事件的事件要素以及事件間關系等分析醫(yī)學事件相似性,尋找用于治療疾病的有效藥物等。
本文基于事件知識表示單元,根據(jù)文本的敘事性特征,將醫(yī)學知識分為靜態(tài)概念知識和動態(tài)事件知識,旨在構建語義更加全面、立體的多維度醫(yī)學知識庫。為實現(xiàn)對醫(yī)學文本的深層次語義結構化表示,根據(jù)本文提出的醫(yī)學知識本體模型,首先需要對醫(yī)學文本進行語義標注。語義標注是以已有本體和受控詞表為基礎,通過文本分析、術語抽取、關系識別等路徑,采用規(guī)則模板、機器學習、深度學習和遷移學習等方法,使文本從非結構化向結構化轉變的關鍵。其語義標注流程如圖4所示。
圖4 醫(yī)學文本語義標注流程
新型冠狀病毒肺炎(coronavirus disease 2019,COVID-19)是繼2003年嚴重急性呼吸綜合征(se‐vere acute respiratory syndrome,SARS)和2012年中東呼吸綜合征(Middle East respiratory syndrome,MERS)以后更為嚴重的肺部傳染病。因此,本文選取新型冠狀病毒(SARS-CoV-2,又稱2019-nCoV)入侵過程相關醫(yī)學文本作為實驗樣本,通過本文提出的本體模型進行語義標注,并對標注結果進行重新組織與關聯(lián),再以知識圖譜的方式對其語義結構化表示結果進行展示,如圖5所示,從而驗證本文提出的醫(yī)學知識本體模型的可行性和實用性,最后,通過分析SARS-CoV-2入侵過程與其他病毒入侵過程的相似性,為病毒疾病防治提供基于數(shù)據(jù)支持的藥物篩選。
圖5 SARS-CoV-2病毒入侵過程的語義結構化表示
根據(jù)本文構建的醫(yī)學靜態(tài)概念本體模型,相關醫(yī)學實體之間的關系表現(xiàn)為:SARS-CoV-2病毒的受體是“刺突蛋白(S蛋白)”,受體結合位點是“血管緊張素轉換酶2(ACE2)”,受納細胞(即易感染細胞)包括“心肌細胞”,屬于“β屬冠狀病毒”,是一種“正鏈RNA病毒”,其病毒體結構包括“囊膜”和“核衣殼”,“ACE2”在“心肌細胞”高表達,“COVID-19”疾病由“SARS-CoV-2”病毒引起,“COVID-19”疾病屬于“冠狀病毒傳染性疾病”,“COVID-19”疾病的臨床用藥包括“卡莫司他”,“卡莫司他”藥物的靶標是“跨膜絲氨酸蛋白酶(TMPRSS2)”。學術社交網(wǎng)絡實體之間以及學術社交網(wǎng)絡實體和醫(yī)學實體之間的關系表現(xiàn)為:論文《抗新型冠狀病毒肺炎藥物磷酸氯喹的安全性分析》,其所屬機構是“海軍軍醫(yī)大學基礎醫(yī)學院”,其學者是“呂強”,其關鍵詞包括“新型冠狀病毒肺炎”和“磷酸氯喹”,基于此,可以說明學者“呂強”關注的醫(yī)學實體包括疾病“新型冠狀病毒肺炎”和藥物“磷酸氯喹”,這說明呂強對于新型冠狀病毒肺炎以及磷酸氯喹有一定的研究。因此,醫(yī)學靜態(tài)概念本體模型的構建實現(xiàn)了醫(yī)學實體和學術社交網(wǎng)絡實體之間的相互關聯(lián),這對于促進醫(yī)生之間相互合作等醫(yī)學決策支持具有重要作用。
根據(jù)本文提出的醫(yī)學動態(tài)事件本體模型構建框架,由圖5可知:①SARS-CoV-2病毒入侵過程包括7個子事件:“受體結合”“S2亞基構象發(fā)生變化”“S蛋白裂解”“融合肽區(qū)暴露”“內吞”“囊膜內吞體膜融合”和“囊膜質膜直接融合”;②每個子事件分別具有不同的事件要素,例如,“受體結合”事件的主體是“S蛋白”和“ACE2”,動作是“結合”,由此可以推斷出ACE2在SARS-CoV-2入侵事件中所扮演的角色,即SARS-CoV-2表面S蛋白與心肌細胞膜上ACE2通過特異性結合的方式啟動病毒感染;③通過事件間時序關系可以清晰地看出,“受體結合”是病毒入侵細胞的第一步,也是病毒能否成功感染細胞的關鍵;④通過事件間語義關系可以清晰地看出事件之間的邏輯語義關系,例如,“受體結合”事件是“S2亞基構象發(fā)生變化”事件發(fā)生的原因,“S蛋白裂解”事件是“融合肽區(qū)暴露”事件發(fā)生的條件,“融合肽區(qū)暴露”事件是“膜融合”事件發(fā)生的條件。
通過分析SARS-CoV-2病毒入侵過程可以尋找用于治療疾病的有效藥物。由圖5可知,基于SARS-CoV-2病毒入侵過程采取干預措施的策略主要包括三種:第一,阻礙SARS-CoV-2病毒S蛋白靠近ACE2;第二,阻礙S蛋白裂解;第三,破壞病毒囊膜與宿主細胞膜的融合。由圖5可知,現(xiàn)有用于治療SARS-CoV-2的藥物包括磷酸氯喹、卡莫司他、阿洛司他丁,這與SARS-CoV和MERS-CoV的治療藥物具有很高的相似性。結合文獻調研結果[66-67]可以驗證本文模型在知識發(fā)現(xiàn)上的有效性,SARS-CoV-2、SARS-CoV和MERS-CoV都屬于冠狀病毒,三者的入侵機制相似,例如,SARS-CoV-2和SARS-CoV都是通過病毒S蛋白和人類細胞的ACE2結合,三種病毒和細胞融合過程需要酸性條件,都需要宿主蛋白酶(TMPRSS2)激活,都需要組織蛋白酶B和L完成病毒內吞等。所以,在藥物篩選過程中,可以根據(jù)病毒入侵過程的相似性進行藥物的初步篩選;在SARS-CoV和MERS-CoV治療中,使用磷酸氯喹上調病毒和細胞融合所需的pH值及干擾細胞糖基化來阻止病毒感染,使用卡莫司他干擾病毒蛋白激活,使用阿洛司他丁干擾阻礙病毒內吞。因此,根據(jù)病毒入侵過程的相似性,磷酸氯喹、卡莫司他和阿洛司他丁可以作為SARS-CoV-2疾病的初篩藥物,臨床數(shù)據(jù)也表明這些藥物對COVID-19具有一定療效。
根據(jù)以上分析,可以直觀地發(fā)現(xiàn)通過事件本體將病毒入侵機制進行知識結構化表示是有必要的。通過本文提出的醫(yī)學知識本體模型對SARS-CoV-2入侵心肌細胞的整個過程采用動態(tài)事件本體形式進行知識結構化表示,可以驗證本文提出的基于事件本體的醫(yī)學知識結構化表示方法能夠更加全面、規(guī)范地描述醫(yī)學知識并清晰地組織醫(yī)學事件,對于快速了解疾病的發(fā)病原因、發(fā)病過程以及藥物初篩都具有非常重要的作用。
醫(yī)學是一門嚴謹?shù)目茖W,僅將疾病、藥物、化學成分、蛋白質、基因等實體進行簡單的關聯(lián)遠遠不夠,還要將其參與的主要的作用機制進行知識結構化描述,只有這樣,計算機才能更加完整地對醫(yī)學知識進行深層次理解,才能更好地為醫(yī)學診斷、治療和防控發(fā)揮積極的借鑒和指導作用,更好地為循證醫(yī)學提供語義化技術手段。
目前,深度學習等方法被廣泛用于提升知識服務精度,但嚴重依賴于計算機對知識粒度的理解能力和區(qū)分能力,通過本體等知識結構化組織方式,將不同知識結構單元及其之間的關聯(lián)關系進行規(guī)范化和概念化,使計算機能夠模擬人類邏輯思維,這為實現(xiàn)醫(yī)學知識計算、知識推理等智能服務奠定了語義基礎。
基于“概念”知識表示單元無法全面揭示復雜的醫(yī)學知識,通過引入“事件”知識表示單元,能夠更好地組織和表示醫(yī)學文本中具有敘事性特征的文本,使計算機和人類能夠更加系統(tǒng)地基于人類邏輯思維理解和推理醫(yī)學知識。因此,本文以“事件”為知識表示單元,引入動態(tài)性作用機制,提出醫(yī)學敘事性文本的概念,并在此基礎上展開一系列探討。首先,從宏觀層面設計了基于敘事性文本的醫(yī)學知識庫構建流程,清晰地闡明了從數(shù)據(jù)收集到醫(yī)學知識庫構建再到醫(yī)學知識挖掘等階段性任務目標,即如何將非結構化醫(yī)學文本數(shù)據(jù)轉化成結構化醫(yī)學數(shù)據(jù)并應用于具體現(xiàn)實場景。其次,根據(jù)是否具有敘事性特征,本文將醫(yī)學文本分為醫(yī)學敘事性文本和醫(yī)學概念性文本,并在此基礎上分別形式化定義醫(yī)學動態(tài)事件本體模型和醫(yī)學靜態(tài)概念本體模型,這為醫(yī)學知識結構化表示的進一步發(fā)展奠定了理論基礎,有助于提高醫(yī)學知識深層次表示的完整性、全面性、系統(tǒng)性,為實現(xiàn)醫(yī)學智能服務提供理論支撐。接著,本文分別對醫(yī)學動態(tài)事件和醫(yī)學靜態(tài)概念進行本體建模,通過結合已有醫(yī)學本體,對醫(yī)學概念性文本中存在實體和實體關系進行語義建模和表示,通過事件知識表示單元對醫(yī)學敘事性文本中存在的事件、事件間關系進行語義建模和表示,從而嚴格定義和區(qū)分醫(yī)學文本中存在的靜態(tài)知識和動態(tài)知識,兩者通過事件元素和概念實體之間的對應關系建立關聯(lián),進而實現(xiàn)醫(yī)學知識本體模型構建。最后,根據(jù)本文提出的醫(yī)學知識本體模型構建框架,以構建SARS-CoV-2病毒入侵過程本體模型為案例,分別從靜態(tài)概念和動態(tài)事件兩個維度對病毒入侵過程進行結構化、語義化描述和表示。通過標注結果說明本文提出的醫(yī)學知識本體模型能夠更好地考慮醫(yī)學本體與學術社交網(wǎng)絡本體之間的關聯(lián)關系,能夠更加完整地表達敘事性醫(yī)學知識,能夠更好地揭示語義結構特征,能夠為藥物初篩等提供支持。
本文的價值在于提出一種面向事件知識表示單元的醫(yī)學知識本體組織方法,為探索基于智能醫(yī)學數(shù)據(jù)環(huán)境下醫(yī)學知識挖掘任務提供底層數(shù)據(jù)支持,為醫(yī)學智能化服務奠定理論基礎,其有助于提高醫(yī)學知識檢索效率和推動醫(yī)學知識的普及,同時有助于提升醫(yī)學知識的深層次利用,通過知識推理、知識挖掘任務提高疾病預防和治療水平,從而真正發(fā)揮醫(yī)學大數(shù)據(jù)背后隱藏的數(shù)據(jù)價值。
在未來的研究中,我們將基于醫(yī)學知識本體模型,采用機器學習等方法實現(xiàn)病毒致病過程本體知識庫自動構建,從而基于知識組織方式還原病毒感染機體的全過程,為病毒感染性疾病提供標準化的人和計算機可解釋的注釋,并在此基礎上,為支持循證醫(yī)學研究和實現(xiàn)藥物發(fā)現(xiàn)等智能推薦任務提供可能。同時,基于醫(yī)學學術社交網(wǎng)絡結構,通過充分考慮論文的質量、影響力以及根據(jù)學者發(fā)表論文情況計算學者對不同醫(yī)學實體的關注程度,發(fā)現(xiàn)擁有共同興趣的研究團隊,為疫情期間合理、高效、有組織地開展醫(yī)學研究提供人力資源決策支持。