羊艷玲 李 燕 帥亞琦 陳月月
(甘肅中醫(yī)藥大學(xué)信息工程學(xué)院 蘭州 730000)
經(jīng)過幾千年的發(fā)展中醫(yī)學(xué)積累了豐富的臨床經(jīng)驗,形成眾多經(jīng)典理論。如何運用信息科學(xué)技術(shù)挖掘、整理與分析中醫(yī)學(xué)知識體系以及隱含在醫(yī)案文獻中的學(xué)術(shù)思想、臨床經(jīng)驗和辨證方法是值得探討的重要課題。隨著信息技術(shù)不斷發(fā)展,可視化技術(shù)越來越成熟,在知識工程領(lǐng)域引進知識圖譜概念,使用知識圖譜的主要目的是描述現(xiàn)實世界的概念、實體及其之間的相互關(guān)系,從而實現(xiàn)對知識的共建、共享以及重用[1]。在現(xiàn)代中醫(yī)藥領(lǐng)域,知識圖譜能夠為中醫(yī)臨床診治提供方向,其應(yīng)用領(lǐng)域越來越廣。于彤、劉靜和賈李蓉等[2]以中醫(yī)藥學(xué)語言為骨架構(gòu)建大型中醫(yī)藥知識圖譜;張德政、謝永紅和李曼等[1]提出基于本體的中醫(yī)核心知識圖譜及其構(gòu)建方法;聶莉莉、李傳富和許曉倩等[3]基于自然語言處理方法自動構(gòu)建基于“疾病-癥候-特征”3層結(jié)構(gòu)模型的醫(yī)學(xué)診斷知識圖譜。本文擬在已有研究基礎(chǔ)上進一步利用知識語義化、數(shù)據(jù)易關(guān)聯(lián)的特性將中醫(yī)醫(yī)案中蘊藏的知識結(jié)構(gòu)或相互關(guān)系予以可視化展示,主要圍繞中醫(yī)診療路徑展開,完整的診療路徑以癥狀為出發(fā)點,依次為證候、治法、處方、藥物,具有邏輯鮮明的層次關(guān)系特征,以期為名老中醫(yī)傳承經(jīng)驗提供參考。
知識圖譜是大數(shù)據(jù)時代背景下針對海量知識的一種新型管理與服務(wù)模式,被視為一張巨大的圖,其中節(jié)點表示實體,邊代表實體間的語義關(guān)系。知識圖譜通過對結(jié)構(gòu)分散的知識進行重新組織、匯聚整理,提高知識資源關(guān)聯(lián)與整合程度,為解決“知識孤島”問題提供理想的技術(shù)手段[4]。目前知識圖譜構(gòu)建過程主要包括數(shù)據(jù)獲取、知識抽取、知識融合和知識加工4個步驟[5]。其中數(shù)據(jù)獲取是基礎(chǔ),數(shù)據(jù)源包括結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),知識圖譜應(yīng)用于醫(yī)療領(lǐng)域時,主要的數(shù)據(jù)來源為醫(yī)學(xué)專業(yè)論文、書籍文獻、醫(yī)案和電子病歷等。知識抽取的基本原理是將已有非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中的知識用不同種格式或表示方法提煉出來,清晰展示數(shù)據(jù)中包括的主要內(nèi)容,再將其處理為相同形式數(shù)據(jù)的過程,主要包括實體抽取、關(guān)系抽取和屬性抽取3個部分。在獲取實體、關(guān)系及屬性信息后,要對其進行清理和整合,即知識融合,包括共指解析和實體消歧,保證知識的正確性和邏輯性。最后通過知識加工,包括本體抽取、知識推理、知識發(fā)現(xiàn)和質(zhì)量評估,最終得到結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識體系形成的知識圖譜,見圖1。
圖1 知識圖譜構(gòu)建過程
本文研究數(shù)據(jù)主要來源于中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所研制的古今醫(yī)案云平臺軟件[6],整理平臺上所有與高血壓疾病相關(guān)的中醫(yī)醫(yī)案。納入標準如下:醫(yī)案中明確記載診斷為高血壓或眩暈的患者;就診時的主訴辨治以高血壓為主;數(shù)據(jù)完整,包含臨床表現(xiàn)、病機分析、治法和用藥等內(nèi)容。依照權(quán)威診斷標準和名師指導(dǎo)意見對平臺中高血壓疾病相關(guān)醫(yī)案進行手動檢索與篩選,并對其內(nèi)容進行規(guī)范,按照序號、ID、患者姓名、性別、年齡、醫(yī)案內(nèi)容、中醫(yī)疾病、證候和醫(yī)案來源等類別錄入到Excel中。研究過程中對中醫(yī)醫(yī)案中用作訓(xùn)練的數(shù)據(jù)集進行整合,用單字切分原始文本,對訓(xùn)練集中的所有語句按照疾病、癥狀、證候、治法、處方進行分類,最后共錄入435條醫(yī)案數(shù)據(jù)。
中醫(yī)醫(yī)案是醫(yī)者在診療過程中自然語言的描述,其表述缺乏規(guī)范性和標準性。目前中醫(yī)醫(yī)學(xué)詞典和知識庫較少,增加了學(xué)者研究醫(yī)學(xué)知識圖譜的成本和難度。此外由于中醫(yī)醫(yī)案尚未統(tǒng)一,具有多樣化特點,對于醫(yī)案術(shù)語、計量單位等未做明確要求,同一個實體有多種表達形式,難以適應(yīng)信息時代要求,也為醫(yī)學(xué)實體消歧帶來困難。針對上述問題進行以下處理:首先將已整理的醫(yī)案導(dǎo)入古今醫(yī)案云平臺進行標準化,黑色字體代表與標準表完全匹配,已被標準化;原始值紅色,標準值黑色代表模糊匹配標準值,提示可查看是否匹配正確;皆為紅色表示匹配不到標準值,可進行選擇操作。如“心虛肝郁、痰火擾心=肝郁證,痰火證”“化瘀滌痰=化瘀”等,依據(jù)標準替換不規(guī)范的術(shù)語,把握圖譜節(jié)點內(nèi)容的一致性。
序列標注即對給定序列中的元素進行標注,賦予對應(yīng)標簽,并在這些標簽基礎(chǔ)上對序列做進一步深度分析,是自然語言處理過程中常需解決的問題。對于實體識別的等量標注任務(wù),標簽由兩部分組成:實體類別和實體中的位置。采用BIO表示實體類別和位置,將每個元素標注為“B-X”“I-X”或者“O”,再以字符作為最小標注單元。在BIO表示中,B代表實體頭部,I表示中間實體,O代表實體尾部,X表示實體類型。在標注過程中,對中醫(yī)實體以“標簽,實體”形式將其歸屬到對應(yīng)的中醫(yī)類別,見表1。
表1 BIO標簽集
知識圖譜本質(zhì)是定義實體和實體之間聯(lián)系知識的關(guān)系。實體作為圖譜知識節(jié)點的一種表現(xiàn)方法,主要目的是用來表達知識結(jié)構(gòu)與概念之間的關(guān)系。知識圖譜集中每個實體都包含其名稱、定義和注釋。通常將實體關(guān)系定義為<實體、關(guān)系、實體>,其中實體是疾病、癥狀、證候、治法、處方和藥物,并且關(guān)系可用于連接兩個實體[7]。最終共確定632個實體、495種關(guān)系,其之間的關(guān)聯(lián),見圖2。
圖2 中醫(yī)實體關(guān)系層
知識圖譜是一種可以使用屬性圖模型來表示的圖數(shù)據(jù)結(jié)構(gòu),屬性圖模型主要是由節(jié)點和連邊組成,節(jié)點在知識圖譜概念中表示現(xiàn)實世界中的實體,連邊用來表示實體與實體之間的關(guān)系,而且節(jié)點和連邊可以包含多個屬性,即通過節(jié)點集合和邊集合構(gòu)造關(guān)系圖。其中節(jié)點表示數(shù)據(jù)集中識別出的命名實體,其具有唯一的標識符和若干條屬性值;邊表示數(shù)據(jù)集中抽取的命名實體之間的關(guān)系,其具有唯一標識符和若干條屬性值[8]。在簡單的屬性圖模型中,“眩暈”包含“肝腎虧虛,血絡(luò)瘀阻”,繼而表現(xiàn)“頭暈?zāi)垦!?。?jié)點表示數(shù)據(jù)集中識別的實體,“眩暈”為疾病實體,具有別名、并發(fā)癥、證候等屬性值;“肝腎虧虛,血絡(luò)瘀阻”為證候?qū)嶓w,具有癥狀、類型等屬性值;“頭暈?zāi)垦!睘榘Y狀實體,具有類型、表現(xiàn)部位等屬性值。邊集合中關(guān)系表示為D Include S Represent S′,其中D表示疾病(Disease),S表示證候(Syndrome),S′表示癥狀(Symptom),見圖3。
圖3 疾病、癥狀、證候?qū)傩詧D模型
知識圖譜的最大優(yōu)點是可以利用空間形象的表現(xiàn)來展示知識點間的聯(lián)系。在可視化展示方面,以圖結(jié)構(gòu)存儲知識并通過Neo4j實現(xiàn)可視化階段,在眾多數(shù)據(jù)庫系統(tǒng)中Neo4j具有高性能、設(shè)計靈活、開發(fā)便捷等優(yōu)勢,用戶可以使用Cypher語言操作數(shù)據(jù)[9]。Neo4j最重要的兩個元素是實體和實體之間的關(guān)系,分別為節(jié)點和連邊。
可視化是指將知識單元之間的關(guān)系轉(zhuǎn)化為能夠更好理解的圖形形式,用以表現(xiàn)抽象的事物。Neo4j控制臺的圖形界面具有將存儲的知識單元和知識單元之間的關(guān)系轉(zhuǎn)換為知識圖的功能,可以方便地查看知識圖中的關(guān)系信息[10]。Neo4j批量導(dǎo)入前文提取的實體和關(guān)系后,采用Cypher查詢語言獲取滿足條件的數(shù)據(jù),以可視化圖形展示出來。數(shù)據(jù)可視化用于基于知識圖的查詢結(jié)果可視化,包括中醫(yī)知識查詢和中醫(yī)診療路徑。圖4、圖5分別展示本文提取的實體及關(guān)系的部分可視化圖,在圖譜中可以自定義圖譜內(nèi)容以顯示更為清晰的內(nèi)容,在圖譜中關(guān)系圖中連邊表示不同類別實體間的語義關(guān)系,圖4為疾病-癥狀-證候(Disease Include Syndrome,Syndrome Represent Symptom)可視化圖,西醫(yī)高血壓在中醫(yī)中主要以“眩暈”和“頭痛”進行表述,證候主要是“肝腎陰虛”“肝火上炎”“脈絡(luò)瘀阻”“氣機不暢”等。圖5展示治法-處方,每個治法對應(yīng)相應(yīng)的處方,也可以看到不同處方之間藥物也有所關(guān)聯(lián)。從圖中看到高血壓的中醫(yī)名稱不具有唯一性,一個具體的疾病實體關(guān)聯(lián)著多個不同的癥狀實體,且一個具體癥狀實體關(guān)聯(lián)著不同疾病。因此將疾病實體與癥狀實體對應(yīng)后,可以根據(jù)患者表現(xiàn)出的癥狀推斷患者可能患有的疾病,根據(jù)癥狀信息,基于知識圖譜,結(jié)合多種中醫(yī)方法進行辨證論治策略的推薦。知識圖譜能夠幫助用戶快速發(fā)現(xiàn)所關(guān)注的知識擴展及衍生,更好地掌握中醫(yī)藥知識體系,并在瀏覽中發(fā)現(xiàn)具有潛在關(guān)聯(lián)的“知識孤島”。
圖4 疾病-癥狀-證候可視化
圖5 治法-處方可視化
中醫(yī)學(xué)的診療主旨為“辨證論治”,在中醫(yī)醫(yī)案中有充分體現(xiàn)。中醫(yī)醫(yī)案的記錄以辨證思路為核心,強調(diào)名老中醫(yī)之間的差異性[11]。中醫(yī)藥知識圖譜的構(gòu)建實質(zhì)是中醫(yī)醫(yī)案到知識圖譜的知識轉(zhuǎn)換,是一個知識抽象和歸納的過程。在這個過程中,一方面基于中醫(yī)醫(yī)案等臨床知識源,通過疾病、證候、癥狀、治法、處方等核心概念對醫(yī)案文本進行分析和標注,完成知識抽??;另一方面,構(gòu)建中醫(yī)醫(yī)案知識圖譜實現(xiàn)醫(yī)藥知識的結(jié)構(gòu)化表示。將知識圖譜應(yīng)用于中醫(yī)臨床,可實現(xiàn)智能化、個性化的中醫(yī)藥服務(wù),促進與中醫(yī)臨床互融互通,揭示中醫(yī)實體間的相關(guān)關(guān)系,輔助醫(yī)生臨床研究與決策。但是當前不同醫(yī)案相對零散且大多基于非結(jié)構(gòu)化數(shù)據(jù),較難對醫(yī)案中的知識進行高效管理。針對上述問題,本文將醫(yī)案中疾病、癥狀、證候、治法、處方、藥物實體進行命名實體識別和抽取,在此基礎(chǔ)上以知識圖譜的形式將其關(guān)聯(lián)起來探索其中關(guān)系,以“病證癥”結(jié)合的方式探討高血壓相關(guān)的中醫(yī)疾病名稱對應(yīng)的癥狀所關(guān)聯(lián)的治法;以“方藥”結(jié)合探索該治法所涉及處方以及對應(yīng)的藥物組成。本文采用的中醫(yī)領(lǐng)域知識有限,構(gòu)建的中醫(yī)知識圖譜只是一個實驗性知識庫,相較于大型知識圖譜,本文所構(gòu)建的知識圖譜中的實體以及實體間的關(guān)系較簡單,需要更多中醫(yī)專家參與進一步完善;且因不同醫(yī)家對疾病的具體證型和劃分標準存在差異,在對不同名老中醫(yī)醫(yī)案進行收集和整理時較難實現(xiàn)標準化和規(guī)范化。隨著醫(yī)案數(shù)量增加和中醫(yī)藥臨床知識劃分標準的形成,知識圖譜與中醫(yī)藥文獻、醫(yī)案、電子病歷等的知識聯(lián)系,在中醫(yī)藥事業(yè)發(fā)展、全方面醫(yī)學(xué)領(lǐng)域知識圖譜構(gòu)建方面將發(fā)揮更加重要的作用。