◆魏自強(qiáng) 鄭偉偉 許永康
基于百科知識的醫(yī)療數(shù)據(jù)知識圖譜構(gòu)建
◆魏自強(qiáng) 鄭偉偉 許永康
(貴州航天計量測試技術(shù)研究所 貴州 550009)
為解決醫(yī)療數(shù)據(jù)分布龐雜,數(shù)據(jù)間缺乏良好管理與組織,基于高質(zhì)量的百科數(shù)據(jù)和醫(yī)學(xué)本題庫,通過網(wǎng)絡(luò)爬蟲技術(shù)獲取百科數(shù)據(jù),然后對醫(yī)療知識圖譜構(gòu)建過程中的知識抽取、知識融合等關(guān)鍵技術(shù)研究,最后,在Neo4j圖數(shù)據(jù)庫中存儲并對其進(jìn)行可視化展示。
醫(yī)療知識圖譜;網(wǎng)絡(luò)爬蟲;圖數(shù)據(jù)庫
大數(shù)據(jù)時代的到來,醫(yī)療領(lǐng)域的數(shù)據(jù)呈現(xiàn)爆炸式增長。這些醫(yī)療信息蘊(yùn)含著大量的有價值的信息,然而,醫(yī)療人員在面對海量的醫(yī)療數(shù)據(jù)時,可能無法快速準(zhǔn)確地從中獲取關(guān)鍵信息,導(dǎo)致無法高效的診斷疾病,甚至誤診。造成上述問題是醫(yī)療數(shù)據(jù)缺乏緊湊有效的組織結(jié)構(gòu)與形象直觀的可視化查詢方式,沒有形成相應(yīng)的醫(yī)療知識體系,并且國內(nèi)外醫(yī)學(xué)標(biāo)準(zhǔn)不盡相同,許多醫(yī)學(xué)無法直接應(yīng)用[1],難以深層次的數(shù)據(jù)挖掘及應(yīng)用。
知識圖譜(knowledge graph KG)能有效解決上述問題,2012年知識圖譜由谷歌公司提出[2],并將其應(yīng)用到搜索引擎中。知識圖譜已在學(xué)術(shù)界等領(lǐng)域得到了廣泛應(yīng)用,并在推薦系統(tǒng),智能搜索等方面發(fā)揮者不可替代的作用[3]。國外方面,文獻(xiàn)[4]根據(jù)知識圖譜將醫(yī)學(xué)概念與非洲傳統(tǒng)醫(yī)學(xué)的知識工程方法結(jié)合,對復(fù)雜的信息需求進(jìn)行了適當(dāng)建模。文獻(xiàn)[5]從Web內(nèi)容中提取的知識并和現(xiàn)有知識庫中獲得的先驗知識進(jìn)行信息融合。文獻(xiàn)[6]對知識圖譜的提取方法及評估方法做了研究。國內(nèi)方面,文獻(xiàn)[7]結(jié)合萬方醫(yī)學(xué)網(wǎng)收錄的乙肝領(lǐng)域文獻(xiàn),采用文本挖掘技術(shù)構(gòu)建工詞矩陣并繪制乙肝領(lǐng)域的知識圖譜,文獻(xiàn)[8]研究了中醫(yī)知識圖譜構(gòu)建方法,并實現(xiàn)中了醫(yī)藥知識圖譜的應(yīng)用,文獻(xiàn)[9]研究了中醫(yī)辨證治療的知識體系,將知識圖譜與失眠辨證治療結(jié)合,構(gòu)建中醫(yī)個體診斷知識圖譜。與國外向比,國內(nèi)醫(yī)療領(lǐng)域知識圖譜處于起步階段,需構(gòu)建面向各醫(yī)療需求的知識圖譜,以提升國內(nèi)醫(yī)療信息的服務(wù)。
本文以百科醫(yī)療知識如醫(yī)學(xué)概念本題庫、尋醫(yī)問藥網(wǎng)等作為數(shù)據(jù)源,從數(shù)據(jù)收集、知識清洗、知識存儲、圖譜展示等方面,構(gòu)建醫(yī)療數(shù)據(jù)知識圖譜。
知識圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點和標(biāo)注的邊組成[10]。本質(zhì)上是一種實體之間關(guān)系的語言網(wǎng)絡(luò)[11]。知識圖譜中節(jié)點是不同類型的實體,而圖中的邊也是實體間豐富的各種寓意關(guān)系[12]。
知識圖譜基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)屬性-值對,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)[13]。實體是最基本的組成部分,如疾病、藥品、疾病癥狀、食物等;屬性是實體存在的特征如疾病名稱、病因、治療方法、治療周期等;關(guān)系存在與不同實體之間的聯(lián)系如疾病常用藥、疾病宜吃食物、疾病所需檢查等。如圖1為疾病實體類屬性圖。
圖1 疾病實體類屬性圖
醫(yī)學(xué)知識圖譜的構(gòu)建主要目標(biāo)是基于多種數(shù)據(jù)處理技術(shù),多渠道抽取有價值的醫(yī)學(xué)知識,主要以三元組的形式存儲于圖數(shù)據(jù)庫中。醫(yī)學(xué)知識圖譜的構(gòu)建技術(shù)流程如圖2所示。主要通過知識抽取、知識融合、圖譜的構(gòu)建等技術(shù)從多源異構(gòu)數(shù)據(jù)中抽取其中的實體、屬性等關(guān)鍵知識及其關(guān)系[14]。
圖2 知識圖譜構(gòu)建技術(shù)流程
知識圖譜的構(gòu)建主要分為自頂向下和自低向上兩種構(gòu)建方法。自頂向下構(gòu)建知識圖譜在構(gòu)建過程中需要領(lǐng)域?qū)<覙?gòu)建本題庫,從異構(gòu)數(shù)據(jù)源中填充到知識圖譜中。自底向上的構(gòu)建方式直接將抽取數(shù)據(jù)中發(fā)現(xiàn)的實體、關(guān)系和屬性合并到知識圖譜中。自底向上構(gòu)建方式,成本低,自動化程度高。本文根據(jù)實際情況,采用自底向上的構(gòu)建方式構(gòu)建依賴數(shù)據(jù)知識圖譜。本文在綜合考慮醫(yī)療數(shù)據(jù)進(jìn)行剖析,確定醫(yī)療數(shù)據(jù)基本概念,得到樹形結(jié)構(gòu)數(shù)據(jù)模式圖,如圖3所示。
圖3 醫(yī)療知識實體結(jié)構(gòu)示意圖
1.2.1醫(yī)療數(shù)據(jù)抽取
知識圖譜的構(gòu)建首要問題是需要抽取醫(yī)學(xué)知識,而醫(yī)學(xué)領(lǐng)域數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)復(fù)雜,既有結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)又有非結(jié)構(gòu)化數(shù)據(jù)。本文數(shù)據(jù)來源主要是以垂直型醫(yī)療網(wǎng),如從百科醫(yī)療知識、醫(yī)學(xué)概念本題庫、尋醫(yī)問藥網(wǎng);主要通過數(shù)據(jù)爬蟲的方法自動獲取醫(yī)學(xué)數(shù)據(jù)。將數(shù)據(jù)爬蟲獲取的數(shù)據(jù)整合成JSON文件保存,然后對數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗等操作。尋醫(yī)問藥網(wǎng)疾病百科如圖4所示。
圖4 尋醫(yī)問藥網(wǎng)的疾病百科
1.2.2知識融合
利用數(shù)據(jù)抽取,可實現(xiàn)從非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中得到實體、實體的屬性等信息。但這些信息中存在著大量的冗余、錯誤。可以從實體對齊、實體連接兩個方面進(jìn)行知識融合[1]。
(1)屬性對齊
醫(yī)療數(shù)據(jù)來源的多樣性,使醫(yī)療數(shù)據(jù)存在知識重復(fù)、醫(yī)療知識之間的聯(lián)系不夠、多元指代等問題。屬性對齊首先判斷多源異構(gòu)數(shù)據(jù)中的實體是否指向真實世界同一對象。實體對齊可采用成對實體對齊和集體實體對齊兩種方式。
(2)實體連接
實體連接是指實體對象連接到知識庫中對應(yīng)的正確對象的操作[15]。實體鏈接的基本思想是首先根據(jù)給定的實體指稱項,從知識庫中選出一組候選實體對象,然后通過相似度計算將指稱項鏈接到正確的實體對象。
本文以疾病為核心,從檢查、科室、疾病、癥狀等方面構(gòu)建7類實體。表1為實體統(tǒng)計表。
表1 實體統(tǒng)計表
本文采用Neo4j可數(shù)據(jù)庫進(jìn)行存儲和可視化展示。如圖5所示。
圖5 醫(yī)療知識圖譜
對于急性中毒患者家屬可根據(jù)圖6反饋的查詢信息,快速采取措施,如“立即脫離現(xiàn)場至空氣新鮮處,脫去污染的衣著,并用肥皂水或清水沖洗污染的皮膚,并即時送往醫(yī)院急診科;醫(yī)生根據(jù)患者癥狀,根據(jù)圖6所示反饋的查詢信息,建議該病人進(jìn)行“血常規(guī)”等相關(guān)檢查,以確定患者是什么類型中毒。
圖6 醫(yī)療決策幫助的查詢實例
知識圖譜,可應(yīng)用于醫(yī)療信息搜索引擎、醫(yī)療問答系統(tǒng)、醫(yī)療決策支持系統(tǒng)。醫(yī)療信息搜索引擎結(jié)合元搜索引擎和知識庫的搜索引擎,聚合權(quán)威的知識、醫(yī)療、學(xué)術(shù)網(wǎng)站為用戶提供包括維基百科、知乎問答等;醫(yī)療問答系統(tǒng)對知識庫整合,利用自然語言處理技術(shù)的應(yīng)用來生成和處理問題,最后從知識庫中提取答案;醫(yī)療決策支持系統(tǒng)以患者的癥狀描述、化驗等數(shù)據(jù),為醫(yī)生提供智能診斷,治療方案的推薦,轉(zhuǎn)診指南,還可以針對醫(yī)生的診斷方案進(jìn)行分析、查漏補(bǔ)缺,減少或避免誤診。
本文充分闡釋了知識圖譜的發(fā)展、定義及構(gòu)建。通過網(wǎng)絡(luò)爬蟲技術(shù)獲取網(wǎng)頁中高質(zhì)量的百科醫(yī)療數(shù)據(jù),在通過知識融合等技術(shù)消除冗余、錯誤信息。最后利用Neo4j圖數(shù)據(jù)庫進(jìn)行存儲和展示。
未來的工作將研究屬性對圖數(shù)據(jù)隱私推理的影響。
[1]付洋,劉茂福,喬瑞.心臟病中文知識圖譜的構(gòu)建[J/OL].武漢大學(xué)學(xué)報(理學(xué)版),2020(03):261-267.
[2]Pujara J,Miao H,Getoor L,et al. KnowledgeGraph Identification[C]// International Semantic Web Conference. Springer,Berlin,Heidelberg,2013.
[3]Heiko Paulheim. Knowledge graph refinement: A survey of approaches and evaluation methods. 2016,8(3):489-508.
[4]Kamsu-Foguem B,Diallo G,F(xiàn)oguem C.Conceptual graph-based knowledge representation for supporting reasoning in African traditional medicine[J]. Engineering Applications of Artificial Intelligence,2013,26(4):1348-1365.
[5]Dong X,Gabrilovich E,Heitz G,et al. Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C]. ACM,2014.
[6]Paulheim,Heiko.Knowledge Graph Refinement:A Survey of Approaches and Evaluation Methods[J]. Semantic Web,2017.
[7]劉俊麗,張秀梅,蔣勇青.基于文本挖掘的乙型肝炎相關(guān)文獻(xiàn)知識圖譜分析[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(01):48-53.
[8]阮彤,孫程琳,王昊奮,方之家,殷亦超.中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(04):8-13.
[9]李新龍.中醫(yī)師辨證論治失眠癥知識圖譜構(gòu)建方法研究[D].中國中醫(yī)科學(xué)院,2018.
[10]侯夢薇,衛(wèi)榮,陸亮,蘭欣,蔡宏偉.知識圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J].計算機(jī)研究與發(fā)展,2018,55(12):2587-2599.
[11]Nickel M,Murphy K,Tresp V,et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE,2016,104(1):11-33.
[12]侯夢薇,衛(wèi)榮,陸亮,蘭欣,蔡宏偉.知識圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J].計算機(jī)研究與發(fā)展,2018,55(12):2587-2599.
[13]劉嶠,李楊,段宏,劉瑤,秦志光.知識圖譜構(gòu)建技術(shù)綜述[J].計算機(jī)研究與發(fā)展,2016,53(03):582-600.
[14]車金立,唐力偉,鄧士杰,蘇續(xù)軍.基于百科知識的軍事裝備知識圖譜構(gòu)建與應(yīng)用[J].兵器裝備工程學(xué)報,2019,40(01):148-153.
[15]Li Y,Wang C,Han F,et al. Mining evidences for named entity disambiguation[C]/ACM,2013.
貴州省科技計劃課題(黔科合支持[2019]2004號)