亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于百科知識的醫(yī)療數(shù)據(jù)知識圖譜構(gòu)建

2020-10-14 01:03:52魏自強(qiáng)鄭偉偉許永康

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2020年10期

◆魏自強(qiáng) 鄭偉偉許永康

◆魏自強(qiáng) 鄭偉偉許永康

（貴州航天計量測試技術(shù)研究所貴州 550009）

為解決醫(yī)療數(shù)據(jù)分布龐雜，數(shù)據(jù)間缺乏良好管理與組織，基于高質(zhì)量的百科數(shù)據(jù)和醫(yī)學(xué)本題庫，通過網(wǎng)絡(luò)爬蟲技術(shù)獲取百科數(shù)據(jù)，然后對醫(yī)療知識圖譜構(gòu)建過程中的知識抽取、知識融合等關(guān)鍵技術(shù)研究，最后，在Neo4j圖數(shù)據(jù)庫中存儲并對其進(jìn)行可視化展示。

醫(yī)療知識圖譜；網(wǎng)絡(luò)爬蟲；圖數(shù)據(jù)庫

大數(shù)據(jù)時代的到來，醫(yī)療領(lǐng)域的數(shù)據(jù)呈現(xiàn)爆炸式增長。這些醫(yī)療信息蘊(yùn)含著大量的有價值的信息，然而，醫(yī)療人員在面對海量的醫(yī)療數(shù)據(jù)時，可能無法快速準(zhǔn)確地從中獲取關(guān)鍵信息，導(dǎo)致無法高效的診斷疾病，甚至誤診。造成上述問題是醫(yī)療數(shù)據(jù)缺乏緊湊有效的組織結(jié)構(gòu)與形象直觀的可視化查詢方式，沒有形成相應(yīng)的醫(yī)療知識體系，并且國內(nèi)外醫(yī)學(xué)標(biāo)準(zhǔn)不盡相同，許多醫(yī)學(xué)無法直接應(yīng)用[1]，難以深層次的數(shù)據(jù)挖掘及應(yīng)用。

知識圖譜（knowledge graph KG）能有效解決上述問題，2012年知識圖譜由谷歌公司提出[2]，并將其應(yīng)用到搜索引擎中。知識圖譜已在學(xué)術(shù)界等領(lǐng)域得到了廣泛應(yīng)用，并在推薦系統(tǒng)，智能搜索等方面發(fā)揮者不可替代的作用[3]。國外方面，文獻(xiàn)[4]根據(jù)知識圖譜將醫(yī)學(xué)概念與非洲傳統(tǒng)醫(yī)學(xué)的知識工程方法結(jié)合，對復(fù)雜的信息需求進(jìn)行了適當(dāng)建模。文獻(xiàn)[5]從Web內(nèi)容中提取的知識并和現(xiàn)有知識庫中獲得的先驗知識進(jìn)行信息融合。文獻(xiàn)[6]對知識圖譜的提取方法及評估方法做了研究。國內(nèi)方面，文獻(xiàn)[7]結(jié)合萬方醫(yī)學(xué)網(wǎng)收錄的乙肝領(lǐng)域文獻(xiàn)，采用文本挖掘技術(shù)構(gòu)建工詞矩陣并繪制乙肝領(lǐng)域的知識圖譜，文獻(xiàn)[8]研究了中醫(yī)知識圖譜構(gòu)建方法，并實現(xiàn)中了醫(yī)藥知識圖譜的應(yīng)用，文獻(xiàn)[9]研究了中醫(yī)辨證治療的知識體系，將知識圖譜與失眠辨證治療結(jié)合，構(gòu)建中醫(yī)個體診斷知識圖譜。與國外向比，國內(nèi)醫(yī)療領(lǐng)域知識圖譜處于起步階段，需構(gòu)建面向各醫(yī)療需求的知識圖譜，以提升國內(nèi)醫(yī)療信息的服務(wù)。

本文以百科醫(yī)療知識如醫(yī)學(xué)概念本題庫、尋醫(yī)問藥網(wǎng)等作為數(shù)據(jù)源，從數(shù)據(jù)收集、知識清洗、知識存儲、圖譜展示等方面，構(gòu)建醫(yī)療數(shù)據(jù)知識圖譜。

1 知識圖譜技術(shù)架構(gòu)

1.1 基本定義

知識圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu)，由節(jié)點和標(biāo)注的邊組成[10]。本質(zhì)上是一種實體之間關(guān)系的語言網(wǎng)絡(luò)[11]。知識圖譜中節(jié)點是不同類型的實體，而圖中的邊也是實體間豐富的各種寓意關(guān)系[12]。

知識圖譜基本組成單位是“實體－關(guān)系－實體”三元組，以及實體及其相關(guān)屬性－值對，實體間通過關(guān)系相互聯(lián)結(jié)，構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)[13]。實體是最基本的組成部分，如疾病、藥品、疾病癥狀、食物等；屬性是實體存在的特征如疾病名稱、病因、治療方法、治療周期等；關(guān)系存在與不同實體之間的聯(lián)系如疾病常用藥、疾病宜吃食物、疾病所需檢查等。如圖1為疾病實體類屬性圖。

圖1 疾病實體類屬性圖

1.2 體系架構(gòu)

醫(yī)學(xué)知識圖譜的構(gòu)建主要目標(biāo)是基于多種數(shù)據(jù)處理技術(shù)，多渠道抽取有價值的醫(yī)學(xué)知識，主要以三元組的形式存儲于圖數(shù)據(jù)庫中。醫(yī)學(xué)知識圖譜的構(gòu)建技術(shù)流程如圖2所示。主要通過知識抽取、知識融合、圖譜的構(gòu)建等技術(shù)從多源異構(gòu)數(shù)據(jù)中抽取其中的實體、屬性等關(guān)鍵知識及其關(guān)系[14]。

圖2 知識圖譜構(gòu)建技術(shù)流程

知識圖譜的構(gòu)建主要分為自頂向下和自低向上兩種構(gòu)建方法。自頂向下構(gòu)建知識圖譜在構(gòu)建過程中需要領(lǐng)域?qū)＜覙?gòu)建本題庫，從異構(gòu)數(shù)據(jù)源中填充到知識圖譜中。自底向上的構(gòu)建方式直接將抽取數(shù)據(jù)中發(fā)現(xiàn)的實體、關(guān)系和屬性合并到知識圖譜中。自底向上構(gòu)建方式，成本低，自動化程度高。本文根據(jù)實際情況，采用自底向上的構(gòu)建方式構(gòu)建依賴數(shù)據(jù)知識圖譜。本文在綜合考慮醫(yī)療數(shù)據(jù)進(jìn)行剖析，確定醫(yī)療數(shù)據(jù)基本概念，得到樹形結(jié)構(gòu)數(shù)據(jù)模式圖，如圖3所示。

圖3 醫(yī)療知識實體結(jié)構(gòu)示意圖

1.2.1醫(yī)療數(shù)據(jù)抽取

知識圖譜的構(gòu)建首要問題是需要抽取醫(yī)學(xué)知識，而醫(yī)學(xué)領(lǐng)域數(shù)據(jù)，數(shù)據(jù)結(jié)構(gòu)復(fù)雜，既有結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化數(shù)據(jù)又有非結(jié)構(gòu)化數(shù)據(jù)。本文數(shù)據(jù)來源主要是以垂直型醫(yī)療網(wǎng)，如從百科醫(yī)療知識、醫(yī)學(xué)概念本題庫、尋醫(yī)問藥網(wǎng)；主要通過數(shù)據(jù)爬蟲的方法自動獲取醫(yī)學(xué)數(shù)據(jù)。將數(shù)據(jù)爬蟲獲取的數(shù)據(jù)整合成JSON文件保存，然后對數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗等操作。尋醫(yī)問藥網(wǎng)疾病百科如圖4所示。

圖4 尋醫(yī)問藥網(wǎng)的疾病百科

1.2.2知識融合

利用數(shù)據(jù)抽取，可實現(xiàn)從非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中得到實體、實體的屬性等信息。但這些信息中存在著大量的冗余、錯誤。可以從實體對齊、實體連接兩個方面進(jìn)行知識融合[1]。

（1）屬性對齊

醫(yī)療數(shù)據(jù)來源的多樣性，使醫(yī)療數(shù)據(jù)存在知識重復(fù)、醫(yī)療知識之間的聯(lián)系不夠、多元指代等問題。屬性對齊首先判斷多源異構(gòu)數(shù)據(jù)中的實體是否指向真實世界同一對象。實體對齊可采用成對實體對齊和集體實體對齊兩種方式。

（2）實體連接

實體連接是指實體對象連接到知識庫中對應(yīng)的正確對象的操作[15]。實體鏈接的基本思想是首先根據(jù)給定的實體指稱項，從知識庫中選出一組候選實體對象，然后通過相似度計算將指稱項鏈接到正確的實體對象。

2 知識圖譜可視化與應(yīng)用

2.1 圖譜可視化展示

本文以疾病為核心，從檢查、科室、疾病、癥狀等方面構(gòu)建7類實體。表1為實體統(tǒng)計表。

表1 實體統(tǒng)計表

本文采用Neo4j可數(shù)據(jù)庫進(jìn)行存儲和可視化展示。如圖5所示。

圖5 醫(yī)療知識圖譜

對于急性中毒患者家屬可根據(jù)圖6反饋的查詢信息，快速采取措施，如“立即脫離現(xiàn)場至空氣新鮮處，脫去污染的衣著，并用肥皂水或清水沖洗污染的皮膚，并即時送往醫(yī)院急診科；醫(yī)生根據(jù)患者癥狀，根據(jù)圖6所示反饋的查詢信息，建議該病人進(jìn)行“血常規(guī)”等相關(guān)檢查，以確定患者是什么類型中毒。

圖6 醫(yī)療決策幫助的查詢實例

2.2 應(yīng)用

知識圖譜，可應(yīng)用于醫(yī)療信息搜索引擎、醫(yī)療問答系統(tǒng)、醫(yī)療決策支持系統(tǒng)。醫(yī)療信息搜索引擎結(jié)合元搜索引擎和知識庫的搜索引擎，聚合權(quán)威的知識、醫(yī)療、學(xué)術(shù)網(wǎng)站為用戶提供包括維基百科、知乎問答等；醫(yī)療問答系統(tǒng)對知識庫整合，利用自然語言處理技術(shù)的應(yīng)用來生成和處理問題，最后從知識庫中提取答案；醫(yī)療決策支持系統(tǒng)以患者的癥狀描述、化驗等數(shù)據(jù)，為醫(yī)生提供智能診斷，治療方案的推薦，轉(zhuǎn)診指南，還可以針對醫(yī)生的診斷方案進(jìn)行分析、查漏補(bǔ)缺，減少或避免誤診。

3 結(jié)語

本文充分闡釋了知識圖譜的發(fā)展、定義及構(gòu)建。通過網(wǎng)絡(luò)爬蟲技術(shù)獲取網(wǎng)頁中高質(zhì)量的百科醫(yī)療數(shù)據(jù)，在通過知識融合等技術(shù)消除冗余、錯誤信息。最后利用Neo4j圖數(shù)據(jù)庫進(jìn)行存儲和展示。

未來的工作將研究屬性對圖數(shù)據(jù)隱私推理的影響。

[1]付洋，劉茂福，喬瑞.心臟病中文知識圖譜的構(gòu)建[J/OL].武漢大學(xué)學(xué)報（理學(xué)版），2020（03）：261-267.

[2]Pujara J，Miao H，Getoor L，et al. KnowledgeGraph Identification[C]// International Semantic Web Conference. Springer，Berlin，Heidelberg，2013.

[3]Heiko Paulheim. Knowledge graph refinement： A survey of approaches and evaluation methods. 2016，8（3）：489-508.

[4]Kamsu-Foguem B，Diallo G，F(xiàn)oguem C.Conceptual graph-based knowledge representation for supporting reasoning in African traditional medicine[J]. Engineering Applications of Artificial Intelligence，2013，26（4）：1348-1365.

[5]Dong X，Gabrilovich E，Heitz G，et al. Knowledge vault：a web-scale approach to probabilistic knowledge fusion[C]. ACM，2014.

[6]Paulheim，Heiko.Knowledge Graph Refinement：A Survey of Approaches and Evaluation Methods[J]. Semantic Web，2017.

[7]劉俊麗，張秀梅，蔣勇青.基于文本挖掘的乙型肝炎相關(guān)文獻(xiàn)知識圖譜分析[J].醫(yī)學(xué)信息學(xué)雜志，2014，35（01）：48-53.

[8]阮彤，孫程琳，王昊奮，方之家，殷亦超.中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志，2016，37（04）：8-13.

[9]李新龍.中醫(yī)師辨證論治失眠癥知識圖譜構(gòu)建方法研究[D].中國中醫(yī)科學(xué)院，2018.

[10]侯夢薇，衛(wèi)榮，陸亮，蘭欣，蔡宏偉.知識圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J].計算機(jī)研究與發(fā)展，2018，55（12）：2587-2599.

[11]Nickel M，Murphy K，Tresp V，et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE，2016，104（1）：11-33.

[12]侯夢薇，衛(wèi)榮，陸亮，蘭欣，蔡宏偉.知識圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J].計算機(jī)研究與發(fā)展，2018，55（12）：2587-2599.

[13]劉嶠，李楊，段宏，劉瑤，秦志光.知識圖譜構(gòu)建技術(shù)綜述[J].計算機(jī)研究與發(fā)展，2016，53（03）：582-600.

[14]車金立，唐力偉，鄧士杰，蘇續(xù)軍.基于百科知識的軍事裝備知識圖譜構(gòu)建與應(yīng)用[J].兵器裝備工程學(xué)報，2019，40（01）：148-153.

[15]Li Y，Wang C，Han F，et al. Mining evidences for named entity disambiguation[C]/ACM，2013.

貴州省科技計劃課題（黔科合支持[2019]2004號）

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2020年10期

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用的其它文章: 我國通信工程的發(fā)展特點、現(xiàn)狀及發(fā)展前景; 網(wǎng)絡(luò)空間安全的語法規(guī)范化研究; 福建地震信息系統(tǒng)等級保護(hù)應(yīng)用實踐; 電子信息技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用分析; 智能化熱網(wǎng)運行管控系統(tǒng)建設(shè)與應(yīng)用; 醫(yī)院門診信息系統(tǒng)的故障及管理研究