崔 潔 陳德華 樂嘉錦
1(東華大學(xué)旭日工商管理學(xué)院 上海 200051) 2(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院計算機(jī)中心 上海 200025) 3(東華大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 上海 200051)
基于EMR的乳腺腫瘤知識圖譜構(gòu)建研究
崔 潔1,2陳德華3*樂嘉錦3
1(東華大學(xué)旭日工商管理學(xué)院 上海 200051)2(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院計算機(jī)中心 上海 200025)3(東華大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 上海 200051)
知識圖譜作為一種描述實體及其聯(lián)系的新方法,在醫(yī)學(xué)領(lǐng)域也逐漸得到關(guān)注,出現(xiàn)了多種醫(yī)學(xué)知識圖譜。但是這些醫(yī)學(xué)知識圖譜的知識大多來源于公開的醫(yī)學(xué)文獻(xiàn),較少涉及到EMR電子病歷。EMR電子病歷涵蓋了醫(yī)院各科室各病種的患者診療全過程數(shù)據(jù),具有豐富的醫(yī)療事實知識,是醫(yī)學(xué)知識圖譜的重要知識來源。為此,以乳腺腫瘤這一具體病種為應(yīng)用實例,結(jié)合知識圖譜技術(shù)的基本原理,給出了乳腺腫瘤知識圖譜的定義;結(jié)合上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院的實際EMR電子病歷數(shù)據(jù)集,通過知識抽取技術(shù)從EMR中提取乳腺腫瘤醫(yī)療事實知識。在此基礎(chǔ)上提出乳腺腫瘤知識圖譜的構(gòu)建方法。
EMR 乳腺腫瘤 知識圖譜 信息轉(zhuǎn)化
EMR電子病歷記錄了醫(yī)院各科室患者在診療過程中所產(chǎn)生的各種數(shù)據(jù),包括患者基本信息、診斷數(shù)據(jù)、檢驗數(shù)據(jù)、檢查數(shù)據(jù)、用藥數(shù)據(jù)、出院小結(jié)等。這些數(shù)據(jù)反映了醫(yī)院內(nèi)部真實發(fā)生的各種醫(yī)療事實,例如“某患者經(jīng)超聲檢查被診斷為乳腺癌IV期”則包含了兩種類型的醫(yī)療事實,即該患者的檢查事實和診斷事實??梢姡珽MR經(jīng)過記錄數(shù)據(jù)間的關(guān)聯(lián),可形成各種醫(yī)療事實知識。這種醫(yī)療事實知識表現(xiàn)為各種醫(yī)學(xué)實體如患者實體、基本信息實體、就診實體、檢查實體、診斷實體,以及各種實體之間的關(guān)系如患者實體與檢查實體之間存在檢查關(guān)系。EMR電子病歷有著豐富的醫(yī)學(xué)事實知識,是醫(yī)學(xué)知識的重要組成部分。
知識圖譜(Knowledge Graph)作為一種新的知識表示方法,屬于語義網(wǎng)范疇[1],其基本原理是借助圖模型來刻畫和描述現(xiàn)實世界中存在的各種實體或概念,建立這些實體或概念之間的關(guān)聯(lián)關(guān)系,表達(dá)相關(guān)領(lǐng)域?qū)嶓w或概念之間的語義關(guān)系。目前,業(yè)界已提出許多通用的知識圖譜,以谷歌公司的搜索知識圖譜最為典型Google Knowledge Graph[2]。與此同時,由于知識圖譜具有知識語義化、數(shù)據(jù)易關(guān)聯(lián)、易擴(kuò)充等特性[3],國內(nèi)醫(yī)療信息學(xué)領(lǐng)域也開始逐漸開展醫(yī)學(xué)知識圖譜的構(gòu)建工作,也提出了多種醫(yī)學(xué)知識圖譜,包括中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所基于已有的中醫(yī)藥學(xué)語言系統(tǒng)構(gòu)建的中醫(yī)藥知識圖譜[4],基于知識圖譜的基因組流行病學(xué)可視化分析[5]和生物醫(yī)學(xué)信息可視化分析[6]。縱觀這些醫(yī)學(xué)知識圖譜,其知識來源主要是公開的醫(yī)學(xué)文獻(xiàn),但是較少涉及到EMR電子病歷的醫(yī)療事實知識。利用知識圖譜來描述EMR中的醫(yī)療事實知識,可以更好地刻畫EMR電子病歷數(shù)據(jù)中存在的實體和屬性分類,并通過實體間的關(guān)系揭示臨床數(shù)據(jù)間的內(nèi)在聯(lián)系,從不同層次的形式化模式上給出這些實體和實體間相互醫(yī)療事實關(guān)系的明確定義,從而避免來自不同數(shù)據(jù)源的信息的語義異構(gòu)。
乳腺腫瘤是女性主要惡性腫瘤之一,其發(fā)病率和死亡率不斷上升,對女性的健康造成嚴(yán)重危害[7],乳腺腫瘤患者基數(shù)較大,國內(nèi)大中型醫(yī)院均已積累了大量的乳腺腫瘤EMR記錄,其中包含著大量關(guān)于乳腺腫瘤診治的醫(yī)療事實知識。因此,本文以乳腺腫瘤為具體病種應(yīng)用實例,借鑒知識抽取的技術(shù)思想[8],提出一種基于EMR的乳腺腫瘤知識圖譜構(gòu)建方法。該方法分別從概念層和實例層兩個層次對乳腺腫瘤知識圖譜進(jìn)行設(shè)計,支持乳腺腫瘤醫(yī)療實體及關(guān)系的抽取,實現(xiàn)從乳腺腫瘤EMR數(shù)據(jù)向醫(yī)療事實知識的轉(zhuǎn)化。具體而言,本文的乳腺腫瘤知識圖譜構(gòu)建方法由兩個階段組成:第一階段即乳腺腫瘤知識圖譜概念層設(shè)計階段,主要實現(xiàn)乳腺腫瘤EMR中各種醫(yī)學(xué)實體的抽取,并提取出各種實體之間的關(guān)系。第二階段即乳腺腫瘤知識圖譜實例層設(shè)計階段,主要實現(xiàn)由乳腺腫瘤EMR記錄向知識圖譜的轉(zhuǎn)化,完成乳腺腫瘤知識圖譜的自動構(gòu)建。
1.1 通用知識圖譜
由于中文知識圖譜的構(gòu)建對中文信息處理和檢索具有重要的研究和應(yīng)用價值,近年來吸引了大量的研究[8]。例如在業(yè)界出現(xiàn)了百度知心、搜狗知立方等商業(yè)應(yīng)用。在學(xué)術(shù)界,清華大學(xué)建成了第一個大規(guī)模中英文跨語言知識圖譜KLore、中國科學(xué)院計算技術(shù)研究所基于開放知識網(wǎng)絡(luò)(OpenKN)建立了“人立方、事立方、知立方”原型系統(tǒng)、中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院陸汝鈐院士提出知件(Knowware)的概念、上海交通大學(xué)構(gòu)建并發(fā)布了中文知識圖譜研究平臺zhishi.me、復(fù)旦大學(xué)GDM實驗室推出的中文知識圖譜項目,等等[9]。這些項目具有較大規(guī)模的知識庫,覆蓋廣泛的知識領(lǐng)域,能夠為用戶提供一定的智能搜索及問答服務(wù)。
1.2 醫(yī)學(xué)知識圖譜
近些年來,國內(nèi)對醫(yī)學(xué)信息學(xué)領(lǐng)域知識庫的研究也逐漸活躍。醫(yī)學(xué)知識庫(NKIMed)[10]是中科院計算機(jī)研究院1995年所研發(fā)的用于檢索和挖掘醫(yī)學(xué)信息的本體知識庫,包括了多達(dá)52個醫(yī)學(xué)概念分類,1 691種醫(yī)學(xué)屬性,19 595個知識概念,共計錄入78 013 條知識。醫(yī)學(xué)知識庫是國家基礎(chǔ)知識設(shè)施(National Knowledge Infrastructure)的一個分集合,對醫(yī)學(xué)知識的分析和推理具有重要作用。
如中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所基于已有的中醫(yī)藥學(xué)語言系統(tǒng)構(gòu)建的中醫(yī)藥知識圖譜,哈工大信息檢索研究中心(HIT CIR)在文本智能化檢索領(lǐng)域進(jìn)行了深入研究,主要包括文本過濾、篇章理解和知識分析等,其研究成果已應(yīng)用于文本智能化檢索、機(jī)器翻譯、自動分類、自動文摘等系統(tǒng)。除了這些綜合類的比較全面的醫(yī)學(xué)領(lǐng)域知識系統(tǒng)外,國內(nèi)的研究還有些專門針對具體某種疾病或者某一具體領(lǐng)域的知識體系。比如專門用于診斷腎臟疾病的PIP(Present Illness Program),PIP 采用框架語義網(wǎng)結(jié)構(gòu),框架涵蓋生理狀態(tài)、臨床表現(xiàn)、典型的病癥等,它主要使用匹配技術(shù)來進(jìn)行診斷并給出相應(yīng)的治療方案[11]。
但是現(xiàn)有的各種對醫(yī)學(xué)信息學(xué)領(lǐng)域知識庫的研究大多是基于互聯(lián)網(wǎng)上公開的醫(yī)學(xué)文獻(xiàn),以及各種開放數(shù)據(jù)庫和電子資源,這類知識雖然獲取比較方便。由于知識來源比較局限,如何利用真實醫(yī)學(xué)數(shù)據(jù)來構(gòu)建知識圖譜,獲取更準(zhǔn)確、更全面、更權(quán)威的知識成為醫(yī)學(xué)知識圖譜領(lǐng)域的研究需求。
本文專注于乳腺腫瘤這一特定病種的知識圖譜構(gòu)建研究。下面給出乳腺腫瘤知識圖譜相關(guān)概念的形式化定義。
定義1(乳腺腫瘤醫(yī)學(xué)實體E):乳腺腫瘤醫(yī)學(xué)實體E指的是乳腺腫瘤EMR記錄中各種可唯一標(biāo)識的醫(yī)學(xué)實體。
一般在醫(yī)院EMR中,乳腺腫瘤醫(yī)學(xué)實體包括了乳腺腫瘤患者實體、基本信息實體、乳腺腫瘤診斷實體、乳腺腫瘤檢查實體、乳腺腫瘤檢驗實體等。
定義2(乳腺腫瘤醫(yī)學(xué)事實關(guān)系R):乳腺腫瘤醫(yī)學(xué)事實關(guān)系表示不同乳腺腫瘤醫(yī)學(xué)實體之間所發(fā)生的醫(yī)療事實聯(lián)系即R{Ei,Ej},其中Ei、Ej為乳腺腫瘤醫(yī)學(xué)實體。
結(jié)合乳腺腫瘤EMR記錄,在醫(yī)學(xué)領(lǐng)域?qū)<业膸椭?,一共整理出以下幾種乳腺腫瘤醫(yī)學(xué)事實關(guān)系類型,具體包括了:
(1) has_a關(guān)系:表示實體A和實體B之間的隸屬關(guān)系。
(2) instance_of關(guān)系:表示實體A與實體B間的實例關(guān)系。換言之,實體B是實體A的一個實例。
(3) attribute_of關(guān)系:表示實體A是實體B的屬性值。
(4) part_of關(guān)系:表示整體與部分的關(guān)系,例如,檢查報告中的特征描述實體A是檢查報告實體B的一部分。
(5) owns關(guān)系:表示病人實體A擁有檢查報告實體B或者病理報告實體C。
(6) diagnosis關(guān)系:表示診斷結(jié)論實體A與患者實體B之間是診斷關(guān)系。
(7) detect關(guān)系:表示儀器實體A與患者實體B是檢測關(guān)系。
在定義了上述乳腺腫瘤醫(yī)學(xué)實體和醫(yī)學(xué)事實關(guān)系的基礎(chǔ)上,乳腺腫瘤知識圖譜的形式化定義如下。
定義3(乳腺腫瘤知識圖譜G):乳腺腫瘤知識圖譜為一張有向標(biāo)簽圖G=(E,R,T),其中E為知識圖譜的頂點集,用于表示乳腺腫瘤醫(yī)學(xué)實體集合;R為知識圖譜的邊集,用于表示乳腺腫瘤醫(yī)學(xué)事實關(guān)系;T為EXE→R的函數(shù),表示了知識圖譜中的所有元組。
表1為一位乳腺腫瘤患者的具體EMR記錄。從中可見,該EMR記錄中蘊含著患者實體,基本信息實體(其下包含了性別實體、年齡實體和地區(qū)實體),檢查實體(其下包含了超聲檢查實體、CT檢查實體、MRI檢查實體和病理檢查實體)和診斷實體(包含了超聲診斷實體、CT診斷實體、MRI診斷實體和病理診斷實體)。這些實體間具有不同的關(guān)系,例如患者實體與基本信息實體之間存在has_a關(guān)系,患者實體與檢查實體之間存在Detect關(guān)系,檢查實體與診斷實體之間存在Diagnosis關(guān)系。乳腺腫瘤醫(yī)學(xué)實體及其關(guān)系表示了乳腺腫瘤知識圖譜的模式結(jié)構(gòu),類似于關(guān)系數(shù)據(jù)庫的概念模式。圖1所示為乳腺腫瘤知識圖譜模式結(jié)構(gòu)圖即概念層結(jié)構(gòu)。
表1 乳腺腫瘤患者A的EMR記錄
圖1 乳腺腫瘤知識圖譜概念層結(jié)構(gòu)
基于上述的乳腺腫瘤知識圖譜概念層結(jié)構(gòu),建立EMR記錄各項值與概念層實體及關(guān)系之間的對應(yīng)關(guān)系,構(gòu)建<主語,謂語,賓語>三元組,完成乳腺腫瘤知識圖譜實例層。以EMR的乳腺腫瘤患者基本信息為例,患者基本信息表中的列名“姓名”可以轉(zhuǎn)化成RDF數(shù)據(jù)中的謂詞,表中對應(yīng)的取值為RDF賓語,如ID為“102413148”的患者姓名可以用三元組<102413148,姓名,張三>表示。圖2所示為乳腺腫瘤知識圖譜實例層結(jié)構(gòu)。
圖2 乳腺腫瘤知識圖譜實例層
如2節(jié)所述,EMR記錄蘊含著豐富的醫(yī)療事實知識,是醫(yī)學(xué)知識圖譜的重要數(shù)據(jù)來源。本節(jié)提出一種基于EMR的乳腺腫瘤知識圖譜構(gòu)建方法,該方法由概念層設(shè)計和實例層設(shè)計兩個階段組成。下面分別給出兩個階段的具體流程。
3.1 概念層設(shè)計
乳腺腫瘤知識圖譜概念層設(shè)計的主要任務(wù)是在領(lǐng)域?qū)<业膸椭?,根?jù)領(lǐng)域知識創(chuàng)建乳腺腫瘤知識圖譜的概念模式結(jié)構(gòu)。
目前,乳腺腫瘤知識圖譜概念模式結(jié)構(gòu)是以上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院的實際EMR記錄結(jié)構(gòu)為基礎(chǔ),結(jié)合美國國家綜合癌癥網(wǎng)絡(luò)(NCCN)的乳腺癌臨床指南[12],構(gòu)建了乳腺腫瘤知識圖譜的概念層。其中,以患者實體為中心,在同一層次與基本信息實體、檢查實體和診斷實體之間存在不同的聯(lián)系。具體而言,患者實體與基本信息實體之間存在Has_a關(guān)系,患者實體與檢查實體之間存在Detect關(guān)系,患者實體經(jīng)檢查實體與診斷實體之間存在Diagnosis關(guān)系?;颊邔嶓w有醫(yī)療卡號和姓名兩個屬性,而基本信息實體的屬性則有性別、年齡和地區(qū)等。由于乳腺腫瘤檢查有不同檢查手段,所以檢查實體包含了超聲檢查實體、CT檢查實體、鉬靶檢查實體和病理檢查實體等子層次實體。檢查實體與這些子層次實體之間存在Instance_of關(guān)系。不同子層次檢查實體還具有不同的屬性,例如超聲檢查實體具有位置、方位、大小、形態(tài)、表面、回聲分布、血流信號等屬性。對應(yīng)于不同的檢查手段,診斷實體也包含了超聲診斷實體、CT診斷實體、鉬靶診斷實體和病理診斷實體等子層次實體。
3.2 實例層設(shè)計
實例層設(shè)計屬于知識抽取范疇,其主要任務(wù)是從無語義信息的EMR記錄中抽取與概念層相匹配的醫(yī)療事實知識。實際的EMR記錄既有結(jié)構(gòu)化數(shù)據(jù)如患者基本信息、就診信息、處方信息、檢驗信息等,也有半結(jié)構(gòu)化數(shù)據(jù)如出院小結(jié),還有非結(jié)構(gòu)化內(nèi)容如超聲文本報告等。實例層設(shè)計的目標(biāo)就是從不同格式的EMR記錄內(nèi)容中提取乳腺腫瘤醫(yī)學(xué)實體及關(guān)系,并表示為主謂賓三元組形式。
1) 乳腺腫瘤醫(yī)學(xué)實體提取
乳腺腫瘤醫(yī)學(xué)實體提取是構(gòu)建乳腺腫瘤知識圖譜的首要步驟,目的在于從EMR記錄中找到用于表示乳腺腫瘤醫(yī)學(xué)實體或?qū)傩缘南嚓P(guān)術(shù)語或標(biāo)記集合。其中,EMR記錄中的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)由于具有較好的模式結(jié)構(gòu),實體提取的規(guī)則相對容易制定;而對于非結(jié)構(gòu)化文本數(shù)據(jù)由于格式較為自由,在實體提取規(guī)則上需要借助自然語言處理技術(shù)對EMR文本內(nèi)容進(jìn)行結(jié)構(gòu)化處理。
下面結(jié)合瑞金醫(yī)院實際的EMR記錄,闡述如何實現(xiàn)上述概念層各種實體的具體操作步驟。
(1) 患者實體提?。簭腅MR記錄的患者ID和姓名兩個字段,提取每位乳腺腫瘤患者的ID和姓名字段值作為患者實體的屬性值。
患者基本信息實體提?。簭腅MR記錄的患者性別、年齡和地區(qū)三個字段,提取每位乳腺腫瘤患者的性別、年齡和地區(qū)字段值作為患者基本信息實體的屬性值。
(2) 檢查實體提?。好總€患者根據(jù)不同的病情需要,進(jìn)行不同類型的檢查,從檢查實體中,提取出鉬靶、超聲、CT、MRI、病理等不同檢查類型,作為檢查實體的子類實體。
(3) 檢查實體屬性值提?。河捎跈z查報告為文本格式,本文首先采用作者提出的臨床文檔結(jié)構(gòu)化處理方法[13]對各種檢查文本報告進(jìn)行結(jié)構(gòu)化處理,提取文本報告中的指標(biāo)和指標(biāo)值,以提取出來的指標(biāo)和指標(biāo)值作為檢查實體屬性值。
(4) 診斷實體提取:患者所做的每項檢查均有對應(yīng)的診斷結(jié)論,從診斷實體中,提取出鉬靶診斷、超聲診斷、CT診斷、MRI診斷、病理診斷等不同檢查的診斷結(jié)論,作為診斷實體的子類實體。
2) 實體間的關(guān)系類型
如前所述,乳腺腫瘤患者的EMR記錄經(jīng)抽取后形成五類醫(yī)學(xué)實體。這些實體可與概念層的概念屬性相關(guān)聯(lián),作為這些屬性的屬性值。
結(jié)合概念層的概念間關(guān)系,可知患者實體與患者基本信息實體之間的關(guān)系為has_a關(guān)系;患者實體與檢查實體之間的關(guān)系為detect關(guān)系;檢查實體與診斷實體之間的關(guān)系為diagnosis關(guān)系。患者的姓名實體與患者之間的關(guān)系為instance_of關(guān)系;患者的性別、年齡、地區(qū)等實體與基本信息實體之間的關(guān)系為instance_of關(guān)系;超聲檢查、鉬靶檢查、CT檢查、MRI檢查、病理檢查實體與檢查實體之間的關(guān)系為instance_of關(guān)系;超聲診斷、鉬靶診斷、CT診斷、MRI診斷、病理診斷結(jié)果實體與診斷實體之間的關(guān)系為instance_of關(guān)系。將該患者的患者實體和基本信息實體之間為has-a關(guān)系。患者的姓名實體與患者實體之間的關(guān)系為instance_of關(guān)系;基本信息實體與性別、年齡和地區(qū)實體之間為instance_of關(guān)系?;颊邔嶓w和檢查實體之間為detect關(guān)系。檢查實體與超聲檢查和病理檢查實體之間為instance_of關(guān)系?;颊邔嶓w和診斷實體之間為diagnosis關(guān)系。診斷實體與超聲診斷和病理診斷實體之間為instance_of關(guān)系。
在提取出實例層的實體及關(guān)系之后,即可將EMR的乳腺腫瘤數(shù)據(jù)轉(zhuǎn)換成RDF形式的鏈接數(shù)據(jù)D2R(Relational Database to RDF)[14]。乳腺腫瘤知識圖譜中主謂賓三要素關(guān)系如表2所示。
表2 乳腺腫瘤患者A構(gòu)建知識圖譜的主謂賓三要素
本文以醫(yī)院內(nèi)部實際的EMR記錄為基礎(chǔ),選擇乳腺腫瘤為具體病種,提出基于EMR的乳腺腫瘤知識圖譜的構(gòu)建方法,特別對其中的概念層設(shè)計和實例層設(shè)計進(jìn)行了詳細(xì)闡述。乳腺腫瘤知識圖譜的構(gòu)建為后續(xù)疾病知識學(xué)習(xí)和推理奠定了數(shù)據(jù)基礎(chǔ),因此下一步工作將是基于乳腺腫瘤知識圖譜的輔助診斷、智能問答。
[1] Zhang L.Knowledge graph theory and structural parsing[D].Enschede:Twente University,2002.
[2] Singhal Amit.Introducing the Knowledge Graph:things,not strings[EB/OL].Official Google Blog.[2012-5-16].http://googleblog.blogspot.co.uk/2012/05/intro_ ducing-knowledge-graph-things-not.html.
[3] 阮彤,孫程琳,王昊奮,等.中醫(yī)院知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(4):8-13.
[4] 賈李蓉,劉靜,于彤,等.中醫(yī)藥知識圖譜構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(8):51-53,59.
[5] 王俏,王偉.基于知識圖譜的國際基因組流行病學(xué)可視化分析[J].中華醫(yī)學(xué)圖書情報雜志,2013,22(4):2-9.
[6] 黃鑫,胡榜利,鄧?yán)?等.基于知識圖譜的生物醫(yī)學(xué)信息可視化研究進(jìn)展[J].中國臨床新醫(yī)學(xué),2012,5(11):1090-1093.
[7] 葉華蓉,楊怡,林萱,等.BP神經(jīng)網(wǎng)絡(luò)在高頻彩超特征診斷乳腺癌中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2016,33(1):71-72.
[8] 劉嶠,李楊,段宏.知識圖譜構(gòu)建技術(shù)綜述[J].計算機(jī)研究與發(fā)展,2016,53(3):582-600.
[9] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25(9):1889-1908.
[10] 周肖彬.醫(yī)學(xué)本體和醫(yī)學(xué)知識獲取的研究[D].中國科學(xué)院研究生院(計算技術(shù)研究所),2003.
[11] 黃小燕.基于潛在語義關(guān)系的更年期綜合癥知識圖庫的構(gòu)建及其應(yīng)用研究[D].四川:電子科技大學(xué),2015.
[12] 周斌,劉世偉,高國璇,等.2016年NCCN乳腺癌臨床實踐指南(第1版)更新與解讀[J].中國實用外科雜志,2016,36(10):1066-1027.
[13] 田馳遠(yuǎn),陳德華,王梅,等.基于依存句法分析的病理報告結(jié)構(gòu)化處理方法[J].計算機(jī)研究與發(fā)展,2016,52(12):2669-2680.
[14] Bizer C,Seaborne A.D2RQ-Treating Non-RDF Databases as Virtual RDF Graphs[C]//International Semantic Web Conference,2005.
STUDYONTHECONSTRUCTIONOFKNOWLEDGEGRAPHOFBREASTTUMORBASEDONEMR
Cui Jie1,2Chen Dehua3*Le Jiajin3
1(GloriousSunSchoolofBusinessandManagement,DonghuaUniversity,Shanghai200051,China)2(ComputerCentre,RuijinHospitalShanghaiJiaoTongUniversitySchoolofMedicine,Shanghai200025,China)3(ComputerScienceandTechnology,DonghuaUniversity,Shanghai200051,China)
As a new method to describe entities and their relationships, knowledge graph has been paid more and more attention in the medical field. However, most of the knowledge of the medical knowledge graph is derived from the open medical literature, and less related to the EMR electronic medical records. EMR electronic medical records cover the whole process of patient diagnosis and treatment with a wealth of medical facts, which is an important source of knowledge of medical knowledge graph. Therefore, this paper takes the specific disease of breast tumor as an example. According to the basic principle of knowledge graph technology, we firstly gave the definition of knowledge of breast tumors. Combined with the actual EMR electronic medical records data set of Ruijin Hospital Affiliated to Shanghai Jiaotong University School of Medicine, the knowledge of breast cancer medical facts was extracted from EMR by means of knowledge extraction technology. On this basis, a method for constructing knowledge map of breast tumors is proposed.
EMR Breast tumor Knowledge graph Information transformation
2017-01-25。上海市科委科研計劃項目(15511106902)。崔潔,高工,主研領(lǐng)域:醫(yī)院信息化,信息管理。陳德華,副教授。樂嘉錦,教授。
TP3
A
10.3969/j.issn.1000-386x.2017.12.023