韓普 馬健 張嘉明
摘 要:[目的/意義]隨著大數(shù)據(jù)和人工智能時(shí)代的來(lái)臨,基于數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療輔助決策以及醫(yī)療健康知識(shí)挖掘受到人們的極大關(guān)注。醫(yī)療知識(shí)圖譜是醫(yī)療信息分析和知識(shí)服務(wù)的基礎(chǔ),在醫(yī)療人工智能和醫(yī)療信息檢索中發(fā)揮著重要作用。[方法/過(guò)程]本文以醫(yī)療領(lǐng)域的實(shí)際應(yīng)用需求為出發(fā)點(diǎn),從醫(yī)療大數(shù)據(jù)獲取、醫(yī)療實(shí)體及關(guān)系標(biāo)注、醫(yī)療實(shí)體識(shí)別、醫(yī)療實(shí)體鏈接、醫(yī)療實(shí)體關(guān)系挖掘、中文醫(yī)療知識(shí)圖譜表示和存儲(chǔ)等關(guān)鍵技術(shù)入手,提出了多數(shù)據(jù)源融合的醫(yī)療知識(shí)圖譜構(gòu)建的理論框架。[結(jié)果/結(jié)論]面向醫(yī)療領(lǐng)域的知識(shí)圖譜構(gòu)建是一項(xiàng)非常重要的基礎(chǔ)任務(wù),同時(shí)也是人工智能領(lǐng)域的重要發(fā)展方向。
關(guān)鍵詞:醫(yī)療知識(shí)圖譜;多源數(shù)據(jù)融合;實(shí)體識(shí)別;實(shí)體鏈接;實(shí)體關(guān)系
DOI:10.3969/j.issn.1008-0821.2019.06.009
〔中圖分類(lèi)號(hào)〕G250.2 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)06-0081-10
Abstract:[Purpose/Significance]With the approaching of the big data and artificial intelligence age,people have been paying great attention to the medical-assisted decision making and mining for the medical health knowledge based on the data driving.As the basis of medical information analysis and medical knowledge services,medical health knowledge graphs play a significant role in the medical artificial intelligence and medical information retrieval.[Method/Process]Therefore,based on the actual application demand in medical field and proceeded with such key technologies as acquisition of medical big data,annotation of medical entities and their relations,identification of medical entities,linkage of medical entities,mining for relations of medical entities,as well as expression and storage of Chinese medical health knowledge graphs,this paper put forward a theoretical framework regarding construction of the medical health knowledge graph integrated with multi-data sources.[Result/Conclusion]The construction of knowledge maps for the medical field was a very important basic task,and it is also an important development direction in the field of artificial intelligence.
Key words:medical knowledge graph;multi-data source fusion;entity recognition;entity linking;entity relationship
隨著醫(yī)療信息化的迅猛發(fā)展,醫(yī)療機(jī)構(gòu)以及各類(lèi)互聯(lián)網(wǎng)平臺(tái)產(chǎn)生了大量的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含著豐富的醫(yī)療知識(shí),經(jīng)過(guò)處理和分析的醫(yī)療大數(shù)據(jù)不僅可以為醫(yī)生的臨床診斷提供輔助決策[1];還可以通過(guò)各種應(yīng)用平臺(tái)為公眾提供高質(zhì)量的醫(yī)療信息服務(wù),提升公眾的醫(yī)療信息素養(yǎng)。因此,如何深入挖掘并利用各類(lèi)醫(yī)療大數(shù)據(jù)成為當(dāng)前人們關(guān)注的熱點(diǎn)。
近些年,受到自然語(yǔ)言理解和人工智能的推動(dòng),基于大數(shù)據(jù)的語(yǔ)義知識(shí)庫(kù)自動(dòng)構(gòu)建受到了學(xué)界和業(yè)界的極大關(guān)注。2012年,Google提出了知識(shí)圖譜的概念,此后國(guó)內(nèi)外出現(xiàn)了面向各種應(yīng)用的知識(shí)圖譜。常見(jiàn)的如DBpedia[2]、Freebase[3]、Knowledge Vault[4]、NELL[5]、YAGO[6]等,這些知識(shí)圖譜的數(shù)據(jù)主要來(lái)自維基百科。國(guó)內(nèi)中文知識(shí)圖譜主要有百度的“知心”、搜狗的“知立方”、SSCO[7]和Zhishi.me[8]等,這些通用知識(shí)圖譜以各類(lèi)非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)為來(lái)源,體量大,覆蓋面廣。但在面向?qū)I(yè)領(lǐng)域的信息分析等需求時(shí),通用知識(shí)圖譜在實(shí)體粒度以及領(lǐng)域語(yǔ)義知識(shí)表征不夠細(xì)化,尤其是對(duì)于專業(yè)要求非常高的醫(yī)療領(lǐng)域。因此,在醫(yī)療領(lǐng)域的信息分析和人工智能應(yīng)用中,面向領(lǐng)域的知識(shí)圖譜更有針對(duì)性。Ernst P等[9]基于科學(xué)文獻(xiàn)、健康記錄以及問(wèn)答社區(qū)等多種網(wǎng)絡(luò)數(shù)據(jù)源構(gòu)建了健康和生命科學(xué)的英文知識(shí)圖譜。此外,國(guó)外已經(jīng)建成了醫(yī)療領(lǐng)域資源庫(kù)一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)[10]、醫(yī)學(xué)系統(tǒng)命名法—臨床術(shù)語(yǔ)(SNOMED CT)知識(shí)庫(kù)[11]等資源。在國(guó)內(nèi),由復(fù)旦大學(xué)等構(gòu)建了面向細(xì)分領(lǐng)域的中文知識(shí)圖譜OpenKG.cn。雖然國(guó)內(nèi)出現(xiàn)了一些探索和嘗試,但更多的還是處于探索階段。陳德華[12]等提出了一種基于增量學(xué)習(xí)的臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)模型。Weng H等[13]基于臨床病歷,提出了自動(dòng)構(gòu)建中醫(yī)知識(shí)圖譜的研究框架。He B[14]等建立了一個(gè)包含句法和語(yǔ)義的中文電子病歷語(yǔ)義知識(shí)庫(kù)。阮彤等[15]、賈李蓉等[16]基于中醫(yī)病癥分類(lèi)代碼和中醫(yī)藥學(xué)語(yǔ)言系統(tǒng),構(gòu)建了中醫(yī)藥知識(shí)圖譜。通過(guò)文獻(xiàn)梳理可以發(fā)現(xiàn),通用領(lǐng)域知識(shí)圖譜已經(jīng)比較成熟,但領(lǐng)域知識(shí)圖譜更多的還處于探索中。和國(guó)外相比,國(guó)內(nèi)醫(yī)療領(lǐng)域知識(shí)圖譜才剛剛開(kāi)始起步,亟需學(xué)界和業(yè)界齊心協(xié)力構(gòu)建面向各類(lèi)醫(yī)療需求的領(lǐng)域知識(shí)圖譜,進(jìn)而提升國(guó)內(nèi)的醫(yī)療信息服務(wù)和人工智能水平。
醫(yī)療健康是人們關(guān)注的重點(diǎn),與此相關(guān)的信息檢索和知識(shí)服務(wù)是當(dāng)前人們最為迫切的需求之一。據(jù)公開(kāi)數(shù)據(jù)顯示,百度每天搜索量約60億次,其中25%與疾病健康有關(guān)。相比國(guó)外較為完善的醫(yī)療語(yǔ)義資源,中文醫(yī)療資源建設(shè)起步比較晚,開(kāi)放的醫(yī)療資源更是很有限。在當(dāng)前背景下,構(gòu)建中文醫(yī)療知識(shí)圖譜是一項(xiàng)非常迫切的研究課題,其意義主要體現(xiàn)在以下幾個(gè)方面:1)有助于提高臨床治療水平,為醫(yī)生提供輔助決策。在臨床中,醫(yī)生的診斷水平受到醫(yī)學(xué)知識(shí)水平和臨床經(jīng)驗(yàn)的影響,因此一套輔助決策和導(dǎo)向作用的決策支持系統(tǒng)是非常有必要的,而決策支持系統(tǒng)離不了醫(yī)療知識(shí)圖譜的支撐。2)提升公眾的醫(yī)療健康信息素養(yǎng)和健康信息意識(shí)。和發(fā)達(dá)國(guó)家相比,國(guó)內(nèi)公眾的醫(yī)療健康知識(shí)水平偏低,醫(yī)療健康信息意識(shí)比較薄弱,這些問(wèn)題一定程度上影響著醫(yī)患關(guān)系,影響著醫(yī)療領(lǐng)域的整體服務(wù)水平。3)醫(yī)療知識(shí)圖譜是醫(yī)療健康信息化發(fā)展的重要資源,醫(yī)療知識(shí)圖譜構(gòu)建是人工智能在醫(yī)療領(lǐng)域的發(fā)展趨勢(shì),同時(shí)也是醫(yī)療健康信息化的必然要求。雖然國(guó)外出現(xiàn)了一些英文的醫(yī)療知識(shí)圖譜探索和研究,但中文的特點(diǎn)決定了其它語(yǔ)言的醫(yī)療知識(shí)圖譜不能直接照搬,其理論和實(shí)踐還亟待研究和探索。4)各類(lèi)醫(yī)療數(shù)據(jù)包含了不同的醫(yī)療知識(shí),只有融合多種醫(yī)療數(shù)據(jù),才能充分發(fā)揮各類(lèi)醫(yī)療大數(shù)據(jù)的價(jià)值。本文以多源醫(yī)療大數(shù)據(jù)為數(shù)據(jù)源,從數(shù)據(jù)獲取、實(shí)體識(shí)別、實(shí)體鏈接及數(shù)據(jù)融合、實(shí)體關(guān)系挖掘、知識(shí)圖譜表示和存儲(chǔ)方面,系統(tǒng)地提出一套面向多源大數(shù)據(jù)的醫(yī)療知識(shí)圖譜構(gòu)建的概念模型,為國(guó)內(nèi)醫(yī)療健康知識(shí)圖譜的相關(guān)理論和實(shí)踐提供借鑒和參考,進(jìn)而推動(dòng)國(guó)內(nèi)醫(yī)療健康信息化的快速發(fā)展。
1 知識(shí)圖譜概念
通常認(rèn)為,知識(shí)圖譜就是現(xiàn)實(shí)世界中根據(jù)實(shí)體間關(guān)系相互連接起來(lái)所形成的一種網(wǎng)絡(luò)結(jié)構(gòu)[17],其本身就是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù)[18],屬于語(yǔ)義網(wǎng)絡(luò)的范疇[12]。目前,知識(shí)圖譜已經(jīng)成為一種新的關(guān)系表現(xiàn)形式,用于呈現(xiàn)各類(lèi)實(shí)體以及實(shí)體間的關(guān)聯(lián)關(guān)系。根據(jù)知識(shí)圖譜的覆蓋范圍不同,可分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。目前國(guó)內(nèi)外通用知識(shí)圖譜的相關(guān)研究比較多見(jiàn),領(lǐng)域知識(shí)圖譜的研究剛開(kāi)始起步。相比于領(lǐng)域知識(shí)圖譜,通用知識(shí)圖譜覆蓋面更加廣泛,能夠滿足多方面需求,但因其范圍過(guò)于寬泛,造成其專業(yè)領(lǐng)域知識(shí)深度表征不夠,無(wú)法描述更細(xì)化的領(lǐng)域?qū)嶓w知識(shí)。與其它領(lǐng)域不同的是,醫(yī)療領(lǐng)域?qū)嶓w數(shù)量巨大,新詞頻出、復(fù)合詞組合多樣以及實(shí)體間關(guān)系復(fù)雜,通用知識(shí)圖譜難以承載這一領(lǐng)域的專業(yè)知識(shí)。同時(shí),醫(yī)療知識(shí)圖譜是醫(yī)療信息處理、信息檢索以及問(wèn)答系統(tǒng)的重要組成部分,也是當(dāng)前需求最為迫切的基礎(chǔ)資源之一,因此醫(yī)療知識(shí)圖譜的構(gòu)建是一項(xiàng)非常重要的研究方向。本文的知識(shí)圖譜是指實(shí)體以及實(shí)體間關(guān)系的語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)。而另外一個(gè)研究方向主要是用圖形的方式直觀地呈現(xiàn)學(xué)科或領(lǐng)域知識(shí)的各種聯(lián)系[19]。雖然名稱上完全一樣,但屬于兩個(gè)不同的研究領(lǐng)域。本文所述的知識(shí)圖譜則是以自然語(yǔ)言處理和文本挖掘?yàn)榛A(chǔ),通過(guò)數(shù)據(jù)獲取、文本挖掘、語(yǔ)義分析以及人工智能的方法來(lái)挖掘并采用網(wǎng)絡(luò)結(jié)構(gòu)來(lái)表示的醫(yī)療實(shí)體以及實(shí)體間的關(guān)聯(lián)關(guān)系,是一種可以不斷更新的醫(yī)療領(lǐng)域語(yǔ)義資源知識(shí)網(wǎng)絡(luò)。
2 醫(yī)療知識(shí)圖譜數(shù)據(jù)源
2.1 醫(yī)療文本數(shù)據(jù)的分類(lèi)
常見(jiàn)醫(yī)療大數(shù)據(jù)既有較為規(guī)范的電子病歷,也有醫(yī)療健康社區(qū)中的用戶生成內(nèi)容(UGC),以及醫(yī)療詞典資源和相關(guān)政策文件。根據(jù)數(shù)據(jù)的表現(xiàn)形式,可以將醫(yī)療健康數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)3類(lèi)。1)結(jié)構(gòu)化醫(yī)療數(shù)據(jù):主要包括醫(yī)療疾病詞典、中醫(yī)藥詞典等,如國(guó)際疾病分類(lèi)手冊(cè)ICD11;2)半結(jié)構(gòu)化醫(yī)療數(shù)據(jù):主要包括電子病歷和醫(yī)學(xué)文獻(xiàn)等;3)非結(jié)構(gòu)化醫(yī)療數(shù)據(jù):主要包括各類(lèi)百科中的醫(yī)療詞條、以及好問(wèn)康、家庭醫(yī)生在線和求醫(yī)網(wǎng)等醫(yī)療論壇上的文本數(shù)據(jù)。
2.2 醫(yī)療文本數(shù)據(jù)的獲取
醫(yī)療數(shù)據(jù)直接影響著醫(yī)療知識(shí)圖譜的質(zhì)量。已有的醫(yī)療語(yǔ)義知識(shí)庫(kù)數(shù)據(jù)來(lái)源單一,對(duì)專家知識(shí)依賴性強(qiáng),沒(méi)有充分利用當(dāng)前的各類(lèi)醫(yī)療大數(shù)據(jù),尤其是以醫(yī)院真實(shí)電子病歷為數(shù)據(jù)源的醫(yī)療知識(shí)圖譜還不多見(jiàn)[12]。吳運(yùn)兵等[20]提出通過(guò)融合多方數(shù)據(jù)資源構(gòu)建知識(shí)圖譜的方法,以提升知識(shí)圖譜的實(shí)際應(yīng)用價(jià)值。針對(duì)臨床輔助決策和醫(yī)療問(wèn)答系統(tǒng)應(yīng)用場(chǎng)景的實(shí)際需求,醫(yī)療健康知識(shí)圖譜構(gòu)建需重點(diǎn)考慮以下數(shù)據(jù)資源。
1)醫(yī)療詞典:這類(lèi)資源主要包括已有的醫(yī)療詞典資源,如國(guó)際疾病分類(lèi)手冊(cè)ICD11等,這類(lèi)資源具有較高的專業(yè)性,是醫(yī)療知識(shí)圖譜的重要數(shù)據(jù)源之一;
2)電子病歷:電子病歷是臨床醫(yī)生對(duì)病程的記錄,主要包括出院小結(jié)和各類(lèi)病程記錄,如入院記錄、檢查記錄和治療記錄等等,是醫(yī)療知識(shí)圖譜的非常重要的數(shù)據(jù)源;
3)醫(yī)學(xué)文獻(xiàn):醫(yī)學(xué)文獻(xiàn)是科學(xué)研究成果的呈現(xiàn),也是高質(zhì)量的醫(yī)療數(shù)據(jù)源之一。醫(yī)學(xué)文獻(xiàn)摘要是論文內(nèi)容的高度凝練,也是醫(yī)療知識(shí)圖譜中醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)源的關(guān)鍵內(nèi)容;
4)互聯(lián)網(wǎng)上的用戶生成內(nèi)容:隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上積累大量關(guān)于醫(yī)療健康的用戶生成內(nèi)容。這類(lèi)數(shù)據(jù)的量十分巨大,數(shù)據(jù)質(zhì)量也在日趨提高,是醫(yī)療知識(shí)圖譜的重要補(bǔ)充數(shù)據(jù)。
3 中文醫(yī)療知識(shí)圖譜模型構(gòu)建研究
3.1 多數(shù)據(jù)源融合的醫(yī)療知識(shí)圖譜構(gòu)建思路
融合多源數(shù)據(jù)的醫(yī)療知識(shí)圖譜首先通過(guò)各個(gè)渠道獲取醫(yī)療文本大數(shù)據(jù),然后對(duì)各類(lèi)數(shù)據(jù)采用XML統(tǒng)一格式、進(jìn)行數(shù)據(jù)清洗、分詞和詞性標(biāo)注,接著采用機(jī)器學(xué)習(xí)方法進(jìn)行醫(yī)療實(shí)體識(shí)別及實(shí)體關(guān)系標(biāo)注;然后以疾病為中心,挖掘其它實(shí)體與疾病之間的關(guān)系,并利用RDF和Neo4j進(jìn)行存儲(chǔ)和呈現(xiàn);針對(duì)不斷增長(zhǎng)的各類(lèi)醫(yī)療大數(shù)據(jù)和實(shí)際應(yīng)用需要,可以利用Spark技術(shù)生成動(dòng)態(tài)醫(yī)療知識(shí)圖譜,最后在醫(yī)療知識(shí)圖譜基礎(chǔ)上,為臨床輔助診斷決策和醫(yī)療健康問(wèn)答系統(tǒng)提供醫(yī)療知識(shí)來(lái)源。具體思路如圖1。
3.2 醫(yī)療文本數(shù)據(jù)處理
醫(yī)療大數(shù)據(jù)來(lái)源渠道多樣,數(shù)據(jù)格式、編碼方案和存儲(chǔ)格式不盡相同,為了后續(xù)多源數(shù)據(jù)融合以及醫(yī)療知識(shí)圖譜構(gòu)建的需要,該部分工作主要包括以下幾個(gè)方面。1)統(tǒng)一數(shù)據(jù)格式:包括統(tǒng)一數(shù)據(jù)存儲(chǔ)格式、編碼方案,針對(duì)后續(xù)RDF標(biāo)準(zhǔn)和多數(shù)據(jù)源融合需求,將多數(shù)據(jù)源的醫(yī)療數(shù)據(jù)轉(zhuǎn)換為包含數(shù)據(jù)來(lái)源、時(shí)間和類(lèi)型等屬性的XML文件。2)數(shù)據(jù)清洗和篩選:互聯(lián)網(wǎng)醫(yī)療文本數(shù)據(jù)中存在大量廣告信息,電子病歷中也存在較大比例的重復(fù)段落以
及質(zhì)量較低的信息。通常的做法是去除那些可信度較低,信息欠完整的數(shù)據(jù)(如成分殘缺的句子),來(lái)確保數(shù)據(jù)的質(zhì)量[21]。3)分詞和詞性標(biāo)注:醫(yī)療文本分詞是知識(shí)圖譜構(gòu)建中非常重要的環(huán)節(jié),直接影響著實(shí)體識(shí)別的效果。目前常用的有ICTCLAS、Stanford Parser、Ansj、Jieba及mmseg4j[22]。此外,哈爾濱工業(yè)大學(xué)的語(yǔ)言技術(shù)平臺(tái)(LTP)也提供分詞和詞性標(biāo)注功能。針對(duì)醫(yī)療領(lǐng)域分詞問(wèn)題,基于ICTCLAS,李國(guó)壘等[23]提出了中文病歷的分詞策略;也有學(xué)者[24]對(duì)不同的分詞方法進(jìn)行測(cè)評(píng),探索更適合于醫(yī)療領(lǐng)域的分詞策略,如張立邦等[25]提出了基于無(wú)監(jiān)督學(xué)習(xí)的中文電子病歷分詞方法。
雖然有不少成熟的分詞工具供選擇,但醫(yī)療領(lǐng)域詞匯專業(yè)性非常強(qiáng),新詞頻現(xiàn),加上各類(lèi)復(fù)合詞的組合規(guī)律十分復(fù)雜,造成目前醫(yī)療領(lǐng)域分詞結(jié)果很不理想。因此,醫(yī)療領(lǐng)域不僅需要適合的分詞算法,還需要高質(zhì)量的醫(yī)學(xué)詞典。在醫(yī)療詞典資源上,國(guó)外有比較知名的ICD11、UMLS等資源,但中文領(lǐng)域的醫(yī)學(xué)詞典資源還比較匱乏。
3.3 醫(yī)療實(shí)體識(shí)別
醫(yī)療實(shí)體識(shí)別是知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)環(huán)節(jié)。根據(jù)所采用的方法,可將醫(yī)療實(shí)體識(shí)別分為基于醫(yī)學(xué)詞典的方法、基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法?;卺t(yī)學(xué)詞典的方法是利用實(shí)體詞典抽取相關(guān)實(shí)體,Sasaki Y等[26]等通過(guò)加入實(shí)體詞性來(lái)構(gòu)建實(shí)體詞典以提高蛋白質(zhì)實(shí)體的識(shí)別效果,該方法的實(shí)體識(shí)別準(zhǔn)確率比較高,但對(duì)醫(yī)療詞典的要求非常高,基于規(guī)則的方法則是根據(jù)實(shí)體的表現(xiàn)特征制定相應(yīng)規(guī)則,葉楓等[27]通過(guò)加入語(yǔ)言符號(hào)、詞性、構(gòu)詞特征、詞邊界和上下文的特征,來(lái)提高醫(yī)療實(shí)體的識(shí)別效果。在CCKS2017任務(wù)中,Hu J等[28]針對(duì)不同類(lèi)型實(shí)體構(gòu)建了眾多規(guī)則來(lái)提高實(shí)驗(yàn)效果。雖然規(guī)則在一定程度上能提升實(shí)體識(shí)別效果,但由于醫(yī)療文本來(lái)源多樣,基于先驗(yàn)知識(shí)的規(guī)則也會(huì)變得非常復(fù)雜,并且可遷移性較差。
機(jī)器學(xué)習(xí)是目前醫(yī)療實(shí)體識(shí)別中最為流行的方法,常見(jiàn)的機(jī)器學(xué)習(xí)方法有最大熵模型(ME)、支持向量機(jī)(SVM)、隱馬爾可夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。在通常的命名實(shí)體識(shí)別任務(wù)中,CRF和SVM在使用同樣特征時(shí)有著非常相近的表現(xiàn)[29]。在英文領(lǐng)域,Jiang M等[30]發(fā)現(xiàn)CRF對(duì)醫(yī)療實(shí)體識(shí)別的效果要好于SVM。Lei J等[31]通過(guò)采用同樣的特征對(duì)CRF、SVM、SSVM和ME 4種方法進(jìn)行了對(duì)比,結(jié)果發(fā)現(xiàn)SSVM方法在中文醫(yī)療實(shí)體識(shí)別中要略好于其它方法。Chen Yanxu等[32]在CCKS2017任務(wù)中,發(fā)現(xiàn)單純CRF的F值要高于LSTM-CRF。Liu Z等[33]利用2010、2012和2014 i2b2 NLP的比賽數(shù)據(jù)進(jìn)行了多組對(duì)照實(shí)驗(yàn),發(fā)現(xiàn)LSTM要好于CRF方法。在中醫(yī)實(shí)體識(shí)別研究中,王世昆等[34]發(fā)現(xiàn)CRF對(duì)中醫(yī)實(shí)體的識(shí)別效果要好于ME和SVM。Wang Y等[35]比較了CRF、HMM、MEMM 3種模型在中醫(yī)癥狀實(shí)體識(shí)別上的效果,發(fā)現(xiàn)CRF模型更適合于中醫(yī)實(shí)體的識(shí)別。此外,也有研究者采用改進(jìn)的機(jī)器學(xué)習(xí)方法,如燕楊[36]等提出了基于層疊條件隨機(jī)場(chǎng)的中文醫(yī)療實(shí)體識(shí)別方法;針對(duì)電子病歷語(yǔ)料標(biāo)注的難題,在不增加標(biāo)注量的前提下,王潤(rùn)奇等[37]基于Tri-Training的半監(jiān)督學(xué)習(xí)方法進(jìn)行中文醫(yī)療實(shí)體識(shí)別;Hu J[28]等在CCKS2017任務(wù)中采用多種方法進(jìn)行了對(duì)照實(shí)驗(yàn),發(fā)現(xiàn)加入特征的BI-LSTM方法要好于CRF方法。
從以上研究可以發(fā)現(xiàn),在醫(yī)療實(shí)體識(shí)別模型中,CRF有著較好的表現(xiàn)。隨著深度學(xué)習(xí)和人工智能的推進(jìn),基于循環(huán)神經(jīng)網(wǎng)絡(luò)以及長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的改進(jìn)算法[38]和CRF相結(jié)合,利用海量的醫(yī)療數(shù)據(jù)特征作為詞向量在醫(yī)療實(shí)體識(shí)別上取得了比較顯著的結(jié)果。另外,從已有研究來(lái)看,由于醫(yī)療領(lǐng)域分詞帶來(lái)的問(wèn)題過(guò)多,基于字的實(shí)體識(shí)別效果要高于基于詞的識(shí)別效果。
3.4 醫(yī)療實(shí)體及實(shí)體關(guān)系標(biāo)注
3.4.1 醫(yī)療實(shí)體標(biāo)注
醫(yī)療實(shí)體標(biāo)注是實(shí)體識(shí)別和實(shí)體關(guān)系挖掘的基礎(chǔ),在已有研究基礎(chǔ)上,結(jié)合實(shí)體識(shí)別算法的格式要求,可采用BX、IX、EX、SX以及O作為實(shí)體標(biāo)識(shí)符,其中B(實(shí)體開(kāi)頭)、I(實(shí)體中間)、E(實(shí)體結(jié)尾)、S(獨(dú)立詞位實(shí)體)、O(非實(shí)體),X表示實(shí)體所屬類(lèi)別,包括D(疾?。?、S(癥狀)、C(檢查)、T(治療)以及O(組織器官)。例如,風(fēng)濕性關(guān)節(jié)炎是一種常見(jiàn)的急性或慢性結(jié)締組織炎癥,分詞后可標(biāo)注為:
風(fēng)濕性/BD關(guān)節(jié)炎/ED是/O一種/O常見(jiàn)的/O急性/O或/O 慢性/O結(jié)締組織/SO炎癥/SS。
3.4.2 醫(yī)療實(shí)體關(guān)系標(biāo)注
3.5 醫(yī)療實(shí)體鏈接與知識(shí)融合
醫(yī)療實(shí)體鏈接是將多數(shù)據(jù)源中的實(shí)體通過(guò)鏈接關(guān)聯(lián)起來(lái),以更好地表述不同數(shù)據(jù)源實(shí)體間的語(yǔ)義關(guān)聯(lián)關(guān)系,進(jìn)而實(shí)現(xiàn)多源數(shù)據(jù)融合以用于醫(yī)療人工智能中的語(yǔ)義理解和語(yǔ)義分析。在各類(lèi)醫(yī)療文本數(shù)據(jù)源中,疾病、癥狀、檢查和藥物等各類(lèi)實(shí)體的表述是多樣化的,醫(yī)療實(shí)體縮寫(xiě)、簡(jiǎn)寫(xiě)以及中英文混合等不規(guī)范表述以及實(shí)體的上下文指代不明給實(shí)體鏈接帶來(lái)了極大困難。根據(jù)所采用的相關(guān)關(guān)系計(jì)算方法,實(shí)體鏈接方法主要分為兩大類(lèi),一類(lèi)是基于實(shí)體本身的方法,該方法主要是利用實(shí)體字符本身的特征進(jìn)行計(jì)算,如字符串編輯距離、Jaro距離、Jaro-Winkler距離和Smith-Waterman算法;另一類(lèi)是基于實(shí)體背景信息的計(jì)算方法,通常有余弦相似度、Jaccard系數(shù)、主題模型、詞向量、SimRank和圖結(jié)構(gòu)的方法。周鵬程等[40]提出了一種基于多知識(shí)庫(kù)的實(shí)體鏈接方法,進(jìn)而實(shí)現(xiàn)對(duì)多個(gè)知識(shí)庫(kù)的實(shí)體鏈接。王雪鵬等[41]給出了一種基于網(wǎng)絡(luò)語(yǔ)義標(biāo)簽的多源知識(shí)庫(kù)實(shí)體對(duì)齊算法。通過(guò)獲取實(shí)體各種屬性值之間的相似度特征,李陽(yáng)等[42]提出了基于語(yǔ)義的實(shí)體相似度計(jì)算方法。Wang Y[43]等采用基于字面的相似度、基于特征的相似度方法以及混合相似度的方法對(duì)中醫(yī)實(shí)體名稱進(jìn)行了歸一化研究。由于醫(yī)療實(shí)體的復(fù)雜性,通常輔助標(biāo)準(zhǔn)化的醫(yī)療術(shù)語(yǔ)庫(kù)(如ICD11)進(jìn)行多源醫(yī)療實(shí)體鏈接。通過(guò)多源醫(yī)療實(shí)體鏈接融合不同數(shù)據(jù)源的同一實(shí)體,解決單一數(shù)據(jù)源知識(shí)圖譜覆蓋面過(guò)低的問(wèn)題,從根本上促進(jìn)醫(yī)療數(shù)據(jù)融合。
3.6 醫(yī)療實(shí)體關(guān)系抽取
實(shí)體關(guān)系抽取是醫(yī)療知識(shí)圖譜構(gòu)建的關(guān)鍵環(huán)節(jié),本文中實(shí)體關(guān)系主要是疾病實(shí)體與其它幾類(lèi)實(shí)體的關(guān)系,具體如表1所示。從已有研究來(lái)看,目前醫(yī)療實(shí)體關(guān)系挖掘可分為基于模式匹配、基于語(yǔ)義詞典、基于特征和基于機(jī)器學(xué)習(xí)的方法。模式匹配是以實(shí)體識(shí)別結(jié)果為基礎(chǔ),以句子為單位,根據(jù)標(biāo)志詞來(lái)制定相應(yīng)模式,進(jìn)而通過(guò)模式匹配比對(duì),確定相應(yīng)實(shí)體間的關(guān)系。如“服用吲哚美辛后,關(guān)節(jié)腫痛緩解”,能夠匹配治療類(lèi)實(shí)體+癥狀類(lèi)實(shí)體+“緩解”這一模式,進(jìn)而將“吲哚美辛”與“關(guān)節(jié)腫痛”關(guān)系標(biāo)注為T(mén)BS。基于詞典的方法是在語(yǔ)義詞典資源基礎(chǔ)上,根據(jù)實(shí)體間的關(guān)聯(lián)確定實(shí)體關(guān)系?;谔卣鞯姆椒ㄊ歉鶕?jù)實(shí)體類(lèi)型、詞性、詞與詞之間的位置、實(shí)體前后的詞與詞性等特征,通過(guò)不斷迭代與聚合,將具有相同特征的實(shí)體組(通常為兩個(gè)非同類(lèi)實(shí)體)視為同一類(lèi)型,然后進(jìn)行實(shí)體關(guān)系挖掘。當(dāng)前醫(yī)療實(shí)體關(guān)系挖掘比較常用的是機(jī)器學(xué)習(xí)法,這類(lèi)方法的思路是將關(guān)系挖掘轉(zhuǎn)換為分類(lèi)問(wèn)題。Demner-Fushman D等[44]采用多種方法對(duì)I2B2 2010電子病歷中的實(shí)體進(jìn)行了挖掘研究,發(fā)現(xiàn)詞典資源在實(shí)體關(guān)系挖掘中有著重要作用。Frunza O等[45]采用多種機(jī)器學(xué)習(xí)方法探究疾病和治療之間的3種關(guān)系,發(fā)現(xiàn)貝葉斯分類(lèi)法和其它特征組合取得了較好的效果。Wang X等[46]根據(jù)上下文共現(xiàn)關(guān)系對(duì)疾病和癥狀間的關(guān)聯(lián)關(guān)系進(jìn)行了挖掘。Luo Y[47]采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)I2B2 2010電子病歷中的實(shí)體關(guān)系進(jìn)行了抽取,發(fā)現(xiàn)加入醫(yī)療詞向量有助于實(shí)體關(guān)系的挖掘。Hwang S等[48]基于PubMed文獻(xiàn)數(shù)據(jù),采用TF-IDF和共現(xiàn)關(guān)系識(shí)別了疾病和癥狀關(guān)系。吳嘉偉等[49]從特征選擇角度,采用深度學(xué)習(xí)算法對(duì)英文電子病歷中的實(shí)體關(guān)系進(jìn)行了抽取研究。Zhao C等[50]基于實(shí)體共現(xiàn)關(guān)系構(gòu)建了疾病和癥狀關(guān)系的二分網(wǎng)絡(luò)。李夢(mèng)箐等[51]通過(guò)二分圖和復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)挖掘疾病與中藥之間的關(guān)系。通過(guò)構(gòu)建K-partite網(wǎng)絡(luò),Kamdar M R等[52]采用隱條件隨機(jī)場(chǎng)來(lái)挖掘藥物及藥物反應(yīng)實(shí)體間的隱藏關(guān)系??梢园l(fā)現(xiàn),醫(yī)療實(shí)體關(guān)系挖掘目前是醫(yī)療信息處理和分析研究中的熱點(diǎn),基于機(jī)器學(xué)習(xí)的方法是醫(yī)療實(shí)體關(guān)系抽取中的常用方法。目前在多源醫(yī)療文本大數(shù)據(jù)中,通常將實(shí)體關(guān)系抽取研究視為分類(lèi)問(wèn)題,然后挖掘?qū)嶓w各種特征來(lái)提升實(shí)體關(guān)系的抽取效果。
3.7 中文醫(yī)療知識(shí)圖譜表示及存儲(chǔ)
知識(shí)圖譜表示和存儲(chǔ)是將醫(yī)療實(shí)體以及實(shí)體關(guān)系按照一定規(guī)范存儲(chǔ),為后續(xù)的醫(yī)療知識(shí)分析和知識(shí)服務(wù)做好準(zhǔn)備。目前較為廣泛的數(shù)據(jù)描述模型有RDF以及最近興起的圖數(shù)據(jù)庫(kù)兩種存儲(chǔ)方案。夏宇航等[53]通過(guò)數(shù)據(jù)庫(kù)與RDF三元組相結(jié)合對(duì)電子病歷進(jìn)行拆分存儲(chǔ),以提高實(shí)體的檢索效率。阮彤等[54]將中醫(yī)藥關(guān)系轉(zhuǎn)為RDF格式數(shù)據(jù)來(lái)存儲(chǔ)中醫(yī)藥領(lǐng)域知識(shí)圖譜。Beyan O D等[55]提出一種基于RDF的結(jié)構(gòu)來(lái)描述電子病歷中的時(shí)序關(guān)系。Kamdar M R等[52]通過(guò)RDF框架存儲(chǔ)藥物、蛋白質(zhì)等實(shí)體間的隱藏關(guān)系并基于SPARQL進(jìn)行查詢。遵從RDF規(guī)范,Wang M等[56]通過(guò)構(gòu)建病人、藥物和治療的RDF圖,進(jìn)而鏈接已有的知識(shí)圖譜資源,并提供基于SPARQL的在線查詢。在醫(yī)療知識(shí)圖譜存儲(chǔ)時(shí),可以基于RDF語(yǔ)法,構(gòu)建以疾病為中心,其它四類(lèi)為屬性的疾病——屬性——關(guān)系三元組,以此存儲(chǔ)實(shí)體識(shí)別及實(shí)體間關(guān)系。每一個(gè)實(shí)體都有一個(gè)URL(Uniform Resource Locator,統(tǒng)一資源定位符)與之對(duì)應(yīng),通過(guò)URL就能跳轉(zhuǎn)到相應(yīng)的實(shí)體,實(shí)現(xiàn)實(shí)體數(shù)據(jù)間的鏈接。如下所示。
在上例醫(yī)療知識(shí)圖譜中,描述的是以風(fēng)濕疾病為中心,以及相關(guān)的癥狀等其它實(shí)體間的關(guān)系。醫(yī)療知識(shí)圖譜本身是一種圖結(jié)構(gòu),而圖形數(shù)據(jù)庫(kù)通過(guò)鍵和鏈接存儲(chǔ)實(shí)體及實(shí)體關(guān)系,因此在網(wǎng)絡(luò)結(jié)構(gòu)存儲(chǔ)時(shí)比較占優(yōu)勢(shì),近些年基于圖數(shù)據(jù)庫(kù)的語(yǔ)義關(guān)系存儲(chǔ)受到研究者的重視。但由于圖數(shù)據(jù)庫(kù)技術(shù)發(fā)展時(shí)間較短,在標(biāo)準(zhǔn)和規(guī)范方面還不夠完善[57]。目前常用的圖形數(shù)據(jù)庫(kù)有Neo4j、Titan和FlockDB等。Neo4j是由Java和Scala語(yǔ)言寫(xiě)成NoSql數(shù)據(jù)庫(kù),也是目前使用較多的圖形數(shù)據(jù)庫(kù)。通過(guò)Neo4j可以直觀呈現(xiàn)實(shí)體間的各種關(guān)系(如圖2所示),可為臨床輔助診斷以及公眾的醫(yī)療健康信息服務(wù)提供更易于理解和交互的知識(shí)呈現(xiàn)方式。Neo4j代碼格式和可視化呈現(xiàn)如下。
3.8 醫(yī)療知識(shí)圖譜的動(dòng)態(tài)構(gòu)建
隨著信息技術(shù)的發(fā)展,醫(yī)療領(lǐng)域的各類(lèi)大數(shù)據(jù)在飛速增長(zhǎng),面向各類(lèi)醫(yī)療應(yīng)用需求的醫(yī)療知識(shí)圖譜需要即時(shí)進(jìn)行動(dòng)態(tài)更新。針對(duì)多源的醫(yī)療文本大數(shù)據(jù),可通過(guò)加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開(kāi)源的Spark[58-59]技術(shù)平臺(tái)行大數(shù)據(jù)的快速處理,根據(jù)已有的癥狀、檢查、治療、組織器官4類(lèi)實(shí)體所占的關(guān)系權(quán)重,快速確定疾病與其它實(shí)體間的距離。同時(shí),該技術(shù)有著比MapReduce更為快捷迅速的處理效率,基于內(nèi)存的操作更是大大加快了大數(shù)據(jù)的處理速度,此外,通過(guò)Spark的流技術(shù)還可以實(shí)現(xiàn)醫(yī)療知識(shí)圖譜的持續(xù)更新,面對(duì)當(dāng)前呈現(xiàn)指數(shù)增長(zhǎng)醫(yī)療數(shù)據(jù)以及人們迫切的應(yīng)用需求,實(shí)時(shí)更新知識(shí)圖譜的重要性不言而喻。通過(guò)引入Spark技術(shù),可以大大提升醫(yī)療知識(shí)圖譜的實(shí)際應(yīng)用價(jià)值,加快推進(jìn)醫(yī)療大數(shù)據(jù)應(yīng)用的快速發(fā)展。
4 結(jié) 語(yǔ)
醫(yī)療知識(shí)圖譜是醫(yī)療信息分析和知識(shí)服務(wù)的基礎(chǔ),同時(shí)也是醫(yī)療領(lǐng)域人工智能的重要知識(shí)源。本文針對(duì)臨床和公眾兩大用戶需求,提出了融合多種數(shù)據(jù)源的醫(yī)療知識(shí)圖譜構(gòu)建的概念模型,該模型主要包括各類(lèi)醫(yī)療數(shù)據(jù)的獲取、醫(yī)療文本數(shù)據(jù)的處理、醫(yī)療實(shí)體及實(shí)體關(guān)系標(biāo)注、醫(yī)療實(shí)體識(shí)別、醫(yī)療實(shí)體鏈接、實(shí)體關(guān)系挖掘以及知識(shí)圖譜的存儲(chǔ)和表示等關(guān)鍵技術(shù)環(huán)節(jié)。本文一方面提出了融合多種醫(yī)療文本數(shù)據(jù)源的理念,所構(gòu)建的醫(yī)療知識(shí)圖譜更為全面、更具實(shí)際應(yīng)用價(jià)值;另一方面,提出了基于Spark技術(shù)的醫(yī)療知識(shí)圖譜動(dòng)態(tài)更新思路,即所構(gòu)建的醫(yī)療知識(shí)圖譜是隨著數(shù)據(jù)增長(zhǎng)而動(dòng)態(tài)更新的,具有較強(qiáng)的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。盡管如此,在醫(yī)療知識(shí)圖譜的具體實(shí)施和推廣時(shí),仍然面臨著許多問(wèn)題,如電子病歷屬于患者的個(gè)人隱私,任何機(jī)構(gòu)和個(gè)人在沒(méi)有經(jīng)過(guò)授權(quán)情況不能擅自使用,所以從國(guó)家層面亟待出臺(tái)相關(guān)的法律法規(guī),同時(shí)也需要學(xué)界和業(yè)界的協(xié)力推進(jìn),進(jìn)一步推動(dòng)醫(yī)療知識(shí)圖譜的理論和實(shí)踐。
參考文獻(xiàn)
[1]李徐曼,沈江,余海燕.數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療與健康決策支持研究綜述[J].工業(yè)工程與管理,2017,22(1):1-13.
[2]Lehmann J.DBpedia:A large-scale,Multilingual Knowledge Base Extracted from Wikipedia[J].Semantic Web,2015,6(2):167-195.
[3]Bollacker K,Evans C,Paritosh P,et al.Freebase:A Collaboratively Created Graph Database for Structuring Human Knowledge[C].Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data.ACM,2008:1247-1250.
[4]Dong X,Gabrilovich E,Heitz G,et al.Knowledge Vault:A Web-scale Approach to Probabilistic Knowledge Fusion[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2014:601-610.
[5]Mitchell T,Cohen W,Hruschka E,et al.Never-ending Learning[J].Communications of the ACM,2018,61(5):103-115.
[6]Biega J,Kuzey E,Suchanek F M.Inside YAGO2s:A Transparent Information Extraction Architecture[C].Proceedings of the 22nd International Conference on World Wide Web.ACM,2013:325-328.
[7]Hu F H,Shao Z Q,Ruan T.Self-Supervised Chinese Ontology Learning from Online Encyclopedias[J].The Scientific World Journal,2014:Article ID 848631.
[8]Niu X,Sun X,Wang H,et al.Zhishi.me-weaving Chinese Linking Open Data[C].International Semantic Web Conference.Springer,Berlin,Heidelberg,2011:205-220.
[9]Ernst P,Siu A,Weikum G.KnowLife:A Versatile Approach for Constructing a Large Knowledge Graph for Biomedical Sciences.[J].Bmc Bioinformatics,2015,16(1):1-13.
[10]Bodenreider O.The Unified Medical Language System(UMLS):Integrating Biomedical Terminology[J].Nucleic Acids Research,2004,32(suppl_1):D267-D270.
[11]Uzuner ,Solti I,Cadag E.Extracting Medication Information from Clinical Text[J].Journal of the American Medical Informatics Association,2010,17(5):514-518.
[12]陳德華,殷蘇娜,樂(lè)嘉錦,等.一種面向臨床領(lǐng)域時(shí)序知識(shí)圖譜的鏈接預(yù)測(cè)模型[J].計(jì)算機(jī)研究與發(fā)展,2017,54(12):2920-2930.
[13]Weng H,Liu Z,Yan S,et al.A Framework for Automated Knowledge Graph Construction Towards Traditional Chinese Medicine[C].International Conference on Health Information Science.Springer,Cham,2017:170-181.
[14]He B,Dong B,Guan Y,et al.Building a Comprehensive Syntactic and Semantic Corpus of Chinese Clinical Texts[J].Journal of Biomedical Informatics,2017,69:203-217.
[15]阮彤,孫程琳,王昊奮,等.中醫(yī)藥知識(shí)圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(4):8-13
[16]賈李蓉,劉靜,于彤,等.中醫(yī)藥知識(shí)圖譜構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(8):51-53.
[17]Singhal A.Introducing the Knowledge Graph:Things,Not Strings[EB/OL].http://googleblog.blogspot.ie/2012/05/introducing-knowledgegraph-things-not.html,2018-07-12.
[18]劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
[19]馮新翎,何勝,熊太純,等.“科學(xué)知識(shí)圖譜”與“Google知識(shí)圖譜”比較分析——基于知識(shí)管理理論視角[J].情報(bào)雜志,2017,36(1):149-153.
[20]吳運(yùn)兵,陰愛(ài)英,林開(kāi)標(biāo),等.基于多數(shù)據(jù)源的知識(shí)圖譜構(gòu)建方法研究[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2017,45(3):329-335.
[21]張坤麗,馬鴻超,趙悅淑,等.基于自然語(yǔ)言處理的中文產(chǎn)科電子病歷研究[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2017,49(4):40-45.
[22]黃翼彪.開(kāi)源中文分詞器的比較研究[D].鄭州:鄭州大學(xué),2013.
[23]李國(guó)壘,陳先來(lái),夏冬,等.中文病歷文本分詞方法研究[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2016,35(4):477-481.
[24]于清,陳永杰,丁巖.適用于醫(yī)療衛(wèi)生領(lǐng)域的中文分詞方法研究[J].新疆師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,36(1):62-66.
[25]張立邦,關(guān)毅,楊錦峰.基于無(wú)監(jiān)督學(xué)習(xí)的中文電子病歷分詞[J].智能計(jì)算機(jī)與應(yīng)用,2014,(2):68-71.
[26]Sasaki Y,Tsuruoka Y,McNaught J,et al.How to Make the Most of NE Dictionaries in Statistical NER[J].BMC Bioinformatics,2008,9(11):S5.
[27]葉楓,陳鶯鶯,周根貴,等.電子病歷中命名實(shí)體的智能識(shí)別[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2011,30(2):256-262.
[28]Hu J,Shi X,Liu Z,et al.HITSZ_CNER:A Hybrid System for Entity Recognition from Chinese Clinical Text[C].China Conference on Knowledge Graph and Semantic Computing 2017,SiChuan:Chendu,August,2017:26- 29.
[29]Keerthi S S,Sundararajan S.CRF Versus SVM-struct for Sequence Labeling[R].Yahoo Research Technical Report,2007.
[30]Jiang M,Chen Y,Liu M,et al.A Study of Machine-learning-based Approaches to Extract Clinical Entities and Their Assertions from Discharge Summaries[J].Journal of the American Medical Informatics Association,2011,18(5):601-606.
[31]Lei J,Tang B,Lu X,et al.A Comprehensive Study of Named Entity Recognition in Chinese Clinical Text[J].Journal of the American Medical Informatics Association,2013,21(5):808-814.
[32]Chen Yanxu,Zhang Gang,F(xiàn)ang Haizhou,et al.Clinical Named Entity Recognition Method Based on CRF[C].China Conference on Knowledge Graph and Semantic Computing 2017,SiChuan:Chendu,August,2017:26- 29.
[33]Liu Z,Yang M,Wang X,et al.Entity Recognition from Clinical Texts Via Recurrent Neural Network[J].BMC Medical Informatics and Decision Making,2017,17(2):67.
[34]王世昆,李紹滋,陳彤生.基于條件隨機(jī)場(chǎng)的中醫(yī)命名實(shí)體識(shí)別[J].廈門(mén)大學(xué)學(xué)報(bào):自然版,2009,26(3):359-364.
[35]Wang Y,Yu Z,Li C,et al.Supervised Methods for Symptom Name Recognition in Free-text Clinical Records of Traditional Chinese Medicine:An Empirical Study[J].Journal of Biomedical Informatics,2013,47(2):91-104.
[36]燕楊,文敦偉,王云吉,等.基于層疊條件隨機(jī)場(chǎng)的中文病歷命名實(shí)體識(shí)別[J].吉林大學(xué)學(xué)報(bào)(工),2014,44(6):1843-1848.
[37]王潤(rùn)奇,關(guān)毅.基于Tri-Training算法的中文電子病歷實(shí)體識(shí)別研究[J].智能計(jì)算機(jī)與應(yīng)用,2017,7(6):132-134.
[38]Sundermeyer M,Schlüter R,Ney H.LSTM Neural Networks for Language Modeling[C]//Thirteenth Annual Conference of the International Speech Communication Association,2012.
[39]zlem Uzuner,South B R,Shen S,et al.2010 i2b2/VA Challenge on Concepts,Assertions,and Relations in Clinical Text[J].Journal of the American Medical Informatics Association Jamia,2011,18(5):552.
[40]周鵬程,武川,陸偉.基于多知識(shí)庫(kù)的短文本實(shí)體鏈接方法研究——以Wikipedia和Freebase為例[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,32(6):1-11.
[41]王雪鵬,劉康,何世柱,等.基于網(wǎng)絡(luò)語(yǔ)義標(biāo)簽的多源知識(shí)庫(kù)實(shí)體對(duì)齊算法[J].計(jì)算機(jī)學(xué)報(bào),2017,40(3):701-711.
[42]李陽(yáng),高大啟.知識(shí)圖譜中實(shí)體相似度計(jì)算研究[J].中文信息學(xué)報(bào),2017,31(1):140-146.
[43]Wang Y,Yu Z,Jiang Y,et al.Automatic Symptom Name Normalization in Clinical Records of Traditional Chinese Medicine[J].BMC Bioinformatics,2010,11(1):40.
[44]Demner-Fushman D,Apostolova E,Islamaj Dogan R.NLMs System Description for the Fourth i2b2/VA Challenge[C]//Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data.Boston,MA,USA:i2b2,2010.
[45]Frunza O,Inkpen D.Extraction of Disease-treatment Semantic Relations from Biomedical Sentences[C]//Proceedings of the 2010 Workshop on Biomedical Natural Language Processing.Association for Computational Linguistics,2010:91-98.
[46]Wang X,Chused A,Elhadad N,et al.Automated Knowledge Acquisition from Clinical Narrative Reports[J].AMIA.Annual Symposium Proceedings/AMIA Symposium.AMIA Symposium,2008,(6):783-787.
[47]Luo Y.Recurrent Neural Networks for Classifying Relations in Clinical Notes[J].Journal of Biomedical Informatics,2017,72:85-95.
[48]Hwang S,Kim J,Kim J,et al.CSnet:Constructing Symptom Network Based on Disease-symptom Relationships[C]//IEEE International Conference on Systems,Man and Cybernetics.IEEE,2017:960-965.
[49]吳嘉偉,關(guān)毅,呂新波.基于深度學(xué)習(xí)的電子病歷中實(shí)體關(guān)系抽取[J].智能計(jì)算機(jī)與應(yīng)用,2014,4(3):35-38.
[50]Zhao C,Jiang J,Xu Z,et al.A Study of EMR-based Medical Knowledge Network and Its Applications[J].Computer Methods and Programs in Biomedicine,2017,143:13-23.
[51]李夢(mèng)箐,朱友澤,馬利,等.基于二分圖的疾病與中藥關(guān)聯(lián)性研究[J].世界科學(xué)技術(shù):中醫(yī)藥現(xiàn)代化,2016,(4):575-581.
[52]Kamdar M R,Musen M A.PhLeGrA:Graph Analytics in Pharmacology Over the Web of Life Sciences Linked Open Data[C]//Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2017:321-329.
[53]夏宇航,高大啟,阮彤,等.基于知識(shí)圖譜的醫(yī)療病歷數(shù)據(jù)存儲(chǔ)研究[J].計(jì)算機(jī)工程,2018.
[54]阮彤,孫程琳,王昊奮,等.中醫(yī)藥知識(shí)圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,(4):8-13.
[55]Beyan O D,Decker S.An RDF Based Semantic Approach to Model Temporal Relations in Health Records[C]//SWAT4LS,2016.
[56]Wang M,Zhang J,Liu J,et al.Pdd Graph:Bridging Electronic Medical Records and Biomedical Knowledge Graphs Via Entity Linking[C]//International Semantic Web Conference.Springer,Cham,2017:219-227.
[57]王仁武,袁毅,袁旭萍.基于深度學(xué)習(xí)與圖數(shù)據(jù)庫(kù)構(gòu)建中文商業(yè)知識(shí)圖譜的探索研究[J].圖書(shū)與情報(bào),2016,(1):110-117.
[58]Han Z,Zhang Y.Spark:A Big Data Processing Platform Based on Memory Computing[C]//Seventh International Symposium on Parallel Architectures,Algorithms and Programming.IEEE,2016:172-176.
[59]Wills J,Owen S,Laserson U,et al.Advanced Analytics with Spark:Patterns for Learning from Data at Scale[M].OReilly Media,Inc.,2015.
(責(zé)任編輯:郭沫含)