亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于命名實體識別與Neo4j的中文電子病歷知識圖譜構建和應用

        2022-02-13 11:37:46許思特
        醫(yī)學信息學雜志 2022年12期
        關鍵詞:模型

        許思特 孫 木

        (上海交通大學醫(yī)學院附屬瑞金醫(yī)院 上海 200020)

        1 引言

        電子病歷是指醫(yī)療活動過程中,實現(xiàn)存儲、管理、傳輸和重現(xiàn)的數(shù)字化醫(yī)療記錄[1]。對其填寫質量進行審核糾正,形成體系化知識圖譜,是醫(yī)院統(tǒng)計信息部門日常工作之一。隨著大數(shù)據(jù)時代來臨,電子病歷質量日益重要,知識關聯(lián)脈絡日益龐雜。對審核工作的要求、構建知識圖譜的難度,都有了顯著的提高。同時,專業(yè)人才的稀缺,使得引入技術手段的需求更為迫切。因此,為輔助統(tǒng)計部門進行審核工作、構建可視化知識圖譜,嘗試引入人工智能技術,對中文電子病歷中的有效信息進行識別,并將實體內容進行可視化,從而達到提高審核工作效率、構建專業(yè)知識脈絡的目的。大量自然語言處理(Natural Language Processing, NLP)學者聚焦命名實體識別(Name Entity Recognition,NER)和知識圖譜(Knowledge Graph,KG),嘗試高效識別包括中文病歷在內的各領域關鍵信息,并構建相關專業(yè)的知識圖譜。Liu K等[2]對比模型實體識別效率,探索最佳的電子病歷特征模板。Ouyang E[3]結合分詞、詞性標注、醫(yī)學詞匯等語料特征,搭建實體識別系統(tǒng)。2019年,Liu Y[4]等建立RoBERTa,修改BERT中的關鍵超參數(shù),使其更好地推廣到下游任務中。KG的搭建也逐步滲透至各個領域,如星河軍事KG、沃森健康(Watson Health)醫(yī)療KG、海致星圖金融KG、海信交管云腦KG等[5]。為滿足當下工作要求,將RoBERTa-BiLSTM-CRF的模型構建方式,引入中文病案NER領域中,達到有效識別中文病歷關鍵信息,提高病案審核工作效率的目的。同時爬取網絡數(shù)據(jù),采取Neo4j屬性圖模型為相關實體建立成體系的KG,具象化地展現(xiàn)醫(yī)藥領域的知識脈絡。最終,搭建問答系統(tǒng),針對不同病歷提出參考建議。

        2 資料與方法

        2.1 數(shù)據(jù)來源

        數(shù)據(jù)來源由3部分組成:全國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing,CCKS)2019評測數(shù)據(jù)、上海交通大學醫(yī)學院附屬瑞金醫(yī)院真實病歷、網絡爬取數(shù)據(jù)。其中,CCKS 2019病歷數(shù)據(jù)1 379條,瑞金醫(yī)院病歷相關數(shù)據(jù)21條,網絡爬取數(shù)據(jù)8 808條。CCKS是由中國中文信息學會語言與知識計算專委會定期舉辦的全國年度學術會議,CCKS 2019包含6個評測任務。其中,實體識別任務由清華大學知識工程實驗室組織,所涉及中文電子病歷數(shù)據(jù)由專業(yè)人員進行標注,并嚴格脫敏[6]。

        2.2 NER數(shù)據(jù)預處理

        基于經審核的病歷數(shù)據(jù),采用聯(lián)合標簽方法實現(xiàn)序列標注。該方法通過將標簽集對象的分段標簽與命名實體的標簽集進行聯(lián)合生成新的標簽集,常見的分段標簽集有BIO和BIOES兩種,其中,BIO將實體邊界分為兩類,B代表實體中的首個詞,I代表實體中的非首個詞,O代表目標實體類別外。BIOES進一步細分實體邊界,增加實體結尾詞E和單個實體詞S兩種邊界類型。具體構造方法,見表1。BIOES較BIO提供更多分段信息,識別度更高。在BiLSTM模型下, BIOES較BIO效果更優(yōu)。因此,字粒度序列標注模型均采用BIOES聯(lián)合標簽編碼模式。

        表1 標注對比

        將CCKS 2019病歷數(shù)據(jù)分為6種主要命名實體標簽。爬取的數(shù)據(jù)以json格式存儲,對后續(xù)識別的實體進行KG構建。按6∶2∶2的比例,將CCKS 2019數(shù)據(jù)集分為訓練集、驗證集、測試集。訓練集用以訓練算法,驗證集用以調整參數(shù),測試集用以評估最優(yōu)模型。

        2.3 NER建模方法

        KG的關鍵技術在于運用圖模型描述知識和對關系進行建模[7]。在構建KG的過程中,需要從大量的數(shù)據(jù)中抽取知識并建立聯(lián)系,純文本數(shù)據(jù)是知識的主要來源。實現(xiàn)從純文本數(shù)據(jù)中獲取實體信息依賴于實體抽取技術,KG高適用性和準確度的保障是高精度的NER技術[8]。為了有效地進行實體識別,采取RoBERTa-BiLSTM-CRF的NER建模方式。BERT使用堆疊的Transformer作為模型的主要架構[9],通過在大規(guī)模語料上的預訓練,獲得強有力的句子語義提取能力。RoBERTa基于BERT,兩者在模型層面基本一致,但RoBERTa更為精細。具體變化如下:取消NSP任務;使用更大的mini-batch、訓練數(shù)據(jù)、更長時間的訓練;將BERT的靜態(tài)掩碼(mask)策略替換成動態(tài)掩碼。

        長短時記憶模型(Long Short-Term Memory,LSTM)是一種特殊的循環(huán)神經網絡[10]。該模型引入儲存單元、輸入門、遺忘門和輸出門的控制機制,解決長序列的梯度消失和梯度爆炸問題。BiLSTM即雙向LSTM,由于LSTM只能單向編碼,所以一般使用BiLSTM對隱藏層拼接后得到的向量作為融合上下文信息的詞向量。條件隨機場(Conditional Random Field,CRF)用以對序列標注進行建模。與隱馬爾科夫模型相比,CRF引入特征函數(shù),信息獲取更加全面,能夠獲得更優(yōu)的序列標注效果[11]。

        采用RoBERTa-BiLSTM-CRF的模型構建方式,將處理好的文本序列輸入到RoBERTa中,輸出每個位置并與原標簽序列對齊,繼而輸入到BiLSTM中進行處理。隨后,將處理結果輸入到CRF中,得到預測序列,見圖1。

        圖1 整體模型

        2.4 NER統(tǒng)計分析

        NER的相關深度學習算法基于Tensorflow1.14實現(xiàn)編寫,模型效果從準確率、召回率、F值3方面進行展示。具體計算如下:

        2.5 知識圖譜

        KG指使用語義檢索,從多種來源收集信息,以提高搜索質量的知識庫。本質上KG是將各種客觀實體、概念及其關系構成語義網絡圖,以此形式化地描述真實世界中存在的關系。其主要內容為知識的數(shù)據(jù)結構,包括實體、關系、屬性等知識類的層次結構和層級關系定義,約束數(shù)據(jù)層具體形式。隨著信息時代數(shù)據(jù)量急劇增長,KG的規(guī)模與日俱增,對知識存儲提出更高要求?,F(xiàn)有研究中KG大多采用基于圖的數(shù)據(jù)結構,常見方式包括三元組圖數(shù)據(jù)庫、傳統(tǒng)關系型數(shù)據(jù)庫和圖數(shù)據(jù)庫。其中,基于圖數(shù)據(jù)庫的存儲是目前主流方式。其優(yōu)點是以節(jié)點和邊表示數(shù)據(jù),明確列出數(shù)據(jù)節(jié)點間依賴關系,具有完善的圖查詢語言且支持各種圖挖掘算法,在深度關聯(lián)查詢速度上優(yōu)于傳統(tǒng)關系型數(shù)據(jù)庫。常見圖數(shù)據(jù)庫包括Neo4j、JanusGraph和HugeGraph等[5]。采用Neo4j,在RoBERTa-BiLSTM-CRF模型對中文電子病歷進行關鍵實體抽取的基礎上,利用爬取的外延數(shù)據(jù),直觀呈現(xiàn)實體的知識關系網絡,形成中文電子病歷KG。其中,實體類型包括疾病診斷、操作檢查、癥狀體征、藥物、食物、科室類別等;實體關系包括屬于、常用藥物、所需操作、常見癥狀、常見并發(fā)癥、宜吃食物、忌吃食物等。

        2.6 問答系統(tǒng)(圖2)

        由于中文電子病歷涉及的醫(yī)療場景問答屬于封閉域任務,且病歷數(shù)據(jù)相對規(guī)范,對關系精準度有較高保證。因而關系抽取不采用遠監(jiān)督模型與聯(lián)合抽取,而是采取基于規(guī)則的關鍵詞匹配,對問題進行窮舉并分類。繼而采用Neo4j的Cypher語法進行數(shù)據(jù)匹配查詢,根據(jù)返回數(shù)據(jù)進行回答組裝并輸出。

        圖2 問答框架

        3 實驗結果

        3.1 數(shù)據(jù)情況

        實體識別模型基于CCKS 2019數(shù)據(jù)集進行搭建。CCKS 2019病歷數(shù)據(jù)重點聚焦疾病診斷、解剖部位、影像檢查、實驗室檢驗、手術以及藥物6種標注的命名實體,其中疾病診斷2 798個、解剖部位1 933個、影像檢查313個、實驗室檢驗511個、手術905個,藥物719個。按6∶2∶2的比例,將數(shù)據(jù)集分為訓練集、驗證集、測試集。訓練集用以訓練算法,驗證集用以調整參數(shù),測試集用以評估最優(yōu)模型,見表2。

        表2 實體識別模型數(shù)據(jù)分布(個)

        KG基于中文電子病歷與網絡爬取數(shù)據(jù)進行搭建,共獲取8 000條json格式的擴展醫(yī)療數(shù)據(jù)。KG的主要實體中,疾病診斷8 000個、操作檢查2 813個、癥狀體征5 123個、藥物3 118個、食物4 057個、科室類別50個,見表3。

        KG的主要實體關系中,屬于8 015個、常用藥物13 758個、所需操作36 852個、常見癥狀5 766個、常見并發(fā)癥11 496個、宜吃食物38 156個、忌吃食物21 945個,見表4。KG屬性類型主要包括疾病名稱、疾病簡介、疾病病因、預防措施、治療方式、治療周期、易感人群等。

        表3 實體情況

        表4 實體關系情況

        3.2 NER模型效能

        采用CCKS 2019數(shù)據(jù)集,進行RoBERTa實體識別模型實驗。在CCKS 2019數(shù)據(jù)集中,RoBERTa-BiLSTM-CRF模型效能如下:總體準確率81.91%、召回率83.03%、F值0.83;實驗室檢驗中識別效能最佳,準確率88.24%、召回率86.35%、F值0.87;解剖部位中識別效能最差,準確率78.22%、召回率81.24%、F值0.79,見表5。

        表5 模型效能

        對比傳統(tǒng)基于Word2Vec(總體準確率77.44%、召回率84.90%、F值0.81)、BERT(總體準確率79.18%、召回率84.66%、F值0.82)的實體識別模型,RoBERTa-BiLSTM-CRF擁有更優(yōu)的效能。

        3.3 Neo4j知識圖譜

        基于NER模型識別的重點實體,采用Neo4j進行KG可視化呈現(xiàn)。以主疾病竇性心動過緩為例,從藥品、食物、操作等角度搭建KG進行直觀展現(xiàn),見圖3。

        圖3 竇性心動過緩知識圖譜

        KG搭建完成后,可根據(jù)需要對重點關注的實體及其關系進行聚焦。以利巴韋林膠囊為例,對該藥物可治療的疾病、生產廠家等信息進行可視化呈現(xiàn),見圖4。

        圖4 利巴韋林膠囊知識圖譜

        3.4 問答系統(tǒng)

        基于KG數(shù)據(jù)庫,進行問答系統(tǒng)搭建。以探究主疾病竇性心動過緩原因為例,進行展示。整個問答系統(tǒng)邏輯過程由以下幾步完成:關鍵詞匹配、關鍵詞對問句分類、對問句解析、數(shù)據(jù)查詢、反饋組裝回答。以疾病原因為例,關鍵偽代碼如下。

        #關鍵詞匹配

        if 原因關鍵詞=[‘原因’,‘成因’,‘為什么’,‘怎么會’,‘怎樣才’,‘咋樣才’,‘怎樣會’,‘如何會’,‘為啥’,‘為何’,‘如何才會’,‘怎么才會’, ‘會導致’,‘會造成’]

        則關鍵詞匹配→原因

        #關鍵詞對問句分類

        if 原因關鍵詞, 且問句包含疾病實體

        則確認問句類型分類→疾病原因

        #對問句解析

        sql_transfer(問句類型, 疾病實體)

        #數(shù)據(jù)查詢

        “MATCH疾病實體return疾病名稱, 疾病原因” for i in entities

        #反饋組裝回答

        answer=‘{0}原因可能有:{1}’.format(疾病名稱,‘;’.join(list(set(疾病原因))))

        以竇性心動過緩原因為例進行問答展示。提問“為什么會竇性心動過緩”,得到回答“竇性心動過緩原因可能有:迷走神經興奮;竇房結功能受損;急性心肌梗死;自主神經張力改變”。

        4 結論

        4.1 不足與改進方向

        基于NER與Neo4j的方式能有效構建中文電子病歷KG,但該方法仍有不足值得探究完善。針對實體識別,識別效能仍有進步空間,可考慮改進詞典、引入ALBERT模型[12]、融合字形[13]等方式。由于RoBERTa等預訓練模式最初為英文設計,而漢語作為符號語言,符號包含了一些額外的語義信息。因此原始預訓練語言模型形式缺失了字形信息和拼音信息。而將字形和拼音信息融入到預訓練語言模型中的方式,已在中文多個領域都達到了最優(yōu),后續(xù)將以此作為探索方向。針對關系抽取,主要基于規(guī)則模板的匹配方式,會導致信息缺乏覆蓋率、規(guī)則沖突等問題,可考慮引入更為前沿的抽取方法,如遠監(jiān)督關系抽取、實體關系聯(lián)合抽取[14-16]等。針對KG僅涉及知識抽取階段,后續(xù)知識融合、加工、推理仍有較大挖掘空間。另外對于可視化的展現(xiàn),后續(xù)研究將以知識超圖作為切入點。

        4.2 未來展望

        現(xiàn)階段國內病案相關信息化工作主要集中在軟件開發(fā)、無紙化階段。后續(xù)對于人工智能技術在病案審核、監(jiān)管、分類中的應用應該保持開放態(tài)度,積極進行成果融合。NER、KG作為NLP中的基礎工作,在中文電子病歷中應用效果良好。在未來,實體識別與實體鏈接聯(lián)合任務、深度遷移學習、利用輔助資源進行基于深度學習的非正式文本分析等,都會是相關病案信息化發(fā)展中的有效助力。KG能夠提高醫(yī)療信息系統(tǒng)智能化水平,為醫(yī)療領域提供從海量醫(yī)學文本和圖像信息中抽取結構化知識的手段?;卺t(yī)療KG,可以實現(xiàn)醫(yī)療知識問答、智能輔助診療、醫(yī)療質量控制及疾病風險評估等,具有廣闊發(fā)展前景??傮w而言,KG將賦能認知智能,具有廣泛且多樣的應用需求,能夠產生巨大的社會價值,對社會結構產生深遠影響。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲国产日韩欧美综合a| 国产三级av在线播放| 日本不卡不二三区在线看 | 欧美综合区自拍亚洲综合| 精品亚洲av一区二区| 无人区乱码一区二区三区| 狠狠噜天天噜日日噜视频麻豆| 国产一区二区激情对白在线| 日本精品久久中文字幕| 一二三区无线乱码中文在线| 久久er99热精品一区二区| 人妻丰满熟妇av无码区hd| av天堂一区二区三区精品| 色吧噜噜一区二区三区| 2021久久精品国产99国产精品| 国产精品无码Av在线播放小说| 中文字幕人妻少妇精品| 妃光莉中文字幕一区二区| 国产一卡2卡3卡四卡国色天香| 传媒在线无码| 极品少妇一区二区三区| 亚洲av永久无码精品古装片 | 美国又粗又长久久性黄大片| 亚洲中文无码av永久| 久久久久久久人妻无码中文字幕爆| 天堂av一区二区在线观看| 日本a级片一区二区三区| 国模精品一区二区三区| 97超级碰碰人妻中文字幕| 91国产超碰在线观看| 国产午夜精品久久久久| 亚洲一区二区三区av资源| 最新国产福利在线观看精品| 美女啪啪国产| 最新亚洲视频一区二区| 人妻熟妇乱又伦精品hd| 亚洲另类精品无码专区| 国产亚洲三级在线视频| 午夜少妇高潮在线观看| 亚洲av日韩av高潮潮喷无码| 成人无码激情视频在线观看|