亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于醫(yī)在回路的醫(yī)療健康知識圖譜系統(tǒng)架構的研究

        2019-11-07 08:37:00邢春曉
        安徽大學學報(自然科學版) 2019年6期
        關鍵詞:概念方法

        盛 明,張 勇,邢春曉

        (清華大學 信息技術研究院 WEB與軟件技術研究中心, 北京 100084)

        知識圖譜可以將來自不同來源的信息和知識融合在一起.在過去幾年中,許多知識圖譜,無論是面向通用的還是特定領域的,都已經(jīng)被構建出來并且成為相關領域的寶貴資源.概念醫(yī)學知識圖譜,如UMLS(unified medical language system)、Gene Ontology等,僅包含醫(yī)學領域的概念.事實醫(yī)學知識圖譜,如Google Health Knowledge Graph, Knowlife,PDD Graph(patients, diseases and drugs graph)等,包括了概念和實例.

        在醫(yī)學領域,知識圖譜是一個非常有用的工具,可以支持疾病預測、藥物推薦[1]等服務.很多知識圖譜的構建[2-3]采用全自動化方法,沒有任何人工參與,這些知識圖譜的數(shù)據(jù)主要來自互聯(lián)網(wǎng).盡管這些全自動化方法可以節(jié)省醫(yī)學專家的時間和精力,但是當涉及特定醫(yī)療健康領域知識圖譜的構建時,由于醫(yī)學領域的概念/關系/事件是復雜而模糊的、醫(yī)學領域的源數(shù)據(jù)質量差[4]、醫(yī)學領域的數(shù)據(jù)標準不統(tǒng)一等原因,它們的表現(xiàn)不盡如人意.

        因此,用于完全自動構建知識圖譜的通用方法不能直接應用于醫(yī)療健康領域.為了提高圖譜質量,在構建過程中引入一些醫(yī)學專家的先驗知識是非常必要的.另一方面,如果構建過程中涉及太多醫(yī)學專家的工作,則需要花費大量的時間和精力,整個構建的效率將大大降低[5].更糟糕的是,整個系統(tǒng)將不具備可擴展性,無法適應和擴展到其他新的醫(yī)學主題[6].因此,需要在合適的位置引入醫(yī)學專家的相關工作.醫(yī)學專家的工作和自動化方法之間的平衡是非常重要的,需要謹慎對待.

        論文介紹了一個系統(tǒng)架構,該架構表明在醫(yī)療健康領域知識圖譜的構建過程中有哪些環(huán)節(jié)、在什么時機需要引入醫(yī)學專家的工作等.其目的是:基于自動化的方法可以幫助醫(yī)生節(jié)省時間和精力,基于醫(yī)生的先驗知識可以彌補相關通用或自動化圖譜構建方法的不足.通過這種方式,提高了知識圖譜構建的效率和質量.

        1 相關工作

        1.1 知識圖譜構建工具

        現(xiàn)在已經(jīng)有許多自動知識圖譜構建的工具,這些工具可以處理海量數(shù)據(jù)并無須人工參與構建知識圖譜. 在醫(yī)療領域中,典型的知識圖譜構建工具有RDR(ripple-down rules)[7]、cTAKES(clinical text analysis and knowledge extraction system)[8]、pMineR(process mining R library)[9]、I-KAT[10]、myDIG、semTK (the semantics toolkit ).表1是這些工具的對比.

        表1 知識圖譜構建工具

        如表1所示,主流知識圖譜構建工具包括RDR、cTAKES、pMineR、I-KAT等.可以看出只有不到一半的工具涉及圖譜構建過程中的人工參與.它們中任何一個工具都沒有完全包含5個常用功能:實體識別、關系抽取、實體對齊、數(shù)據(jù)模型映射(從ER(entity relation)模型到RDF(resource description framework)模型))、人工參與.因此,使用這些工具構建醫(yī)學知識圖譜的效果較差.

        1.2 醫(yī)生在醫(yī)學知識信息化過程中的角色

        如何組織醫(yī)學知識一直是一個重要問題.文獻[11]根據(jù)醫(yī)生的先驗知識和修訂意見建立了生物醫(yī)學知識庫,并使用貝葉斯網(wǎng)絡進行疾病預測.案例基礎推理CBR(case-based reasoning)可以組織文本醫(yī)學知識并將其整合到案例中.在CBR系統(tǒng)中,數(shù)據(jù)需要通過特征提取、特征選擇和加權進行預處理,這些步驟通常在醫(yī)生的幫助下進行.首先,臨床醫(yī)生可能會向系統(tǒng)提供一些初步經(jīng)驗或知識,然后將這些知識經(jīng)驗用于解決新病例.在此過程中,醫(yī)生可能會對他們以前的知識進行一些調(diào)整.案例解決后,這些知識集得以更新.此外,有很多大型生物醫(yī)學本體庫,如基因本體庫、疾病本體庫或其他關聯(lián)生命數(shù)據(jù)本體庫等,為人們提供更加全面的結果.

        1.3 醫(yī)在回路(doctor-in-the-loop)

        在醫(yī)學領域,基于機器學習的自動方法在許多方面取得了顯著成果,如疾病預測和臨床記錄分類.盡管醫(yī)學領域的自動機器學習(automatic machine learning,簡稱aML)吸引了許多研究人員的興趣并且一直發(fā)展迅速,但這些方法缺點在于其無法解釋性[12].機器學習模型通常被視為“黑箱”,內(nèi)部結構和原則超出了人們的理解范圍[13].更重要的是,aML需要具有大量訓練集才能獲得較好的結果,但在醫(yī)學領域,數(shù)據(jù)集是有限的,研究人員可能會遇見一些特例事件,這將導致aML受到訓練數(shù)據(jù)集不足的影響.因此,需要能夠與醫(yī)學專家交互并且可以通過這些交互來優(yōu)化其學習行為的算法.通過這種互動,可以啟發(fā)式地選擇訓練樣本,并且可以大大減少研究時間.涉及人工交互的算法可以被定義為人在回路[14].人在回路實際上已經(jīng)被應用于人工智能的許多方面,如命名實體識別[15]和規(guī)則學習.在醫(yī)學領域,大都是嘗試結合醫(yī)在回路機制來改善性能,特別是在知識圖譜構建方面.

        2 架構和工作流

        2.1 架構

        圖1為應用醫(yī)在回路的醫(yī)療知識圖譜構建的架構.

        圖1 應用醫(yī)在回路的醫(yī)療知識圖譜構建的架構

        如圖1所示,構建疾病特定醫(yī)學知識圖譜的系統(tǒng)應包括疾病??漆t(yī)生,這是整個構建過程中最重要的部分;其他部分主要包括人機交互接口、數(shù)據(jù)來源、圖譜構建工具、概念圖譜和實例圖譜.

        在圖譜的構建過程中,醫(yī)生應能夠與系統(tǒng)互動.因此,應該為醫(yī)生提供一套接口.通過這種方式,醫(yī)生可以將他們的經(jīng)驗和知識應用到構建系統(tǒng)中.知識圖譜構建的完全手動方法不僅耗時而且容易出錯,需要一套用于構建醫(yī)學知識圖譜的自動化工具.因此,通過提供接口,系統(tǒng)能夠設法將醫(yī)生的知識與自動構建方法結合起來.

        2.2 工作流

        圖2詳細展示了應用人在回路的醫(yī)療知識圖譜構建的工作流程. 在該系統(tǒng)中,醫(yī)生的參與主要體現(xiàn)在4個方面:同義詞匹配融合和概念對齊;新詞發(fā)現(xiàn)和新概念;標注實體和電子病歷(EMR)的關系提??;建立規(guī)則庫,包含實體和關系提取的映射規(guī)則和模式.

        圖2 應用人在回路的醫(yī)療知識圖譜構建的工作流程

        3 構建過程中的醫(yī)在回路

        3.1 同義詞對齊模塊

        現(xiàn)有的醫(yī)學知識庫是知識圖譜的重要來源.為了充分利用信息,具有相同含義的不同概念和關系必須適當對齊并融合在一起.為了提高自動匹配方法的準確性和手動對齊方法的效率,論文提出了一個同義詞模塊,這個模塊可以整合醫(yī)生和自動匹配器的結果.這個模塊中有兩個階段:匹配階段,聚合階段.

        該模塊在語料庫級別上工作,并且能夠跨不同的數(shù)據(jù)源操作.醫(yī)生可以在模塊中輸入新單詞或短語,然后將輸入文本傳遞到匹配器庫(一組不同的匹配器)上進行處理.匹配庫將輸入文本的可能同義詞的候選列表返回給醫(yī)生.候選名單大約包含10個語料,這大大縮小了醫(yī)生的搜索范圍.在這之后,醫(yī)生可以自己決定列表中的語料是否是輸入文本的同義詞.如果列表中有與輸入文本同義的語料,則醫(yī)生可以將其與他們認為最匹配的現(xiàn)有語料對齊.如果沒有,醫(yī)生可以創(chuàng)建新節(jié)點并且把新輸入的文本集成到語料庫中,存儲在同義詞庫中的詞可以用來支持實體提取.圖3為同義詞匹配模塊的工作流,圖4為概念結構的層級.

        圖3 同義詞匹配模塊的工作流

        圖4 概念結構的層級

        該模塊的關鍵部分是如何組織具有不同拼寫、來自不同數(shù)據(jù)源但含義相同的單詞和短語.為了解決這個問題,引入了一個層次結構表達方式,給每個不同的概念(具有獨特含義的詞/短語)分配一個唯一的概念身份(concept identity,簡稱CID). 概念可能有許多表達形式,但只有一個表達形式是首選,此首選表達式是該概念的默認表示形式.對于具有相同含義但拼寫不同或數(shù)據(jù)源不同的表達形式,為每個表達形式分配唯一的原子標識(atom identity,簡稱AID),AID是相應CID的子節(jié)點.

        3.2 概念編輯模塊

        與在語料庫級別上工作的同義詞匹配模塊不同,該模塊在概念級別上工作,并且可以向醫(yī)生提供在概念圖上操作的接口.該概念審核模塊主要為醫(yī)生提供兩種功能:概念選擇和對齊,新詞發(fā)現(xiàn).

        知識圖譜構建的質量在很大程度上取決于圖譜包含的概念.然而,由于醫(yī)學術語的模糊性和專業(yè)性,醫(yī)學詞庫中的概念必須由醫(yī)生仔細檢查.在建立分層次存儲概念的醫(yī)學詞庫之后,醫(yī)生應該能夠根據(jù)他們自己的要求和掌握的知識來審查概念,并決定將哪些概念放入最終的概念圖譜中.

        此功能類似于同義詞匹配模塊提供的服務,但在概念知識圖譜級別上運行.如果醫(yī)生想要將醫(yī)學詞庫中的新概念添加到概念圖譜中,可以輸入文本,然后輸入的字符串將被傳入醫(yī)學詞庫和概念圖譜上的搜索引擎上.醫(yī)學詞庫上的搜索引擎將返回與醫(yī)生輸入字符串對應的概念列表,概念圖譜上的搜索引擎將從圖譜中返回與輸入字符串相似的概念列表.醫(yī)生只需要快速掃描搜索引擎提供的概念列表,而不必手動搜索整個詞庫中的大量概念.醫(yī)生可以自己決定與輸入字符串相對應的概念是否是新概念:如果是,醫(yī)生可以從與輸入字符串對應的概念列表中選擇一個并添加到概念圖譜中;如果醫(yī)學詞庫上的搜索引擎沒有返回與輸入字符串對應的結果,則進入新詞發(fā)現(xiàn)模塊并更新醫(yī)學詞庫.圖5為概念選擇對齊模塊的工作流程.

        圖5 概念選擇對齊模塊的工作流程

        雖然醫(yī)學知識庫中存儲的信息十分豐富,但是臨床實踐中仍有醫(yī)學術語尚未納入詞庫,這些醫(yī)學術語可能來自患者的EMR,或僅僅來自醫(yī)生的先驗知識.新單詞發(fā)現(xiàn)功能為醫(yī)生提供了一組接口,醫(yī)生可以通過這些接口以定制添加不在醫(yī)學詞庫中的術語和概念.

        (1) 數(shù)據(jù)驅動方法

        該方法可以從患者的EMR中獲取信息.患者的EMR記錄了患者的實際情況,可以作為構建高質量醫(yī)學知識圖譜的數(shù)據(jù)來源.但是,EMR的某些特征未存儲在概念圖譜中.表2為病人EMR的一部分.

        表2 病人EMR的一部分

        表2顯示了心尖部搏動心音A2和心包摩擦都是心臟疾病診斷的重要特征.但是,這幾個特征中沒有一個可以與概念圖譜中的概念對齊.在這種情況下,醫(yī)生可以使用該模塊提供的接口將這個新概念添加到圖譜中.

        (2) 需求驅動方法

        除了根據(jù)患者EMR中的特征定義概念之外,醫(yī)生可以根據(jù)自己的經(jīng)驗定義一些概念和關系.有時,EMR中的信息過于復雜,并且涉及很多方面.有些特征過于分散,而醫(yī)生只想專注于特定的幾個特征.在這種需求驅動的方法中,醫(yī)生可以先拋開EMR,并在更高層次上定義概念和關系.圖6展示了由醫(yī)生定義的圖譜示例.

        圖6 由醫(yī)生定義的概念圖譜

        3.3 實體&關系標注模塊

        為了從患者的EMR中獲取信息,需要提取實體和關系,提取的質量在很大程度上取決于標注.然而,在醫(yī)學領域,有許多實體類型不符合傳統(tǒng)定義的4類范式:人名、地名、機構名、混雜類型.例如,在臨床說明中,有疾病和癥狀、臨床發(fā)現(xiàn)、測試結果等類型的實體.如果忽略這些特定領域的標簽,那么基于深度學習的提取質量將下降.因此,標注模塊為醫(yī)生提供了標注患者的EMR界面.

        該界面能夠加載患者EMR并向醫(yī)生呈現(xiàn)這些臨床記錄.在界面的左側列出一些預定義的實體和關系標簽.實體標簽包括疾病誘因、患病期、疾病名稱、胸痛部位、伴隨癥狀、放射部位、藥物名稱等.除了這些預定義的標簽,醫(yī)生還可以根據(jù)自己的需要定制自己的標簽.通過預先準備好這些標簽,醫(yī)生可以在文本中選擇單詞或短語,并為其分配適當?shù)臉撕?醫(yī)生還可以從EMR中選擇實體對,并為該實體對分配關系標簽,然后可以將實體和關系標注的結果分別添加到實體和關系庫中以支持實體和關系提取.

        為了節(jié)省醫(yī)生的時間和精力,該模塊應與實體提取和關系提取模塊配合.數(shù)據(jù)工程師可使用機器學習模型,如CRF(conditional random field)和CNN-LSTM(convolutional neural network-long short-term memory),從臨床記錄中自動提取信息.醫(yī)生可以專注于模型的結果,并為模型生成訓練材料.

        3.4 規(guī)則庫模塊

        為了支持圖譜構建過程,需要醫(yī)生生成兩種類型的規(guī)則:一種是從ER模型映射到RDF模型的規(guī)則,另一種是提取規(guī)則.

        實例圖譜是基于RDF/OWLS(web ontology language semantics)模型進行的.但是,目前EMR(無論是公共數(shù)據(jù)集還是私有數(shù)據(jù)集)都以ER模型存儲在關系數(shù)據(jù)庫中.ER模型不適合對圖結構進行表示,需要被轉換為RDF/OWLS模型.

        如圖7所示,左側是來自一名患者的EMR的一部分,有6種類型的心音,醫(yī)生在患者的癥狀后面做標記.右上表示直接的ER到RDF映射結果,直接將此ER模型映射到RDF/OWLS可能會導致RDF/OWLS極其復雜. 然而,利用醫(yī)生定義的映射規(guī)則,映射結果(右下)可以變得更加簡單且更有意義. 所有6種類型的心音被分配給一個稱為“心音類型”的屬性,6種類型的心音成為這一屬性的值.

        圖7 ER到RDF的映射過程

        實體提取有兩種方法:一種是基于序列注釋方法,另一種是基于規(guī)則和模式的方法.基于機器學習的序列注釋方法在實體和關系提取中取得了不錯的結果.然而,基于規(guī)則和模式的提取因其靈活性而成為序列注釋方法的一個補充.因為醫(yī)生的要求經(jīng)常發(fā)生變化,這種靈活性在醫(yī)學領域尤為重要.通過為醫(yī)生提供定制規(guī)則和模式的界面,可以使醫(yī)生將精力更多地集中在更有意義的工作上.如果醫(yī)生想要更多地關注患者的癥狀,可以定制一些表達式,如“表現(xiàn)出*的癥狀”,“*”用作通配符以匹配表示癥狀的單詞/短語;具有匹配和提取功能的NLP(natural language processing)工具(如spaCy,jieba)也可被應用到臨床記錄上.

        4 結束語

        論文介紹了一個關于醫(yī)療健康知識圖譜構建的系統(tǒng).構建過程的關鍵是將醫(yī)生先驗知識和相關工作與自動化方法相結合,以實現(xiàn)準確性和效率之間的平衡.將來,作者希望能夠構建包含事件節(jié)點的知識圖譜.構造事件節(jié)點的過程類似論文中提到的實例節(jié)點和概念節(jié)點的構造,有助于提高事件圖譜構造的質量.

        猜你喜歡
        概念方法
        Birdie Cup Coffee豐盛里概念店
        幾樣概念店
        學習方法
        學習集合概念『四步走』
        聚焦集合的概念及應用
        可能是方法不對
        論間接正犯概念之消解
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        成人中文乱幕日产无线码| 乌克兰少妇xxxx做受6| 国产精品亚洲A∨天堂| 国产精品无码无片在线观看3D| 婷婷五月亚洲综合图区| 亚洲av毛片成人精品| 久久亚洲宅男天堂网址| 日韩av免费一区二区| 亚洲午夜狼人综合影院| 曰本无码人妻丰满熟妇啪啪| 亚洲乱码av中文一区二区| 亚洲色图+国产精品| 日韩偷拍视频一区二区三区| 亚洲人妻av综合久久| 我和隔壁的少妇人妻hd| 亚洲av无码av在线播放| 国产精选污视频在线观看| 玖玖资源站无码专区| 无码视频一区=区| av有码在线一区二区三区| 虎白m粉嫩小在线播放| 男人扒开女人双腿猛进视频| 久久久精品人妻一区二区三区四| 日韩熟妇精品视频一区二区| 亚洲香蕉av一区二区蜜桃| 中文字幕人妻av一区二区| 亚洲午夜精品一区二区麻豆av | 中国人妻与老外黑人| 亚洲av综合久久九九| 一区二区韩国福利网站| 久久精品国产黄片一区| 韩国三级大全久久网站| 国产精品美女久久久久| 久热这里只有精品99国产| 国产高潮流白浆免费观看不卡| 有码中文字幕一区二区| 一个色综合中文字幕人妻激情视频 | 日本一区二区三区专区 | 久久久久成人精品无码中文字幕| 欧美人成人亚洲专区中文字幕| 亚洲高清在线视频网站|