亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子病歷文本挖掘研究綜述

        2021-11-25 09:18:02吳宗友白昆龍楊林蕊王儀琦田英杰
        計算機研究與發(fā)展 2021年3期
        關(guān)鍵詞:文本糖尿病方法

        吳宗友 白昆龍 楊林蕊 王儀琦 田英杰

        1(中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院 北京 100049) 2(中國科學(xué)院大學(xué)計算機與科學(xué)技術(shù)學(xué)院 北京 100049) 3(中國科學(xué)院虛擬經(jīng)濟與數(shù)據(jù)科學(xué)研究中心(中國科學(xué)院大學(xué)) 北京 100190) 4(中國科學(xué)院大數(shù)據(jù)挖掘與知識管理重點實驗室(中國科學(xué)院大學(xué)) 北京 100190) 5(中國科學(xué)院大學(xué)中丹學(xué)院 北京 100049)

        (bossbit@126.com)

        在過去的幾十年里,互聯(lián)網(wǎng)信息技術(shù)蓬勃發(fā)展,使得數(shù)據(jù)的管理與傳輸變得更為高效,同時醫(yī)療機構(gòu)也構(gòu)建了大量的電子病歷信息庫.在眾多的現(xiàn)代化醫(yī)療數(shù)據(jù)中,電子病歷數(shù)據(jù)是最重要的醫(yī)療數(shù)據(jù)資源之一.每天都有海量的電子病歷數(shù)據(jù)在各級醫(yī)院產(chǎn)生,形成了醫(yī)療大數(shù)據(jù)的重要組成部分.電子病歷以患者為主體,比較完整地記錄患者長期的醫(yī)療信息,并且經(jīng)過計算機技術(shù)的整理、儲存、共享和分析,是紙質(zhì)病歷的升級版本.電子病歷的特性使得相關(guān)信息庫中同時包含著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)如表格數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)如文本數(shù)據(jù)和醫(yī)學(xué)圖像等.

        對電子病歷進行數(shù)據(jù)挖掘有巨大的應(yīng)用前景,然而電子病歷數(shù)據(jù)量大、非結(jié)構(gòu)化數(shù)據(jù)多的特點使得數(shù)據(jù)挖掘十分困難.雖然早期部分研究人員利用一些簡單的電子病歷數(shù)據(jù)挖掘方法如決策樹[1]等輔助診斷,但是由于技術(shù)和方法的限制,對醫(yī)療數(shù)據(jù)的信息挖掘效果十分有限.而近年來,機器學(xué)習(xí)和深度學(xué)習(xí)在其他領(lǐng)域展現(xiàn)的巨大潛力給電子病歷的挖掘帶來了新的希望[2].本文主要針對電子病歷中的文本數(shù)據(jù)部分,結(jié)合國內(nèi)外的研究現(xiàn)狀,分析電子病歷數(shù)據(jù)挖掘面臨的挑戰(zhàn)以及現(xiàn)有的解決方案.

        1 電子病歷

        電子病歷往往包含了患者就診過程中產(chǎn)生的多種數(shù)據(jù)格式,如文本、圖像、表格等.本文主要針對的是電子病歷中的文本部分,包括患者基本信息、患者病史、患者的癥狀、醫(yī)生的診斷說明等.電子病歷中的文本數(shù)據(jù)同樣分為結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息.結(jié)構(gòu)化信息如身高、體重等往往通過簡單的數(shù)據(jù)清洗就可以作為各種機器學(xué)習(xí)算法的輸入;非結(jié)構(gòu)化的信息如診斷信息、用藥信息、檢查信息、臨床記錄等,這些數(shù)據(jù)則需要較為復(fù)雜的預(yù)處理和自然語言處理(natural language processing, NLP).對電子病歷信息進行分析與利用需要大量有專業(yè)知識的人工付出大量的時間,成本昂貴.而NLP的發(fā)展為自動處理電子病歷文本數(shù)據(jù)提供了基礎(chǔ).對電子病歷的數(shù)據(jù)挖掘有助于節(jié)省人力物力,提高醫(yī)生的診斷效率,實現(xiàn)智慧醫(yī)療.

        電子病歷的數(shù)據(jù)挖掘始于數(shù)據(jù)收集和預(yù)處理,在獲得海量電子病歷數(shù)據(jù)后需要針對數(shù)據(jù)的特性和挖掘分析的目標對數(shù)據(jù)進行預(yù)處理.電子病歷數(shù)據(jù)預(yù)處理常用的方法主要包括脫敏處理、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)規(guī)約.

        1) 脫敏處理.電子病歷的一個特性是隱私性,這意味著相關(guān)數(shù)據(jù)的收集只能以大型的醫(yī)院信息部門或者一些專業(yè)的醫(yī)療機構(gòu)作為數(shù)據(jù)來源,并且公開數(shù)據(jù)集時要對數(shù)據(jù)進行處理,隱藏掉部分信息以保護患者的隱私權(quán).

        2) 數(shù)據(jù)清洗.數(shù)據(jù)清洗其主要目的是將錯誤或雜亂無章的數(shù)據(jù)處理成干凈、標準的數(shù)據(jù)以供后續(xù)數(shù)據(jù)統(tǒng)計和挖掘使用.數(shù)據(jù)清洗主要包括補齊、去重和降維等方法,需要針對不同數(shù)據(jù)選擇具體的方法.對電子病歷文本挖掘前的數(shù)據(jù)清洗需要考慮電子病歷的特點,電子病歷的建立通常需要醫(yī)護人員和患者協(xié)作,在記錄過程中可能會有數(shù)據(jù)缺失、噪聲數(shù)據(jù)、錯誤語義甚至是自相矛盾的數(shù)據(jù)或文本存在.對于缺失的數(shù)據(jù),通常可以只刪除帶有缺失數(shù)據(jù)的樣本或者采用均值將缺失數(shù)據(jù)填充,再者,可以采用類似于回歸、貝葉斯、決策樹等機器學(xué)習(xí)方法來確定填充數(shù)據(jù)的最佳值.而噪聲數(shù)據(jù)通常指的是數(shù)據(jù)出現(xiàn)了明顯的不正常數(shù)值,如血壓數(shù)值高于常人數(shù)倍,面對這樣的數(shù)據(jù),通常采用平滑處理或異常值分析的方法.平滑處理通常用數(shù)據(jù)周圍點的均值進行處理,而異常值分析方法通常通過聚類方法來構(gòu)建類別從而處理數(shù)據(jù).另外,面對一些語法錯誤和語義錯誤,只能通過人為再編輯或者NLP技術(shù)進行修正.

        3) 數(shù)據(jù)集成.經(jīng)過數(shù)據(jù)清洗過后干凈的數(shù)據(jù)需要經(jīng)過數(shù)據(jù)集成操作,數(shù)據(jù)集成通常是指將不同源頭的電子病歷數(shù)據(jù)集成到同一個數(shù)據(jù)庫中,可以擴大數(shù)據(jù)規(guī)模,方便模型的訓(xùn)練和后續(xù)算法的研究.但是數(shù)據(jù)集成也存在著問題,從不同源集成的數(shù)據(jù)之間可能存在結(jié)構(gòu)的不一致或數(shù)據(jù)存在冗余的現(xiàn)象,那么整理之后的數(shù)據(jù)要重新進行數(shù)據(jù)清洗.在電子病歷數(shù)據(jù)中,同一個患者的數(shù)據(jù)可能來自不同醫(yī)院的不同科室,這些數(shù)據(jù)很容易出現(xiàn)異構(gòu)或重復(fù)的現(xiàn)象.

        4) 數(shù)據(jù)選擇.針對不同的研究目標,對整理出的電子病歷數(shù)據(jù)進行內(nèi)容篩選處理也十分重要.根據(jù)研究目的的不同,選擇出電子病歷中不同的病歷記錄.經(jīng)過數(shù)據(jù)選擇確定研究數(shù)據(jù),一方面可以剔除掉無關(guān)屬性和噪聲對研究目標的影響,另一方也起到了對數(shù)據(jù)的降維作用.高質(zhì)量的數(shù)據(jù)選擇是數(shù)據(jù)預(yù)處理中的關(guān)鍵步驟,影響著研究目標的實現(xiàn)結(jié)果.

        5) 數(shù)據(jù)規(guī)約.數(shù)據(jù)規(guī)約是對電子病歷文本數(shù)據(jù)進行規(guī)范化調(diào)整,將數(shù)據(jù)調(diào)整為適合進行數(shù)據(jù)挖掘的形式,包括對輸入數(shù)據(jù)的歸一化處理(最小最大歸一化、零均值歸一化和分數(shù)歸一化等)、遺漏數(shù)據(jù)的處理以及錯誤信息的糾正.數(shù)據(jù)規(guī)約是為了使數(shù)據(jù)更加規(guī)范化,使得數(shù)據(jù)在接近原始數(shù)據(jù)的基礎(chǔ)上更加易于處理.

        2 電子病歷數(shù)據(jù)挖掘任務(wù)和方法

        電子病歷中包含著大量非結(jié)構(gòu)化文本信息,要從非結(jié)構(gòu)化的文本信息中挖掘出潛在的規(guī)律需要識別出大量專業(yè)詞匯和如疾病-癥狀等特殊鮮明的實體關(guān)系,要對這些文本信息進行數(shù)據(jù)挖掘,關(guān)鍵的2個基本任務(wù)分別為命名實體識別和關(guān)系抽取.近年來,隨著NLP技術(shù)的發(fā)展,對電子病歷數(shù)據(jù)的分類任務(wù)和問答任務(wù)也有了一定的突破.下文將簡單介紹電子病歷文本挖掘中常見的4種任務(wù):命名實體識別、關(guān)系抽取、文本分類和問答系統(tǒng),并介紹任務(wù)常用的數(shù)據(jù)分析方法.

        2.1 醫(yī)學(xué)命名實體識別

        命名實體識別(named entity recognition, NER)也稱為概念抽取,即從指定的自由文本中抽取出相關(guān)的具有特定意義的詞語,它在醫(yī)學(xué)文本研究中被稱為生物醫(yī)學(xué)命名實體識別(biomedical named entity recognition, BioNER).電子病歷命名實體識別是BioNER的子領(lǐng)域,其主要任務(wù)是識別出患者的電子病歷中具有特定意義的實體,并對它們進行標注,這些實體根據(jù)研究目的不同而有所區(qū)別.通常中文電子病歷中的實體類型包括疾病、病因、臨床表現(xiàn)、檢查方法、藥品名稱、手術(shù)、身體部位等.電子病歷在被標注實體之后可以提高醫(yī)生查看病歷的工作效率.同時,標注的結(jié)果也將輔助后續(xù)的如關(guān)系抽取和知識圖譜構(gòu)建等研究.隨著相關(guān)技術(shù)的進步和研究的進展,發(fā)展出了很多電子病歷命名實體識別的方法,最開始的方法是基于詞典與規(guī)則的方法和基于統(tǒng)計學(xué)的機器學(xué)習(xí)方法.而在過去幾年中,基于深度學(xué)習(xí)的方法在該任務(wù)中效果顯著并得到廣泛使用,如2018年出現(xiàn)的BERT(bidir-ectional encoder representation from transformers)等深度學(xué)習(xí)框架進一步改善了生物醫(yī)學(xué)命名實體識別的性能.目前主流的中文電子病歷命名實體識別的方法仍然是條件隨機場和雙向長短時記憶網(wǎng)絡(luò)[3].下面將對3類不同方法進行詳細梳理.

        1) 基于詞典和規(guī)則的方法

        基于詞典的方法在識別過程中通常是依靠術(shù)語詞典,然后采取匹配算法進行命名實體識別.因此,對于電子病歷這種專業(yè)性較強的文本,標注語料即詞典的規(guī)模和質(zhì)量起到了相當關(guān)鍵的作用.在醫(yī)療領(lǐng)域,中文電子病歷的標注規(guī)范也在不斷的探索當中,并形成語料庫,如曲春燕等人[4]在2015年參照i2b2 2010的標注規(guī)范制定了中文電子病歷的標注規(guī)范,并在2名臨床醫(yī)生的幫助下對標準語料進行了檢驗,后來在他們的標注語料基礎(chǔ)上,一些研究人員也進行了改進[5-6],這些都使得中文電子病歷標注語料規(guī)模和質(zhì)量變得更加可靠.雖然完全基于詞典的命名實體識別準確率有一定的保障,但是電子病歷的標注語料庫的構(gòu)建需要醫(yī)療專業(yè)知識,通常需要醫(yī)學(xué)方面的專業(yè)人員共同協(xié)作,且隨著時間的推移語料庫的維護也耗時耗力.由于詞典規(guī)模有限且需要及時更新等原因,僅使用詞典往往并不能取得特別好的效果,因此后來詞典常作為特征幫助以提升自然語言處理的效果.

        與基于詞典的方法不同,基于規(guī)則的方法主要是通過對整個文本進行分析來構(gòu)建規(guī)則模板,利用規(guī)則模板,通過匹配的方式實現(xiàn)命名實體的識別.基于規(guī)則的方法更加直觀且方便維護,但規(guī)則的構(gòu)建也需要相關(guān)領(lǐng)域?qū)<业娜肆η液臅r較大,而且在沒有明顯規(guī)則時基于規(guī)則模板的識別將較困難.同時,不同領(lǐng)域文本與實體大不相同,無法從某個醫(yī)學(xué)領(lǐng)域直接擴展到其他醫(yī)學(xué)領(lǐng)域.因此,規(guī)則與詞典相似,后來也通常被用于輔助命名實體識別模型.例如利用規(guī)則優(yōu)化詞典等的特征,再結(jié)合條件隨機場對中文電子病歷進行命名實體識別,比單純使用條件隨機場的效果要好[7].

        2) 基于統(tǒng)計學(xué)習(xí)的方法

        隨著機器學(xué)習(xí)的發(fā)展和流行,針對詞典和規(guī)則的方法存在的缺點,基于統(tǒng)計機器學(xué)習(xí)進行命名實體識別的方法被提出并得到深入的研究和應(yīng)用,詞典和規(guī)則則作為一種輔助手段用于提高機器學(xué)習(xí)實體識別的效果.機器學(xué)習(xí)方法需要的專業(yè)人工相對較少,成本也較低,所以近年來應(yīng)用相對廣泛.傳統(tǒng)機器學(xué)習(xí)方法可以分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)3類.其中有監(jiān)督學(xué)習(xí)方法在命名實體任務(wù)中占了主流,它通常需要大規(guī)模帶標簽的訓(xùn)練集,將命名實體識別任務(wù)轉(zhuǎn)換成分類問題,訓(xùn)練集用于模型的訓(xùn)練,生成目標模型后才可以對未標注語料中的實體進行識別.常用的序列標注模型包括隱馬爾可夫模型、最大熵模型、條件隨機場模型和支持向量機等.

        ① 隱馬爾可夫模型.隱馬爾可夫模型(hidden Markov model, HMM)最初由Bikel等人[8]提出并發(fā)表在統(tǒng)計學(xué)的系列論文中,該模型在后續(xù)研究中被證實在語言識別、自然語言處理以及生物信息學(xué)等多個領(lǐng)域的應(yīng)用都體現(xiàn)了很大價值[9].

        在序列標注中使用HMM時,目的在于給定觀測序列是X的條件下,求解使條件概率P(X|Y)最大的標記序列Y*.根據(jù)貝葉斯公式推導(dǎo)可知,HMM的實質(zhì)為求解聯(lián)合概率P(X,Y).在獲得模型參數(shù)后,命名實體識別問題的解碼(常用Viterbi算法)過程目標為得到相對于觀測序列的最優(yōu)命名實體標記序列,解碼序列.HMM雖然是序列標注的最常用且有效的方法之一,然而HMM是以獨立性假設(shè)為前提的,即觀測元素為獨立于觀測序列中的其他元素的單元.事實上元素之間一般并非獨立,且可能具有長距離依賴關(guān)系,如文本語句遠距離上下文之間的語義聯(lián)系,嚴格的獨立性假設(shè)不能夠真實地描述數(shù)據(jù)序列所包含的信息,這是HMM的主要缺陷.

        ② 最大熵模型.熵(entropy)[10]表示能量在空間中分布的均勻程度.香農(nóng)在描述信息量時用了這個概念,提出了信息熵的概念,來表示系統(tǒng)的平均信息量.最大熵模型(maximum entropy, ME)是在最大熵原理[11]的基礎(chǔ)上實現(xiàn)的,主要思想是在已知部分知識的前提下選擇熵最大的概率分布,即在滿足約束條件的情況下選擇不確定性最大,信息量最大的模型.

        最大熵模型在特征選擇時相對靈活可以引入特征提高模型的準確率,且不需要HMM必須的獨立性假設(shè).但是其迭代過程計算量巨大,計算的時間復(fù)雜度較高.

        ③ 條件隨機場模型.條件隨機場(conditional random fields, CRFs)[12-13]是一種用于序列標記任務(wù)的概率統(tǒng)計模型.CRF是最大熵HMM模型在標注問題上的改進.假設(shè)X,Y分別表示為需要標記的觀測序列和相對應(yīng)的標記序列的聯(lián)合分布的隨機變量,那么CRF就是一個以觀測序列X為作為全局條件的無向圖模型.在命名實體識別任務(wù)中,X可能是一句話,而Y則是相對應(yīng)的類別標記序列.在對標記序列進行建模時,最簡單也是最常用的圖形結(jié)構(gòu)就是:觀測節(jié)點與標記序列中的節(jié)點構(gòu)成簡單的一階鏈形式,此時圖中的標記序列形成了一條馬爾可夫鏈.CRF克服了HMM的獨立性假設(shè)條件,考慮了整個X即上下文的信息,雖然也具有時間復(fù)雜度大導(dǎo)致的訓(xùn)練難度高等問題,但是仍然被廣泛使用,對比其他傳統(tǒng)機器學(xué)習(xí)方法,是最受歡迎的用于命名實體識別的機器學(xué)習(xí)方法.在電子病歷的命名實體識別任務(wù)中也是如此,如燕楊等人[14]針對中文電子病歷的命名實體識別問題,提出使用層疊條件隨機場且在第2層中使用包含實體和詞性等特征的特征集,對疾病名稱和臨床癥狀2類命名實體進行識別,該模型相比于傳統(tǒng)層疊CRF模型和單層CRF模型總體性能有顯著提高.

        ④ 支持向量機.支持向量機(support vector machine, SVM)是較為經(jīng)典的模式識別方法,其在解決小樣本、線性不可分及高維度等模式識別問題中發(fā)揮了重大作用,在多個領(lǐng)域成功應(yīng)用,其中包括電子病歷文本挖掘.其主要思想是利用高維特征空間轉(zhuǎn)化使其變?yōu)榫€性可分問題處理,再基于結(jié)構(gòu)風(fēng)險最小理論構(gòu)建最優(yōu)分割超平面,目標是使得學(xué)習(xí)器得到全局最優(yōu)化.支持向量機在電子病歷文本挖掘中除了文本分類任務(wù)也可以被用來完成命名實體識別,例如Tang等人[15]研究了結(jié)構(gòu)化支持向量機(structed support vector machine, SSVM)用于臨床命名實體識別的方法,該算法結(jié)合了CRFs,SVMs以及詞表征.評價結(jié)果表明,當使用相同的特征時,基于SSVMs的NER系統(tǒng)在臨床實體識別方面的性能優(yōu)于單純基于CRFs的系統(tǒng).將2種不同類型的單詞表征與SSVMs相結(jié)合,最終系統(tǒng)精度表現(xiàn)最高達到85.82%.

        基于統(tǒng)計學(xué)習(xí)的方法學(xué)習(xí)過程不需要太多的人工干預(yù),便于在不同領(lǐng)域之間進行模型的移植,因此大受歡迎,且有不少學(xué)者嘗試使用多個統(tǒng)計模型來提高醫(yī)學(xué)命名實體識別任務(wù)的效果.但是在廣泛使用的有監(jiān)督學(xué)習(xí)模型實施中,前期大規(guī)模標注語料的構(gòu)建成本高,如何獲取高質(zhì)量、可靠的語料也是主要挑戰(zhàn)之一.所以也有不少研究利用半監(jiān)督學(xué)習(xí)方法對電子病歷進行命名實體識別[16-17].無監(jiān)督學(xué)習(xí)方法最典型的就是聚類,在命名實體識別中的主要目標就是通過相似的上下文將內(nèi)容或格式相似的實體聚在一起.

        3) 基于深度學(xué)習(xí)的方法

        近年來,隨著深度學(xué)習(xí)的興起,為降低人工消耗和訓(xùn)練代價,研究者們也開始將神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語言處理領(lǐng)域,獲得不少成果.在自然語言處理任務(wù)中,常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、Word2Vec模型和2018年出現(xiàn)的BERT模型等.

        ① 卷積神經(jīng)網(wǎng)絡(luò).卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)是由卷積層、池化層和全連接層組成,卷積層利用不同的卷積核提取不同的輸入特征,池化層是為了降維提取主要特征,全連接層為了結(jié)合最后損失函數(shù)進行分類.

        CNN不僅在圖像處理領(lǐng)域有很好的效果,在NLP的諸多任務(wù)也可以實現(xiàn)特征抽取等目標,從而提升最終的性能.利用CNN對詞向量輸入進行特征抽取,是CNN在NLP的一大應(yīng)用.每一個詞向量可以視為一個1維的輸入,而對于一個由詞語構(gòu)成的序列,它可以作為2維的數(shù)據(jù)(和2維圖像一樣),作為CNN的輸入.為了保證卷積操作的可解釋性,通常過濾器的某個維度會設(shè)置成和詞向量的維度一樣,而在另一個維度上的設(shè)置則是考慮上下文語境的長度,并在該維度上進行移動與卷積操作.CNN中的過濾器具有一定的感受野,考慮了前后語境的影響,這個過程也是n元語言模型的一種體現(xiàn).CNN在計算上還有一個巨大的優(yōu)勢:它支持并行計算,無論是單個過濾器在不同位置的卷積操作,還是不同過濾器之間,都互不影響,這也意味著在并行計算中CNN具有極高的自由度.但是通常來講,單個的卷積層只能夠捕捉到局部短距離的依賴關(guān)系(如三元語言模型),想要建立更長距離的語言特征、依賴關(guān)系,需要多層的卷積層,但深層網(wǎng)絡(luò)的參數(shù)優(yōu)化也會相應(yīng)的更加困難.另外一個CNN在NLP任務(wù)應(yīng)用的缺點是池化層在一定程度上丟棄了卷積層保留的相對位置關(guān)系,在NLP中有時候相對位置關(guān)系尤為重要,這也導(dǎo)致了一定程度的信息丟失.

        CNN在生物醫(yī)學(xué)命名實體識別任務(wù)研究中有大量應(yīng)用.Gehrmann等人[18]將卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的基于規(guī)則的實體提取系統(tǒng)進行了對比和測試.結(jié)果顯示CNN優(yōu)于其他算法,基于NLP的深度學(xué)習(xí)方法提高了患者表型的性能.如Wu等人[19]將CNN應(yīng)用在中文臨床記錄文本的命名實體識別任務(wù)中,他們使用CNN對文本進行詞向量的預(yù)訓(xùn)練,以此提高基準模型的準確率.Crichton等人[20]將每個單詞標記及其周圍的上下文單詞作為輸入,設(shè)計了有監(jiān)督的多任務(wù)CNN模型,結(jié)果表明多任務(wù)學(xué)習(xí)的引入帶來了更好的效果,且對小型數(shù)據(jù)集很有用.Luo等人[21]同時應(yīng)用CNN和RNN對來自i2b2-VA挑戰(zhàn)數(shù)據(jù)集的出院摘要中的醫(yī)學(xué)概念之間的語義關(guān)系進行分類,并表明具備單詞嵌入特征的CNN和RNN可以在挑戰(zhàn)中獲得與具有大量特征的系統(tǒng)相似性能.

        ② 循環(huán)神經(jīng)網(wǎng)絡(luò).在NLP領(lǐng)域,最常使用的深度學(xué)習(xí)算法是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的深層結(jié)構(gòu).傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)無法處理像自然語言這種具有時間序列特性的連續(xù)輸入,而RNN則通過添加指向自身的回路,使得網(wǎng)絡(luò)能夠利用輸入的序列特征,因而在處理概念抽取、詞性標注等時間序列標注任務(wù)時有著先天的優(yōu)勢.RNN的改進之處在于添加了指向自身的回路,每個神經(jīng)元的輸出除了沿層間連接向上傳遞之外,還直接傳輸給了下一個序列.理論上,RNN可以處理任意變長的序列,然而,隨著時間序列的不斷累積,梯度會出現(xiàn)指數(shù)級衰減的現(xiàn)象,這導(dǎo)致RNN難以記錄距離較遠的歷史信息,其性能也因此而受到制約.為了解決這個問題,1997年Hochreiter等人[22]第一次提出長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)概念,并從理論上證明了這種結(jié)構(gòu)能夠很好地解決梯度消失和爆炸問題.

        ③ LSTM. LSTM也是一種時間遞歸神經(jīng)網(wǎng)絡(luò).在LSTM算法中加入了判斷信息有用與否的輸入門、遺忘門和輸出門,LSTM是解決長距離依賴問題的有效技術(shù).

        另外,在有些NLP任務(wù)中,某個時間的輸出不僅和過去信息有關(guān),也取決于它的未來信息,例如在命名實體識別任務(wù)中,一個詞語是否為命名實體,由其上下文共同決定.因此,為了同時考慮過去和后續(xù)的信息對當前時刻的影響,我們可以在原有的LSTM中增加一個反向的信息流,來傳遞后續(xù)時刻的信息.Schuster等人[23]基于LSTM提出了雙向長短期記憶網(wǎng)絡(luò)(bi-directional LSTM, Bi-LSTM)概念,這種方法不僅從前到后對序列建模,而且從后到前也對序列建模,所以每一個時刻的狀態(tài)不僅包含前面的信息,而且囊括了后面的信息.

        在過去幾年中,使用LSTM和CRF結(jié)合的模型,BioNER的性能得到了很大改善.LSTM是解決傳統(tǒng)RNN中梯度消失問題的一種方法,而雙層循環(huán)神經(jīng)網(wǎng)絡(luò)Bi-LSTM改進了LSTM,使得在做命名實體識別時可以既利用正向序列信息同時利用反向序列信息.之后又在Bi-LSTM后加入了CRF層,Bi-LSTM可以充分利用字詞信息和位置信息得到特征,將其隱層輸出輸入到CRF層中來做標簽的預(yù)測.Habibi等人[24]將通過學(xué)習(xí)一個實體注釋的金標準語料庫(gold standard corpora, GSC),結(jié)合預(yù)先學(xué)習(xí)詞嵌入(word embedding)的大型語料庫(大量來自PubMed的摘要)得到特征,并作為BiLSTM-CRF模型的輸入.在包括5種不同的實體類型的不同標準語料庫進行了準確率評估.平均而言,它比基于詞典的NER工具提升5%,比單獨使用CRF方法提升3%.Wang等人[25]為BioNER提出了一個使用字符級的多任務(wù)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)框架.該框架考慮了具有依賴于上下文的Bi-LSTM層的BiLSTM-CRF模型.通過重用相應(yīng)Bi-LSTM單元中的參數(shù),來自不同數(shù)據(jù)集的輸入可以有效地共享字符和單詞級表征.文獻[25]的作者將提出的多任務(wù)模型與多個BioNER系統(tǒng)和基線神經(jīng)網(wǎng)絡(luò)模型在15個基準BioNER數(shù)據(jù)集上進行比較,并觀察到更好的性能.Gorinski等人[26]對比了基于規(guī)則、運用深度學(xué)習(xí)和遷移學(xué)習(xí)3種不同的系統(tǒng)在對腦卒中患者的腦成像報告中的命名實體識別任務(wù)的應(yīng)用效果.實驗表明基于規(guī)則的系統(tǒng)因為有相關(guān)領(lǐng)域?qū)<姨峁┑囊?guī)則效果最精確,而運用BiLSTM-CRF模型的系統(tǒng)減少了設(shè)計新規(guī)則時對專家知識的需求,學(xué)習(xí)效率更高,遷移學(xué)習(xí)雖然仍然需要大量人工操作但是表現(xiàn)很好有代替基于規(guī)則的系統(tǒng)的可能.但是無論是RNN還是CNN,在處理NLP任務(wù)時都有缺陷.CNN是其卷積操作不適用于序列化的文本,RNN的缺點則是其不能實現(xiàn)數(shù)據(jù)處理并行化,這會導(dǎo)致對內(nèi)存的要求過高.在中文電子病歷的命名實體識別研究中,張聰品等人[27]構(gòu)建了LSTM-CRF模型對電子病歷進行命名實體識別,準確率達到了96.29%.

        在深度學(xué)習(xí)中不得不提到的是Word2Vec模型[28]和Bert模型,它們采用分布式表示方法將自然文本轉(zhuǎn)換到詞向量,之前提到的特征都是基于詞向量挖掘而被具體的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最終服務(wù)于各種任務(wù),包括命名實體識別、關(guān)系抽取任務(wù)等.

        ④ Word2Vec模型.傳統(tǒng)的自然語言詞語處理方法將詞語看作一個符號,被稱作one-hot表示,這種方法導(dǎo)致詞與詞之間的關(guān)系被獨立開,當詞表過大時,向量維度也隨著變大,Word2Vec的提出解決了這一問題.Google在2013年提出了一種新的用于計算詞向量的方法Word2Vec[28],Word2Vec模型是一種快速訓(xùn)練詞向量模型的方法.使用Word2Vec模型的目的在于從大量的文檔醫(yī)學(xué)文本數(shù)據(jù)中訓(xùn)練出高質(zhì)量的詞向量,Word2Vec被用來解決大規(guī)模語料的詞向量表達問題,在Word2Vec出現(xiàn)之前,很多的NLP技術(shù)都是采用one-hot結(jié)構(gòu),這樣構(gòu)建出的詞向量忽略了詞語之間的相似性和關(guān)聯(lián)性,Word2Vec則提出了詞向量的分布式表示方法,利用淺層神經(jīng)網(wǎng)絡(luò),在大規(guī)模無標注語料庫上訓(xùn)練低維稠密的詞向量.Word2Vec框架提出基于分布式詞表示的思想,即要理解一個詞語的意思只需要通過了解詞語出現(xiàn)的上下文即可.由此提出了2種用于訓(xùn)練的模型,一種為連續(xù)詞袋模型(continuous bag of words, CBOW)模型,其基本思想是給定上下文來預(yù)測其中心詞;另一種為連續(xù)跳躍模型(continuous skip-gram model, Skip-Gram),是利用給定的中心詞來預(yù)測上下文進行訓(xùn)練.在生物醫(yī)學(xué)文本挖掘任務(wù)中,由于生物醫(yī)學(xué)語料庫與一般領(lǐng)域語料庫在詞匯和表達方面存在較大差異,在應(yīng)用于生物醫(yī)學(xué)數(shù)據(jù)時需要在醫(yī)學(xué)文本語料上進行訓(xùn)練.如Zhu等人[29]在包含臨床報告和臨床領(lǐng)域相關(guān)的Wikipedia頁面的語料庫上訓(xùn)練上下文單詞嵌入模型,然后訓(xùn)練BiLSTM-CRF模型.

        ⑤ BERT模型.以Word2Vec為代表的詞向量模型有一個明顯的缺陷,即訓(xùn)練好的詞向量是固定的,單詞不會因為處在不同的語境而改變,這對于一詞多義的情況是十分不利的.因此在Word2Vec出現(xiàn)之后,涌現(xiàn)了許多利用語言模型建立基于上下文的詞向量方法,如ELmo[30],OpenAI[31],BERT[32],其中的模型BERT是最具影響力的方法.BERT模型是基于Transformer提取特征,并采用雙向語言模型.其訓(xùn)練方式區(qū)別于傳統(tǒng)的從左到右的訓(xùn)練方式,而采用2種新的方法進行大規(guī)模無監(jiān)督訓(xùn)練,2種方法分別是Masked LM和Next Sentence Prediction.Masked LM方法是在給定一句話并隨機抹去這句話中的1個或幾個詞語,然后利用BERT模型去預(yù)測這幾個被抹去的詞語.Next Sentence Prediction是給定一句話,判斷下一句話是否與給定的句子屬于同一個上下文中.其在文本分類任務(wù)、語句對分類任務(wù)和NER中均取得SOTA(state-of-the-art)的效果.BERT采用多層雙向Transformer編碼器,可以學(xué)習(xí)生成考慮語境的語言模型,并可以在調(diào)整后針對各種任務(wù)(如命名實體識別和關(guān)系抽取).Mao等人[33]在系統(tǒng)Hadoken中利用BERT模型對訓(xùn)練數(shù)據(jù)進行預(yù)訓(xùn)練,然后將臨床病例的表征提供給CRF輸出層以進行分類,并且發(fā)現(xiàn)其適用于多語言命名實體識別任務(wù).

        深度學(xué)習(xí)的模型通常需要大量的標注訓(xùn)練數(shù)據(jù),然而在電子病歷文本挖掘任務(wù)中構(gòu)建大型訓(xùn)練集需要專業(yè)人士的知識,成本非常高.因此用于生物醫(yī)學(xué)文本挖掘任務(wù)的訓(xùn)練數(shù)據(jù)較少,大多數(shù)生物醫(yī)學(xué)文本挖掘模型無法充分利用深度學(xué)習(xí)的能力.為了解決訓(xùn)練數(shù)據(jù)的缺乏,近年來有研究集中在訓(xùn)練多任務(wù)模型或是借助遷移學(xué)習(xí)的力量.如Yoon等人[34]提出使用多個NER模型(在文中指的是一組BiLSTM-CRF模型)組合的CollaboNet.在CollaboNet中,在不同數(shù)據(jù)集上訓(xùn)練的模型彼此連接,成功地減少了錯誤分類實體的數(shù)量并提高了性能.另一方面,在深度學(xué)習(xí)中應(yīng)用遷移學(xué)習(xí)的思想,用在其他數(shù)據(jù)集訓(xùn)練好的模型初始化部分甚至所有的神經(jīng)網(wǎng)絡(luò)中的參數(shù),為用目標數(shù)據(jù)集訓(xùn)練做準備.Lee等人介紹了針對生物醫(yī)學(xué)文本挖掘任務(wù)的語境化語言表示模型BioBERT[35],其在原結(jié)構(gòu)BERT的基礎(chǔ)上重新訓(xùn)練.他們使用遷移學(xué)習(xí)來解決缺乏訓(xùn)練數(shù)據(jù)的問題,即使用一般語料庫和醫(yī)學(xué)領(lǐng)域語料庫對BioBERT進行預(yù)訓(xùn)練.實驗證明,BioBERT能有效地將大量其他語料庫文本的知識遷移到醫(yī)學(xué)文本挖掘任務(wù)中,只需要針對特定任務(wù)的體系結(jié)構(gòu)進行少量修改.BioBERT在3個具有代表性的生物醫(yī)學(xué)文本挖掘任務(wù)、生物醫(yī)學(xué)命名實體識別、生物醫(yī)學(xué)關(guān)系提取和生物醫(yī)學(xué)問答系統(tǒng)上明顯優(yōu)于其他模型.

        2.2 關(guān)系抽取

        關(guān)系抽取(relation extraction, RE)通常基于命名實體識別的結(jié)果之上,也是自然語言處理中一個重要的子任務(wù),但是由于深度學(xué)習(xí)的發(fā)展,也有不少深度神經(jīng)網(wǎng)絡(luò)將命名實體識別和實體關(guān)系抽取看作一個完整的任務(wù).理論上,關(guān)系抽取任務(wù)分為2步,首先判斷一個實體對是否存在關(guān)系,若有關(guān)系,則進一步判斷屬于哪種關(guān)系.在實際模型設(shè)計中,通常把無關(guān)系當作一種特殊的關(guān)系,直接將關(guān)系抽取看作是多類別分類任務(wù).關(guān)系抽取是醫(yī)療健康知識庫建立維護的基礎(chǔ).在醫(yī)學(xué)領(lǐng)域,不同實體間的關(guān)系有不同的定義標準,根據(jù)I2B2 2010評估會議[36],EMR中的實體關(guān)系可以分為3類,包括疾病之間的關(guān)系、疾病與醫(yī)學(xué)檢查的關(guān)系以及疾病與治療之間的關(guān)系.在醫(yī)學(xué)領(lǐng)域,常常采用基于共生[37]、傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)方法來進行關(guān)系抽取.基于共生的方法是基于2個實體同時出現(xiàn)的頻率越高關(guān)系越強這一假設(shè)的統(tǒng)計方法.最廣泛使用的方法還是傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法,例如Bhasuran等人[38]采用有監(jiān)督的機器學(xué)習(xí)方法,即使用深度集成支持向量機來訓(xùn)練,利用語法和語義屬性的特征集并結(jié)合詞嵌入,從4個標準語料庫中提取基因-疾病關(guān)系.實驗顯示在EUADR,GAD,CoMAGC,PolySearch四個語料庫處理結(jié)果的F-measure分別達到85.34%,83.93%,87.39%,85.57%.

        同時,將機器學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,也可以提高電子病歷中關(guān)系抽取性能.如張玉坤等人[39]將CNN,SVM,CRF三者結(jié)合,然后通過聯(lián)合學(xué)習(xí)方式來對醫(yī)療文本進行關(guān)系抽取,取得了不錯的效果.自注意力機制也是醫(yī)療關(guān)系抽取中常用的方法,寧尚明等人[40]針對文本特征的每個通道都計算注意力權(quán)重,實現(xiàn)了電子病歷實體關(guān)系的抽取,在2010 i2b2和SemEval 2013 DDI中F1值分別達到69.72%和72.32%.

        時序性是電子病歷數(shù)據(jù)的一大特點,因為電子病歷通常不僅包括患者當前的治療狀況和指標,還包括患者過去所經(jīng)歷的臨床事件.為了自動構(gòu)建這些事件之間的時間線,需要抽取臨床記錄中事件和時間的關(guān)系.自動檢測并抽取患者記錄中的時間和事件之間的關(guān)系能幫助醫(yī)務(wù)人員了解疾病進展,如Tian等人[41]提出了一種基于深度學(xué)習(xí)的漢語電子病歷時間信息提取框架.他們運用LSTM-CRF模型提取臨床實體如疾病、治療等以及時間等相關(guān)實體,之后用CNN進行時序關(guān)系分類.

        另外,從臨床記錄中提取藥物相關(guān)實體與藥物之間的關(guān)系,可以幫助患者避免藥物引發(fā)的不利效果,比如藥物的不良事件(adverse drug events, ADE)中的實體關(guān)系能反映某些藥物引起的副作用,以及副作用對患者產(chǎn)生的影響.電子病歷是挖掘ADE的豐富信息來源,學(xué)者們已經(jīng)廣泛應(yīng)用NLP技術(shù)以使用關(guān)系抽取方法挖掘在電子病歷數(shù)據(jù)中的ADE相關(guān)信息.Christopoulou等人[42]提出了一種集成學(xué)習(xí)方法,其運用神經(jīng)網(wǎng)絡(luò)模型中的Bi-LSTM注意力機制和Transformer神經(jīng)網(wǎng)絡(luò)來提取藥物和藥物相關(guān)實體之間的關(guān)系.

        2.3 文本分類

        文本分類是文檔級的自然語言處理任務(wù),目標是給文檔打上預(yù)定義的文檔級標簽.電子病歷中的醫(yī)學(xué)報告是一種具有豐富信息的資源,特別是主要用自然語言寫的自由文本部分,這部分包括醫(yī)生的臨床推理信息及其思維過程,其能通過提供詳細的病人情況來幫助解決不同的臨床問題,而且它們通常不能被其他結(jié)構(gòu)化數(shù)據(jù)所代替.文檔分類有助于處理和提取這類數(shù)據(jù),輔助后續(xù)的分類預(yù)測任務(wù),并提高敘述性臨床筆記的利用效率,因此文檔分類成為臨床預(yù)測分析的一個重要研究領(lǐng)域.早期的文獻中,自動分類研究需要利用手工實現(xiàn)且由專家制定規(guī)則的知識工程,這非常耗時耗力,且對人力資源有較高的要求.最近,機器學(xué)習(xí)算法和自然語言處理技術(shù)已經(jīng)被用來處理電子病歷以支持臨床決策,目前效果較好的文檔分類方法之一是基于Word2Vec的神經(jīng)網(wǎng)絡(luò)模型.深度神經(jīng)網(wǎng)絡(luò)可以通過算法本身學(xué)習(xí)復(fù)雜的數(shù)據(jù)特征,而不需要手工設(shè)計的特征提取規(guī)則.深度學(xué)習(xí)在醫(yī)療文本分類中通常使用的方法是先利用網(wǎng)絡(luò)將醫(yī)療文本以字為單位應(yīng)映射到向量空間,然后再利用SVM等模型對向量空間進行分類[43],例如Hughes等人[44]將基于單詞分布式表示的CNN應(yīng)用于句子級的醫(yī)學(xué)文本分類任務(wù)中,取得了很好的性能.

        文本分類可以被用于分類臨床記錄,以此來輔助識別患者所患疾病,例如Turner等人[45]評估了多種傳統(tǒng)分類器(包括神經(jīng)網(wǎng)絡(luò)、隨機森林、樸素貝葉斯、支持向量機等)在系統(tǒng)性紅斑狼瘡患者識別中的性能,其中具有統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(unified medical language system, UMLS)概念唯一標識符(CUIs)的淺神經(jīng)網(wǎng)絡(luò)和同時具有CUIs和詞袋模型(bag-of-words, BoW)的隨機森林表現(xiàn)最優(yōu).Topaz等人[46]針對從臨床記錄中識別糖尿病患者這一任務(wù)建立了一個基于NLP的分類系統(tǒng)Nimble-Miner,運用了包括SVM,RNN等多種機器學(xué)習(xí)方法.Doing-Harris等人[47]使用聚類算法,基于詞匯和詞性的數(shù)據(jù)表征,通過無監(jiān)督學(xué)習(xí)區(qū)分不同文檔類型和信息來源,并取得了良好的性能.Kocbek等人[48]使用基于bag-of-phrases的SVM檢測各種疾病類別,對潛在疾病的人入院進行分類.

        也有學(xué)者從臨床記錄中的句嵌入方法入手臨床文本分類問題,與詞嵌入相似,句嵌入是一種高維向量,它可以表示單詞序列的特征.句子嵌入的使用通常是考慮到在訓(xùn)練數(shù)據(jù)較少的情況下,依賴許多詞向量的RNN捕獲診斷信息來分類文檔比較困難,而少量的句子向量就可以獲得豐富的語義信息.如Ormerod等人[49]通過LSTM構(gòu)建電子病歷分類模型,并同時顯示文檔中哪些句子對患者的病情診斷最有幫助.另外,中文病歷的文本分類與英文電子病歷的文本分類有所不同,因為中文語言有其特殊性:斷句方式不同、需要新的分詞工具等,且中文電子病歷既有短文本又有長文本,因為在借鑒國外優(yōu)秀成果時需要結(jié)合中文特點作出調(diào)整.杜寶琛[50]在設(shè)計基于電子病歷的輔助治診斷系統(tǒng)時同時考慮長短文本,采用了雙通道下不同神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí).呂愿愿等人[51]在對電子病歷進行自然語言處理后,利用TF-IDF和潛在語義分析(latent semantic analysis, LSA)方法提取特征,在挖掘出依存關(guān)系后對病歷短文本進行分類.

        2.4 智能問診

        問答系統(tǒng)(question answering system, QA)是自然語言處理中的傳統(tǒng)任務(wù),相比于日常的機器問答,由于在醫(yī)學(xué)領(lǐng)域有更多的專業(yè)名詞,實現(xiàn)問答則更為困難,傳統(tǒng)的問答系統(tǒng)通常需要特征工程、語言工具或外部資源的幫助.通常是使用語言模型提取語義特征,利用決策樹等模型[52-53]來識別問題的答案.盡管這些方法具有一定的有效性,但它們需要額外的資源和特征工程并使用語言工具,模型的復(fù)雜性較高.

        目前,問答研究主要集中在利用深度學(xué)習(xí)技術(shù)自動提取句子特征,且多在通用數(shù)據(jù)集上進行測試.例如Wang等人[54]使用LSTM框架將答案選擇任務(wù)轉(zhuǎn)化為分類和排序問題.Xiong等人[55]使用動態(tài)協(xié)作注意網(wǎng)絡(luò)將斯坦福問答數(shù)據(jù)集上的F1值增加到80.4%.此外,Tan等人[56]提出了一個基于注意力機制的RNN模型,將問題注意引入到答案表征中,建立了基于BiLSTM模型的匹配問答對,并利用余弦相似度計算了它們的接近度.Dong等人[57]提出了一種改進的多列卷積神經(jīng)網(wǎng)絡(luò),從響應(yīng)路徑、上下文和答案類型3個方面學(xué)習(xí)問題和答案的分布式表示.Santos等人[58]提出了一種基于特征加權(quán)的雙向注意力機制,通過特征工程、注意機制等提高問答匹配的準確性.

        使用大型帶注釋的數(shù)據(jù)集構(gòu)建的幾個開放領(lǐng)域的機器理解系統(tǒng)使自動問答取得了長足的進步.然而在臨床領(lǐng)域,自動問答仍然在探索階段.由于缺乏大規(guī)模的臨床標注數(shù)據(jù)集,目前還沒有一個通用的系統(tǒng)來回答醫(yī)生在病人的電子病歷上提出的自然語言問題.醫(yī)生們通常希望根據(jù)電子病歷中找到有關(guān)醫(yī)療實體和關(guān)系的問題答案,這需要計算機對臨床筆記有更深的理解.電子病歷中數(shù)據(jù)的特性包括大量的非結(jié)構(gòu)化數(shù)據(jù)、大量的專業(yè)術(shù)語、多個疾病之間有時序性和拼寫錯誤等,而這些都是機器理解電子病歷時的難點,現(xiàn)有的NLP工具難以應(yīng)付這種復(fù)雜情況.此外,在挖掘答案時也有難點,因為答案可能是隱式的,而且可能需要多個臨床領(lǐng)域的知識和推理.由于這些挑戰(zhàn)的存在,為患者構(gòu)建可信的QA系統(tǒng)變得十分困難,同時QA系統(tǒng)一般需要大規(guī)模的問答注釋.然而構(gòu)建數(shù)據(jù)集涉及到個人健康信息的隱私問題以及大量人力資源,手工構(gòu)建大型注釋數(shù)據(jù)集不切實際[59].

        QA數(shù)據(jù)集主要分為兩大類:使用非結(jié)構(gòu)化文檔的機器理解(machine comprehension, MC)數(shù)據(jù)集和使用知識庫的問題-答案對數(shù)據(jù)集.MC系統(tǒng)旨在回答任何針對參考文本提出的問題.最近在云資源和搜索引擎方面的進展導(dǎo)致了MC數(shù)據(jù)集的爆炸式增長,但其中有價值的數(shù)據(jù)比例卻較少.另一方面,特定領(lǐng)域MC數(shù)據(jù)集如MCTest,BioASQ,InsuranceQA等對專家注釋的需求高,同時也涉及隱私問題,這使其在規(guī)模上受到了限制(500~10 000).Pampari等人[60]利用i2b2數(shù)據(jù)集中針對各種NLP任務(wù)的臨床筆記上的現(xiàn)有專家注釋,為電子醫(yī)療記錄生成大型問題-答案對數(shù)據(jù)集.得到的語料庫有100萬個問題形式和40多萬個問題-答案對,在問題-答案的關(guān)系抽取時用了帶注意力層的端對端模型.Roberts等人[61]通過在468個電子病歷問題上手工注釋標簽,生成了語料庫.隨著醫(yī)學(xué)QA系統(tǒng)的發(fā)展,學(xué)者們也結(jié)合了傳統(tǒng)的方法和深度神經(jīng)網(wǎng)絡(luò)方法來構(gòu)建混合模型.這些模型結(jié)合了神經(jīng)網(wǎng)絡(luò)模型的精確性和傳統(tǒng)方法中符號表示的可解釋性.

        總而言之,醫(yī)療問答系統(tǒng)方面還處于探索和研究階段,沒有能夠切實有效的落地應(yīng)用,但其未來的潛力巨大,是一個非常有前景的研究方向.

        3 電子病歷文本挖掘在糖尿病和心腦血管疾病中的應(yīng)用

        除了常見的命名實體識別、關(guān)系抽取、文本分類和醫(yī)療問答等基本任務(wù)外,對于電子病歷文本挖掘的應(yīng)用廣泛存在于不同的領(lǐng)域,且在不同的疾病中往往有不同的表現(xiàn)形式.

        3.1 糖尿病

        國際糖尿病聯(lián)合會2017年修訂的第8版本數(shù)據(jù)顯示,全球有4.25億糖尿病患者.這意味著每11個成年人里就有1個糖尿病患者,而中國有超過1億人患有糖尿病,所以不管是對個體患者還是在整個人類范圍內(nèi),管理糖尿病都是非常重要的[62].糖尿病是一種慢性疾病,健康的胰腺分別通過α-細胞和β細胞動態(tài)控制胰島素和胰高血糖素激素的釋放,以維持正常血糖[63],而糖尿病特征是患者體內(nèi)不存在葡萄糖穩(wěn)態(tài).糖尿病可以分為多種,當身體的免疫系統(tǒng)攻擊產(chǎn)生胰島素的細胞并完全停止產(chǎn)生胰島素時,就會導(dǎo)致Ⅰ型糖尿?。划斏眢w不能產(chǎn)生足夠的胰島素或細胞產(chǎn)生胰島素抵抗時,會導(dǎo)致Ⅱ型糖尿病,Ⅱ型糖尿病可能是遺傳、飲食不良、缺乏運動或肥胖的結(jié)果;另外還有妊娠期糖尿病(妊娠中期或晚期確診糖尿病且在妊娠前沒有糖尿病癥狀)和由于其他原因引起的特定類型的糖尿病,例如單基因糖尿病綜合征、外分泌胰腺疾病和藥物或化學(xué)誘導(dǎo)的糖尿病[64].糖尿病護理在很大程度上取決于患者的日常自我管理,包括吃什么以及何時運動,以及確定部分患者需要的胰島素劑量和時間.在這種情況下,每個患者每天都產(chǎn)生與糖尿病相關(guān)的大量數(shù)據(jù),這些數(shù)據(jù)來源包括電子病歷、胰島素泵、傳感器、血糖儀和其他可穿戴設(shè)備,還包括實驗中糖尿病相關(guān)的基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)和微生物學(xué)數(shù)據(jù)[65].所以在糖尿病相關(guān)的研究中有許多數(shù)據(jù)挖掘的應(yīng)用.最早在2002年Breault等人[66]應(yīng)用CART分析方法對糖尿病數(shù)據(jù)庫進行了分析,雖然準確率僅為59%,但是首次驗證了數(shù)據(jù)挖掘技術(shù)在糖尿病問題領(lǐng)域的應(yīng)用前景.隨著標準化的電子病歷系統(tǒng)在中國的興起,糖尿病相關(guān)的診斷和風(fēng)險管理等也接受到電子病歷文本挖掘的輔助,本節(jié)將從糖尿病的診斷角度闡述機器學(xué)習(xí)在糖尿病上的應(yīng)用.

        糖尿病的診斷需要通過包括α-糖酸鹽血紅蛋白(A1C)實驗、隨機血糖實驗、空腹糖試驗或口服葡萄糖耐量實驗在內(nèi)的幾項實驗.無論是Ⅰ型還是Ⅱ型糖尿病,早期診斷和預(yù)測對于延緩疾病發(fā)展,有針對性地選擇藥物,延長患者預(yù)期壽命,減輕癥狀和相關(guān)并發(fā)癥的發(fā)作都至關(guān)重要.生物標志物(例如生物分子)是代表健康和疾病狀態(tài)的特定病癥的可測量指標,通常在體液(血液、唾液或尿液)中測量.在研究糖尿病的情況下,生物標志物可以反映患者是否存在高血糖及其嚴重程度,或是否存在糖尿病相關(guān)并發(fā)癥及其嚴重程度.而機器學(xué)習(xí)方法中的特征選擇可以幫助挖掘出新的生物標志物,輔助糖尿病的確診,且在特征選擇步驟之后,分類算法可以被用來評估所選特征的預(yù)測準確度.例如Jelinek等人[67]研究了在糖化血紅蛋白(glycated hemoglobin, HbA1c)水平低于或等于6.5%的情況下,找到的2種生物標志物與HbA1c一起參與檢測,提高了糖尿病的診斷準確性.也有學(xué)者利用特征提取的算法選取預(yù)測糖尿病的特征,如Bagherzadeh-Khiabani等人[68]使用了803名有55個特征的糖尿病前期女性的臨床數(shù)據(jù)集,比較了19種常用的特征選擇算法來預(yù)測糖尿病.Sideris等人[69]提出了一種基于聚類的特征提取框架,使用疾病診斷信息產(chǎn)生的特征群,并用作預(yù)測患者病情嚴重程度和患者再入院風(fēng)險.

        許多利用電子病歷的機器學(xué)習(xí)方法和框架被運用到Ⅱ型糖尿病的早期診斷上[70-71].集成學(xué)習(xí)方法和關(guān)聯(lián)規(guī)則學(xué)習(xí)也被大量運用到糖尿病的診斷中.如Tapak等人[72]比較了5種機器學(xué)習(xí)模型ANN,SVM,F(xiàn)CM(fuzzyk-means)、隨機森林(random forst, RF),LDA(linear discriminant analysis)來分類是否患有糖尿病的個體.集成學(xué)習(xí)也被逐漸應(yīng)用到診斷糖尿病的分類系統(tǒng)中[73].Han等人[74]提出了一種基于SVM和RF的規(guī)則提取集成學(xué)習(xí)方法.另外,通過挖掘一些與糖尿病相關(guān)的屬性也可以預(yù)測糖尿病風(fēng)險,提醒體檢的人注意某些習(xí)慣預(yù)防糖尿病的發(fā)生.

        深度學(xué)習(xí)方法也對糖尿病的診斷研究作出了貢獻,尤其是在對電子病歷非結(jié)構(gòu)化數(shù)據(jù)的處理分析中,例如可以有效地識別病歷中未明確指出的糖尿病病例,從而顯著改善糖尿病病例發(fā)現(xiàn)現(xiàn)狀.EMR的非結(jié)構(gòu)化數(shù)據(jù)存在于臨床記錄、手術(shù)記錄、出院記錄、放射學(xué)報告和病理報告中.其中臨床記錄包含的信息有患者的病史(疾病和治療措施等)、疾病家族史、環(huán)境和生活方式等,因此提供了很多可供研究的細節(jié)信息[75].Zheng等人[76]針對已有算法無法大量識別糖尿病電子病歷案例中非結(jié)構(gòu)化數(shù)據(jù)的問題,使用RF的方法實現(xiàn)更完整的糖尿病診斷.Pham等人[77]針對個性化醫(yī)療中的預(yù)測患者疾病和護理過程建模問題,考慮了包括時序性等幾項特性,提出了一種端到端的深層動態(tài)神經(jīng)網(wǎng)絡(luò).其基于LSTM,引入了處理不規(guī)則且有時序性事件的方法,還模擬醫(yī)療干預(yù)措施改變病程,根據(jù)歷史和當前健康狀態(tài)來估計未來結(jié)果.最近,Liu等人[78]提出了一個多任務(wù)學(xué)習(xí)框架來預(yù)測包括糖尿病在內(nèi)的慢性疾病的發(fā)病,并比較了不同深度學(xué)習(xí)架構(gòu)(包括CNN和LSTM)的性能.

        糖尿病作為影響人類健康的常見疾病,長久以來一直損害著社會的經(jīng)濟,用自動化、低成本的方式來管理糖尿病的患者,輔助醫(yī)療,將創(chuàng)造巨大的社會效益.

        3.2 心腦血管疾病

        心腦血管疾病是心臟血管和腦血管疾病的統(tǒng)稱,泛指由于高脂血癥、血液黏稠、動脈粥樣硬化、高血壓等所導(dǎo)致的心臟、大腦及全身組織發(fā)生的缺血性或出血性疾病.其中心血管疾病(cardiovascular disease, CVD)是全球眾多致死疾病之一,因其死亡人數(shù)占全球死亡人數(shù)的13[79].2種疾病都嚴重威脅人類,特別是50歲以上中老年人的健康,且有幸存者生活不能完全自理的可能性,或者有嚴重的并發(fā)癥,例如心力衰竭(heart failure, HF).但是電子病歷文本挖掘可以在多個角度輔助患者的治療和風(fēng)險管理等.例如通過電子病歷計算患者HF存活風(fēng)險評分,識別高風(fēng)險患者并應(yīng)用個體化治療和健康生活指導(dǎo)將降低其死亡風(fēng)險[80],且可以在出院時確定再入院風(fēng)險的患者.另外,Li Bin等人[81]在心血管疾病的許多嚴重的預(yù)后疾病如急性心肌梗死、肺栓塞、嚴重的腦神經(jīng)系統(tǒng)疾病等研究中發(fā)現(xiàn)風(fēng)險預(yù)警模型可以探討其風(fēng)險因素,篩選出與危重疾病預(yù)后相關(guān)的嚴重疾病(中風(fēng)、心力衰竭、腎功能衰竭).本節(jié)主要就心腦血管疾病的預(yù)測討論數(shù)據(jù)挖掘技術(shù)輔助心血管疾病治療的作用.

        對于心腦血管疾病的預(yù)測,在醫(yī)療領(lǐng)域,建立可預(yù)測患者疾病的模型可以提高醫(yī)院的治療效果和效率.傳統(tǒng)的對于心血管的治療預(yù)測等都是通過評分來輔助決策,例如美國心臟病學(xué)會(American College of Cardiology, ACC)美國心臟協(xié)會(American Heart Association, AHA)提出基于風(fēng)險因素的組合Framingham風(fēng)險評分,包括高血壓、糖尿病、膽固醇和吸煙狀況等這些常規(guī)因素的預(yù)測模型預(yù)測心血管疾病.然而,隨著電子病歷系統(tǒng)的迅速普及,患者的大部分數(shù)據(jù)都以電子格式存儲.確定疾病所需的風(fēng)險因素數(shù)據(jù)存在于電子病歷中,包括結(jié)構(gòu)化數(shù)據(jù)如心電圖、血管造影等和臨床記錄等非結(jié)構(gòu)化數(shù)據(jù).然而,通常為了利用結(jié)構(gòu)化數(shù)據(jù),需要大量的人力物力資源來對數(shù)據(jù)進行篩選和清洗,同時從非結(jié)構(gòu)化電子病歷數(shù)據(jù)中手動提取所需成本也十分昂貴[82].且心血管疾病本質(zhì)上是復(fù)雜的,由多種遺傳、環(huán)境(例如空氣污染)和行為因素(例如飲食)引起的,需要更有效的工具來準確地預(yù)測結(jié)果,而不是依靠簡單的評分系統(tǒng).在數(shù)據(jù)挖掘領(lǐng)域,人工智能技術(shù)(如機器學(xué)習(xí))正在徹底改變醫(yī)生制定臨床決策和診斷的方式,并提高心腦血管疾病風(fēng)險自動化預(yù)測的水平.將醫(yī)學(xué)信息技術(shù)與機器學(xué)習(xí)技術(shù)相結(jié)合,使用疾病相關(guān)數(shù)據(jù)生成的預(yù)測模型,可以提高預(yù)測準確性.其中,有監(jiān)督學(xué)習(xí)算法已成功應(yīng)用于心腦血管疾病的預(yù)測.Kim等人[83]使用與心血管疾病相關(guān)的健康數(shù)據(jù)進行統(tǒng)計分析,找出與心血管疾病相關(guān)的變量,并建立了基于深度信念網(wǎng)絡(luò)(deep belief nets, DBN)的心血管風(fēng)險預(yù)測模型.但是有監(jiān)督學(xué)習(xí)也有一定的缺點,首先其需要大型數(shù)據(jù)集來訓(xùn)練模型并通過其他數(shù)據(jù)集進行驗證.通常還需要手動標記訓(xùn)練數(shù)據(jù)集,比如蘇嘉等人[84]針對中文電子病歷特點構(gòu)建的心血管疾病風(fēng)險因素的標注語料庫,以預(yù)測死亡率和再入院率等.此外,即使模型能在給定的訓(xùn)練數(shù)據(jù)集和測試集上表現(xiàn)良好,但是它可能由于訓(xùn)練數(shù)據(jù)與真實數(shù)據(jù)的差異和過擬合情況而導(dǎo)致偏差.針對這些問題,也有不少無監(jiān)督學(xué)習(xí)算法應(yīng)用到心血管疾病預(yù)測模型中,在最近的趨勢下無監(jiān)督深度學(xué)習(xí)在這一領(lǐng)域表現(xiàn)較好.其次,深度學(xué)習(xí)可用于分類來自異質(zhì)CVD的新基因型和表型,例如肺動脈高壓和心肌病等.另外,深度學(xué)習(xí)預(yù)測模型可以通過高血壓、腎功能異常、肝功能異常、年齡、藥物治療和酒精攝入等因子之間的加權(quán)來預(yù)測出血和中風(fēng)的風(fēng)險評分,以確定患者的最佳劑量和抗凝治療持續(xù)時間[85].最后,通過深度學(xué)習(xí),可以從心電圖模式或超聲心動圖預(yù)測冠狀動脈鈣化評分.事實證明,深度學(xué)習(xí)比其他機器學(xué)習(xí)技術(shù)(如SVM)更好.但是深度學(xué)習(xí)也有缺點,比如其通常是非線性分析,有很多參數(shù)和多層,因此可能導(dǎo)致過度擬合而預(yù)測性能不佳.而且,深度學(xué)習(xí)還需要大量的訓(xùn)練數(shù)據(jù)集,這需要各機構(gòu)之間的協(xié)作,對計算機硬件的要求也較高.

        腦血管疾病主要的表現(xiàn)就是腦卒中,也叫中風(fēng),主要分為缺血性腦卒中和出血性腦卒中.中風(fēng)的預(yù)測從簡單的到復(fù)雜的模型各不相同.腦卒中的風(fēng)險因素是復(fù)雜的,可以從直接和間接2方面找到不同程度的因素.Leira等人[86]采用逐步回歸法對數(shù)據(jù)庫中選擇的1 266例患有缺血性腦卒中患者和復(fù)發(fā)腦卒中患者的醫(yī)療記錄進行分析并選擇20個臨床變量進行評估.Goyal[87]利用ICD-10編碼(包含疾病特征和分類)和腦卒中患者的電子病歷數(shù)據(jù)進行分析,最終利用LSTM建立腦卒中的預(yù)測模型.除此之外大多數(shù)的數(shù)據(jù)挖掘模型都結(jié)合電子病歷中的醫(yī)學(xué)圖像輔助腦血管疾病的預(yù)測.

        簡而言之,對患有心腦血管疾病患者的電子病歷進行數(shù)據(jù)挖掘,可以從病前、病中、病后3個階段進行有效的預(yù)測,從而來配合醫(yī)生和患者做出更好的決策.

        4 總結(jié)與展望

        在醫(yī)療領(lǐng)域中,文本電子病歷是醫(yī)療單位對患者臨床診療的數(shù)字化相關(guān)信息載體.電子病歷數(shù)據(jù)中的知識對于臨床決策和醫(yī)藥研發(fā)等都有很強的指導(dǎo)意義,其非結(jié)構(gòu)化特征導(dǎo)致很難利用計算機直接進行批量分析.故將人工智能技術(shù)和大數(shù)據(jù)數(shù)據(jù)挖掘的手段應(yīng)用在電子病歷中是大勢所趨,但是由于電子病歷數(shù)據(jù)的特性,機器學(xué)習(xí)方法的應(yīng)用也有特定的挑戰(zhàn)和難點,其吸引了國內(nèi)外廣大學(xué)者的研究.本綜述針對電子病歷數(shù)據(jù)挖掘,尤其是其中的非結(jié)構(gòu)數(shù)據(jù)挖掘的主要分析流程和方法進行了梳理,簡要介紹了傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)常見網(wǎng)絡(luò)結(jié)構(gòu),綜述其在電子病歷等方面的最新研究進展,并且探討了在糖尿病和心腦血管疾病這樣特定疾病中的應(yīng)用現(xiàn)狀和前景,為后續(xù)文本數(shù)據(jù)挖掘的研究應(yīng)用提供參考.

        猜你喜歡
        文本糖尿病方法
        糖尿病知識問答
        中老年保健(2022年5期)2022-08-24 02:35:42
        糖尿病知識問答
        中老年保健(2022年1期)2022-08-17 06:14:56
        糖尿病知識問答
        中老年保健(2021年5期)2021-08-24 07:07:20
        糖尿病知識問答
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久久人妻精品一区bav| 亚洲国产精品无码久久电影| 中文字幕一精品亚洲无线一区| a级毛片在线观看| 国产v综合v亚洲欧美大天堂| 2021久久精品国产99国产| 女同重口味一区二区在线| 友田真希中文字幕亚洲| 成人欧美一区二区三区在线观看| 久久精品国产亚洲av蜜臀| 欧美xxxx新一区二区三区| 一区二区在线观看视频亚洲| 狠狠躁夜夜躁av网站中文字幕 | 五月婷婷激情六月| 精品久久精品久久精品| 人妻熟妇乱又伦精品hd| 亚洲有码转帖| 国产亚洲精品日韩香蕉网| 久久精品国产亚洲av麻豆床戏 | 久久精品亚洲成在人线av| 久久精品国产亚洲av精东| 亚洲精品suv精品一区二区| 永久无码在线观看| 一区二区免费中文字幕| 插入日本少妇一区二区三区| 国产精品无码一区二区三区在| 中国农村熟妇性视频| 亚洲色成人WWW永久在线观看| 国产成人一区二区三区影院免费| 人妻少妇偷人精品视频| 人妻少妇进入猛烈时中文字幕| 特黄aaaaaaaaa毛片免费视频 | 日韩毛片在线看| 岛国熟女一区二区三区| 久久精品久久精品中文字幕| 久久午夜福利电影| 人人妻人人澡人人爽欧美二区 | 在线永久免费观看黄网站| 亚洲成人av一区二区三区 | 久久一二区女厕偷拍图| 成人试看120秒体验区|