亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合雙向GRU與注意力機制的醫(yī)療實體關(guān)系識別

        2020-06-18 03:42:14張志昌張瑞芳張敏鈺
        計算機工程 2020年6期
        關(guān)鍵詞:機制方法模型

        張志昌,周 侗,張瑞芳,張敏鈺

        (西北師范大學(xué) 計算機科學(xué)與工程學(xué)院,蘭州 730070)

        0 概述

        電子病歷(Electronic Medical Records,EMR)是醫(yī)務(wù)人員使用電子醫(yī)療系統(tǒng)產(chǎn)生的文字、符號、圖表、圖形、數(shù)據(jù)和影像等數(shù)字化信息,并將其進(jìn)行存儲的醫(yī)療記錄[1]。隨著EMR的大量使用,人們對其認(rèn)識也逐漸完善,它不僅包括患者的一些臨床信息,如檢查結(jié)果、臨床診斷以及不良反應(yīng)等,還包括豐富的醫(yī)療實體[2]。如何在非結(jié)構(gòu)化的病歷文本中抽取有價值的醫(yī)療信息,建立可用于臨床決策支持的醫(yī)療知識庫,成為自然語言處理(Natural Language Processing,NLP)領(lǐng)域的研究熱點。實體關(guān)系抽取是NLP信息抽取技術(shù)中的基本任務(wù),也是構(gòu)建知識庫和知識圖譜的關(guān)鍵方法[3]。從EMR文本中挖掘醫(yī)療實體以及實體間的語義關(guān)系,對于推動EMR在醫(yī)療健康服務(wù)中的應(yīng)用具有重要意義。實體關(guān)系抽取最早被消息理解會議(Message Understanding Conference,MUC)[4]評測會議引入,直至2010年,I2B2/VA在NLP挑戰(zhàn)臨床記錄中提出關(guān)于英文EMR的醫(yī)療實體關(guān)系抽取[5],使得EMR中的醫(yī)療實體關(guān)系抽取成為了研究熱點。但在中文EMR方面,公開的評測以及研究成果相對較少,已有的關(guān)系抽取方法依賴于機器學(xué)習(xí)算法,且需要構(gòu)建大量的手工特征。近年來,在不依賴手工特征條件下,神經(jīng)網(wǎng)絡(luò)方法在關(guān)系抽取任務(wù)中取得了較好的性能,但是常見的關(guān)系抽取是以句子作為單獨的處理單元,沒有考慮到EMR語料庫中部分語料的實體關(guān)系標(biāo)簽標(biāo)注錯誤,影響分類效果。

        本文提出一種雙向門控循環(huán)單元(Gated Recurrent Unit,GRU)和雙重注意力機制結(jié)合的深度學(xué)習(xí)方法。該方法構(gòu)建一個雙向GRU和雙重注意力機制結(jié)合的實體關(guān)系抽取模型,利用雙向GRU學(xué)習(xí)字的上下文信息,獲取更細(xì)粒度的特征。通過字級注意力機制提高對關(guān)系分類起決定作用的字權(quán)重,利用句子級注意力機制學(xué)習(xí)更多語句的特征,降低噪聲句子的權(quán)重,以有效解決標(biāo)簽標(biāo)注錯誤問題,提高分類器效果。

        1 相關(guān)研究

        目前,大多數(shù)關(guān)于實體關(guān)系抽取的方法是在開放域上進(jìn)行的,如新聞報道、博客以及維基百科等[6]。在開放域上進(jìn)行關(guān)系抽取研究的最大難點在于語料內(nèi)容沒有固定的結(jié)構(gòu),早期的實體關(guān)系抽取研究是基于有監(jiān)督學(xué)習(xí)的方法,如基于特征工程、核函數(shù)以及條件隨機場[7]的方法。文獻(xiàn)[8]在MUC-7評測會議中,對原始數(shù)據(jù)進(jìn)行統(tǒng)計并提取特征來進(jìn)行實體關(guān)系抽取,實驗過程中取得了較高的F1值。文獻(xiàn)[9]利用支持向量機的方法進(jìn)行關(guān)系抽取,這類方法依賴于人工構(gòu)建手工特征,需要標(biāo)注大量的訓(xùn)練語料,耗時耗力,且泛化能力差。針對此局限性,文獻(xiàn)[10]提出遠(yuǎn)程監(jiān)督的思想,通過將文本與大規(guī)模知識圖譜進(jìn)行實體對齊,有效解決關(guān)系抽取的標(biāo)注數(shù)據(jù)規(guī)模問題。文獻(xiàn)[11]首先使用循環(huán)神經(jīng)網(wǎng)絡(luò)來解決關(guān)系抽取問題,利用句法結(jié)構(gòu)得到句子的向量表示并用于關(guān)系分類,但沒有考慮到實體在句子中的位置和語義信息。文獻(xiàn)[12]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,采用詞向量和詞位置向量作為輸入,通過卷積、池化得到句子表示,使得在關(guān)系抽取過程中考慮到句子中的實體信息。文獻(xiàn)[13]提出一種基于最短依存路徑表示文本的深度學(xué)習(xí)方法,能夠準(zhǔn)確地抽取實體關(guān)系。

        醫(yī)療領(lǐng)域的關(guān)系抽取與開放域的關(guān)系抽取有所不同,EMR是一種半結(jié)構(gòu)化的文本數(shù)據(jù),包含大量的專業(yè)術(shù)語、縮略詞等。2010年,I2B2/VA評測引入了英文EMR的信息抽取任務(wù)[5],定義了三大類醫(yī)療實體關(guān)系:1)醫(yī)療問題和治療的關(guān)系;2)醫(yī)療問題和檢查的關(guān)系;3)醫(yī)療問題和醫(yī)療問題的關(guān)系。文獻(xiàn)[14]使用支持向量機作為分類器,并引入外部字典和豐富的特征提升關(guān)系識別精度。文獻(xiàn)[15]通過基于規(guī)則的方法從中草藥相關(guān)文章中抽取關(guān)系,并用于構(gòu)建關(guān)系數(shù)據(jù)庫。文獻(xiàn)[16]從病歷中計算疾病和癥狀的共現(xiàn)程度來抽取兩者的關(guān)系。文獻(xiàn)[17]采用兩階段方法,將長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)和支持向量機相結(jié)合,抽取藥物之間的影響關(guān)系。

        2 方法描述

        給定一個句子集合S={x1,x2,…,xn},其中xi為句子集合S中的第i個句子。實驗?zāi)P椭饕譃榫渥泳幋a和句子級注意力機制兩部分。

        2.1 句子編碼

        句子編碼模型如圖1所示,將任意給定的一個句子xi={c1,c2,…,cn}通過雙向GRU編碼處理,字級注意力機制計算產(chǎn)生每個字的權(quán)值,并把雙向GRU的輸出向量表示成一個句子向量。

        圖1 句子編碼模型

        2.1.1 向量表示

        1)字向量表示:字嵌入是將句子中的字映射成一個低維稠密的向量,從而更好地刻畫字的屬性。給定一個含有n個字的句子xi={c1,c2,…,cn},實驗用word2vec工具訓(xùn)練生成字向量,每個字均被映射為向量表示,向量維度為dw。

        2)位置向量表示:在關(guān)系抽取任務(wù)中,位置嵌入用相對位置的低維向量表示,最早被文獻(xiàn)[12]引入實體關(guān)系抽取任務(wù)中。在圖2所示標(biāo)注的句子中,當(dāng)前字“引”與醫(yī)療實體“感冒”“發(fā)燒”之間的相對位置分別為2和-2,每個相對位置分別對應(yīng)一個位置向量,維度為dp。

        圖2 當(dāng)前字與醫(yī)療實體的相對位置

        2.1.2 雙向GRU層

        GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)的分支,也是LSTM的變體,GRU在保持LSTM效果的同時使其結(jié)構(gòu)簡單,且計算簡便,由于其在序列處理上的出色表現(xiàn)而被廣泛應(yīng)用于自然語言處理任務(wù)中。GRU結(jié)構(gòu)如圖3所示。

        圖3 GRU結(jié)構(gòu)

        zt=σ(Wzxt+Uzht-1+bz)

        (1)

        rt=σ(Wrxt+Urht-1+br)

        (2)

        (3)

        (4)

        (5)

        其中,zt和rt分別為GRU的更新門和重置門,更新門是控制上一時刻的狀態(tài)信息傳遞到當(dāng)前時刻的程度,重置門是控制上一時刻的狀態(tài)信息被遺忘的程度。Wz,Wr,Wh和Uz,Ur,Uh分別為神經(jīng)元當(dāng)前時刻的輸入權(quán)重和循環(huán)輸入的權(quán)重,bz,br,bh為偏置向量。首先,實驗通過上一時刻的隱藏狀態(tài)信息ht-1和當(dāng)前時刻的節(jié)點輸入xt來獲取2個門控的狀態(tài)。得到門控信號之后,利用重置門來獲取遺忘后的狀態(tài)ht-1?rt,?表示哈達(dá)馬積對應(yīng)元素相乘;然后,將其與當(dāng)前時刻的輸入xt相加并通過非線性函數(shù)tanh激活;最后,用更新門對當(dāng)前節(jié)點的輸入選擇記憶。

        GRU采用“門”結(jié)構(gòu)來克服短時記憶的影響,不僅可以調(diào)節(jié)流經(jīng)序列的信息流,還可以改善RNN 存在的“梯度消失”問題。為了能夠有效利用上下文信息,實驗采用雙向GRU結(jié)構(gòu),雙向GRU對每個句子分別采用前向和反向計算得到2個不同的隱藏層狀態(tài),然后將2個向量相加得到最終的編碼表示。

        2.1.3 字級注意力機制

        注意力機制模仿了生物觀察行為的內(nèi)部過程,是一種通過增加部分區(qū)域的注意力來獲取關(guān)注目標(biāo)更多細(xì)節(jié)信息的機制。注意力機制可以快速提取數(shù)據(jù)的重要特征,減少對外部信息的依賴,捕獲語言中的長距離依賴性,被廣泛應(yīng)用于自然語言處理任務(wù)中。本文通過引入字級注意力機制來判斷每個字對關(guān)系分類的重要程度,并有效提高模型精確率。

        通過雙向GRU得到每個字的輸出向量ht,輸入到全連接層并獲得其隱藏表示ut,通過Softmax函數(shù)計算歸一化權(quán)重向量αt,最后得到句子向量表示。字級注意力機制權(quán)重計算如下:

        ut=tanh(htWt+bt)

        (6)

        (7)

        (8)

        其中,Wt表示當(dāng)前時刻神經(jīng)元的輸入權(quán)重,T表示序列長度,uw表示隨機初始化的上下文向量,通過反向傳播更新上下文向量。St表示編碼后的句子向量。

        2.2 句子級注意力機制

        目前,很多用來構(gòu)建知識庫的方法均需要標(biāo)注好的訓(xùn)練語料,人工標(biāo)注的語料因為標(biāo)注人員不同而導(dǎo)致語料噪聲。在實驗標(biāo)注的語料庫中,相同的實體對和實體類型在不同的語料中被標(biāo)注為不同的關(guān)系標(biāo)簽,影響模型效果。常見的關(guān)系抽取方法是以句子作為單獨的處理單元,若僅使用字級注意力機制時,則只考慮到當(dāng)前的句子信息,而對于含有同一實體對的其他句子,還需要通過句子級注意力機制學(xué)習(xí)實體共現(xiàn)句的上下文特征,為每個句子學(xué)習(xí)注意力權(quán)重,來提升分類器效果。正確標(biāo)注的句子將獲得較高的權(quán)重,而錯誤標(biāo)注的句子會得到較低的權(quán)重,隱式摒棄一些噪聲語料,如圖4所示。

        圖4 句子級注意力機制模型

        (9)

        通過計算句子特征向量與目標(biāo)實體關(guān)系的相似度來得到句子的注意力權(quán)值。句子特征向量與目標(biāo)實體關(guān)系向量的相似度越高,則正確表達(dá)實體關(guān)系的可能性越大,注意力權(quán)重也越高。句子特征向量目標(biāo)實體關(guān)系的相似度計算如下:

        (10)

        ei=xiAr

        (11)

        其中,ei表示句子特征向量xi與預(yù)測關(guān)系向量r的匹配分?jǐn)?shù),A表示加權(quán)對角矩陣。最后,通過Softmax層對實體關(guān)系向量進(jìn)行輸出。

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集

        中文EMR中包含大量的醫(yī)學(xué)知識和臨床信息,由于標(biāo)注人員醫(yī)學(xué)領(lǐng)域知識的限制以及病歷中包含患者的隱私,使得EMR在語料構(gòu)建上存在一定的困難。本文依據(jù)I2B2/VA Challenge醫(yī)學(xué)關(guān)系標(biāo)注規(guī)范,且在專業(yè)人員的指導(dǎo)下,制定自己的中文EMR標(biāo)注規(guī)范。在EMR的文本片段中,醫(yī)學(xué)實體語義關(guān)系主要存在于治療、疾病、檢查和癥狀等實體之間,如表1所示,包含5個粗粒度類別和15個細(xì)粒度類別,表2所示為標(biāo)注語料示例。

        表1 醫(yī)療實體關(guān)系類型及其描述

        表2 中文電子病歷醫(yī)療實體關(guān)系

        本文以甘肅省某二級甲等醫(yī)院提供的不同臨床科室的EMR為分析對象。首先,對已校對的EMR文本進(jìn)行簡單的去隱私處理,然后,從不同臨床科室隨機挑選一定量的EMR文本進(jìn)行人工標(biāo)注。本文總共使用1 200份EMR文本對實體關(guān)系抽取進(jìn)行研究,其中800份EMR作為訓(xùn)練集,200份EMR作為開發(fā)集,200份EMR作為測試集。

        3.2 評價指標(biāo)

        本文利用精確率P、召回率R和F1值對中文EMR實體關(guān)系分類效果進(jìn)行評價,具體計算公式如下:

        (12)

        (13)

        (14)

        其中,TP表示對當(dāng)前類別識別正確的數(shù)目,FP表示對當(dāng)前類別識別錯誤的數(shù)目,FN表示應(yīng)該識別為當(dāng)前類別但是沒有被識別的數(shù)目,TP+FN表示該類別下所有正實例的總數(shù)目,TP+FP表示識別出來屬于當(dāng)前類別的總數(shù)。分別計算各個類別的精確率P和召回率R,然后以F1值作為各個類別整體的評價指標(biāo)。

        3.3 實驗設(shè)置

        選擇目前的主流模型LSTM作為基線實驗,分別和SVM模型、CNN模型、BiLSTM-Attention模型和BiGRU-Dual Attention模型進(jìn)行對比。

        1)SVM模型:該模型在SemEval-2010評測任務(wù)中表現(xiàn)最好。文獻(xiàn)[18]利用各種手工制定的特征,用SVM作為分類器,實驗取得了較好的F1值。

        2)CNN模型:該模型被文獻(xiàn)[19]使用,采用CNN編碼句子向量,將編碼后的結(jié)果最大池化,利用Softmax函數(shù)輸出結(jié)果。

        3)BiLSTM-Attention模型:該模型由文獻(xiàn)[20]提出。利用雙向LSTM抽取上下文信息,結(jié)合注意力機制對詞賦予不同的權(quán)重,判斷每個詞對關(guān)系分類的重要程度,提高對分類有貢獻(xiàn)的詞權(quán)重,有效提高模型效率。

        4)BiGRU-Dual Attention模型:該模型由本文提出,使用雙向GRU和雙重注意力機制結(jié)合來抽取實體關(guān)系,通過隨機搜索調(diào)整在開發(fā)集上的超參數(shù),超參數(shù)如表3所示。

        表3 BiGRU-Dual Attention模型超參數(shù)

        模型實驗中字向量維度為100,位置向量的維度為5,Batch Size大小為50,Epoch Num設(shè)置為10,使用Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.000 5,其中L2正則化值為1,Dropout比率為0.5。在本文中,將Dropout比率與L2正則化結(jié)合起來以防止過度擬合。

        3.4 實驗結(jié)果

        本文提出基于雙向GRU和雙重注意力機制結(jié)合的實體關(guān)系抽取模型,將擅長學(xué)習(xí)長期依賴信息的雙向GRU加入到句子編碼階段中,然后用字級注意力機制提高對關(guān)系分類有決定作用的字權(quán)重,最后用句子級注意力機制獲取更多語句的特征,增大正確標(biāo)注的句子權(quán)重,同時減小錯誤標(biāo)注的句子權(quán)重。在訓(xùn)練過程中,使用相同的數(shù)據(jù)、批次大小及迭代次數(shù),分別對SVM模型、CNN模型、LSTM模型、BiLSTM-Attention模型和本文模型進(jìn)行訓(xùn)練,記錄訓(xùn)練過程中最高的精確率P、召回率R和F1值,具體數(shù)據(jù)如表4所示。

        表4 不同模型進(jìn)行中文電子病歷實體關(guān)系識別時的 性能比較

        3.5 實驗分析

        根據(jù)上述表4中的數(shù)據(jù),可以看到本文提出的基于雙向GRU結(jié)合雙重注意力機制的實體關(guān)系抽取方法相比其他方法效果較好,F1值達(dá)到了82.17%。表4中的學(xué)習(xí)方法可以分為傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法,從實驗結(jié)果可以看出,深度學(xué)習(xí)方法普遍優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法,這是由于傳統(tǒng)機器學(xué)習(xí)方法依賴于大量的手工特征,而EMR中文本語料較長,且結(jié)構(gòu)性差,傳統(tǒng)機器學(xué)習(xí)方法無法從病歷文本中獲得包含的語義和長距離信息。本文提出的BiGRU-Dual Attention模型相較于傳統(tǒng)的機器學(xué)習(xí)算法有明顯地提高,同時相較于目前主流的BiLSTM-Attention模型,F1值提高了3.97%。在表4中,可以看出精確率P和召回率R均得到了大幅提高,這說明本文提出的方法改善了錯誤標(biāo)簽的問題,同時在對細(xì)粒度特征分析中,結(jié)果發(fā)現(xiàn)F1值也提升了很多。雙向GRU和注意力機制的影響分析如下:

        1)雙向GRU的影響分析。本文模型在句子編碼階段加入雙向GRU結(jié)構(gòu),能夠很好地學(xué)習(xí)字的上下文信息,并提供豐富的特征。由表4可以看出,LSTM的關(guān)系抽取模型比普通卷積的效果更好,然而GRU作為LSTM的變體,它可以像LSTM 一樣,既具備記憶序列特征的能力,又善于學(xué)習(xí)長距離依賴信息。EMR文本語料較長,存在許多長依賴語句,卷積神經(jīng)網(wǎng)絡(luò)僅靠滑動窗口來獲得局部信息,不能學(xué)習(xí)到長依賴特征。雙向GRU結(jié)構(gòu)卻可以學(xué)習(xí)到豐富的上下文特征,且效果更佳。

        2)注意力機制的影響分析。本文模型中通過加入注意力機制,來判斷每個字對關(guān)系分類的重要程度,提高分類效果,并且引入句子級別的注意力機制,增大正確標(biāo)注的句子權(quán)重,同時減小錯誤標(biāo)注的句子權(quán)重。本文實驗設(shè)計對比了LSTM模型、BiLSTM-Attention模型以及BiGRU-Dual Attention模型的實體關(guān)系抽取效果。其中,BiLSTM-Attention模型只使用字級注意力機制,BiGRU-Dual Attention模型使用了字級注意力機制和句子級注意力機制。從表4的實驗結(jié)果可以看出,加入注意力機制的方法均高于未加注意力機制的方法,其中BiLSTM-Attention模型的F1值比LSTM模型的高3.49%,說明加入字級注意力機制有助于實體關(guān)系抽取準(zhǔn)確率的提升。此外,由表4中數(shù)據(jù)可以看出,BiLSTM-Attention方法的F1值比本文方法要低許多,這可能是因為本文使用的句子級注意力機制學(xué)習(xí)更多的語句特征,降低錯誤標(biāo)注語句的權(quán)值,減少噪聲句子影響。

        3.6 方法驗證

        實驗將本文方法與Mintz、 MultiR、 MIML 3種傳統(tǒng)的遠(yuǎn)程監(jiān)督方法相比較,具體數(shù)據(jù)如圖5所示。

        圖5 本文方法與傳統(tǒng)遠(yuǎn)程監(jiān)督方法的結(jié)果對比

        由圖5可知,本文方法的精確率P、召回率R、F1值均高于其他3種傳統(tǒng)的遠(yuǎn)程監(jiān)督方法,這是因為本文提出的方法不需要人工構(gòu)建特征,能夠準(zhǔn)確學(xué)習(xí)到句子的語義信息,直接從原始字中自動學(xué)習(xí)特征,減少錯誤傳播。另外,本文方法除了從更多的語句中學(xué)習(xí)特征,還加入字級注意力機制和句子級注意力機制,有效緩解標(biāo)簽錯誤問題。

        4 結(jié)束語

        針對已有實體關(guān)系抽取方法存在的標(biāo)簽標(biāo)注錯誤問題,本文提出雙向GRU和雙重注意力機制結(jié)合的實體關(guān)系抽取方法。利用雙向GRU學(xué)習(xí)字的上下文信息,獲取更細(xì)粒度的特征信息,通過字級注意力機制提高對關(guān)系分類起決定作用的字權(quán)重,同時加入句子級注意力機制學(xué)習(xí)更多的語句信息,有效解決標(biāo)簽錯誤問題。通過在人工標(biāo)注的數(shù)據(jù)集上進(jìn)行實驗對比,證明了本文方法能有效提升實體關(guān)系抽取效果。下一步將對實體識別和實體關(guān)系進(jìn)行聯(lián)合抽取。

        猜你喜歡
        機制方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        自制力是一種很好的篩選機制
        文苑(2018年21期)2018-11-09 01:23:06
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        破除舊機制要分步推進(jìn)
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        少妇仑乱a毛片| 无码一区二区三区亚洲人妻| 久久综合五月天啪网亚洲精品 | 国产自产二区三区精品| 福利一区二区三区视频在线| 国产女人18毛片水真多| 国产亚洲成av人片在线观看| 国产中老年妇女精品| 人妻丝袜中文无码av影音先锋专区| 国产精品久久国产精麻豆| 国产日本在线视频| 亚洲av无码久久寂寞少妇| 亚洲av无码国产精品草莓在线| 麻豆人妻性色av专区0000| 国产精品三级1区2区3区| 无码毛片高潮一级一免费| a级毛片内射免费视频| 国产精品av在线| 国产亚洲精品视频一区二区三区| 国产成人高清精品亚洲一区| 国产精品青草久久久久婷婷| 国产精品视频二区不卡| 狠狠色噜噜狠狠狠777米奇小说 | 亚洲一区二区视频蜜桃| 亚洲线精品一区二区三区八戒| 亚洲视频一区| 亚洲人成网站色www| 欧美性色欧美a在线播放| 中文字幕乱码av在线| a在线免费| 精品国产乱码久久久久久口爆网站| 成人国产精品一区二区网站公司| 水蜜桃在线观看一区二区| 国产91在线播放九色快色| 中文字幕av人妻一区二区| 日韩精品一区二区三区毛片| 精品人妻少妇一区二区不卡| 欧妇女乱妇女乱视频| 大地资源在线观看官网第三页| 色翁荡息又大又硬又粗视频| 久久精品一区二区熟女|