亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合雙向GRU與注意力機制的醫(yī)療實體關(guān)系識別

2020-06-18 03:42:14張志昌張瑞芳張敏鈺

計算機工程 2020年6期

張志昌,周侗,張瑞芳,張敏鈺

(西北師范大學(xué) 計算機科學(xué)與工程學(xué)院,蘭州 730070)

0 概述

電子病歷(Electronic Medical Records,EMR)是醫(yī)務(wù)人員使用電子醫(yī)療系統(tǒng)產(chǎn)生的文字、符號、圖表、圖形、數(shù)據(jù)和影像等數(shù)字化信息,并將其進(jìn)行存儲的醫(yī)療記錄[1]。隨著EMR的大量使用,人們對其認(rèn)識也逐漸完善,它不僅包括患者的一些臨床信息,如檢查結(jié)果、臨床診斷以及不良反應(yīng)等,還包括豐富的醫(yī)療實體[2]。如何在非結(jié)構(gòu)化的病歷文本中抽取有價值的醫(yī)療信息,建立可用于臨床決策支持的醫(yī)療知識庫,成為自然語言處理(Natural Language Processing,NLP)領(lǐng)域的研究熱點。實體關(guān)系抽取是NLP信息抽取技術(shù)中的基本任務(wù),也是構(gòu)建知識庫和知識圖譜的關(guān)鍵方法[3]。從EMR文本中挖掘醫(yī)療實體以及實體間的語義關(guān)系,對于推動EMR在醫(yī)療健康服務(wù)中的應(yīng)用具有重要意義。實體關(guān)系抽取最早被消息理解會議(Message Understanding Conference,MUC)[4]評測會議引入,直至2010年,I2B2/VA在NLP挑戰(zhàn)臨床記錄中提出關(guān)于英文EMR的醫(yī)療實體關(guān)系抽取[5],使得EMR中的醫(yī)療實體關(guān)系抽取成為了研究熱點。但在中文EMR方面,公開的評測以及研究成果相對較少,已有的關(guān)系抽取方法依賴于機器學(xué)習(xí)算法,且需要構(gòu)建大量的手工特征。近年來,在不依賴手工特征條件下,神經(jīng)網(wǎng)絡(luò)方法在關(guān)系抽取任務(wù)中取得了較好的性能,但是常見的關(guān)系抽取是以句子作為單獨的處理單元,沒有考慮到EMR語料庫中部分語料的實體關(guān)系標(biāo)簽標(biāo)注錯誤,影響分類效果。

本文提出一種雙向門控循環(huán)單元(Gated Recurrent Unit,GRU)和雙重注意力機制結(jié)合的深度學(xué)習(xí)方法。該方法構(gòu)建一個雙向GRU和雙重注意力機制結(jié)合的實體關(guān)系抽取模型,利用雙向GRU學(xué)習(xí)字的上下文信息,獲取更細(xì)粒度的特征。通過字級注意力機制提高對關(guān)系分類起決定作用的字權(quán)重,利用句子級注意力機制學(xué)習(xí)更多語句的特征,降低噪聲句子的權(quán)重,以有效解決標(biāo)簽標(biāo)注錯誤問題,提高分類器效果。

1 相關(guān)研究

目前,大多數(shù)關(guān)于實體關(guān)系抽取的方法是在開放域上進(jìn)行的,如新聞報道、博客以及維基百科等[6]。在開放域上進(jìn)行關(guān)系抽取研究的最大難點在于語料內(nèi)容沒有固定的結(jié)構(gòu),早期的實體關(guān)系抽取研究是基于有監(jiān)督學(xué)習(xí)的方法,如基于特征工程、核函數(shù)以及條件隨機場[7]的方法。文獻(xiàn)[8]在MUC-7評測會議中,對原始數(shù)據(jù)進(jìn)行統(tǒng)計并提取特征來進(jìn)行實體關(guān)系抽取,實驗過程中取得了較高的F1值。文獻(xiàn)[9]利用支持向量機的方法進(jìn)行關(guān)系抽取,這類方法依賴于人工構(gòu)建手工特征,需要標(biāo)注大量的訓(xùn)練語料,耗時耗力,且泛化能力差。針對此局限性,文獻(xiàn)[10]提出遠(yuǎn)程監(jiān)督的思想,通過將文本與大規(guī)模知識圖譜進(jìn)行實體對齊,有效解決關(guān)系抽取的標(biāo)注數(shù)據(jù)規(guī)模問題。文獻(xiàn)[11]首先使用循環(huán)神經(jīng)網(wǎng)絡(luò)來解決關(guān)系抽取問題,利用句法結(jié)構(gòu)得到句子的向量表示并用于關(guān)系分類,但沒有考慮到實體在句子中的位置和語義信息。文獻(xiàn)[12]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,采用詞向量和詞位置向量作為輸入,通過卷積、池化得到句子表示,使得在關(guān)系抽取過程中考慮到句子中的實體信息。文獻(xiàn)[13]提出一種基于最短依存路徑表示文本的深度學(xué)習(xí)方法,能夠準(zhǔn)確地抽取實體關(guān)系。

醫(yī)療領(lǐng)域的關(guān)系抽取與開放域的關(guān)系抽取有所不同,EMR是一種半結(jié)構(gòu)化的文本數(shù)據(jù),包含大量的專業(yè)術(shù)語、縮略詞等。2010年,I2B2/VA評測引入了英文EMR的信息抽取任務(wù)[5],定義了三大類醫(yī)療實體關(guān)系:1)醫(yī)療問題和治療的關(guān)系;2)醫(yī)療問題和檢查的關(guān)系;3)醫(yī)療問題和醫(yī)療問題的關(guān)系。文獻(xiàn)[14]使用支持向量機作為分類器,并引入外部字典和豐富的特征提升關(guān)系識別精度。文獻(xiàn)[15]通過基于規(guī)則的方法從中草藥相關(guān)文章中抽取關(guān)系,并用于構(gòu)建關(guān)系數(shù)據(jù)庫。文獻(xiàn)[16]從病歷中計算疾病和癥狀的共現(xiàn)程度來抽取兩者的關(guān)系。文獻(xiàn)[17]采用兩階段方法,將長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)和支持向量機相結(jié)合,抽取藥物之間的影響關(guān)系。

2 方法描述

給定一個句子集合S={x1,x2,…,xn},其中xi為句子集合S中的第i個句子。實驗?zāi)Ｐ椭饕譃榫渥泳幋a和句子級注意力機制兩部分。

2.1 句子編碼

句子編碼模型如圖1所示,將任意給定的一個句子xi={c1,c2,…,cn}通過雙向GRU編碼處理,字級注意力機制計算產(chǎn)生每個字的權(quán)值,并把雙向GRU的輸出向量表示成一個句子向量。

圖1 句子編碼模型

2.1.1 向量表示

1)字向量表示:字嵌入是將句子中的字映射成一個低維稠密的向量,從而更好地刻畫字的屬性。給定一個含有n個字的句子xi={c1,c2,…,cn},實驗用word2vec工具訓(xùn)練生成字向量,每個字均被映射為向量表示,向量維度為dw。

2)位置向量表示:在關(guān)系抽取任務(wù)中,位置嵌入用相對位置的低維向量表示,最早被文獻(xiàn)[12]引入實體關(guān)系抽取任務(wù)中。在圖2所示標(biāo)注的句子中,當(dāng)前字“引”與醫(yī)療實體“感冒”“發(fā)燒”之間的相對位置分別為2和-2,每個相對位置分別對應(yīng)一個位置向量,維度為dp。

圖2 當(dāng)前字與醫(yī)療實體的相對位置

2.1.2 雙向GRU層

GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)的分支,也是LSTM的變體,GRU在保持LSTM效果的同時使其結(jié)構(gòu)簡單,且計算簡便,由于其在序列處理上的出色表現(xiàn)而被廣泛應(yīng)用于自然語言處理任務(wù)中。GRU結(jié)構(gòu)如圖3所示。

圖3 GRU結(jié)構(gòu)

zt=σ(Wzxt+Uzht-1+bz)

(1)

rt=σ(Wrxt+Urht-1+br)

(2)

(3)

(4)

(5)

其中,zt和rt分別為GRU的更新門和重置門,更新門是控制上一時刻的狀態(tài)信息傳遞到當(dāng)前時刻的程度,重置門是控制上一時刻的狀態(tài)信息被遺忘的程度。Wz,Wr,Wh和Uz,Ur,Uh分別為神經(jīng)元當(dāng)前時刻的輸入權(quán)重和循環(huán)輸入的權(quán)重,bz,br,bh為偏置向量。首先,實驗通過上一時刻的隱藏狀態(tài)信息ht-1和當(dāng)前時刻的節(jié)點輸入xt來獲取2個門控的狀態(tài)。得到門控信號之后,利用重置門來獲取遺忘后的狀態(tài)ht-1?rt,?表示哈達(dá)馬積對應(yīng)元素相乘;然后,將其與當(dāng)前時刻的輸入xt相加并通過非線性函數(shù)tanh激活;最后,用更新門對當(dāng)前節(jié)點的輸入選擇記憶。

GRU采用“門”結(jié)構(gòu)來克服短時記憶的影響,不僅可以調(diào)節(jié)流經(jīng)序列的信息流,還可以改善RNN 存在的“梯度消失”問題。為了能夠有效利用上下文信息,實驗采用雙向GRU結(jié)構(gòu),雙向GRU對每個句子分別采用前向和反向計算得到2個不同的隱藏層狀態(tài),然后將2個向量相加得到最終的編碼表示。

2.1.3 字級注意力機制

注意力機制模仿了生物觀察行為的內(nèi)部過程,是一種通過增加部分區(qū)域的注意力來獲取關(guān)注目標(biāo)更多細(xì)節(jié)信息的機制。注意力機制可以快速提取數(shù)據(jù)的重要特征,減少對外部信息的依賴,捕獲語言中的長距離依賴性,被廣泛應(yīng)用于自然語言處理任務(wù)中。本文通過引入字級注意力機制來判斷每個字對關(guān)系分類的重要程度,并有效提高模型精確率。

通過雙向GRU得到每個字的輸出向量ht,輸入到全連接層并獲得其隱藏表示ut,通過Softmax函數(shù)計算歸一化權(quán)重向量αt,最后得到句子向量表示。字級注意力機制權(quán)重計算如下:

ut=tanh(htWt+bt)

(6)

(7)

(8)

其中,Wt表示當(dāng)前時刻神經(jīng)元的輸入權(quán)重,T表示序列長度,uw表示隨機初始化的上下文向量,通過反向傳播更新上下文向量。St表示編碼后的句子向量。

2.2 句子級注意力機制

目前,很多用來構(gòu)建知識庫的方法均需要標(biāo)注好的訓(xùn)練語料,人工標(biāo)注的語料因為標(biāo)注人員不同而導(dǎo)致語料噪聲。在實驗標(biāo)注的語料庫中,相同的實體對和實體類型在不同的語料中被標(biāo)注為不同的關(guān)系標(biāo)簽,影響模型效果。常見的關(guān)系抽取方法是以句子作為單獨的處理單元,若僅使用字級注意力機制時,則只考慮到當(dāng)前的句子信息,而對于含有同一實體對的其他句子,還需要通過句子級注意力機制學(xué)習(xí)實體共現(xiàn)句的上下文特征,為每個句子學(xué)習(xí)注意力權(quán)重,來提升分類器效果。正確標(biāo)注的句子將獲得較高的權(quán)重,而錯誤標(biāo)注的句子會得到較低的權(quán)重,隱式摒棄一些噪聲語料,如圖4所示。

圖4 句子級注意力機制模型

(9)

通過計算句子特征向量與目標(biāo)實體關(guān)系的相似度來得到句子的注意力權(quán)值。句子特征向量與目標(biāo)實體關(guān)系向量的相似度越高,則正確表達(dá)實體關(guān)系的可能性越大,注意力權(quán)重也越高。句子特征向量目標(biāo)實體關(guān)系的相似度計算如下:

(10)

ei=xiAr

(11)

其中,ei表示句子特征向量xi與預(yù)測關(guān)系向量r的匹配分?jǐn)?shù),A表示加權(quán)對角矩陣。最后,通過Softmax層對實體關(guān)系向量進(jìn)行輸出。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

中文EMR中包含大量的醫(yī)學(xué)知識和臨床信息,由于標(biāo)注人員醫(yī)學(xué)領(lǐng)域知識的限制以及病歷中包含患者的隱私,使得EMR在語料構(gòu)建上存在一定的困難。本文依據(jù)I2B2/VA Challenge醫(yī)學(xué)關(guān)系標(biāo)注規(guī)范,且在專業(yè)人員的指導(dǎo)下,制定自己的中文EMR標(biāo)注規(guī)范。在EMR的文本片段中,醫(yī)學(xué)實體語義關(guān)系主要存在于治療、疾病、檢查和癥狀等實體之間,如表1所示,包含5個粗粒度類別和15個細(xì)粒度類別,表2所示為標(biāo)注語料示例。

表1 醫(yī)療實體關(guān)系類型及其描述

表2 中文電子病歷醫(yī)療實體關(guān)系

本文以甘肅省某二級甲等醫(yī)院提供的不同臨床科室的EMR為分析對象。首先,對已校對的EMR文本進(jìn)行簡單的去隱私處理,然后,從不同臨床科室隨機挑選一定量的EMR文本進(jìn)行人工標(biāo)注。本文總共使用1 200份EMR文本對實體關(guān)系抽取進(jìn)行研究,其中800份EMR作為訓(xùn)練集,200份EMR作為開發(fā)集,200份EMR作為測試集。

3.2 評價指標(biāo)

本文利用精確率P、召回率R和F1值對中文EMR實體關(guān)系分類效果進(jìn)行評價,具體計算公式如下:

(12)

(13)

(14)

其中,TP表示對當(dāng)前類別識別正確的數(shù)目,FP表示對當(dāng)前類別識別錯誤的數(shù)目,FN表示應(yīng)該識別為當(dāng)前類別但是沒有被識別的數(shù)目,TP+FN表示該類別下所有正實例的總數(shù)目,TP+FP表示識別出來屬于當(dāng)前類別的總數(shù)。分別計算各個類別的精確率P和召回率R,然后以F1值作為各個類別整體的評價指標(biāo)。

3.3 實驗設(shè)置

選擇目前的主流模型LSTM作為基線實驗,分別和SVM模型、CNN模型、BiLSTM-Attention模型和BiGRU-Dual Attention模型進(jìn)行對比。

1)SVM模型:該模型在SemEval-2010評測任務(wù)中表現(xiàn)最好。文獻(xiàn)[18]利用各種手工制定的特征,用SVM作為分類器,實驗取得了較好的F1值。

2)CNN模型:該模型被文獻(xiàn)[19]使用,采用CNN編碼句子向量,將編碼后的結(jié)果最大池化,利用Softmax函數(shù)輸出結(jié)果。

3)BiLSTM-Attention模型:該模型由文獻(xiàn)[20]提出。利用雙向LSTM抽取上下文信息,結(jié)合注意力機制對詞賦予不同的權(quán)重,判斷每個詞對關(guān)系分類的重要程度,提高對分類有貢獻(xiàn)的詞權(quán)重,有效提高模型效率。

4)BiGRU-Dual Attention模型:該模型由本文提出,使用雙向GRU和雙重注意力機制結(jié)合來抽取實體關(guān)系,通過隨機搜索調(diào)整在開發(fā)集上的超參數(shù),超參數(shù)如表3所示。

表3 BiGRU-Dual Attention模型超參數(shù)

模型實驗中字向量維度為100,位置向量的維度為5,Batch Size大小為50,Epoch Num設(shè)置為10,使用Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.000 5,其中L2正則化值為1,Dropout比率為0.5。在本文中,將Dropout比率與L2正則化結(jié)合起來以防止過度擬合。

3.4 實驗結(jié)果

本文提出基于雙向GRU和雙重注意力機制結(jié)合的實體關(guān)系抽取模型,將擅長學(xué)習(xí)長期依賴信息的雙向GRU加入到句子編碼階段中,然后用字級注意力機制提高對關(guān)系分類有決定作用的字權(quán)重,最后用句子級注意力機制獲取更多語句的特征,增大正確標(biāo)注的句子權(quán)重,同時減小錯誤標(biāo)注的句子權(quán)重。在訓(xùn)練過程中,使用相同的數(shù)據(jù)、批次大小及迭代次數(shù),分別對SVM模型、CNN模型、LSTM模型、BiLSTM-Attention模型和本文模型進(jìn)行訓(xùn)練,記錄訓(xùn)練過程中最高的精確率P、召回率R和F1值,具體數(shù)據(jù)如表4所示。

表4 不同模型進(jìn)行中文電子病歷實體關(guān)系識別時的性能比較

3.5 實驗分析

根據(jù)上述表4中的數(shù)據(jù),可以看到本文提出的基于雙向GRU結(jié)合雙重注意力機制的實體關(guān)系抽取方法相比其他方法效果較好,F1值達(dá)到了82.17%。表4中的學(xué)習(xí)方法可以分為傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法,從實驗結(jié)果可以看出,深度學(xué)習(xí)方法普遍優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法,這是由于傳統(tǒng)機器學(xué)習(xí)方法依賴于大量的手工特征,而EMR中文本語料較長,且結(jié)構(gòu)性差,傳統(tǒng)機器學(xué)習(xí)方法無法從病歷文本中獲得包含的語義和長距離信息。本文提出的BiGRU-Dual Attention模型相較于傳統(tǒng)的機器學(xué)習(xí)算法有明顯地提高,同時相較于目前主流的BiLSTM-Attention模型,F1值提高了3.97%。在表4中,可以看出精確率P和召回率R均得到了大幅提高,這說明本文提出的方法改善了錯誤標(biāo)簽的問題,同時在對細(xì)粒度特征分析中,結(jié)果發(fā)現(xiàn)F1值也提升了很多。雙向GRU和注意力機制的影響分析如下:

1)雙向GRU的影響分析。本文模型在句子編碼階段加入雙向GRU結(jié)構(gòu),能夠很好地學(xué)習(xí)字的上下文信息,并提供豐富的特征。由表4可以看出,LSTM的關(guān)系抽取模型比普通卷積的效果更好,然而GRU作為LSTM的變體,它可以像LSTM 一樣,既具備記憶序列特征的能力,又善于學(xué)習(xí)長距離依賴信息。EMR文本語料較長,存在許多長依賴語句,卷積神經(jīng)網(wǎng)絡(luò)僅靠滑動窗口來獲得局部信息,不能學(xué)習(xí)到長依賴特征。雙向GRU結(jié)構(gòu)卻可以學(xué)習(xí)到豐富的上下文特征,且效果更佳。

2)注意力機制的影響分析。本文模型中通過加入注意力機制,來判斷每個字對關(guān)系分類的重要程度,提高分類效果,并且引入句子級別的注意力機制,增大正確標(biāo)注的句子權(quán)重,同時減小錯誤標(biāo)注的句子權(quán)重。本文實驗設(shè)計對比了LSTM模型、BiLSTM-Attention模型以及BiGRU-Dual Attention模型的實體關(guān)系抽取效果。其中,BiLSTM-Attention模型只使用字級注意力機制,BiGRU-Dual Attention模型使用了字級注意力機制和句子級注意力機制。從表4的實驗結(jié)果可以看出,加入注意力機制的方法均高于未加注意力機制的方法,其中BiLSTM-Attention模型的F1值比LSTM模型的高3.49%,說明加入字級注意力機制有助于實體關(guān)系抽取準(zhǔn)確率的提升。此外,由表4中數(shù)據(jù)可以看出,BiLSTM-Attention方法的F1值比本文方法要低許多,這可能是因為本文使用的句子級注意力機制學(xué)習(xí)更多的語句特征,降低錯誤標(biāo)注語句的權(quán)值,減少噪聲句子影響。

3.6 方法驗證

實驗將本文方法與Mintz、 MultiR、 MIML 3種傳統(tǒng)的遠(yuǎn)程監(jiān)督方法相比較,具體數(shù)據(jù)如圖5所示。

圖5 本文方法與傳統(tǒng)遠(yuǎn)程監(jiān)督方法的結(jié)果對比

由圖5可知,本文方法的精確率P、召回率R、F1值均高于其他3種傳統(tǒng)的遠(yuǎn)程監(jiān)督方法,這是因為本文提出的方法不需要人工構(gòu)建特征,能夠準(zhǔn)確學(xué)習(xí)到句子的語義信息,直接從原始字中自動學(xué)習(xí)特征,減少錯誤傳播。另外,本文方法除了從更多的語句中學(xué)習(xí)特征,還加入字級注意力機制和句子級注意力機制,有效緩解標(biāo)簽錯誤問題。

4 結(jié)束語

針對已有實體關(guān)系抽取方法存在的標(biāo)簽標(biāo)注錯誤問題,本文提出雙向GRU和雙重注意力機制結(jié)合的實體關(guān)系抽取方法。利用雙向GRU學(xué)習(xí)字的上下文信息,獲取更細(xì)粒度的特征信息,通過字級注意力機制提高對關(guān)系分類起決定作用的字權(quán)重,同時加入句子級注意力機制學(xué)習(xí)更多的語句信息,有效解決標(biāo)簽錯誤問題。通過在人工標(biāo)注的數(shù)據(jù)集上進(jìn)行實驗對比,證明了本文方法能有效提升實體關(guān)系抽取效果。下一步將對實體識別和實體關(guān)系進(jìn)行聯(lián)合抽取。