亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多任務學習的中文電子病歷命名實體識別研究

        2021-11-28 11:55:54余俊康
        軟件導刊 2021年11期
        關鍵詞:特征信息模型

        余俊康

        (廣東工業(yè)大學 計算機學院,廣東 廣州 510006)

        0 引言

        中文電子病歷(Chinese Electronic Medical Recode,CEMR)是由醫(yī)務人員撰寫的面向患者個體描述醫(yī)療活動的記錄,包含患者從入院到出院疾病發(fā)生、發(fā)展、治療的全過程,蘊含大量的醫(yī)療知識和患者健康信息。中文電子病歷命名實體識別任務(Chinese Name Entity Recognition,CNER)指從給定電子病歷文本中識別出能表達醫(yī)療信息的實體和實體邊界信息,是醫(yī)療信息抽取的基本任務。

        近年來,為了推動中文醫(yī)療信息抽取工作,中國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing,CCKS)連續(xù)幾年都組織了中文電子病歷命名實體識別評測任務評比,是對于給定的一組電子病歷純文本文檔,識別并抽取其中與醫(yī)學相關的實體,并將他們歸類到預定好的類別中。

        目前,關于中文電子病歷實體識別的研究可分為兩大類:

        (1)單任務命名實體識別模型,通過提高特征工程質量并修改深度學習模型結構以提升模型性能。Qiu 等[1]將字典和漢字特征投影到向量以增強詞匯信息,然后通過殘差卷積神經網絡訓練得到臨床醫(yī)學文本的特征信息;Wang等[2]將具有醫(yī)學特征的字典融入雙向長短期記憶神經網絡以處理命名實體識別任務;Li 等[3]將注意力機制融入神經網絡以捕捉臨床醫(yī)療文本的特征信息。上述研究受字典質量影響較大,Li 等[3]減少了字典工作,但其提取的特征信息并不全面。

        (2)多任務命名實體識別模型,通過學習多個數據集的特征或學習多個不同類型的任務提升對目標域的識別效果。楊曉輝等[4]提出使用共享LSTM 模塊捕獲分詞任務和命名實體識別任務相關信息;Wu 等[5]使用CNN-LSTMCRF 框架獲得短距離和長距離的內容依賴,并且將CNN 的輸出作為分詞任務的輸入,達到命名實體識別任務和分詞任務聯(lián)合學習效果,有效地提高了實體識別任務的準確率。上述文獻分別研究訓練分詞任務和命名實體識別任務,未能充分獲取兩個任務之間的聯(lián)系。Zhao 等[6]提出一種新的具有兩種顯式反饋策略的深層神經多任務學習框架以聯(lián)合建模醫(yī)學命名實體識別MER 和規(guī)范化MEN,但MEN 任務對MER 任務的提高并不明顯;羅凌等[7]將筆畫ELMO 信息融入神經網絡構建多任務學習模型,并提出基于完全共享和基于私有共享的兩種多任務模型,通過學習兩個數據集的特征提高命名實體識別任務的識別率,通過大量外部資源以提高目標域的識別率,降低了工作效率。

        將深度學習方法應用于中文電子病歷命名實體識別任務時,存在一些不足:①深度學習方法對于標注數據的依賴性非常強,然而當前一直缺乏大量的中文電子病歷實體標注數據;②特征工程的質量對深度學習模型的效果影響較大,導致領域特征通用性較差。

        與傳統(tǒng)的詞嵌入模型相比,BERT[8]等預訓練語言模型在自然語言任務上表現更好。但是一般的預訓練語言模型的計算代價較大,在資源有限的設備上難以執(zhí)行。華為實驗室提出改進的BERT 模型NEZHA[9],有效地解決了內存大、模型運行效率慢的問題。

        在前人工作基礎上,本文提出一個基于NEZHA 和具有交叉共享結構的多任務模型。首先使用NEZHA 來訓練大量的無標注中文醫(yī)療數據,以此學習中文醫(yī)療文本的特征;然后構建具有交叉共享結構的雙向LSTM 模塊充分學習CCKS2017 和CCKS2018 兩個中文電子病歷數據集的相關性,進一步提升模型的精確率。本文具有交叉共享結構的多任務模型,在使用NEZHA 學習大量的無標注中文醫(yī)學數據后,通過學習多個任務的特征,可以有效解決低資源數據帶來的模型性能不足的問題。

        1 相關工作

        中文電子病歷實體識別任務可以轉化為序列標注問題。雙向長短期記憶網絡[10](Bi-LSTM)在序列標注問題上有著較強的處理能力,條件隨機場[11](CRF)被廣泛應用于序列標記任務,因此將Bi-LSTM 神經網絡結合CRF 作為傳統(tǒng)的命名實體識別方法。

        1.1 多任務模型

        多任務模型(Multi-Task Model,MTM)可分為基于完全共享的多任務模型(Full-Shared Multi-task Model,FSMTM)和基于私有共享的多任務模型(Shared-Private Multi-task Model,SP-MTM)兩種[12]。其中,FS-MTM 的模型結構是將兩個命名實體識別任務通過完全共享Bi-LSTM模塊進行模型訓練。SP-MTM 的模型結構有兩個用于執(zhí)行各自任務的私有Bi-LSTM,一個用于獲取共享特征的Bi-LSTM。在SP-MTM 中,共享Bi-LSTM 和私有Bi-LSTM 分別捕獲共享的特征和各自私有的特征,CRF 層是基于與任務相關的特征表示產生不同的標簽序列。

        1.2 基于NEZHA 的預訓練語言模型

        大部分現有的數據增強方式都是通過預訓練語言模型增強訓練集數據,并且是基于英文語料實現,基于中文語料的模型較少。Google 的BERT、百度的ERINE[13]、BERT-WWM[14]是目前較為常用的中文預訓練語言模型。本文選取NEZHA(Neural Contextualized Representation for Chinese Language Understanding)對中文醫(yī)學文本進行預訓練。NEZHA 作為BERT 的改進模型,采用相對函數位置編碼,獲取句子中不同字詞之間的相對位置信息,并以詞嵌入的方式進行模型輸入,并且使用混合精度訓練和LAMB訓練器優(yōu)化訓練效率,提升模型性能。

        2 基于NEZHA 和多任務學習的中文電子病歷命名實體識別模型

        針對中文電子病歷實體識別任務,本文提出具有交叉共享結構的多任務學習模型(Cross-sharing Multi-Task Model,CS-MTM)。

        2.1 CS-MTM 模型

        CS-MTM 由嵌入層、特征提取層及序列標注層構成,其模型結構如圖1 所示。

        Fig.1 Multi-task model based on cross sharing(CS-MTM)圖1 基于交叉共享的多任務模型(CS-MTM)

        MTM 模型的主要思想是,借助來自于其他數據集的信息,提高源數據集的性能。而在SP-MTM 和FS-MTM 這兩種多任務模型中,在訓練時,輸入的特征信息只有源數據集的特征信息,但是其他數據集的特征信息可能也會有用,因此,這樣訓練形成的模型,會發(fā)生部分信息延遲。

        與SP-MTM 和FS-MTM 不同的是,本文提出的CSMTM 在嵌入層之后的特征提取層,使用交叉共享結構獲取兩個數據集的交互信息。

        交叉共享結構有兩個私有Bi-LSTM 模塊、一個共享Bi-LSTM 和一個門限交互控制器。在嵌入層后,嵌入層的輸出為字符的向量表示,將其復制成3 份分別作為共享Bi-LSTM 和私有Bi-LSTM 的輸入。如圖2所示,P1和P2是兩個私有Bi-LSTM 的輸出,S是共享Bi-LSTM 的輸出。私有Bi-LSTM 捕獲的是與另一個任務不相關的特征信息,共享Bi-LSTM 捕獲的是兩個任務共同的特征信息。因此,P1和P2是兩個數據集的特征表示,S是兩個數據集的共享特征。

        上述SP-MTM 和FS-MTM 中,P1和P2分別只計算了數據集D1和數據集D2 的特征信息,沒有計算出兩個數據集的交叉信息。而在本文的CS-MTM 中,P1和P2是兩個數據集的特征信息交互后的結果,解決了上述多任務模型帶來的信息延遲問題。對于D1,P2包含來自D2 且不能直接用于D1 實體識別任務的特征;與之類似,對于D2,P1則應包含來自D1且不能直接用于D2 實體識別任務的特征。否則,這些互通的信息將會被共享的Bi-LSTM 模塊所獲取。

        然后,在門限交互控制器中,P1和P2是門限交互控制器的輸入,G1和G2是它們的輸出,G 代表兩個數據集的特征P1和P2可以交互產生新的混合特征信息,計算公式分別如式(1)、式(2)所示。

        其中,⊙是元素智能乘法,σ是sigmoid 激勵函數,W2→1、b2→1、W1→2、b1→2是可訓練參數。在訓練時,可以通過調整這4 個可訓練參數學習兩個數據集共享的特征信息。

        在訓練過程中,若選擇的數據為D1或D2,則雙向LSTM的輸出分別為P1或P2。門限交互控制器G 的最終輸出由目標數據集確定,如式(3)所示。

        2.2 多任務模型訓練

        假設將中文電子病歷的病歷數據記作Z={z1,z2,…,zn},zi是病歷數據中的第i個字。

        傳統(tǒng)的詞嵌入模型有Word2vec[15]和Glove[16],它們是將詞匯表中的每一個字詞轉換成相應的全局向量,也即在不同上下文中相同詞語使用同一個詞向量。因此,傳統(tǒng)模型構造出來的詞向量無法獲取上下文相關信息[17]。本文CS-MTM 模型在嵌入層將Z 輸入到NEZHA,持續(xù)進行前向和后向的雙向訓練,以此形成上下文相關的詞向量X={x1,x2,…,xn}。將X作為特征提取層的輸入,中文電子病歷中的上下文信息對實體識別任務是很重要的信息,故本文使用雙向LSTM 獲取病歷數據中的上下文信息。令LSTM的輸出為h={h1,h2,…,hn},在CS-MTM 模型的雙向LSTM模塊中,其輸出為正向LSTM的輸出序列和反向LSTM 的輸出序列按位置拼接,如式(4)所示。

        將嵌入層的輸出X輸入到特征提取層中,將X復制成3份分別輸入到共享Bi-LSTM 和兩個私有Bi-LSTM。經過兩個私有Bi-LSTM 模塊得到的輸出分別為P1和P2,通過共享Bi-LSTM 模塊得到共享特征表示S,將P1和P2輸入到門限交互控制器中,通過式(1)和式(2)計算得到兩個數據集的混合特征G1和G2。

        在序列標注層中,使用CRF 進行序列標注訓練。通過特征提取模塊提取出的信息為G和S,通過式(5)將其拼接起來,得到共享特征表示V,作為CRF 的輸入,并根據標簽進行序列預測。

        為了解決多任務模型帶來的損失平衡問題,本文所使用的目標函數為最大化兩個方向的對數自然數。若共享特征V={v1,v2,…,vn},則經過CRF 訓練得到的輸出為Y={y1,y2,…,yn},所有可能的標注集合為?={V},則標注序列y的概率如式(6)所示。

        其中,函數fi(yi-1,yi,V)=exp(Wyi,yk vi+byi,yk),Wyi,yk是權重矩陣、byi,yk是偏置向量。

        本文使用的實體識別任務的交叉熵損失函數如式(7)所示。

        則CCKS2017 和CCKS2018 兩個任務的總交叉熵損失計算如式(8)所示。

        其中,L1(W,b1)、L2(W,b2)分別是D1 和D2 兩個任務的交叉熵損失,、分別是兩個任務的真實解碼標簽序列,W、b1、b2是可訓練的模型參數。

        3 實驗與分析

        3.1 實驗數據及訓練設置

        本文實驗采用的數據來自于中國知識圖譜與語義計算大會CCKS 提供的CCKS2017 和CCKS2018 兩個測評數據集。

        CCKS2017[18]:包括300 個醫(yī)療記錄,包括“身體部位”“治療”“檢查和檢驗”“癥狀和體征”4 種醫(yī)療實體。

        CCKS2018[19]:包括600 個醫(yī)療記錄,包括“解剖部位”“癥狀描述”“獨立癥狀”“藥物”以及“手術”5 種醫(yī)療實體。

        此外,本文通過整合多個中文醫(yī)療文本數據集,形成較大規(guī)模的無標注中文醫(yī)療文本數據集,包括“瑞金醫(yī)院糖尿病數據集[20]”“中文醫(yī)學問答數據集[21]”以及在知網上下載的醫(yī)學類文載。在去除原數據的各類標簽信息后,總計有182 099 篇中文醫(yī)學文本數據,下文中的語言預訓練模型均是使用此數據集進行預訓練。

        為了確保實驗有效性,按9∶1 劃分數據集,分別為訓練集和測試集。由于CCKS 測評數據集體積較小,為了防止模型過擬合,本文采用10 折交叉算法[21],即每次訓練時選取9 個子集數據訓練模型,并使用1 個子集對模型進行驗證,直到所有子集都完整地經歷了訓練及測試。

        在模型參數設置方面,本文所有的Bi-LSTM 都使用相同的超參數,如表1 所示。在執(zhí)行多任務訓練時,兩個數據集的數據進行多批次輪流訓練。

        Table 1 Experimental parameter settings表1 實驗參數設置

        3.2 多任務學習模型性能對比

        將單任務模型STM,多任務模型FS-MTM、SP-MTM 以及本文提出的CS-MTM 進行對比,結果如表2 所示。為驗證多任務模型的有效性,實驗中未加入任何外部資源,僅使用Word2vec 字向量作為所有模型的輸入。由實驗結果可知,相比于STM 模型,MTM 模型通過學習多個數據集的特征可以更有效地提升模型效果,其中基于交叉共享結構的多任務模型,F1 值在CCKS2017 數據集上達到90.23,表現最好,充分說明了交叉共享結構可以更有效地學習兩個任務之間的交互信息。

        Table 2 Comparison of multi-task models表2 多任務模型對比

        3.3 與其他方法性能對比實驗

        在CCKS2017 和CCKS2018 兩個中文NER 數據集上進行實驗并與現存優(yōu)秀模型進行對比,實現結果如表3 所示,使用F1 值作為評價標準,粗體是CCKS 數據集的最佳實驗結果。用作對比的模型如下:

        (1)Bi-LSTM-CNN-CRF[5]模型?;诿麑嶓w識別任務和分詞任務的多任務模型。

        (2)Lattice LSTM[11]模型。一種用于中文NER 的網格結構LSTM 模型,其編碼了序列中輸入的字符信息和潛在詞匯信息,本文依照其文獻[11]的方法,在中文電子病歷語料上進行實驗。

        (3)ELMO+FS-MTM 和ELMO+SP+MTM模型。EL?MO+FS-MTM 是基于完全共享的多任務模型,ELMO+SP+MTM 是基于私有共享的多任務模型,該模型中加入了筆畫特征信息及其他額外特征信息。但本文旨在比較多任務模型性能,故沒有加入其他額外特征信息進行實驗。

        實驗結果如表3 所示,使用詞和字作為輸入向量的Lattice LSTM 對比傳統(tǒng)神經網絡實體識別方法,相比于STM模型有了很大提升。但本文提出的模型并未加入詞信息,使得Lattice LSTM 在少數部位的識別效果上優(yōu)于本文模型。

        STM 模型在中文電子病歷命名實體識別任務上的效果并不佳,而使用MTM 模型學習兩個數據集的特征,其實驗效果提升相對明顯。因此,可以證明兩個數據集有一定關聯(lián)性;反之,通過獲取數據集的關聯(lián)性也可以證明多任務模型的有效性。此外,BERT 預訓練語言模型的效果不如其他模型的原因在于BERT 只進行了數據增強,并未實現更高層的特征信息提取。

        Table 3 Performance comparison experiment with other methods表3 與其他方法性能對比實驗

        在MTM 的實驗結果部分,由于Luo 等[7]在其研究中加入了筆畫特征信息及其他外部資源特征,豐富了數據集的特征信息,本文復現其工作時未能達到文中91 的分值。但本文也使用了基于私有共享的多任務模型,通過對比發(fā)現,使用NEZHA 的預訓練語言模型更能有效地學習中文醫(yī)學信息特征,而本文的交叉共享結構在與私有共享結構的對比中,實驗結果顯示更優(yōu)。

        4 結語

        本文提出了一種基于NEZHA 和具有交叉共享結構多任務學習的中文電子病歷模型CS-MTM。首先,使用NE?ZHA 訓練大規(guī)模的中文醫(yī)學類語料,通過學習大量的醫(yī)學類語料,獲取其上下文相關信息特征;然后,構建出具有交叉共享結構的多任務模型以學習多個相關任務的交互信息特征;最后,在CCKS2017 和CCKS2018 兩個中文NER 任務上進行實驗。實驗結果表明,NEZHA 預訓練語言模型可以很好地豐富語料信息,具有交叉共享結構的多任務模型可以充分學習兩個相關任務的特征,并且有效地提高了中文電子病歷實體識別任務精確率。后續(xù)研究中,考慮Lat?tice 結構與多任務模型相結合,將詞匯信息與字符信息相結合以提高模型效果,并探索其他相關領域對中文電子病歷命名實體識別的輔助效果。

        猜你喜歡
        特征信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        日本高清一区在线你懂得| 五月天激情小说| 久久国产国内精品对话对白| 午夜在线观看一区二区三区四区| 产美女被爽到高潮免费a| 激情综合色综合久久综合| 丁香六月婷婷综合| 日本一区二区三深夜不卡| 蜜桃tv在线免费观看| 精品国产三区在线观看| 18禁止看的免费污网站| 曰欧一片内射vα在线影院| 伊人久久成人成综合网222| 国产三级国产精品三级在专区| 亚洲无精品一区二区在线观看| 成年女人粗暴毛片免费观看| 丰满少妇被猛男猛烈进入久久 | 色综合久久久久久久久久| 2021国产视频不卡在线| 国产成人夜色在线视频观看 | 中文字幕美人妻亅u乚一596| 欧美—iGAO视频网| 亚洲天堂av福利在线| 亚洲av综合永久无码精品天堂| 国产伦精品一区二区三区视| 高h视频在线免费观看| 亚洲av色香蕉一区二区三区潮| 热re99久久精品国99热| 亚洲的天堂av无码| 免费国产在线精品三区| 超级乱淫片国语对白免费视频 | 亚洲人成网站在线观看播放| av网站入口在线免费观看| 我要看免费久久99片黄色| 久久aⅴ人妻少妇嫩草影院| 国产一级淫片免费播放电影| 精品一区二区三区a桃蜜| 成人影院yy111111在线| 好吊妞人成免费视频观看| 国产成人高清亚洲一区二区| 亚洲第一狼人天堂网亚洲av|