亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LEBERT-BCF的電子病歷實體識別*

        2023-02-23 01:26:36吳廣碩樊重俊陶國慶賀遠(yuǎn)珍
        計算機(jī)時代 2023年2期
        關(guān)鍵詞:字符詞典實體

        吳廣碩,樊重俊,陶國慶,賀遠(yuǎn)珍

        (上海理工大學(xué)管理學(xué)院,上海 200093)

        0 引言

        電子病歷是指醫(yī)務(wù)人員在醫(yī)療活動過程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的數(shù)字化信息,并能實現(xiàn)存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄[1]。由于電子病歷通常為非結(jié)構(gòu)化文本,高效提取電子病歷中數(shù)據(jù)信息成為了推進(jìn)智慧醫(yī)療發(fā)展的關(guān)鍵點。

        中文醫(yī)療命名實體識別與其他領(lǐng)域不同,醫(yī)療實體通常具有長度較長、專業(yè)性強(qiáng)的特點,因此中文醫(yī)療命名實體識別對文字語義特征提取和實體邊界準(zhǔn)確識別的要求較高。BERT[2]在輸入時以字符為基本單位,字符之間的相互割裂導(dǎo)致BERT 在醫(yī)療命名實體識別任務(wù)中產(chǎn)生了以下問題:

        ⑴ 中文字符的詞匯信息學(xué)習(xí)不充分。在中文NER 任務(wù)中每個字符更希望和其相近并能夠組成詞語的字符特進(jìn)行特征融合,而且字符作為基本輸入浪費(fèi)了詞匯中的實體邊界信息。

        ⑵ 對于嵌套實體的識別效果不佳。如在實體‘原發(fā)性肝癌’中,BERT 在輸入時由于缺乏全局觀,解碼時通常會將長度較短的‘肝癌’單獨(dú)識別為實體導(dǎo)致實體類別預(yù)測錯誤。

        ⑶神經(jīng)網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定導(dǎo)致模型魯棒性差。神經(jīng)網(wǎng)絡(luò)由于很容易受到線性擾動的攻擊,細(xì)微的擾動也能使模型預(yù)測錯誤。

        針對上述問題本文提出了基于外部詞典增強(qiáng)和對抗訓(xùn)練的實體識別模型LEBERT-BCF,LEBERT 相比較BERT 引入了外部詞典,優(yōu)點是可以借助詞典匹配出輸入文本中的潛在詞匯學(xué)習(xí)詞信息。比如實體“原發(fā)性肝癌”,LEBERT 輸出層在輸出字符“癌”對應(yīng)特征向量時,會考慮到“癌”字對應(yīng)詞“肝癌”、“原發(fā)性肝癌”的語義信息,防止了模型將“肝癌”單獨(dú)識別為實體。而且LEBERT 另一個優(yōu)點是允許在BERT 不同Transformer Encoder 層注入詞信息,對研究NER 特征增強(qiáng)發(fā)生在預(yù)模型底層或是高層有一定的現(xiàn)實意義,本文同時引入對抗訓(xùn)練作為正則化,提高了BERT 在長實體NER任務(wù)中的魯棒性和泛化能力。

        1 相關(guān)研究

        命名實體識別方法主要分為三大類:第一類是基于規(guī)則的方法,通過構(gòu)建實體知識庫去匹配句子中的單詞是否為實體。第二類是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,主要有HMM、CRF 等。第三類是深度學(xué)習(xí)方法。通過神經(jīng)網(wǎng)絡(luò)將NER 看做序列標(biāo)注任務(wù)。隨著對NER 研究的深入,目前的主流方法為深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合模型,深度學(xué)習(xí)負(fù)責(zé)學(xué)習(xí)字符之間的語義信息并解碼輸出標(biāo)簽,機(jī)器學(xué)習(xí)負(fù)責(zé)學(xué)習(xí)標(biāo)簽之間的轉(zhuǎn)換關(guān)系,前者使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,后者基于統(tǒng)計學(xué)習(xí)規(guī)則優(yōu)化。針對中文NER 任務(wù)中缺少詞信息的問題,Zhang 等人[3]提出Lattice-LSTM 首次在中文NER 任務(wù)中引入了詞信息。Gui等人[4]在LR-CNN 中對Lattice-LSTM 進(jìn)行了改進(jìn),使用CNN 對字符特征進(jìn)行編碼并堆疊多層獲得multi-gram 信息。Sui 等人[5]提出了CGN 模型構(gòu)建圖網(wǎng)絡(luò),圖網(wǎng)絡(luò)中三種不同的建圖方式融合字詞信息。Zou 等人[6]提出LGN 將每個字符視作節(jié)點并在節(jié)點周圍做匹配,匹配到單詞則構(gòu)成邊融合信息。Li等人[7]提出的FLAT引入了相對位置信息,字符可以直接與其所匹配詞匯間的交互。Liu 等人[8]提出了WC-LSTM 模型為每個字符引入靜態(tài)固定的詞匯,解決了Lattice-LSTM 無法并行化計算的缺點。Ding 等人[9]提出了利用實體詞典引入詞匯信息的Multi-digraph 模型。Ma 等人[10]提出了Simple-Lexicon模型,該模型設(shè)計了三種不同的字詞信息融合方法。Zhu 等人[11]提出了LEX-BERT 模型,通過引入實體類型type 信息提高了NER 性能。Liu 等人[12]提出了LeBERT 將詞信息注入模型底部提升實體識別性能。在中文醫(yī)療實體識別的任務(wù)中,羅凌等人[13]提出了基于筆畫ELMo 和多任務(wù)學(xué)習(xí)的命名實體識別模型,以筆畫序列為特征輸入到ELMo 學(xué)習(xí)向量表示。唐國強(qiáng)等人[14]提出了一種將BERT 輸出和注意力機(jī)制相結(jié)合進(jìn)行特征增強(qiáng)的方法。王星予等人[15]提出一種在輸入層融合實體關(guān)鍵字特征的實體分類模型。

        綜上所述,在中文醫(yī)療實體識別任務(wù)中多數(shù)模型都是將詞信息注入到模型末端或者將筆畫信息注入模型的Embedding 層,沒有直接將詞信息注入到模型內(nèi)部與字信息進(jìn)行交互以及考慮到模型的魯棒性。本文在BERT內(nèi)部以直觀形式引入每個字符在該段輸入文本中所匹配到的多個詞信息,探討將詞信息注入到BERT 不同Transformer Encoder 層[16]中對模型性能的影響,最后通過對抗訓(xùn)練提升了模型的魯棒性。

        2 LEBERT-BCF模型

        本文提出的LEBERT-BCF 模型結(jié)構(gòu)上主要分為三部分,第一部分是使用LEBERT 引入詞信息并將每個字符進(jìn)行向量化表示。Tencent AI Lab開源的中文詞典覆蓋面廣泛,包了各領(lǐng)域的專業(yè)詞匯并且已經(jīng)訓(xùn)練得到了對應(yīng)的詞向量,故使用Tencent AI Lab 的開源詞典為外部詞典。根據(jù)外部詞典為每個字符建立詞典樹,在輸入每一條電子病歷時,根據(jù)詞典樹自動為每個字符匹配出潛在詞匯構(gòu)建字符-詞語對輸入到模型進(jìn)行訓(xùn)練,在此過程中達(dá)到模型學(xué)習(xí)詞信息和實體邊界信息的目的。第二部分是BiLSTM 學(xué)習(xí)電子病歷的上下文特征。第三部分是CRF 學(xué)習(xí)實體標(biāo)簽的上下文約束,防止出現(xiàn)不合理的標(biāo)簽預(yù)測序列。圖1給出了LEBERT-BCF模型的主要結(jié)構(gòu)。

        圖1 LEBERT-BCF模型

        2.1 LEBERT

        LEBERT 在BERT 的基礎(chǔ)上通過Lexicon Adapter模塊融合電子病歷中的詞信息,因此在NER 過程中具有學(xué)習(xí)詞信息和實體邊界信息的能力。

        2.1.1 BERT

        BERT 模型通常由12 個Transformer 的Encoder模塊疊加而成,在模型的微調(diào)過程中,每個字符的特征向量會根據(jù)下文變化而變化,是一種動態(tài)的字向量表示。

        BERT 模型內(nèi)部的多頭注意力機(jī)制有助于每個字符動態(tài)融合其他字符的語義信息。在多頭注意力機(jī)制的過程中,Q、K、V 分別為查詢矩陣,鍵矩陣,值矩陣,WQ、WK、WV、W為線性變換矩陣。

        2.1.2 Char-Words Pair Sequence

        根據(jù)給定的中文句子sc={c1,c2…cn} 利用事先根據(jù)外部詞典構(gòu)建好的詞典樹匹配出句子中每個字符ci在該文本中對應(yīng)的潛在詞匯。在匹配到的詞匯中,每個字符和包含該字符的詞匯組成字符-詞語對集合,表示為scw={(c1,ws1),(c2,ws2),…(cn,wsn)}。其中wsi表示包含字符ci單詞組成的字符-詞語對。如圖2 中,輸入文本為“原發(fā)性肝癌”,通過詞典樹匹配,得到“癌”字符的字符-詞語對為(癌,[原發(fā)性肝癌,肝癌,<PAD>]),其中<PAD>為填充,限制每個字符對應(yīng)3 個詞語。

        圖2 字詞對序列

        2.1.3 Lexicon Adapter

        通過Lexicon Adapter 模塊將詞匯信息注入到BERT 中,對于給定的ci將其構(gòu)造出字符-詞語對向量表示為表示為第i 個位置的字向量表示為字符i 所對應(yīng)第m 個詞匯的詞向量。由于外部詞典詞向量和TransformerEncoder 輸出的字向量維度不一致,首先通過非線性變換將字向量和詞向量進(jìn)行向量維度對齊:

        使用hci為query 向量,其對應(yīng)的詞向量集合Vi為key和value,計算注意力分?jǐn)?shù):

        Wattn為權(quán)重矩陣。利用注意力分?jǐn)?shù)αi對value 進(jìn)行加權(quán)求和,得到ci對應(yīng)所有詞匯融合后的詞特征:

        具體流程如圖3所示。

        圖3 Lexicon Adapter模塊

        2.1.4 詞信息注入

        假設(shè)第k 層Transformer Encoder 的輸出為Hk=,利用Lexicon Adapte 模塊將詞匯信息注入到第k層與第k+1層Transformer Encoder之間:

        LA 為Lexicon Adapte 模塊,在第k 層,得到具有字詞特征信息的特征向量集合

        2.2 BiLSTM

        LSTM 通過增加遺忘門、輸入門與輸出門三部分增強(qiáng)RNN 的學(xué)習(xí)能力,缺點是只能利用上文已經(jīng)出現(xiàn)過的語義信息,在NER 任務(wù)中忽視了數(shù)據(jù)的前后依賴性。本文使用BiLSTM 將前向LSTM 隱藏層的輸出和后向LSTM 隱藏層的輸出拼接得到含有雙向語義信息的向量做標(biāo)簽預(yù)測。

        2.3 CRF

        CRF 是給定一組變量X 的條件下,另外一組隨機(jī)變量Y的條件概率分布的模型。在NER任務(wù)中,S(X,y)表示輸入句子序列X被標(biāo)記為序列y的得分值:

        分別表示第句子序列X 中第i 個字符的發(fā)射分?jǐn)?shù)和轉(zhuǎn)移分?jǐn)?shù),輸入句子序列X 被標(biāo)記為序列y的概率為:

        其中YX代表了所有的標(biāo)簽預(yù)測集。

        2.4 FGM

        FGM 是對抗訓(xùn)練的常用方法之一,假設(shè)LEBERTBCF輸入文本的embedding矩陣為x,根據(jù)LEBERT-BCF模型第一次反向傳播得到x 對應(yīng)的梯度?xL(x,y,θ)得到輸入文本的對抗擾動radv:

        ε為超參數(shù)。將對抗擾動加到x 矩陣得到對抗樣本xadv:

        在原始樣本損失函數(shù)增大方向得到對抗樣本,將對抗樣本再次輸入模型訓(xùn)練可以尋找到更健壯的參數(shù)值。

        3 實驗

        3.1 實驗數(shù)據(jù)

        實驗數(shù)據(jù)集來自中文醫(yī)療數(shù)據(jù)集CCKS 2019,將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集,分別是800、200、379條。數(shù)據(jù)集中共包含6種實體,各個實體在數(shù)據(jù)集的分布如表1。

        表1 CCKS 2019 數(shù)據(jù)集實體類別及數(shù)目

        3.2 參數(shù)設(shè)置

        在本文命名實體識別實驗中,使用Python和Pytorch搭建實驗環(huán)境,對LEBERT、BiLSTM、CRF 三個模塊采用差分學(xué)習(xí)率。模型詳細(xì)參數(shù)見表2。

        表2 LEBERT-BCF模型超參數(shù)設(shè)置

        3.3 評估指標(biāo)

        本文采用的評價指標(biāo)有準(zhǔn)確率P,召回率R 和F1值,均采用嚴(yán)格評判標(biāo)準(zhǔn),只有當(dāng)模型所識別的實體邊界與真實邊界一致且實體類別一致時才被判定為一次正確識別。

        準(zhǔn)確率P計算公式為:

        召回率R計算公式為:

        F1 值為準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值,計算公式為:

        3.4 實驗結(jié)果及分析

        為驗證本文所提出LEBERT-BCF 模型在醫(yī)療命名實體識別有效,在同樣的實驗環(huán)境下采用多種模型對比的方法,使用本文模型與BiLSTM,BiLSTM-CRF,BERT-BiLSTM-CRF,LEBERT-BCF*(各模塊學(xué)習(xí)率相等)在準(zhǔn)確率,召回率,F(xiàn)1 指標(biāo)上做對比實驗,對比結(jié)果如表3所示。

        表3 模型對比實驗結(jié)果

        由表3可知,由于BERT模型引入了自注意力機(jī)制,在實體識別效果上相對于BiLSTM-CRF 有較大提升,在P,R,F(xiàn)1 指標(biāo)上分別提升了7.93%,8.67%,8.31%。BERT-BiLSTM-CRF 與BERT-CRF 相比較引入了BiLSTM 學(xué)習(xí)文字方向性信息,在P,R,F1 指標(biāo)上分別提升了0.47%,1.17%,0.82%,對比發(fā)現(xiàn)在BERT 模型后引入BiLSTM 在NER 任務(wù)中各項指提升效果并不明顯,原因在于BERT 模型在下游任務(wù)中通常具有較強(qiáng)的擬合能力,堆疊一層同樣是字符為輸入單位BiLSTM 模型對中文醫(yī)療實體識別性能影響較小。LEBERT-BCF*與BERT-BiLSTM-CRF相比較在P,R,F(xiàn)1 指標(biāo)上分別提升了2.1%,2.97%,2.53%,充分驗證了BERT 內(nèi)部引入Lexicon Adapter 模塊和embedding層引入FGM 可以提升模型的實體識別性能,有效解決了字符模型BERT 在NER 任務(wù)中的詞信息損失、實體邊界信息浪費(fèi)和模型魯棒性較差的問題。通過對模型的不同模塊單獨(dú)設(shè)置學(xué)習(xí)率,LEBERT-BCF相比較LEBERT-BCF*在P,R,F(xiàn)1 指標(biāo)上分別提升了0.98%,0.85%,0.92%,證明了預(yù)訓(xùn)練模型在下游任務(wù)微調(diào)時只需要設(shè)置較小的學(xué)習(xí)率就可以迅速收斂,而其他模塊通常設(shè)置相對較大學(xué)習(xí)率才可以收斂。

        為了更加直觀的顯示在BERT 的NER 任務(wù)中引入詞信息和FGM 可以提高實體識別性能,圖4 為BERT-BiLSTM-CRF與LEBERT-BCF在CCKS 2019測試集上各個實體的F1值。

        圖4 F1值對比

        由圖4 可知LEBERT-BCF 在各個實體的識別效果均優(yōu)于BERT-BiLSTM-CRF 證明了本文模型在專業(yè)性較強(qiáng)和實體較長的中文醫(yī)療數(shù)據(jù)集上可以更好的提取特征信息。

        通過在LEBERT 底層和高層引入詞信息,探討不同Transformer Encoder 層進(jìn)行特征增強(qiáng)對模型實體識別的影響,對比結(jié)果如表4所示,推斷出在模型底層引入詞信息可以高效地進(jìn)行特征增強(qiáng),而在模型末端引入詞信息的增強(qiáng)效果最低。

        表4 注入層數(shù)對模型的影響

        4 結(jié)論

        在對電子病歷的數(shù)據(jù)挖掘過程中,BERT 不能充分利用中文詞信息和邊界信息這些重要特征進(jìn)行NER 任務(wù),而且神經(jīng)網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定導(dǎo)致模型魯棒性較差。針對這些問題本文提出了一種基于詞典匹配和對抗訓(xùn)練的中文電子病歷實體識別模型LEBERTBCF。經(jīng)過實驗證明,該模型在CCKS 2019 數(shù)據(jù)集上實體識別效果優(yōu)于BERT-BiLSTM-CRF,有效解決了BERT 在實體識別過程中的詞信息損失問題和實體邊界浪費(fèi)問題,提升了模型的魯棒性。LEBERT-BCF的缺點一方面是需要依靠詞典匹配得到每個字符在文中所對應(yīng)的詞匯,而本文所使用的詞典為通用型詞典,因此在今后的工作中會研究專業(yè)性醫(yī)療詞典匹配對模型的影響;另一方面缺點是FGM 需要兩次反向傳播,計算量大,訓(xùn)練時間長。

        猜你喜歡
        字符詞典實體
        尋找更強(qiáng)的字符映射管理器
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        字符代表幾
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        評《現(xiàn)代漢語詞典》(第6版)
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        詞典例證翻譯標(biāo)準(zhǔn)探索
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        亚洲伊人色欲综合网| 国产一区二区a毛片色欲| 日本久久精品在线播放| 亚洲一区二区女优视频| 成人av一区二区亚洲精| 久久伊人精品中文字幕有| 国精产品一区一区二区三区mba | 日韩欧群交p片内射中文| 日日猛噜噜狠狠扒开双腿小说| 国产精品午睡沙发系列| 亚洲成a人片在线网站| 亚洲是图一区二区视频| 国产一区二区三区高清视频| 成年男人午夜视频在线看| 国产人妻久久精品二区三区老狼| 免费国产在线精品一区二区三区免| 日本精品一区二区三区二人码| 亚洲精品中文字幕乱码三区| 成人无码α片在线观看不卡| av天堂久久天堂av色综合| 狠狠色狠狠色综合| 亚洲色图视频在线观看网站| av亚洲在线一区二区| 国产精品自拍视频免费观看| 大量漂亮人妻被中出中文字幕| 18禁成人黄网站免费观看| 亚洲av无码专区亚洲av| 国产无遮挡又黄又爽无VIP| 中文字幕女同人妖熟女| 亚洲午夜久久久精品影院| 精品一区二区三区无码免费视频| 2021年最新久久久视精品爱| 亚洲高清在线观看免费视频| 亚洲国产精品国自产拍性色| 亚洲av永久无码精品网址| 亚洲av无码日韩精品影片| 久热re在线视频精品免费| 中文字幕亚洲日本va| 亚洲tv精品一区二区三区| 欧美多人片高潮野外做片黑人| 极品美女aⅴ在线观看|