亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞義增強(qiáng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別方法

        2023-10-17 05:50:22陳夢(mèng)萱陳艷平扈應(yīng)黃瑞章秦永彬
        計(jì)算機(jī)工程 2023年10期
        關(guān)鍵詞:生物醫(yī)學(xué)語素詞義

        陳夢(mèng)萱,陳艷平,扈應(yīng),黃瑞章,秦永彬

        (1.貴州大學(xué) 公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,貴陽 550025;2.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025)

        0 概述

        隨著生物醫(yī)學(xué)文檔數(shù)量的迅速增長(zhǎng),生物醫(yī)學(xué)信息抽取變得越來越重要。實(shí)體作為句子的主體,包含了豐富的語義信息,因此,命名實(shí)體識(shí)別在生物醫(yī)學(xué)文本的理解和處理過程中具有非常重要的意義。生物醫(yī)學(xué)命名實(shí)體識(shí)別(Biomedical Named Entity Recognition,BioNER)指識(shí)別文本中的基因、蛋白質(zhì)、化學(xué)藥品、疾病等生物醫(yī)學(xué)實(shí)體。

        深度學(xué)習(xí)技術(shù)在自然語言處理(Natural Language Processing,NLP)中的應(yīng)用促進(jìn)了生物醫(yī)學(xué)信息抽取的發(fā)展。然而,將最先進(jìn)的NLP 方法直接應(yīng)用于生物醫(yī)學(xué)信息抽取時(shí)效果并不理想,一個(gè)重要原因是通用的預(yù)訓(xùn)練語言模型主要在包含一般領(lǐng)域文本的語料庫上訓(xùn)練和測(cè)試,而生物醫(yī)學(xué)語料庫和一般領(lǐng)域語料庫的詞分布有很大差異。因此,越來越多的研究人員通過在生物醫(yī)學(xué)語料庫上訓(xùn)練通用預(yù)訓(xùn)練語言模型得到生物醫(yī)學(xué)領(lǐng)域特定的預(yù)訓(xùn)練語言模型,如BioELMo[1]、KeBioLM[2]、ClinicalBERT[3]、BlueBERT[4]、SciBERT[5]、BioBERT[6]等。這些模型大多采用WordPiece 標(biāo)記化方法處理未登錄詞,即將未登錄詞以頻繁出現(xiàn)的語素來表示(如peri-kappa->per、##i、-、ka、##ppa),在很大程度上緩解了未登錄詞表示信息不足的問題。

        BioBERT 是目前在生物醫(yī)學(xué)信息抽取任務(wù)中使用最廣泛、最有效的預(yù)訓(xùn)練語言模型之一,它在生物醫(yī)學(xué)信息抽取的各種任務(wù)上表現(xiàn)都超過了BERT 和之前的先進(jìn)模型。現(xiàn)有的BioNER 模型將從BioBERT 預(yù)訓(xùn)練模型獲得的語素嵌入表示后,或直接輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,或增加額外的特征信息后輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而忽略了在訓(xùn)練和標(biāo)簽預(yù)測(cè)過程中可能會(huì)出現(xiàn)的如下問題:

        1)標(biāo)簽不一致問題。一些語素作為獨(dú)立單詞在文本中出現(xiàn),可能出現(xiàn)詞內(nèi)部標(biāo)簽不一致問題,比如“peri-kappa”,其真實(shí)標(biāo)簽為“B-DNA”,在語素級(jí)別進(jìn)行標(biāo)簽預(yù)測(cè)時(shí),可能會(huì)錯(cuò)誤地將其部分語素識(shí)別為“kappaB”蛋白質(zhì)實(shí)體的語素“ka”、“ppa”,則“perikappa”語素的標(biāo)簽類型既有DNA 類型又有蛋白質(zhì)類型,最終導(dǎo)致實(shí)體識(shí)別失敗。

        2)跨單詞標(biāo)簽問題。英文單詞被拆分為語素后,詞之間的邊界變得模糊,從而產(chǎn)生錯(cuò)誤依賴關(guān)系,將不同單詞的語素識(shí)別為同一單詞的語素,則會(huì)導(dǎo)致實(shí)體識(shí)別錯(cuò)誤。如“CD28 signaling cascade…phospholipase A2 and 5-lipoxygenase”在進(jìn)行表示學(xué)習(xí)時(shí),蛋白質(zhì)實(shí)體“phospholipase A2”的語素為“p hos ph oli pas e a2”,在標(biāo)簽預(yù)測(cè)時(shí)模型容易將“e a2”識(shí)別為疾病實(shí)體“EA2”的語素。

        3)語義梯度消失問題。將未登錄詞拆分為語素后,句長(zhǎng)變?yōu)樵瓉淼膸妆?,在使用神?jīng)網(wǎng)絡(luò)進(jìn)行句子語義學(xué)習(xí)時(shí)容易出現(xiàn)梯度消失問題。生物醫(yī)學(xué)數(shù)據(jù)集中存在大量的未登錄復(fù)合詞,會(huì)使得這一問題更加突出,通過統(tǒng)計(jì)發(fā)現(xiàn),單詞被拆分為語素后長(zhǎng)句子明顯增多,一些句子長(zhǎng)度甚至超過了500。

        針對(duì)以上問題,本文提出一種基于BiLSTMBiaffine 詞義增強(qiáng)的方法。首先經(jīng)過BioBERT 預(yù)訓(xùn)練后將單詞拆分為語素,得到語素的嵌入表示后同一單詞的語素間使用BiLSTM 獲取語素的前向和后向序列信息;然后使用Biaffine 注意力機(jī)制增強(qiáng)其關(guān)聯(lián)信息并融合為單詞表示,將單詞表示作為句子級(jí)BiLSTM 的輸入,使得文本長(zhǎng)度得到控制,有效緩解梯度消失問題;最后以單詞作為最小單位,使用CRF序列化標(biāo)注模型獲得最終預(yù)測(cè)標(biāo)簽,規(guī)避由語素導(dǎo)致的詞內(nèi)部標(biāo)簽不一致和跨單詞標(biāo)簽問題。本文的主要工作有:

        1)針對(duì)預(yù)訓(xùn)練模型對(duì)語素進(jìn)行表示學(xué)習(xí)導(dǎo)致的標(biāo)簽不一致、跨單詞標(biāo)簽和語義梯度消失的問題,本文提出BiLSTM-Biaffine 詞義增強(qiáng)方法,該方法對(duì)語素表示進(jìn)行融合學(xué)習(xí),能更好地學(xué)習(xí)句子中的詞級(jí)語義特征。

        2)設(shè)計(jì)實(shí)現(xiàn)基于BiLSTM-Biaffine 詞義增強(qiáng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型,通過在BC2GM(BioCreative II Gene Mention)、NCBI-Disease、BC5CDRchem 和JNLPBA 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證BiLSTMBiaffine 詞義增強(qiáng)方法的有效性。

        1 相關(guān)工作

        為提升BioNER 的性能,現(xiàn)有相關(guān)研究大致分為3 類:1)通過多種神經(jīng)網(wǎng)絡(luò)的組合得到新的模型;2)融合多種特征信息;3)通過在生物醫(yī)學(xué)語料庫上訓(xùn)練現(xiàn)有預(yù)訓(xùn)練語言模型,得到生物醫(yī)學(xué)領(lǐng)域特定的預(yù)訓(xùn)練語言模型。

        BioNER 任務(wù)通常被建模為一個(gè)序列標(biāo)記問題,且已成功地將CRF[7]、CNN[8]、LSTM[9]等模型應(yīng)用其中。文獻(xiàn)[10]在BioNER 中將CRF 作為基礎(chǔ)的分類方法;文獻(xiàn)[11]提出一種基于深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的BioNER方法;文 獻(xiàn)[12]將RNN 模型應(yīng)用于BioNER,通過使用大型無標(biāo)記語料庫來解決或緩解復(fù)雜的手工設(shè)計(jì)特征問題;文獻(xiàn)[13]提出一種使用BiLSTM 學(xué)習(xí)正字法特征的BioNER 模型;文獻(xiàn)[14]開發(fā)多任務(wù)CNN 模型,并將其應(yīng)用于現(xiàn)有的各種生物醫(yī)學(xué)命名實(shí)體數(shù)據(jù)集中;文獻(xiàn)[15]將BiLSTM-CRF模型用于不相交標(biāo)簽集的BioNER 任務(wù)中;文獻(xiàn)[16]將n-GRAM 與BiLSTM-CRF 模型相結(jié)合,應(yīng)用于BioNER;文獻(xiàn)[17]使用一組BiLSTM-CRF 模型構(gòu)建聯(lián)合模型,以便目標(biāo)模型從其他協(xié)作者模型中獲取信息,從而減少誤報(bào);文獻(xiàn)[18]提出一種多任務(wù)學(xué)習(xí)框架,通過重用相應(yīng)BiLSTM 單元中的參數(shù),來自不同數(shù)據(jù)集的輸入可以有效地共享字符和字級(jí)表示;文獻(xiàn)[19]提出基于BiLSTM-CNN-CRF 交叉共享結(jié)構(gòu)的BioNER 模型;文獻(xiàn)[20]提出DTranNER 模型,將基于CRF 和深度學(xué)習(xí)的標(biāo)簽轉(zhuǎn)換模型結(jié)合到BioNER中。

        為了彌補(bǔ)單純?cè)~嵌入包含信息不足的問題,研究人員進(jìn)行如下探索:文獻(xiàn)[21]證實(shí)了字符級(jí)嵌入的信息對(duì)詞嵌入信息有很好的補(bǔ)充作用;文獻(xiàn)[22]將深度神經(jīng)網(wǎng)絡(luò)、CRF、單詞嵌入和字符級(jí)表征相結(jié)合,進(jìn)行生物醫(yī)學(xué)命名實(shí)體識(shí)別;文獻(xiàn)[23]提出一種基于詞嵌入和字符嵌入的LSTM-RNN-CRF 神經(jīng)網(wǎng)絡(luò)架構(gòu),使用注意力模型將特定領(lǐng)域的預(yù)訓(xùn)練單詞嵌入和通過字符嵌入查找表函數(shù)獲得的每個(gè)字符嵌入相結(jié)合;文獻(xiàn)[24]利用CNN 訓(xùn)練單詞以獲取具有形態(tài)特征的字符級(jí)向量,將其與從背景語料訓(xùn)練中得到的具有語義特征信息的詞向量進(jìn)行合并。此外,也有研究者通過加入其他詞匯信息來提升實(shí)體識(shí)別的性能,如:文獻(xiàn)[25]提出一種改進(jìn)的基于語言信息嵌入的BiLSTM 網(wǎng)絡(luò)架構(gòu),除了預(yù)先訓(xùn)練的單詞嵌入和字符嵌入之外,還包含了縮寫嵌入和詞性嵌入;文獻(xiàn)[26]提出基于CNN 和LSTM 組合特征嵌入的BioNER 方法,通過整合從CNN 和BiLSTM 中提取的2 種不同的字符級(jí)表示來增強(qiáng)模型性能;文獻(xiàn)[27]使用KVMN 將語法信息合并到主干序列標(biāo)記器中以改進(jìn)BioNER;文獻(xiàn)[28]通過BERT 進(jìn)行語義提取以獲得動(dòng)態(tài)詞向量,并加入詞性分析、組塊分析特征提升模型精度;文獻(xiàn)[29]利用CNN 和BiLSTM 提取文本的字符向量,在訓(xùn)練過程中動(dòng)態(tài)計(jì)算文本單詞的2 種字符向量權(quán)重并進(jìn)行拼接,同時(shí)加入詞性信息和組塊分析作為額外特征。

        由于序列模型獲取的信息在很大程度上依賴于詞嵌入中包含的信息,因此近年來越來越多的研究者將序列模型的關(guān)注點(diǎn)轉(zhuǎn)移到預(yù)訓(xùn)練語言模型上。常用的通用領(lǐng)域的預(yù)訓(xùn)練語言模型Word2Vec[30]、GloVe[31]、ELMo[32]和BERT[33]應(yīng)用于生物醫(yī)學(xué)文 本時(shí),會(huì)產(chǎn)生大量的未登錄詞,而且生物醫(yī)學(xué)領(lǐng)域的新生詞匯也在不斷增長(zhǎng),因此,這些模型并不適用于生物醫(yī)學(xué)領(lǐng)域。有研究者在此基礎(chǔ)上提出了專門應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的特定的預(yù)訓(xùn)練語言模型,如:文 獻(xiàn)[1]利 用PubMed 摘要訓(xùn)練ELMo得到BioELMo;文 獻(xiàn)[2]通過在PubMed 摘要上訓(xùn)練BERT 得到KeBioLM;文獻(xiàn)[3-4]通過在臨床筆記MIMIC 上訓(xùn)練BERT 分別得到了ClinicalBERT 和BlueBERT;文獻(xiàn)[5]通過生物醫(yī)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域的論文訓(xùn)練BERT 得到了SciBERT;文獻(xiàn)[6]通過PubMed 摘要和PMC 文章訓(xùn)練得到了BioBERT。

        WordPiece 技術(shù)被廣泛應(yīng)用在上述預(yù)訓(xùn)練語言模型中,有效緩解了缺少未登錄詞表示信息的問題,而現(xiàn)有的BioNER 模型將從預(yù)訓(xùn)練模型獲得的語素嵌入表示后直接輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,或增加額外的特征信息后輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在英文命名實(shí)體識(shí)別上依舊存在訓(xùn)練時(shí)無法充分利用子令牌標(biāo)簽信息和WordPiece 破壞單詞語義信息的問題,在未登錄詞占比較高的生物醫(yī)學(xué)領(lǐng)域,這一問題更加突出。為此,本文提出基于BiLSTM-Biaffine 詞義增強(qiáng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別方法。

        2 BiLSTM-Biaffine 詞義增強(qiáng)模型

        圖1 所示為基于BiLSTM-Biaffine 詞義增強(qiáng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型整體結(jié)構(gòu)。該模型由編碼模塊、特征提取模塊和解碼模塊3 個(gè)部分組成,其中,b、i、j、o和x為張量對(duì)應(yīng)維度的數(shù)值。

        圖1 BiLSTM-Biaffine 詞義增強(qiáng)模型結(jié)構(gòu)Fig.1 BiLSTM-Biaffine word meaning enhancement model structure

        2.1 編碼模塊

        語素是構(gòu)成語言的基本單位,也是最小的語法和語義單位。漢語的語素是漢字,而英語的語素是詞根詞綴。在英語中,不同的單詞可能有相同的詞根或詞綴,更能代表單詞的詞義,例如IL-2 和IL-2R都是DNA 類型實(shí)體,都包含相同的語素“IL”,這有助于識(shí)別實(shí)體的類別,同時(shí)可以使用已知語素表示未知的新生詞匯,有利于獲取未登錄詞的信息。在本文中,使用預(yù)訓(xùn)練版本的BioBERT 模型來獲取文本的語素嵌入表示。

        BioBERT 是基于BERT 模型而提出的,是一種用于生物醫(yī)學(xué)文本挖掘的特定領(lǐng)域BERT,在許多生物醫(yī)學(xué)文本挖掘任務(wù)中性能表現(xiàn)優(yōu)于BERT 和以前的模型,其獲取詞嵌入的過程如圖2 所示。

        在圖2 中:Wi表示句子中的第i個(gè)單詞;Wij表示第i個(gè)單詞的第j個(gè)語素。文本以單詞序列的形式輸入BioBERT,然后根據(jù)BioBERT 詞表將單詞拆分為語素,最后以語素為基本單位進(jìn)行編碼獲得語素嵌入表示。

        2.2 特征提取模塊

        特征提取模塊由單詞級(jí)的BiLSTM(Word-BiLSTM)和句子級(jí)的BiLSTM(Sentence-BiLSTM)構(gòu)成。單詞級(jí)的BiLSTM 用于獲取單詞內(nèi)部語素的序列信息,句子級(jí)的BiLSTM 用于獲取句子的上下文信息。LSTM 的計(jì)算公式如式(1)~式(6)所示:

        其中:σ和tanh()為激活函數(shù);it、ft、ot和ct分別對(duì)應(yīng)t時(shí)刻的輸入門、遺忘門、輸出門和記憶單元;?是點(diǎn)積運(yùn)算;w和b分別代表權(quán)重矩陣和偏置向量,它們的下標(biāo)表示對(duì)應(yīng)的輸入門(i)、遺忘門(f)、輸出門(o)和記憶單元(c);xt指t時(shí)刻輸入語素的特征表示;ht表示t時(shí)刻的隱藏狀態(tài)。

        2.2.1 BiLSTM-Biaffine

        單詞被拆分為語素后,容易產(chǎn)生本文概述中描述的問題并且詞的內(nèi)部信息被割裂,可能會(huì)丟失部分詞義信息,而BiLSTM 能夠捕獲序列信息以及關(guān)聯(lián)信息,因此,本文模型在同一單詞的語素間應(yīng)用BiLSTM,以獲取語素的前向、后向信息,使用Biaffine注意力機(jī)制加強(qiáng)語素間的信息交互,最終將語素表示融合為單詞表示,計(jì)算公式如式(7)~式(9)所示:

        其中:fm表示由LSTM 獲取的第m個(gè)單詞語素的前向信息;bm表示由LSTM 獲取的第m個(gè)單詞語素的后向信息;Um和Wm是與輸入有關(guān)的矩陣;b′m是可選偏置。

        2.2.2 Sentence-BiLSTM

        為了獲取句子級(jí)的上下文信息,本文模型還在句子級(jí)使用BiLSTM,即Sentence-BiLSTM,將由BiLSTM-Biaffine 得到的單詞表示作為Sentence-BiLSTM 的基本單位,能夠有效控制句子長(zhǎng)度,緩解梯度消失問題。Sentence-BiLSTM 為雙向LSTM,前向LSTM 提取每個(gè)單詞表示的上文信息,后向LSTM獲取單詞表示的下文信息。Sentence-BiLSTM在t時(shí)刻的隱藏狀態(tài)由前向和后向隱藏狀態(tài)拼接而成,如式(10)所示:

        2.3 解碼模塊

        NER 任務(wù)的最后一步是標(biāo)簽解碼,它接受上下文相關(guān)的表示作為輸入并生成與輸入序列對(duì)應(yīng)的標(biāo)簽序列?;贑RF 的解碼層能夠?qū)ψ罱K預(yù)測(cè)的標(biāo)簽進(jìn)行約束,彌補(bǔ)BiLSTM 無法處理相鄰標(biāo)簽之間依賴關(guān)系的缺點(diǎn),以確保得到最合理的標(biāo)簽序列。

        將BiLSTM 的輸出作為CRF 的輸入,以單詞為最小單位進(jìn)行標(biāo)簽預(yù)測(cè),規(guī)避了在語素級(jí)別進(jìn)行標(biāo)簽預(yù)測(cè)而產(chǎn)生的詞內(nèi)部標(biāo)簽不一致的問題。給定輸入X,輸出預(yù)測(cè)標(biāo)簽的得分,計(jì)算公式如式(11)所示:

        其中:Ayi,yi+1是矩陣中的元素,表示標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的概率;yi表示y中的元素。在輸入X確定的情況下,y預(yù)測(cè)結(jié)果的概率計(jì)算公式如式(12)所示:

        其中:y|X是所有可能的標(biāo)簽組合;y為真實(shí)標(biāo)簽。模型最終選擇p(y|X)最大的標(biāo)簽序列,這個(gè)選擇的過程通過對(duì)數(shù)似然函數(shù)實(shí)現(xiàn)。訓(xùn)練過程中的似然函數(shù)如式(13)所示:

        最終從所有概率得分中通過式(14)選出概率最高的標(biāo)簽序列:

        其中:Yx表示所有可能的標(biāo)簽序列組合;y*為最終的標(biāo)簽序列。

        3 實(shí)驗(yàn)驗(yàn)證

        3.1 數(shù)據(jù)集

        在BC2GM、NCBI-Disease、BC5CDR-chem和JNLPBA等4 個(gè)BioNER 任務(wù)中常用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證本文方法在生物醫(yī)學(xué)數(shù)據(jù)集上的有效性。BC2GM 數(shù)據(jù)集由生物醫(yī)學(xué)出版物摘要中的20 128 條句子組成,并對(duì)蛋白質(zhì)、基因和相關(guān)實(shí)體的名稱進(jìn)行了注釋。NCBI-Disease 數(shù)據(jù)集由793 篇PubMed 摘要組成,對(duì)疾病提及進(jìn)行了注釋。BC5CDR-chem 是用于BioCreative V 化學(xué)疾病關(guān)系任務(wù)的數(shù)據(jù)集,對(duì)化學(xué)實(shí)體和提及進(jìn)行了手動(dòng)注釋。JNLPBA 數(shù)據(jù)集包含了擴(kuò)展版本的生物實(shí)體識(shí)別數(shù)據(jù)集GENIA 版本3 命名實(shí)體語料庫中的MEDLINE 摘要,包含了“DNA”“RNA”“Protein”“cell_type”和“cell_line”這5 類實(shí)體。各數(shù)據(jù)集的實(shí)體類型及數(shù)量統(tǒng)計(jì)結(jié)果如表1 所示。

        表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics of datasets

        數(shù)據(jù)集采用“B-實(shí)體類型”“I-實(shí)體類型”和“O”標(biāo)簽進(jìn)行標(biāo)記,使用“B-實(shí)體類型”標(biāo)簽標(biāo)注實(shí)體的開始,“I-實(shí)體類型”標(biāo)簽標(biāo)注組成實(shí)體的中間部分,“O”標(biāo)簽標(biāo)注與實(shí)體無關(guān)的信息。

        3.2 評(píng)估標(biāo)準(zhǔn)

        實(shí)驗(yàn)采用精確率(P)、召回率(R)和F1 值(F1)3 種測(cè)評(píng)指標(biāo),具體計(jì)算公式如式(15)~式(17)所示:

        其中:Tp、Fp、Fn分別表示正確識(shí)別的實(shí)體個(gè)數(shù)、錯(cuò)誤識(shí)別的實(shí)體個(gè)數(shù)和識(shí)別出的實(shí)體總數(shù)量。

        3.3 實(shí)驗(yàn)設(shè)置

        本文使用預(yù)訓(xùn)練版本的BioBERT 模型,所有的神經(jīng)網(wǎng)絡(luò)模型都是基于PyTorch 實(shí)現(xiàn)的,優(yōu)化器采用Adam 算法。實(shí)驗(yàn)參數(shù)設(shè)置如表2 所示。

        表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameters setting

        3.4 結(jié)果分析

        為了驗(yàn)證本文模型的有效性,分別在BC2GM、NCBI-Disease、BC5CDR-chem 和JNLPBA 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),將本文模型與近年來BioNER 領(lǐng)域具有代表性的序列標(biāo)注模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3 所示,最優(yōu)結(jié)果加粗標(biāo)注。

        表3 不同模型的對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Comparative experimental results of different models %

        在表3 中:MTM-CW 模型是文獻(xiàn)[18]提出的融合單詞和字符信息的多任務(wù)學(xué)習(xí)模型;文獻(xiàn)[34]提出的MT-BioNER 模型結(jié)合了BioBERT 和多任務(wù)學(xué)習(xí);MTL 是文獻(xiàn)[35]提出的機(jī)器閱讀理解模型。以上模型的實(shí)驗(yàn)結(jié)果均采用了原文獻(xiàn)中的最優(yōu)結(jié)果。

        從表3 可以看出,BiLSTM-Biaffine 相較于對(duì)比模型取得了更優(yōu)的性能,在BC2GM、NCBI-Disease、BC5CDR-chem 和JNLPBA 數(shù)據(jù)集上的F1平均分別提升了2.99、1.84、3.09 和1.03 個(gè)百分點(diǎn),并且在數(shù)據(jù)集BC2GM、NCBI-Disease 和BC5CDR-chem 上的精確率和召回率也都高于對(duì)比模型。這主要是因?yàn)橐韵略颍?/p>

        1)BiLSTM-Biaffine 能夠獲取BioBERT語素的序列信息以及關(guān)聯(lián)信息。對(duì)比模型雖然均使用BioBERT 預(yù)訓(xùn)練模型,但是丟失了語素的序列信息和關(guān)聯(lián)信息,BiLSTM 能夠獲取語素的序列信息,Biaffine 注意力機(jī)制加強(qiáng)了其關(guān)聯(lián)并融合為單詞表示。

        2)BiLSTM-Biaffine 結(jié)構(gòu)能夠有效利用豐富的語素信息增強(qiáng)詞義表示。字符信息相較于語素包含的信息較少,多任務(wù)學(xué)習(xí)和機(jī)器閱讀理解無法針對(duì)性地增強(qiáng)詞義信息,而詞義信息對(duì)于表示信息相對(duì)匱乏的生物醫(yī)學(xué)領(lǐng)域是至關(guān)重要的。

        3)獲取語素的表示信息后將其重新融合為單詞表示,不僅解決了未登錄詞表示信息不足的問題,而且句子長(zhǎng)度得到控制,緩解了梯度消失問題。在單詞級(jí)別進(jìn)行標(biāo)簽預(yù)測(cè),規(guī)避了在語素標(biāo)簽預(yù)測(cè)過程中出現(xiàn)的標(biāo)簽不一致和跨單詞標(biāo)簽問題。

        為了驗(yàn)證Biaffine 注意力機(jī)制的有效性,將其分別與自注意力機(jī)制(Self-Attention)、多頭注意力機(jī)制(Multi-Attention)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 不同注意力機(jī)制的對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experimental results of different attention mechanisms %

        從表4 可以看出,相較于Biaffine 注意力機(jī)制,Self-Attention 和Multi-Attention 并不能有效提升模型的性能。原因如下:雙仿射注意力機(jī)制可以進(jìn)行語素間的信息交互,能夠增強(qiáng)同一單詞語素間的內(nèi)部關(guān)聯(lián)信息;自注意力機(jī)制和多頭注意力機(jī)制主要關(guān)注怎樣從所給輸入中捕獲重要語義特征,在信息量較少的情況下無法發(fā)揮作用。

        以上實(shí)驗(yàn)結(jié)果說明,相較于融合字符信息、多任務(wù)學(xué)習(xí)、機(jī)器閱讀理解等常用的BioNER 方法,BiLSTM-Biaffine 詞義增強(qiáng)方法能夠捕獲更多的詞義信息,使得BioNER 具有更高的準(zhǔn)確性。同時(shí),與自注意力和多頭注意力機(jī)制的對(duì)比實(shí)驗(yàn)結(jié)果也驗(yàn)證了Biaffine 注意力機(jī)制的有效性。

        3.5 消融實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證BiLSTM-Biaffine 方法的有效性,本文設(shè)計(jì)消融實(shí)驗(yàn)。在相同的實(shí)驗(yàn)環(huán)境下,對(duì)比BioBERT(模型1)、BioBERT-BiLSTM-CRF(模型2)和BioBERT-BiLSTM-Biaffine-BiLSTM-CRF(模 型3)在數(shù)據(jù)集BC2GM、NCBI-Disease、BC5CDR-chem 和JNLPBA 上的性能,實(shí)驗(yàn)結(jié)果如表5 所示。

        表5 消融實(shí)驗(yàn)結(jié)果Table 5 Results of ablation experiment %

        從表5 可以看出,在BC2GM、NCBI-Disease、BC5CDR-chem 和JNLPBA 數(shù)據(jù)集上,模型3的F1相較于模型1 平均分別提高 了1.99、3.31、1.92 和1.36 個(gè)百分點(diǎn),相較于模型2 平均分別提高了0.98、0.99、0.55 和1.36 個(gè)百分點(diǎn)。

        對(duì)模型2 與模型3 達(dá)到最優(yōu)性能所需要的訓(xùn)練批次進(jìn)行實(shí)驗(yàn),結(jié)果如圖3 所示。從圖3 可以看出,模型3 在4 個(gè)數(shù)據(jù)集上的訓(xùn)練批次均小于模型2,即模型3 具有更快的收斂速度,同時(shí)也驗(yàn)證了BiLSTM-Biaffine 結(jié)構(gòu)能夠有效緩解梯度消失問題。

        相較于BioBERT 命名實(shí)體識(shí)別模型和BioBERT預(yù)訓(xùn)練與BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的命名實(shí)體識(shí)別模型,本文BioBERT-BiLSTM-Biaffine-BiLSTM-CRF 模型在不使用其他特征信息的情況下取得了更優(yōu)的性能,并且收斂速度更快,驗(yàn)證了基于BiLSTM-Biaffine 詞義增強(qiáng)方法的有效性。

        4 結(jié)束語

        生物醫(yī)學(xué)命名實(shí)體識(shí)別作為生物醫(yī)學(xué)文本信息的基礎(chǔ)任務(wù)之一,對(duì)于醫(yī)療事業(yè)的發(fā)展有著至關(guān)重要的作用。本文從生物醫(yī)學(xué)數(shù)據(jù)的特殊性出發(fā),提出一種BiLSTM-Biaffine 詞義增強(qiáng)方法,以有效利用語素來解決未登錄詞的表示問題,同時(shí)避免由于語素過多導(dǎo)致的文本過長(zhǎng)、標(biāo)簽不一致和跨單詞標(biāo)簽問題。通過BioBERT 預(yù)訓(xùn)練模型獲得語素嵌入表示,使用BiLSTM-Biaffine 方法獲取語素的序列信息以及完整的單詞信息,利用BiLSTM-CRF 模型獲取最終的預(yù)測(cè)標(biāo)簽序列。在BC2GM、NCBI-Disease、BC5CDR-chem 和JNLPBA 等4 個(gè)BioNER 任務(wù)常用基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,BiLSTM-Biaffine詞義增強(qiáng)方法能夠有效提升BioNER 的性能。下一步考慮將BiLSTM-Biaffine 方法應(yīng)用到其他NER 模型中,并探究一種性能更優(yōu)的語素融合方法。

        猜你喜歡
        生物醫(yī)學(xué)語素詞義
        芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
        靈長(zhǎng)類生物醫(yī)學(xué)前沿探索中的倫理思考
        《最低入門等級(jí)音節(jié)、漢字、詞匯表》語素和語素義分析
        多義語素識(shí)別及教學(xué)探討
        ——針對(duì)對(duì)外漢語語素教學(xué)構(gòu)想
        西夏語“頭項(xiàng)”詞義考
        西夏研究(2020年1期)2020-04-01 11:54:26
        語素的判定、分類及語法單位關(guān)系研究述評(píng)
        因果復(fù)合詞
        國外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評(píng)與啟示
        詞義辨別小妙招——看圖辨詞
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        在线观看视频国产一区二区三区| av无码精品一区二区三区四区| 国产精品久久久久久久久免费观看 | 亚洲成av人片一区二区| 国产亚洲欧美在线| 国产精品久久中文字幕亚洲| 黄片小视频免费观看完整版 | 毛茸茸的中国女bbw| www.91久久| 国产美女高潮流白浆视频| 日本爽快片100色毛片| 亚洲国产美女精品久久久久| 欧美—iGAO视频网| 久久中文字幕暴力一区| 日本真人做人试看60分钟 | 免费一级a毛片在线播出| 中文字幕乱码一区在线观看| 亚洲日韩精品无码专区网址| 欧美大香线蕉线伊人久久| 亚洲精品国产福利在线观看| 久久久精品人妻一区二区三区游戏 | 久久精品国产亚洲av日韩精品| 国产成人精品无码片区在线观看 | 最新日本免费一区二区三区| 亚洲av无码乱码国产麻豆| 午夜男女爽爽爽在线视频| 国产亚洲AV天天夜夜无码| 亚洲熟女熟妇另类中文| 国产人妻人伦精品1国产| 亚洲乱码视频在线观看| 国产精品一区二区三区黄片视频| 无码伊人66久久大杳蕉网站谷歌| 色婷婷综合久久久久中文| 亚洲xx视频| 一区二区三区四区草逼福利视频| 亚洲日韩一区二区一无码| 欧美成人精品三级在线观看| 丰满人妻被公侵犯的视频| 国产97在线 | 日韩| 午夜精品久久久| 亚洲综合av一区在线|