亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深層語(yǔ)境詞表示與自注意力的生物醫(yī)學(xué)事件抽取*

        2020-10-10 02:39:50劉茂福胡慧君
        關(guān)鍵詞:生物醫(yī)學(xué)字符語(yǔ)料

        魏 優(yōu),劉茂福,胡慧君

        (1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065; 2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)

        1 引言

        生物醫(yī)學(xué)文獻(xiàn)數(shù)量龐大且增長(zhǎng)迅速,對(duì)現(xiàn)有生物醫(yī)學(xué)文獻(xiàn)的信息抽取而言,理解生物醫(yī)學(xué)事件的上下文更具有重要意義。因而,更多的研究者專(zhuān)注于生物醫(yī)學(xué)事件抽取這項(xiàng)關(guān)鍵且極具挑戰(zhàn)性的任務(wù),其目標(biāo)是識(shí)別某一類(lèi)型事件的觸發(fā)詞和與之相關(guān)的要素。如例1所示,從句子中可以抽取2個(gè)生物醫(yī)學(xué)事件,事件1是1個(gè)Blood vessel development(血管發(fā)育)類(lèi)型的事件,用E1表示,包括事件觸發(fā)詞“angiogenesis”和對(duì)應(yīng)的AtLoc類(lèi)型要素“tumor”;事件2是1個(gè)Regulation(調(diào)控)類(lèi)型事件,用E2表示,包括事件觸發(fā)詞“play a role”,1個(gè)Theme類(lèi)型要素E1,1個(gè)Cause類(lèi)型要素“Mps”。其中事件E2是1個(gè)嵌套事件,參與的Theme要素是事件E1。

        例1句子“Mps also play a role in tumor angiogenesis.”存在事件,其結(jié)構(gòu)化表示:Event E1(Type:Blood vessel development,Trigger:angiogenesis,Theme:tumor);Event E2(Type:Regulation,Theme:E1,Cause:Mps)

        生物醫(yī)學(xué)事件抽取任務(wù)一經(jīng)提出就吸引了大量關(guān)注,先前大部分用于生物醫(yī)學(xué)事件抽取的方法都是基于規(guī)則或基于傳統(tǒng)機(jī)器學(xué)習(xí)的?;谝?guī)則的方法需要人工構(gòu)建規(guī)則,花費(fèi)大量時(shí)間,并且還需要專(zhuān)業(yè)人員的參與;而基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,比如支持向量機(jī)SVM(Support Vector Machine)和條件隨機(jī)場(chǎng)CRF(Conditional Radom Field)等,與基于規(guī)則的方法相比抽取性能更好,但是依賴(lài)大量的復(fù)雜特征,泛化能力很差,并且缺乏詞的語(yǔ)義信息。近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)的興起,基于預(yù)訓(xùn)練詞向量和神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法相繼被提出,詞向量通常可以獲取詞與詞之間的語(yǔ)義信息作為神經(jīng)網(wǎng)絡(luò)模型的輸入,同時(shí)神經(jīng)網(wǎng)絡(luò)模型可以自動(dòng)學(xué)習(xí)一些抽象的特征,使用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行事件抽取取得了更好的效果。雖然現(xiàn)有神經(jīng)網(wǎng)絡(luò)方法表現(xiàn)出一定的優(yōu)勢(shì),但是仍然存在一些問(wèn)題需要解決。(1)根據(jù)不同的上下文,同樣的單詞作為觸發(fā)詞可以表示不同的事件類(lèi)型,比如,例2中句子1和句子2,2個(gè)句子中有相同的單詞“formation”,前者表示Binding類(lèi)型事件,后者表示Development類(lèi)型事件。(2)與例1類(lèi)似的嵌套事件的抽取效果仍然不夠理想,特別是多層嵌套關(guān)系的事件抽取。

        例2

        句子1“VEGF165 mediatesformationof complexes containing VEGFR-2 and neuropilin-1 that enhance VEGF165-receptor binding.”中有事件Binding〈formation〉(Theme:VEGFR-2,Theme:neuropilin-1).

        句子2“In addition,the endostatin vector treatment completely prevented theformationof pulmonary micrometastases in Lewis lung carcinoma (P = 0.0001).”中有事件Development〈formation〉(Theme:pulmonary micrometastases).

        本文使用基于預(yù)訓(xùn)練語(yǔ)言模型的深層語(yǔ)境詞表示來(lái)處理第1個(gè)問(wèn)題,預(yù)訓(xùn)練語(yǔ)言模型可以根據(jù)上下文動(dòng)態(tài)捕獲詞的含義,同一單詞對(duì)應(yīng)不同的上下文就有不同的詞表示,將這樣的動(dòng)態(tài)詞表示作為序列標(biāo)注模型的輸入,與靜態(tài)的預(yù)訓(xùn)練詞向量作為輸入相比可以獲得更好的效果;另外,本文中要素檢測(cè)實(shí)質(zhì)上是識(shí)別觸發(fā)詞-要素候選對(duì)(包括觸發(fā)詞與實(shí)體或觸發(fā)詞與觸發(fā)詞)的關(guān)系類(lèi)型,對(duì)此本文提出基于自注意力的多分類(lèi)模型,使用自注意力機(jī)制,不僅可以關(guān)注句子中對(duì)于候選對(duì)關(guān)系識(shí)別比較重要的部分,還可以捕獲句子中不同的相關(guān)特征,更有助于候選對(duì)關(guān)系識(shí)別。

        2 相關(guān)工作

        隨著生物醫(yī)學(xué)自然語(yǔ)言處理BioNLP(Biomedical Natural Language Processing)的生物醫(yī)學(xué)事件共享任務(wù)BioNLP-ST(BioNLP Shared Task)[1 - 4]的多次舉辦,生物醫(yī)學(xué)事件抽取獲得的關(guān)注度也越來(lái)越高,許多系統(tǒng)和方法也相繼被提出。基于規(guī)則的方法,比如Kilicoglu等[5,6]提出的事件抽取方法ConcordU和Bui等[7]提出的事件抽取方法BioSEM,這些方法準(zhǔn)確率較高,但召回率卻非常低,并且其規(guī)則是針對(duì)特定數(shù)據(jù)集定義的,泛化能力較差。傳統(tǒng)機(jī)器學(xué)習(xí)方法中,SVM是最具代表性的方法,比如圖爾庫(kù)大學(xué)提出的TEES(Turku Event Extraction System)系統(tǒng)[8],將事件抽取分為觸發(fā)詞識(shí)別和要素檢測(cè)2個(gè)子任務(wù),并將2個(gè)子任務(wù)視為多分類(lèi)任務(wù),結(jié)合詞匯信息、語(yǔ)境信息、依存句法信息等構(gòu)成的豐富特征采用SVM作為分類(lèi)器,在歷屆BioNLP-ST共享任務(wù)中都取得了非常好的成績(jī)。Xia等[9]在TEES的基礎(chǔ)上,提出了一種特征累積有效性評(píng)估算法,通過(guò)梯度搜索的方式分析每一種特征對(duì)于整體性能的貢獻(xiàn),找到最優(yōu)的特征組合,進(jìn)一步提升了TEES系統(tǒng)性能。Venugopal等[10]提出一種基于馬爾科夫邏輯網(wǎng)絡(luò)MLN(Markov Logic Networks)的連接模型,采用SVM模型對(duì)高維特征進(jìn)行編碼。Wei等[11]結(jié)合SVM和CRF來(lái)進(jìn)行事件觸發(fā)詞識(shí)別;Zhou等[12]提出了一種基于句子結(jié)構(gòu)和主題分布相似性的半監(jiān)督學(xué)習(xí)方法來(lái)挖掘未注釋語(yǔ)料的知識(shí),輔助生物醫(yī)學(xué)事件抽取任務(wù)的研究。

        近年來(lái)深度學(xué)習(xí)在一些自然語(yǔ)言處理任務(wù)上得到廣泛應(yīng)用,并取得了很好的效果,結(jié)合詞向量的神經(jīng)網(wǎng)絡(luò)模型也被應(yīng)用到生物醫(yī)學(xué)事件抽取任務(wù)中。Nie等[13]提出詞向量輔助神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型進(jìn)行生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別;Li等[14]提出一種在動(dòng)態(tài)擴(kuò)展樹(shù)上的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型用于生物醫(yī)學(xué)事件抽?。籛ang等[15]提出一種基于依存分析的詞向量和深度學(xué)習(xí)模型的觸發(fā)詞識(shí)別方法;Bj?rne等[16]將TEES系統(tǒng)中的SVM用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)替代,進(jìn)一步提升了系統(tǒng)的性能;Rahul等[17]提出基于GRU(Gated Recurrent Unit)的神經(jīng)網(wǎng)絡(luò)模型用于生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別;Li等[18]提出要素注意力模型直接將要素信息用于輔助觸發(fā)詞識(shí)別;Li等[19]提出一種并行多池化卷積神經(jīng)網(wǎng)絡(luò)模型用于生物醫(yī)學(xué)事件抽取,在MLEE(Multi-Level Event Extraction)[20]數(shù)據(jù)集上取得了目前最好的結(jié)果。

        目前,雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)Bi-LSTM(Bidirectional Long Short-Term Memory)結(jié)合CRF的模型在序列標(biāo)注任務(wù)中用得最多,模型效果也較好。Bi-LSTM可以捕獲句子前向和后向有用的上下文信息,而CRF在預(yù)測(cè)當(dāng)前標(biāo)簽時(shí)具有利用句子級(jí)別和相鄰標(biāo)簽信息的優(yōu)勢(shì)。Lample等[21]和Ma等[22]都使用Bi-LSTM-CRF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合字符級(jí)詞表示進(jìn)行命名實(shí)體識(shí)別,所不同的是前者使用Bi-LSTM生成字符級(jí)詞表示,后者使用CNN得到字符級(jí)詞表示?;贐i-LSTM和CRF的神經(jīng)網(wǎng)絡(luò)模型也被廣泛應(yīng)用到生物醫(yī)學(xué)領(lǐng)域的序列標(biāo)注任務(wù)中[23 - 26]。注意力機(jī)制在自然語(yǔ)言處理任務(wù)中的首次應(yīng)用是在機(jī)器翻譯領(lǐng)域,因其出色的表現(xiàn)而后被廣泛地應(yīng)用到各類(lèi)NLP(Natural Language Processing)任務(wù)中,并在各個(gè)任務(wù)中也取得了不錯(cuò)的效果。隨著注意力機(jī)制的深入研究,各種注意力皆被提出,其中,自注意力(Self-attention)因其可以捕獲長(zhǎng)距離依賴(lài)的優(yōu)勢(shì)而成為近期的研究熱點(diǎn),在語(yǔ)義角色標(biāo)注[27]、實(shí)體識(shí)別[28]、關(guān)系抽取[29]等任務(wù)上都有成功應(yīng)用。以往的研究表明,使用word2vec[30]、Glove[31]等獲得的預(yù)訓(xùn)練詞向量可以提升模型的性能,但是預(yù)訓(xùn)練詞向量仍然不能充分利用詞的含義及其上下文信息,因此基于上下文生成詞表示是至關(guān)重要的。Peters等[32]和Radford等[33]提出不同的預(yù)訓(xùn)練語(yǔ)言模型,這些模型可以根據(jù)不同的上下文產(chǎn)生動(dòng)態(tài)的深層語(yǔ)境詞表示,在多項(xiàng)NLP任務(wù)中都表現(xiàn)出強(qiáng)大的性能。

        3 方法

        流水線(xiàn)式的生物醫(yī)學(xué)事件抽取流程包括3步,即事件觸發(fā)詞識(shí)別、事件要素檢測(cè)和后處理生成完整事件,其中最重要的是前2步。本文將觸發(fā)詞識(shí)別看作序列標(biāo)注問(wèn)題,將預(yù)訓(xùn)練詞向量組合基于Bi-LSTM的字符級(jí)詞表示、預(yù)訓(xùn)練詞向量組合基于CNN的字符級(jí)詞表示和基于預(yù)訓(xùn)練語(yǔ)言模型的深層語(yǔ)境詞表示分別輸入到Bi-LSTM-CRF模型進(jìn)行觸發(fā)詞識(shí)別,整體框架如圖1所示。觸發(fā)詞識(shí)別之后,接著進(jìn)行事件要素檢測(cè),本文沿用以前的方法,依舊將要素檢測(cè)看作一個(gè)多分類(lèi)問(wèn)題,提出一個(gè)基于自注意力的多分類(lèi)模型。

        3.1 觸發(fā)詞識(shí)別

        觸發(fā)詞識(shí)別模型整體框架如圖1所示,其中最重要的2部分是詞表示和Bi-LSTM-CRF結(jié)構(gòu)。本文將觸發(fā)詞識(shí)別看作序列標(biāo)注問(wèn)題,使用BIO(Begin Inside Outside)標(biāo)簽對(duì)觸發(fā)詞進(jìn)行標(biāo)注,B-type代表組成觸發(fā)詞的開(kāi)始單詞,I-type代表中間單詞,O代表不是觸發(fā)詞,type代表觸發(fā)詞類(lèi)型。

        Figure 1 Overview of trigger recognition model 圖1 觸發(fā)詞識(shí)別模型整體框架

        3.1.1 字符級(jí)詞表示

        字符級(jí)別的詞表示考慮了單詞在形態(tài)學(xué)方面的信息和知識(shí),比如單詞的前綴和后綴信息。大量研究[21,22,34]表明,將字符級(jí)的詞表示與預(yù)訓(xùn)練詞向量結(jié)合使用可以?xún)?yōu)化序列標(biāo)注任務(wù)的效果。本文參考文獻(xiàn)[34]以2種方式獲取字符級(jí)別的詞表示,一是基于Bi-LSTM的方式,將字符表中的字符進(jìn)行向量隨機(jī)初始化,得到字符向量表,單詞中的每個(gè)字符映射為字符向量后,輸入Bi-LSTM進(jìn)行編碼得到字符級(jí)詞表示;另一種是基于CNN的方式,依然將單詞中的每個(gè)字符映射為字符向量后,然后經(jīng)過(guò)卷積,再經(jīng)過(guò)最大池化得到基于CNN的字符級(jí)詞表示。

        獲得基于Bi-LSTM的字符級(jí)詞表示和基于CNN的字符級(jí)詞表示后,將它們分別與用word2vec訓(xùn)練的基于單詞的預(yù)訓(xùn)練詞向量拼接,得到最終的詞表示,并將其輸入到Bi-LSTM-CRF模型中。

        3.1.2 深層語(yǔ)境詞表示

        近來(lái)BERT(Bidirectional Encoder Representations from Transformers)[35]因在11項(xiàng)NLP任務(wù)中打破記錄而獲得極大的關(guān)注,因此預(yù)訓(xùn)練語(yǔ)言模型被廣泛地運(yùn)用到各類(lèi)NLP任務(wù)中,包括序列標(biāo)注、文本分類(lèi)等,并且效果都得到很大的提升。目前將預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用到下游任務(wù)主要有2種形式,一是基于特征的方式,二是基于微調(diào)的方式。本文采取基于微調(diào)的方式,使用BioBERT(Bidirectional Encoder Representations from Transformers for Biomedical text mining)[36]來(lái)獲取深層語(yǔ)境詞表示,然后將其輸入到Bi-LSTM-CRF模型中。BERT使用大量的通用領(lǐng)域語(yǔ)料比如English Wikipedia、BooksCorpus等進(jìn)行訓(xùn)練,而B(niǎo)ioBERT在此基礎(chǔ)上再使用生物醫(yī)學(xué)領(lǐng)域的語(yǔ)料PubMed(PubMed Abstracts)和PMC(PMC full-text articles)進(jìn)行訓(xùn)練,更有利于生物醫(yī)學(xué)領(lǐng)域自然語(yǔ)言處理。

        與預(yù)訓(xùn)練詞向量不同的是,通過(guò)合并上下文信息,采用預(yù)訓(xùn)練語(yǔ)言模型獲取的深層語(yǔ)境詞表示允許相同的單詞有不同的上下文含義。

        3.1.3 Bi-LSTM-CRF

        LSTM很好地解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中存在的梯度消失和梯度爆炸問(wèn)題,同時(shí)可以更好地對(duì)長(zhǎng)距離依賴(lài)關(guān)系進(jìn)行建模,因而被廣泛應(yīng)用。在LSTM神經(jīng)元中,狀態(tài)的保存與更新由輸入門(mén)、遺忘門(mén)、輸出門(mén)決定,輸入門(mén)控制可以保存到狀態(tài)中的輸入信息,遺忘門(mén)決定歷史狀態(tài)的保留信息,輸出門(mén)控制輸出更新后的狀態(tài)信息。LSTM神經(jīng)元中t時(shí)刻各個(gè)單元的計(jì)算如下所示:

        it=σ(Wiht-1+Uixt+bi)

        (1)

        ft=σ(Wfht-1+Ufxt+bf)

        (2)

        (3)

        (4)

        ot=σ(Woht-1+Uoxt+bo)

        (5)

        ht=ot⊙tanhct

        (6)

        其中,it、ft、ot、ct分別代表t時(shí)刻神經(jīng)元的輸入門(mén)、遺忘門(mén)、輸出門(mén)和細(xì)胞狀態(tài),xt是t時(shí)刻的輸入向量,ht是t時(shí)刻的隱藏狀態(tài)(輸出向量),σ代表sigmoid激活函數(shù),tanh代表tanhyperbolic激活函數(shù),⊙代表元素級(jí)乘法計(jì)算,U和W是權(quán)重矩陣,b是偏置向量。

        在Bi-LSTM-CRF模型中,CRF主要是進(jìn)一步增強(qiáng)前后標(biāo)注的約束。對(duì)于Bi-LSTM的輸出序列h={h1,h2,…,hn},通過(guò)概率模型CRF獲得候選標(biāo)簽序列y={y1,y2,…,yn},CRF原理如公式(7)所示:

        (7)

        L(W,b)=∑ilogp(y|h;W,b)

        (8)

        (9)

        Figure 2 Model overview of argument detection圖2 要素檢測(cè)模型整體框架

        3.2 事件要素檢測(cè)

        模型整體結(jié)構(gòu)如圖2所示,主要包括:(1)輸入,將句子中的每個(gè)詞轉(zhuǎn)換成對(duì)應(yīng)的詞向量作為模型的輸入;(2)自注意力,使用多頭注意力獲取詞與詞之間的相關(guān)特征;(3)Bi-LSTM,順序編碼自注意力層的輸出;(4)實(shí)體注意力,計(jì)算候選觸發(fā)詞-實(shí)體對(duì)或觸發(fā)詞-觸發(fā)詞對(duì),其它單詞與候選對(duì)的相對(duì)距離,實(shí)體類(lèi)型以及事件類(lèi)型的注意力權(quán)重,最終這些特征將作為句子特征用于最后的分類(lèi)。

        3.2.1 自注意力層

        自注意力,也叫內(nèi)部注意力,是注意力機(jī)制的一種特殊情況,它能夠關(guān)注句子本身從而學(xué)習(xí)句子內(nèi)部的詞依賴(lài)關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)。自注意力有許多不同的實(shí)現(xiàn)方式,本文使用的自注意力稱(chēng)之為多頭注意力,主要包括線(xiàn)性變換、縮放點(diǎn)積注意力和拼接。

        多頭注意力的輸入是3個(gè)相同的向量矩陣:查詢(xún)Q(Query)、鍵K(Key)和值V(Value),本文中Q=K=V=X,X={x1,x2,…,xn},xi∈Rdw(dw代表詞向量維度)為輸入句子的詞向量序列。首先對(duì)Q、K和V分別進(jìn)行線(xiàn)性變換,然后進(jìn)行縮放點(diǎn)積注意力(Scaled Dot-Product Attention)計(jì)算,計(jì)算公式如下所示:

        (10)

        其中縮放點(diǎn)積注意力結(jié)合線(xiàn)性變換需要進(jìn)行h次,一次計(jì)算一個(gè)頭,并且是并行計(jì)算的,這樣可以使得模型在不同子空間學(xué)習(xí)相關(guān)信息。多頭注意力計(jì)算如式(11)和式(12)所示:

        Multihead(Q,K,V)=WM[head1;…;headh]

        (11)

        (12)

        3.2.2 Bi-LSTM層

        經(jīng)過(guò)自注意力層獲取句子的豐富信息后, 本文接著使用Bi-LSTM進(jìn)行順序編碼,具體表示如下所示:

        (13)

        (14)

        (15)

        3.2.3 實(shí)體注意力層

        將觸發(fā)詞識(shí)別出來(lái)后,要素檢測(cè)實(shí)際上是判斷句子中觸發(fā)詞-要素候選對(duì)的關(guān)系,這樣的候選對(duì)有2類(lèi):觸發(fā)詞與實(shí)體候選對(duì),觸發(fā)詞與觸發(fā)詞候選對(duì)。因此,候選對(duì)的信息對(duì)于要素檢測(cè)是非常重要的。本文采用實(shí)體注意力來(lái)充分利用候選對(duì)的信息,所采用的特征包括:(1)H={h1,h2,…,hn},是將從自注意力層得到的表示向量M輸入到Bi-LSTM進(jìn)行編碼后得到的隱層輸出;(2)相對(duì)位置特征;(3)事件類(lèi)型特征;(4)候選對(duì)及其類(lèi)型特征。具體的注意力機(jī)制計(jì)算如下所示,其中z∈R2dh就是最終得到的句子特征。

        WE[he1;te1;he2;te2])

        (16)

        (17)

        (18)

        (19)

        (20)

        其中,K是實(shí)體類(lèi)型數(shù)量,ri表示第i個(gè)實(shí)體類(lèi)型向量。

        然后將實(shí)體隱層狀態(tài)he1、he2和對(duì)應(yīng)的類(lèi)型te1、te2連接起來(lái)再通過(guò)矩陣WE∈Rda×(4dh+4dh)進(jìn)行線(xiàn)性變換,最后通過(guò)式(17)和式(18)得到z。其中,v是權(quán)重矩陣。

        3.2.4 分類(lèi)輸出層

        通過(guò)實(shí)體注意力層得到句子特征z后將其送入全連接層,再使用softmax進(jìn)行最后的分類(lèi),則所有要素類(lèi)別的條件概率如式(21)所示,y表示預(yù)測(cè)要素類(lèi)別,S表示輸入句子,θ是模型要學(xué)習(xí)的所有參數(shù),包括Wo∈R|R|×2dh和bo∈R|R|,|R|代表要素類(lèi)別數(shù)量。

        p(y|S,θ)=softmax(Woz+bo)

        (21)

        本文使用交叉熵L作為損失函數(shù),定義如式(22)所示:

        (22)

        其中,|D|代表訓(xùn)練集大小,(S(i),y(i))代表數(shù)據(jù)集S和y中第i個(gè)樣本,本文使用AdaDelta優(yōu)化器來(lái)更新模型參數(shù)θ。為防止過(guò)擬合,本文使用系數(shù)為λ的L2正則化,另外也分別在詞向量層、Bi-LSTM和實(shí)體信息注意力之后加入Dropout(隨機(jī)失活),減少隱藏神經(jīng)元的聯(lián)合適應(yīng)性。

        The general form of surface potential ψsλ(y) in GSGCDMT-SON MOSFET can be obtained by solving the second order differential equation given in Eq. (11). Its solution is given as

        4 實(shí)驗(yàn)

        4.1 數(shù)據(jù)集及評(píng)估標(biāo)準(zhǔn)

        本文以MLEE語(yǔ)料集為基礎(chǔ)進(jìn)行實(shí)驗(yàn),與BioNLP-ST共享任務(wù)語(yǔ)料集,只針對(duì)分子水平的事件抽取相比,MLEE語(yǔ)料集旨在抽取更廣泛的病理學(xué)過(guò)程中不同層級(jí)上的生物機(jī)制,包括分子、細(xì)胞、器官甚至整個(gè)生物機(jī)體。按照BioNLP-ST共享任務(wù)的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn),有針對(duì)性地定義了16種實(shí)體與19種事件結(jié)構(gòu)類(lèi)型,從而進(jìn)行生物醫(yī)學(xué)事件抽取。MLEE語(yǔ)料集的19種生物事件類(lèi)型分為4個(gè)大類(lèi)別,分別為“Anatomical”“Planned”“Molecular”和“General”,描述了解剖、病理、分子和通用等生物過(guò)程以及治療方面的處理過(guò)程。在各個(gè)大類(lèi)下,設(shè)有一系列的精確事件類(lèi)型,如血管發(fā)育(Blood vessel development)、死亡(Death)、去磷酸化(Dephosphorylation)等,每種事件涉及指定的實(shí)體類(lèi)型。表1給出了MLEE語(yǔ)料中的19類(lèi)生物醫(yī)學(xué)事件的定義。本文將會(huì)對(duì)表1中定義的主要事件類(lèi)型進(jìn)行抽取,其中“Blood vessel development”事件類(lèi)型可以沒(méi)有參與要素,“Regulation”“Positive regulation”“Negative regulation”和“Planned process”事件類(lèi)型的要素可以是另一事件,這4類(lèi)事件為可嵌套事件。

        MLEE數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其統(tǒng)計(jì)信息如表2所示,從中可以看出數(shù)據(jù)集中標(biāo)注了大量的實(shí)體和事件信息,為事件抽取模型提供了足夠的訓(xùn)練樣本。

        在本文實(shí)驗(yàn)中,模型先使用訓(xùn)練集進(jìn)行訓(xùn)練,驗(yàn)證集調(diào)整模型參數(shù),然后訓(xùn)練集和驗(yàn)證集合并訓(xùn)練得到最后的模型。另外,實(shí)體由官方給出,無(wú)需進(jìn)行實(shí)體識(shí)別。本文使用精確率P(Precision)、召回率R(Recall)、F1值(F1-Score)作為評(píng)價(jià)指標(biāo)。

        4.2 實(shí)驗(yàn)結(jié)果分析

        4.2.1 觸發(fā)詞識(shí)別結(jié)果

        將預(yù)訓(xùn)練詞向量組合字符級(jí)詞表示,和基于預(yù)訓(xùn)練語(yǔ)言模型的深層語(yǔ)境詞表示分別作為序列標(biāo)注模型Bi-LSTM-CRF的輸入,得到觸發(fā)詞識(shí)別結(jié)果,如表3所示。

        Table 1 Definition of primary events表1 主要事件的定義

        Table 2 Statistical information of MLEE表2 MLEE數(shù)據(jù)集統(tǒng)計(jì)信息

        Table 3 Experimental results of trigger recognition with different word representation表3 基于不同詞表示的觸發(fā)詞識(shí)別結(jié)果 %

        (1)Bi-LSTM-CRF+CNN-Char:字符級(jí)詞表示通過(guò)CNN得到,并與預(yù)訓(xùn)練詞向量結(jié)合作為Bi-LSTM-CRF模型的輸入;

        (2)Bi-LSTM-CRF+LSTM-Char:字符級(jí)詞表示通過(guò)Bi-LSTM得到,并與預(yù)訓(xùn)練詞向量結(jié)合作為Bi-LSTM-CRF模型的輸入;

        (3)Bi-LSTM-CRF+BioBERT:深層語(yǔ)境詞表示通過(guò)預(yù)訓(xùn)練語(yǔ)言模型BioBERT得到,作為Bi-LSTM-CRF模型的輸入;

        (4)CG[37]是一個(gè)與MLEE類(lèi)似的數(shù)據(jù)集,“+CG”表示在原有模型基礎(chǔ)上訓(xùn)練集加入CG語(yǔ)料。

        由表3可知,Bi-LSTM-CRF+LSTM-Char的F1值比Bi-LSTM-CRF+CNN-Char的高0.54%,說(shuō)明基于LSTM的字符級(jí)詞表示比基于CNN的字符級(jí)詞表示可以更好地學(xué)習(xí)到單詞的形態(tài)學(xué)信息,而在本文中CNN只考慮單詞的三元距離,并且是與位置無(wú)關(guān)的,意味著不能區(qū)分三元組字符在單詞中的位置;LSTM考慮單詞中的所有字符,并且是與位置有關(guān)的,意味著可以區(qū)分單詞開(kāi)頭和結(jié)尾的字符。對(duì)于觸發(fā)詞識(shí)別來(lái)說(shuō),位置依賴(lài)是很重要的信息,與CNN相比,在字符與單詞的關(guān)系建模方面,LSTM更有優(yōu)勢(shì)。Bi-LSTM-CRF+BioBERT的F1值比Bi-LSTM-CRF+LSTM-Char的F1值高2.86%,并且精確率和召回率都有明顯提升,證明了深層語(yǔ)境詞表示比組合字符級(jí)詞表示的預(yù)訓(xùn)練詞向量更加有效。另外,由表3可知,模型在加入CG語(yǔ)料擴(kuò)充訓(xùn)練集之后與加入之前比,整體F1值提高了0.5%,說(shuō)明加入語(yǔ)料有利于模型效果提升;而從召回率和精確率來(lái)看,召回率有提升而精確率有所下降。其原因可能是擴(kuò)充的語(yǔ)料可以讓模型學(xué)到一些有利特征作為補(bǔ)充,模型能夠預(yù)測(cè)出更多正確的觸發(fā)詞,因而召回率上升;但與此同時(shí)也加入了一些噪聲,比如單詞“sensitizing”在CG語(yǔ)料中被標(biāo)注為觸發(fā)詞,但在MLEE語(yǔ)料中卻未被標(biāo)注為觸發(fā)詞,另外有些單詞或短語(yǔ)分別在訓(xùn)練集和測(cè)試集可以作為不同類(lèi)型事件的觸發(fā)詞,并且有的單詞或短語(yǔ)比如“play a role”可以是觸發(fā)詞也可以不是,加入CG語(yǔ)料也使得這類(lèi)單詞或短語(yǔ)有所增加,模型將原來(lái)不作為觸發(fā)詞的單詞預(yù)測(cè)為觸發(fā)詞或者將觸發(fā)詞類(lèi)型判斷錯(cuò)誤,從而使得精確率下降。

        表4列出了已有方法的結(jié)果,前3種模型結(jié)合大量人工或工具獲得的特征,采用SVM模型進(jìn)行觸發(fā)詞識(shí)別。4~8種模型基于詞向量采用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行觸發(fā)詞識(shí)別。其中Li等[19]基于依存關(guān)系的詞向量使用并行多池化卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行觸發(fā)詞識(shí)別,取得了當(dāng)前最好的性能,F(xiàn)1值為80.27%,而本文基于深層語(yǔ)境詞表示的Bi-LSTM-CRF即Bi-LSTM-CRF+ BioBERT模型,比其高0.88%,加入CG后即Bi-LSTM-CRF+BioBERT+CG模型的F1值比其高1.38%,這說(shuō)明了本文模型的有效性。與Li等模型相比,本文模型的優(yōu)越性在于召回率的提高,而精確率略低于Li等模型。根據(jù)分析,由于生物醫(yī)學(xué)事件結(jié)構(gòu)復(fù)雜,依存分析對(duì)句子中事件觸發(fā)詞識(shí)別的精確率具有較好的正向作用,Li等模型采用了詞語(yǔ)間的句法關(guān)系來(lái)訓(xùn)練依存上下文信息,從而得到依存詞向量。

        Table 4 Trigger recognition performances of different models表4 不同模型的觸發(fā)詞識(shí)別性能 %

        4.2.2 事件抽取結(jié)果

        在完成要素檢測(cè)后,得到了觸發(fā)詞與實(shí)體或觸發(fā)詞與觸發(fā)詞的關(guān)系類(lèi)型,再經(jīng)過(guò)后處理生成符合任務(wù)定義的完整事件,最終的事件抽取結(jié)果如表5所示。

        Table 5 Event extraction performances of different models表5 不同模型的事件抽取性能 %

        Pyysalo等[20]使用SVM進(jìn)行事件抽??;Zhou等[12]使用一個(gè)基于隱藏主題的半監(jiān)督學(xué)習(xí)框架進(jìn)行事件抽?。籛ang等[40]使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合句法詞向量以及額外的語(yǔ)義特征包括主題特征、詞性特征等進(jìn)行事件抽?。籐i等[19]使用并行多池化卷積神經(jīng)網(wǎng)絡(luò)結(jié)合基于依存關(guān)系的詞向量進(jìn)行事件抽取。

        從表5可知,本文提出的模型取得的整體事件抽取性能F1值為60.04%,比Pyysalo等[20]模型高4.81%,比Zhou等[12]模型高2.63%,比Wang等[40]模型高1.73%,比目前最好結(jié)果Li等[19]模型高0.39%,說(shuō)明本文提出的模型對(duì)于生物醫(yī)學(xué)事件抽取是有效的。從召回率上來(lái)看,本文模型低于Zhou等[12]模型的,Zhou等提出一個(gè)半監(jiān)督學(xué)習(xí)框架,基于句子結(jié)構(gòu)和隱藏主題計(jì)算未標(biāo)注數(shù)據(jù)和標(biāo)注數(shù)據(jù)的語(yǔ)義距離,從而對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行事件標(biāo)注,然后將新標(biāo)注的數(shù)據(jù)與原MLEE語(yǔ)料訓(xùn)練集一起用于模型訓(xùn)練,最終使得召回率有很大的提升。與Zhou等模型相比,本文模型加入一個(gè)與MLEE類(lèi)似的語(yǔ)料,但是Zhou等模型新標(biāo)注了5 143個(gè)句子,而本文加入的CG語(yǔ)料是1 803個(gè)句子,訓(xùn)練數(shù)據(jù)小可能導(dǎo)致召回率偏低,另外后處理生成事件方式的不同也可能是本文模型召回率偏低原因之一。從精確率來(lái)看,本文模型低于Li等[19]模型的,一方面,由于串行方式進(jìn)行事件抽取的錯(cuò)誤傳播性,第1階段觸發(fā)詞識(shí)別是關(guān)鍵,本文模型觸發(fā)詞識(shí)別精確率低于Li等[19]模型的,觸發(fā)詞識(shí)別錯(cuò)誤會(huì)造成第2階段要素識(shí)別的精確率降低,從而影響生成事件的精確率;另一方面,不同的后處理生成事件方式也可能導(dǎo)致本文精確率偏低。

        從表6可以看出,本文模型在“Regulation”“Positive regulation”“Negative regulation”和“Planned process”4類(lèi)事件類(lèi)型上的抽取結(jié)果要好于Li等[19]模型的,而這4類(lèi)事件是可嵌套的復(fù)雜事件,說(shuō)明了本文提出的自注意力對(duì)于從不同方面捕獲更深層語(yǔ)義關(guān)系和特征的有效性。

        5 結(jié)束語(yǔ)

        本文采用基于不同詞表示的Bi-LSTM-CRF觸發(fā)詞識(shí)別模型和結(jié)合自注意力與Bi-LSTM的要素檢測(cè)模型,在生物醫(yī)學(xué)事件抽取上取得的結(jié)果和目前最好模型的結(jié)果相當(dāng),這說(shuō)明了本文提出的模型對(duì)于生物醫(yī)學(xué)事件抽取的有效性。同時(shí),本文還對(duì)比了結(jié)合字符級(jí)詞表示的預(yù)訓(xùn)練詞向量和基于預(yù)訓(xùn)練語(yǔ)言模型的深層語(yǔ)境詞表示對(duì)于觸發(fā)詞識(shí)別的影響,實(shí)驗(yàn)表明,深層語(yǔ)境詞表示更有助于觸發(fā)詞識(shí)別。

        然而,本文采用的事件抽取方式依然是流水線(xiàn)模式,先進(jìn)行觸發(fā)詞識(shí)別再進(jìn)行要素檢測(cè),而此類(lèi)方式存在錯(cuò)誤傳播,即觸發(fā)詞識(shí)別錯(cuò)誤會(huì)導(dǎo)致要素檢測(cè)也是錯(cuò)誤的,同時(shí)也忽略了這2個(gè)任務(wù)之間的聯(lián)系,所以可以考慮聯(lián)合模型同時(shí)進(jìn)行觸發(fā)詞和要素的識(shí)別。另外,MLEE數(shù)據(jù)集不均衡,有些類(lèi)別的事件數(shù)量很少,這個(gè)問(wèn)題也亟待解決。還可以考慮不同預(yù)訓(xùn)練語(yǔ)言模型生成的深層語(yǔ)境詞表示以及預(yù)訓(xùn)練詞向量與深層語(yǔ)境詞表示結(jié)合使用對(duì)于模型效果的影響。

        Table 6 Comparison of detailed event extraction results with the current state-of-the-art models表6 與當(dāng)前最好模型的詳細(xì)事件抽取結(jié)果對(duì)比 %

        猜你喜歡
        生物醫(yī)學(xué)字符語(yǔ)料
        芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
        尋找更強(qiáng)的字符映射管理器
        靈長(zhǎng)類(lèi)生物醫(yī)學(xué)前沿探索中的倫理思考
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        國(guó)外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評(píng)與啟示
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        鲁丝一区鲁丝二区鲁丝三区| 性裸交a片一区二区三区| 色老头在线一区二区三区| 国内精品一区二区2021在线| 国产精品一区二区黄色片| 国产av自拍视频在线观看| 精品少妇爆乳无码av无码专区| 亚洲v日本v欧美v综合v| 韩国美女主播国产三级| 国产天堂av在线一二三四| 国产高清av首播原创麻豆| 国产欧美精品一区二区三区–老狼| 日本红怡院东京热加勒比| 偷拍夫妻视频一区二区| 无码不卡av东京热毛片| 久久精品国产热| 在线观看播放免费视频| 亚洲av午夜成人片精品电影 | 亚洲国产精品高清一区| 久久久久女人精品毛片| 91爱爱视频| 亚洲中文字幕精品久久久| 亚洲国产日韩在线精品频道| 有码视频一区二区三区| 最近中文字幕国语免费| 中文字幕亚洲乱码熟女一区二区| 亚洲熟伦在线视频| 日本一区二区三区亚洲| 国产麻传媒精品国产av| 国产极品美女高潮抽搐免费网站 | av在线高清观看亚洲| 色噜噜狠狠综曰曰曰| 一区二区三区日韩亚洲中文视频| 亚洲天堂一区二区精品| 久久久精品国产免大香伊| 亚洲va中文字幕无码久久不卡| 欧美人与动牲交片免费播放| 国产免费观看久久黄av麻豆| 中文字幕日韩一区二区不卡| 国产97色在线 | 免| 九九久久精品一区二区三区av |