冀相冰 朱艷輝 詹 飛 梁文桐 張 旭
(湖南工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 湖南 株洲 412008)
(智能信息感知及處理技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室 湖南 株洲 412008)
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)輿情事件呈爆炸式增長(zhǎng),使得人工提取信息的方法變得困難。過去幾年,自然語言處理(Natural Language Processing,NLP)研究人員著重關(guān)注復(fù)雜的信息抽取任務(wù),例如事件抽取。事件抽取旨在從網(wǎng)絡(luò)文本中檢測(cè)能標(biāo)識(shí)事件的觸發(fā)詞、事件類型、事件元素和元素角色等。其中:事件觸發(fā)詞指可以清晰表明事件發(fā)生的核心詞匯;事件類型指事件所屬的類別;事件元素指事件的參與者或?qū)嶓w描述;元素角色指事件元素在事件中所充當(dāng)?shù)慕巧?,如主體、參與者和受害者等。事件抽取是構(gòu)建知識(shí)圖譜、實(shí)現(xiàn)智能問答和輿情監(jiān)控的基礎(chǔ)工作。事件主體是指事件發(fā)生的實(shí)施者,如公司、機(jī)構(gòu)或者個(gè)人等,主體抽取屬于事件元素角色識(shí)別任務(wù),即已知一段文本和文本所屬的事件類型,從文本中抽取指定事件類型的事件主體,同一文本中可能存在多個(gè)事件和事件主體。命名實(shí)體識(shí)別的主要工作是從一段文本語料中識(shí)別出組織機(jī)構(gòu)名、地名和人名等各種類型的實(shí)體。命名實(shí)體識(shí)別屬于事件主體抽取的子任務(wù),事件主體抽取在獲取句子中所有命名實(shí)體之后,進(jìn)一步通過已知事件類型尋找事件觸發(fā)詞,然后根據(jù)各個(gè)命名實(shí)體與事件觸發(fā)詞的依賴關(guān)系,識(shí)別與指定事件類型密切相關(guān)的命名實(shí)體作為事件主體。如圖1所示的句子中,觸發(fā)詞為“短線交易”,其事件類型為“交易違規(guī)”,事件主體為“萬東醫(yī)療”,“吳光明”為事件主體實(shí)控人,“上交所”為監(jiān)管機(jī)構(gòu)。
圖1 事件示例
對(duì)于事件抽取相關(guān)任務(wù),大多數(shù)方法將此問題視為分類任務(wù),基于特征的方法依賴各種判別特征構(gòu)建統(tǒng)計(jì)模型,如句法特征、詞法特征和外部知識(shí)等。Huang等[1]利用順序結(jié)構(gòu)化的句子分類器識(shí)別與事件相關(guān)的上下文信息,實(shí)現(xiàn)了當(dāng)時(shí)最高的性能。Liu等[2]提出利用概率軟邏輯模型的形式編碼事件關(guān)聯(lián)之類的全局信息和細(xì)粒度實(shí)體類型等本地信息進(jìn)行事件分類。Judea等[3]使用假設(shè)的特征把文檔級(jí)的上下文信息放入決策系統(tǒng),對(duì)實(shí)體、事件和關(guān)系進(jìn)行預(yù)測(cè)。Li等[4]在傳統(tǒng)特征上添加抽象意義表示(AMR)特征捕獲觸發(fā)詞的深層語義信息。雖然統(tǒng)計(jì)學(xué)習(xí)方法可以利用常用特征并取得良好的結(jié)果,但是無法捕捉隱含特征信息并且需要大量的人工特征。
深度學(xué)習(xí)方法可以自動(dòng)抽取較復(fù)雜的隱藏特征而且避免了人工定義模版特征,已經(jīng)被廣泛應(yīng)用于事件抽取相關(guān)任務(wù)中。Liu等[5]通過監(jiān)督注意機(jī)制進(jìn)行事件識(shí)別任務(wù),在ACE 2005數(shù)據(jù)集上取得較好效果。Zeng等[6]使用遠(yuǎn)程監(jiān)督方法生成大量高質(zhì)量訓(xùn)練數(shù)據(jù)進(jìn)行事件抽取。Sha等[7]提出在RNN(Recurrent Neural Networks)中應(yīng)用依賴橋構(gòu)建模型,提取效果優(yōu)于順序RNN。Zhang等[8]提出雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)對(duì)句子建模進(jìn)行關(guān)系分類,獲得了相關(guān)單詞的完整連續(xù)信息。Feng等[9]采用獨(dú)立于語言的模型獲取序列和塊信息,進(jìn)行中文和西班牙文事件檢測(cè)。Zhou等[10]利用一種基于注意力(Attention)的模型學(xué)習(xí)分布式語義。Hong等[11]采用BiGRU網(wǎng)絡(luò)與注意力機(jī)制結(jié)合,關(guān)注更有意義的關(guān)鍵詞編碼更長(zhǎng)的序列。Rao等[12]利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)從抽象意義表示(AMR)中抽取生物醫(yī)學(xué)文本事件。Peters等[13]提出一種新的Word Embedding方法ELMo(Embeddings from Language Models),處理多義詞在上下文中的動(dòng)態(tài)變化。Huang等[14]利用可轉(zhuǎn)換架構(gòu)和組合神經(jīng)網(wǎng)絡(luò)應(yīng)用于新的事件類型檢測(cè)。
傳統(tǒng)抽取方法主要使用句子級(jí)信息,未能考慮候選詞的文檔級(jí)語義信息。通常在一個(gè)句子中可能存在多個(gè)事件的部分信息,僅以句子級(jí)信息進(jìn)行事件主體抽取不能完全考慮每個(gè)事件的全部特征,很容易忽略事件的模糊性問題,限制了抽取系統(tǒng)的性能。
為了解決上述問題,本文提出一種基于門控多層次注意機(jī)制的ELMo-BiGRU神經(jīng)網(wǎng)絡(luò)模型用于事件主體抽取。首先把真實(shí)新聞?wù)Z料輸入ELMo預(yù)訓(xùn)練模型生成動(dòng)態(tài)詞向量;然后用Stanford CoreNLP解析新聞文本獲取命名實(shí)體特征和詞性特征;其次將動(dòng)態(tài)詞向量、命名實(shí)體(NE)向量、詞性(POS)向量和距離向量拼接表示為聯(lián)合輸入向量;接著把聯(lián)合向量輸入BiGRU深度學(xué)習(xí)網(wǎng)絡(luò)捕獲時(shí)間序列中時(shí)間步距離較大的依賴關(guān)系;之后利用門控多層次注意力層自動(dòng)提取文本中每個(gè)候選事件主體的句子級(jí)信息和文檔級(jí)信息,并通過融合層動(dòng)態(tài)整合上下文信息;最后輸出層通過SoftMax分類器預(yù)測(cè)最優(yōu)事件主體標(biāo)簽。
本文使用基于門控多層次注意機(jī)制的BiGRU深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行事件主體抽取,圖2描述了抽取模型的體系結(jié)構(gòu),主要包括輸入層、詞嵌入層、BiGRU層、門控多層次注意機(jī)制層和輸出層五個(gè)部分。
圖2 事件主體抽取框架
對(duì)于存在嵌套關(guān)系的事件主體抽取算法如下:
Step1利用ELMo預(yù)訓(xùn)練模型訓(xùn)練獲取句子中每個(gè)候選事件主體的動(dòng)態(tài)詞向量信息,ELMo模型根據(jù)同一事件主體上下文語境的不同,實(shí)時(shí)動(dòng)態(tài)獲取不同的Embedding表示,解決部分存在嵌套關(guān)系的事件主體帶來的歧義問題。
Step2使用Stanford CoreNLP工具解析出新聞?wù)Z料中的命名實(shí)體和詞性信息,通過命名實(shí)體識(shí)別特征和詞性特征捕獲存在嵌套關(guān)系的事件主體之間的深層依賴關(guān)系。
Step3采用距離嵌入增強(qiáng)網(wǎng)絡(luò)模型獲取候選事件主體的距離嵌入信息,通過計(jì)算候選觸發(fā)詞與候選事件主體之間的相對(duì)距離,進(jìn)一步獲取存在嵌套關(guān)系的事件主體的維度向量信息,根據(jù)就近原則,一般靠近事件觸發(fā)詞的候選事件主體的優(yōu)先級(jí)較高。
Step4將Step 1-Step 3獲取的ELMo動(dòng)態(tài)詞向量、命名實(shí)體特征、詞性特征和距離向量特征聯(lián)合傳入下一層BiGRU層進(jìn)行訓(xùn)練,BiGRU通過兩個(gè)單獨(dú)的GRU隱藏序列模擬句子中候選事件主體的語義表達(dá)和上下文語境信息。
Step5將Step 4輸出的向量輸入門控多層次注意機(jī)制層分別獲取句子級(jí)的信息和文檔級(jí)的信息,然后通過融合門動(dòng)態(tài)融合存在嵌套關(guān)系的事件主體的句子級(jí)信息和文檔級(jí)信息,進(jìn)一步獲得其綜合上下文信息。以上門控多層次注意機(jī)制可以對(duì)存在嵌套關(guān)系的事件主體分別賦予不同的注意力權(quán)重,方便對(duì)最優(yōu)事件主體的判斷識(shí)別。
Step6把Step 5輸出的聯(lián)合特征表示輸入Softmax層,抽取存在嵌套關(guān)系的事件的最優(yōu)事件主體。
Word Embedding層使用ELMo向量、距離向量、命名實(shí)體特征與詞性特征聯(lián)合表示。
ELMo與傳統(tǒng)詞向量模型Word2vec、Glove等不同,是一種在詞嵌入中表示詞匯的新方法。通過ELMo訓(xùn)練新聞?wù)Z料庫獲得的是隨著上下文的語境而改變的動(dòng)態(tài)詞向量,能夠處理復(fù)雜的語義和句法特征并在不同上下文語境下學(xué)習(xí)的詞匯多義性,計(jì)算式表示如下:
(1)
圖3 ELMo預(yù)訓(xùn)練
使用Stanford CoreNLP解析新聞文本語料獲取命名實(shí)體(NE)特征和每個(gè)命名實(shí)體的詞性(POS)特征,其可以提供對(duì)新聞文本結(jié)構(gòu)的細(xì)粒度解析,使得嵌入的語義特征更加豐富。
根據(jù)新聞?wù)Z料分析,發(fā)現(xiàn)若兩個(gè)命名實(shí)體之間的距離較短,則很可能構(gòu)成事件,因此,引入距離嵌入增強(qiáng)網(wǎng)絡(luò)模型[15]。例如在句子“萬東醫(yī)療實(shí)控人吳光明因短線交易被上交所處分”中,距離嵌入向量根據(jù)候選觸發(fā)詞與目標(biāo)詞“萬東醫(yī)療”和“上交所”的相對(duì)距離計(jì)算,“吳光明”與“萬東醫(yī)療”和“上交所”的相對(duì)距離分別是“-2”和“4”,所有相對(duì)距離都被映射為固定維度向量d(l),計(jì)算式表示為:
d(l)=tanh(l/s)
(2)
式中:l為相對(duì)距離;s為句子中兩實(shí)體相對(duì)距離的最大值。若候選觸發(fā)詞到目標(biāo)詞“萬東醫(yī)療”和“上交所”的向量分別為d1和d2,則候選觸發(fā)詞的距離嵌入dt為d1和d2的串聯(lián)之和。
將獲取到的ELMo動(dòng)態(tài)詞向量、命名實(shí)體特征、詞性特征和距離向量拼接成聯(lián)合嵌入向量,然后把聯(lián)合向量輸入BiGRU深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練更新操作。
門控循環(huán)單元(GRU)被視為長(zhǎng)短期記憶(LSTM)的變體網(wǎng)絡(luò),GRU保持了LSTM的效果同時(shí)又使結(jié)構(gòu)更加簡(jiǎn)單,旨在解決標(biāo)準(zhǔn)RNN中出現(xiàn)的梯度消失問題。GRU根據(jù)輸入到單元的信號(hào)自適應(yīng)地記住并忘記其狀態(tài)[16],模擬新聞文本中每個(gè)字詞的語義表示及其上下文信息。首先在時(shí)間狀態(tài)t,GRU單元利用重置機(jī)制考慮當(dāng)前輸入和狀態(tài),之后不需要再被監(jiān)測(cè)到的特征就會(huì)被忘記,計(jì)算式表示為:
rj=σ([wrx]j+[urh〈t-1〉)]j)
(3)
(4)
更新門zj計(jì)算式如下:
zj=σ([wzx]j+[uzh〈t-1〉]j)
(5)
最后,通過更新機(jī)制獲取最新的內(nèi)存狀態(tài),計(jì)算式如下:
(6)
上面介紹的是單向GRU的計(jì)算過程,只能處理之前的文本信息,不能處理后面的信息。而BiGRU可以很好地解決這個(gè)問題,雙向GRU可以通過兩個(gè)單獨(dú)的隱藏層在前后兩個(gè)方向處理數(shù)據(jù)。前向GRU和后向GRU的最后隱藏狀態(tài)產(chǎn)生的輸出向量[h1,h2,…,hn]可由矩陣D表示,其中n表示句子長(zhǎng)度,D∈Rdw×n。在時(shí)間t狀態(tài)下的BiGRU網(wǎng)絡(luò)輸出公式如式(7)所示,其中f和b分別表示前向和后向。
(7)
根據(jù)對(duì)新聞?wù)Z料的分析,每個(gè)句子不同的字詞對(duì)整體語義表達(dá)具有不同的作用,采用門控多層次注意機(jī)制能夠捕獲影響輸出序列的重要信息。門控多層次注意機(jī)制包括句子級(jí)注意層、文檔級(jí)注意層和融合門層[17]。句子級(jí)注意力機(jī)制通過關(guān)注每個(gè)詞wt的語義能夠捕獲當(dāng)前詞的句子級(jí)信息,計(jì)算每個(gè)候選事件主體句子級(jí)語義信息sht的表達(dá)式如下:
(8)
文檔級(jí)注意機(jī)制主要通過當(dāng)前關(guān)注的句子獲取重要的文檔級(jí)別信息,句子中所有字詞均具有相同的文檔級(jí)信息,每條新聞文本中第i個(gè)句子的文檔級(jí)語義信息dhi的計(jì)算式為:
(9)
利用融合門動(dòng)態(tài)整合新聞文本中每個(gè)候選事件主體wt的句子級(jí)信息sht和文檔級(jí)信息dhi,然后計(jì)算獲取其上下文信息crt,計(jì)算式如下:
crt=(Gt⊙sht)+((1-Gt)⊙dhi)
Gt=σ(wg[sht,dhi]+bg)
(10)
式中:σ為sigmoid函數(shù);wg為權(quán)重矩陣;bg為偏差;融合門Gt表達(dá)了句子級(jí)信息sht和文檔級(jí)信息dhi所提供信息的置信度。
最后將候選事件主體wt的聯(lián)合詞嵌入信息和上下文信息crt合為單個(gè)向量xrt=[et,crt]作為聯(lián)合特征表示,輸入下一層softmax分類器,得到最優(yōu)事件主體標(biāo)簽的條件概率p(i|xrt,θ)和負(fù)對(duì)數(shù)似然損失函數(shù)J(θ)[5],計(jì)算式如下:
(11)
式中:oi表示在參數(shù)為θ時(shí),對(duì)于每個(gè)訓(xùn)練實(shí)例(xi,yi),將單詞wt標(biāo)記為第i個(gè)標(biāo)簽的置信度得分;Nt為標(biāo)簽總數(shù)量;Nw為訓(xùn)練句子中詞的總數(shù)量。其中,訓(xùn)練優(yōu)化模型的方法采用隨機(jī)梯度下降法。
2.1.1數(shù)據(jù)和評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用CCKS2019(全國(guó)知識(shí)圖譜與語義計(jì)算大會(huì))任務(wù)四提供的語料,數(shù)據(jù)均來自金融領(lǐng)域的真實(shí)新聞文本并且經(jīng)過會(huì)議工作人員人工標(biāo)注篩選,總量為21 000條。采用交叉驗(yàn)證的方法將語料集以8 ∶1 ∶1的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),除去“其他”事件類型,語料庫共定義了21種金融事件類型,如圖4所示。超過1 000條以上數(shù)據(jù)的事件類型有8種,占比36.36%;有100~1 000條數(shù)據(jù)之間的事件類型有9種,占比40.91%;100條數(shù)據(jù)以下的事件類型有5種,占比22.73%,其中事件類型“公司股市異?!鄙儆?0條數(shù)據(jù)。
圖4 金融事件類型統(tǒng)計(jì)
評(píng)價(jià)指標(biāo)采用精確率(P)、召回率(R)、F1值(F)來評(píng)估事件主體抽取系統(tǒng),公示如下:
(12)
式中:FP表示假正類,即事件實(shí)例為負(fù)類被預(yù)測(cè)成正類;FN表示假負(fù)類,即事件實(shí)例為正類被預(yù)測(cè)成負(fù)類;TP表示真正類,即事件實(shí)例為正類被預(yù)測(cè)成正類。
2.1.2實(shí)驗(yàn)環(huán)境及超參數(shù)設(shè)置
整體模型基于Keras+Tensorflow的深度學(xué)習(xí)框架搭建,Keras版本號(hào)為2.2.4,Tensorflow版本號(hào)為1.8,GPU顯卡為NVIDIA Quadro K1200。
為了獲得最優(yōu)抽取模型,在驗(yàn)證集上進(jìn)行了參數(shù)優(yōu)化實(shí)驗(yàn)。使用ELMo模型在語料集上訓(xùn)練詞嵌入,設(shè)定學(xué)習(xí)速率為0.025,窗口大小是5,詞向量維度設(shè)置為200。為了避免數(shù)據(jù)過擬合,設(shè)定Dropout為0.5。模型輸入batch_size為8,總迭代次數(shù)設(shè)置為120。
為了檢驗(yàn)本文方法的性能,實(shí)驗(yàn)比較了基于門控多層次注意機(jī)制的ELMo-BiGRU模型(ELMo-BiGRU-GMAM)與傳統(tǒng)抽取方法在數(shù)據(jù)集上的性能,其中LSTM、GRU、GRU-Attention和BiGRU-Attention方法均使用傳統(tǒng)詞嵌入模型Word2vec訓(xùn)練詞向量,結(jié)果如表1所示。
表1 不同事件主體抽取方法對(duì)比實(shí)驗(yàn)(%)
從表1可以觀察到,本文方法的表現(xiàn)明顯優(yōu)于其他方法。LSTM方法和GRU方法在綜合性能上面不分伯仲,但是因?yàn)镚RU網(wǎng)絡(luò)的參數(shù)更少一點(diǎn),在較小的數(shù)據(jù)集下可以更快收斂。GRU是沒有注意力機(jī)制的基本GRU模型,從表1結(jié)果看來,加入注意力機(jī)制的Attention-GRU模型表現(xiàn)優(yōu)越,P、R和F值均高于GRU模型,傳統(tǒng)僅使用GRU的模型在進(jìn)行特征抽取時(shí)平等看待所有字詞且無法捕捉關(guān)鍵性信息,而加入注意力機(jī)制的方法可以給每個(gè)字詞分配不同的權(quán)重信息,一段文本中比較重要的句子加以大的權(quán)重,效果可以獲得明顯提升。運(yùn)用雙向GRU網(wǎng)絡(luò)較單向GRU網(wǎng)絡(luò)相比優(yōu)勢(shì)不是很大,仔細(xì)觀察兩者召回率和F1值,雙向GRU模型要比單向更好一些,因?yàn)閱畏较騁RU僅能保留過去的信息,而雙向GRU利用前后兩個(gè)隱藏狀態(tài)組合處理輸入的信息,可以在任何時(shí)間點(diǎn)保存過去和未來的信息,更方便地捕獲上下文信息。此外,在所有方法中,本文所提ELMo-BiGRU-GMAM模型表現(xiàn)最好,傳統(tǒng)方法僅利用句子級(jí)信息進(jìn)行特征學(xué)習(xí),本文方法融合了句子級(jí)信息和文檔級(jí)信息來增強(qiáng)特征學(xué)習(xí),其P、R、F值可以在事件主體抽取上實(shí)現(xiàn)最佳性能,可以有效解決事件模糊性的問題。
為了更清晰地對(duì)比本文方法與傳統(tǒng)抽取方法的實(shí)驗(yàn)效果,表2列舉了實(shí)驗(yàn)語料實(shí)例,同時(shí)將傳統(tǒng)抽取模型與本文模型的抽取結(jié)果示例進(jìn)行了對(duì)比,如表3所示。
表2 語料示例
表3 不同事件主體抽取模型的結(jié)果示例
從表2和表3可以觀察到,本文模型抽取的事件主體更加精確。示例語料中包含“興利集團(tuán)”“歐瑞家具”“甲醛超標(biāo)”“專賣店”“海南椰島”“第一大股東變更”和“椰島品牌”等實(shí)體,包含“甲醛超標(biāo)”和“股東變更”兩個(gè)事件,語料指定事件類型為“實(shí)控人股東變更”,根據(jù)已知事件類型可排除與“甲醛超標(biāo)”事件相關(guān)的事件元素,將事件觸發(fā)詞定位為“第一大股東變更”。但是觸發(fā)詞前面的“專賣店仍在售海南椰島(600238)”文本中包括兩個(gè)事件的相關(guān)元素,且沒有標(biāo)點(diǎn)作為分隔符號(hào),傳統(tǒng)抽取模型大部分僅利用句子級(jí)信息進(jìn)行事件主體抽取任務(wù),很容易造成事件模糊性問題,會(huì)將“海南”錯(cuò)認(rèn)為“專賣店”的賓語,進(jìn)而錯(cuò)誤地將“椰島”判定為事件類型"實(shí)控人股東變更"相對(duì)應(yīng)的事件主體,其主要原因是沒有綜合考慮候選事件主體的上下文語義信息。本文模型采用門控多層次注意機(jī)制,可以同時(shí)獲取候選事件主體“海南椰島”的句子級(jí)信息和文檔級(jí)信息,然后通過融合門動(dòng)態(tài)整合獲取具有上下文語義的特征,可以有效緩解“甲醛超標(biāo)”事件中噪聲元素“專賣店仍在售”對(duì)主體元素識(shí)別的干擾,最終將“海南椰島”判定為與事件類型“實(shí)控人股東變更”相對(duì)應(yīng)的事件主體,證明了本文事件主體抽取方法的有效性。
在深度學(xué)習(xí)模型訓(xùn)練過程中,詞嵌入對(duì)模型的整體效果起關(guān)鍵作用。為了ELMo的有效性,實(shí)驗(yàn)對(duì)比了ELMo動(dòng)態(tài)詞向量方法與傳統(tǒng)Word2vec、GloVe靜態(tài)詞向量方法在事件主體抽取系統(tǒng)上的性能。除了詞嵌入方法不同,其他網(wǎng)絡(luò)模型和參數(shù)設(shè)置均相同,結(jié)果如表4所示。
表4 ELMO相關(guān)證明實(shí)驗(yàn)(%)
從表4可以看出,ELMo動(dòng)態(tài)詞向量方法優(yōu)于傳統(tǒng)Word2vec、GloVe靜態(tài)詞向量方法。其中,ELMo的F值相比Word2vec方法提高2.82百分點(diǎn),Word2vec獲得的F值相比GloVe更好一些,但是GloveR值比Word2vec稍微高一點(diǎn),可能是因?yàn)镚loVe使用了全局信息,算法較復(fù)雜且更容易并行化,而Word2vec是基于局部語料訓(xùn)練的,通過劃動(dòng)窗口進(jìn)行提取特征,可以進(jìn)行在線學(xué)習(xí)且模型較簡(jiǎn)單。ELMo的R值和F值均高于Word2vec方法,因?yàn)镋LMo把整個(gè)句子作為輸入,根據(jù)每個(gè)詞的上下文環(huán)境實(shí)時(shí)訓(xùn)練動(dòng)態(tài)詞向量,能夠很好地解決一詞多義的問題,驗(yàn)證了使用ELMo方法的有效性。
為了驗(yàn)證門控多層次注意機(jī)制的對(duì)模型的影響程度,實(shí)驗(yàn)對(duì)比了基于門控多層次注意機(jī)制的模型(ELMo-BiGRU-GMAM)與未加入任何注意力機(jī)制的模型(ELMo-BiGRU)、基于經(jīng)典注意力機(jī)制的模型(ELMo-BiGRU-Attention)、基于多頭注意機(jī)制的模型(ELMo-BiGRU-Multi headed Self attention)分別在事件主體抽取數(shù)據(jù)集上的性能。除了引入的注意力策略不同,其他網(wǎng)絡(luò)模型和參數(shù)設(shè)置均相同,實(shí)驗(yàn)結(jié)果如表5所示。
表5 門控多層次注意機(jī)制相關(guān)證明實(shí)驗(yàn)(%)
通過表5可以觀察到,基于門控多層次注意機(jī)制的模型(ELMo-BiGRU-GMAM)總體效果優(yōu)于其他模型。其中未加入任何注意機(jī)制的模型(ELMo-BiGRU)表現(xiàn)較差,基于經(jīng)典注意力機(jī)制之后,F(xiàn)1值提高了1.67百分點(diǎn),未加入任何注意機(jī)制的模型在特征提取過程中容易獲取冗余信息,而基于經(jīng)典注意力機(jī)制的模型能捕獲每個(gè)候選詞的關(guān)鍵語義信息,提升模型的準(zhǔn)確率?;诙囝^自注意力機(jī)制較基于經(jīng)典注意力機(jī)制模型的F1值提高了3.05百分點(diǎn),Multi-headed self-attention拼接了多個(gè)自注意力網(wǎng)絡(luò),每個(gè)head允許在不同的表示子向量空間多次捕獲句子內(nèi)部的相關(guān)信息,頭的數(shù)量對(duì)捕獲長(zhǎng)距離依賴有較大影響。基于門控多層次注意機(jī)制與基于多頭注意力機(jī)制方法相比較,前者實(shí)驗(yàn)總體效果明顯優(yōu)于后者。因?yàn)槎囝^注意機(jī)制僅利用句子級(jí)信息提取每個(gè)句子結(jié)構(gòu)內(nèi)的特征,每個(gè)句子中可能存在多個(gè)事件信息的部分特征,如果不考慮文檔級(jí)語義信息,很容易造成事件模糊性問題。而門控多層次注意機(jī)制可以同時(shí)獲得句子級(jí)的注意信息和文檔級(jí)的注意信息,更精確地提取融合每個(gè)候選詞的上下文特征,能夠很好地處理事件的模糊性問題,證明了使用門控多層次注意機(jī)制的有效性。
本文采用基于門控多層次注意機(jī)制的ELMo-BiGRU深度網(wǎng)絡(luò)模型實(shí)現(xiàn)了事件主體抽取。與句子級(jí)抽取方法相比,利用門控多層次注意機(jī)制可以動(dòng)態(tài)整合候選詞句子級(jí)和文檔級(jí)的上下文信息,有效解決句子中存在的事件模糊性問題。為了解決傳統(tǒng)詞向量不能對(duì)一詞多義進(jìn)行建模的問題,使用ELMo模型對(duì)語料進(jìn)行預(yù)訓(xùn)練,動(dòng)態(tài)生成包含豐富語義和句法信息的詞向量。采用BiGRU網(wǎng)絡(luò)捕獲長(zhǎng)期序列信息且結(jié)構(gòu)更加簡(jiǎn)單,避免了復(fù)雜的手工設(shè)計(jì)和梯度消失問題。加入命名實(shí)體特征和詞性特征,可以實(shí)現(xiàn)對(duì)文本結(jié)構(gòu)的細(xì)粒度解析,進(jìn)一步增強(qiáng)了模型的性能,實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。未來計(jì)劃使用遠(yuǎn)程監(jiān)督機(jī)制自動(dòng)標(biāo)記訓(xùn)練數(shù)據(jù),引入BERT預(yù)訓(xùn)練模型進(jìn)行更復(fù)雜的事件抽取任務(wù)。