陳彥杰,廖 濤
(安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,淮南 232001)
隨著信息技術(shù)的發(fā)展以及傳統(tǒng)產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型,互聯(lián)網(wǎng)已經(jīng)滲透到人類社會(huì)生活的各個(gè)方面,將互聯(lián)網(wǎng)作為獲取信息的首要途徑的人逐漸增多?;ヂ?lián)網(wǎng)用戶的增加,導(dǎo)致數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),大量的數(shù)據(jù)以電子文本的形式在互聯(lián)網(wǎng)中傳播,這些電子文本數(shù)據(jù)內(nèi)容豐富、要素多樣,并且包含了一種蘊(yùn)藏著極大價(jià)值的信息資源,然而目前網(wǎng)頁上的大量文本均呈非結(jié)構(gòu)化狀態(tài)并且包含大量冗余信息,使得用戶無法迅速?gòu)闹姓业接杏玫馁Y源。因此面對(duì)互聯(lián)網(wǎng)上海量的數(shù)據(jù),如何針對(duì)性地從文本中抽取出對(duì)用戶有用的信息,再通過結(jié)構(gòu)化形式展現(xiàn)給用戶,成為一項(xiàng)重要的課題。
事件抽取在信息抽取研究領(lǐng)域[1]中至關(guān)重要,它的主要任務(wù)是把含有事件信息的非結(jié)構(gòu)化文本以結(jié)構(gòu)化[2]的形式呈現(xiàn)出來,在自動(dòng)文摘、自動(dòng)問答、信息檢索、知識(shí)圖譜[3]構(gòu)建等領(lǐng)域有著廣泛的應(yīng)用。事件觸發(fā)詞抽取是事件抽取的子任務(wù),其任務(wù)是要識(shí)別事件句中觸發(fā)詞的位置同時(shí)識(shí)別出其所屬事件類型。觸發(fā)詞是事件句中最能體現(xiàn)事件發(fā)生的詞語,直接決定事件類型。事件觸發(fā)詞抽取的方法主要有三種:基于模式匹配[4]、基于機(jī)器學(xué)習(xí)[5]和基于深度學(xué)習(xí)[6]的方法。
在基于模式匹配的方法中,目標(biāo)語料使用適當(dāng)?shù)乃惴ㄟM(jìn)行匹配,并根據(jù)給定的模板提取事件要素。Liu 等[7]手動(dòng)創(chuàng)建模板進(jìn)行提取,并在初步處理后將文本信息嵌入模板。這種方法只遵循一個(gè)固定的模板,所以給定的模板并沒有涵蓋真實(shí)場(chǎng)景中可能出現(xiàn)的所有情況。
基于機(jī)器學(xué)習(xí)的方法通過事件觸發(fā)詞的語義、句法等信息構(gòu)建特征,然后根據(jù)特征采用統(tǒng)計(jì)學(xué)模型進(jìn)行分類以達(dá)到抽取的目的,主要的機(jī)器學(xué)習(xí)模型包括最大熵模型、隱馬爾可夫模型和支持向量機(jī)等。Chieu 等[8]針對(duì)事件抽取問題引入了最大熵模型,從人事管理中提取研討會(huì)的公告和事件。
近年來,隨著詞嵌入技術(shù)的崛起,深度學(xué)習(xí)已成為一種新的研究趨勢(shì),并被應(yīng)用于各個(gè)領(lǐng)域?;谏疃葘W(xué)習(xí)的方法將事件抽取建模成為一個(gè)不依賴外部NLP 工具的端到端模型,使用特征豐富的詞向量作為輸入,避免了復(fù)雜的手工作業(yè)。Nguyen[9]解決了不平衡語料中的事件觸發(fā)詞抽取問題,通過卷積神經(jīng)網(wǎng)絡(luò)捕獲句子中的重要特征信息。武國(guó)亮等[10]提出了一種FB-Latiice-BiLSTM-CRF 模型,以解決事件抽取任務(wù)中BiLSTM-CRF 處理的低維問題,增強(qiáng)了模型學(xué)習(xí)詞語和實(shí)體語義特征的能力,并取得了更好的識(shí)別性能。
本文提出一種基于圖注意力網(wǎng)絡(luò)的模型進(jìn)行突發(fā)事件的觸發(fā)詞抽取,實(shí)驗(yàn)結(jié)果表明文中提出的模型在突發(fā)事件領(lǐng)域事件觸發(fā)詞抽取任務(wù)中是行之有效的。
本文構(gòu)建的突發(fā)事件觸發(fā)詞抽取模型(emergency triggers extraction based on graph attention network,ETEGAN)如圖1,包括:詞嵌入層、Bi-GRU層、GAT層、CRF層。
圖1 模型整體架構(gòu)
首先使用Word2vec 進(jìn)行文本向量化表示,再利用BERT模型提取動(dòng)態(tài)詞向量,將預(yù)訓(xùn)練詞向量和動(dòng)態(tài)詞向量特征融合作為模型的輸入;然后通過BiGRU 對(duì)長(zhǎng)距離語義特征進(jìn)行抽?。唤又捎肎AT 網(wǎng)絡(luò)對(duì)特征進(jìn)行權(quán)重調(diào)整,作為最終的特征表示;最后在解碼層通過CRF 進(jìn)行解碼得到模型最終輸出的結(jié)果。
詞嵌入層本質(zhì)上是對(duì)輸入字符的向量映射,即從離散的字符到分布式表示,可以很好地表示文本中的語義信息和語法關(guān)系。為了緩解由不正確的分詞造成的問題,本文將語義特征進(jìn)行融合作為模型的輸入。
Word2vec 模型先通過去標(biāo)簽等操作把語料庫(kù)處理成文本序列,再通過分詞的工具把輸入數(shù)據(jù)處理成詞序列數(shù)據(jù)S,最后通過Word2vec將文本向量化處理成預(yù)訓(xùn)練詞向量W。
BERT 預(yù)訓(xùn)練語言模型可以產(chǎn)生與上下文相關(guān)的詞特征,并可以描述字的多義性和句子的句法特征等。本文使用預(yù)訓(xùn)練模型BERT,根據(jù)同一個(gè)詞的不同語境來計(jì)算每個(gè)單詞的語境表征,對(duì)于由n個(gè)字符組成的文檔作為輸入X,經(jīng)過BERT預(yù)訓(xùn)練模型得到相對(duì)應(yīng)的特征向量T。
把Word2vec 和BERT 分別訓(xùn)練的詞向量W和動(dòng)態(tài)詞向量T相結(jié)合,得到聯(lián)合詞向量U。式中⊕代表將兩個(gè)向量進(jìn)行連接,把一個(gè)維度的向量結(jié)合起來成為新向量。
在自然語言處理中,有大量的數(shù)據(jù)無法用傳統(tǒng)的前向神經(jīng)網(wǎng)絡(luò)來建模,因此出現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN;它在理論上能夠處理任意長(zhǎng)度的序列信息,但在實(shí)踐中,當(dāng)序列過長(zhǎng)時(shí),就會(huì)出現(xiàn)梯度消失的問題,而且很難學(xué)到長(zhǎng)期依賴的特征。
GRU 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),混合了細(xì)胞狀態(tài)和隱藏狀態(tài),其中遺忘門和輸入門被合并在一個(gè)單一的更新門中。
GRU 的結(jié)構(gòu)更簡(jiǎn)單,參數(shù)更少,從而減少了訓(xùn)練時(shí)間。GRU 由于其優(yōu)越的序列建模能力,被廣泛應(yīng)用于語音識(shí)別、事件抽取和詞性標(biāo)注等方面。在本文中,BiGRU 模型被用來對(duì)來自BERT 層的向量進(jìn)行初步建模;BiGRU 計(jì)算兩種不同的特征表示,即前向和后向兩種特征,然后對(duì)這兩種特征表示進(jìn)行加權(quán)求和,產(chǎn)生涵蓋語境特征的向量。
相比于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)模型,因?yàn)閳D注意力網(wǎng)絡(luò)GAT 在圖結(jié)構(gòu)數(shù)據(jù)中表現(xiàn)出了優(yōu)越的特征提取能力,所以研究者將它應(yīng)用在了事件觸發(fā)詞抽取的任務(wù)中,圖注意力網(wǎng)絡(luò)的基本思想是通過計(jì)算鄰節(jié)點(diǎn)的注意力來更新每個(gè)頂點(diǎn)隱藏層的輸出,進(jìn)而調(diào)節(jié)鄰節(jié)點(diǎn)的權(quán)重。
如果m表示圖卷積網(wǎng)絡(luò)的層數(shù),GAT 層的輸入與BiGRU 的輸出的隱藏層息息相關(guān)。GAT 層中第i層節(jié)點(diǎn)輸入的隱藏狀態(tài){h1,h2,…,hn},n為序列長(zhǎng)度,同時(shí)是圖的頂點(diǎn)數(shù)。
首先做一個(gè)線性變換,可訓(xùn)練的權(quán)重參數(shù)為W(l)。
然后通過計(jì)算得到節(jié)點(diǎn)初始的注意力,通過計(jì)算i的鄰居節(jié)點(diǎn)j得到初始的注意力權(quán)重e(m)ij。將節(jié)點(diǎn)i和節(jié)點(diǎn)j的z向量相結(jié)合,再把z向量以及可學(xué)習(xí)的權(quán)重向量a→(m)T進(jìn)行點(diǎn)積操作,其中LeakyReLU是非線性激活函數(shù)。
接著將初始注意力進(jìn)行歸一化,計(jì)算出節(jié)點(diǎn)i對(duì)鄰居節(jié)點(diǎn)j的注意系數(shù),也就是注意力權(quán)重:
因?yàn)槊總€(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)都不一樣,所以節(jié)點(diǎn)i對(duì)鄰居節(jié)點(diǎn)j的注意系數(shù)與節(jié)點(diǎn)j對(duì)鄰居節(jié)點(diǎn)i的不同,這樣的結(jié)構(gòu)和詞與詞之間的依賴關(guān)系有相似之處,這樣使得關(guān)聯(lián)性強(qiáng)的特征得到更多的關(guān)注。
然后對(duì)所有鄰居節(jié)點(diǎn)的特征做基于注意力的加權(quán)求和,更新節(jié)點(diǎn)的特征向量:
接著使用多頭注意力機(jī)制拼接輸出結(jié)果:
其中:||代表拼接;代表第k組注意力機(jī)制的權(quán)重系數(shù)。
多頭注意力進(jìn)行多次運(yùn)算,在多重子空間中學(xué)習(xí)節(jié)點(diǎn)之間的關(guān)聯(lián),戰(zhàn)勝了循環(huán)神經(jīng)網(wǎng)絡(luò)并不能成功捕獲長(zhǎng)距離單詞之間依賴特征的困難,還擁有并行的特征,不同子層之間互不影響,最后得到輸出結(jié)果h′={h′1,h′2,…,h′n}。
條件隨機(jī)場(chǎng)(CRF)通常被用作自然語言處理任務(wù)中的解碼器,根據(jù)連續(xù)標(biāo)簽之間的依賴關(guān)系對(duì)標(biāo)簽進(jìn)行優(yōu)化,緩解了輸出標(biāo)簽存在的獨(dú)立假設(shè)問題。
對(duì)于輸入序列h′={h′1,h′2,…,h′n},如果其對(duì)應(yīng)的標(biāo)注序列為y={y1,y2,…,yn} ,則標(biāo)注序列y的概率為
其中:y′表示標(biāo)簽序列,T為轉(zhuǎn)移得分矩陣。通過計(jì)算輸入序列h′對(duì)應(yīng)的輸出標(biāo)簽序列y得到預(yù)測(cè)的標(biāo)簽序列結(jié)果。
實(shí)驗(yàn)選取中文突發(fā)事件語料庫(kù)CEC 作為語料集。上海大學(xué)語義智能實(shí)驗(yàn)室遵守《國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案》的分類規(guī)則,統(tǒng)計(jì)了5 類突發(fā)事件(地震、交通事故、火災(zāi)、食物中毒和恐怖襲擊)的新聞報(bào)道,當(dāng)作初始語料,然后進(jìn)行文本分析、文本預(yù)處理、一致性檢查以及事件標(biāo)注等操作,最后在語料庫(kù)中保存標(biāo)注結(jié)果,語料庫(kù)中對(duì)突發(fā)事件以及突發(fā)事件要素的標(biāo)注非常全面。
本文將準(zhǔn)確率P、召回率R、F值當(dāng)作事件觸發(fā)詞抽取性能的評(píng)測(cè)指標(biāo)。
3.2.1 與其他模型對(duì)比分析
本文訓(xùn)練和測(cè)試了下面的幾種模型,以進(jìn)一步比較模型的性能。表1顯示了幾種模型的觸發(fā)詞抽取性能比較。
表1 與其他模型抽取效果的對(duì)比分析
根據(jù)表1數(shù)據(jù),在同一個(gè)數(shù)據(jù)集中訓(xùn)練和測(cè)試,與其他對(duì)比模型相比較,本文模型的F1 值和準(zhǔn)確率表現(xiàn)較好。相較于GAT+BiRNN 和GAT+BiLSTM,本文模型不僅避免了RNN 存在的梯度消失問題,而且更容易訓(xùn)練,使模型的準(zhǔn)確率分別提高9.97和16.96個(gè)百分點(diǎn),F(xiàn)1值提高了4.87 和7.62 個(gè)百分點(diǎn),表明了BiGRU 的有效性;相較于BiGRU,本文模型添加了GAT,從數(shù)據(jù)可以看出,GAT 通過對(duì)重要特征權(quán)重的調(diào)整使得模型可以著重關(guān)注相關(guān)性較高的語義特征,使模型的準(zhǔn)確率提升了6.17 個(gè)百分點(diǎn),F(xiàn)1 值提升了7.92 個(gè)百分點(diǎn),表明GAT 提高了觸發(fā)詞抽取的效果;相較于GAT+GRU,本文模型多加了一層GRU 用于獲取雙向的語義信息,得到了更為豐富的特征,使模型的準(zhǔn)確率增長(zhǎng)了12.12個(gè)百分點(diǎn),F(xiàn)1值增長(zhǎng)了5.83個(gè)百分點(diǎn)。
3.2.2 與其他工作結(jié)果對(duì)比分析
為了更全面地評(píng)估本文提出的模型的性能,這里將其結(jié)果與以往其他工作者的研究結(jié)果進(jìn)行比較,對(duì)比情況如表2所示。
表2 與其他研究結(jié)果對(duì)比分析
對(duì)表2中的數(shù)據(jù)進(jìn)行對(duì)比分析,相比于其他的神經(jīng)網(wǎng)絡(luò)方法,本文提出的基于圖注意力網(wǎng)絡(luò)的突發(fā)事件觸發(fā)詞抽取模型表現(xiàn)出了最好的性能,表現(xiàn)了BiGRU 和圖注意力網(wǎng)絡(luò)的優(yōu)秀的性能,可以更深層地學(xué)習(xí)到豐富的語義特征,同時(shí)使得高度相關(guān)特征得到了更多的關(guān)注;同時(shí)采用Word2vec 和BERT 預(yù)訓(xùn)練語言模型,得到了豐富的語義信息,有助于本文的突發(fā)事件觸發(fā)詞特征識(shí)別更準(zhǔn)確。
事件抽取在突發(fā)事件抽取以及知識(shí)圖譜等研究中具有不可或缺的作用。針對(duì)觸發(fā)詞提取不準(zhǔn)確的問題,本文提出了基于圖注意力網(wǎng)絡(luò)的突發(fā)事件觸發(fā)詞抽取模型ETEGAN。模型在實(shí)驗(yàn)數(shù)據(jù)集上取得了較好的效果,有助于突發(fā)事件觸發(fā)詞抽取任務(wù)。但是仍有進(jìn)步的空間,在后續(xù)的工作中,將爭(zhēng)取觸發(fā)詞抽取準(zhǔn)確率進(jìn)一步的提高。