王縣縣 禹龍 田生偉 王瑞錦
事件抽取是信息抽取領(lǐng)域的一個重要研究方向,是將含有事件信息的非結(jié)構(gòu)化文本以結(jié)構(gòu)化的形式呈現(xiàn)出來.通過對事件抽取結(jié)果的分析,可以發(fā)現(xiàn)一個事件的信息往往分散在一個文檔的各個部分.在單個事件的描述中,很多事件元素缺失,使得單純的事件抽取獲取的信息并不完整、語義不明確[1].然而,有些事件中缺失的元素并非不存在,因?yàn)檫@些缺失的元素可以通過其他事件中的元素填充,進(jìn)而使事件抽取的信息更加完整.考慮如下兩個事件句(維吾爾語的書寫格式為從右到左):
譯文:2017 年1月1日時間11時左右,在南京雨花西路和共青團(tuán)路交叉口,一輛貨車往右轉(zhuǎn)彎過程中導(dǎo)致一輛電動車刮倒,電動車上母親當(dāng)場身亡.
譯文:過路人立刻把女子懷里9個月的嬰兒送往附近南京市第一醫(yī)院.
以上兩個事件出現(xiàn)在同一篇章的不同位置,下劃線詞為觸發(fā)詞.表1和表2分別列出了兩個事件句對應(yīng)事件元素抽取情況.
表1 事件句1中的元素Table 1 Arguments in event sentence 1
表2 事件句2中的元素Table 2 Arguments in event sentence 2
對事件1和事件2以及表1和表2進(jìn)行分析,事件1中4個元素可在當(dāng)前事件句中獲得,缺失一個元素;事件2中只有Agent-Arg、Artifact-Arg 和Destination-Arg 三個元素在當(dāng)前事件句中獲得,其他角色均缺失.通過觀察和分析可以發(fā)現(xiàn),事件2的缺失角色Origin-Arg 和Time-Arg 與事件1中Place-Arg 和Time-Arg 所對應(yīng)的內(nèi)容一致,即事件2的2個缺失元素可以從事件1中得到填充.通過填充,使事件2語義更完整,表達(dá)更加清晰.
主要貢獻(xiàn)如下:
1)將填充問題轉(zhuǎn)換成二分類問題,對維吾爾語事件缺失元素進(jìn)行填充.
2)提出了注意力機(jī)制的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)的并行模型.
3)充分考慮事件元素類型,將事件元素分為4類,按照事件元素類型相同的規(guī)則構(gòu)建樣本.
目前,事件抽取技術(shù)在自然語言處理領(lǐng)域受到廣泛關(guān)注.早期,采用模式匹配算法[2?3]和淺層機(jī)器學(xué)習(xí)方法[4]進(jìn)行信息抽取.而隨著深度學(xué)習(xí)[5]的提出,事件抽取技術(shù)的研究有了進(jìn)一步的進(jìn)展[6?7].Chen 等[8]引入詞表模型捕獲詞匯語義線索,使用動態(tài)池化卷積神經(jīng)網(wǎng)絡(luò)(Dynamic multipooling convolutional neural network,DMCNN),在ACE2005語料上抽取事件本體.Chang 等[9]在雙向LSTM(Long short-terin memary)基礎(chǔ)上對隱藏狀態(tài)進(jìn)行池化,從而對英文文本進(jìn)行事件抽取.Zeng 等[10]提出了一種卷積雙向LSTM模型,從原始文本中捕獲句子級和詞匯信息,對事件觸發(fā)詞和元素標(biāo)記.田生偉等[11]將詞向量作為雙向LSTM模型的輸入,挖掘給定事件句隱藏的上下文語義信息,結(jié)合事件觸發(fā)詞建立注意力機(jī)制對維吾爾語事件時序關(guān)系識別.然而這些學(xué)者的研究都是基于單模型的,對特征的提取有一定的局限性.黎紅等[12]提出DCNNs-LSTM的順序處理模型,將特征依次輸入DCNNs和LSTM完成維吾爾語突然事件的識別.該方法采用兩種模型順序組合的方式對特征進(jìn)行處理,所以在特征傳輸過程中會丟失部分特征.
以上都是對事件抽取的研究,對事件缺失元素填充的論文較少,Gupta 等[13]使用規(guī)則和統(tǒng)計(jì)學(xué)習(xí)的方法只對缺失的Time元素進(jìn)行填充.Huang等[14]利用上下文和領(lǐng)域相關(guān)文檔的信息,針對Target、Place等幾類進(jìn)行填充.侯立斌等[15]提出了采用基于規(guī)則和機(jī)器學(xué)習(xí)的方法,對中文跨事件的缺失事件元素識別和填充.趙文娟等[16]提出了基于句法依存分析的角色填充思路和技術(shù),以“森林火災(zāi)”事件為例,用最大熵算法對填充過程進(jìn)行了說明.以上研究都沒有充分考慮事件和事件元素的上下文語義特征,而且集中在漢語和英語等大語種,對于維吾爾語事件缺失元素填充研究很少.
事件抽取研究主要集中在觸發(fā)詞識別、事件類型分類、元素識別等任務(wù)上.事件缺失元素填充的研究主要是從其他事件中獲得事件元素,對當(dāng)前事件元素進(jìn)行補(bǔ)充.缺失元素填充是在觸發(fā)詞識別和元素識別等前提任務(wù)的基礎(chǔ)上進(jìn)行研究.這為缺失元素填充提供了便利,但是由于這些前提任務(wù)識別率的局限性,為缺失元素填充任務(wù)帶來了一些級聯(lián)錯誤.另外,由于構(gòu)成事件元素的單詞個數(shù)不統(tǒng)一,這也為缺失元素填充任務(wù)帶來一定的難度.
基于上述問題,提出結(jié)合注意力機(jī)制[17?18]獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)的并行模型,來解決的維吾爾語缺失元素填充問題.將富含上下文語義信息的詞向量做為膠囊網(wǎng)絡(luò)的輸入,獲取其位置信息和局部特征,將18項(xiàng)事件間特征和候選元素特征,結(jié)合注意力機(jī)制,經(jīng)過獨(dú)立RNN的處理,進(jìn)一步獲取規(guī)則特征.兩個并行的模型同時處理各自更加擅長處理的特征,會減少有效特征在傳輸過程中的丟失.然后將兩類有效特征融合進(jìn)行分類,最終完成維吾爾語事件缺失元素的填充.
維吾爾語是典型的黏著性語言,在構(gòu)詞形式和語法形式上,都是通過在詞根或詞干上結(jié)合詞綴或詞尾的方式實(shí)現(xiàn)的.
維吾爾語中“格語法”是一種特殊的語言形式,名詞或名詞短語有主格、屬格、向格、賓格、位格、從格和界限格等多種格屬性.根據(jù)名詞和名詞短語的不同和上下文的變化,會在名詞或名詞短語后面附加上不同的格后綴.例如,在名詞或名詞短語后加“”變?yōu)閷俑?表示人或事物的領(lǐng)屬關(guān)系.格語法在語法形式上具備獨(dú)立性,語法意義上具備穩(wěn)定性.
本文是基于維吾爾語事件的研究,涉及到事件觸發(fā)詞和事件元素,其中,事件觸發(fā)詞多為動詞,而事件元素一般為名詞或名詞短語.為了保證維吾爾語的語言特色,本文在預(yù)處理階段未對語料進(jìn)行詞干提取,保留了詞綴信息的完整性.在編碼階段,利用詞嵌入技術(shù),充分挖掘了維吾爾語文本的深層語義信息.
定義1.事件:指在特定的環(huán)境和時間下發(fā)生,由若干角色參與,表現(xiàn)出動作特征的一件事情[19].如事件句1和事件句2所示,分別描述的是交通事故事件和運(yùn)輸事件.
定義3.事件元素:指描述事件具體信息的文本短語,包括參與者、時間和地點(diǎn)等.
定義4.缺失元素:每類事件有對應(yīng)的元素,若元素對應(yīng)的內(nèi)容不存在,即為缺失元素.缺失元素分可填充缺失元素和不可填充缺失元素.表1中Wrecker-Arg (肇事者)和表2中的Tool-Arg (運(yùn)送工具)為不可填充元素,表2中Origin-Arg (源地址)和Time-Arg (時間)對應(yīng)的內(nèi)容在事件句中沒有出現(xiàn),但可以通過事件句1相應(yīng)內(nèi)容進(jìn)行填充,為可填充缺失元素.本文缺失元素識別的基礎(chǔ)上進(jìn)行,即只對可填充元素進(jìn)行研究(后文所提缺失元素均為可填充元素).
定義5.候選元素:除缺失元素所在事件句之外的其他事件中的所有元素.候選元素應(yīng)與缺失元素類型相同,本文將所有的事件元素分為4類:時間、人物、地點(diǎn)和其他.
定義6.元素對:指維吾爾語文本中所有缺失元素按照元素類型相同的組對規(guī)則與候選元素進(jìn)行組對后的元素對.
缺失元素填充,是指對于可以被填充的元素如何從其他事件描述中選擇合適的元素進(jìn)行填充.本文將填充問題轉(zhuǎn)換為二分類問題,即按照一定的規(guī)則將缺失元素與候選元素兩兩組對,并判斷當(dāng)前缺失元素是否可以被候選元素填充,從而構(gòu)成正負(fù)樣例.具體步驟如下:
步驟1.將實(shí)驗(yàn)語料中的每篇語料所提取出來事件放入事件列表ELi(i=1,2,···,N)中,N為實(shí)驗(yàn)語料的總數(shù).
步驟2.循環(huán)遍歷ELi中每一個事件,將缺失的元素放入到列表EM中.
步驟3(樣本1).循環(huán)遍歷EM,將缺失元素與所有候選元素兩兩組對,構(gòu)成元素對〈m,c〉,然后判斷m是否可以被c填充,若可以被c填充,則為正例,標(biāo)簽y為1;若不可以被c填充,則為負(fù)例,標(biāo)簽y為0.構(gòu)成元素對〈m,c;y〉,將其放入到元素對集合AL中.
步驟3(樣本2).循環(huán)遍歷EM,按照定義6將缺失元素與候選元素兩兩組對,構(gòu)成元素對
步驟4.循環(huán)步驟2和步驟3,直至得到所有的元素對,并將其放入到集合AL中.
本文提出了一個Att-Ind RNN-CapsNet模型,用于維吾爾語事件缺失元素填充.模型分為輸入層,聯(lián)合處理層,融合分類層3層.將輸入層的特征到聯(lián)合處理層,其中事件及候選元素的18項(xiàng)特征作為Att-IndRNN 的輸入,首先建立注意力機(jī)制,再通過獨(dú)立RNN獲取事件和元素的特征.事件觸發(fā)詞和候選元素的詞向量輸入膠囊網(wǎng)絡(luò),挖掘上下文語義信息.其次,將兩個層的輸出傳入到融合分類層進(jìn)行特征融合和分類,進(jìn)而完成事件缺失元素的填充.圖1描述了整個維吾爾語事件缺失元素填充的模型結(jié)構(gòu).
輸入層由兩部分構(gòu)成,第一部分是將事件觸發(fā)詞和候選元素通過word2vec映射成富含上下文語義信息的低維向量α,α∈RM,M是詞向量維度;第二部分是事件和事件元素構(gòu)成的內(nèi)部規(guī)則特征h.詞向量α和規(guī)則特征h作為聯(lián)合處理層的輸入.
1)Att-IndRNN層
從輸入層接收的規(guī)則特征h經(jīng)過本層處理.首先計(jì)算注意力權(quán)重,公式如下:
其中,hi∈R為第i個手動特征,wh和bh分別為權(quán)重和偏置.ai表示特征hi的注意力權(quán)重.根據(jù)注意力權(quán)重向量a∈RL,對h進(jìn)行注意力加權(quán),得到經(jīng)過注意力機(jī)制的輸出p,計(jì)算公式如下:
循環(huán)神經(jīng)網(wǎng)絡(luò)[20]在序列學(xué)習(xí)問題中獲得廣泛應(yīng)用,并且成果顯著.然而由于常見的梯度消失和梯度爆炸問題,循環(huán)神經(jīng)網(wǎng)絡(luò)通常難以訓(xùn)練.本文引入獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN)[21],這種新型的RNN能有效解決網(wǎng)絡(luò)收斂時的梯度爆炸和消失問題.在IndRNN中,循環(huán)輸入用Hadamard乘積處理.將經(jīng)過注意力機(jī)制的輸出向量p輸入到Ind RNN,進(jìn)一步挖掘事件和事件元素的規(guī)則特征k.
圖1 模型結(jié)構(gòu)圖Fig.1 Model structure
其中,pt∈RM和kt∈RN分別代表時間步長t的輸入和隱藏狀態(tài),W ∈RN×M,u∈RN×N和b ∈RN分別為當(dāng)前輸入的權(quán)重,循環(huán)輸入以及神經(jīng)元偏置值,是Hadamard乘積,N是當(dāng)前層中神經(jīng)元的個數(shù).每層中每個神經(jīng)元與其他神經(jīng)元不相連,彼此相互獨(dú)立,神經(jīng)元的連接可以通過疊加兩層或者更多層的Ind RNN來實(shí)現(xiàn).對于第n個神經(jīng)元,隱藏層kn,t可以通過以下公式得到:
其中,wn和un分別表示第n行的輸入權(quán)重和循環(huán)權(quán)重.每個神經(jīng)元僅在前一時間步從輸入和它自己的隱藏狀態(tài)中接收信息.也就是說,Ind RNN中的每個神經(jīng)元獨(dú)立地處理一種類型的時空模型.即隨著時間的推移(即通過u)獨(dú)立地聚集空間模式(即通過w).不同神經(jīng)元之間的相關(guān)性可以通過兩層或多層的堆疊來加以利用.在這種情況下,下一層的每個神經(jīng)元處理上一層所有神經(jīng)元的輸出.
2)CapsNet層
膠囊神經(jīng)網(wǎng)絡(luò)(Capsule network,CapsNet)[22]是由Hinton在2017 年10月份首次提出的新型深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),用于圖像的分類,其不同于卷積神經(jīng)網(wǎng)絡(luò)的矢量輸入輸出,膠囊層的輸入輸出均為向量,并且采用動態(tài)路由算法來更新膠囊參數(shù).而Zhao等[23]首次將膠囊網(wǎng)絡(luò)用于文本建模,驗(yàn)證了膠囊網(wǎng)絡(luò)在文本處理任務(wù)上的有效性.故本文引入膠囊網(wǎng)絡(luò)處理從輸入層接收的語義特征α,得到富含上下文語義信息的局部特征q.
在膠囊網(wǎng)絡(luò)中,激活函數(shù)Squashing既保留了輸入向量的方向,又將輸入向量的模壓縮到(0,1)之間.輸出vj的計(jì)算公式如下:
其中,vj是膠囊j的矢量輸出,sj是總輸入矢量.
膠囊網(wǎng)絡(luò)第一層為一個激活函數(shù)為ReLU的卷積層,除了第一層膠囊外,所有膠囊的總輸入sj是對下面層膠囊的所有預(yù)測向量的加權(quán)求和,它是通過下面層膠囊的輸出ui乘以權(quán)重矩陣Wij而得到的.公式如下:
其中,cij是在動態(tài)路由過程中確定的耦合系數(shù),表示每一個低層膠囊與其相對應(yīng)的高層膠囊之間的權(quán)重.對于每個膠囊i來說,所有的權(quán)重cij的總和為1.cij由采用的動態(tài)路由算法中的softmax函數(shù)決定,計(jì)算公式如下:
其中bij是膠囊i與膠囊j的對數(shù)概率,用來更新cij,并將其初始化為0,在路由迭代過程中,bij會不斷更新,更新公式如下:
本層將聯(lián)合處理層得到的語義特征q和規(guī)則特征k完成融合,具體操作是將規(guī)則特征k拼接到語義特征q之后,得到融合特征m,公式如下:
其中,⊕表示特征的拼接.
之后,將融合層的特征m輸入到一個全連接層,得到輸出f,再通過sigmoid函數(shù)得到結(jié)果S(f).sigmoid公式如下:
其中,S(f)是一個值為0到1的概率.若S(f)大于閾值,則分類結(jié)果判定為1,即當(dāng)前樣本為正例,表示缺失元素可被該候選元素填充;否則,分類結(jié)果判定為0,即當(dāng)前樣本為負(fù)例,表示缺失元素不可被該候選元素填充.
目前,國際上有MUC(僅有English語料)和ACE(有Arabic、Chinese和English3種語料)兩種用于事件抽取的語料庫,未發(fā)現(xiàn)關(guān)于維吾爾語事件抽取的語料.實(shí)驗(yàn)選取天山網(wǎng)、人民網(wǎng)等維吾爾語網(wǎng)頁作為語料來源,利用網(wǎng)絡(luò)爬蟲下載網(wǎng)頁,經(jīng)去重、去噪處理后篩選出包含事件描述的新聞報道文本作為實(shí)驗(yàn)語料,參照ACE標(biāo)注體系,在實(shí)驗(yàn)組維語專家指導(dǎo)下對語料進(jìn)行標(biāo)注.
本實(shí)驗(yàn)共標(biāo)注了210篇語料,按照樣本2構(gòu)建方法,共生成了3 696條樣本數(shù)據(jù).統(tǒng)計(jì)發(fā)現(xiàn)其中包含1 777 條可被當(dāng)前候選元素填充的樣本,有1 919條不可被當(dāng)前候選元素填充的樣本.
特征的選擇對模型的實(shí)驗(yàn)效果有很大的影響,根據(jù)實(shí)驗(yàn)組維吾爾語語言專家的意見,選取了以下18項(xiàng)事件特征和元素特征.
1)事件類別:反映了事件所屬類型,若缺失事件與候選事件類別相同,特征取1;否則,特征取0.
2)事件子類別:進(jìn)一步定義了事件所屬類別,與事件類別類似,若缺失事件與候選事件類別相同,特征取1;否則,特征取0.
3)事件間間隔事件數(shù)目:對實(shí)驗(yàn)語料進(jìn)行統(tǒng)計(jì)可知,缺失事件與候選事件對間隔為[0,3]的約占81%.所以在此范圍內(nèi),特征取1;否則,特征取0.
4)事件對前后關(guān)系:缺失事件與候選事件在文檔中的前后關(guān)系,若缺失事件在前,特征為1;否則,特征為0.
5)事件極性:有Positive和Negative兩種,描述了事件為肯定事件還是否定的事件.若缺失事件與候選事件極性相同,特征取1;否則,特征取0.
6)事件時態(tài):用來描述事件是過去發(fā)生的、正在發(fā)生的還是將來發(fā)生的.若缺失事件與候選事件時態(tài)相同,特征取1;否則,特征取0.
7)依存關(guān)系:兩個事件的觸發(fā)詞出現(xiàn)在一個句子中,則認(rèn)定兩個事件具有依存關(guān)系.若缺失事件與候選事件具有依存關(guān)系,則特征取1;否則,特征取0.
8)和缺失事件類別相同的事件分布:統(tǒng)計(jì)整個文檔中各個類別事件的個數(shù),與缺失事件類別相同的事件個數(shù)作為特征.
9)和缺失事件子類別相同的事件分布:統(tǒng)計(jì)整個文檔中各個類別事件的個數(shù),與缺失事件子類別相同的事件個數(shù)作為特征.
10)和候選事件類別相同的事件分布:統(tǒng)計(jì)整個文檔中各個類別事件的個數(shù),與候選事件類別相同的事件個數(shù)作為特征.
11)和候選事件子類別相同的事件分布:統(tǒng)計(jì)整個文檔中各個子類別的個數(shù),與候選事件子類別相同的事件個數(shù)作為特征.
12)共指關(guān)系:若兩個事件為共指關(guān)系,缺失元素被候選元素填充的概率更大.缺失事件與候選事件具有共指關(guān)系,則特征取1;否則,特征取0.
13)缺失事件與候選元素的距離:統(tǒng)計(jì)缺失事件的觸發(fā)詞與候選元素的間隔詞的個數(shù),個數(shù)為[0,50]的占69%.若在此范圍內(nèi),則特征取1;否則,特征取0.
14)缺失元素在缺失事件中擔(dān)當(dāng)?shù)慕巧?缺失事件的所有元素M A,判斷當(dāng)前缺失元素在M A中的位置(即索引),作為特征.
15)候選元素在候選事件中擔(dān)當(dāng)?shù)慕巧?候選事件的所有元素CA,判斷當(dāng)前候選元素在CA中的位置(即索引),作為特征.
16)和缺失元素類型相同的元素在文檔中分布:根據(jù)定義5,元素類型分為4類,統(tǒng)計(jì)文檔中各個類型元素的個數(shù),與缺失元素類型相同的元素個數(shù)作為特征.
17)候選元素語義角色:語義角色是指名詞和動詞組成語義結(jié)構(gòu)后,名詞在該語義結(jié)構(gòu)中所擔(dān)任的角色.所有語義角色構(gòu)成一個列表,候選元素的語義角色在列表中的位置(即索引)作為特征.
18)候選元素語義類別:語義類別可以很好地反應(yīng)候選元素的信息,根據(jù)實(shí)驗(yàn)組維吾爾語語言專家意見,將維吾爾語具有語義的語義類別劃分為“Hum-人類”、“Loc-地點(diǎn)”等14個類別,所有語義類別構(gòu)成一個列表,候選元素的語義類別在列表中的位置(即索引)作為特征.
為了提高模型的識別效果,在以上18項(xiàng)特征的基礎(chǔ)上,引入了Word Embedding.本文選用了基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的Word Embedding,包含了豐富的上下文信息,充分表示缺失事件觸發(fā)詞、候選事件的觸發(fā)詞和候選元素在文本中的語音信息,同時避免了維數(shù)災(zāi)難[24].本文使用Mikolov 等[25]提出的word2vec工具進(jìn)行訓(xùn)練.為了更準(zhǔn)確地獲取每個詞在低維空間中語義的分布情況,在原有實(shí)驗(yàn)語料的基礎(chǔ)上進(jìn)行了擴(kuò)充,選取天山網(wǎng)、人民網(wǎng)等維語版網(wǎng)頁作為語料來源,利用網(wǎng)絡(luò)爬蟲下載網(wǎng)頁,進(jìn)行去重、去噪處理之后獲取不限題材且未標(biāo)注的文本作為生語料.
在處理候選元素時,會遇到候選元素的詞匯個數(shù)不統(tǒng)一的情況,經(jīng)統(tǒng)計(jì)元素詞匯個數(shù)為[1,5]的占70.87%,設(shè)元素個數(shù)為N,若N ≥5,本文會取當(dāng)前獲選元素的后5個詞;若N<5時,會進(jìn)行補(bǔ)零處理,即N個詞轉(zhuǎn)換成詞向量,5-N個與詞向量維度相同的零向量,合并組成元素詞向量.
本文實(shí)驗(yàn)測評方式采用MUC標(biāo)準(zhǔn),即準(zhǔn)確率P,召回率R和F1考察缺失元素填充性能.其中,衡量模型整體性能的F1=(2×P ×R)/(P+R).
模型的參數(shù)設(shè)置對維吾爾語事件缺失元素填充效果起著關(guān)鍵的作用.最優(yōu)參數(shù)設(shè)置如表3所示.
表3 模型最優(yōu)參數(shù)表Table 3 Optimal parameters
其中,lr表示訓(xùn)練過程中的學(xué)習(xí)率;lrdr學(xué)習(xí)率衰減率;bs表示每一次迭代批處理樣本數(shù);ep表示模型訓(xùn)練最優(yōu)的迭代次數(shù);dr表示訓(xùn)練過程中的丟碼率;opt表示模型優(yōu)化器算法.
為探索不同角度下維吾爾語事件缺失元素填充效果,本文設(shè)計(jì)了如下6個實(shí)驗(yàn):1)樣本構(gòu)建方法對實(shí)驗(yàn)性能的影響;2)本文模型與其他模型實(shí)驗(yàn)性能對比;3)詞向量維度對實(shí)驗(yàn)性能的影響;4)不同種類特征對實(shí)驗(yàn)性能的影響;5)獨(dú)立特征與融合特征對實(shí)驗(yàn)性能的影響;6)IndRNN層數(shù)的影響.
1)樣本構(gòu)建方法對實(shí)驗(yàn)性能的影響
為了驗(yàn)證不同樣本構(gòu)建方法對實(shí)驗(yàn)性能的影響,本文選取兩種樣本構(gòu)建方法.樣本1為不基于元素種類相同規(guī)則的構(gòu)建方法.樣本2為第2.3節(jié)構(gòu)建樣本方法.實(shí)驗(yàn)結(jié)果如表4所示.
表4 不同樣本對實(shí)驗(yàn)性能的影響(%)Table 4 Hyper parameters of experiment(%)
由表4知,不加入元素種類相同的規(guī)則的樣本1,P為85.76%,R為80.6%,F1為83.1%.與樣本1相比,樣本2的P,R和F1分別提高了1.18%,3.54%和2.42%.由此證明了樣本2中基于規(guī)則建方法的有效性,本文中之后的實(shí)驗(yàn)均采用樣本2的構(gòu)建方法.
2)與其他模型實(shí)驗(yàn)性能對比
為了驗(yàn)證本文提出模型的有效性,將本文模型與單獨(dú)的模型、注意力機(jī)制的單獨(dú)模型、組合模型和注意力機(jī)制的組合模型做對比.各個模型均在各自最優(yōu)參數(shù)下進(jìn)行實(shí)驗(yàn),以確保對比實(shí)驗(yàn)結(jié)果的有效性.
由圖2和表5可知,相比于Ind RNN、CapsNet和IndRNN-CapsNet,加入注意力機(jī)制后的模型,F1值分別提高了0.98%、0.61%和2.96%,這是由于注意力機(jī)制可以從眾多特征中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,從而提高了模型的識別能力.與單獨(dú)模型相比,Ind RNN CapsNet的F1值分別提高了3.27%和0.01%,這是因?yàn)镮nd RNN CapsNet同時提取了局部特征和全局語義信息.而本文模型比IndRNN-CapsNet的F1值提高了2.96%,結(jié)合了注意力機(jī)制和組合模型的兩種優(yōu)點(diǎn),使模型達(dá)到最優(yōu).
3)詞向量對實(shí)驗(yàn)性能的影響
詞向量富含詞匯語義和上下文關(guān)系信息,但不同維度的詞向量蘊(yùn)含的語義信息不同.本文分別選擇10,30,50,100和150維作為詞向量的維度進(jìn)行詞實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表6所示.
由表6可知,隨著詞向量維度的增加,詞向量蘊(yùn)含的語義信息越多,在50維時F1值最大,模型性能達(dá)到最優(yōu).當(dāng)維度增加為100維和150維時,F1值分別下降了1.52%和4.4%,這是因?yàn)楦呔S度的詞向量雖然含有更多的語義信息,但同時也會增加一些無用的干擾信息和噪音,從而影響模型的性能.
表5 本文模型與其他模型實(shí)驗(yàn)性能對比(%)Table 5 Comparison between our model and other models (%)
圖2 模型對比圖Fig.2 Comparison between our model and other models
4)語義特征和規(guī)則特征對實(shí)驗(yàn)性能的影響
第4.2節(jié)抽取的18項(xiàng)特征主要是事件類型、事件對位置關(guān)系以及元素分布情況等基于事件和元素的規(guī)則特征,并沒有考慮事件和元素的語義信息.為了探索語義特征對事件缺失元素填充的影響,將去掉語義特征的模型與包含兩類特征的模型做對比.此外,本節(jié)還探索了規(guī)則特征對填充性能的影響,將只包含語義特征的模型與包含全部特征的模型做對比.為了探究維吾爾語語言特點(diǎn)對實(shí)驗(yàn)的影響,本文將去除動詞后綴和格后綴的維吾爾語文本訓(xùn)練的詞向量稱為語義特征A,將原始文本訓(xùn)練的詞向量稱為語義特征B,將兩種不同的語義特征做對比.實(shí)驗(yàn)結(jié)果如表7 所示.
表6 詞向量對實(shí)驗(yàn)性能的影響(%)Table 6 Influence of word vector dimension(%)
表7 不同種類特征對實(shí)驗(yàn)性能的影響(%)Table 7 Influence of different kinds of features(%)
由表7 可知,在去掉語義特征A,只包含規(guī)則特征條件下,其P、R和F1與包含兩類特征的P、R和F1相比分別降低了6.51%,8.57%,7.49%;去掉語義特征B,只包含規(guī)則特征條件下,其P和R與包含兩類特征的P和R相比分別降低了12.28%,6.27%,反映整體性能的F1值降低了9.29%.實(shí)驗(yàn)結(jié)果說明了對語義特征引入的有效性,這是因?yàn)槭录笔г靥畛渑c語義有關(guān),規(guī)則特征只是考慮了事件和元素的內(nèi)部結(jié)構(gòu)特征,缺乏對事件句的語義信息考慮.而與僅包含語義特征A相比,包含兩類特征的模型的P,R和F1值分別上升了3.33%,4.52%和3.89%;與僅包含語義特征B相比,包含兩類特征的模型的P,R和F1值分別上升了8.09%,0.48%和4.34%,由此證明了規(guī)則特征在維吾爾語缺失元素填充上的有效性.包含動詞后綴和格后綴信息的語義特征B與不包含動詞后綴和格后綴信息的語義特征A相比,在單獨(dú)作為特征和與規(guī)則特征結(jié)合兩種情況下,衡量模型整體性能的F1值均有提高,分別提高了1.35%,1.8%,這是因?yàn)榫S吾爾語中動詞后綴和格后綴是表達(dá)語法信息和時態(tài)信息的部分,如果去掉則無法更深層次挖掘維吾爾語文本的語義信息.
5)獨(dú)立特征與融合特征對實(shí)驗(yàn)性能的影響
不同模型對不同種類的特征有著不同的學(xué)習(xí)能力.為探究沒有進(jìn)行融合處理的獨(dú)立特征和融合特征對缺失元素填充的影響,本節(jié)設(shè)計(jì)了將獨(dú)立特征分別輸入Att-Ind RNN和CapsNet中,有Att Ind RNNh-CapsNetw和Att-Ind RNNw-Caps-Neth兩種情況.另外可以將兩種特征融合之后,再分別Att-IndRNN和CapsNet中.其中,CapsNetw表示將語義特征輸入到膠囊網(wǎng)絡(luò)中,w表示語義特征,h表示規(guī)則特征.
由表8可知,Att-Ind RNN處理規(guī)則特征且CapsNet處理語義特征的模型,與Att-Ind RNN處理語義特征且CapsNet處理規(guī)則特征的模型相比,P提高了10.34%,衡量整體性能的F1值提高了4.11%,這是因?yàn)檎Z義特征富含上下文全局特征,經(jīng)過膠囊網(wǎng)絡(luò)后可以獲取其局部信息,而結(jié)合注意力機(jī)制的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)處理規(guī)則特征,可以獲取全局特征.而將兩種特征融合之后再分別輸入到兩個模型,與Att-Ind RNN 處理規(guī)則特征且CapsNet處理語義特征的模型相比,P降低了4.24%,衡量整體性能的F1值降低了2.37%,說明了特征直接融合再經(jīng)過模型處理,雖然特征更加豐富,但是同時也會使噪聲增加.
表8 獨(dú)立特征與融合特征對實(shí)驗(yàn)性能的影響(%)Table 8 Influence of independent features and fusion features(%)
6)獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)的影響
模型中的隱含層直接影響模型對維吾爾語事件缺失元素的填充能力.當(dāng)隱含層過少時,模型不能很好地學(xué)習(xí)到更高階特征.而隱含層過多時,模型可能出現(xiàn)過擬合現(xiàn)象.為了探究獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)對實(shí)驗(yàn)性能的影響,本節(jié)設(shè)計(jì)了1層、2層和3層獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)3種情況,實(shí)驗(yàn)結(jié)果如表9.
由表9可知,2層隱含層與1層隱含層相比,P增加了4.96%,R增加了0.18%,衡量模型整體性能的F1值增加了2.56%,當(dāng)隱含層增加到3層時,P,R和F1值分別降低了4.38%,2.76%和3.56%.這是因?yàn)槟P徒?jīng)過多層獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)所提取的高階特征不同.針對維吾爾語事件缺失元素填充,獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)為2時,模型性能最優(yōu).
表9 獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)對實(shí)驗(yàn)性能的影響(%)Table 9 Influence of the number of Ind RNN(%)
事件缺失元素填充的研究有助于事件抽取技術(shù)的發(fā)展.現(xiàn)有的研究主要針對英語、漢語等大語種,對于維吾爾語事件缺失元素填充的研究很少,且現(xiàn)有的研究未考慮事件和事件元素的上下文語義關(guān)系.針對以上不足,本文提出了結(jié)合注意力機(jī)制的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)并行的維吾爾語事件缺失元素填充模型.該方法將由詞向量構(gòu)成的語義特征和事件觸發(fā)詞與事件元素構(gòu)成的規(guī)則特征分別輸入兩個不同的模型,即膠囊網(wǎng)絡(luò)和注意力機(jī)制的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò),之后將兩個模型輸出的兩種特征融合,作為分類器的輸入進(jìn)而完成事件缺失元素填充.此外,本文還將事件元素分為4 類,按照元素類型相同的規(guī)則進(jìn)行匹配,來構(gòu)建樣本,從而進(jìn)一步提升了模型的性能.
致謝
感謝楊啟萌、祁青山、牛苗、王歡歡等同學(xué)對本文提供的幫助和支持,在此謹(jǐn)向他們致以誠摯的謝意!