劉 洪 陳增照 張 婧 陳 榮 魯圓圓
1(華中師范大學(xué)教育大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室 湖北 武漢 430079) 2(華中師范大學(xué)國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心 湖北 武漢 430079)
篇章關(guān)系識別(Discourse Relation Recognition)作為自然語言處理的基礎(chǔ)性研究,是以篇章粒度的連續(xù)句子對為分析目標(biāo),以字、詞為編碼粒度抽取句子中的語義結(jié)構(gòu),生成篇章論元表示,進(jìn)而識別篇章關(guān)系,幫助機(jī)器更好地自動理解文本。該問題的解決能應(yīng)用于諸多自然語言處理的下游任務(wù),如機(jī)器翻譯[1]、自動文摘[2]和事件關(guān)系抽取[3]等。
根據(jù)篇章連接詞的有無,篇章關(guān)系可分為顯、隱式篇章關(guān)系(Explicit & Implicit Discourse Relation)。表1中的例子對顯、隱式篇章關(guān)系進(jìn)行了解釋。
表1 顯、隱式篇章關(guān)系舉例
顯式篇章關(guān)系中由于存在明顯的篇章連接詞,其識別在特征工程[4-5]階段已達(dá)到較好的識別效果。而隱式篇章論元對中由于缺乏明顯篇章連接詞,故需要抽取論元對之間的深層語義特征來構(gòu)建篇章邏輯關(guān)系,這一過程較為復(fù)雜,因此隱式篇章關(guān)系識別也成為篇章關(guān)系識別中的主要問題。在特征工程階段,已有工作主要通過抽取句法、詞性、詞頻和情感極性等傳統(tǒng)語言學(xué)特征[6-7]的機(jī)器學(xué)習(xí)方法進(jìn)行隱式篇章關(guān)系的識別。但這種方法工作量大、過程繁瑣,難以捕獲深層的語義結(jié)構(gòu)特征。而應(yīng)用目前主流的深度學(xué)習(xí)方法可以很好地避免這些缺點。
在深度學(xué)習(xí)方法中,篇章關(guān)系識別任務(wù)一般通過對原始論元進(jìn)行層層編碼,通過編碼來抽取論元對的語義結(jié)構(gòu),從而實現(xiàn)分類。而論元編碼中的序列特征對語義結(jié)構(gòu)抽取至關(guān)重要。當(dāng)前主流的編碼方式主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)[8-9]以及注意力機(jī)制[10-13]。循環(huán)神經(jīng)網(wǎng)絡(luò)對于序列特征具有很好的表征能力,注意力機(jī)制則具有很好的全局視野且并行速度快。其中,Liu等[10]通過模擬人類閱讀的方式采用Bi-LSTM編碼論元,通過兩層外部注意力機(jī)制反復(fù)閱讀論元來重新分配論元權(quán)重。Guo等[13]則通過Bi-LSTM編碼后,采用一種交互注意力機(jī)制對論元進(jìn)行交互表示,提升了論元的序列表達(dá)。在此基礎(chǔ)上,徐昇等[12]提出了一種三層注意力網(wǎng)絡(luò)架構(gòu),該網(wǎng)絡(luò)直接使用注意力機(jī)制進(jìn)行編碼,能較好地捕獲長期的依賴和全局詞對線索。但以上網(wǎng)絡(luò)中均采用單一的初步論元編碼結(jié)構(gòu),或僅通過論元間交互來強(qiáng)化序列表示,容易忽略字、詞粒度上局部序列信息的表達(dá)。
基于上述研究,本文提出一種增強(qiáng)序列表示的注意力網(wǎng)絡(luò)架構(gòu)(RC-MLAN),模型通過添加循環(huán)卷積模塊(RC-Encoder)來捕捉更為細(xì)粒度的局部序列特征,并且這種循環(huán)卷積模塊與文獻(xiàn)[12]的三層注意力網(wǎng)絡(luò)(TLA-Encoder)采用并行架構(gòu)的方式。最后模型采用了文獻(xiàn)[10]中的外部注意力機(jī)制,把TLA-Encoder得到的全局詞對聯(lián)系作為一種外部記憶,反復(fù)地閱讀RC-Encoder抽取的重要序列表示,從而生成包含豐富序列信息的最終論元表示。
本文的主要貢獻(xiàn)包括:(1) 提出一種包含循環(huán)卷積模塊的四層注意力網(wǎng)絡(luò)架構(gòu),增強(qiáng)了最終論元的序列信息表示。(2) 在循環(huán)卷積模塊中采用了一種細(xì)粒度的序列特征編碼方式,并通過一種局部卷積突出了序列特征中的重要信息。(3) 使用了一種外部記憶的注意力機(jī)制,用原有三層注意力網(wǎng)絡(luò)提取的詞對線索重復(fù)閱讀這種更細(xì)粒度的序列表示,使最終論元表示中包含更細(xì)節(jié)的序列信息。
由于英文的語料資源較為豐富,在隱式篇章關(guān)系識別任務(wù)已有工作較多,主要分為傳統(tǒng)特征工程的方法和深度學(xué)習(xí)的方法。在傳統(tǒng)特征工程階段,主要分為兩類:(1) 將句法結(jié)構(gòu)、詞匯、情感極性等淺層信息用于機(jī)器學(xué)習(xí)的方法[6];(2) 通過標(biāo)注篇章連接詞,采用預(yù)測連接詞的方法來進(jìn)行篇章關(guān)系分類。后期由于深度學(xué)習(xí)方法的興起,涌現(xiàn)許多解決該任務(wù)的神經(jīng)網(wǎng)絡(luò)模型[11-15]。Nie等[15]利用依存關(guān)系分析和基于規(guī)則的方法自動挑選出顯示語料,用Bi-LSTM生成有效的句子表示來提升隱式篇章的識別效果。Guo等[13]模擬人類閱讀的方式,采用了一種交互注意力機(jī)制增強(qiáng)論元交互從而抽取更深層次的篇章語義信息。此外,有部分工作[16-17]通過擴(kuò)展和平衡數(shù)據(jù)集的方式來進(jìn)一步提升隱式篇章識別效果,這種方法對后期英文篇章方面工作和中文篇章關(guān)系研究均有所啟發(fā)。英文隱式篇章關(guān)系起步早,研究成果相對較多,但由于中英文在語言形式和表達(dá)習(xí)慣上的差異,針對英文任務(wù)的方法并不能直接應(yīng)用于中文領(lǐng)域。
就目前中文隱式篇章識別研究工作而言,由于語料資源較為稀少,在該任務(wù)上的研究工作不多,已有的方法主要分為傳統(tǒng)特征方法和深度學(xué)習(xí)階段。在傳統(tǒng)特征方法上,Huang等[18]在自建語料上就句子長度、標(biāo)點、連詞和共享詞等淺層語言學(xué)特征進(jìn)行整合探究。張牧宇等[5]利用依存句法等特征提出了一種多元SVM和最大熵模型分類器,由于SVM存在對邊界的敏感性,效果優(yōu)于最大熵分類器。孫靜等[19]利用上下文特征、詞匯特征和依存樹特征提出了一種最大熵模型,在并列類識別效果較好。李國臣等[20]提出了一種漢語框架語義網(wǎng),通過識別句子中的目標(biāo)詞對篇章單元進(jìn)行分析從而識別篇章關(guān)系。由于傳統(tǒng)方法需要人工抽取特征,過程繁瑣且特征較為淺表,難以捕獲深層的語義結(jié)構(gòu),因而深度學(xué)習(xí)的方法在近年的中文隱式篇章關(guān)系研究中逐漸興起。R?nnqvist等[8]采用了一種循環(huán)神經(jīng)網(wǎng)絡(luò)抽取論元的序列特征,并通過Attention機(jī)制來重新計算詞序權(quán)重。田文洪等[9]構(gòu)建了一種多任務(wù)架構(gòu)的雙端長短時記憶網(wǎng)絡(luò)(Bi-LSTM),通過擴(kuò)充顯示語料的訓(xùn)練方式解決了訓(xùn)練語料不足的問題,并取得了較好的魯棒性。徐昇等[12]通過模擬人類反復(fù)閱讀的模式提出了一種多層注意力網(wǎng)絡(luò),通過共享自注意力(Self-Attention)層直接對論元進(jìn)行編碼,并通過交互注意力和外部記憶的方式抽取深層語義完成篇章論元對的最終表示。
由于已有的方法中大多只采用了一種初步論元的編碼方式,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼方式具有很好的序列表示,而結(jié)合注意力機(jī)制的方法則具有很好的全局視野,考慮到經(jīng)過多層注意力后表示中容易忽略字符序列信息,因此本文嘗試用兩種不同的編碼方式來抽取論元特征,并通過一種局部卷積來突出重要的局部序列特征,增強(qiáng)論元的序列表示。此外,通過一種外部注意力將兩種編碼方式進(jìn)行融合,使注意力網(wǎng)絡(luò)結(jié)構(gòu)中生成的最終論元表示中包含豐富的局部序列信息。
本文提出的增強(qiáng)序列表示的多層注意力網(wǎng)絡(luò)架構(gòu)主要包括TLA-Encoder、RC-Encoder和IEM-Attention層,其整體框架如圖1所示。
圖1 RC-MLAN網(wǎng)絡(luò)結(jié)構(gòu)
模型通過Source Embedding層將論元對Arg1和Arg2初始化為包含詞性特征的融合向量表示E1和E2,再將E1、E2送入TLA-Encoder層和RC-Encoder層分別提取語義信息和序列信息。
在TLA-Encoder中,文本采用文獻(xiàn)[12]提出的三層注意力網(wǎng)絡(luò),利用Self-Attention對論元直接編碼得到H1和H2,然后在Interactive Attention層對H1和H2進(jìn)行交互閱讀得到交互表示H3和H4,并通過非線性變化得到初步的論元語義表示M,最后由IEM-Attention模擬人類反復(fù)閱讀的方式把M作為外部記憶引導(dǎo)H1和H2生成篇章語義表示MTLA。
在RC-Encoder中,首先將E1、E2送入Bi-LSTM來提取論元對的詞序信息,然后通過局部卷積對論元序列抽取重要的局部特征L,最后通過L來重新分配論元序列中的權(quán)重,得到論元序列的強(qiáng)化表示O。
在兩個Encoder層獲得各自的特征后,將篇章語義表示MTLA作為頂部IEM-Attention層的外部記憶,通過重復(fù)讀RC-Encoder層得到的序列表示O,從而得到包含豐富序列信息的最終論元表示R,并在softmax層中完成篇章關(guān)系的分類。
由于用低維稠密的數(shù)值向量來表征詞的方式可以提升模型處理文本數(shù)據(jù)的能力,這種通過預(yù)訓(xùn)練的語言模型來生成低維稠密詞向量的方式在自然語言處理中得到廣泛應(yīng)用。為了增強(qiáng)詞向量的表征能力,將詞的word2vec[21]編碼和詞性特征進(jìn)行了拼接。
模型的輸入由論元Arg1和Arg2構(gòu)成,用xi表示論元中位置為i的詞,則每個論元表示為:
Arg={x1,x2,…,xn}
(1)
在經(jīng)過Source Embedding層后,論元對的編碼表示為E1∈Rm×dime,E2∈Rm×dime:
(2)
(3)
Xt={Xt,w2v?Xt,p}
(4)
式中:Xt,w2v表示word2vec訓(xùn)練生成的詞向量;Xt,p表示詞性向量;t表示詞在論元中的位置。
注意力機(jī)制編碼并行速度快,且對于捕捉句子的語義信息具有較好的全局視野。在文本處理問題中,注意力機(jī)制能較好地捕捉到文本中的詞對線索。而篇章關(guān)系問題的核心在于理解篇章論元的邏輯語義,邏輯語義可以通過論元中詞對的相關(guān)性來體現(xiàn)。受文獻(xiàn)[12]啟發(fā),本文采用了一個三層的注意力網(wǎng)絡(luò)作為語義編碼模塊。首先通過兩個獨立的自注意力層[22]對論元進(jìn)行初步編碼,通過該機(jī)制計算論元自身的詞對權(quán)重矩陣,從而得到初始論元的淺層語義結(jié)構(gòu)。同時,為了增強(qiáng)論元間的序列表示,采用了文獻(xiàn)[12]中的交互注意力機(jī)制模擬人類閱讀,通過重新計算論元間的詞對權(quán)重矩陣來提取論元間的詞對線索。再將這兩個論元的交互表示拼接后進(jìn)行非線性變換,得到論元的外部記憶表示。最后,這種外部記憶通過外部注意力機(jī)制[10]重復(fù)閱讀論元對的初步編碼,最后得到篇章的語義表示MTLA。
2.2.1自注意力(Self-Attention)
由Source Embedding層初始化論元后,使用自注意力對其進(jìn)行初步編碼。公式如下:
(5)
由于兩個論元具有不同的語義結(jié)構(gòu),本文采用非共享方式對嵌入層表示E1和E2分別進(jìn)行初步編碼,公式如下:
(6)
(7)
2.2.2交互注意力
考慮到自注意力是對兩個論元獨立編碼,而篇章關(guān)系本質(zhì)上是兩個論元對之間的語義關(guān)聯(lián),缺乏交互的論元表示難以表達(dá)篇章語義聯(lián)系。受已有研究[10,12]啟發(fā),本文也使用了一種模仿人類閱讀的方式反復(fù)閱讀論元。通過論元間的詞對矩陣重新調(diào)整論元自身權(quán)重矩陣,使兩個論元的表示具有更廣闊的篇章語義視野。式(8)-式(9)表示論元的交互生成。
(8)
(9)
在得到論元各自交互表示H3、H4后,通過平均池化操作和非線性變換來獲得論元的外部記憶M∈Rdi,公式如下:
(10)
(11)
M=tanh(Wm·concat(P1,P2,P1-P2))
(12)
2.2.3包含外部記憶的注意力(IEM-Attention)
根據(jù)人類閱讀的習(xí)慣,通過反復(fù)閱讀[10]有助于更深層次地理解文本。這是因為在重讀閱讀的過程中,先前的閱讀記憶會幫助下一次閱讀更好地理解文本。因此,在篇章關(guān)系的識別中,本文也嘗試通過這種反復(fù)的閱讀來更深入地理解文本。公式如下:
f(C,M)=tanh(C+Me)·Wf
(13)
g(C,M)=softmax(f(C,M))
(14)
IEMAttention(C,M)=g(C,M)·C
(15)
式中:C表示論元編碼;Me表示記憶;Wf∈Rdj×dj表示變換矩陣。
在TLA-Encoder中,模型使用篇章層面的詞對線索M作為論元的外部記憶,通過M對兩個論元進(jìn)行重復(fù)的閱讀,增強(qiáng)對論元的理解,同時重新分配原始論元的權(quán)重矩陣,從而使論元編碼具有更廣闊的全局視野。模型經(jīng)外部記憶M重新理解H1得到了更深層次的語義表示H5∈Rm×dk,公式如下:
Me1=e1?M
(16)
H5=IEMAttention(H1W5,Me1We1)
(17)
式中:e1∈Rm表示全1向量,e1?M表示將外部記憶M復(fù)制m次得到Me1∈Rm×di;W5∈Rds×dk和We1∈Rdi×dk表示轉(zhuǎn)換矩陣表示轉(zhuǎn)換矩陣。同理也可以得到H6∈Rn×dk。最后,對H5、H6進(jìn)行非線性變化,得到篇章的語義表示MTLA∈R(n+m)×dk。
MTLA=tanh(Wm·concat(H5,H6,H5-H6))
(18)
式中:Wm表示線性變換矩陣。
同時,本文還嘗試從不同的角度來反復(fù)地理解篇章論元。由于注意力編碼機(jī)制能很好地捕捉詞對相關(guān),但經(jīng)過多層注意力編碼之后,模型獲得豐富的詞對線索的同時會忽略對原始論元中的字符序列信息的關(guān)注。因此,本文還利用這種包含外部記憶的注意力機(jī)制,將TLA-Encoder的語義編碼作為序列表示的外部記憶,通過具有全局視野的詞對線索反復(fù)理解包含豐富局部特征的論元序列,從而使生成的最終論元表示R∈Rdj既保留了全局的詞對線索,也包含豐富的局部序列特征。其公式如下:
Me3=e3?MTLA
(19)
R=IEMAttention(OTWO,Me3We3)
(20)
式中:O是RC-Encoder生成的序列表示;e3∈Rn+m表示全1向量;WO∈Rdhid×dj,We3∈Rdk×dj表示變換矩陣。
具體而言,篇章關(guān)系表示為兩個連續(xù)句子之間的語義邏輯,其序列信息對其十分重要。由于注意力機(jī)制主要關(guān)注句子中的詞對信息,且經(jīng)過多層注意力編碼之后,模型會逐漸丟失原始論元中的字符序列信息。常見的序列表示方法是通過RNN及其變種[8-10,13]對于兩個論元進(jìn)行序列編碼,然后通過注意力機(jī)制重新進(jìn)行論元的權(quán)重分配。Cai等[23]構(gòu)建了一種循環(huán)卷積模塊來強(qiáng)化Transformer[22]的序列表示,在Bi-LSTM編碼下采用多次連續(xù)卷積操作來提取序列中的重要信息。本任務(wù)數(shù)據(jù)較文獻(xiàn)[23]的自動摘要數(shù)據(jù)長度相對更短,因此通過多次卷積后視野更大,會降低局部序列特征的抽取效果,同時大量的卷積操作也會限制模型速度的提升。因此,本文通過控制卷積次數(shù)和卷積核大小來抽取n-gram特征進(jìn)一步強(qiáng)化序列表示,使得序列特征更容易被上層的注意力機(jī)制捕獲,從而生成序列信息更為豐富的論元表示。
2.3.1雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)
雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變形,在多種自然語言處理的任務(wù)中取得了不錯的效果。Bi-LSTM在神經(jīng)元中添加門結(jié)構(gòu)元,控制了信息通過的量,解決了RNN中存在的長期依賴問題。另外,Bi-LSTM通過后向計算,將正向序列特征與反向序列特征進(jìn)行疊加輸出,從而得到了文本的雙向序列特征。
融合詞向量表示E1、E2在經(jīng)過拼接之后送入Bi-LSTM抽取其序列特征得到其隱含序列文本表示S∈R(m+n)×dhid。其中,dhid表示BiLSTM的中間隱含層維度。
S=BiLSTM(E1?E2)
(21)
式中:m、n表示不同論元融合嵌入后長度。
2.3.2局部卷積(LocalConvolution)
本文用兩個卷積層進(jìn)一步強(qiáng)化局部序列表示。如圖2所示,本模塊在得到序文本列表示S后,通過兩個不同的卷積核去對序列進(jìn)行卷積操作。其結(jié)構(gòu)如圖2所示。
圖2 局部卷積結(jié)構(gòu)
通過卷積得到n-gram特征表示為Dk∈R(m+n)×dhid,其中:k表示卷積核的大??;dhid表示卷積層輸出的維度。將兩次卷積的結(jié)果進(jìn)行非線性變換,得到重要的局部特征D∈R(m+n)×2dhid。
D=concat(D1,D3)
(22)
L=σ(WdDT+bd)
(23)
式中:σ表示Sigmoid函數(shù);bd∈Rdhid×(m+n)表示偏置矩陣。
這里設(shè)置了一個過濾機(jī)制,根據(jù)卷積操作得到的局部重要性來過濾序列文本,從而突出序列中的重要局部信息。公式如下:
O=L⊙(WsST+bs)
(24)
式中:⊙表示點積操作;Wd∈Rdhid×2dhid,Ws∈Rdhid×dhid表示變化矩陣;bs∈Rdhid×(m+n)表示偏置矩陣。
最后,式(19)-式(20)以語義編碼的結(jié)果MTLA為外部記憶再次閱讀包含豐富局部序列特征的論元表示O,引導(dǎo)生成論元的最終表示R。再通過一個非線性變換將這種表示送入到Softmax層完成篇章關(guān)系的識別,如式(25)-式(26)所示。
t=ReLU(WrR+br)
(25)
(26)
式中:ReLU表示激活函數(shù);Wr∈Rdr×dj和Wt∈Rdy×dr表示權(quán)重矩陣;br∈Rdr和bt∈Rdy表示偏置矩陣。
本實驗在NVIDIA 1060上展開,內(nèi)存16 GB,其中軟件環(huán)境為Python 3.6.7,Tensorflow-gpu 1.14,Keras 2.3.1,jieba 0.39,gensim 3.8.1。
實驗所采用的語料庫為HIT-CDTB語料[24]。該語料共標(biāo)記了525篇文章,按有無篇章詞分為顯、隱式篇章關(guān)系;按句間語義邏輯分為時序、因果、平行、條件、比較和擴(kuò)展六大類篇章關(guān)系,并在大類基礎(chǔ)上進(jìn)行細(xì)分,共計55個小類。由于不同類別語料分布不均,本文僅選取了因果、比較、擴(kuò)展和平行這四類語料展開實驗。由于顯式語料與隱式語料最大的特點是篇章連接詞的有無,其兩者在語義結(jié)構(gòu)上是相似的,因此本實驗訓(xùn)練時采用部分顯式語料對隱式語料進(jìn)行擴(kuò)充[16]。具體語料細(xì)節(jié)如表2所示。
表2 語料分布
本實驗的訓(xùn)練語料由顯式語料和70%的隱式語料構(gòu)成,余下30%的隱式語料作為測試集,其細(xì)節(jié)如表3所示。
表3 訓(xùn)練集與測試集分布
其中,實驗詞向量設(shè)置為300維,詞性向量維度為50維。注意力變換矩陣維數(shù)為350維,Bi-LSTM的隱含層節(jié)點數(shù)為700維;局部卷積步長為1和3,采用邊界填充的方式保證卷積結(jié)果維度一致;IEM-Attention的變換矩陣維數(shù)為350維。在實驗過程中,采用交叉熵作為損失函數(shù)來優(yōu)化模型參數(shù)。用微平均(Micro-F1)和宏平均(Macro-F1)作為主要的參考指標(biāo),并對每一個小類采用了調(diào)和平均值(F1)作為評估標(biāo)準(zhǔn)。
為了驗證增強(qiáng)序列表示的多層注意力網(wǎng)絡(luò)的有效性,本文選取了Bi-LSTM[25]作為本文的基準(zhǔn)模型,并與基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN-Attention)[8]、多任務(wù)雙端長短時記憶網(wǎng)絡(luò)(Multi-Task Bi-LSTM,MT Bi-LSTM)[9]和多層注意力神經(jīng)網(wǎng)絡(luò)(TLAN)[12]進(jìn)行了對比,結(jié)果如表4所示。
表4 模型試驗結(jié)果
基準(zhǔn)模型憑借較好的雙向序列表征能力,在Micro-F1和Macro-F1上分別取得56.82%和46.31%的實驗效果。RNN+Attention機(jī)制的方法缺乏對論元的逆向序列表征能力,在整體識別效果上較基準(zhǔn)模型欠佳,但由于Attention機(jī)制能抽取序列表示中的詞對相關(guān)性,在平行和對比語料中取得了與基準(zhǔn)模型相當(dāng)?shù)男Ч6嗳蝿?wù)學(xué)習(xí)通過共享網(wǎng)絡(luò)層學(xué)習(xí)顯示特征輔助分析隱式語料具有良好的魯棒性,相比于基準(zhǔn)模型在Micro-F1提升了約0.022 1,Macro-F1提升了約0.000 4,尤其相對于基準(zhǔn)模型在擴(kuò)展和平行占比相對較高的語料上分別有0.025 4和0.016 2的提升;但該方法在對比類語料中識別效果欠佳,主要原因是多任務(wù)的方法大量地增加了訓(xùn)練參數(shù),而對比語料過少導(dǎo)致隱式層參數(shù)欠擬合。TLAN中的注意力編碼具有強(qiáng)大的詞對聯(lián)系捕獲能力,并通過交互機(jī)制來模擬雙向閱讀抽取論元的交互信息,并通過引入外部記憶的方式反復(fù)地理解論元,相比于基準(zhǔn)模型在Micro-F1提升了約0.042 3,Macro-F1提升了約0.009 7,同時在對比、擴(kuò)展和平行三種語料中均取得了較前三種方法更好的實驗效果。
增強(qiáng)序列表示的多層注意力網(wǎng)絡(luò)與其他模型相比均取得了更好的效果,較基準(zhǔn)模型在Micro-F1提升了約0.110 6,Macro-F1提升了約0.085 7。同時,該模型在四類語料中的實驗效果均好于基準(zhǔn)模型,尤其在語料占比較大的擴(kuò)展語料中效果提升較大。這是因為不同結(jié)構(gòu)的模型對于論元的特征抽取能力是不同的,多層注意力網(wǎng)絡(luò)對于詞對聯(lián)系這種語義特征具有較好的抽取能力,而RC-Encoder除了能抽取相關(guān)的語義特征以外,還具有較強(qiáng)的序列表征能力,并通過卷積操作過濾出了重要的局部序列特征和語義信息。相比于循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制單一的論元編碼方式,本文模型在保留了注意力機(jī)制強(qiáng)大的語義信息抽取能力的同時,還通過IEM-Attention機(jī)制反復(fù)地對序列表示進(jìn)行重復(fù)閱讀,增強(qiáng)了最終論元的序列表征能力,因此能夠較好地提升分類實驗效果。
為了進(jìn)一步驗證RC-Encoder對于提升模型性能的有效性,在該部分設(shè)置了三個自我對比實驗。實驗設(shè)置如下:
(1) 基準(zhǔn)模型(Base):在基準(zhǔn)模型中,直接將Source Embedding層的論元表示和TLA-Encoder的論元編碼作為頂層IEM-Attention的輸入。
(2) Base+Bi-LSTM:用Bi-LSTM替換RC-Encoder。
(3) Base+RC-Encoder(RC-MLAN)。
實驗結(jié)果如表5所示,通過在基準(zhǔn)模型中添加Bi-LSTM模塊使得隱式篇章分類效果在Micro-F1和Macro-F1上分別獲得了0.026 8和0.025 1的提升;添加RC-Encoder模塊使得隱式篇章分類效果在Micro-F1和Macro-F1上分別獲得了0.067 4和0.072 4的提升。這是因為RC-Encoder中的Bi-LSTM增強(qiáng)了論元的雙向序列表征能力,而局部卷積操作所提取的N-gram特征有利于進(jìn)一步強(qiáng)化這種序列特征。此外,本文還對單一類型語料的實驗結(jié)果進(jìn)行了分析。通過添加Bi-LSTM模塊,實驗結(jié)果在對比、擴(kuò)展、平行和因果四類語料的F1值分別獲得了0.022 1,0.011 6,0.022 6和0.032 8的提升;通過添加RC-Encoder,實驗結(jié)果在對比、擴(kuò)展、平行和因果四類語料的F1值分別獲得了0.077 5,0.044 7,0.041 2和0.062 3的提升。這種具有多特征抽取的編碼機(jī)制,不僅保留了多層注意力網(wǎng)絡(luò)中的注意力編碼和交互編碼的語義聯(lián)系,同時,通過Bi-LSTM和局部卷積對論元序列進(jìn)行有效的過濾,并通過頂層的IEM-Attention機(jī)制增強(qiáng)了最終論元表示的序列表達(dá)能力,從而能提升模型對于單一類別的識別效果,這也說明了這種通過增強(qiáng)論元序列表示的方法對于隱式篇章識別是有效。
表5 RC-MLAN變體實驗結(jié)果
將Base+Bi-LSTM模型作為該部分的基準(zhǔn)模型,通過設(shè)置不同的卷積層來探究局部卷積操作對模型性能的影響,結(jié)果如表6所示。
表6 局部卷積層數(shù)對模型性能的影響
通過將局部的卷積層數(shù)設(shè)置為1~5,與沒有局部卷積操作的Bi-LSTM進(jìn)行了對比。實驗發(fā)現(xiàn),當(dāng)卷積層數(shù)等于2時,對模型性能提升最大。而當(dāng)卷積層數(shù)逐漸增大時,其整體性能會逐漸下降。這是因為隨著卷積層數(shù)的增多,卷積層的視野逐漸增大,這樣對于局部序列特征的過濾能力會下降;同時增加卷積層數(shù)也會導(dǎo)致訓(xùn)練參數(shù)增多,加大了模型訓(xùn)練的負(fù)荷,在訓(xùn)練數(shù)據(jù)有限的情況下會導(dǎo)致模型性能下降。
針對中文隱式篇章關(guān)系識別任務(wù),本文提出一種增強(qiáng)序列表示的多層注意力網(wǎng)絡(luò)模型。本文通過RC-Encoder中的Bi-LSTM抽取序列特征并用局部卷積抽取局部特征來突出重要的序列信息。最后使用了一種包含外部記憶的注意力使得到的詞對關(guān)聯(lián)作為序列編碼的外部記憶,模擬人類閱讀的方式反復(fù)理解這種序列表示并引導(dǎo)最終的論元生成。實驗表示,本文提出的模型在HIT-CDTB語料上的實驗效果在Micro-F1和Macro-F1上均超過了已有模型,并通過設(shè)置自我對比實驗和討論局部卷積層數(shù)探究了RC-Encoder對于模型性能的影響,充分說明了這種增強(qiáng)模型的序列表征能力的方法對中文隱式篇章關(guān)系分類是有效的。