徐 昇,王體爽,李培峰,朱巧明
(1. 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 江蘇省計算機信息技術(shù)處理重點實驗室,江蘇 蘇州 215006)
作為自然語言處理中的一個基礎(chǔ)任務(wù),篇章分析專注于分析文本單元(例如,子句、句子、句群)之間的關(guān)系和結(jié)構(gòu),從而將文本解析為篇章樹。篇章關(guān)系識別是篇章分析中一個重要的子任務(wù),其目的在于識別出兩個連續(xù)文本單元(稱之為論元)Arg1和Arg2之間的語義聯(lián)系。自動識別篇章關(guān)系可以為許多下游的應(yīng)用提供幫助,例如,文本摘要和信息抽取。已有的研究表明,連接詞是篇章關(guān)系識別中的一個重要線索,對于存在連接詞的顯式篇章關(guān)系識別而言,一個簡單的基于頻率的映射就能達到很高的分類精度[1],而對無連接詞的隱式篇章關(guān)系的識別則一直是一個難題[2],因為其完全依賴于對文本的語義理解。例1給出了一個論元之間存在因果關(guān)系的例子,其中Arg1是Arg2的原因。
例1 [Arg1]上海浦東近年來頒布實行了涉及經(jīng)濟、貿(mào)易、建設(shè)、規(guī)劃、科技、文教等領(lǐng)域的七十一件法規(guī)性文件,
[Arg2]確保了浦東開發(fā)的有序進行。
[隱式連接詞]由此
[篇章關(guān)系]因果關(guān)系
目前,大部分的隱式篇章關(guān)系識別工作專注于直接識別兩個論元之間的篇章關(guān)系,包括: ①抽取語言學(xué)特征后運用機器學(xué)習(xí)模型的傳統(tǒng)方法[2-3]; ②通過對論元建模之后捕獲論元之間語義聯(lián)系的神經(jīng)網(wǎng)絡(luò)方法[4-7];也有部分工作先預(yù)測出連接詞[8],或者使用標(biāo)注的連接詞信息來進行數(shù)據(jù)增強[9];還有一些工作利用未標(biāo)記的數(shù)據(jù),進行了多任務(wù)或無監(jiān)督方法的探索[10]。傳統(tǒng)方法依賴于手工構(gòu)建的特征工程,不僅工作量大,而且淺層的語言學(xué)特征難以捕獲論元的深層語義,因而在篇章關(guān)系任務(wù)上表現(xiàn)不佳。神經(jīng)網(wǎng)絡(luò)模型在論元表示上更具優(yōu)勢[4],并且能夠從語義層面捕獲論元之間的聯(lián)系,因而相比于傳統(tǒng)方法獲得了可比較、甚至更好的性能,且存在很大的提升空間。
篇章關(guān)系識別本質(zhì)上是一個“論元對”分類問題,因而對于神經(jīng)網(wǎng)絡(luò)方法來說,需要思考的就是如何對論元建模以及如何捕獲論元之間的語義聯(lián)系。已有的工作大多采用各種Bi-LSTM或者CNN的變體對論元進行編碼[4,6],但是循環(huán)網(wǎng)絡(luò)難以并行,而卷積網(wǎng)絡(luò)在捕獲全局信息方面存在不足。在捕獲語義聯(lián)系方面,常見的方法[5,11]是在兩個論元之間運用記憶單元或Bilinear[12]等模型捕獲向量之間的交互,或者直接通過注意力機制來對交互建模。特別地,考慮到大部分方法都僅模擬了對文本的單程閱讀過程,難以勝任篇章關(guān)系識別這種需要深入理解文本語義的任務(wù),Liu和Li[6]從人類閱讀理解的角度出發(fā),提出了重復(fù)堆疊注意力網(wǎng)絡(luò),用于模擬人類的重復(fù)閱讀過程。Guo等[7]認為現(xiàn)有的方法大多在表示階段忽略了論元之間的雙向交互,因而從視覺感知的兩階段模型出發(fā),提出了一種交互注意力(interactive attention)機制來增強論元的表示。
受文獻[6-7]的啟發(fā),本文提出了一個三層注意力網(wǎng)絡(luò)模型(TLAN),用于識別隱式篇章關(guān)系。首先通過Self-Attention層對論元進行初步編碼,在一定程度上克服了Bi-LSTM和CNN的不足。之后在Guo等[7]工作的基礎(chǔ)上,采用一種計算粒度更小的Interactive Attention層來模擬人類的雙向閱讀過程,從而在論元的編碼過程中就考慮了論元之間的交互,并且通過非線性變換提取了論元對的外部記憶。最后通過Liu和Li[6]提出的包含外部記憶的注意力層來模擬人類的重復(fù)閱讀過程,并且把論元對記憶作為一個貫穿全局的向量來引導(dǎo)論元最終表示的生成。
本文的主要貢獻有:
(1) 提出了一個三層注意力神經(jīng)網(wǎng)絡(luò)模型,結(jié)合了模擬人類雙向閱讀和重復(fù)閱讀過程的方法;
(2) 使用Self-Attention層對論元進行編碼,使得輸出序列不僅保留了論元的原始信息,還包含了全局的信息;
(3) 使用Interactive Attention層對論元之間的交互建模,采用細粒度的計算方法,對于每一個注意力權(quán)重向量都生成對應(yīng)的語義表示。
隨著語料庫PDTB[13]和RST-DT[14]的發(fā)布,許多工作采用傳統(tǒng)方法[2-3,15]或者神經(jīng)網(wǎng)絡(luò)方法[4-7,9]對英語隱式篇章關(guān)系識別任務(wù)進行了探索。
Zhang等[4]提出了一個淺層卷積網(wǎng)絡(luò)用于識別篇章關(guān)系,通過結(jié)合多種卷積操作來獲得論元不同層面的語義特征信息。Chen等[5]提出了一個帶有門控單元的神經(jīng)網(wǎng)絡(luò)模型,在論元之間同時捕獲線性和非線性交互信息,從而產(chǎn)生匹配矩陣來分析論元之間的語義聯(lián)系。Li等[16]在包含注意力機制的Bi-LSTM的基礎(chǔ)上,通過基于張量的轉(zhuǎn)換函數(shù)來捕獲論元之間的語義交互特征。Qin等[9]提出了一種新穎的對抗方法,通過與顯式關(guān)系網(wǎng)絡(luò)進行對抗,使得隱式關(guān)系網(wǎng)絡(luò)能夠模仿學(xué)習(xí)到將顯式連接詞的可辨性轉(zhuǎn)化為隱藏特征的能力。
針對中文,目前隱式篇章關(guān)系識別的研究工作主要在CTB[17]和CDTB[18]兩個語料庫上進行,由于語言資源的缺乏,已有的研究工作數(shù)量較少,而且大多借鑒了英語任務(wù)上采用的方法。
已有的研究工作[19-21]大多采用傳統(tǒng)方法,其中Kong等[21]提出了一個端到端的篇章分析器,使用上下文、詞匯和依存樹等手工構(gòu)建的語言學(xué)特征,通過最大熵分類器對篇章關(guān)系進行識別。也有部分工作[11,22]采用神經(jīng)網(wǎng)絡(luò)方法進行了研究。其中,R?nnqvist等[22]提出了包含注意力機制的Bi-LSTM模型,通過插入特殊標(biāo)簽的方式連接兩個論元,然后使用注意力機制來捕獲序列上的重要信息。Liu[11]提出了一個記憶增強注意力模型,通過門控單元來對存儲論元交互信息的記憶槽進行檢索,利用記憶槽中學(xué)習(xí)到的特征來幫助判斷篇章關(guān)系。
本文提出了一個用于識別隱式篇章關(guān)系的三層注意力神經(jīng)網(wǎng)絡(luò)模型(TLAN),其整體結(jié)構(gòu)如圖1所示。
圖1 三層注意力模型整體結(jié)構(gòu)
目前的工作[4,6]大多采用Bi-LSTM或者一維CNN來對輸入序列進行編碼,但是它們都存在一些不足: Bi-LSTM因為其循環(huán)結(jié)構(gòu)訓(xùn)練費時;而CNN因為卷積核的視野有限,在捕獲全局信息方面存在不足。因而最近的一些工作[23-24]嘗試通過注意力機制直接對輸入序列進行編碼,如式(1)所示。
(1)
xi=[wi,pi]
(2)
Self-Attention采用式(1)對輸入序列進行編碼,輸入的query,key,value序列是同一論元對應(yīng)的詞語序列E1(或E2),如式(3)所示。
(3)
早期的神經(jīng)網(wǎng)絡(luò)方法忽略序列之間的交互,對兩個序列分開進行編碼[4,6],因而最近的很多工作[5,7]將焦點放在如何對這種交互進行建模。常見的方法是在兩個序列的向量之間運用Bilinear[12]和Single Layer Network[25]等模型捕獲向量之間的線性和非線性交互,然后在生成的匹配矩陣上通過卷積操作來捕獲交互特征[5]。
也有部分工作嘗試通過注意力機制直接對序列之間的交互建模,并且提出了一些Interactive Attention[7,26]。Guo等[7]從人類閱讀的角度入手,發(fā)現(xiàn)人類在判斷兩個論元之間的關(guān)系時往往需要來回閱讀這兩個論元,特別是考慮兩個論元中聯(lián)系緊密的詞語之間的語義聯(lián)系,因而提出了一種模擬雙向閱讀的Interactive Attention。
(4)
(5)
(6)
相比于Guo的模型,本文采用了一種更細粒度的語義相似度計算方法,因而得到的論元表示更加準(zhǔn)確,能夠充分捕獲論元之間的語義聯(lián)系。并且本文還通過非線性變換來進一步捕獲對論元對的理解,使得最終獲得的論元對記憶能夠存儲豐富的論元交互信息。
已有的工作大多模擬了人類的單程閱讀,雖然能夠快速地理解文本,但是難以勝任篇章關(guān)系識別這種需要深入分析文本語義信息的任務(wù)。受Liu和Li[6]的啟發(fā),本文構(gòu)建了一個包含外部記憶的注意力層來模擬人類的重復(fù)閱讀過程。研究[28]表明,當(dāng)人類讀者以特定的學(xué)習(xí)目標(biāo)進行重復(fù)閱讀后,不僅可以提高閱讀的流暢性,還可以加深對文本的理解。因此對于篇章關(guān)系識別任務(wù),進行重復(fù)閱讀是有幫助的。因為簡單的單程閱讀難以充分捕獲重要的語義線索,即使是人類通常也需要通過多次閱讀,才能準(zhǔn)確把握文本中詞語對于判斷論元之間關(guān)系的重要性。
(7)
(8)
其中,Wt∈R∈Rwt×2ds,bt∈R∈Rwt,Ws∈R∈Rc×wt,bs∈R∈Rc是層中的參數(shù),c是篇章關(guān)系類別的個數(shù)。
對于包含k個樣本的訓(xùn)練集,本文使用Adam優(yōu)化器[29],通過最小化AM-Softmax損失函數(shù)[30]來優(yōu)化網(wǎng)絡(luò)中的參數(shù),如式(9)所示。
(9)
其中,t是softmax層的輸入,Wj是參數(shù)矩陣Ws中對應(yīng)每一個類別的參數(shù)行,c是分類類別的個數(shù)。為了防止過擬合,在輸入到softmax層的參數(shù)向量之上進行了dropout操作。在實驗部分,本文會報告模型中所有超參數(shù)的設(shè)置。
本文在CDTB[18]上對模型中文隱式篇章關(guān)系識別的性能進行了評估。
CDTB采用連接依存樹的形式對抽取自CTB[17]中的500篇新聞文本進行了標(biāo)注,共標(biāo)注有隱式篇章關(guān)系5 496個,關(guān)系類型分為兩層,包含4大類17小類。跟隨之前的工作[20-21],本文選擇相同的450篇文章作為訓(xùn)練集,50篇文章作為測試集,在最上層的3個類上進行了實驗(剔除了占比極低的轉(zhuǎn)折類),并且將所有的非二叉樹都轉(zhuǎn)換為左二叉樹。3類隱式篇章關(guān)系的統(tǒng)計信息如表1所示。
表1 CDTB中隱式篇章關(guān)系的數(shù)量統(tǒng)計
詞向量的維度設(shè)置為300,使用Word2Vec[31]進行預(yù)訓(xùn)練,詞性向量的維度設(shè)置為50。在Self-Attention層和Interactive Attention層中,轉(zhuǎn)換矩陣映射到的維度ds和di都被設(shè)置為350。外部記憶的維度dm被設(shè)置為700,非線性變換中的wt被設(shè)置為256。參照原論文[30]中的設(shè)置,將AM-softmax中的參數(shù)s和m分別設(shè)置為30和0.35。droupout率設(shè)置為0.5。本文使用HanLP(1)https://github.com/hankcs/HanLP對CDTB語料進行了預(yù)處理,包括分詞和詞性標(biāo)注,使用Keras庫(2)https://keras.io/來實現(xiàn)模型。
為了展示本文提出模型的有效性,本文選取了Bi-LSTM和CNN作為本文的基準(zhǔn),此外還包含三個已有工作中提出的模型: ①Kong: Kong等[24]提出的端到端篇章分析器,使用上下文特征、詞匯特征和依存樹特征通過最大熵分類器識別隱式篇章關(guān)系; ②Liu和Li: Liu和Li[6]提出的重復(fù)堆疊注意力模型,在通過Bi-LSTM編碼后的論元上堆疊包含外部記憶的多層注意力機制來模擬人類的重復(fù)閱讀過程; ③R?nnqvist: R?nnqvist等[22]提出的包含注意力機制的Bi-LSTM模型,通過插入特殊標(biāo)簽的方式將論元對連接起來,然后使用包含注意力機制的Bi-LSTM識別篇章關(guān)系; ④Guo: Guo等[7]提出的神經(jīng)張量網(wǎng)絡(luò),通過Bi-LSTM和交互注意力機制對論元建模,之后通過神經(jīng)張量網(wǎng)絡(luò)捕獲論元之間的交互信息。
在CDTB上進行的四分類實驗結(jié)果如表2所示,可以看到本文提出的模型在Micro-F1和Macro-F1上都取得了最好的性能。相比于依賴人工構(gòu)建語言學(xué)特征的傳統(tǒng)方法,神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出了可比較的性能,特別是在“解說”關(guān)系上F1值獲得了從2.1到5.8的提升,充分說明了神經(jīng)網(wǎng)絡(luò)方法能夠有效地捕獲論元中的深層語義信息,對于篇章關(guān)系識別任務(wù)是有效的。
表2 模型的實驗結(jié)果
CNN憑借卷積核強大的特征捕獲能力,取得了與傳統(tǒng)方法接近的性能表現(xiàn),在Micro-F1上還有小幅的性能提升。相比于基礎(chǔ)的循環(huán)網(wǎng)絡(luò)模型Bi-LSTM,R?nnqvist、Guo、Liu和Li模型在Micro-F1和Macro-F1上均有性能提升,這是因為注意力機制能夠從Bi-LSTM的輸出序列上挑選出重要的語義信息。特別地,Guo的模型使用交互注意力機制在編碼過程中就考慮了論元之間的交互,并且通過神經(jīng)張量網(wǎng)絡(luò)(NTN)進一步提取交互特征,在Micro-F1和Macro-F1上相比R?nnqvist分別獲得了2.2和1.0的性能提升;而Liu和Li模型使用多層注意力機制,并且引入包含論文對信息的外部記憶,在Micro-F1和Macro-F1上相比R?nnqvist分別獲得了2.7和0.9的性能提升。
本文提出的模型在Micro-F1和Macro-F1上超過了所有的基準(zhǔn)模型,在Micro-F1上取得了從0.7到3.6的性能提升,在Macro-F1上取得了從1.4到5.1的性能提升。相比側(cè)重于直接獲得論元語義表示的Bi-LSTM、CNN和R?nnqvist,本文的模型通過交互注意力機制,能夠獲得包含論元交互信息的論元表示。相比于Guo,本文通過包含外部記憶的注意力層將論元交互信息融入對論元的重復(fù)編碼中,因而不僅模擬了雙向閱讀,還模擬了人類的重復(fù)閱讀過程。相比于Liu和Li,本文的模型在包含交互信息的論元表示上,通過非線性變換來捕獲論元之間的差異特征和交互信息,因而能夠獲得包含對論元對充分理解的外部記憶。
本文也比較了不同類型篇章關(guān)系的識別性能,從表2可以看到,本文的模型在“因果”和“并列”類別的識別上相比于其他基準(zhǔn)取得了近似的性能,在“解說”類別的識別上取得了從1.7到5.8的顯著提升。其中“因果”類別相比于采用傳統(tǒng)方法的Kong甚至還有0.8的性能下降,而“并列”類與Liu和Li相比只有0.4的微小提升,因而本文提出的TLAN模型主要是提高了“解說”類關(guān)系的識別性能。這可以從兩方面進行解釋: ①相比于抽取語言學(xué)淺層特征的傳統(tǒng)方法來說,神經(jīng)網(wǎng)絡(luò)模型能夠挖掘到更深層次的語義信息,這對于在數(shù)據(jù)集中占比較小的 “解說”類 (22.6%) 來說,更容易通過神經(jīng)網(wǎng)絡(luò)模型捕獲到細微的語義特征,從而獲得性能上的提升,而“因果”類 (13.9%) 樣本數(shù)量過少,難以通過訓(xùn)練捕獲到足夠的特征。②本文提出的TLAN模型通過Self-Attention和Interactive Attention結(jié)構(gòu)對論元進行編碼,它們都是通過度量詞語之間的語義聯(lián)系來生成注意力權(quán)重,相比于其他兩類關(guān)系,存在“解說”關(guān)系的兩個論元的詞語之間通常存在更強的語義關(guān)聯(lián),因為“解說”本質(zhì)就是進一步的解釋說明。
為了分析每一個注意力層對整個模型的貢獻,本文還在多個模型的變體上進行了實驗,結(jié)果如表3所示。首先以循環(huán)網(wǎng)絡(luò)Bi-LSTM作為基礎(chǔ)模型Base,通過在其上添加TLAN模型中的Self-Attention層和Interactive Attention層來分析注意力機制在篇章關(guān)系識別任務(wù)上的性能。為了與TLAN模型進行直觀的比較,本文還構(gòu)建了: ①Bi-LSTM將模型的Self-Attention層替換為Bi-LSTM;②Att(Guo) 將模型的第二個注意力層替換為Guo[7]提出的Interactive Attention層。
表3 TLAN模型變體的實驗結(jié)果
Self-Attention層通過度量每一個詞語與周圍所有詞語的相似度,使得重新編碼后的序列包含了論元的全局信息,因而在添加到基礎(chǔ)模型Base之后,增強了論元經(jīng)過Bi-LSTM編碼后的結(jié)果,在三個類別上都獲得了小幅的性能提升。Interactive-Attention層在對論元的重新編碼中,還考慮到了兩個論元之間的語義聯(lián)系,而這種語義聯(lián)系正是對篇章關(guān)系識別任務(wù)非常有用的語義線索,因而在添加后取得了顯著的性能提升(Micro-F1 2.3,Macro-F1 2.9),這說明TLAN模型模擬人類雙向閱讀的方法是有效的,特別是在兩個占比較少的類別的識別性能上有明顯的提升(因果4.1,解說2.8),這充分說明Interactive-Attention模型能夠捕獲論元之間的交互信息。TLAN模型中的包含外部記憶的Attention層直接使用了Liu和Li[6]提出的模型結(jié)構(gòu),其在篇章關(guān)系識別上的有效性已經(jīng)得到了證明,因而本文沒有對其做單獨的分析。
Bi-LSTM使用Bi-LSTM替換Self-Attention來對論元進行初步編碼,在Micro-F1和Macro-F1上出現(xiàn)了2.1和2.5的性能下降,這也驗證了基礎(chǔ)模型Base的實驗結(jié)果,表明簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)模型難以有效地捕獲論元與篇章關(guān)系識別相關(guān)的語義線索,而Self-Attention在這個任務(wù)上是更有效的論元編碼模型。
Att(Guo) 將Interactive Attention層替換為Guo[7]提出的版本,在Micro-F1和Macro-F1上分別有1.0和2.3的性能下降。與本文采用的模型一樣,Guo也是通過度量兩個論元的詞語之間的語義相似度來生成注意力權(quán)重,但是Guo通過計算平均值的方法直接得到最終的權(quán)重向量,因而計算粒度較大。而本文采用的方法對于每一個權(quán)重向量都先生成對應(yīng)的語義表示,最后再通過Mean Pooling得到最終的論元表示,因而得到的語義表示更準(zhǔn)確。特別是在樣本占比較小的因果和解說類別的識別上,相比于本文的TLAN模型,Guo的模型分別出現(xiàn)了4.9和2.0的性能下降,這說明本文模型中Interactive Attention層的細粒度計算方法是更有效的捕獲論元之間語義聯(lián)系的方法。
表4展示了本文提出的TLAN模型在中文隱式篇章關(guān)系識別上的錯誤統(tǒng)計。
表4 錯誤分類樣本的比例(%)
從表4中可以看到,54.4% 的因果關(guān)系類樣本和 34.3% 的解說關(guān)系類樣本被TLAN模型錯誤地識別為了并列類,這說明錯誤主要是出在判斷一個樣本是不是并列關(guān)系上。這主要是由兩個原因?qū)е碌模?①訓(xùn)練集中的并列關(guān)系類樣本超過半數(shù); ②許多論元之間雖然不是并列關(guān)系,但是語義上很相似。例2給出了一個這樣的例子。
例2 [Arg1]甘肅省積極實施科技興農(nóng)戰(zhàn)略,推廣地膜覆蓋、節(jié)水灌溉、集雨節(jié)灌等農(nóng)業(yè)適用技術(shù)和增產(chǎn)措施,
[Arg2]農(nóng)業(yè)獲得較好收成,全年糧食總產(chǎn)量達七十六點六億公斤。
[隱式連接詞]因此
[篇章關(guān)系]因果關(guān)系
例2中Arg1是Arg2的原因,因而論元之間的篇章關(guān)系為因果。但是從語義層面來看,Arg1中的 “農(nóng)業(yè)”“灌溉”“增產(chǎn)”等詞語,與Arg2中的“收成”“糧食”“產(chǎn)量”等詞語存在非常強的語義相似度,而本文模型中的注意力層會將這種高相似度視為“并列”關(guān)系的特征,進而將其篇章關(guān)系錯分為并列。
最后本文將模型運用到PDTB上,進行了英語隱式篇章關(guān)系識別的實驗。PDTB是最大的篇章關(guān)系英語語料庫,對來自于華爾街日報的2 312篇章文章進行了標(biāo)注。跟隨之前Pitler等[2]的工作,本文選擇2~20章作為訓(xùn)練集、21~22章作為測試集、0~1章作為開發(fā)集,在最上層的4個類別上進行了one-versus-all的二分類實驗。實驗結(jié)果顯示,相比于目前的性能最優(yōu)系統(tǒng),本文的模型取得了介于普通神經(jīng)網(wǎng)絡(luò)方法[4,6]和對抗方法[9]之間的性能。這是因為: ①對抗方法針對該任務(wù)做了精心的設(shè)計,表現(xiàn)出了比普通神經(jīng)網(wǎng)絡(luò)模型更好的性能; ②本文提出的模型可能存在一定的語言相關(guān)性,中文通常在句法上更加自由,因而本文提出的模型專注于捕獲文本的語義信息,在捕獲語言學(xué)特征方面可能存在不足。
本文針對中文隱式篇章關(guān)系識別任務(wù),提出了一個三層注意力神經(jīng)網(wǎng)絡(luò)模型TLAN。首先通過Self-Attention層對論元進行初步編碼,使得模型充分閱讀每一個論元,并盡可能保留了原始輸入的信息。然后通過Interactive Attention層來模擬人類的雙向閱讀過程,通過度量兩個論元詞語之間的語義聯(lián)系來生成包含交互信息的論元表示,并且進一步通過非線性變換獲得“論元對”信息的外部記憶。最后,通過包含外部記憶的注意力層來模擬人類的重復(fù)閱讀過程,在重復(fù)閱讀論元初步編碼信息的基礎(chǔ)上,把論元對記憶作為一個貫穿全局的向量來引導(dǎo)論元最終表示的生成。在CDTB的實驗中,本文提出模型在Micro-F1和Macro-F1上超過了多個強基準(zhǔn)模型,在PDTB上本文的模型也取得了與其他性能最優(yōu)系統(tǒng)可比較的性能,充分說明了本文提出的模型在隱式篇章關(guān)系識別任務(wù)上的有效性。