賈旭楠,魏庭新,曲維光,3,顧彥慧,周俊生
(1.南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 210023;2.南京師范大學(xué) 國(guó)際文化教育學(xué)院,南京 210097;3.南京師范大學(xué) 文學(xué)院,南京 210097)
復(fù)句是由2 個(gè)或2 個(gè)以上的單句構(gòu)成的句子,它下接小句,上承篇章,是語(yǔ)言的基本單位之一。由于復(fù)句有2 套或2 套以上主語(yǔ)謂語(yǔ),而單句只有1 套主謂體系,因此判定一個(gè)句子是否為單復(fù)句對(duì)于句法分析、依存解析、AMR 自動(dòng)解析及相應(yīng)的下游任務(wù)非常重要。對(duì)于復(fù)句語(yǔ)義的構(gòu)成,文獻(xiàn)[1]指出復(fù)句除了本身的語(yǔ)義外,還與分句之間的邏輯語(yǔ)義有關(guān),復(fù)句的語(yǔ)義等價(jià)于該句子的邏輯語(yǔ)義與各分句的語(yǔ)義之和。由于篇章的各種邏輯語(yǔ)義關(guān)系在復(fù)句中都有所體現(xiàn),因此復(fù)句關(guān)系識(shí)別是篇章語(yǔ)義關(guān)系研究的起點(diǎn)和基礎(chǔ),對(duì)篇章語(yǔ)義解析以及機(jī)器閱讀理解、關(guān)系抽取等下游任務(wù)都有著非常重要的作用。
對(duì)于復(fù)句的研究,語(yǔ)言學(xué)界主要集中在復(fù)句的邏輯語(yǔ)義關(guān)系的分類等,在自然語(yǔ)言處理領(lǐng)域,研究人員的關(guān)注則集中在顯式復(fù)句的關(guān)系詞識(shí)別和隱式復(fù)句關(guān)系識(shí)別2 個(gè)方面。然而,顯式復(fù)句和隱式復(fù)句的識(shí)別主要靠人工標(biāo)注,現(xiàn)有文獻(xiàn)中并沒有顯式復(fù)句與隱式復(fù)句的自動(dòng)識(shí)別研究。在漢語(yǔ)中,由于標(biāo)點(diǎn)符號(hào)還具有語(yǔ)氣停頓功能,含有多個(gè)形式分句的句子不一定是復(fù)句;同時(shí)由于大量緊縮句的存在,沒有標(biāo)點(diǎn)符號(hào)的句子也不一定是單句,這些都給單復(fù)句的自動(dòng)識(shí)別造成一定困難。在隱式復(fù)句關(guān)系識(shí)別方面,雖然目前研究較多,但目前最好的性能也僅有56.20%[2],還有進(jìn)一步的提升空間。
本文提出復(fù)句判定及復(fù)句關(guān)系識(shí)別聯(lián)合模型,旨在同時(shí)解決復(fù)句判定和復(fù)句關(guān)系識(shí)別問(wèn)題,實(shí)現(xiàn)復(fù)句的自動(dòng)判定及復(fù)句關(guān)系的自動(dòng)識(shí)別。在復(fù)句判定任務(wù)中通過(guò)Bi-LSTM 對(duì)句子進(jìn)行編碼,采用注意力機(jī)制挖掘更深層次的語(yǔ)義信息后,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取句子中的局部信息,最終對(duì)其進(jìn)行分類。在復(fù)句關(guān)系識(shí)別任務(wù)中使用詞向量Bert增強(qiáng)句子的語(yǔ)義表示,采用Tree-LSTM 對(duì)成分標(biāo)記和句子中的單詞進(jìn)行聯(lián)合建模后,并對(duì)建模結(jié)果進(jìn)行分類。
復(fù)句作為自然語(yǔ)言中重要的語(yǔ)法單位[3],在語(yǔ)言學(xué)上的理論成果較為豐富,且研究范圍也較為廣泛。對(duì)于復(fù)句的邏輯語(yǔ)義關(guān)系分類,代表性的研究主要有:文獻(xiàn)[4]提出的兩分法,依據(jù)分句之間的語(yǔ)義關(guān)系,將復(fù)句分為聯(lián)合復(fù)句和偏正復(fù)句兩大類;文獻(xiàn)[5]將聯(lián)合復(fù)句分為并列、遞進(jìn)、順承、選擇、解說(shuō)5 個(gè)小類,將偏正復(fù)句分為轉(zhuǎn)折、因果、假設(shè)、目的、條件5 個(gè)小類;另外一種是文獻(xiàn)[6]提出的三分法,復(fù)句三分法的一級(jí)分類分為廣義因果關(guān)系、廣義并列關(guān)系和廣義轉(zhuǎn)折關(guān)系三大類,因果關(guān)系分為因果、推斷、假設(shè)、條件、目的等,并列關(guān)系分為并列、連貫、遞進(jìn)、選擇等,轉(zhuǎn)折關(guān)系分為轉(zhuǎn)折、讓步等。
隨著理論研究的不斷深入,復(fù)句的相關(guān)研究逐漸從理論轉(zhuǎn)向信息處理領(lǐng)域,關(guān)聯(lián)詞作為復(fù)句的重要信息。文獻(xiàn)[7]對(duì)語(yǔ)料進(jìn)行分析并總結(jié)出一個(gè)復(fù)句關(guān)聯(lián)詞庫(kù),采用基于規(guī)則的方法對(duì)關(guān)聯(lián)詞進(jìn)行自動(dòng)識(shí)別;文獻(xiàn)[8]考慮到關(guān)聯(lián)詞與語(yǔ)境的關(guān)系,以復(fù)句關(guān)聯(lián)詞所處的語(yǔ)境以及關(guān)聯(lián)詞搭配為特征進(jìn)行特征提取,使用貝葉斯模型實(shí)現(xiàn)關(guān)聯(lián)詞的識(shí)別;文獻(xiàn)[9]充分利用句子的詞法信息、句法信息、位置信息,采用決策樹對(duì)復(fù)句進(jìn)行復(fù)句關(guān)系分類,在顯式復(fù)句中取得了較好的效果;文獻(xiàn)[10]用極大似然估計(jì)計(jì)算關(guān)聯(lián)詞對(duì)于各類關(guān)系的指示能力,構(gòu)造關(guān)聯(lián)詞-關(guān)系類型矩陣,預(yù)測(cè)句子的復(fù)句關(guān)系類別;文獻(xiàn)[11]提出了一種基于句內(nèi)注意力機(jī)制的多路卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)漢語(yǔ)復(fù)句關(guān)系進(jìn)行識(shí)別,其研究對(duì)象既包括顯式復(fù)句也包括隱式復(fù)句,F(xiàn)1 值達(dá)到85.61%,但其僅在并列、因果、轉(zhuǎn)折三類復(fù)句關(guān)系中進(jìn)行識(shí)別,并沒有涵蓋自然語(yǔ)言中的大部分復(fù)句類別;文獻(xiàn)[12]采用在卷積神經(jīng)網(wǎng)絡(luò)中融合關(guān)系詞特征的FCNN 模型,對(duì)復(fù)句關(guān)系進(jìn)行分類,準(zhǔn)確率達(dá)到97%,但其研究對(duì)象僅為二句式非充盈態(tài)復(fù)句;文獻(xiàn)[13]利用關(guān)聯(lián)詞的詞性分布規(guī)則標(biāo)注潛在關(guān)聯(lián)詞,對(duì)比關(guān)聯(lián)詞庫(kù)中的模式表,標(biāo)注出其語(yǔ)義關(guān)系。
由于隱式復(fù)句中沒有關(guān)聯(lián)詞連接分句,因此隱式復(fù)句關(guān)系的識(shí)別較顯式而言更為困難,目前專門針對(duì)復(fù)句判定、復(fù)句關(guān)系識(shí)別的研究比較少,大部分研究都是針對(duì)篇章進(jìn)行的,然而由于漢語(yǔ)復(fù)句與篇章之間存在天然的聯(lián)系,有關(guān)篇章的研究仍有許多值得借鑒的地方。文獻(xiàn)[10]實(shí)現(xiàn)了基于有指導(dǎo)方法的隱式關(guān)系識(shí)別模型,融入依存句法特征和句首詞匯特征,采用對(duì)數(shù)據(jù)不平衡容忍度較高的SVM 實(shí)現(xiàn)對(duì)篇章關(guān)系的識(shí)別;文獻(xiàn)[14]以詞匯、上下文信息及依存樹結(jié)構(gòu)信息作為特征訓(xùn)練最大熵分類器,以實(shí)現(xiàn)復(fù)句關(guān)系的自動(dòng)識(shí)別;文獻(xiàn)[2]在中文篇章樹庫(kù)(CDTB)上提出了模擬人類重復(fù)閱讀和雙向閱讀過(guò)程的注意力機(jī)制網(wǎng)絡(luò)模型,得到論元信息的交互表示。
復(fù)句判定是指對(duì)于給定句子,復(fù)句判定系統(tǒng)能夠準(zhǔn)確地識(shí)別出是否為復(fù)句。如表1 中的例句1 即為包含關(guān)聯(lián)詞的顯式復(fù)句,例句2 為緊縮型復(fù)句,例句3 為無(wú)關(guān)聯(lián)詞的隱式復(fù)句,上述3 類統(tǒng)稱為復(fù)句,例句4 為單句。
表1 單復(fù)句示例Table 1 Examples of simple and complex sentences
本文以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)實(shí)現(xiàn)復(fù)句的自動(dòng)判定,模型主要分為輸入模塊、編碼模塊、輸出模塊3 個(gè)部分,其模型結(jié)構(gòu)如圖1 所示。
圖1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的復(fù)句判定模型Fig.1 Model of complex sentence identification based on recurrent neural network
對(duì)復(fù)句的判定需要著眼于整個(gè)句子的內(nèi)容,句子中某一個(gè)詞的語(yǔ)義信息由上下文信息共同決定,因此采用Bi-LSTM 對(duì)句子中的詞語(yǔ)表示進(jìn)行建模,以便較準(zhǔn)確地獲得句子的語(yǔ)義信息,通過(guò)前向LSTM 和后向LSTM 計(jì)算得到句子向量表示,將兩者拼接得到當(dāng)前狀態(tài)的向量表示。由于復(fù)句由2 個(gè)或2 個(gè)以上分句組成,與單句相比,句法結(jié)構(gòu)更加復(fù)雜,長(zhǎng)度更長(zhǎng),因此一層遍歷所得到的語(yǔ)義信息往往是不足的,采用多層Bi-LSTM 能夠避免梯度爆炸、梯度消失等問(wèn)題。本文采用了多層Bi-LSTM 來(lái)學(xué)習(xí)文本數(shù)據(jù)中的層次化信息、增加語(yǔ)義建模的準(zhǔn)確性。
由于復(fù)句語(yǔ)義關(guān)系是由分句語(yǔ)義的交互作用而形成的,因此本文采用了能夠衡量?jī)?nèi)部相關(guān)性的Self Attention[16]。計(jì)算方式如式(1)~式(3)所示:
為挖掘文本中更深層次的語(yǔ)義信息,引入了卷積神經(jīng)網(wǎng)絡(luò)(CNN),通過(guò)卷積核提取出相鄰單詞的特征,對(duì)卷積層輸出的結(jié)果進(jìn)行池化操作,從而將最重要的特征提取出來(lái)。本文采用max-over-timepooling 操作,即將最大值作為最重要的特征。
該模型在全連接層后通過(guò)softmax 函數(shù)對(duì)給定句子進(jìn)行復(fù)句的判定預(yù)測(cè)。
其中:W和b分別為權(quán)重和偏置;C為經(jīng)過(guò)模型編碼后的輸出。此外,本文所使用的損失函數(shù)為負(fù)對(duì)數(shù)似然函數(shù)。
識(shí)別復(fù)句關(guān)系對(duì)于把握句子整體語(yǔ)義有至關(guān)重要的作用,也是本文另一項(xiàng)重要任務(wù)。表2 為4 種出現(xiàn)頻率較高的復(fù)句關(guān)系類別示例。
表2 復(fù)句關(guān)系類型示例Table 2 Examples of complex sentence relation types
本文基于Tree-LSTM 的復(fù)句關(guān)系識(shí)別模型的輸入為給定句子的2 個(gè)論元,輸出為復(fù)句關(guān)系預(yù)測(cè)結(jié)果。該模型由輸入模塊、成分句法樹模塊、編碼模塊和輸出模塊構(gòu)成,模型結(jié)構(gòu)如圖2 所示,下面依次對(duì)上述4 個(gè)模塊進(jìn)行展開。
圖2 基于Tree-LSTM 的復(fù)句關(guān)系識(shí)別模型Fig.2 Model of complex sentence relation recognition based on Tree-LSTM
成分句法樹能夠清晰地將句子中所包含的句法及句法單位之間存在的關(guān)系展示出來(lái)。在自然語(yǔ)言中,不同類型短語(yǔ)所對(duì)應(yīng)的語(yǔ)義的重要性也各不相同,在一般情況下相較于動(dòng)詞短語(yǔ),介詞短語(yǔ)對(duì)復(fù)句關(guān)系影響較小。
圖3 為復(fù)句“孟山都在歐洲遭遇滑鐵盧,肯定會(huì)開拓市場(chǎng)彌補(bǔ)損失”中2個(gè)分句的成分句法樹表示,在arg1中存在介詞短語(yǔ)“在歐洲”和動(dòng)詞短語(yǔ)“遭遇滑鐵盧”,在arg2 中有動(dòng)詞短語(yǔ)“開拓市場(chǎng)”“彌補(bǔ)損失”,通過(guò)比較2 個(gè)論元的動(dòng)詞短語(yǔ),容易分析出2 個(gè)論元呈現(xiàn)因果關(guān)系,如果把a(bǔ)rg1 中的介詞短語(yǔ)和arg2 中的動(dòng)詞短語(yǔ)進(jìn)行比較則難以得出上述結(jié)論。由此可見,句子中的成分信息對(duì)于復(fù)句關(guān)系識(shí)別具有一定的輔助作用,故本文采用Stanford Parser 得到句子中每個(gè)論元的成分句法樹,將成分句法樹的標(biāo)記嵌入到詞語(yǔ)的embedding中。
圖3 成分句法樹實(shí)例Fig.3 Example of constituent syntactic tree
本文通過(guò)文獻(xiàn)[17]提出的預(yù)訓(xùn)練語(yǔ)言模型Bert構(gòu)造詞語(yǔ)的向量表示,采用隨機(jī)初始化的方式構(gòu)造成分句法樹標(biāo)記向量,對(duì)于輸入的句子c={c1,c2,…,cn},其中ci={wordi,tagi},1≤i≤n,ci包含在i這個(gè)位置上所對(duì)應(yīng)的詞以及該詞在成分句法樹中所對(duì)應(yīng)的標(biāo)記,對(duì)于每一個(gè)詞ci,將其詞向量和標(biāo)記向量進(jìn)行拼接,得到對(duì)應(yīng)的向量表示ei=[wi;ti]。
雖然鏈?zhǔn)降腖STM 已經(jīng)取得了較好的效果,但是句子的語(yǔ)義不僅僅是由單個(gè)詞的語(yǔ)義進(jìn)行簡(jiǎn)單的拼接而成的,句子的結(jié)構(gòu)信息也起著至關(guān)重要的作用,本文在編碼時(shí)采用了能夠捕獲句子語(yǔ)義信息的同時(shí)也考慮句子的結(jié)構(gòu)信息的Tree-LSTM[18]。
與LSTM 類似,Tree-LSTM 由1個(gè)輸入門、1個(gè)輸出門和多個(gè)遺忘門構(gòu)成,遺忘門的個(gè)數(shù)與樹節(jié)點(diǎn)數(shù)一致,即本文采用的方法有2 個(gè)遺忘門。但Tree-LSTM 的當(dāng)前狀態(tài)并不取決于上一時(shí)刻的隱藏層狀態(tài),而是取決于孩子節(jié)點(diǎn)的隱藏層狀態(tài),其計(jì)算方式也在LSTM 的基礎(chǔ)上做出了調(diào)整,如式(5)~式(7)所示:
在通過(guò)Tree-LSTM 編碼后,在復(fù)句關(guān)系識(shí)別任務(wù)中采用前饋神經(jīng)網(wǎng)絡(luò),對(duì)Tree-LSTM 編碼后的結(jié)果進(jìn)行編碼,在關(guān)聯(lián)詞的分類任務(wù)中采用了卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸出結(jié)果進(jìn)行編碼。
在輸出模塊中,最終將復(fù)句中2 個(gè)論元的表示送入softmax 函數(shù)得到復(fù)句關(guān)系分類的概率,計(jì)算公式如下:
其中:D為訓(xùn)練時(shí)所用的數(shù)據(jù)集;R為復(fù)句關(guān)系的類型;yi(x)為訓(xùn)練樣本x的標(biāo)簽(x)為通過(guò)本文模型得到的樣本x被預(yù)測(cè)為屬于類型i的概率值。
在統(tǒng)計(jì)模型的基礎(chǔ)上,可將模型分為管道式模型和聯(lián)合模型兩大類。管道式模型的方式容易傳遞誤差,導(dǎo)致模型的性能衰減,且各環(huán)節(jié)獨(dú)立進(jìn)行預(yù)測(cè),忽略了2 個(gè)任務(wù)之間的相互影響,無(wú)法處理全局的依賴關(guān)系。聯(lián)合模型則是將各個(gè)模型通過(guò)整體的優(yōu)化目標(biāo)整合起來(lái),從整體的結(jié)構(gòu)中學(xué)習(xí)全局特征,從而使用全局性信息來(lái)優(yōu)化局部預(yù)測(cè)的性能。因此,本文采取聯(lián)合模型同時(shí)進(jìn)行復(fù)句判定和復(fù)句關(guān)系識(shí)別。模型結(jié)構(gòu)如圖4 所示,主要分為輸入模塊、編碼模塊、輸出模塊3 個(gè)部分。
圖4 復(fù)句判定及復(fù)句關(guān)系識(shí)別聯(lián)合模型結(jié)構(gòu)Fig.4 Joint model structure of complex sentence identification and compelx sentence relation recognition
在自然語(yǔ)言處理的相關(guān)任務(wù)中,一個(gè)單詞的特征或者含義不應(yīng)該因?yàn)槿蝿?wù)的不同而不同,統(tǒng)一的向量表示使聯(lián)合學(xué)習(xí)模型不過(guò)分地傾向于某一任務(wù),增加了模型的泛化能力,故本文在嵌入層中復(fù)句判定和復(fù)句關(guān)系識(shí)別任務(wù)的嵌入層中共享向量表示。
參數(shù)共享是聯(lián)合模型中較為常見的一種方式,可以分為硬共享和軟共享2 種。硬共享指多個(gè)模型之間的共享部分直接使用同一套參數(shù),使模型學(xué)習(xí)到可以表示多個(gè)任務(wù)的解;軟共享通常是通過(guò)計(jì)算多個(gè)模型之間的共享部分的參數(shù)之間的差異,使其差異盡可能得小,并保留任務(wù)的獨(dú)立性。為了使模型在底層的句子表示中使復(fù)句的判定和復(fù)句關(guān)系識(shí)別任務(wù)可以相互借鑒,故本文在參數(shù)共享中選擇了參數(shù)軟共享方式,使多個(gè)模型中需要共享部分的參數(shù)差異盡可能得小,這種參數(shù)共享方式能夠使模型在學(xué)習(xí)多個(gè)任務(wù)共有的表示下保留任務(wù)的獨(dú)特性,對(duì)不同的任務(wù)學(xué)習(xí)不同的句子表示。
對(duì)于復(fù)句判定任務(wù),編碼層采用Bi-LSTM 進(jìn)行編碼,獲得句子的上下文表示信息,將Bi-LSTM 的結(jié)果作為CNN 的輸入,得到句子的局部特征表示。
在復(fù)句關(guān)系識(shí)別任務(wù)中,為了得到句子的結(jié)構(gòu)化信息,采用Tree-LSTM 進(jìn)行編碼。此外,由于復(fù)句判定任務(wù)中學(xué)到的句子表示有助于豐富復(fù)句關(guān)系識(shí)別任務(wù)中的信息,因此本文引入了注意力機(jī)制對(duì)這部分信息進(jìn)行學(xué)習(xí)。在復(fù)句判定編碼層輸出的上下文詞表示為,復(fù)句關(guān)系識(shí)別編碼器獲得的輸出記為,通過(guò)下式計(jì)算:
在得到新的向量表示后,將編碼后的結(jié)果通過(guò)softmax 函數(shù)進(jìn)行進(jìn)行復(fù)句判定和復(fù)句關(guān)系識(shí)別。若在聯(lián)合模型中輸入的句子被判定為單句時(shí),該句子在進(jìn)行復(fù)句關(guān)系識(shí)別后會(huì)進(jìn)行后處理,將其復(fù)句關(guān)系識(shí)別的結(jié)果更正為無(wú)關(guān)系。
在聯(lián)合模型中損失函數(shù)的定義是一個(gè)十分棘手的問(wèn)題,若2 個(gè)任務(wù)之間出現(xiàn)梯度不平衡的問(wèn)題會(huì)導(dǎo)致參數(shù)的更新傾向于某個(gè)單獨(dú)的任務(wù),降低所有模型的表現(xiàn)效果。故本文計(jì)算2 個(gè)任務(wù)之間的損失采用靜態(tài)加權(quán)求和的方式,將不同任務(wù)之間的損失進(jìn)行組合,計(jì)算公式如下:
其中:Wid和Lid分別為復(fù)句判定模型的權(quán)重和總損失;Wre和Lre分別為復(fù)句關(guān)系識(shí)別任務(wù)中的模型的權(quán)重和總損失;θ為模型的參數(shù);Lθ為參數(shù)軟共享所構(gòu)成的參數(shù)距離損失。
本文中 所使用 的語(yǔ)料是由CAMR[19](Chinese Abstract Meaning Representation)和篇章結(jié)構(gòu)樹庫(kù)[20]中抽取的復(fù)句語(yǔ)料。圖5 為CAMR 中復(fù)句的結(jié)構(gòu)示例。
圖5 CAMR 復(fù)句結(jié)構(gòu)示例Fig.5 Example of CAMR complex sentence structure
在CAMR 中共標(biāo)記了并列、因果、條件、轉(zhuǎn)折、時(shí)序、遞進(jìn)、選擇、讓步、反向選擇9 類復(fù)句關(guān)系,但由于后5 類僅占語(yǔ)料的4.23%,因此對(duì)這5 類進(jìn)行了歸并,得到了如表3 所示的數(shù)據(jù)集,其中無(wú)關(guān)系類別為單句,共5 359 種。
表3 語(yǔ)料庫(kù)中復(fù)句關(guān)系統(tǒng)計(jì)Table 3 Statistics of complex sentence relations in corpus
在復(fù)句判定實(shí)驗(yàn)中訓(xùn)練集、測(cè)試集的比例為4∶1,由于深度學(xué)習(xí)算法容易出現(xiàn)過(guò)擬合的問(wèn)題,因此在每一層的輸出中進(jìn)行Dropout[21]操作,采用Adam[22]算法對(duì)模型進(jìn)行優(yōu)化,實(shí)驗(yàn)中所涉及的參數(shù)設(shè)置如表4 所示。
表4 復(fù)句判定模型的超參數(shù)設(shè)置Table 4 Hyperparameter settings of complex sentence identification models
表5 為復(fù)句判定任務(wù)的實(shí)驗(yàn)結(jié)果,可以看到僅使用Bi-LSTM 時(shí)準(zhǔn)確率(P)達(dá)到94.81%,但召回率(R)較低,這是因?yàn)锽i-LSTM 著眼于復(fù)句的整體語(yǔ)義,若復(fù)句句法結(jié)構(gòu)不夠典型則效果較差,無(wú)法識(shí)別。Attention 機(jī)制能夠捕獲分句間對(duì)揭示語(yǔ)義有提示作用的詞語(yǔ)或搭配信息,因此F1 值提升了6.07 個(gè)百分點(diǎn)。CNN 的加入則是突出了分句內(nèi)部對(duì)語(yǔ)義有提示作用的局部信息,因此性能進(jìn)一步提高。這說(shuō)明對(duì)于復(fù)句而言,除了整體語(yǔ)義外,局部語(yǔ)義及分句間的語(yǔ)義交互作用對(duì)揭示復(fù)句語(yǔ)義有著同樣重要的作用。
表5 復(fù)句判定實(shí)驗(yàn)結(jié)果Table 5 Experimental results of complex sentence identification %
為了更好地分析模型的性能,本文對(duì)測(cè)試集中的顯式復(fù)句和隱式復(fù)句的實(shí)驗(yàn)結(jié)果進(jìn)行分析,其實(shí)驗(yàn)結(jié)果如表6 所示。
表6 顯式及隱式復(fù)句判定實(shí)驗(yàn)結(jié)果Table 6 Experimental results of explicit and implicit complex sentence identification %
從表6 可以看出,與表5 相似,無(wú)論是在顯式復(fù)句還是在隱式復(fù)句中,加入Attention 和CNN 以后的F1 值均高于其他2 種方法,這再次證明了局部信息的引入有助于提升模型對(duì)復(fù)句判定的性能。另外,通過(guò)比較顯式復(fù)句和隱式復(fù)句的判定結(jié)果可以發(fā)現(xiàn),顯式復(fù)句的F1 值比隱式復(fù)句的F1 值高2.89 個(gè)百分點(diǎn),這是因?yàn)殡[式復(fù)句中并沒有關(guān)聯(lián)詞這一明顯的淺層特征,在編碼時(shí)其內(nèi)部的語(yǔ)義信息較難挖掘,導(dǎo)致隱式復(fù)句判定結(jié)果較低。
在復(fù)句關(guān)系識(shí)別任務(wù)中所涉及的超參數(shù)如表7所示,復(fù)句關(guān)系識(shí)別任務(wù)的結(jié)果展示如表8 所示。
表7 復(fù)句關(guān)系識(shí)別模型的超參設(shè)置Table 7 Hyperparameter settings of complex sentence relation recognition model
表8 復(fù)句關(guān)系識(shí)別實(shí)驗(yàn)結(jié)果Table 8 Experimental results of relation recognition of complex sentences %
表8 中LSTM 模型表示只考慮句子的上下文語(yǔ)義信息,對(duì)句子的語(yǔ)義進(jìn)行建模,但句子的語(yǔ)義信息并不只是每個(gè)詞語(yǔ)義的疊加,與句子的結(jié)構(gòu)信息有一定的關(guān)系,Tag+Tree-LSTM 模型考慮句子的句法結(jié)構(gòu)信息,并在編碼過(guò)程中融入成分句法樹的標(biāo)簽信息,這種方式相較于只考慮上下文語(yǔ)義信息的LSTM 而言,效果提升了0.27 個(gè)百分點(diǎn);在Tag+Tree-LSTM 中采用了隨機(jī)初始化的詞向量方式,但預(yù)訓(xùn)練的詞向量能夠更好地反映出詞語(yǔ)詞之間的關(guān)系以及句子的語(yǔ)義信息,故在Tag+Tree-LSTM 的基礎(chǔ)上加入了句子級(jí)的詞向量Bert,模型的性能提高了3.37 個(gè)百分點(diǎn)。
表9 所示為本模型與其他模型的實(shí)驗(yàn)結(jié)果對(duì)比,相比于文獻(xiàn)[14]針對(duì)漢語(yǔ)篇章結(jié)構(gòu)語(yǔ)料庫(kù)提出的基于多層注意力的TLAN 方法,本文提出的方法采用Tree-LSTM 能夠充分利用句子的結(jié)構(gòu)信息,預(yù)訓(xùn)練詞向量Bert 的引入對(duì)漢語(yǔ)中一詞多義現(xiàn)象有所解決,因此本文所提出的Tag+Tree-LSTM+Bert 模型F1 值達(dá)到58.17%,相較于TLAN 模型,提升了1.97 個(gè)百分點(diǎn)。
表9 模型實(shí)驗(yàn)結(jié)果對(duì)比Table 9 Comparison of the model experimental results %
表10 所示為復(fù)句判定和復(fù)句關(guān)系識(shí)別任務(wù)構(gòu)成的管道式模型實(shí)驗(yàn)結(jié)果,與前文中提出的Tag+Tree-LSTM+Bert 模型相比,pipeline 模型的實(shí)驗(yàn)結(jié)果比直接進(jìn)行復(fù)句關(guān)系識(shí)別任務(wù)的模型低,這是因?yàn)閜ipeline 需要先進(jìn)行復(fù)句判定任務(wù),然后再進(jìn)行復(fù)句關(guān)系識(shí)別。
表10 復(fù)句判定及復(fù)句關(guān)系識(shí)別pipeline 模型結(jié)果Table 10 Pipeline model results of complex sentence identification and complex relation recognition %
在聯(lián)合模型中,通過(guò)聯(lián)合學(xué)習(xí)利用任務(wù)之間可以相互作用的特征,表11 為復(fù)句判定及復(fù)句關(guān)系識(shí)別聯(lián)合模型的實(shí)驗(yàn)結(jié)果。
表11 聯(lián)合模型實(shí)驗(yàn)結(jié)果Table 11 Experimental results of joint model %
通過(guò)比較表10 和表11 可以發(fā)現(xiàn),無(wú)論是在復(fù)句判定任務(wù)還是在復(fù)句關(guān)系識(shí)別任務(wù)中,聯(lián)合模型的F1 值相比管道式模型都有所提高,表11 聯(lián)合模型中復(fù)句判定任務(wù)的F1 值較表10 中管道式模型提高了0.44 個(gè)百分點(diǎn),聯(lián)合模型復(fù)句關(guān)系識(shí)別的F1 值為66.25%,與管道式模型的實(shí)驗(yàn)結(jié)果62.64%相比提高了3.61 個(gè)百分點(diǎn),這是因?yàn)槁?lián)合模型能夠有效地減少模型之間的誤差傳遞。
本文基于神經(jīng)網(wǎng)絡(luò)方法對(duì)復(fù)句判定及復(fù)句關(guān)系識(shí)別任務(wù)進(jìn)行研究,構(gòu)造復(fù)句判定和復(fù)句關(guān)系識(shí)別聯(lián)合模型,通過(guò)減少管道式誤差傳遞以實(shí)現(xiàn)復(fù)句的自動(dòng)判定和復(fù)句關(guān)系的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。由于神經(jīng)網(wǎng)絡(luò)方法對(duì)語(yǔ)料規(guī)模較為依賴,因此下一步將繼續(xù)擴(kuò)充語(yǔ)料規(guī)模,提高網(wǎng)絡(luò)模型性能。