李 曉,洪 宇, 竇祖俊,徐旻涵,陸煜翔,周國棟
(蘇州大學 計算機科學與技術(shù)學院,江蘇 蘇州 215006)
篇章關(guān)系識別旨在判斷兩個語言單元(子句、從句及文本塊等,簡稱“論元”)之間的語義關(guān)系,其核心任務(wù)是形成可靠的論元表示和關(guān)系感知方法,對語義的深度表示和敏銳感知有著極高的要求。因此,篇章關(guān)系識別屬于自然語言處理(NLP)領(lǐng)域底層的關(guān)鍵基礎(chǔ)性研究。其對機器翻譯[1]、情感分析[2]、自動文摘[3]和問答系統(tǒng)[4]等NLP應用層研究,有著極高的借鑒甚至輔助作用。
篇章關(guān)系識別的處理對象是一個由論元和關(guān)系標記形成的三元組{Arg1;R;Arg2}。通常,語序上置前的論元為Arg1,置后的論元為Arg2,關(guān)系R為待解的關(guān)系標記。面向篇章關(guān)系識別研究,賓州篇章樹庫(Penn Discourse Treebank,PDTB)[5]提供了大規(guī)模權(quán)威的標記數(shù)據(jù),其定義的論元關(guān)系體系共計包含三層,其中,層次最高的粗粒度關(guān)系類別涉及四項,分別為:對比關(guān)系(Comparison)、偶然性關(guān)系(Contingency)、擴展關(guān)系(Expansion)和時序關(guān)系(Temporal)。本文繼承前人的主要研究模式,面向四種粗粒度論元關(guān)系開展二元和多元分類的研究。
值得注意的是,PDTB根據(jù)是否存在連接詞,將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系。其中,顯式篇章關(guān)系在多元分類上的準確率已達到96.02%,而隱式篇章關(guān)系的識別的準確率則相去甚遠(1)截至2021年末,現(xiàn)有前沿技術(shù)的最優(yōu)性能維持在70.17%的水平。。下文給出的例1即為一個隱式篇章關(guān)系的測試樣本,其可能的連接詞meanwhile(譯文:同時)在真實樣本中為缺省項,模型無法利用連接詞進行直觀的關(guān)系預判,僅能通過充分理解、表示和感知論元的語義,促進關(guān)系判別器做出正確預測。本文將集中在隱式篇章關(guān)系識別這一任務(wù)上開展研究。
例1[Arg1]:Valley Federal is currently being examined by regulators
(譯文: 聯(lián)邦目前正在接受監(jiān)管機構(gòu)的審查)
[Arg2]:meanwhilenew loans continue to slow
(譯文:與此同時新貸款繼續(xù)放緩)
[篇章關(guān)系]:Temporal.Synchrony.
現(xiàn)有基于監(jiān)督學習的論元關(guān)系分類方法,往往受限于訓練樣本數(shù)量不足的問題,無法充分發(fā)揮其在語義特征編碼和感知層面的優(yōu)勢。前人[6-7]往往采用數(shù)據(jù)擴展的方法,彌補可觀測樣本總量的缺口。這類方法能夠引入知識面較寬、特征多樣性較高的外部數(shù)據(jù),從而優(yōu)化監(jiān)督學習過程,且提升神經(jīng)網(wǎng)絡(luò)模型的健壯性。然而,外部數(shù)據(jù)不僅包含符合關(guān)系分類的高質(zhì)量樣本,也包含未經(jīng)校驗且質(zhì)量偏低的噪聲樣本。使得數(shù)據(jù)擴展帶來的性能優(yōu)化存在一定的不確定性(高噪聲數(shù)據(jù)反而誤導監(jiān)督學習)。
針對上述問題,本文嘗試將對比學習方法引入論元關(guān)系分類模型的訓練過程。對比學習可以在類別標記不可見的情況下,依據(jù)訓練樣本本身的屬性,對其在高維語義表示空間上的分布特點進行學習和應用。具體而言,對比學習方法能夠利用樣本間語義屬性的近似性度量,自動探尋相似于目標樣本的實例以及具有較高差異的其他實例,從而有利于監(jiān)督在學習過程中調(diào)整神經(jīng)網(wǎng)絡(luò)模型的內(nèi)核(即參數(shù)矩陣),使之善于在高維語義表示空間中聚攏相似實例,驅(qū)離非相似實例。也因此,對比學習不僅有助于數(shù)據(jù)稀疏情況下的模型優(yōu)化,也可與數(shù)據(jù)擴展相互協(xié)作,在保證新增正例的額外監(jiān)督作用下,降低噪聲的負面影響?;谶@一優(yōu)勢,本文將簡單對比學習(SimpleContrastiveLearning,SimCSE)[8]方法引入論元的語義編碼和關(guān)系分類過程。現(xiàn)有研究[8]已證實,SimCSE能夠優(yōu)化文本的語義編碼,提升正負例樣本在語義表示空間上的劃分。
例2[Arg1]:UAL Corp. is a good example
(譯文: UAL公司就是一個很好的例子)
[Arg2]:becauseValued as a buy-out target, the airline stock was trading at nearly $280 a share
(譯文:因為被估值公司作為收購目標,該航空公司的股票交易價格接近每股280美元)
[篇章關(guān)系]:Contingency.Cause.Reason
例3 [Arg1]:Valued as a buy-out target, the airline stock was trading at nearly $280 a share
(譯文: 被估值公司作為收購目標,該航空公司的股票交易價格接近每股280美元)
[Arg2]:ThenWhen the deal ran into trouble, the stock tumbled
(譯文:然后當交易陷入困境,該公司股價暴跌)
[篇章關(guān)系]: Temporal.Asynchronous.
盡管對比學習方法(如本文引入的SimCSE)具有上述優(yōu)勢,使其在論元語義編碼的訓練過程中,有著較高的應用價值。但是,觀察發(fā)現(xiàn)對比學習在區(qū)分困惑負樣本的過程中仍存在不足。然而,PDTB篇章關(guān)系分類數(shù)據(jù)集卻蘊含著困惑度樣本,使得對比學習的直接應用面臨可預見的瓶頸。具體而言,PDTB語料中某些目標關(guān)系類的樣本,與非目標關(guān)系類的樣本存在較高的語用重疊現(xiàn)象(即用詞的一致性較高),其構(gòu)成了高困惑度樣本群。如上述例2和例3所示(假設(shè)例2中的論元對屬于目標關(guān)系類別,例3的論元對則是非目標關(guān)系類別)。觀測發(fā)現(xiàn),例2中Arg2的文本和例3的Arg1有部分語用重疊,使得兩個論元對互為困惑樣本。其“困惑”的根源是: ①樣本之間存在語用重疊現(xiàn)象,兩者在語義上較為相似; ②兩個樣本的關(guān)系類別是不同的。在SimCSE中,目標樣本的對比實例來源于批次內(nèi)的其他樣本,這些對比樣本中困惑樣本的比例較低,使得模型在困惑樣本上的區(qū)分度較低。
針對這一問題,本文進一步提出了面向PDTB中高困惑樣本的對比學習(Contrastive Learning with Confused Samples,CL-CFS)優(yōu)化方法。該方法將有效利用條件變分自編碼器(Conditional Variational Auto Encoder,CVAE)[9]提升對比樣本中高困惑樣本的占比,其核心思想是借助CVAE生成困惑樣本的變種,并將該變種作為目標樣本在對比學習中的對比對象。在CL-CFS方法的訓練中,不斷拉開目標樣本和高困惑樣本在語義表示空間上的距離,從而提高模型對高困惑樣本的辨識能力。在此基礎(chǔ)上,本文采用三元組損失函數(shù)(Triplet loss)[10]作為對比學習的損失函數(shù)。該損失函數(shù)可通過間隔值的設(shè)置,過濾語義相似度差異較大的簡單負樣本,增加模型對困惑負樣本的關(guān)注度。
本文采用篇章關(guān)系分析的公開語料集PDTB進行實驗。實驗結(jié)果表明,SimCSE方法獲得優(yōu)于基線模型的實驗性能,該方法在Comparison、Expansion以及Temporal關(guān)系上在F1值上分別取得2.0%、1.45%、4.62%的性能提升。特別地,本文提出的CL-CFS相較于SimCSE方法獲得了進一步的性能提升,其在Comparison、Contingency、Expansion以及Temporal關(guān)系上分別取得2.68%、3.77%、1.69%、8.15%的F1值性能提升??傮w上,本文的主要貢獻包含如下兩個方面:
(1) 首次將對比學習機制引入面向論元關(guān)系分類的研究,并取得了顯著的性能提升。
(2) 根據(jù)對比學習的工作原理和PDTB數(shù)據(jù)的固有性質(zhì),開展了適應性研究,研究側(cè)重分析現(xiàn)有對比學習方法在高困惑樣本中的缺陷。特別地,提出了CL-CFS方法,充分利用CVAE的變種生成優(yōu)勢,實現(xiàn)了對比學習對象的遷移。同時,結(jié)合對比學習的訓練過程,提高模型在表征高困惑樣本語義上的準確性。
本文組織結(jié)構(gòu)如下: 第1節(jié)介紹隱式篇章關(guān)系識別的相關(guān)工作;第2節(jié)介紹基于高困惑樣本對比的學習方法;第3節(jié)介紹本文所用的數(shù)據(jù)集、實驗設(shè)置、實驗結(jié)果,以及對實驗結(jié)果的可解釋分析;第4節(jié)總結(jié)全文并展望未來工作。
現(xiàn)有隱式篇章關(guān)系識別的研究主要從兩個方向出發(fā): 對現(xiàn)有數(shù)據(jù)集進行擴展和構(gòu)建較為復雜的分類模型學習論元的表征。其中模型構(gòu)建分為基于語義特征的傳統(tǒng)機器學習和基于神經(jīng)網(wǎng)絡(luò)的論元表示模型。
語料資源規(guī)模小的問題一直是隱式篇章關(guān)系識別的研究難點之一,該問題使得模型無法獲得豐富的論元語義特征。研究者們嘗試使用數(shù)據(jù)擴充的方法來緩解這個問題。
很多研究者按照一定的規(guī)則挖掘外部數(shù)據(jù)資源,嘗試為模型提供更加豐富的語義特征。如Xu等[6]用連接詞匹配外部數(shù)據(jù)并將擴充數(shù)據(jù)里的連接詞去掉作為偽隱式語料,同時結(jié)合主動學習方法,從偽隱式語料中抽取出信息含量豐富的樣本加入訓練集,提升了模型的分類性能。朱珊珊等[7]以論元向量為線索,從外部數(shù)據(jù)資源中挖掘出“平行訓練樣本集”。該樣本集在語義和關(guān)系上與原始語料是一致的。Varia等[11]通過構(gòu)建外部數(shù)據(jù)集擴展語料,并引入詞對卷積,捕獲顯式或隱式關(guān)系分類的論元之間的相互作用。
此外,一些研究者在數(shù)據(jù)擴充上提供了不一樣的思路。基于中英雙語語料中存在的“隱式/顯式不匹配”現(xiàn)象,Wu等[12]從大量中英雙語句子對齊的語料中提取出偽隱式樣本,緩解了隱式篇章關(guān)系語料規(guī)模較小的問題。Lan等[13]將注意力神經(jīng)網(wǎng)絡(luò)模型集成到一個多任務(wù)學習框架中,利用大量未標記數(shù)據(jù)輔助隱式篇章關(guān)系識別。特別地,Dou等[14]在隱式篇章關(guān)系識別中使用自監(jiān)督學習方法,該研究采用CVAE[9]進行數(shù)據(jù)增強,并聯(lián)合注意力機制學習獲得較好的性能提升。
由于外部語料擴展數(shù)據(jù)的方法面臨數(shù)據(jù)獲取困難和數(shù)據(jù)噪聲較多的問題,因此,一些研究采用了新的研究思路,從有限的數(shù)據(jù)集中學習深層的論元語義表征,為模型提供可靠的分類線索。
1.2.1 基于傳統(tǒng)機器學習獲得論元表征
早期研究工作主要側(cè)重于基于語義特征的傳統(tǒng)機器學習模型。如Pitler等[15]以詞對、動詞類型等為分類特征,首次在PDTB的四大關(guān)系上取得了不錯的性能。Lin等[16]將上下文、句法結(jié)構(gòu)以及依存結(jié)構(gòu)特征應用于隱式篇章關(guān)系識別中。
1.2.2 基于神經(jīng)網(wǎng)絡(luò)的論元表示模型
大量研究表明,神經(jīng)網(wǎng)絡(luò)能更好地挖掘句法和語義信息。如Zhang等[17]提出一種淺層卷積神經(jīng)網(wǎng)絡(luò),緩解了隱式篇章關(guān)系識別中的過擬合問題。Liu等[18]基于卷積神經(jīng)網(wǎng)絡(luò)學習論元的表示,同時融合多任務(wù)學習思想,以隱式篇章關(guān)系分類為主任務(wù),顯式篇章關(guān)系和連接詞分類任務(wù)為輔助任務(wù)來提升模型的性能。值得注意的是,Qin等[19]提出了一種基于特征模擬的新型連接詞開采方案,建立一個對抗網(wǎng)絡(luò)框架,得到近似擴展了連接詞的論元對表示。Bai和Zhao[20]結(jié)合不同粒度下的語義表征提高了論元對的表示能力。Dai和Huang[21]構(gòu)建了段落級神經(jīng)網(wǎng)絡(luò)模型,對篇章單元之間的相互依賴性以及篇章關(guān)系的連續(xù)性進行建模。Nguyen等[22]在Bai和Zhao[20]的基礎(chǔ)上,采用多任務(wù)學習框架同時預測了關(guān)系和連接詞,接著將篇章關(guān)系和連接詞同時嵌入到相同的空間,并通過映射在兩個預測任務(wù)中實現(xiàn)知識遷移。除此之外,Zhang等[23]提出了一種語義圖卷積網(wǎng)絡(luò),首次使用圖形結(jié)構(gòu)來建模論元對的語義交互,在兩個論元的表示上構(gòu)建交互圖,然后通過圖卷積自動提取深度語義交互信息。Ruan等[24]使用雙通道網(wǎng)絡(luò)開發(fā)了一個傳播性注意力學習模型。Li等[25]針對注意力學習模型存在權(quán)值分布過于平滑的問題,提出基于懲罰注意力權(quán)重方差的方法。Liu等[26]使用多視角余弦相似度匹配論元,并融合多頭注意力和門控機制來深入理解論元。
針對現(xiàn)有模型對論元的語義表征不準確以及對PDTB語料中困惑樣本區(qū)分能力較差的問題,本文提出CL-CFS方法,該方法首先構(gòu)建正負例樣本。其采用CVAE[9]生成高困惑樣本作為目標實例的負樣本,同時基于SimCSE構(gòu)建正負例樣本。接著,基于CL-CFS的對比損失,使得模型能夠?qū)W習到正樣本對之間的共同特征,并不斷區(qū)分正負樣本之間的差異。本文的研究結(jié)果表明,CL-CFS能夠使得模型在正負例樣本上獲得更加準確且在不同類別樣本上具有差異化的語義表示。
本節(jié)首先介紹模型的整體結(jié)構(gòu),然后對每個模塊的設(shè)計思路展開詳細描述,并給出整個模型的訓練方式。
本文提出基于高困惑樣本對比學習的隱式篇章關(guān)系識別,圖1是總體模型框架圖。該模型主要分為以下四個部分: ①本文使用RoBERTa模型對輸入的論元對(Arg1和Arg2)進行編碼,獲得論元對融合上下文的編碼表示。②通過本文提出的CL-CFS方法提升模型表征論元語義的準確性,從而獲得更加接近論元真實語義的編碼表示。③將更新后的論元對表示輸入基礎(chǔ)篇章關(guān)系分類器,通過全連接層和softmax層進行關(guān)系分類。④在實驗中,本文采用損失聯(lián)合優(yōu)化的訓練方式,將對比學習的損失和篇章關(guān)系分類的損失相加,進行聯(lián)合優(yōu)化。
圖1 總體模型框架圖
對于隱式篇章關(guān)系識別語料中的一個論元對Arg1和Arg2,本文首先通過Byte-PairEncoding將其切分為子詞序列,如式(1)、式(2)所示。
本文使用預訓練模型RoBERTa對論元對進行編碼,模型的輸入X如式(3)所示。輸入X經(jīng)過RoBERTa模型編碼后輸出的隱狀態(tài)向量H如式(4)所示。
對比學習的核心目標是,通過數(shù)據(jù)增廣方法構(gòu)建正負樣本,同時訓練一個能較為準確地分辨正負樣本的模型。通過這個模型,使得正樣本對在語義表示空間上的距離更加接近,而正負例樣本之間的距離盡可能遠?;谏鲜瞿繕?,CL-CFS首先構(gòu)建正負例樣本,樣本構(gòu)建的過程如圖2所示。接著,利用對比學習的損失使得模型獲得能夠區(qū)分正負例樣本的差異化語義表示。
圖2 SimCSE和CL-CFS的樣本構(gòu)建
2.3.1 SimCSE構(gòu)建正負樣本
2.3.2 CVAE構(gòu)建高困惑負樣本
從圖2可以看出,在現(xiàn)有模型的語義表示空間中,高困惑負樣本和對應的正樣本距離較近,使得模型難以分辨。SimCSE的負樣本選自批次內(nèi)的其他樣本,這些樣本具有較強的隨機性,且高困惑負樣本的比例較低。其中,部分樣本與輸入樣本的標簽相同,強行作為負樣本使得模型難以收斂。此外,隨機選取的負樣本通常和原始樣本在語義上差別很大,使得模型僅能分辨相似度差異很大的樣本。從以上分析可得,基于SimCSE方法的模型在高困惑樣本上的辨別能力較低。
因此,本文提出采用CVAE生成高困惑樣本作為對比學習中目標樣本的負樣本。其中,高困惑樣本有以下兩個特性: ①與原始樣本的標簽不同; ②與原始樣本語義相似。
CVAE采用變分推斷的方式來構(gòu)建樣本。與VAE不同,CVAE不再是直接從高斯分布p(Z)=N(0,1)中直接采樣,而是從p(Z|Y)中進行采樣,Y是標簽向量。同時,解碼器需要重構(gòu)的是(Y|R)而不是R。本文將CVAE的編碼器表示為后驗分布qφ(Z|R,Y),解碼器由生成分布pθ(R|Z)來表示。其中,R是輸入變量,Z是隱變量,φ和θ是學習參數(shù)。CVAE訓練中的損失函數(shù)如式(7)所示。
其中,第一項是樣本的重構(gòu)損失,F(xiàn)是指均方誤差。第二項使用的是KL散度,用來度量隱藏向量與結(jié)合樣本標簽的單位高斯分布的差異。進一步地,為了優(yōu)化KL散度,CVAE采用參數(shù)重構(gòu)的技巧,不再產(chǎn)生一個隱藏向量,而是生成兩個向量,分別是均值和標準差向量。在訓練過程中,CVAE通過標簽向量的約束改變隱藏變量的均值,進而控制其采樣的位置,最后控制生成高困惑負樣本。
2.3.3 對比學習正負樣本的差異
在對比學習的訓練中,通過對比學習的損失函數(shù),使得模型不斷學習正負例樣本之間的差異。SimCSE中使用的損失函數(shù)是噪聲對比估計(Noise Contrastive Estimation,NCE)[27],如式(8)所示。
NCE的目標是縮小正樣本對之間的距離,拉大正樣本和負樣本之間的距離。從式(8)可以看出,NCE試圖通過溫度系數(shù)來關(guān)注困難負例,但其依賴于參數(shù)值的設(shè)置。因此,NCE并未真正緩解SimCSE方法構(gòu)建的負樣本有大量噪聲的問題。
因此,本文提出使用Triplet loss[10]作為對比學習訓練中的損失函數(shù),如式(9)~式(12)所示。
其中,δ是樣本之間的cosine相似度,δ1是正樣本對之間的相似度得分,δ2指正負樣本之間相似度得分。γ代表真實的標簽,這里采用無監(jiān)督的學習方法,因此γ值為1。margin是超參數(shù),其用來設(shè)置參與訓練的正負樣本之間的最大得分間隔。
分析式(9)可知,Triplet loss的計算過程是將正例對之間的相似度分數(shù)和增強的“高困惑的負樣本”相似度分數(shù)進行相減,并將差值與margin(本文設(shè)置為0.2)進行對比,當分數(shù)差值大于margin值時,損失值為0,大于0且小于margin值時,損失為分數(shù)差值。換言之,使用Triplet loss可以將與正樣本語義相似度得分差值很大的簡單負樣本從參與訓練的樣本中篩除。因此,Triplet loss緩解了NCE中出現(xiàn)的簡單負樣本過多導致的模型收斂過快的問題。進一步地,Triplet loss保留大量與正樣本相似度差值較小的困惑負樣本作為對比學習的訓練數(shù)據(jù),提高模型對高困惑負樣本的辨識能力。
如圖1的模型框架圖所示,本文采用損失聯(lián)合優(yōu)化的訓練方式,將隱式篇章關(guān)系分類的損失和基于高困惑樣本對比學習的損失進行聯(lián)合優(yōu)化。通過對比學習獲得更準確的論元語義表征,在此基礎(chǔ)上,共同優(yōu)化模型的分類損失,使得模型更好地感知論元之間的關(guān)系類型。
2.5.1 隱式篇章關(guān)系識別的分類損失
基于提升隱式篇章關(guān)系的分類能力的目標,我們首先微調(diào)RoBERTa模型,獲取輸入論元對的向量表示,接著將論元對的表示輸入全連接層和softmax層后得到輸出的預測概率。然后通過計算預測概率與真實類別標簽之間的交叉熵損失訓練分類模型。交叉熵損失如式(14)所示。
2.5.2 基于高困惑樣本對比學習的損失
為了緩解現(xiàn)有模型在高困惑樣本上語義表示的偏差,本文提出CL-CFS,使用CVAE生成高困惑負樣本,并結(jié)合SimCSE生成的正負例樣本,一起應用到對比學習的訓練過程中。
在模型訓練中,CL-CFS采用損失聯(lián)合優(yōu)化的訓練方式,同時優(yōu)化基于高困惑樣本對比學習中的損失Lt[如式(9)所示]和基于CVAE生成高困惑樣本的損失LC[如式(7)所示]。具體地,在優(yōu)化CVAE生成高困惑負樣本以增強對比學習數(shù)據(jù)的迷惑性的同時,聯(lián)合優(yōu)化對比學習的訓練損失,使得構(gòu)建的正負樣本發(fā)揮更多的作用。因此,CL-CFS的損失函數(shù)如式(15)所示。
其中,α,β∈(0,1]表示權(quán)重參數(shù),其值越大表明任務(wù)在訓練中的關(guān)注度越高。
2.5.3 損失函數(shù)聯(lián)合優(yōu)化
基于高困惑對比學習的隱式篇章關(guān)系識別的研究目標是通過CL-CFS方法,使得現(xiàn)有模型獲得更準確的論元語義表示,并將優(yōu)化后的論元表示輸入分類器,進而感知論元之間的關(guān)系。
基于上述訓練目標,本文采用損失聯(lián)合優(yōu)化的訓練方式(如圖1所示),共同優(yōu)化隱式篇章關(guān)系分類的損失和基于困惑樣本對比學習的損失。因此,整個模型的損失函數(shù)如式(16)所示。
其中,LCL-CFS是CL-CFS方法的訓練損失,LClassification是隱式篇章關(guān)系分類的損失。在實驗中,通過調(diào)節(jié)權(quán)重參數(shù)和將兩者進行融合。
本節(jié)介紹實驗中的相關(guān)配置,包括使用的數(shù)據(jù)集、參數(shù)設(shè)置、實驗設(shè)置以及對實驗結(jié)果的可解釋性分析。
本文在PDTB[5]數(shù)據(jù)集上驗證基于CL-CFS的方法在隱式篇章關(guān)系識別中的有效性,為了與前人工作保持一致,本文將Sec 02-20作為訓練集,Sec 00-01作為開發(fā)集,Sec 21-22作為測試集,其中,所有樣本的關(guān)系類別可能是Comparison(COM.),Contingency(CON.),Expansion(EXP.)和Temporal(TEM.)四種關(guān)系其中的一種,每種關(guān)系在語料中的分布情況如表1所示。
表1 PDTB四大類隱式篇章關(guān)系數(shù)據(jù)分布
從表1中可以看出,PDTB的數(shù)據(jù)規(guī)模較小,同時在各關(guān)系類別上的數(shù)據(jù)分布上不均衡。例如,Expansion關(guān)系的樣本數(shù)量遠遠超過Temporal的樣本數(shù)量。因此,僅僅使用多元關(guān)系分類器對所有關(guān)系的樣本進行整體評測,會對數(shù)據(jù)量小的樣本缺少公平性。基于此,本文進一步對每種關(guān)系單獨訓練一個二元分類器,對測試樣本中的每個關(guān)系類型分別進行評估。本文針對每個關(guān)系類別的樣本,隨機抽樣其他關(guān)系類別的樣本作為負樣本,從而構(gòu)建二元分類器的訓練數(shù)據(jù)。
為了驗證本文提出的基于高困惑樣本的對比學習方法可以輔助改善隱式篇章關(guān)系識別,本文分為五個部分進行對比實驗。
RoBERTa-base(基準系統(tǒng))對輸入論元對Arg1和Arg2進行分詞,并將分詞結(jié)果與特殊分類字符[CLS]和特殊分隔字符[SEP]拼接,共同輸入RoBERTa預訓練模型中,獲得論元對的編碼表示,然后將論元對的表示輸入全連接層進行關(guān)系分類。
SimCSE將當前輸入樣本分兩次輸入RoBERTa模型中進行編碼,獲得原始論元對的向量表示以及增強的正樣本表示。接著將當前輸入論元對所在批次的其他樣本作為負樣本。然后,通過對比學習的損失函數(shù)NCE進行訓練。
CL-CFS首先,基于CVAE生成高困惑負樣本,然后采用SimCSE的樣本構(gòu)建方法分別獲得正樣本和批次內(nèi)的負樣本。進一步地,將構(gòu)建的正樣本、批次內(nèi)負樣本以及高困惑負樣本共同作為對比學習的數(shù)據(jù)。同時,本節(jié)實驗在對比學習中采用NCE作為訓練損失函數(shù)。
Triplet loss的作用本節(jié)實驗分別將SimCSE以及CL-CFS方法中的損失函數(shù)NCE替換為Triplet loss,并與使用NCE損失函數(shù)的實驗結(jié)果進行對比。
CVAE中的條件設(shè)置本節(jié)實驗為了驗證使用CVAE生成高困惑負樣本時,引入不同的標簽向量作為CVAE的限制條件對實驗結(jié)果的影響。該實驗分別設(shè)置3組對比實驗: ①無標簽向量(即相當于使用VAE)。②目標關(guān)系類別,即與原始樣本標簽相同的標簽向量。③非目標關(guān)系類別,即與原始樣本標簽不同的標簽向量。
本文使用RoBERTa-base模型來獲得輸入樣本的向量表示。其中,設(shè)置RoBERTa的隱層向量維度d為768,單個論元的最大長度m設(shè)置為126。在模型的訓練中,本文的關(guān)系分類任務(wù)使用交叉熵作為損失函數(shù),并采用基于Adam的批梯度下降法優(yōu)化模型參數(shù)。此外,將批處理大小N(Batch size)設(shè)置為8,學習率為5e-6。為了緩解過擬合的問題,模型在每層之后使用了dropout,隨機丟棄的比率設(shè)置為0.2。在損失函數(shù)NCE損失函數(shù)Ls中,溫度系數(shù)τ的值是0.05。在Triplet loss損失函數(shù)Lt中,margin值設(shè)置為0.2。在CL-CFS的訓練過程中,本文聯(lián)合優(yōu)化基于CVAE生成高困惑樣本的損失LC和引入高困惑樣本對比學習中的損失Lt。 其中,Lt的損失權(quán)重α設(shè)置為8,LC的損失權(quán)重β設(shè)置為0.01。
3.4.1 總體實驗結(jié)果與分析
根據(jù)第3.2節(jié)的實驗設(shè)置,本節(jié)將多組對比實驗在PDTB的四大關(guān)系類型中的每個二元分類任務(wù)上的表現(xiàn)進行驗證。其中,本文采用F1值(F1-score)作為二元分類的評價指標,具體的分類性能結(jié)果如表2所示。
表2 對照實驗的性能對比 (單位: %)
表2中的第一組對照實驗(第3~4行)顯示,與RoBERTa-base基準模型進行對比,隱式篇章關(guān)系識別聯(lián)合SimCSE,并采用NCE作為損失函數(shù)的方法,在Comparison、Expansion以及Temporal關(guān)系上分別獲得1.23%、0.53%、3.84%的F1值性能提升。但是,在Contingency關(guān)系相對基礎(chǔ)模型在F1值上卻下降了0.47%。實驗結(jié)果說明,SimCSE在一定程度上改善了現(xiàn)有模型在論元的語義表征能力上的瓶頸。但是,結(jié)合SimCSE進行訓練也會給基線模型帶來一定的干擾。進一步地,使用Triplet loss替換NCE損失函數(shù)。從實驗結(jié)果上看,Triplet loss在對比學習的訓練中的表現(xiàn)是優(yōu)于NCE損失函數(shù)的。相對于NCE,Triplet loss在Comparison、Contingency、Expansion以及Temporal關(guān)系上分別獲得1.80%、1.72%、0.92%、1.14%的F1值性能提升。這側(cè)面說明了Triplet loss可以通過間隔值margin篩選出更有效的正負樣本對參與模型的訓練,從而提升模型性能。
表2中的第二組對照實驗(第5~6行),使用本文提出的CL-CFS方法。相較于SimCSE方法,CL-CFS在Comparison、Contingency、Expansion以及Temporal關(guān)系上分別獲得1.59%、1.96%、1.53%、1.80%的F1值性能提升。實驗結(jié)果說明,基于SimCSE的模型在部分具有迷惑性的樣本上的語義表征能力存在不足。而CL-CFS使用CVAE為原始樣本構(gòu)建高困惑負樣本,并加入對比學習的數(shù)據(jù)中,能夠在一定程度上提升現(xiàn)有模型對于論元的語義表征能力。與第一組對照實驗一致,本組實驗使用Triplet loss替換NCE。相較于使用NCE,CL-CFS在F1值上獲得了明顯的性能提升。尤其是Temporal和Contingency,在F1值上相對于基準模型分別提升了7.13%和3.14%。再次驗證了Triplet loss在對比學習中的有效性。
表2中的第三組對照實驗(第7~9行),首先嘗試不使用限定條件的CVAE生成樣本,接著分別使用目標關(guān)系標簽以及非目標關(guān)系標簽向量作為CVAE的限定條件來生成高困惑負樣本。從實驗結(jié)果可以看出,相較于使用目標關(guān)系標簽,采用非目標關(guān)系標簽的CVAE在對比學習訓練中的性能表現(xiàn)更好。說明通過限定CVAE中的條件可以在一定程度上控制其生成樣本的類別。同時,與不使用標簽向量作為限制條件相比,使用目標關(guān)系標簽會為CL-CFS的訓練帶來負收益,尤其是時序關(guān)系,其性能指標相差3.16%。造成這個實驗結(jié)果的原因是,在對比學習中,采用與目標關(guān)系類別相同的樣本作為目標樣本的負樣本,通常會給模型帶來較大的干擾。
同時,第三組對照進一步說明SimCSE效果較差的原因。SimCSE在負樣本的選取中,使用目標樣本所在批次內(nèi)的其他樣本作為負樣本。而批次內(nèi)的樣本很可能存在與目標樣本類別相同的樣本,進而給對比學習的訓練帶來干擾。
3.4.2 與前人實驗結(jié)果的對比與分析
本節(jié)將CL-CFS與前人的先進模型進行對比,其中涵蓋了PDTB的四種主要關(guān)系的四元分類和單個二元分類任務(wù)的性能對比。這里采用宏平均F1值(Macro-averagedF1)和準確率(Accuracy)作為四元分類評價指標,具體如表3所示。
表3 CL-CFS與現(xiàn)有先進模型對比結(jié)果 (單位: %)
表3展示的實驗結(jié)果表明,相較于數(shù)據(jù)擴充方法的Varia等[11]以及Dou等[14]進行對比,CL-CFS獲得了具有可比性的性能。Varia等利用顯式篇章關(guān)系語料進行數(shù)據(jù)擴充。具體地,Varia等提出聯(lián)合學習隱式和顯式關(guān)系的詞對和N-gram, 并使用卷積神經(jīng)網(wǎng)絡(luò)來改善隱式篇章關(guān)系識別。從表3可以看出,Varia等在Temporal關(guān)系上的性能最具優(yōu)勢。然而,CL-CFS在Temporal上的F1值(表3中*號所示)比Varia等的方法高5.01%。這個對比結(jié)果表明,CL-CFS能夠在不依賴外部語料的前提下,從現(xiàn)有語料中挖掘更深層的語義特征。與Dou等提出的方法進行比較,CL-CFS在Comparison,Expansion以及Temporal關(guān)系上性能表現(xiàn)更具有優(yōu)勢,分析可得,Dou等采用CVAE的方法對隱式篇章關(guān)系識別的任務(wù)進行改進。這樣的方法增強了現(xiàn)有訓練數(shù)據(jù)語義的豐富性,但是并沒有針對性地解決現(xiàn)有模型在高困惑樣本上辨別度較差的問題。特別地,在Expansion關(guān)系上,CL-CFS的性能低于Dou等。分析發(fā)現(xiàn),Dou等的最終實驗在使用CVAE的基礎(chǔ)上,引入了顯式篇章關(guān)系語料進行遷移學習,而CL-CFS方法并不依賴于任何外部數(shù)據(jù)。
Liu等[26]基于論元表示學習的研究方向,取得較優(yōu)的整體性能。其利用上下文感知多視角融合的方法來提升模型的分類能力。CL-CFS與Liu等在F1值上進行相比,在Contingency和Expansion上分別提升2.99%和1.38%。在Comparison和Temporal關(guān)系上,盡管CL-CFS方法低于Liu等的模型性能,但也獲得了非常具有可比性的性能。同時,Liu等的模型比CL-CFS的復雜程度更高。其采用多視角余弦相似度匹配論元,然后將論元對輸入到具有門控單元的多頭交互注意力機制中獲得論元表示,并且對獲得的論元表示使用了卷積操作。而本文通過數(shù)據(jù)增廣的方法構(gòu)建正負樣本,并通過對比學習的損失函數(shù)進行訓練。模型的復雜度較低,可遷移能力較強。
從表3可以看出,本文也在四元分類任務(wù)上與前人先進模型的性能進行對比,其中,本文提出的CL-CFS方法在四元分類任務(wù)上獲得了目前最好的實驗性能,其中,Macro-F1值相對SOTA模型提升1.52%,Acc值提升2.1%。
如2.4節(jié)所述,本文使用損失聯(lián)合優(yōu)化的訓練方式進一步優(yōu)化CL-CFS方法。一般地,損失聯(lián)合優(yōu)化時,每個損失的權(quán)重參數(shù)設(shè)置會對聯(lián)合優(yōu)化的結(jié)果造成影響。因此,本節(jié)描述實驗中調(diào)節(jié)損失權(quán)重的細節(jié)。同時,本節(jié)進一步分析不同的權(quán)重參數(shù)設(shè)置對實驗結(jié)果的影響情況。在2.5.2節(jié)中提到,本文聯(lián)合優(yōu)化基于高困惑樣本對比學習中的損失Lt[如式(9)所示]和基于CVAE生成高困惑樣本的損失LC[如式(7)所示]。在聯(lián)合優(yōu)化過程中,Lt的權(quán)重為α,LC的權(quán)重β。 本文將LC權(quán)重β設(shè)置為0.01,Lt的權(quán)重為α設(shè)置為8。其原因是,Lt和LC的取值范圍在共同優(yōu)化時應該處于相近的數(shù)量級。但是,Lt使用的Triplet loss的取值范圍是0到間隔值(本文設(shè)置為0.2),其數(shù)量級遠小于使用均方誤差的LC。 因此,基于高困惑樣本對比學習中的損失LC的權(quán)重β,其數(shù)量級應該遠低于α。 同時,本文進一步對α設(shè)置了如下幾個數(shù)值(分別是1,2,5,8,10)進行對照實驗,具體實驗結(jié)果如圖3所示。
圖3 調(diào)節(jié)損失Lt的權(quán)重α
圖3展示了調(diào)節(jié)對比學習的損失Lt的權(quán)重α的過程,并反映了不同的權(quán)重α,為模型的性能帶來的變化。其中,橫坐標表示Lt的權(quán)重α,縱坐標表示模型的性能評估指標F1值(F1-score)。如圖3所示,權(quán)重值α從1開始逐漸增加,模型在隱式篇章關(guān)系任務(wù)的四大關(guān)系上的性能不斷提升,并在α為8時達到峰值。這說明在損失聯(lián)合優(yōu)化中,增大模型在對比學習中關(guān)注度可以有效改善模型對論元的語義表征不準確的問題。但是,當α增大為10時,模型的效果開始退化,說明過度關(guān)注Lt,可能導致模型的其他任務(wù)失衡。
為了檢驗CL-CFS在性能提升上的顯著性,同時排除實驗結(jié)果的偶然性。本節(jié)進行顯著性檢驗分析[28]。根據(jù)對SimCSE和CL-CFS重復進行多次實驗(每組實驗5次)的實驗結(jié)果,計算SimCSE和CL-CFS與基準模型RoBERTa在評價指標F1-score上的顯著性得分p值,如表4所示。
表4 顯著性得分(p值)
在顯著性檢驗中,當p值小于閾值時(本文將閾值設(shè)置為0.05),說明兩個模型的實驗結(jié)果存在顯著差異,即選取的模型性能提升顯著。且p值越小,效果越優(yōu)。從表4可以看出,SimCSE在PDTB的四大關(guān)系(Comparison、Contingency、Expansion以及Temporal)上計算的p值都小于0.05。同時,本文提出的CL-CFS在PDTB的四大關(guān)系數(shù)據(jù)集上計算的p值比SimCSE方法計算的p值更小。這說明CL-CFS方法相對于SimCSE方法在模型的性能提升上具有更加明顯的優(yōu)勢。
本文針對隱式篇章關(guān)系識別任務(wù)的研究瓶頸,提出了基于高困惑樣本對比學習的隱式篇章關(guān)系識別。在引入SimCSE方法的基礎(chǔ)上,本文提出使用CVAE構(gòu)建高困惑負樣本,緩解現(xiàn)有模型在與原始樣本語義相似的負樣本上區(qū)分能力較差的問題,同時提升了現(xiàn)有模型表征論元對語義的準確性。實驗結(jié)果表明,本文提出的CL-CFS方法優(yōu)于SimCSE。同時,對比目前主流的方法,CL-CFS在擴展關(guān)系上以及四元分類性能上優(yōu)于目前的先進模型,在時序關(guān)系上也獲得了與先進模型具有可比的性能。
但是,隱式篇章關(guān)系識別的性能離實際應用的標準還有較大的差距,其根本原因是現(xiàn)有語料資源有限,導致微調(diào)預訓練模型的訓練方法中無法獲得豐富的語義特征。我們下一步的工作是利用prompt來激發(fā)目前應用的微調(diào)模型在預訓練模型中“遺忘”掉的知識,分別嘗試手動設(shè)計、自動學習的方法來構(gòu)建prompt的輸入模板。