亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生成式摘要的事實(shí)一致性與文本質(zhì)量的平衡性研究

        2025-04-11 00:00:00楊昱睿何禹瞳琚生根

        摘要: 事實(shí)一致性的提升已成為生成式摘要領(lǐng)域的一個(gè)研究熱點(diǎn),目前的主流方法可分為后編輯和模型機(jī)制優(yōu)化兩類. 現(xiàn)有的方法雖然有效地提升了事實(shí)一致性,但基本上犧牲了文本質(zhì)量,降低了可讀性. 針對(duì)這個(gè)問題,提出了一種結(jié)合強(qiáng)化學(xué)習(xí)與基于排序的對(duì)比學(xué)習(xí)的生成式摘要模型SumRCL. 一方面,本文利用基于候選摘要排序的對(duì)比學(xué)習(xí)來提升模型對(duì)摘要賦予的概率與該摘要的事實(shí)一致性的相關(guān)度;另一方面,還使用基于文本質(zhì)量評(píng)估指標(biāo)的強(qiáng)化學(xué)習(xí)來保留高度文本質(zhì)量,其中采用了蒙特卡羅搜索方法來解決中間摘要的評(píng)估問題. 本文方法在CNN/DM 與XSUM 數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的SumRCL 模型確實(shí)有助于生成事實(shí)一致性與文本質(zhì)量都很高的摘要,并分析了對(duì)比學(xué)習(xí)中候選摘要數(shù)量和排序指標(biāo)對(duì)最終效果的影響. 最后,本文通過人工評(píng)估展現(xiàn)了SumRCL 比如今流行的大語言模型具有更好的事實(shí)性行為.

        關(guān)鍵詞: 生成式摘要;事實(shí)一致性;強(qiáng)化學(xué)習(xí);對(duì)比學(xué)習(xí);大語言模型

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼: A DOI:10. 19907/j. 0490-6756. 240241

        1引言

        生成式摘要的事實(shí)一致性指摘要中包含的信息與原文相符合,既不能與原文相悖,同時(shí)也沒有原文中不存在的內(nèi)容. 傳統(tǒng)的抽取式摘要從原文本中復(fù)制連續(xù)文本,可以確保語法正確性和事實(shí)一致性[1]. 但對(duì)于生成式摘要,盡管使用如今流行的預(yù)訓(xùn)練模型可以在該任務(wù)中輸出流暢且抽象度高的摘要文本,但越來越多的研究也表明它們?cè)谑聦?shí)一致性方面表現(xiàn)不佳[2,3]. 例如圖1 所示,圖中有兩個(gè)都來自XSum[4]新聞數(shù)據(jù)集的樣本,且都由ChatGPT 生成摘要. 但在第一個(gè)樣本中,原文表述的是“Evan 為新西蘭贏下了16次聯(lián)賽”,而輸出摘要把這一信息誤解成“Evan 為新西蘭參加了16 次聯(lián)賽”;在第二個(gè)樣本里,原文提到的是“大約4000名員工”和“大約8000 萬英鎊”,而在輸出摘要里則沒有體現(xiàn)出表示估計(jì)的含義,反而變成了準(zhǔn)確的數(shù)目. 這兩個(gè)例子中ChatGPT 輸出的摘要雖然文本質(zhì)量都很高,卻出現(xiàn)了不太明顯的事實(shí)性錯(cuò)誤,即在事實(shí)感知方面仍存在著不足.

        當(dāng)前存在很多關(guān)于提升生成式摘要事實(shí)一致性的研究和方法,它們主要可分為后編輯[5-8]和模型機(jī)制優(yōu)化[9-11]兩種類型. 這些方法基本都未考慮如何在提升事實(shí)一致性后保留文本的高度質(zhì)量,從而在摘要的事實(shí)一致性與文本質(zhì)量的權(quán)衡上表現(xiàn)不佳.

        針對(duì)上述問題,我們提出了結(jié)合強(qiáng)化學(xué)習(xí)與基于候選摘要排序的對(duì)比學(xué)習(xí)的生成式摘要模型SumRCL,使模型在訓(xùn)練過程中可對(duì)事實(shí)一致和不一致的摘要樣本進(jìn)行區(qū)分,從而更有效地輸出事實(shí)一致性的摘要,同時(shí)又能緩解數(shù)據(jù)集中的噪聲問題,維持高度的文本質(zhì)量. 具體來說,這兩種方法都基于自動(dòng)評(píng)估指標(biāo)來訓(xùn)練的:在對(duì)比學(xué)習(xí)中,我們對(duì)候選摘要基于FactCC[12]指標(biāo)進(jìn)行排序,以計(jì)算對(duì)比損失,從而在訓(xùn)練中可提高模型對(duì)摘要賦予的概率與該摘要的事實(shí)一致性之間的相關(guān)度;在強(qiáng)化學(xué)習(xí)中,我們基于Rouge[13]來設(shè)置獎(jiǎng)勵(lì),該指標(biāo)廣泛應(yīng)用于文本摘要的自動(dòng)評(píng)估上,可反映出摘要的文本質(zhì)量. 在這種獎(jiǎng)勵(lì)設(shè)置下,模型在訓(xùn)練中可保留輸出高質(zhì)量文本的能力,同時(shí)我們還使用蒙特卡羅搜索方法來解決中間摘要序列的評(píng)估問題.

        本文的貢獻(xiàn)如下:(1)我們提出SumRCL 模型,該模型結(jié)合強(qiáng)化學(xué)習(xí)與基于候選摘要排序的對(duì)比學(xué)習(xí),提升了對(duì)摘要的評(píng)分與摘要事實(shí)一致性之間的相關(guān)度,同時(shí)還有效地優(yōu)化了事實(shí)一致性與文本質(zhì)量之間的平衡性;(2) 本文在兩個(gè)大規(guī)模數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的方法在提升了生成式摘要的事實(shí)一致性后還很好地保留了文本質(zhì)量,在這兩種摘要屬性的權(quán)衡上優(yōu)于SOTA模型. 此外,在人工評(píng)估中也比較了SumRCL 與其他先進(jìn)模型輸出的摘要在文本質(zhì)量、內(nèi)容相關(guān)性和事實(shí)一致性等3 個(gè)重要屬性上的評(píng)估結(jié)果,表明了SumRCL 在人工評(píng)估中的優(yōu)越性;(3) 在對(duì)比學(xué)習(xí)中,我們還對(duì)不同的排序指標(biāo)與候選摘要數(shù)量進(jìn)行探索,表明這兩種因素可顯著影響基于排序的對(duì)比學(xué)習(xí)的效果,以啟發(fā)后續(xù)用此類方法在其他領(lǐng)域的研究工作.

        2相關(guān)工作

        2. 1事實(shí)一致性的提升

        生成式摘要領(lǐng)域的傳統(tǒng)方法通常會(huì)直接最小化對(duì)數(shù)損失以進(jìn)行訓(xùn)練,對(duì)數(shù)據(jù)集的噪聲非常敏感,使模型容易學(xué)習(xí)到這些無效信息[14]. 為了能夠在這種訓(xùn)練方式的基礎(chǔ)上增添事實(shí)一致性的引導(dǎo),當(dāng)前很多研究都采用了對(duì)比學(xué)習(xí)的方法. Cao等提出CLIFF 模型[9] ,他們對(duì)BART[15] 和PEGASUS[16]兩種預(yù)訓(xùn)練模型微調(diào),并在目標(biāo)函數(shù)里引入對(duì)比損失項(xiàng),用以極大化正樣本摘要編碼表示的相似度. 為了增加對(duì)比學(xué)習(xí)時(shí)用到的正樣本,他們通過同義詞替換、回譯等方法做了數(shù)據(jù)增強(qiáng). 另一方面,他們對(duì)參考摘要進(jìn)行修改或者直接使用模型輸出摘要來進(jìn)行負(fù)采樣,前者涉及到的方法包含實(shí)體替換、對(duì)原文關(guān)鍵單詞掩碼后填充、基于源條件的再生成. Wan 等[10]提出FactPEGASUS模型,在PEGASUS 模型的預(yù)訓(xùn)練設(shè)置進(jìn)行調(diào)整,將FactCC 與Rouge 兩種指標(biāo)結(jié)合起來作為間隙句選擇時(shí)的標(biāo)準(zhǔn). 在下游任務(wù)訓(xùn)練中,他們還引入Contrastor、Corrector 和Connector 等3 種機(jī)制. 其中Contrastor 利用對(duì)比學(xué)習(xí)極大化了原文與參考摘要之間的相似性. Corrector 和Connector 分別用于清洗數(shù)據(jù)集的幻覺噪聲,以及微調(diào)時(shí)給輸入添加[mask]token,以模擬預(yù)訓(xùn)練時(shí)的設(shè)置,使模型充分利用預(yù)訓(xùn)練中學(xué)到的事實(shí)性知識(shí). Chen等[11]把模型輸出摘要中的命名實(shí)體替換為原文里出現(xiàn)過的同類型命名實(shí)體,得到對(duì)比候選摘要,作為負(fù)樣本進(jìn)行對(duì)比學(xué)習(xí)訓(xùn)練. 在此過程中,他們的模型對(duì)樣本賦予的概率作為了對(duì)比損失的計(jì)算因子. 而在推理階段,模型會(huì)對(duì)不同的候選摘要評(píng)分,然后選出得分排第一的摘要作為輸出摘要.

        此外,有的研究者也在強(qiáng)化學(xué)習(xí)的訓(xùn)練范式下使用基于事實(shí)性指標(biāo)的獎(jiǎng)勵(lì)函數(shù)來提升事實(shí)一致性. Gunasekara 等[17]使用了基于問答的事實(shí)一致性指標(biāo)來設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù);Pasunuru 等[18]則使用基于蘊(yùn)含分?jǐn)?shù)的獎(jiǎng)勵(lì),并結(jié)合Rouge 指標(biāo)來進(jìn)行訓(xùn)練. 有的研究者甚至直接用人工反饋來對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行建模[19,20],從而有效防止參考摘要與人類判斷之間的不一致導(dǎo)致的錯(cuò)誤.

        我們提升生成式摘要事實(shí)一致性的方法參考了Liu 等提出的BRIO[21],這是一種基于排序的自監(jiān)督對(duì)比學(xué)習(xí)方法,即先對(duì)模型輸出的若干候選摘要按某種指標(biāo)排序,然后通過對(duì)比學(xué)習(xí)訓(xùn)練相應(yīng)的評(píng)分機(jī)制,使得按照這種評(píng)分機(jī)制進(jìn)行排序的結(jié)果盡可能與先前的排序結(jié)果一致. 但他們的方法以Rouge 指標(biāo)作為排序標(biāo)準(zhǔn),以提升摘要的文本質(zhì)量,而我們將排序標(biāo)準(zhǔn)替換為事實(shí)一致性相關(guān)的指標(biāo),并探究了不同的排序標(biāo)準(zhǔn)和不同的候選摘要數(shù)量分別在該訓(xùn)練范式下帶來的影響.

        2.2文本質(zhì)量的提升

        傳統(tǒng)的序列到序列模型通常采用最大似然估計(jì)作為訓(xùn)練目標(biāo),即最大化生成的文本在訓(xùn)練集里的似然. 為了提高訓(xùn)練的速度,該方法通常還會(huì)采用教師強(qiáng)制模式,即在訓(xùn)練中告訴解碼器完整的參考摘要序列,使解碼器在訓(xùn)練時(shí)的每個(gè)時(shí)間步都直接以參考摘要在上一步的詞作為輸入. 這種教師強(qiáng)制模式會(huì)使生成的摘要過于依賴于參考摘要,而解碼器在推理階段由于無法直接觀察到參考摘要,使得教師強(qiáng)制模式失配,導(dǎo)致了暴露偏差問題,從而影響文本的質(zhì)量.

        為了解決這一問題,有的研究者引入了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[22,23]來增強(qiáng)模型輸出自然樣本的能力,以減少噪聲帶來的干擾. 在此框架下,這通常會(huì)使用強(qiáng)化學(xué)習(xí)來解決文本序列的離散性帶來的梯度問題,也就是把摘要生成任務(wù)視為一個(gè)序列決策過程,以生成器為策略,通過選擇每個(gè)時(shí)間步的動(dòng)作(詞或者短語)來生成文本序列,進(jìn)一步使生成的摘要更貼近自然樣本.

        2.3事實(shí)一致性的檢測(cè)

        當(dāng)前在生成式摘要領(lǐng)域里也有很多研究側(cè)重于對(duì)事實(shí)一致性的自動(dòng)評(píng)估. 這些研究大致上可分為基于蘊(yùn)含和基于問答兩類.

        一方面,Kryscinski 等[12]對(duì)參考摘要進(jìn)行實(shí)體替換等操作做出修改,構(gòu)造負(fù)樣本,再與參考摘要一同作為輸入,訓(xùn)練出事實(shí)一致性分類器,并由此提出了FactCC 指標(biāo). Lee 等[24]對(duì)其做出改進(jìn),對(duì)參考摘要和原文采用mask 操作,然后訓(xùn)練出對(duì)mask處理的參考摘要進(jìn)行預(yù)測(cè)的模型,作為負(fù)樣本生成器,然后再結(jié)合正樣本作為輸入訓(xùn)練出事實(shí)一致性分類器,并以此提出MFMA 指標(biāo). 以上兩種方法都是從摘要級(jí)的粒度來評(píng)估事實(shí)一致性的.Laban 等[25]提出SummaC 指標(biāo),借助NLI 模型,對(duì)每個(gè)(原文句,摘要句)評(píng)估蘊(yùn)含得分,得出分?jǐn)?shù)矩陣,再轉(zhuǎn)換為一個(gè)標(biāo)量,以作為針對(duì)目標(biāo)摘要的事實(shí)一致性分?jǐn)?shù),使評(píng)估粒度細(xì)化到了句子級(jí). 而Goyal 等[26]則利用關(guān)系抽取模塊,把摘要中實(shí)體之間的關(guān)系建模成依賴弧,然后對(duì)每個(gè)依賴弧通過原文來賦予事實(shí)一致性得分,使評(píng)估粒度進(jìn)一步細(xì)化到token 級(jí). 以上均屬于基于蘊(yùn)含的方法,總的來說,就是把事實(shí)一致性評(píng)估建模成對(duì)D→S 的評(píng)分,其中D 代表原文,S 代表目標(biāo)摘要.

        另一方面,還有一種比較流行的基于問答的方法. Durmus 等[27]提出FEQA,使用問題生成模型以目標(biāo)摘要中的一些實(shí)體生成相應(yīng)的問題,然后再用問答模型通過原文來對(duì)這些問題作答,以作答情況來評(píng)估目標(biāo)摘要的忠實(shí)度,這也是一種基于精確率的評(píng)估方法. Scialom 等[28]則進(jìn)一步對(duì)原文中的實(shí)體也生成問題,然后用目標(biāo)摘要來作答,以作答情況來反映摘要的內(nèi)容相關(guān)性,這是基于召回率的評(píng)估,他們將其與基于精確率的評(píng)估結(jié)合起來,提出QuestEval 指標(biāo). Fabbri 等[29]則在整體上對(duì)基于問答的評(píng)估指標(biāo)做出優(yōu)化,研究了該系列方法中的答案實(shí)體選擇、問題生成與回答模型及答案重疊度度量4 個(gè)組件的最優(yōu)搭配,提出了QAFactEval 指標(biāo),并指出可將其與基于蘊(yùn)含的方法結(jié)合起來,組成QAFactEval-NLI,使兩種不同的度量方法互補(bǔ),從而更準(zhǔn)確地對(duì)事實(shí)一致性進(jìn)行評(píng)估.

        除了以上兩種評(píng)估范式之外,最近也有研究者開始借助大語言模型來對(duì)摘要的事實(shí)一致性做自動(dòng)評(píng)估[30,31]. 他們通常借助帶有原文和目標(biāo)摘要的模板作為大語言模型的輸入,使其通過直接或思維鏈的方式輸出事實(shí)性評(píng)估結(jié)果. 該方法雖然對(duì)自然語言的理解與推理上仍存在局限性,比如很依賴于詞匯重疊度,但也表現(xiàn)出了與人類評(píng)估相接近的效果,展現(xiàn)了大語言模型用于摘要事實(shí)一致性評(píng)估的潛力.

        3模型

        3. 1 SumRCL整體框架

        我們提出的SumRCL 模型的整體框架如圖2所示,它是一個(gè)序列到序列模型框架,采用基于Transformer的編碼器(Encoder)和解碼器(Decoder).它以長度為m 的原文D = ( x1,x2,x3,…,xm ) 為輸入,在編碼器中將其轉(zhuǎn)換為隱狀態(tài),作為解碼器的第一步輸入. 在解碼器中,摘要文本序列按自回歸的方式被一步步生成出來,每一步都需要用到上一步的輸出詞作為當(dāng)前的輸入. 在圖中解碼器的輸出由詞匯概率分布表示,而該詞匯概率分布在后續(xù)又有兩處使用,分別對(duì)應(yīng)于強(qiáng)化學(xué)習(xí)和對(duì)比學(xué)習(xí)的訓(xùn)練設(shè)置. ( y1,y2,y3 ) 表示長度為3的中間摘要序列,作為強(qiáng)化學(xué)習(xí)中的狀態(tài)(State),同時(shí)也是自回歸方式下解碼器在該時(shí)間步的輸入. 詞匯分布(Vocabulary Distriution)指模型在生成摘要時(shí)計(jì)算的詞匯概率分布,用于確定強(qiáng)化學(xué)習(xí)中該時(shí)間步的動(dòng)作(Action),以及對(duì)比學(xué)習(xí)中的損失計(jì)算.

        我們分別采用了BART 和PEGASUS 兩種預(yù)訓(xùn)練模型,它們?cè)谏筛哔|(zhì)量摘要文本上都具有很強(qiáng)的能力. 其中,BART 結(jié)合雙向Transformer結(jié)構(gòu),通過在預(yù)訓(xùn)練過程里使用自編碼和自回歸任務(wù)來學(xué)習(xí)文本的表示,并可以捕捉長距離依賴關(guān)系,在微調(diào)后可生成連貫且信息豐富的摘要. 而PEGASUS 在預(yù)訓(xùn)練中引入“間隙句生成”的目標(biāo),直接對(duì)原文中能反映重要信息的句子進(jìn)行掩碼,并在預(yù)訓(xùn)練中以還原這些句子為目標(biāo),與摘要生成的任務(wù)頗有類似之處,從而也有助于提升后續(xù)摘要任務(wù)微調(diào)的性能.

        3. 2基于候選摘要排序的對(duì)比學(xué)習(xí)

        如圖2 中的對(duì)比學(xué)習(xí)部分所示,對(duì)于每一個(gè)樣本,我們事先需要對(duì)其生成6 份候選摘要,并計(jì)算每個(gè)摘要的FactCC 指標(biāo),然后按照該指標(biāo)的大小對(duì)這些候選摘要降序排序,形成Summary 1至Summary 6.接著利用模型對(duì)原文輸出摘要時(shí)計(jì)算得到的詞匯概率分布來計(jì)算每個(gè)候選摘要的生成概率,以代表模型對(duì)這些摘要給出的評(píng)分. 我們發(fā)現(xiàn)模型對(duì)這些摘要賦予的概率與其FactCC指標(biāo)值并沒有一種很強(qiáng)的相關(guān)性,即按照FactCC排序的結(jié)果與按照SumRCL 賦予的概率排序的結(jié)果并不一致. 例如在圖2 中,摘要1的FactCC為0. 8,高于摘要2的Factcc 為0. 65,但SumRCL對(duì)其賦予的概率卻呈現(xiàn)相反的比較結(jié)果,從而產(chǎn)生了對(duì)比損失. 我們把這些候選摘要之間的對(duì)比損失綜合起來,以表示該樣本的對(duì)比損失. 為了計(jì)算Sum?RCL對(duì)候選摘要賦予的概率,我們引入表達(dá)式.

        我們將3. 2 節(jié)中的對(duì)比學(xué)習(xí)與本節(jié)中強(qiáng)化學(xué)習(xí)的訓(xùn)練目標(biāo)結(jié)合起來,形成式(5)所示的目標(biāo)函數(shù),通過梯度上升方法進(jìn)行極大化,從而訓(xùn)練Sum?RCL 模型. 這里的β 表示對(duì)比學(xué)習(xí)訓(xùn)練目標(biāo)的權(quán)重,為超參數(shù).

        4實(shí)驗(yàn)

        4. 1數(shù)據(jù)集

        我們使用兩種摘要數(shù)據(jù)集:CNN/DailyMail和XSum. 這兩個(gè)數(shù)據(jù)集已在各種模型中被廣泛用于生成式摘要的事實(shí)一致性研究. CNN/DailyMail數(shù)據(jù)集包含來自CNN 的9.3萬篇文章和每日郵報(bào)報(bào)紙的22 萬篇文章. 這兩家出版商都在文章中附加了要點(diǎn)摘要作為參考摘要,且摘要平均有3 個(gè)句子,具有抽取式的性質(zhì). 另一方面,XSum 包含了22.7萬篇網(wǎng)絡(luò)爬取的BBC 新聞文章,每個(gè)樣本都以文章的首句為單句參考摘要,以剩余部分為原文. 由此可見,XSum中的參考摘要通常是對(duì)文章主題的概括,且與其他數(shù)據(jù)集里的參考摘要相比更具抽象性,通常需要從文章中提煉出更多的信息. 而這也使XSum 數(shù)據(jù)集在訓(xùn)練生成式摘要模型時(shí)能夠使輸出的摘要也具有一定的抽象性,即可以生成一些新的內(nèi)容、對(duì)原文的含義進(jìn)行釋義等,更符合人類的模式. 但這也提升了挑戰(zhàn)性,要求模型能夠有效地從文章中提取核心信息并生成事實(shí)一致性摘要. XSum 數(shù)據(jù)集在研究中也被廣泛用于評(píng)估自動(dòng)摘要模型的性能.

        4.2實(shí)驗(yàn)介紹

        4. 2.1實(shí)施細(xì)節(jié) 我們?cè)谇拔闹幸烟岬絊um?RCL 是分別在基于BART 和PEGASUS兩個(gè)預(yù)訓(xùn)練模型上結(jié)合對(duì)比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種基于可區(qū)分度的方法進(jìn)行微調(diào)的. 具體而言,在CNN/DM數(shù)據(jù)集上我們用BART-Large 模型進(jìn)行微調(diào),而在Xsum 數(shù)據(jù)集上,我們則用PEGASUS-Large 來做微調(diào). 另外,在使用基于排序的對(duì)比學(xué)習(xí)時(shí),我們?yōu)槊總€(gè)樣本都事先生成6 份候選摘要,且其中3 份用BART-CNN( 對(duì)應(yīng)于CNN/DM 數(shù)據(jù)集)或PEGASUS-Xsum(對(duì)應(yīng)于Xsum 數(shù)據(jù)集)來生成,另外3 份則用EFactSum 模型[32]輸出的摘要. 這里的EFactSum 是當(dāng)前在生成式摘要領(lǐng)域中提升事實(shí)一致性且保留文本的高度質(zhì)量的一個(gè)SOTA 模型,他們采用的對(duì)比學(xué)習(xí)方法也參考了BRIO 中的設(shè)置.

        4. 2. 2評(píng)估指標(biāo) 我們?cè)谠u(píng)估實(shí)驗(yàn)中用兩類指標(biāo)來檢驗(yàn)SumRCL 與其他對(duì)比模型在兩種數(shù)據(jù)集上的效果.

        首先是代表文本質(zhì)量的Rouge 指標(biāo),這是一種基于詞重疊的計(jì)算方法. 具體而言,我們采用其中的Rouge1、Rouge2 和RougeL 等3 種變體,前兩者分別表示參考摘要和目標(biāo)摘要中單個(gè)詞以及連續(xù)兩個(gè)詞的重疊度,而RougeL 則衡量兩個(gè)文本序列的最長公共子序列的長度.

        雖然Rouge 可以有效反映摘要文本的質(zhì)量,如語句連貫性和流暢性等,但在很多研究中,該指標(biāo)都被指出在事實(shí)一致性的評(píng)估上與人工評(píng)估的相關(guān)性差的問題[8,24,27],比如它主要關(guān)注文本的表面相似性,而難以捕捉到語義一致性和事實(shí)準(zhǔn)確性,且不能很好地區(qū)分輸出摘要是否改寫了參考摘要中的句子,或者是否引入了創(chuàng)新內(nèi)容等.

        所以,對(duì)于事實(shí)一致性方面的評(píng)估指標(biāo),我們?cè)趯?shí)驗(yàn)中用到的指標(biāo)有FactCC[12]和QAGS[33]. 其中,F(xiàn)actCC 是一種基于蘊(yùn)含的評(píng)估方式,該評(píng)估模型是通過對(duì)參考摘要進(jìn)行實(shí)體替換等操作做出擾動(dòng),從而構(gòu)造負(fù)樣本,然后再與參考摘要一同作為輸入進(jìn)行訓(xùn)練的. QAGS 是一種典型的基于問答的評(píng)估方法,和QuestEval[28]一樣,它先用問題生成模型來輸出一些問題,然后同時(shí)用原文和目標(biāo)摘要來通過問答模型輸出答案,并以兩種答案之間的相似度作為評(píng)估結(jié)果. 但不同之處在于,QAGS 只對(duì)目標(biāo)摘要生成問題,然后用原文和目標(biāo)摘要對(duì)這些問題作答.

        4. 2. 3 對(duì)比模型 我們用來對(duì)比的SOTA 模型主要有CLIFF[9]、FactPEGASUS[10]、EFactSum[32]和QUALS-CONSEQ[34],其中前三者在前文均已被介紹. QUALS-CONSEQ 的作者則基于他們所提出來的QUALS 指標(biāo)設(shè)置強(qiáng)化學(xué)習(xí),來提升事實(shí)一致性. 這4 個(gè)SOTA 模型中除了EfactSum 以外都只是提升了摘要的事實(shí)一致性,而沒有考慮保留高文本質(zhì)量,盡管它們?cè)谑聦?shí)性方面上表現(xiàn)優(yōu)異. 我們用來對(duì)比的基線模型有BART[15]、PEGASUS[16]、BRIO[21]和FASum[35],其中FASum雖然利用從原文中抽取的實(shí)體關(guān)系作為知識(shí)圖譜輸入到解碼器來引導(dǎo)生成事實(shí)一致的摘要,但在事實(shí)一致性的提升上還是存在較明顯的局限. 而前3 種模型雖然都不帶有事實(shí)感知機(jī)制,但在生成高質(zhì)量摘要文本上表現(xiàn)出色.

        4. 3總體實(shí)驗(yàn)結(jié)果及分析

        我們的實(shí)驗(yàn)結(jié)果如表1和表2所示. 其中,R1、R2、RL和FC分別代表Rouge1、Rouge2、RougeL和FactCC指標(biāo). 我們提出的方法在每個(gè)指標(biāo)結(jié)果上都加粗顯示,并且對(duì)于每種指標(biāo),我們又用下劃線突出顯示了最佳結(jié)果值(在后續(xù)的實(shí)驗(yàn)結(jié)果表中也是如此). 在下文中,我們分析了SumRCL 相比于其他有競(jìng)爭(zhēng)力的模型在每種指標(biāo)上的對(duì)比結(jié)果.

        表1展示了不同方法在CNN/DM 數(shù)據(jù)集上以

        BART-Large 進(jìn)行微調(diào)的實(shí)驗(yàn)結(jié)果,可以看到,SumRCL 在FactCC 和QAGS 兩種事實(shí)一致性指標(biāo)上都高于其他模型,并在文本質(zhì)量的自動(dòng)評(píng)估,即Rouge 指標(biāo)上也均略高于EFactSum. 具體而言,SumRCL 在FactCC 和QAGS 上相比于Efact?Sum 分別提升了2. 59 與2. 8個(gè)百分點(diǎn),而在Rouge1、Rouge2 和RougeL 上的提升分別是0. 17、0. 06 和0. 14 個(gè)百分點(diǎn),說明我們的模型和該SOTA 在文本質(zhì)量上處于幾乎一致但略高的水平,而在事實(shí)一致性上卻有著更明顯的優(yōu)勢(shì). 相比于QUALS-CONSEQ、CLIFF 和FASum 這3 個(gè)只優(yōu)化事實(shí)一致性而不保留高文本質(zhì)量的模型而言,SumRCL 在Rouge 指標(biāo)上的提升更為明顯. 雖然CLIFF 在文本質(zhì)量上也比較接近SumRCL,但其在事實(shí)一致性上的提升卻偏低,又或者雖然QUALS-CONSEQ 在事實(shí)一致性的評(píng)估上很接近SumRCL,但在文本質(zhì)量的保留上卻又不太理想.這些都進(jìn)一步說明了SumRCL 不僅有效提升了輸出摘要的事實(shí)一致性,并且在事實(shí)一致性和文本質(zhì)量的權(quán)衡上處于一種出色的水平.

        表2則展示了不同方法在XSum 數(shù)據(jù)集上以PEGASUS-Large進(jìn)行微調(diào)的實(shí)驗(yàn)結(jié)果. 在該數(shù)據(jù)集里,SumRCL雖然在QAGS 指標(biāo)的評(píng)估上不足于FactPEGASUS這種事實(shí)感知機(jī)制很強(qiáng)的模型,但在FactCC 的評(píng)估上要略勝一籌,而這也說明兩種不同范式的事實(shí)一致性評(píng)估與人類評(píng)估在不同情況下可能有著不同的相關(guān)性. 但不管怎樣,SumRCL 在文本質(zhì)量的評(píng)估上都是明顯優(yōu)于Fact?PEGASUS的. 另一方面,與EFactSum 相比,SumRCL 在FactCC 和QAGS 上分別提升了1.64和1.29個(gè)百分點(diǎn),展現(xiàn)出更好的事實(shí)感知機(jī)制;而在Rouge1和RougeL上分別提升了0.79和0.37個(gè)百分點(diǎn),在Rouge2上降低了0. 84個(gè)百分點(diǎn). 綜合來看,SumRCL 在XSum 數(shù)據(jù)集上比EfactSum 也取得了更優(yōu)秀的事實(shí)一致性與文本質(zhì)量的權(quán)衡效果.

        比較有意思的一點(diǎn)是,在兩個(gè)數(shù)據(jù)集上Sum?RCL相比于EFactSum 在事實(shí)一致性的提升上都比較明顯,但EFactSum 用來提升事實(shí)感知機(jī)制的對(duì)比學(xué)習(xí)和SumRCL 的很類似,而之所以會(huì)出現(xiàn)這種情況,我們認(rèn)為有以下兩種原因:首先,EFact?Sum的方法通過篩選來讓排序后的候選摘要中的前一半都有較高Rouge 值,而后一半都有較低Rouge值,也就是把高文本質(zhì)量的保留機(jī)制融入了對(duì)比學(xué)習(xí)中,從而在訓(xùn)練中保留較高文本質(zhì)量. 但這種方法一定程度上會(huì)犧牲對(duì)事實(shí)一致性的提升效果,比如其作者會(huì)從數(shù)據(jù)集里去掉一部分不符合相關(guān)需求的樣本,從而降低訓(xùn)練的充分性;另一方面,SumRCL還結(jié)合了基于Rouge 指標(biāo)的強(qiáng)化學(xué)習(xí),雖然Rouge 指標(biāo)在事實(shí)一致性上的評(píng)估與人工評(píng)估的相關(guān)性不好,但一般來說也是一種正相關(guān)[26,36],所以理論上這里的強(qiáng)化學(xué)習(xí)在很小的程度上也能提升事實(shí)一致性,并且在下文的消融實(shí)驗(yàn)結(jié)果中我們還進(jìn)一步展示了這一點(diǎn). 所以結(jié)合這兩方面的原因,我們的SumRCL 在事實(shí)一致性的自動(dòng)評(píng)估上還是優(yōu)于了EFactSum,但后者在文本質(zhì)量的保留上也有著獨(dú)特的思想,所以SumRCL在Rouge 指標(biāo)上相比于它的提升顯得就比較局限,不過相對(duì)于其他模型就更為明顯了.

        4. 4消融實(shí)驗(yàn)

        在消融實(shí)驗(yàn)中,我們探究了強(qiáng)化學(xué)習(xí)和對(duì)比學(xué)習(xí)分別對(duì)SumRCL 整體模型的影響,結(jié)果如表3所示. 表里的CL 和RL 分別指對(duì)比學(xué)習(xí)和強(qiáng)化學(xué)習(xí).

        首先,SumRCL 在去掉對(duì)比學(xué)習(xí)機(jī)制后,雖然其Rouge 指標(biāo)均有提升,在R1、R2、RL上分別提升了2.09、2. 67、3. 11個(gè)百分點(diǎn),但在事實(shí)一致性上也有著明顯的下降,在FactCC和QAGS上分別下降了9. 04 和1. 89 個(gè)百分點(diǎn). 這說明引入了3. 2 中介紹的對(duì)比學(xué)習(xí)后,SumRCL在事實(shí)感知上確實(shí)得到了優(yōu)化. 另外,F(xiàn)actCC 的提升幅度顯著高于QAGS,這是因?yàn)槲覀兊膶?duì)比學(xué)習(xí)在排序中用的指標(biāo)本身就為FactCC.

        而另一方面,SumRCL在去掉強(qiáng)化學(xué)習(xí)機(jī)制后,Rouge1、Rouge2、RougeL指標(biāo)分別下降了4.21、4.45、4.97個(gè)百分點(diǎn),表明了SumRCL 在引入3. 3節(jié)中介紹的強(qiáng)化學(xué)習(xí)后可以有效地保留高文本質(zhì)量. 并且可以看到,去掉強(qiáng)化學(xué)習(xí)只保留對(duì)比學(xué)習(xí)時(shí),SumRCL 在事實(shí)感知機(jī)制上也有一定的下降,在FactCC 和QAGS 上分別下降了2. 32 和1. 56 個(gè)百分點(diǎn),說明這種強(qiáng)化學(xué)習(xí)在一定程度上也能提升事實(shí)一致性,這也進(jìn)一步解釋了在4. 3節(jié)中結(jié)尾處提到的情況.

        總的來說,在消融實(shí)驗(yàn)的結(jié)果中我們?yōu)镾um?RCL 引入的對(duì)比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都有很明顯的效果,進(jìn)一步驗(yàn)證了我們方法的可行性.

        4. 5對(duì)排序指標(biāo)進(jìn)行探究

        在本節(jié)中我們探究了SumRCL 在對(duì)比學(xué)習(xí)中采用不同排序指標(biāo)的效果. 除了FactCC 外,我們還設(shè)立了3 種排序指標(biāo):FactCC 與QAGS 的結(jié)合、FactCC與Rouge 的結(jié)合以及QAGS 與Rouge 的結(jié)合,這里的結(jié)合指的是將兩種指標(biāo)按一定權(quán)重相加. 并且考慮到QAGS指標(biāo)容易產(chǎn)生極端的值(0或者1),我們便沒有將其單獨(dú)作為一種排序指標(biāo)進(jìn)行探究.

        不同排序指標(biāo)的實(shí)驗(yàn)結(jié)果如表4所示. 當(dāng)排序指標(biāo)由原FactCC 結(jié)合了QAGS后,文本質(zhì)量上的變動(dòng)很小. 而在事實(shí)一致性上,雖然QAGS 值提升了7.81個(gè)百分點(diǎn),說明在排序指標(biāo)中結(jié)合QAGS 值也確實(shí)能提高在該指標(biāo)上的評(píng)估效果,但FactCC 卻下降了7.84個(gè)百分點(diǎn),幅度略高于QAGS 值的提升,我們認(rèn)為這有可能是因?yàn)闉榱颂岣逹AGS,SumRCL傾向于生成更多的實(shí)體或名詞短語,而這又容易產(chǎn)生一些FactCC 比較敏感的幻覺內(nèi)容,導(dǎo)致FactCC 的評(píng)估也下降了不少,而且這一點(diǎn)在表2 中的QUALS-CONSEQ 評(píng)估結(jié)果也能得到反映,它專注于提升基于QA 值的評(píng)估指標(biāo)且取得了顯著的效果,但FactCC 的評(píng)估卻很低.

        另一方面,若排序指標(biāo)同時(shí)結(jié)合FactCC和Rouge,雖然可以提升Rouge指標(biāo)值,但Rouge1、Rouge2、RougeL的提升幅度分別只有0.44、0. 14、0. 41個(gè)百分點(diǎn),而FactCC 和QAGS 卻分別下降了2.92與1.06個(gè)百分點(diǎn). 兩類指標(biāo)提升與下降的幅度差距較大,說明排序標(biāo)準(zhǔn)同時(shí)結(jié)合文本質(zhì)量與事實(shí)一致性的評(píng)估指標(biāo)時(shí)在兩類指標(biāo)評(píng)估的權(quán)衡上也不太亮眼,并且從表4 來看,盡管把FactCC 換成QAGS也同樣如此.

        4.6對(duì)候選摘要數(shù)量進(jìn)行研究

        在本節(jié)中我們研究了SumRCL 在對(duì)比學(xué)習(xí)中選擇不同數(shù)量的候選摘要時(shí)的效果. 我們之前一直都把候選摘要數(shù)量設(shè)置為6,其中一半來自于基線模型,對(duì)應(yīng)于較低的事實(shí)性,另一半則由當(dāng)前的SOTA 生成,對(duì)應(yīng)于較高的事實(shí)性. 現(xiàn)在我們把每個(gè)樣本的候選摘要數(shù)量分別調(diào)節(jié)為4、10 和16,并繼續(xù)保持兩種模型生成的摘要各占50% 的狀態(tài),在XSum 上的實(shí)驗(yàn)結(jié)果如表5所示.

        在表5中,我們可以發(fā)現(xiàn)隨著候選摘要數(shù)量增加,事實(shí)一致性評(píng)估大致呈上升的趨勢(shì),而文本質(zhì)量的評(píng)估則呈下降的趨勢(shì). 這與我們預(yù)想的一致,因?yàn)殡S著候選摘要的增多,SumRCL 可以對(duì)一個(gè)樣本的更多可能的摘要進(jìn)行事實(shí)一致性感知,在事實(shí)感知機(jī)制的優(yōu)化上就會(huì)更充分. 但另一方面,隨著候選摘要數(shù)量的增多,里面也很容易出現(xiàn)事實(shí)一致性高但文本質(zhì)量低的摘要,或者事實(shí)一致性低但文本質(zhì)量高的摘要,從而導(dǎo)致Rouge指標(biāo)的評(píng)估下降. 并且此時(shí)即使采用EFactSum 的設(shè)置也不太方便,因?yàn)楫?dāng)候選摘要增多時(shí),會(huì)更難保證排序后前一半摘要都有高Rouge 值,同時(shí)后一半摘要又都有低Rouge值.

        同時(shí),我們發(fā)現(xiàn)對(duì)于這四種不同的變體,候選摘要數(shù)量為6時(shí)可以取得最好的事實(shí)一致性與文本質(zhì)量的權(quán)衡效果. 比如與候選摘要數(shù)量為16 的變體相比,雖然FactCC 下降了3. 79個(gè)百分點(diǎn),但Rouge1、Rouge2、RougeL和QAGS卻分別提升了4. 7、4. 85、5.28和1.64個(gè)百分點(diǎn).

        4. 7人工評(píng)估

        為了完善評(píng)估結(jié)果,我們還采用了人工評(píng)估實(shí)驗(yàn),從XSum 數(shù)據(jù)集中隨機(jī)抽取100個(gè)樣本,來分別用CLIFF、EFactSum、ChatGPT 和SumRCL來生成摘要,并邀請(qǐng)了5 位英文流利的研究人員來為每份摘要的流暢度(Influency)、內(nèi)容顯著性(Saliency)和事實(shí)性(Factuality)分別給出0~5 的評(píng)分. 這里的流暢度對(duì)應(yīng)于文本質(zhì)量,而內(nèi)容顯著性指的是摘要中包含原文重要性信息的占比,如果摘要包含了原文里較多不太重要的內(nèi)容,那么內(nèi)容顯著性就會(huì)較低.

        人工評(píng)估的結(jié)果如表6 所示. 可以看出,我們提出的SumRCL 在事實(shí)性上得到了最高的人工評(píng)分,但在流暢度方面弱于ChatGPT,畢竟這種大語言模型在預(yù)訓(xùn)練時(shí)本身就接觸到了更大規(guī)模的文本,也就學(xué)習(xí)到了更多的通用語言結(jié)構(gòu)和知識(shí),但也因此更容易產(chǎn)生幻覺,再加上其在推理能力上不足的同時(shí),且沒有專門為摘要任務(wù)引入事實(shí)感知機(jī)制,所以在事實(shí)性的評(píng)價(jià)上低于了SumRCL.而在內(nèi)容顯著性上,ChatGPT 也較低,我們認(rèn)為這與它傾向于在生成的摘要中添加更多細(xì)節(jié)有關(guān).而EFactSum 雖然在內(nèi)容顯著性上有最高的評(píng)價(jià),但也只是略高于SumRCL.

        5結(jié)論

        本文提出了一種在生成式摘要領(lǐng)域能提高事實(shí)感知機(jī)制的同時(shí),又保留了高文本質(zhì)量的模型SumRCL. 它結(jié)合對(duì)比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種基于可區(qū)分度的方法,分別在BART 和PEGASUS兩個(gè)預(yù)訓(xùn)練模型上進(jìn)行微調(diào). 其中的對(duì)比學(xué)習(xí)為基于事實(shí)一致性指標(biāo)排序的方法,使模型為摘要賦予的概率與該摘要的事實(shí)一致性擁有高度相關(guān)性. 而強(qiáng)化學(xué)習(xí)則采用帶有基線的策略梯度方法,其中的獎(jiǎng)勵(lì)基于Rouge 指標(biāo),以在提升事實(shí)一致性的同時(shí)保留高度文本質(zhì)量. 我們通過實(shí)驗(yàn)驗(yàn)證了將這兩種方法相結(jié)合的可行性,并且就對(duì)比學(xué)習(xí)中的不同排序指標(biāo)以及候選摘要數(shù)量進(jìn)行了探究,通過實(shí)驗(yàn)表明這兩種因素可以顯著影響最終的訓(xùn)練效果并對(duì)其原因進(jìn)行了分析. 我們還在人工評(píng)估中用SumRCL和當(dāng)前熱門的大語言模型ChatGPT 進(jìn)行了對(duì)比,表明SumRCL在文本質(zhì)量上雖不及ChatGPT,但在內(nèi)容顯著性以及事實(shí)性上要表現(xiàn)得更好. 在未來的工作中,研究者可以嘗試把這兩種方法相結(jié)合,以提升大語言模型在生成式摘要任務(wù)中的事實(shí)感知機(jī)制;或者以大語言模型對(duì)候選摘要的事實(shí)一致性評(píng)估結(jié)果來排序,以改進(jìn)對(duì)比學(xué)習(xí)機(jī)制.

        国产又色又爽又黄刺激在线视频| 亚洲av网站首页在线观看| 日韩av一区二区无卡| 激情亚洲一区国产精品久久| 久久久亚洲精品无码| 中文在线天堂网www| 精品丝袜国产在线播放| 一个人午夜观看在线中文字幕| 激情内射亚洲一区二区三区| 无遮挡又爽又刺激的视频| 亚洲AV伊人久久综合密臀性色| 精品国产一区二区三区毛片| 亚洲一区二区免费在线观看视频| 日本在线无乱码中文字幕| 亚洲中文字幕舔尻av网站| 国产办公室沙发系列高清| 免费视频一区二区| 亚洲中文有码一区二区| 国产日本精品视频一区二区| 国产亚洲精品久久久ai换| 国产成人美女AV| 91热久久免费频精品99| 精品偷自拍另类在线观看| 北条麻妃国产九九九精品视频| 日韩一线无码av毛片免费| 女同成片av免费观看| 国产精品亚洲二区在线看| 精品久久久无码中字| 免费中文熟妇在线影片| 免费人成网站在线观看| 欧美怡春院一区二区三区| 九月婷婷人人澡人人添人人爽| 亚洲欧美成人中文在线网站| 成av人片一区二区久久| 人妻色综合网站| 五十路熟妇高熟无码视频| 日韩毛片久久91| 亚洲自偷自拍另类第一页| 无码av天天av天天爽| 无码久久精品国产亚洲av影片| 丝袜 亚洲 另类 欧美|