融合關(guān)鍵信息與專家網(wǎng)絡(luò)的生成式文本摘要

2024-01-01 00:00:00魏盼麗王紅斌

吉林大學(xué)學(xué)報(bào)(理學(xué)版) 2024年4期

摘要：針對(duì)現(xiàn)有生成式摘要模型生成過(guò)程中存在原文本關(guān)鍵信息缺失和內(nèi)容難控制的問(wèn)題，提出一種結(jié)合抽取方法引導(dǎo)的生成式文本摘要方法. 該方法首先通過(guò)抽取模型從原文本中獲取關(guān)鍵句，然后采用雙編碼策略，分別編碼關(guān)鍵句和新聞文本，使關(guān)鍵信息在解碼過(guò)程中引導(dǎo)生成摘要，最后引入專家網(wǎng)絡(luò)在解碼時(shí)篩選信息，以進(jìn)一步引導(dǎo)摘要生成. 在數(shù)據(jù)集CNN/Daily Mail和XSum上的實(shí)驗(yàn)結(jié)果表明，該模型可有效改進(jìn)生成式文本摘要的性能." 該方法在一定程度上提高了生成摘要對(duì)原文本關(guān)鍵信息的包含量，同時(shí)緩解了生成內(nèi)容難控制的問(wèn)題.

關(guān)鍵詞：生成式文本摘要；雙編碼器；關(guān)鍵信息；專家網(wǎng)絡(luò)；引導(dǎo)感知

中圖分類號(hào)： TP391" 文獻(xiàn)標(biāo)志碼： A" 文章編號(hào)： 1671-5489（2024）04-0951-09

Fusing Key Information and Expert Networkfor Abstractive Text Summarization

WEI Panli， WANG Hongbin

（Yunnan Key Laboratory of Artificial Intelligence， Faculty of Information Engineering and Automation，Kunming University of Science and Technology， Kunming 650500， China）

Abstract： Aiming at the problems of missing key information and difficult control of content in the original text during the generation process of existing generative summary models， we proposed a generative text summarization method guided by extraction methods. This method first obtained key sentences from the original text through an extraction model， and then adopted dual encoding strategy to encode key sentences and news text respectively， so that key information was guided to generate a summary during the decoding process. Finally， expert network was introduced to screen information during decoding to further guide the generation of summary. The experimental results on CNN/Daily Mail and XSum datasets show that the proposed model can effectively improve the performance of abstractive text summarization.

This method improves the content of key information in the original text for generating summary to a certain extent， while alleviating the problem of" difficult" control of generated content.

Keywords： abstractive text summarization; double encoder; key information; expert network; guided perception

隨著互聯(lián)網(wǎng)產(chǎn)生的文本數(shù)據(jù)越來(lái)越多，文本信息過(guò)載問(wèn)題日益嚴(yán)重，如新聞、微博等，因此對(duì)各類文本進(jìn)行降維處理非常必要，自動(dòng)文本摘要是其中一種重要方法. 自動(dòng)文本摘要的主要目的是將一個(gè)較長(zhǎng)的文檔壓縮為較短的文本，以便于用戶在互聯(lián)網(wǎng)海量數(shù)據(jù)中快速獲取有用信息.

自動(dòng)文本摘要旨在從輸入文檔中生成一個(gè)精煉、簡(jiǎn)潔的摘要，同時(shí)保留輸入文檔的關(guān)鍵信息. 自動(dòng)文本摘要任務(wù)主要可分為抽取式摘要和生成式摘要. 抽取式摘要是從輸入文檔中識(shí)別出最合適的單詞或句子，并將它們連接成摘要. 神經(jīng)網(wǎng)絡(luò)模型將抽取式摘要視為句子分類問(wèn)題，首先創(chuàng)建輸入文本的適當(dāng)表示，以方便文本分析，然后進(jìn)行句子評(píng)分，根據(jù)輸入的文本表示對(duì)句子進(jìn)行排序，最后從文檔中選擇評(píng)分較高的語(yǔ)句，并將其連接形成摘要. 生成式摘要能對(duì)原文進(jìn)行理解生成新的句子和單詞，可自由地生成摘要，所以可能包含原文本中未出現(xiàn)過(guò)的表達(dá). 因此，與抽取式摘要相比，生成式摘要更靈活，能產(chǎn)生流暢、連貫的摘要.

目前，基于循環(huán)神經(jīng)網(wǎng)絡(luò) （recurrent neural networks， RNN）的序列到序列（sequence to sequence， seq2seq）模型在機(jī)器翻譯領(lǐng)域取得了很好的效果. 自動(dòng)文本摘要問(wèn)題也可視為原文本到目標(biāo)文本的映射，因此可通過(guò)該方法解決. 近年來(lái)， Wang等［1］提出了基于卷積神經(jīng)網(wǎng)絡(luò)的seq2seq框架，并引入了注意力機(jī)制和基于主題信息的強(qiáng)化學(xué)習(xí)，以幫助模型生成連貫和信息豐富的摘要. 為解決摘要生成內(nèi)容重復(fù)的問(wèn)題， See等［2］提出了指針網(wǎng)絡(luò)和覆蓋機(jī)制，指針網(wǎng)絡(luò)在保留新詞內(nèi)容的同時(shí)從原文本中抽取內(nèi)容，以生成更準(zhǔn)確的摘要；覆蓋機(jī)制用于在解碼器中記錄已經(jīng)生成的內(nèi)容，以減少生成內(nèi)容的重復(fù). Narayan等［3］概念化抽取式摘要作為句子排序任務(wù)，提出了一種新的訓(xùn)練算法，通過(guò)強(qiáng)化學(xué)習(xí)系統(tǒng)優(yōu)化ROUGE評(píng)估指標(biāo)進(jìn)行全局訓(xùn)練，以生成含有豐富信息的摘要. 隨著B(niǎo)ERT（bidirectional encoder representation from transformers）［4］等一系列預(yù)訓(xùn)練模型的發(fā)展，預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域被廣泛應(yīng)用，可在簡(jiǎn)化模型的同時(shí)取得更好的效果. Liu等［5］提出了一種基于對(duì)比學(xué)習(xí)的打分模型，通過(guò)訓(xùn)練無(wú)參考摘要的打分模型近似需要參考摘要的評(píng)價(jià)指標(biāo)，直接學(xué)習(xí)評(píng)價(jià)指標(biāo)本身的打分模式，在一定程度上緩解目標(biāo)函數(shù)與評(píng)價(jià)指標(biāo)不一致的問(wèn)題，從而在候選摘要中選出性能更高的摘要. Su等［6］提出了一種兩階段的變長(zhǎng)生成文本摘要方法，其由一個(gè)文本分割模塊和一個(gè)基于兩級(jí)轉(zhuǎn)換器的摘要模塊組成，在捕捉句子之間的關(guān)系方面取得了良好的效果. Zhong等［7］將文檔摘要作為語(yǔ)義匹配任務(wù)，并使用Siamese|BERT作為匹配模型. Jin等［8］和Zhu等［9］從原文檔中提?。ㄖ黝}、關(guān)系、對(duì)象）形式的關(guān)系三元組，并用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行表示，然后由解碼器負(fù)責(zé)處理所提取的關(guān)系，以生成更帖合原文檔的摘要. Dou等［10］提出了一種基于BERT的雙編碼器引導(dǎo)模型，通過(guò)使用各種類型的引導(dǎo)信號(hào)更好地處理摘要生成內(nèi)容難控制的問(wèn)題，同時(shí)也使摘要內(nèi)容與原文檔偏離更小，更具可控性. Jiang等［11］提出了基于圖的主題感知生成文本框架GTASum，無(wú)縫地集成了一個(gè)神經(jīng)主題模型尋找文本中潛在的主題信息，通過(guò)維護(hù)文檔級(jí)特征生成摘要. Cui等［12］提出了一種混合文本摘要模型，該模型使用神經(jīng)主題模型（neural topic model， NTM）推斷潛在主題作為一種全局信息，以此提高生成摘要的準(zhǔn)確度. 由于生成式摘要比較靈活，因此如何確保生成的摘要相對(duì)原文檔的事實(shí)一致性至關(guān)重要. Ravaut等［13］提出了基于專家混合架構(gòu)的多任務(wù)學(xué)習(xí)框架SummaReranker，其是第一個(gè)用于生成摘要的多任務(wù)重新排序框架，可在多個(gè)措施上進(jìn)行聯(lián)合優(yōu)化. Zhou等［14］提出了一種選擇性門(mén)控網(wǎng)絡(luò)，旨在使生成的文本摘要中保留更多的關(guān)鍵信息. 但由輸入文本表示控制的選擇性門(mén)控網(wǎng)絡(luò)只控制一次從編碼器到解碼器的信息流，如果某些關(guān)鍵信息未通過(guò)網(wǎng)絡(luò)，則很難出現(xiàn)在摘要中，從而導(dǎo)致生成的摘要缺乏關(guān)鍵內(nèi)容，甚至還可能導(dǎo)致事實(shí)性錯(cuò)誤.

由于序列到序列模型的廣泛應(yīng)用，生成式摘要模型可生成較高ROUGE分?jǐn)?shù)的摘要，雖然這些模型已被證明可以捕捉到自動(dòng)文本摘要的規(guī)律性，但對(duì)摘要的內(nèi)容在生成過(guò)程中卻很難控制，有時(shí)生成摘要的內(nèi)容不符合原文事實(shí)，易導(dǎo)致事實(shí)性錯(cuò)誤. 例如，對(duì)原文本“The classic video game ‘Space Invaders’ was developed in Japan back in the late 1970’s”，生成的摘要卻為“Video game ‘Space Invaders’ was developed in Japan back in 1970”. 錯(cuò)誤地將原文本中所表示的“在20世紀(jì)70年代”表達(dá)為“在1970年”. 針對(duì)這種問(wèn)題，如果除編碼原文檔外，再加以外部的引導(dǎo)信號(hào)，不僅能獲取輸入原文本的上下文內(nèi)容，還可以得到外部知識(shí)，在摘要生成過(guò)程中對(duì)生成內(nèi)容進(jìn)行控制，減少事實(shí)性錯(cuò)誤，從而緩解生成摘要準(zhǔn)確率較低的問(wèn)題. 雖然現(xiàn)有的注意力機(jī)制會(huì)注意到文本中的一些信息，但對(duì)部分關(guān)鍵信息的識(shí)別不足，仍會(huì)在解碼過(guò)程中丟失關(guān)鍵信息，使生成摘要的內(nèi)容不準(zhǔn)確，不能完全概括原文的主旨.

為解決上述問(wèn)題，本文提出一種融合關(guān)鍵信息與專家網(wǎng)絡(luò)的生成式文本摘要方法，使用抽取式摘要模型抽取的語(yǔ)句作為關(guān)鍵信息引導(dǎo)生成摘要，使模型輸出摘要內(nèi)容與原文檔的偏差更小，并可使生成摘要的內(nèi)容存在一定的可解釋性. 本文模型將預(yù)先選擇的關(guān)鍵信息添加到注意力機(jī)制中，使模型更關(guān)注原文本的關(guān)鍵內(nèi)容，在解碼生成輸出時(shí)用關(guān)鍵句引導(dǎo)模型傾向于關(guān)注原文本中的主旨內(nèi)容，然后使用專家選擇網(wǎng)絡(luò)進(jìn)一步篩選信息，以提高生成摘要的準(zhǔn)確性和可讀性，有效減少冗余的生成. 本文的主要貢獻(xiàn)如下：

1）基于改進(jìn)的Transformer架構(gòu)，采用雙編碼策略，引入豐富的文本語(yǔ)義表征；在解碼端引入專家網(wǎng)絡(luò)篩選信息，減少冗余內(nèi)容的生成.

2）關(guān)鍵信息作為一種附加知識(shí)融入到解碼過(guò)程中，約束文本摘要的生成過(guò)程，使輸出內(nèi)容忠于原文，有效保持摘要和原文檔事實(shí)一致.

3）在數(shù)據(jù)集CNN/DM和XSum上的實(shí)驗(yàn)結(jié)果表明，本文模型改進(jìn)有效，該方法在ROUGE-1，ROUGE-2，ROUGE-L評(píng)估指標(biāo)上準(zhǔn)確率均有提升.

1 方法設(shè)計(jì)

與基于RNN的體系架構(gòu)相比， Transformer的編碼器和解碼器采用注意力機(jī)制作為其主要架構(gòu)，能更好地編碼文本的上下文語(yǔ)義信息，提取文本語(yǔ)義表征，所以本文采用Transformer模型作為文本摘要模型的基本架構(gòu). 首先使用微調(diào)的BERT預(yù)訓(xùn)練模型分別編碼輸入的文檔x={x1，x2，…，xn}和預(yù)先選擇的關(guān)鍵信息文本h={h1，h2，…，hn}，然后映射到序列連續(xù)表示X=（X1，X2，…，Xn）和H=（H1，H2…，Hn）中. 為使模型在解碼過(guò)程中更好地獲取到原文本的關(guān)鍵信息，本文將關(guān)鍵信息向量H=（H1，H2，…，Hn）輸入到Transformer解碼器的底層編解碼注意力層中，注意力機(jī)制首先關(guān)注關(guān)鍵信息，通知解碼器應(yīng)該關(guān)注原文檔的哪一部分，然后解碼器基于引導(dǎo)感知的表示處理整個(gè)原文檔，在生成目標(biāo)摘要y={y1，y2，…，yn}的標(biāo)記過(guò)程中通過(guò)專家網(wǎng)絡(luò)篩選信息，最后模型以一種自回歸的方式建模條件概率p=（y1，y2…，ynx1，x2…，xn），根據(jù)詞表生成相對(duì)應(yīng)的摘要. 模型總體框架如圖1所示.

1.1 關(guān)鍵信息表示模塊

僅編碼原文本的模型局限于關(guān)注文本的上下文信息，很難凸顯原文本的顯著特征，即關(guān)鍵信息，因此本文引入關(guān)鍵信息作為一種外部知識(shí)，增強(qiáng)語(yǔ)義特征，使生成摘要內(nèi)容忠于原文事實(shí).

抽取式文本摘要方法從原文檔中抽取文本的子集形成摘要，因此，原文檔中的重要語(yǔ)句對(duì)生成式摘要會(huì)起關(guān)鍵的引導(dǎo)作用，故本文選擇使用抽取的語(yǔ)句作為關(guān)鍵信息確切地告知模型應(yīng)該重點(diǎn)關(guān)注原文檔的哪一部分，使生成內(nèi)容更貼合文本主旨. 與輸入關(guān)鍵字作為輔助信息相比，關(guān)鍵字可能會(huì)丟失上下文信息之間的聯(lián)系，例如實(shí)體之間的關(guān)聯(lián)情況等，關(guān)鍵句抽取模塊采用抽取摘要模型Match-Sum［7］或Bertext［15］實(shí)現(xiàn)自動(dòng)預(yù)測(cè).

由于BERT通過(guò)聯(lián)合調(diào)節(jié)上下文生成文本的雙向表示，可更好地表示關(guān)鍵信息，因此本文采用微調(diào)的BERT預(yù)訓(xùn)練模型對(duì)關(guān)鍵句編碼：

H=BERT（h1，h2，…，hn），（1）

其中hi表示預(yù)選擇的第i個(gè)關(guān)鍵句.

在訓(xùn)練時(shí)，為使模型更密切地關(guān)注關(guān)鍵信息，本文使用貪婪搜索算法訓(xùn)練模型在原文檔中找到一組ROUGE得分最高的句子，視為能較好傳達(dá)文本主旨的語(yǔ)句，將其作為關(guān)鍵引導(dǎo)句. 在測(cè)試時(shí)，本文使用抽取摘要模型Match-Sum［7］或Bertext［15］實(shí)現(xiàn)關(guān)鍵句的自動(dòng)預(yù)測(cè)，以約束模型的輸出，如圖2所示. 在解碼階段模型會(huì)首先關(guān)注關(guān)鍵信息并產(chǎn)生相應(yīng)的表示，關(guān)鍵信息再通知解碼器應(yīng)該重點(diǎn)關(guān)注原文檔的哪一部分.

1.2 原文檔編碼表示模塊

對(duì)原文檔的編碼表示，本文同樣采用微調(diào)的BERT預(yù)訓(xùn)練模型編碼，與Transformer模型類似， BERT預(yù)訓(xùn)練模型的每層包含一個(gè)多頭自注意力模塊和一個(gè)前向反饋層，兩個(gè)子層之間用殘差連接，然后進(jìn)行層歸一化，用公式表示為

X=LN（X+SELFATTN（X）），（2）

X=LN（X+FEEDFORWARD（X）），（3）

其中LN為層歸一化表示.

在多頭自注意力模塊中，使用放縮點(diǎn)積注意力函數(shù)，輸入由維度為dk的查詢向量和鍵向量以及維度為dv的值向量組成，然后計(jì)算所有鍵查詢的點(diǎn)積，用Softmax函數(shù)輸出分布在值向量V上的注意力權(quán)重，輸出矩陣為

Attention（Q，K，V）=SoftmaxQKTdkV，（4）

其中Q，K，V分別表示查詢向量、鍵向量和值向量， dk表示鍵向量K的維度. Attention（Q，K，V）是V的加權(quán)和向量，表示當(dāng)前的上下文信息. 對(duì)Transformer中的注意力機(jī)制采用多頭實(shí)現(xiàn)，但Q，K，V較小，其維數(shù)分別為原始維數(shù)的1/h，來(lái)自h頭的注意力拼接在一起，通過(guò)線性投影形成最終的注意力，這樣多頭注意力機(jī)制提供了一個(gè)有利于最終性能的注意行為的多個(gè)視角，用公式表示為

MultiHead（Q，K，V）=Concat（head1，…，headh），（5）

其中headi=Attention（QWQi，KWKi，VWVi），

WQi，WKi，WVi是可學(xué)習(xí)的參數(shù)矩陣.

在前向反饋層中，由兩個(gè)線性轉(zhuǎn)換和中間的ReLU激活函數(shù)組成，其作用是增加模型的非線性擬合能力，用公式表示為FFN（x）=max{0，xW2+b2}W3+b3，（6）

其中W2，W3為線性轉(zhuǎn)換， b2，b3為偏置.

1.3 帶有專家網(wǎng)絡(luò)的解碼器

傳統(tǒng)的Transformer解碼器每層末尾都有一個(gè)前饋網(wǎng)絡(luò)層，用于聚合來(lái)自注意力模塊多個(gè)頭的輸出，即所有的參數(shù)全部參與計(jì)算，但并非模型中存儲(chǔ)的所有信息都與特定的輸入有關(guān)，為篩選模型中與特定輸入有關(guān)的信息，本文使用專家網(wǎng)絡(luò)層，如圖3所示. 該層從專家集合{Ei（zt）}Ni=1中選擇將特定輸入路由給最優(yōu)的專家，進(jìn)一步篩選信息.

本文將解碼器中編-解碼注意力模塊的輸出zt作為專家網(wǎng)絡(luò)層的輸入，在每個(gè)步驟t中，經(jīng)過(guò)編-解碼注意力模塊輸出，用公式表示為

zt=LN（zt+SELFATTN（zt）），（7）

zt=LN（zt+CROSSATTN（zt，H）），（8）

zt=LN（zt+CROSSRATTN（zt，X）），（9）

其中LN為層歸一化表示.

編-解碼注意力模塊輸出zt進(jìn)入專家網(wǎng)絡(luò)層后先乘以路由矩陣Wr，得到各專家對(duì)于特定輸入的得分，即w=Wr·zt，然后由Softmax函數(shù)歸一化為概率分布，專家i的門(mén)控值計(jì)算如下：

pi（zt）=ewi∑Nj=1ewj.（10）

參考Fedus等［16］的工作，與選擇多個(gè)專家相比，本文采用一種簡(jiǎn)化策略，在每層對(duì)特定的輸入，模型只激活一個(gè)專家，因此輸入zt會(huì)選擇最高的概率通過(guò)專家網(wǎng)絡(luò)，被選擇的專家i的概率分布如下：

P（zt）=max{pi（zt）}.（11）

專家網(wǎng)絡(luò)層的輸出由專家產(chǎn)生激活，并通過(guò)其概率得分加權(quán)，計(jì)算公式如下：

Y=P（zt）Ei（zt），（12）

其中Ei（zt）表示對(duì)給定輸入zt第i個(gè)專家的輸出. 在模型解碼器的頂部，用Softmax層將解碼器的輸出轉(zhuǎn)換為摘要字生成概率.

1.4 損失函數(shù)

在訓(xùn)練過(guò)程中采用交叉熵?fù)p失函數(shù)，用標(biāo)簽平滑策略，從而提高神經(jīng)網(wǎng)絡(luò)的泛化能力和學(xué)習(xí)速度，防止模型過(guò)擬合. 標(biāo)簽平滑可降低經(jīng)過(guò)集束搜索后的單詞錯(cuò)誤率，經(jīng)過(guò)標(biāo)簽平滑過(guò)后的樣本交叉熵?fù)p失不僅考慮了訓(xùn)練樣本中one-hot標(biāo)簽為1位置的損失，也考慮了到one-hot標(biāo)簽為0位置的損失，在一定程度上通過(guò)標(biāo)簽平滑策略可緩解模型“盲目自信”的問(wèn)題，從而提高模型的學(xué)習(xí)能力. 經(jīng)過(guò)標(biāo)簽平滑后的交叉熵?fù)p失可表示為

Loss=-∑Ni=1LS（one_hot）×log（Softmax（logiti）），（13）

其中one_hot表示樣本標(biāo)簽轉(zhuǎn)化的獨(dú)熱向量， LS（one_hot）表示標(biāo)簽平滑操作后的樣本標(biāo)簽， logiti表示解碼器經(jīng)過(guò)全連接層后的輸出.

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)采用新聞自動(dòng)文本摘要數(shù)據(jù)集CNN/DM和XSum，各數(shù)據(jù)集信息列于表1. 數(shù)據(jù)集CNN/DM包含從美國(guó)有限新聞網(wǎng)（CNN）和每日郵報(bào)網(wǎng)（Daily Mail）上收集的新聞文章及對(duì)應(yīng)的摘要. 本文采用Hermann等［17］處理后的版本，其中包含287 226組數(shù)據(jù)用于訓(xùn)練， 13 368組數(shù)據(jù)用于驗(yàn)證， 11 490組數(shù)據(jù)用于測(cè)試，用于訓(xùn)練的原文檔每條新聞平均包含760個(gè)單詞，共29.74句組成；其對(duì)應(yīng)的摘要由53個(gè)單詞，共3.72句組成. 數(shù)據(jù)集XSum中每篇新聞文章對(duì)應(yīng)的摘要僅為一句話，其中新單詞占83.71%，因此是高度抽象的. 本文使用Stanford CoreNLP工具包分割文本語(yǔ)句，并對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行預(yù)處理，輸入文檔被截?cái)酁?12個(gè)令牌.

2.2 評(píng)價(jià)指標(biāo)

自動(dòng)文本摘要的評(píng)估方法可分為內(nèi)部評(píng)估方法和外部評(píng)估方法兩類. 內(nèi)部評(píng)估方法提供摘要，并基于參考摘要評(píng)估生成摘要的質(zhì)量；外部評(píng)估方法并未提供參考摘要. 本文使用Lin［18］提出的內(nèi)部評(píng)價(jià)方法ROUGE指標(biāo)評(píng)估生成摘要的質(zhì)量. ROUGE指標(biāo)主要評(píng)估生成摘要與參考摘要之間的共現(xiàn)信息，共現(xiàn)信息量越多，評(píng)價(jià)指標(biāo)分?jǐn)?shù)越高，則表明模型生成的摘要質(zhì)量越高. ROUGE評(píng)價(jià)指標(biāo)按信息共現(xiàn)量分為ROUGE-1，ROUGE-2和ROUGE-L，其中ROUGE-1，ROUGE-2分別表示生成摘要與參考摘要中詞和二元詞語(yǔ)的重合程度， ROUGE-L表示生成摘要與參考摘要中最長(zhǎng)公共子序列的重合程度，其計(jì)算方法如下：

ROUGE-N=∑S∈{Ref}∑n-grams∈SCount

match（n-gram）∑S∈{Ref}∑n-grams∈SCount（n-gram），（14）

其中n-gram表示n個(gè)單詞， {Ref}表示參考摘要， Countmatch（n-gram）表示生成摘要與參考摘要中同時(shí)出現(xiàn)n-gram的數(shù)量， Count（n-gram）表示參考摘要中出現(xiàn)n-gram的數(shù)量.

2.3 參數(shù)設(shè)置

本文用預(yù)訓(xùn)練BERT-base-uncased模型初始化文檔編碼器，并隨機(jī)初始化解碼器. 由于隨機(jī)梯度下降在整個(gè)訓(xùn)練過(guò)程中保持單一學(xué)習(xí)率更新所有權(quán)重，而Adam優(yōu)化算法通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)學(xué)習(xí)率，因此在解碼階段使用Adam優(yōu)化算法默認(rèn)學(xué)習(xí)率設(shè)為2×10-3，動(dòng)量參數(shù)β1=0.9， β2=0.999. 為解決編碼器與解碼器不匹配的問(wèn)題，采用新的微調(diào)計(jì)劃，分離編碼器和解碼器的優(yōu)化器：

lrENC=2×10-3·min{step-0.5，step·warmup-1.5ENC}，（15）

lrDEC=0.1·min{step-0.5，step·warmup-1.5DEC}，（16）

其中：編碼器學(xué)習(xí)率為0.002， warmupENC=20 000；解碼器學(xué)習(xí)率為0.1， warmupDEC=10 000. 為防止模型過(guò)擬合，將非專家網(wǎng)絡(luò)層的Dropout設(shè)為0.2，專家網(wǎng)絡(luò)層的Dropout設(shè)為0.5，專家層個(gè)數(shù)設(shè)為4. 在測(cè)試階段使用集束搜索算法進(jìn)行解碼，大小設(shè)為5. 實(shí)驗(yàn)采用單張GTX3090Ti（GPU）進(jìn)行訓(xùn)練.

2.4 實(shí)驗(yàn)結(jié)果分析

2.4.1 對(duì)比實(shí)驗(yàn)

為證明本文方法的有效性，將對(duì)比以下基準(zhǔn)模型并直接從原文獻(xiàn)中抽取實(shí)驗(yàn)結(jié)果.

1） RNN-Ext-Abs+RL［19］：基于強(qiáng)化學(xué)習(xí)的句子級(jí)的文本摘要生成模型. 先對(duì)選取的句子進(jìn)行重寫(xiě)，并根據(jù)強(qiáng)化學(xué)習(xí)中的梯度策略，提出將句子選擇與句子摘要連接起來(lái)的方法，在一定程度上減少了冗余內(nèi)容的生成.

2） Bert-Abs［15］：先通過(guò)BERT預(yù)訓(xùn)練模型編碼原文檔，再將原文檔的上下文表示輸入到Transformer解碼器中生成摘要.

3） Bert-Hybrid［20］：其為一種新的抽取與生成混合框架，先由抽取模型選擇語(yǔ)句，生成模型根據(jù)所選句子重寫(xiě)摘要，再通過(guò)聯(lián)合學(xué)習(xí)選擇語(yǔ)句和重寫(xiě)摘要完成文本摘要任務(wù).

4） Bert-Ext-Abs+RL［21］：基于BERT的抽取體系架構(gòu)生成摘要，直接最大化通過(guò)強(qiáng)化學(xué)習(xí)獲得的概要級(jí)ROUGE評(píng)分，優(yōu)化獲取的摘要.

5） Bert-Ext-Abs［15］：先由抽取式摘要模型BertExt抽取摘要，再將抽取的摘要作為唯一輸入到生成式摘要模型BertAbs中，重新編碼生成摘要.

6） ESCA-BERT［22］：其為一種新的抽取-生成框架，該框架側(cè)重于可解釋性，配備了成對(duì)排序抽取模型，與配備句子級(jí)注意指針的生成式摘要模型無(wú)縫連接.

7） Bert-Copy/Rewrite+HRL［23］：基于分層強(qiáng)化學(xué)習(xí)，提出一種端到端的強(qiáng)化方法，將抽取模塊和重寫(xiě)模塊連接在一起，根據(jù)冗余度靈活地在復(fù)制和重寫(xiě)句子之間切換，提高摘要性能.

8） T-BERTSum［24］：先通過(guò)神經(jīng)主題模型（NTM）將編碼的潛在主題表示與嵌入的BERT表示進(jìn)行匹配，指導(dǎo)主題的生成，然后通過(guò)Transformer網(wǎng)絡(luò)學(xué)習(xí)長(zhǎng)期依賴關(guān)系，以端到端的方式共同探索主題推理和文本摘要.

上述各自動(dòng)文本摘要模型在數(shù)據(jù)集CNN/DM上的實(shí)驗(yàn)結(jié)果列于表2.

由表2可見(jiàn)，本文方法在ROUGE-1，ROUGE-2和ROUGE-L評(píng)價(jià)指標(biāo)上優(yōu)于其他對(duì)比方法. 對(duì)比RNN-Ext-Abs+RL，Bert-Ext-Abs+RL，Bert-Copy/Rewrite+HRL模型等使用強(qiáng)化學(xué)習(xí)或復(fù)制機(jī)制的摘要生成方法，本文在各項(xiàng)評(píng)價(jià)指標(biāo)上的實(shí)驗(yàn)效果仍有所提升，表明在不使用復(fù)雜算法的情況下，用文本關(guān)鍵信息有效引導(dǎo)，模型仍可學(xué)習(xí)到文本的主旨內(nèi)容，提高了生成摘要的精確度. 與使用RNN編碼的模型RNN-Ext-Abs+RL相比，本文模型的實(shí)驗(yàn)效果也有一定提升，表明使用BERT預(yù)訓(xùn)練模型編碼，不僅可提高模型的并行能力，而且可提高模型的文本語(yǔ)義特征提取能力. 本文方法優(yōu)于其他方法的關(guān)鍵原因是首先使用關(guān)鍵句作為引導(dǎo)信息，可在一定程度上引導(dǎo)解碼器關(guān)注原文檔的重要內(nèi)容，使生成的摘要與原文檔的內(nèi)容偏差較??；另一方面，本文在注意力層后加入了專家網(wǎng)絡(luò)層進(jìn)一步篩選信息，可有效減少冗余內(nèi)容的生成. 實(shí)驗(yàn)結(jié)果表明，本文方法在自動(dòng)文本摘

要生成任務(wù)上有效. 此外，本文也在相對(duì)較抽象的數(shù)據(jù)集XSum上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，實(shí)驗(yàn)結(jié)果列于表3. 由表3可見(jiàn)，本文模型性能優(yōu)異，但相對(duì)于偏抽取的數(shù)據(jù)集CNN/DM性能欠佳.

2.4.2 顯著性分析

本文選擇從原文檔中提取的信息作為引導(dǎo)信號(hào)，但尚不清楚模型是否會(huì)過(guò)度擬合或者生成新的表達(dá)式. 為此，計(jì)算數(shù)據(jù)集CNN/DM中生成文本摘要的重復(fù)率，結(jié)果如圖4所示. 由圖4可見(jiàn)，本文模型相比于基線模型重復(fù)率明顯降低. 結(jié)果表明，本文使用原文檔中的重要句子作為關(guān)鍵信息引導(dǎo)模型可以生成新的表達(dá)式，并且沒(méi)有過(guò)于依賴輸入的引導(dǎo)信息.

2.4.3 消融實(shí)驗(yàn)

為驗(yàn)證本文方法中各模塊的重要性，在數(shù)據(jù)集CNN/DM上進(jìn)行消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果列于表4. 由表4可見(jiàn)，加入關(guān)鍵句后的模型與基線模型相比，在評(píng)價(jià)指標(biāo)ROUGE上分別提升1.64，1.21，1.53個(gè)百分點(diǎn)，表明關(guān)鍵句的確可以有效引導(dǎo)模型，本文模型學(xué)會(huì)了如何依賴關(guān)鍵引導(dǎo)信號(hào)獲取文本的主旨內(nèi)容. 在加入專家網(wǎng)絡(luò)后，本文模型又取得了更高的準(zhǔn)確率，表明了各模塊在模型中的重要性.

2.4.4 案例分析

表5列出了數(shù)據(jù)集CNN/DM中不同模型的輸出結(jié)果. 由表5可見(jiàn)，本文模型在數(shù)據(jù)集CNN/DM輸出的摘要準(zhǔn)確概括了文本所表達(dá)的主旨，如示例中文本的主要思想是“田納西州默弗里斯伯勒里弗韋爾高中勇士隊(duì)教練羅恩·艾德洛特在襲擊中面部嚴(yán)重受傷”. 生成摘要的話語(yǔ)表達(dá)與關(guān)鍵句的表達(dá)相似，表明本文模型學(xué)會(huì)了依賴本文所提供的關(guān)鍵句信息，關(guān)鍵句確實(shí)在模型解碼生成摘要時(shí)對(duì)生成的內(nèi)容起到了引導(dǎo)作用. 此外，本文生成的摘要相對(duì)較簡(jiǎn)潔，表明專家網(wǎng)絡(luò)在生成摘要字時(shí)進(jìn)一步篩選信息，在一定程度上減少了冗余內(nèi)容的生成，提高了生成摘要的簡(jiǎn)潔性.

綜上所述，針對(duì)現(xiàn)有生成式摘要模型生成過(guò)程中存在原文本關(guān)鍵信息缺失和內(nèi)容難控制的問(wèn)題，本文提出了一種融合關(guān)鍵信息與專家網(wǎng)絡(luò)的生成式文本摘要模型，該模型采用雙編碼策略，使用BERT預(yù)訓(xùn)練模型分別編碼原文檔和關(guān)鍵句，以更好地獲得文本語(yǔ)義表征. 用關(guān)鍵信息在解碼階段引導(dǎo)生成摘要的內(nèi)容，并采用專家網(wǎng)絡(luò)進(jìn)一步篩選信息，不僅使生成的摘要更精煉、簡(jiǎn)潔地概括文本的中心要義，而且使自動(dòng)文本摘要的生成過(guò)程有一定的可解釋性. 在數(shù)據(jù)集CNN/DM和XSum上的實(shí)驗(yàn)結(jié)果表明，本文模型對(duì)生成式摘要的準(zhǔn)確度有明顯提升.

參考文獻(xiàn)

［1］ WANG L， YAO J L， TAO Y Z， et al. A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization ［C］//Proceedings of the International Joint Conference on Artificial Intelligence. New York： ACM， 2018： 4453-4460.

［2］ SEE A， LIU P， MANNINIG C. Get to the Point： Summarization with Pointer-Generator Networks ［C］//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. ［S.l.］： ACL， 2017： 1073-1083.

［3］ NARAYAN S， COHEN S， LAPATA M. Ranking Sentences for Extractive Summarization with Reinforcement Learning ［C］//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics. ［S.l.］： ACL， 2018： 1747-1759.

［4］ DEVLIN J， CHANG M W， LEE K， et al. BERT： Pre-training of Deep Bidirectional Transformers for Language Understanding ［C］//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. ［S.l.］： ACL， 2019： 4171-4186.

［5］ LIU Y X， LIN P F. Simcls： A Simple Framework for Contrastive Learning of Abstractive Summarization ［C］//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. ［S.l.］： ACL， 2021： 1065-1072.

［6］ SU M H， WU C H， CHENG H T. A Two-Stage Transformer-Based Approach for Variable-Length Abstractive Summarization ［J］. IEEE/ACM Transactions on Audio， Speech， and Language Processing， 2020， 28： 2061-2072.

［7］ ZHONG M， LIU P F， CHEN Y R， et al. Extractive Summarization as Text Matching ［C］//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. ［S.l.］： ACL， 2020： 6197-6208.

［8］ JIN H Q， WANG T M， WAN X J. Semsum： Semantic Dependency Guided Neural Abstractive Summarization ［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto： AAAI， 2020： 8026-8033.

［9］ ZHU C G， HINTHORN W， XU R C， et al. Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph ［EB/OL］. （2020-03-19）［2023-03-23］. https：//arxiv.org/abs/2003.08612.

［10］ DOU Z Y， LIU P F， HAYASHI H， et al. GSum： A General Framework for Guided Neural Abstractive Summarization ［C］//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics. ［S.l.］： ACL， 2021： 4830-4842.

［11］ JIANG M， ZOU Y F， XU J， et al. GATSum： Graph-Based Topic-Aware Abstract Text Summarization ［J］. Information Technology and Control， 2022， 51（2）： 345-355.

［12］ CUI P， HU L， LIU Y C. Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks ［C］//Proceedings of the 28th International Conference on Computational Linguistics. ［S.l.］： ACL， 2020： 5360-5371.

［13］ RAVAUT M， JOTY S， CHEN N. SummaReranker： A Multi-task Mixture-of-Experts Re-ranking Framework for Abstractive Summarization ［C］//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. ［S.l.］： ACL， 2022： 4504-4524.

［14］ ZHOU Q Y， YANG N， WEI F R， et al. Selective Encoding for Abstractive Sentence Summarization ［C］//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. ［S.l.］： ACL， 2017： 1095-1104.

［15］ LIU Y， LAPATA M. Text Summarization with Pretrained Encoders ［C］//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. ［S.l.］： ACL， 2019： 3730-3740.

［16］ FEDUS W， ZOPH B， SHAZEER N. Switch Transformers： Scaling to Trillion Parameter Models with Simple and Efficient Sparsity ［J］. The Journal of Machine Learning Research， 2021， 23（1）： 5232-5270.

［17］ HERMANN K M， KOCISKY T， GREFENSTETTE E， et al. Teaching Machines to Read and Comprehend ［C］//Proceedings of the 28th International Conference on Neural Information Processing Systems. New York： ACM， 2015： 1693-1701.

［18］ LIN C Y. Rouge： A Package for Automatic Evaluation of Summaries ［C］//Proceedings of the ACL Workshop： Text Summarization Braches Out. ［S.l.］： ACL， 2004： 74-81.

［19］ CHEN Y C， BANSAL M. Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting ［C］//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. ［S.l.］： ACL， 2018： 675-686.

［20］ WEI R， HUANG H Y， GAO Y. Sharing Pre-trained BERT Decoder for a Hybrid Summarization ［C］//Proceedings of Chinese Computational Linguistics： 18th China National Conference. New York： ACM， 2019： 169-180.

［21］ BAE S， KIM T， KIM J， et al. Summary Level Training of Sentence Rewriting for Abstractive Summarization ［C］//Proceedings of the 2nd Workshop on New Frontiers in Summarization. ［S.l.］： ACL， 2019： 10-20.

［22］ WANG H N， GAO Y， BAI Y， et al. Exploring Explainable Selection to Control Abstractive Summarization ［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto： AAAI， 2021： 13933-13941.

［23］ XIAO L Q， WANG L， HE H， et al. Copy or Rewrite： Hybrid Summarization with Hierarchical Reinforcement Learning ［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto： AAAI， 2020： 9306-9313.

［24］ MA T H， PAN Q， RONG H， et al. T-BERTSum： Topic-Aware Text Summarization Based on BERT ［J］. IEEE Transactions on Computational Social Systems， 2022， 9（3）： 879-890.

（責(zé)任編輯：韓嘯）

吉林大學(xué)學(xué)報(bào)(理學(xué)版)2024年4期

吉林大學(xué)學(xué)報(bào)(理學(xué)版)的其它文章: 地下水土著微生物菌群吸收維生素強(qiáng)化微生物降解烷烴效率分析; 二苯氨基脲摻雜g|C3N4的制備及其光催化性能; 新型陰離子金屬有機(jī)骨架化合物的合成及其對(duì)染料的吸附性能; Ag摻雜In2O3薄膜的制備及其光電性能; 基于Fourier變換紅外光譜分析咖啡豆成分; 耦合Rulkov神經(jīng)元的復(fù)雜動(dòng)力學(xué)行為

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合關(guān)鍵信息與專家網(wǎng)絡(luò)的生成式文本摘要