SFExt-PGAbs:兩階段長文檔摘要模型

2021-05-14 03:42:26周偉梟藍(lán)雯飛許智明朱容波

計(jì)算機(jī)與生活 2021年5期

關(guān)鍵詞：單詞模型

周偉梟，藍(lán)雯飛+，許智明，朱容波

1.中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院，武漢430074

2.福州大學(xué)機(jī)械工程及自動化學(xué)院，福州350108

互聯(lián)網(wǎng)技術(shù)的發(fā)展導(dǎo)致文本信息規(guī)模快速增長，數(shù)據(jù)過載問題日益嚴(yán)重，對蘊(yùn)含重要信息的文檔進(jìn)行“降維”處理顯得尤為關(guān)鍵。文本摘要（text summarization）是自然語言處理（natural language processing，NLP）、自然語言生成（natural language generation，NLG）的重要分支，其目的[1]是使用抽取或生成的方式獲取一個或多個文檔的簡短版本，同時保留原始文檔的顯著信息。

以與原始文檔關(guān)系作為分類依據(jù)，摘要任務(wù)分為抽取式摘要（extractive summarization，Ext）[2]和生成式摘要（abstractive summarization，Abs）[3]；以摘要對象作為分類依據(jù)，分為單文檔摘要（single document summarization）[4]和多文檔摘要（multi-document summarization）[5]。

抽取式摘要直接從原始文檔中提取句子組成摘要，具體表現(xiàn)為對句子重要性評分并選取Top-N個重要句子[6]，優(yōu)勢在于能夠得到語義和語法正確的摘要，因?yàn)榫渥有畔⒕鶃碓从谠嘉臋n。此類方法的缺陷也十分明顯：摘要長度限制會嚴(yán)重影響抽取出句子之間的流暢性、連貫性，導(dǎo)致可讀性較差，在長文檔中抽取摘要時，該缺陷會被進(jìn)一步放大。

生成式摘要通過重新組織原始文檔主要內(nèi)容形成摘要，形式上更類似于人工撰寫。文獻(xiàn)[7]指出，大量針對生成式摘要的研究工作所提出的模型本質(zhì)上都是基于序列到序列（sequence to sequence，Seq2Seq）架構(gòu)的，此類模型生成的摘要連貫性、流暢性較好，但是準(zhǔn)確性較低，無法很好地反映原始文檔的事實(shí)細(xì)節(jié)，甚至與原始文檔中心思想相悖。特別地，由于特征提取器（feature extractor）長短時記憶網(wǎng)絡(luò)（long shortterm memory，LSTM）[8]、門控循環(huán)單元（gated recurrent unit，GRU）[9]對長文檔編碼性能較弱以及常見的摘要數(shù)據(jù)集對句子位置存在偏見（bias）[10]，部分研究工作[11-12]對長文檔進(jìn)行截?cái)嗪笤倬幋a。本文認(rèn)為，截?cái)嗖僮麟m然提高了編碼性能且加快了訓(xùn)練速度，但是丟失了原始文檔中后部重要句子信息。同時，直接截?cái)喃@得的文本存在冗余的句子干擾模型的泛化能力，進(jìn)一步加劇摘要準(zhǔn)確性低的缺陷。

針對上述問題，本文提出一種兩階段長文檔摘要模型SFExt-PGAbs，由次模函數(shù)抽取式摘要（submodular function for extractive summarization，SFExt）[13-14]、指針生成器生成式摘要（pointer generator for abstractive summarization，PGAbs）[11]組成。

提出SFExt-PGAbs的動機(jī)在于：

（1）本文對大量摘要樣本分析后認(rèn)為，人類在對長文檔進(jìn)行摘要時，傾向于先挑選出重要的句子作為參考，并重新組織參考句以獲取流暢的摘要。

（2）抽取式摘要與生成式摘要的優(yōu)缺點(diǎn)互補(bǔ)。

傳統(tǒng)SFExt 的目標(biāo)增益函數(shù)（objective gain function）只關(guān)注兩個子方面：覆蓋性、冗余性。本文拓展出兩個新的子方面，位置重要性和準(zhǔn)確性。引入雅卡爾指數(shù)（Jaccard index）進(jìn)一步去除冗余句，同時設(shè)計(jì)新的貪心算法（greedy algorithm）進(jìn)行句子抽取。

本文在PGAbs中應(yīng)用兩種循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）并研究不同組件對生成摘要質(zhì)量的影響。實(shí)驗(yàn)結(jié)果表明，SFExt-PGAbs 生成的摘要同時滿足準(zhǔn)確性、流暢性特點(diǎn)，相較于基線模型在ROUGE（recall-oriented understudy for gisting evaluation）指標(biāo)上的性能有較大提升。同時，子方面拓展后的SFExt也能抽取得到更準(zhǔn)確的摘要。

1 相關(guān)工作

1.1 抽取式摘要

早期文摘領(lǐng)域研究人員主要關(guān)注無監(jiān)督抽取式摘要（unsupervised extractive summarization），側(cè)重于從單個文檔或一組文檔中識別出有代表性的句子組成摘要。Lin 等人[13-14]首次將文摘任務(wù)與次模函數(shù)性質(zhì)相關(guān)聯(lián)，從理論和實(shí)驗(yàn)兩方面證明了貪心算法可以近似最優(yōu)地求解預(yù)算次模極大值問題。Tixier 等人[15]改進(jìn)了文獻(xiàn)[13]的覆蓋度項(xiàng)，并為單詞分配有意義的分?jǐn)?shù)。Mihalcea 等人[16]提出基于TextRank 的自然語言文本圖的排序模型，并將其應(yīng)用到關(guān)鍵詞抽?。╧eywords extraction）、句子抽?。╯entence extraction）任務(wù)中。TextRank 是一種性能優(yōu)越的無監(jiān)督算法，本文在SFExt 中引入準(zhǔn)確性子方面時應(yīng)用了該算法。Erkan 等人[17]提出基于特征向量中心性概念的句子重要性計(jì)算方法LexPageRank，通過構(gòu)造句子連接矩陣實(shí)現(xiàn)句子抽取。Sripada 等人[18]提出KL 算法，通過衡量摘要概率分布與原始文檔概率分布之間的KL散度（Kullback-Leibler divergence）選取句子。Gong等人[19]使用淺層語義分析（latent semantic analysis，LSA）描述詞與詞之間的潛在共現(xiàn)關(guān)系從而進(jìn)行摘要。Tsarev 等人[20]提出一種利用非負(fù)矩陣因子分解（nonnegative matrix factorization，NMF）來估計(jì)句子相關(guān)性的泛型文本摘要方法。與TextRank、LexPageRank、KL、LSA、NMF 相比，SFExt 性能更優(yōu)且直接對摘要所蘊(yùn)含的信息量以及句子間冗余建模，保證抽取的句子是準(zhǔn)確且冗余較低的。本文使用SFExt 作為第一階段的基礎(chǔ)模型。

近年來，大量研究工作應(yīng)用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)抽取式摘要，通常表現(xiàn)為有監(jiān)督學(xué)習(xí)（supervised learning）的形式。部分研究人員重新關(guān)注無監(jiān)督抽取式摘要，Zheng 等人[21]建立了有向邊圖，認(rèn)為任意兩個節(jié)點(diǎn)對各自中心性的貢獻(xiàn)受到它們在文檔中的相對位置的影響。Dong 等人[22]基于語篇結(jié)構(gòu)的位置信息和層次信息來增強(qiáng)文檔圖的層次性和方向性。

1.2 生成式摘要

由于深度學(xué)習(xí)（deep learning，DL）的快速發(fā)展，許多基于Seq2Seq 的生成式摘要模型被提出。Rush等人[23]首次將Seq2Seq 模型應(yīng)用于文摘任務(wù)，并引入注意力機(jī)制（attention mechanism）[24]。Nallapati等人[25]進(jìn)一步拓展了基于RNN 的生成式摘要模型。Vinyals等人[26]提出指針網(wǎng)絡(luò)（pointer network）。Gu 等人[27]結(jié)合Seq2Seq 模型與指針網(wǎng)絡(luò)提出CopyNet，將解碼器中固定規(guī)模的詞典推廣到動態(tài)規(guī)模。同時，Gulcehre等人[28]也成功應(yīng)用了指針網(wǎng)絡(luò)。上述研究人員提出的模型通過生成單詞序列一定程度上解決了生成式摘要任務(wù)，但是還存在重復(fù)生成、摘要準(zhǔn)確性低的問題。

與機(jī)器翻譯（machine translation，MT）任務(wù)不同，摘要數(shù)據(jù)集中原始文檔長度相較于參考摘要（ground truth eference summary）更長，導(dǎo)致Seq2Seq 模型與CopyNet 無法對兩者進(jìn)行對齊（align），從而出現(xiàn)生成冗余單詞或句子的現(xiàn)象[29]。Tu 等人[29]維護(hù)一個覆蓋度向量（coverage vector）一定程度上解決了該問題。See等人[11]結(jié)合文獻(xiàn)[25]、文獻(xiàn)[27]、文獻(xiàn)[29]提出指針生成器網(wǎng)絡(luò)（pointer generator network），本文第二階段的PGAbs與之類似。

部分研究工作通過融合多源信息提高摘要模型的生成能力。Guo 等人[30]提出多層編碼器-解碼器架構(gòu)，引入文本蘊(yùn)含、問題生成任務(wù)提高模型的生成能力。Zhu 等人[31]建議使用翻譯任務(wù)提高摘要模型的語言學(xué)習(xí)能力。Mishra 等人[32]在模型中學(xué)習(xí)詞性和句法信息來提高摘要模型預(yù)測文檔情緒的能力。Zhu 等人[33-34]提出基于指針生成器網(wǎng)絡(luò)的多模態(tài)生成式摘要模型。與上述工作不同，本文沒有引入外部知識，而是通過輸入更準(zhǔn)確的文檔表示來提高摘要模型的生成性能。

個別研究人員通過對原始文檔重要信息的識別來提高生成摘要的準(zhǔn)確性。Gehrmann 等人[12]通過判斷原始文檔中的關(guān)鍵詞是否包含在摘要中來提高摘要的準(zhǔn)確性，本文在SFExt 中引入的準(zhǔn)確性子方面同樣來源于關(guān)鍵詞的識別。

針對長文檔摘要，Celikyilmaz 等人[35]將編碼器劃分為多個協(xié)作編碼器，每個協(xié)作編碼器單獨(dú)編碼一段文本，從而避免LSTM、GRU對長文檔編碼性能較弱的問題。與文獻(xiàn)[35]不同，本文首先在長文檔中抽取出重要句子，并對這些重要句組成的文檔進(jìn)行編碼。Transformer[36]對長文檔的編碼能力、并行處理能力相較于LSTM、GRU更強(qiáng)，該模型逐漸被應(yīng)用在文摘領(lǐng)域。

2 兩階段長文檔摘要模型

2.1 總體架構(gòu)

兩階段長文檔摘要模型SFExt-PGAbs 獲取摘要時，首先使用SFExt 獲取長文檔的過渡文檔（transitional document），過渡文檔的序列長度處于原始文檔與參考摘要之間，保留了大部分原始文檔的重要信息。隨后，PGAbs 接收過渡文檔進(jìn)行編碼（encode）、解碼（decode）、生成長文檔對應(yīng)的摘要。圖1 所示為SFExt-PGAbs總體架構(gòu)。

與截?cái)辔臋n（truncated document）相比，過渡文檔更加準(zhǔn)確地闡述了原始長文檔的中心思想（沒有損失長文檔中后部句子重要信息且冗余較低），從而提高PGAbs的生成性能。

與全文檔（full document）相比，過渡文檔的訓(xùn)練時間大幅減少，并且其較短的性質(zhì)避免了“長距離依賴”問題的產(chǎn)生，使PGAbs對其編碼性能更強(qiáng)。

Fig.1 Overall structure of SFExt-PGAbs圖1 SFExt-PGAbs總體架構(gòu)

2.2 第一階段：SFExt

2.2.1 次模函數(shù)性質(zhì)

次模函數(shù)（submodular function，SF）最初由邊際效益遞減（diminishing marginal utility）現(xiàn)象演變而來，是一個集合函數(shù)，隨著向集合中不斷添加元素，函數(shù)增量的差異逐漸減小[13]。

給定集合函數(shù)f:2V→R，將有限集V的一個子集S?V映射為一個實(shí)數(shù)。若對于任意S,T?V，滿足：

則稱f(·)為次模函數(shù)。從邊際效益遞減的角度考慮，次模函數(shù)的另一種等價定義為：若對于任意的R?S?V，且有s∈VS，滿足：

則稱f(·)為次模函數(shù)。

式（2）指出，當(dāng)集合愈來愈大，s的價值將逐漸減小，這與抽取式摘要的思想是極為契合的。在摘要過程中，總是先選擇當(dāng)前價值最高的句子進(jìn)入集合。

2.2.2 抽取式摘要任務(wù)轉(zhuǎn)化

抽取式摘要任務(wù)可以形式化為一個預(yù)算約束（budget constraint）下的次模函數(shù)最大化的問題[13]：

其中，V表示原始文檔中所有句子的集合；S(S?V)表示從V中提取出的摘要句子集合；csi為非負(fù)實(shí)數(shù)，表示摘要句子si對應(yīng)的代價（cost）；B表示預(yù)算約束，即所有選中的摘要句子對應(yīng)的代價和不能超過B；次模函數(shù)f(·)對摘要質(zhì)量進(jìn)行打分。在抽取式摘要中，預(yù)算約束B是天然存在的，通常設(shè)定為摘要長度限制、摘要句數(shù)量限制。

2.2.3 目標(biāo)次模函數(shù)設(shè)計(jì)

本文結(jié)合文獻(xiàn)[14]定義的覆蓋度項(xiàng)和文獻(xiàn)[13]定義的冗余項(xiàng)來闡述覆蓋性和冗余性這兩個子方面，目標(biāo)次模函數(shù)f(·)建模為：

f(·)展開公式為：

式（4）中L(S)表示從原始文檔D={s1,s2,…,sn}中選取的摘要句子集合S的覆蓋度項(xiàng)，被解釋為度量摘要集S與原始文檔D相似性的集合函數(shù)，R(S)表示S的冗余項(xiàng)，避免冗余的句子進(jìn)入摘要句子集合S，λ≥0 為權(quán)衡系數(shù)。

式（5）中Ci:2V→R 是一個次模函數(shù)，表示摘要句子集合S與句子si的相似度，Ci(V)是Ci(S)所能達(dá)到的最大值，因?yàn)镾?V。0 ≤α≤1 表示閾值系數(shù)，當(dāng)α設(shè)置為1 時，式（5）衰減為式（6）。

式（6）～（9）中wi,j表示句子對(si,sj)的向量表示(vi,vj)之間的余弦相似度（cosine similarity）。本文沒有使用預(yù)訓(xùn)練詞向量（pre-training word vector），而是計(jì)算句子的TF-ISF（term frequency-inverse sentence frequency）向量表示。

式（3）所描述的目標(biāo)次模函數(shù)f(·)的最大化是一個NP-hard 問題，使用貪心算法依次尋找使得目標(biāo)增益函數(shù)F(·) 最大的句子在最差的條件下可以達(dá)到(1-1/e)f(Sopt)（f(Sopt)表示最優(yōu)解）的解[13]，F(xiàn)(·)定義如下：

結(jié)合式（4）有如下等價定義：

式（12）中f(·)表示目標(biāo)次模函數(shù)，S表示已選摘要句子集合，si表示貪心算法中參與計(jì)算的句子，為si的單詞數(shù)，表示長度懲罰（length penalty）項(xiàng)，r＞0 為比例因子。

2.2.4 位置重要性子方面融合

式（13）建立的目標(biāo)增益函數(shù)只考慮覆蓋性和冗余性，不足以代表數(shù)據(jù)集的原始整體特征。文獻(xiàn)[10]指出，在大量摘要數(shù)據(jù)集中，句子在原始文檔中的位置是常見的偏見。雖然數(shù)據(jù)集的偏見為直接截?cái)嗵峁┝死碚撘罁?jù)，但是截?cái)喃@取的文檔頭部信息并不能完全替代文檔中后部句子蘊(yùn)含的重要信息。

受文獻(xiàn)[10]對摘要數(shù)據(jù)集偏見分析的啟發(fā)，本文在SFExt中引入位置重要性子方面。給定原始文檔D={s1,s2,…,sn}，對每個句子si分配重要性度量（importance measure）ωi，ωi計(jì)算公式為：

式（16）是以e 為常數(shù)的指數(shù)函數(shù)，當(dāng)x∈(0,1)時，E(x)展現(xiàn)出非線性下降趨勢的性質(zhì)。|D|為原始文檔句子數(shù)量，表示句子si-1和si在D中相對位置的中值點(diǎn)。

本文對{ω1,ω2,…,ωn}進(jìn)行等比縮放（ωn設(shè)定為1）后將ωi與式（13）中覆蓋度增量Fl(S,si)進(jìn)行乘積實(shí)現(xiàn)子方面的融合。式（13）改進(jìn)為：

其中，ωi為si分配得到重要性度量。

為平衡位置重要性與覆蓋性兩個子方面，防止引入的重要性度量帶來過擬合問題，本文設(shè)置了位置偏置權(quán)重（position bias weight）參數(shù)β：

其中，β用來減小或者增大ωi對覆蓋度增量的影響，可根據(jù)數(shù)據(jù)集的性質(zhì)進(jìn)行調(diào)整。相較于式（13），應(yīng)用式（19）的SFExt 能夠提高抽取出處于重要位置句子的可能性。

圖2 為只包含5 個句子的D={s1,s2,s3,s4,s5}分配得到經(jīng)過等比縮放的{ω1,ω2,ω3,ω4,ω5}的取值，并且展示了β的取值對ω的整體影響。

Fig.2 Importance measure distribution圖2 重要性度量分布

圖2顯示，當(dāng)β=0 時，?i∈{1,2,3,4,5}，都有ωi=1.0，則式（19）衰減為式（13），表示不引入位置重要性子方面。同時，以β=0 為界限，β越趨向于+∞，則SFExt更傾向于抽取文檔頭部信息；反之，則SFExt更傾向于抽取文檔中后部句子信息。通常，本文建議設(shè)置-1.0 ＜β＜1.0。

本文分析后認(rèn)為，融合位置重要性子方面的SFExt抽取出的句子同時滿足以下性質(zhì)：

（1）處于文檔重要位置；

（2）處于文檔非重要位置但包含突出信息；

（3）句子間冗余較低。

2.2.5 準(zhǔn)確性子方面融合

文獻(xiàn)[37]指出，關(guān)鍵詞構(gòu)成了句子的主體，是重要的句子選擇指標(biāo)，摘要撰寫者傾向于關(guān)注包含關(guān)鍵詞的句子以確保摘要的準(zhǔn)確性。本文分析后認(rèn)為，關(guān)鍵詞和摘要都能在一定程度上反映原始文檔的中心思想，只是使用了單詞和句子兩種不同粒度的表示方式，關(guān)鍵詞是摘要更為抽象的表示，兩者之間可以互相彌補(bǔ)信息缺失的問題。

本文在SFExt 中引入準(zhǔn)確性子方面確保抽取出的句子包含更多的關(guān)鍵詞。給定原始文檔D={s1,s2,…,sn}，使用TextRank[16]算法獲取關(guān)鍵詞k以及對應(yīng)關(guān)鍵詞權(quán)重g：

其中，TR表示TextRank 算法，M表示在文檔D中抽取出的關(guān)鍵詞總數(shù)。g的值反映k對于D的重要程度，g越高則對應(yīng)k越重要。

式（21）中I為一個函數(shù)，表示獲取句子si包含所有關(guān)鍵詞k的索引，U為關(guān)鍵詞索引集合。式（22）計(jì)算關(guān)鍵詞索引對應(yīng)權(quán)重的和。

準(zhǔn)確性子方面融合后式（19）改進(jìn)為：

同樣，為防止過擬合以及適應(yīng)不同數(shù)據(jù)集，本文設(shè)置了關(guān)鍵詞影響程度（keywords influence degree）參數(shù)ρ：

其中，ρ用來減小或者增大γi對目標(biāo)增益函數(shù)的影響，ρ=0 時，式（24）衰減為式（19），表示不引入準(zhǔn)確性子方面。通常，本文建議設(shè)置0 ＜ρ＜1。相較于式（19），應(yīng)用式（24）的SFExt 能夠進(jìn)一步獲得更準(zhǔn)確的過渡文檔或摘要。

2.2.6 貪心算法

本文設(shè)計(jì)了引入雅卡爾指數(shù)的貪心算法進(jìn)一步過濾冗余句。

算法1最大化目標(biāo)增益函數(shù)F(·)獲取過渡文檔或摘要的貪心算法

算法1 中，步驟3 表示找到使F(S,si)最大的句子sk，F(xiàn)(S,si) 可以選擇式（13）、式（19）、式（24），不同F(xiàn)(S,si)引入不同參數(shù)α,λ,r,β,ρ。步驟4～5 表示若句子sk與S中任意一句話冗余或增量小于等于0，則轉(zhuǎn)到步驟2 進(jìn)行下一輪循環(huán)。步驟7～9 表示在不超過預(yù)算約束B的情況下將sk添加進(jìn)S，并在D中將sk刪除。預(yù)算約束B值的大小決定S中句子序列總長度，返回的S即為過渡文檔或摘要句子集合。

其中，式（25）計(jì)算句子間單詞交集，式（26）中|·|計(jì)算集合中單詞數(shù)量，若Jac(sk,sj)大于冗余閾值δ，則表示句子對(sk,sj) 之間冗余。通常，本文建議設(shè)置δ∈{0.65,0.75}。

2.3 第二階段：PGAbs

2.3.1 編碼器

循環(huán)神經(jīng)網(wǎng)絡(luò)能夠很好地處理時間序列數(shù)據(jù)，本文使用Bi-LSTM（bi-directional long short-term memory）和Bi-GRU（bi-directional gated recurrent unit）作為PGAbs的編碼器（encoder）。相較于單向LSTM 和單向GRU，雙向特征提取器能夠更好地捕捉雙向語義依賴。

Fig.3 Pointer generator for abstractive summarization圖3 指針生成器生成式摘要

Bi-LSTM 前向傳播公式：

在式（27）～（30）中，E[wt]表示單詞wt的詞嵌入（word embedding）；t表示時刻；ht表示當(dāng)前時刻隱藏狀態(tài)（hidden state）；ct表示當(dāng)前時刻細(xì)胞狀態(tài)（cell state）。在邏輯架構(gòu)中，GRU 舍棄了細(xì)胞狀態(tài)c，將隱藏狀態(tài)h直接傳遞給下一個編碼單元。

2.3.2 解碼器

PGAbs解碼器（decoder）[11]在傳統(tǒng)Seq2Seq模型中混合了注意力機(jī)制、復(fù)制機(jī)制（copy mechanism）、覆蓋度機(jī)制（coverage mechanism），生成的單詞選擇性來源于輸入文檔或詞匯表，一定程度上解決了集外詞（out of vocabulary，OOV）問題和重復(fù)生成相同單詞的問題，本文使用PGAbs解碼器作為摘要生成器。

圖3 框外為解碼器架構(gòu)，本文使用單向LSTM 和單向GRU 作為解碼器的基本邏輯單元。在時刻t，LSTM 或GRU 單元接收t-1 時刻預(yù)測輸出單詞（predicted output word）yt-1得到當(dāng)前解碼器狀態(tài)（current decoder state）st。

t=0 時刻初始化解碼器狀態(tài)s0為：

其中，Wd為可學(xué)習(xí)參數(shù)，tanh 為非線性函數(shù)。

注意力機(jī)制計(jì)算注意力分?jǐn)?shù)（attention scores）、注意力分布（attention distribution）at獲取上下文向量（context vector）ct：

其中，v、Wh、Ws為可學(xué)習(xí)參數(shù)，注意力分布at可解釋為輸入文檔單詞的概率分布。

其中，covt表示t時刻前所有注意力分布ai的和，可解釋為t時刻前單詞被覆蓋的程度。覆蓋度機(jī)制通過回顧t時刻前的注意力機(jī)制避免重復(fù)注意相同的位置從而緩解重復(fù)生成的問題。

復(fù)制機(jī)制定義一個pg控制t時刻生成單詞的來源，pg由當(dāng)前解碼器狀態(tài)st、yt-1的詞嵌入E[yt-1]、上下文向量ct決定：

其中，Wc、Ws、We為可學(xué)習(xí)參數(shù)，σ表示sigmoid函數(shù)。

詞匯表概率分布Pfinal為：

其中，pg表示從詞匯表Pvocab中生成單詞的概率，(1-pg)表示從注意力分布at i中復(fù)制輸入文檔單詞的概率。V*、V、b、b*為可學(xué)習(xí)的參數(shù)。復(fù)制機(jī)制通過拷貝部分輸入文檔的單詞生成摘要，緩解了集外詞問題。

2.3.3 訓(xùn)練與推理

給定輸入文檔與參考摘要，訓(xùn)練期間，使用導(dǎo)師驅(qū)動（teacher forcing）過程，解碼器的輸入為參考摘要單詞而非前一時刻解碼器輸出，通過最小化損失函數(shù)訓(xùn)練模型參數(shù)。

不引入覆蓋度機(jī)制的PGAbs 在t時刻損失函數(shù)定義為目標(biāo)單詞（target word）的負(fù)對數(shù)似然損失：

引入覆蓋度機(jī)制的PGAbs 在t時刻損失函數(shù)定義為復(fù)合損失函數(shù)：

測試期間，解碼器首先接收單詞“”，隨后在每一時間步的輸入單詞為前一時刻的輸出單詞，直到生成“”或達(dá)到摘要限制長度停止。同時，本文在摘要生成過程中使用集束搜索（beam search）得到Top-B個最高概率的單詞序列。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

本文實(shí)現(xiàn)了12 種摘要模型，其中，PGAbs 使用深度學(xué)習(xí)框架PyTorch 實(shí)現(xiàn)。各個模型基本架構(gòu)及組件如表1 所示。表中，c、r、p、a 分別表示在SFExt中引入覆蓋性（coverage）、冗余性（redundancy）、位置重要性（positional importance）、準(zhǔn)確性（accuracy）子方面。LSTM、GRU 表示PGAbs 中應(yīng)用的循環(huán)神經(jīng)網(wǎng)絡(luò)單元類型。copy、coverage 分別表示使用復(fù)制機(jī)制、覆蓋度機(jī)制。

SFExt 參數(shù)設(shè)置如表2 所示。表中，|D|表示文檔句子數(shù)量。僅使用SFExt 獲取摘要時，B設(shè)置為120，使用SFExt 獲取過渡文檔時，B設(shè)置為400。B值的設(shè)定取決于數(shù)據(jù)集的性質(zhì)，本文將在3.2 節(jié)中介紹使用的數(shù)據(jù)集并對其做全方位的統(tǒng)計(jì)數(shù)據(jù)分析。

Table 1 Basic architecture and components table of each model表1 各個模型基本架構(gòu)及組件表

Table 2 SFExt parameters table表2 SFExt參數(shù)表

PGAbs參數(shù)設(shè)置如表3 所示。本文使用Adagrad[38]優(yōu)化器對PGAbs 的參數(shù)進(jìn)行優(yōu)化，表3中學(xué)習(xí)率與累加器參數(shù)與Adagrad 優(yōu)化器相關(guān)。所有PGAbs 均在GeForce GTX TITAN X 12 GB顯存GPU上訓(xùn)練及測試。

3.2 數(shù)據(jù)集及統(tǒng)計(jì)數(shù)據(jù)分析

3.2.1 數(shù)據(jù)集

本文使用CNNDM[39]（CNN/Daily Mail）作為實(shí)驗(yàn)數(shù)據(jù)集。CNNDM 是摘要領(lǐng)域的基準(zhǔn)數(shù)據(jù)集，其中，原始文檔來源于新聞文本，參考摘要來源于人工撰寫，包含訓(xùn)練集287 226 對、測試集11 490 對、驗(yàn)證集13 368 對。

Table 3 PGAbs parameters table表3 PGAbs參數(shù)表

3.2.2 統(tǒng)計(jì)數(shù)據(jù)分析

本文對CNNDM 預(yù)處理后過濾掉部分原始數(shù)據(jù)，表4 為統(tǒng)計(jì)的CNNDM 原始文檔基本信息。

Table 4 CNNDM original documents data statistics table表4 CNNDM 原始文檔數(shù)據(jù)統(tǒng)計(jì)表

表4 顯示，CNNDM 原始文檔平均詞數(shù)為775.53，屬于長文檔摘要數(shù)據(jù)集。本文遵循文獻(xiàn)[11]的設(shè)置，在僅使用PGAbs 獲取摘要時，對原始文檔截?cái)嘀?00個單詞以保證編碼性能和訓(xùn)練速度。在使用SFExt-PGAbs獲取摘要時制定如下處理策略：

（1）小于400 詞的原始文檔，保留全文后使用PGAbs訓(xùn)練與測試；

（2）介于400 詞至500 詞之間的原始文檔，截?cái)啾Ａ?00 個單詞后使用PGAbs訓(xùn)練與測試；

（3）大于500詞的原始文檔，使用SFExt獲取預(yù)算約束B=400 的過渡文檔后使用PGAbs訓(xùn)練與測試。

本文統(tǒng)計(jì)CNNDM 三種長度分布的原始文檔數(shù)量來展現(xiàn)使用制定處理策略時需要被SFExt 處理的文檔比例。統(tǒng)計(jì)結(jié)果如表5 所示，本文在實(shí)驗(yàn)中沒有使用驗(yàn)證集。

Table 5 The number of original documents in three length distributions of CNNDM表5 CNNDM 三種長度分布的原始文檔數(shù)量

表5 顯示，在使用SFExt-PGAbs 獲取摘要時，訓(xùn)練期間，訓(xùn)練集中75.60%的原始文檔需要獲取其過渡文檔；測試期間，測試集中72.04%的原始文檔需要獲取其過渡文檔。

本文將CNNDM 原始文檔均等劃分為6 個域，統(tǒng)計(jì)截?cái)嗖僮鳌⒅贫ㄌ幚聿呗垣@取的截?cái)辔臋n、過渡文檔的句子在原始文檔中的總體分布，更清晰地展示SFExt的作用。表6 為總體分布統(tǒng)計(jì)結(jié)果。

表6 顯示，制定處理策略得到的過渡文檔相較于截?cái)嗖僮鞅Ａ袅碎L文檔中后部位置的重要句子信息，后3 個域中句子數(shù)量更多。值得注意的是，制定處理策略得到的過渡文檔句子總數(shù)相對較少，這是SFExt 傾向于抽取長句子導(dǎo)致的（通常長句子包含更豐富的信息）。

Table 6 CNNDM population distribution表6 CNNDM 總體分布表

3.3 結(jié)果分析

3.3.1 評價指標(biāo)

本文使用文摘領(lǐng)域基準(zhǔn)評價指標(biāo)ROUGE[40]測評待測摘要（模型抽取或生成的摘要）的質(zhì)量。其中，ROUGE-N（包括ROUGE-1、ROUGE-2）和ROUGE-L為重要指標(biāo)。

ROUGE-N 計(jì)算公式如下：

其中，n為n-gram 長度，{RS}為參考摘要，Countmatch(gramn)為待測摘要與參考摘要之間相同的n-gram 數(shù)量，Count(gramn)為參考摘要中n-gram 數(shù)量。

ROUGE-L 計(jì)算公式如下：

其中，LCS(X,Y)為待測摘要與參考摘要的最長公共子序列長度，m為參考摘要長度。

3.3.2 基線模型

本文引用5 篇相關(guān)文獻(xiàn)在CNNDM 測試集上報告的測試結(jié)果以及實(shí)現(xiàn)兩種基于Transformer[36]架構(gòu)的生成式摘要模型與表1中模型進(jìn)行對比，具體如下：

SummaRuNNer：Nallapati 等人[6]在AAAI 2017 公開發(fā)表的一種有監(jiān)督抽取式摘要方法。該模型通過對句子的內(nèi)容、顯著信息、偏置項(xiàng)等進(jìn)行建模并抽取句子，是2017 年抽取式摘要的state-of-the-art。

Graph-Based Attention：Tan 等人[7]在ACL 2017 公開發(fā)表的一種引入Graph-Based Attention 機(jī)制的Seq2Seq 模型，提高了對句子顯著性的適應(yīng)能力。

Intra-Attention（ML）：Paulus 等人[41]在ICLR 2018公開發(fā)表的一種引入Intra-Temporal Attention 機(jī)制的有監(jiān)督生成式摘要模型。該模型對文檔中獲得較高權(quán)重的詞進(jìn)行懲罰，防止解碼過程中再次賦予該詞高權(quán)重。

Intra-Attention（MLRL）：在Intra-Attention（ML）的基礎(chǔ)上集成強(qiáng)化學(xué)習(xí)（reinforcement learning）。通過將模型預(yù)測的單詞以及對應(yīng)樣本與參考摘要單詞計(jì)算的ROUGE 指標(biāo)作為獎勵，同時根據(jù)獎勵更新模型參數(shù)。該模型是2018年生成式摘要的state-of-the-art。

Key Information Guide Network：Li 等人[42]在NAACL 2018 公開發(fā)表的一種通過關(guān)鍵詞指導(dǎo)摘要生成的模型。

PACSUM：Zheng 等人[21]在ACL 2019 公開發(fā)表的一種基于位置增強(qiáng)的無監(jiān)督抽取式摘要方法。

Transformer（copy）：本文實(shí)現(xiàn)的在基礎(chǔ)Transformer[36]架構(gòu)上引入復(fù)制機(jī)制的生成式摘要模型。編碼器與解碼器各4 層，詞嵌入維度512，隱藏層維度512，前饋層維度1 024，多頭自注意力機(jī)制（multi-head selfattention）設(shè)置為8，dropout 設(shè)置為0.2，長度懲罰項(xiàng)（length penalty）參數(shù)設(shè)置為0.9，標(biāo)簽平滑（label smoothing）參數(shù)設(shè)置為0.1。

Transformer（copycoverage）：本文實(shí)現(xiàn)的在Transformer（copy）基礎(chǔ)上引入覆蓋度懲罰項(xiàng)的生成式摘要模型。

3.3.3 主要結(jié)果

本文使用files2rouge 包測評所有SFExt、PGAbs、SFExt-PGAbs、Transformer 獲取的待測摘要在95%置信區(qū)間的ROUGE標(biāo)準(zhǔn)F1評分。測試文本為CNNDM測試集（11 489 對原始文檔與參考摘要），表7 所示為對比結(jié)果。

表7 結(jié)果顯示，本文實(shí)現(xiàn)的SFExt-PGAbs(c paLSTMcopycoverage）在ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-SU4 指標(biāo)上相較于基線模型擁有最佳的摘要性能。

對比表7 中4 種SFExt 模型，融合位置重要性子方面的SFExt（c p,B=120）相比SFExt（c ,B=120）在ROUGE 指標(biāo)上分別提高了2.96、2.75、1.89、2.88、2.18 個百分點(diǎn)，融合準(zhǔn)確性子方面的SFExt（c a,B=120）相比SFExt（c ,B=120）在各個ROUGE 指標(biāo)上的提升約為0.20 個百分點(diǎn)。SFExt（c pa,B=120）達(dá)到了所有SFExt 的最佳性能，抽取出的摘要更能反映原始文檔的中心思想。

對比表7 中SFExt 與其他模型，無監(jiān)督抽取式摘要模型SFExt（c pa，B=120）摘要性能超過了有監(jiān)督生成式摘要模型Graph-Based Attention、Intra-Attention（ML）、不帶覆蓋度機(jī)制的PGAbs 與SFExt-PGAbs、Transformer（copy）。同時，SFExt（c pa,B=120）摘要性能與同為無監(jiān)督抽取式方法的PACSUM 相當(dāng)，證明了子方面融合的有效性。

對比表7 中4 種PGAbs 模型，覆蓋度機(jī)制的引入會極大地影響模型的生成性能。LSTM 作為特征提取器單元的生成性能略高于GRU，本文認(rèn)為這是由于LSTM 的編碼性能較強(qiáng)導(dǎo)致的。同樣，對比表7 中4 種SFExt-PGAbs模型可得到相同的結(jié)論。

對比表7 中PGAbs 與SFExt-PGAbs，當(dāng)PGAbs 配置相同的組件時，SFExt-PGAbs 生成的摘要在保證流暢性的前提下，同時提高了摘要的準(zhǔn)確性，證明了兩階段長文檔摘要模型的有效性。其中，SFExt-PGAbs（c paLSTMcopycoverage）相比模型PGAbs（LSTMcopycoverage）在ROUGE 指標(biāo)上分別提高0.57、0.16、0.02、0.33、0.17 個百分點(diǎn)。

Table 7 ROUGE evaluation table(11 489 pairs of test data)表7 ROUGE 測評表（11 489 對測試數(shù)據(jù)）%

Table 8 ROUGE evaluation table(1754 pairs of test data)表8 ROUGE 測評表（1 754 對測試數(shù)據(jù)）%

Table 9 ROUGE evaluation table(2102 pairs of test data)表9 ROUGE 測評表（2 102 對測試數(shù)據(jù)）%

本文對測試集按長度屬性進(jìn)行劃分，得到原始文檔長度在800～1 000 單詞之間的數(shù)據(jù)集（1 754 對測試數(shù)據(jù)）、1 000～1 500 單詞之間的數(shù)據(jù)集（2 102 對測試數(shù)據(jù)）、1 500 單詞以上的數(shù)據(jù)集（765 對測試數(shù)據(jù)），并使用PGAbs、SFExt-PGAbs、Transformer 對上述3 個測試子集進(jìn)行測試。

表8所示為在800～1000單詞原始文檔上的測評結(jié)果。

表9 所示為在1 000～1 500 單詞原始文檔上的測評結(jié)果。

表10 所示為在超過1 500 單詞原始文檔上的測評結(jié)果。

Table 10 ROUGE evaluation table(765 pairs of test data)表10 ROUGE 測評表（765 對測試數(shù)據(jù)）%

Table 11 Summaries case study table表11 摘要樣例對比表

表8～表10 結(jié)果顯示，針對長文檔摘要，SFExt-PGAbs 的摘要性能遠(yuǎn)強(qiáng)于PGAbs，其主要原因是在訓(xùn)練和測試期間，過渡文檔保留了長文檔中后部句子重要信息，一定程度上解決了信息缺失問題。同時，當(dāng)文檔越長時，SFExt-PGAbs 相對于PGAbs 的性能提升逐步降低，這與本文預(yù)期是一致的，越長的文檔獲取其高質(zhì)量摘要的難度越高，導(dǎo)致其性能提升的難度隨之增高。

Transformer 相較PGAbs 對長文檔的摘要性能更強(qiáng)，本文認(rèn)為這是由于位置編碼（positional encoding）與自注意力機(jī)制（self-attention）帶來的優(yōu)勢所導(dǎo)致的。

3.3.4 樣例分析

本文通過樣例分析進(jìn)一步驗(yàn)證SFExt-PGAbs 能夠生成流暢且更準(zhǔn)確的摘要，表11 所示為摘要樣例對比表。

表11 結(jié)果顯示，PGAbs 沒有捕捉到文章重點(diǎn)內(nèi)容，僅闡述了“物品被盜”及“警方發(fā)現(xiàn)車”等無關(guān)內(nèi)容。Transformer 捕捉到了部分文章重點(diǎn)，包括“西蒙·米切爾偷走了昂貴的設(shè)備”等，但是第二句話存在事實(shí)錯誤，將“慈善機(jī)構(gòu)”幫助對象錯誤地認(rèn)為是盜竊者。SFExt-PGAbs 生成的摘要基本囊括參考摘要描述的所有基本事實(shí)（表中加粗段落）。

4 結(jié)束語

本文提出一種兩階段長文檔摘要模型，通過結(jié)合抽取式方法與生成式方法來解決長文檔摘要問題，實(shí)驗(yàn)結(jié)果證明了該模型的有效性。同時，本文在傳統(tǒng)SFExt中拓展出位置重要性、準(zhǔn)確性子方面，建立新的目標(biāo)增益函數(shù)，相較于傳統(tǒng)SFExt 性能更優(yōu)，應(yīng)用更靈活。本文分析后認(rèn)為，對于抽取式摘要，如何識別數(shù)據(jù)集的特征是極為關(guān)鍵的，對于生成式摘要，如何獲取更多的編碼信息是影響摘要質(zhì)量的關(guān)鍵因素。

本文未來工作主要關(guān)注如何提高生成式摘要模型的編碼能力。通過構(gòu)建大量回翻（back-translation）數(shù)據(jù)集對編碼器進(jìn)行預(yù)訓(xùn)練（pre-training），或直接將回翻任務(wù)納入多任務(wù)學(xué)習(xí)[43]體系，進(jìn)一步提升摘要模型的語言學(xué)習(xí)能力，從而生成質(zhì)量更高的摘要。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放