基于細(xì)粒度可解釋矩陣的摘要生成模型

2021-02-02 05:52:58王浩男高揚(yáng)馮俊蘭胡珉王惠欣柏宇

北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年1期

王浩男高揚(yáng),3,? 馮俊蘭胡珉王惠欣柏宇

王浩男1高揚(yáng)1,3,?馮俊蘭2胡珉2王惠欣2柏宇1

1.北京理工大學(xué)計(jì)算機(jī)學(xué)院, 北京 100081; 2.中國(guó)移動(dòng)通信研究院, 北京 100032; 3.北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心, 北京 100081; ?通信作者, E-mail: gyang@bit.edu.cn

針對(duì)摘要模型中總結(jié)并解釋長(zhǎng)篇上下文信息存在的困難, 提出一種基于細(xì)粒度可解釋矩陣, 先抽取再生成的摘要模型(fine-grained interpretable matrix, FGIM), 提升長(zhǎng)文本對(duì)顯著度、更新性和相關(guān)度的可解釋抽取能力, 引導(dǎo)系統(tǒng)自動(dòng)生成摘要。該模型通過(guò)一個(gè)句對(duì)判別(pair-wise)抽取器對(duì)文章內(nèi)容進(jìn)行壓縮, 捕獲文章中心度高的句子, 將抽取后的文本與生成器相結(jié)合, 實(shí)現(xiàn)摘要生成。在生成端通過(guò)可解釋的掩碼矩陣, 控制生成摘要的內(nèi)容屬性, 在編碼器端分別使用多層 Transformer 和預(yù)訓(xùn)練語(yǔ)言模型 BERT 來(lái)驗(yàn)證其適用性。在標(biāo)準(zhǔn)文本摘要數(shù)據(jù)集(CNN/DailyMail 和 NYT50)上的實(shí)驗(yàn)表明, 所提模型的 ROUGE 指標(biāo)和人工評(píng)估結(jié)果均優(yōu)于當(dāng)前最好的基準(zhǔn)模型。實(shí)驗(yàn)中還構(gòu)建兩個(gè)測(cè)試數(shù)據(jù)集來(lái)驗(yàn)證摘要的更新度和相關(guān)度, 結(jié)果表明所提模型在可控生成方面取得相應(yīng)的提升。

生成式摘要; 可解釋抽取; 中心度; 掩碼矩陣; 可控生成

近年來(lái), 神經(jīng)網(wǎng)絡(luò)在抽取式摘要和生成式摘要任務(wù)中取得顯著的成功。抽取式摘要是從原文直接選擇可讀性好并與文章相關(guān)的句子作為整篇文章的摘要, 生成式摘要[1]是借助機(jī)器翻譯衍生出來(lái)的編碼-解碼框架生成新的摘要序列。盡管這些方法都取得較大的成功, 但長(zhǎng)文本的語(yǔ)義建模以及細(xì)粒度信息的獲取仍是文本摘要領(lǐng)域的巨大挑戰(zhàn)。

目前, 有兩種常用方法來(lái)解決上述問(wèn)題。1)基于預(yù)訓(xùn)練的語(yǔ)言模型(如 ELMO[2], OpenAI GPT[3]和BERT[4]), 在表示文本上下文向量的學(xué)習(xí)過(guò)程中非常出色, 并廣泛應(yīng)用于多個(gè)自然語(yǔ)言相關(guān)的子任務(wù)中(如問(wèn)答系統(tǒng)[5]和摘要系統(tǒng)[6-7]); 2)結(jié)合抽取器與生成器構(gòu)成混合摘要生成框架, 首先通過(guò)抽取器來(lái)選擇顯著性高的句子, 然后利用這些句子, 通過(guò)生成器進(jìn)一步生成最終的摘要, 稱為混合摘要模型?；旌险Ｐ屠贸槿∑鬟M(jìn)一步細(xì)化信息量與摘要相關(guān)內(nèi)容抽取的效果, 同時(shí)利用生成器將其匯總為符合語(yǔ)言表達(dá)形式的最終摘要。在訓(xùn)練抽取器時(shí), 簡(jiǎn)單的隱層表示不能完整地表達(dá)句子與候選摘要之間的關(guān)系, 需要深入地探索復(fù)雜的句間關(guān)系(即識(shí)別語(yǔ)義, 判斷句子是否與文檔相關(guān)以及對(duì)摘要的貢獻(xiàn)程度)。在做序列生成任務(wù)時(shí), 指針-生成模型(pointer-generator)應(yīng)用比較廣泛, 然而, 長(zhǎng)文檔的信息具有多樣性, 且重要內(nèi)容具有離散的特點(diǎn), 單一的指針生成模型不能有效地捕捉到文章離散多樣性的特點(diǎn), 導(dǎo)致生成的摘要局限于文章的某一部分而非整體。按照人類閱讀習(xí)慣, 在對(duì)一篇文章進(jìn)行總結(jié)時(shí), 往往先根據(jù)文章的內(nèi)容(如顯著度、相關(guān)度和更新度)進(jìn)行總結(jié), 最后基于細(xì)粒度信息對(duì)整篇文章進(jìn)行總結(jié)。因此, 對(duì)于一個(gè)可解釋的文本生成模型, 能夠把文章中包含的可解釋的細(xì)粒度信息有效地提煉出來(lái), 會(huì)使模型更加符合人類摘要的方式, 同時(shí)也能保證系統(tǒng)生成的摘要質(zhì)量更高。模型具備細(xì)粒度信息后, 會(huì)引導(dǎo)模型在具備該信息的方向上對(duì)文章內(nèi)容進(jìn)行總結(jié), 比如更新度高的細(xì)粒度信息會(huì)使系統(tǒng)最終生成的摘要具備多樣性, 類似可控旋鈕。因此, 摘要生成的可控性是文本生成領(lǐng)域內(nèi)又一重要需求。

針對(duì)上述研究現(xiàn)狀, 學(xué)者們提出很多方法和模型(如序列生成模型[8]), 但僅依靠序列生成模型, 難以建模長(zhǎng)文檔的上下文依賴關(guān)系。主要原因是現(xiàn)有模型很難僅通過(guò)向量表示準(zhǔn)確地理解長(zhǎng)文檔的語(yǔ)義信息, 加上基于語(yǔ)言模型的生成網(wǎng)絡(luò)是一個(gè)“黑盒”, 不能明確辨別所選內(nèi)容的細(xì)粒度信息。

指針-生成模型將注意力作為指針, 以上下文作為條件, 控制選詞或選句的概率。在信息選擇方法中, 詞級(jí)別的包括 Zhou 等[9]用軟控門對(duì)原文的冗余信息進(jìn)行過(guò)濾, Hsu 等[10]通過(guò)句子的重要程度更新詞級(jí)別的注意力, Gehrmann 等[11]利用預(yù)訓(xùn)練的方法構(gòu)建單詞選擇器來(lái)約束從源文檔中獲取的詞級(jí)別注意力; 句級(jí)別的包括 Tan 等[12]采用基于圖的注意力機(jī)制增強(qiáng)文章顯著性內(nèi)容對(duì)生成摘要的影響, Li 等[13]通過(guò)信息選擇層實(shí)現(xiàn)對(duì)文章冗余信息的過(guò)濾, You 等[14]通過(guò)引入高斯聚焦偏差增強(qiáng)信息選擇的能力進(jìn)一步對(duì)文章顯著信息建模。

我們的模型繼承指針生成模型用于選擇和生成的優(yōu)點(diǎn), 并進(jìn)一步研究可解釋的選擇文章中的細(xì)粒度信息對(duì)摘要生成的影響。本文提出基于細(xì)粒度可解釋矩陣(Fine-Grained Interpre-table Matrix, FGIM)的模型來(lái)建模豐富的句間關(guān)系, 通過(guò)該交互矩陣對(duì)文章中的句子進(jìn)行決策(是否作為中心句), 通過(guò)衡量句子的豐富度和句對(duì)間的相似性來(lái)構(gòu)建句子級(jí)別的抽取器, 對(duì)文章中的句子打分。依據(jù)句對(duì)的復(fù)雜關(guān)系, 獲取中心度高的句子, 影響最終摘要的生成。抽取器與生成器通過(guò)端到端的方式進(jìn)行訓(xùn)練和預(yù)測(cè), 同時(shí)利用不同的句子特征(相關(guān)度和更新度)構(gòu)建不同的可解釋掩碼矩陣來(lái)作用到交互矩陣上, 構(gòu)造可解釋旋鈕。主要在 CNN/DailyMail 和 NYT50兩個(gè)數(shù)據(jù)集上對(duì)模型進(jìn)行驗(yàn)證, 同時(shí)采用人工評(píng)估和機(jī)器評(píng)估(ROUGE)的方式輔助驗(yàn)證。

1 基于 Transformer 的編碼-解碼框架

編碼-解碼框架由編碼器和解碼器構(gòu)成。解碼器具備注意力機(jī)制, 幫助模型對(duì)輸入的每個(gè)部分賦予不同的權(quán)重, 抽取出更關(guān)鍵、更重要的上下文信息。設(shè)輸入序列={1, …,x, …,x}是一個(gè)包含個(gè)詞匯的序列,為輸入序列索引。輸出序列(摘要)定義為={1, …,y, …,y}, 包含個(gè)詞匯。

1.1 編碼器

模型的基本架構(gòu)基于 Transformer, 由個(gè)相同的 Transformer 層堆疊構(gòu)成, 每層網(wǎng)絡(luò)含兩個(gè)子層:

式(1)代表第一個(gè)子層(自注意(Self Attention)層), 式(2)代表前饋?zhàn)訉?。LAYERNORM 是歸一化層, 框架中多頭注意力(multihead attention)的操作為

為第層在第個(gè)頭的自注意操作,為可訓(xùn)練的參數(shù)。編碼器的輸出定義為, 在基于 Transfor-mer 的框架中同時(shí)采用預(yù)訓(xùn)練的BERT編碼器。

1.2 解碼器

對(duì)基于 Transformer 和基于 BERT 的實(shí)驗(yàn)設(shè)置, 均采用帶有注意力機(jī)制的解碼器, 從而可以考慮輸入文檔的上下文信息, 解碼器由層 Transformer組成。除與編碼器相似的兩個(gè)子層外, 解碼器還增加第 3 個(gè)子層, 對(duì)編碼器的輸出以及上一個(gè)時(shí)刻解碼器的輸出進(jìn)行自注意的操作。在每個(gè)原位置, 計(jì)算解碼器的位置矢量S和編碼器輸出之間的注意力分布。通過(guò)式(4), 獲取解碼器在時(shí)刻輸入的注意力分布:

解碼器通過(guò)式(6)獲取時(shí)刻詞表中單詞的分布, 解碼當(dāng)前時(shí)刻的單詞:

2 FGIM模型

圖 1 給出 FGIM 模型的整體框架, 該框架結(jié)合抽取器與生成器的特點(diǎn), 實(shí)現(xiàn)端到端的混合摘要模型。模型第一部分是基于句對(duì)方法的抽取器, 通過(guò)交互矩陣, 對(duì)文檔中的句子進(jìn)行基于文檔中心度的評(píng)分; 第二部分是摘要生成, 借助指針生成網(wǎng)絡(luò)模型的注意力指針, 利用混合連接部分, 結(jié)合抽取器獲得的中心度信息, 影響最終的詞表概率分布; 第三部分利用掩碼矩陣, 實(shí)現(xiàn)對(duì)抽取器中的交互矩陣的控制, 獲得基于不同屬性的句子中心度, 影響最終摘要的生成, 實(shí)現(xiàn)可控生成的目標(biāo)。

2.1 抽取器

2.1.1 句子交互矩陣(interaction matrix)

由于文檔中的句子均存在復(fù)雜的關(guān)系(如內(nèi)容豐富程度、更新度及與文檔的相關(guān)度等), 因此通過(guò)構(gòu)建句子交互矩陣(為文檔中句子的數(shù)量)來(lái)獲取更準(zhǔn)確且具備可解釋性的句子中心度。可通過(guò)計(jì)算句對(duì)與的交互關(guān)系來(lái)構(gòu)建:

2.1.2 中心度計(jì)算

交互矩陣提供文檔中句對(duì)之間相互影響程度, 可以協(xié)助抽取器獲取文檔中句子的整體中心度。從句子級(jí)別提煉文檔的中心度比從文檔級(jí)別提煉的信息損失少, 同時(shí)更具備細(xì)粒度屬性。目前計(jì)算句子中心度均采用無(wú)監(jiān)督進(jìn)行摘要總結(jié), 如基于圖的TextRank[15]和 LexRank 等模型。在 FGIM 模型中,

圖1 FGIM模型結(jié)構(gòu)

可以通過(guò)監(jiān)督學(xué)習(xí)的方法, 利用可學(xué)習(xí)的參數(shù), 將交互矩陣轉(zhuǎn)化為基于句子分布的中心度向量=[1, …,c]:

2.1.3 抽取器訓(xùn)練過(guò)程

抽取器的訓(xùn)練通常被構(gòu)建為一個(gè)分類模型的訓(xùn)練過(guò)程, 將句子編碼為隱層表示向量, 通過(guò)分類層預(yù)測(cè)這些表示是否為摘要句。與抽取的訓(xùn)練過(guò)程類似, 也采用單句判別(point-wise)的學(xué)習(xí)目標(biāo), 但是, 單句判別對(duì)交互矩陣的參數(shù)學(xué)習(xí)沒(méi)有明顯的作用。因此, 為了更好地反映句子之間的相互作用, 通過(guò)新的標(biāo)簽方法, 使用基于句對(duì)方法的目標(biāo)函數(shù)來(lái)訓(xùn)練抽取器的參數(shù), 更好地體現(xiàn)句子間的交互關(guān)系。句對(duì)[,]的標(biāo)簽設(shè)置見表 1。在監(jiān)督學(xué)習(xí)框架下, 基于句對(duì)方法的目標(biāo)函數(shù)如下:

為句子的個(gè)數(shù),r為句子S和句子S的共現(xiàn)概率:

其中,c和c分別對(duì)應(yīng)句對(duì){,}的中心度得分。

2.2 生成器

在 FGIM 模型架構(gòu)中, 生成器的實(shí)現(xiàn)主要借助指針生成模型?；A(chǔ)的指針生成網(wǎng)絡(luò)包含兩個(gè)子模塊: 指針網(wǎng)絡(luò)和生成網(wǎng)絡(luò)。這兩個(gè)子模塊共同確定最終生成的摘要中每個(gè)單詞的概率?；A(chǔ)的指針生成網(wǎng)絡(luò)采用經(jīng)典的基于 Transformer 的編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu), 在此基礎(chǔ)上, FGIM 集成句子中心度更新指針模塊, 將抽取器獲取的句子中心度信息更新到生成器中, 從而影響最終的摘要生成過(guò)程。

2.2.1句子中心度更新模塊

指針網(wǎng)絡(luò)使用注意力機(jī)制作為指針, 選擇輸入語(yǔ)料中合適的單詞作為輸出。在 FGIM 模型中, 指針生成網(wǎng)絡(luò)與抽取器中獲取的句子中心度信息結(jié)合, 可以更好地協(xié)助指針生成網(wǎng)絡(luò), 提取文章的突出信息(原始指針生成網(wǎng)絡(luò)不考慮句子中心度信息)。為了更好地影響序列生成過(guò)程, 句子的中心度信息需要分散到單詞級(jí)別上, 影響生成器逐詞的生成過(guò)程, 因此, 本文利用混合連接的方式, 結(jié)合抽取器和生成器, 實(shí)現(xiàn)模塊的無(wú)縫連接。

表1 Prair-wise標(biāo)簽

2.2.2 混合連接(hybrid connector)

利用句子中心度的信息, 更新指針生成網(wǎng)絡(luò)中單詞注意分布, 可以使摘要的生成過(guò)程可以向抽取器獲取的重點(diǎn)關(guān)注的內(nèi)容靠攏, 從而在單詞級(jí)別上更新注意力分布:

生成概率gen的計(jì)算公式為

2.3 可控性摘要生成

交互矩陣可以捕獲文章中的句間關(guān)系, 因此文章整體的中心度能夠反映可解釋摘要的更新度和相關(guān)度等屬性。為了探索生成摘要的可解釋性, 模型采用可控制的閾值方法, 對(duì)式(7)中的更新度和相關(guān)度進(jìn)行調(diào)節(jié), 構(gòu)造一個(gè)包含{0,1}的掩碼矩陣, 對(duì)交互矩陣進(jìn)行更新, 從而使抽取器獲取的中心度信息向更新度或相關(guān)度靠攏:

其中, ⊙為元素對(duì)應(yīng)相乘, val 的數(shù)值對(duì)應(yīng)式(7)中的(更新度)或(相關(guān)度)。

利用基于不同屬性的 val 值, 構(gòu)建掩碼矩陣(更新度)或(相關(guān)度), 通過(guò)式(15)達(dá)到對(duì)矩陣可解釋控制的目的, 使抽取器獲取的文章中心度信息向不同的屬性偏移, 從而影響單詞注意力分布, 最終影響摘要的生成。

2.5 生成器訓(xùn)練過(guò)程

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

FGIM 的模型評(píng)估使用兩個(gè)基準(zhǔn)數(shù)據(jù)集, CNN/Dailymail[16]和 New York Annotated Corpus (NYT)[17]。CNN/DailyMail 數(shù)據(jù)集包含新聞文章, 并由人工構(gòu)建參考摘要, 按照 90266/1220/1093 和 196961/12148/ 10397 的規(guī)模, 將數(shù)據(jù)集劃分為訓(xùn)練集/驗(yàn)證集/測(cè)試集。參照文獻(xiàn)[1]進(jìn)行數(shù)據(jù)預(yù)處理。NYT 數(shù)據(jù)集包含 110540 篇英文文章和人工摘要, 訓(xùn)練集和測(cè)試集分別含 100834 和 9706 個(gè)示列。在上述數(shù)據(jù)的預(yù)處理過(guò)程中, 對(duì)測(cè)試集進(jìn)行額外的預(yù)處理, 刪除少于50 個(gè)單詞的人工摘要, 過(guò)濾后的測(cè)試集稱為 NYT50, 包含 3421 個(gè)示例。兩個(gè)數(shù)據(jù)集的分詞分句均采用Stanford Core NLP 分詞工具。使用標(biāo)準(zhǔn)的 ROUGE作為評(píng)價(jià)指標(biāo), 通過(guò)計(jì)算模型生成的候選摘要與參考摘要之間的重疊詞匯來(lái)衡量模型生成摘要的質(zhì)量, 將 R-1, R-2 和 R-L 值作為評(píng)估指標(biāo)。

3.2 基準(zhǔn)模型對(duì)比

為了比較 FGIM 模型的性能, 選取在生成摘要中表現(xiàn)較好的模型作為對(duì)比: 指針生成網(wǎng)絡(luò), 基于雙向 GRU 的序列到序列的模型框架; PG+Coverage, 在指針生成網(wǎng)絡(luò)的基礎(chǔ)上增加 Coverage 覆蓋機(jī)制; Select-Reinforce[18], 利用強(qiáng)化學(xué)習(xí)方法, 以 ROUGE評(píng)價(jià)指標(biāo)為獎(jiǎng)勵(lì)函數(shù), 對(duì)文章中的句子進(jìn)行抽取; Inconsistency-Loss,構(gòu)建基于單詞與句子注意力機(jī)制的損失函數(shù); Bottom-up, 使用編碼器的作為內(nèi)容選擇器, 約束生成摘要過(guò)程中用到的單詞注意; ExplictSelection, 在原有的序列到序列的模型框架上進(jìn)行擴(kuò)展, 加入信息選擇層, 對(duì)冗余信息進(jìn)行過(guò)濾; SENECA, 抽取一些具有實(shí)體的句子, 然后連接到基于強(qiáng)化學(xué)習(xí)的摘要系統(tǒng)進(jìn)行改寫; BERTSUMabs, 基于 BERT 的抽象摘要。

3.3 參數(shù)設(shè)置

FGIM-Transformer 是基于 Transformer 的模型, 包含 6 層 Transformer, 隱層為 512, 前饋層維度為1024, 采用多頭注意力機(jī)制, 包含 8 個(gè)頭。在線性層前, dropout 的概率設(shè)為 0.2?；?Transformer 的指針生成網(wǎng)絡(luò)采用的學(xué)習(xí)率設(shè)為 0.15, 編碼器的批處理大小設(shè)為 32, 解碼器束搜索的大小設(shè)為 4。模型的輸入將原文檔進(jìn)行截取, CNN/DailyMail 取文檔中前 400 個(gè)單詞的長(zhǎng)度作為輸入, NYT50 取文檔中前 800 個(gè)單詞長(zhǎng)度作為輸入, 在訓(xùn)練集和驗(yàn)證集上的目標(biāo)摘要長(zhǎng)度取為 100 個(gè)單詞, 在測(cè)試集上的目標(biāo)摘要長(zhǎng)度取 120 個(gè)單詞。采用早停法和長(zhǎng)度懲罰的方法進(jìn)行模型訓(xùn)練。

FGIM-BERT 是基于 BERT 的模型, 在文章中每個(gè)句子的開頭插入[CLS]標(biāo)記, 使用間隔符號(hào)[EA]和[EB]區(qū)分文檔中的多個(gè)句子, 通過(guò)[CLS]學(xué)習(xí)句子的嵌入式表示。在 BERT 模型中, 位置嵌入表示的大小為 512, 采用“bert-base-uncased”的 BERT 預(yù)訓(xùn)練模型版本, 輸入文檔和目標(biāo)序列均采用 Sub-words 機(jī)制標(biāo)記。Transformer 層的隱層設(shè)為 768, 所有的前饋層設(shè)為 2048。對(duì)于抽取器, 使用一層Transformer獲取句子的表示(式(7)中的h), 該層Transformer 包含 8 個(gè)頭, dropout 的概率為 0.1。采用 Trigram block 的方法防止生成重復(fù)序列。在CNN/DailyMail 和 NYT50 兩個(gè)數(shù)據(jù)集中分別采用15k 和 100k 的迭代次數(shù), 全連接層的 dropout 概率設(shè)為 0.2。解碼器包含 6 個(gè) Transformer 層。對(duì)基于BERT 的編碼器和基于 Transformer 的解碼器, 分別采用 0.002 和 0.2 的學(xué)習(xí)率, 解碼過(guò)程與 FGIM-Transformer 的設(shè)置相同, 在兩塊 2080Ti GPU 上進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程中抽取器占用 24h, 生成器占用48h, 混合的FGIM 模型占用 24h, 模型總的參數(shù)量為 1.8 億, 使用交叉驗(yàn)證的方法選擇超參數(shù)。

3.4 性能分析

表 2 為模型在 CNN/DailyMail 和 NYT50 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。可以看出, FGIM-BERT 模型的所有指標(biāo)都超過(guò)目前最好的模型。在基準(zhǔn)模型中, 均為通過(guò)先抽取再生成的框架進(jìn)行摘要生成, 本文的FGIM-BERT 模型在相同框架的基礎(chǔ)上, 比目前最好的模型(BERTSumAbs)在兩個(gè)數(shù)據(jù)集上均提高1%~6.55%。尤其在 NYT50 數(shù)據(jù)集上, FGIM-BERT模型在 R-2 指標(biāo)上增幅最大, 說(shuō)明在生成模型中引入基于文章的可解釋性細(xì)粒度信息是有效的。除使用 BERT 的基準(zhǔn)模型外, FGIM-Transfor-mer 的效果普遍略高于現(xiàn)有最優(yōu)模型, 說(shuō)明 FGIM 框架具有普遍有效性。Transformer 比 BERT 表現(xiàn)差, 也說(shuō)明通過(guò)預(yù)訓(xùn)練模型可以增強(qiáng)模型文本表示的能力,因此更適用于序列生成的任務(wù)。

表2 CNN/DailyMail 和 NYT50 數(shù)據(jù)集的 ROUGE評(píng)價(jià)結(jié)果(%)

說(shuō)明: “-”表示基準(zhǔn)模型沒(méi)有使用對(duì)應(yīng)數(shù)據(jù)集測(cè)試; 粗體數(shù)字表示最優(yōu)結(jié)果。

3.5 可控性能分析

3.5.1 數(shù)據(jù)構(gòu)建

表3 FGIM-BERT可控性能比較(%)

說(shuō)明: ↑和↓表示在無(wú)控制條件下 ROUGE 分?jǐn)?shù)提升或下降。

從體現(xiàn)模型可控性的示例可以看出, 加入相關(guān)性控制后(圖 2(a)), 與原始 FGIM 模型相比, FGIM模型能夠生成與參考摘要中相關(guān)的內(nèi)容(灰色), 同時(shí)仍能保留原始 FGIM 生成的內(nèi)容(下劃線); 加入更新度控制后(圖 2(b)), 模型能夠生成與“Talley’s longevity”(下劃線)不一樣主題的摘要句(灰色), 涵蓋原文檔中新的主題, 對(duì)文章的全局信息有更好的覆蓋更新。

3.5.2 人工評(píng)價(jià)

為驗(yàn)證更新度和相關(guān)度可控實(shí)驗(yàn)的準(zhǔn)確性, 本文還采用問(wèn)答和標(biāo)準(zhǔn)排序的方法進(jìn)行人工評(píng)估。

問(wèn)答方法[20]: 按照問(wèn)答的模式, 對(duì)系統(tǒng)生成摘要進(jìn)行評(píng)估。首先基于參考摘要初始一組問(wèn)題, 參與者閱讀 FGIM 系統(tǒng)和其他基線模型生成的摘要, 然后按問(wèn)答的模式對(duì)初始問(wèn)題作答。根據(jù)標(biāo)準(zhǔn)答案進(jìn)行打分(0~5 分), 與標(biāo)準(zhǔn)答案越接近, 得分越高, 說(shuō)明模型生成摘要的能力越好。

標(biāo)準(zhǔn)排序方法: 為參與者提供整個(gè)文檔和針對(duì)該文檔的多個(gè)匿名系統(tǒng)(包含 FGIM)生成的摘要, 根據(jù)特定的標(biāo)準(zhǔn)(信息量、新穎度、相關(guān)度和流暢度等)選擇最好和最差的摘要。計(jì)算各系統(tǒng)摘要被選為最好(Best, 1)和最差(Worst, -1)摘要次數(shù)差值的百分比, 作為每個(gè)系統(tǒng)的得分(-1~1)。

表 4 為基于問(wèn)答和標(biāo)準(zhǔn)排序的人工評(píng)估結(jié)果, 其中 Gold 為數(shù)據(jù)集中給定的參考摘要, 作為不同系統(tǒng)之間相互比較的天花板。可以看出, FGIM-BERT生成的摘要在問(wèn)答方法中具有較高的得分, 是模型效果的上限。針對(duì)相同問(wèn)題, 在所有基準(zhǔn)模型中, FGIM-BERT 模型給出正確答案的比例最大。在標(biāo)準(zhǔn)排序的第一組排名中, 5 個(gè)系統(tǒng)同時(shí)進(jìn)行排名, FGIM-BERT 系統(tǒng)生成摘要的效果更好。第二組排名中選取兩個(gè)基于更新度和相關(guān)度的可控 FGIM 系統(tǒng), 同時(shí)與 Bottom-up 和原始 FGIM-BERT 進(jìn)行比較, 發(fā)現(xiàn)經(jīng)過(guò)更新度控制后, 系統(tǒng)生成的摘要在多樣性指標(biāo)中表現(xiàn)更好, 而經(jīng)過(guò)相關(guān)度控制后, 生成的摘要在與文章的相關(guān)性方面表現(xiàn)更好。

圖2 FGIM模型的實(shí)例生成結(jié)果

表4 基于問(wèn)答和標(biāo)準(zhǔn)排序的人工評(píng)估

說(shuō)明: 信息性、多樣性、相關(guān)性和流暢性為人工評(píng)估的維度。

4 結(jié)論

本文提出一種基于細(xì)粒度可解釋矩陣的模型FGIM, 通過(guò)建立細(xì)粒度的可解釋矩陣抽取重要句子, 引導(dǎo)摘要生成。進(jìn)一步地, 模型利用可解釋屬性(句子更新度和句子與文章的相關(guān)性)來(lái)控制模型生成。為考慮句對(duì)的影響因素, 在訓(xùn)練抽取器時(shí), 提出基于句對(duì)的優(yōu)化目標(biāo)。通過(guò)可解釋的屬性優(yōu)化文章中句子分布, 并與生成器中的指針相結(jié)合。在兩個(gè)通用數(shù)據(jù)集(CNN/DailyMail 和 NYT50)上的實(shí)驗(yàn)結(jié)果表明, 本文提出的模型均取得最優(yōu)的模型效果。為了驗(yàn)證生成摘要所具備的新穎性和相關(guān)性的特點(diǎn), 本文還人工構(gòu)建兩個(gè)測(cè)試集, 通過(guò) ROUGE值和人工評(píng)估的結(jié)果, 可以看到 FGIM 模型在可控生成能力上有顯著的改進(jìn)。

[1] See A, Liu P J, Manning C D. Get to the point: Summarization with pointer-generator networks // Pro-ceedings of the 55th Annual Meeting of the Associa-tion for Computational Linguistics. Vancouver, 2017: 1073-1083

[2] Peters M E, Neumann M, Iyyer M, et al. Deep contex-tualized word representations [EB/OL]. (2018-03-22) [2020-10-10]. https://arxiv.org/pdf/1802.05365.pdf

[3] Radford A, Narasimhan K, Salimans T, et al. Im-proving language understanding by generative pre-training [EB/OL]. (2019-05-24)[2020-10-10]. https: //s3-us-west-2.amazonaws.com/openai-assets/research- covers/language-unsupervised/language_understanding_ paper.pdf

[4] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for lan-uage understanding // Proceedings of NAACL-HLT 2019. Minneapolis, 2019: 4171-4186

[5] Xu Hu, Liu Bing, Shu Lei, et al. BERT post-training for review reading comprehension and aspect-based sentiment analysis // Proceedings of NAACL-HLT 2019. Minneapolis, 2019: 2324-2335

[6] Liu Yang and Lapata M. Text summarization with pretrained encoders // Proceedings of the 2019 Con-ference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, 2019: 3730-3740

[7] Zhang Xingxing, Wei Furu, Zhou Ming. HIBERT: Document level pre-training of hierarchical bidirec-tional transformers for document summarization // Proceedings of the 57th Annual Meeting of the Asso-ciation for Computational Linguistics. Florence, 2019: 5059-5069

[8] Nallapati R, Zhou B, Gulcehre C, et al. Abstractive text summarization using sequence-tosequence RNNs and beyond // Proceedings of the 20th SIGNLL Con-ference on Computational Natural Language Learning. Berlin, 2016: 280-290

[9] Zhou Qingyu, Yang Nan, Wei Furu, et al. Selective encoding for abstractive sentence summarization // Proceedings of the 55th Annual Meeting of the As-sociation for Computational Linguistics. Vancouver, 2017: 1095-1104

[10] Hsu W T, Lin C K, Lee M Y, et al. A unified model for extractive and abstractive summarization using inconsistency loss // Proceedings of the 56th Annual Meeting of the Association for Computational Lin-guistics. Melboume, 2018: 132-141

[11] Gehrmann S, Deng Y, Rush A. Bottom-up abstractive summarization // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Proces-sing. Brussels, 2018: 4098-4109

[12] Tan Jiwei, Wan Xiaojun, Xiao Jianguo. Abstractive document summarization with a graphbased atten-tional neural model // Proceedings of the 55th Annual Meeting of the Association for Computational Lin-guistics. Vancouver, 2017: 1171-1181

[13] Li Wei, Xiao Xinyan, Wang Yuanzhuo, et al. Impro-ving neural abstractive document summarization with explicit information selection modeling // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 1787-1796

[14] You Yongjian, Jia Weijia, Liu Tianyi, et al. Improving abstractive document summarization with salient in-formation modeling // Proceedings of the 57th Annual Meeting of the Association for Computational Lin-guistics. Florence, 2019: 2132-2141

[15] Mihalcea R, Tarau P. Textrank: bringing order into text // Proceedings of the 2004 conference on empi-rical methods in natural language processing. Doha, 2014: 404-411

[16] Hermann K M, Kocisky T, Grefenstette E, et al. Tea-ching machines to read and comprehend // Advances in neural information processing systems. Montreal, 2015: 1693-1701

[17] Sandhaus E. The new york times annotated corpus // Linguistic Data Consortium. Philadelphia, 2008, 6(12): e26752

[18] Chen Y C, Bansal M. Fast abstractive summarization with reinforce-selected sentence rewriting // Procee-dings of the 56th Annual Meeting of the Association for Computational Linguistics. Melboume, 2018: 675- 686

[19] Zheng Hao, Lapata M. Sentence centrality revisited for unsupervised summarization // Proceedings of the 57th Annual Meeting of the Association for Computa-tional Linguistics. Florence, 2019: 6236-6247

[20] Clarke J, Lapata M. Discourse constraints for docu-ment compression // Proceedings of the 56th Annual Meeting of the Association for Computational Lin-guistics. Uppsala, 2010, 36(3): 411-441

Abstractive Summarization Based on Fine-Grained Interpretable Matrix

WANG Haonan1, GAO Yang1,3,?, FENG Junlan2, HU Min2, WANG Huixin2, BAI Yu1

1. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081; 2. China Mobile Research Institute, Beijing 100032; 3. Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications, Beijing 100081; ? Corresponding author, E-mail: gyang@bit.edu.cn

According to the great challenge of summarizing and interpreting the information of a long article in the summary model. A summary model (Fine-Grained Interpretable Matrix, FGIM), which is retracted and then generated, is proposed to improve the interpretability of the long text on the significance, update and relevance, and then guide to automatically generate a summary. The model uses a pair-wise extractor to compress the content of the article, capture the sentence with a high degree of centrality, and uses the compressed text to combine with the generator to achieve the process of generating the summary. At the same time, the interpretable mask matrix can be used to control the direction of digest generation at the generation end. The encoder uses two methods based on Transformer and BERT respectively. This method is better than the best baseline model on the benchmark text summary data set (CNN/DailyMail and NYT50). The experiment further builds two test data sets to verify the update and relevance of the abstract, and the proposed model achieves corresponding improvements in the controllable generation of the data set.

abstractive summarization; interpretable extraction; centrality; mask matrix; controllable

2020-06-08;

2020-08-07

10.13209/j.0479-8023.2020.082

教育部-中國(guó)移動(dòng)科研基金(MCM20170302)資助

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于細(xì)粒度可解釋矩陣的摘要生成模型

1 基于 Transformer 的編碼-解碼框架

1.1 編碼器

1.2 解碼器

2 FGIM模型

2.1 抽取器

2.2 生成器

2.3 可控性摘要生成

2.5 生成器訓(xùn)練過(guò)程

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

3.2 基準(zhǔn)模型對(duì)比

3.3 參數(shù)設(shè)置

3.4 性能分析

3.5 可控性能分析

4 結(jié)論