亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于回歸的抽取式摘要模型

2019-05-16 01:40:02趙懷鵬車萬翔

智能計算機與應(yīng)用 2019年2期

趙懷鵬，車萬翔，劉挺

（哈爾濱工業(yè)大學計算機科學與技術(shù)學院，哈爾濱150001）

0 引言

隨著互聯(lián)網(wǎng)的迅猛發(fā)展，信息量正以指數(shù)級別在積累和增長。而摘要則能以精煉的文字幫助人們在海量數(shù)據(jù)中快速獲取自己需要的信息。但鑒于目前信息量潮涌般的生成態(tài)勢，故而亟需研發(fā)一套自動摘要系統(tǒng)來為文本自動總結(jié)重要信息，從而快速獲取想要的信息。

摘要算法大致可以分為2個類別：抽取式摘要和生成式摘要。近年來隨著深度學習的日趨成熟，尤其是隨著 sequence to sequence［1］的提出，生成式摘要方面涌現(xiàn)出數(shù)目可觀的研究成果。而抽取式摘要卻因其簡單，低成本，能夠生成邏輯連貫的摘要等優(yōu)勢，仍然具有重要的研究價值。本課題的目的即旨在設(shè)計構(gòu)造一套抽取式摘要系統(tǒng)。

研究可知，傳統(tǒng)的方法大多是利用無監(jiān)督學習來得到文本的摘要。代表性的研究有：向量空間模型（the vector-space methods）［2-3］、基于圖的模型（the graph-based methods）［4-5］、組合優(yōu)化方法（the combinatorial optimization methods）［6-7］。這些方法依賴大量手工設(shè)計的特征來建模句子或篇章，例如位置信息，TF-IDF等。

近些年，神經(jīng)網(wǎng)絡(luò)吸引了學界的高度關(guān)注，而Hinton等人［8］發(fā)表了優(yōu)化深層網(wǎng)絡(luò)的方法后，隨卻就陸續(xù)見到了許多基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要工作。這些工作均是將抽取式摘要任務(wù)看作序列標注任務(wù)。分類的類別有兩類：0代表不是摘要，1代表是摘要。具體來說，Cheng等人［9］提出了基于sequence to sequence框架來進行句子分類。Singh等人［10］對篇章表示層進行了優(yōu)化。同時，基于分類的方法也呈現(xiàn)出一定的弊端與缺陷。Nallapati等人［11］就提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks）的分類模型。首先，在訓練過程中，將該任務(wù)當成序列標注來建模，但在測試的時候是根據(jù)分類概率大小來選擇最優(yōu)的幾個句子。這就導致了訓練和測試存在不一致性的問題。其次，標注為1的句子間也不能區(qū)分各自的重要程度。綜合前文分析可知，本文則有針對性地研發(fā)提出了基于神經(jīng)網(wǎng)絡(luò)的回歸模型來解決上述問題。

1 基于回歸的抽取式摘要模型

1.1 分類模型存在問題及分析

最近幾年展開了基于序列標注的神經(jīng)網(wǎng)絡(luò)來建模抽取式摘要的研究。這種利用交叉熵來優(yōu)化與標準答案的最大似然方式并沒有在訓練過程中考慮排序句子。摘要任務(wù)的本質(zhì)是對句子進行排序，然后選擇排序靠前的幾個句子?；诜诸惖哪Ｐ驮谟柧毮繕酥袇s忽略了這一點。而且，摘要的分類數(shù)據(jù)集常常是利用人工摘要通過一定規(guī)則得到句子的分類標簽。這樣就會導致正例的個數(shù)過多，模型容易過擬合，而且僅是利用模型也無法區(qū)分相同標簽的不同句子間的重要程度。

1.2 回歸模型概述

給定一篇文章D，其中包含句子序列{x1，x2，…，xn｝。抽取式摘要系統(tǒng)的目的就是要從D中選擇m個句子組成摘要S（其中m＜n）。對于每個句子si∈D，研究對其預(yù)測一個分數(shù)scorei。在訓練時通過回歸損失函數(shù)來優(yōu)化網(wǎng)絡(luò)。在測試時，對于每個句子si都會預(yù)測一個分數(shù)，即：

此后，將選出scorei最大的m個句子作為摘要。

基于回歸的抽取式摘要模型的過程結(jié)構(gòu)設(shè)計如圖1所示?；诨貧w的抽取式摘要模型一般通過一定的規(guī)則來給每個句子打分。例如Ren等人［12］就利用當前句子與人工摘要的ROUGE值以及句子間的ROUGE值來為每個句子打分。在訓練的過程中，該模型通過計算當前句子與篇章表示的相關(guān)程度和句子間的相關(guān)程度來為每個句子評判打分，通過網(wǎng)絡(luò)訓練讓模型分數(shù)接近正確的分數(shù)。測試時，會給每個句子進行評分，然后選擇分數(shù)最大的作為最終求得的摘要?；诨貧w模型的優(yōu)勢是分數(shù)能夠更加精確刻畫句子的重要程度，并以此作為依據(jù)來進行句子間的排序。另外，在構(gòu)造分數(shù)的時候就考慮到了最終的評價指標ROUGE［13］，因此會更加合理。

圖1 回歸模型結(jié)構(gòu)圖Fig.1 The structure of regression model

1.3 基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要模型

本文中的句子和篇章的表示層利用了Yang等人［14］提出的 Hierarchical attention networks。如圖2所示，該結(jié)構(gòu)分為3層：輸入層、句子表示層和篇章表示層。該模型的設(shè)計初衷是用于篇章分類（document classification），而本次研究則將其用于抽取式摘要系統(tǒng)的表示層。

圖2 層次化注意力網(wǎng)絡(luò)Fig.2 Hierarchical attention networks

本次研究的輸入層采用了100維的詞向量，而選擇了訓練詞向量的工具是word2vec［15］，過程中訓練詞向量用到的訓練數(shù)據(jù)是 CNN／DailyMail［16］數(shù)據(jù)集里面所有的文本。繼而，文中設(shè)置的最小詞頻閾值為8，這樣就可得到154 K的詞匯。Skip窗口大小設(shè)置為5，hierarchical softmax的層數(shù)也是1。

同時，對于句子表示層和篇章表示層，研究采用了Bi-LSTM。LSTM中包含3個門：輸入門（input gate）、輸出門（output gate）和遺忘門（forget gate），如圖3所示。

在得到LSTM的隱層輸出之后，研究利用Attention［17］機制得到每個詞或者句子的權(quán)重。設(shè)計時，計算Attention的向量是隨機初始化，并通過網(wǎng)絡(luò)學習進行更新。以篇章表示層為例，假設(shè)ht為第t個句子的表示，Us是計算Attention的向量。那么兩者分數(shù)計算方式可表述如下：

其中，d就是研究中最終的篇章表示，ht就是求得的句子表示。

圖3 LSTM Cell結(jié)構(gòu)圖Fig.3 The structure of LSTM Cell

在此基礎(chǔ)上，研究推得的最終回歸模型的打分函數(shù)將可寫作如下形式：

接下來，通過計算當前句子si與人工摘要Sref的ROUGE-2F1值就可得到標準分數(shù)，其數(shù)學公式可表示為：

在得到了篇章表示后，就可以定義損失函數(shù)如式（7）所示：

2 實驗結(jié)果與分析

2.1 基本設(shè)置

詞向量維度為100維，句子表示層和篇章表示層Bi-LSTM的維度為200維。訓練采用的優(yōu)化器為 Adam，初始學習率為 0.001。 Batch size為 20，隨機種子設(shè)為1，訓練迭代了10輪。

研究對每篇文章進行了預(yù)處理，去除了文章日期，作者信息等。同時對所有單詞做了小寫化處理。為了降低時間和計算資源開銷，同時還設(shè)置每篇文章最多100個句子，每個句子最多50個詞，如果超過就進行截斷。而在研究句子級別表示層時，選取一個batch中所有篇章詞數(shù)最多的句子（超過50的按照50計算）作為padding的基準，詞數(shù)未達此標準的句子增補若干個100維的0向量。在篇章表示層中，選取一個batch中篇章句子數(shù)最多的篇章（超過100的按照100計算）作為padding基準，句子數(shù)不夠的予以補0向量處理。

2.2 數(shù)據(jù)集

實驗用到的數(shù)據(jù)集是CNN／Daily Mail數(shù)據(jù)集。數(shù)據(jù)的內(nèi)容是CNN和Daily Mail發(fā)布的新聞數(shù)據(jù)，每篇文章包含標題名稱、正文和人工摘要三個部分，樣本示例見表1。該數(shù)據(jù)集最初是由Hermann用于完成閱讀理解任務(wù)。后來Cheng等人［9］將其作為抽取式摘要的數(shù)據(jù)集。由于數(shù)據(jù)集的規(guī)模較大，在近段時間內(nèi)已被廣泛應(yīng)用到文本摘要任務(wù)中。數(shù)據(jù)集的規(guī)模統(tǒng)計參見表2。

表1 數(shù)據(jù)集樣本示例Tab.1 Sample of the dataset

表2 數(shù)據(jù)集規(guī)模統(tǒng)計Tab.2 The statistics of dataset

實驗中，重點選用了Daily Mail數(shù)據(jù)集，因為近年來的大部分工作都在Daily Mail數(shù)據(jù)集上提交了結(jié)果，因而有利于后續(xù)的實驗結(jié)果對比。Daily Mail數(shù)據(jù)集中每篇文章的平均句子數(shù)為25.6，人工摘要的平均長度在3～4句的范圍內(nèi)。

2.3 評價指標

早期，傳統(tǒng)的摘要評價方式一般都包含人工的評分函數(shù)，包括語法、可讀性、內(nèi)容、一致性等。這些簡單的人工評價規(guī)則能夠較好反映摘要的質(zhì)量，但是需要消耗大量的人力去進行評估。Lin［13］提出ROUGE（Recall-Oriented Understudy for Gisting Evaluation）用來評價摘要的質(zhì)量，并和人工評價有著很強的一致性，目前即將其作為一種常用的摘要評價指標。分析可知，常用的評價指標有ROUGE-1、ROUGE-2和ROUGE-L。前兩者分別計算了uni-gram和bi-gram的覆蓋度，表示了涵蓋的信息量，后者計算了最長公共子序列（longest common subsequence）的覆蓋度，描述了生成摘要的流暢程度。ROUGE-N和ROUGE-L可由如下公式計算得出：

2.4 實驗結(jié)果

本次研究中的baseline模型是Lead-3，且只取文章中前3句話作為摘要。另外，研究中還對比了文獻［9］和文獻［11］中的仿真結(jié)果。這里，即研究給出了不同長度限制下的實驗結(jié)果詳見表3、表4。

表3 DailyMail測試集75 bytes下ROUGE RecallTab.3 75 bytes ROUGE Recall of DailyMail test set

表4 DailyMail測試集275 bytes下ROUGE RecallTab.4 275 bytes ROUGE Recall of DailyMail test set

由表3、表4的實驗結(jié)果來看，本文的模型在生成短摘要時，效果上要明顯優(yōu)于其它的抽取式摘要模型。在生成長摘要時，效果也能和SOTA相當。

3 結(jié)束語

本文分析了利用分類來做抽取式摘要的問題，并設(shè)計提出了一個基于神經(jīng)網(wǎng)絡(luò)的回歸模型。結(jié)果表明，本文研發(fā)的模型不依賴任何手工設(shè)計的特征。而且，在DailyMail數(shù)據(jù)集上，研究提出的模型在不同長度限制下都取得了不錯的效果。