周偉梟,藍(lán)雯飛
(中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)
文本摘要是自然語(yǔ)言處理(Natural Language Processing,NLP)的重要分支[1],其將源文本壓縮成短文本且包含了源文本中的主要信息。抽取式摘要方法[2]通過(guò)從源文本中抽取句子組成摘要,具體為對(duì)句子重要性打分并按分?jǐn)?shù)排序選取句子[3]。生成式摘要方法[4]通過(guò)重新組織源文本的主要內(nèi)容形成摘要,摘要過(guò)程與人工撰寫(xiě)類似?,F(xiàn)有生成式摘要模型本質(zhì)上都是基于編碼器-解碼器架構(gòu)的單任務(wù)模型,文獻(xiàn)[5]指出此類模型雖然能夠生成流暢的摘要,但在準(zhǔn)確性方面表現(xiàn)較差,甚至可能與源文本的中心思想相悖。
多任務(wù)學(xué)習(xí)(Multi-Task Learning,MTL)共享相關(guān)任務(wù)之間的表征,能使摘要模型更好地概括文本主要內(nèi)容。文獻(xiàn)[6]提出一對(duì)多、多對(duì)一、多對(duì)多三種多任務(wù)學(xué)習(xí)方法。文獻(xiàn)[7]將情感分類定義為特殊類型的摘要任務(wù),將文本以標(biāo)簽方式進(jìn)行概括。受文獻(xiàn)[6]研究工作的啟發(fā),本文根據(jù)文本分類和文本摘要的相關(guān)性,提出一種多任務(wù)學(xué)習(xí)摘要模型。通過(guò)一對(duì)多的形式關(guān)聯(lián)主要任務(wù)和輔助任務(wù),借助文本分類改善摘要模型的生成質(zhì)量,使用K-means 聚類算法構(gòu)建文本分類數(shù)據(jù)集,并利用基于統(tǒng)計(jì)分布的判別法全面評(píng)價(jià)摘要準(zhǔn)確性。
近年來(lái),深度學(xué)習(xí)技術(shù)在文本摘要領(lǐng)域得到廣泛應(yīng)用。文獻(xiàn)[8]提出基于注意力機(jī)制的端到端模型,并將其應(yīng)用于文本摘要任務(wù)。文獻(xiàn)[9]將注意力機(jī)制應(yīng)用于自然語(yǔ)言處理領(lǐng)域。文獻(xiàn)[10]提出指針網(wǎng)絡(luò),將解碼器中固定規(guī)模的詞匯表擴(kuò)展至可變規(guī)模的詞匯表。文獻(xiàn)[11]提出CopyNet 模型,并在文本摘要任務(wù)上驗(yàn)證了CopyNet 模型相較傳統(tǒng)模型具有顯著優(yōu)勢(shì)。摘要任務(wù)與翻譯任務(wù)不同,其數(shù)據(jù)集中參考摘要的長(zhǎng)度遠(yuǎn)短于源文本,導(dǎo)致傳統(tǒng)模型和CopyNet 模型無(wú)法很好地對(duì)源端文本以及參考摘要進(jìn)行對(duì)齊。文獻(xiàn)[12]指出對(duì)齊問(wèn)題導(dǎo)致解碼器容易重復(fù)生成冗余的單詞或句子,針對(duì)此問(wèn)題,該文獻(xiàn)提出在解碼器中引入覆蓋度機(jī)制協(xié)助調(diào)整未來(lái)時(shí)間步的注意力。文獻(xiàn)[13]提出Pointer-Generator(Coverage),緩解了集外詞(Out of Vocabulary,OOV)和重復(fù)生成問(wèn)題。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員通過(guò)多任務(wù)學(xué)習(xí)提高模型生成摘要的準(zhǔn)確性。文獻(xiàn)[14]將問(wèn)題生成作為輔助任務(wù),提出基于多層編碼器-解碼器模型的多任務(wù)學(xué)習(xí)架構(gòu)。文獻(xiàn)[15]指出翻譯任務(wù)與摘要任務(wù)具有較強(qiáng)的相關(guān)性,使用機(jī)器翻譯可提高摘要模型的生成性能。文獻(xiàn)[16]提出基于多任務(wù)學(xué)習(xí)的深層神經(jīng)網(wǎng)絡(luò)框架,通過(guò)同時(shí)學(xué)習(xí)人的注視行為以及文檔中的詞性和句法屬性來(lái)預(yù)測(cè)輸入文檔中表達(dá)的整體情緒。與文獻(xiàn)[14-16]研究工作不同,本文將文本分類作為輔助任務(wù),使得摘要模型能夠?qū)W習(xí)到更抽象的信息。文獻(xiàn)[17]在文獻(xiàn)[13]的基礎(chǔ)上定義了一個(gè)內(nèi)容選擇器來(lái)確定源文本中哪些短語(yǔ)一定包含在摘要模型中,該模型是關(guān)鍵詞識(shí)別與文本摘要的混合模型。文獻(xiàn)[18]將多模態(tài)注意力機(jī)制引入摘要模型中,輸入源文本、參考摘要和參考圖片進(jìn)行訓(xùn)練。多模態(tài)注意力機(jī)制同時(shí)關(guān)注摘要和圖片中的信息以生成質(zhì)量更高的摘要,該模型是文本摘要與圖片識(shí)別的混合模型。此外,文獻(xiàn)[19-21]從不同角度研究多模態(tài)摘要模型。
針對(duì)編碼器-解碼器架構(gòu)的改進(jìn),文獻(xiàn)[22]將單獨(dú)的編碼器劃分為多個(gè)協(xié)作編碼器,使用深度通信代理表示這些協(xié)作編碼器,并在不同代理間實(shí)現(xiàn)數(shù)據(jù)共享,摘要模型通過(guò)提高編碼質(zhì)量間接提高生成摘要的質(zhì)量。文獻(xiàn)[23]提出Transformer 模型,其相比循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)序列具有更優(yōu)的并行化處理能力和特征提取能力,逐漸被應(yīng)用于文本摘要領(lǐng)域。
多任務(wù)學(xué)習(xí)將相關(guān)任務(wù)放入同一框架中進(jìn)行訓(xùn)練,一般分為一個(gè)主要任務(wù)和若干個(gè)輔助任務(wù)。文本分類是對(duì)不同文本中的重要信息進(jìn)行區(qū)分,文本摘要是從文本中識(shí)別出重要的信息并進(jìn)行提取,類別標(biāo)簽是更抽象的摘要表示。多任務(wù)學(xué)習(xí)摘要模型的總體框架如圖1所示,由共享編碼器(Shared Encoder)、分類器(Classifier)和摘要解碼器(Summarization Decoder)構(gòu)成。
圖1 多任務(wù)學(xué)習(xí)摘要模型的總體框架Fig.1 The overall framework of summarization model with multi-task learning
共享編碼器與分類器構(gòu)成分類模型,與摘要解碼器構(gòu)成摘要模型。編碼器采用硬共享機(jī)制,來(lái)自兩個(gè)任務(wù)的梯度信息直接通過(guò)共享參數(shù)傳遞,強(qiáng)制所有任務(wù)使用公共空間表示。在訓(xùn)練編碼期間,摘要任務(wù)與分類任務(wù)交替運(yùn)行,隨機(jī)輸入相應(yīng)任務(wù)數(shù)據(jù)集中的源文本。在訓(xùn)練解碼期間,分類器或摘要解碼器進(jìn)行標(biāo)簽類別預(yù)測(cè)或摘要生成,相對(duì)于真實(shí)標(biāo)簽或參考摘要計(jì)算損失,反向傳播并更新模型參數(shù)。在測(cè)試編碼期間,編碼器接收摘要測(cè)試集作為輸入。在測(cè)試解碼期間,摘要解碼器使用集束搜索預(yù)測(cè)下一時(shí)刻的單詞輸出并選擇概率最高的單詞序列作為生成的摘要。
RNN 通常用來(lái)處理時(shí)間序列數(shù)據(jù),能夠很好地提取文本單元之間的前后關(guān)聯(lián)信息。RNN 變體包括長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[24]和門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)[25]。LSTM在RNN 的基礎(chǔ)上引入了遺忘門(mén)、輸入門(mén)和輸出門(mén),前向傳播公式如下:
其中,xt為L(zhǎng)STM 的輸入,ht-1、ct-1分別為上一時(shí)刻的隱藏狀態(tài)和細(xì)胞狀態(tài),ht、ct分別為當(dāng)前時(shí)刻的隱藏狀態(tài)和細(xì)胞狀態(tài)。
GRU 將LSTM 的3 個(gè)門(mén)簡(jiǎn)化為更新門(mén)和重置門(mén)。在邏輯架構(gòu)中,GRU 沒(méi)有細(xì)胞狀態(tài)c,直接將隱藏狀態(tài)h傳遞給下一個(gè)單元,前向傳播公式如下:
本文使用雙向LSTM(Bi-directional LSTM,Bi-LSTM)和雙向GRU(Bi-directional GRU,Bi-GRU)作為多任務(wù)學(xué)習(xí)摘要模型的編碼器以更好地捕捉雙向語(yǔ)義依賴關(guān)系。給定源文本D={w1,w2,…,wn},每個(gè)單詞wi被嵌入K維向量,Bi-LSTM 或Bi-GRU 對(duì)其雙向編碼,輸出兩個(gè)隱藏狀態(tài)序列。在具體實(shí)現(xiàn)中,源文本通過(guò)數(shù)據(jù)塊的方式進(jìn)入編碼器,在變長(zhǎng)序列中進(jìn)行補(bǔ)零操作來(lái)處理長(zhǎng)度變化。
2.3.1 Pointer-Generator 解碼器
摘要解碼器與文獻(xiàn)[13]提出的Pointer-Generator解碼器類似,其生成的單詞可以來(lái)源于源文本或指定的詞匯表。摘要解碼器架構(gòu)如圖2 所示。
圖2 摘要解碼器架構(gòu)Fig.2 Summarization decoder architecture
Pointer-Generator 解碼器接收共享編碼器輸出的隱藏狀態(tài)序列,并將源文本表示為兩者的級(jí)聯(lián):
在每一時(shí)刻t,單層LSTM 或GRU 接收單詞的嵌入達(dá)到新的解碼器狀態(tài)st,通過(guò)注意力機(jī)制計(jì)算注意力分?jǐn)?shù)、注意力分布at和上下文向量ct。計(jì)算公式如下:
其中:v、Wh、Ws、ba為可優(yōu)化的參數(shù);tanh 為激活函數(shù);at為源文本單詞上的概率分布,指導(dǎo)解碼器重點(diǎn)關(guān)注某些單詞。
傳統(tǒng)基于注意力機(jī)制的編碼器-解碼器模型從當(dāng)前解碼器狀態(tài)st和上下文向量ct中生成詞匯表概率分布Pvocab,而Pointer-Generator 解碼器定義pgen,由當(dāng)前解碼器狀態(tài)st、當(dāng)前時(shí)刻輸入單詞嵌入向量et和上下文向量ct共同決定,計(jì)算公式如下:
其中:wc、ws、we、bpgen表示可優(yōu)化的參數(shù);σ表示sigmoid函數(shù);pgen表示從詞匯表中生成單詞的概率,(1-pgen)表示通過(guò)從注意力分布at中抽取源文本單詞的概率。拓展后的詞匯表概率分布計(jì)算公式如下:
其中,w表示某個(gè)單詞。與Pointer-Generator 相比,傳統(tǒng)編碼器-解碼器模型被限制在容量有限的詞匯表中。
2.3.2 覆蓋度機(jī)制
本文在摘要解碼器中引入覆蓋度機(jī)制[13]緩解重復(fù)生成的問(wèn)題。覆蓋度向量covt表示時(shí)刻t前所有解碼的注意力分布at?的總和,計(jì)算公式如下:
其中,covt可解釋為源文本單詞上的非規(guī)范化分布,表示在當(dāng)前時(shí)刻這些單詞從注意力機(jī)制中獲得的覆蓋程度。若將covt作為注意力向量的額外輸入,則式(4)改寫(xiě)為:
其中,v、Wh、Ws、Wc、ba是可優(yōu)化的參數(shù)。覆蓋度機(jī)制通過(guò)總結(jié)已有決策避免重復(fù)注意相同的位置。摘要解碼器在時(shí)刻t的損失被定義為復(fù)合損失函數(shù),計(jì)算公式如下:
文本分類作為輔助任務(wù)幫助摘要模型學(xué)習(xí)到更加抽象的信息,提高解碼器生成摘要的準(zhǔn)確性。分類器架構(gòu)如圖3 所示。
圖3 分類器架構(gòu)Fig.3 Classifier architecture
其中,hf和hb分別表示正向、反向編碼的文本表示,hs表示最終文本表示。
前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)將hs映射為與文本類別數(shù)量相同的維度。使用Log_Softmax 函數(shù)計(jì)算類別標(biāo)簽的概率分布,計(jì)算公式如下:
其中,exp 表示以e 為底的指數(shù)函數(shù)。本文結(jié)合Log_Softmax 函數(shù)與負(fù)對(duì)數(shù)似然損失計(jì)算預(yù)測(cè)類別與真實(shí)類別的損失,該損失等價(jià)于預(yù)測(cè)類別與真實(shí)類別的交叉熵。
CNNDM(CNN/Daily Mail)[26]是摘要領(lǐng)域的基準(zhǔn)數(shù)據(jù)集之一,源文本和參考摘要分別來(lái)源于在線新聞文章和人工撰寫(xiě)。本文使用CNNDM 的匿名版本,其中包含286 896 組訓(xùn)練集、11 489 組測(cè)試集和13 368 組驗(yàn)證集。
在多任務(wù)學(xué)習(xí)中,多個(gè)數(shù)據(jù)集原始特征如果有一定相似性,則可以提高摘要任務(wù)的性能。本文通過(guò)無(wú)監(jiān)督算法獲取CNNDM 源文本的類別標(biāo)簽,文本分類數(shù)據(jù)集的構(gòu)建流程如圖4 所示,具體步驟如下:
1)剔除CNNDM 訓(xùn)練集中的參考摘要,保留源文本。
2)對(duì)抽取出的源文本進(jìn)行分詞、去停用詞和去低頻詞,避免停用詞和低頻詞對(duì)有效信息造成的噪聲干擾。
3)使用TF-IDF 特征提取方法將預(yù)處理后的源文本向量化,TF-IDF 特征提取方法的主要思想為評(píng)估某個(gè)詞相對(duì)于數(shù)據(jù)集中某份文件的重要程度。
4)應(yīng)用K-means 聚類算法對(duì)向量化后的文本進(jìn)行聚類操作。
5)得到類別數(shù)量分別為2、10、20 的3 個(gè)文本分類數(shù)據(jù)集,將其分別稱作Cluster-2、Cluster-10、Cluster-20,為研究不同類別數(shù)量的文本分類數(shù)據(jù)集參與訓(xùn)練對(duì)模型生成摘要準(zhǔn)確性的影響提供數(shù)據(jù)集支撐。
圖4 文本分類數(shù)據(jù)集的構(gòu)建流程Fig.4 Construction process of text classification datasets
ROUGE[27]是文本摘要領(lǐng)域的基準(zhǔn)評(píng)價(jià)指標(biāo),基于摘要中n元詞(n-gram)的共現(xiàn)信息來(lái)評(píng)價(jià)摘要的準(zhǔn)確性。ROUGE-N和ROUGE-L 計(jì)算公式如下:
其中,n表示n?gram 的長(zhǎng)度,{RS} 表示參考摘要,Countmatch(gramn)表示參考摘要與待測(cè)摘要中相同的n?gram 個(gè)數(shù),Count(gramn)表示參考摘要中出現(xiàn)的n?gram 個(gè)數(shù)。
ROUGE-L 中的L 即為最長(zhǎng)公共子序列(Longest Common Subsequence,LCS),計(jì)算公式如下:
其中,LCS(X,Y)表示參考摘要與待測(cè)摘要最長(zhǎng)公共子序列的長(zhǎng)度,m表示參考摘要的長(zhǎng)度。
ROUGE 對(duì)比參考摘要與待測(cè)摘要來(lái)判定摘要準(zhǔn)確性,但是忽略了摘要句子在源文本中出現(xiàn)的位置信息。本文提出一種基于統(tǒng)計(jì)分布的判別法,從總體分布的角度判斷待測(cè)摘要的準(zhǔn)確性?;诮y(tǒng)計(jì)分布的判別流程如圖5 所示。
圖5 基于統(tǒng)計(jì)分布的判別流程Fig.5 Discriminant process based on statistical distribution
本文將待測(cè)摘要表示為S={s1,s2,…,sn}、si={e1,e2,…,em},參考摘要表示為G={g1,g2,…,gn}、gi={t1,t2,…,tp},源文本表示為D={d1,d2,…,dn}、di={c1,c2,…,cq},其中,s、g、d分別表示S、G、D中的文本,e、t、c分別表示s、g,d中的句子,n表示測(cè)試集數(shù)據(jù)量,m、p、q分別表示s、g、d的句子數(shù)量。計(jì)算s1與d1的位置向量的具體步驟如下:1)定義雅卡爾相似系數(shù),該系數(shù)通常用來(lái)判斷句子之間是否冗余,計(jì)算公式如下:
其中,r、o分別表示ei、cj中非冗余單詞的集合,∩表示交集,len 函數(shù)計(jì)算集合的大小。
2)雅卡爾相似系數(shù)越高,cj替代ei的能力越強(qiáng),尋求ei對(duì)應(yīng)最高雅卡爾相似系數(shù)的cj。
本文使用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn)6種單任務(wù)基線模型和6種多任務(wù)學(xué)習(xí)摘要模型,各個(gè)摘要模型基本架構(gòu)及配置如表1所示,其中,Attention、Coverage分別表示注意力機(jī)制、覆蓋度機(jī)制,Cluster表示使用文本分類數(shù)據(jù)集,Pointer-Generator默認(rèn)使用注意力機(jī)制和指針網(wǎng)絡(luò)。
表1 摘要模型基本架構(gòu)及配置Table 1 Basic architecture and configuration of summarization models
在訓(xùn)練和測(cè)試期間,截?cái)噍斎胛谋局?00 個(gè)單詞以內(nèi),限制生成摘要長(zhǎng)度至120 個(gè)單詞以內(nèi)。所有模型的隱藏狀態(tài)維度均設(shè)置為256 維,單詞嵌入向量維度設(shè)置為128 維。本文沒(méi)有使用預(yù)訓(xùn)練詞向量,所有模型詞匯表大小設(shè)置為50 000,所有模型的摘要任務(wù)采用Adagrad 優(yōu)化器[28],初始化學(xué)習(xí)率設(shè)置為0.15,累加器的起始值設(shè)置為0.1,梯度剪裁閾值設(shè)置為2。文本分類任務(wù)使用Adam[29]優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001。所有模型均在單個(gè)GeForce GTX TITAN X 12 GB 顯存GPU 上訓(xùn)練。在訓(xùn)練期間,設(shè)置數(shù)據(jù)塊大小為16,防止多任務(wù)學(xué)習(xí)導(dǎo)致GPU 顯存波動(dòng)引起顯存溢出。在測(cè)試期間,設(shè)置數(shù)據(jù)塊大小為100,所有模型的摘要解碼器的集束搜索尺寸設(shè)置為4。
本文使用files2rouge 包測(cè)評(píng)所有模型生成摘要的ROUGE-1、ROUGE-2、ROUGE-L 在95%置信區(qū)間的標(biāo)準(zhǔn)分?jǐn)?shù),測(cè)試文本為CNNDM 測(cè)試集。6 種單任務(wù)基線模型的ROUGE 標(biāo)準(zhǔn)分?jǐn)?shù)如表2 所示,結(jié)果顯示Pointer-Generator 架構(gòu)的性能優(yōu)于傳統(tǒng)Encoder-Decoder 架構(gòu),特征提取器(LSTM 和GRU)的選擇對(duì)基線模型生成摘要準(zhǔn)確性的影響較小。
表2 單任務(wù)基線模型性能對(duì)比Table 2 Performance comparison of single task baseline models
多任務(wù)學(xué)習(xí)摘要模型的ROUGE 標(biāo)準(zhǔn)分?jǐn)?shù)如表3 所示,結(jié)果顯示:在ROUGE-1、ROUGE-L 指標(biāo)上,6 種多任務(wù)學(xué)習(xí)摘要模型均能生成更準(zhǔn)確的摘要,Multi-task(GRU,Cluster-10)相較于強(qiáng)基線模型Pointer-Generator(GRU,Coverage)分別在3個(gè)ROUGE指標(biāo)上提高了0.23、0.17 和0.31 個(gè)百分點(diǎn);在ROUGE-2 指標(biāo)上,Cluster-10 參與訓(xùn)練后的模型優(yōu)于性能最好的單任務(wù)基線模型。使用GRU 作為特征提取器的模型在部分指標(biāo)上的提升略高于LSTM,這可能是數(shù)據(jù)集較大所致。文本分類數(shù)據(jù)集的選取對(duì)模型的生成性能影響較大。在ROUGE 指標(biāo)上,使用Cluster-10 訓(xùn)練后的模型均生成了最準(zhǔn)確的摘要。本文認(rèn)為出現(xiàn)該結(jié)果的主要原因?yàn)椋哼^(guò)大的類別數(shù)量影響文本分類的效果從而影響生成摘要的質(zhì)量,過(guò)小的類別數(shù)量使得引入的抽象信息不夠從而干擾摘要模型。
表3 多任務(wù)學(xué)習(xí)摘要模型性能對(duì)比Table 3 Performance comparison of summarization models with multi-task learning
本文將測(cè)試集參考摘要的分布向量作為基準(zhǔn),統(tǒng)計(jì)并對(duì)比3 種摘要模型生成待測(cè)摘要的分布向量,同時(shí)計(jì)算不同分布向量間的余弦相似度,具體結(jié)果如表4 所示。
表4 摘要模型的分布向量與余弦相似度統(tǒng)計(jì)Table 4 Distribution vector and cosine similarity statistics of summarization models
本文設(shè)置域的數(shù)量X=6 并過(guò)濾源文本句子數(shù)量小于X的樣本。分析表4 數(shù)據(jù)可知,參考摘要共有43 656 個(gè)句子在源文本中找到替代句,在不同域中的分布呈現(xiàn)急速下降趨勢(shì),表明CNNDM 數(shù)據(jù)集中源文本頭部的信息量較大。3 種模型生成的待測(cè)摘要分別有34 279、29 883、32 408 個(gè)句子能夠找到替代句。與測(cè)試集參考摘要相比,模型生成的摘要更加傾向于頭部信息提取。Pointer-Generator(LSTM,Coverage)生成摘要的句子數(shù)量少于Pointer-Generator(LSTM),其主要原因?yàn)楦采w度機(jī)制的引入緩解了重復(fù)生成問(wèn)題。Multi-task(LSTM,Cluster-10)生成的摘要句子數(shù)量介于Pointer-Generator(LSTM,Coverage)和Pointer-Generator(LSTM)之間,本文認(rèn)為這是因?yàn)槎嗳蝿?wù)學(xué)習(xí)摘要模型學(xué)習(xí)到了分類數(shù)據(jù)集中的抽象信息,其在保證句子數(shù)量的前提下更加集中于第3 個(gè)和第4 個(gè)域中信息的提取,其生成摘要與測(cè)試集參考摘要最接近。
本文通過(guò)樣例分析以驗(yàn)證多任務(wù)學(xué)習(xí)摘要模型學(xué)習(xí)到了分類數(shù)據(jù)集中的抽象信息。測(cè)試集參考摘要與模型生成摘要的樣例如下:
1)測(cè)試集參考摘要:
“shelley dufresne was arrested in september when a student at the high school she taught at started bragging about sleeping with two teachers.it was later revealed that the 16-year-old had sex with both dufresne and his former english teacher,24-year-old rachel respess.dufresne,32,pleaded not guilty to charges in november,but changed course on thursday when she admitted having sex with the teen.in a forgiving plea deal,dufresne will only have to attend a 90-day therapy program,stay away from the victim and turn in her teacher’s license.in exchange,the charge of carnal knowledge of a child will be dropped after her probation and she won’t have to register as a sex offender.however,dufresne is still awaiting an arraignment on charges for having a threesome with the same student and respess in a different parish.”
2)Pointer-Generator(LSTM):
“shelley dufresne,32,was arrested in september when a student at destrehan high school started bragging to friends at the st charles parish courthouse on thursday.she was arrested in september when a student at destrehan high school started bragging that he was sleeping with both of them.dufresne,32,was arrested in september when a student at destrehan high school started bragging that he was sleeping with both of them.”
3)Pointer-Generator(LSTM,Coverage):
“shelley dufresne,32,was arrested in september after the teen in question started bragging to friends at the st charles parish,louisiana school that he had slept with two teachers.an investigation later revealed that the unidentified teen had sex with both his current english teacher at the time,dufresne,and his english teacher from the prior year,24-year-old rachel respess-including an alleged a threesome with both at respess’s house.”
4)Multi-task(LSTM,Cluster-10):
“shelley dufresne confessed in court thursday to having sex with a 16-year-old student in exchange for a plea deal that gets her out of prison time.an investigation later revealed that the unidentified teen had sex with both his current english teacher at the time,dufresne,and his english teacher from the prior year.respess taught the same student english the year prior.though she originally pleaded not guilty to a count of obscenity,the original charge of carnal knowledge of a juvenile will be held for the three years dufresne is under probation for obscenity.”
對(duì)比樣例顯示,Pointer-Generator(LSTM)存在重復(fù)生成的問(wèn)題(“dufresne,32,was arrested in september when a student at destrehan high school started bragging”出現(xiàn)了兩次),Pointer-Generator(LSTM,Coverage)避免了此問(wèn)題。但上述兩種模型忽略了測(cè)試集參考摘要中“交換條件”的基本事實(shí)(“in exchange,the charge of carnal knowledge of a child will be dropped after her probation and she won’t have to register as a sex offender”),Multi-task(LSTM,Cluster-10)生成的摘要包括“交換條件”的事實(shí)(“in exchange for a plea deal that gets her out of prison time”)。在對(duì)部分研究樣例進(jìn)行比對(duì)分析后,本文發(fā)現(xiàn)多任務(wù)學(xué)習(xí)摘要模型更容易學(xué)習(xí)到時(shí)間點(diǎn)信息以及比較隱蔽的邏輯信息。
本文結(jié)合文本分類輔助任務(wù),提出一種多任務(wù)學(xué)習(xí)摘要模型,使用K-means 聚類算法構(gòu)建Cluster-2、Cluster-10 和Cluster-20 文本分類數(shù)據(jù)集,利用基于統(tǒng)計(jì)分布的判別法計(jì)算待測(cè)摘要與測(cè)試集參考摘要的分布向量在向量空間中的余弦相似度,從總體分布的角度判斷待測(cè)摘要的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有摘要模型相比,該模型生成的摘要更準(zhǔn)確。由于Transformer 模型架構(gòu)具有優(yōu)越的并行化序列處理能力以及特征提取能力,因此后續(xù)可將Transformer模型架構(gòu)和其他相關(guān)任務(wù)引入多任務(wù)學(xué)習(xí)摘要模型中,進(jìn)一步提升其在不同摘要數(shù)據(jù)集中的摘要生成質(zhì)量。