李蕭洋,周安民
(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)
大數(shù)據(jù)時(shí)代的到來(lái)使得信息的獲取和傳播日益便捷,但隨之而來(lái)的信息過(guò)載問(wèn)題也不容小覷。文本摘要作為從海量的信息中提取出關(guān)鍵信息的重要手段,旨在從原文本中提煉出簡(jiǎn)潔精煉且能夠反映原文中心內(nèi)容的短文,從而幫助讀者從較長(zhǎng)文本中快速篩選出有效信息,達(dá)到快速瀏覽、有效篩選、精準(zhǔn)閱讀的效果。然而,人工提取摘要耗時(shí)費(fèi)力,因此自動(dòng)文本摘要技術(shù)應(yīng)運(yùn)而生。
近年來(lái),自動(dòng)文本摘要任務(wù)已經(jīng)成為了自然語(yǔ)言處理領(lǐng)域的熱門研究方向之一,并且在醫(yī)學(xué)、新聞、金融、學(xué)術(shù)等領(lǐng)域都有實(shí)際的應(yīng)用,如觀點(diǎn)摘要、專利摘要、新聞?wù)取,F(xiàn)有的自動(dòng)文摘方法主要分為抽取式和生成式兩大類。前者的核心在于從原始文檔中提取關(guān)鍵的短語(yǔ)或句子進(jìn)行重組,該方法提取出來(lái)的摘要能夠保留文章中的關(guān)鍵信息且有著良好的語(yǔ)法,但是由于缺乏某些特定的連接詞往往可讀性較低。后者是模仿人類歸納摘要的過(guò)程對(duì)原文的內(nèi)容進(jìn)行理解和壓縮,該方法可以根據(jù)語(yǔ)義內(nèi)容來(lái)生成摘要且可以生成原文中未出現(xiàn)的內(nèi)容,但是往往依賴于大量高質(zhì)量標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型,且可能出現(xiàn)一些語(yǔ)法與事實(shí)方面的錯(cuò)誤。
針對(duì)生成式摘要中存在的語(yǔ)法錯(cuò)誤與事實(shí)描述不準(zhǔn)確的問(wèn)題,本文提出了一種基于seq2seq模型并融合時(shí)序信息與實(shí)體信息的生成式摘要算法,并在開(kāi)源的中文長(zhǎng)文本摘要數(shù)據(jù)集CLTS上對(duì)其有效性進(jìn)行了驗(yàn)證。
隨著深度學(xué)習(xí)的發(fā)展,現(xiàn)有的生成式自動(dòng)文摘方法主要利用深度學(xué)習(xí)的相關(guān)知識(shí)對(duì)文本進(jìn)行自動(dòng)建模與分析,快速準(zhǔn)確地從源文本中提取有效信息,在輿情分析、智能問(wèn)答、觀點(diǎn)挖掘等方面都有廣泛的應(yīng)用。
Nallapati等將循環(huán)神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合構(gòu)建了一個(gè)端到端的摘要生成系統(tǒng),使得解碼器在生成的每一步都聚焦于當(dāng)前的輸入,在主流的摘要生成數(shù)據(jù)集上都取得了較好的效果,但是模型的生成能力依然受限于詞匯表。在此基礎(chǔ)上,See等提出了指針網(wǎng)絡(luò)來(lái)解決詞匯表限制問(wèn)題,即在每一個(gè)解碼時(shí)刻由指針網(wǎng)絡(luò)決定是根據(jù)詞匯表生成詞語(yǔ)還是從原文中直接復(fù)制,進(jìn)一步提高了生成摘要的可讀性。此外,隨著自然語(yǔ)言處理領(lǐng)域的發(fā)展,Liu等提出了一種基于BERT模型的摘要生成方法,通過(guò)使用不同的優(yōu)化器對(duì)編碼端和解碼端進(jìn)行微調(diào),使生成式摘要的質(zhì)量達(dá)到了新的高度。
現(xiàn)有的生成式摘要算法雖然能夠取得比較好的可讀性,但仍然存在著以下問(wèn)題:①現(xiàn)有的研究成果大多面向英文新聞文本,針對(duì)中文長(zhǎng)文本的研究比較少。②當(dāng)處理長(zhǎng)文本問(wèn)題時(shí),由于神經(jīng)網(wǎng)絡(luò)的記憶能力有限,會(huì)導(dǎo)致部分關(guān)鍵信息的丟失;另外處理長(zhǎng)時(shí)記憶問(wèn)題時(shí)往往需要比較大的資源和時(shí)間開(kāi)銷。③由于某些特定的實(shí)體詞語(yǔ)難以被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),現(xiàn)有方法生成的摘要盡管有著較高的可讀性,但是在事實(shí)準(zhǔn)確性方面卻有所欠缺。
針對(duì)上述問(wèn)題,本文面向中文長(zhǎng)文本摘要,聚焦于實(shí)體信息和時(shí)序信息,提出了一種基于實(shí)體注意力的生成式摘要算法。該算法基于seq2seq模型,將實(shí)體信息引入編碼器端以及損失函數(shù)中,在保留模型生成可讀性摘要能力的同時(shí),提高生成摘要的事實(shí)準(zhǔn)確性。
圖1 基于實(shí)體注意力的生成式摘要模型
最后編碼器端的語(yǔ)義向量由以上兩種注意力混合而成,其計(jì)算如公式(5):
其中、為模型要學(xué)習(xí)的參數(shù);||代表向量的拼接。
其次使用指針開(kāi)關(guān)來(lái)衡量一個(gè)詞應(yīng)該采取生成策略還是復(fù)制策略,充分考慮編碼器端語(yǔ)義向量c、解碼器端隱藏狀態(tài)h和解碼器端的輸入x,其計(jì)算公式如(7):
其中 、 、 、為模型要學(xué)習(xí)的參數(shù)。
最后得到擴(kuò)充后的詞匯表分布如公式(8)所示:
在傳統(tǒng)的seq2seq模型中,通常以最小化每一個(gè)解碼時(shí)刻的最大似然損失為目標(biāo)來(lái)訓(xùn)練模型,即,對(duì)于輸入文章,記參考摘要為={,,…,},模型訓(xùn)練的目標(biāo)函數(shù)如公式(9):
其中代表傳統(tǒng)的二進(jìn)制交叉熵函數(shù);代表當(dāng)前詞語(yǔ)是否為實(shí)體,如果當(dāng)前詞語(yǔ)為實(shí)體則=1;否則,=0。
對(duì)以上兩種損失函數(shù)進(jìn)行加權(quán)求和得到最終的損失函數(shù)形式,如公式(11):
本文使用Liu等收集并整理的中文新聞長(zhǎng)文本摘要數(shù)據(jù)集,該數(shù)據(jù)集收集了澎湃新聞網(wǎng)站自2014年7月22日至2020年4月20日之間發(fā)表的新聞文章以及由專業(yè)編輯編寫的摘要。共包含185397篇文章摘要對(duì),涵蓋政治、軍事、經(jīng)濟(jì)、娛樂(lè)等多個(gè)領(lǐng)域,并且在多個(gè)主流模型上測(cè)試都有較好的效果。
本實(shí)驗(yàn)在Ubuntu 18.04.4、GeForce RTX 2080的環(huán)境下進(jìn)行,實(shí)驗(yàn)?zāi)P驮赑ython 3.6.12、Pytorch 1.7.1的環(huán)境下進(jìn)行訓(xùn)練。輸入的詞向量為經(jīng)人民日?qǐng)?bào)語(yǔ)料庫(kù)訓(xùn)練的300維word2vec詞向量,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的隱藏層大小為300維,編碼器端為雙層LSTM,解碼器端為單層LSTM,批訓(xùn)練大小為8,初始學(xué)習(xí)率為0.001,迭代次數(shù)為50000次,詞匯表大小為50000。在進(jìn)行實(shí)體識(shí)別時(shí)使用standfordnlp工具。實(shí)驗(yàn)在生成摘要時(shí)設(shè)置輸入句子的最大長(zhǎng)度為800,輸出摘要的最大長(zhǎng)度為100,采用束寬大小為4的束搜索來(lái)尋找解碼時(shí)的最優(yōu)結(jié)果。實(shí)驗(yàn)參數(shù)表如表1所示。
表1 實(shí)驗(yàn)參數(shù)
本文使用文本摘要領(lǐng)域常用的ROUGE來(lái)對(duì)生成文本的可讀性進(jìn)行評(píng)價(jià),具體使用ROUGE-N(=1,2)和ROUGE-L。其中ROUGEN通過(guò)計(jì)算生成摘要和人工摘要元組的召回率來(lái)評(píng)估可讀性,具體計(jì)算公式如(12):
其中{}為人工摘要,Count(gram)表示人工摘要和生成摘要的共有元組的個(gè)數(shù),(gram)表示參考摘要中元組的個(gè)數(shù)。
ROUGE-L使用人工摘要和生成摘要的最長(zhǎng)公 共 子 序 列(Longest Common Subsequence,LSC)來(lái)衡量生成句子的可讀性。其具體計(jì)算公式如(13)—(15)所示:
其中 ||表示生成摘要的長(zhǎng)度,||表示人工摘要的長(zhǎng)度,(,)表示人工摘要與生成摘要二者的最長(zhǎng)公共子序列的長(zhǎng)度,為精確率P與召回率R的比值。
為了確定損失函數(shù)中實(shí)體信息和可讀性信息所占的比例,本文首先對(duì)公式(11)中超參數(shù)的取值進(jìn)行了實(shí)驗(yàn),并最終確定以0.75作為后續(xù)實(shí)驗(yàn)中的取值,具體實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 超參數(shù)η實(shí)驗(yàn)結(jié)果
如圖2所示,當(dāng)=0.75時(shí)所生成的摘要在ROUGE-1、ROUGE-2和ROUGE-L評(píng)分上都有著較好的效果。此外,從圖中還能觀察到,隨著的增大,即隨著損失函數(shù)中實(shí)體比例的上升,生成摘要的可讀性整體呈現(xiàn)先上升后下降的趨勢(shì)。這是由于隨著損失函數(shù)中實(shí)體比例的上升,模型將更加傾向于學(xué)習(xí)實(shí)體信息而削弱了對(duì)原文內(nèi)容的學(xué)習(xí),從而導(dǎo)致了可讀性得分的下降。
另外,為了驗(yàn)證本文所提出方法的有效性,我們將多個(gè)模型在CLTS數(shù)據(jù)集上的效果進(jìn)行了對(duì)比,不同模型之間的ROUGE分?jǐn)?shù)對(duì)比如表2所示。
表2 不同模型對(duì)比結(jié)果
通過(guò)對(duì)表中的數(shù)據(jù)進(jìn)行分析可以得到以下結(jié)論:①總的來(lái)說(shuō),生成式模型得到的摘要的可讀性高于抽取式模型,這是由于傳統(tǒng)的抽取式模型有著較為簡(jiǎn)單的模型結(jié)構(gòu),并且在對(duì)原文內(nèi)容進(jìn)行抽取時(shí)由于缺乏了部分關(guān)鍵連接詞而導(dǎo)致可讀性較低。②本文所提出的模型在ROUGE-2和ROUGE-L評(píng)分上都取得了比其他模型更優(yōu)的結(jié)果,由此可以說(shuō)明本文所提出的方法在以恰當(dāng)?shù)谋壤肓藢?shí)體信息后,在摘要生成任務(wù)上有著更為優(yōu)異的表現(xiàn)。③通過(guò)對(duì)生成句子的分析,可以發(fā)現(xiàn)本文提出的模型能夠識(shí)別出更多的關(guān)鍵實(shí)體。
本文針對(duì)中文新聞長(zhǎng)文本摘要中存在的可讀性以及事實(shí)準(zhǔn)確性方面的缺陷,在傳統(tǒng)的seq2seq模型的基礎(chǔ)上,提出了基于時(shí)序注意力和實(shí)體注意力融合的生成式摘要模型,并在損失函數(shù)中引入了實(shí)體信息,使模型在保證原有可讀性的基礎(chǔ)上能夠更進(jìn)一步地學(xué)習(xí)到事實(shí)信息,從而進(jìn)一步提高了自動(dòng)文摘的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文所提出的模型在ROUGE評(píng)分上與其他模型相比較得到了顯著提升。下一步的研究工作是考慮如何將該算法從新聞?wù)I(lǐng)域遷移到其他領(lǐng)域,并進(jìn)一步降低模型消耗。