亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主題感知的長(zhǎng)文本自動(dòng)摘要算法

        2022-10-17 11:05:40劉永堅(jiān)劉平峰
        關(guān)鍵詞:解碼器編碼器注意力

        楊 濤,解 慶,劉永堅(jiān),劉平峰

        1.武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430070

        2.武漢理工大學(xué) 經(jīng)濟(jì)學(xué)院,武漢 430070

        隨著互聯(lián)網(wǎng)的發(fā)展,海量的長(zhǎng)篇文本如新聞、微博、博客、論文等等,充斥整個(gè)網(wǎng)絡(luò),大大加劇了文本信息獲取的難度。自動(dòng)文摘需求急劇增加,研究如何利用自動(dòng)摘要技術(shù)對(duì)長(zhǎng)文本的主要內(nèi)容進(jìn)行提取總結(jié)變得尤為重要。

        自動(dòng)文摘技術(shù)經(jīng)過多年的發(fā)展,主要有兩種思路,一種是直接從原文中抽取重要句子組成摘要,稱為抽取式摘要技術(shù)。另一種是在理解原文的基礎(chǔ)上,用新的單詞或句子表述原始文本的內(nèi)容,稱為生成式文本摘要。目前抽取式文本摘要技術(shù)經(jīng)過多年發(fā)展,技術(shù)成熟,性能穩(wěn)定,對(duì)于文本的壓縮具有顯著的效果。但本身存在固有缺陷,摘要的形成方式只是典型語句的機(jī)械拼接,不符合人類的摘要習(xí)慣,閱讀性較差,不適合作為正式閱讀的參考摘要?;贐ERT預(yù)訓(xùn)練模型和強(qiáng)化學(xué)習(xí)技術(shù)的抽取式摘要模型是目前效果最好、性能最為穩(wěn)定的模型之一。

        相比于抽取式文本摘要,生成式文本摘要能夠用新的句子來表達(dá)原始的文本信息,創(chuàng)建更加精準(zhǔn)、自然的摘要。且生成的摘要具有可讀性強(qiáng)、語法正確、連貫性強(qiáng)等優(yōu)點(diǎn)。目前,主流的生成式文本摘要模型主要使用借鑒于機(jī)器翻譯的基于編碼器-解碼器架構(gòu)的Seq2Seq模型[1]。但該類生成式文本摘要模型一般只適用于處理短文本,對(duì)于稍長(zhǎng)的輸入序列的處理能力十分有限。尤其在處理中文數(shù)據(jù)集時(shí),其處理能力最多只有300~500字(如圖1所示)。一旦超過這個(gè)長(zhǎng)度,其性能會(huì)急劇下降,各項(xiàng)指標(biāo)會(huì)趨近于零。但是,在實(shí)際的應(yīng)用場(chǎng)景之中,針對(duì)短文本進(jìn)行自動(dòng)摘要的意義有限,長(zhǎng)文本摘要的需求更大,也更加迫切。因此,目前急需一種性能穩(wěn)定的針對(duì)較長(zhǎng)文本的自動(dòng)摘要算法。

        圖1 指針生成網(wǎng)絡(luò)模型效果變化圖Fig.1 Pointer-generator network model effect variation

        主題模型是近20年發(fā)展起來的一種重要的文本信息挖掘技術(shù),已經(jīng)成為篇章級(jí)的文本語義理解的重要工具。主題模型善于從一組文檔中抽取幾組關(guān)鍵詞來表達(dá)文檔集合的核心思想。多年來,一直被用于多文檔摘要任務(wù),并且表現(xiàn)突出。同時(shí),也為情感分析、文本生成、信息檢索、文本分類等其他自然語言處理任務(wù)提供重要支撐[2]。對(duì)于長(zhǎng)文本摘要問題,主題模型可以從多語義角度抽取出現(xiàn)在文中不同位置的主題信息。尤其對(duì)于多主題長(zhǎng)文本,主題模型能以一組概率的形式表達(dá)其復(fù)雜的主題情況,這對(duì)長(zhǎng)文本的摘要生成具有顯著的指導(dǎo)意義。

        鑒于以上背景,本文提出了一種基于主題感知的抽取式與生成式結(jié)合的混合摘要模型TASTE(topic-aware abstractive summarization with text extraction)來處理長(zhǎng)文本的自動(dòng)摘要問題。該模型結(jié)合了抽取式模型與生成式模型,將兩者的優(yōu)點(diǎn)進(jìn)行結(jié)合,缺點(diǎn)相互彌補(bǔ)。該模型既能保留抽取式文本摘要方法的應(yīng)對(duì)長(zhǎng)文本的概括壓縮能力,又能保留生成式文本摘要方法的重寫能力。另外,為了應(yīng)對(duì)長(zhǎng)文本復(fù)雜的語義環(huán)境及多主題的情況,本文加入了主題感知部分,讓原文檔的潛在主題參與關(guān)鍵句子的抽取和最終摘要的生成。

        1 相關(guān)工作

        1.1 主題模型

        主題模型旨在從文檔級(jí)別的單詞共現(xiàn)中發(fā)現(xiàn)其潛在主題,通常采用基于貝葉斯圖形模型的LDA(latent Dirichlet allocation)方式實(shí)現(xiàn)[3]。然而,這些模型都依賴于專業(yè)知識(shí)參與來定制模型的推理算法。隨著主題模型的表達(dá)能力越來越強(qiáng),為了捕獲主題相關(guān)性和利用已有的條件信息,推理的方法就會(huì)變得越來越復(fù)雜,會(huì)大大增加模型的使用局限性。另一方面,隨著深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域的廣泛應(yīng)用,結(jié)合深度學(xué)習(xí)思想與方法的神經(jīng)主題模型開始廣泛使用,并表現(xiàn)突出。不同于傳統(tǒng)的LDA模型[3],該模型基于變分自動(dòng)編碼器(variational auto-encoder,VAE)實(shí)現(xiàn)[4],同樣采用編碼器-解碼器結(jié)構(gòu)。同時(shí),神經(jīng)主題模型基本摒棄了傳統(tǒng)的概率主題模型關(guān)于Dirichlet先驗(yàn)假設(shè)和Gibbs采樣方式[5],而是直接將復(fù)雜的分布計(jì)算完全交給神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)和權(quán)重矩陣,通過反向傳播算法或隨機(jī)梯度下降算法訓(xùn)練模型參數(shù),降低了主題模型的使用門檻。此外,由于構(gòu)造出了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即可以在模型的輸入層疊加詞向量,從而更好地利用詞匯之間的語義信息,發(fā)現(xiàn)潛在主題。同時(shí)可以更加完美地與其他深度學(xué)習(xí)模型相互融合,用以輔助訓(xùn)練[6]。于是本文的模型選用了Miao等[7]提出的神經(jīng)主題模型來推斷潛在主題。

        1.2 抽取式文本摘要

        自動(dòng)文本摘要技術(shù)早期的研究都集中在抽取式文本摘要領(lǐng)域。其多年發(fā)展中,前后經(jīng)歷了基于文本特征、基于詞匯鏈、基于圖、基于深度學(xué)習(xí)方法的四個(gè)階段。近年來,隨著BERT預(yù)訓(xùn)練語言模型的提出[8],出現(xiàn)了眾多混合多種先進(jìn)技術(shù)的抽取式摘要模型。如Narayan等[9]提出將摘要抽取任務(wù)視為句子排序任務(wù),并引入強(qiáng)化學(xué)習(xí)技術(shù),使用ROUGE評(píng)價(jià)指標(biāo)來作為獎(jiǎng)勵(lì)直接指導(dǎo)模型訓(xùn)練。Liu等[10]將BERT模型的使用方法進(jìn)一步簡(jiǎn)化和推廣,提出了一個(gè)用于抽取式模型和生成式模型的一般框架:在BERT模型之上,通過堆疊多個(gè)句子之間的轉(zhuǎn)換層獲得抽象的文本表示,以此文本表示抽取摘要句子。并根據(jù)模型效果微調(diào)BERT模型,該方法成為了使用BERT預(yù)訓(xùn)練語言模型抽取文本句子的基礎(chǔ)模型,后續(xù)不斷有研究者在此基礎(chǔ)上得到了各種BERT的衍生模型。2020年,Zhong等[11]將抽取式文本摘要的粒度從句子級(jí)別ROUGE值調(diào)整到摘要段落的ROUGE值,將文本抽取任務(wù)視為語義文本匹配問題,使用一個(gè)簡(jiǎn)單的匹配模型來抽取摘要,并對(duì)抽取結(jié)果使用Tri-Blocking(三元組)等技術(shù)進(jìn)行冗余去除,使得模型的摘要效果更加優(yōu)異。

        1.3 生成式文本摘要

        生成式文本摘要實(shí)現(xiàn)難度較大,早期發(fā)展緩慢,直到2014年,編碼器-解碼器結(jié)構(gòu)模型在機(jī)器翻譯上的成功[1],為生成式文本摘要提供了新的思路。2015年,Rush等[12]率先將基于注意力機(jī)制的編碼器-解碼器模型運(yùn)用到生成式摘要中,將生成式模型的摘要效果提高到一個(gè)新的高度。后來學(xué)者紛紛基于該模型進(jìn)行改進(jìn)創(chuàng)新。2016年,Nallapati等[13]將指針網(wǎng)絡(luò)引入到編碼器-解碼器模型中來,用以解決文本生成的OOV問題。2017年,See等[14]在此基礎(chǔ)上進(jìn)一步改進(jìn),引入覆蓋機(jī)制,同時(shí)結(jié)合指針網(wǎng)絡(luò)提出了指針生成器模型。該模型完美地解決了生成式摘要的OOV詞和摘要重復(fù)問題,使生成式文本摘要漸漸成熟。Wang等[15]認(rèn)為高質(zhì)量的抽象摘要不僅應(yīng)將重要的原文本作為摘要生成來源,而且還應(yīng)傾向于生成新的概念性詞語來表達(dá)具體細(xì)節(jié)。在指針生成器的基礎(chǔ)上提出了概念指針網(wǎng)絡(luò)(concept pointer network),用以獲得抽象性更高,概念性更強(qiáng)的摘要。Liu等[16]提出對(duì)抗訓(xùn)練的指針生成器,該方法除了訓(xùn)練指針生成器外,還訓(xùn)練了一個(gè)摘要鑒別器,鑒別器負(fù)責(zé)將機(jī)器生成的摘要和人工生成的參考摘要進(jìn)行區(qū)分,文中使用強(qiáng)化學(xué)習(xí)方法來優(yōu)化生成器使得鑒別器的出錯(cuò)概率最大化,通過生成器和鑒別器的對(duì)抗訓(xùn)練來提升摘要質(zhì)量。

        目前,隨著深度學(xué)習(xí)技術(shù)、強(qiáng)化學(xué)習(xí)技術(shù)、預(yù)訓(xùn)練語言模型等技術(shù)的發(fā)展,出現(xiàn)了各種技術(shù)交織的摘要生成模型。隨著硬件設(shè)備的進(jìn)步,模型規(guī)模與訓(xùn)練速度也大大提升,無論是抽取式摘要技術(shù)還是生成式摘要技術(shù),增強(qiáng)模型自身對(duì)于文本內(nèi)容的理解是模型訓(xùn)練的核心,也是實(shí)現(xiàn)機(jī)器摘要比肩人工摘要的關(guān)鍵。

        2 TASTE模型構(gòu)建

        在本章中,將詳細(xì)描述本文提出的主題感知混合模型(TASTE),該模型由神經(jīng)主題模型和抽取-生成混合模型組成。主題模型首先獲取文本的潛在主題表示,再加入到混合模型中輔助長(zhǎng)文本的摘要生成,獲得契合主題的摘要。下面將給出神經(jīng)主題模型和抽取-生成混合模型的實(shí)現(xiàn)細(xì)節(jié)。

        2.1 神經(jīng)主題模型搭建

        根據(jù)Miao等的描述,該模型基于變分自動(dòng)編碼器(VAE)實(shí)現(xiàn)[17],模型以文檔句子的詞袋向量作為輸入。首先將原文檔的句子處理成詞袋向量xbow,xbow是一個(gè)基于詞匯表的V維向量。該神經(jīng)主題模型同樣基于編碼器-解碼器結(jié)構(gòu)實(shí)現(xiàn),其過程類似于數(shù)據(jù)的重構(gòu)過程,如圖2所示。

        圖2 推理模型q(z|d)和生成模型p(d|z)的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagrams of inference model q(z|d)and generation model p(d|z)

        編碼器部分使用帶有激活函數(shù)的多層感知機(jī)MLP(multilayer perceptrons)來計(jì)算先驗(yàn)變量μ和σ,用于生成潛在主題表示θ的中間變量z。

        其中,g(·)表示Gaussian SoftmaxgGSM(x)。

        以上公式表明,模型使用了一個(gè)基于高斯分布的神經(jīng)網(wǎng)絡(luò)來參數(shù)化潛在變量θ,使用MLP構(gòu)造了一個(gè)推理網(wǎng)絡(luò)來近似后驗(yàn)概率p(θ|d)。通過使用高斯先驗(yàn)分布,模型可以使用重新參數(shù)化的技巧來為變分分布構(gòu)建無偏和低方差梯度估計(jì)。在沒有共軛性的情況下,參數(shù)的更新仍然可以從變分下限直接推導(dǎo)出來,只是模型訓(xùn)練的速度較慢一些。通常,可以將權(quán)重矩陣當(dāng)做具體主題詞的分布,該矩陣負(fù)責(zé)將高斯樣本z轉(zhuǎn)換成主題比例θ。

        模型解碼器部分會(huì)根據(jù)獲取的主題表示θ進(jìn)行基于詞袋向量表示的重構(gòu),對(duì)于文檔中的每一個(gè)詞根據(jù)θ來提取對(duì)應(yīng)的主題-詞分布,結(jié)合所有分布獲得

        該神經(jīng)網(wǎng)絡(luò)的訓(xùn)練函數(shù)如下:

        該損失函數(shù)是基于變分下限,包括重構(gòu)損失和隱空間約束損失(使用KL散度衡量)。其中p(z)表示標(biāo)準(zhǔn)的高斯分布,q(z|d)和p(d|z)表示圖中編碼器和解碼器的工作過程。該神經(jīng)主題模型為獨(dú)立模塊,既可以與摘要模型聯(lián)合訓(xùn)練,也可以單獨(dú)訓(xùn)練,訓(xùn)練完成后根據(jù)模型計(jì)算出潛在主題θ,參與到摘要的生成。

        2.2 抽取-生成混合模型搭建

        2.2.1 抽取器

        抽取器部分使用BERT預(yù)訓(xùn)練語言模型作為編碼器將輸入序列D={s1,s2,…,sn}映射到句子表示向量H={h1,h2,…,hn},其中hi表示文檔中的第i個(gè)句子,然后解碼器利用H從D中抽取一個(gè)句子子集在Liu等[10]的基礎(chǔ)上,對(duì)模型的輸入設(shè)置進(jìn)行了稍加修改。由于原BERT模型的輸出是依托于輸入中的[CLS]符號(hào),而不是每一個(gè)句子,若需獲得每一個(gè)句子的語義表示,則需要在每個(gè)句子前面添加[CLS]標(biāo)記,在每個(gè)句子的末尾添加[SEP]標(biāo)記,以此分割長(zhǎng)文本,區(qū)分多個(gè)句子。則BERT輸出層的第i個(gè)[CLS]符號(hào)的向量就對(duì)應(yīng)第i個(gè)句子表示hi。抽取器整體架構(gòu)如圖3所示。

        圖3 抽取器模型整體架構(gòu)圖Fig.3 Extractor model overall architecture diagram

        根據(jù)BERT編碼得到句子的向量表示后,解碼器需要反復(fù)抽取句子,既要達(dá)到盡量信息覆蓋的效果,同時(shí)又要避免信息冗余。其具體實(shí)現(xiàn)如下,首先獲取基于BERT模型的句子編碼表示:

        解碼器部分使用單層單向的LSTM,以上一時(shí)刻抽取的句子的編碼表示為輸入,循環(huán)提取句子。同時(shí),為了針對(duì)長(zhǎng)文本的主題信息進(jìn)行抽取,在解碼器環(huán)節(jié)添加了潛在主題,并修改了注意力機(jī)制的構(gòu)成部分。

        其中,vg、Wg1和Wg2是可學(xué)習(xí)參數(shù)。[;]表示向量的拼接??梢詫⒆⒁饬Ψ植鸡羣視為輸入文檔中各個(gè)句子結(jié)合潛在主題的概率分布。根據(jù)注意力分布αt可以計(jì)算語義向量et,根據(jù)et、hi來計(jì)算每個(gè)句子的被抽取概率:

        其中,vp、Wp1和Wp2是可學(xué)習(xí)參數(shù)。t表示解碼步驟t時(shí)刻,jk代表所有之前抽取的句子。解碼器分為兩步執(zhí)行,相當(dāng)于執(zhí)行了兩次注意力機(jī)制,首先處理hi獲得上下文向量et,然后根據(jù)et獲取抽取概率。整個(gè)模型類似于一個(gè)分類模型,當(dāng)遇到結(jié)束符或超過指定閾值,模型就會(huì)停止抽取動(dòng)作。

        2.2.2 生成器

        生成器的主要目的是將抽取器抽取的句子壓縮改寫為簡(jiǎn)明的摘要句子,以符合人類的摘要習(xí)慣,增強(qiáng)閱讀性。本文使用See等[14]提出的指針生成網(wǎng)絡(luò)(pointergenerator networks)作為生成器網(wǎng)絡(luò)模型,同時(shí)結(jié)合潛在主題生成以主題為導(dǎo)向的最終摘要,生成器整體架構(gòu)如圖4所示。

        圖4 生成器模型整體架構(gòu)圖Fig.4 Abstractor model overall architecture diagram

        該模型帶有指針生成器和覆蓋機(jī)制,可以較好地解決未登錄詞和摘要重復(fù)問題。生成器根據(jù)抽取器獲得抽取句子的編號(hào),找到對(duì)應(yīng)句子,對(duì)句子進(jìn)行預(yù)處理。由于生成器網(wǎng)絡(luò)本身是以單個(gè)詞為最小結(jié)果單位,所以無法使用抽取器所訓(xùn)練的句子向量表示。實(shí)際上被送入生成器中的是被抽取句子分詞以后的詞向量表示。該生成器網(wǎng)絡(luò)模型使用標(biāo)準(zhǔn)的帶注意力機(jī)制的編碼器-解碼器結(jié)構(gòu),編碼器的作用在于將輸入文檔編碼成向量表示,輸入序列中的原文單詞wi被逐個(gè)送入編碼器,產(chǎn)生一系列編碼器隱含狀態(tài)hi:

        生成式摘要是以單詞為產(chǎn)出單位,生成目標(biāo)摘要時(shí)也需要加入潛在主題與前一時(shí)刻生成的單詞相結(jié)合,用以輔助摘要生成,同時(shí)修改注意力的構(gòu)成部分:

        其中,vT、Wh、Ws和battn是可學(xué)習(xí)參數(shù)。[;]表示向量的拼接。注意力分布αt可看作是當(dāng)前時(shí)刻輸入原文序列中結(jié)合潛在主題的單詞概率分布,概率分布較大的單詞是能產(chǎn)生當(dāng)前解碼輸出的核心主題單詞。注意力分布αt和編碼器隱含狀態(tài)hi進(jìn)行加權(quán)和操作,產(chǎn)生語義向量h*t。在解碼步驟t時(shí)刻,根據(jù)解碼器狀態(tài)st和語義向量h*t可以產(chǎn)生詞匯分布Pvocab:

        其中,V、V′、b和b′是可學(xué)習(xí)參數(shù)。Pvocab是詞匯表(詞匯表是事先定義好的,在本文中取訓(xùn)練集詞頻最高的前50 000個(gè)詞)中所有單詞的概率分布。

        由于生成器存在詞匯溢出問題,需要引入復(fù)制機(jī)制。利用指針網(wǎng)絡(luò)來計(jì)算概率決定是根據(jù)詞匯分布Pvocab從詞匯表中生成單詞,還是根據(jù)注意力分布αt來直接復(fù)制輸入序列中的單詞。根據(jù)語義向量h*t、解碼器狀態(tài)st和解碼器輸入xt計(jì)算指針開關(guān)pgen。根據(jù)pgen決定詞匯來源,為了增加主題詞在摘要中的出現(xiàn)概率,將潛在主題添加到開關(guān)計(jì)算部分:

        其中,σ為softmax激活函數(shù),均為參數(shù)矩陣,bptr為偏置項(xiàng)。

        生成式摘要容易出現(xiàn)摘要自我重復(fù),其原因是注意力機(jī)制反復(fù)注意到輸入序列中的某些單詞,而覆蓋機(jī)制的思想就是避免已經(jīng)獲得高注意力的詞匯再次獲得較高注意力。具體實(shí)現(xiàn)為通過以往注意力的權(quán)重來影響當(dāng)前詞匯的注意力計(jì)算。首先需要根據(jù)注意力分布αt匯總計(jì)算覆蓋矢量ct,ct代表歷史注意力信息,利用ct計(jì)算當(dāng)前詞匯注意力,同時(shí)定義覆蓋損失,參與主損失函數(shù)計(jì)算,即:

        根據(jù)公式可知,若某一詞匯之前已獲得高注意力,則其歷史注意力信息ct偏大,covlosst等于,為降低損失,必然要降低該詞匯的再次注意力,這樣就不會(huì)再次注意到該詞匯,從而解決了重復(fù)問題。

        該混合摘要模型涉及三個(gè)模塊,即主題模塊、抽取器和生成器。主題模塊可以視為一個(gè)單獨(dú)模塊,可以預(yù)先訓(xùn)練,不影響主模型的訓(xùn)練進(jìn)程,且小數(shù)據(jù)集的主題模型訓(xùn)練運(yùn)算量相對(duì)較小,一天以內(nèi)就可以收斂到一個(gè)不錯(cuò)的范圍。主模型主要是抽取器模塊和生成器模塊,在常規(guī)摘要算法中直接使用生成式模型對(duì)長(zhǎng)文本進(jìn)行逐個(gè)字的摘要生成的計(jì)算復(fù)雜度遠(yuǎn)高于抽取式方法,這也是抽取式模型的文本處理能力強(qiáng)于生成式模型的一個(gè)重要原因。如一篇n字的文本分為m句話,生成器使用的詞匯表維度為Vvocab,抽取器和生成器的時(shí)間復(fù)雜度大致估算如下:

        Vin表示輸入維度,Vout表示輸出維度,Lde表示解碼器部分的神經(jīng)網(wǎng)絡(luò)層數(shù)。當(dāng)文本長(zhǎng)度n較大時(shí),復(fù)雜度會(huì)急劇增加,加之生成器模型無法并行計(jì)算,生成器模型的運(yùn)算就會(huì)變得非常緩慢,影響運(yùn)行效率。本文結(jié)合兩種摘要方式,首先利用抽取器壓縮文本規(guī)模,大大縮減了生成器模塊的計(jì)算量,是針對(duì)長(zhǎng)文本摘要來說采取的一種較為合理的降低復(fù)雜度的方式。

        基于實(shí)驗(yàn)發(fā)現(xiàn),本文將模型分為主題模型,抽取器和生成器三個(gè)模塊分別進(jìn)行工作時(shí),實(shí)驗(yàn)效果不佳,無法找到共同收斂點(diǎn)。于是改進(jìn)了實(shí)驗(yàn),讓三者聯(lián)合訓(xùn)練。同時(shí)由于神經(jīng)主題模型和抽取器、生成器模型共同訓(xùn)練的時(shí)候,神經(jīng)主題模型的收斂速度要遠(yuǎn)遠(yuǎn)慢于混合模型。因此,每對(duì)神經(jīng)主題模型進(jìn)行100個(gè)epoch的預(yù)訓(xùn)練,對(duì)抽取器模型只進(jìn)行一個(gè)epoch的訓(xùn)練,同時(shí)建立聯(lián)合損失函數(shù):

        其中,α和β是為了平衡各個(gè)子模型而設(shè)置的超參數(shù)。

        最后使用維特比算法的貪心形式——集束搜索(beam search)來生成最終摘要。集束搜索衡量了搜索空間和獲取到最優(yōu)解的概率雙重因素,模型設(shè)置集束搜索的集束寬度為10,即每次只保留概率最大的10個(gè)結(jié)果繼續(xù)按照詞表搜索,直到生成動(dòng)作結(jié)束。同時(shí),借鑒于Zhong等[11]處理冗余的trigram blocking思想,在集束搜索時(shí)加入一個(gè)rerank操作,即每次對(duì)集束搜索生成的10個(gè)句子進(jìn)行一次重新排序。排序的依據(jù)為2-grams的重復(fù)次數(shù),要求2-grams的重復(fù)次數(shù)越小越好,以此降低生成摘要的冗余情況。

        3 實(shí)驗(yàn)與結(jié)果分析

        本章報(bào)告本文模型在真實(shí)數(shù)據(jù)集上進(jìn)行長(zhǎng)文本摘要的實(shí)驗(yàn)結(jié)果。

        3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        在本次實(shí)驗(yàn)中,為了驗(yàn)證本文所提出模型的可行性和有效性,模型同時(shí)在英文數(shù)據(jù)集和中文數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn)。中文數(shù)據(jù)集選用NLPCC2018共享任務(wù)3提供的中文單文檔語料庫TTNews。該數(shù)據(jù)集包含50 000條訓(xùn)練數(shù)據(jù)、2 000條驗(yàn)證集和2 000條測(cè)試集(無參考摘要)。該數(shù)據(jù)集是一個(gè)長(zhǎng)文本摘要數(shù)據(jù)集,其平均長(zhǎng)度統(tǒng)計(jì)如表1所示。與經(jīng)典的LCSTS數(shù)據(jù)集相比,該數(shù)據(jù)集的實(shí)驗(yàn)效果更具有說服力。

        表1 TTNews文本長(zhǎng)度統(tǒng)計(jì)Table 1 TTNews text length statistics

        英文數(shù)據(jù)集選用CNN/Daily Mail數(shù)據(jù)集。該數(shù)據(jù)集是文本摘要領(lǐng)域的經(jīng)典數(shù)據(jù)集,眾多突破性實(shí)驗(yàn)都是在該數(shù)據(jù)集上實(shí)驗(yàn)成功的。該數(shù)據(jù)集將近30多萬條訓(xùn)練數(shù)據(jù),10 000余條驗(yàn)證集數(shù)據(jù)、10 000余條驗(yàn)證集。該數(shù)據(jù)集不但數(shù)據(jù)量足夠龐大,而且文本數(shù)據(jù)長(zhǎng)度較長(zhǎng),適合本實(shí)驗(yàn)。數(shù)據(jù)以及參考摘要的質(zhì)量較高,生成的摘要效果更好,其平均長(zhǎng)度統(tǒng)計(jì)如表2所示。

        表2 CNN/Daily Mail文本長(zhǎng)度統(tǒng)計(jì)Table 2 CNN/Daily Mail text length statistics

        評(píng)價(jià)指標(biāo)方面依舊采用文本摘要領(lǐng)域經(jīng)典的ROUGE指標(biāo)對(duì)模型生成的摘要進(jìn)行評(píng)估。采用廣泛使用的ROUGE-1.5.5工具包進(jìn)行效果檢驗(yàn)。由于ROUGE工具無法直接對(duì)TTNews中文數(shù)據(jù)集使用,若使用分詞以后的數(shù)據(jù)進(jìn)行評(píng)判效果差異較大,不具備說服力。于是將中文字符轉(zhuǎn)換為數(shù)字ID,再進(jìn)行ROUGE評(píng)估。

        3.2 數(shù)據(jù)預(yù)處理和參數(shù)設(shè)置

        在實(shí)驗(yàn)之前需要對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行清洗,并進(jìn)行一些預(yù)處理。其中CNN/Daily Mail比較經(jīng)典,直接按照See等[14]的做法,使用斯坦福大學(xué)的Standford CoreNLP工具包進(jìn)行分詞處理,去除其中的特殊符號(hào),由于本文是針對(duì)長(zhǎng)文本展開討論,所以去除掉原文本中長(zhǎng)度小于300個(gè)字符的數(shù)據(jù),留下較長(zhǎng)的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)訓(xùn)練。

        對(duì)于TTNews數(shù)據(jù)集,首先過濾掉重復(fù)的新聞?wù)獙?duì)和無效的新聞?wù)獙?duì)(無效情況包括:(1)缺少摘要;(2)缺少原始新聞;(3)新聞和摘要不匹配;(4)原文本長(zhǎng)度小于300)。采用jieba分詞工具進(jìn)行中文分詞。同時(shí),文中的模型是分為抽取器和生成器兩塊進(jìn)行實(shí)驗(yàn)的,抽取器需要獲得抽取顯著句子的能力。而數(shù)據(jù)集中只有文檔-參考摘要數(shù)據(jù)。并沒有表明每個(gè)句子的提取標(biāo)簽。因此,需要制定一個(gè)簡(jiǎn)單的相似性方法來為文檔中的句子打上“標(biāo)簽”。使用ROUGE值尋找最相似的文檔句子:

        di為文檔句子,st為參考摘要。選取一定比例的句子打上標(biāo)簽?;跇?biāo)簽使用最小化交叉熵?fù)p失進(jìn)行訓(xùn)練。

        關(guān)于詞向量部分,英文數(shù)據(jù)集采用了經(jīng)典的Glove詞向量,維度選擇為300維。由于目前中文數(shù)據(jù)集領(lǐng)域缺乏比較權(quán)威的中文詞向量,實(shí)驗(yàn)前期嘗試使用過北師大[18]提供的中文詞向量??赡苡捎谖谋绢I(lǐng)域或其他問題,實(shí)驗(yàn)效果不佳。因此依舊選中了word2vec自動(dòng)生成詞向量,利用模型自主訓(xùn)練。

        模型參數(shù)設(shè)置方面,抽取器模塊的編碼器部分針對(duì)中英文數(shù)據(jù)集分別使用BERTBASE和BERTBASE-Chinese預(yù)訓(xùn)練語言模型。文中使用到的所有LSTM的隱藏層單元大小設(shè)置為256。抽取器和生成器都使用Adam優(yōu)化器(模型同樣嘗試了SGD和Adagrad優(yōu)化器,實(shí)驗(yàn)表明,不同優(yōu)化器經(jīng)過訓(xùn)練都可以使得模型向最優(yōu)點(diǎn)收斂,只是訓(xùn)練的時(shí)間存在些許差距。),初始學(xué)習(xí)率都為1E-3,L2正則項(xiàng)系數(shù)都為1E-5。對(duì)于主題模型,設(shè)置主題數(shù)K=15。當(dāng)抽取器、生成器與主題模型三者一起聯(lián)合訓(xùn)練時(shí),通過實(shí)驗(yàn)發(fā)現(xiàn)(如圖5所示),設(shè)置各個(gè)損失函數(shù)的權(quán)重接近時(shí),模型效果最佳。則設(shè)置損失函數(shù)的調(diào)節(jié)參數(shù)α和β都等于1。對(duì)于集束搜索,設(shè)置集束寬度(beam size)為10,設(shè)置詞表大小為50 000。

        圖5 α和β系數(shù)變化影響圖Fig.5 α and β coefficient change influence diagram

        最后,模型在NVIDIA GTX1080TI GPU上進(jìn)行了實(shí)驗(yàn),整個(gè)模型接受了40個(gè)小時(shí)的訓(xùn)練。

        3.3 實(shí)驗(yàn)結(jié)果分析

        3.3.1 復(fù)雜度分析

        基于BERT預(yù)訓(xùn)練模型的抽取器編碼器在訓(xùn)練階段,由于參數(shù)量較為龐大,需要4塊顯存11 GB的GPU進(jìn)行長(zhǎng)達(dá)40個(gè)小時(shí)的訓(xùn)練。鑒于BERT模型的兼容性和普適性,模型一經(jīng)訓(xùn)練完成,將適配多種領(lǐng)域的文本內(nèi)容進(jìn)行摘要。同時(shí),由于本文將長(zhǎng)文本摘要工作分成了抽取器和生成器兩部分完成。減低了生成器的數(shù)據(jù)處理量,且生成器模塊的訓(xùn)練可以與抽取器模塊的訓(xùn)練同時(shí)進(jìn)行。所以整個(gè)模型的訓(xùn)練速度仍然比單純使用生成器進(jìn)行文本摘要的速度快。整個(gè)模型的訓(xùn)練復(fù)雜度對(duì)比如表3所示。

        表3 各模型訓(xùn)練復(fù)雜度對(duì)比表Table 3 Comparison table of training complexity of each model

        3.3.2 CNN/Daily Mail

        表4為CNN/Daily Mail數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,表5為該數(shù)據(jù)集上的摘要對(duì)比示例。由于對(duì)數(shù)據(jù)集中小于300個(gè)字符的數(shù)據(jù)進(jìn)行了去除,而大部分模型對(duì)這部分短文本的測(cè)試數(shù)據(jù)集的生成效果都極好,指標(biāo)評(píng)價(jià)分?jǐn)?shù)都較高,所以本文特意根據(jù)對(duì)應(yīng)論文中給出的代碼鏈接復(fù)現(xiàn)了相應(yīng)模型,再用同樣處理的數(shù)據(jù)集進(jìn)行測(cè)試。由于都是針對(duì)較長(zhǎng)文本進(jìn)行的測(cè)試,實(shí)驗(yàn)效果并沒有原始論文中給定的那么好(TTNews數(shù)據(jù)集同理)。具體的對(duì)比模型如下:

        表4 CNN/Daily Mail(length>300)各模型結(jié)果評(píng)價(jià)表Table 4 CNN/Daily Mail(length>300)evaluation table for each model result 單位:%

        表5 CNN/Daily Mail數(shù)據(jù)集摘要示例Table 5 CNN/Daily Mail dataset summary example

        Lead-3:最傳統(tǒng)最簡(jiǎn)單的抽取式摘要模型,只需要選擇文檔的前三句話來組成摘要的基線模型,其模型效果卻非常出色,甚至超越很多復(fù)雜的深度學(xué)習(xí)模型。

        Pointer Generator(后面簡(jiǎn)稱P-Gen)[14]:由See等[14]提出,為生成式摘要領(lǐng)域的里程碑式工作,該模型提出的指針生成器和覆蓋機(jī)制完美的解決了生成式文本摘要的OOV詞和摘要重復(fù)的兩大難題。

        fast_abs_rl[19]:由Chen等[19]提出的一種較為復(fù)雜的強(qiáng)化選擇句子改寫模型。該模型是典型的兩階段式摘要模型,由一個(gè)抽取器和一個(gè)生成器組成,其中抽取器首先從源文檔中抽取出顯著句子,然后生成器重寫抽取的顯著句子以獲得一個(gè)完整的摘要。同時(shí),該模型也是本文的基線模型。

        REFRESH[9]:將抽取式文本摘要任務(wù)視為句子排序的Ranking問題,是首個(gè)使用強(qiáng)化學(xué)習(xí)的方法替代傳統(tǒng)的交叉熵?fù)p失訓(xùn)練方法的模型。

        Bottom-Up[20]:由Gehrmann等人提出的一種自底向上的摘要方法,也是一種兩階段式摘要模型,第一階段先做序列標(biāo)注,找出原文中可能與摘要相關(guān)的單詞。第二階段,使用這些相關(guān)的詞匯為約束,進(jìn)行生成式文本摘要。

        表4中,TASTE表示本文的模型,TASTE-a表示抽取器和生成器均為未添加潛在主題,TASTE-b表示只在抽取器中添加潛在主題,TASTE-c表示只在生成器中添加潛在主題,TASTE表示在抽取器和生成器中均添加潛在主題。同時(shí)文中用方框圈出了潛在主題分布中權(quán)重較高主題詞,進(jìn)一步說明了主題模型對(duì)于長(zhǎng)文本摘要的指導(dǎo)意義。

        從表4中的數(shù)據(jù)可以看出本文模型實(shí)現(xiàn)了最好的模型效果,相對(duì)于同類型的模型有1~2個(gè)點(diǎn)的提升。但同時(shí)也注意到,只在生成器中添加潛在主題,對(duì)模型的效果提升較為明顯。通過分析發(fā)現(xiàn),主要是由于該潛在主題模型是基于文檔主題詞建立的一種“特殊”的注意力機(jī)制,是一種基于詞級(jí)別的注意力機(jī)制。而在抽取器模型中,抽取粒度是句子級(jí)別的,以詞級(jí)別的注意力來輔助句子級(jí)別的摘要抽取,效果可能不是特別明顯。而另一方面,在生成器中,摘要以單個(gè)的詞為產(chǎn)出單位,形成了詞級(jí)別的注意力和該主題模型提取到的潛在主題是一個(gè)維度上的。相當(dāng)于是對(duì)原來的注意力進(jìn)行了又一次檢驗(yàn):若原注意力機(jī)制與該潛在主題同時(shí)注意到某個(gè)詞語,則這個(gè)詞語的注意力就被增強(qiáng)了。若之前的注意力注意到了某個(gè)錯(cuò)誤的詞語,而主題模型沒有發(fā)現(xiàn),則兩者疊加,就可以削弱該詞的注意力。從而緩解摘要模型造成的“錯(cuò)誤”。

        3.3.3 TTNews

        同樣由于模型去除了該中文數(shù)據(jù)集中300字以下的數(shù)據(jù)。只留下文本長(zhǎng)度較長(zhǎng)的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)獲得的指標(biāo)數(shù)據(jù)與NLPCC2018公布的參賽數(shù)據(jù)不具備可比性,所以未與該類模型數(shù)據(jù)進(jìn)行比較。只針對(duì)同樣數(shù)據(jù)集下所復(fù)現(xiàn)的相關(guān)模型進(jìn)行了比較。表6為TTNews數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,表7為該數(shù)據(jù)集上的摘要對(duì)比示例。

        表6 TTNews(length>300)各模型結(jié)果評(píng)價(jià)表Table 6 TTNews(length>300)evaluation table for each model result 單位:%

        表7 TTNews數(shù)據(jù)集摘要示例Table 7 TTNews dataset summary example

        表6中的數(shù)據(jù)可以看出,在中文數(shù)據(jù)集中,傳統(tǒng)的堅(jiān)實(shí)的Lead-3模型與其他模型差距拉大,主要由于中文的較長(zhǎng)文本中,往往前三句是關(guān)于一些基礎(chǔ)背景的描述并不涉及核心主題。所以模型捕捉不到長(zhǎng)文本的核心內(nèi)容,效果不佳。另一方面,模型也出現(xiàn)了和英文數(shù)據(jù)集中一樣的情況,對(duì)于只在生成器中添加潛在主題,對(duì)模型的效果提升較為明顯。在具體實(shí)驗(yàn)中,發(fā)現(xiàn)該基于主題的摘要有時(shí)也會(huì)出現(xiàn)一些紕漏,其在一些娛樂類、故事類、劇情類等具有較強(qiáng)連貫邏輯的文本中,摘要效果會(huì)出現(xiàn)下滑。本文在實(shí)驗(yàn)時(shí)對(duì)該部分?jǐn)?shù)據(jù)集進(jìn)行了避讓。同時(shí),模型在時(shí)政類、報(bào)道類等以信息平鋪為主的文本中實(shí)驗(yàn)效果較好,如何針對(duì)所有領(lǐng)域文本都可以實(shí)現(xiàn)較好的摘要效果是往后的研究重心。

        4 結(jié)語

        本文提出了一種基于主題感知的抽取-生成混合文本自動(dòng)摘要的模型,該模型在早期研究基礎(chǔ)上[21],針對(duì)長(zhǎng)文本摘要中的文本主題指導(dǎo)的重要作用,加入主題感知模塊,有效提高了文本摘要的效果和質(zhì)量。特別對(duì)于長(zhǎng)文本的處理,該模型幾乎可以和人類摘要的方式一樣,圍繞主題生成摘要,簡(jiǎn)短精煉,直擊主題。同時(shí)通過在TTNews和CNN/Daily Mail數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型生成摘要ROUGE分?jǐn)?shù)提升了1~2個(gè)百分點(diǎn),實(shí)際的摘要案例也直觀表明了本文模型的優(yōu)勢(shì)。但對(duì)于真正過長(zhǎng)的文本進(jìn)行摘要時(shí),確實(shí)存在太多的不確定性因素,出于閱讀者和觀察點(diǎn)的不同,很難生成令所有人滿意的摘要。若可以根據(jù)用于在網(wǎng)絡(luò)上留下的足跡和標(biāo)簽,提前獲取用戶的閱讀喜好,提取用戶關(guān)注的主題信息,以此輔助摘要生成,則可以實(shí)現(xiàn)針對(duì)特定用戶生成特定摘要的長(zhǎng)文本摘要系統(tǒng),從而全面提升用戶體驗(yàn)。在之后的研究中,將向此方向繼續(xù)努力。

        猜你喜歡
        解碼器編碼器注意力
        讓注意力“飛”回來
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        基于FPGA的同步機(jī)軸角編碼器
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        A Beautiful Way Of Looking At Things
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        日本一级片一区二区三区| 99国产超薄丝袜足j在线播放| 午夜无码片在线观看影院y| 色婷婷亚洲精品综合影院| 97一期涩涩97片久久久久久久| 亚洲av第一页国产精品| 亚洲另类激情专区小说婷婷久 | 日日噜噜夜夜狠狠va视频v| 精品亚洲欧美无人区乱码| 中文字幕国产精品中文字幕| 亚洲最大不卡av网站| 内射夜晚在线观看| 亚洲精品久久久久久| 国产91AV免费播放| 日本在线观看不卡一区二区| 中文字幕日韩一区二区不卡| 国产三级在线视频播放| 99精品又硬又爽又粗少妇毛片 | 日本亚洲国产一区二区三区| 欧美国产伦久久久久久久| 国产一区二区三区色哟哟| 亚洲国产成人片在线观看| 欧美日本国产三级在线| 国产青春草在线观看视频| 无码爽视频| 国产在线观看免费观看| 99日本亚洲黄色三级高清网站| 海外华人在线免费观看| 亚洲精品www久久久| 无码日韩人妻AV一区免费| 久久青青草原一区网站| 日本一区二区三区免费播放| 亚洲男同志gay 片可播放| 亚洲成人激情在线影院| av在线观看一区二区三区| 精产国品一二三产区m553麻豆| 99在线国产视频| 亚洲自拍偷拍色图综合| 丰满人妻被黑人猛烈进入| 美女高潮流白浆视频在线观看| 久久精品熟女亚洲av香蕉|