亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合卷積收縮門控的生成式文本摘要方法

        2024-02-29 04:39:20甘陳敏唐宏楊浩瀾劉小潔劉杰
        計(jì)算機(jī)工程 2024年2期
        關(guān)鍵詞:文本模型

        甘陳敏,唐宏,楊浩瀾,劉小潔,劉杰

        (1.重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué)移動(dòng)通信技術(shù)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)

        0 引言

        自動(dòng)文本摘要技術(shù)是自然語(yǔ)言處理領(lǐng)域中的重點(diǎn)研究方向,將信息瑣碎的長(zhǎng)文本壓縮精煉后,產(chǎn)生一段關(guān)鍵信息集中且語(yǔ)言簡(jiǎn)潔的短文本,獲取有價(jià)值的內(nèi)容[1]。

        依據(jù)產(chǎn)生方法的不同,自動(dòng)文本摘要技術(shù)可分為抽取式(Extractive)方法和生成式(Abstractive)方法[2]。盡管機(jī)器模型難以完全理解自然語(yǔ)言的深層詞意,生成式方法易產(chǎn)生重復(fù)冗余的內(nèi)容,不能完全把握文本關(guān)鍵信息[3],但是生成式摘要更符合人類邏輯思維對(duì)文本的撰寫習(xí)慣,比抽取式方法的應(yīng)用更加廣泛。

        當(dāng)前,在生成式文本摘要方法中基于深度學(xué)習(xí)的主流模型是結(jié)合注意力機(jī)制的Seq2Seq 模型[4],遵循編碼-解碼框架,編碼器能夠準(zhǔn)確地編碼輸入文本,學(xué)習(xí)文本的隱含特征和重要信息,解碼器根據(jù)上下文的注意力分?jǐn)?shù)提取信息解碼生成摘要。特別地,隨著文獻(xiàn)[5]提出將基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為編碼器和解碼器構(gòu)建文本摘要生成模型,融合注意力機(jī)制取得優(yōu)異成績(jī)。后續(xù)大部分研究開始在此基礎(chǔ)上加以創(chuàng)新,更新了一系列網(wǎng)絡(luò)模型,使得文本摘要評(píng)價(jià)指標(biāo)ROUGE[6]的分?jǐn)?shù)有所增加。

        針對(duì)Seq2Seq 模型受到詞表限制,難以解決集外詞(OOV)的困擾,文獻(xiàn)[5]在指針網(wǎng)絡(luò)[7]的基礎(chǔ)上設(shè)置“開關(guān)”,提出Switching Generator-pointer 模型,獨(dú)立計(jì)算生成概率和復(fù)制概率來(lái)緩解上述問題。文獻(xiàn)[8]提出復(fù)制機(jī)制,從輸入序列復(fù)制生詞到輸出序列中,彌補(bǔ)集外詞的空缺。文獻(xiàn)[9]結(jié)合復(fù)制機(jī)制和指針網(wǎng)絡(luò)提出指針生成網(wǎng)絡(luò)(PGN),巧妙地利用覆蓋機(jī)制[10]緩解重復(fù)詞語(yǔ)問題,在CNNDM 數(shù)據(jù)集上獲取當(dāng)時(shí)最優(yōu)結(jié)果。隨著對(duì)神經(jīng)網(wǎng)絡(luò)模型認(rèn)識(shí)的不斷深化,RNN 原理架構(gòu)的弊病逐漸暴露。比如,RNN 及變體都是逐詞按序處理,難于實(shí)現(xiàn)并行計(jì)算,導(dǎo)致在訓(xùn)練模型和生成摘要階段效率低下。此外,RNN 在編碼階段得到的前后信息僅簡(jiǎn)單地拼接,對(duì)單詞間的聯(lián)系缺乏有效建模,不可避免地出現(xiàn)丟失文本關(guān)鍵內(nèi)容,生成的摘要中包含重復(fù)和冗余詞句,主次顛倒,偏離文本原意。

        文獻(xiàn)[11]提出一種全新的完全基于注意力機(jī)制構(gòu)建的預(yù)訓(xùn)練語(yǔ)言模型Transformer,具備快速并行計(jì)算的能力和強(qiáng)大的特征提取能力,逐漸被應(yīng)用于文本摘要任務(wù)。文獻(xiàn)[12]引入BERT[13]模型,提出一個(gè)通用的編碼框架,能同時(shí)用于抽取式摘要和生產(chǎn)式摘要。文獻(xiàn)[14]將BERT 與生成式預(yù)訓(xùn)練Transformer(GPT)[15]聯(lián)合預(yù)訓(xùn)練組成BART 模型,在摘要數(shù)據(jù)集上進(jìn)行微調(diào),其ROUGE 評(píng)價(jià)獲得當(dāng)下較高的分?jǐn)?shù)。文獻(xiàn)[16]提出語(yǔ)言生成任務(wù)(ERNIE-GEN)模型,通過(guò)連續(xù)預(yù)測(cè)語(yǔ)義完整的跨度生成流程,訓(xùn)練模型生成更接近人類寫作模式的文本。此外,文獻(xiàn)[17]提出的間隔句以Transformer 結(jié)構(gòu)為基礎(chǔ),探索為抽象文本摘要量身定制的預(yù)訓(xùn)練目標(biāo)。上述模型在Transformer 的基礎(chǔ)上設(shè)計(jì)新的訓(xùn)練方式,卻未能尋求更適用于文本摘要任務(wù)的模型結(jié)構(gòu)。

        本文以Transformer 為基礎(chǔ)預(yù)訓(xùn)練語(yǔ)言模型,利用其優(yōu)勢(shì)設(shè)計(jì)性能更佳的文本摘要生成模型。在編碼器階段,選擇BERT 作為編碼器提取文本特征并生成編碼字向量,在解碼器階段,搭配基礎(chǔ)Transformer 解碼架構(gòu),設(shè)計(jì)兩種改進(jìn)的解碼器,包括共享BERT 作為解碼器部分模塊和采用GPT 作為解碼器部分模塊,以更有效地融合編碼輸出和解碼輸出,提升模型性能和文本摘要生成的質(zhì)量。

        1 基于Transformer 和卷積收縮門控的文本摘要模型

        本文在Transformer 模型的基礎(chǔ)上進(jìn)行改進(jìn)和完善,提出基于Transformer 和卷積收縮門控的文本摘要模型,模型結(jié)構(gòu)如圖1 所示,包括編碼器、卷積收縮門控單元和解碼器。編碼器采用BERT 模型讀取輸入文本構(gòu)建編碼表示,由卷積收縮單元和門控單元組成的卷積收縮門控單元篩選與全局語(yǔ)義相關(guān)的有用信息作為編碼輸出。解碼器除了選擇基礎(chǔ)的Transformer 解碼模塊構(gòu)建TCSG 模型外,還設(shè)計(jì)了共享BERT 編碼器作為解碼器部分的ES-TCSG 模型與采用GPT 作為解碼器部分的GPT-TCSG 模型。

        圖1 文本摘要模型Fig.1 Text summarization model

        1.1 問題形式化

        給定源文檔D,將其表示為輸入序列X={x1,x2,…,xn},其中n表示輸入序列的長(zhǎng)度。自動(dòng)文本摘要技術(shù)的目標(biāo)就是將D作為模型輸入,經(jīng)過(guò)訓(xùn)練生成簡(jiǎn)短文本摘要序列Y={y1,y2,…,ym},其中m表示輸出文本長(zhǎng)度,且輸出文本長(zhǎng)度m要遠(yuǎn)小于輸入文本長(zhǎng)度n。模型通過(guò)輸入序列X逐步最大化得到生成摘要序列Y的概率,盡可能提高生成的摘要Y和參考摘要Y′的相似度。

        1.2 編碼器

        BERT 能夠雙向建模做到并發(fā)執(zhí)行,可以獲取更多的上下文信息,全面地反映句子語(yǔ)義,更適用于需要編譯大量文本的任務(wù)。其結(jié)構(gòu)基于多層Transformer 的編碼模塊,主要包含多頭注意力層和前饋網(wǎng)絡(luò)層。多頭注意力層期于獲取單詞之間的聯(lián)系分?jǐn)?shù)和上下文表示向量,如式(1)所示:

        其中:自注意力機(jī)制的輸入是由同一單詞轉(zhuǎn)換成的查詢(Q)、鍵(K)、值(V)3 個(gè)向量,且Q=K=V=x;分別為對(duì)應(yīng)第i個(gè)頭的可學(xué)習(xí)的參數(shù)矩陣;Wo∈Rhdv×d表示線性變換,dk和dv分別對(duì) 應(yīng)K向量和V向量的維度,d表 示模型輸入輸出維度,h表示多頭注意力層的頭數(shù),且dk=dv=d/h。

        前饋網(wǎng)絡(luò)層作用在多頭注意力層之上,以此增強(qiáng)模型的非線性擬合能力,計(jì)算公式如下:

        其中:W1∈Rd×df、W2∈Rdf×d表 示線性變換,df表示該前向反饋層的維度;b1和b2為偏量參數(shù)。

        此外,本文解碼模塊也都基于Transformer 結(jié)構(gòu),其方法及公式與編碼模塊相同,故本文不再贅述。

        1.3 卷積收縮門控單元

        相對(duì)比其他自然語(yǔ)言處理任務(wù),文本摘要更注重把握文本重要內(nèi)容,生成語(yǔ)義通順內(nèi)容簡(jiǎn)介的摘要。因此對(duì)于文本摘要任務(wù),除了能有效地提取關(guān)鍵信息外,還需要減少生成重復(fù)冗余信息,尤其是生成式摘要模型。文獻(xiàn)[18]引入自匹配機(jī)制,在編碼階段增加全局自匹配層獲取全局信息和全局門控單元抽取文本核心內(nèi)容,去除冗余。文獻(xiàn)[19]提出由卷積門控單元組成的全局編碼框架,改善源端信息表示,并基于新的編碼表示進(jìn)行關(guān)鍵信息篩選。而文獻(xiàn)[20]在Transformer 模型上引入卷積門控單元,設(shè)計(jì)3 種連接方式的解碼器,充分利用卷積門控的優(yōu)勢(shì)去篩選文本關(guān)鍵內(nèi)容。實(shí)驗(yàn)結(jié)果表明,有效地融合BERT 和卷積門控單元能大幅提升模型性能。

        受上述研究的啟發(fā),本文同樣在卷積門控單元的基礎(chǔ)上緩解摘要中重復(fù)冗余的問題。與上述研究不同,提出的卷積收縮門控(CSG)單元進(jìn)一步加強(qiáng)了模型抑制冗余信息的能力,如圖2 所示。

        圖2 卷積收縮門控單元Fig.2 Convolutional shrinkage gating unit

        卷積門控單元主要由多個(gè)不同卷積核的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模塊、采用自注意力機(jī)制的注意力模塊和門控網(wǎng)絡(luò)模塊組成。本文沿用CNN 模塊使用多個(gè)(內(nèi)核大小k=1,3,5)一維卷積提取n-gram 特征,遵循Inception 的設(shè)計(jì)原則,選擇兩個(gè)3 核代替5核,以避免內(nèi)核大幅增加計(jì)算量(見圖2 右側(cè)虛框內(nèi))。具體計(jì)算公式如式(5)所示:

        其中:ci為卷積輸出;Wc表示權(quán)重 參數(shù);δ是非線 性ReLU 激活函數(shù);di-k/2,…,di+k/2表示卷積核窗口的滑動(dòng)位置i為窗口的中間位置;b為偏量。卷積單元能實(shí)現(xiàn)參數(shù)共享,提取句子中的共同特征。注意力層在CNN 模塊結(jié)果上能實(shí)現(xiàn)特征表示的自關(guān)注,深度挖掘全局語(yǔ)義相關(guān)的信息。然而,每個(gè)特征表示都融入全局信息會(huì)造成冗余。為有效地減少干擾,進(jìn)一步抑制無(wú)用信息,本文采用帶有軟閾值的深度注意力模塊代替自注意力機(jī)制。

        軟閾值化是一種常用的信號(hào)降噪方法,通過(guò)對(duì)閾值進(jìn)行設(shè)置,將低于該值的特征截?cái)酁?,其他特征也朝著0 進(jìn)行調(diào)整,即“收縮”[21]。本文將 其思想引入到文本處理中,根據(jù)文本編碼表示設(shè)置一定的閾值,刪除小于閾值絕對(duì)值范圍內(nèi)的特征表示,期于抑止不重要單詞的干擾和構(gòu)建高分辨特征。計(jì)算方法如下:

        其中:x是輸入特 征;y是輸出特征;τ是正參數(shù)的 閾值。軟閾值并非將負(fù)特征直接設(shè)為0,而是根據(jù)它們的實(shí)際貢獻(xiàn)程度來(lái)選擇保留部分有價(jià)值的負(fù)特征。由式(6)可以觀察到,輸出對(duì)輸入的導(dǎo)數(shù)為1 或0,能有效避免梯度消失和爆炸問題。

        人工操作設(shè)置合適的閾值是當(dāng)前一大難題,此外,閾值參數(shù)的最佳值也因情況而異。為避免該情況,需要尋求在深層體系結(jié)構(gòu)中模型能夠自動(dòng)確定閾值。壓縮與激勵(lì)網(wǎng)絡(luò)(SENet)能將關(guān)注點(diǎn)放在特征通道之間的聯(lián)系上。SE 模塊通過(guò)壓縮和激勵(lì)操作幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每個(gè)特征通道的重要程度,并依此去減少對(duì)當(dāng)前任務(wù)無(wú)用的或不必要的特征,又稱作“特征重標(biāo)定”策 略[22]。如 圖2 所示,首先將CNN 模塊的輸出c作為輸入通過(guò)全局平均池化(GAP)進(jìn)行特征映射并壓縮,將通道中整個(gè)空間特征編碼為一個(gè)全局特征,得到一維向量g;然后將向量g傳播到兩個(gè)全連接層(FC)中,衡量通道間的相關(guān)性,并得到和輸入特征相同數(shù)量的權(quán)重,輸出一個(gè)縮放參數(shù);最后在末端應(yīng)用能將縮放參數(shù)控制在(0,1)范圍內(nèi)的Sigmoid 函數(shù)。計(jì)算表達(dá)式為:

        其中:W1和W2表示權(quán)重參數(shù);δ是ReLU 激活函數(shù);σ是Sigmoid 歸一化函數(shù);α為對(duì)應(yīng)的歸一化后的縮放權(quán)重參數(shù)。類似于注意力機(jī)制,將α視為對(duì)每個(gè)特征通道經(jīng)過(guò)選擇后的重要程度,乘以對(duì)應(yīng)通道的特征向量,完成在通道維度上對(duì)原始特征的重標(biāo)定,并將加權(quán)后的特征向量作為模塊的輸出,使模型具備更高的分辨能力去判斷各個(gè)特征通道的貢獻(xiàn)度。計(jì)算實(shí)現(xiàn)過(guò)程如下:

        其中:τ表示閾值;Zc表示輸入c的特征映射。在開始時(shí),閾值需要預(yù)先設(shè)置為趨于0 的正參數(shù),并在后續(xù)學(xué)習(xí)中自動(dòng)修正。通過(guò)帶閾值的深度注意力機(jī)制削弱無(wú)用特征,保留核心信息。

        最后,門控單元基于上下文的全局信息控制從編碼器到解碼器的信息流篩選得到最終的編碼輸出h:

        其中:hb表示BERT 的輸出;hc表示卷積收縮門控單元的輸出。hc通過(guò)Sigmoid 函數(shù)在每個(gè)維度上輸出介于0~1 之間的向量,該值接近0 則刪除大部分信息,接近1 則保留大部分信息。

        1.4 解碼器

        在文本摘要任務(wù)中,解碼器作為決定摘要生成質(zhì)量的最后一個(gè)關(guān)鍵點(diǎn)是必不可少的。它將編碼器輸出和解碼器上一時(shí)間步輸出合并在一起作為輸入,來(lái)計(jì)算當(dāng)前時(shí)間步的輸出。本文將致力于探求最佳的解碼結(jié)構(gòu)來(lái)更有效地融合編碼輸出和解碼輸出,在Transformer 結(jié)構(gòu)基礎(chǔ)上對(duì)比3 種不同連接方式的解碼器變體,并進(jìn)行實(shí)驗(yàn)和分析。

        1)Base-Decoder:基于多 層Transformer 解碼模塊,根據(jù)文本編碼信息初始化解碼器后,對(duì)當(dāng)下時(shí)間步t之前所有解碼輸出(即已經(jīng)生成的摘要)序列Y={y0,y1,…,yt-1}進(jìn)行編碼,得到新的解碼隱狀態(tài)序列S={s0,s1,…,st-1}。之后根據(jù)S與編碼輸出h預(yù)測(cè)當(dāng)下時(shí)間步t的解碼輸出yt。以此類推,最終生成摘要序列。

        2)ES-Decoder:在解碼過(guò)程中,解碼器需要對(duì)解碼輸出重新編碼,而編碼器對(duì)文本輸入序列進(jìn)行編碼,兩個(gè)模塊在功能上具有相似性。文獻(xiàn)[23]在Transformer 結(jié)構(gòu)上提出編碼器共享,直接將編碼器代替功能相似的解碼器模塊,優(yōu)化模型性能。故本文參考其思路將BERT 編碼器作為解碼模塊,去掉解碼器中多余的多頭注意力層,整合冗余模塊。在訓(xùn)練過(guò)程中,編碼任務(wù)均交給編碼器,可以減少模型參數(shù),降低復(fù)雜度。同時(shí),由于同一空間映射能夠深度挖掘輸入序列與輸出序列之間的聯(lián)系,進(jìn)而增強(qiáng)編碼器的編碼能力。

        3)GPT-Decoder:不同于BERT,GPT 只采用Transformer 的解碼架構(gòu)。由于解碼模塊中的mask機(jī)制,GPT 通過(guò)觀察文本中單詞的上文來(lái)預(yù)測(cè)單詞,使得GPT 更擅長(zhǎng)處理文本生成任務(wù)。因此,本文采用GPT 架構(gòu)作為解碼模塊,并添加額外的多頭注意力層和前向反饋層合并處理編碼輸出和GPT 輸出。解碼模塊各層都會(huì)維護(hù)自己的權(quán)重值,每層處理過(guò)程相同但計(jì)算結(jié)果不同。為加強(qiáng)解碼模塊對(duì)關(guān)鍵信息的敏感程度,在額外的多頭注意力層之間外接殘差網(wǎng)絡(luò),創(chuàng)建直接路徑來(lái)傳遞注意力分?jǐn)?shù)[24],將式(1)更改為:

        其中:PPre表示上一層注意力分?jǐn)?shù)。將上一層注意力分?jǐn)?shù)直接傳遞給下一層,加強(qiáng)各層之間的聯(lián)系,同時(shí)還能穩(wěn)定模型訓(xùn)練,減少訓(xùn)練時(shí)間。經(jīng)過(guò)多頭注意力和前向反饋層的輸出模塊得到輸出向量m,最終經(jīng)過(guò)Softmax 層生成下一個(gè)單詞,如式(11)所示:

        其中:Wm表示權(quán)重參數(shù);b為偏量。此外,本文各解碼模塊層數(shù)均為N=6。

        2 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證本文所提模型的可行性和有效性,本文在中文數(shù)據(jù)集LCSTS 和英文數(shù)據(jù)集CNNDM 上訓(xùn)練模型。為了驗(yàn)證每個(gè)改進(jìn)策略對(duì)模型的影響效果,對(duì)改進(jìn)模塊獨(dú)立進(jìn)行實(shí)驗(yàn)研究,訓(xùn)練模型和分析結(jié)果,不斷優(yōu)化并獲得最佳模型。本文選取多種生成式方法的基準(zhǔn)模型進(jìn)行對(duì)比,并細(xì)化分析本文模型的性能和實(shí)驗(yàn)結(jié)果。

        2.1 數(shù)據(jù)集

        使用兩種不同類型的摘要數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),研究并分析模型的表現(xiàn)。

        中文數(shù)據(jù)集LCSTS 是一個(gè)短文本新聞?wù)獢?shù)據(jù)集[25],摘錄于新浪微博,規(guī)模超過(guò)200 萬(wàn)。該數(shù)據(jù)集包括3 個(gè)部分,即24 萬(wàn)對(duì)用于模型訓(xùn)練的文本和摘要數(shù)據(jù)、10 000 條人工標(biāo)記的簡(jiǎn)短摘要與相應(yīng)的簡(jiǎn)短文本的相關(guān)性用于模型的驗(yàn)證以及用于模型測(cè)試的1 000 對(duì)數(shù)據(jù)。

        英文數(shù)據(jù)集CNNDM 是從美國(guó)有限新聞網(wǎng)(CNN)和每日郵報(bào)收錄上千萬(wàn)條新聞數(shù)據(jù)作為機(jī)器閱讀理解的語(yǔ)料庫(kù)。文獻(xiàn)[5]在此基礎(chǔ)上改進(jìn)成文本摘要數(shù)據(jù)集。該數(shù)據(jù)集有匿名和非匿名兩種版本,本文使用后者,包含28 萬(wàn)個(gè)訓(xùn)練數(shù)據(jù)對(duì)、1.1 萬(wàn)個(gè)驗(yàn)證數(shù)據(jù)對(duì)和1.3 萬(wàn)個(gè)測(cè)試數(shù)據(jù)對(duì),固定詞匯表有5 萬(wàn)個(gè)單詞。

        2.2 評(píng)價(jià)指標(biāo)

        針對(duì)自動(dòng)文摘模型性能評(píng)價(jià),普遍采用由文獻(xiàn)[6]提出的ROUGE 自動(dòng)摘要評(píng)價(jià)方法,其基本思想是統(tǒng)計(jì)生成摘要與參考摘要之間重疊的基本單元(n元語(yǔ)法、詞序列和詞對(duì))的數(shù)目,以此客觀地評(píng)價(jià)模型生成摘要的質(zhì)量。本文從常見的3個(gè)粒度來(lái)計(jì)算重疊數(shù)目:ROUGE-1(1-gram),ROUGR-2(2-gram)和ROUGE-L(最長(zhǎng)公共子序列),其分?jǐn)?shù)越高,表明模型生成摘要的質(zhì)量越高,模型性能越好。

        2.3 參數(shù)設(shè)置

        本文使用標(biāo)準(zhǔn)的編碼器-解碼器結(jié)構(gòu),均以Transformer 為基礎(chǔ),BERT 與解碼器均設(shè)置為6 層結(jié)構(gòu),所有多頭注意力機(jī)制擁有8 個(gè)頭,隱藏層神經(jīng)元個(gè)數(shù)為512,字向量維度為512,前向反饋層的中間層大小為2 048。使用dropout 方法避免過(guò)擬合,比率設(shè)為0.1。由于網(wǎng)絡(luò)的復(fù)雜性,為保證模型的穩(wěn)定性,在訓(xùn)練階段,實(shí)驗(yàn)分別使用β1=0.9 和β2=0.999的Adam 優(yōu)化器用于編碼器和解碼器,將初始學(xué)習(xí)率分別設(shè)置為lr1=0.0428 和lr2=0.1,并采用預(yù)熱與衰減策略設(shè)置學(xué)習(xí)計(jì)劃。為加快訓(xùn)練和測(cè)試速度,針對(duì)LCSTS 數(shù)據(jù)集,設(shè)置訓(xùn)練批次大小為128,初始文章最大長(zhǎng)度為200,摘要最大長(zhǎng)度為50;而CNNDM數(shù)據(jù)集的處理批次為64,初始文章最大長(zhǎng)度為800,摘要最大長(zhǎng)度為100。在測(cè)試時(shí),使用束寬度為4 的束搜索方法選擇候選摘要序列。

        2.4 實(shí)驗(yàn)對(duì)比與分析

        本文模型與以下基準(zhǔn)模型在LCSTS 數(shù)據(jù)集和CNNDM 數(shù)據(jù)集上進(jìn)行性能對(duì)比,并直接從文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)中抽取結(jié)果。

        1)words-lvt2k-temp-att[5]:基 于RNN 的Seq2Seq模型,利用時(shí)間注意力機(jī)制跟蹤注意力權(quán)重,阻止關(guān)注相同部分。

        2)RNN-context[25]:提 出LCSTS 中文 數(shù)據(jù)集,在Seq2Seq 模型的基礎(chǔ)上進(jìn)行實(shí)驗(yàn)研究。

        3)PGN-Coverage[9]:在指針生成網(wǎng)絡(luò)模型的基礎(chǔ)上結(jié)合覆蓋機(jī)制,計(jì)算覆蓋向量來(lái)避免重復(fù)問題。

        4)CGU[19]:在Seq2Seq 模型基礎(chǔ)上提出全新的全局編碼框架,利用卷積門控單元改善源端信息表示,捕捉關(guān)鍵信息。

        5)Transformer[11]:基于注 意力機(jī) 制構(gòu)建 的Seq2Seq 模型,具有快速計(jì)算的能力,能在更短的時(shí)間內(nèi)獲取更優(yōu)的實(shí)驗(yàn)結(jié)果。

        6)BERTabs[12]:將BERT 模型引入文本摘要任務(wù)中,利用其強(qiáng)大的表征能力獲取文本編碼信息,提升生成摘要的質(zhì)量。

        7)CBC-DA[20]:在編碼部分融合BERT 和卷積門控單元,解碼部分采用3 種不同的結(jié)構(gòu)探討更有效的融合方式去改善模型性能。本文選取文獻(xiàn)中效果最佳的模型。

        本文分階段獨(dú)立驗(yàn)證各改進(jìn)方法的有效性,由此對(duì)以下模型做出說(shuō)明:

        TCSG:使用BERT 進(jìn)行文本編碼,利用卷積收縮門控單元篩選合適的編碼信息輸入基礎(chǔ)Transformer 解碼器中生成摘要。

        ES-TCSG:在TCSG 的基礎(chǔ)上共享BERT 作為解碼器的部分之一,剔除模型功能重復(fù)的模塊,減少模型的參數(shù)。

        GPT-TCSG:在TCSG 的基礎(chǔ)上充分利用GPT 的文本生成能力作為解碼器部分之一,并添加額外的殘差注意層加強(qiáng)解碼器各層之間的聯(lián)系,穩(wěn)定模型。

        不同模型在LCSTS 上的ROUGE 值如表1所示。

        表1 各模型在LCSTS 上的ROUGE 值 Table 1 ROUGE values for each models on LCSTS

        表1 中數(shù)據(jù)顯示,本文模型在LCSTS 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均優(yōu)于對(duì)比模型。由表1 中ROUGE 值分析可知:在前6 個(gè)基準(zhǔn)模型中,CBC-DA 模型效果最好,而本文模型TCSG 與之相比,評(píng)價(jià)分?jǐn)?shù)分別高出0.7、0.7 和0.4 個(gè)百分點(diǎn),充分說(shuō)明本文提出的卷積收縮門控單元能進(jìn)一步抑制重復(fù)冗余信息,在文本摘要生成中發(fā)揮積極作用。同時(shí),ES-TCSG 模型的3 個(gè)ROUGE 值相較于TCSG 模型分別提升了0.1、0.4 和0.2 個(gè)百分 點(diǎn),GPT-TCSG 模型則提升1.3、1.2和0.9 個(gè)百分點(diǎn),表明本文充分利用Transformer 架構(gòu)的優(yōu)勢(shì)能獲取更佳實(shí)驗(yàn)結(jié)果的解碼器形式。尤其是GPT-TCSG 模型表現(xiàn)最突出,能提取完備的文本特征,生成質(zhì)量更優(yōu)的摘要。

        不同模型在CNN/DM 上ROUGE 值如表2所示。

        表2 各模型在CNNDM 上ROUGE 值 Table 2 ROUGE values for each models on CNNDM

        表2 中展示了本文模型和對(duì)比模型在CNNDM數(shù)據(jù)集上ROUGE 分?jǐn)?shù)。本文所提出的3 種模型的實(shí)驗(yàn)結(jié)果均有不同程度提升。類似于LCSTS 數(shù)據(jù)集上的分析,在相同條件下,對(duì)比TCSG 和BERTabs模型,TCSG 的評(píng)價(jià)分?jǐn)?shù)分別提升了0.64、0.79 和0.62 個(gè)百分點(diǎn),說(shuō)明本文模型在長(zhǎng)段落數(shù)據(jù)集上仍表現(xiàn)出色。此外,ES-TCSG 和GPT-TCSG 模型進(jìn)一步提升了ROUGE 值,優(yōu)化了模型性能。

        2.5 消融分析

        為進(jìn)一步展示模型中各模塊的性能和重要程度,本文選擇在CNNDM 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3 所示。

        表3 消融實(shí)驗(yàn)對(duì)比分析結(jié)果 Table 3 Comparative analysis results of ablation experiments

        由表3 實(shí)驗(yàn)結(jié)果分析可知:

        1)實(shí)驗(yàn)細(xì)化分析各模型的貢獻(xiàn)程度,在Transformer 模型的基礎(chǔ)上加上CSG 單元得到表中第3 行數(shù)據(jù),對(duì)比第2 行Transformer 模型實(shí)驗(yàn)結(jié)果,驗(yàn)證CSG 單元能有效指導(dǎo)編碼器挖掘文本全局信息和深層聯(lián)系,減少無(wú)用特征。同時(shí),保持CSG 和解碼器不變,對(duì)比第3 行和第4 行數(shù)據(jù),表明BERT 作為編碼器能大幅提升模型提取文本表征的能力,更全面地反映句子語(yǔ)義,獲得更佳的實(shí)驗(yàn)結(jié)果。最后3 行數(shù)據(jù)說(shuō)明不同解碼結(jié)構(gòu)對(duì)實(shí)驗(yàn)結(jié)果的影響,與TCSG 和ES-TCSG 模型對(duì) 比,GPT-TCSG 的性能 顯著提高,GPT 作為解碼模塊能充分發(fā)揮其結(jié)構(gòu)優(yōu)勢(shì),生成更高準(zhǔn)確率的摘要。

        2)針對(duì)模型訓(xùn)練時(shí)效問題,本文復(fù)現(xiàn)基于RNN的PGN+Coverage 模型和基于自注意力機(jī)制的Transformer 模型,同本文模型一樣通過(guò)20 萬(wàn)次迭代,統(tǒng)計(jì)每個(gè)模型的訓(xùn)練時(shí)長(zhǎng),以10 000 為單位計(jì)算耗時(shí),結(jié)果如表3 中最后一列所示。對(duì)比PGN+Coverage 模型,本文模型均在更短的訓(xùn)練時(shí)長(zhǎng)內(nèi)獲取更高的評(píng)價(jià)分?jǐn)?shù)。對(duì)比Transformer 模型,本文模型架構(gòu)復(fù)雜度增加,以時(shí)間為代價(jià)換取更佳的實(shí)驗(yàn)結(jié)果。特別地,由最后3 行可知,ES-TCSG 模型相比于另外2 種本文模型,時(shí)效有所改善,驗(yàn)證了將編碼器共享作為解碼器部分能提升模型訓(xùn)練速度。

        綜上所述,通過(guò)對(duì)比分析,模型中的各模塊均是必需的,且充分發(fā)揮其作用,來(lái)提高模型性能和生成摘要的質(zhì)量。

        3 結(jié)束語(yǔ)

        本文提出基于Transformer 和卷積收縮門控的文本摘要方法。首先采用BERT 作為編碼器盡可能獲取更多的上下文語(yǔ)義信息;然后利用卷積收縮門控單元進(jìn)行文本關(guān)鍵信息篩選,強(qiáng)化全局信息,抑制冗余信息的干擾;最后設(shè)計(jì)3 種不同連接方式的解碼器融合編碼和解碼信息,探索更適用于文本摘要生成任務(wù)的模型結(jié)構(gòu)。在LCSTS、CNNDM 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型在ROUGE 評(píng)價(jià)指標(biāo)上比基準(zhǔn)模型效果更優(yōu),能獲取更優(yōu)質(zhì)的文本摘要。下一步將考慮加強(qiáng)編碼器和解碼器之間的銜接和聯(lián)系,以及模型預(yù)訓(xùn)練方式的設(shè)計(jì)和優(yōu)化,采取更好的預(yù)訓(xùn)練目標(biāo)減少模型的訓(xùn)練時(shí)間,提升模型性能。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        青青草小视频在线观看| 国产欧美成人| 亚洲综合日韩中文字幕| 国内精品少妇久久精品| 欧美性白人极品1819hd| 欧美aaaaaa级午夜福利视频| 国产美女在线精品亚洲二区| 久久精品一区二区三区不卡牛牛 | 国产人妖网站在线视频| 亚洲国产成人久久综合| 亚洲男人的天堂网站| 人妻中文字幕乱人伦在线| 日本动漫瀑乳h动漫啪啪免费| 久热综合在线亚洲精品| 久久婷婷综合色拍亚洲| 亚洲中文字幕一区av| 欧美老肥妇做爰bbww| 日本亚洲国产一区二区三区| 69堂在线无码视频2020| 日本午夜剧场日本东京热| wwww亚洲熟妇久久久久| 欧美成人久久久| 精品色老头老太国产精品| 97一期涩涩97片久久久久久久| 无码三级在线看中文字幕完整版 | 亚洲AV无码成人精品区H| 国产黑丝美女办公室激情啪啪| 又色又爽又高潮免费视频观看| 午夜成人理论无码电影在线播放| 亚洲区一区二区三区四| 一区二区三区无码高清视频| 国产又滑又嫩又白| 亚洲综合综合在线| 在线国人免费视频播放| 久久精品国产亚洲av高清热| 久久久亚洲欧洲日产国产成人无码| 国产大屁股白浆一区二区三区| 天天躁夜夜躁av天天爽| 鲁一鲁一鲁一鲁一澡| 男女性搞视频网站免费| 麻豆精品国产专区在线观看|