亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合自注意力機(jī)制的長文本生成對抗網(wǎng)絡(luò)模型

2022-07-21 03:23:44夏鴻斌肖奕飛

計(jì)算機(jī)與生活 2022年7期

關(guān)鍵詞：注意力編碼向量

夏鴻斌，肖奕飛，劉淵

1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院，江蘇無錫214122

2.江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室，江蘇無錫214122

在機(jī)器翻譯、文本摘要、問答系統(tǒng)等自然語言處理中，生成語句通順、連貫的文本是非常重要的。而這些都是基于有監(jiān)督的文本生成，無監(jiān)督的文本生成最近引起了重大關(guān)注。

一種最早由Cho 等人提出的經(jīng)典方法是訓(xùn)練一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN），后來用作最大化給定觀察到的每個(gè)正確的標(biāo)注數(shù)據(jù)的對數(shù)似然性。但是由于它采用的是線性序列結(jié)構(gòu)，當(dāng)用于反向傳播時(shí)存在傳播路徑太長、梯度消失或者梯度爆炸等優(yōu)化困難的問題。為了解決這個(gè)問題，有學(xué)者引入了長短期記憶網(wǎng)絡(luò)（long short-term memory，LSTM）和門控循環(huán)單元（gated recurrent unit，GRU）模型。通過增加中間狀態(tài)信息直接向后傳播，解決了梯度消失問題，使得LSTM 和GRU 成為RNN的標(biāo)準(zhǔn)模型。后來，自然語言處理（natural language processing，NLP）又從圖像領(lǐng)域借鑒并引入了注意力機(jī)制，疊加網(wǎng)絡(luò)把深度做深，以及引入編碼器-解碼器框架，這些技術(shù)進(jìn)展極大拓展了RNN的能力。2015年，LeCun 等人將卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）引入NLP 領(lǐng)域，使用時(shí)間卷積網(wǎng)絡(luò)（ConvNets）將深度學(xué)習(xí)應(yīng)用于從字符級輸入一直到抽象文本概念的文本理解。CNN強(qiáng)有力的并行計(jì)算能力使得其已經(jīng)完全取代了RNN 在NLP 領(lǐng)域中的地位。但是CNN不同于RNN的線性結(jié)構(gòu)，不會自然地將位置信息進(jìn)行編碼，因此存在位置編碼的問題，當(dāng)在設(shè)計(jì)模型中加入池化層時(shí)，CNN 會丟失相對位置信息。就目前CNN 的發(fā)展趨勢來看，大多數(shù)已經(jīng)放棄池化層，選擇加深卷積層的深度。2017年，谷歌首次提出了Transformer并用于機(jī)器翻譯任務(wù)，并以Transformer為基礎(chǔ)提出了bert模型，該模型編碼器部分由Multi-Head Attention和一個(gè)全連接組成，用于將輸入語料轉(zhuǎn)化成特征向量。Transformer不像RNN或CNN，必須明確地在輸入端用位置函數(shù)來進(jìn)行位置編碼。在長距離捕獲特征和并行計(jì)算能力等方面，Transformer表現(xiàn)出比RNN和CNN更明顯的優(yōu)勢。

生成對抗網(wǎng)絡(luò)（generative adversarial networks，GAN）最早是在2014 年由Goodfellow 提出，用于連續(xù)的數(shù)據(jù)例如圖像、圖片和視頻生成等。并逐步應(yīng)用于離散數(shù)據(jù)，例如文本生成。生成對抗網(wǎng)絡(luò)包含生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)，這些網(wǎng)絡(luò)可以是神經(jīng)網(wǎng)絡(luò)，例如卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等。這兩個(gè)網(wǎng)絡(luò)之間相互博弈，生成器網(wǎng)絡(luò)目標(biāo)是生成完美能欺騙判別器的虛假圖像，而判別器的目標(biāo)則是分辨出圖像的真實(shí)性。經(jīng)過反復(fù)多次的博弈，最終使得生成器網(wǎng)絡(luò)生成的圖像能被判別器網(wǎng)絡(luò)認(rèn)同。標(biāo)準(zhǔn)的GAN在處理離散數(shù)據(jù)時(shí)會遇到生成器難處理傳遞梯度和判別器不能評估殘缺的序列等困難，AAAI 2017的文獻(xiàn)[10]提出的序列對抗網(wǎng)絡(luò)（sequence generative adversarial networks，SeqGAN）解決了這些問題。核心思路是將GAN 作為一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)，用策略梯度算法更新生成器的參數(shù)，同時(shí)采用蒙特卡洛搜索算法，實(shí)現(xiàn)對任意時(shí)刻的殘缺序列都可以進(jìn)行評估。盡管如此，SeqGAN 仍存在缺陷，即當(dāng)要生成較長的文本時(shí)，判別器的指導(dǎo)信號的稀疏性使得生成過程中缺少與文本結(jié)構(gòu)相關(guān)的中間信息，從而導(dǎo)致效果不夠良好。隨后AAAI 2018的文獻(xiàn)[11]提出了一種叫作LeakGAN（leak generative adversarial networks）的新算法框架，通過泄露由判別器提取的特征作為逐步引導(dǎo)信號，以指導(dǎo)生成器更好地生成長文本，同時(shí)借鑒分層強(qiáng)化學(xué)習(xí)從判別器向生成器提供更豐富的信息。在GAN中，鑒別器使用CNN提取輸入信息的特征向量，來指導(dǎo)生成器中MANAGER 模塊的訓(xùn)練，使指導(dǎo)信號更有信息性，同時(shí)使用分層生成器結(jié)構(gòu)，將整個(gè)生成任務(wù)分解為各種子任務(wù)，進(jìn)而緩解指導(dǎo)信號的稀疏性問題。但是，對于使用這種分層強(qiáng)化學(xué)習(xí)，會導(dǎo)致生成對抗網(wǎng)絡(luò)在訓(xùn)練上遇到許多困難，以及生成長文本缺乏多樣性。2019年，文獻(xiàn)[15]提出了一種叫作RelGAN（relational generative adversarial networks）的網(wǎng)絡(luò)模型。該模型不僅解決了上述兩個(gè)問題，并且對初始化參數(shù)和超參數(shù)也加以優(yōu)化。其主要思想是利用relational memory，使生成器具有更強(qiáng)表達(dá)能力和在長文本上更好的模型能力。利用gumbel-softmax relaxation模型訓(xùn)練生成對抗網(wǎng)絡(luò)，代替強(qiáng)化學(xué)習(xí)啟發(fā)式算法。在判別器上利用多層詞向量表示，使得生成器往更具多樣性方向更新。

淺層CNN不具備捕獲長距離依賴關(guān)系和區(qū)分位置信息的能力，Transformer雖然可以彌補(bǔ)其缺點(diǎn)，但是計(jì)算量大，并行速度慢。本文在文獻(xiàn)[11]的基礎(chǔ)上對LeakGAN 模型引入多頭自注意力機(jī)制，并命名為SALGAN（self-attention leak generative adversarial networks）模型，將多頭自注意力機(jī)制融入CNN 模型獲取原始文本的全局語義信息，從而提高CNN 模型的長距離捕獲能力。在生成器中使用GRU模型編碼訓(xùn)練，使得參數(shù)減少，加快訓(xùn)練速度。

本文工作的主要貢獻(xiàn)：

（1）引入多頭自注意力機(jī)制與CNN模型相結(jié)合，增強(qiáng)CNN 模型的長距離特征提取能力，multi-head的數(shù)量越多，長距離特征捕獲能力越強(qiáng)，相比傳統(tǒng)CNN更快達(dá)到擬合。

（2）在生成器部分引入GRU替換掉LSTM，利用其參數(shù)少、訓(xùn)練速度快的優(yōu)點(diǎn)，降低了計(jì)算量，提高了生成文本的質(zhì)量。

1 生成對抗網(wǎng)絡(luò)SALGAN模型

1.1 生成對抗網(wǎng)絡(luò)模型

生成對抗網(wǎng)絡(luò)其實(shí)就是一個(gè)極大極小的博弈，主要由判別器和生成器構(gòu)成，如圖1所示。在博弈的過程中，生成器生成的數(shù)據(jù)盡可能地欺騙判別器，判別器無法分辨生成的數(shù)據(jù)就是真實(shí)數(shù)據(jù)，判別器的作用就是區(qū)分哪些是真實(shí)數(shù)據(jù)，通過反復(fù)多次這樣的交替訓(xùn)練，判別器和生成器兩個(gè)模型不斷增強(qiáng)，直到判別器判斷生成的數(shù)據(jù)就是真實(shí)數(shù)據(jù)并且生成器生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)十分相似，也就能得到完美的生成效果。換句話說，就是極大化判別器的判斷能力，極小化生成器的被識破的概率，因此有以下公式：

圖1 生成對抗網(wǎng)絡(luò)Fig. 1 Generative adversarial networks

判別網(wǎng)絡(luò)進(jìn)行次更新，生成網(wǎng)絡(luò)才會完成一次更新，當(dāng)判別網(wǎng)絡(luò)進(jìn)行更新時(shí)，()越大越好，噪聲函數(shù)()越小越好，因此需要最大化判別模型，而在生成網(wǎng)絡(luò)更新時(shí)則相反，需要最小化生成模型。

1.2 多頭自注意力機(jī)制

首先介紹自注意力機(jī)制（self-attention），自注意力機(jī)制計(jì)算三個(gè)新向量、、，分別由嵌入向量與一個(gè)隨機(jī)初始化的矩陣相乘得到。然后，乘以的轉(zhuǎn)置表示編碼一個(gè)詞，表示對輸入的其他部分的關(guān)注度。接下來這個(gè)關(guān)注程度除以一個(gè)常數(shù)后做softmax 操作，表示其他部分對這個(gè)詞的相關(guān)性程度。最后使用和softmax 得到的值相乘，結(jié)果即為self-attention在這個(gè)詞的值，如下所示：

多頭自注意力（multi-head self-attention）就是由多個(gè)self-attention 組成的，初始化多組、、，然后把這些矩陣降為一個(gè)矩陣，再與一個(gè)隨機(jī)初始化的矩陣相乘即可。如下所示：

文獻(xiàn)[7]提出一種向量位置編碼解決詞順序問題的方法。位置編碼的維度和嵌入的維度相同，將位置編碼與嵌入的值相加，代替原本嵌入的值傳遞給下一層。位置向量能表示當(dāng)前詞所在位置。其常用的計(jì)算方法有以下三種：

第一種采用正弦位置進(jìn)行編碼，位置編碼必須要和詞向量的維度相同，位置為偶數(shù)時(shí)用正弦函數(shù)，位置為奇數(shù)時(shí)用余弦函數(shù)：

第二種是相對位置表達(dá)，當(dāng)相對位置超出規(guī)定的某個(gè)閾值的絕對值時(shí)，都用該閾值進(jìn)行代替，如圖2所示。

圖2 相對位置表達(dá)Fig. 2 Relative position expression

第三種采用學(xué)習(xí)位置編碼。對應(yīng)每個(gè)位置學(xué)得獨(dú)立的向量，方法與生成詞向量大致相同。

經(jīng)過比較，本文采用第三種方法。前饋神經(jīng)網(wǎng)絡(luò)提供非線性變換。注意力機(jī)制輸出的維度由輸入的batch_size與句子長度的乘積和判別器中的卷積核層數(shù)與卷積核數(shù)量的乘積決定。

1.3 SALGAN模型

在文獻(xiàn)[11]提出的LeakGAN 模型基礎(chǔ)上，構(gòu)建一種改進(jìn)SALGAN模型。將多頭自注意力機(jī)制融入到CNN 模型中，引入位置信息編碼，使得CNN 模型對于長距離特征提取能力顯著提高，將WORKER模塊使用GRU 代替LSTM 進(jìn)行編碼，提高運(yùn)算速度并改善文本生成質(zhì)量，SALGAN模型如圖3所示。

圖3 SALGAN模型Fig. 3 SALGAN model

與傳統(tǒng)的GAN 訓(xùn)練框架不同，判別器新增內(nèi)部狀態(tài)特征f，其作用是向生成器提供當(dāng)前生成句子的特征，分層生成器包含一個(gè)高層次的MANAGER模塊和一個(gè)低層次的WORKER 模塊，生成器通過MANAGER模塊將判別器泄露的信息進(jìn)行非線性變換，并且利用生成詞的提取特征輸出一個(gè)潛在向量來指導(dǎo)WORKER 模塊進(jìn)行下一個(gè)詞的生成。給定MANAGER生成的目標(biāo)嵌入，WORKER首先用GRU編碼當(dāng)前生成的詞，然后結(jié)合MANAGER 的輸出和目標(biāo)嵌入，并在當(dāng)前狀態(tài)下采取最終動作。 s表示當(dāng)前生成的所有詞，作為當(dāng)前狀態(tài)，表示隨機(jī)策略參數(shù)化生成網(wǎng)絡(luò)，(·|s)表示將s映射到整個(gè)詞匯表的一個(gè)分布，x表示下一個(gè)詞，D表示參數(shù)化判別器，f表示判別器在當(dāng)前狀態(tài)為生成器提供的特征向量?？紤]到當(dāng)句子變長時(shí)，標(biāo)量引導(dǎo)信號的信息量相對較少，因此允許判別器向生成器提供當(dāng)前狀態(tài)下的特征向量f，生成器的分層結(jié)構(gòu)能更好地利用其泄露的信息進(jìn)行生成。

其對抗文本生成使用D作為學(xué)習(xí)獎勵函數(shù)：

MANAGER 模塊是一個(gè)LSTM 模塊，在每一時(shí)間步，輸入提取的特征向量f，并輸出一個(gè)目標(biāo)向量g，然后將該目標(biāo)向量g作為WORKER 模塊的輸入，以指導(dǎo)下一個(gè)詞的生成。

MANAGER 和WORKER 模塊都從全零隱藏狀態(tài)開始，在每一步中，MANAGER從判別器中接收泄漏的特征向量f，該特征向量進(jìn)一步與MANAGER的當(dāng)前隱藏狀態(tài)相結(jié)合產(chǎn)生目標(biāo)向量g：

為了整合MANAGER 產(chǎn)生的目標(biāo)，對最近個(gè)目標(biāo)求和后，結(jié)合權(quán)重矩陣進(jìn)行線性變換，以產(chǎn)生維目標(biāo)嵌入向量w：

給定目標(biāo)嵌入向量g，WORKER模塊以當(dāng)前詞x作為輸入，輸出一個(gè)矩陣o，再與w通過矩陣乘積相結(jié)合，通過一個(gè)softmax可以得到：

然后使用策略梯度算法以端到端的方式訓(xùn)練生成器。分別對MANAGER 和WORKER 模塊訓(xùn)練，可以使用蒙特卡洛搜索算法進(jìn)行估算，MANAGER模塊的梯度定義為：

同理，WOEKER模塊的梯度定義為：

WORKER模塊的內(nèi)在獎勵被定義為：

在實(shí)踐中，需要在對抗訓(xùn)練前對生成器進(jìn)行預(yù)訓(xùn)練。其中MANAGER的預(yù)訓(xùn)練梯度為：

MANAGER被訓(xùn)練成模擬特征空間中真實(shí)文本樣本的轉(zhuǎn)換，而WORKER 則是通過最大似然估計(jì)來訓(xùn)練的。

在訓(xùn)練過程中，生成器和判別器交替訓(xùn)練。在生成器中，MANAGER和WORKER也為交替訓(xùn)練。

2 實(shí)驗(yàn)及分析

采用Pytorch深度學(xué)習(xí)作為框架，在Linux 64位操作系統(tǒng)，Pycharm 2019，CPU為IntelCorei7-7700k@4.20 GHz，內(nèi)存32 GB，GPU 為11 GB 1080Ti，python 3.7（Anaconda）的環(huán)境下進(jìn)行對比實(shí)驗(yàn)分析。

2.1 數(shù)據(jù)集

為了數(shù)據(jù)集的統(tǒng)一性和讓最終生成結(jié)果更具有可對比性，本文使用Image_COCO（1 MB）數(shù)據(jù)集和EMNLP2017 WMT News（48 MB）數(shù)據(jù)集，其中數(shù)據(jù)均已完成分詞預(yù)處理，并按照文獻(xiàn)[15]的標(biāo)準(zhǔn)進(jìn)行劃分：在Image_COCO 數(shù)據(jù)集中，訓(xùn)練集和測試集分別由10 000 個(gè)句子組成，設(shè)置樣本數(shù)量為10 000，單個(gè)句子最大長度為37，詞匯表大小為4 658。EMNLP-2017 WMT News 數(shù)據(jù)集包含270 000 個(gè)句子的訓(xùn)練集和10 000個(gè)句子的測試集，設(shè)置樣本數(shù)量為10 000，單個(gè)句子最大長度為51，詞匯表大小為5 256。

2.2 實(shí)驗(yàn)評價(jià)指標(biāo)

對于合成數(shù)據(jù)，本文使用兩種負(fù)對數(shù)似然值和對應(yīng)的，前者用于測試樣本多樣性，后者用于測試樣本質(zhì)量，負(fù)對數(shù)似然常用于解決分類問題，也可用于測量兩種概率分布之間的相似性，取負(fù)是為了讓最大似然值和最小損失相對應(yīng)。定義如下：

對于真實(shí)數(shù)據(jù)集，為了評估本文模型的精確性和相似度，選擇一種廣泛使用于文本生成領(lǐng)域且適用于分析生成文本和參考文本中元組出現(xiàn)的程度的評價(jià)方法BLEU作為評價(jià)指標(biāo)，定義為：

其中，候選譯文可以表示為c，而對應(yīng)的一組參考譯文可以表示為s={s,s,…}，-gram 表示個(gè)單詞長度的詞組集合，令w表示第組可能的-gram，h(c)表示w在候選譯文c中出現(xiàn)的次數(shù)，h(s)表示w在參考譯文s中出現(xiàn)的次數(shù)。

因?yàn)槠胀ǖ?span id="bzvdbpf" class="emphasis_italic">CP值計(jì)算并不能評價(jià)翻譯的完整性，但是這個(gè)屬性對于評價(jià)翻譯的質(zhì)量不可或缺，所以研究者們在最后的_值之前加入BP 懲罰因子：

本質(zhì)上，BLEU 是一個(gè)-gram 精度的加權(quán)幾何平均，按照下式計(jì)算：

在本文中，取2,3,4,5，而w一般對所有取常值，即1/。

2.3 對比模型和實(shí)驗(yàn)設(shè)置

為了驗(yàn)證提出的SALGAN 模型的性能，本文對比了修改前后的傳統(tǒng)的泄露生成對抗網(wǎng)絡(luò)模型LeakGAN和另外兩個(gè)生成對抗網(wǎng)絡(luò)模型SeqGAN和RelGAN以及基線模型MLE。

（1）MLE：MLE在生成對抗網(wǎng)絡(luò)中取得較好結(jié)果，是一種采用LSTM訓(xùn)練的簡單的生成對抗網(wǎng)絡(luò)模型。

（2）SeqGAN：Yu等人通過強(qiáng)化學(xué)習(xí)作為框架，使用策略梯度算法和蒙特卡洛搜索分別對單個(gè)詞進(jìn)行考量。

(3)LeakGAN：Guo 等人通過判別器泄露特征信息指導(dǎo)生成器中的兩個(gè)LSTM對單個(gè)詞進(jìn)行生成，從而解決了長文本信息稀疏性的問題。

（4）RelGAN：Narodytska 等人在生成器上使用relational-memory 代替?zhèn)鹘y(tǒng)的LSTM，同時(shí)為了簡化模型，使用gumbel-softmax relaxation 進(jìn)行訓(xùn)練，在多樣性和質(zhì)量上有很大提升。

（5）SALGAN：本文模型，融入多頭自注意力機(jī)制，改善傳統(tǒng)CNN 僅能解決局部文本語義的特征提取能力，隨后采用GRU代替LSTM進(jìn)行編碼，減少運(yùn)算時(shí)間。

在COCO IMAGE CAPTIONS 和EMNLP2017 WMT NEWS兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，這里考慮到SALGAN 模型GPU 占用率和使用設(shè)備配置以及運(yùn)行時(shí)間等因素。由于EMNLP2017 WMT NEWS數(shù)據(jù)集較大，將batch_size 設(shè)置為32，COCO IMAGE CAPTIONS 數(shù)據(jù)集對應(yīng)的batch_size 設(shè)置為64，其他模型batch_size 均設(shè)置為64。對于SeqGAN 模型，生成器學(xué)習(xí)率為0.01，判別器學(xué)習(xí)率為0.000 1，dropout設(shè)置為0.2，MLE 訓(xùn)練epoch 設(shè)置為120，對抗訓(xùn)練epoch 設(shè)置為200；對于LeakGAN 和SALGAN 模型，生成器學(xué)習(xí)率設(shè)置為0.001 5，判別器學(xué)習(xí)率為0.000 1，dropout 設(shè)置為0.2，MLE訓(xùn)練epoch設(shè)置為8，對抗訓(xùn)練epoch設(shè)置為200，溫度設(shè)置為1.0；對于RelGAN模型，生成器學(xué)習(xí)率設(shè)置為0.01，判別器學(xué)習(xí)率為0.000 1，dropout 設(shè)置為0.2，MLE 訓(xùn)練epoch 設(shè)置為150，對抗訓(xùn)練epoch設(shè)置為3 000，溫度設(shè)置為100.0。

2.4 實(shí)驗(yàn)結(jié)果及分析

（1）合成數(shù)據(jù)

分別對長度為20 和40 的合成數(shù)據(jù)進(jìn)行對比實(shí)驗(yàn)，作為表1 中SALGAN 模型與其他模型的對比實(shí)驗(yàn)結(jié)果，其中基線模型是MLE。

表1 合成數(shù)據(jù)實(shí)驗(yàn)結(jié)果Table 1 Experimental results of synthetic data

從表1中可以得出，SALGAN模型在該實(shí)驗(yàn)中表現(xiàn)出的性能優(yōu)于其他對比模型。隨著文本長度的增加，SALGAN 模型的性能也是最好的。由于GRU 參數(shù)量少，WORKER模塊采用GRU解決了在保留長期序列信息下減少梯度消失問題，運(yùn)行速度加快。GRU只使用兩個(gè)門控開關(guān)，減少了過擬合的風(fēng)險(xiǎn)，效果與LSTM 接近，當(dāng)引入GRU 后效果提升顯著。結(jié)果證明該方法的有效性是基于GRU 的改進(jìn)，該方法可適用于生成短文本以及中長度文本。

（2）COCO IMAGE CAPTIONS數(shù)據(jù)集

為了驗(yàn)證SALGAN 模型在中長度文本中的性能，在COCO IMAGE CAPTIONS數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表2 所示。根據(jù)結(jié)果可以得出：本文的SALGAN 模型相比LeakGAN 模型性能有較大提升，RelGAN模型在該數(shù)據(jù)集上生成的文本效果要優(yōu)于LeakGAN 模型，SALGAN 模型在相同環(huán)境上對比RelGAN 模型的評價(jià)指標(biāo)（BLEU-2,3,4,5）分別提升了1.6%、4.9%、4.4%、6.9%。

表2 COCO IMAGE CAPTIONS數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Experimental results of COCO IMAGE CAPTIONS dataset

因?yàn)樵谛⌒陀⑽臄?shù)據(jù)集中，LeakGAN 模型使用LSTM 對單個(gè)詞進(jìn)行編碼參數(shù)量較大，花費(fèi)時(shí)間過長，采用參數(shù)量減少的GRU代替LSTM，在一定程度上減少了過擬合的風(fēng)險(xiǎn)。由于傳統(tǒng)CNN是通過堆積深度捕獲長距離特征，當(dāng)卷積核的大小和深度增加，可以獲得更大的長度覆蓋，而對于本文的SALGAN模型，引入多頭自注意力機(jī)制提高CNN 模型的長距離捕獲能力，影響其主要因素是multi-head 的數(shù)量。在資源有限的環(huán)境下，經(jīng)調(diào)整超參數(shù)后，SALGAN模型的特征提取能力增強(qiáng)。因此證明，SALGAN 模型中的CNN與自注意力機(jī)制相結(jié)合的方式能極大提高長距離特征提取能力，傳遞更完整的特征信息指導(dǎo)文本生成，提高文本生成質(zhì)量。又由于生成對抗網(wǎng)絡(luò)訓(xùn)練速度比較緩慢，GRU相比LSTM參數(shù)量小，可以在一定程度上加快訓(xùn)練速度。

（3）EMNLP2017 WMT NEWS數(shù)據(jù)集

為了驗(yàn)證SALGAN 模型生成長文本的性能，在EMNLP2017 WMT NEWS 數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明：相比LeakGAN模型，SALGAN模型的評價(jià)指標(biāo)在BLEU-2和BLEU-3 上提升了6.1%和1.4%。RelGAN 模型性能優(yōu)于LeakGAN 模型，而本文的SALGAN 模型在BLEU-2上對比RelGAN模型提升了1.0%。

表3 EMNLP2017 WMT NEWS數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 3 Experimental results of EMNLP2017 WMT NEWS dataset

可以得出結(jié)論，在長文本英文數(shù)據(jù)集中，隨著序列變長，數(shù)據(jù)復(fù)雜度變大，由于GRU 參數(shù)較少，導(dǎo)致其編碼效果不如LSTM，又由于CNN 捕獲長距離特征的能力與卷積核的大小和深度有關(guān)，本文模型中的CNN 與自注意力相結(jié)合增強(qiáng)特征信息的提取能力，使其包含文本的全局語義信息。當(dāng)數(shù)據(jù)量非常大時(shí)，達(dá)到擬合的速度比傳統(tǒng)CNN 快且生成的文本有較好的相關(guān)性，因此本文模型融入自注意力機(jī)制后的長距離特征捕獲能力和語義特征提取能力比傳統(tǒng)CNN模型提升更為明顯。而通過對比本文模型和RelGAN 模型可以得知，當(dāng)處理較長文本時(shí)，采用LSTM編碼效果比GRU更優(yōu)。

（4）生成樣本示例

考慮僅通過BLEU 作為評價(jià)指標(biāo)評估模型生成文本質(zhì)量的好壞具有一定的片面性，因此也可以觀察每個(gè)模型生成的樣本，較主觀地評價(jià)生成樣本的流暢程度以及語法邏輯問題。

為了更好地驗(yàn)證并評估生成文本的質(zhì)量，在線下邀請20個(gè)人完成問卷調(diào)查填寫。為了實(shí)驗(yàn)的公平性，每個(gè)問卷包含由SeqGAN、LeakGAN、RelGAN 和本文的SALGAN模型分別隨機(jī)生成的10個(gè)句子，要求參與人員判斷生成句子的真實(shí)性，即主觀判斷該句子是否由機(jī)器生成。如果認(rèn)為該句子是真實(shí)的則得分加一，反之不得分。最終計(jì)算每個(gè)模型的平均得分，得分越高表示生成效果越真實(shí)，質(zhì)量越好。最終的問卷調(diào)查結(jié)果如圖4所示。根據(jù)圖中數(shù)據(jù)顯示：本文的SALGAN模型生成的句子相比于其他模型來說具有更好的可讀性和全局一致性。每個(gè)模型分別在COCO IMAGE CAPTIONS 與EMNLP2017 WMT NEWS 兩個(gè)真實(shí)數(shù)據(jù)集上生成的部分樣本如表4所示。

表4 真實(shí)數(shù)據(jù)集生成樣本示例Table 4 Examples of samples generated from real datasets

圖4 圖靈測試結(jié)果Fig. 4 Results of Turing test

3 結(jié)束語

針對傳統(tǒng)生成對抗網(wǎng)絡(luò)存在生成長文本時(shí)判別器指導(dǎo)信號稀疏的問題和學(xué)習(xí)文本局部語義信息的限制，本文提出一種融入自注意力機(jī)制的長文本生成對抗網(wǎng)絡(luò)模型?？紤]到分層生成器效果十分緩慢，MANAGER 模塊仍采用LSTM 編碼特征向量效果更好，WORKER 模塊使用結(jié)構(gòu)簡單的GRU 編碼，可以適當(dāng)減少計(jì)算量，提高運(yùn)算效率的同時(shí)還能提高文本生成質(zhì)量。此外，對比了另外三種深度學(xué)習(xí)模型SeqGAN 和RelGAN 以及原模型LeakGAN，實(shí)驗(yàn)結(jié)果顯示，SALGAN 模型在上述兩個(gè)真實(shí)數(shù)據(jù)集上均表現(xiàn)出較好的結(jié)果，證明采用本文模型提取文本信息的上下文語義關(guān)系和關(guān)鍵信息能一定程度上提高文本生成的質(zhì)量，并且GRU 的代替在小數(shù)據(jù)集上不僅沒有因?yàn)槿鄙龠\(yùn)算導(dǎo)致評價(jià)指標(biāo)降低，還減少了運(yùn)行時(shí)間，并且在合成數(shù)據(jù)中提高了生成樣本的質(zhì)量。

盡管SALGAN模型的評測指標(biāo)有一定的提高，但由于生成器部分采用的WORKER模塊和MANAGER模塊均對單個(gè)詞進(jìn)行處理，導(dǎo)致實(shí)驗(yàn)效率低下，并且占用GPU資源量大，而且GRU在大數(shù)據(jù)集中表現(xiàn)不佳。因此接下來的工作可嘗試將本文思想應(yīng)用于中文數(shù)據(jù)集，從中文分詞等角度改善運(yùn)算效率?？紤]到生成器難以控制的問題，還可以嘗試在生成模型和判別模型上為數(shù)據(jù)添加標(biāo)簽，減少關(guān)鍵信息的缺失，進(jìn)一步地提高提取特征向量的能力。