基于深度強化學習的文本生成研究綜述

2022-04-21 03:08:02趙婷婷宋亞靜李貴喜陳亞瑞任德華

天津科技大學學報 2022年2期

趙婷婷，宋亞靜，李貴喜，王嫄，陳亞瑞，任德華

(天津科技大學人工智能學院，天津300457)

深度強化學習(deep reinforcement learning，DRL)集成了深度學習對復雜環(huán)境的感知能力，以及強化學習對復雜場景的決策能力，實現(xiàn)了端到端的學習模式[1]．深度強化學習的出現(xiàn)使得強化學習技術(shù)真正走向?qū)嵱?，解決現(xiàn)實場景中的復雜問題[2]，在無人駕駛[3-4]、智能交通系統(tǒng)[5]、機器人系統(tǒng)[6-7]、游戲[8]等領(lǐng)域取得了突破性進展，被認為是最有希望實現(xiàn)通用人工智能目標的研究領(lǐng)域之一．目前，更多的研究者開始把深度強化學習應(yīng)用在各種不同領(lǐng)域，例如視覺導航[9]、細粒度圖像分類[10]、商業(yè)游戲[11]、金融決策等[12]．在自然語言處理(natural language processing，NLP)的文本生成領(lǐng)域中，有不少研究者嘗試使用深度強化學習改進現(xiàn)有的網(wǎng)絡(luò)模型結(jié)構(gòu)或者網(wǎng)絡(luò)訓練流程，并取得了顯著性成果[13]．

文本自動生成是自然語言處理領(lǐng)域的一個重要研究方向，實現(xiàn)文本自動生成也是人工智能走向成熟的一個重要標志[14]．文本生成問題是以文本、圖像、數(shù)據(jù)等作為輸入，通過計算機處理輸出文本的過程．文本生成技術(shù)作為各種生成任務(wù)的關(guān)鍵模塊被廣泛采用，包括機器翻譯[15]、摘要總結(jié)[16-17]、圖像字幕[18-19]、風格轉(zhuǎn)換[20]等，文本生成模式根據(jù)各自應(yīng)用場景而不同．本文關(guān)注的是以已有文本為輸入，輸出相似類型文本的創(chuàng)作型文本生成任務(wù)．

自然語言生成問題通常是基于高維且稀疏的特征利用機器學習方法訓練淺層模型[21]．隨著神經(jīng)網(wǎng)絡(luò)及其變體在諸多任務(wù)中展示出良好的應(yīng)用前景，Bengio等[22]提出了進行文本生成任務(wù)的神經(jīng)網(wǎng)絡(luò)語言模型，從語言模型的角度出發(fā)，將模型求解最優(yōu)值的過程轉(zhuǎn)換為求詞向量預測的過程[23]．然而，該方法不能捕捉單詞之間的長期依賴關(guān)系，使得文本脫離了上下文．為了解決此問題，Kombrink等[24]提出了遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)語言模型，它是一種加入了馬爾可夫特性的語言模型．遞歸神經(jīng)網(wǎng)絡(luò)隱藏層之間的節(jié)點也是有連接的，且隱藏層接收來自輸入層的輸出和上一時刻隱藏層的輸出，因此RNN模型能保留句子之間的依賴關(guān)系[24]．然而，由于RNN模型的梯度消失問題，使得RNN語言模型更善于學習距離較近的依賴關(guān)系．為了預測長距離的依賴關(guān)系，長短時記憶(long short-term memory，LSTM)[25]、門控循環(huán)單元(gated recurrent unit，GRU)[26]等被陸續(xù)提出．訓練RNN模型最常用的方法是使用最大似然估計(maximum likelihood estimation，MLE)[27]．然而，由于訓練階段與推理階段的內(nèi)在差異，MLE在理論上存在暴露偏差(exposure bias)問題，即模型在訓練時基于真實樣本前綴生成后續(xù)字符，而在推理時基于模型生成的字符前綴預測下一字符[28]．這種差異隨著序列長度的增加而累積，因此在長文本生成任務(wù)中效果不佳．為了解決這一問題，計劃抽樣(scheduled sampling，SS)模型被提出，該模型以ε的概率選擇真實樣本前綴，以1?ε的概率選擇生成字符前綴，以此消除訓練和推理階段的差異[29]．SS模型與MLE相比有明顯改善，但Huszár[30]從理論的角度證明了計劃抽樣是個不一致的策略，并不能從本質(zhì)上解決暴露偏差問題．

為了有效解決暴露偏差問題，Guo[31]提出利用強化學習改變傳統(tǒng)生成模型的訓練方式．隨后，強化學習的Actor-Critic框架[32]也被用來和編碼-解碼器模型相結(jié)合應(yīng)用于文本生成任務(wù)中[33]．除了這種利用值函數(shù)求解改變生成模型訓練方式的方法，還可將基于循環(huán)神經(jīng)網(wǎng)絡(luò)的文本序列生成模型看作是馬爾可夫過程[34]．如何獲得精準的獎勵函數(shù)設(shè)計指導生成模型的輸出是將強化學習應(yīng)用于文本生成任務(wù)的研究重點，Papineni等[35]提出使用強化學習算法直接優(yōu)化生成句子任務(wù)的評價指標，把測試時用的雙語評估替換(bilingual evaluation understudy，BLEU)和基于召回率替換的二元主旨評價指標(recall-oriented understudy for gisting evaluation，ROUGE)[36]作為訓練模型時的獎勵[37]．但這種使用靜態(tài)獎勵的方法計算量非常大，而且只能計算出真實文本與生成文本的n-gram相似性[38]，并不是一個完美的度量標準．Yu等[39]成功將生成對抗網(wǎng)絡(luò)[40]應(yīng)用于自然語言處理的離散任務(wù)中，提出利用判別器為強化學習智能體提供動態(tài)獎勵．但基于二分類的判別器提供的信息有限，使生成模型在訓練時存在獎勵稀疏及模式崩潰的問題．RankGAN[41]、MaliGAN[42]、LeakGAN[43]算法通過設(shè)計不同的提供獎勵信息的方式解決上述問題．因此，獎勵函數(shù)的設(shè)計是算法設(shè)計中的核心，這也是本文將要探討的主要內(nèi)容．

本文將以基于強化學習的文本生成任務(wù)為核心展開綜述，首先介紹強化學習的背景知識及文本生成任務(wù)建模，然后綜述強化學習方法在文本生成任務(wù)中的應(yīng)用并分析各算法優(yōu)缺點，最后總結(jié)全文并分析深度強化學習技術(shù)與自然語言生成任務(wù)相結(jié)合的研究趨勢和應(yīng)用前景．

1 強化學習背景知識

強化學習描述的是智能體為實現(xiàn)任務(wù)而連續(xù)作出決策控制的過程，其以試錯機制與環(huán)境進行交互，最終找到適合當前狀態(tài)的最優(yōu)動作選擇策略，取得整個決策過程的最大累積獎賞[44]，基本框架如圖1所示.

圖1 強化學習基本框架Fig. 1 Framework of reinforcement learning

強化學習任務(wù)通常建模為馬爾可夫決策過程(Markov decision process，MDP)[45]，由狀態(tài)集合S、動作集合A、狀態(tài)轉(zhuǎn)移函數(shù)P、初始狀態(tài)概率密度P0和獎勵函數(shù)R這5個基本元素組成．強化學習的核心是找到能夠產(chǎn)生最優(yōu)動作的策略π，π可定義為狀態(tài)空間到動作空間的映射．智能體在當前狀態(tài)ts下根據(jù)策略π選擇動作at作用于環(huán)境，接收到環(huán)境反饋的獎勵rt，并以轉(zhuǎn)移概率轉(zhuǎn)移到下一個狀態(tài)st+1．強化學習的目的是通過不斷調(diào)整策略使長期累積獎勵最大化，表示折扣因子．為了預測累計獎勵的期望大小，有兩種類型的價值函數(shù)：狀態(tài)值函數(shù)π()V s和狀態(tài)-動作值函數(shù)．狀態(tài)值函數(shù)在遵循策略π下描述某個狀態(tài)的期望獎勵．狀態(tài)-動作值函數(shù)在遵循策略π下描述某個狀態(tài)下執(zhí)行某個動作的期望獎勵．隨后，可以根據(jù)或者得到最優(yōu)策略 π*．

求解強化學習問題主要可通過基于值函數(shù)的策略迭代與基于策略的策略搜索兩大算法．基于值函數(shù)的策略迭代根據(jù)上述的值函數(shù)貪婪地選擇值函數(shù)最大的動作，有效地解決離散狀態(tài)動作空間問題．基于策略的策略搜索直接對策略建模并學習，此類算法適用于解決具有連續(xù)動作空間的復雜決策任務(wù)．

1.1 基于值函數(shù)的方法

基于值函數(shù)的策略迭代方法通常使用線性或者非線性的函數(shù)逼近器近似表示狀態(tài)值函數(shù)或者動作值函數(shù)，其通過選擇最大值函數(shù)的動作從而獲得策略．基于值函數(shù)的策略迭代方法的核心是對狀態(tài)值函數(shù)或者動作值函數(shù)進行近似估計，其中，時序差分學習[46]和Q學習[47]是分別用于求解狀態(tài)值函數(shù)和動作值函數(shù)的經(jīng)典算法．Mnih等[48]提出了深度Q網(wǎng)絡(luò)(deep Q-network，DQN)模型，該模型創(chuàng)新性地將卷積神經(jīng)網(wǎng)絡(luò)和Q學習相結(jié)合，可以直接將游戲的原始圖像作為輸入，不依賴于手動提取特征，實現(xiàn)了端到端的學習方式．自DQN被提出后，出現(xiàn)了各種改進方法，其中包括對訓練算法的改進、網(wǎng)絡(luò)結(jié)構(gòu)的改進、學習機制的改進以及算法的改進等[49]．Schaul等[50]提出了一種帶有優(yōu)先級經(jīng)驗回放的DQN模型，Van Hasselt等[51]提出了Double DQN模型，Wang等[52]提出了基于DQN的競爭網(wǎng)絡(luò)模型，Hausknecht等[53]提出了DRQN模型，F(xiàn)ortunato等[54]提出了Noisy DQN模型，Bellemare等[55]提出了分布式DQN模型．

基于值函數(shù)的策略學習方法需要計算所有狀態(tài)-動作值函數(shù)，再從中選擇值函數(shù)最優(yōu)的對應(yīng)動作．此類方法可以有效解決離散狀態(tài)空間問題，但是由于值函數(shù)的極度非凸性，因此難以在每一個時間步驟都通過最大化值函數(shù)選擇動作．

1.2 基于策略的方法

基于策略的策略搜索方法直接對策略進行建模學習，適用于解決具有連續(xù)動作空間的復雜決策任務(wù).最具代表性的傳統(tǒng)策略搜索算法包括PEGASUS[56]、策略梯度[57-58]、自然策略梯度[59]、EM[60]及NAC等[32]. 其中，策略梯度算法是最實用、最易于實現(xiàn)且被廣泛應(yīng)用的一種策略搜索方法．

相比于基于值函數(shù)的方法，基于策略的方法直接在策略空間中搜索最優(yōu)策略，省去了求解值函數(shù)的繁瑣環(huán)節(jié)．基于策略的策略搜索方法能夠有效解決高維度連續(xù)動作空間問題．然而，由于所處理問題的復雜性，基于策略的方法容易陷入局部最優(yōu)；此外，由于梯度估計方差過大，導致算法不穩(wěn)定且收斂慢．

1.3 基于Actor-Critic的方法

基于策略的策略搜索方法根據(jù)累計期望回報指導策略參數(shù)調(diào)整幅度，使用蒙特卡羅采樣估計期望回報時需要完整的狀態(tài)序列以積累多步的回報，因此會導致方差大的問題．Bahdanau等[33]結(jié)合了基于值函數(shù)及基于策略的方法，提出Actor-Critic(AC)算法框架．Actor即為策略函數(shù)，其與環(huán)境交互生成動作；Critic通過神經(jīng)網(wǎng)絡(luò)擬合值函數(shù)指導Actor進行更新．相比基于值函數(shù)的算法，AC算法借鑒了策略梯度的做法，使其能夠處理具有連續(xù)或者高維動作空間的決策任務(wù)．相比傳統(tǒng)的策略梯度算法，AC算法能進行單步更新而不是以軌跡為單位的更新．然而，AC算法框架屬于在策略(on-policy)算法，其無法使用經(jīng)驗回放提升學習效率．

針對上述問題，研究者從異步、離散策略、穩(wěn)定性方面改進，提出了具體改進算法，如異步優(yōu)勢動作評價(asynchronous advantage actor-critic，A3C)[62]、深度確定性策略梯度(deep deterministic policy gradient，DDPG)[62]、置信域策略優(yōu)化(trust region policy optimization，TRPO)[63]等經(jīng)典算法．

2 基于強化學習的文本生成方法

將文本生成任務(wù)建模為強化學習可以很好地解決傳統(tǒng)文本生成方法所存在的暴露偏差問題．基于強化學習的文本生成方法主要分為通過值函數(shù)的求解改變編碼-解碼模型訓練方式的方法以及直接求解策略得到生成模型的方法．

2.1 基于值函數(shù)的強化學習文本生成方法

Guo[31]將深度強化學習應(yīng)用到文本生成任務(wù)中，提出了一種基于深度Q網(wǎng)絡(luò)的序列生成框架以解決文本生成任務(wù)中詞匯空間過大的難題．該模型的狀態(tài)為某一時刻的輸入詞匯和輸出詞匯，獎勵為評價文本相似性的雙語評估替換指標，其利用傳統(tǒng)的編碼-解碼語言模型中的解碼器為深度Q網(wǎng)絡(luò)生成動態(tài)的候選動作空間，并使用雙向長短期記憶網(wǎng)絡(luò)作為深度Q網(wǎng)絡(luò)的網(wǎng)絡(luò)模型．該模型極大地減小了深度Q網(wǎng)絡(luò)需要處理的動作空間，從上萬的詞匯空間減少至數(shù)十個候選詞匯．此外，文中選取了10000條句子進行自然語言再生任務(wù)實驗，即盡量使基于深度Q網(wǎng)絡(luò)改進的解碼器的輸出和編碼器的輸入一致．實驗結(jié)果表明，此模型比使用長短期記憶網(wǎng)絡(luò)模型的解碼器生成的句子獲得的平均平滑雙語評估替換指標更高.

上述基于值函數(shù)的文本生成方法都需要值函數(shù)的求解，通常是利用深度Q網(wǎng)絡(luò)將文本生成任務(wù)建模為序列決策問題，狀態(tài)和動作都是自然語言的形式．然而，由于需要單獨求解值函數(shù)，且在文本生成任務(wù)中狀態(tài)空間和動作空間都很龐大，此類方法在訓練時往往不穩(wěn)定，其性能還有待改進．

2.2 基于策略的強化學習文本生成方法

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的文本序列生成模型將文本生成任務(wù)建模為馬爾可夫過程[34]，通過最大化生成文本的獎勵期望獲得最優(yōu)文本生成策略，利用強化學習方法直接求解模型中的參數(shù)．將生成模型作為強化學習中的智能體與環(huán)境進行交互，并將已生成文本序列作為當前狀態(tài)ts，將要生成的單詞或字符作為動作at1+，在選擇了動作at1+后，進而轉(zhuǎn)移到下一個狀態(tài)st+1，狀態(tài)轉(zhuǎn)移函數(shù)P為確定性轉(zhuǎn)移函數(shù)，具體模型框架如圖2[34]所示．

圖2 基于策略的強化學習文本生成模型Fig. 2 Policy-based reinforcement learning text generation model

在基于策略的文本生成方法中，如何設(shè)計獎勵函數(shù)是此類方法的核心．關(guān)于獎勵函數(shù)的設(shè)計一直都是強化學習在各個領(lǐng)域應(yīng)用的研究要點．為了設(shè)計出合適的獎勵函數(shù)指導文本生成模型，提出了如直接使用測試標準作為獎勵[35]、通過神經(jīng)網(wǎng)絡(luò)學習獎勵函數(shù)[64]、結(jié)合其他模型設(shè)計獎勵函數(shù)[65]等方法．

Ranzato等[37]提出使用強化學習算法直接優(yōu)化生成句子任務(wù)的評價指標，把測試用的雙語評估替換指標和基于召回率替換的二元主旨評價指標(ROUGE-2)作為訓練模型的獎勵，并利用REINFORCE算法對模型進行訓練．然而，強化學習方法往往存在訓練難的問題，尤其是面對文本生成的大規(guī)模動作空間問題，其每次搜索都面向整個動作空間，其訓練初期的隨機搜索模式使得模型很難取得有效的提升．針對上述問題，文獻[37]提出了混合增量式交叉熵強化學習(mixed incremental cross-entropy reinforce，MIXER)算法提高模型訓練效果，該算法前s步按照原有文本生成模型進行預訓練，優(yōu)化目標是最小化生成文本和真實文本之間的交叉熵，s步后直接將預訓練后的循環(huán)神經(jīng)網(wǎng)絡(luò)模型作為深度強化學習的策略網(wǎng)絡(luò)模型，再使用REINFORCE算法進行訓練．通過在圖像描述、機器翻譯任務(wù)上計算雙語評估替換指標和在文本摘要任務(wù)上計算二元主旨評價指標表明，MIXER算法相較于以往方法有不同程度的提升．

另一方面，Shi等[64]將文本生成中獎勵函數(shù)的設(shè)計任務(wù)視為逆強化學習(inverse reinforcement learning，IRL)[66]問題，試圖通過神經(jīng)網(wǎng)絡(luò)動態(tài)擬合單步獎勵函數(shù)．如圖3[66]所示，將IRL用于文本生成任務(wù)中有兩個迭代步驟：首先，通過神經(jīng)網(wǎng)絡(luò)學習獎勵函數(shù)解釋真實文本數(shù)據(jù)；其次，以獎勵期望最大為目標，學習生成文本的最優(yōu)策略．生成模型采用LSTM網(wǎng)絡(luò)表示，獎勵函數(shù)逼近器依據(jù)最大熵逆強化學習[67]求得．與使用文本評價指標只能在生成完整序列后提供獎勵相比，此方法通過擬合即時獎勵為模型提供更密集的信息；此外，該方法在生成模型目標函數(shù)中加入熵正則項提高生成的多樣性．然而，由于自然語言的復雜性，能夠精確擬合獎勵函數(shù)依然極具挑戰(zhàn)．

圖3 用于文本生成任務(wù)的IRL框架Fig. 3 IRL framework for text generation tasks

Chen等[65]認為將強化學習用于語言生成會帶來方差梯度高、獎勵信息少和訓練薄弱的問題．為了解決這些問題，他們對強化學習和最優(yōu)運輸(optimal transport，OT)學習的不同機制進行分析，提出了一種集成了RL和OT正則化的退火調(diào)度學習策略——最優(yōu)運輸強化學習(OTRL)，利用OT損失自適應(yīng)地調(diào)節(jié)RL序列生成時在策略空間的探索，從而穩(wěn)定整個訓練過程．OTRL算法的目標函數(shù)主要包括三部分：生成模型的最大似然目標LMLE、最優(yōu)運輸距離目標LOT和基于RL訓練的目標函數(shù)LRL，其中最大似然用于序列生成模型的預訓練，最優(yōu)傳輸幫助穩(wěn)定訓練，同時鼓勵語義一致性，而強化學習幫助捕捉長短語的一致性．使用RL的方法進行序列生成雖然可以獲取長序列的信息，然而梯度差異會很大；只使用OT的方法盡管解決了梯度問題，目前卻只限于1-gram匹配，會造成大量信息流失，如果簡單地將其擴展到k-gram，會極大程度地增加其復雜度．OTRL算法結(jié)合了兩種不同方法的優(yōu)點，從而互補了對方的缺點，獲得了較好的效果．

2.3 基于Actor-Critic的強化學習文本生成方法

基于Actor-Critic的強化學習文本生成方法融合了基于值函數(shù)和策略兩種方法的優(yōu)點．Actor網(wǎng)絡(luò)通過策略梯度的方法選擇動作，Critic網(wǎng)絡(luò)通過評估的值函數(shù)優(yōu)化Actor網(wǎng)絡(luò)．在結(jié)合了基于值函數(shù)的方法后，該類方法可實現(xiàn)策略梯度的單步更新．

為了解決使用最大似然方法訓練生成模型所產(chǎn)生的暴露偏差問題，Bahdanau等[33]提出了與Ranzato等[37]不同的評價指標優(yōu)化方法，該方法將Critic網(wǎng)絡(luò)引入結(jié)構(gòu)化輸出[68]的監(jiān)督學習問題，使用Actor-Critic框架改變傳統(tǒng)生成模型的訓練方式，如圖4[33]所示．

圖4 基于Actor-Critic算法的文本生成框架Fig. 4 Text generation framework based on Actor-Critic algorithm

Actor和Critic都采用典型的編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)，其中，Actor網(wǎng)絡(luò)接收長度為L的真實文本序列X作為輸入，然后輸出預測文本序列?Y；Critic網(wǎng)絡(luò)接收真實的標簽序列Y和Actor在t時刻生成的詞語，最后輸出狀態(tài)-動作值去訓練Actor網(wǎng)絡(luò)．以強化學習的角度來看，Actor的狀態(tài)則為解碼器輸出的部分序列，動作為下一個生成詞，之后使用Critic輸出狀態(tài)-動作值對這個動作進行評價．作者將此方法應(yīng)用在一個合成任務(wù)和一個真實的機器翻譯任務(wù)上，結(jié)果證實了對最大似然方法的改進效果．

3 基于強化學習和生成對抗網(wǎng)絡(luò)結(jié)合的文本生成方法

生成對抗網(wǎng)絡(luò)(generative adversarial network，GAN)是由Goodfellow提出的一種對抗性網(wǎng)絡(luò)，由生成器G和判別器D兩個核心部分組成[40]．生成器模型以隨機噪聲作為輸入，試圖擬合真實數(shù)據(jù)分布；判別器模型以真實數(shù)據(jù)和生成數(shù)據(jù)作為輸入，并試圖對兩類數(shù)據(jù)加以區(qū)分．兩個模型通過對抗訓練的方式進行逐步更新，進而使生成器能夠生成接近真實的數(shù)據(jù)．生成對抗網(wǎng)絡(luò)被廣泛用于計算機視覺領(lǐng)域的圖像生成任務(wù)，并取得了很好的效果．圖像作為連續(xù)型數(shù)據(jù)，生成對抗網(wǎng)絡(luò)可以直接進行梯度求導和反向傳播，進而可以達到判別器指導生成器的效果．將GAN應(yīng)用于自然語言處理領(lǐng)域中的文本生成任務(wù)時，文本作為離散標記序列，在生成過程中存在采樣過程，導致梯度無法回傳．此外，判別器只能對生成的完整序列進行評分，而無法評價部分序列的好壞.因此，將GAN應(yīng)用到文本生成領(lǐng)域具有一定難度.

3.1 基于序列生成對抗網(wǎng)絡(luò)模型的文本生成方法

Yu等[39]結(jié)合強化學習和生成對抗網(wǎng)絡(luò)提出了序列生成對抗網(wǎng)絡(luò)模型(SeqGAN)，該模型將使用循環(huán)神經(jīng)網(wǎng)絡(luò)的文本生成模型視為強化學習任務(wù)中的智能體，當前狀態(tài)ts為已經(jīng)生成的詞語，動作at1+定義為下一時刻將要生成的詞語，當選定下一個動作后，當前狀態(tài)以確定性轉(zhuǎn)移到下一狀態(tài)．判別器模型以真實文本數(shù)據(jù)和生成文本數(shù)據(jù)作為輸入，輸出數(shù)據(jù)為真實數(shù)據(jù)的概率，如圖5[39]所示．

圖5 序列生成對抗網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 5 Structure of SeqGAN

為了解決將GAN應(yīng)用到文本生成時所存在的梯度無法回傳的問題，SeqGAN提出使用強化學習策略梯度的方法對生成器進行更新，生成器的目標是最大化序列的累積獎勵，其目標函數(shù)定義為

其中，TR是一條完整序列的累積獎勵．是序列的狀態(tài)-動作值函數(shù)，表示在當前狀態(tài)ts下，選定動作at1+的好壞程度．SeqGAN模型將判別器D的輸出概率作為強化學習中的獎勵函數(shù)為

其中，Y1:T為長度為T的完整序列．由此可見，判別器只能對完整序列進行評價，針對此問題，可采用蒙特卡羅方法對部分序列進行補全為完整序列，并近似求得中間狀態(tài)的動作價值函數(shù)．判別器D以迭代的訓練方式進行更新，對生成器G提供動態(tài)指導，其目標函數(shù)可表示為

SeqGAN模型摒棄了傳統(tǒng)基于強化學習的文本生成任務(wù)中采用靜態(tài)獎勵函數(shù)的機制，首次結(jié)合生成對抗網(wǎng)絡(luò)提供動態(tài)的獎勵函數(shù)．此外，通過與強化學習的結(jié)合，解決了生成對抗網(wǎng)絡(luò)無法應(yīng)用到文本生成任務(wù)的兩大難題，從而為生成對抗網(wǎng)絡(luò)應(yīng)用到自然語言生成任務(wù)構(gòu)建了一種通用框架．SeqGAN在合成數(shù)據(jù)及真實場景如中文詩歌生成、奧巴馬演講生成、音樂生成等具體應(yīng)用場景均取得了較好的結(jié)果．然而，SeqGAN模型在訓練時存在梯度消失和模式崩塌兩大問題，業(yè)界就如何解決這兩個問題對SeqGAN模型提出了進一步改進，下面對模型存在的問題及改進方法做詳細討論．

3.2 梯度消失問題

在SeqGAN模型訓練過程中，由于判別器作為一個二分類器提供的獎勵值稀疏，生成器在訓練時很難有所提高，其所有生成實例都會被評分為0，無法進行實質(zhì)性的更新，導致生成器無法生成多樣、符合現(xiàn)實邏輯的文本．該現(xiàn)象被稱作梯度消失，通常以重新設(shè)計能夠提供更多信息的獎勵函數(shù)緩解此問題．

RankGAN利用一個排序器替代判別器，即由序列生成器G和排序器R組成[40]．其中，排序器R在給定參考時可以對真實數(shù)據(jù)和生成數(shù)據(jù)進行相對排序，以相對排序信息作為獎勵指導生成器．排序獎勵計算的具體步驟為：首先，通過計算余弦相似度表示輸入序列在給定一個參考時的相關(guān)性得分；然后據(jù)此使用softmax公式計算某序列在給定比較集的排序分數(shù)．

從某種意義上說，RankGAN將二元分類器替換為基于多個句子的排序分數(shù)，可以緩解梯度消失問題，在改善SeqGAN的收斂性能方面顯示了良好的結(jié)果．但是，由于它需要對參考集進行額外的采樣，因此其計算成本高于其他模型．

除了上述使用排序器增強獎勵信息，重新設(shè)定分數(shù)作為獎勵函數(shù)是另一種解決方案．其中，經(jīng)典的工作是Che等[42]提出的最大似然增強的離散生成對抗網(wǎng)絡(luò)(maximum-likelihood augmented discrete generative adversarial networks，MaliGAN)．MaliGAN的生成器采用了新的優(yōu)化目標，其利用重要性抽樣，結(jié)合判別器的輸出重新計算獲得的分數(shù)作為獎勵，即

MaliGAN使訓練過程更接近自回歸模型的最大似然訓練，從而使梯度更穩(wěn)定．此外，為了降低方差，MaliGAN采用了兩個技巧：第一個是使用蒙特卡羅方法搜索，第二個是使用MLE進行訓練，逐步向MaliGAN方法進行過渡．實驗表明，該網(wǎng)絡(luò)不僅緩解了梯度消失問題，而且在一定程度上提高了生成器的多樣性．

3.3 模式崩潰問題

除了梯度消失外，SeqGAN模型存在的另一個問題是模式崩潰，即在訓練過程中，生成器通過只擬合目標分布的特定部分以欺騙判別器獲得高分，往往只能生成簡單且短的重復性語句，這極大地降低了生成文本的多樣性．因此，諸多學者通過增強生成器的多樣性緩解模式崩潰問題．

與傳統(tǒng)直接采用判別器輸出作為指導不同，LeakGAN模型通過判別器泄露自身的提取特征以進一步指導生成器[43]．同時，生成器建模為層次強化學習問題[69]，包含高階的Manager模塊和低階的Worker模塊，這兩個模塊均采用長短時記憶網(wǎng)絡(luò)構(gòu)建．在每一個時間步，Manager模塊以從判別器接收到高維特征表征作為輸入，輸出指導目標向量．Worker模塊把當前已生成的單詞經(jīng)過長短時記憶網(wǎng)絡(luò)編碼，將其輸出和目標向量用矩陣乘積的方式結(jié)合起來，以確保能夠綜合依據(jù)Manager的指導和當前狀態(tài)生成一個合適的新單詞．

通過上述過程，判別器使用目標嵌入向量的方式為序列生成提供單步獎勵信息，指導生成器如何改進．其首次通過泄露內(nèi)部特征的方式訓練生成器，并結(jié)合層次化強化學習解決以往生成模型在生成長文本中存在的問題．

LeakGAN模型中的判別器依然是一個二分類器，Xu等[70]認為現(xiàn)有的基于分類器的判別器存在飽和性的問題，即其只能區(qū)分句子真假，不能判斷新句子的新穎程度，從而導致文本生成模型傾向于生成一些重復、無意義的文本．因此，Xu等[70]提出了DPGAN(diversity-promoting generative adversarial network，DP-GAN)模型，采用基于語言模型的單向長短時記憶神經(jīng)網(wǎng)絡(luò)作為判別器，并且使用模型的輸出交叉熵作為獎勵．生成器是一個兩層的長短時記憶神經(jīng)網(wǎng)絡(luò)解碼器，底層對句子表示進行解碼，頂層根據(jù)底層的輸出對每個單詞進行解碼．另外，DP-GAN采用兩種獎勵方式，即局部的單詞級別的獎勵(wordlevel reward)和全局的句子級別獎勵(sentence-level reward)．單詞級別獎勵是當前狀態(tài)的立即獎勵，可以直接根據(jù)當前的詞給出，采用的是語言模型的交叉熵輸出，即

句子級別獎勵，則是簡單地對整個句子的單詞級別獎勵取平均值，即

DP-GAN對重復文本的獎勵較低，對新穎流暢的文本獎勵較高，鼓勵生成者生成新穎多樣的文本．隨著多樣性的提高，DP-GAN生成的數(shù)據(jù)分布能夠更接近真實數(shù)據(jù)分布．然而，若只注重生成文本的新穎性，DP-GAN等文本生成器模型不足以生成跨多個句子的長格式文本，主要原因是缺乏一個有效的機制衡量和控制模型生成文本的局部一致性和全局一致性.

受深度結(jié)構(gòu)化語義模型(DSSM)[71]的啟發(fā)，Cho等[72]將語義相似性擴展到長文本的連貫和銜接性，提出了一種新的神經(jīng)語言模型，其包含連貫判別器和銜接判別器，分別在句子(銜接)和段落(連貫)層面提供反饋信號．連貫判別器通過計算文本塊編碼后的余弦相似度測量一個段落中所有句子之間的相容性，銜接判別器通過計算兩條相鄰句子的余弦相似度得到的不同分值區(qū)分真實或生成的相鄰句子對．生成器是一個基于注意力的雙向Seq2Seq模型[73]，通過最大化訓練數(shù)據(jù)的對數(shù)似然度進行預訓練，并采用了負樣本估計其獎勵基線的策略梯度方法，因此無需單獨的批評函數(shù)．通過上述方法，使用TripAdvisor酒店英語評論數(shù)據(jù)集[74]和Yelp英語評論集在長文本生成任務(wù)上進行測試，測試結(jié)果與人工評價結(jié)果一致，說明上述方法在判別器的幫助下生成的文本局部和全局一致程度更高．但為了生成更有意義、邏輯性更強的長文本，所提出的方法還有待改進．

Zhou等[75]借鑒AlphaGo中使用的自我博弈(self-play)機制，提出一種新的自對抗學習(SAL)范式改進生成對抗網(wǎng)絡(luò)在文本生成任務(wù)中的表現(xiàn)[76].SAL的核心思想是：如果發(fā)現(xiàn)當前生成的樣本比先前生成的更好，則獎勵生成器．自對抗學習中采用的是基于比較思想的判別器，假設(shè)其輸入是兩個文本序列A和B，輸出標簽包含3類，分別對應(yīng)序列A的質(zhì)量比B高(＞)、低(＜)和無法區(qū)分(≈)．與SeqGAN、MaliGAN等文本生成對抗網(wǎng)絡(luò)模型一樣，自對抗學習通過REINFORCE算法訓練生成器．在訓練期間，SAL通過比較判別器，將生成器當前生成的文本序列與其自身先前生成的文本序列進行比較．若當前生成的序列比其先前生成的序列質(zhì)量更高時，生成器得到正獎勵，反之獎勵為負，兩者質(zhì)量無法區(qū)分時獎勵為0．通過這種自我完善的獎勵機制，生成器更易于獲得非稀疏獎勵，并且在訓練后期，SAL防止重復性樣本取得較高的分數(shù)，從而能夠緩解生成對抗網(wǎng)絡(luò)獎勵稀疏和模式崩潰的問題，使訓練更加穩(wěn)定．生成的文本序列在質(zhì)量、多樣性、低方差上也都有很好的表現(xiàn)．

4 總結(jié)與展望

在社會逐步邁向智能化的時代，文本生成作為實現(xiàn)人工智能的重要標志之一，一直是科技領(lǐng)域研究的熱點．由于人類自然語言的豐富性，提高生成文本的流暢度及多樣性是一項很大的挑戰(zhàn)．本文對現(xiàn)有的基于深度強化學習的文本生成方法進行了綜述，從提出的背景、基本概念、算法的思想及優(yōu)缺點等方面進行了詳細的分析．強化學習和文本生成任務(wù)的相結(jié)合研究備受關(guān)注，推動了利用強化學習方法進行文本生成的研究和發(fā)展，且已取得了一定的成果，但該結(jié)合研究仍存在問題和挑戰(zhàn)亟待解決．

深度強化學習領(lǐng)域的算法依然存在著其自身問題，例如訓練不穩(wěn)定、需要人為設(shè)計獎勵函數(shù)等．因此，如何提高生成模型的性能是深度強化學習能在文本生成任務(wù)中得以廣泛應(yīng)用的重要研究方向．同時，目前利用強化學習算法及思想解決文本生成任務(wù)，僅局限在經(jīng)典的強化學習算法．深度強化學習發(fā)展至今有許多改進算法及新的模型，因此如何將更適合的強化學習算法有效地應(yīng)用于文本生成任務(wù)也是另一個亟待探索的研究方向．另外，基于深度學習的文本生成任務(wù)不斷有新的算法被提出，例如記憶網(wǎng)絡(luò)、注意力機制等，將其與深度強化學習相結(jié)合，提高生成模型的效果，這將是未來的一個研究熱點．

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放