張晨陽(yáng),杜義華
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京100190
2.中國(guó)科學(xué)院大學(xué),北京100049
短文本自動(dòng)生成技術(shù)屬于自然語(yǔ)言生成(NLG)的研究范疇,是指計(jì)算機(jī)能夠根據(jù)知識(shí)庫(kù)或邏輯形式的機(jī)器表述自動(dòng)生成一段符合語(yǔ)法和邏輯的自然語(yǔ)言文本[1]。短文本是指長(zhǎng)度較短,通常在200字符左右的文本形式[2]。相對(duì)于長(zhǎng)文本,短文本內(nèi)容特征稀疏、噪聲大、上下文依賴(lài)性強(qiáng),同時(shí)受網(wǎng)絡(luò)傳播的影響,短文本還具有海量性、實(shí)時(shí)性、內(nèi)容多樣性等特點(diǎn),在預(yù)處理、文本語(yǔ)義表示及生成方法復(fù)雜度等方面都給短文本自動(dòng)生成技術(shù)提出了挑戰(zhàn)[3]。
短文本自動(dòng)生成技術(shù)的研究意義主要體現(xiàn)在四方面:(1)閱讀和寫(xiě)作效率提升的現(xiàn)實(shí)需要。在當(dāng)前數(shù)據(jù)呈現(xiàn)爆炸性增長(zhǎng)的背景下[4],短文本自動(dòng)生成技術(shù)可以從海量的文本信息中快速總結(jié)出內(nèi)容主旨、要義,或按需自動(dòng)生成提綱、文章,節(jié)省用戶(hù)閱讀寫(xiě)作時(shí)間。(2)人機(jī)交互滿(mǎn)意度提升的需要。短文本自動(dòng)生成技術(shù)在問(wèn)答機(jī)器人、閑聊機(jī)器人等人機(jī)交互任務(wù)中可以獲得更多優(yōu)質(zhì)的回復(fù)文本,提高機(jī)器有效應(yīng)答能力,提升用戶(hù)滿(mǎn)意度[5]。(3)傳播與引導(dǎo)效果提升的需要。短文本自動(dòng)生成技術(shù)在信息傳播與引導(dǎo)中可用于生成優(yōu)質(zhì)評(píng)論,降低負(fù)面信息的傳播影響力[6]。(4)機(jī)器語(yǔ)義理解能力提升的需要。受短文本自身特性和網(wǎng)絡(luò)傳播的影響,在生成內(nèi)容時(shí)計(jì)算機(jī)不僅要考慮短文本本身的特點(diǎn),還要分析理解文本的上下文關(guān)系及用戶(hù)個(gè)性,對(duì)機(jī)器語(yǔ)義理解能力的提升提出了更高的要求[7]。
短文本自動(dòng)生成技術(shù)具有廣泛的應(yīng)用前景,可應(yīng)用在短文本摘要、智能對(duì)話(huà)生成、詩(shī)歌創(chuàng)作、評(píng)論文本生成等多種場(chǎng)景中。相關(guān)模型優(yōu)化和針對(duì)具體任務(wù)的創(chuàng)新成果也多次在發(fā)布ACL、EMNLP、ICLR、AAAI等自然語(yǔ)言頂級(jí)會(huì)議和期刊中,短文本自動(dòng)生成技術(shù)的研究對(duì)人們的生活和工作產(chǎn)生著巨大的影響。
本文將從短文本生成方法和生成模型、短文本生成需求演化方向以及生成評(píng)價(jià)方法三方面對(duì)短文本自動(dòng)生成技術(shù)進(jìn)行梳理介紹,并對(duì)未來(lái)發(fā)展趨勢(shì)提出展望。
傳統(tǒng)的短文本生成方法多是采用基于模板或規(guī)則、基于統(tǒng)計(jì)語(yǔ)言模型的方法。隨著人工智能技術(shù)和神經(jīng)網(wǎng)絡(luò)的變革與發(fā)展,現(xiàn)基于神經(jīng)網(wǎng)絡(luò)模型的生成方法成為短文本生成領(lǐng)域的主流方法。
基于模板或規(guī)則的方法是文本生成任務(wù)中早期的使用方法[8]。方法的本質(zhì)相當(dāng)于同義詞替換的“填空”過(guò)程,其原理是通過(guò)抽取語(yǔ)義相似句子的共同特征,形成由變量和固定詞組成的系列模板,再通過(guò)檢索語(yǔ)義相似的模板,在具體生成任務(wù)中將其變量替換?;谀0寤蛞?guī)則的生成思路簡(jiǎn)單,在短文本生成任務(wù)的對(duì)話(huà)生成[9]、描述文本生成[10]中都有相關(guān)應(yīng)用實(shí)現(xiàn)。但該方法存在模板不夠靈活,文本生成質(zhì)量較低的問(wèn)題。
統(tǒng)計(jì)語(yǔ)言模型是用來(lái)計(jì)算一個(gè)詞語(yǔ)、句子甚至是文檔概率分布的模型,能夠使計(jì)算機(jī)從概率角度預(yù)測(cè)下一個(gè)詞語(yǔ)或句子出現(xiàn)的可能性及語(yǔ)義合法性[11]。常見(jiàn)的統(tǒng)計(jì)語(yǔ)言模型包括:N元文法模型、馬爾可夫模型、最大熵模型、決策樹(shù)模型等。基于統(tǒng)計(jì)語(yǔ)言模型的生成方法最初多應(yīng)用在機(jī)器翻譯中,其后基于統(tǒng)計(jì)翻譯的思想也被廣泛應(yīng)用在詩(shī)歌創(chuàng)作等短文本生成任務(wù)[12]?;诮y(tǒng)計(jì)語(yǔ)言模型方法的生成質(zhì)量很大程度受相應(yīng)領(lǐng)域數(shù)據(jù)豐富程度的影響,通用性較差,生成句子時(shí)更多的只考慮當(dāng)前詞語(yǔ),缺少對(duì)上下文的語(yǔ)義估計(jì)。
短文本生成領(lǐng)域常用的神經(jīng)網(wǎng)絡(luò)模型主要包括Seq2Seq模型、VAE模型、GAN模型、Transformer模型等四類(lèi),模型的優(yōu)缺點(diǎn)對(duì)比見(jiàn)表1。
表1 四類(lèi)模型優(yōu)勢(shì)及不足對(duì)比Table 1 Comparison of advantages and disadvantages of the four models
Seq2Seq模型:Seq2Seq采用基礎(chǔ)的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)。編碼器可以將句子編碼成一個(gè)能映射其大致內(nèi)容的固定長(zhǎng)度的潛在向量,然后通過(guò)解碼器將其還原為目標(biāo)序列。
圖1 Seq2Seq基礎(chǔ)模型架構(gòu)Fig.1 The base model architecture of Seq2Seq
Kyunghyun Cho等[13]最早于2014年提出了基于RNN的編碼器解碼器模型。同年,Ilya Sutskever等[14]首次提出了Seq2Seq概念。隨后注意力機(jī)制的提出[15],使得Seq2seq模型在各類(lèi)文本生成任務(wù)中都有了突破性的進(jìn)展。針對(duì)Seq2Seq模型在生成時(shí)的未登陸詞的問(wèn)題,結(jié)合注意力機(jī)制,學(xué)者們提出了指針網(wǎng)絡(luò)模型Pointer Network(Ptr-Net)[16]和CopyNet[17]模型,并在文本摘要任務(wù)中取得顯著成效。為了解決Seq2Seq的曝光誤差問(wèn)題,也有學(xué)者將結(jié)合強(qiáng)化學(xué)習(xí)的思想用于Seq2Seq的模型優(yōu)化[18]。
VAE模型:VAE生成模型也是編碼器-解碼器的框架,VAE變分自編碼器,是在自編碼器(Autoencoder)的基礎(chǔ)上添加了隱變量,并將訓(xùn)練數(shù)據(jù)指定為一個(gè)聯(lián)合概率分布,即編碼器端將輸入的高維數(shù)據(jù)先映射成符合某種概率分布的低維隱變量,解碼器端按照條件概率由隱變量還原為目標(biāo)數(shù)據(jù)。
圖2 VAE模型架構(gòu)Fig.2 Model architecture of VAE
VAE模型最早在2013年提出[19],模型通過(guò)重構(gòu)得到輸入的分布狀態(tài),再?gòu)姆植贾胁蓸荧@得目標(biāo)數(shù)據(jù)。
與Seq2seq模型相比,VAE具有生成非單一數(shù)據(jù)的優(yōu)勢(shì)。但VAE模型對(duì)目標(biāo)函數(shù)的優(yōu)化容易造成KL散度消失的問(wèn)題。對(duì)此,一些學(xué)者[20-21]通過(guò)減小KL loss來(lái)解決,也有學(xué)者[22-23]通過(guò)加強(qiáng)編碼器提取或減弱解碼器強(qiáng)度的方式來(lái)增大VAE重構(gòu)損失以減小KL散度消失。哈佛大學(xué)的研究人員提出了將注意力建模成隱變量[24],應(yīng)用變分自編碼器和梯度策略來(lái)訓(xùn)練模型,在不使用 KL 退火算法下進(jìn)行模型訓(xùn)練。
GAN模型:GAN(生成對(duì)抗網(wǎng)絡(luò))由生成器和判別器構(gòu)成,其基本原理是將生成器生成的樣本和真實(shí)數(shù)據(jù)輸入到判別器中進(jìn)行真假判斷,通過(guò)迭代訓(xùn)練,直至生成器的生成樣本不能被判別器識(shí)別,即可達(dá)到理想的生成效果。
GAN最早于2014年針對(duì)離散問(wèn)題提出[25]。2016年提出的TextGAN[26]是GAN在文本生成中最早的應(yīng)用。同年為了解決生成器到判別器梯度更新困難的問(wèn)題,有學(xué)者提出了SeqGAN[27],將GAN與強(qiáng)化學(xué)習(xí)融合,用策略梯度算法更新生成器參數(shù)。
圖3 TextGan模型Fig.3 The model architecture of TextGAN
圖4 Transformer基本模型架構(gòu)Fig.4 The model architecture of Transformer
其后針對(duì)GAN在文本生成中有大量的研究成果。MaskGAN[28]為解決曝光誤差問(wèn)題,提出了利用強(qiáng)化學(xué)習(xí)中的 actor-critic 算法訓(xùn)練生成器,利用最大似然和隨機(jī)梯度下降訓(xùn)練判別器的模型結(jié)構(gòu)。針對(duì)GAN引入強(qiáng)化學(xué)習(xí)造成訓(xùn)練不穩(wěn)定的問(wèn)題,論文[29]提出了增強(qiáng)對(duì)抗獎(jiǎng)勵(lì)的最大似然框架(ARAML),融合了強(qiáng)化學(xué)習(xí)和最大似然方法,訓(xùn)練時(shí)通過(guò)分層采樣方式從指數(shù)回報(bào)分布獲得采樣數(shù)據(jù),判別器可實(shí)現(xiàn)對(duì)不同分布的樣本分配穩(wěn)定的獎(jiǎng)勵(lì),實(shí)現(xiàn)較好的生成效果。
Transformer模型:Transformer[30]由Google團(tuán)隊(duì)在2017年提出,模型也是采用Encoder-Decoder架構(gòu),是完全采用注意力機(jī)制來(lái)實(shí)現(xiàn)加速深度學(xué)習(xí)算法的生成模型。Transformer模型能并行化處理,模型生成效率高,但相對(duì)時(shí)間復(fù)雜度也較大,同時(shí)Transformer 需要事先設(shè)定輸入長(zhǎng)度,對(duì)長(zhǎng)序列關(guān)系的捕捉也有一定限制。
在擴(kuò)展Transformer 處理序列長(zhǎng)度上,Dai等提出了Transformer-XL[31],模型由片段級(jí)的循環(huán)機(jī)制和相對(duì)位置編碼策略構(gòu)成,能夠在不破壞時(shí)間一致性的情況下,學(xué)習(xí)到超越固定長(zhǎng)度的依賴(lài)性。在降低模型復(fù)雜度方面, Google提出了Reformer模型[32],模型使用可逆殘差層和全連接層分段計(jì)算來(lái)降低內(nèi)存占用,用局部敏感哈希的注意力機(jī)制代替點(diǎn)積注意力機(jī)制來(lái)降低模型的復(fù)雜度。
短文本自動(dòng)生成技術(shù)的應(yīng)用主要可分為創(chuàng)作型生成和輔助型生成兩大類(lèi)。創(chuàng)作型生成包括詩(shī)歌生成、評(píng)論文本生成和對(duì)話(huà)生成等。輔助型生成任務(wù)包括標(biāo)題生成、注釋?zhuān)枋觯┥珊投涛谋菊取?/p>
通過(guò)對(duì)短文本生成應(yīng)用的論文調(diào)研與分析,當(dāng)前的短文本生成需求可概括為由生成文本連貫性向生成文本個(gè)性化的遞進(jìn)演化過(guò)程。包括語(yǔ)句連貫表達(dá)、語(yǔ)句多樣表達(dá)、語(yǔ)境關(guān)聯(lián)表達(dá)和個(gè)性化生成四個(gè)方面,其最新(2020年)的研究文獻(xiàn)見(jiàn)表2。
表2 四類(lèi)生成需求最新研究文獻(xiàn)Table 2 The latest research literature on four types of generation requirements
語(yǔ)句連貫表達(dá)是指在生成語(yǔ)句時(shí)句子是準(zhǔn)確、流暢且符合邏輯的。語(yǔ)句連貫表達(dá)是短文本生成任務(wù)的基礎(chǔ)目標(biāo)。當(dāng)前多是采用融合模型或檢索的方式、加強(qiáng)輸入數(shù)據(jù)約束、增加預(yù)處理模型等三個(gè)方面進(jìn)行。
2.1.1 融合模板或檢索
在生成應(yīng)用中若從源文本直接生成可能會(huì)造成生成效果不穩(wěn)定的情況,針對(duì)此類(lèi)問(wèn)題,有學(xué)者將生成模型與傳統(tǒng)的模板和檢索的方式進(jìn)行了融合。Cao等[33]利用檢索式的方法先生成摘要的軟模板,模板由高總結(jié)性不完整的句子構(gòu)成,再基于模板和生成模型獲得準(zhǔn)確率更高的摘要內(nèi)容。Yang等[34]在對(duì)話(huà)生成任務(wù)中,提出了融合生成式、檢索式的混合神經(jīng)網(wǎng)絡(luò)模型,模型先分別通過(guò)生成模塊和檢索模塊獲得匹配的響應(yīng),再基于混合排序獲得最佳的生成結(jié)果。Cai等[35]設(shè)計(jì)了匹配模型,將檢索響應(yīng)通過(guò)匹配模型獲對(duì)話(huà)回應(yīng)綱要,然后將檢索響應(yīng)和匹配綱要一起輸入生成模型中,采用直接訓(xùn)練和強(qiáng)化學(xué)習(xí)兩種思路來(lái)獲得流暢連貫的對(duì)話(huà)文本。
2.1.2 輸入數(shù)據(jù)約束
增強(qiáng)輸入數(shù)據(jù)是提升語(yǔ)句連貫的重要手段之一。針對(duì)短文本摘要,Wang[36]提出了一種迭代修改的生成模型,模型先利用標(biāo)題生成摘要初稿,再將初稿和標(biāo)題作為模型輸入,利用注意力機(jī)制再次生成摘要。論文中證明多次迭代會(huì)得到更高質(zhì)量的摘要,但同時(shí)也降低了標(biāo)題的影響,經(jīng)作者驗(yàn)證,兩次迭代能獲得最好的生成效果。類(lèi)似的,Hancock等[37]基于Transformer模型設(shè)計(jì)了自饋式聊天機(jī)器人,對(duì)話(huà)順利時(shí)會(huì)將用戶(hù)的回答作為訓(xùn)練的新范例進(jìn)行模仿,對(duì)話(huà)不順利時(shí)將反饋矯正建立新的范例,以此提高生成對(duì)話(huà)的流暢和邏輯性。Rik Koncel-Kedziorski等[38]通過(guò)知識(shí)圖譜來(lái)約束模型輸入,利用Transformer模型提取圖特征,利用實(shí)體-屬性-實(shí)體的指導(dǎo)來(lái)生成高質(zhì)量的摘要內(nèi)容。
2.1.3 融合預(yù)訓(xùn)練模型
預(yù)訓(xùn)練模型思想自提出后,在情感分類(lèi)[39]、多輪對(duì)話(huà)[40]等各類(lèi)NLP應(yīng)用中都被驗(yàn)證了其優(yōu)異的提升效果,也為短文本生成質(zhì)量提升提供了新方向。Bao[41]在論文中提出結(jié)合預(yù)訓(xùn)練模型和離散潛變量的方法,通過(guò)改進(jìn)的注意力機(jī)制來(lái)考慮語(yǔ)言生成的雙向語(yǔ)境和單向特征,以提升對(duì)話(huà)生成連貫性。Chen Qu[42]和Wang等[43]對(duì)預(yù)訓(xùn)練模型Bert進(jìn)行改進(jìn),并分別用于提升在問(wèn)答和開(kāi)放域?qū)υ?huà)生成任務(wù)中的對(duì)話(huà)生成質(zhì)量。
語(yǔ)句的多樣表達(dá)在短文本任務(wù)中,是解決生成回復(fù)較單一或者存在較多“安全性”回復(fù)(如“我不知道” 、“我明白了” 等意義低且簡(jiǎn)單的通用性回復(fù))問(wèn)題。語(yǔ)句多樣性的實(shí)現(xiàn)主要通過(guò)改變目標(biāo)函數(shù)、搜索算法或增加生成內(nèi)容控制單元。
2.2.1 目標(biāo)函數(shù)優(yōu)化
為了提成對(duì)話(huà)的生成多樣性,Li等[44]將最大互信息作為神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)函數(shù),Li[45],Shao[46]等通過(guò)增加多樣性懲罰或隨機(jī)定向搜索策略等方式優(yōu)化編碼器的波束搜索算法,以提升生成句子的內(nèi)容信息量,解決生成文本單一問(wèn)題。Wang[47]等人提出了基于懲罰的目標(biāo)函數(shù),不同與其他最大化獎(jiǎng)勵(lì)的方法,該方法是以最小化總體懲罰的目的迫使每個(gè)生成器生成多個(gè)特定情感標(biāo)簽的文本。
2.2.2 內(nèi)容控制
很多學(xué)者們利用增加控制模塊或指定內(nèi)容選擇策略的方式來(lái)實(shí)現(xiàn)語(yǔ)句的多樣性表達(dá)。如:Liu等提出了一種用于現(xiàn)代漢語(yǔ)詩(shī)歌生成的修辭控制編碼器[48],模型可以利用人工輸入的修辭標(biāo)簽或通過(guò)上下文信息自動(dòng)生成的修辭標(biāo)簽指導(dǎo)生成,以獲得具有豐富修辭的詩(shī)歌文本。Gao等[49]引入一個(gè)具有顯式語(yǔ)義的離散潛變量的變分自編碼模型,通過(guò)兩階段采樣的方法選擇具有不同的語(yǔ)義距離的隱變量,實(shí)現(xiàn)在短文本會(huì)話(huà)中生成語(yǔ)義多樣的文本。
語(yǔ)境關(guān)聯(lián)表達(dá)主要針對(duì)短文本摘要、對(duì)話(huà)生成、評(píng)論生成等短文本生成應(yīng)用中輸入與響應(yīng)不一致或關(guān)聯(lián)性不強(qiáng)的情況。為解決這類(lèi)問(wèn)題,近年的研究多是基于主題詞(話(huà)題詞)約束、情感約束、引入外部知識(shí)約束的方法。
2.3.1 主題詞約束
無(wú)論是對(duì)話(huà)內(nèi)容還是評(píng)論內(nèi)容往往都是基于同一主題或同一話(huà)題產(chǎn)生的,利用主題詞的約束限制能在生成時(shí)實(shí)現(xiàn)較理想的語(yǔ)境關(guān)聯(lián)。Yao[50]在對(duì)話(huà)生成任務(wù)中,將關(guān)鍵詞融合到解碼時(shí)每一步的狀態(tài)更新中,使產(chǎn)生的回應(yīng)更貼合語(yǔ)境。Dziri[51]設(shè)計(jì)了端對(duì)端的對(duì)話(huà)系統(tǒng)THRED,模型融合主題信息,采用層次化的注意力機(jī)制在句子級(jí)別和單詞級(jí)別分別對(duì)輸入的數(shù)據(jù)進(jìn)行建模,充分考慮了主題和對(duì)話(huà)歷史信息的上下文語(yǔ)境關(guān)聯(lián)。Zheng[52]設(shè)計(jì)了引入門(mén)控注意機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,以控制新聞評(píng)論生成時(shí)語(yǔ)境的選擇和自適應(yīng)性,同時(shí)為了保證評(píng)論的關(guān)聯(lián)性,使用隨機(jī)樣本和關(guān)聯(lián)控制來(lái)生成不同主題和相關(guān)度的評(píng)價(jià)。
2.3.2 情感約束
結(jié)合短文本的情感特性,有學(xué)者采用情感詞典的方式來(lái)考慮生成時(shí)的上下文關(guān)聯(lián)。如:Asghar[53]基于seq2seq模型,通過(guò)引入外部的情感詞典將輸入詞建模成帶情緒的詞向量,同時(shí)設(shè)置了最小化情感失調(diào)、最大化情感失調(diào)、最大化情感內(nèi)容三類(lèi)情感目標(biāo)函數(shù),對(duì)解碼器搜索算法進(jìn)行優(yōu)化,使得生成文本時(shí)既能考慮單詞情感也能考慮句子情感。Zhong[54]設(shè)計(jì)了基于情感的注意力機(jī)制來(lái)考慮對(duì)話(huà)生成時(shí)否定詞和加強(qiáng)詞的作用,同時(shí)用融入情感的目標(biāo)函數(shù)優(yōu)化模型,確保生成對(duì)話(huà)的情感一致性。
2.3.3 外部知識(shí)約束
外部知識(shí)約束也是解決語(yǔ)境關(guān)聯(lián)表達(dá)的有效方式之一。Zhou[55]提出了把知識(shí)圖譜看作一個(gè)整體用于對(duì)話(huà)生成任務(wù)中,模型通過(guò)靜態(tài)圖注意力機(jī)制來(lái)增強(qiáng)輸入句子的語(yǔ)義信息,通過(guò)動(dòng)態(tài)圖注意力機(jī)制和知識(shí)來(lái)生成更一致的回答。Lian[56]提出了融合了外部知識(shí)指導(dǎo)對(duì)話(huà)生成的模型,模型由表達(dá)編碼器,知識(shí)編碼器,知識(shí)管理模塊,解碼器四部分構(gòu)成,模型的主要思想是由表達(dá)編碼器獲得原數(shù)據(jù)的詞向量,知識(shí)編碼器獲得外部知識(shí)的編碼向量,然后將二者輸入到知識(shí)管理模塊采樣獲得最優(yōu)知識(shí)和內(nèi)容隱變量,最后再通過(guò)注意力機(jī)制將知識(shí)和內(nèi)容隱變量生成更一致的對(duì)話(huà)響應(yīng)。
個(gè)性化表達(dá)是指在評(píng)論、對(duì)話(huà)短文本生成任務(wù)中,模型可以模仿和生成更貼近人類(lèi)表達(dá)和行為特性的內(nèi)容。個(gè)性化表達(dá)常用的方法可概況為增加風(fēng)格和人格特性、基于用戶(hù)個(gè)性化信息兩方面。
2.4.1 基于風(fēng)格或人格特性
為了能夠生成不同風(fēng)格的評(píng)論,Tai 等[6]建立了一種針對(duì)特定社交網(wǎng)絡(luò)領(lǐng)域的評(píng)論內(nèi)容生成方法,該方法針對(duì)政治、娛樂(lè)等不同領(lǐng)域內(nèi)的評(píng)論特點(diǎn)設(shè)計(jì)了句子級(jí)分類(lèi)器,將不同句式結(jié)構(gòu)和情感的句子分別使用遞歸神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,提升生成評(píng)論的個(gè)性化。Wang團(tuán)隊(duì)提出了一個(gè)融合心理學(xué)中大五人格的個(gè)性化的短文本生成模型[57],將大五人格編碼成特征向量用于條件語(yǔ)言生成模型中指導(dǎo)輸入數(shù)據(jù)的生成,該模型在基于微博的中文評(píng)論驗(yàn)證時(shí)能夠生成不同的emoji表情來(lái)增加評(píng)論的個(gè)性化。
2.4.2 基于用戶(hù)個(gè)性化信息
在個(gè)性化實(shí)現(xiàn)方面,也有很多學(xué)者從用戶(hù)本身信息考慮。如:Liu[58]提出了從對(duì)話(huà)內(nèi)容中學(xué)習(xí)用戶(hù)潛在內(nèi)容的用戶(hù)個(gè)性化表示方法,論文中利用雙分支神經(jīng)網(wǎng)絡(luò)從用戶(hù)對(duì)話(huà)中自動(dòng)學(xué)習(xí)用戶(hù)查詢(xún)、用戶(hù)回復(fù)和用戶(hù)配置文件的融合表示,實(shí)現(xiàn)了從用戶(hù)角度的個(gè)性化對(duì)話(huà)生成。Ni[59]對(duì)電商評(píng)論的自動(dòng)生成任務(wù)設(shè)計(jì)了基于用戶(hù)和商品信息以及輔助的感知知識(shí)的生成模型,通過(guò)用戶(hù)方向偏好與項(xiàng)目方向的關(guān)聯(lián)關(guān)系獲得個(gè)性化評(píng)論。Luo設(shè)計(jì)了基于用戶(hù)概要模型和用戶(hù)偏好模型的個(gè)性化對(duì)話(huà)生成模型MEMN2N[60],概要模型使用分布式概要文件表示用戶(hù)的個(gè)性化信息,并獲取類(lèi)似概要文件的其他用戶(hù)歷史對(duì)話(huà),以指導(dǎo)語(yǔ)言風(fēng)格和對(duì)話(huà)推薦策略的選擇;偏好模型是通過(guò)用戶(hù)概要和知識(shí)庫(kù)間的關(guān)聯(lián)獲得用戶(hù)偏好。
本小節(jié)關(guān)于短文本的應(yīng)用研究多是基于文本到文本的生成,現(xiàn)今隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,結(jié)合NLP技術(shù)中圖卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用,也有學(xué)者致力于研究多模態(tài)的文本生成,如:Sanabria等提供了針對(duì)教學(xué)視頻的多模態(tài)摘要數(shù)據(jù)集,用于教學(xué)式視頻摘要的生成[73]。Zhu等提出了多模態(tài)基準(zhǔn)指導(dǎo)的圖文式摘要生成[74]。Chen等設(shè)計(jì)了基于用戶(hù)注意力指導(dǎo)的多模態(tài)對(duì)話(huà)生成系統(tǒng)[75]。多模態(tài)文本生成的研究歷史在國(guó)內(nèi)還較短,但具有巨大的研究和應(yīng)用價(jià)值,也為短文本生成的多樣性和個(gè)性化提供了新思路。
為了評(píng)價(jià)生成文本質(zhì)量的好壞,短文本生成領(lǐng)域目前常用的評(píng)價(jià)方式主要包括自動(dòng)評(píng)價(jià)指標(biāo)、人工評(píng)估指標(biāo)和利用訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)模擬人打分流程的模擬人工評(píng)估方式。
短文本生成任務(wù)中的常用指標(biāo)可概括為三類(lèi):基于詞重疊率的評(píng)價(jià)指標(biāo)、基于語(yǔ)言模型優(yōu)劣的評(píng)價(jià)指標(biāo)、基于場(chǎng)景需求的多樣性評(píng)價(jià)指標(biāo)。
短文本任務(wù)中常用的基于詞重疊率的指標(biāo)主要為BLEU和ROUGE。
BLEU[76]的本質(zhì)是對(duì)兩個(gè)句子中重復(fù)詞頻率的計(jì)算,在短文本生成任務(wù)中,通過(guò)BLEU可獲得參考文本和生成文本的重合程度,重合程度越高代表生成文本的質(zhì)量越高,句子流暢性和一致性越好。公式如下:
其中,BP為長(zhǎng)度懲罰因子,c為參考句子長(zhǎng)度。
BLEU包括BLEU-1、BLEU-2、BLEU-3、BLEU-4,分別表示一元組至四元組的重合程度。但BLEU只從詞的角度評(píng)估內(nèi)容,缺乏對(duì)語(yǔ)義和句子結(jié)構(gòu)的評(píng)估,在短文本生成任務(wù)中,通常和其他評(píng)價(jià)指標(biāo)共同衡量生成效果。
與BLEU類(lèi)似,ROUGE[77]也是基于n元詞組、序列和詞對(duì)的重復(fù)率的評(píng)估方式。ROUGE分為四種:ROUGE-N(N通常取1-4),ROUGE-L,ROUGE-W,ROUGE-S。短文本常用的是基于召回率n元詞組重合度的Rouge-N和基于F1值序列重合度的ROUGE-L,計(jì)算公式如下:
其中,分母表示在生成文本中的N-gram個(gè)數(shù),分子表示生成文本和參考文本中共同的N-gram個(gè)數(shù)。
其中,L指最長(zhǎng)公共子序列,X、Y分別代表生成文本和參考答案的最長(zhǎng)公共子序列,Rlcs表示召回率,Plcs表示精確率,F(xiàn)lcs即為ROUGE-L的得分。
ROUGE常用在摘要生成任務(wù)中,ROUGE雖然也沒(méi)有考慮語(yǔ)義信息,但聯(lián)合ROUGE-N和ROUGE-L和句子數(shù)量能夠緩解語(yǔ)義信息的缺失,比BLEU評(píng)估更全面。
基于語(yǔ)言模型優(yōu)劣的評(píng)價(jià)指標(biāo)包括困惑度Preplexity和熵,用于評(píng)估語(yǔ)言模型的好壞,短文本生成中最常使用的為困惑度。
困惑度Perplexity[78]是將詞重復(fù)出現(xiàn)概率用句子長(zhǎng)度歸一化表示的指標(biāo)。困惑度在短文本任務(wù)中可以衡量生成評(píng)論或?qū)υ?huà)的質(zhì)量,是對(duì)句子通順,沒(méi)有詞序顛倒的衡量。計(jì)算公式如(5)所示。
困惑度越低,說(shuō)明文本生成的質(zhì)量越好。但具體生成任務(wù)中數(shù)據(jù)集數(shù)量、標(biāo)點(diǎn)符號(hào)和未登陸詞等因素會(huì)對(duì)PPL評(píng)估結(jié)果造成干擾。
基于場(chǎng)景需求的多樣性指標(biāo)主要是判斷生成時(shí)是否有大量無(wú)關(guān)、重復(fù)或通用性的文本。短文本中常用的指標(biāo)包括Distinct和Self-BLEU。
Distinct[79]指標(biāo)公式如(6)所示。
其中,Count(unique ngram)表示回復(fù)中不重復(fù)的元組的數(shù)量,Count(word)表示生成的回復(fù)中元組的總數(shù)量。Distinct一般多用于對(duì)話(huà)生成中,Distinct(n)越大表示生成的回復(fù)多樣性越高。
Self-BLEU[80]指標(biāo)公式如(7)所示。
當(dāng)前短文本生成研究中,由于常用的評(píng)價(jià)指標(biāo)在語(yǔ)義層面評(píng)估的不足,很多研究采用人為打分的方式測(cè)量生成的內(nèi)容質(zhì)量。人工評(píng)價(jià)指標(biāo)通??蓜澐譃榛谏蓛?nèi)容本身評(píng)估和針對(duì)任務(wù)完成情況評(píng)估。
基于生成內(nèi)容本身的人工評(píng)價(jià)指標(biāo)可概括為真假判定、流暢性得分、邏輯性得分,多樣性得分等,可根據(jù)具體的生成需要進(jìn)行人為限定。如論文[48]對(duì)自動(dòng)生成詩(shī)歌的流暢度、意義、美感等指標(biāo)進(jìn)行人工打分。論文[57]對(duì)將生成的評(píng)論和真實(shí)的評(píng)論混合,讓50名志愿者評(píng)判是人工寫(xiě)作還是機(jī)器生成,并根據(jù)句子流暢性和邏輯性給出1-5評(píng)分。
基于內(nèi)容完成情況的指標(biāo)多是對(duì)任務(wù)成功度,系統(tǒng)表現(xiàn)等方面評(píng)估。在對(duì)話(huà)生成中多是評(píng)估對(duì)話(huà)的表現(xiàn),如角色一致性、語(yǔ)境關(guān)聯(lián)性、外部知識(shí)引用情況等。如:論文[56]將人工評(píng)價(jià)指標(biāo)定義為:內(nèi)容級(jí)別的適宜性(回應(yīng)在語(yǔ)法、主題和邏輯上是否合適),知識(shí)層面的信息性(回復(fù)是否提供了新信息和知識(shí))。論文[68]針對(duì)對(duì)話(huà)的生成效果將人工評(píng)分按照生成回復(fù)的相關(guān)性劃定從0到2的評(píng)分范圍。論文[81]提出從對(duì)話(huà)語(yǔ)流暢性、角色一致性、語(yǔ)境連貫三項(xiàng)指標(biāo)判別對(duì)話(huà)表現(xiàn)。
鑒于人工評(píng)價(jià)工作量大、成本高、標(biāo)注困難且存在主觀因素,而且人工很難合理的評(píng)估生成的多樣性,因此一些研究學(xué)者們致力于使用神經(jīng)網(wǎng)絡(luò)模型的評(píng)價(jià)方式來(lái)改進(jìn)相關(guān)問(wèn)題。
Kannan[82]提出了基于GAN的生成對(duì)抗思想來(lái)評(píng)價(jià)對(duì)話(huà)生成質(zhì)量,將生成器生成的文本和人真實(shí)的對(duì)話(huà)回復(fù)都送入鑒別器中,以鑒別器的對(duì)抗損失作為對(duì)生成質(zhì)量的評(píng)估。但作者只是提出了這種思想,論文中的生成器和判別器均是獨(dú)立訓(xùn)練的,生成器效果好和判別效果差都會(huì)對(duì)結(jié)果產(chǎn)生影響,不夠客觀。相似的,Ryan等人提出了對(duì)話(huà)生成質(zhì)量評(píng)價(jià)的ADEM模型[83],作者主要通過(guò)人工標(biāo)注的形式對(duì)對(duì)話(huà)數(shù)據(jù)進(jìn)行打分,然后通過(guò)這些標(biāo)注的數(shù)據(jù)訓(xùn)練ADEM模型,模型采用分層的循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)人工評(píng)分,通過(guò)預(yù)測(cè)效果說(shuō)明模型的評(píng)分可以貼合人工評(píng)分,雖然該方法說(shuō)明可以利用神經(jīng)網(wǎng)絡(luò)模型來(lái)模擬人工打分,但存在對(duì)數(shù)據(jù)集的依賴(lài)較大的問(wèn)題。
由于Bert等預(yù)訓(xùn)練模型在文本生成任務(wù)中的突出表現(xiàn),也有很多學(xué)者們將預(yù)訓(xùn)練模型微調(diào)用于文本評(píng)價(jià)任務(wù)中。Hassan Kane提出了基于Bert的評(píng)價(jià)方法ROBERTA-STS[84],與BLEU和ROUGE相比,ROBERTA-STS不僅與人工評(píng)價(jià)結(jié)果相關(guān),而且能夠評(píng)價(jià)句子邏輯是否一致。Zhang提出的BERTSCORE[85]不僅能夠計(jì)算句子相似度評(píng)分,同時(shí)給出了準(zhǔn)確率、召回率、F1值等評(píng)價(jià)指標(biāo),能夠適應(yīng)更多的NLG任務(wù)。BLEURT[86]在生成時(shí)使用了兩步微調(diào),在預(yù)訓(xùn)練過(guò)程中使用BLEU和ROUGE等常見(jiàn)的自動(dòng)評(píng)價(jià)指標(biāo)對(duì)生成的句子微調(diào),然后再融合人工與自動(dòng)評(píng)價(jià)指標(biāo)進(jìn)一步微調(diào),評(píng)價(jià)結(jié)果與人工評(píng)價(jià)更相似。
從模型和應(yīng)用實(shí)現(xiàn)發(fā)展來(lái)看,短文本自動(dòng)生成技術(shù)已經(jīng)取得了巨大突破。Attention和 Transformer的提出是文本生成向真正的機(jī)器創(chuàng)作道路的重要一步。文本預(yù)處理模型的研究也使得文本生成任務(wù)取得了突飛猛進(jìn)的進(jìn)展,但由于人工智能技術(shù)研究還處在“感知”階段,距離“認(rèn)知”還存在很大的距離,仍需要在工具、數(shù)據(jù)、模型計(jì)算能力及應(yīng)用效果的提升方面有所突破[87]。
(1)從自然語(yǔ)言處理技術(shù)角度, 由于中英文在分詞、詞性標(biāo)注、詞匯粒度、句法結(jié)構(gòu)等方面都存在著差異,致力于中文或多語(yǔ)種通用的短文本分析及生成方法的研究有很大的應(yīng)用價(jià)值。
(2)在數(shù)據(jù)集方面,目前短文本領(lǐng)域,高質(zhì)量通用的數(shù)據(jù)集構(gòu)建仍是一大挑戰(zhàn),未來(lái)可從生成模型訓(xùn)練或公開(kāi)搜集的方式進(jìn)行數(shù)據(jù)集的構(gòu)建,結(jié)合模型計(jì)算力的提升進(jìn)一步提升生成質(zhì)量。
(3)在評(píng)估方法方面,盡管預(yù)訓(xùn)練微調(diào)在文本評(píng)估任務(wù)中取得了不錯(cuò)的成效,但仍不夠完善,現(xiàn)在的評(píng)估方法仍是以人工和自動(dòng)評(píng)估指標(biāo)結(jié)合應(yīng)用,未來(lái)通用的自動(dòng)評(píng)估體系的建立仍是領(lǐng)域的重點(diǎn)研究方向。
(4)在應(yīng)用方面,現(xiàn)在的研究對(duì)個(gè)性化生成越來(lái)越關(guān)注,個(gè)性化生成也是領(lǐng)域的熱點(diǎn)研究問(wèn)題,未來(lái)可通過(guò)研究用戶(hù)個(gè)性化和生成文本的關(guān)聯(lián)關(guān)系,結(jié)合多模態(tài)文本的生成,進(jìn)一步探索個(gè)性化信息對(duì)于生成技術(shù)的影響。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。