王沛 楊頻 程芃森 代金鞘 賈鵬
在自然語(yǔ)言生成任務(wù)中,主題文本生成是一項(xiàng)富有挑戰(zhàn)性的工作,其主要難點(diǎn)在于:源信息量遠(yuǎn)小于目標(biāo)生成的信息量.為了解決該問(wèn)題,本文提出一個(gè)基于外部知識(shí)篩選的主題文本生成模型Trans-K,通過(guò)引入與主題詞相關(guān)的外部知識(shí)來(lái)豐富源信息,進(jìn)而提高生成文本的質(zhì)量.本文為了解決引入外部知識(shí)的“一詞多義”問(wèn)題,提出一種基于線性變換的主題向量計(jì)算方法,用于篩選和主題詞語(yǔ)義一致的外部知識(shí);提出一種基于注意力機(jī)制的外部權(quán)重計(jì)算方法,為每個(gè)外部詞設(shè)定一個(gè)主題權(quán)重,使其更貼合文本語(yǔ)義;為了解決主題詞(含候選詞)在生成文本中反復(fù)出現(xiàn)的問(wèn)題,提出一種基于多頭注意力機(jī)制的內(nèi)部權(quán)重計(jì)算方法.在EASSY數(shù)據(jù)集上的實(shí)驗(yàn)表明,與基線相比,Trans-K生成文本質(zhì)量的各項(xiàng)指標(biāo)更優(yōu).此外,人類評(píng)估表明,該模型可生成與主題更相關(guān)、語(yǔ)言更連貫、且符合語(yǔ)義邏輯的文本.
自然語(yǔ)言生成; 主題文本生成; Transformer; HowNet; 知識(shí)增強(qiáng)
TP391.1 A 2024.012003
Research on topic text generation technology ?based on external knowledge filtering
WANG Pei, YANG Pin, CHENG Peng-Sen, DAI Jin-Qiao, JIA Peng
(School of Cyber Science and Engineering, Sichuan University, Chengdu 610065, China)
In the natural language generation task, topic text generation is a challenging task,the main difficulty is that the amount of source information is much smaller than the amount of information generated by the target. To solve this problem, this paper proposes a topic text generation model called Trans-K based on external knowledge filtering, which enriches the source information by introducing external knowledge related to topic words, thereby improving the quality of the generated text. In this paper, in order to solve the "polysemy" problem of introducing external knowledge, a topic vector calculation method based on linear transformation is proposed to filter external knowledge consistent with the semantics of the topic words. An external weight calculation method based on attention mechanism is proposed, which sets a topic weight for each external word to make it more suitable for text semantics. In order to solve the problem that topic words including candidate words, appear repeatedly in the generated text, an internal weight calculation method based on the multi-head attention mechanism is proposed. Experiments on the EASSY dataset show that Trans-K is superior to various indicators of the quality of generated text compared to the baseline. In addition, human evaluations show that the model can generate more topic-relevant, linguistically coherent, and semantically logicals text.
Natural language generation; Topic text generation; Transformer; HowNet; Knowledge enhancement
1 引 言
隨著信息時(shí)代發(fā)展,人工智能技術(shù)對(duì)人類生活產(chǎn)生了巨大影響.基于人工智能的自然語(yǔ)言生成(Natural Language Generation,NLG)技術(shù)被廣泛應(yīng)用于新聞寫作、自動(dòng)對(duì)話等領(lǐng)域,現(xiàn)已成為人工智能的研究熱點(diǎn)之一 ?[1] .主題文本生成(Topic-to-Essay Generation,TEG)是近幾年提出的一個(gè)新方向,它是指以一組用戶指定的主題詞集合作為輸入,輸出一段與主題相關(guān)、連貫的文本 ?[2] .此技術(shù)可快速將輿論話題中的幾個(gè)熱點(diǎn)關(guān)鍵詞擴(kuò)展成一段文本,也能為其他文本生成任務(wù)的個(gè)性化、多樣化發(fā)展提供更多可能性.
然而,相較于對(duì)話系統(tǒng)、機(jī)器翻譯、摘要生成等文本生成任務(wù),主題文本生成更具挑戰(zhàn)性.一個(gè)主要原因是:TEG任務(wù)的源信息過(guò)少,而目標(biāo)生成的信息量較多.如果輸入與輸出間存在著巨大的語(yǔ)義信息差,則容易造成生成的句子枯燥且質(zhì)量低下 ?[2] .從圖1不難看出,機(jī)器翻譯輸入和輸出的信息量大致相同,文本摘要的輸入明顯大于輸出,而TEG的輸入則遠(yuǎn)小于目標(biāo)生成的信息量.
為了解決源信息匱乏的問(wèn)題,研究者們提出引入外部知識(shí)來(lái)豐富源信息, 但現(xiàn)有的研究方法仍存在以下問(wèn)題:(1) 外部詞的“一詞多義”問(wèn)題:對(duì)于同一個(gè)主題詞,從知識(shí)圖譜中檢索出的外部詞可能具有多個(gè)不同的含義.如果將這些有歧義的外部知識(shí)直接融入解碼器,可能會(huì)引入與主題無(wú)關(guān)的信息. 雖然已有研究 ?[3] 提出將平均主題詞向量和不同的外部詞計(jì)算相似度,以減少歧義性,但平均值法是模糊和非排他性的 ?[2] .(2) 生成文本的主題表達(dá)不全面:在生成文本的過(guò)程中,可能會(huì)出現(xiàn)某些詞反復(fù)出現(xiàn),而另一些詞沒有出現(xiàn)的情況.雖然現(xiàn)有主題覆蓋機(jī)制 ?[2] 可加強(qiáng)對(duì)未表達(dá)話題詞的關(guān)注度,但它多用于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN) ?[4] ,且一般只作用于主題詞,未對(duì)引入的外部詞進(jìn)行處理.
為了解決上述問(wèn)題,本文提出了一個(gè)融合外部知識(shí)的主題文本生成模型Trans-K,該模型基于Transformer ?[5] 框架,通過(guò)自注意力機(jī)制捕獲文本中的長(zhǎng)依賴關(guān)系;同時(shí)取消了編碼器中的位置編碼,以解決TEG任務(wù)的時(shí)序問(wèn)題.本文的貢獻(xiàn)點(diǎn)如下: (1) 提出了一種基于線性變換的主題向量計(jì)算方法,用于篩選和主題詞語(yǔ)義一致的外部詞,解決了外部詞的“一詞多義”問(wèn)題; (2) 提出了一種基于注意力機(jī)制的外部權(quán)重計(jì)算方法,為外部詞設(shè)定主題權(quán)重,使引入的外部知識(shí)更加貼合文本語(yǔ)義,避免引入不必要的噪聲;(3) 提出了一種基于多頭注意力機(jī)制的內(nèi)部權(quán)重計(jì)算方法,在解碼器中更新多頭自注意力分?jǐn)?shù),使模型更多地關(guān)注未表達(dá)的主題詞,提高生成文本的主題相關(guān)性; (4) 在公用數(shù)據(jù)集EASSY上的自動(dòng)和人工評(píng)估結(jié)果均表明,本文提出的模型優(yōu)于先進(jìn)的基線模型.
2 相關(guān)工作
2018年,F(xiàn)eng等 ?[2] 首次提出了TEG任務(wù).論文設(shè)計(jì)了TAV、TAT和MTA三個(gè)模型,逐步引入平均主題詞向量、注意力機(jī)制和主題覆蓋機(jī)制.其中MTA模型成為該領(lǐng)域的經(jīng)典基準(zhǔn)模型之一.2019年,Yang等 ?[6] 提出通過(guò)動(dòng)態(tài)記憶機(jī)制將來(lái)自外部知識(shí)庫(kù)的常識(shí)整合到生成器中,從而提高生成文章的新穎性和多樣性,并采用基于多標(biāo)簽鑒別器的對(duì)抗性訓(xùn)練來(lái)進(jìn)一步提高主題一致性.2021年,Luo等 ?[3] 提出了一個(gè)基于義原的主題文本生成模型,使用一種非當(dāng)前主題詞的相似性度量法來(lái)過(guò)濾義原信息;2021年,Liu等 ?[7] 提出了一種具有綜合知識(shí)增強(qiáng)功能的主題文本生成模型,通過(guò)教師-學(xué)生的CVAE網(wǎng)絡(luò)實(shí)現(xiàn)內(nèi)部知識(shí)增強(qiáng),同時(shí)通過(guò)一個(gè)主題知識(shí)圖編碼器實(shí)現(xiàn)外部知識(shí)增強(qiáng). 2021年,Pascual等 ?[8] 提出了一種即插即用解碼方法K2T.將詞匯表中的概率分布向與目標(biāo)約束詞語(yǔ)義相似的單詞添加一個(gè)偏移.雖然該方法較直觀,但可能使詞匯的概率分布變得混亂.
然而,上述方法都基于RNN實(shí)現(xiàn),該網(wǎng)絡(luò)結(jié)構(gòu)在TEG任務(wù)中存在著一些不足.一方面,由于TEG任務(wù)的源信息過(guò)少,隨著目標(biāo)文本長(zhǎng)度的增加,RNN很難捕獲文本中的長(zhǎng)依賴關(guān)系 ?[9] ;另一方面,RNN適合挖掘時(shí)序數(shù)據(jù)的語(yǔ)義 ?[10] ,但主題詞集合不是嚴(yán)格的時(shí)序數(shù)據(jù).采用時(shí)序模型來(lái)獲取輸入詞語(yǔ)的上下文向量,有些不符合常理. 2022年,He等 ?[11] 提出了一個(gè)基于Transformer 的分層主題文本生成模型,可在一定程度上緩解RNN的長(zhǎng)依賴問(wèn)題,但該方法仍然沒有很好地改善源信息匱乏的問(wèn)題.
與主題文本生成任務(wù)類似的一個(gè)任務(wù)是中國(guó)詩(shī)歌的生成.2014年,Zhang等 ?[12] 首次將RNN引入到中文詩(shī)歌生成任務(wù)中.2016年,Wang等 ?[13] 提出了一種兩段式的生成方法,先生成幾個(gè)子主題,再利用RNN逐次生成對(duì)應(yīng)行的詩(shī)句.2019年,Liu等 ?[14] 提出了一種修辭控制編碼器,用于現(xiàn)代漢語(yǔ)詩(shī)歌生成任務(wù).2021年,Shao等 ?[15] 按照風(fēng)格、情感、格式和主要關(guān)鍵字,對(duì)數(shù)十萬(wàn)首詩(shī)歌進(jìn)行分類,并通過(guò)掩碼自注意力機(jī)制關(guān)聯(lián)多個(gè)標(biāo)簽,進(jìn)而生成風(fēng)格、情緒可控的詩(shī)歌.
然而,中文詩(shī)歌具有明顯的結(jié)構(gòu)化規(guī)則和平仄規(guī)律,TEG任務(wù)的生成目標(biāo)卻是非結(jié)構(gòu)化的長(zhǎng)文本. 直接沿用詩(shī)歌生成任務(wù)的研究思路,往往會(huì)導(dǎo)致主題漂移問(wèn)題,給TEG任務(wù)帶來(lái)挑戰(zhàn).
3 模型描述
主題文本生成任務(wù)可表示為:給定一個(gè)由 k 個(gè)主題詞組成的集合 T={ t ??1 , t ??2 ,…, t ??k } ,生成一個(gè)包含 T 中主題的句子 Y={ y ??1 , y ??2 ,…, y ??n } ,且 Y 內(nèi)的詞語(yǔ)數(shù) n 遠(yuǎn)遠(yuǎn)大于主題詞數(shù)量 k .模型的訓(xùn)練目標(biāo)是從主題-文本對(duì)的數(shù)據(jù)集中,獲得具有 θ 參數(shù)的最優(yōu)模型 ?θ ?︿ ?,使條件概率最大化:
θ ?︿ = arg max ???θ ??P ??θ ?Y T) ?(1)
本文提出了一個(gè)融合外部知識(shí)的主題文本生成模型Trans-K,圖2給出了模型的整體結(jié)構(gòu)圖.首先,基于Transformer構(gòu)建編碼器和解碼器,特別的是,在編碼器中取消了位置編碼,因?yàn)檩斎氲闹黝}詞集合不具備嚴(yán)格的時(shí)序性;其次,基于線性變換的主題向量計(jì)算方法,篩選出和主題詞語(yǔ)義一致的外部詞;再次,為篩選后的外部詞設(shè)置外部權(quán)重,減少不必要的噪聲;最后,根據(jù)外部知識(shí)和編碼器隱藏層狀態(tài),更新解碼器的內(nèi)部權(quán)重,并將其應(yīng)用到多頭自注意力機(jī)制中,使模型更多地考慮未表達(dá)的詞語(yǔ).
3.1 基于線性變換的主題向量計(jì)算方法
將主題詞集合 T={ t ??1 , t ??2 ,…, t ??k } 中的某一主題詞 ?t ??i ?作為索引,在外部知識(shí)圖譜中進(jìn)行檢索,可得到 L 個(gè)候選詞.檢索結(jié)果表示為
candidate ???i = ?t ??i : ?c ??i1 , c ??i2 ,…, c ??iL ????(2)
然而,中文里普遍存在著“一詞多義”的現(xiàn)象,例如:“蘋果”一詞可檢索出“水果”和“電腦品牌”兩種完全不同的擴(kuò)展含義.因此,本文將當(dāng)前主題詞集合的主題向量和各候選詞進(jìn)行相似度計(jì)算,以避免引入與主題無(wú)關(guān)的信息.
文獻(xiàn)[3]提出將所有非當(dāng)前主題詞的平均詞向量作為主題向量,但這種方法是模糊和非排他性的 ?[2] .如:主題詞組 A: 0.1,0.3,0.5 ) 和 B: -0.1,0.8,0.2 ?都可得到平均詞向量 ?0.3 ?.為了解決這個(gè)問(wèn)題,本文提出一種基于線性變換的主題向量計(jì)算方法.
(1) ?將一組主題詞按照詞典序號(hào)從小到大的方式進(jìn)行排序,排序后的主題詞組表示為 ?T ???sort .這是為了避免在后續(xù)操作中,出現(xiàn)同樣的詞語(yǔ)因排列順序不同而拼接結(jié)果不同的情況;
(2) 將所有排序后的主題詞依次拼接起來(lái),得到一個(gè)新的主題向量 ?T ???merge .由于關(guān)鍵詞在生成文本中的實(shí)際順序與輸入順序無(wú)關(guān),因而采用固定方式拼接不會(huì)對(duì)結(jié)果造成影響.
T ???merge =concatenate ??T ???sort ??(3)
其中,函數(shù)concatenate表示將輸入的有序向量集合進(jìn)行行拼接.假設(shè)每個(gè)主題詞的向量維度為 x ,則 ?T ???merge 的維度為 k*x .
(3) 利用線性變換,對(duì) ?T ???merge 進(jìn)行降維,使其與各候選詞 ?c ??il ?的維度保持一致,降低后續(xù)計(jì)算的復(fù)雜度.壓縮維度的公式如下.
T ???linear ?=A· T ???merge ?+b ?(4)
其中, ?T ???linear 表示當(dāng)前主題詞組的主題向量; A 表示權(quán)重矩陣; b 表示偏置矩陣.
完成上述操作后,再計(jì)算主題向量和各候選詞之間的相關(guān)度,找出與當(dāng)前主題最相關(guān)的候選詞.計(jì)算如下所示.
s ??i ={ similarity ( c ???il ?, T ???linear ?)} ??L ??l=1 ,i=1,2,…,k ?(5)
m ??i = ?c ??il ??max ?( s ??i )),i=1,2,…,k ?(6)
式(5)中, ?c ??il ?表示第 i 個(gè)主題詞 ?t ??i ?對(duì)應(yīng)的第 l 個(gè)候選詞; ?s ??i ?表示第 i 個(gè)主題詞與其 L 個(gè)候選詞的相關(guān)度集合;式(6)中, ?m ??i ?表示最大相關(guān)度對(duì)應(yīng)的候選詞,即與當(dāng)前主題詞語(yǔ)義最貼合的外部詞.
最終,找出和 k 個(gè)主題詞一一對(duì)應(yīng)的最相關(guān)外部詞,表示為集合 M .
M= ?m ??i ????k ??i=1 ??(7)
圖3展示了上述步驟的執(zhí)行流程,其中無(wú)序主題詞里的數(shù)字表示該主題詞在詞典中對(duì)應(yīng)的序號(hào).
表1給出一個(gè)經(jīng)過(guò)篩選后的示例.由表1可知,第一組主題詞顯然圍繞蘋果自身的含義展開,自然地,“蘋果”對(duì)應(yīng)的外部詞為“水果”;而對(duì)于第二組主題詞,主題語(yǔ)義和“科技”、“電腦品牌”等含義更相關(guān),因此“蘋果”對(duì)應(yīng)的外部詞為“電腦”,“現(xiàn)代”對(duì)應(yīng)的是“經(jīng)濟(jì)”,而不是“車”.
3.2 基于注意力機(jī)制的外部權(quán)重計(jì)算方法
雖然上述過(guò)程可以篩選出和主題詞語(yǔ)義一致的外部知識(shí),但如果將原主題詞和外部詞簡(jiǎn)單拼接后直接傳入解碼器,則可能會(huì)引入不必要的噪聲.
例如:給定一組主題詞[“蘋果”、“春天”],目標(biāo)生成句子為“春天的蘋果很好吃”.經(jīng)過(guò)上一步驟,可得到最貼合原主題詞語(yǔ)義的外部詞組[“樹”、“春”].其中,“春”和目標(biāo)句的語(yǔ)義很相關(guān),“樹”卻不太相符.在Tranformer中,自注意力機(jī)制雖然可以使源序列和目標(biāo)序列“自身”所蘊(yùn)含的信息更加豐富,但沒有對(duì)外部詞和目標(biāo)序列間的關(guān)系進(jìn)行處理.因此,我們希望能夠?yàn)槊總€(gè)外部詞設(shè)定一個(gè)主題權(quán)重,減小“樹”對(duì)應(yīng)的權(quán)重,將更多的“注意力”放到 “春”上.
受注意力機(jī)制 ?[16] 啟發(fā),本文提出一種計(jì)算候選詞外部權(quán)重的方法,可根據(jù)期望表達(dá)的語(yǔ)義對(duì)權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整.
將固定的外部詞向量列表 M ,轉(zhuǎn)換為可根據(jù)輸入信息而變化的動(dòng)態(tài)詞向量 ?M ′ ,計(jì)算公式如下.
M ′= ?m ??i * a ??i ????k ??i=1 ??(8)
其中, ?a ??i ?表示給第 i 個(gè)外部詞 ?m ??i ?分配的權(quán)重,由以下公式推導(dǎo)得出:
a ???i = ?exp ??g ???i ??∑ ??k ??i=1 ?exp ??g ???i ????(9)
g ??i = ?v ??a ???T ?tanh ??W ??a ?m ??i + U ??a ?H ???enc ??(10)
其中, ?v ??a ?、 ?W ??a ?和 ?U ??a ?是可學(xué)習(xí)的參數(shù)矩陣或向量; ?H ???enc 是主題詞組 X 經(jīng)過(guò)編碼器后的隱藏狀態(tài); ?g ??i ?是 ?m ??i ?上的注意力得分.
最后,將編碼器輸出的主題詞隱藏狀態(tài) ?h ??e ??i ?與賦權(quán)值后的候選詞 ??m ??i ?′ 進(jìn)行拼接,并將其傳入解碼器.本文采用一一對(duì)應(yīng)的拼接方式,而不是統(tǒng)一附著在 ?H ???enc 之后,此時(shí)的詞向量表示為
H ???enc_m ?= ?h ??e ??1 , ?m ??1 ?′, h ??e ??2 , ?m ??2 ?′…, h ??e ??k , ?m ??k ?′ ??(11)
同時(shí),考慮外部知識(shí)后的TEG任務(wù)的目標(biāo)(1)可以修改為
θ ?︿ = arg max ???θ ??P ??θ ?Y T, M ′) ?(12)
3.3 基于多頭注意力機(jī)制的內(nèi)部權(quán)重計(jì)算方法
為了保證模型生成文本的主題完整性和相關(guān)性,避免某些詞反復(fù)出現(xiàn),而另一些詞沒有出現(xiàn)在生成文本中的情況.受主題覆蓋向量 ?[2] 的啟發(fā),本文提出一種基于多頭注意力機(jī)制的內(nèi)部權(quán)重計(jì)算方法,以便在Transformer解碼器內(nèi)部,動(dòng)態(tài)調(diào)整多頭注意力分?jǐn)?shù),使模型可以更多地考慮未表達(dá)的主題詞和候選詞.
內(nèi)部權(quán)重表示主題詞(含候選詞)在下一層中需要表達(dá)的程度,用于調(diào)整注意力策略.該權(quán)重向量的更新過(guò)程如式(13)所示.
C ??n+1 = C ??n - 1 ???s ??n ?Q,K,V ??(13)
其中, ??由公式(14)可得; ?s ??n (Q,K,V) 是解碼器在第 n 層的多頭自注意力的分?jǐn)?shù),將其和 V 相乘可以得到縮放點(diǎn)乘注意力 ?[17] ,計(jì)算如公式(15)所示.
=N·σ ?U ??f ?H ???enc_m ??(14)
s ??n ?Q,K,V = softmax ??Q K ??T ?????d ??k ????C ??n ??(15)
式(14)中, N 為解碼器的層數(shù); σ 為sigmod函數(shù); ?U ??f ?為參數(shù)矩陣; ?H ???enc_m 為編碼器輸出的隱藏狀態(tài)和帶權(quán)重候選詞的拼接向量,即 ?{ h ??e ??i , ?m ??i ?′} ??k ??i=1 ?;式(15)中, ?K=V= H ???enc_m ,維度轉(zhuǎn)換為 ?d ??k ??, Q= H ???dec ???n-1 ?,表示第 n-1 層解碼器的輸出.
此時(shí),考慮內(nèi)部權(quán)重后的TEG任務(wù)的目標(biāo)(12)可以修改為
θ ?︿ = arg max ???θ ??P ??θ ?Y T, M ′, C ??n ) ?(16)
4 實(shí) 驗(yàn)
4.1 基本設(shè)置
4.1.1 數(shù)據(jù)集 ?本文采用文獻(xiàn)[2]提出的ESSAY數(shù)據(jù)集,它是TEG任務(wù)中的一個(gè)高質(zhì)量公開數(shù)據(jù)集,包括320萬(wàn)篇中國(guó)初中或高中作文,每個(gè)句子有5個(gè)主題.我們選用了其中長(zhǎng)度在40~50間的50 000條數(shù)據(jù)作為訓(xùn)練集,5000條作測(cè)試集.文本最大長(zhǎng)度設(shè)為50,不足的部分用
4.1.2 模型設(shè)置 ?本文使用Word2Vec ?[18] 進(jìn)行詞嵌入,得到低維實(shí)數(shù)向量表示 ?[19] .選用HowNet ?[20] 知識(shí)圖譜作為外部知識(shí)庫(kù),它在自然語(yǔ)言處理方面,更貼近語(yǔ)言的本質(zhì)特點(diǎn),在融入學(xué)習(xí)模型方面,也具有無(wú)可比擬的優(yōu)勢(shì) ?[21] .我們將主題詞的鄰近詞作為候選信息,并去除和索引相同的詞,候選詞的最大數(shù)量設(shè)為5.采用余弦相似度方法 ?[22] 計(jì)算主題向量與各候選詞之間的相似度.模型的參數(shù)設(shè)置如表2所示.
4.2 基準(zhǔn)模型
本文選擇了以下基準(zhǔn)方法與論文提出的模型Trans-K作比較:
(1)TAV-LSTM:利用所有主題詞的平均加權(quán)和嵌入來(lái)表示主題語(yǔ)義,使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM) ?[23] 作為編/解碼器 ?[2] ;
(2)TAT-LSTM:使用注意力機(jī)制對(duì)主題詞和生成詞之間的語(yǔ)義關(guān)系進(jìn)行建模 ?[2] ;
(3)MTA-LSTM:使用主題覆蓋向量來(lái)調(diào)整注意機(jī)制,使模型更加關(guān)注未表達(dá)的主題詞 ?[2] ;
(4)MTAK-LSTM:自定義模型.在MTA-LSTM模型的基礎(chǔ)上引入外部知識(shí),具體的做法是將從Hownet中提取的外部知識(shí)和源主題詞一一拼接后傳入解碼器,即傳入模型的主題詞向量 ?T={ ?t ??1 , m ??1 , t ??2 , m ??2 ,…, t ??k , m ??k } .
4.3 評(píng)價(jià)指標(biāo)
4.3.1 自動(dòng)評(píng)估
(1) BLEU:雙語(yǔ)評(píng)估替補(bǔ)(BLEU)是機(jī)器翻譯的一個(gè)自動(dòng)評(píng)估指標(biāo) ?[24] .使用訓(xùn)練集作為參考,計(jì)算BLEU值來(lái)評(píng)估生成的文本.本文選取BLEU-2、BLEU-3和BLEU-4的分?jǐn)?shù)進(jìn)行比較.分?jǐn)?shù)越高,生成文本的精度(流暢性)越好.
(2) Back-BLEU:使用生成的文本作為參考,計(jì)算BLEU值來(lái)評(píng)估訓(xùn)練集中的文本.本文選取Back-BLEU-2的值進(jìn)行比較,表中縮寫為B-BLEU.分?jǐn)?shù)越高,生成文本的召回率(多樣性)越好.
4.3.2 人工評(píng)估 ?由5名中文專家對(duì)每個(gè)模型生成的100個(gè)隨機(jī)樣本進(jìn)行主觀評(píng)價(jià).包括:完整性(生成文本是否完整)、相關(guān)性(生成文本與主題詞是否相關(guān))、流暢性(在語(yǔ)法和句法上是否結(jié)構(gòu)良好)、連貫性(是否具有主題和邏輯結(jié)構(gòu))四個(gè)評(píng)價(jià)維度 ?[2] .每個(gè)維度給出一個(gè)1~5分之間的分?jǐn)?shù),并計(jì)算平均值作為最終得分.
4.4 實(shí)驗(yàn)結(jié)果分析
自動(dòng)評(píng)估結(jié)果如表3所示.結(jié)果表明,Trans-K的各項(xiàng)指標(biāo)均表現(xiàn)為最優(yōu).證明了本文提出的方法可以有效提高生成文本的質(zhì)量.特別的是,與最佳基準(zhǔn)模型相比,Trans-K在BLEU-4上提高了58.12,在Back-BLEU上提高了20.53.證明生成文本的流暢性和多樣性都得到了顯著提升.
經(jīng)過(guò)進(jìn)一步觀察,不難發(fā)現(xiàn):隨著 n -gram匹配片段的增大,上述模型的BLEU值均有不同程度的減小.其中,基于LSTM基準(zhǔn)模型的下降速率較快,基于Trans-K的下降趨勢(shì)卻相對(duì)平緩.這可能是因?yàn)樵谠葱畔⑦h(yuǎn)小于生成信息量的情況下,Transformer是基于詞語(yǔ)間的相對(duì)距離來(lái)構(gòu)建模型的,能夠較LSTM模型更好地捕獲文本中的長(zhǎng)依賴關(guān)系.另外,一個(gè)有趣的發(fā)現(xiàn)是,在MTA-LSTM模型上引入外部知識(shí)后(MTAK-LSTM)的各指標(biāo)都不如原模型.
表4給出了人類評(píng)估結(jié)果,從中可以得出類似的結(jié)論.顯然,Trans-K模型優(yōu)于基線,尤其是在主題一致性方面.例如:與最佳基線相比,該模型的相關(guān)性得分提高了0.72,連貫性得分提高了0.69.這是因?yàn)橥獠恐R(shí)庫(kù)提供的額外背景信息可以在一定程度上豐富源信息的語(yǔ)義知識(shí),進(jìn)而幫助模型生成更加相關(guān)、連貫的句子.
下面對(duì)比各模型的訓(xùn)練效果.
圖4是訓(xùn)練過(guò)程的Loss值下降圖,可以看出TAT-LSTM模型的收斂效果最差,Trans-K的收斂效果優(yōu)于其他基準(zhǔn)模型. 當(dāng)模型趨于平穩(wěn)時(shí),Trans-K的Loss值明顯低于其他模型的Loss值.
圖5較直觀地對(duì)比了訓(xùn)練80輪后,各模型生成文本的準(zhǔn)確率.準(zhǔn)確率由生成文本和參考文本的張量進(jìn)行逐元素比較得到,計(jì)算公式如下.
ACC = corrects real ?(17)
其中,corrects表示兩個(gè)張量中,索引位置和對(duì)應(yīng)數(shù)值均相同的元素?cái)?shù)量;real表示在參考文本張量中,去除
由圖5可知,當(dāng)模型訓(xùn)練80輪時(shí),Trans-K生成文本的準(zhǔn)確率最高,TAV-LSTM的表現(xiàn)最差,引入外部知識(shí)后的模型MTAK-LSTM在準(zhǔn)確率方面較MTA-LSTM有輕微的提升.
4.5 消融實(shí)驗(yàn)
4.5.1 關(guān)鍵組成部分研究 ?為了更直觀地驗(yàn)證前文所述方法的可行性和重要性,在本節(jié)進(jìn)行以下消融實(shí)驗(yàn):
(1) Transformer:最基礎(chǔ)的Transformer模型,但編碼器取消了位置編碼.
(2) (w/o) LM:篩選和主題詞語(yǔ)義一致的候選詞時(shí),采用文獻(xiàn)[3]提出的方法,將所有非當(dāng)前主題詞的平均詞向量作為主題向量,并將其與候選詞做余弦相似度計(jì)算.
(3) (w/o) EW-1:取消基于注意力機(jī)制的外部權(quán)重,即 ?a ??i =1 .
(4) (w/o) EW-2:計(jì)算基于注意力機(jī)制的外部權(quán)重時(shí),將編碼器的輸出替換為目標(biāo)句經(jīng)過(guò)位置編碼后的隱藏狀態(tài),即 ?g ??i = ?v ??a ???T ?tanh ( W ??a ?m ??i + ???U ??a ?H ???pos ) .
(5) (w/o) IW:取消基于多頭注意力機(jī)制的內(nèi)部權(quán)重,即 ?C ??n =0 .
上述模型的參數(shù)設(shè)置和Trans- K 一 致.表5和表6分別給出了消融實(shí)驗(yàn)的自動(dòng)和人類評(píng)估結(jié)果.
分析消融實(shí)驗(yàn)的自動(dòng)評(píng)估結(jié)果.由Transformer的結(jié)果可知,基礎(chǔ)的Transformer模型效果已經(jīng)優(yōu)于表3中的最優(yōu)基準(zhǔn)模型MTA-LSTM,證明了自注意力機(jī)制的有效性;另一方面,它的BLEU值明顯低于Trans-K的結(jié)果,其中BLEU-4值減小了21.35,說(shuō)明引入外部常識(shí)知識(shí)能夠?yàn)槟P吞峁└迂S富的語(yǔ)義知識(shí),在一定程度上補(bǔ)充源信息.
由(w/o)LM和Trans-K的結(jié)果對(duì)比可知,兩者的Back-BLEU大致相同,但前者的3個(gè)BLEU值均小于完整模型,說(shuō)明本文采用的方法可以更好地表達(dá)主題語(yǔ)義,采用平均詞向量作為主題向量的方法存在語(yǔ)義模棱兩可、不明確的可能性.
由(w/o)EW-1和EW-2的結(jié)果,討論外部詞的噪聲對(duì)模型生成效果的影響.對(duì)比(w/o)EW-1和Trans-K的評(píng)估結(jié)果,發(fā)現(xiàn)前者的各項(xiàng)指標(biāo)均低于后者,說(shuō)明為外部詞設(shè)定外部權(quán)重可以有效減少不必要的噪聲,使引入的外部知識(shí)更加貼近主題;而(w/o)EW-2和Trans-K的結(jié)果則證明了,編碼器輸出的隱藏狀態(tài)與經(jīng)過(guò)位置編碼的目標(biāo)生成文本相比,前者更適合與候選詞做注意力計(jì)算.
最后,對(duì)比(w/o)IW和Trans-K的評(píng)估結(jié)果.完整模型的各項(xiàng)指標(biāo)均優(yōu)于未加入多頭覆蓋向量的模型,證明了基于多頭注意力機(jī)制的內(nèi)部權(quán)重可以提高模型生成文本的質(zhì)量和多樣性.
消融實(shí)驗(yàn)的人工評(píng)估結(jié)果也表明,本文提出的方法可以使模型性能得到有效提升.
4.5.2 外部詞檢索方式研究 ?HowNet里所有詞語(yǔ)(sense)的含義可以由更小的語(yǔ)義單位,即“義原”(sememe)構(gòu)成 ?[20] .可總結(jié)出以下三種外部詞檢索方式:
(1) Sememe-T:選擇義原樹最頂端的義原作為主要的語(yǔ)義信息.
(2) Sememe-A:選擇義原樹所有的義原作為擴(kuò)展語(yǔ)義信息.
(3) Sense:選擇主題詞的鄰近詞作為外部詞,即本文采用的檢索方式.
將3種方法分別應(yīng)用到Trans-K模型,除檢索方式不同,其他設(shè)置均相同.結(jié)果如表7所示.和表5中的Transformer相比,3個(gè)模型的各項(xiàng)指標(biāo)均有一定的提升,證明無(wú)論采用哪種檢索方式,引入外部知識(shí)都是有意義的;后兩種檢索方式的結(jié)果大致相同,說(shuō)明外部詞的檢索方式對(duì)模型生成效果沒有太大的影響,本文提出的方法具有普適性.
5 結(jié) 論
本文提出了一個(gè)融合外部知識(shí)的主題文本生成模型Trans-K,其編碼器和解碼器基于Transformer結(jié)構(gòu),緩解了傳統(tǒng)采用RNN方法帶來(lái)的長(zhǎng)依賴問(wèn)題,減少了時(shí)序特性對(duì)生成結(jié)果的影響.該模型首先從外部常識(shí)知識(shí)庫(kù)中檢索出和主題詞有關(guān)的多個(gè)候選詞,再通過(guò)基于線性變換的主題向量計(jì)算方法,篩選出和主題詞語(yǔ)義一致的外部詞;其次,通過(guò)基于注意力機(jī)制的外部權(quán)重計(jì)算方法,為外部詞賦予主題權(quán)重,并將編碼器的隱藏狀態(tài)和賦值后的外部詞一一拼接后傳入解碼器;最后在解碼器計(jì)算多頭自注意力分?jǐn)?shù)時(shí),引入內(nèi)部權(quán)重.
在公用數(shù)據(jù)集EASSY上訓(xùn)練模型,自動(dòng)評(píng)估和人工評(píng)估結(jié)果均表明,Trans-K模型優(yōu)于當(dāng)前主題文本生成任務(wù)中的基線模型;在消融實(shí)驗(yàn)中證明了模型中各關(guān)鍵模塊的有效性,并對(duì)比了不同檢索候選詞方法對(duì)模型的影響.
未來(lái),我們嘗試將更多類型或風(fēng)格的外部知識(shí)引入到TEG任務(wù)中,例如:新聞、小說(shuō)等.除此之外,還可進(jìn)一步思考如何提升生成文本的多樣性,考慮引入修辭手法、語(yǔ)法結(jié)構(gòu)等特征,生成更加符合人類書寫風(fēng)格的內(nèi)容.
參考文獻(xiàn):
[1] ??Zhang J H, Chen J J. Summarization of natural language generation [J]. Appl Res Comp, 2006, 23:1.[張建華, 陳家駿. 自然語(yǔ)言生成綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2006, 23: 1.]
[2] ?Feng X, Liu M, Liu J, ?et al . Topic-to-essay generation with neural networks [C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence, IJCAI-18. Stockholm: Morgan Kaufmann, 2018: 4078.
[3] ?Luo D, Ning X, Wu C. Sememe-based topic-to-essay generation with neural networks[EB/OL].[2022-12-20].https://iopscience.iop.org/issue/1742-6596/1861/1JPCS.
[4] ?Mikolov ?T, Kombrink S, Deoras A, ?et al . RNNLM-recurrent neural network language modeling toolkit[C]// Proceedings ?of the 2011 ASRU Workshop. Hawaii: IEEE, 2011: 196.
[5] ?Vaswani A, Shazeer N, Parmar N, ?et al . Attention is all you need [C]// Proceedings ?of the Advances in neural information processing systems 30. Long Beach, California: Morgan Kaufmann, 2017: 5998.
[6] ?Yang P, Li L, Luo F, ?et al . Enhancing topic-to-essay generation with external commonsense knowledge [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019: 2002.
[7] ?Liu ?Z, J Wang, Li Z. Topic-to-essay generation with comprehensive knowledge enhancement[C]//Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Bilbao: ECML PKDD, 2021: 302.
[8] ?Pascual D, Egressy B, Meister C, ?et al . A Plug-and-Play Method for Controlled Text Generation[C]//Empirical Methods in Natural Language Processing. [S. l.]: ACL, 2021: 3973.
[9] ?Li Z C.Text generation algorithm based on keyword semantic control [D]. Beijing: Beijing University of Posts and Telecommunications, 2019.[李作潮. 基于關(guān)鍵詞語(yǔ)義控制的文本生成算法研究[D].北京: 北京郵電大學(xué), 2019.]
[10] ?Sun C H, Hu B, Zou Y X. A BP-LSTM trend forecast model for stock index [J]. J Sichuan Univ(Nat Sci ?Ed), 2020, 57: 27.[孫存浩, 胡兵, 鄒雨軒. 指數(shù)趨勢(shì)預(yù)測(cè)的BP-LSTM模型[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 57: 27.]
[11] He W, Rao Y. Transformer-based hierarchical topic-to-essay generation [EB/OL]. [2022-12-20]. https://www.sciencedirect.com/science/article/pii/ ?S1877050922005920.
[12] Zhang X, Lapata M. Chinese poetry generation with recurrent neural networks[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Doha: ACL, 2014: 670.
[13] Wang Z, He w, Wu H, ?et al . Chinese poetry generation with planning based neural network[C]// Proceedings of the COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. Osaka: [s. n.], 2016: 1051.
[14] Liu Z, Fu Z, Cao J, ?et al . Rhetorically controlled encoder-decoder for modern chinese poetry generation [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019: 1992.
[15] Shao Y, Shao T, Wang M, ?et al . A Sentiment and Style Controllable Approach for Chinese Poetry Generation [C]// Proceedings of the 30th ACM International Conference on Information & Knowledge Management. [S.l.:s.n.], 2021: 4784.
[16] Bahdanau ?D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL]. [2022-12-20].https://arxiv.org/abs/1409.0473.
[17] Wang J W, Yang X C, Ju S G, ?et al. ?Text classification model based on convolutional neural network and self-attention mechanism [J]. J Sichuan Univ(Nat Sci Ed),2020, 57: 469.[汪嘉偉, 楊煦晨, 琚生根, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制的文本分類模型[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 57: 469.]
[18] Goldberg Y, Levy O. word2vec Explained: derivingMikolov ?et al .′s negative-sampling word-embedding method [EB/OL]. [2022-12-20].https://arxiv.org/abs/1402.3722.
[19] ?Liu G F, Huang X Y, Liu X Y. Document sentiment modeling based on topic attention hierarchy memory network [J]. J Sichuan Univ(Nat Sci Ed), 2019, 56: 833.[劉廣峰, 黃賢英, 劉小洋, 等. 基于主題注意力層次記憶網(wǎng)絡(luò)的文檔情感建模[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 56: 833.]
[20] Dong Z, Qiang D. How net and the computation of meaning [M]. [S. l.]: World Scientific, 2006.
[21] Niu Y, Xie R, Liu Z, ?et al . Improved word representation learning with sememes[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: ACL. 2017: ??2049.
[22] Wang C L, Yang Y H; Deng F, ?et al . Institute of Computer A Review of Text Similarity Approaches [J]. Inform Sci, 2019, 37: 158.[王春柳, 楊永輝, 鄧霏, 等. 文本相似度計(jì)算方法研究綜述[J]. 情報(bào)科學(xué), 2019, 37: 158.]
[23] Sundermeyer M, R Schlüter, Ney H. LSTM neural networks for language modeling[C]// Thirteenth annual conference of the international speech communication association. Portland, Oregon, USA: [s. n.]. 2012: 194.
[24] Papineni K, Roukos S, Ward T, ?et al . Blue: a method for automatic evaluation of machine translation [C]// Proceedings of the Meeting of the Association for Computational Linguistics. Association for Computational Linguistics. Philadelphia: ACL,2002: 311.
收稿日期: ?2022-09-20
基金項(xiàng)目: ?四川省科技廳重點(diǎn)研發(fā)項(xiàng)目(2021YFG0156)
作者簡(jiǎn)介: ??王沛(1998-), 女, 重慶人, 碩士研究生, 研究方向?yàn)樾畔?nèi)容安全.E-mail:1335316220@qq.com
通訊作者: ?楊頻.E-mail: yangpin@scu.edu.cn
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年1期