亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于片段預(yù)測的詞匯約束文本生成

        2023-10-25 02:12:02聶錦燃楊麟兒楊爾弘
        中文信息學(xué)報(bào) 2023年8期
        關(guān)鍵詞:詞匯文本方法

        聶錦燃,楊麟兒,楊爾弘

        (1. 北京語言大學(xué) 國家語言資源監(jiān)測與研究平面媒體中心,北京 100083;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

        0 引言

        自然語言生成是自然語言處理的一個(gè)重要領(lǐng)域,實(shí)現(xiàn)文本的自動(dòng)生成也是人工智能走向成熟的一個(gè)重要標(biāo)志。為了適應(yīng)不同場景的需求,文本生成通常是受約束的,可控文本生成技術(shù)便是解決約束條件下的文本生成。可控文本生成也稱為受控文本生成,根據(jù)控制條件和目標(biāo)的不同可以分成多種任務(wù)。從控制條件來看,分為屬性(風(fēng)格)控制[1]、話題控制[2]、詞匯控制[3]、格式控制[4-5]、結(jié)構(gòu)化數(shù)據(jù)控制[6]等。

        本文關(guān)注的是詞匯控制,稱之為詞匯約束文本生成[3,7-8]。詞匯約束文本生成是指在文本生成過程中,控制某些詞匯必須出現(xiàn)在生成的文本中。這一任務(wù)的輸入是給定的一個(gè)或多個(gè)詞匯,輸出是包含這些給定約束詞匯的通順文本。

        詞匯約束文本生成的應(yīng)用非常廣泛,可應(yīng)用于機(jī)器翻譯[9]、信息檢索[10]、文本生成[3]等自然語言處理任務(wù)。在機(jī)器翻譯中,可以將已有翻譯知識庫中專業(yè)詞匯作為機(jī)器翻譯過程中受約束的詞匯,使得對于專業(yè)術(shù)語的翻譯更準(zhǔn)確。查詢重寫[11-12]是信息檢索領(lǐng)域中非常重要的研究任務(wù),而查詢重寫過程中往往需要約束用戶輸入文本中的關(guān)鍵詞仍然包含在重寫之后的文本中。在文本生成領(lǐng)域,故事生成[13]通常要求按照某些關(guān)鍵詞生成,這些詞匯需要出現(xiàn)在生成的故事中;會議記錄自動(dòng)生成旨在由多個(gè)關(guān)鍵詞生成完整的會議記錄;廣告語生成則是要求品牌名或產(chǎn)品名必須出現(xiàn)在生成的廣告語中。這些都是詞匯受限文本生成所適用的場景。

        除此之外,詞匯約束文本生成在語言學(xué)習(xí)和教學(xué)領(lǐng)域也有著廣闊的應(yīng)用場景。一方面,可以利用詞匯約束文本生成幫助語言學(xué)習(xí)者進(jìn)行詞匯的學(xué)習(xí)。例如,詞匯運(yùn)用能力不足的學(xué)習(xí)者想表達(dá)某句話時(shí)在腦海中浮現(xiàn)幾個(gè)詞,但難以用其表達(dá)成一句話,詞匯約束文本生成則可以幫助其學(xué)習(xí)這些詞匯的使用。另一方面,對于語言教學(xué)者來說,詞匯教學(xué)無疑是重要且基礎(chǔ)的一環(huán),教學(xué)中也會設(shè)計(jì)連詞成句的題型來加強(qiáng)學(xué)生對于詞匯的理解與運(yùn)用[14]??梢酝ㄟ^詞匯約束文本生成輔助教師例句編寫。

        詞匯約束文本生成的方法可以分為三類: ①改進(jìn)的柱搜索[15]; ②隨機(jī)搜索[3,8]; ③直接端到端的生成[7]。改進(jìn)的柱搜索是一類解碼方法,在模型的解碼階段即插即用,通過控制柱搜索過程,實(shí)現(xiàn)約束詞出現(xiàn)在生成的文本中。這類方法在源端和目標(biāo)端信息對等的機(jī)器翻譯任務(wù)上表現(xiàn)良好,但在搜索空間較大的文本生成任務(wù)中需要花費(fèi)大量時(shí)間搜索候選句,生成質(zhì)量也較差[16]。隨機(jī)搜索的方法將約束詞順序拼接作為初始狀態(tài)的文本,利用隨機(jī)采樣的替換、插入和刪除操作不斷迭代修改當(dāng)前狀態(tài),直到得到滿足要求的文本。隨機(jī)采樣會造成很多重復(fù)和冗余的操作[7],生成過程需要消耗大量時(shí)間,難以在實(shí)際應(yīng)用中使用。端到端的方法以深度神經(jīng)網(wǎng)絡(luò)作為基本模型,將多個(gè)約束詞拼接起來直接作為模型輸入,訓(xùn)練模型生成完整的句子。端到端的生成速度較快,但是無法保證所有約束詞都包含在生成的句子中,其原因在于神經(jīng)網(wǎng)絡(luò)的生成過程是基于網(wǎng)絡(luò)參數(shù)所擬合的概率分布的,解碼時(shí)通過每一步的概率分布來預(yù)測下一個(gè)詞,因此無法保證一定生成出輸入的約束詞[7]。

        為了解決上述問題,本文提出片段預(yù)測的端到端方法用于詞匯約束文本生成,稱之為LCTG-SP(Lexically Constrained Text Generation Based on Segments Prediction)方法。將該任務(wù)視為預(yù)測約束詞之間的片段,完成片段預(yù)測后將約束詞填充到對應(yīng)位置,從而保證了生成的文本百分之百包含所有約束詞,同時(shí)端到端生成片段也具有較快的生成速度。為了有效預(yù)測所有片段,我們利用二維位置編碼來捕獲片段之間和片段內(nèi)部的位置關(guān)系,從而更好地學(xué)習(xí)到片段的語義。我們構(gòu)建了基于對外漢語教材的數(shù)據(jù)集作為詞匯約束文本生成的基礎(chǔ)資源,并在該數(shù)據(jù)集和已經(jīng)公開的英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的LCTG-SP方法在保證百分百包含約束詞的同時(shí),有效提升了生成速度和質(zhì)量。本文貢獻(xiàn)如下:

        (1) 提出了基于片段預(yù)測的詞匯約束文本生成方法LCTG-SP,解決了主流方法存在的生成速度慢或無法百分百包含約束詞的問題;

        (2) 提出了多參考數(shù)據(jù)增強(qiáng)的方法來提升文本生成質(zhì)量;

        (3) 構(gòu)建了用于詞匯約束文本生成的中文數(shù)據(jù)集。在中英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在生成速度和生成質(zhì)量方面都具有較大優(yōu)勢。

        1 相關(guān)工作

        1.1 改進(jìn)的柱搜索方法

        改進(jìn)的柱搜索方法是一類解碼方法,在模型解碼階段即插即用,通過控制柱搜索過程,使約束詞包含在生成的文本中。最典型的工作是Hokamp 等人提出的網(wǎng)格柱搜索(Grid Beam Search,GBS),該方法增加包含約束詞的候選搜索維度,使柱搜索過程中保留包含約束詞的候選。動(dòng)態(tài)柱分配(Dynamic Beam Allocation,DBA)方法是網(wǎng)格柱搜索的擴(kuò)展[15],它將滿足相同數(shù)量約束的可選對象進(jìn)行分組,動(dòng)態(tài)分配候選數(shù)量,以加速推理過程。我們的方法不是只在解碼階段使用,而是在訓(xùn)練階段就考慮了約束詞,保持了訓(xùn)練和預(yù)測的一致性,具有更快的生成速度和更好的生成質(zhì)量。

        1.2 隨機(jī)搜索的方法

        隨機(jī)搜索的方法將約束詞順序拼接作為初始狀態(tài)的句子,隨機(jī)采樣替換、插入和刪除操作不斷迭代修改當(dāng)前狀態(tài),直到得到滿足要求的句子。這一類方法有一系列工作,例如,Berglund等人首先使用吉布斯采樣從句子空間直接生成句子[17]。Wang等人擴(kuò)展了吉布斯采樣方法[18],從預(yù)訓(xùn)練模型BERT[19]生成文本。Miao等人提出了CGMH方法[20],可以在給定的詞匯約束下通過替換、插入和刪除操作生成文本。

        隨機(jī)采樣的方法的缺點(diǎn)是可能會造成較多重復(fù)和冗余的操作,導(dǎo)致生成過程緩慢。例如,會將某個(gè)詞插入和刪除多次。因此He等人提出X-MCMC-C方法[3],利用預(yù)先訓(xùn)練的分類器來預(yù)測需要在句子的哪個(gè)位置做何種操作,由此來避免一些無效的重復(fù)操作。其模型訓(xùn)練和預(yù)測需要分成多步進(jìn)行,首先訓(xùn)練分類器和語言模型,分類器用來判斷操作和操作執(zhí)行的位置,語言模型用來計(jì)算迭代修改過程中的狀態(tài)轉(zhuǎn)移接受率。同樣,為了緩解隨機(jī)搜索過程中出現(xiàn)的重復(fù)和冗余操作問題,Sha等人[16]提出了一個(gè)可微的目標(biāo)函數(shù),并利用梯度來幫助確定序列中哪個(gè)位置的詞被改變。這些方法有效緩解了迭代修改過程中重復(fù)和冗余操作的問題,但是每一步的迭代修改只能對一個(gè)詞進(jìn)行,因此為了提升搜索的速度,Zhang等人[21]提出一種類似于非自回歸的并行預(yù)測方式,允許同時(shí)在當(dāng)前狀態(tài)的句子中每兩個(gè)詞之間最多插入一個(gè)詞,使得每步的搜索迭代能同時(shí)插入多個(gè)詞,從而提升搜索速度。

        這些改進(jìn)都是基于迭代搜索的,仍然都是插入式方法,需要將給定的關(guān)鍵詞作為初始狀態(tài)的文本,不斷進(jìn)行多次增、刪、改迭代操作,訓(xùn)練和生成的過程依然繁瑣,非常耗時(shí),難以在實(shí)際應(yīng)用中使用。我們的方法則是端到端生成文本,無須多次迭代,生成速度比隨機(jī)搜索方法快很多。

        1.3 端到端的方法

        端到端的方法以深度神經(jīng)網(wǎng)絡(luò)作為基本模型,將多個(gè)約束詞拼接起來直接作為模型輸入,訓(xùn)練模型生成完整的文本,其生成速度比隨機(jī)搜索和改進(jìn)的柱搜索方法都要快很多。但是基于深度神經(jīng)網(wǎng)絡(luò)的端到端生成方法無法保證輸入的約束詞都包含在生成的句子中,其原因在于神經(jīng)網(wǎng)絡(luò)的生成過程是基于網(wǎng)絡(luò)參數(shù)所擬合的概率分布,解碼時(shí)利用每一步的概率分布來預(yù)測下一個(gè)詞,因此無法保證一定生成出給定的約束詞。為了緩解這一問題,Wang等人[7]提出在注意力機(jī)制中引入約束詞的標(biāo)記,即標(biāo)記當(dāng)前候選的輸出是否為約束詞,如果約束詞出現(xiàn)則修改對應(yīng)約束詞的標(biāo)記,以此引導(dǎo)輸入中盡可能包含更多的約束詞,從而提升約束詞出現(xiàn)的比例。Qin等人提出基于能量的郎之萬動(dòng)力學(xué)約束解碼[22],通過基于梯度的采樣對約束進(jìn)行有效的可微分推理。該方法可直接用于從左到右的端到端模型,提升詞匯約束滿足的比例。這些方法在端到端的訓(xùn)練和預(yù)測中同時(shí)考慮了詞的約束,但仍然無法保證百分百包含所有約束詞。本文提出的基于片段預(yù)測的方法可以在端到端生成的同時(shí)保證包含所有約束詞。

        2 方法

        2.1 任務(wù)定義

        詞匯約束文本生成任務(wù)要求給定一組約束詞,生成一個(gè)文本包含所有約束詞。假設(shè)給定c1,c2,…,ck這k個(gè)約束詞,則該任務(wù)所建模的公式如式(1)所示。

        X*=argmaxXP(X|c1,c2,…,ck)

        (1)

        其中,X是包含了所有約束詞的通順文本。

        2.2 片段預(yù)測

        我們將詞匯約束文本生成任務(wù)視為預(yù)測約束詞之間的片段,即約束詞組成的序列是一段不完整的文本,模型需要預(yù)測每兩個(gè)約束詞之間空缺的片段,將預(yù)測結(jié)果按片段對應(yīng)位置填充到約束詞組成的模板中,得到完整的包含所有約束詞的通順的句子。圖1展示了本文提出的基于片段預(yù)測的詞匯約束文本生成的基本思想。假設(shè)約束詞為“喜歡”和“籃球”,期望模型生成完整的包含這兩個(gè)約束詞的文本,例如,“我喜歡在公園打籃球。”就是一句符合生成要求的文本。片段預(yù)測的思想是不預(yù)測約束詞本身,而是預(yù)測約束詞之間的片段,在這個(gè)例子中,需要預(yù)測“我”“在 公園 打”“。”三個(gè)片段。

        圖1 基于片段預(yù)測的詞匯約束文本生成

        基于片段預(yù)測的詞匯約束文本生成方法在形式上與預(yù)訓(xùn)練語言模型的遮蔽式的訓(xùn)練目標(biāo)有相似之處,但是前者的挑戰(zhàn)性和難度更大。具體來說,預(yù)訓(xùn)練語言模型的遮蔽式訓(xùn)練目標(biāo)就是文本填空任務(wù),是給定一個(gè)不完整的文本,即文本中存在一些詞語或片段空缺,要求預(yù)測這些空缺位置的詞語或片段。預(yù)訓(xùn)練語言模型的文本填空任務(wù)通常是隨機(jī)遮蔽文本中15%的詞語或片段[19],而在詞匯約束文本生成中需要預(yù)測部分遠(yuǎn)遠(yuǎn)多于已知部分,被遮蔽的詞語或片段達(dá)到80%甚至更高。由于給定的約束詞很少,需要預(yù)測的詞語或片段很多,因此挑戰(zhàn)性較大,無法直接使用現(xiàn)有的預(yù)訓(xùn)練語言模型來預(yù)測詞匯約束文本生成中的片段。

        2.3 模型

        本文設(shè)計(jì)了適用于詞匯約束文本生成的片段預(yù)測(LCTG-SP)方法,同時(shí)設(shè)計(jì)了可順序預(yù)測多個(gè)片段的模型架構(gòu),以便更好地學(xué)習(xí)預(yù)測片段與約束詞的語義關(guān)系,并且構(gòu)建了相應(yīng)的訓(xùn)練數(shù)據(jù)。

        GLM預(yù)訓(xùn)練語言模型[22]的訓(xùn)練目標(biāo)是多任務(wù)的,主要考慮兩個(gè)目標(biāo): 一個(gè)是只有單個(gè)的片段覆蓋50%的Tokens,另一個(gè)是多個(gè)片段整體覆蓋15%的Tokens。我們的訓(xùn)練基于詞匯約束文本生成任務(wù)構(gòu)造的數(shù)據(jù),遮蔽的比例取決于原始句長和所選取的關(guān)鍵詞的數(shù)量。我們使用GPT-2模型,利用所構(gòu)造的數(shù)據(jù)對其進(jìn)行訓(xùn)練,并借鑒了GLM的二維位置編碼方式。與GLM模型不同的是,我們按照約束詞位置進(jìn)行遮蔽,且不打亂片段的順序。下面詳細(xì)介紹具體的模型結(jié)構(gòu)和數(shù)據(jù)構(gòu)造。

        圖2是本文生成模型結(jié)構(gòu)圖,采用的是GPT-2的模型架構(gòu)。假設(shè)模型的輸入源自給定的約束詞“喜歡”和“籃球”(約束詞可以有任意多個(gè)),在約束詞之間添加[MASK]標(biāo)簽,期望模型預(yù)測出[MASK]位置的片段。為了更好地學(xué)習(xí)片段和約束詞的語義關(guān)系,我們引入二維位置編碼。位置編碼1用于編碼片段間的位置關(guān)系,每個(gè)[MASK]位置對應(yīng)片段的Token編碼相同,例如第一個(gè)[MASK]位置對應(yīng)的Token是“[SEP]我”,則二者在位置編碼 1中均為“1”。位置編碼2用于編碼片段內(nèi)部的位置關(guān)系,位置“0”代表帶有[MASK]的輸入序列,其他位置則為需要被預(yù)測的序列。被預(yù)測的序列是由多個(gè)片段組成的,每個(gè)片段單獨(dú)編碼位置,例如第二個(gè)片段是“[SEP]在-公園-打”,該片段有4個(gè)Token,從位置“1”開始編碼,[SEP]位置為1,直到最后一個(gè)Token“打”的位置為“4”。模型訓(xùn)練和預(yù)測是按Teacher-forcing的方式,輸入真實(shí)的Token來預(yù)測下一個(gè)Token,而預(yù)測階段則是由上一個(gè)預(yù)測結(jié)果來預(yù)測下一個(gè)Token。

        圖2 模型結(jié)構(gòu)

        模型建模過程描述如下: 訓(xùn)練數(shù)據(jù)的構(gòu)造是從輸入文本X=[x1,x2,…,xn]中通過一定策略選定約束詞,截取約束詞之間的多個(gè)文本的片段{s1,s2,…,sm},其中每一個(gè)片段si是X中的一串連續(xù)的Token,在片段間添加[SEP]標(biāo)簽作為約束詞位置的標(biāo)記,得到模型輸出序列S={s1,[SEP],s2, [SEP],…,sm,[SEP]}。在原文本中將每一個(gè)片段用單個(gè)的[MASK]代替,從而得到輸入序列Xc。模型利用自回歸的方式預(yù)測Xc中被遮蔽的多個(gè)片段。則需要建模從輸入序列Xc到輸出的文本片段的映射關(guān)系,即建模條件概率,如式(2)所示。

        (2)

        多個(gè)片段是從左到右進(jìn)行自回歸預(yù)測的,每個(gè)片段內(nèi)部的多個(gè)Token也是從左到右進(jìn)行自回歸預(yù)測的。即預(yù)測當(dāng)前片段中的某一個(gè)Token時(shí),模型是基于之前所有片段和當(dāng)前片段中的當(dāng)前Token之前的所有Token。則上述建模公式的訓(xùn)練目標(biāo),如式(3)所示。

        (3)

        其中,li表示第i個(gè)片段si的長度,s

        2.4 數(shù)據(jù)構(gòu)造方法

        圖3是數(shù)據(jù)構(gòu)造方法的具體過程,以一條數(shù)據(jù)的構(gòu)建過程為例。首先利用關(guān)鍵詞提取工具從句子中提取出關(guān)鍵詞作為約束詞。約束詞的數(shù)量根據(jù)句長變化,并設(shè)定最大值和最小值,并將句子中的約束詞之間的片段替換為[MASK],然后在每個(gè)片段后加入[SEP]標(biāo)簽作為模型需要預(yù)測的輸出。最后將約束詞按順序填入[SEP]位置(除去最后一個(gè)[SEP])即可得到包含所有約束詞的完整的句子。

        前人工作在英文數(shù)據(jù)集One-billion-words(2)https://www.statmt.org/lm-benchmark/上進(jìn)行實(shí)驗(yàn)[3],為了推動(dòng)該任務(wù)在中文上的應(yīng)用,我們利用對外漢語教材構(gòu)建了用于詞匯約束文本生成任務(wù)的數(shù)據(jù)集。對500本對外漢語教材進(jìn)行語料清洗和分句,按照上述形式構(gòu)造數(shù)據(jù)集。

        2.5 數(shù)據(jù)增強(qiáng)方法

        前人工作是使用關(guān)鍵詞提取工具來得到約束詞,而通常來說約束詞可以是任意詞,從實(shí)際應(yīng)用角度出發(fā),約束詞為實(shí)詞即可。因此,為了盡可能充分地使用已有的單語數(shù)據(jù),本文提出使用詞性標(biāo)注的方式提取約束詞,并構(gòu)造多參考來進(jìn)行數(shù)據(jù)增強(qiáng)。

        我們利用關(guān)鍵詞提取工具和詞性標(biāo)注結(jié)果來增強(qiáng)獲取約束詞。首先將文本進(jìn)行詞性標(biāo)注,篩選出其中的動(dòng)詞、名詞(除專有名詞)、形容詞、副詞等具有實(shí)際意義的詞,然后將其與關(guān)鍵詞提取工具得到的詞一同作為約束詞集合,并進(jìn)行去重。將約束詞按其在文本中的順序進(jìn)行排列,并根據(jù)文本的長度決定所選取的約束詞數(shù)量。設(shè)置文本長度與約束詞比例為10∶1,由此確定約束詞的數(shù)量。依據(jù)前人工作[3],設(shè)置約束詞數(shù)量最少為1個(gè),最多為4個(gè)。

        從約束詞集合中多次隨機(jī)采樣確定約束的數(shù)量詞,對于同一組約束詞,利用檢索方式在訓(xùn)練集中找出包含所有約束詞的多個(gè)文本作為多參考,構(gòu)成一對多的平行語料。下面以圖3的例子說明數(shù)據(jù)增強(qiáng)方法。對于文本“我喜歡在公園打籃球”,利用關(guān)鍵詞提取和詞性標(biāo)注工具可以得到約束詞集合“喜歡,公園,打,籃球”, 將約束詞兩兩組對并到已有數(shù)據(jù)中檢索,可以得到一對多的平行數(shù)據(jù): “喜歡 籃球→我喜歡在公園打籃球?!?和“喜歡 籃球→我非常喜歡籃球明星科比?!?“公園 籃球→我喜歡在公園打籃球?!焙汀肮珗@ 籃球→在公園里有一個(gè)很大的籃球場。”

        表1給出了經(jīng)過數(shù)據(jù)增強(qiáng)方法構(gòu)造的數(shù)據(jù)集規(guī)模,相比原有訓(xùn)練數(shù)據(jù),中文和英文數(shù)據(jù)集都增加了一倍的訓(xùn)練數(shù)據(jù)。其中,中文數(shù)據(jù)的訓(xùn)練集在210K句基礎(chǔ)上增加了281K句,英文數(shù)據(jù)的訓(xùn)練集在1 000K句的基礎(chǔ)上增加了1 100K句。

        表1 數(shù)據(jù)集規(guī)模 (單位: 句)

        我們通過消融實(shí)驗(yàn),驗(yàn)證了上述數(shù)據(jù)增強(qiáng)方法的有效性。

        3 實(shí)驗(yàn)

        本文在上述中英文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),從生成質(zhì)量、包含約束詞的比例和生成速度三方面與基線模型進(jìn)行對比。生成質(zhì)量的評測包括自動(dòng)評測和人工評測。

        3.1 基線方法

        此實(shí)驗(yàn)與前人工作的三類方法(包括四個(gè)模型)進(jìn)行對比: X-MCMC-C[3], DBA[15], Transformer[7]和T5[7](中文上為mT5)。X-MCMC-C是隨機(jī)搜索方法中較為先進(jìn)的方法,DBA是增強(qiáng)的柱搜索中的典型方法,Transformer和T5則是端到端方法中的常用模型。我們在測試集上對比生成文本的質(zhì)量、包含約束詞的比例、生成速度三方面。

        3.2 實(shí)驗(yàn)設(shè)置

        對于X-MCMC-C方法,我們使用原論文中開源的參數(shù)配置(3)https://github.com/NLPCode/MCMCXLNet,并進(jìn)行了調(diào)優(yōu)取最佳結(jié)果。DBA方法是一類解碼算法,我們選用典型的Tansformer模型,并在其之上使用DBA方法,以達(dá)到該方法的最佳性能。由于T5模型只針對英文,因此中文上選用mT5模型。Tansformer模型則使用原始論文中的經(jīng)典架構(gòu)。模型訓(xùn)練時(shí)經(jīng)過調(diào)優(yōu)后的學(xué)習(xí)率為3e-4,beam-size為5。基于端到端的模型訓(xùn)練輪次為20次,損失函數(shù)均收斂到穩(wěn)定狀態(tài)。

        3.3 評測指標(biāo)

        我們利用自動(dòng)評測和人工評測的方法分別對所有基線模型和本文提出的模型的生成結(jié)果進(jìn)行評價(jià),對生成的文本進(jìn)行自動(dòng)評測,其指標(biāo)分為三方面: 生成的文本與參考句之間的n-gram重合度,生成的文本中n-gram的多樣性,以及生成的文本的流利度。生成的文本與參考句之間的n-gram重合度使用BLEU指標(biāo)進(jìn)行評測。文本的n-gram多樣性則是利用Distinct指標(biāo)來評估生成文本的詞匯多樣性的,我們選擇該指標(biāo)的2-gram進(jìn)行評測,稱之為Dist-2。其原理是統(tǒng)計(jì)生成文本中不重復(fù)的詞匯個(gè)數(shù),并將其與總詞數(shù)相比較。舉個(gè)例子,如果一篇文本中2-gram總數(shù)量為1 000個(gè),不重復(fù)的2-gram為500個(gè),那么這篇文本的Dist-2值為0.5。Dist-2值越高,說明生成文本中使用的詞匯越豐富,文本的多樣性越好。流利度可以通過困惑度(Perplexity, PPL)進(jìn)行衡量[3],使用預(yù)訓(xùn)練的GPT-2模型計(jì)算PPL,PPL越低則文本越流利通順。此外,還需要評測約束詞包含在生成文本中的比例,稱之為Const指標(biāo)。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        我們的實(shí)驗(yàn)在中英文兩個(gè)數(shù)據(jù)集上進(jìn)行,利用訓(xùn)練集訓(xùn)練我們的模型和基線模型,在測試集上進(jìn)行評測。利用上一節(jié)介紹的自動(dòng)評測指標(biāo)對生成文本與參考句的重合度、流利度、多樣性進(jìn)行評測。自動(dòng)評測結(jié)果如表2和表3所示,我們在各項(xiàng)評測指標(biāo)上進(jìn)行對比。

        表2 中文數(shù)據(jù)集自動(dòng)評測結(jié)果

        表3 英文數(shù)據(jù)集自動(dòng)評測結(jié)果

        從自動(dòng)評測結(jié)果可以看出,在測試集上,LCTG-SP方法生成的文本相比基線方法生成的文本的PPL指標(biāo)更低,具有更好的文本流暢度。一方面,由于隨機(jī)搜索的方式(X-MCMC-C)在生成文本時(shí)利用隨機(jī)策略搜索文本序列,隨機(jī)性很大,因此影響了文本的流利度。增強(qiáng)的柱搜索方法(DBA)是在解碼過程中硬約束生成包含約束詞的文本,也對文本流利度造成了較大影響。另一方面,由于我們的模型是基于預(yù)訓(xùn)練的語言模型,具有海量數(shù)據(jù)的語言知識,比隨機(jī)搜索的X-MCMC-C方法、增強(qiáng)的柱搜索DBA方法以及重頭訓(xùn)練的Transformer模型具有更好的文本流暢性。相比預(yù)訓(xùn)練模型T5,我們的模型在英文表現(xiàn)上流暢性略差,中文上LCTG-SP方法表現(xiàn)更好。

        在文本多樣性方面,LCTG-SP比DBA、Transformer生成的文本多樣性更好。隨機(jī)搜索方法由于其固有的隨機(jī)性,在文本多樣性方面表現(xiàn)最好,甚至超過了人類真實(shí)參考文本的多樣性。在BLEU指標(biāo)上的表現(xiàn)與PPL類似,這一指標(biāo)是計(jì)算與真實(shí)參考句之間的重合度,只能從一定程度上反映文本生成的質(zhì)量。LCTG-SP方法是端到端方法中可以保證百分百包含約束詞的,而基線方法中只有DBA和X-MCMC-C方法可以保證包含所有約束詞,基線方法中的Transformer和T5無法保證生成文本中包含所有約束詞。

        我們進(jìn)一步進(jìn)行了多參考的數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)(+數(shù)據(jù)增強(qiáng)),該方法可以進(jìn)一步提升文本多樣性和流利度,我們的模型結(jié)合了多參考數(shù)據(jù)增強(qiáng)后,在流利度方面達(dá)到了最佳性能,并且在其他指標(biāo)上也具有較好性能。

        3.5 人工評測與實(shí)例

        為了進(jìn)一步評估和驗(yàn)證方法的性能,我們進(jìn)行了人工評測。人工評測數(shù)據(jù)是從測試集中隨機(jī)抽取300條,并請三位人工標(biāo)注員進(jìn)行評測。人工評測是對生成文本的三個(gè)方面方面進(jìn)行評價(jià): ①一致性; ②多樣性; ③流利度。具體來說,一致性用于評測生成文本與約束詞之間的語義相關(guān)性,即生成的文本的整體語義與約束詞之間的相關(guān)程度。多樣性指生成的文本的詞匯和語義豐富度。流利度是指生成文本的通順程度。三個(gè)指標(biāo)均由打分方式評測,分?jǐn)?shù)范圍為1~5分,在所有測試樣本上取平均值。由于人工評測需要耗費(fèi)較多人力成本,因此對比的基線模型從隨機(jī)搜索(X-MCMC-C)、增強(qiáng)柱搜索(DBA)和端到端方法(T5或mT5)各選取一種,本文的方法(LCTG-SP)是加入了數(shù)據(jù)增強(qiáng)方法之后的結(jié)果。人工評測最終結(jié)果如表4和表5所示。

        表4 中文數(shù)據(jù)集的人工評測

        表5 英文數(shù)據(jù)集的人工評測

        表6和表7給出了一些實(shí)例,可以對比同一組約束詞在不同方法上生成的文本。分析觀察表中生成的文本,可以看出增強(qiáng)的柱搜索方法(DBA)在文本流利度方面較差,而LCTG-SP的流利度較好,在進(jìn)行了數(shù)據(jù)增強(qiáng)之后在流利度和多樣性方面也有更好的表現(xiàn)。

        表6 中文數(shù)據(jù)集的實(shí)例

        表7 英文數(shù)據(jù)集的實(shí)例

        3.6 生成速度對比

        生成速度的測試是在中文的測試集上進(jìn)行的,計(jì)算測試集所有數(shù)據(jù)完成生成任務(wù)的總時(shí)間。表8給出了各個(gè)方法的生成速度對比。本文的方法LCTG-SP是一種端到端方法,相比DBA和X-MCMC-C方法的生成速度具有明顯優(yōu)勢。這是由于DBA方法在柱搜索的解碼過程中增加維護(hù),包含了約束詞的所有候選,增加了柱搜索的計(jì)算開銷。而X-MCMC-C需要迭代多次修改文本,因此生成速度最慢。在三種端到端生成模型中,LCTG-SP相比mT5的生成速度略快,比Transformer模型略慢。三者的解碼方式相同,主要原因在于模型參數(shù)量的影響。由于mT5的參數(shù)量較大,因此速度最慢。

        表8 生成速度對比

        4 總結(jié)與展望

        本文提出基于片段預(yù)測的端到端詞匯約束文本生成方法,該方法在滿足所有詞匯約束的同時(shí),保證了生成速度和生成質(zhì)量。自動(dòng)評測和人工評測表明,本文提出的LCTG-SP方法所生成的文本在流利性方面表現(xiàn)更好,多樣性方面比增強(qiáng)的柱搜索和直接端到端生成的方法更好。此外,本文提出的數(shù)據(jù)增強(qiáng)方法能有效提升多樣性,并且改善了流利度。未來我們將探索該任務(wù)在語言教學(xué)領(lǐng)域中的應(yīng)用,結(jié)合語言和詞匯教學(xué)的需求調(diào)整詞匯約束文本生成任務(wù)。語言教學(xué)通常要求對文本的詞匯難度進(jìn)行控制,這對詞匯約束文本生成賦予了更高的要求。

        猜你喜歡
        詞匯文本方法
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        国产精品美女黄色av| 日韩精品国产一区在线| 国产亚洲一区二区精品 | 国产高清视频在线不卡一区| 玖玖资源站亚洲最大的网站| 亚洲乱码一区二区三区在线观看 | 开心五月骚婷婷综合网| 中国无码人妻丰满熟妇啪啪软件| 乱色熟女综合一区二区三区| 亚洲国产一区二区在线| 精品久久日产国产一区| 日本中文字幕婷婷在线| 久久精品国产只有精品96| 欧美不卡视频一区发布| 无码一区二区三区AV免费换脸 | 亚洲永久精品ww47永久入口| 无遮挡粉嫩小泬| 国产偷国产偷亚洲高清| 日本护士口爆吞精视频| 爱性久久久久久久久| 亚洲av无码第一区二区三区 | 欧美人妻日韩精品| 亚洲欧美国产双大乳头| 激,情四虎欧美视频图片| 午夜男女靠比视频免费| 久久青青草原亚洲av无码麻豆| √天堂中文官网8在线| 亚洲成AV人片无码不卡| 国产精品黄色在线观看| 精品福利一区二区三区免费视频| 亚洲欧美日韩在线一区| 日本一区二区三区中文字幕视频| 色婷婷一区二区三区久久亚洲 | 人妻无码αv中文字幕久久琪琪布| 国产伦精品一区二区三区四区| 性色av手机在线观看| 亚洲sm另类一区二区三区| 成人爽a毛片免费视频| 午夜亚洲www湿好大| 久久亚洲AV无码一区二区综合| 在线免费观看毛视频亚洲精品|