亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合關(guān)鍵詞概率映射的漢越低資源跨語言摘要

        2022-07-15 08:15:08李笑萌張亞飛郭軍軍高盛祥余正濤
        關(guān)鍵詞:文本融合語言

        李笑萌,張亞飛,郭軍軍,高盛祥,余正濤

        (昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

        跨語言摘要任務(wù)旨在為給定的一篇源語言文本生成另一種語言的摘要.跨語言摘要的傳統(tǒng)方法是將源語言文本翻譯到目標(biāo)語言,然后對(duì)翻譯后的文本進(jìn)行摘要[1-2];或者先對(duì)源語言文本進(jìn)行摘要,然后將源語言摘要翻譯到目標(biāo)語言[3-5].然而,目前機(jī)器翻譯(MT)性能仍不能達(dá)到預(yù)期效果,存在結(jié)果錯(cuò)誤傳播的問題,尤其針對(duì)越南語等低資源語言,錯(cuò)誤傳播的問題更為顯著.

        近年來,跨語言摘要任務(wù)的研究方法主要是基于端到端的跨語言摘要方法.Zhu等[6]基于端到端的模型,利用大規(guī)??缯Z言摘要數(shù)據(jù)來實(shí)現(xiàn)跨語言摘要性能的提升,這也是第一個(gè)使用大規(guī)模的平行語料訓(xùn)練端到端跨語言摘要模型的方法,但是目前缺乏大規(guī)模高質(zhì)量的跨語言摘要數(shù)據(jù)集.為了在少量的標(biāo)注數(shù)據(jù)下使得端到端的跨語言摘要模型獲得更好的性能:Yana等[7]基于訓(xùn)練后的MT模型和單語摘要(MS)模型,將兩者作為教師模型來教授跨語言摘要的學(xué)生模型;后來,Duan等[8]將Transformer模型作為MS教師模型和學(xué)生模型的主干,進(jìn)一步提升摘要的質(zhì)量.但是這種教師-學(xué)生模型只能把有限的知識(shí)傳遞給學(xué)生模型.因此,為了使模型具備更好的跨語言學(xué)習(xí)的能力,基于預(yù)訓(xùn)練語言模型的跨語言摘要方法被提出,該方法通過預(yù)訓(xùn)練語言模型,使模型提前具備跨語言學(xué)習(xí)的能力,從而使模型獲得更好的性能.Xu等[9]提出了一種混合語言預(yù)訓(xùn)練模型,通過掩碼語言模型(MLM)、MS等進(jìn)行預(yù)訓(xùn)練,為了提高模型跨語言學(xué)習(xí)的能力,預(yù)先訓(xùn)練的模型基于MT模型等提前從大量MT標(biāo)注數(shù)據(jù)中學(xué)習(xí)語言知識(shí).以上跨語言摘要任務(wù)主要是在漢英等富資源情況下進(jìn)行,對(duì)于越南語等低資源語言情況并不適用.

        目前,也有少量的研究是基于知識(shí)增強(qiáng)的方法來獲得較好的低資源跨語言摘要效果.Li等[10]提出自動(dòng)摘要的正確性問題,通過聯(lián)合學(xué)習(xí)摘要生成和文本隱含知識(shí),提出了隱含感知解碼器,通過用隱含信息豐富的編碼器和解碼器,來提高摘要的準(zhǔn)確性.該研究結(jié)果表明:通過文本隱含知識(shí)增強(qiáng)模型的表征可提高摘要的準(zhǔn)確性,這也說明將基于知識(shí)的學(xué)習(xí)融入摘要模型對(duì)于摘要模型性能的提升非常重要.傳統(tǒng)的基于知識(shí)增強(qiáng)的跨語言摘要方法是通過構(gòu)建雙語詞典,將作為輸入的源語言文本和目標(biāo)語言的參考摘要通過對(duì)齊的雙語詞典映射至同一語義空間,實(shí)現(xiàn)跨語言摘要.但是對(duì)于越南語等低資源來講,獲取對(duì)齊的雙語詞典數(shù)據(jù)十分困難,較難實(shí)現(xiàn)跨語言語義對(duì)齊,而漢越概率映射對(duì)是一種針對(duì)語料庫級(jí)別的全局知識(shí),能夠盡可能地反映雙語之間的對(duì)應(yīng)關(guān)系.基于數(shù)據(jù)驅(qū)動(dòng)的端到端的跨語言摘要模型在低資源情況下由于沒有先驗(yàn)知識(shí)指導(dǎo),不能有效關(guān)注到源語言文本中的核心內(nèi)容,導(dǎo)致生成的摘要出現(xiàn)內(nèi)容偏差的問題,而關(guān)鍵詞包含了源文的重要內(nèi)容,是對(duì)源文的有效增強(qiáng),因此從源語言文本中挖掘關(guān)鍵詞信息并映射至目標(biāo)語言生成相關(guān)的上下文,對(duì)于生成簡(jiǎn)潔、語義正確的跨語言摘要尤為重要.2017年,See等[11]提出指針生成器網(wǎng)絡(luò),實(shí)現(xiàn)了從源文本復(fù)制單詞.受See等[11]的啟發(fā),本文認(rèn)為通過指針生成器網(wǎng)絡(luò)實(shí)現(xiàn)關(guān)鍵詞的概率映射作為先驗(yàn)知識(shí),可以增強(qiáng)模型跨語言表征的能力,指導(dǎo)摘要的生成.因此,針對(duì)標(biāo)注數(shù)據(jù)稀缺導(dǎo)致的跨語言對(duì)齊困難等問題,本文提出了關(guān)鍵詞概率映射,不僅關(guān)注了文本中的重要信息,且在一定程度上解決了跨語言對(duì)齊困難的問題.總體來說,本文的主要貢獻(xiàn)包括以下兩個(gè)方面:

        1) 提出了融合關(guān)鍵詞概率映射的漢越低資源跨語言摘要方法(low resource cross-language summarization of Chinese-Vietnamese combined with keyword probability mapping,C-Vcls),通過獲取關(guān)鍵詞的概率映射信息來改善漢越低資源跨語言摘要較難實(shí)現(xiàn)跨語言語義對(duì)齊,摘要質(zhì)量差的問題;

        2) 在構(gòu)建的10萬漢越低資源跨語言摘要數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果證明本文所提模型在漢越低資源跨語言摘要任務(wù)上的有效性和優(yōu)越性.

        1 C-Vcls模型

        本文C-Vcls模型基于Transformer框架,由融合關(guān)鍵詞概率映射的文本表征和融合關(guān)鍵詞概率映射的解碼端構(gòu)成,模型框架如圖1所示.首先,獲取源語言文本的關(guān)鍵詞G,與源語言文本X的隱狀態(tài)表征Z通過編解碼注意力機(jī)制獲取第s個(gè)關(guān)鍵詞與源語言文本的聯(lián)合表征?s,查詢得到每一個(gè)關(guān)鍵詞對(duì)應(yīng)漢越概率映射對(duì)中的源語言詞,通過注意力機(jī)制獲得第s個(gè)關(guān)鍵詞(詞向量表示為ws)對(duì)應(yīng)到目標(biāo)語言詞(詞向量表示為w)的概率P(ωs?ω),最后通過指針網(wǎng)絡(luò),結(jié)合解碼端生成的目標(biāo)詞的概率大小PN(ω)獲得最后的分布P(ω).

        1.1 融合關(guān)鍵詞概率映射的文本表征

        給定一組跨語言摘要數(shù)據(jù)集D:D={X,Y},其中X為源語言文本輸入序列,即X={x1,x2,…,xn},Y為目標(biāo)語言參考摘要輸入序列,即Y={y1,y2,…,ym}.n,m跟隨源序列長(zhǎng)度變化,n>m.

        編碼端輸入的源語言文本通過編碼器得到輸出的隱狀態(tài)表征Z,如式(1)所示.

        Z=[z1,z2,…,zl,…,zn].

        (1)

        本文使用的關(guān)鍵詞抽取方法為關(guān)鍵詞提取算法TextRank[12].基于此算法,對(duì)每篇源語言文本提取q個(gè)最重要的關(guān)鍵詞,即關(guān)鍵詞集合G由式(2)所示:

        G={g1,g2,…,gs,…,gq}=

        TextRank(x1,x2,…,xn).

        (2)

        然后,通過編解碼注意力機(jī)制對(duì)關(guān)鍵詞和源語言文本進(jìn)行聯(lián)合表征,構(gòu)建關(guān)鍵詞到源語言文本的注意力,計(jì)算第s個(gè)關(guān)鍵詞gs對(duì)于源語言文本的注意力得分,如式(3)所示.

        (3)

        為了對(duì)關(guān)鍵詞信息進(jìn)行跨語言對(duì)齊,映射至目標(biāo)語言,本文采用漢越概率映射對(duì)進(jìn)行實(shí)現(xiàn).漢越概率映射對(duì)的構(gòu)建在本文構(gòu)建的漢越跨語言摘要數(shù)據(jù)集D上進(jìn)行.設(shè)C={c1,c2,…,ci,…,cj}為D中源語言詞的集合,V={v1,v2,…,vk,…,vr}為D中相對(duì)應(yīng)的目標(biāo)語言的映射候選詞的集合,j,r表示集合的大小.如圖1中概率映射對(duì)構(gòu)建模塊可知,在對(duì)應(yīng)關(guān)系中,可以映射為源語言詞“我”的映射候選詞有“Chúng”“ti”,其中“我→ti”表示一個(gè)映射對(duì),利用統(tǒng)計(jì)的思想,即“我”映射為“Chúng”的概率為1/3,映射為“ti”的概率為2/3.為了實(shí)現(xiàn)這一功能,本文利用Dyer等[13]提出的快速對(duì)齊方法和統(tǒng)計(jì)的思想,通過快速對(duì)齊方法得到每一個(gè)源語言詞ci映射為目標(biāo)語言vk的概率為:

        (4)

        其中,ci→vk表示一個(gè)映射對(duì),‖{ci|ci→vk}‖表示數(shù)據(jù)集D中源語言集合中所有滿足映射關(guān)系ci→vk的詞ci的個(gè)數(shù),‖{vk|ci→vk}‖表示滿足映射關(guān)系ci→vk的映射候選詞vk的個(gè)數(shù),PMP表示漢越概率映射對(duì)在數(shù)據(jù)集D中源語言詞可以映射為滿足映射關(guān)系的映射候選詞的概率.

        為了將關(guān)鍵詞映射到目標(biāo)語言,本文使用了編解碼注意力機(jī)制查詢得到每一個(gè)關(guān)鍵詞對(duì)應(yīng)漢越映射對(duì)中的源語言詞,進(jìn)而得到該關(guān)鍵詞的映射候選詞.如圖1所示,為了將關(guān)鍵詞“我”映射至目標(biāo)語言,首先查詢得到“我”在漢越概率映射對(duì)中對(duì)應(yīng)的源語言詞的位置,進(jìn)而得到對(duì)應(yīng)的映射候選詞“Chúng”“ti”等,然后利用編解碼注意力機(jī)制,構(gòu)建關(guān)鍵詞到映射候選詞的注意力,即計(jì)算出每一個(gè)關(guān)鍵詞對(duì)應(yīng)其漢越映射概率對(duì)的映射概率,取其映射概率最大的映射候選詞“ti”作為目標(biāo)語言關(guān)鍵詞.具體如公式(5)所示.

        圖1 融合關(guān)鍵詞概率映射的漢越低資源跨語言摘要方法框架Fig.1 Low resource cross-language summarization of Chinese-Vietnamese combined with Kp-mapping

        (5)

        1.2 融合關(guān)鍵詞概率映射信息的解碼端

        在得到關(guān)鍵詞的概率映射信息后,融合模塊的功能是將關(guān)鍵詞概率映射信息融合到跨語言摘要生成過程中,指導(dǎo)摘要的生成.本文利用See等[11]提出的指針網(wǎng)絡(luò),通過生成概率Pgen來確定最后生成的摘要詞匯分布.

        使用O作為解碼器在時(shí)刻t的隱狀態(tài),計(jì)算時(shí)刻t的生成概率Pgen,Pgen∈(0,1),如式(6)所示.

        Pgen=δ(W2(W1O+b1)+b2),

        (6)

        其中,W1∈Rdmodel×dmodel、W2∈R1×dmodel是學(xué)習(xí)矩陣,b1∈Rdmodel、b2∈R是偏置向量,dmodel表示此時(shí)隱狀態(tài)的維度,δ是sigmoid函數(shù).本文中,Pgen被用作一個(gè)軟開關(guān),用于選擇從解碼端生成一個(gè)單詞,或者選擇從關(guān)鍵詞中復(fù)制一個(gè)單詞.那么,生成一個(gè)單詞的概率P(ω)如式(7)所示.

        P(ω)=Pgen∑s?sP(ωs?ω)+

        (1-Pgen)PN(ω),

        (7)

        其中,P(ωs?ω)表示關(guān)鍵詞ωs映射到詞ω的概率大小,PN(ω)表示本模型的解碼端生成的詞ω的概率大小,P(ω)是通過生成概率Pgen決定的最終生成摘要的詞匯分布.

        2 實(shí) 驗(yàn)

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        本文數(shù)據(jù)來自互聯(lián)網(wǎng)爬取,基于Zhu等[6]提出的往返翻譯的策略,獲得了質(zhì)量較高的10萬漢越、漢英跨語言摘要數(shù)據(jù)集(https:∥github.com/Lxmllx/C-Vcls-dataset/tree/master),其中有效詞數(shù)為數(shù)據(jù)集文本分詞去重后的剩余詞數(shù).表1中列出了本文數(shù)據(jù)集的統(tǒng)計(jì)信息.分詞處理過程中,漢語使用結(jié)巴分詞,越南語使用Vu等[14]提出的VnCoreNLP進(jìn)行分詞,英語采用其本身的詞級(jí)結(jié)構(gòu).

        表1 數(shù)據(jù)集統(tǒng)計(jì)結(jié)果

        2.2 評(píng)價(jià)指標(biāo)

        本文利用自動(dòng)摘要中常用的ROUGE(recall-oriented understudy for gisting evaluation)值作為評(píng)價(jià)指標(biāo)[15],它通過比較候選摘要與參考摘要中共現(xiàn)的n元詞組(n-gram)來評(píng)價(jià)候選摘要的質(zhì)量,其計(jì)算方法為:

        ROUGE-N=

        (8)

        其中,n-gram表示n元詞組,AR表示標(biāo)準(zhǔn)的參考摘要,As表示生成摘要句,N(n-gram)表示參考摘要中n元詞組的個(gè)數(shù),Nmatch(n-gram)表示生成摘要句與參考摘要句共同包含的n元詞組的個(gè)數(shù).根據(jù)n-gram的不同,本文采用ROUGE-1(一元組、RG-1),ROUGE-2(二元組、RG-2),ROUGE-L(最長(zhǎng)子序列、RG-L)來評(píng)價(jià)參考摘要的好壞.

        2.3 實(shí)驗(yàn)?zāi)P蛥?shù)設(shè)置

        本文所有實(shí)驗(yàn)均基于Transformer架構(gòu),采用Adam優(yōu)化器,其中,β1=0.9,β2=0.998,ε=1×10-9.在訓(xùn)練過程中使用的標(biāo)簽平滑率els=0.1.在驗(yàn)證時(shí)使用波束大小為4且長(zhǎng)度罰分α=0.6的波束搜索.本文采用的學(xué)習(xí)率lr=0.1,批次大小設(shè)為2 048,dropout為0.1,編碼器和解碼器層數(shù)、模型隱層大小、前饋隱層大小和頭數(shù)分別為6,1 024,2 048和8.本文設(shè)置編解碼器詞表大小為:漢語10萬,英語和越南語均為1萬,未登錄詞使用來代替.本文實(shí)驗(yàn)中概率映射詞典的大小根據(jù)詞頻設(shè)置為39 311,關(guān)鍵詞個(gè)數(shù)根據(jù)摘要平均長(zhǎng)度取為5.本文所有實(shí)驗(yàn)均在單個(gè)NVIDIA RTX 2070 SUPER GPU上進(jìn)行.

        2.4 基準(zhǔn)模型

        本文選擇TETran、TLTran、NCLS模型作為基準(zhǔn)模型,所有基準(zhǔn)模型的訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分均與本文模型相同.

        1) TETran模型和TLTran模型為傳統(tǒng)的跨語言摘要模型,其中TETran模型表示先利用MT模型將源語言文本翻譯到目標(biāo)語言,然后使用LexRank[16]模型對(duì)翻譯后的源文檔進(jìn)行摘要.TLTran模型表示先利用MS模型對(duì)源語言文本進(jìn)行摘要,然后利用翻譯模型將生成的源語言摘要翻譯至目標(biāo)語言.

        2) NCLS[6]模型是一種基于Transformer的端到端的跨語言摘要模型.

        3) C-Vcls模型是本文實(shí)現(xiàn)的基于Transformer的序列到序列模型.此模型引入關(guān)鍵詞的概率映射信息作為先驗(yàn)知識(shí).

        2.5 實(shí)驗(yàn)結(jié)果分析

        2.5.1 實(shí)驗(yàn)結(jié)果

        為了證明本文融合關(guān)鍵詞概率映射方法在漢越低資源跨語言摘要任務(wù)上的優(yōu)勢(shì),將本文模型與現(xiàn)有基準(zhǔn)模型在漢越跨語言摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,表2給出了本文模型與基準(zhǔn)模型在漢越跨語言摘要測(cè)試集上的RG-1,RG-2和RG-L的對(duì)比結(jié)果.

        表2 漢越跨語言摘要模型的實(shí)驗(yàn)結(jié)果對(duì)比

        由表2可知:TLTran優(yōu)于TETran,說明先翻譯后摘要的方法更容易受MT性能的影響,發(fā)生錯(cuò)誤傳播.C-Vcls模型與傳統(tǒng)的TLTran、TETran模型相比,在RG-1,RG-2和RG-L上分別取得了1.10,0.07,1.51和6.03,2.30,4.71個(gè)百分點(diǎn)的提升,這也說明了不僅關(guān)鍵詞概率映射的策略可以有效緩解越南語MT性能不佳引起的摘要質(zhì)量差的問題,通過獲得源文關(guān)鍵詞的聯(lián)合表征還可以獲得更好的上下文表示,使生成的摘要更精準(zhǔn).另外,C-Vcls模型與端到端的NCLS模型相比,在RG-1,RG-2和RG-L上取得了3.85,0.89,2.83個(gè)百分點(diǎn)的提升,相較于需要大規(guī)模語料的端到端的NCLS模型,本文構(gòu)建源文關(guān)鍵詞的聯(lián)合表征并融入關(guān)鍵詞的概率映射,通過先驗(yàn)知識(shí)增強(qiáng)模型的跨語言表征能力,降低了模型對(duì)語料規(guī)模的要求,從而取得了更優(yōu)的性能.因此,通過以上分析,可以得出明確結(jié)論:本文提出的關(guān)鍵詞概率映射方法是一種有效的方法,可以有效提高端到端模型的性能.

        2.5.2 融合關(guān)鍵詞概率映射方法的有效性分析

        在2.5.1節(jié)中,融合關(guān)鍵詞概率映射方法能有效提高端到端模型的性能.為了進(jìn)一步證明本文融合關(guān)鍵詞概率映射模塊在漢越低資源跨語言摘要任務(wù)上的合理性,本文設(shè)置了多組實(shí)驗(yàn)進(jìn)行驗(yàn)證.

        1) 關(guān)鍵詞融入的有效性

        表3中給出了關(guān)鍵詞個(gè)數(shù)q不同時(shí),C-Vcls模型在漢越跨語言摘要測(cè)試集上的RG-1,RG-2,RG-L的比對(duì)結(jié)果.

        表3 關(guān)鍵詞個(gè)數(shù)對(duì)C-Vcls模型的影響

        分析表3可知,q=5時(shí),模型取得了更優(yōu)的性能.隨著q從0增加到5,C-Vcls模型在漢越跨語言摘要測(cè)試集上指標(biāo)RG-1、RG-2和RG-L不斷增加.與q=0相比,q=5時(shí)在指標(biāo)RG-1、RG-2和RG-L上分別獲得了3.85、0.89、2.83個(gè)百分點(diǎn)的性能提升.原因可能是隨著關(guān)鍵詞個(gè)數(shù)的增多,獲得的文本關(guān)鍵信息越多,對(duì)摘要的指導(dǎo)性越強(qiáng),獲得的摘要越可靠.綜上,表明了關(guān)鍵詞等先驗(yàn)知識(shí)對(duì)摘要模型的指導(dǎo)可以有效提升低資源摘要模型的性能.

        2) 概率映射策略的有效性

        為驗(yàn)證概率映射策略的有效性,本文在概率映射詞典的大小上進(jìn)行相關(guān)實(shí)驗(yàn).根據(jù)詞頻設(shè)置概率映射詞典大小為25 087,36 368,39 311,42 399,表4中給出了本文模型在漢越跨語言摘要數(shù)據(jù)集上的RG-1、RG-2、RG-L的比對(duì)結(jié)果,其中覆蓋率為概率映射詞典相對(duì)于關(guān)鍵詞詞數(shù)的占比(此處由TextRank得到的關(guān)鍵詞未進(jìn)行去重,故覆蓋率的分母不一樣).

        表4 概率映射詞典對(duì)模型的影響

        分析表4可知,概率映射詞典大小為39 311是性能最好的,在指標(biāo)RG-1、RG-2和RG-L上,相較概率映射詞典大小為25 087,36 368,42 339時(shí)分別有6.09,2.27,4.46,3.73,2.01,1.91;0.03,-0.01,0.04個(gè)百分點(diǎn)的提升.概率映射詞典大小為25 087時(shí)的漢越跨語言摘要效果較差,主要原因可能是覆蓋率僅有52.37%,此時(shí)詞典的噪聲較大,覆蓋率較低,在進(jìn)行映射時(shí)不能對(duì)關(guān)鍵詞進(jìn)行有效映射,導(dǎo)致部分關(guān)鍵詞不起作用,相對(duì)于其它模型的結(jié)果(表2),甚至?xí)档驼男Ч?;但是在概率映射詞典為39 311和42 339時(shí),摘要效果相對(duì)于其它模型的結(jié)果(表2),仍有提升,但是兩者相差不大,這是由于最終生成摘要的單詞分布由概率映射詞典、翻譯概率、神經(jīng)網(wǎng)絡(luò)模型生成單詞的分布共同決定,可能產(chǎn)生的不確定性較大.綜上,說明了概率映射詞典這一策略在漢越跨語言摘要任務(wù)上的有效性,但是概率映射詞典對(duì)于關(guān)鍵詞的覆蓋率在一定程度上影響了模型的性能.

        3) 概率映射以及指針網(wǎng)絡(luò)對(duì)于C-Vcls模型的有效性

        為驗(yàn)證本文所結(jié)合的概率映射以及指針網(wǎng)絡(luò)策略的作用,本文在漢越低資源跨語言摘要數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn).其中,C-Vcls-MP模型是在C-Vcls模型的基礎(chǔ)上減少概率映射模塊,C-Vcls-PN模型是在C-Vcls模型的基礎(chǔ)上減少指針網(wǎng)絡(luò)模塊而選擇直接拼接Pgen∑s?sp(ws?w)與(1-Pgen)pN(w)的方式進(jìn)行關(guān)鍵詞的融合.

        分析表5可知,C-Vcls模型取得了更好的效果.C-Vcls模型較C-Vcls-MP模型在指標(biāo)RG-1、RG-2和RG-L上取得了4.77,4.52和3.21個(gè)百分點(diǎn)的提升,該結(jié)果表明當(dāng)關(guān)鍵詞不進(jìn)行概率映射時(shí),摘要結(jié)果下降最為嚴(yán)重且摘要性能低于NCLS模型,可能是由于關(guān)鍵詞不進(jìn)行映射時(shí),會(huì)給模型引入更多的噪聲,說明關(guān)鍵詞概率映射模塊在模型中起著至關(guān)重要的作用,能夠建模關(guān)鍵詞映射到目標(biāo)語言作為先驗(yàn)知識(shí)指導(dǎo)跨語言摘要的生成.而C-Vcls-PN模型相對(duì)于C-Vcls模型,在指標(biāo)RG-1、RG-2和RG-L上的性能分別下降了2.45,2.74和2.26個(gè)百分點(diǎn);但是相較NCLS模型,RG-L指標(biāo)上仍然取得了0.57個(gè)百分點(diǎn)的增幅,這也說明,盡管融合的方式不同,但是融入關(guān)鍵詞概率映射信息到端到端的模型中確實(shí)對(duì)模型性能的提升是有幫助的,而且指針網(wǎng)絡(luò)的融合方式優(yōu)于直接拼接的融合方式.綜合以上分析,本文所提概率映射以及指針網(wǎng)絡(luò)進(jìn)行融合的方式對(duì)模型的性能提升是有益的.

        表5 概率映射、指針網(wǎng)絡(luò)對(duì)C-Vcls模型的影響

        4) C-Vcls模型與基準(zhǔn)模型在漢英跨語言摘要測(cè)試集上的對(duì)比

        為了驗(yàn)證本文所提模型的泛化性,本文在漢英跨語言摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).表6給出了本文模型與基準(zhǔn)模型在漢英跨語言摘要數(shù)據(jù)集上的RG-1、RG-2和RG-L的比對(duì)結(jié)果.

        表6 漢英跨語言摘要模型的實(shí)驗(yàn)結(jié)果對(duì)比

        分析表6可知,本文模型的指標(biāo)均優(yōu)于基準(zhǔn)模型.C-Vcls模型較TLTran模型和TETran模型在指標(biāo)RG-1、RG-2、RG-L上分別有1.56,0.67,2.30和6.22,3.83,4.57個(gè)百分點(diǎn)的提升;較NCLS模型有5.30,3.67,2.98個(gè)百分點(diǎn)的提升.根據(jù)表2和6可以看出,同樣數(shù)量級(jí)的數(shù)據(jù)在同樣的基準(zhǔn)模型上,不同的數(shù)據(jù)集取得的結(jié)果有所差異,且在漢英跨語言摘要數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果低于漢越跨語言摘要數(shù)據(jù)集.主要原因是因?yàn)殡m然越南語和英文構(gòu)造的詞典均為1萬,但根據(jù)越南語和英文文本構(gòu)造特點(diǎn)及本文數(shù)據(jù)集的有效詞數(shù)來看,越南語詞典對(duì)于測(cè)試集文本的覆蓋率高于英文詞典對(duì)于測(cè)試集文本的覆蓋率,即漢越跨語言摘要的實(shí)驗(yàn)結(jié)果沒有大量未登錄詞的出現(xiàn),進(jìn)而提高了摘要的準(zhǔn)確性.但是,從實(shí)驗(yàn)結(jié)果依然可以看出,本文提出的引入具有引導(dǎo)性的關(guān)鍵詞概率映射的方法對(duì)于漢英跨語言摘要任務(wù)同樣有效,也證明了本文所提模型的泛化性.

        2.6 實(shí)例分析

        為了進(jìn)一步驗(yàn)證算法的有效性,本文列舉了不同模型的摘要結(jié)果.具體如表7所示,源語言文本與標(biāo)準(zhǔn)摘要都來自漢越跨語言摘要數(shù)據(jù)集.本文列舉出了所有基準(zhǔn)模型的輸出結(jié)果作為對(duì)比,為了便于理解,本文給出了對(duì)應(yīng)漢語的翻譯結(jié)果.

        分析表7可知,源語言文本主要講述19名前往張家口的驢友被困海坨山,其中15名驢友失去聯(lián)系的事實(shí).由于模型限制,傳統(tǒng)模型TETran模型表達(dá)出了19名來自河北石家莊的朋友,但是并沒有表述出15名前往張家口的朋友在河北失去聯(lián)系的關(guān)鍵信息;TLTran模型表現(xiàn)相對(duì)較好,但是仍然沒有表輸出“張家口”的關(guān)鍵事實(shí).而對(duì)于端到端的C-Vcls模型和NCLS模型均能表達(dá)出“15名驢友”的主要信息,但是NCLS模型,并沒有體現(xiàn)出其“失去聯(lián)系”的關(guān)鍵信息,且內(nèi)容過于冗雜,而本文提出的融合關(guān)鍵詞概率映射的策略,獲取源文中的關(guān)鍵詞“北京”“失去”“聯(lián)系”等映射至目標(biāo)語言,通過有關(guān)鍵詞概率映射信息等具有引導(dǎo)性信息的融入增強(qiáng)了模型的跨語言表征能力,提高了摘要的信息覆蓋度以及事實(shí)性,生成質(zhì)量更高的文本摘要.

        表7 不同模型生成摘要樣例

        3 結(jié) 論

        針對(duì)漢越低資源跨語言摘要,本文在Transformer框架下,提出關(guān)鍵詞概率映射方法.通過實(shí)驗(yàn)證明,在低資源情況下,通過獲取源語言文本的關(guān)鍵詞信息映射至目標(biāo)語言指導(dǎo)摘要生成的方式,對(duì)漢越低資源跨語言摘要任務(wù)存在一定的提升,通過實(shí)驗(yàn)也可以證明,利用關(guān)鍵詞概率映射信息可以為跨語言摘要模型提供更豐富的指導(dǎo)信息,也證明本文提出的方法對(duì)低資源跨語言摘要任務(wù)可能是更加有效的.多模態(tài)等多源信息是對(duì)文本內(nèi)容的高度概括,可以很好的對(duì)文本內(nèi)容進(jìn)行信息補(bǔ)充.因此,如何利用多模態(tài)信息對(duì)跨語言摘要進(jìn)行指導(dǎo)是下一步研究的重點(diǎn).

        猜你喜歡
        文本融合語言
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产精品久久久久久妇女6080| 无遮挡很爽很污很黄的女同| 日韩日韩日韩日韩日韩日韩| 在线永久免费观看黄网站| 久久国产乱子伦精品免费强| 久久国产女同一区二区| 中文字幕亚洲乱码成熟女1区| 国产成人aaaaa级毛片| 四虎精品免费永久在线| 中文字幕国产精品专区| 日本一区二区三区视频网站| 亚洲欧美一区二区三区在线| 综合精品欧美日韩国产在线| 成人全视频在线观看免费播放| 国产一区二区三区av天堂| 一本一道av中文字幕无码| 国产爆乳无码一区二区在线| 国产精品午夜福利天堂| 免费av一区二区三区| 亚洲精品国产av成拍色拍| 亚洲va在线va天堂va四虎| 国产自拍av在线观看| 宅男66lu国产在线观看| 日日摸夜夜添夜夜添无码免费视频| 亚洲熟女国产熟女二区三区| 久久精品国产亚洲av蜜点| 亚洲人午夜射精精品日韩| 亚洲春色AV无码专区在线播放| 国产女主播在线免费看| 欧美丰满少妇xxxx性| 人妻激情偷乱一区二区三区| 欧美一级鲁丝片免费一区| 亚洲av无一区二区三区| 国产午夜无码片在线观看影院| 毛片无遮挡高清免费久久| 成人黄色片久久久大全| 欧美丰满熟妇性xxxx| 国产精品黄网站免费观看| 97自拍视频国产在线观看| 丰满人妻熟妇乱又仑精品| 每天更新的免费av片在线观看|