亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        使用詞對(duì)齊半監(jiān)督對(duì)抗學(xué)習(xí)的漢越跨語(yǔ)言摘要生成方法

        2022-05-10 08:45:38余正濤黃于欣
        關(guān)鍵詞:文本語(yǔ)言模型

        王 劍,張 瑩,2,余正濤,2,黃于欣,2

        1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)

        2(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500)

        1 引 言

        自動(dòng)文本摘要技術(shù)是一種從海量文本中獲取重要信息的方法,可以有效緩解信息過(guò)載的問(wèn)題.當(dāng)前針對(duì)中、英等資源豐富語(yǔ)言的單語(yǔ)摘要研究已經(jīng)取得較好的性能,如Xu等人提出利用卷積自注意力編碼的自動(dòng)摘要模型,根據(jù)上下文的局部和全局特征,從不同角度和不同層面提取文本潛在信息,確保模型生成正確流暢的摘要,Wu等人針對(duì)事件摘要任務(wù)引入Bigram語(yǔ)言模型對(duì)提取關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展得到事件相關(guān)的摘要信息.

        跨語(yǔ)言摘要是用目標(biāo)語(yǔ)言來(lái)展示源語(yǔ)言新聞的摘要信息,如利用漢語(yǔ)來(lái)摘要和展示越南語(yǔ)新聞中的重要信息可以幫助用戶快速獲取越南語(yǔ)新聞描述的主要內(nèi)容,對(duì)于促進(jìn)兩國(guó)交流具有重要意義.目前針對(duì)跨語(yǔ)言文本摘要的方法主要有兩種:借助機(jī)器翻譯的管道式方法和借助雙語(yǔ)對(duì)齊的端到端方法.基于機(jī)器翻譯的管道式方法的研究動(dòng)機(jī)是:將跨語(yǔ)言自動(dòng)摘要分為單語(yǔ)言摘要和機(jī)器翻譯兩個(gè)步驟,可以先翻譯再摘要或先摘要再翻譯兩種模式.Anton[1]等人通過(guò)機(jī)器翻譯系統(tǒng)將印地語(yǔ)原文檔翻譯成英語(yǔ),再利用一個(gè)基于英文的多文檔摘要和標(biāo)題生成的交互式系統(tǒng)實(shí)現(xiàn)跨語(yǔ)言摘要生成.Wan[2]等人先利用單語(yǔ)摘要方法生成源語(yǔ)言文本摘要,再利用機(jī)器翻譯生成目標(biāo)語(yǔ)言摘要.然而,雖然基于機(jī)器翻譯的跨語(yǔ)言摘要方法可以利用單語(yǔ)的摘要和機(jī)器翻譯模型,但它受到兩個(gè)獨(dú)立子任務(wù)的誤差累積的影響,前一步驟的誤差會(huì)影響后一步的性能,制約了摘要的質(zhì)量.為了避免誤差累計(jì)的影響,Duan[3]和Ayana等人[4]提出聯(lián)合優(yōu)化機(jī)器翻譯和摘要模型,實(shí)現(xiàn)了zero-shot的跨語(yǔ)言摘要.其核心思想是構(gòu)造翻譯到摘要或者摘要到翻譯的線性系統(tǒng),使用現(xiàn)有摘要數(shù)據(jù)集訓(xùn)練教師模型,為跨語(yǔ)言句子摘要模型提供監(jiān)督信號(hào),同時(shí)還利用目標(biāo)輸入句作為中間橋梁,利用兩個(gè)方向的注意力權(quán)重來(lái)指導(dǎo)摘要生成.

        上述跨語(yǔ)言摘要方法的研究主要集中在中英等資源豐富語(yǔ)言的研究上,擁有大規(guī)模的公共數(shù)據(jù)集和平行語(yǔ)料可供使用,且翻譯技術(shù)相對(duì)成熟,翻譯質(zhì)量較高,因此基于機(jī)器翻譯的跨語(yǔ)言摘要可以取得較好的效果.但是針對(duì)漢越等資源稀缺語(yǔ)言缺乏高質(zhì)量的平行語(yǔ)料,翻譯效果并不理想,因此依賴機(jī)器翻譯來(lái)實(shí)現(xiàn)漢越跨語(yǔ)言摘要較為困難.近年來(lái),也有一些學(xué)者提出了基于雙語(yǔ)對(duì)齊的端到端方法生成跨語(yǔ)言摘要,其思想是借助雙語(yǔ)詞典和注意力機(jī)制來(lái)實(shí)現(xiàn)雙語(yǔ)語(yǔ)義空間軟對(duì)齊,然后基于序列到序列模型直接生成跨語(yǔ)言摘要.Zhu等人[5]首次提出直接利用Transformer框架來(lái)生成跨語(yǔ)言摘要.即直接輸入源語(yǔ)言原文解碼得到跨語(yǔ)言摘要,利用編碼器到解碼器的交叉注意力來(lái)實(shí)現(xiàn)兩種語(yǔ)言的對(duì)齊.另外該文也驗(yàn)證了基于多任務(wù)框架,在共享編碼器的基礎(chǔ)上,在解碼端引入單語(yǔ)摘要或者機(jī)器翻譯任務(wù)作為額外的約束可以有效的提升跨語(yǔ)言摘要的生成質(zhì)量.后續(xù)研究中,Zhu等人[6]進(jìn)一步改進(jìn)翻譯融入的方式,通過(guò)將神經(jīng)網(wǎng)絡(luò)模型與外部概率雙語(yǔ)詞典相結(jié)合來(lái)提高跨語(yǔ)言摘要性能,其具體過(guò)程是:將跨語(yǔ)言自動(dòng)摘要分解為3個(gè)步驟:聚焦(attend)、翻譯(translate)和歸納(summarize),具體實(shí)現(xiàn)過(guò)程為:首先通過(guò)注意力機(jī)制對(duì)原文包含的重要內(nèi)容詞進(jìn)行聚焦,并得到這些關(guān)鍵詞的翻譯候選,最后依據(jù)翻譯候選或者神經(jīng)概率分布生成摘要.雖然已有的基于雙語(yǔ)詞對(duì)齊的跨語(yǔ)言摘要方法在深度學(xué)習(xí)框架下取得了很好的性能,但是漢越屬于低資源語(yǔ)言,語(yǔ)料資源稀缺,僅依賴基于注意力機(jī)制的軟對(duì)齊方法來(lái)實(shí)現(xiàn)兩種語(yǔ)言的語(yǔ)義空間對(duì)齊難度較大.因此本文提出借助雙語(yǔ)詞典作為外部知識(shí),利用雙語(yǔ)詞向量對(duì)抗訓(xùn)練的方法將漢越雙語(yǔ)映射到同一語(yǔ)義空間實(shí)現(xiàn)更好的雙語(yǔ)對(duì)齊,并在此基礎(chǔ)上實(shí)現(xiàn)跨語(yǔ)言摘要生成.

        基于以上思想,本文提出了一種基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)漢越跨語(yǔ)言摘要生成的方法,首先利用Bert編碼器分別對(duì)輸入的漢越文本進(jìn)行向量表征;然后基于漢越雙語(yǔ)詞典的半監(jiān)督對(duì)抗學(xué)習(xí)方法,實(shí)現(xiàn)雙語(yǔ)詞向量在同一語(yǔ)義空間對(duì)齊;最后基于注意力機(jī)制同時(shí)關(guān)注雙語(yǔ)上下文向量,解碼得到目標(biāo)語(yǔ)言摘要.

        2 基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)漢越跨語(yǔ)言摘要模型

        如圖1所示,本文基于編碼器和解碼器構(gòu)成的序列到序列框架(sequence-to-sequence,seq2seq)摘要[7]框架提出的一種跨語(yǔ)言摘要模型,并且在seq2seq模型的基礎(chǔ)上增加了一個(gè)漢越雙語(yǔ)詞級(jí)映射器以實(shí)現(xiàn)雙語(yǔ)在同一個(gè)語(yǔ)義空間對(duì)齊.其中,左右兩邊分別為越南語(yǔ)編碼器Vi_Bert[8]和中文Zh_Bert編碼器負(fù)責(zé)將輸入的漢越新聞文本進(jìn)行向量表征;mapping映射器由鑒別器Diss,Dist和生成器Gens,Gent構(gòu)成,其任務(wù)是將編碼器生成的向量映射到同一語(yǔ)義空間下對(duì)齊;解碼器負(fù)責(zé)對(duì)映射后的向量解碼得到跨語(yǔ)言摘要.以越南語(yǔ)為源語(yǔ)言,中文作為目標(biāo)語(yǔ)言的跨語(yǔ)言摘要任務(wù)為例,模型生成摘要的過(guò)程是:首先,我們使用編碼器獲取越南語(yǔ)和中文新聞文本的上下文表示;然后使用映射器將越南語(yǔ)向量映射到中文向量空間下,判別器和生成器共同作用得到生成器生成同一語(yǔ)義空間下的對(duì)齊向量;最后,中文解碼器對(duì)映射向量進(jìn)行解碼生成中文摘要.

        圖1 基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)漢越跨語(yǔ)言摘要模型圖

        2.1 編碼器

        svi=vi_Bert(xvi)

        (1)

        tzh=zh_Bert(xzh)

        (2)

        2.2 基于雙語(yǔ)詞典的半監(jiān)督對(duì)抗學(xué)習(xí)

        經(jīng)過(guò)Bert編碼器產(chǎn)生的文本詞向量分別為中文和越南語(yǔ)新聞的文本表征,需要實(shí)現(xiàn)兩種向量在同一語(yǔ)義空間下對(duì)齊,將其結(jié)果作為解碼端的輸入.為實(shí)現(xiàn)該目標(biāo),我們提出借助漢越雙語(yǔ)詞典的半監(jiān)督對(duì)抗學(xué)習(xí)的方法,其過(guò)程如下:

        預(yù)訓(xùn)練階段,首先利用包含L=30000的{si,ti}i∈(1,2,…,L)漢越雙語(yǔ)種子詞典,訓(xùn)練映射矩陣W:

        Ω=‖Ws-t‖2

        (3)

        其中,s為雙語(yǔ)詞典的源語(yǔ)言詞向量,t為對(duì)應(yīng)的目標(biāo)語(yǔ)言詞向量,Ω表示正則器,用于強(qiáng)制表達(dá)式兩邊的相等性.我們使用隨機(jī)梯度下降學(xué)習(xí)W,然后通過(guò)最小化經(jīng)過(guò)W轉(zhuǎn)換的源語(yǔ)言單詞si的向量表征與雙語(yǔ)詞典中的目標(biāo)語(yǔ)言ti之間的平方歐氏距離,來(lái)實(shí)現(xiàn)雙語(yǔ)詞向量在同一語(yǔ)義空間下的映射對(duì)齊.假設(shè)源語(yǔ)言為越南語(yǔ)s,目標(biāo)語(yǔ)言為中文t,則由越南語(yǔ)映射到中文的映射矩陣為Ws→t.同理可得中文映射到越南文的矩陣為Wt→s.

        聯(lián)合訓(xùn)練階段,用Bert編碼器得到越南語(yǔ)和中文的詞向量svi和tzh來(lái)訓(xùn)練學(xué)習(xí)的映射矩W*:

        (4)

        (5)

        最后,如圖2所示,將生成器生成的映射后的越南語(yǔ)向量和中文向量同時(shí)提交給判別器來(lái)預(yù)測(cè)每個(gè)單詞的來(lái)源.在這個(gè)過(guò)程中來(lái)優(yōu)化判別器Diss和Gens:

        圖2 雙語(yǔ)詞向量對(duì)抗訓(xùn)練模型圖

        (6)

        判別器Dist和生成器Gent同理可得:

        (7)

        訓(xùn)練時(shí),生成器和判別器采取交替訓(xùn)練,即先訓(xùn)練Diss和Dist,然后訓(xùn)練Gens和Gent,不斷往復(fù).

        2.3 解碼器

        解碼器部分,Masked Multi-head attention中的mask表示掩碼,它對(duì)某些值進(jìn)行掩蓋,使其在參數(shù)更新時(shí)不產(chǎn)生效果.這一部分的attention計(jì)算公式為:

        (8)

        其中,Q,K,V對(duì)應(yīng)的query,key,value均來(lái)自前一層decoder的輸出向量.

        編碼器和解碼器通過(guò)交叉注意力連接.多頭注意力將模型分為多個(gè)頭,形成多個(gè)子空間,可以讓模型去關(guān)注不同方面的信息,最后再將各個(gè)方面的信息綜合起來(lái),有助于網(wǎng)絡(luò)捕捉到更豐富的特征/信息.多頭注意力通過(guò)點(diǎn)積注意力模塊實(shí)現(xiàn),encoder-decoder attention計(jì)算方式為:

        multihead=contact(head1,head2,…,headi)Wo

        (9)

        (10)

        (11)

        除了注意力機(jī)制子層之外,解碼器的每一層都包含一個(gè)完全連接的前饋網(wǎng)絡(luò).前饋神經(jīng)網(wǎng)絡(luò)模塊由兩個(gè)線性變換組成,中間有一個(gè)ReLU激活函數(shù),其對(duì)應(yīng)計(jì)算公式為:

        FFN(x)=max(w1x+b1,0)w2+b2

        (12)

        其中,x表示輸入序列,w1,w2,b1,b2是需要學(xué)習(xí)的參數(shù).

        2.4 摘要損失計(jì)算

        進(jìn)行單語(yǔ)訓(xùn)練時(shí),給定一對(duì)越南語(yǔ)文本摘要對(duì)(xvi,x′),實(shí)驗(yàn)過(guò)程中進(jìn)行最大對(duì)數(shù)似然率計(jì)算,其摘要損失值Lsumms和Lsummt計(jì)算公式為:

        (13)

        (14)

        進(jìn)行跨語(yǔ)言摘要任務(wù)訓(xùn)練時(shí),假設(shè)給定一對(duì)越南語(yǔ)新聞文本和中文參考摘要對(duì)(xvi,y′).則其跨語(yǔ)言摘要的損失函數(shù)Lclss和Lclst計(jì)算公式為:

        (15)

        (16)

        2.5 模型訓(xùn)練

        預(yù)訓(xùn)練階段:進(jìn)行單語(yǔ)摘要模型和映射器的預(yù)訓(xùn)練.首先使用一定數(shù)量的越南語(yǔ)和中文新聞?wù)Z料,分別進(jìn)行兩種語(yǔ)言的單語(yǔ)摘要模型訓(xùn)練.摘要生成模型均采用BertSum[10],經(jīng)過(guò)單語(yǔ)預(yù)訓(xùn)練得到的摘要模型,transformer解碼器會(huì)對(duì)兩種語(yǔ)言有一定的學(xué)習(xí)記憶,有利于對(duì)映射后的向量解碼.然后利用雙語(yǔ)詞典預(yù)訓(xùn)練得到兩個(gè)映射矩陣W.

        表1 模型訓(xùn)練過(guò)程偽代碼

        聯(lián)合訓(xùn)練階段:在預(yù)訓(xùn)練得到的摘要模型上進(jìn)行雙語(yǔ)映射和跨語(yǔ)言摘要任務(wù)的聯(lián)合訓(xùn)練.如表1所示模型聯(lián)合訓(xùn)練過(guò)程偽代碼.

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        首先我們獲取了Hu等人[11]從新浪微博中抽取的LCSTS數(shù)據(jù),該語(yǔ)料主要來(lái)自于新浪微博.每條語(yǔ)料均由兩部分內(nèi)容構(gòu)成:短文本內(nèi)容以及對(duì)應(yīng)的參考摘要.而越南語(yǔ)語(yǔ)料則通過(guò)將已獲取的LCSTS語(yǔ)料集借助谷歌翻譯工具來(lái)得到偽平行語(yǔ)料.其中訓(xùn)練集有20萬(wàn)對(duì)偽平行語(yǔ)料,測(cè)試集有1000對(duì)偽平行語(yǔ)料.另外,還借助了互聯(lián)網(wǎng)爬蟲(chóng)技術(shù)從中國(guó)新聞網(wǎng)、新華網(wǎng)、新浪新聞等國(guó)內(nèi)新聞網(wǎng)站,以及越南每日快訊、越南經(jīng)濟(jì)日?qǐng)?bào),越南通訊社等越南新聞網(wǎng)站收集新聞,收集的數(shù)據(jù)包含新聞標(biāo)題、正文詳情、發(fā)布時(shí)間等信息.獲得了2000篇越南語(yǔ)新聞以及對(duì)應(yīng)的10000篇中文可比語(yǔ)料.我們對(duì)越南文檔使用VnCorenlp(1)https://github.com/vncorenlp/VnCoreNLP進(jìn)行預(yù)處理[12],包括文檔切分、分詞等過(guò)程.對(duì)中文文檔使用結(jié)巴分詞進(jìn)行數(shù)據(jù)預(yù)處理,包括文檔切分、分詞、去停用詞等步驟.

        雖然目前還沒(méi)有漢越雙語(yǔ)詞典可供使用,但是Facebook muse(2)https://github.com/facebookresearch/MUSE在進(jìn)行110種語(yǔ)言訓(xùn)練詞對(duì)抗模型時(shí)提供了約含76000個(gè)詞對(duì)的英越雙語(yǔ)詞典.目前針對(duì)中英翻譯的效果已經(jīng)十分成熟,于是我們選擇了將英越詞典中的英語(yǔ)詞表調(diào)用谷歌翻譯接口將其翻譯為中文.并對(duì)一詞多義和低頻詞進(jìn)行了去除處理,最終得到了3萬(wàn)對(duì)漢越種子詞典.

        綜上所述,GDM雙胎妊娠屬于高危妊娠。加強(qiáng)GDM雙胎妊娠的管理,控制血糖,選擇合適的分娩方式,做到早發(fā)現(xiàn)、早應(yīng)對(duì),進(jìn)而改善圍產(chǎn)結(jié)局。

        3.2 參數(shù)設(shè)置

        我們使用基于PyTorch的OpenNMT[13]框架,將Bert超參數(shù)與文獻(xiàn)[10]中的BERT-Base作相同設(shè)置.我們模型中編碼器是單語(yǔ)預(yù)訓(xùn)練的BertSum,解碼器是隨機(jī)初始化的6層Transformer.對(duì)于編碼器和解碼器,使用Adam優(yōu)化器[14],β1=0.9,β2=0.999,學(xué)習(xí)率設(shè)置為lr=2e-3.將batchsize設(shè)置為36,epoch大小設(shè)置為8,每3個(gè)steps進(jìn)行一次梯度累加,每1000步保存一次檢查點(diǎn),一共訓(xùn)練20000個(gè)steps.在驗(yàn)證階段對(duì)于每個(gè)驗(yàn)證步,實(shí)驗(yàn)數(shù)據(jù)迭代100次,并在測(cè)試集上報(bào)告平均結(jié)果.

        3.3 評(píng)價(jià)指標(biāo)

        本文采用摘要任務(wù)中廣泛使用的ROUGE[15]分值作為評(píng)估指標(biāo),其工具包已被DUC和TAC等國(guó)際會(huì)議作為摘要體系的標(biāo)準(zhǔn)評(píng)價(jià)工具,用于預(yù)測(cè)生成文本和標(biāo)準(zhǔn)文本之間的接近程度.具體地說(shuō),摘要質(zhì)量將依據(jù)模型預(yù)測(cè)生成的摘要與標(biāo)準(zhǔn)摘要的重疊單元進(jìn)行量化計(jì)算,公式如下:

        (17)

        其中n代表n-gram的長(zhǎng)度,countmatch(n-gram)是模型生成摘要和人工書(shū)寫的標(biāo)準(zhǔn)摘要中共同出現(xiàn)的n-gram的數(shù)量,公式旨在通過(guò)計(jì)算與參考摘要重疊的系統(tǒng)生成摘要中的n-gram的百分比來(lái)衡量系統(tǒng)生成摘要與參考摘要的匹配程度.本文將采用ROUGE評(píng)價(jià)指標(biāo)N元共現(xiàn)統(tǒng)計(jì)ROUGE-1,ROUGE-2以及句子中最長(zhǎng)公共子序列共現(xiàn)統(tǒng)計(jì)ROUGE-L,前者預(yù)定義n-gram的長(zhǎng)度,后者使用最長(zhǎng)公共子序列直接進(jìn)行匹配,因此它自動(dòng)包括最長(zhǎng)的順序共現(xiàn),在一定程度上反映了句子結(jié)構(gòu)信息.

        3.4 實(shí)驗(yàn)結(jié)果

        3.4.1 不同摘要方法對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證提出的模型在跨語(yǔ)言摘要任務(wù)上的性能,本文列舉了不同模型在本文收集數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),結(jié)果如表2所示.其中,Pipe_TS方法表示的是先進(jìn)行原文本翻譯,再進(jìn)行單語(yǔ)摘要任務(wù);Pipe_ST方法表示的是先進(jìn)行單語(yǔ)摘要,再將生成摘要翻譯為目標(biāo)語(yǔ)言的結(jié)果;NCLS[5]方法表示的是借助注意力機(jī)制實(shí)現(xiàn)雙語(yǔ)對(duì)齊實(shí)現(xiàn)跨語(yǔ)言摘要生成方法;XML_R是一種基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練方法[16],能夠?qū)⒉煌Z(yǔ)言映射在統(tǒng)一的語(yǔ)義空間.和Vi_BERT和ZH_BERT相似,XML_R表示利用XML_R模型作為嵌入層,即將Vi_BERT和Zh_BERT替換為XML_R.Ours為本文提出來(lái)的方法.從表2中可以看出,本文提出的基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)跨語(yǔ)言摘要生成模型在越南語(yǔ)到漢語(yǔ)的跨語(yǔ)言摘要生成上,能夠有效改善跨語(yǔ)言摘要生成性能,ROUGE值在對(duì)比實(shí)驗(yàn)方法的結(jié)果上都有接近兩個(gè)百分點(diǎn)的提升,但是在漢語(yǔ)到越南語(yǔ)的跨語(yǔ)言摘要生成效果上略遜于XLM.其可能原因如下:當(dāng)前基于小語(yǔ)種的翻譯技術(shù)尚未成熟,對(duì)較長(zhǎng)的文本進(jìn)行翻譯會(huì)造成信息損失,而在源語(yǔ)言上使用基于半監(jiān)督對(duì)抗學(xué)習(xí)得到的映射矩陣能夠在一定程度上保存文本信息,有助于獲取文本摘要的高階特征,這些特征可指導(dǎo)摘要生成中對(duì)原文中特定內(nèi)容的選擇.

        表2 不同摘要生成方法對(duì)比實(shí)驗(yàn)結(jié)果

        3.4.2 不同規(guī)模詞典的對(duì)比實(shí)驗(yàn)

        表3 針對(duì)不同規(guī)模詞典的摘要實(shí)驗(yàn)結(jié)果

        表4為不同實(shí)驗(yàn)設(shè)置下的消融實(shí)驗(yàn)結(jié)果.其中,No_vocab_CLS表示不使用雙語(yǔ)詞典進(jìn)行雙語(yǔ)對(duì)抗訓(xùn)練的摘要結(jié)果,No_pretrain_CLS表示不進(jìn)行模型預(yù)訓(xùn)練,直接進(jìn)行跨語(yǔ)言摘要聯(lián)合訓(xùn)練任務(wù).由表4可以看出,本文提出的基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)跨語(yǔ)言摘要生成方法效果明顯高于另外兩種方法.其可能原因是:無(wú)雙語(yǔ)詞典的對(duì)抗學(xué)習(xí)對(duì)抗時(shí)雙語(yǔ)對(duì)齊效果較差,影響摘要結(jié)果.模型不能很好地從小規(guī)模文本摘要數(shù)據(jù)集學(xué)習(xí)一些單詞和語(yǔ)法的含義,尤其是那些低頻詞,這可以通過(guò)預(yù)處理階段來(lái)緩解.

        表4 消融實(shí)驗(yàn)結(jié)果

        3.4.4 摘要案例分析

        表5 管道翻譯方法和本文模型摘要結(jié)果案例

        4 總 結(jié)

        本文針對(duì)越南語(yǔ)這一低資源語(yǔ)種的跨語(yǔ)言摘要的任務(wù),通過(guò)利用雙語(yǔ)詞典來(lái)提高模型對(duì)兩種語(yǔ)言的學(xué)習(xí)能力,引入雙語(yǔ)詞向量進(jìn)行對(duì)抗學(xué)習(xí)來(lái)實(shí)現(xiàn)雙語(yǔ)在同一語(yǔ)義空間對(duì)齊.實(shí)驗(yàn)結(jié)果表明,這種方法能夠提升低資源的跨語(yǔ)言摘要效果.在未來(lái)的研究學(xué)習(xí)中,我們將繼續(xù)探索漢越雙語(yǔ)之間更好的對(duì)齊方法,結(jié)合多語(yǔ)言BERT以及多語(yǔ)言BART等模型來(lái)實(shí)現(xiàn)跨語(yǔ)言摘要任務(wù),提高跨語(yǔ)言摘要性能.

        猜你喜歡
        文本語(yǔ)言模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語(yǔ)言描寫搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产激情视频在线观看你懂的| 亚洲成av人片在线观看无码| 色婷婷七月| 久久亚洲中文字幕精品一区四| 丝袜美腿精品福利在线视频| 国产三级三级精品久久| 在线小黄片视频免费播放| 欧美性色欧美a在线播放| 暖暖视频在线观看免费| 91精品国产91久久久无码95| 极品少妇一区二区三区四区| 国产精品一区二区三区四区亚洲| 私人vps一夜爽毛片免费| 日韩a毛片免费观看| 一区二区三区国产美女在线播放| 国产av一区二区三区香蕉| 蜜桃精品视频一二三区| 人妻丰满熟妇岳av无码区hd | 伊人色综合久久天天人手人停| 日本岛国一区二区三区| 亚洲精品视频在线一区二区| 中文字幕v亚洲日本| 国产精品99久久精品爆乳| 国产精品久久久久久久专区| 久久久精品国产亚洲av网| 亚洲综合日韩精品一区二区| 亚洲第一se情网站| 精选麻豆国产AV| 日韩精品中文字幕免费人妻| 国产亚洲一区二区三区综合片| 国产精品久久久久久婷婷| 无码人妻一区二区三区在线视频| 国产精品狼人久久久影院| 精品成人av人一区二区三区| 男人和女人做爽爽免费视频| 又白又嫩毛又多15p| 久久久久综合一本久道| 国产精品午夜高潮呻吟久久av| 一个人看的www片免费高清视频| 亚洲国产成人精品无码区99| 人妻中出精品久久久一区二 |