亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存圖網(wǎng)絡(luò)的漢越神經(jīng)機器翻譯方法

        2022-01-20 02:57:08普瀏清余正濤文永華高盛祥劉奕洋
        中文信息學報 2021年12期
        關(guān)鍵詞:源語言句法解碼

        普瀏清,余正濤,文永華,高盛祥,劉奕洋

        (1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)

        0 引言

        圖1 漢越雙語語序?qū)獔D

        圖2 漢、越依存句法解析樹對照圖

        于是本文提出了基于依存圖網(wǎng)絡(luò)的漢越神經(jīng)機器翻譯方法,并作出了以下兩點創(chuàng)新:

        (1) 在編碼端,利用雙編碼器分別實現(xiàn)對依存關(guān)系和序列信息的編碼。其中圖編碼器,實現(xiàn)對源語言的依存關(guān)系進行依存圖結(jié)構(gòu)的向量化編碼,序列編碼器實現(xiàn)對源語言的序列信息進行編碼。

        (2) 利用圖-序列注意力機制,將兩個編碼器分別生成的依存圖信息和序列信息融入翻譯模型中,對譯文的生成起到指導作用。

        1 相關(guān)工作

        當前,基于句法融入的翻譯研究主要包括短語句法融入和依存句法融入。短語句法能夠反映句子內(nèi)部的成分信息,包括名詞短語,介詞短語,動詞短語等。在短語句法融入方面,Liu[1]證明了利用源語言的句法知識,對于提高雙語的詞對齊和翻譯準確率是有幫助的。He等人[2]提出了一種融合詞根位置特征的漢-越機器翻譯方法。利用狀語位置、定語位置和修飾語的排序信息,定義了具有句法特征的排序塊,將這種排序塊融進基于短語的統(tǒng)計機器翻譯模型中,并對解碼結(jié)果進行重排序,得到符合越南語語序的譯文。針對傳統(tǒng)的序列編碼器無法處理短語樹結(jié)構(gòu)的問題,Eriguchi等人[3]提出了樹到序列的翻譯模型,該模型首先利用循環(huán)神經(jīng)網(wǎng)絡(luò)[4](Recurrent Neural Network, RNN)對源語言的序列進行編碼,在得到的隱向量基礎(chǔ)上,采用Tree-LSTM[5]結(jié)構(gòu)的編碼器實現(xiàn)對源語言的短語結(jié)構(gòu)進行建模。但這種自底向上的樹編碼結(jié)構(gòu),會導致只有頂層節(jié)點擁有豐富的句法信息,而底層節(jié)點缺乏全局句法信息的問題。于是Chen[6]等人在Eriguchi工作的基礎(chǔ)上,提出了雙向樹結(jié)構(gòu)的編碼器,引入了基于樹的覆蓋機制,通過自底向上和自頂向下的雙向編碼的方式對句法樹進行全局覆蓋,實現(xiàn)了句法信息自底向上和自頂向下的信息流動,可以獲取更多的源語言上下文信息,使模型的翻譯性能得到了提升。Li等人[7]將短語句法結(jié)構(gòu)轉(zhuǎn)化為線性序列,通過RNN網(wǎng)絡(luò)進行編碼,避免了Tree-LSTM的復雜網(wǎng)絡(luò)結(jié)構(gòu)。Nguyen[8]等人針對短句句法樹的層次結(jié)構(gòu)特點,提出了一種層次累積的算法。將短語句法樹向量化后的結(jié)果全部映射到一個二維矩陣中,然后對矩陣進行縱向和橫向的累加操作,得到整個短語句法樹向量化后的結(jié)構(gòu)信息,最后將該向量化的結(jié)構(gòu)信息和序列信息送入翻譯模型中,利用交叉注意力機制實現(xiàn)在翻譯模型中對短語結(jié)構(gòu)信息的融入。相比短語句法,依存句法可以提供單詞之間的關(guān)聯(lián)關(guān)系。在依存句法的融入翻譯模型的方法中,Sennrich[9]提出一種在源語言端融入依存句法的翻譯方法,將依存關(guān)系標簽,詞性標簽,詞根等信息編碼成特征向量,與詞向量拼接作為輸入向量,注意力模型和解碼器保持不變。Chen[10]等提出了一種基于源語言依存結(jié)構(gòu)的詞向量表示,該向量包含本節(jié)點的父節(jié)點,子節(jié)點,和兄弟節(jié)點,最后將該向量作為編碼端的輸入送入翻譯模型中。Wang[11]提出了一種基于自監(jiān)督的依存句法感知的神經(jīng)機器翻譯方法,在基于Transformer[12]模型的框架下,不利用外部句法解析工具,將編碼端的多路注意力機制自監(jiān)督的學習源語言的依存句法信息,同時融入到翻譯模型中。

        依存句法通過樹結(jié)構(gòu)顯示地表示詞之間的依存關(guān)系,現(xiàn)有融入依存句法樹的翻譯模型,一般利用鄰居節(jié)點信息,實現(xiàn)對依存句法層次化的結(jié)構(gòu)信息進行建模和利用。本文考慮將依存樹轉(zhuǎn)化為依存圖,基于圖結(jié)構(gòu)可以捕獲遠距離節(jié)點之間的依存關(guān)系,同時將邊轉(zhuǎn)化為圖中的節(jié)點,實現(xiàn)對邊信息的編碼,從而獲取全局化的依存句法圖的結(jié)構(gòu)信息?;谝陨纤枷?,本文提出了一種基于依存圖網(wǎng)絡(luò)的漢越神經(jīng)機器翻譯方法,將依存樹轉(zhuǎn)化為依存圖,并利用圖神經(jīng)網(wǎng)絡(luò)實現(xiàn)對源語言的依存圖結(jié)構(gòu)信息進行全局的向量化表征。并將該表征融入到模型的編、解碼端,讓翻譯模型充分地學習源語言的依存約束關(guān)系,從而指導譯文的生成。

        2 基于依存圖網(wǎng)絡(luò)的漢越神經(jīng)機器翻譯

        本模型在Transformer模型的框架上進行了擴展(圖3)。該模型框架分為兩個部分,第一部分是圖編碼器,對源語言依存圖結(jié)構(gòu)進行編碼,獲取全局的依存結(jié)構(gòu)信息。第二部分是傳統(tǒng)的Transformer結(jié)構(gòu)。在序列編碼器和解碼器中,新增加一個圖和序列的注意力機制,實現(xiàn)對圖結(jié)構(gòu)信息和序列信息的融合。下面,將詳細展開介紹模型框架的內(nèi)容。

        圖3 模型圖

        2.1 依存圖構(gòu)建

        首先將依存句法解析樹轉(zhuǎn)化為有向連通圖,如圖4所示。在轉(zhuǎn)換的過程中對詞節(jié)點和關(guān)系標簽進行向量化表示,其中,詞節(jié)點根據(jù)詞表進行向量化,關(guān)系標簽根據(jù)標簽詞表進行向量化。最后定義圖集合為:G=(v,e,lv,le),v是節(jié)點集合(v,lv),e是邊集(vi,vj,le),其中,lv,le分別是詞節(jié)點和邊信息標簽詞表。

        圖4 依存樹向依存圖的轉(zhuǎn)化

        2.2 依存圖編碼器

        (1)

        (2)

        (3)

        (4)

        (5)

        (6)

        其中,i,j為神經(jīng)網(wǎng)絡(luò)的時間步。

        2.3 依存圖結(jié)構(gòu)信息的融合

        利用圖和序列的注意力機制分別在Transformer模型的編碼端和解碼端進行依存圖結(jié)構(gòu)信息的融合。

        2.2.1 編碼端融合依存圖

        首先,在編碼層上進行了擴展。原始的編碼器包含兩個子層,第一層是多頭自注意力層,第二層是前饋神經(jīng)網(wǎng)絡(luò)層,如圖3所示,在兩個子層之間增加了一個圖和序列的注意力機制,用來融合圖結(jié)構(gòu)信息和序列信息。在源語言序列X={x1,x2,x3,…,xn}輸入編碼器之前,會先對其進行向量化表示。通過詞嵌入矩陣將源語言映射到一組連續(xù)的空間,得到詞嵌入向量E。在映射的過程中,會加入序列的位置向量,如式(7)所示。

        E={e1,e2,…,e3,…,en}

        en=e(xn)+pn

        (7)

        e(xn)表示詞嵌入向量,pn表示位置嵌入向量。位置嵌入向量是使用正余弦函數(shù)計算地得到的。對于第n個詞的位置嵌入向量pn,如式(8),式(9)所示。

        (10)

        (11)

        系數(shù)dmodel的作用是進行縮放操作,縮放可以盡量減少相關(guān)性矩陣的方差,具體體現(xiàn)在運算過程中實數(shù)矩陣中的數(shù)值不會過大,有利于模型訓練。在第二層的圖-序列注意力子層(圖3),通過Multihead機制,實現(xiàn)對源語言的圖結(jié)構(gòu)信息G和源語言的序列信息D相互關(guān)注和融合,得到融合向量N,如式(12)所示。

        N=MultiHead(D,G,G)

        (12)

        在第三個前饋神經(jīng)網(wǎng)絡(luò)子層,對向量N進行殘差鏈接和歸一化計算,最終得到序列編碼器的輸出向量S,如式(13)所示。

        S=LN(FFN(LN(N)+LN(N)))

        (13)

        其中LN是歸一化操作,F(xiàn)FN是前饋神經(jīng)網(wǎng)絡(luò)。

        2.2.2 解碼端融合依存圖

        對于長度為j的目標序列Y={y1,y2…,yj},對其向量化和增加位置向量后,得到其詞嵌入序列T={t1,t2…tj},T∈dmodel×j。如圖3所示,在解碼層,同樣增加了一個圖和序列注意力機制的子層。目前每一個解碼器內(nèi)部包含四個子層,第一個子層是目標端的多頭注意力機制,用來計算目標序列的上下文向量M,如式(14)所示。

        M=MultiHead(T,T,T)

        (14)

        第二層是圖-序列注意力層,將圖編碼器的輸出的結(jié)構(gòu)向量G和第一層輸出的目標語言上下文向量M進行關(guān)注,如式(15)所示。

        B=MultiHead(M,G,G)

        (15)

        第三層是編碼-解碼注意力層,將圖-序列注意層輸出的關(guān)注向量B和Transformer的序列編碼器輸出的源語言上下文向量B進行多頭計算,如式(16)所示。

        H=MultiHead(B,S,S)

        (16)

        第四層是全連接的前饋神經(jīng)網(wǎng)絡(luò)層,利用上一層的輸出向量H,計算得到當解碼器輸出的目標端的隱向量F,如式(17)所示。

        F=LN(FFN(LN(H)+×H)))

        (17)

        將F={f1,f2,…,fj}映射到其中目標詞表空間,通過softmax層計算得到目標詞yj的概率分布,如式(18)所示。

        p(yj,|X,y

        (18)

        Fj∈dmodel×j為預測第j個目標詞的詞向量。

        在訓練過程中,依存圖信息已和源語言融合,于是本文仍然基于標準的Transformer模型,訓練標準的最大似然函數(shù)直至收斂,如式(19)所示。

        (19)

        其中θ是模型訓練的參數(shù)。

        3 實驗與分析

        3.1 數(shù)據(jù)獲取及處理

        為驗證本文提出的融合依存圖的漢越神經(jīng)機器翻譯方法,分別在漢-越,越-漢翻譯方向上進行了實驗。其中,漢-越語料通過互聯(lián)網(wǎng)爬取150k的漢越平行語料,通過代碼判空,過濾清洗掉無用的特殊字符,并把平行語料中,中文端的句子長度控制在10到100個字符長度之間。為了驗證平行語料對的語義相似性,通過調(diào)用fast_align(1)https://github.com/clab/fast_align工具包對平行句對進行相似度計算,過濾掉語義差距較大的平行句對,最后將其分成訓練集,測試集,驗證集,如表1。在依存句法樹獲取方面,利用LTP(2)http://www.ltp-cloud.com/語言云平臺對中文數(shù)據(jù)進行分詞及依存句法解析,利用VnCoreNlp(3)https://github.com/vncorenlp/VnCoreNLP工具對越南語進行分詞及依存句法解析,分別獲取中文和越南語的解析結(jié)果。源語言和目標語言均保留50k的詞表大小。

        表1 數(shù)據(jù)集

        3.2 實驗模型參數(shù)設(shè)置

        本實驗的模型是在Transformer模型框架下進行了擴展。其參數(shù)設(shè)置為: 批次大小為4 096,句子最大長度為256,學習率設(shè)置為1×10-4,詞嵌入的維度512,編碼器和解碼器層數(shù)都設(shè)置為6層,多頭注意力的頭個數(shù)為8,訓練輪次為epoch=30,dropout=0.3,采用的優(yōu)化器為Adam,其中GGNN編碼器層數(shù)設(shè)置為8。

        選擇Transformer[12]、Tree2Seq[3]、RNNSearch+Lable[7]、RNNsearch[4]作為對比實驗的基準模型,下面將對這四種模型進行介紹:

        (1)RNNSearch: 基于傳統(tǒng)的RNN神經(jīng)網(wǎng)絡(luò),實現(xiàn)的神經(jīng)機器翻譯模型。其參數(shù)設(shè)置為: 編、解碼端的網(wǎng)絡(luò)層數(shù)為3層,每層隱含單元數(shù)為512個,并用1.0初始化LSTM的遺忘門偏置項。

        (2)RNNSearch+Lable: 該模型是在RNNSearch的基礎(chǔ)上,將源語言的依存句法標簽向量化,作為外部知識,拼接在源語言的詞向量后面融入翻譯模型。其參數(shù)設(shè)置和RNNSearch保持一致。

        (3)Tree 2Seq: 短語樹到序列的翻譯模型,基于Tree-LSTM實現(xiàn)短語句法樹的融入。訓練的參數(shù)和本文模型一致。本模型所需要的越南語短句法分析結(jié)果,采用李英[15]等人的越南語短語句法解析工具對越南語進行句法解析。

        (4)Transformer: 最原始的Transformer。其參數(shù)設(shè)置和本論文提出的模型一致。

        本文的實驗采用單張Tesla K40m GPU進行實驗。翻譯結(jié)果的測評實驗是通過BLEU值進行評分的。

        3.3 對比實驗設(shè)置及結(jié)果分析3.3.1 依存句法對翻譯結(jié)果的影響

        本實驗利用篩選出來的150k語料進行漢-越翻譯和越-漢翻譯任務,實驗結(jié)果如表2所示。

        表2 對比實驗結(jié)果

        在本次雙向翻譯任務中,對比分析表2中的實驗結(jié)果,可看出Tree2Seq、RNNSearch+Lable在漢-越翻譯任務上,比RNNSearch的翻譯結(jié)果分別高1.45個BLEU值和0.98個BLEU值,在越-漢翻譯任務上分別高1.65個BLEU值和0.91個BLEU值,說明將源語言的依存句法知識融入翻譯模型對翻譯效果的提升是有明顯助益的。Transformer在不融入依存句法知識的情況下,比前三個翻譯模型都取得了更好的BLEU值,說明Transformer模型本身的高效性能。本文提出的Transformer+Graph翻譯模型在漢-越和越-漢翻譯任務上,分別比Transformer高0.42個BLEU值和0.58個BLEU值,說明本文提出的基于依存圖網(wǎng)絡(luò)融合依存句法的翻譯方法,可以更好的利用源語言的依存句法知識,也說明利用圖編碼器獲取的全局依存句法結(jié)構(gòu)知識,對提升翻譯質(zhì)量是有效的。

        3.3.2 驗證依存圖結(jié)構(gòu)信息在編、解碼端產(chǎn)生的影響

        為了驗證源語言的依存圖結(jié)構(gòu)信息在編、解碼端的作用,設(shè)計了消融實驗,并與以下模型進行對比,定義 “Enc+Graph”表示只在編碼端融合源語言依存圖信息,“Dec+Graph”表示只在解碼端融合源語言依存圖信息,“Transformer+Graph”表示本文提出的完整模型框架。

        從表3實驗結(jié)果可以看出: 在漢-越翻譯任務和越-漢翻譯任務上,將源語言的依存圖結(jié)構(gòu)信息分別用于編碼端和解碼端,比原始的Transformer翻譯結(jié)果均有BLEU值的提升,說明源語言依存句法知識對于翻譯任務是有幫助的?!癊nc+Graph”比“Dec+Graph”的翻譯BLEU值高,說明在編碼端利用多頭注意力機制將源語言的依存圖結(jié)構(gòu)信息和序列信息融合,更有助于模型充分學習源語言內(nèi)部的依存約束關(guān)系。本文提出的Graph+Transformer翻譯模型在本次漢-越和越-漢翻譯任務中取得了最好的翻譯結(jié)果,BLEU值最高,說明在編、解碼端都利用源語言的依存圖結(jié)構(gòu)信息,對于指導目標譯文的生成更有幫助。

        表3 消融實驗

        3.4 譯文示例分析

        表4 融入依存句法的譯文質(zhì)量對比

        在本文提出的翻譯模型結(jié)果中,將依存句法知識融入翻譯模型后,很明顯地可以看到譯文的語序更符合目標語言的句法語序,說明源語言的依存句法對于翻譯模型學習源語言本身的依存約束關(guān)系是有幫助的,可以讓翻譯模型更有效的學習到源語言和目標語言之間的語序差異,在解碼時,起到指導模型生成符合目標譯文語序的作用,從而達到提升模型翻譯質(zhì)量的目的。

        4 結(jié)論

        本文針對漢越低資源翻譯任務,基于Transformer的模型架構(gòu),提出了一種基于依存圖網(wǎng)絡(luò)融合源語言依存句法的漢越神經(jīng)機器翻譯方法。通過實驗證明,在低資源場景下,依存句法信息的融入,對具有句法差異的漢-越翻譯任務是有所助益的。同時,將依存關(guān)系轉(zhuǎn)化為依存圖,利用圖神經(jīng)網(wǎng)絡(luò)實現(xiàn)對依存圖結(jié)構(gòu)的全局化編碼,給翻譯模型提供了更豐富的全局依存信息。未來工作中,我們將會繼續(xù)研究在解碼端融入目標語言依存句法的翻譯方法。

        猜你喜歡
        源語言句法解碼
        《解碼萬噸站》
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        解碼eUCP2.0
        中國外匯(2019年19期)2019-11-26 00:57:32
        林巍《知識與智慧》英譯分析
        NAD C368解碼/放大器一體機
        Quad(國都)Vena解碼/放大器一體機
        淺析日語口譯譯員素質(zhì)
        北方文學(2018年18期)2018-09-14 10:55:22
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        军人粗大的内捧猛烈进出视频| 亚洲精品偷拍自综合网| 久久成人成狠狠爱综合网| 中文字幕精品久久久久人妻红杏ⅰ| 热久久久久久久| 亚洲一区二区精品在线看| 精品一区中文字幕在线观看| 国产网红主播无码精品| 91久久青青草原线免费| 国产麻豆精品久久一二三| 99久久国内精品成人免费| 97午夜理论片影院在线播放| 亚洲AV无码不卡无码国产| 日本一区二区三区专区| 亚洲精品有码日本久久久| 亚瑟国产精品久久| 国产成人亚洲综合一区| 蜜桃精品国产一区二区三区 | 国产综合久久久久久鬼色| 学生妹亚洲一区二区| 日本啪啪一区二区三区| 噜噜中文字幕一区二区| 亚洲色欲色欲大片www无码| 最新国产在线精品91尤物| 亚洲中文字幕第一第二页| 亚洲精品无码精品mv在线观看| 久久99精品国产麻豆| 色yeye在线观看| 久久中文字幕亚洲综合| 国产肉体xxxx裸体784大胆| 国产精品福利影院| 少妇人妻偷人中文字幕| 国产猛烈高潮尖叫视频免费| 99久久国产露脸精品竹菊传媒| 国产呦系列呦交| 国产一区二区三区在线观看第八页| 久久精品国产久精国产| 亚洲线精品一区二区三区八戒| 一区二区激情偷拍老牛视频av| 成人无码av一区二区| 久久久男人天堂|