亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合雙向依存自注意力機(jī)制的神經(jīng)機(jī)器翻譯

        2022-12-18 08:10:42李治瑾文永華高盛祥
        計(jì)算機(jī)應(yīng)用 2022年12期
        關(guān)鍵詞:源語(yǔ)言雙向注意力

        李治瑾,賴 華*,文永華,高盛祥

        (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650504;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),昆明 650504)

        0 引言

        近年來(lái)神經(jīng)機(jī)器翻譯方法取得了重要的進(jìn)展,在主要語(yǔ)種間的翻譯質(zhì)量已經(jīng)接近人工翻譯水平。神經(jīng)機(jī)器翻譯主要依賴大規(guī)模的語(yǔ)料,在低資源情況下,神經(jīng)機(jī)器翻譯模型的翻譯質(zhì)量會(huì)出現(xiàn)明顯下降。為解決資源稀缺的問(wèn)題,神經(jīng)機(jī)器翻譯一般采用融合句法信息的方法。Eriguchi 等[1]率先提出了一種端到端的語(yǔ)法神經(jīng)機(jī)器翻譯模型,該模型是基于注意力機(jī)制的編解碼模型并融合了成分句法信息,使解碼器生成的單詞與短語(yǔ)以及源句子的單詞進(jìn)行軟對(duì)齊。Aharoni等[2]提出了一種融合目標(biāo)語(yǔ)言成分句法的方法,通過(guò)翻譯得到線性化或詞匯化的成分句法結(jié)構(gòu),將目標(biāo)語(yǔ)言的句法信息融入神經(jīng)機(jī)器翻譯模型;但該方法不針對(duì)低資源神經(jīng)機(jī)器翻譯。Gū 等[3]提出在神經(jīng)機(jī)器翻譯模型中增加具有語(yǔ)法識(shí)別解碼的成分句法結(jié)構(gòu),利用具有語(yǔ)法感知的注意力模型和對(duì)句子結(jié)構(gòu)敏感的語(yǔ)言模型,提升翻譯質(zhì)量,該方法在句子語(yǔ)義流暢度上取得了較好的效果。以上研究主要基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)[5]模型框 架。目 前Transformer 模型已經(jīng)成為了基線模型,因此本文的研究基于Transformer 模型。目前在依存句法融合方面一般只融合依存句法中的父詞信息,利用子詞到父詞的方向能夠確定句子中父詞的位置信息,得到父詞位置向量,增強(qiáng)句子中父詞對(duì)機(jī)器翻譯的影響;而父詞到子詞的方向較少被融合到機(jī)器翻譯模型中。本文認(rèn)為父詞到子詞方向能夠提供句子中子詞的位置信息,通過(guò)遍歷得到句子中的全部子詞位置信息,構(gòu)建子詞權(quán)重矩陣,增強(qiáng)子詞對(duì)機(jī)器翻譯的影響。這種明確的父詞到子詞和子詞到父詞的雙向關(guān)聯(lián)關(guān)系對(duì)機(jī)器翻譯可能更加有效。由此本文提出了將這兩種雙向信息融合到翻譯模型中的方法,通過(guò)更全面的結(jié)構(gòu)信息融合提升機(jī)器翻譯的性能。參照Bugliarello 等[6]的方法,本文提出了雙向依存自注意力機(jī)制(Bidirectional-Dependency self-attention mechanism,Bi-Dependency),將雙向依存知識(shí)融合到Transformer 編碼器的多頭注意力機(jī)制中,不僅利用了依存句法中子詞到父詞的信息也利用了父詞到子詞的信息,利用雙向依存知識(shí)指導(dǎo)神經(jīng)機(jī)器翻譯。

        本文的主要工作包括以下兩個(gè)方面:

        1)提出了基于雙向依存自注意力機(jī)制的神經(jīng)機(jī)器翻譯模型,通過(guò)融合子詞到父詞和父詞到子詞的雙向依存信息,提升了神經(jīng)機(jī)器翻譯的翻譯效果。

        2)提出了雙向依存自注意力機(jī)制,將雙向依存信息融合到Transformer 模型編碼器的多頭注意力機(jī)制中;將句法結(jié)構(gòu)信息有效地融入到了Transformer 模型中。

        1 相關(guān)工作

        1.1 依存信息融合方法

        針對(duì)神經(jīng)機(jī)器翻譯任務(wù)中資源稀缺的問(wèn)題,目前的解決方法主要分為融合成分句法和融合依存句法兩種方式,本文主要討論融合依存句法的方式。融合依存句法知識(shí)利用句子中的詞生成依存句法樹(shù),得到句子中詞與詞間的關(guān)系,這種明確的句法信息的引入有助于翻譯模型更好地學(xué)習(xí)句子中的句法結(jié)構(gòu),緩解資源稀缺的問(wèn)題。

        Wu 等[7]率先在基于RNN 的翻譯模型中引入了依存句法知識(shí)并提出了一種具有語(yǔ)法知識(shí)融合的方法,該方法有3 個(gè)編碼器和兩個(gè)解碼器同時(shí)需要提供目標(biāo)語(yǔ)言的依存句法信息。該方法在解碼端融合目標(biāo)語(yǔ)言的依存句法信息,通過(guò)依存句法知識(shí)的指導(dǎo),得到解碼端的輸出,但該方法不針對(duì)低資源條件下的神經(jīng)機(jī)器翻譯。Zhang 等[8]通過(guò)將依存解析器的中間表示與單詞嵌入進(jìn)行級(jí)聯(lián),從而集成源語(yǔ)言端的語(yǔ)法,該方法由解析模型和神經(jīng)機(jī)器翻譯模型構(gòu)成,將解析模型編碼器生成的隱狀態(tài)作為翻譯模型的輸入,在翻譯的同時(shí)可以得到源語(yǔ)言句子的依存解析結(jié)果;但該方法不允許在源語(yǔ)言端學(xué)習(xí)字詞單元。Saunders 等[9]利用語(yǔ)法表示法對(duì)單詞進(jìn)行交織,提出了一種基于派生的表示形式,可以從序列中直接復(fù)制原始樹(shù),從而保持結(jié)構(gòu)信息;但這樣會(huì)導(dǎo)致更長(zhǎng)的序列出現(xiàn),且需要利用梯度累計(jì)的方式才能進(jìn)行有效的訓(xùn)練。Choshen 等[10]提出了一種基于生成轉(zhuǎn)換序列的基于Transformer 的樹(shù)和圖解碼的通用方法,實(shí)驗(yàn)表明該方法的性能優(yōu)于標(biāo)準(zhǔn)Transformer 解碼器。安靜[11]利用依存句法將英文長(zhǎng)句分割并證明了基于長(zhǎng)句分割機(jī)器翻譯的有效性。王振晗等[12]將源語(yǔ)言句法解析樹(shù)融合到卷積神經(jīng)網(wǎng)絡(luò)中,在漢-越翻譯中取得了很好的效果。

        以上融合依存句法知識(shí)的研究主要基于RNN 和LSTM模型框架進(jìn)行研究,只有少量的研究是在Transformer 模型框架下進(jìn)行的。目前Transformer 模型框架在許多雙語(yǔ)的翻譯上都取得了最佳的翻譯效果,因此,本文將雙向依存知識(shí)融合到Transformer 模型中,以提升翻譯質(zhì)量。

        1.2 基于Transformer模型的句法信息融合方法

        Wang等[13]提出了一種隱式的集成源端語(yǔ)法的方法,使用端到端依存解析器的中間隱藏表示,將其隱藏為具有語(yǔ)法感知的單詞表示。之后,將具有語(yǔ)法感知的單詞表示形式與普通的詞嵌入連接起來(lái),以增強(qiáng)基本的神經(jīng)機(jī)器翻譯模型。該方法無(wú)需外部解析工具,但該方法并不針對(duì)低資源情況。Nguyen 等[14]提出了一種具有層級(jí)累積的樹(shù)結(jié)構(gòu)注意力機(jī)制,將源語(yǔ)言句子序列解析為成分樹(shù)結(jié)構(gòu)后,先利用自下向上的檢索累積,再進(jìn)行自左向右的權(quán)重累積得到4 個(gè)向量,輸入到Transformer 模型中,將葉子節(jié)點(diǎn)和非終端節(jié)點(diǎn)分別編碼并輸入到解碼端。Zhang 等[15]提出了通過(guò)基于互信息最大化的自監(jiān)督神經(jīng)深度建模的源-目標(biāo)雙語(yǔ)對(duì)齊的方法,基于神經(jīng)機(jī)器翻譯的詞對(duì)齊,對(duì)齊源句和目標(biāo)句的句法結(jié)構(gòu),通過(guò)互信息最大化源句和目標(biāo)句的相互依賴性,結(jié)果顯示了句法對(duì)齊的有效性和通用性。Slobodkin 等[16]利用通用概念認(rèn)知注解(Universal Conceptual Cognitive Annotation,UCCA)解析的方式獲取源語(yǔ)言的解析數(shù)據(jù),分別融入編碼器或解碼器并取得了較好的結(jié)果,證明了融合語(yǔ)義知識(shí)的有效性。張海玲等[17]提出利用句法層次化分析識(shí)別短語(yǔ)及句子框架并在中-英翻譯上取得了較好的效果。Bugliarello 等[6]提出了父母規(guī)模自注意力(Parent-scaled self-attention,Pascal)機(jī)制和一種將語(yǔ)法知識(shí)融入Transformer 模型的方法,將依存信息中子詞到父詞的信息融合到多頭注意力機(jī)制中,該方法是一種新穎的、無(wú)需參數(shù)的、具有依賴性的自注意力機(jī)制,可提高翻譯質(zhì)量。

        以上基于Transformer 模型的句法信息融合方法大多只融合子詞到父詞方向的信息,并未融合父詞到子詞方向的信息。本文提出了融合雙向信息的方法,通過(guò)更全面的結(jié)構(gòu)信息融合提升神經(jīng)機(jī)器翻譯的性能。

        2 融合雙向依存知識(shí)的神經(jīng)機(jī)器翻譯

        本文模型基于Transformer 框架,利用雙向依存自注意力機(jī)制對(duì)Transformer 編碼器的多頭注意力機(jī)制進(jìn)行改進(jìn)。雙向依存自注意力機(jī)制的輸入由源語(yǔ)言句子的嵌入矩陣、源語(yǔ)言父詞位置向量P∈RL和源語(yǔ)言子詞權(quán)重矩陣C∈RL×L構(gòu)成,輸出為雙向依存自注意力機(jī)制的最終表示Mh。圖1 展示了雙向依存自注意力機(jī)制的結(jié)構(gòu)。

        2.1 雙向依存信息

        對(duì)于源語(yǔ)言中的父詞信息,本模型利用外部解析工具得到父詞位置序列,對(duì)于子詞,本模型無(wú)需提供額外的依存解析工具,僅使用父詞位置向量即可構(gòu)建子詞權(quán)重矩陣。對(duì)于根詞,本文將其父詞和子詞定義為根詞本身。

        本文首先利用外部依存解析工具得到依存解析中的父詞位置標(biāo)記序列,從而得到句子序列中的父詞位置向量P∈RL,根據(jù)圖1 中的句子依存關(guān)系圖可知句子中詞與詞間關(guān)系,箭頭指向的詞為子詞,箭尾指向的詞為父詞,由此可知每個(gè)子詞所屬的父詞在句子中的位置,從而得到父詞位置向量P∈RL。如圖1 中的句子,“兩者”的父詞為“出現(xiàn)”,“出現(xiàn)”在句子中的第3 個(gè)位置,因此父詞位置向量中第1 個(gè)位置為3。以此類推,可得到圖中的父詞位置向量P∈RL。

        根據(jù)父詞位置向量P∈RL可得到源語(yǔ)言句子中的子詞權(quán)重矩陣C∈RL×L。式(1)給出了子詞權(quán)重矩陣C的定義,假設(shè)xi是可能的父詞,則當(dāng)xj是xi的子詞時(shí),元素Cij為1;否則為0。對(duì)于每個(gè)句子,使句子中的每個(gè)詞與其本身對(duì)應(yīng)。由于每個(gè)句子中的父詞可能存在多個(gè)子詞,因此本文將這些子詞進(jìn)行權(quán)重平均。對(duì)于根詞,將其子詞作為它本身并記錄權(quán)重。通過(guò)這種方式,每個(gè)單詞都會(huì)被告知其修飾語(yǔ)。

        其中:ni是xi的子詞個(gè)數(shù)。同樣根據(jù)圖1 中的依存關(guān)系圖可知,每個(gè)父詞擁有幾個(gè)子詞,例如,句子中的“出現(xiàn)”擁有包括其本身在內(nèi)的4 個(gè)子詞,在子詞權(quán)重平均后,子詞權(quán)重矩陣第3 行中的每個(gè)子詞所在的位置均為1/4,其余沒(méi)有子詞的詞語(yǔ)所在的行均為0,即可得到圖1中的子詞權(quán)重矩陣C∈RL×L。

        圖1 雙向依存自注意力機(jī)制的結(jié)構(gòu)Fig.1 Structure of bidirectional-dependency self-attention mechanism

        2.2 雙向依存自注意力機(jī)制

        在圖1 中,對(duì)于長(zhǎng)度為L(zhǎng)的源語(yǔ)言句子序列,雙向依存自注意力機(jī)制中每個(gè)頭的輸入分別是嵌入矩陣、源語(yǔ)言句子的父詞位置向量P∈RL和源語(yǔ)言句子的子詞權(quán)重矩陣C∈RL×L。根據(jù)Vaswani 等[18]的研究,在每一個(gè)注意力機(jī)制的頭中,為每個(gè)標(biāo)記進(jìn)行計(jì)算可得到3 個(gè)向量,分別是查 詢、鍵和值,從而得 到3 個(gè)矩陣Kh∈RL×d、Qh∈RL×d和Vh∈RL×d,其中d=dmodel/H,H為注意力機(jī)制中頭的數(shù)量。之后計(jì)算每個(gè)查詢、鍵和值,給出在給定位置編碼時(shí),要在輸入的其他位置上設(shè)定的焦點(diǎn)分?jǐn)?shù),再將分?jǐn)?shù)除以可以緩解點(diǎn)積較大時(shí)出現(xiàn)的梯度消失問(wèn)題,如式(2)所示:

        其中:T 表示矩陣的轉(zhuǎn)置。根據(jù)每個(gè)標(biāo)記與位置t的依存父詞位置pt之間的距離,得到在位置t處的標(biāo)記得分st:

        其中:是父詞融合矩陣Nh∈RL×L的第t行,代表與第t個(gè)父詞接近度的歸一化分?jǐn)?shù);是父詞距離矩陣DP∈RL×L的第(t,j)個(gè)位置,其中dtj包含每個(gè)標(biāo)記j與依存知識(shí)中每個(gè)父詞位置間的距離關(guān)系,此距離計(jì)算定義為以pt為中心且方差為σ2、正態(tài)分布為N(pt,σ2)的概率密度值:

        根據(jù)分?jǐn)?shù)矩陣Sh∈RL×L和父詞距離矩陣Dp∈RL×L可得到父詞融合矩陣Nh∈RL×L:

        利用解析完成的父詞信息,構(gòu)建子詞權(quán)重矩陣C∈RL×L,此權(quán)重矩陣根據(jù)輸入序列中每個(gè)詞擁有子詞的數(shù)量構(gòu)建,式(1)給出了子詞權(quán)重矩陣C的定義。

        由圖1 可知,子詞權(quán)重矩陣C∈RL×L中存在過(guò)多的零元素,本文利用加入高斯噪聲的方式處理這些零元素。為子詞權(quán)重矩陣C∈RL×L中的元素添加高斯噪聲,此高斯噪聲是以ct為中心且方差為σ2、正態(tài)分布為N(ct,σ2)的概率密度的公式,(t,j)表示子詞權(quán)重矩陣中的每個(gè)元素,利用這種方式可得到子詞高斯權(quán)重矩陣Cg∈RL×L:

        得到子詞高斯權(quán)重矩陣Cg∈RL×L后,為提高模型的收斂速度,利用Softmax 函數(shù)對(duì)矩陣進(jìn)行歸一化處理,得到子詞依存矩陣Cs∈RL×L:

        根據(jù)父 詞融合矩陣Nh∈RL×L和子詞 依存矩 陣Cs∈RL×L,可得到子詞融合矩陣Zh∈RL×L:

        最后,應(yīng)用Softmax 函數(shù)為句子中的每個(gè)標(biāo)記生成權(quán)重分配,再將得到的子詞融合矩陣Zh∈RL×L與值矩陣Vh∈RL×d相乘,獲得雙向依存自注意力機(jī)制頭的最終表示Mh。

        由于本文模型將依存標(biāo)記融合到了翻譯模型中,因此在計(jì)算損失L時(shí),使用交叉熵?fù)p失函數(shù),如式(10)所示:

        其中:li表示第i個(gè)父詞的標(biāo)記,正類為1,負(fù)類為0;pi表示第i個(gè)樣本為正的概率。

        本文同時(shí)利用子詞到父詞和父詞到子詞方向的信息且無(wú)需配置其他額外的訓(xùn)練參數(shù)。Dp∈RL×L的距離僅取決于父詞的位置向量,子詞權(quán)重矩陣Cs∈RL×L只取決于每個(gè)詞在句子中擁有的子詞數(shù)量。本文模型在構(gòu)建子詞權(quán)重矩陣時(shí),無(wú)需使用外部解析器,可以在訓(xùn)練模型前節(jié)省大量對(duì)源語(yǔ)言進(jìn)行解析的時(shí)間。雙向依存自注意力機(jī)制模型是Bugliarello 等[6]的父母規(guī)模自注意力機(jī)制的擴(kuò)展,本文加入了父詞到子詞方向的依存信息,增強(qiáng)神經(jīng)機(jī)器翻譯中子詞對(duì)機(jī)器翻譯的影響。

        2.3 多頭注意力機(jī)制

        雙向依存自注意力機(jī)制是對(duì)多頭注意力機(jī)制中點(diǎn)積注意力機(jī)制的擴(kuò)展,圖2 展示了雙向依存自注意力機(jī)制在多頭注意力機(jī)制中的融合方法。本文在多頭注意力機(jī)制中的融合方法進(jìn)行了設(shè)計(jì)上的選擇,實(shí)驗(yàn)結(jié)果將在3.5.2 節(jié)介紹。本文的雙向依存自注意力機(jī)制僅在多頭注意力機(jī)制的第1層的8 個(gè)頭中進(jìn)行融合,如圖2 所示,編碼器的整體結(jié)構(gòu)并未更改,輸入句子x進(jìn)行詞嵌入和位置編碼后輸入到多頭注意力機(jī)制中,在多頭注意力機(jī)制中,經(jīng)過(guò)線性化的查詢Q、鍵K、值V,父詞位置向量P∈RL和子詞權(quán)重矩陣C∈RL×L作為輸入,輸入到雙向依存自注意力機(jī)制中,得到每個(gè)頭的最終表示Mh。其余處理過(guò)程與基本的Transformer 模型相同,未對(duì)編碼器其他位置進(jìn)行改變。雙向依存自注意力機(jī)制融合到了多頭注意力機(jī)制的8 個(gè)頭中,且只在第1 層融合雙向依存自注意力機(jī)制取得最好的效果,這在本文隨后的實(shí)驗(yàn)中得以驗(yàn)證,證明了雙向依存自注意力機(jī)制的有效性。

        圖2 多頭注意力機(jī)制Fig.2 Multi-head attention mechanism

        2.4 雙向依存信息忽略

        根據(jù)Bugliarello 等[6]的方法,由于缺乏與標(biāo)準(zhǔn)解析工具平行的語(yǔ)料庫(kù),因此本模型的父詞依存知識(shí)依賴于外部依存解析工具的結(jié)果;但根據(jù)Dredze 等[19]的研究,對(duì)域外數(shù)據(jù)進(jìn)行評(píng)估時(shí),依存解析工具的性能會(huì)下降。為防止本文模型過(guò)度擬合到嘈雜的依賴性,本文為雙向依存自注意力機(jī)制引入了兩種正則化的技術(shù),分別是父詞信息忽略和子詞信息忽略的方法。這種方法與Srivastava 等[20]的dropout 方法類似,會(huì)在模型訓(xùn)練階段忽略一定的父詞和子詞信息。通過(guò)以一定的概率q,將父詞 距離矩 陣DP∈RL×L和子詞 依存矩 陣Cs∈RL×L中的每一行隨機(jī)設(shè)置為1 ∈RL來(lái)忽略父詞的位置信息和子詞的依存信息。這兩種正則化技術(shù)的引入可以生成不同父詞距離矩陣和子詞依存矩陣,使模型學(xué)習(xí)不同的矩陣形式,最終通過(guò)取平均的策略,防止過(guò)擬合的問(wèn)題。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        為驗(yàn)證本文提出的基于雙向依存自注意力機(jī)制的神經(jīng)機(jī)器翻譯融合方法,本文分別在漢-泰、漢-英,英-德上進(jìn)行了雙向翻譯實(shí)驗(yàn),并壓縮了漢-泰和漢-英的訓(xùn)練數(shù)據(jù)進(jìn)行了雙向翻譯實(shí)驗(yàn),其中:漢-泰語(yǔ)料是通過(guò)互聯(lián)網(wǎng)爬取的106萬(wàn)的平行語(yǔ)料,分成訓(xùn)練集、驗(yàn)證集和測(cè)試集;漢-英語(yǔ)料為CWMT 語(yǔ)料庫(kù),該語(yǔ)料庫(kù)由801 萬(wàn)個(gè)句子對(duì)組成,作為訓(xùn)練集,使用newsdev2017 作為驗(yàn)證集,使用newstest2017 作為測(cè)試集;英-德語(yǔ)料為IWSLT14 的英德語(yǔ)料庫(kù),該語(yǔ)料庫(kù)由17.4 萬(wàn)個(gè)句子對(duì)組成,作為訓(xùn)練集和驗(yàn)證集,使用newstest2015 作為測(cè)試集。壓縮后的漢-泰和漢-英訓(xùn)練數(shù)據(jù)為20 萬(wàn)的平行語(yǔ)料,用漢-泰小和漢-英小表示,如表1 所示。

        表1 數(shù)據(jù)集詳情T(mén)ab.1 Details of datasets

        3.2 數(shù)據(jù)預(yù)處理

        本文模型采用和Vaswani 等[18]相同的預(yù)處理步驟,使用Koehn 等[21]提出的Moses 模型對(duì)數(shù)據(jù)進(jìn)行標(biāo)記,并從源語(yǔ)言端和目標(biāo)語(yǔ)言端刪除了超過(guò)80 個(gè)標(biāo)記的句子,步驟如下:

        1)數(shù)據(jù)篩選。首先刪除超過(guò)80 個(gè)標(biāo)記的句子,之后刪除存在亂碼的數(shù)據(jù),最后通過(guò)人工篩選刪除存在錯(cuò)誤的句子。

        2)分詞。對(duì)于漢語(yǔ)本文使用jieba 分詞,對(duì)于泰語(yǔ)使用JointCut 進(jìn)行分詞,對(duì)于英語(yǔ)和德語(yǔ),本文不將其分為字符級(jí)。

        3)依存句法解析。漢語(yǔ)使用LTP 語(yǔ)言云平臺(tái)進(jìn)行分詞和依存解析,泰語(yǔ)利用spaCy-Thai 進(jìn)行分詞和依存解析,英語(yǔ)和德語(yǔ)使用Stanford CoreNLP 進(jìn)行依存解析。為保證分詞結(jié)果與依存解析的結(jié)果可以一一對(duì)應(yīng),本文在進(jìn)行依存解析前,不對(duì)源語(yǔ)言句子進(jìn)行分詞,直接利用依存解析工具的分詞結(jié)果來(lái)保證模型的輸入不會(huì)發(fā)生錯(cuò)誤。

        4)字節(jié)對(duì)編碼(Byte Pair Encoding,BPE)。本文采用BPE 大小均為1.6 萬(wàn)的詞表。

        3.3 模型參數(shù)設(shè)置

        本文模型是基于Transformer 模型的擴(kuò)展,使用Fairseq 工具包中的PyTorch0.4.1 實(shí)現(xiàn)本文的模型。根據(jù)Papineni等[22]提出的通過(guò)小格網(wǎng)絡(luò)搜索的方法,利用BLEU 值作為本文的評(píng)價(jià)指標(biāo)。本文選擇Transformer 和Pascal 作為對(duì)比實(shí)驗(yàn)的基準(zhǔn)模型,實(shí)驗(yàn)分別基于Transformer 架構(gòu)。所有實(shí)驗(yàn)均在單個(gè)NVIDIA RTX 2070 SUPER GPU 上進(jìn)行。本文使用Vaswani 等[18]最新的Tensor2Tensor 中的超 參數(shù)設(shè) 置,按 照Vaswani 等[18]的學(xué)習(xí)時(shí)間表進(jìn)行了4 000 個(gè)warm-up 優(yōu)化。類似于Szegedy 等[23]的研究,在訓(xùn)練過(guò)程中使用的標(biāo)簽平滑率為0.1。在驗(yàn)證時(shí)使用和Wu 等[24]類似的波束大小為4 且長(zhǎng)度罰分為0.6 的波束搜索。本文采用的學(xué)習(xí)率為0.000 7,批次大小max-tokens 為4 096,dropout 為0.3。在壓縮數(shù)據(jù)的實(shí)驗(yàn)中,本文采用了8 000 個(gè)warm-up 優(yōu)化。

        3.4 實(shí)驗(yàn)結(jié)果

        本文分別在漢泰數(shù)據(jù)集、CWMT 漢英數(shù)據(jù)集、IWSLT14英德數(shù)據(jù)集和壓縮后的漢泰、漢英數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2 所示。

        表2 不同模型雙向翻譯的BLEU結(jié)果Tab.2 BLEU results of bidirectional translation among different models

        由表2 可見(jiàn),Bi-Dependency 在漢-泰雙向翻譯中,BLEU相較于Transformer 的翻譯結(jié)果提升了1.07 和0.86;在漢-英翻譯任務(wù)上,Bi-Dependency 的BLEU 也顯著提升了0.79 和0.68;在英-德上,Bi-Dependency 的翻譯結(jié)果與Transformer相比雖有提升但不顯著。在壓縮數(shù)據(jù)集后,Bi-Dependency在漢-泰雙向翻譯中,BLEU 與Transformer 模型相比分別有0.51 和1.06 的提升。在漢-英翻譯任務(wù)中,BLEU 分別提升了1.04 和0.40。從表2 可進(jìn)一步分析出,漢-泰的翻譯整體效果較差,這可能是由于在泰語(yǔ)和漢語(yǔ)進(jìn)行分詞時(shí),漢語(yǔ)和泰語(yǔ)的詞無(wú)法較好地對(duì)應(yīng),使得模型在學(xué)習(xí)時(shí)存在較大的偏差;而英-德上,Bi-Dependency 的翻譯結(jié)果提升并不明顯,這可能由于目前的Transformer 模型在英德上的翻譯比較成熟,Transformer 模型可以較好地學(xué)習(xí)到英語(yǔ)和德語(yǔ)的句法結(jié)構(gòu),從而使得融合雙向依存知識(shí)的方式翻譯效果不顯著。本文通過(guò)融合雙向依存知識(shí),在富資源和低資源情況下的翻譯質(zhì)量均有一定的提升,說(shuō)明本文提出的雙向依存自注意力機(jī)制是有效的。

        3.5 實(shí)驗(yàn)分析

        為驗(yàn)證本文提出的基于雙向依存自注意力機(jī)制的漢泰神經(jīng)機(jī)器翻譯方法的合理性,分別設(shè)計(jì)了雙向依存信息、多頭注意力機(jī)制不同的層中融合雙向依存信息和高斯權(quán)重函數(shù)對(duì)模型翻譯效果的影響實(shí)驗(yàn)。

        3.5.1 雙向依存信息對(duì)翻譯結(jié)果的影響分析

        為驗(yàn)證融合源語(yǔ)言雙向依存信息的作用,本文在漢-英數(shù)據(jù)集上進(jìn)行了融合雙向依存信息的有效性實(shí)驗(yàn)。定義“Transformer+CWord(Child Word)”表示只融合依存知識(shí)中父詞到子詞方向的信息;定義“Pascal”表示只融合依存知識(shí)中子詞到父詞方向的信息;定義“Bi-Dependency”表示本文模型框架,實(shí)驗(yàn)結(jié)果如表3 所示。

        表3 融合單/雙向依存信息的BLEU值對(duì)比Tab.3 BLEU values comparison of fusing with unidirectional-/bidirectional-dependency information

        由表3 的實(shí)驗(yàn)結(jié)果可以看出,Bi-Dependency 取得了最好的結(jié)果:在漢-英的翻譯任務(wù)上,與Transformer+CWord 模型相比,BLEU 分別提升了0.44 和0.81,與Pascal 模型相比,BLEU 分別提升了0.41 和0.29。在壓縮數(shù)據(jù)集上,Bi-Dependency 的BLEU 值同樣有較大的提升。根據(jù)以上的結(jié)果可以看出,在源語(yǔ)言端融合依存知識(shí)與基本的Transformer模型相比均有顯著的提升,說(shuō)明在源語(yǔ)言端融合依存句法知識(shí)對(duì)翻譯任務(wù)是有幫助的。Transformer+CWord 和Pascal 的BLEU 值差距很小,說(shuō)明在源語(yǔ)言端融合依存知識(shí)中的父詞或子詞的翻譯效果無(wú)明顯差距。這可能是由于在機(jī)器翻譯任務(wù)中,融合子詞到父詞的單向信息和父詞到子詞的單向信息屬于相同類型的融合方式;因此,在源語(yǔ)言端,只融合子詞到父詞信息與只融合父詞到子詞信息的效果大致相同。本文提出的Bi-Dependency 翻譯模型在漢-英的雙向翻譯任務(wù)上取得了最高BLEU 值,獲得了最好的翻譯效果,說(shuō)明在源語(yǔ)言端融合雙向依存知識(shí)對(duì)神經(jīng)機(jī)器翻譯任務(wù)具有較大的幫助。

        3.5.2 多頭注意力機(jī)制不同的層中融合雙向依存信息對(duì)翻譯結(jié)果的影響分析

        根據(jù)Bugliarello 等[6]的研究,本文也在漢-英數(shù)據(jù)集上,在多頭注意力機(jī)制不同的層上進(jìn)行了雙向依存自注意力機(jī)制層實(shí)驗(yàn),以驗(yàn)證在第幾層融合雙向依存知識(shí)是更加有效的,實(shí)驗(yàn)結(jié)果如表4 所示。

        表4 不同注意力層中融合雙向依存信息的BLEU值對(duì)比Tab.4 BLEU values comparison of fusing bidirectional-dependency information in different attention layers

        表4 展示了雙向依存自注意力機(jī)制在多頭注意力機(jī)制不同層上的實(shí)驗(yàn)結(jié)果。通過(guò)表4 可知,Bi-Denpendency 模型在多頭注意力機(jī)制的第一層融合雙向依存句法知識(shí)取得了最好的效果。與最低的結(jié)果相比,在漢-英的翻譯任務(wù)上,分別提升了0.65 和1.01 個(gè)BLEU 值。壓縮數(shù)據(jù)后,分別提升了1.48 和0.40 個(gè)BLEU 值。當(dāng)Bi-Dependency 放置在較 低層時(shí),模型在測(cè)試集上的性能會(huì)明顯降低。這樣的結(jié)果證實(shí)了Raganato 等[25]的發(fā)現(xiàn):在第一層中更多的注意力僅集中在需要翻譯的單詞本身上,而不是其上下文。由此可以推斷出,在第一層融合句法相關(guān)性可以有效地學(xué)習(xí)單詞表示,從而進(jìn)一步提高Transformer 模型的翻譯準(zhǔn)確性。

        3.5.3 高斯權(quán)重矩陣對(duì)翻譯結(jié)果的影響分析

        為了驗(yàn)證在子詞權(quán)重矩陣中添加高斯噪聲的作用,本文在漢-英數(shù)據(jù)集上進(jìn)行了高斯權(quán)重矩陣實(shí)驗(yàn),定義“Bi-Dependency-GWF(Gaussian Weight Function)”表示子詞權(quán)重矩陣中不添加高斯權(quán)重函數(shù),實(shí)驗(yàn)結(jié)果如表5 所示。

        表5 添加高斯噪聲前后的BLEU值對(duì)比Tab.5 Comparison of BLEU values before and after adding Gaussian noise

        根據(jù)表5 可知,Bi-Dependency 取得了最好的效果。在漢-英的翻譯任務(wù)上,與Bi-Dependency-GWF 相比,分別提高了1.26 和0.87 個(gè)BLEU 值。在壓縮數(shù)據(jù)集上,分別提高了2.01 和1.37 個(gè)BLEU 值。而B(niǎo)i-Dependency-GWF 模型與 基本的Transformer 模型相比同樣存在較大的差距,分別下降了0.47 和0.19 個(gè)BLEU 值,壓縮數(shù)據(jù)集后同樣出現(xiàn)了明顯的下降。因此在雙向依存自注意力機(jī)制中不添加高斯噪聲的翻譯結(jié)果有明顯的下降,結(jié)果低于Bi-Dependency 和Transformer模型。由此可以證明高斯噪聲的添加是必要且有效的。不添加高斯噪聲時(shí),翻譯結(jié)果出現(xiàn)下降,本文認(rèn)為這可能是由于子詞權(quán)重矩陣中過(guò)多的0 元素在與父詞融合矩陣Nh∈RL×L進(jìn)行點(diǎn)乘時(shí),使得生成的子詞融合矩陣Zh∈RL×L中出現(xiàn)了過(guò)多的0 元素,從而對(duì)原本的父詞融合矩陣產(chǎn)生了大量的噪聲,使得翻譯效果出現(xiàn)了明顯的下降。

        4 結(jié)語(yǔ)

        本文針對(duì)神經(jīng)機(jī)器翻譯任務(wù),提出了雙向依存自注意力機(jī)制(Bi-Dependency)。實(shí)驗(yàn)結(jié)果表明,通過(guò)在多頭注意力機(jī)制中融合雙向依存知識(shí)的方式,對(duì)神經(jīng)機(jī)器翻譯任務(wù)的質(zhì)量有一定的提升;通過(guò)對(duì)比實(shí)驗(yàn)證明,利用雙向依存知識(shí)可以給翻譯模型提供更豐富的依存信息,同時(shí)這種方式對(duì)低資源翻譯任務(wù)同樣是有效的。通過(guò)實(shí)驗(yàn)結(jié)果也可看出,目前漢泰神經(jīng)機(jī)器翻譯的總體效果較差,這可能是由于泰語(yǔ)分詞效果較差和實(shí)驗(yàn)設(shè)備限制導(dǎo)致的,因此,如何更好地針對(duì)漢語(yǔ)和泰語(yǔ)的特性將會(huì)是未來(lái)的研究重點(diǎn)。

        猜你喜歡
        源語(yǔ)言雙向注意力
        雙向度的成長(zhǎng)與自我實(shí)現(xiàn)
        出版人(2022年11期)2022-11-15 04:30:18
        讓注意力“飛”回來(lái)
        林巍《知識(shí)與智慧》英譯分析
        淺析日語(yǔ)口譯譯員素質(zhì)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        一種軟開(kāi)關(guān)的交錯(cuò)并聯(lián)Buck/Boost雙向DC/DC變換器
        以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        一種工作頻率可變的雙向DC-DC變換器
        国产av一区二区亚洲精品| 亚洲av成人在线网站| 毛片av在线尤物一区二区| 小池里奈第一部av在线观看 | 狼狼综合久久久久综合网| 日日碰狠狠添天天爽超碰97| 亚洲ⅤA中文字幕无码| 国产一级黄色录像| 色婷婷一区二区三区四| 日本久久伊人特级黄色| 精品人妻少妇嫩草av无码专区| 69久久夜色精品国产69| 91精品日本久久久久久牛牛| 美腿丝袜视频在线观看| 亚洲高清国产一区二区| 日韩人妻无码精品久久久不卡| 日韩在线免费| 国产一起色一起爱| 国产在线视频网友自拍| 成人做爰69片免费看网站野花| 巨熟乳波霸若妻在线播放| 激情人妻网址| 国语对白免费观看123 | 一本大道道久久综合av| 女人被狂躁到高潮视频免费网站| 亚洲精品中国国产嫩草影院美女 | 好吊妞人成免费视频观看| 久久天堂精品一区专区av| 欧美群妇大交群| 精品国精品无码自拍自在线| 91精品欧美综合在线观看| 国产一区二区三区青青草| а天堂中文最新一区二区三区| 欧美丰满熟妇aaaaa片| 亚洲a人片在线观看网址| 国产在线av一区二区| 无码aⅴ免费中文字幕久久| 拍摄av现场失控高潮数次| 亚洲AV无码成人品爱| 亚洲精品中文字幕熟女| 国产欧美va欧美va香蕉在|