亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        帶標(biāo)記音節(jié)的雙向維漢神經(jīng)機器翻譯方法

        2021-02-22 12:00:12艾山吾買爾斯拉吉艾合麥提如則麥麥提西熱艾力海熱拉劉文其吐爾根依布拉音汪烈軍瓦依提阿不力孜
        計算機工程與應(yīng)用 2021年4期
        關(guān)鍵詞:單詞實驗方法

        艾山·吾買爾,斯拉吉艾合麥提·如則麥麥提,西熱艾力·海熱拉,劉文其,吐爾根·依布拉音,汪烈軍,瓦依提·阿不力孜

        1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046

        2.新疆大學(xué) 新疆多語種信息技術(shù)實驗室,烏魯木齊 830046

        3.新疆大學(xué) 軟件學(xué)院,烏魯木齊 830091

        機器翻譯(Machine Translation,MT)是自然語言處理與人工智能的重要分支之一,是指使用機器自動地將一種自然語言序列X={x1,x2,…,xn}轉(zhuǎn)化為具有相同語義的另一種自然語言序列Y={y1,y2,…,yn} 的過程。機器翻譯可以分為基于規(guī)則的機器翻譯、基于實例的機器翻譯、基于統(tǒng)計的機器翻譯和基于神經(jīng)網(wǎng)絡(luò)的機器翻譯。

        基于神經(jīng)網(wǎng)絡(luò)的機器翻譯(Neural Machine Translation,NMT)[1-2]方法提出以來,不斷地在多種語言的翻譯任務(wù)中表現(xiàn)出優(yōu)異的性能,逐漸成為目前主流的機器翻譯方法。2014 年Sutskever等[1]首次提出神經(jīng)網(wǎng)絡(luò)機器翻譯模型Seq2seq,使用端到端的編碼-解碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。針對長文本翻譯質(zhì)量不佳的問題,Bahdanau等[2]在編碼-解碼模型中引入注意力機制。2017年Facebook提出基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的翻譯模型[3],使得機器翻譯的性能大幅提升。同年,Google提出一種僅使用注意力機制的簡單網(wǎng)絡(luò)架構(gòu)Transformer[4],丟棄了復(fù)雜的循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該模型不僅縮短了訓(xùn)練時間,還提高了機器翻譯的準(zhǔn)確度。自此,Transformer成為目前使用最廣泛的機器翻譯模型。

        無論是統(tǒng)計機器翻譯還是神經(jīng)網(wǎng)絡(luò)機器翻譯,都依賴大規(guī)模的雙語平行語料。雖然Transformer模型在資源豐富的語言上明顯提升了翻譯質(zhì)量,但在維吾爾語等一系列小語種翻譯任務(wù)中,存在平行語料不足的問題,難以滿足Transformer 模型的訓(xùn)練需求。目前,由于維-漢平行語料較少,資源欠缺,已有的數(shù)據(jù)中部分?jǐn)?shù)據(jù)的質(zhì)量不高,因此在維吾爾語與漢語之間存在嚴(yán)重的資源不對稱和不均衡問題。其次,維吾爾語是一種典型的黏著語,形態(tài)復(fù)雜,單詞由詞干和詞綴組成,同一個詞干與不同的詞綴構(gòu)成不同的新單詞[5]。因此,維吾爾語的詞匯量特別豐富,低頻詞較多,導(dǎo)致在訓(xùn)練過程中存在嚴(yán)重的數(shù)據(jù)稀疏問題和OOV(Out of Vocabulary)問題。

        目前在機器翻譯領(lǐng)域,對低資源NMT 的研究成為一個研究熱點。針對資源匱乏問題,學(xué)者們提出了基于中間語言的方法和基于遷移學(xué)習(xí)的方法[6-7],展開了對無監(jiān)督[8-9]、半監(jiān)督[10]等機器翻譯方法的研究。但是這些方法只在相似性較高的語言上取得了較好的效果,當(dāng)語言之間相似性越低,翻譯質(zhì)量提升越不明顯。針對數(shù)據(jù)稀疏與OOV問題,Luong等[11]提出先標(biāo)記再利用詞典對譯文進行替換的方法。Sennrich等[12]采用字節(jié)對碼化(Byte Pair Encoding,BPE)算法提取子詞(sub-word)單元,完成對罕見詞的拆分,模型編碼和解碼工作均在拆分后的子詞上進行,該方法取得了很好的效果。Luong等[13]提出詞語與字母混合模型。Costa-Jussà 等[14]提出一種字符級別的神經(jīng)機器翻譯方法。Li 等[15]提出“替換-翻譯-恢復(fù)”的方法,并在漢-英翻譯任務(wù)中得到了較好的效果。

        從目前的維漢機器翻譯狀況來看,維漢機器翻譯研究慢慢地從統(tǒng)計機器翻譯方法完全轉(zhuǎn)移到神經(jīng)機器翻譯方法上。哈里旦木等[16]對比了基于短語的統(tǒng)計機器翻譯模型與6 種神經(jīng)機器翻譯模型在小規(guī)模平行語料上的表現(xiàn)。帕麗旦等[17]在統(tǒng)計機器翻譯的基礎(chǔ)上集成了RNN(Recurrent Neural Network)編碼器-解碼器,創(chuàng)建了新聯(lián)合模型(PSMT+RNN)。張勝剛等[18]提出基于深層神經(jīng)網(wǎng)絡(luò)的字節(jié)對編碼及單詞的維漢機器翻譯模型,使用LAU(Linear Associate Unit)代替GRU(Gated Recurrent Unit)網(wǎng)絡(luò),在一定程度上緩解了訓(xùn)練和優(yōu)化模型難的問題。張金超等[19]提出多編碼器-多解碼器的大規(guī)模神經(jīng)機器翻譯模型,在翻譯效果上超過基于短語的統(tǒng)計機器翻譯模型和基本的NMT 翻譯模型。朱順樂[20]提出一種融合特征的漢維翻譯策略,把多個特征通過一個對數(shù)線性模型組合,得到2 個BLEU 的提升。楊鄭鑫等[21]提出一種利用偽語料對神經(jīng)機器翻譯模型進行增量訓(xùn)練的方法,有效提升神經(jīng)機器翻譯在維漢翻譯任務(wù)上的質(zhì)量。張新路等[22]通過集成策略和基于交叉熵的重排序方法將具有相反解碼方向的翻譯模型整合,在CWMT2015維漢平行語料上提高了4.36個BLEU值。

        音節(jié)是人類聽覺能夠自然感受到的最小語音片段,在維吾爾語中,單詞由具有一定語義信息的音節(jié)構(gòu)成。為了研究音節(jié)對維漢機器翻譯的影響,進一步提升維漢機器翻譯的質(zhì)量,本文從維吾爾語的音節(jié)特點考慮,把維吾爾語單詞切分成音節(jié),將漢語以單個字符劃分,以更小粒度作為翻譯單位。同時為了彌補音節(jié)產(chǎn)生的歧義問題,融入BME(Begin,Middle,End)標(biāo)記思想,提出一種基于帶標(biāo)記音節(jié)的神經(jīng)機器翻譯方法。實驗部分,用本文提出的方法與使用單詞粒度和BPE 粒度的翻譯方法在不同模型與不同規(guī)模的數(shù)據(jù)上分別進行了對比實驗。實驗結(jié)果表明,本文方法簡單有效,較好地緩解了維-漢與漢-維機器翻譯中的數(shù)據(jù)稀疏問題,并在翻譯效果上超過基于單詞粒度與BPE 粒度的神經(jīng)機器翻譯系統(tǒng)。

        1 神經(jīng)網(wǎng)絡(luò)機器翻譯

        1.1 神經(jīng)機器翻譯模型

        神經(jīng)機器翻譯模型由編碼器-解碼器組成,編碼器把輸入的源語言序列壓縮到一個固定長度的上下文向量中[1],也被稱作句子向量或內(nèi)容向量。上下文向量被當(dāng)作是輸入序列的語義概要。

        其中,C是被壓縮的上下文向量,編碼器Encoder可以是RNN或CNN等網(wǎng)絡(luò)結(jié)構(gòu)。

        解碼器的作用是根據(jù)編碼器生成的上下文向量,生成目標(biāo)語言句子的符號化表示。早期的研究僅使用解碼器網(wǎng)絡(luò)的最后一個狀態(tài)作為下次解碼的初始狀態(tài)。

        其中,C是編碼器端傳遞的上下文向量,解碼器Decoder同樣可以是RNN 或CNN 網(wǎng)絡(luò)結(jié)構(gòu),yt是Decoder第t時刻的輸出,它依賴于Decoder之前的輸出,最大化P(y)是模型最終目標(biāo)。

        早期的神經(jīng)網(wǎng)絡(luò)機器翻譯模型在翻譯比較短的句子時效果尚好,但在翻譯長文本時質(zhì)量嚴(yán)重下降[2]。這是因為固定長度的上下文向量無法記憶長句子的所有信息,當(dāng)編碼器處理輸入序列,就會逐漸遺忘開始的部分。針對上述問題,Bahdanau等人[2]提出了注意力機制,改進了編碼-解碼模型在翻譯長句時質(zhì)量不高的缺陷。

        假設(shè)當(dāng)前解碼器要輸出的是Yt,且已知解碼器上一時刻的隱藏層輸出St-1。首先通過一個Fatt函數(shù)將St-1與編碼器各時刻的隱藏層輸出hi做相似度計算,得到源語言和目標(biāo)語言之間的匹配度eti,計算公式如式(4)所示:

        其次把計算結(jié)果通過一個SoftMax 函數(shù)來轉(zhuǎn)化為概率,得到權(quán)重α,計算公式如式(5)所示:

        最后對輸入與α加權(quán)求和,計算出輸入序列的表達Ct,并作為解碼器當(dāng)前的部分輸入,從而生成Yt,計算公式如式(6)和(7)所示:

        注意力網(wǎng)絡(luò)通過將源語言句子的隱含狀態(tài)與目標(biāo)語言的隱含狀態(tài)直接鏈接,縮短了源語言單詞的信息傳遞到對應(yīng)目標(biāo)語言單詞的路徑,顯著提高了模型的翻譯質(zhì)量。

        1.2 完全注意力網(wǎng)絡(luò)的神經(jīng)機器翻譯

        完全注意力網(wǎng)絡(luò)的神經(jīng)機器翻譯模型Transformer[4]也是由編碼器和解碼器組成。編碼器由一個多頭注意力網(wǎng)絡(luò)和一個簡單的全連接前饋神經(jīng)網(wǎng)絡(luò)組成,在這兩個網(wǎng)絡(luò)中間添加了一個殘差連接,并進行層標(biāo)準(zhǔn)化操作。解碼器是由兩個多頭注意力網(wǎng)絡(luò)和一個全連接前饋網(wǎng)絡(luò)組成,同樣也用了殘差連接以及層標(biāo)準(zhǔn)化操作。

        縮放點積的注意力:Query-key 通過相似度計算得到權(quán)重,除以是為了減少計算量,然后用SoftMax函數(shù)對權(quán)重歸一化,最后乘以V,作為注意力向量。計算數(shù)學(xué)公式如式(8):

        多頭注意力機制:給定(Q,K,V),首先使用不同的線性映射分別將Q、K和V映射到不同的空間,然后使用不同的注意力網(wǎng)絡(luò)計算得到不同空間的上下文向量,并將這些上下文向量拼接得到最后的輸出。計算公式如式(9)和(10):

        位置編碼:Transformer 使用了位置編碼的方法,將編碼后的向量與詞嵌入進行求和,加入了相對位置信息。計算公式如式(11)和(12):

        其中,pos指詞語在序列中的位置,pos在偶數(shù)位置時使用正弦編碼,在奇數(shù)位置時使用余弦編碼;dmodel是模型的維度。

        在Transformer模型中最重要的部分是Self-Attention和Multi-Head Attention 架構(gòu)。Transformer 模型在摒棄傳統(tǒng)CNN 和RNN 的情況下,表現(xiàn)出更好的性能,可并行化的機制減少大量訓(xùn)練時間,同時提升翻譯質(zhì)量[4]。

        2 音節(jié)粒度的維漢機器翻譯

        2.1 維吾爾語音節(jié)特點

        維吾爾語屬于黏著語,詞語具有豐富的形態(tài)變化。維吾爾語共有32 個字母,包含24 個輔音字母和8 個元音字母,同時每個字母具有不同的形式,共計約有130種。在維吾爾語中,句子由一個或多個單詞組成,單詞間以空格分開,每一個單詞由一個或多個音節(jié)組成。音節(jié)是最小的語音結(jié)構(gòu),是人類聽覺能夠自然感受到的最小語音片段。維吾爾語中音節(jié)由一個元音或一個元音加多個輔音組成,每一個音節(jié)包含一定的語義信息,維吾爾語音節(jié)實例如表1所示。這一特點正如漢語拼音的組成一樣,拼音由韻母和聲母組成,盡管在漢語中沒有音節(jié)這一概念,但可以將一個漢語拼音看成一個音節(jié)單位。

        表1 維吾爾語音節(jié)切分示例

        維吾爾語的音節(jié)切分有一定的規(guī)則,音節(jié)結(jié)構(gòu)固有(起音)+領(lǐng)音+(收音),其中音節(jié)中必須要有領(lǐng)音且必須是元音,而在起音和收音中可以有也可以沒有[23]。C 表示輔音,V 表示元音,單詞音節(jié)類型總共有12 種,可以表示為V、VC、CV、CVC、VCC、CVCC、CCV、CCVC、CCVCC、CVV、CVVC、CCCV。其中,前6 種是常見的維吾爾語單詞音節(jié)類型,后6 種是外來詞的音節(jié)類型。一般在維吾爾語中CV 與CVC 類型的音節(jié)出現(xiàn)頻率最高。本文按照這個規(guī)則研發(fā)了音節(jié)提取工具,正確率達到96%~98%。

        2.2 帶標(biāo)記音節(jié)的維漢神經(jīng)機器翻譯

        維吾爾語語法和形態(tài)的復(fù)雜性、維漢平行語料匱乏以及數(shù)據(jù)稀疏問題,使維-漢機器翻譯研究進展相對緩慢。本文將維吾爾語數(shù)據(jù)切分成具有一定語義信息的音節(jié),漢語數(shù)據(jù)劃分為單個字符,這樣可以使翻譯單元數(shù)量減少,出現(xiàn)頻率增加。每一個翻譯單元出現(xiàn)頻率的增加使得網(wǎng)絡(luò)模型學(xué)習(xí)能力增強。而翻譯單元數(shù)量減少,不僅能縮小詞表規(guī)模,降低模型的復(fù)雜運算,縮短模型的訓(xùn)練時間,同時還能有效地解決集外詞(OOV)問題,緩解維漢神經(jīng)機器翻譯的數(shù)據(jù)稀疏問題,從而提高翻譯質(zhì)量?;玖鞒倘鐖D1所示。

        圖1 帶標(biāo)記音節(jié)級的NMT訓(xùn)練流程

        (1)編碼統(tǒng)一化:通過本課題組研發(fā)的維吾爾語分詞與編碼轉(zhuǎn)換工具來對維吾爾語語料進行分詞并編碼轉(zhuǎn)換,對漢語語料進行繁體簡體及全角半角轉(zhuǎn)換,得到同意編碼的語料。

        (2)語料音節(jié)切分:通過本課題組研發(fā)的基于規(guī)則的維吾爾語音節(jié)切分工具來對維吾爾語語料進行音節(jié)切分,對漢語語料進行字符級切分,同時對維漢語料進行BME 標(biāo)記。這種切分方法把數(shù)據(jù)切分成更小的單位,使詞表規(guī)模更小。

        (3)音節(jié)向量化:將切分好的維吾爾語音節(jié)向量化以后作為神經(jīng)機器翻譯模型的輸入單元,把漢字向量作為模型的輸出單元,訓(xùn)練一種基于音節(jié)粒度神經(jīng)機器翻譯模型。

        (4)模型評價:對音節(jié)粒度的翻譯模型效果進行評價,分別在不同規(guī)模的數(shù)據(jù)上與使用單詞粒度、BPE 粒度的翻譯模型進行對比分析。

        3 實驗結(jié)果與分析

        3.1 實驗數(shù)據(jù)

        本文實驗數(shù)據(jù)選用機器翻譯評測(CCMT 2019)中的維-漢平行語料,其中訓(xùn)練集17萬條維漢平行句對,驗證集1 000 條維漢平行句對。由于訓(xùn)練數(shù)據(jù)集比較少,沒有進行數(shù)據(jù)篩選。

        3.2 數(shù)據(jù)預(yù)處理

        對數(shù)據(jù)進行細致、有效的預(yù)處理是機器翻譯任務(wù)中關(guān)鍵性的一步。本文的預(yù)處理包括編碼轉(zhuǎn)換、全角半角轉(zhuǎn)換、亂碼過濾、分詞、BPE切分以及音節(jié)提取等。詳細預(yù)處理步驟如下:

        (1)利用新疆大學(xué)多語種實驗室小組研發(fā)的編碼轉(zhuǎn)換工具分別對維-漢語料進行編碼轉(zhuǎn)換,包括基本擴展區(qū)轉(zhuǎn)換、全角半角轉(zhuǎn)換、繁體簡體轉(zhuǎn)換、亂碼過濾與去重。

        (2)利用開源的哈爾濱工業(yè)大學(xué)中文NLP工具LTP對中文語料進行分詞處理。

        (3)利用新疆大學(xué)多語種實驗室小組研發(fā)的維語分詞工具對維文語料進行分詞處理。

        (4)利用subword-nmt開源工具對維-漢等語料進行BPE切分處理。

        (5)利用新疆大學(xué)多語種實驗室小組研發(fā)的音節(jié)切分工具對維語音節(jié)拆分處理。

        不同粒度的數(shù)據(jù)集切分示例如表2所示。

        為了更好地分析對比不同規(guī)模數(shù)據(jù)集對基于不同粒度模型翻譯效果的影響,本文隨機抽取了5萬、10萬、15 萬和17 萬條四種不同規(guī)模的實驗數(shù)據(jù)集,分別進行單詞粒度、BPE 粒度與音節(jié)粒度等不同粒度的對比實驗。其中,單詞粒度的源語言和目標(biāo)語言的詞表大小分別為9 萬和6 萬;BPE 粒度的源語言和目標(biāo)語言詞表大小均為3.2 萬,BPE 粒度的迭代輪數(shù)均為2.4 萬;音節(jié)粒度的源語言和目標(biāo)語言詞表大小分別為8 500和5 100。具體的數(shù)據(jù)集信息如表3所示。

        本實驗以BLEU 值為主要評價指標(biāo),維-漢翻譯方向采用基于字符(character-based)的評價方式,漢-維翻譯方向則采用基于單詞(word-based)的評價方式。維-漢翻譯任務(wù)中,譯文除了替換UNK 沒有使用其他的后處理操作。在漢-維翻譯任務(wù)中,將譯文中對音節(jié)單位進行合并生成單詞操作。

        表2 不同粒度的數(shù)據(jù)切分示例

        表3 訓(xùn)練集、測試集統(tǒng)計結(jié)果

        3.3 實驗環(huán)境與模型參數(shù)

        實驗在Ubuntu16.04操作系統(tǒng)上進行,兩塊GeForce RTX 2080 Ti(11 GB),Intel?CoreTMi5-9400F CPU@2.90 GHz 處理器和 32 GB 內(nèi)存。選用 RNN、CNN 與Transformer 模型進行對比實驗,所有實驗均使用以下參數(shù):

        RNN 模型:使用 Google 開源的 GNMT[24]工具進行訓(xùn)練。系統(tǒng)參數(shù)如下,編碼器和解碼器均為4層的雙向LSTM循環(huán)單元,詞向量維度為512,隱藏層節(jié)點1 024,Batch Size為128,Dropout為0.1,其他參數(shù)為默認值,訓(xùn)練6 萬步。在解碼階段采用Beam Search 策略進行預(yù)測,beam size大小均為12。

        CNN 模型:使用 Facebook 開源系統(tǒng) FairSeq[3]進行訓(xùn)練。系統(tǒng)參數(shù)如下,詞向量維度為512,Dropout為0.2,max-tokens為4 000,其他參數(shù)為默認值,訓(xùn)練150 epoch。在解碼階段采用Beam Search策略進行預(yù)測,beam size大小均為5。

        Transformer模型:使用Google開源的Tensor2Tensor[25]工具進行模型訓(xùn)練,并重寫了模型的數(shù)據(jù)語料處理部分。為了使實驗結(jié)果具有可比性,對所有的系統(tǒng)均使用文獻[4]中的transformer_base參數(shù),使用單個GPU訓(xùn)練,訓(xùn)練迭代次數(shù)均為6萬步。在解碼階段采用Beam Search策略進行預(yù)測,beam size大小均為12,解碼時長度懲罰α大小為0.6。

        3.4 實驗結(jié)果與分析

        實驗中,首先在不同大小的數(shù)據(jù)集上分別進行了維-漢以及漢-維方向的單詞粒度、BPE粒度和音節(jié)粒度的Transformer神經(jīng)機器翻譯對比實驗,實驗結(jié)果如表4所示。從實驗結(jié)果中可以發(fā)現(xiàn),本文提出的基于音節(jié)粒度的機器翻譯方法實驗結(jié)果明顯優(yōu)于其他兩種粒度的實驗結(jié)果。其中,在維-漢翻譯任務(wù)上與單詞粒度機器翻譯結(jié)果相比,在不同數(shù)據(jù)集上(數(shù)據(jù)集規(guī)模由小到大)分別提升了 9.06、7.62、7.26 和 7.04 個 BLEU 值;與 BPE粒度的機器翻譯結(jié)果相比提升了4.92、3.55、3.05 和2.01 個BLEU 值。在漢-維翻譯任務(wù)中與單詞粒度機器翻譯相比,在不同數(shù)據(jù)集上分別提升了6.69、5.89、5.83和5.87個BLEU值;與BPE粒度機器翻譯結(jié)果相比分別提升了 5.51、3.30、3.54 和 2.82 個 BLEU 值。可見,基于音節(jié)粒度的機器翻譯結(jié)果與其他兩種粒度實驗對比,當(dāng)數(shù)據(jù)規(guī)模越小時,BLEU值的提升越明顯。

        表4 Transformer模型在維-漢任務(wù)上的翻譯結(jié)果

        同樣地,在CWMT2018 的50 萬英漢數(shù)據(jù)上也進行了多粒度與不同規(guī)模數(shù)據(jù)上的對比實驗,實驗數(shù)據(jù)處理和模型配置與維漢系統(tǒng)一致,實驗結(jié)果如表5所示。從表5中可以看出,音節(jié)粒度的機器翻譯方法在英漢機器翻譯上同樣能提升效果。相比于在不同規(guī)模數(shù)據(jù)上(數(shù)據(jù)集規(guī)模由小到大)的單詞粒度機器翻譯分別提升了4.09、5.22、6.09、4.47、4.05個BLEU值,相比于BPE粒度機器翻譯分別提升了2.34、2.19、2.01、1.3、0.3 個BLEU值。由此可見,音節(jié)粒度的機器翻譯方法在數(shù)據(jù)規(guī)模較少的情況下性能提升明顯,隨著數(shù)據(jù)量的增大,BPE 粒度的效果越來越好,當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模到50萬時,音節(jié)粒度和BPE的效果幾乎持平。

        表5 Transformer模型在英-漢任務(wù)上的翻譯結(jié)果

        為了進一步驗證基于音節(jié)粒度的維漢神經(jīng)機器翻譯方法在不同模型上的有效性,本文選用17 萬規(guī)模的數(shù)據(jù)集,采用RNNsearch 模型和CNN 模型分別進行了不同粒度的對比實驗,實驗結(jié)果如表6 所示??梢缘贸?,無論是在CNN還是RNNsearch模型上,基于音節(jié)粒度的方法的翻譯效果都明顯高于基于單詞和基于BPE粒度的方法。

        表6 RNN與CNN模型在維-漢任務(wù)上的翻譯結(jié)果

        表7 音節(jié)粒度syll+BME切分示例

        另外,對實驗結(jié)果進行錯誤分析后發(fā)現(xiàn),當(dāng)維吾爾文音節(jié)作為輸入,中文漢字作為輸出時,會出現(xiàn)一些嚴(yán)重的歧義問題。比如,維吾爾語的“sepil”(城墻),可切分成兩個音節(jié)“se+pil”,其中“pil”音節(jié)單獨(可視為一個單詞)能表達“大象”;維吾爾文中“sugukkanlik”(坦然)可切分成4個音節(jié)“su+guk+kan+lik”,其中的“kan”音節(jié)有“血”的意思,這些歧義問題的存在影響著翻譯效果。為有效解決歧義問題,進一步提升翻譯質(zhì)量,本文首先將維吾爾語切分成音節(jié),將單詞的首音節(jié)標(biāo)注為“_B”,中間的音節(jié)全部標(biāo)注為“_M”,末音節(jié)標(biāo)注為“_E”,單獨一個音節(jié)或符號時標(biāo)注為“_BE”,具體示例如表7所示。

        將改進后的序列作為神經(jīng)機器翻譯的輸入與輸出,在17萬的數(shù)據(jù)集上開展實驗。在Transformer模型上的實驗結(jié)果如表8所示。可以看到Transformer模型在維-漢翻譯中,融入BME 標(biāo)注的音節(jié)切分方法與音節(jié)粒度和BPE 粒度的翻譯效果相比分別提升了0.83 和3.04 個BLEU 值;而在漢-維機器翻譯中,分別提升了0.59 和3.09 個 BLEU 值。RNN 與 CNN 模型的翻譯效果在維-漢、漢-維方向都有所提升。實驗結(jié)果表明,本文提出的融入BME 的標(biāo)注方法能有效緩解語言中的歧義問題,進一步提升翻譯質(zhì)量。

        表8 不同模型在syll+BME切分的維-漢翻譯結(jié)果對比

        綜合表4、表5、表8的實驗結(jié)果,可以得出以下結(jié)論:

        (1)以Transformer 模型為基礎(chǔ),在不同的翻譯方向和多種數(shù)據(jù)集規(guī)模上,基于音節(jié)粒度的機器翻譯效果明顯優(yōu)于基于word 和BPE 粒度。數(shù)據(jù)集規(guī)模越小,提高效果越明顯。

        (2)音節(jié)+BME 粒度緩解了部分歧義問題,能有效地提高維-漢或漢-維方向的翻譯效果。

        (3)基于音節(jié)粒度的機器翻譯在CNN、RNN與Transformer模型上不僅能進一步提升翻譯質(zhì)量,同時還能緩解因維吾爾語形態(tài)復(fù)雜與資源欠缺所導(dǎo)致的數(shù)據(jù)稀疏等問題。

        3.5 不同句長度(字/詞)的BLEU值

        在神經(jīng)機器翻譯中,模型對句子長度比較敏感。本文提出的方法將單詞切分音節(jié),使句子長度變得更長。為了探討句子長度對BLEU值的影響,本文在兩種翻譯方向中,針對不同長度的目標(biāo)語言進行了BLEU值的對比,結(jié)果如表9所示。分析實驗結(jié)果,可以得出如下結(jié)論:

        (1)在Transformer 模型上,基于音節(jié)粒度的機器翻譯模型在不同方向和不同長度句子的翻譯任務(wù)中,翻譯結(jié)果明顯優(yōu)于其他兩種粒度的翻譯結(jié)果。

        (2)在維漢翻譯任務(wù)中,句子長度在(40,70]范圍時,基于音節(jié)粒度的機器翻譯模型效果最優(yōu);句長在其他范圍時,基于音節(jié)+BME粒度的機器翻譯模型效果最好。

        (3)在漢維翻譯任務(wù)中,句子長度在(0,15]范圍時,基于音節(jié)粒度的翻譯效果最佳;句子長度大于15 個漢字時,基于音節(jié)+BME 粒度的機器翻譯模型效果最佳;在句長為(0,40]和(70,100]時,提升效果最明顯。

        表9 Transformer模型在不同粒度不同句長時的翻譯結(jié)果

        3.6 Transformer模型翻譯示例

        表10 是Transformer 模型在1 000 條驗證集上的部分對比翻譯示例??梢钥闯霰疚奶岢龅姆椒ㄔ诜g精度與翻譯質(zhì)量上優(yōu)于其他兩項。在維-漢翻譯任務(wù)中,通過對譯文的對比分析發(fā)現(xiàn)基于syll 粒度方法在翻譯過程中存在部分重復(fù)翻譯和漏翻譯(示例1 王滬寧,示例3 黨)等問題,同時還存在人名、地名、數(shù)字以及標(biāo)點符號等實體的錯誤翻譯現(xiàn)象,基于word 和BPE 粒度方法這種現(xiàn)象更為嚴(yán)重。雖然基于syll+BME粒度的方法緩解了這種現(xiàn)象,但是某些地名、人名比較罕見,訓(xùn)練時學(xué)習(xí)不充分,從而導(dǎo)致這種錯誤翻譯現(xiàn)象出現(xiàn)。在漢-維翻譯任務(wù)中,分析發(fā)現(xiàn)單詞部分詞綴漏翻譯或過翻譯現(xiàn)象(示例6 kitabi、kitablar、iqtisadiy 等)是最棘手的問題,同樣也存在地名、人名等實體翻譯錯誤的現(xiàn)象(示例5 sh?d?、sh?diwo、budanis 等),這種現(xiàn)象在基于 word 和BPE粒度方法中更為嚴(yán)重。這兩個問題是在漢-維翻譯任務(wù)中提高翻譯精度和翻譯質(zhì)量的最大障礙,也是以后研究工作的落腳點。

        表10 Transformer模型翻譯示例

        4 結(jié)束語

        本文提出了一種基于帶標(biāo)記音節(jié)的機器翻譯方法并在不同切分粒度、不同數(shù)據(jù)規(guī)模和不同翻譯模型上分別進行了維-漢、漢-維和英-漢方向的對比實驗。實驗結(jié)果表明:(1)與單詞和BPE粒度的機器翻譯模型相比,基于音節(jié)粒度的機器翻譯模型的實驗結(jié)果更好;(2)當(dāng)數(shù)據(jù)規(guī)模越小時,基于音節(jié)粒度的機器翻譯模型效果越好;(3)當(dāng)基于音節(jié)粒度的機器翻譯模型融入BME標(biāo)注方法時,翻譯結(jié)果有明顯的提升;(4)基于音節(jié)粒度的切分方法縮小了源端和目標(biāo)端詞表大小,使得模型訓(xùn)練更快并且模型文件更小。由此可以得出結(jié)論,本文提出的基于帶標(biāo)記音節(jié)的機器翻譯模型對語料資源缺乏和數(shù)據(jù)稀疏的維吾爾語到漢語方向的機器翻譯是有效的。在后續(xù)研究中,將進一步研究音節(jié)粒度到BPE 粒度、音節(jié)粒度到單詞粒度等不同的粒度交換方法對翻譯結(jié)果的影響,同時將本文提出的方法應(yīng)用到其他與維吾爾語相似、資源稀缺、形態(tài)豐富的黏著語的翻譯任務(wù)中。

        猜你喜歡
        單詞實驗方法
        記一次有趣的實驗
        單詞連一連
        做個怪怪長實驗
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        可能是方法不對
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久精品国产精品亚洲婷婷| 全部孕妇毛片丰满孕妇孕交| 国产精品熟女视频一区二区三区| 日韩人妻精品视频一区二区三区| 丁香婷婷在线成人播放视频| 国产精品久久久天天影视| 国产成人亚洲精品无码青| 久久天天躁狠狠躁夜夜不卡| 黑人上司粗大拔不出来电影| 成 人 免费 黄 色 视频| 亚洲精品久久久久高潮| 国产 中文 制服丝袜 另类| 天啦噜国产精品亚洲精品| 韩国美女主播国产三级| 一本久道在线视频播放| 少妇人妻无一区二区三区| 在线观看国产成人自拍视频| 国产精品久久久久久人妻无| 玩中年熟妇让你爽视频| 欧美aa大片免费观看视频| 无码少妇一级AV便在线观看 | 亚洲av男人的天堂在线观看| 日韩一欧美内射在线观看| 免費一级欧美精品| 久久精品国产亚洲av蜜臀久久| 久久99国产综合精品女同| 久久久久av综合网成人| 日本特黄特色特爽大片| 天堂影院一区二区三区四区| 中文精品久久久久中文| 国产护士一区二区三区| 无码人妻丰满熟妇区五十路| 国产大陆亚洲精品国产| 欧美理论在线| 久久久久人妻精品一区5555| 国产99视频一区二区三区| 免费播放成人大片视频| 日韩午夜福利无码专区a| 国产高清一区二区三区视频| 亚洲暴爽av人人爽日日碰| 久久av无码精品人妻糸列|