亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于語(yǔ)種相似性挖掘的神經(jīng)機(jī)器翻譯語(yǔ)料庫(kù)擴(kuò)充方法

2021-12-07 10:08:54楊雅婷馬玉鵬董瑞

計(jì)算機(jī)應(yīng)用 2021年11期

李燦，楊雅婷，馬玉鵬*，董瑞

（1.中國(guó)科學(xué)院新疆理化技術(shù)研究所，烏魯木齊 830000；2.中國(guó)科學(xué)院大學(xué)，北京 100049；3.新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室（中國(guó)科學(xué)院新疆理化技術(shù)研究所），烏魯木齊 830000）

0 引言

近年來(lái)，隨著長(zhǎng)短期記憶（Long Short-Term Memory，LSTM）網(wǎng)絡(luò)［1-2］、注意力（Attention）機(jī)制［3-5］、Transformer模型［6-7］的出現(xiàn)，機(jī)器翻譯的水平取得了長(zhǎng)足的進(jìn)步。在英法、中英這樣資源豐富的翻譯任務(wù)上，機(jī)器翻譯已經(jīng)取得了非常不錯(cuò)的效果。然而，神經(jīng)機(jī)器翻譯（Neural Machine Translation，NMT）的成功往往依賴于大量高質(zhì)量的雙語(yǔ)語(yǔ)料作為訓(xùn)練數(shù)據(jù)。但是，諸如維吾爾語(yǔ)、哈薩克語(yǔ)等這些小語(yǔ)種，提供足夠多的雙語(yǔ)數(shù)據(jù)比較困難。甚至有些語(yǔ)言對(duì)幾乎沒(méi)有任何機(jī)器翻譯雙語(yǔ)平行語(yǔ)料，這種情況下通用框架的NMT就顯得非常乏力。

隨著神經(jīng)機(jī)器翻譯技術(shù)的不斷進(jìn)步，學(xué)者們漸漸開(kāi)始加強(qiáng)對(duì)低資源語(yǔ)言機(jī)器翻譯問(wèn)題的探索與研究。Zoph等［8］用大量的英法雙語(yǔ)語(yǔ)料訓(xùn)練出模型之后，在烏茲別克語(yǔ)-英語(yǔ)和土耳其語(yǔ)-英語(yǔ)雙語(yǔ)機(jī)器翻譯語(yǔ)料上分別進(jìn)行進(jìn)一步優(yōu)化，成功提升了烏茲別克語(yǔ)到英語(yǔ)以及土耳其語(yǔ)到英語(yǔ)的翻譯質(zhì)量。Nguyen等［9］將字節(jié)對(duì)編碼（Byte Pair Encoding，BPE）分詞方法用于遷移學(xué)習(xí)，使用土耳其語(yǔ)-英語(yǔ)、烏茲別克語(yǔ)-英語(yǔ)和維吾爾語(yǔ)-英語(yǔ)平行語(yǔ)料，進(jìn)行BPE 處理之后以遷移學(xué)習(xí)的方法訓(xùn)練出用于機(jī)器翻譯的模型，在土耳其語(yǔ)-英語(yǔ)、烏茲別克語(yǔ)-英語(yǔ)和維吾爾語(yǔ)-英語(yǔ)三者的機(jī)器翻譯上取得了顯著效果。Gu 等［10］提出了基于元學(xué)習(xí)的神經(jīng)機(jī)器翻譯（Metalearning for Neural Machine Translation，MetaNMT），將元學(xué)習(xí)思維用于低資源語(yǔ)言機(jī)器翻譯，以18 種歐洲語(yǔ)言作為源語(yǔ)言，分別為保加利亞文（Bg）、捷克文（Cs）、丹麥文（Da）、德文（De）、希臘文（El）、加泰羅尼亞文（Es）、愛(ài)沙尼亞文（Et）、法文（Fr）、匈牙利文（Hu）、意大利文（It）、立陶宛文（Lt）、荷蘭文（Nl）、波蘭文（Pl）、葡萄牙文（Pt）、斯洛伐克文（Sk）、斯洛文尼亞文（Sl）、瑞典文（Sv）和俄文（Ru），以5 種不同語(yǔ)言作為目標(biāo)語(yǔ)言，分別為羅馬尼亞文（Ro）、拉脫維亞文（Lv）、芬蘭文（Fi）、土耳其文（Tr）和朝鮮文（Ko），取得了優(yōu)于遷移學(xué)習(xí)的效果。低資源語(yǔ)言機(jī)器翻譯發(fā)展到現(xiàn)階段，主要涉及到元學(xué)習(xí)和遷移學(xué)習(xí)的方法，然而低資源語(yǔ)言標(biāo)注數(shù)據(jù)的貧乏問(wèn)題，卻一直缺乏比較好的解決方案。在此種情況下，研究如何對(duì)低資源語(yǔ)言機(jī)器翻譯平行語(yǔ)料庫(kù)進(jìn)行擴(kuò)充則顯得尤為重要。

本文選取維吾爾語(yǔ)和哈薩克語(yǔ)作為相似語(yǔ)言對(duì)，對(duì)低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法進(jìn)行研究和探索。對(duì)維吾爾語(yǔ)-漢語(yǔ)（維-漢）、哈薩克語(yǔ)-漢語(yǔ)（哈-漢）平行語(yǔ)料和維吾爾語(yǔ)&哈薩克語(yǔ)混合-漢語(yǔ)平行語(yǔ)料分別使用詞級(jí)別切分、BPE、音節(jié)切分以及本文提出的基于音節(jié)切分的BPE 四種對(duì)語(yǔ)料的處理方式進(jìn)行處理，以深度挖掘相似語(yǔ)種間的語(yǔ)言相似性；引入“開(kāi)始-中部-結(jié)束（Begin-Middle-End，BME）”序列標(biāo)注方法對(duì)切分的音節(jié)進(jìn)行標(biāo)注，以消除音節(jié)輸入所帶來(lái)的一些歧義；利用Sockeye開(kāi)源神經(jīng)機(jī)器翻譯框架［11］對(duì)NMT模型進(jìn)行訓(xùn)練；對(duì)訓(xùn)練所得NMT模型的性能進(jìn)行比較，以探求有效地挖掘語(yǔ)種間相似信息的方法，尋求有效的低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法。

1 語(yǔ)料相似性挖掘方法

維吾爾語(yǔ)和哈薩克語(yǔ)同屬于阿爾泰語(yǔ)系中的突厥語(yǔ)族，二者非常相似；在詞級(jí)別上維語(yǔ)和哈語(yǔ)存在一定的相似表達(dá)，在字節(jié)級(jí)別和音節(jié)級(jí)別上二者更是幾乎完全相同。

基于以上理論基礎(chǔ)，本文采用字節(jié)對(duì)編碼（BPE）處理和音節(jié)切分處理兩種特殊的語(yǔ)料處理方案，并提出基于音節(jié)切分的BPE 處理的語(yǔ)料編解碼方案，以深度挖掘哈語(yǔ)與維語(yǔ)相似的信息，充分利用語(yǔ)料擴(kuò)充所帶來(lái)的效果，對(duì)維漢神經(jīng)機(jī)器翻譯和哈漢神經(jīng)機(jī)器翻譯模型的訓(xùn)練帶來(lái)增益。

另外，在實(shí)驗(yàn)中對(duì)翻譯錯(cuò)誤的語(yǔ)句對(duì)進(jìn)行研究發(fā)現(xiàn)，當(dāng)維語(yǔ)或哈語(yǔ)作為音節(jié)輸入時(shí)，會(huì)出現(xiàn)一些歧義問(wèn)題，因此對(duì)單詞的音節(jié)進(jìn)行了BME標(biāo)記處理，以消除這些歧義。

圖1 展示了本文實(shí)驗(yàn)中所用到的所有語(yǔ)料處理方案，以下對(duì)相關(guān)方法進(jìn)行一一介紹。

1.1 字節(jié)對(duì)編碼

BPE 算法最早是一種數(shù)據(jù)壓縮算法，由Sennrich 等［12］引入到自然語(yǔ)言處理（Natural Language Processing，NLP）領(lǐng)域并很快得到推廣。BPE算法可以有效地平衡詞匯表大小和步數(shù)（編碼句子所需的token 數(shù)量），簡(jiǎn)單有效，因而成為了目前NLP 領(lǐng)域最流行的字節(jié)編碼算法，其最基本的做法是將最常見(jiàn)的一對(duì)連續(xù)字節(jié)數(shù)據(jù)替換為該數(shù)據(jù)中不存在的字節(jié)，在后期使用時(shí)再使用一個(gè)替換表來(lái)重建原始數(shù)據(jù)。

BPE算法包含三個(gè)部分：獲取子詞詞表，編碼，解碼。

1.1.1 獲取子詞詞表

獲取子詞詞表的操作步驟如下：

1）準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料；

2）確定期望的子詞詞表的大??；

3）將單詞拆分為字符序列并在末尾添加后綴“”，并統(tǒng)計(jì)單詞頻率；

4）統(tǒng)計(jì)每一個(gè)連續(xù)字節(jié)對(duì)的出現(xiàn)頻率，選擇最高頻者合并成新的子詞；

5）重復(fù)第4）步直到達(dá)到第2）步設(shè)定的子詞詞表大小或下一個(gè)最高頻的字節(jié)對(duì)出現(xiàn)頻率為1。

1.1.2 編碼

將得到的子詞詞表按照子詞長(zhǎng)度由大到小排序。編碼時(shí)，對(duì)于每個(gè)單詞，遍歷排好序的子詞詞表尋找是否有token是當(dāng)前單詞的子字符串，如果有，則該token 是表示單詞的tokens之一。從最長(zhǎng)的token 迭代到最短的token，嘗試將每個(gè)單詞中的子字符串替換為token。最終，將迭代所有的tokens，并將所有子字符串替換為tokens。如果仍然有子字符串沒(méi)被替換但所有token都已迭代完畢，則將剩余的子詞替換為特殊token，如。圖2 展示了BPE 算法的編碼過(guò)程，圖中的數(shù)字表示子詞在詞表中的排序。

圖2 BPE算法編碼過(guò)程示意圖Fig.2 Schematic diagram of BPE algorithm coding process

編碼的計(jì)算量很大。在實(shí)踐中，可以pre-tokenize 所有單詞，并在詞典中保存單詞tokenize 的結(jié)果，如若發(fā)現(xiàn)字典中不存在的未知單詞，則應(yīng)用上述編碼方法對(duì)單詞進(jìn)行tokenize，然后將新單詞的tokenization添加到字典中備用。

1.1.3 解碼

解碼過(guò)程比較簡(jiǎn)單，如果相鄰子詞間沒(méi)有中止符，則將兩子詞直接拼接，否則兩子詞之間添加分隔符。

1.2 音節(jié)自動(dòng)切分

音節(jié)是最小的語(yǔ)音結(jié)構(gòu)，是人的聽(tīng)覺(jué)能夠自然感受到的最小語(yǔ)音片段。每一種語(yǔ)言都有自己的發(fā)音習(xí)慣和自己的語(yǔ)音特點(diǎn)［13］。漢語(yǔ)中的每一個(gè)漢字都對(duì)應(yīng)一個(gè)音節(jié)，每個(gè)音節(jié)都是由聲調(diào)、韻母和聲母組成。在維吾爾語(yǔ)中，一個(gè)音節(jié)一般由一個(gè)元音音素單獨(dú)構(gòu)成或與其他輔音音素結(jié)合構(gòu)成。維吾爾語(yǔ)中，一共有32 個(gè)字母，其中包含24 個(gè)輔音和8 個(gè)元音，這32 個(gè)字母在詞語(yǔ)中的位置大概有130 種形式，另外包含一個(gè)特殊符號(hào)Hamze。當(dāng)一個(gè)元音在詞中表示另一個(gè)音節(jié)的開(kāi)始或者當(dāng)其出現(xiàn)在詞首時(shí)，需要附加Hamze。Hamze 是一個(gè)新音節(jié)開(kāi)始或切分的標(biāo)志［14］。

維吾爾語(yǔ)固有的音節(jié)結(jié)構(gòu)是（起音）-領(lǐng)音-（收音），其中領(lǐng)音必須是元音，音節(jié)中可以沒(méi)有起音和收音，但是不能沒(méi)有領(lǐng)音［15］。目前的研究結(jié)果表明，現(xiàn)代維吾爾語(yǔ)的音節(jié)類(lèi)型一共有12種，如表1所示，其中，c（consonant）表示輔音，v（vowel）表示元音。

表1 維吾爾語(yǔ)音節(jié)類(lèi)型Tab.1 Syllable types of Uyghur

如表1 所示，7～12 號(hào)音節(jié)結(jié)構(gòu)用于記錄外來(lái)詞；其中10號(hào)和11 號(hào)音節(jié)結(jié)構(gòu)都包含2 個(gè)元音，它們用于記錄來(lái)自漢語(yǔ)等語(yǔ)言中有2個(gè)元音的詞語(yǔ)。基于表1中的音節(jié)類(lèi)型［14］，通過(guò)人工分析，可以大致總結(jié)出29種音節(jié)切分規(guī)則。

在本文的實(shí)驗(yàn)中依照總結(jié)得出的29 種切分規(guī)則設(shè)計(jì)維吾爾語(yǔ)自動(dòng)切分工具對(duì)語(yǔ)料進(jìn)行自動(dòng)音節(jié)切分。具體做法為：采用Hamze 對(duì)維吾爾語(yǔ)詞語(yǔ)進(jìn)行切分→從維吾爾詞語(yǔ)的詞尾開(kāi)始遍歷→查找詞語(yǔ)的邊界標(biāo)志cv→檢查音節(jié)結(jié)構(gòu)（有問(wèn)題則進(jìn)行修復(fù)）。把Hamze符號(hào)看成音節(jié)開(kāi)始的標(biāo)志，首先用Hamze對(duì)維吾爾文詞語(yǔ)進(jìn)行切分；然后，再對(duì)切分之后的每一個(gè)分塊進(jìn)行音節(jié)切分——從維吾爾文詞語(yǔ)的詞尾開(kāi)始遍歷，每當(dāng)遇到cv（先遇到v然后遇到c）時(shí)，把c作為音節(jié)邊界進(jìn)行音節(jié)切分；最后，對(duì)音節(jié)結(jié)構(gòu)進(jìn)行檢查，依照規(guī)則庫(kù)和附加輔助音節(jié)庫(kù)對(duì)有問(wèn)題的音節(jié)結(jié)構(gòu)進(jìn)行修復(fù)。

1.3 基于音節(jié)切分的BPE

為了探究有效的低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法，本文將以上兩種語(yǔ)料處理方式結(jié)合到一起，稱之為基于音節(jié)切分的BPE。對(duì)BPE算法中獲取子詞詞表部分進(jìn)行調(diào)整，不再統(tǒng)計(jì)每一個(gè)連續(xù)字節(jié)對(duì)的出現(xiàn)頻率，選擇最高頻者合并成新的子詞；而是統(tǒng)計(jì)每一個(gè)連續(xù)音節(jié)對(duì)的出現(xiàn)頻率，選擇最高頻者合并成新的子詞。

在基于音節(jié)切分的BPE方法中獲取子詞詞表的具體步驟如下：

1）準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料；

2）確定期望的子詞詞表的大??；

3）對(duì)語(yǔ)料進(jìn)行自動(dòng)音節(jié)切分處理，將單詞拆分為音節(jié)序列并在末尾添加后綴“”，并統(tǒng)計(jì)單詞頻率；

4）統(tǒng)計(jì)每一個(gè)連續(xù)音節(jié)對(duì)的出現(xiàn)頻率，選擇最高頻者合并成新的子詞；

5）重復(fù)第4）步直到達(dá)到第2）步設(shè)定的子詞詞表大小或下一個(gè)最高頻的音節(jié)對(duì)出現(xiàn)頻率為1。

此方法的編碼和解碼部分與傳統(tǒng)的BPE算法思想及具體操作步驟相同。

1.4 BME標(biāo)記方案

為消除音節(jié)作為輸入所帶來(lái)的歧義，本文引入了BME 標(biāo)記方案對(duì)音節(jié)進(jìn)行標(biāo)記。如圖3 所示，將維吾爾語(yǔ)和哈薩克語(yǔ)的音節(jié)的開(kāi)頭標(biāo)記為“B”，音節(jié)的中間部分標(biāo)記為“M”，音節(jié)的末尾部分標(biāo)記為“E”，單獨(dú)的音節(jié)標(biāo)記為“BE”；如圖4 所示，對(duì)漢語(yǔ)按照字級(jí)別進(jìn)行處理，在漢語(yǔ)中，詞的開(kāi)頭標(biāo)記為“B”，詞的中間部分標(biāo)記為“M”，詞的末尾部分標(biāo)記為“E”，單獨(dú)的一個(gè)字標(biāo)記為“BE”。

圖3 維吾爾語(yǔ)BME標(biāo)記示例Fig.3 Examples of Uyghur BME tagging

圖4 漢語(yǔ)BME標(biāo)記示例Fig.4 Examples of Chinese BME tagging

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集

如表2 所示，本文實(shí)驗(yàn)用到的數(shù)據(jù)集包含兩部分：維-漢平行語(yǔ)料采用的是CWMT2015 提供的維漢雙語(yǔ)平行語(yǔ)料。對(duì)語(yǔ)料進(jìn)行數(shù)據(jù)清洗、亂碼過(guò)濾，剔除帶有亂碼或不規(guī)則符號(hào)的語(yǔ)料。然后，將漢語(yǔ)按字切分，進(jìn)行字級(jí)別的處理，并將語(yǔ)料劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分。

由表2 可以看出，最終訓(xùn)練集包含維漢雙語(yǔ)平行語(yǔ)句對(duì)331763 對(duì)，驗(yàn)證集包含700 對(duì)，測(cè)試集包含1000 對(duì)。哈-漢平行語(yǔ)料進(jìn)行同樣的處理之后得到哈漢雙語(yǔ)平行語(yǔ)句對(duì)訓(xùn)練集346371對(duì)，驗(yàn)證集700對(duì)，測(cè)試集1000對(duì)。

表2 數(shù)據(jù)集具體信息Tab.2 Specific information of datasets

2.2 實(shí)驗(yàn)基礎(chǔ)設(shè)置

在本文的實(shí)驗(yàn)中，使用亞馬遜公司基于Apache Mxnet 開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯框架Sockeye。使用Transformer 模型，參數(shù)采用Transformer_base 的設(shè)置（Transformer 一個(gè)比較好的基線設(shè)置）。

如表3所示，編碼端和解碼端的層數(shù)都是6層，采用ReLU激活函數(shù)，dropout 均設(shè)置為0.1，學(xué)習(xí)率設(shè)置為0.0002，前饋神經(jīng)網(wǎng)絡(luò)隱層維度設(shè)置為2048，詞向量維度設(shè)置為512，Attention Heads設(shè)置為8。

表3 實(shí)驗(yàn)基本參數(shù)設(shè)置Tab.3 Basic parameter setting of experiment

在訓(xùn)練過(guò)程中使用早停機(jī)制，以雙語(yǔ)評(píng)估替補(bǔ)（BiLingual Evaluation Understudy，BLEU）值為衡量值，當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。BLEU 值為目前使用最廣泛的機(jī)器翻譯自動(dòng)評(píng)價(jià)指標(biāo)，其具體計(jì)算式如式（1）：

其中BP為長(zhǎng)度懲罰因子，其計(jì)算式如式（2）：

其中：c表示機(jī)器翻譯結(jié)果的長(zhǎng)度；r表示參考譯文的有效長(zhǎng)度；N表示參考譯文與翻譯結(jié)果進(jìn)行匹配時(shí)設(shè)置的N-gram 最大長(zhǎng)度，an為N-gram 匹配準(zhǔn)確率所對(duì)應(yīng)的權(quán)重，Pn表示N-gram匹配的比例。在本文的實(shí)驗(yàn)中，N值設(shè)置為4。

在解碼過(guò)程中使用Beam-search策略，beam size設(shè)置為5。采用基于Moses 的multi-bleu-detok.perl 腳本［16］來(lái)計(jì)算BLEU值，并通過(guò)BLEU值來(lái)衡量翻譯質(zhì)量的好壞。

2.3 基礎(chǔ)語(yǔ)料實(shí)驗(yàn)

使用維漢機(jī)器翻譯平行語(yǔ)料和哈漢機(jī)器翻譯平行語(yǔ)料分別進(jìn)行模型訓(xùn)練。

2.3.1 維-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)

此部分實(shí)驗(yàn)中，訓(xùn)練集包含維漢雙語(yǔ)平行語(yǔ)句對(duì)331763對(duì)，驗(yàn)證集包含700 對(duì)，測(cè)試集包含1000 對(duì)。對(duì)漢語(yǔ)語(yǔ)料進(jìn)行字級(jí)別的處理，對(duì)維吾爾語(yǔ)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置，使用早停機(jī)制，以BLEU 值為衡量值，當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表4 展示了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

表4 維-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)參數(shù)Tab.4 Basic experimental parameters of Uyghur-Chinese machine translation

2.3.2 哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)

此部分實(shí)驗(yàn)中，訓(xùn)練集包含哈漢雙語(yǔ)平行語(yǔ)句對(duì)346371對(duì)，驗(yàn)證集包含700 對(duì)，測(cè)試集包含1000 對(duì)。對(duì)漢語(yǔ)語(yǔ)料進(jìn)行字級(jí)別的處理，對(duì)哈薩克語(yǔ)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置，使用早停機(jī)制，以BLEU 值為衡量值，當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表5 給出了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

表5 哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)參數(shù)Tab.5 Basic experimental parameters of Kazakh-Chinese machine translation

2.3.3 結(jié)果分析

基礎(chǔ)實(shí)驗(yàn)部分訓(xùn)練得到4 個(gè)維-漢機(jī)器翻譯模型和4 個(gè)哈-漢機(jī)器翻譯模型；使用基于Moses 的multi-bleu-detok.perl腳本在對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值，結(jié)果如表6所示。

表6 基礎(chǔ)實(shí)驗(yàn)BLEU值Tab.6 Basic experimental BLEU

從測(cè)試集上的BLEU 值來(lái)看，BPE 處理、音節(jié)切分處理和基于音節(jié)切分的BPE處理三種語(yǔ)料處理方案的表現(xiàn)效果差距不大，BPE處理方案的效果略優(yōu)，音節(jié)切分處理方案的效果則略差一點(diǎn)。

2.4 BME標(biāo)記實(shí)驗(yàn)

此部分實(shí)驗(yàn)使用跟基礎(chǔ)實(shí)驗(yàn)部分相同的語(yǔ)料，針對(duì)音節(jié)切分和基于音節(jié)切分的BPE兩種處理方案進(jìn)行改進(jìn)。引入本文1.4節(jié)中的BME標(biāo)記方案對(duì)語(yǔ)料進(jìn)行進(jìn)一步處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置，使用早停機(jī)制，以BLEU 值為衡量值，當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表7 給出了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

表7 BME標(biāo)記實(shí)驗(yàn)參數(shù)Tab.7 BME tagging experimental parameters

實(shí)驗(yàn)訓(xùn)練得到2 個(gè)維-漢機(jī)器翻譯模型和2 個(gè)哈-漢機(jī)器翻譯模型；使用基于Moses 的multi-bleu-detok.perl 腳本在對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值，結(jié)果如表8所示。

表8 BME標(biāo)記實(shí)驗(yàn)BLEU值Tab.8 BME tagging experimental BLEU

從測(cè)試集上的BLEU 值來(lái)看，引入BME標(biāo)記之后，翻譯質(zhì)量有一個(gè)比較高的提升。維-漢翻譯部分音節(jié)切分處理的BLEU 值為50.65，在引入BME 標(biāo)記之后BLEU 值為54.21，BLEU 值提升了3.56；基于音節(jié)切分的BPE 處理的BLEU 值為51.09，在引入BME 標(biāo)記之后BLEU 值為54.32，BLEU 值提升了3.23。哈-漢翻譯部分音節(jié)切分處理的BLEU 值為50.91，在引入BME標(biāo)記之后BLEU值為54.42，BLEU 值提升了3.51；基于音節(jié)切分的BPE 處理的BLEU 值為51.26，在引入BME標(biāo)記之后BLEU值為54.57，BLEU值提升了3.31。

2.5 語(yǔ)料擴(kuò)充實(shí)驗(yàn)

在此部分實(shí)驗(yàn)中，將維-漢和哈-漢平行語(yǔ)料的訓(xùn)練集和驗(yàn)證集分別進(jìn)行混合，而后對(duì)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理以及音節(jié)BME 標(biāo)記處理。實(shí)驗(yàn)采用2.2 節(jié)中的基礎(chǔ)設(shè)置，使用早停機(jī)制，以BLEU 值為衡量值，當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表9展示了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

表9 語(yǔ)料擴(kuò)充實(shí)驗(yàn)參數(shù)Tab.9 Corpus expansion experimental parameters

實(shí)驗(yàn)訓(xùn)練得到6 個(gè)維&哈-漢跨語(yǔ)言機(jī)器翻譯模型；使用基于Moses 的multi-bleu-detok.perl 腳本分別在維語(yǔ)和哈語(yǔ)對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值，結(jié)果如表10所示。

表10 語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU值Tab.10 Corpus expansion experimental BLEU

從測(cè)試集上的BLEU 值來(lái)看，使用詞級(jí)別處理方式處理語(yǔ)料無(wú)法充分挖掘維哈語(yǔ)料的相似信息，甚至?xí)?lái)噪聲，從而導(dǎo)致了相較于基礎(chǔ)實(shí)驗(yàn)而言BLEU 值不升反降；使用其他語(yǔ)料處理方式時(shí)，能充分挖掘維哈語(yǔ)料的相似信息，因此BLEU值相較于基礎(chǔ)實(shí)驗(yàn)而言都會(huì)有一定的提升。其中，本文提出的基于音節(jié)切分的BPE處理方式挖掘維哈語(yǔ)料的相似信息的效果最好，而且引入BME 標(biāo)記進(jìn)行音節(jié)輸入消歧對(duì)翻譯質(zhì)量的提升也產(chǎn)生了很大的幫助。

2.6 實(shí)驗(yàn)整體分析

表6 和表8 展示了維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)的BLEU值，表10展示了語(yǔ)料擴(kuò)充實(shí)驗(yàn)的維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯的BLEU值。

維-漢機(jī)器翻譯實(shí)驗(yàn)中，詞級(jí)別處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為46.13，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為45.02，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值降低了1.11；BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.24，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.31，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.07；音節(jié)切分處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為50.65，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.45，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.8；基于音節(jié)切分的BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.09，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為53.18，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了2.09；音節(jié)切分（BME）處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.21，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.47，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.26；基于音節(jié)切分的BPE 處理（BME）基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.32，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.79，進(jìn)行語(yǔ)料擴(kuò)充后BLEU值提升了1.47。

哈-漢機(jī)器翻譯實(shí)驗(yàn)中，詞級(jí)別處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為46.38，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為45.07，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值降低了1.31；BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.46，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.48，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.02；音節(jié)切分處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為50.91，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.51，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.6；基于音節(jié)切分的BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.26，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為53.23，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.97；音節(jié)切分（BME）處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.42，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.56，進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.14；基于音節(jié)切分的BPE 處理（BME）基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.57，語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.82，進(jìn)行語(yǔ)料擴(kuò)充后BLEU值提升了1.25。

綜合實(shí)驗(yàn)效果來(lái)看，當(dāng)僅采用詞級(jí)別處理時(shí)，擴(kuò)充實(shí)驗(yàn)中挖掘到的維語(yǔ)和哈語(yǔ)的相似信息較少，甚至都無(wú)法抵消語(yǔ)料混合所帶來(lái)的噪聲影響，從而導(dǎo)致BLEU 值不升反降；而采用特殊的語(yǔ)料處理方式時(shí)，語(yǔ)料擴(kuò)充實(shí)驗(yàn)中的BLEU 都有一定程度的提升，采用本文提出的基于音節(jié)切分的BPE 處理方案進(jìn)行語(yǔ)料擴(kuò)充實(shí)驗(yàn)時(shí)BLEU 值提升最高；有效說(shuō)明了本文提出的基于音節(jié)切分的BPE處理方案能最大限度地挖掘并利用維語(yǔ)和哈語(yǔ)的相似信息，從而為維&哈-漢跨語(yǔ)言機(jī)器翻譯模型的訓(xùn)練帶來(lái)極大的增益；另外，根據(jù)2.4節(jié)中對(duì)BME標(biāo)記實(shí)驗(yàn)結(jié)果的分析可知引入BME 標(biāo)記對(duì)切分的音節(jié)進(jìn)行標(biāo)注，能很好地消除音節(jié)輸入所帶來(lái)的一些歧義，從而能更有效地提升維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯的翻譯質(zhì)量。

3 結(jié)語(yǔ)

本文為解決維吾爾語(yǔ)、哈薩克語(yǔ)到漢語(yǔ)等低資源語(yǔ)言機(jī)器翻譯的任務(wù)上一直存在的標(biāo)注數(shù)據(jù)資源匱乏的問(wèn)題，對(duì)維&哈語(yǔ)料相似性挖掘的方法進(jìn)行探究。采用BPE 處理、音節(jié)切分處理以及基于音節(jié)切分的BPE處理三種語(yǔ)料處理方式對(duì)語(yǔ)料進(jìn)行處理以挖掘維語(yǔ)和哈語(yǔ)的相似信息并加以利用；引入BME 標(biāo)記對(duì)切分的音節(jié)進(jìn)行標(biāo)注，以消除音節(jié)輸入所帶來(lái)的一些歧義。

通過(guò)對(duì)基礎(chǔ)實(shí)驗(yàn)與語(yǔ)料擴(kuò)充實(shí)驗(yàn)中訓(xùn)練所得的模型進(jìn)行對(duì)比，驗(yàn)證了本文提出的基于音節(jié)切分的BPE 處理方法的有效性以及引入BME標(biāo)記所帶來(lái)的增益效果。

在后續(xù)的研究中，我們將基于當(dāng)前實(shí)驗(yàn)，探究BPE處理和基于音節(jié)切分的BPE處理兩種方案中子詞詞表大小對(duì)翻譯質(zhì)量的影響。同時(shí)，后續(xù)也會(huì)引入烏茲別克語(yǔ)和土耳其語(yǔ)等語(yǔ)言，在本文研究的基礎(chǔ)上進(jìn)行進(jìn)一步的研究，以探究更多相似語(yǔ)種語(yǔ)料擴(kuò)充的可能性。