李 燦,楊雅婷,馬玉鵬*,董瑞
(1.中國(guó)科學(xué)院新疆理化技術(shù)研究所,烏魯木齊 830000;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室(中國(guó)科學(xué)院新疆理化技術(shù)研究所),烏魯木齊 830000)
近年來(lái),隨著長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[1-2]、注意力(Attention)機(jī)制[3-5]、Transformer模型[6-7]的出現(xiàn),機(jī)器翻譯的水平取得了長(zhǎng)足的進(jìn)步。在英法、中英這樣資源豐富的翻譯任務(wù)上,機(jī)器翻譯已經(jīng)取得了非常不錯(cuò)的效果。然而,神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)的成功往往依賴于大量高質(zhì)量的雙語(yǔ)語(yǔ)料作為訓(xùn)練數(shù)據(jù)。但是,諸如維吾爾語(yǔ)、哈薩克語(yǔ)等這些小語(yǔ)種,提供足夠多的雙語(yǔ)數(shù)據(jù)比較困難。甚至有些語(yǔ)言對(duì)幾乎沒(méi)有任何機(jī)器翻譯雙語(yǔ)平行語(yǔ)料,這種情況下通用框架的NMT就顯得非常乏力。
隨著神經(jīng)機(jī)器翻譯技術(shù)的不斷進(jìn)步,學(xué)者們漸漸開(kāi)始加強(qiáng)對(duì)低資源語(yǔ)言機(jī)器翻譯問(wèn)題的探索與研究。Zoph等[8]用大量的英法雙語(yǔ)語(yǔ)料訓(xùn)練出模型之后,在烏茲別克語(yǔ)-英語(yǔ)和土耳其語(yǔ)-英語(yǔ)雙語(yǔ)機(jī)器翻譯語(yǔ)料上分別進(jìn)行進(jìn)一步優(yōu)化,成功提升了烏茲別克語(yǔ)到英語(yǔ)以及土耳其語(yǔ)到英語(yǔ)的翻譯質(zhì)量。Nguyen等[9]將字節(jié)對(duì)編碼(Byte Pair Encoding,BPE)分詞方法用于遷移學(xué)習(xí),使用土耳其語(yǔ)-英語(yǔ)、烏茲別克語(yǔ)-英語(yǔ)和維吾爾語(yǔ)-英語(yǔ)平行語(yǔ)料,進(jìn)行BPE 處理之后以遷移學(xué)習(xí)的方法訓(xùn)練出用于機(jī)器翻譯的模型,在土耳其語(yǔ)-英語(yǔ)、烏茲別克語(yǔ)-英語(yǔ)和維吾爾語(yǔ)-英語(yǔ)三者的機(jī)器翻譯上取得了顯著效果。Gu 等[10]提出了基于元學(xué)習(xí)的神經(jīng)機(jī)器翻譯(Metalearning for Neural Machine Translation,MetaNMT),將元學(xué)習(xí)思維用于低資源語(yǔ)言機(jī)器翻譯,以18 種歐洲語(yǔ)言作為源語(yǔ)言,分別為保加利亞文(Bg)、捷克文(Cs)、丹麥文(Da)、德文(De)、希臘文(El)、加泰羅尼亞文(Es)、愛(ài)沙尼亞文(Et)、法文(Fr)、匈牙利文(Hu)、意大利文(It)、立陶宛文(Lt)、荷蘭文(Nl)、波蘭文(Pl)、葡萄牙文(Pt)、斯洛伐克文(Sk)、斯洛文尼亞文(Sl)、瑞典文(Sv)和俄文(Ru),以5 種不同語(yǔ)言作為目標(biāo)語(yǔ)言,分別為羅馬尼亞文(Ro)、拉脫維亞文(Lv)、芬蘭文(Fi)、土耳其文(Tr)和朝鮮文(Ko),取得了優(yōu)于遷移學(xué)習(xí)的效果。低資源語(yǔ)言機(jī)器翻譯發(fā)展到現(xiàn)階段,主要涉及到元學(xué)習(xí)和遷移學(xué)習(xí)的方法,然而低資源語(yǔ)言標(biāo)注數(shù)據(jù)的貧乏問(wèn)題,卻一直缺乏比較好的解決方案。在此種情況下,研究如何對(duì)低資源語(yǔ)言機(jī)器翻譯平行語(yǔ)料庫(kù)進(jìn)行擴(kuò)充則顯得尤為重要。
本文選取維吾爾語(yǔ)和哈薩克語(yǔ)作為相似語(yǔ)言對(duì),對(duì)低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法進(jìn)行研究和探索。對(duì)維吾爾語(yǔ)-漢語(yǔ)(維-漢)、哈薩克語(yǔ)-漢語(yǔ)(哈-漢)平行語(yǔ)料和維吾爾語(yǔ)&哈薩克語(yǔ)混合-漢語(yǔ)平行語(yǔ)料分別使用詞級(jí)別切分、BPE、音節(jié)切分以及本文提出的基于音節(jié)切分的BPE 四種對(duì)語(yǔ)料的處理方式進(jìn)行處理,以深度挖掘相似語(yǔ)種間的語(yǔ)言相似性;引入“開(kāi)始-中部-結(jié)束(Begin-Middle-End,BME)”序列標(biāo)注方法對(duì)切分的音節(jié)進(jìn)行標(biāo)注,以消除音節(jié)輸入所帶來(lái)的一些歧義;利用Sockeye開(kāi)源神經(jīng)機(jī)器翻譯框架[11]對(duì)NMT模型進(jìn)行訓(xùn)練;對(duì)訓(xùn)練所得NMT模型的性能進(jìn)行比較,以探求有效地挖掘語(yǔ)種間相似信息的方法,尋求有效的低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法。
維吾爾語(yǔ)和哈薩克語(yǔ)同屬于阿爾泰語(yǔ)系中的突厥語(yǔ)族,二者非常相似;在詞級(jí)別上維語(yǔ)和哈語(yǔ)存在一定的相似表達(dá),在字節(jié)級(jí)別和音節(jié)級(jí)別上二者更是幾乎完全相同。
基于以上理論基礎(chǔ),本文采用字節(jié)對(duì)編碼(BPE)處理和音節(jié)切分處理兩種特殊的語(yǔ)料處理方案,并提出基于音節(jié)切分的BPE 處理的語(yǔ)料編解碼方案,以深度挖掘哈語(yǔ)與維語(yǔ)相似的信息,充分利用語(yǔ)料擴(kuò)充所帶來(lái)的效果,對(duì)維漢神經(jīng)機(jī)器翻譯和哈漢神經(jīng)機(jī)器翻譯模型的訓(xùn)練帶來(lái)增益。
另外,在實(shí)驗(yàn)中對(duì)翻譯錯(cuò)誤的語(yǔ)句對(duì)進(jìn)行研究發(fā)現(xiàn),當(dāng)維語(yǔ)或哈語(yǔ)作為音節(jié)輸入時(shí),會(huì)出現(xiàn)一些歧義問(wèn)題,因此對(duì)單詞的音節(jié)進(jìn)行了BME標(biāo)記處理,以消除這些歧義。
圖1 展示了本文實(shí)驗(yàn)中所用到的所有語(yǔ)料處理方案,以下對(duì)相關(guān)方法進(jìn)行一一介紹。
BPE 算法最早是一種數(shù)據(jù)壓縮算法,由Sennrich 等[12]引入到自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域并很快得到推廣。BPE算法可以有效地平衡詞匯表大小和步數(shù)(編碼句子所需的token 數(shù)量),簡(jiǎn)單有效,因而成為了目前NLP 領(lǐng)域最流行的字節(jié)編碼算法,其最基本的做法是將最常見(jiàn)的一對(duì)連續(xù)字節(jié)數(shù)據(jù)替換為該數(shù)據(jù)中不存在的字節(jié),在后期使用時(shí)再使用一個(gè)替換表來(lái)重建原始數(shù)據(jù)。
BPE算法包含三個(gè)部分:獲取子詞詞表,編碼,解碼。
1.1.1 獲取子詞詞表
獲取子詞詞表的操作步驟如下:
1)準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料;
2)確定期望的子詞詞表的大??;
3)將單詞拆分為字符序列并在末尾添加后綴“”,并統(tǒng)計(jì)單詞頻率;
4)統(tǒng)計(jì)每一個(gè)連續(xù)字節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞;
5)重復(fù)第4)步直到達(dá)到第2)步設(shè)定的子詞詞表大小或下一個(gè)最高頻的字節(jié)對(duì)出現(xiàn)頻率為1。
1.1.2 編碼
將得到的子詞詞表按照子詞長(zhǎng)度由大到小排序。編碼時(shí),對(duì)于每個(gè)單詞,遍歷排好序的子詞詞表尋找是否有token是當(dāng)前單詞的子字符串,如果有,則該token 是表示單詞的tokens之一。從最長(zhǎng)的token 迭代到最短的token,嘗試將每個(gè)單詞中的子字符串替換為token。最終,將迭代所有的tokens,并將所有子字符串替換為tokens。如果仍然有子字符串沒(méi)被替換但所有token都已迭代完畢,則將剩余的子詞替換為特殊token,如
圖2 BPE算法編碼過(guò)程示意圖Fig.2 Schematic diagram of BPE algorithm coding process
編碼的計(jì)算量很大。在實(shí)踐中,可以pre-tokenize 所有單詞,并在詞典中保存單詞tokenize 的結(jié)果,如若發(fā)現(xiàn)字典中不存在的未知單詞,則應(yīng)用上述編碼方法對(duì)單詞進(jìn)行tokenize,然后將新單詞的tokenization添加到字典中備用。
1.1.3 解碼
解碼過(guò)程比較簡(jiǎn)單,如果相鄰子詞間沒(méi)有中止符,則將兩子詞直接拼接,否則兩子詞之間添加分隔符。
音節(jié)是最小的語(yǔ)音結(jié)構(gòu),是人的聽(tīng)覺(jué)能夠自然感受到的最小語(yǔ)音片段。每一種語(yǔ)言都有自己的發(fā)音習(xí)慣和自己的語(yǔ)音特點(diǎn)[13]。漢語(yǔ)中的每一個(gè)漢字都對(duì)應(yīng)一個(gè)音節(jié),每個(gè)音節(jié)都是由聲調(diào)、韻母和聲母組成。在維吾爾語(yǔ)中,一個(gè)音節(jié)一般由一個(gè)元音音素單獨(dú)構(gòu)成或與其他輔音音素結(jié)合構(gòu)成。維吾爾語(yǔ)中,一共有32 個(gè)字母,其中包含24 個(gè)輔音和8 個(gè)元音,這32 個(gè)字母在詞語(yǔ)中的位置大概有130 種形式,另外包含一個(gè)特殊符號(hào)Hamze。當(dāng)一個(gè)元音在詞中表示另一個(gè)音節(jié)的開(kāi)始或者當(dāng)其出現(xiàn)在詞首時(shí),需要附加Hamze。Hamze 是一個(gè)新音節(jié)開(kāi)始或切分的標(biāo)志[14]。
維吾爾語(yǔ)固有的音節(jié)結(jié)構(gòu)是(起音)-領(lǐng)音-(收音),其中領(lǐng)音必須是元音,音節(jié)中可以沒(méi)有起音和收音,但是不能沒(méi)有領(lǐng)音[15]。目前的研究結(jié)果表明,現(xiàn)代維吾爾語(yǔ)的音節(jié)類(lèi)型一共有12種,如表1所示,其中,c(consonant)表示輔音,v(vowel)表示元音。
表1 維吾爾語(yǔ)音節(jié)類(lèi)型Tab.1 Syllable types of Uyghur
如表1 所示,7~12 號(hào)音節(jié)結(jié)構(gòu)用于記錄外來(lái)詞;其中10號(hào)和11 號(hào)音節(jié)結(jié)構(gòu)都包含2 個(gè)元音,它們用于記錄來(lái)自漢語(yǔ)等語(yǔ)言中有2個(gè)元音的詞語(yǔ)。基于表1中的音節(jié)類(lèi)型[14],通過(guò)人工分析,可以大致總結(jié)出29種音節(jié)切分規(guī)則。
在本文的實(shí)驗(yàn)中依照總結(jié)得出的29 種切分規(guī)則設(shè)計(jì)維吾爾語(yǔ)自動(dòng)切分工具對(duì)語(yǔ)料進(jìn)行自動(dòng)音節(jié)切分。具體做法為:采用Hamze 對(duì)維吾爾語(yǔ)詞語(yǔ)進(jìn)行切分→從維吾爾詞語(yǔ)的詞尾開(kāi)始遍歷→查找詞語(yǔ)的邊界標(biāo)志cv→檢查音節(jié)結(jié)構(gòu)(有問(wèn)題則進(jìn)行修復(fù))。把Hamze符號(hào)看成音節(jié)開(kāi)始的標(biāo)志,首先用Hamze對(duì)維吾爾文詞語(yǔ)進(jìn)行切分;然后,再對(duì)切分之后的每一個(gè)分塊進(jìn)行音節(jié)切分——從維吾爾文詞語(yǔ)的詞尾開(kāi)始遍歷,每當(dāng)遇到cv(先遇到v然后遇到c)時(shí),把c作為音節(jié)邊界進(jìn)行音節(jié)切分;最后,對(duì)音節(jié)結(jié)構(gòu)進(jìn)行檢查,依照規(guī)則庫(kù)和附加輔助音節(jié)庫(kù)對(duì)有問(wèn)題的音節(jié)結(jié)構(gòu)進(jìn)行修復(fù)。
為了探究有效的低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法,本文將以上兩種語(yǔ)料處理方式結(jié)合到一起,稱之為基于音節(jié)切分的BPE。對(duì)BPE算法中獲取子詞詞表部分進(jìn)行調(diào)整,不再統(tǒng)計(jì)每一個(gè)連續(xù)字節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞;而是統(tǒng)計(jì)每一個(gè)連續(xù)音節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞。
在基于音節(jié)切分的BPE方法中獲取子詞詞表的具體步驟如下:
1)準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料;
2)確定期望的子詞詞表的大??;
3)對(duì)語(yǔ)料進(jìn)行自動(dòng)音節(jié)切分處理,將單詞拆分為音節(jié)序列并在末尾添加后綴“”,并統(tǒng)計(jì)單詞頻率;
4)統(tǒng)計(jì)每一個(gè)連續(xù)音節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞;
5)重復(fù)第4)步直到達(dá)到第2)步設(shè)定的子詞詞表大小或下一個(gè)最高頻的音節(jié)對(duì)出現(xiàn)頻率為1。
此方法的編碼和解碼部分與傳統(tǒng)的BPE算法思想及具體操作步驟相同。
為消除音節(jié)作為輸入所帶來(lái)的歧義,本文引入了BME 標(biāo)記方案對(duì)音節(jié)進(jìn)行標(biāo)記。如圖3 所示,將維吾爾語(yǔ)和哈薩克語(yǔ)的音節(jié)的開(kāi)頭標(biāo)記為“B”,音節(jié)的中間部分標(biāo)記為“M”,音節(jié)的末尾部分標(biāo)記為“E”,單獨(dú)的音節(jié)標(biāo)記為“BE”;如圖4 所示,對(duì)漢語(yǔ)按照字級(jí)別進(jìn)行處理,在漢語(yǔ)中,詞的開(kāi)頭標(biāo)記為“B”,詞的中間部分標(biāo)記為“M”,詞的末尾部分標(biāo)記為“E”,單獨(dú)的一個(gè)字標(biāo)記為“BE”。
圖3 維吾爾語(yǔ)BME標(biāo)記示例Fig.3 Examples of Uyghur BME tagging
圖4 漢語(yǔ)BME標(biāo)記示例Fig.4 Examples of Chinese BME tagging
如表2 所示,本文實(shí)驗(yàn)用到的數(shù)據(jù)集包含兩部分:維-漢平行語(yǔ)料采用的是CWMT2015 提供的維漢雙語(yǔ)平行語(yǔ)料。對(duì)語(yǔ)料進(jìn)行數(shù)據(jù)清洗、亂碼過(guò)濾,剔除帶有亂碼或不規(guī)則符號(hào)的語(yǔ)料。然后,將漢語(yǔ)按字切分,進(jìn)行字級(jí)別的處理,并將語(yǔ)料劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分。
由表2 可以看出,最終訓(xùn)練集包含維漢雙語(yǔ)平行語(yǔ)句對(duì)331763 對(duì),驗(yàn)證集包含700 對(duì),測(cè)試集包含1000 對(duì)。哈-漢平行語(yǔ)料進(jìn)行同樣的處理之后得到哈漢雙語(yǔ)平行語(yǔ)句對(duì)訓(xùn)練集346371對(duì),驗(yàn)證集700對(duì),測(cè)試集1000對(duì)。
表2 數(shù)據(jù)集具體信息Tab.2 Specific information of datasets
在本文的實(shí)驗(yàn)中,使用亞馬遜公司基于Apache Mxnet 開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯框架Sockeye。使用Transformer 模型,參數(shù)采用Transformer_base 的設(shè)置(Transformer 一個(gè)比較好的基線設(shè)置)。
如表3所示,編碼端和解碼端的層數(shù)都是6層,采用ReLU激活函數(shù),dropout 均設(shè)置為0.1,學(xué)習(xí)率設(shè)置為0.0002,前饋神經(jīng)網(wǎng)絡(luò)隱層維度設(shè)置為2048,詞向量維度設(shè)置為512,Attention Heads設(shè)置為8。
表3 實(shí)驗(yàn)基本參數(shù)設(shè)置Tab.3 Basic parameter setting of experiment
在訓(xùn)練過(guò)程中使用早停機(jī)制,以雙語(yǔ)評(píng)估替補(bǔ)(BiLingual Evaluation Understudy,BLEU)值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。BLEU 值為目前使用最廣泛的機(jī)器翻譯自動(dòng)評(píng)價(jià)指標(biāo),其具體計(jì)算式如式(1):
其中BP為長(zhǎng)度懲罰因子,其計(jì)算式如式(2):
其中:c表示機(jī)器翻譯結(jié)果的長(zhǎng)度;r表示參考譯文的有效長(zhǎng)度;N表示參考譯文與翻譯結(jié)果進(jìn)行匹配時(shí)設(shè)置的N-gram 最大長(zhǎng)度,an為N-gram 匹配準(zhǔn)確率所對(duì)應(yīng)的權(quán)重,Pn表示N-gram匹配的比例。在本文的實(shí)驗(yàn)中,N值設(shè)置為4。
在解碼過(guò)程中使用Beam-search策略,beam size設(shè)置為5。采用基于Moses 的multi-bleu-detok.perl 腳本[16]來(lái)計(jì)算BLEU值,并通過(guò)BLEU值來(lái)衡量翻譯質(zhì)量的好壞。
使用維漢機(jī)器翻譯平行語(yǔ)料和哈漢機(jī)器翻譯平行語(yǔ)料分別進(jìn)行模型訓(xùn)練。
2.3.1 維-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)
此部分實(shí)驗(yàn)中,訓(xùn)練集包含維漢雙語(yǔ)平行語(yǔ)句對(duì)331763對(duì),驗(yàn)證集包含700 對(duì),測(cè)試集包含1000 對(duì)。對(duì)漢語(yǔ)語(yǔ)料進(jìn)行字級(jí)別的處理,對(duì)維吾爾語(yǔ)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表4 展示了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。
表4 維-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)參數(shù)Tab.4 Basic experimental parameters of Uyghur-Chinese machine translation
2.3.2 哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)
此部分實(shí)驗(yàn)中,訓(xùn)練集包含哈漢雙語(yǔ)平行語(yǔ)句對(duì)346371對(duì),驗(yàn)證集包含700 對(duì),測(cè)試集包含1000 對(duì)。對(duì)漢語(yǔ)語(yǔ)料進(jìn)行字級(jí)別的處理,對(duì)哈薩克語(yǔ)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表5 給出了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。
表5 哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)參數(shù)Tab.5 Basic experimental parameters of Kazakh-Chinese machine translation
2.3.3 結(jié)果分析
基礎(chǔ)實(shí)驗(yàn)部分訓(xùn)練得到4 個(gè)維-漢機(jī)器翻譯模型和4 個(gè)哈-漢機(jī)器翻譯模型;使用基于Moses 的multi-bleu-detok.perl腳本在對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值,結(jié)果如表6所示。
表6 基礎(chǔ)實(shí)驗(yàn)BLEU值Tab.6 Basic experimental BLEU
從測(cè)試集上的BLEU 值來(lái)看,BPE 處理、音節(jié)切分處理和基于音節(jié)切分的BPE處理三種語(yǔ)料處理方案的表現(xiàn)效果差距不大,BPE處理方案的效果略優(yōu),音節(jié)切分處理方案的效果則略差一點(diǎn)。
此部分實(shí)驗(yàn)使用跟基礎(chǔ)實(shí)驗(yàn)部分相同的語(yǔ)料,針對(duì)音節(jié)切分和基于音節(jié)切分的BPE兩種處理方案進(jìn)行改進(jìn)。引入本文1.4節(jié)中的BME標(biāo)記方案對(duì)語(yǔ)料進(jìn)行進(jìn)一步處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表7 給出了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。
表7 BME標(biāo)記實(shí)驗(yàn)參數(shù)Tab.7 BME tagging experimental parameters
實(shí)驗(yàn)訓(xùn)練得到2 個(gè)維-漢機(jī)器翻譯模型和2 個(gè)哈-漢機(jī)器翻譯模型;使用基于Moses 的multi-bleu-detok.perl 腳本在對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值,結(jié)果如表8所示。
表8 BME標(biāo)記實(shí)驗(yàn)BLEU值Tab.8 BME tagging experimental BLEU
從測(cè)試集上的BLEU 值來(lái)看,引入BME標(biāo)記之后,翻譯質(zhì)量有一個(gè)比較高的提升。維-漢翻譯部分音節(jié)切分處理的BLEU 值為50.65,在引入BME 標(biāo)記之后BLEU 值為54.21,BLEU 值提升了3.56;基于音節(jié)切分的BPE 處理的BLEU 值為51.09,在引入BME 標(biāo)記之后BLEU 值為54.32,BLEU 值提升了3.23。哈-漢翻譯部分音節(jié)切分處理的BLEU 值為50.91,在引入BME標(biāo)記之后BLEU值為54.42,BLEU 值提升了3.51;基于音節(jié)切分的BPE 處理的BLEU 值為51.26,在引入BME標(biāo)記之后BLEU值為54.57,BLEU值提升了3.31。
在此部分實(shí)驗(yàn)中,將維-漢和哈-漢平行語(yǔ)料的訓(xùn)練集和驗(yàn)證集分別進(jìn)行混合,而后對(duì)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理以及音節(jié)BME 標(biāo)記處理。實(shí)驗(yàn)采用2.2 節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表9展示了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。
表9 語(yǔ)料擴(kuò)充實(shí)驗(yàn)參數(shù)Tab.9 Corpus expansion experimental parameters
實(shí)驗(yàn)訓(xùn)練得到6 個(gè)維&哈-漢跨語(yǔ)言機(jī)器翻譯模型;使用基于Moses 的multi-bleu-detok.perl 腳本分別在維語(yǔ)和哈語(yǔ)對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值,結(jié)果如表10所示。
表10 語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU值Tab.10 Corpus expansion experimental BLEU
從測(cè)試集上的BLEU 值來(lái)看,使用詞級(jí)別處理方式處理語(yǔ)料無(wú)法充分挖掘維哈語(yǔ)料的相似信息,甚至?xí)?lái)噪聲,從而導(dǎo)致了相較于基礎(chǔ)實(shí)驗(yàn)而言BLEU 值不升反降;使用其他語(yǔ)料處理方式時(shí),能充分挖掘維哈語(yǔ)料的相似信息,因此BLEU值相較于基礎(chǔ)實(shí)驗(yàn)而言都會(huì)有一定的提升。其中,本文提出的基于音節(jié)切分的BPE處理方式挖掘維哈語(yǔ)料的相似信息的效果最好,而且引入BME 標(biāo)記進(jìn)行音節(jié)輸入消歧對(duì)翻譯質(zhì)量的提升也產(chǎn)生了很大的幫助。
表6 和表8 展示了維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)的BLEU值,表10展示了語(yǔ)料擴(kuò)充實(shí)驗(yàn)的維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯的BLEU值。
維-漢機(jī)器翻譯實(shí)驗(yàn)中,詞級(jí)別處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為46.13,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為45.02,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值降低了1.11;BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.24,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.31,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.07;音節(jié)切分處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為50.65,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.45,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.8;基于音節(jié)切分的BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.09,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為53.18,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了2.09;音節(jié)切分(BME)處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.21,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.47,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.26;基于音節(jié)切分的BPE 處理(BME)基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.32,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.79,進(jìn)行語(yǔ)料擴(kuò)充后BLEU值提升了1.47。
哈-漢機(jī)器翻譯實(shí)驗(yàn)中,詞級(jí)別處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為46.38,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為45.07,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值降低了1.31;BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.46,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.48,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.02;音節(jié)切分處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為50.91,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.51,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.6;基于音節(jié)切分的BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.26,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為53.23,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.97;音節(jié)切分(BME)處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.42,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.56,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.14;基于音節(jié)切分的BPE 處理(BME)基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.57,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.82,進(jìn)行語(yǔ)料擴(kuò)充后BLEU值提升了1.25。
綜合實(shí)驗(yàn)效果來(lái)看,當(dāng)僅采用詞級(jí)別處理時(shí),擴(kuò)充實(shí)驗(yàn)中挖掘到的維語(yǔ)和哈語(yǔ)的相似信息較少,甚至都無(wú)法抵消語(yǔ)料混合所帶來(lái)的噪聲影響,從而導(dǎo)致BLEU 值不升反降;而采用特殊的語(yǔ)料處理方式時(shí),語(yǔ)料擴(kuò)充實(shí)驗(yàn)中的BLEU 都有一定程度的提升,采用本文提出的基于音節(jié)切分的BPE 處理方案進(jìn)行語(yǔ)料擴(kuò)充實(shí)驗(yàn)時(shí)BLEU 值提升最高;有效說(shuō)明了本文提出的基于音節(jié)切分的BPE處理方案能最大限度地挖掘并利用維語(yǔ)和哈語(yǔ)的相似信息,從而為維&哈-漢跨語(yǔ)言機(jī)器翻譯模型的訓(xùn)練帶來(lái)極大的增益;另外,根據(jù)2.4節(jié)中對(duì)BME標(biāo)記實(shí)驗(yàn)結(jié)果的分析可知引入BME 標(biāo)記對(duì)切分的音節(jié)進(jìn)行標(biāo)注,能很好地消除音節(jié)輸入所帶來(lái)的一些歧義,從而能更有效地提升維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯的翻譯質(zhì)量。
本文為解決維吾爾語(yǔ)、哈薩克語(yǔ)到漢語(yǔ)等低資源語(yǔ)言機(jī)器翻譯的任務(wù)上一直存在的標(biāo)注數(shù)據(jù)資源匱乏的問(wèn)題,對(duì)維&哈語(yǔ)料相似性挖掘的方法進(jìn)行探究。采用BPE 處理、音節(jié)切分處理以及基于音節(jié)切分的BPE處理三種語(yǔ)料處理方式對(duì)語(yǔ)料進(jìn)行處理以挖掘維語(yǔ)和哈語(yǔ)的相似信息并加以利用;引入BME 標(biāo)記對(duì)切分的音節(jié)進(jìn)行標(biāo)注,以消除音節(jié)輸入所帶來(lái)的一些歧義。
通過(guò)對(duì)基礎(chǔ)實(shí)驗(yàn)與語(yǔ)料擴(kuò)充實(shí)驗(yàn)中訓(xùn)練所得的模型進(jìn)行對(duì)比,驗(yàn)證了本文提出的基于音節(jié)切分的BPE 處理方法的有效性以及引入BME標(biāo)記所帶來(lái)的增益效果。
在后續(xù)的研究中,我們將基于當(dāng)前實(shí)驗(yàn),探究BPE處理和基于音節(jié)切分的BPE處理兩種方案中子詞詞表大小對(duì)翻譯質(zhì)量的影響。同時(shí),后續(xù)也會(huì)引入烏茲別克語(yǔ)和土耳其語(yǔ)等語(yǔ)言,在本文研究的基礎(chǔ)上進(jìn)行進(jìn)一步的研究,以探究更多相似語(yǔ)種語(yǔ)料擴(kuò)充的可能性。