亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)種相似性挖掘的神經(jīng)機(jī)器翻譯語(yǔ)料庫(kù)擴(kuò)充方法

        2021-12-07 10:08:54楊雅婷馬玉鵬董瑞
        計(jì)算機(jī)應(yīng)用 2021年11期
        關(guān)鍵詞:詞表維吾爾語(yǔ)音節(jié)

        李 燦,楊雅婷,馬玉鵬*,董瑞

        (1.中國(guó)科學(xué)院新疆理化技術(shù)研究所,烏魯木齊 830000;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室(中國(guó)科學(xué)院新疆理化技術(shù)研究所),烏魯木齊 830000)

        0 引言

        近年來(lái),隨著長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[1-2]、注意力(Attention)機(jī)制[3-5]、Transformer模型[6-7]的出現(xiàn),機(jī)器翻譯的水平取得了長(zhǎng)足的進(jìn)步。在英法、中英這樣資源豐富的翻譯任務(wù)上,機(jī)器翻譯已經(jīng)取得了非常不錯(cuò)的效果。然而,神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)的成功往往依賴于大量高質(zhì)量的雙語(yǔ)語(yǔ)料作為訓(xùn)練數(shù)據(jù)。但是,諸如維吾爾語(yǔ)、哈薩克語(yǔ)等這些小語(yǔ)種,提供足夠多的雙語(yǔ)數(shù)據(jù)比較困難。甚至有些語(yǔ)言對(duì)幾乎沒(méi)有任何機(jī)器翻譯雙語(yǔ)平行語(yǔ)料,這種情況下通用框架的NMT就顯得非常乏力。

        隨著神經(jīng)機(jī)器翻譯技術(shù)的不斷進(jìn)步,學(xué)者們漸漸開(kāi)始加強(qiáng)對(duì)低資源語(yǔ)言機(jī)器翻譯問(wèn)題的探索與研究。Zoph等[8]用大量的英法雙語(yǔ)語(yǔ)料訓(xùn)練出模型之后,在烏茲別克語(yǔ)-英語(yǔ)和土耳其語(yǔ)-英語(yǔ)雙語(yǔ)機(jī)器翻譯語(yǔ)料上分別進(jìn)行進(jìn)一步優(yōu)化,成功提升了烏茲別克語(yǔ)到英語(yǔ)以及土耳其語(yǔ)到英語(yǔ)的翻譯質(zhì)量。Nguyen等[9]將字節(jié)對(duì)編碼(Byte Pair Encoding,BPE)分詞方法用于遷移學(xué)習(xí),使用土耳其語(yǔ)-英語(yǔ)、烏茲別克語(yǔ)-英語(yǔ)和維吾爾語(yǔ)-英語(yǔ)平行語(yǔ)料,進(jìn)行BPE 處理之后以遷移學(xué)習(xí)的方法訓(xùn)練出用于機(jī)器翻譯的模型,在土耳其語(yǔ)-英語(yǔ)、烏茲別克語(yǔ)-英語(yǔ)和維吾爾語(yǔ)-英語(yǔ)三者的機(jī)器翻譯上取得了顯著效果。Gu 等[10]提出了基于元學(xué)習(xí)的神經(jīng)機(jī)器翻譯(Metalearning for Neural Machine Translation,MetaNMT),將元學(xué)習(xí)思維用于低資源語(yǔ)言機(jī)器翻譯,以18 種歐洲語(yǔ)言作為源語(yǔ)言,分別為保加利亞文(Bg)、捷克文(Cs)、丹麥文(Da)、德文(De)、希臘文(El)、加泰羅尼亞文(Es)、愛(ài)沙尼亞文(Et)、法文(Fr)、匈牙利文(Hu)、意大利文(It)、立陶宛文(Lt)、荷蘭文(Nl)、波蘭文(Pl)、葡萄牙文(Pt)、斯洛伐克文(Sk)、斯洛文尼亞文(Sl)、瑞典文(Sv)和俄文(Ru),以5 種不同語(yǔ)言作為目標(biāo)語(yǔ)言,分別為羅馬尼亞文(Ro)、拉脫維亞文(Lv)、芬蘭文(Fi)、土耳其文(Tr)和朝鮮文(Ko),取得了優(yōu)于遷移學(xué)習(xí)的效果。低資源語(yǔ)言機(jī)器翻譯發(fā)展到現(xiàn)階段,主要涉及到元學(xué)習(xí)和遷移學(xué)習(xí)的方法,然而低資源語(yǔ)言標(biāo)注數(shù)據(jù)的貧乏問(wèn)題,卻一直缺乏比較好的解決方案。在此種情況下,研究如何對(duì)低資源語(yǔ)言機(jī)器翻譯平行語(yǔ)料庫(kù)進(jìn)行擴(kuò)充則顯得尤為重要。

        本文選取維吾爾語(yǔ)和哈薩克語(yǔ)作為相似語(yǔ)言對(duì),對(duì)低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法進(jìn)行研究和探索。對(duì)維吾爾語(yǔ)-漢語(yǔ)(維-漢)、哈薩克語(yǔ)-漢語(yǔ)(哈-漢)平行語(yǔ)料和維吾爾語(yǔ)&哈薩克語(yǔ)混合-漢語(yǔ)平行語(yǔ)料分別使用詞級(jí)別切分、BPE、音節(jié)切分以及本文提出的基于音節(jié)切分的BPE 四種對(duì)語(yǔ)料的處理方式進(jìn)行處理,以深度挖掘相似語(yǔ)種間的語(yǔ)言相似性;引入“開(kāi)始-中部-結(jié)束(Begin-Middle-End,BME)”序列標(biāo)注方法對(duì)切分的音節(jié)進(jìn)行標(biāo)注,以消除音節(jié)輸入所帶來(lái)的一些歧義;利用Sockeye開(kāi)源神經(jīng)機(jī)器翻譯框架[11]對(duì)NMT模型進(jìn)行訓(xùn)練;對(duì)訓(xùn)練所得NMT模型的性能進(jìn)行比較,以探求有效地挖掘語(yǔ)種間相似信息的方法,尋求有效的低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法。

        1 語(yǔ)料相似性挖掘方法

        維吾爾語(yǔ)和哈薩克語(yǔ)同屬于阿爾泰語(yǔ)系中的突厥語(yǔ)族,二者非常相似;在詞級(jí)別上維語(yǔ)和哈語(yǔ)存在一定的相似表達(dá),在字節(jié)級(jí)別和音節(jié)級(jí)別上二者更是幾乎完全相同。

        基于以上理論基礎(chǔ),本文采用字節(jié)對(duì)編碼(BPE)處理和音節(jié)切分處理兩種特殊的語(yǔ)料處理方案,并提出基于音節(jié)切分的BPE 處理的語(yǔ)料編解碼方案,以深度挖掘哈語(yǔ)與維語(yǔ)相似的信息,充分利用語(yǔ)料擴(kuò)充所帶來(lái)的效果,對(duì)維漢神經(jīng)機(jī)器翻譯和哈漢神經(jīng)機(jī)器翻譯模型的訓(xùn)練帶來(lái)增益。

        另外,在實(shí)驗(yàn)中對(duì)翻譯錯(cuò)誤的語(yǔ)句對(duì)進(jìn)行研究發(fā)現(xiàn),當(dāng)維語(yǔ)或哈語(yǔ)作為音節(jié)輸入時(shí),會(huì)出現(xiàn)一些歧義問(wèn)題,因此對(duì)單詞的音節(jié)進(jìn)行了BME標(biāo)記處理,以消除這些歧義。

        圖1 展示了本文實(shí)驗(yàn)中所用到的所有語(yǔ)料處理方案,以下對(duì)相關(guān)方法進(jìn)行一一介紹。

        1.1 字節(jié)對(duì)編碼

        BPE 算法最早是一種數(shù)據(jù)壓縮算法,由Sennrich 等[12]引入到自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域并很快得到推廣。BPE算法可以有效地平衡詞匯表大小和步數(shù)(編碼句子所需的token 數(shù)量),簡(jiǎn)單有效,因而成為了目前NLP 領(lǐng)域最流行的字節(jié)編碼算法,其最基本的做法是將最常見(jiàn)的一對(duì)連續(xù)字節(jié)數(shù)據(jù)替換為該數(shù)據(jù)中不存在的字節(jié),在后期使用時(shí)再使用一個(gè)替換表來(lái)重建原始數(shù)據(jù)。

        BPE算法包含三個(gè)部分:獲取子詞詞表,編碼,解碼。

        1.1.1 獲取子詞詞表

        獲取子詞詞表的操作步驟如下:

        1)準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料;

        2)確定期望的子詞詞表的大??;

        3)將單詞拆分為字符序列并在末尾添加后綴“”,并統(tǒng)計(jì)單詞頻率;

        4)統(tǒng)計(jì)每一個(gè)連續(xù)字節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞;

        5)重復(fù)第4)步直到達(dá)到第2)步設(shè)定的子詞詞表大小或下一個(gè)最高頻的字節(jié)對(duì)出現(xiàn)頻率為1。

        1.1.2 編碼

        將得到的子詞詞表按照子詞長(zhǎng)度由大到小排序。編碼時(shí),對(duì)于每個(gè)單詞,遍歷排好序的子詞詞表尋找是否有token是當(dāng)前單詞的子字符串,如果有,則該token 是表示單詞的tokens之一。從最長(zhǎng)的token 迭代到最短的token,嘗試將每個(gè)單詞中的子字符串替換為token。最終,將迭代所有的tokens,并將所有子字符串替換為tokens。如果仍然有子字符串沒(méi)被替換但所有token都已迭代完畢,則將剩余的子詞替換為特殊token,如。圖2 展示了BPE 算法的編碼過(guò)程,圖中的數(shù)字表示子詞在詞表中的排序。

        圖2 BPE算法編碼過(guò)程示意圖Fig.2 Schematic diagram of BPE algorithm coding process

        編碼的計(jì)算量很大。在實(shí)踐中,可以pre-tokenize 所有單詞,并在詞典中保存單詞tokenize 的結(jié)果,如若發(fā)現(xiàn)字典中不存在的未知單詞,則應(yīng)用上述編碼方法對(duì)單詞進(jìn)行tokenize,然后將新單詞的tokenization添加到字典中備用。

        1.1.3 解碼

        解碼過(guò)程比較簡(jiǎn)單,如果相鄰子詞間沒(méi)有中止符,則將兩子詞直接拼接,否則兩子詞之間添加分隔符。

        1.2 音節(jié)自動(dòng)切分

        音節(jié)是最小的語(yǔ)音結(jié)構(gòu),是人的聽(tīng)覺(jué)能夠自然感受到的最小語(yǔ)音片段。每一種語(yǔ)言都有自己的發(fā)音習(xí)慣和自己的語(yǔ)音特點(diǎn)[13]。漢語(yǔ)中的每一個(gè)漢字都對(duì)應(yīng)一個(gè)音節(jié),每個(gè)音節(jié)都是由聲調(diào)、韻母和聲母組成。在維吾爾語(yǔ)中,一個(gè)音節(jié)一般由一個(gè)元音音素單獨(dú)構(gòu)成或與其他輔音音素結(jié)合構(gòu)成。維吾爾語(yǔ)中,一共有32 個(gè)字母,其中包含24 個(gè)輔音和8 個(gè)元音,這32 個(gè)字母在詞語(yǔ)中的位置大概有130 種形式,另外包含一個(gè)特殊符號(hào)Hamze。當(dāng)一個(gè)元音在詞中表示另一個(gè)音節(jié)的開(kāi)始或者當(dāng)其出現(xiàn)在詞首時(shí),需要附加Hamze。Hamze 是一個(gè)新音節(jié)開(kāi)始或切分的標(biāo)志[14]。

        維吾爾語(yǔ)固有的音節(jié)結(jié)構(gòu)是(起音)-領(lǐng)音-(收音),其中領(lǐng)音必須是元音,音節(jié)中可以沒(méi)有起音和收音,但是不能沒(méi)有領(lǐng)音[15]。目前的研究結(jié)果表明,現(xiàn)代維吾爾語(yǔ)的音節(jié)類(lèi)型一共有12種,如表1所示,其中,c(consonant)表示輔音,v(vowel)表示元音。

        表1 維吾爾語(yǔ)音節(jié)類(lèi)型Tab.1 Syllable types of Uyghur

        如表1 所示,7~12 號(hào)音節(jié)結(jié)構(gòu)用于記錄外來(lái)詞;其中10號(hào)和11 號(hào)音節(jié)結(jié)構(gòu)都包含2 個(gè)元音,它們用于記錄來(lái)自漢語(yǔ)等語(yǔ)言中有2個(gè)元音的詞語(yǔ)。基于表1中的音節(jié)類(lèi)型[14],通過(guò)人工分析,可以大致總結(jié)出29種音節(jié)切分規(guī)則。

        在本文的實(shí)驗(yàn)中依照總結(jié)得出的29 種切分規(guī)則設(shè)計(jì)維吾爾語(yǔ)自動(dòng)切分工具對(duì)語(yǔ)料進(jìn)行自動(dòng)音節(jié)切分。具體做法為:采用Hamze 對(duì)維吾爾語(yǔ)詞語(yǔ)進(jìn)行切分→從維吾爾詞語(yǔ)的詞尾開(kāi)始遍歷→查找詞語(yǔ)的邊界標(biāo)志cv→檢查音節(jié)結(jié)構(gòu)(有問(wèn)題則進(jìn)行修復(fù))。把Hamze符號(hào)看成音節(jié)開(kāi)始的標(biāo)志,首先用Hamze對(duì)維吾爾文詞語(yǔ)進(jìn)行切分;然后,再對(duì)切分之后的每一個(gè)分塊進(jìn)行音節(jié)切分——從維吾爾文詞語(yǔ)的詞尾開(kāi)始遍歷,每當(dāng)遇到cv(先遇到v然后遇到c)時(shí),把c作為音節(jié)邊界進(jìn)行音節(jié)切分;最后,對(duì)音節(jié)結(jié)構(gòu)進(jìn)行檢查,依照規(guī)則庫(kù)和附加輔助音節(jié)庫(kù)對(duì)有問(wèn)題的音節(jié)結(jié)構(gòu)進(jìn)行修復(fù)。

        1.3 基于音節(jié)切分的BPE

        為了探究有效的低資源語(yǔ)言相似語(yǔ)種的機(jī)器翻譯平行語(yǔ)料的擴(kuò)充方法,本文將以上兩種語(yǔ)料處理方式結(jié)合到一起,稱之為基于音節(jié)切分的BPE。對(duì)BPE算法中獲取子詞詞表部分進(jìn)行調(diào)整,不再統(tǒng)計(jì)每一個(gè)連續(xù)字節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞;而是統(tǒng)計(jì)每一個(gè)連續(xù)音節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞。

        在基于音節(jié)切分的BPE方法中獲取子詞詞表的具體步驟如下:

        1)準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料;

        2)確定期望的子詞詞表的大??;

        3)對(duì)語(yǔ)料進(jìn)行自動(dòng)音節(jié)切分處理,將單詞拆分為音節(jié)序列并在末尾添加后綴“”,并統(tǒng)計(jì)單詞頻率;

        4)統(tǒng)計(jì)每一個(gè)連續(xù)音節(jié)對(duì)的出現(xiàn)頻率,選擇最高頻者合并成新的子詞;

        5)重復(fù)第4)步直到達(dá)到第2)步設(shè)定的子詞詞表大小或下一個(gè)最高頻的音節(jié)對(duì)出現(xiàn)頻率為1。

        此方法的編碼和解碼部分與傳統(tǒng)的BPE算法思想及具體操作步驟相同。

        1.4 BME標(biāo)記方案

        為消除音節(jié)作為輸入所帶來(lái)的歧義,本文引入了BME 標(biāo)記方案對(duì)音節(jié)進(jìn)行標(biāo)記。如圖3 所示,將維吾爾語(yǔ)和哈薩克語(yǔ)的音節(jié)的開(kāi)頭標(biāo)記為“B”,音節(jié)的中間部分標(biāo)記為“M”,音節(jié)的末尾部分標(biāo)記為“E”,單獨(dú)的音節(jié)標(biāo)記為“BE”;如圖4 所示,對(duì)漢語(yǔ)按照字級(jí)別進(jìn)行處理,在漢語(yǔ)中,詞的開(kāi)頭標(biāo)記為“B”,詞的中間部分標(biāo)記為“M”,詞的末尾部分標(biāo)記為“E”,單獨(dú)的一個(gè)字標(biāo)記為“BE”。

        圖3 維吾爾語(yǔ)BME標(biāo)記示例Fig.3 Examples of Uyghur BME tagging

        圖4 漢語(yǔ)BME標(biāo)記示例Fig.4 Examples of Chinese BME tagging

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集

        如表2 所示,本文實(shí)驗(yàn)用到的數(shù)據(jù)集包含兩部分:維-漢平行語(yǔ)料采用的是CWMT2015 提供的維漢雙語(yǔ)平行語(yǔ)料。對(duì)語(yǔ)料進(jìn)行數(shù)據(jù)清洗、亂碼過(guò)濾,剔除帶有亂碼或不規(guī)則符號(hào)的語(yǔ)料。然后,將漢語(yǔ)按字切分,進(jìn)行字級(jí)別的處理,并將語(yǔ)料劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分。

        由表2 可以看出,最終訓(xùn)練集包含維漢雙語(yǔ)平行語(yǔ)句對(duì)331763 對(duì),驗(yàn)證集包含700 對(duì),測(cè)試集包含1000 對(duì)。哈-漢平行語(yǔ)料進(jìn)行同樣的處理之后得到哈漢雙語(yǔ)平行語(yǔ)句對(duì)訓(xùn)練集346371對(duì),驗(yàn)證集700對(duì),測(cè)試集1000對(duì)。

        表2 數(shù)據(jù)集具體信息Tab.2 Specific information of datasets

        2.2 實(shí)驗(yàn)基礎(chǔ)設(shè)置

        在本文的實(shí)驗(yàn)中,使用亞馬遜公司基于Apache Mxnet 開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯框架Sockeye。使用Transformer 模型,參數(shù)采用Transformer_base 的設(shè)置(Transformer 一個(gè)比較好的基線設(shè)置)。

        如表3所示,編碼端和解碼端的層數(shù)都是6層,采用ReLU激活函數(shù),dropout 均設(shè)置為0.1,學(xué)習(xí)率設(shè)置為0.0002,前饋神經(jīng)網(wǎng)絡(luò)隱層維度設(shè)置為2048,詞向量維度設(shè)置為512,Attention Heads設(shè)置為8。

        表3 實(shí)驗(yàn)基本參數(shù)設(shè)置Tab.3 Basic parameter setting of experiment

        在訓(xùn)練過(guò)程中使用早停機(jī)制,以雙語(yǔ)評(píng)估替補(bǔ)(BiLingual Evaluation Understudy,BLEU)值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。BLEU 值為目前使用最廣泛的機(jī)器翻譯自動(dòng)評(píng)價(jià)指標(biāo),其具體計(jì)算式如式(1):

        其中BP為長(zhǎng)度懲罰因子,其計(jì)算式如式(2):

        其中:c表示機(jī)器翻譯結(jié)果的長(zhǎng)度;r表示參考譯文的有效長(zhǎng)度;N表示參考譯文與翻譯結(jié)果進(jìn)行匹配時(shí)設(shè)置的N-gram 最大長(zhǎng)度,an為N-gram 匹配準(zhǔn)確率所對(duì)應(yīng)的權(quán)重,Pn表示N-gram匹配的比例。在本文的實(shí)驗(yàn)中,N值設(shè)置為4。

        在解碼過(guò)程中使用Beam-search策略,beam size設(shè)置為5。采用基于Moses 的multi-bleu-detok.perl 腳本[16]來(lái)計(jì)算BLEU值,并通過(guò)BLEU值來(lái)衡量翻譯質(zhì)量的好壞。

        2.3 基礎(chǔ)語(yǔ)料實(shí)驗(yàn)

        使用維漢機(jī)器翻譯平行語(yǔ)料和哈漢機(jī)器翻譯平行語(yǔ)料分別進(jìn)行模型訓(xùn)練。

        2.3.1 維-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)

        此部分實(shí)驗(yàn)中,訓(xùn)練集包含維漢雙語(yǔ)平行語(yǔ)句對(duì)331763對(duì),驗(yàn)證集包含700 對(duì),測(cè)試集包含1000 對(duì)。對(duì)漢語(yǔ)語(yǔ)料進(jìn)行字級(jí)別的處理,對(duì)維吾爾語(yǔ)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表4 展示了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

        表4 維-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)參數(shù)Tab.4 Basic experimental parameters of Uyghur-Chinese machine translation

        2.3.2 哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)

        此部分實(shí)驗(yàn)中,訓(xùn)練集包含哈漢雙語(yǔ)平行語(yǔ)句對(duì)346371對(duì),驗(yàn)證集包含700 對(duì),測(cè)試集包含1000 對(duì)。對(duì)漢語(yǔ)語(yǔ)料進(jìn)行字級(jí)別的處理,對(duì)哈薩克語(yǔ)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表5 給出了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

        表5 哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)參數(shù)Tab.5 Basic experimental parameters of Kazakh-Chinese machine translation

        2.3.3 結(jié)果分析

        基礎(chǔ)實(shí)驗(yàn)部分訓(xùn)練得到4 個(gè)維-漢機(jī)器翻譯模型和4 個(gè)哈-漢機(jī)器翻譯模型;使用基于Moses 的multi-bleu-detok.perl腳本在對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值,結(jié)果如表6所示。

        表6 基礎(chǔ)實(shí)驗(yàn)BLEU值Tab.6 Basic experimental BLEU

        從測(cè)試集上的BLEU 值來(lái)看,BPE 處理、音節(jié)切分處理和基于音節(jié)切分的BPE處理三種語(yǔ)料處理方案的表現(xiàn)效果差距不大,BPE處理方案的效果略優(yōu),音節(jié)切分處理方案的效果則略差一點(diǎn)。

        2.4 BME標(biāo)記實(shí)驗(yàn)

        此部分實(shí)驗(yàn)使用跟基礎(chǔ)實(shí)驗(yàn)部分相同的語(yǔ)料,針對(duì)音節(jié)切分和基于音節(jié)切分的BPE兩種處理方案進(jìn)行改進(jìn)。引入本文1.4節(jié)中的BME標(biāo)記方案對(duì)語(yǔ)料進(jìn)行進(jìn)一步處理。實(shí)驗(yàn)采用2.2節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表7 給出了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

        表7 BME標(biāo)記實(shí)驗(yàn)參數(shù)Tab.7 BME tagging experimental parameters

        實(shí)驗(yàn)訓(xùn)練得到2 個(gè)維-漢機(jī)器翻譯模型和2 個(gè)哈-漢機(jī)器翻譯模型;使用基于Moses 的multi-bleu-detok.perl 腳本在對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值,結(jié)果如表8所示。

        表8 BME標(biāo)記實(shí)驗(yàn)BLEU值Tab.8 BME tagging experimental BLEU

        從測(cè)試集上的BLEU 值來(lái)看,引入BME標(biāo)記之后,翻譯質(zhì)量有一個(gè)比較高的提升。維-漢翻譯部分音節(jié)切分處理的BLEU 值為50.65,在引入BME 標(biāo)記之后BLEU 值為54.21,BLEU 值提升了3.56;基于音節(jié)切分的BPE 處理的BLEU 值為51.09,在引入BME 標(biāo)記之后BLEU 值為54.32,BLEU 值提升了3.23。哈-漢翻譯部分音節(jié)切分處理的BLEU 值為50.91,在引入BME標(biāo)記之后BLEU值為54.42,BLEU 值提升了3.51;基于音節(jié)切分的BPE 處理的BLEU 值為51.26,在引入BME標(biāo)記之后BLEU值為54.57,BLEU值提升了3.31。

        2.5 語(yǔ)料擴(kuò)充實(shí)驗(yàn)

        在此部分實(shí)驗(yàn)中,將維-漢和哈-漢平行語(yǔ)料的訓(xùn)練集和驗(yàn)證集分別進(jìn)行混合,而后對(duì)語(yǔ)料分別進(jìn)行詞級(jí)別處理、BPE處理、音節(jié)切分處理、基于音節(jié)切分的BPE 處理以及音節(jié)BME 標(biāo)記處理。實(shí)驗(yàn)采用2.2 節(jié)中的基礎(chǔ)設(shè)置,使用早停機(jī)制,以BLEU 值為衡量值,當(dāng)驗(yàn)證集上的BLEU 值10 輪不再提升時(shí)就停止訓(xùn)練。表9展示了實(shí)驗(yàn)中參數(shù)以及實(shí)驗(yàn)過(guò)程。

        表9 語(yǔ)料擴(kuò)充實(shí)驗(yàn)參數(shù)Tab.9 Corpus expansion experimental parameters

        實(shí)驗(yàn)訓(xùn)練得到6 個(gè)維&哈-漢跨語(yǔ)言機(jī)器翻譯模型;使用基于Moses 的multi-bleu-detok.perl 腳本分別在維語(yǔ)和哈語(yǔ)對(duì)應(yīng)的測(cè)試集上計(jì)算BLEU值,結(jié)果如表10所示。

        表10 語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU值Tab.10 Corpus expansion experimental BLEU

        從測(cè)試集上的BLEU 值來(lái)看,使用詞級(jí)別處理方式處理語(yǔ)料無(wú)法充分挖掘維哈語(yǔ)料的相似信息,甚至?xí)?lái)噪聲,從而導(dǎo)致了相較于基礎(chǔ)實(shí)驗(yàn)而言BLEU 值不升反降;使用其他語(yǔ)料處理方式時(shí),能充分挖掘維哈語(yǔ)料的相似信息,因此BLEU值相較于基礎(chǔ)實(shí)驗(yàn)而言都會(huì)有一定的提升。其中,本文提出的基于音節(jié)切分的BPE處理方式挖掘維哈語(yǔ)料的相似信息的效果最好,而且引入BME 標(biāo)記進(jìn)行音節(jié)輸入消歧對(duì)翻譯質(zhì)量的提升也產(chǎn)生了很大的幫助。

        2.6 實(shí)驗(yàn)整體分析

        表6 和表8 展示了維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯基礎(chǔ)實(shí)驗(yàn)的BLEU值,表10展示了語(yǔ)料擴(kuò)充實(shí)驗(yàn)的維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯的BLEU值。

        維-漢機(jī)器翻譯實(shí)驗(yàn)中,詞級(jí)別處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為46.13,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為45.02,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值降低了1.11;BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.24,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.31,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.07;音節(jié)切分處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為50.65,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.45,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.8;基于音節(jié)切分的BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.09,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為53.18,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了2.09;音節(jié)切分(BME)處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.21,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.47,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.26;基于音節(jié)切分的BPE 處理(BME)基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.32,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.79,進(jìn)行語(yǔ)料擴(kuò)充后BLEU值提升了1.47。

        哈-漢機(jī)器翻譯實(shí)驗(yàn)中,詞級(jí)別處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為46.38,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為45.07,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值降低了1.31;BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.46,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.48,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.02;音節(jié)切分處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為50.91,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為52.51,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.6;基于音節(jié)切分的BPE 處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為51.26,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為53.23,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.97;音節(jié)切分(BME)處理基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.42,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.56,進(jìn)行語(yǔ)料擴(kuò)充后BLEU 值提升了1.14;基于音節(jié)切分的BPE 處理(BME)基礎(chǔ)實(shí)驗(yàn)BLEU 值為54.57,語(yǔ)料擴(kuò)充實(shí)驗(yàn)BLEU 值為55.82,進(jìn)行語(yǔ)料擴(kuò)充后BLEU值提升了1.25。

        綜合實(shí)驗(yàn)效果來(lái)看,當(dāng)僅采用詞級(jí)別處理時(shí),擴(kuò)充實(shí)驗(yàn)中挖掘到的維語(yǔ)和哈語(yǔ)的相似信息較少,甚至都無(wú)法抵消語(yǔ)料混合所帶來(lái)的噪聲影響,從而導(dǎo)致BLEU 值不升反降;而采用特殊的語(yǔ)料處理方式時(shí),語(yǔ)料擴(kuò)充實(shí)驗(yàn)中的BLEU 都有一定程度的提升,采用本文提出的基于音節(jié)切分的BPE 處理方案進(jìn)行語(yǔ)料擴(kuò)充實(shí)驗(yàn)時(shí)BLEU 值提升最高;有效說(shuō)明了本文提出的基于音節(jié)切分的BPE處理方案能最大限度地挖掘并利用維語(yǔ)和哈語(yǔ)的相似信息,從而為維&哈-漢跨語(yǔ)言機(jī)器翻譯模型的訓(xùn)練帶來(lái)極大的增益;另外,根據(jù)2.4節(jié)中對(duì)BME標(biāo)記實(shí)驗(yàn)結(jié)果的分析可知引入BME 標(biāo)記對(duì)切分的音節(jié)進(jìn)行標(biāo)注,能很好地消除音節(jié)輸入所帶來(lái)的一些歧義,從而能更有效地提升維-漢機(jī)器翻譯和哈-漢機(jī)器翻譯的翻譯質(zhì)量。

        3 結(jié)語(yǔ)

        本文為解決維吾爾語(yǔ)、哈薩克語(yǔ)到漢語(yǔ)等低資源語(yǔ)言機(jī)器翻譯的任務(wù)上一直存在的標(biāo)注數(shù)據(jù)資源匱乏的問(wèn)題,對(duì)維&哈語(yǔ)料相似性挖掘的方法進(jìn)行探究。采用BPE 處理、音節(jié)切分處理以及基于音節(jié)切分的BPE處理三種語(yǔ)料處理方式對(duì)語(yǔ)料進(jìn)行處理以挖掘維語(yǔ)和哈語(yǔ)的相似信息并加以利用;引入BME 標(biāo)記對(duì)切分的音節(jié)進(jìn)行標(biāo)注,以消除音節(jié)輸入所帶來(lái)的一些歧義。

        通過(guò)對(duì)基礎(chǔ)實(shí)驗(yàn)與語(yǔ)料擴(kuò)充實(shí)驗(yàn)中訓(xùn)練所得的模型進(jìn)行對(duì)比,驗(yàn)證了本文提出的基于音節(jié)切分的BPE 處理方法的有效性以及引入BME標(biāo)記所帶來(lái)的增益效果。

        在后續(xù)的研究中,我們將基于當(dāng)前實(shí)驗(yàn),探究BPE處理和基于音節(jié)切分的BPE處理兩種方案中子詞詞表大小對(duì)翻譯質(zhì)量的影響。同時(shí),后續(xù)也會(huì)引入烏茲別克語(yǔ)和土耳其語(yǔ)等語(yǔ)言,在本文研究的基礎(chǔ)上進(jìn)行進(jìn)一步的研究,以探究更多相似語(yǔ)種語(yǔ)料擴(kuò)充的可能性。

        猜你喜歡
        詞表維吾爾語(yǔ)音節(jié)
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
        拼拼 讀讀 寫(xiě)寫(xiě)
        統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語(yǔ)人名識(shí)別方法
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
        維吾爾語(yǔ)話題的韻律表現(xiàn)
        維吾爾語(yǔ)詞重音的形式判斷
        快樂(lè)拼音
        現(xiàn)代維吾爾語(yǔ)中“-0wat-”的進(jìn)行體特征
        木管樂(lè)器“音節(jié)練習(xí)法”初探
        久久久一本精品久久久一本| 亚洲国产综合精品 在线 一区| 在线高清精品第一区二区三区| 久青青草视频手机在线免费观看 | 午夜免费福利一区二区无码AV | 78成人精品电影在线播放| 午夜人妻中文字幕福利| 国产情侣亚洲自拍第一页| 中文字幕一精品亚洲无线一区| 开心婷婷五月激情综合社区 | 亚洲黄片av在线免费观看| 大陆老熟女自拍自偷露脸| 天天做天天爱天天综合网2021| 国产精品国产三级农村妇女| 成年女人18毛片毛片免费| 日本一二三四区在线观看| 内射人妻视频国内| 国产精品多人P群无码| 国产天堂av手机在线| 国产区女主播一区在线| 国产成人亚洲综合色婷婷| 欧美在线资源| 国产av三级精品车模| 少妇性l交大片7724com| www国产精品内射熟女| 在线无码精品秘 在线观看| 国产乱人伦偷精品视频还看的| 亚洲人成网网址在线看| 中国极品少妇videossexhd| 亚洲国产免费公开在线视频| 亚洲av无一区二区三区| 99国产精品无码| 97福利视频| 亚洲国产一区二区av| 少妇做爰免费视频了| 中文在线а√天堂官网| 国产香蕉一区二区三区| 国产91人妻一区二区三区| 国产亚洲精品bt天堂精选| 91青草久久久久久清纯| 成av人大片免费看的网站|