亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        蒙漢機器翻譯校正數(shù)據(jù)集

        2022-07-03 14:05:14申影利包烏格德勒趙小兵
        關(guān)鍵詞:蒙文蒙古文蒙漢

        申影利,包烏格德勒,趙小兵

        1.中央民族大學中國少數(shù)民族語言文學學院,北京 100081

        2.呼和浩特民族學院,呼和浩特 010051

        3.中央民族大學信息工程學院,北京 100081

        4.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081

        引 言

        傳統(tǒng)蒙古文(又稱回鶻式蒙古文)是一種黏著型拼音文字,包含“名義字符”和“變形顯現(xiàn)字符”。名義字符是蒙古文字符的獨立體存在形式,顯現(xiàn)字符則是字符居于詞首、詞中、詞尾時由于變形而產(chǎn)生的不同顯示形態(tài)[1]。蒙古文Unicode字符編碼“以音編碼”,其文本存在“形同音異”的現(xiàn)象,因而造成以國際標準編碼存儲的傳統(tǒng)蒙古文文本常常錯誤地錄入形狀相同,但讀音不同的變形顯現(xiàn)字符。從字形上看,該單詞是完全相同的,但其內(nèi)部編碼卻是不同的,這種文本拼寫錯誤對蒙古文信息處理研究造成重大障礙[2]。

        蒙古文的文本校對工作是蒙古文信息處理的基礎(chǔ)性工作之一。早期的校正工作依賴于人工校對,準確性高,但耗時耗力,效率低下。很多學者針對傳統(tǒng)蒙古文的自動校對問題提出了可行的方案。華沙寶[3]依據(jù)蒙古文正字法規(guī)則開發(fā)MHAHP校對系統(tǒng),受限于詞典規(guī)模,該系統(tǒng)對動詞構(gòu)形附加成分、格附加成分之外的錯誤校對效果欠佳。蘇傳捷[4]等人利用機器翻譯模型來構(gòu)建拼寫校對模型,在小規(guī)模文本上糾錯后正確詞比例達到97.55%。蔡祝元[5]通過建立音節(jié)與真詞混淆集,實現(xiàn)了對蒙古文非詞錯誤與真詞錯誤的查錯與糾錯。

        本文以第十七屆全國機器翻譯大會(The 17th China Conference on Machine Translation,CCMT 2021,網(wǎng)址見http://sc.cipsc.org.cn/mt/conference/2021/)蒙漢雙語翻譯項目公開評測數(shù)據(jù)集作為原始語料。根據(jù)分析,評測中提供的未經(jīng)處理的蒙文語料存在諸多文本錯誤,這將嚴重影響機器翻譯的性能。因此,本文開展蒙文自動校正工作,構(gòu)建面向機器翻譯任務(wù)的高質(zhì)量蒙漢雙語數(shù)據(jù)集。

        1 數(shù)據(jù)采集和處理方法

        1.1 原始語料數(shù)據(jù)收集

        原始數(shù)據(jù)來自第十七屆全國機器翻譯大會機器翻譯評測任務(wù)(CCMT 2021 MT Evaluation),CCMT 2021蒙漢雙語翻譯任務(wù)的評測訓(xùn)練、開發(fā)語料數(shù)據(jù)的情況見表1。

        表1 CCMT 2021蒙漢雙語翻譯任務(wù)數(shù)據(jù)情況Table 1 Data of CCMT 2021 Mongolian and Chinese bilingual translation task

        1.2 數(shù)據(jù)處理

        1.2.1 噪聲數(shù)據(jù)清洗

        在對蒙古文進行文本校正工作之前,我們發(fā)現(xiàn)原始評測集中蒙漢平行語料,存在源端、目標端語言混雜的情況。例如,在 IMU-CWMT2015文件夾中在源語言訓(xùn)練語料中存在大量的目標端語言句子,反之亦然,如圖1所示。另外,訓(xùn)練數(shù)據(jù)中的重復(fù)句子會增加模型的負擔,影響翻譯效果,因此在對蒙漢雙語句對中的蒙古文文本進行校正前,首先需要進行清洗、過濾蒙漢平行句對中的“噪聲”數(shù)據(jù)。這樣不但可以降低文本校正工作量,還能緩解低質(zhì)量語料引起的翻譯性能下降問題。針對以上情況,分別利用語種檢測技術(shù)刪除混雜語種、重復(fù)語句及空行,由實驗最初設(shè)定的262,458句對訓(xùn)練語料得到經(jīng)過清洗后的248,438句對,共刪除14,020句對。

        1.2.2 蒙文文本校正

        (一)數(shù)字、英文、中文符號、蒙古文非Unicode字符的轉(zhuǎn)換處理

        CCMT2021提供的蒙古文語料為Unicode編碼語料,因此,首先將蒙文語料中的數(shù)字、英文、符號及蒙古文非 Unicode 字符進行轉(zhuǎn)換處理。

        (二)文本校對

        (1)通過正則表達式對部分字符進行修正

        連續(xù)的變形控制符(u180B,u180C,u180D)只保留第一個;對分寫的附加成分進行統(tǒng)一處理;對u182C(?)和u182D(?)字符進行修正;對混用的陽性元音和陰性元音進行修正;對u1836(?)字符進行修正。以上操作結(jié)束后把蒙古文語料轉(zhuǎn)換為拉丁轉(zhuǎn)寫形式,對拉丁轉(zhuǎn)寫語料進行校對。

        (2)通過詞典和規(guī)則的方法對文本進行校正

        采用基于詞典和規(guī)則的方式對蒙古文進行自動校正,使用國家語言資源監(jiān)測與研究少數(shù)民族語言中心(https://nmlr.muc.edu.cn/)構(gòu)建整理的20萬蒙古文的單詞詞典和構(gòu)形附加成分詞典。校正流程如圖2所示。

        蒙文文本校正示例如表2所示。表2通過舉例說明CCMT 2021蒙漢評測數(shù)據(jù)中原始蒙文文本的錯誤形式以及經(jīng)過蒙文文本校正后的正確蒙文形式。從字形上看,錯誤蒙文文本、校正蒙文文本基本相同,但通過將二者進行相應(yīng)的拉丁轉(zhuǎn)寫,就可以發(fā)現(xiàn)其內(nèi)部編碼的不同之處。在表2的例子中,我們將錯誤蒙文文本中的格錯誤部分進行標紅,該類型是指蒙古文單詞在連寫附加成分時由于陰陽性或者其他構(gòu)詞方面的語法原因?qū)е碌腻e誤;紫色及藍色標記單詞分別表示單音字、多音字錯誤。

        表2 CCMT 2021蒙文文本錯誤及校正示例Table 2 Samples of CCMT 2021 Mongolian text errors and correction

        2 數(shù)據(jù)樣本描述

        本數(shù)據(jù)集為蒙漢機器翻譯雙語平行句對,共包含兩部分:5萬句校正后蒙文文本,文件名稱為:mn_correct.txt;5萬句中文文本,文件名稱為:zh.txt。如下圖3所示。

        3 數(shù)據(jù)質(zhì)量控制和評估

        為驗證上述蒙文文本校正工作是否對下游機器翻譯質(zhì)量有提升作用,我們使用全部經(jīng)過蒙文校正的CCMT2021蒙漢評測集及原始蒙漢評測集,在當前主流的神經(jīng)機器翻譯框架Transformer[6]上進行對比實驗,使用BLEU[7]作為評測指標。由于CCMT2021主辦方未提供蒙漢雙語測試數(shù)據(jù),我們選取CWMT2017提供的蒙漢雙語測試集共1001句對。實驗結(jié)果如表3所示,其中2021_dev、2017_test分別表示CCMT2021驗證集和CWMT2017測試集。

        表3 蒙漢雙向翻譯模型測試結(jié)果Table 3 Test results of Mongolian-Chinese bidirectional translation model

        從表3中的實驗結(jié)果可以看出:經(jīng)過蒙文校正后的語料在蒙漢雙向翻譯任務(wù)中都獲得了最優(yōu)性能。在蒙語→漢語翻譯任務(wù)中,與校正前的蒙漢雙語數(shù)據(jù)在2021_dev驗證集和2017_test測試集上的BLEU值相比,分別提升了17.7和0.9個百分點。另一方面,漢語→蒙語翻譯BLEU提升均優(yōu)于蒙語→漢語翻譯任務(wù),校正后分別提升了21.7%、6.4%。這是因為蒙語相比于漢語構(gòu)詞形態(tài)更加復(fù)雜,當翻譯為蒙語時,解碼端很難避免語法錯誤,所以高質(zhì)量蒙漢雙語數(shù)據(jù)訓(xùn)練的模型對漢語→蒙語方向翻譯效果的提升優(yōu)于蒙語→漢語翻譯方向。實驗結(jié)果發(fā)現(xiàn),使用蒙文文字校正后的蒙漢語料在雙向翻譯任務(wù)上均能夠顯著提升翻譯效果。

        4 數(shù)據(jù)使用價值

        數(shù)據(jù)稀疏是低資源語言神經(jīng)機器翻譯面臨的主要問題,針對蒙古文信息處理研究,蒙古文高質(zhì)量語料的獲取一直是亟待解決的難題。本文在蒙漢機器翻譯評測數(shù)據(jù)集的基礎(chǔ)上,進行蒙古文文本校正工作,實驗驗證發(fā)現(xiàn),經(jīng)過文本校正后的蒙漢雙語數(shù)據(jù)集,在下游機器翻譯任務(wù)中的翻譯質(zhì)量有明顯提升。本數(shù)據(jù)集除機器翻譯任務(wù)外,還可用于文本校正、命名實體識別、信息檢索等蒙古文自然語言處理工作。

        致 謝

        感謝全國機器翻譯大會主辦機構(gòu)提供的寶貴原始數(shù)據(jù)資源,感謝對本數(shù)據(jù)集進行蒙文校正工作的蒙語研究專家。

        數(shù)據(jù)作者分工職責

        申影利(1994—),女,安徽亳州人,在讀博士研究生,研究方向為自然語言處理、機器翻譯。主要承擔工作:數(shù)據(jù)篩選、處理、加工,數(shù)據(jù)集生成,論文的撰寫。

        包烏格德勒(1979—),男,內(nèi)蒙古興安盟人,博士,副教授,研究方向為計算語言學、蒙古文信息處理。主要承擔工作:數(shù)據(jù)集設(shè)計和整理,數(shù)據(jù)校準。

        趙小兵(1967—),女,內(nèi)蒙古呼和浩特人,博士,博士生導(dǎo)師,研究方向為自然語言處理、輿情分析等。主要承擔工作:研究思路設(shè)計與論文撰寫指導(dǎo)。

        猜你喜歡
        蒙文蒙古文蒙漢
        蒙文少兒出版物題材特征分析
        《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
        簡論蒙漢蛇文化比較研究
        關(guān)于新發(fā)現(xiàn)的《字母匯編》(蒙古文)
        淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
        蒙文信息處理課程教學策略分析
        清朝頒予杜爾伯特達賴汗之滿蒙文承襲詔書(英文)
        關(guān)于蒙古文在各種瀏覽器上顯示方法的探討
        略論Khandjamts夫人(基里爾蒙古文)
        清代歸化城土默特地區(qū)的草廠糾紛與蒙漢關(guān)系
        小说区激情另类春色| 亚洲一区二区三区视频免费看| 在线一区二区三区国产精品| 激情影院内射美女| 日韩第四页| 久久激情人妻中文字幕| 日本高清一区二区三区在线观看| 男女猛烈xx00免费视频试看| 婷婷开心深爱五月天播播| 国产精品美女久久久久浪潮AVⅤ | 大岛优香中文av在线字幕| 亚洲精品视频在线一区二区| 精品欧洲av无码一区二区| 亚洲天堂中文| 国产一级自拍av播放| 国产一区二区三区日韩精品| 欧美 变态 另类 人妖| 日本视频一区二区三区免费观看 | 国产成人亚洲精品91专区高清| 国产专区一线二线三线码 | 久久国产综合精品欧美| 青青草视频免费在线播放| 久久亚洲精品国产亚洲老地址| 精品国内自产拍在线观看| 国产九九在线观看播放| av中文字幕一区人妻| 永久免费人禽av在线观看 | 豆国产95在线 | 亚洲| 久久精品国产亚洲av热明星| 一区二区亚洲精品在线| 天堂aⅴ无码一区二区三区| 亚洲国产成人精品91久久久| 伊人五月亚洲综合在线| 后入到高潮免费观看| 亚洲中文字幕第一页在线| 日韩国产有码精品一区二在线| 亚洲精品国产第一综合色吧| 成人黄色网址| 超级碰碰人妻中文字幕| 国产精品福利高清在线| 久久久久人妻精品一区蜜桃|