亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語(yǔ)-維吾爾語(yǔ)的一對(duì)一詞對(duì)齊研究

        2012-11-14 07:17:06張亞軍賀琛琛
        昌吉學(xué)院學(xué)報(bào) 2012年6期
        關(guān)鍵詞:漢維源語(yǔ)言目標(biāo)語(yǔ)言

        張亞軍 賀琛琛

        (1.昌吉學(xué)院計(jì)算機(jī)工程系 新疆 昌吉 831100;2.昌吉學(xué)院人事處 新疆 昌吉 831100)

        1 引言

        詞語(yǔ)的對(duì)齊(簡(jiǎn)稱詞對(duì)齊,Word Alignment)研究是自然語(yǔ)言處理的一個(gè)重要組成部分,詞對(duì)齊分為三類:一對(duì)一、多對(duì)一、多對(duì)多。其目的是要找出從源語(yǔ)言的字符串和目標(biāo)語(yǔ)言的字符串之間的詞對(duì)齊。詞對(duì)齊對(duì)于平行語(yǔ)料庫(kù)、語(yǔ)料數(shù)據(jù)挖掘等方面尤為重要。同時(shí),詞對(duì)齊還可以為雙語(yǔ)詞典、語(yǔ)音識(shí)別、信息檢索提供源材料。英語(yǔ)和漢語(yǔ)詞對(duì)齊研究相對(duì)成熟,基本精度在90%以上,取得的召回率約88%。然而漢語(yǔ)-維吾爾語(yǔ)(簡(jiǎn)稱漢維)詞對(duì)齊的研究,處于前期研究階段。

        研究詞對(duì)齊方法主要有兩類:

        (1)基于語(yǔ)言學(xué)的方法:充分使用各種語(yǔ)言學(xué)的資源進(jìn)行詞對(duì)齊研究。例如利用統(tǒng)計(jì)和詞典相結(jié)合的方法進(jìn)行的詞對(duì)齊[1];或者利用語(yǔ)言學(xué)比較的方法進(jìn)行詞對(duì)齊等[2]。

        (2)基于統(tǒng)計(jì)的研究方法:其思路是通過(guò)對(duì)平行語(yǔ)料庫(kù)的統(tǒng)計(jì)性訓(xùn)練,取得雙語(yǔ)對(duì)應(yīng)詞的同現(xiàn)概率作為詞對(duì)齊的基礎(chǔ),主要方法有Brown提出的基于信源信道模型方法實(shí)現(xiàn)的詞對(duì)齊[3];Dagan等人對(duì)Brown的模型進(jìn)行改進(jìn)的詞對(duì)齊[4];Gale、Piao、Okita都使用互信息和X2檢驗(yàn)方法進(jìn)行詞對(duì)齊[5][6][7]等。

        基于統(tǒng)計(jì)方法實(shí)現(xiàn)漢維一對(duì)一的詞對(duì)齊是本文研究的重點(diǎn)內(nèi)容。

        2 詞對(duì)齊模型描述

        2.1 基于信源信道模型的統(tǒng)計(jì)方法

        信源信道思想應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯,實(shí)際上可以理解為一個(gè)解碼的過(guò)程,此時(shí)把翻譯系統(tǒng)視為信源信道,即對(duì)于一個(gè)目標(biāo)語(yǔ)言字串S,將尋找一個(gè)最大可能的源語(yǔ)言句子T,搜索概率P(T|S)最大值的過(guò)程。 由貝葉斯公式:

        其中P(T)為語(yǔ)言模型,P(S|T)為翻譯模型。

        由于式(1)右邊P(S)與T無(wú)關(guān),因此,求上式的最大值等同于求等式右邊分子的最大值即:

        2.2 IBM模型1和模型2

        大量的參數(shù)訓(xùn)練是詞對(duì)齊的基礎(chǔ)工作,由此可以計(jì)算出源語(yǔ)言詞語(yǔ)和目標(biāo)語(yǔ)言詞對(duì)齊的概率,從而搜索出概率最大值。本文采用EM(期望最大化)算法實(shí)現(xiàn)的IBM模型1和模型2。

        IBM模型1-2的單詞翻譯概率公式相同,計(jì)算公式如(3)所示:

        其中c(s|t;S(z),T(z))表示目標(biāo)語(yǔ)言的單詞t在翻譯句對(duì)(S|T)中與源語(yǔ)言的單詞s對(duì)齊的期望次數(shù),s表示源語(yǔ)句中的詞語(yǔ),t表示目標(biāo)語(yǔ)句中的詞語(yǔ)。Z表示語(yǔ)料庫(kù)中句對(duì)個(gè)數(shù)。

        IBM模型1-2不同的是目標(biāo)語(yǔ)言的單詞t在翻譯句對(duì)(S|T)中與源語(yǔ)言的單詞s對(duì)齊的期望次數(shù)。模型一對(duì)齊期望次數(shù)如(4)式所示:

        其中m表示源語(yǔ)言長(zhǎng)度即源語(yǔ)言中詞語(yǔ)的個(gè)數(shù);len表示目標(biāo)語(yǔ)言長(zhǎng)度即目標(biāo)語(yǔ)言中詞語(yǔ)的個(gè)數(shù);p(s|t)是目標(biāo)語(yǔ)言單詞與源語(yǔ)言單詞翻譯概率;δ是Kronecker函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí),δ=1,否則δ=0。

        由于模型1忽略了單詞出現(xiàn)在句子中的位置,模型2在模型1基礎(chǔ)上不再假設(shè)每一個(gè)源語(yǔ)言詞語(yǔ)與目標(biāo)語(yǔ)言詞語(yǔ)之間有相同的對(duì)齊概率,而是考慮了目標(biāo)語(yǔ)言句子的不同位置和不同句對(duì)長(zhǎng)度的影響,可能導(dǎo)致任意兩個(gè)對(duì)位存在不同的概率,由此引入對(duì)位概率p(aj|j,m,l)。模型二對(duì)齊次數(shù)如(5)式所示:

        3 漢維一對(duì)一詞對(duì)齊

        3.1 系統(tǒng)處理流程

        系統(tǒng)流程如圖1所示,模型1和模型2是研究的重點(diǎn)。

        圖1 漢維一對(duì)一詞對(duì)齊流程

        3.2 語(yǔ)料預(yù)處理

        實(shí)驗(yàn)要求選取平行語(yǔ)料庫(kù)中的語(yǔ)料,本文選取漢語(yǔ)語(yǔ)料和維吾爾語(yǔ)語(yǔ)料。具體要求有:將漢語(yǔ)語(yǔ)料和維吾爾語(yǔ)語(yǔ)料分別存放于格式為txt的兩個(gè)文本,文本中的每一行都是一個(gè)獨(dú)立的句子,且漢語(yǔ)文本及維吾爾語(yǔ)文本的相同行為互相對(duì)應(yīng)的一個(gè)句對(duì)。

        例如:

        中文文件

        維文文件

        漢語(yǔ)詞語(yǔ)切分利用中國(guó)科學(xué)院計(jì)算技術(shù)研究所提供的中文分詞工具ICTCLAS處理。維吾爾語(yǔ)切分工具由新疆大學(xué)多語(yǔ)種信息重點(diǎn)實(shí)驗(yàn)室提供。在詞語(yǔ)對(duì)齊訓(xùn)練過(guò)程當(dāng)中發(fā)現(xiàn)對(duì)齊結(jié)果受到個(gè)別拉丁維文字符的影響,采取的方案是將其轉(zhuǎn)化為無(wú)歧義可以識(shí)別的字符來(lái)處理。例如é轉(zhuǎn)化為E、ü轉(zhuǎn)化為U、?轉(zhuǎn)化為O等。例如:

        拉丁維文:

        轉(zhuǎn)換個(gè)別字符后的拉丁維文:

        3.3 一對(duì)一對(duì)齊步驟與算法

        3.3.1 一對(duì)一對(duì)齊步驟

        (1)語(yǔ)料預(yù)處理:將漢文詞語(yǔ)分詞,維文轉(zhuǎn)化為拉丁維文并將個(gè)別字符轉(zhuǎn)化為無(wú)歧義可以識(shí)別的字符;

        (2)IBM模型1實(shí)現(xiàn)漢維詞對(duì)齊:以源語(yǔ)言文本和目標(biāo)語(yǔ)言文本作為輸入文件,初始化單詞概率分布P(S|T),計(jì)算目標(biāo)語(yǔ)言的單詞t在翻譯句對(duì)(S|T)中與源語(yǔ)言的單詞s對(duì)齊的期望次數(shù),迭代修正單詞翻譯概率。

        (3)IBM模型2實(shí)現(xiàn)漢維詞對(duì)齊:在考慮了目標(biāo)語(yǔ)言句子的不同位置和不同句對(duì)長(zhǎng)度因素下,以模型1最終修正的單詞翻譯概率為初始值,計(jì)算對(duì)位概率a(i|j),不斷迭代修正單詞翻譯概率。

        3.3.2 對(duì)齊算法

        算法主要步驟如下

        St1:設(shè)輸入預(yù)處理后的維吾爾語(yǔ)文本S=S1S2S3…Si… SZ,Si為源文件,漢文文本 T1T2T3…Ti…TZ,Ti為目標(biāo)文件;

        St2:初始化單詞概率分布p(s|t);

        St3:對(duì)于每一個(gè)句對(duì)(S(Z),T(Z)),計(jì)算期望次數(shù)c(s|t;S(Z),T(Z));

        St4:對(duì)于每一個(gè)至少出現(xiàn)在一個(gè)目標(biāo)語(yǔ)言句子中的單詞t計(jì)算同時(shí)對(duì)每一個(gè)至少在一個(gè)源語(yǔ)言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對(duì)位概率值p(s|t);

        St5:重復(fù)St3和St4,直到迭代完畢,結(jié)束模型1算法;

        St6:將模型1修正后的單詞對(duì)位概率值作為模型2的初始值,并引入對(duì)位概率a(i|j,m,l)賦予初始值;

        St7:對(duì)于每一個(gè)句對(duì)(S(Z),T(Z)),計(jì)算期望次數(shù)c(s|t;S(Z),T(Z))和 c(i|j,m,l;S,T);

        St8:對(duì)于每一個(gè)至少出現(xiàn)在一個(gè)目標(biāo)語(yǔ)言句子中的單詞t計(jì)算同時(shí)對(duì)每一個(gè)至少在一個(gè)源語(yǔ)言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對(duì)位概率值p(s|t)和新的對(duì)位概率值a(i|j,m,l);

        St9:重復(fù)St7和St8,直到迭代完畢,結(jié)束模型2算法。

        4 對(duì)齊結(jié)果與分析

        本文平行語(yǔ)料庫(kù)由新疆大學(xué)信息學(xué)院多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室提供。語(yǔ)料庫(kù)中整理了漢維相對(duì)應(yīng)的10000句對(duì)。從中抽出本實(shí)驗(yàn)所需的漢維相對(duì)應(yīng)331個(gè)句對(duì),其中這331個(gè)句對(duì)中的詞都是一對(duì)一的對(duì)齊方式。

        4.1 模型實(shí)現(xiàn)

        (1)通過(guò)上述一對(duì)一漢維詞對(duì)齊步驟,本文實(shí)現(xiàn)了一個(gè)可以在windows下運(yùn)行的漢維詞語(yǔ)對(duì)齊模型系統(tǒng)。本系統(tǒng)的核心代碼是采用visual studio 2010平臺(tái)下的C#編寫(xiě),主要采用數(shù)據(jù)庫(kù)訪問(wèn)的方式存取數(shù)據(jù),運(yùn)行界面如圖所示。

        圖2 運(yùn)行界面

        (2)為對(duì)比該系統(tǒng)的評(píng)測(cè)指標(biāo),在相同語(yǔ)料下,利用Giza++[7]進(jìn)行了的漢維詞語(yǔ)對(duì)齊,其中從模型1到模型2。如圖3所示:

        圖3 Giza++詞對(duì)齊結(jié)果

        4.2 系統(tǒng)評(píng)價(jià)指標(biāo)

        將漢維331句對(duì)進(jìn)行詞對(duì)齊的人工校對(duì),同時(shí)從Giza++結(jié)果中找出一對(duì)一的漢維詞對(duì)齊作為標(biāo)準(zhǔn)測(cè)試語(yǔ)料。按照規(guī)定,引入了三種評(píng)測(cè)指標(biāo):

        正確率=正確的對(duì)齊總數(shù)/對(duì)齊總數(shù)*100%

        召回率=正確的對(duì)齊總數(shù)/實(shí)有對(duì)齊總數(shù)*100%

        可以得到以下幾個(gè)結(jié)論:

        (1)兩個(gè)模型運(yùn)行測(cè)試結(jié)果

        表1:Model 1和Model 2的對(duì)齊結(jié)果

        (2)本系統(tǒng)同Giza++的詞對(duì)齊相比,各項(xiàng)評(píng)測(cè)指標(biāo)如表2所示。

        表2:與Giza++對(duì)齊結(jié)果比較

        4.3 實(shí)驗(yàn)結(jié)果分析

        從上述兩個(gè)表中可以發(fā)現(xiàn),正確率和召回率不高,經(jīng)過(guò)總結(jié)分析,影響因素如下:

        1.漢語(yǔ)和維吾爾語(yǔ)在切分過(guò)程中容易出現(xiàn)切分錯(cuò)誤,在詞對(duì)齊時(shí)會(huì)導(dǎo)致錯(cuò)誤放大。

        2.漢語(yǔ)和維吾爾語(yǔ)的句法結(jié)構(gòu)不同。漢語(yǔ)屬于SVO語(yǔ)言,而維吾爾語(yǔ)是SOV語(yǔ)言。

        3.漢語(yǔ)無(wú)形態(tài)語(yǔ)言,而維吾爾語(yǔ)為形態(tài)豐富的語(yǔ)言。維吾爾語(yǔ)中有明顯形態(tài)標(biāo)志的格,大部分出現(xiàn)在句子的末尾,最多可能出現(xiàn)四種形態(tài)標(biāo)記。

        4.本實(shí)驗(yàn)中選取的語(yǔ)料規(guī)模較小,部分詞語(yǔ)可能未能夠覆蓋。

        5.模型2的效果比模型1好。但是同Giza++相比較,若使用基于信源信道模型的統(tǒng)計(jì)方法來(lái)解決一對(duì)一詞對(duì)齊,后者的效果較好。

        5 總結(jié)

        論文的主要研究工作是基于統(tǒng)計(jì)機(jī)器翻譯的一對(duì)一漢維詞對(duì)齊方面。通過(guò)測(cè)試,本方法基本達(dá)到實(shí)驗(yàn)效果,同時(shí)也為后續(xù)其他詞語(yǔ)級(jí)對(duì)齊打下基礎(chǔ)。

        目前,本系統(tǒng)設(shè)計(jì)主要考慮了IBM模型1-2實(shí)現(xiàn)了一對(duì)一詞對(duì)齊。但是當(dāng)我們觀察一些實(shí)際翻譯例子時(shí)發(fā)現(xiàn),很多情況下句對(duì)中的詞語(yǔ)為一對(duì)多、多對(duì)一、多對(duì)多。因此,在今后的工作中,首要研究如何實(shí)現(xiàn)漢語(yǔ)和維吾爾語(yǔ)一對(duì)多、多對(duì)一和多對(duì)多的對(duì)位關(guān)系;其次要考慮兩種句法結(jié)構(gòu)相差大的語(yǔ)言上的句子結(jié)構(gòu)。

        [1]鄧丹,劉群,俞鴻魁.基于雙語(yǔ)詞典的漢英詞對(duì)齊算法研究[J].計(jì)算機(jī)工程,2005,(8):31-16.

        [2][Huang,2000]Jin-Xia Huang,and Key-Sun Choi.C-hinese-Korean word alignment based on linguistic c-omparison[C].In:Annual Meeting of the Association for Computational Linguistics,2000.392-399.

        [3]Brown P F,Della Pietra S A,Della Pietra V J,et al.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2):263

        [4][Dagan,1993]Dagan L,Chunch K,et al.Robust bilingual word alignment for machine aided translation[A].Proceedings of the W orkshop on Very Large corpora:Academic and Industrial Perspectives[C],C olumbus,1993.1-8.

        [5][Gale,1991]Gale,W.and Church,K.Identifying W ord Correspondences in Parallel Texts[A].Proceedings of the 4th DARPA Speech and Natural LanguageWorkshop[C],Pacific Grove,CA,1991.152-157.

        [6]Piao,Scott.Word alignment in English-Chinese parallel corpora.Literary and Linguistic Computing,2002,17(2).pp.207-230.

        [7]Okita,Tsuyoshi.Word alignment and smoothing methods in statistical machine translation:Noise,prior knowledge and overfitting.Dublin City University School of Computing,2012.

        猜你喜歡
        漢維源語(yǔ)言目標(biāo)語(yǔ)言
        林巍《知識(shí)與智慧》英譯分析
        現(xiàn)代漢維茶俗茶禮對(duì)比研究
        淺析日語(yǔ)口譯譯員素質(zhì)
        教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
        維吾爾語(yǔ)人稱代詞的用法及翻譯方法探析
        跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        少數(shù)民族聚居城市雙語(yǔ)公示語(yǔ)翻譯規(guī)范化探析——以新疆烏魯木齊市漢維公示語(yǔ)為例
        以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語(yǔ)習(xí)得過(guò)程中的石化現(xiàn)象分析
        漢維詞匯文化聯(lián)想意義之對(duì)比
        国产精品专区第一页天堂2019| 白色橄榄树在线免费观看| 国产亚洲一区二区三区成人| 草逼视频污的网站免费| 四虎影视久久久免费观看| 台湾佬娱乐中文22vvvv | 亚洲av资源网站手机在线| 亚洲国产精品无码久久一区二区| 国产卡一卡二卡三| 欧美综合区| 青青视频在线播放免费的| 亚洲 小说区 图片区 都市| a级大胆欧美人体大胆666| 中文亚洲爆乳av无码专区| 日本一区二区午夜视频| 国产一区二区三区日韩精品 | 高潮内射主播自拍一区| 自愉自愉产区二十四区| 99爱这里只有精品| 青青草免费在线手机视频| 可免费观看的av毛片中日美韩| 亚洲av午夜国产精品无码中文字| 国产美女在线一区二区三区| 国产啪啪视频在线观看| 国产一区二区三区精品免费av | 国产精品亚洲av网站| 日本免费观看视频一区二区| 性无码免费一区二区三区在线| 欧美一级色图| 国产亚洲精品一区二区在线播放 | 黄页免费人成网址大全| 亚洲日韩精品a∨片无码加勒比| 夫妇交换刺激做爰视频| 无码AV无码免费一区二区| 不卡一区二区三区国产| 亚洲精品无码国产| 亚洲成AⅤ人在线观看无码| 国产激情视频在线观看首页| 国产欧美精品一区二区三区四区 | 中文无字幕一本码专区| 成人中文乱幕日产无线码|