亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于短語和句法的統(tǒng)計機器翻譯

        2015-10-25 11:42:39馮志偉
        燕山大學(xué)學(xué)報 2015年6期
        關(guān)鍵詞:源語言目標語言西班牙語

        馮志偉

        (杭州師范大學(xué)外國語學(xué)院,浙江杭州311121)

        基于短語和句法的統(tǒng)計機器翻譯

        馮志偉*

        (杭州師范大學(xué)外國語學(xué)院,浙江杭州311121)

        回顧了統(tǒng)計機器翻譯發(fā)展的歷程,討論了噪聲信道模型、基于短語的統(tǒng)計機器翻譯和基于句法的統(tǒng)計機器翻譯,主張把理性主義方法和經(jīng)驗主義方法結(jié)合起來,以推進機器翻譯的進一步發(fā)展。

        機器翻譯;統(tǒng)計機器翻譯;噪聲信道模型;理性主義方法;經(jīng)驗主義方法

        0 引言

        傳統(tǒng)的機器翻譯技術(shù)使用小規(guī)模的數(shù)據(jù)或者語言學(xué)家的主觀語感作為機器翻譯知識的來源,采用基于規(guī)則(rule-based)的復(fù)雜算法,追求個別句子翻譯的精確性,而不重視翻譯對象的整體覆蓋面[1]。這樣的機器翻譯系統(tǒng)只能覆蓋小范圍的語言材料,一旦擴大翻譯的范圍,系統(tǒng)就往往顯得捉襟見肘,翻譯的效果便馬上降低[2-3]。

        與傳統(tǒng)的機器翻譯不同,統(tǒng)計機器翻譯(statistical machine translation,簡稱SMT)使用大規(guī)模的數(shù)據(jù)作為機器翻譯的知識來源,采用基于統(tǒng)計(statistics-based)的簡單算法,不追求個別句子翻譯的精確性,而追求翻譯語言材料的覆蓋面,盡管個別句子的翻譯精確度不是很高,但是,對于語言材料的覆蓋面比較大,翻譯的總體效果大大優(yōu)于傳統(tǒng)的機器翻譯[4]。

        目前,越來越多的互聯(lián)網(wǎng)和軟件公司都推出了基于統(tǒng)計的在線的機器翻譯系統(tǒng)。統(tǒng)計機器翻譯已經(jīng)成為當前機器翻譯的主流技術(shù),值得我們高度關(guān)注[5]。

        為了推動統(tǒng)計機器翻譯進一步發(fā)展,我們主張把基于統(tǒng)計的機器翻譯與基于規(guī)則的機器翻譯技術(shù)結(jié)合起來,在統(tǒng)計機器翻譯中,融入短語知識和句法知識[6-7],讓計算機進行深度機器學(xué)習(xí)(deep machine learning),獲取更加豐富的語言學(xué)知識[8]。

        本文介紹近年來學(xué)者們在這方面的一些探索性研究。首先介紹基于短語的統(tǒng)計機器翻譯,然后介紹基于句法的統(tǒng)計機器翻譯。

        1 統(tǒng)計機器翻譯的噪聲信道模型

        在機器翻譯產(chǎn)生的初期,就有學(xué)者提出了采用統(tǒng)計方法進行機器翻譯的思想。

        1949年,信息論的奠基人之一、美國洛克菲勒基金會副總裁Weaver W發(fā)表以《翻譯》為題的備忘錄,提出了使用解讀密碼的方法來進行機器翻譯。他認為翻譯類似于解讀密碼的過程[9]。Weaver W提出的這種解讀密碼的機器翻譯需要采用統(tǒng)計的方法進行計算,實際上就是一種基于統(tǒng)計的機器翻譯。

        這樣的基于統(tǒng)計的機器翻譯需要有高性能的計算機進行大規(guī)模的計算,還需要有聯(lián)機的機器可讀的語料作為統(tǒng)計的對象,當時還不具備這樣的條件,因此,Weaver W的這種方法難以付諸實現(xiàn),只不過是一種具有遠見卓識的想法而已。

        隨著計算技術(shù)的進步和大規(guī)模雙語并行語料庫建設(shè)的發(fā)展,實現(xiàn)Weaver W這種思想的技術(shù)條件逐漸成熟,于是在20世紀90年代初,IBM公司的Peter Brown等人在Weaver W思想的基礎(chǔ)上提出了統(tǒng)計機器翻譯的數(shù)學(xué)模型[10]。

        統(tǒng)計機器翻譯的這種數(shù)學(xué)模型把機器翻譯問題看成是一個噪聲信道(noisy channel)問題,叫做噪聲信道模型(noisy channel model),如圖1所示。

        圖1 統(tǒng)計機器翻譯的噪聲信道模型Fig.1 Noisy channel model for SMT

        在圖1中,源語言(source)S由于經(jīng)過了噪聲信道(noisy channel)而發(fā)生了扭曲變形,成為了噪聲詞(noisy word),于是在信道的另一端呈現(xiàn)為目標語言T,翻譯實際上就是如何根據(jù)觀察到的目標語言T進行解碼(decoder),來猜測噪聲詞本來的面貌(guess at original word),從而恢復(fù)最為可能的源語言S。因此,統(tǒng)計機器翻譯系統(tǒng)的任務(wù)就是在所有可能的源語言S的句子中尋找概率最大的那個句子作為目標語言T中的句子的翻譯結(jié)果。

        在這個模型中,噪聲信道意義上的源語言就是翻譯意義上的目標語言,而噪聲信道意義上的目標語言就是翻譯意義上的源語言。

        統(tǒng)計機器翻譯的基本公式如下:

        在這個公式中,T表示翻譯意義上的目標語言,S表示翻譯意義上的源語言,P(T)是翻譯意義上的目標語言的語言模型,而P(S|T)是給定翻譯意義上的目標語言T的情況下,翻譯意義上的源語言S的翻譯模型。需要注意的是,統(tǒng)計機器翻譯基本公式中的T和S與噪聲信道模型中的T和S的所指是截然不同的。

        2 基于短語的統(tǒng)計機器翻譯

        統(tǒng)計機器翻譯的噪聲信道模型是基于單詞的。例如,如果要建立一個西班牙語到英語的統(tǒng)計機器翻譯系統(tǒng),首先就要根據(jù)西班牙語和英語的雙語文本語料庫,使用統(tǒng)計分析的方法把西班牙語轉(zhuǎn)換為質(zhì)量低劣的英語,我們把它叫做“破英語”(broken English),然后,再用統(tǒng)計分析的方法,從破英語生成目標語言英語,如圖2所示。

        圖2 西班牙語-英語統(tǒng)計機器翻譯系統(tǒng)Fig.2 Spanish-English SMT system

        在圖2中,輸入西班牙語(Spanish),對于西班牙/英語雙語文本(Spanish/English Bilingual Text)進行統(tǒng)計分析(Statistical Analysis),得到破英語,再根據(jù)英語文本(English Text)進行統(tǒng)計分析(Statistical Analysis)的結(jié)果對破英語進行加工,最后輸出英語(English)譯文。

        例如,西班牙語句子Que hambre tengo yo(我是多么餓啊)首先被轉(zhuǎn)換為若干個不同的破英語句子:

        What hunger have I

        Hungry I am so

        I am so hungry

        Have I that hunger

        最后,使用統(tǒng)計方法在這些破英語句子中進行優(yōu)選,得到比較好的英語譯文:I am so hunger。

        在圖3中,Translation Model表示翻譯模型,Language Model表示語言模型,Decoding algorithm表示解碼算法。如果用s表示西班牙語,用e表示英語,從噪聲信道模型的角度來看,首先使用翻譯模型P(s|e),把西班牙語轉(zhuǎn)換為破英語,再使用語言模型P(e),把破英語改造為正確英語的譯文。

        圖3 基于噪聲信道模型的統(tǒng)計機器翻譯系統(tǒng)Fig.3 "Noisy channel model"based SMT system

        在對于破英語進行優(yōu)選時,使用解碼算法求解argmax P(e)*P(s|e),最后得到正確英語譯文I am so hunger。

        這樣解碼過程是在單詞的基礎(chǔ)之上進行的。輸入的西班牙語句子Que hambre tengo yo中的每一個單詞,經(jīng)過統(tǒng)計分析之后,還可能與若干個英語單詞相對應(yīng):例如,西班牙語的Que對應(yīng)于英語的單詞what,that,so,where,西班牙語的hambre對應(yīng)于英語的單詞hunger,hungry,西班牙語的tengo對應(yīng)于英語的單詞have,am,make,西班牙語的yo,對應(yīng)于英語單詞I,me。

        針對這種復(fù)雜的對應(yīng)情況,使用解碼算法進行計算,最后得到最優(yōu)的英語單詞序列:I am so hunger,如圖4所示。

        圖4 使用解碼算法得到英語譯文Fig.4 English translation by decoding algorithm

        在圖5中,與西班牙語單詞對應(yīng)的英語單詞是目標語單詞(target word)排列成柱狀,形成1sttarget word(第1個目標語單詞),2ndtarget word(第2個目標語單詞),3rdtarget word(第3個目標語單詞),4thtarget word(第4個目標語單詞)等柱子(beam),從start開始,解碼器采用動態(tài)規(guī)劃柱狀搜索(dynamic programming beam search)技術(shù),從柱子中選出與西班牙語單詞最匹配的英語單詞(best predecessor link),當源語言西班牙語句子中的單詞都全部覆蓋時(all source words covered),達到終點(end),搜索結(jié)束,就可以得到相應(yīng)的英語譯文。

        上面描述的這種統(tǒng)計機器翻譯是建立在單詞的基礎(chǔ)之上的,可以叫做基于單詞的統(tǒng)計機器翻譯(Word-Based SMT,簡稱WBSMT),這種基于單詞的統(tǒng)計機器翻譯技術(shù)存在如下的不足:

        第一,這種技術(shù)可以處理源語言中的一個單詞對應(yīng)于目標語言中的若干個單詞的“一對多”情況,但是,當源語言中的多個單詞對應(yīng)于目標語言中的一個單詞的“多對一”的時候,這種技術(shù)就束手無策。

        第二,這種技術(shù)無法處理源語言中固定短語。例如,固定短語interest in中interest的含義是“興趣”,而固定短語interest rate中的interest的含義則是“利息”,如果只孤立地考慮單詞interest本身,這種固定短語是無法處理的。

        圖5 動態(tài)規(guī)劃柱狀解碼Fig.5 Dynamic programming beam decode

        因此,有必要在統(tǒng)計機器翻譯中結(jié)合短語的知識,建立基于短語的統(tǒng)計機器翻譯系統(tǒng)(Phrase-Based SMT,簡稱PBSMT)。

        例如,在德語到英語的統(tǒng)計機器翻譯系統(tǒng)中,當把德語句子Morgen fliege ich nach Kanada zur Konferenz(明天我將飛往加拿大去參加會議)翻譯為英語句子Tomorrow I will fly to the conference in Canada的時候,把德語中的nach Kanada組成一個短語與英語的in Canada相對應(yīng),把德語中的Zur Konferenz組成一個短語與英語的to the conference相對應(yīng),形成圖6的對應(yīng)關(guān)系,就比之于完全依靠單詞對應(yīng)要好得多。

        圖6 德語和英語的短語對應(yīng)Fig.6 Phrase alignment between German and English

        在這種基于短語的統(tǒng)計機器翻譯系統(tǒng)中,源語言的句子首先切分為短語和單詞的組合,然后根據(jù)從雙語語料庫中獲取短語翻譯的知識,把每一個源語言短語翻譯成目標語言短語的可能性用概率表示。如果用P表示概率(Probability),對于上面的例子,可以得到

        P(to the conference|zur Konferenz),

        P(into the meeting|zur Konferenz),其中短語之間翻譯的可能性是用概率表示的。

        這種基于短語的統(tǒng)計機器翻譯系統(tǒng)的好處是:

        第一,可以實現(xiàn)源語言和目標語言單詞“多對多”的映射,因為當源語言中的多個單詞對應(yīng)于目標語言中的多個單詞的時候,就可以把它們當作短語來處理;

        第二,可以使用短語中的局部上下文進行多義詞的排歧。例如,在短語interest in中的interest的詞義可判定為“興趣”,在短語interest rate中的interest的詞義可判定為“利息”。

        因此,結(jié)合短語知識的統(tǒng)計機器翻譯系統(tǒng)克服了基于單詞的統(tǒng)計機器翻譯系統(tǒng)的不足。

        Koehn P等指出,在基于短語的統(tǒng)計機器翻譯中,也可以使用柱狀搜索解碼的方法。在Koehn P建立的統(tǒng)計機器翻譯系統(tǒng)“法老”(Pharaoh)中,就使用了柱狀搜索解碼器來進行基于短語的分析[11]。

        實踐證明,這種基于短語的技術(shù),可以改善統(tǒng)計機器翻譯的質(zhì)量,但是,當短語的長度擴大到3個以上的單詞時,翻譯系統(tǒng)的性能就很難提高,隨著短語中包含單詞數(shù)目的增大,數(shù)據(jù)稀疏問題會變的越來越嚴重。

        David Chiang提出基于層次短語的統(tǒng)計翻譯模型(hierarchical phrase-based model for statistical machine translation)。這種模型的基本思想是,在不干預(yù)基于短語的機器翻譯方法的前提下,第一遍調(diào)整短語內(nèi)部單詞之間的順序,第二遍再調(diào)整短語與短語之間的順序,短語是由單詞和子短語(subphrase)構(gòu)成的,這樣在短語之內(nèi)就出現(xiàn)了子短語這個層次。這種基于層次短語的翻譯知識是從沒有任何句法信息標注的雙語語料庫中通過機器學(xué)習(xí)(machine learning)獲得的[12]。

        這種基于短語的機器翻譯模型要依靠源語言和目標語言的短語對應(yīng)表(phrase list)來進行翻譯,而短語對應(yīng)表要通過雙語并行語料庫來自動地抽取,為了自動地抽取短語對應(yīng)表,關(guān)鍵問題是要進行“短語對齊”(phrase alignment),為此,Och提出了建造短語“對齊模板”(alignment templetes)的方法[13-15]。例如,通過德語和英語的雙語言并行語料庫,對于德語短語drei Uhr Nachmittag(下午3時)和英語短語three o′clock in the afternoon,計算機可以自動地建造這樣的對齊模板,如圖7所示。

        圖7 德語和英語的短語對齊模板Fig.7 Phrase alignment template between German and English

        其中,T1、T2、T3表示德語drei Uhr Nachmittag(下午3時)中的單詞drei、Uhr、Nachmittag,S1、S2、S3、S4、S5表示英語單詞three、o′clock、in、the、afternoon。T1與S1對應(yīng),T2與S2對應(yīng),T3與S3、S4、S5對應(yīng)。其中,英語的in the afternoon是短語,而德語的Nachmittag是單詞,這樣就實現(xiàn)了短語和單詞的對齊。所以,這樣的短語對齊模板對于基于短語的統(tǒng)計機器翻譯是非常有用的。

        仿照這樣的短語對齊模板,還可以在漢語和英語的雙語言并行語料庫中自動地建造如下的模板來實現(xiàn)漢語短語“在印度人民黨的壓力下”(在模板中用漢語拼音轉(zhuǎn)寫)與英語短語“under pressure from the Indian People′s Party”的對齊,如圖8所示。

        圖8 漢語短語與英語短語的對齊模板Fig.8 Phrase alignment template between Chinese and English

        在圖8中,豎行表示漢語短語,橫行表示英語短語,漢語的“在”(zai)和“下”(xia)與英語的under對應(yīng),漢語的“印度”(yindu)與英語的Indian對應(yīng),“人民”(renmin)與People′s對應(yīng),“黨”(dang)與Party對應(yīng),而英語的the在漢語中沒有對應(yīng)的單詞,這樣,漢語短語的“印度人民黨”就與英語的短語the Indian People′s Party實現(xiàn)了對應(yīng),漢語的“的”(de)與英語的from對應(yīng),漢語的“壓力”(yali)與英語的pressure對應(yīng)。在對齊“印度人民黨”這個短語的時候,首先對齊了其中的單詞“印度”、“人民”、“黨”,接著處理了沒有漢語對應(yīng)單詞的the,然后再實現(xiàn)短語的對齊,這意味著,可以首先分別實現(xiàn)單詞對齊,然后在單詞對齊的基礎(chǔ)上進一步實現(xiàn)短語對齊;同樣,“印度人民黨”(the Indian People′s Party)是整個大的短語中的一個子短語,可以首先實現(xiàn)子短語的對齊,然后再實現(xiàn)整個短語的對齊。

        在把兩種語言中對應(yīng)的單詞歸并為對應(yīng)的短語的時候應(yīng)該注意保持兩種語言的短語中所包含的單詞的一致性,一定要包含短語中含有的全部單詞,不能有遺漏,也不能超出短語范圍之外,否則,歸并出的短語就是不可靠的。

        例如,如果要在西班牙語的短語Maria no和英語的短語Mary did not之間對齊,由于單詞Maria和單詞Mary單詞是對應(yīng),單詞no和短語did not也是對應(yīng)的,因此,可以得到圖9中的第1個對齊的結(jié)果,短語中的單詞保持了一致性(圖9中為consistent),這是正確的短語對齊,如圖9中的第1種情況;如果英語中的單詞只包含Mary和did,不包含not,短語中少了一個單詞,就不能與西班牙語的短語Maria no保持一致性(圖9中為inconsistent),對齊的結(jié)果就是錯誤的,如圖9中的第2種情況;如果西班牙語短語中再加上一個dió,也不能與英語的短語Mary did not保持一致性(圖9中為inconsistent),對齊的結(jié)果也是錯誤的,如圖9中的第3種情況。

        圖9 保持短語中單詞的一致性Fig.9 Keeping words consistent in phrase

        短語對齊是建立在單詞對齊的基礎(chǔ)上的,如果得到了單詞對齊的結(jié)果,就可以在這個基礎(chǔ)上進一步進行短語對齊。例如,在西班牙語-英語的統(tǒng)計機器翻譯系統(tǒng)中,通過雙語語料庫的訓(xùn)練,得到了西班牙句子Maria no dió una bofetada a la bruja verde(Maria沒有拍擊綠色的女巫)和英語句子Mary did not slap the green witch的單詞對齊結(jié)果,如圖10所示,假定這時,西班牙語句子和英語句子中的單詞都達到了最好的對應(yīng)。

        圖10 西班牙語句子與英語句子的單詞對齊結(jié)果Fig.10 Words alignment result between Spanish sentence and English sentence

        從圖10中可以看出,有些單詞是與短語相對應(yīng)的。例如,西班牙語中的單詞no與英語中的短語did not相對應(yīng),英語中的單詞slap與西班牙語中的短語dió una bofetada相對應(yīng)。有的單詞在對方的語言中沒有相應(yīng)的對應(yīng)單詞或短語。例如,西班牙語中的a,就沒有相應(yīng)的英語單詞與它對應(yīng)。

        在圖11中,凡是對齊了的單詞和短語,都用黑色粗線的邊框標出。一共有6組:(Maria,Mary),(no,did not),(dió una bofetada,slap),(la,the),(bruja,witch),(verde,green)。

        圖11 單詞和短語的對齊Fig.11 Alignment of words and phrases

        在這個基礎(chǔ)上,在保持西班牙語短語與英語短語一致性的原則下,繼續(xù)進行短語對齊,西班牙語中的a在英語中沒有對應(yīng)的單詞,把它納入到短語dió una bofetada和單詞la中,得到如下的對齊短語:(dió una bofetada a,slap the),(a la,the),如圖12所示。

        圖12 雙語短語對齊之1Fig.12 Bilingual phrase alignment(1)

        還可以進一步得到如下的幾組對齊短語:(Maria no,Mary did not),(no dióuna bofetada,did not slap),(dió una bofetada a la,slap the),(bruja verde,green witch),如圖13所示。

        圖13 雙語短語對齊之2Fig.13 Bilingual phrase alignment(2)

        然后,還可以得到如下的對齊短語:(Maria no dió una bofetada,Mary did not slap),(a la bruja verde,the green witch),(no dió una bofetada a la,did not slap the),(Maria no dió una bofetada a la,Mary did not slap the),(dió una bofetada a la bruja verde,slap the green witch)。最后,把短語對齊擴大到整個的句子,得到(Maria no dió una bofetada a la bruja verde,Mary did not slap the green witch),如圖14所示。

        在使用對齊模板在雙語言并行語料庫中進行雙語的短語對齊時,可能會產(chǎn)生很多的對齊短語偶對,這時可以使用短語中的高頻詞來過濾掉一些多余的短語偶對。如果一個源語言的短語對應(yīng)于目標語言中的若干個短語,就會產(chǎn)生對齊的歧義,當出現(xiàn)歧義短語偶對時,可以根據(jù)上下文來排歧。

        圖14 雙語短語對齊之3Fig.14 Bilingual phrase alignment(3)

        如果使用這樣的方法從雙語語料庫中提取出對齊的短語,建成雙語言的“短語對應(yīng)表”,在進行基于短語的統(tǒng)計機器翻譯時,首先將源語言句子切分成短語串,然后將這些源語言中的短語串,按照雙語言的短語對應(yīng)表進行映射,把它們映射成目標語言中相對應(yīng)的短語,最后對目標語言的短語串進行排序,得到目標語言的輸出。雙語言的短語中包含了局部的單詞選擇和單詞的局部順序以及很多的習(xí)慣表達和搭配信息,這些是基于單詞的統(tǒng)計機器翻譯不具備的。由于引入了短語的語言信息,基于短語的統(tǒng)計機器翻譯(PBSMT)在性能上超過了基于單詞的統(tǒng)計機器翻譯(WBSMT),所以基于短語的統(tǒng)計機器翻譯系統(tǒng)受到了機器翻譯研究者的歡迎。

        3 基于句法的統(tǒng)計機器翻譯

        基于短語的統(tǒng)計機器翻譯盡管優(yōu)于基于單詞的統(tǒng)計機器翻譯,但是,基于短語的統(tǒng)計機器翻譯只考慮短語本身的信息,并沒有考慮短語與短語之間的句法關(guān)系,因此,在機器翻譯時,難以處理短語之間重新排序的問題。例如,在把英語中的SVO(主-動-賓)結(jié)構(gòu)轉(zhuǎn)換成日語中的SOV(主-賓-動)結(jié)構(gòu)時必須進行重新排序,這種情況使得基于短語的統(tǒng)計機器翻譯感到困惑;對于在短語之間的長距離依存關(guān)系(long distance dependency),基于短語的統(tǒng)計機器翻譯也常常感到捉襟見肘,難以對付。

        由于基于短語的統(tǒng)計機器翻譯的這些不足,學(xué)者們希望通過引入句法信息來解決這些問題,2001年Yamada K和Knight K提出了基于句法的統(tǒng)計機器翻譯(syntax-based SMT,簡稱SBSMT)[16]。

        在他們的機器翻譯系統(tǒng)中,輸入是源語言的句法樹,輸出是目標語言的句子。因此,源語言必須經(jīng)過自動句法剖析,得到了句法樹之后,才作為初始的輸入進入統(tǒng)計機器翻譯系統(tǒng)SBSMT。

        基于句法的統(tǒng)計機器翻譯過程分為如下幾個步驟:

        1)調(diào)序(reorder):輸入樹形圖中的每個子樹需要根據(jù)它們的概率重新排列,進行順序的調(diào)整。

        2)插入(insert):在子樹結(jié)點的左邊或右邊隨機插入恰當?shù)墓δ茉~,插入時,左插入、右插入和不插入的概率取決于父結(jié)點和當前結(jié)點的標記,所插入單詞的概率只與該單詞本身有關(guān),與位置無關(guān)。

        3)翻譯(translation):根據(jù)詞對詞的翻譯概率,把樹形圖中每一個葉子結(jié)點上的單詞翻譯為目標語言的相應(yīng)單詞。

        4)輸出(output):輸出譯文句子。

        例如,應(yīng)用SBSMT方法,把英語句子He adores listening to music翻譯為日語的過程如下:

        首先,對于英語句子進行自動剖析,得到如下的樹形圖,如圖15所示。

        圖15 輸入樹形圖Fig.15 Input tree graph

        然后,根據(jù)英語與日語雙語言并行語料庫中關(guān)于英語和日語調(diào)序(reorder)關(guān)系的概率,對于輸入樹形圖中的子樹重新排列,把VB1移動到VB2之后,在以VB2為父結(jié)點的子樹中,把結(jié)點VB移動到結(jié)點TO之后,在以TO為父結(jié)點的子樹中,把結(jié)點TO移動到結(jié)點NN之后,得到的結(jié)果如圖16所示。

        圖16 調(diào)序Fig.16 Reorder

        經(jīng)過調(diào)序之后,樹形圖中的子樹已經(jīng)具有了日語的順序,再根據(jù)日語語法的規(guī)則,插入日語的功能詞(如格助詞、助動詞等),把它們添加到樹形圖的有關(guān)結(jié)點上,得到的結(jié)果如圖17所示。

        圖17 插入日語功能詞Fig.17 Inserting Japanese functional words

        最后,根據(jù)詞對詞的翻譯概率,把樹形圖葉子結(jié)點上的英語翻譯為日語,得到的結(jié)果如圖18。かれはぉんがくをきくのがたぃすきです。

        圖18 翻譯葉子結(jié)點上的英語為日語Fig.18 Translating English words on the leafs to Japanese word

        順次取出葉子結(jié)點上的單詞,得到日語的譯文:

        最后,再把有關(guān)的假名符號轉(zhuǎn)寫為日語漢字,就得到可讀性強的日語譯文如下:

        彼は音樂を聞くのが大好きです。

        從這個例子中可以看出,在基于句法的統(tǒng)計機器翻譯中,需要進行3種操作:

        1)調(diào)序操作(Reordering operation):調(diào)整句子中符號串(在樹形圖中表現(xiàn)為子樹)的順序,把源語言符號串的順序A1A2A3調(diào)整為目標語言符號串的順序A1A3A2。其公式為

        2)插入操作(Insertion operation):在符號串A1的前面或后面插入功能詞w。其公式為

        3)翻譯操作(Translating operation):把源語言的單詞x翻譯為目標語言的單詞y。其公式為

        上述操作的統(tǒng)計知識通過訓(xùn)練雙語言并行語料庫來獲取,建立不同的模型參數(shù)表(model parameter tables)。

        為了進行調(diào)序操作,需要建立調(diào)序表(reordered table,簡稱r-table),如圖19所示。

        圖19 調(diào)序表Fig.19 Reorder table

        在調(diào)序表r-table中,記錄著調(diào)序規(guī)則的概率P(reorder),第1列表示原詞序(original order),第2列表示可能的調(diào)序結(jié)果(reordering),第3列表示相應(yīng)的調(diào)序概率P(reorder)。對于符號串PRP VB1 VB2調(diào)序時,存在著多種可能性:PRP VB1 VB2(保持原來順序),PRP VB2 VB1,VB1 PRP VB2,VB1 VB2 PRP,VB2 PRP VB1,VB2 VB1 PRP等,其中,調(diào)序為PRP VB2 VB1的概率最大,為0.732,故選擇調(diào)序為PRP VB2 VB1,也就是把VB2移動到VB1之前。同理,把VB TO調(diào)序為TO VB,因為這種調(diào)序的概率最大,為0.749;把TO NN調(diào)序為NN TO,因為這種調(diào)序的概率最大,為0.893。

        為了進行插入操作,需要建立結(jié)點表(node table,簡稱n-table)。

        圖20的結(jié)點表分左右兩個,分別叫做n-table(1)和n-table(2)。

        圖20 結(jié)點表Fig.20 Node table

        n-table(1)記錄著非終極符號插入樹形圖中有關(guān)結(jié)點上的概率。

        例如,當父結(jié)點(parent)為TOP(句子的頂點),當前結(jié)點(node)為VB時,如果不插入任何單詞,保持原狀[P(NONE)],那么,其插入概率為0.735,記為

        P(None|Parent=TOP,Node=VB)=0.735。

        又如,當父親結(jié)點VB,當前結(jié)點為PRP,而且在PRP中插入的單詞は處于子樹的右側(cè)時,其插入概率為0.652,記為

        P(Right|Parent=VB,Node=PRP)=0.652。

        圖18的樹形圖中的8個非終極結(jié)點上,分別有8個非終極符號:VB,PRP,VB2,VB1,TO,VB,NN,TO,它們都分別要進行插入操作,所以一共需要進行8個插入操作,其中有4個插入操作都在右側(cè)插入了功能詞。

        此外還要考慮功能詞本身的插入概率,n-table(2)記錄著各個功能詞的概率:

        為了進行翻譯操作,需要建立翻譯表(translation table,簡稱t-table)。在t-table中記錄著源語言單詞翻譯為目標語言單詞的概率。

        最后還需要計算調(diào)序-插入-翻譯的聯(lián)合概率。

        這個機器翻譯系統(tǒng)使用英語-日語雙語語料庫進行訓(xùn)練,包括例句2 121對,日語平均句長9.7詞,英語平均句長6.9詞,詞典中英語3 463詞,日語3 983詞。他們使用Brill的詞性標注器(Brill’s POS Tagger)和Collins的剖析器(Collins’Parser)進行句法剖析,使用中心詞詞性標記提取短語標記,合并中心詞相同的句法子樹從而壓扁句法樹。

        經(jīng)過測試,該系統(tǒng)明顯地優(yōu)于IBM公司的基于噪聲信道模型的統(tǒng)計機器翻譯模型??梢?,在統(tǒng)計機器翻譯中使用句法信息有助于譯文質(zhì)量的提高。

        4 結(jié)束語

        基于規(guī)則的機器翻譯方法是一種理性主義的方法(rationalist approach),基于統(tǒng)計的機器翻譯方法是一種經(jīng)驗主義的方法(empiricist approach),基于短語和句法的統(tǒng)計機器翻譯,把短語規(guī)則、句法規(guī)則融入統(tǒng)計機器翻譯中,從而把基于規(guī)則的機器翻譯方法與基于統(tǒng)計的機器翻譯方法結(jié)合起來,把理性主義方法與經(jīng)驗主義方法結(jié)合起來,讓這兩種方法取長補短,相得益彰,這是機器翻譯發(fā)展的正確方向。

        近年來,在統(tǒng)計機器翻譯中,又開始使用深度機器學(xué)習(xí)的方法,讓計算機自動地學(xué)習(xí)自然語言中的抽象特征表示,自動地建立輸入信號與輸出信號之間的復(fù)雜的映射關(guān)系,這種深度學(xué)習(xí)方法,給統(tǒng)計機器翻譯提供了新的思路[17]。

        [1]馮志偉.機器翻譯研究[M].北京:中國對外翻譯出版公司,2004.

        [2]馮志偉.機器翻譯-從夢想到現(xiàn)實[J].中國翻譯,1999(4):37-40.

        [3]馮志偉.機器翻譯-從夢想到現(xiàn)實[J].中國翻譯,1999(5):52-55.

        [4]馮志偉.自然語言處理中的哲學(xué)問題[J].心智與計算,2007,1(3):333-353.

        [5]Brown P F,John C,Della Pietra S A,et al.A Statistical Approach to Machine Translation[J].Computational Linguistics,1990,16(2):79-85.

        [6]梁華參.基于短語的統(tǒng)計機器翻譯模型訓(xùn)練中若干關(guān)鍵問題的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.

        [7]熊德意,劉群,林守勛.基于句法的統(tǒng)計機器翻譯綜述[J].中文信息學(xué)報,2008,22(2):28-39.

        [8]劉群.漢英機器翻譯若干關(guān)鍵技術(shù)研究[M].北京:清華大學(xué)出版社,2008.

        [9]Weaver W.Warren Weaver's memorandum in 1949:Translation,Milestones in machine Translation[C]//Locke W N,Booth A D. Machine Translation of languages:fourteen essays,Cambridge,Mass:MIT Press,1955:15-23.

        [10]Brown P F,Della Pietra S A,Della Pietra V J,et al.The mathematics of statistical machine translation:parameter estimation[J]. Computational Linguistics,1993,19(2):263-311.

        [11]Koehn P.Pharaoh:A beam search decoder for phrase-based statistical machine translation models[C]//Proceedings of the 6th Conference of the Association for machine translation in the Americas,Los Angeles,2004:115-124.

        [12]Chiang D.Hierarchical phrase-based translation[J].Computational Linguistics,2007,33(2):201-228.

        [13]Och F J,Tillmann C,Ney H.Improved alignment models for statistical machine translation[C]//Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora,University of Maryland,College Park,MD,USA,1999:20-28.

        [14]Och F J,Ney H.Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics(ACL),Baltimore,Maryland,USA,2002:295-302.

        [15]Och F J,Gildea D,Khudanpur S,et al.Final Report of John Hopkins 2003SummerWorkshoponSyntaxforStatistical MachineTranslation[M].Baltimore:PressofHopkins University,2003.

        [16]Yamada K,Knight K.A Syntax-Based Statistical Translation Model[C]//Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(ACL),Toulouse,F(xiàn)rance,2001:23-27.

        [17]馮志偉.《統(tǒng)計機器翻譯》述評[J].外語教學(xué)與研究,2013,45(4):629-633.Phrase-based and syntax-based statistical machine translation

        FENG Zhi-wei
        (School of Foreign Languages,Hangzhou Normal University,Hangzhou,Zhejiang 311121,China)

        The development process of statistical machine translation(SMT)is described in this paper,and the noisy channel model in SMT,phrase-based SMT and syntax-based SMT are introduced.In order to give impetus to MT,the rationalist approach and the empiricist approach should be combined.

        machine translation;statistical machine translation;noisy channel model;rationalist approach;empiricist approach

        TP391

        A DOI:10.3969/j.issn.1007-791X.2015.06.013

        1007-791X(2015)06-0546-10

        2015-03-20

        *馮志偉(1939-),男,云南昆明人,教授,博士生導(dǎo)師,主要研究方向為自然語言處理、計算語言學(xué),Email:zwfengde2010@ hotmail.com。

        猜你喜歡
        源語言目標語言西班牙語
        鰹鳥
        林巍《知識與智慧》英譯分析
        淺析日語口譯譯員素質(zhì)
        西班牙語母語者漢語副詞“就”的習(xí)得研究
        教材插圖在英語課堂閱讀教學(xué)中的運用及實例探討
        電力西班牙語在委內(nèi)瑞拉輸變電項目上的應(yīng)用
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        以口譯實例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語習(xí)得過程中的石化現(xiàn)象分析
        概念任務(wù)下中英雙語者非目標語言的詞匯通達
        国产成人亚洲不卡在线观看| 久久久久久久波多野结衣高潮| 亚洲欧美一区二区三区| 人妻无码一区二区在线影院| 日韩人妖一区二区三区| 精品人妻av区乱码色片| 国产麻传媒精品国产av| 天天综合久久| 女同久久精品国产99国产精| 免费一级淫片日本高清 | 久久人妻内射无码一区三区| 国产精品美女白浆喷水| 成人全视频在线观看免费播放| 男女男精品视频网站免费看| 少妇无码av无码专区| 国产成人av综合亚洲色欲| 国产一区二区一级黄色片| 中字亚洲国产精品一区二区| 久久综合九色综合久久久| 女人的精水喷出来视频| 亚洲精品中文字幕无码蜜桃 | 18禁无遮挡羞羞污污污污网站| 亚洲精品自拍视频在线观看| 国产免费成人自拍视频| 亚洲乱码国产乱码精品精| 亚洲欧美日韩精品高清| 精品少妇人妻久久免费| 国产一区二区三区四区在线视频| 国色天香中文字幕在线视频 | 超碰日韩AV在线| 亚洲AV无码专区国产H小说| 性色国产成人久久久精品二区三区| 日本丰满少妇裸体自慰| 伴郎粗大的内捧猛烈进出视频观看 | 韩国三级中文字幕hd| 国产精品不卡无毒在线观看| 在线亚洲精品一区二区三区| 午夜精品久久久久久久| 国产人澡人澡澡澡人碰视频 | 麻豆国产成人av高清在线观看| 免费国产在线精品三区|