亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡的統(tǒng)計機器翻譯的預調(diào)序模型

        2016-05-04 01:15:01楊南李沐
        中文信息學報 2016年3期
        關鍵詞:源語言語料排序

        楊南,李沐

        (1.中國科學技術大學信息科學技術學院,安徽合肥 230026;2. 微軟亞洲研究院,北京 100080)

        基于神經(jīng)網(wǎng)絡的統(tǒng)計機器翻譯的預調(diào)序模型

        楊南1,李沐2

        (1.中國科學技術大學信息科學技術學院,安徽合肥 230026;2. 微軟亞洲研究院,北京 100080)

        長距離調(diào)序是統(tǒng)計機器翻譯的一個主要挑戰(zhàn)。之前的研究工作表明預調(diào)序是解決這個問題的一個可能的途徑。在該工作中,我們沿著預調(diào)序這個研究方向,將神經(jīng)網(wǎng)絡建模結合到線性排序的框架之下,提出了一個基于神經(jīng)網(wǎng)絡的預調(diào)序模型。這個的預調(diào)序模型能夠利用從海量未標注數(shù)據(jù)中抽取的句法和語意信息,從而更好的對不同語言之間的語序差異進行預測。我們在中文到英文以及日文到英文的機器翻譯任務上進行了實驗,實驗結果表明了該方法的有效性。

        統(tǒng)計機器翻譯;預調(diào)序;神經(jīng)網(wǎng)絡

        1 引言

        對源語言和目標語言之間語序的差異進行建模是統(tǒng)計機器翻譯研究的一個主要問題?;诙陶Z的統(tǒng)計機器翻譯模型[1]將短語對作為一個基本的翻譯單元,自動的記錄了局部的調(diào)序現(xiàn)象,但對于長距離的調(diào)序現(xiàn)象缺乏有效的描述。為了解決長距離調(diào)序的問題,研究人員進行了多種嘗試,提出了不同的方法。例如,Xiong等[2]提出了基于最大熵的詞匯化的調(diào)序模型,利用詞匯信息對語序進行更好的刻畫;Chiang[3]等考慮語言的層級結構對調(diào)序進行建模。

        在語序差異顯著的語言對之間,例如,主—謂—賓(S-V-O)結構的英文與主—賓—謂(S-O-V)結構的日文,長距離調(diào)序的問題更加明顯,在基于短語的翻譯系統(tǒng)中難以得到很好的解決。基于句法的語法系統(tǒng),例如,Liu等[4]的工作,將源語言句法樹的信息直接放入翻譯模型,能在一定程度上對長距離調(diào)序進行描述,但同時也帶來了翻譯模型中翻譯規(guī)則數(shù)量巨大,翻譯解碼時間較長等問題。另一種方法稱為預調(diào)序,它只用源語言段的詞匯或者句法的信息,在翻譯解碼之前將輸入源語言的句子調(diào)整為接近目標語言的語序,然后用一個標準的基于短語的機器翻譯系統(tǒng)對調(diào)序之后的句子進行翻譯。這種預調(diào)序方法,一方面能夠有效的利用源語言的詞匯和句法信息幫助解決調(diào)序問題;另一方面又保留了基于短語的翻譯系統(tǒng)的簡潔性,在實踐中得到了較好的效果?;陬A調(diào)序的主要工作有Tromble和Eisner[5]等。

        本工作沿著預調(diào)序這一研究方向,提出了一種基于神經(jīng)網(wǎng)絡的統(tǒng)計機器翻譯預調(diào)序模型。本方法利用神經(jīng)網(wǎng)絡語言模型[6]的方法,從未標注文本學習詞匯的抽象表示,然后利用一個多層神經(jīng)網(wǎng)絡,將這個詞匯表示和其他特征結合起來,融入到一個線性排序的模型中;我們從自動對齊或者人工標注對齊的雙語平行語料獲取詞排序模型需要的訓練樣本,用隨機梯度下降的方法進行判別訓練。為了驗證此方法的有效性,我們在中文到英文以及日文到英文的機器翻譯任務上進行了實驗。實驗結果表明,相比于基準系統(tǒng),本文提出的基于神經(jīng)網(wǎng)絡的預調(diào)序模型在測試數(shù)據(jù)集上能顯著提高機器翻譯系統(tǒng)性能。

        2 相關工作

        調(diào)序問題一直是機器翻譯研究的重難點[7-8]。在機器翻譯預調(diào)序方向上,一些工作提出了基于句法樹手寫調(diào)序規(guī)則的方法,例如,Collins等[9]針對德語和英語之間的詞序問題定制了一系列規(guī)則。Xu等[10]設計了一種基于優(yōu)先級概念的調(diào)序規(guī)則,處理了英語到幾種SOV語言的調(diào)序問題。手工規(guī)則的缺點是它依賴于專家知識,對于不同的語言對需要特別的制定對應的規(guī)則。

        部分研究人員也探討過從數(shù)據(jù)自動學習預調(diào)序模型。其中,Tromble和Eisner[5]提出了一種基于線性排序的預調(diào)序模型;Yang等[11]提出了基于排序的預調(diào)序模型;Visweswariah等[12]將預調(diào)序問題看成是一個非對稱旅行商 (ATS) 問題。這些工作中的模型采用基于稀疏特征的線性模型,可能遇到數(shù)據(jù)稀疏的問題。

        利用神經(jīng)網(wǎng)絡處理機器翻譯調(diào)序問題的主要工作是Li等[13]。此工作提出用遞歸神經(jīng)網(wǎng)絡對機器翻譯的調(diào)序過程進行描述。與這個工作不同的是,我們是在預調(diào)序的框架下利用神經(jīng)網(wǎng)絡解決翻譯調(diào)序問題的。

        3 模型

        在本章中,我們首先介紹用神經(jīng)網(wǎng)絡學習詞匯的向量表示;然后闡述線性排序模型;最后提出基于神經(jīng)網(wǎng)絡的預調(diào)序模型。

        3.1 詞匯的向量表示

        為了改善這一問題,Bengio等[6]提出了基于神經(jīng)網(wǎng)絡的語言模型。在他們的工作中,一個神經(jīng)網(wǎng)絡模型將高維的詞匯特征轉(zhuǎn)化為低維的、稠密的向量表示;通過在大量文本上進行判別訓練,該模型能將上下文相似的詞匯映射到低維向量空間上相近的點。沿著這一方向,Collobert等[14]提出了一種基于負抽樣(negative-sampling)的更快速的學習方法,有效的在大規(guī)模的語料上學習到了大量詞匯的向量表示。Collobert等的神經(jīng)網(wǎng)絡的結構如圖1所示。

        圖1 學習詞匯向量表示的神經(jīng)網(wǎng)絡結構圖

        s(w-n,…,w0,…,wn)=l2·tanh·

        l1·LOOKUP(w-n,…,w0,…,wn)

        (1)

        其中:

        (2)

        Mikolov等[15]提出了另一種基于Skip-ngram快速學習詞匯表示的方法。在這種方法中,一個前饋神經(jīng)網(wǎng)絡被用來建立詞w和它上下文中的詞c(w)的條件概率模型,如式(3)所示。

        (3)

        其中l(wèi)是一個線性層,輸入長度為詞匯表示的長度,輸出長度為詞表的大??;softmax將l的輸出歸一化為概率。為了加速歸一化,Mikolov提出了采用基于哈夫曼樹的層級softmax方法進行加速。Skip-ngram的訓練采用隨機梯度下降對此條件概率做訓練數(shù)據(jù)的最大似然估計。

        以上學習詞匯表示的方法還可以推廣到對詞匯n元(n-gram)進行學習。我們將詞匯n元x看成一個整體,用神經(jīng)網(wǎng)絡建立它和上下文的詞匯c(w)(上下文依然是詞匯,不是詞匯n元)的條件概率模型,如式(4)所示。

        (4)

        詞匯n元表示的訓練方法與詞匯表示訓練方法完全相同。由于我們的模型上下文依然是詞匯,訓練詞匯n元的低維表示與訓練詞匯表示的計算量是相同的;不同的是n元數(shù)量遠多于詞匯,需要更多的數(shù)據(jù)才能進行準確估計。詞匯n元能夠包含無法用詞匯表示組合出的信息。

        通過在大量文本上進行訓練,神經(jīng)網(wǎng)絡學到的詞匯向量表示能將語法、語意上相近的詞映射到低維空間相近的位置。將這種詞匯向量表示作為特征作為調(diào)序模型的輸入,我們能自動的利用其中蘊含的信息,學到更好的調(diào)序模型。

        3.2 線性排序模型

        (5)

        (6)

        也就是說,(i,j)在置換中保持相對順序不變,那么它們的分數(shù)是s(i,j,0);如果他們的相對順序倒轉(zhuǎn),則分數(shù)是s(i,j,1)。

        (7)

        (8)

        其中f是一個特征向量,θ是對應的特征權重向量。

        在這個調(diào)序模型的框架下,機器翻譯預調(diào)序的問題被轉(zhuǎn)化為了一個尋找最高分置換的搜索過程,如式(9)所示。

        (9)

        影響此模型性能的一個關鍵因素是能否設計合適的特征f。在Tromble的工作中,他采用了大量的高維詞匯特征。由于詞匯特征難以推廣,他們又引入了詞類,詞性標注等粗粒度特征進行平滑。

        3.3 基于神經(jīng)網(wǎng)絡的預調(diào)序模型

        神經(jīng)網(wǎng)絡學習到的詞匯向量表示蘊含豐富的語法、語意信息;我們認為,這種信息能夠幫助預測機器翻譯的詞序。為此,我們提出以下基于神經(jīng)網(wǎng)絡的預調(diào)序模型。此模型是建立在線性調(diào)序的框架下,將詞匯調(diào)序問題分解為句子中詞的兩兩排序問題,對于其中每一對詞的排序,我們用一個多層神經(jīng)網(wǎng)絡對它進行打分。

        (10)

        ssparse是普通的稀疏特征計算出的分數(shù),sNN是一個神經(jīng)網(wǎng)絡計算的分數(shù),如式(11)所示。

        (11)

        神經(jīng)網(wǎng)絡將第i詞和第j詞的上下文窗口中的詞匯和詞匯n元(n-gram)作為輸入,通過查找層LOOKUP將他們轉(zhuǎn)化為向量化表示,再依次通過線性層l1,雙曲正切層tanh以及第二個線性層l2得到輸出sNN。輸出結果sNN是一個二維向量,sNN[0]表示(i,j)在置換中保持相對順序不變的分數(shù),sNN[1]表示(i,j)在置換中相對順序倒轉(zhuǎn)的分數(shù)。圖2給出了這個神經(jīng)網(wǎng)絡的結構。

        圖2 預調(diào)序模型中的神經(jīng)網(wǎng)絡結構圖

        此外,我們可以在sNN的最后輸出層加入稀疏特征,用以補充神經(jīng)網(wǎng)絡中由向量化詞匯表示難以描述的信息,如兩個詞之間的距離等。

        在應用這個模型進行預調(diào)序的時候,我們將搜索如下的模型最優(yōu)解作為輸出,如式(12)所示。

        (12)

        4 訓練

        訓練我們的模型有兩個工作,一是從雙語平行語料中獲取排序模型所需的訓練數(shù)據(jù);二是基于獲得的訓練數(shù)據(jù),對模型進行統(tǒng)計參數(shù)學習。

        4.1 調(diào)序訓練數(shù)據(jù)的獲取

        我們的模型的訓練樣本從有詞對齊的雙語平行語料中獲取。 對于一個有詞對齊信息的雙語句對(e,f,a),其中e是源語言句子,f是目標語言句子,a是它們之間的詞對齊關系,e的長度是n。我們想得到一個源語言句子e的重排序π*,使它和目標語言句子的語序最相似。在這里,我們沿用Yang等[11]法,采用一個叫做交叉連接數(shù) (crosslink) 的標準作為衡量調(diào)序結果好壞的標準。我們用一個數(shù)對(i,j)表示一個詞對齊連接,它表示從源語言第i個詞連接到目標語言第j個詞。我們稱兩個詞對齊鏈接(i1,j1)和(i2,j2)是交叉的,如果它們滿足:

        如果我們定義:

        那么源語言一種重排序π的交叉連接數(shù)如式(13)所示。

        (13)

        我們采用交叉連接數(shù)最少的重排序π*作為訓練時的目標排序,如式(14)所示。

        (14)

        4.2 參數(shù)學習

        (15)

        其中π-是不同于π*的所有排序中分數(shù)最高的一個重排序。此損失函數(shù)是一種帶邊界的合頁損失,促使模型對目標重排序π*給出更高的分數(shù)。

        我們采用標準的隨機梯度下降算法對此進行優(yōu)化。對于雙語語料中的所有句對,我們依次抽取其中一個句對,用當前的參數(shù)值對它進行CKY解碼,取得π-,并和最優(yōu)的π*進行對比。如果對比之下?lián)p失不為0,那么我們將針對此損失求梯度,并對參數(shù)進行更新:

        其中γ是一個大于0的學習率,L(θ)是對應的梯度。稀疏特征的特征權重的參數(shù)的梯度如式(16)所示。

        (16)

        其中fsparse是稀疏特征的特征向量。對于神經(jīng)網(wǎng)絡中的參數(shù),我們可以通過標準的反向傳播算法(back-propagation)[6]計算得到。

        在模型參數(shù)初始化的時候,我們將從大量文本學習到的詞匯向量化表示作為神經(jīng)網(wǎng)絡的查找層參數(shù)的初始值;對神經(jīng)網(wǎng)絡中兩個線性層的參數(shù),我們隨機的把它們初始化到一個小的區(qū)間;對于稀疏特征的特征權重,我們統(tǒng)一初始化為0。

        5 實驗及分析

        為了驗證基于神經(jīng)網(wǎng)絡的預調(diào)序方法的有效性,我們在中文到英文以及日文到英文上進行了實驗。

        5.1 實驗數(shù)據(jù)

        我們的實驗數(shù)據(jù)分為三個部分: 一是用于訓練詞匯向量表示和語言模型的單語文本;二是用于進行預調(diào)序模型和翻譯模型訓練的雙語數(shù)據(jù);三是用于評測翻譯效果的測試數(shù)據(jù)。

        (1) 單語語料: 我們的單語文本是從互聯(lián)網(wǎng)上抓取的單語文本。經(jīng)過正規(guī)化、去重等處理,我們得到了約十億句英文文本,四億句中文文本,兩億句日文文本。其中,英文作為目標語言,用于訓練語言模型;中文和日文作為源語言,用于訓練詞匯的向量化表示。

        (2) 雙語平行語料: 我們的平行語料是從互聯(lián)網(wǎng)上自動抓取的。在本次實驗中,我們使用的中文到英文數(shù)據(jù)包含約2 600萬句對,日文到英文數(shù)據(jù)包含約1 500萬句對。我們使用這些語料訓練預調(diào)序模型以及翻譯模型。

        (3) 機器翻譯實驗測試數(shù)據(jù): 對于中文到英文,我們采用標準的NIST機器翻譯評測測試集,其中NIST05作為開發(fā)集,NIST06和NIST08作為測試集。對于日文到英文的實驗,我們采用自己人工翻譯的5 000句新聞語料,其中2 500句作為開發(fā)集,2 500句作為測試集。

        5.2 實現(xiàn)細節(jié)和基準系統(tǒng)

        本工作的翻譯系統(tǒng)是一個基于最大熵的詞匯化調(diào)序的BTG短語機器翻譯系統(tǒng)[2]。除了詞匯化的調(diào)序特征外,它還具有一般短語翻譯系統(tǒng)的主要特征,例如,正向反向短語、詞匯翻譯概率,4-gram語言模型,詞匯、短語懲罰等。我們的4-gram語言模型是自己基于Trie樹實現(xiàn)的Katz-backoff[17]的語言模型。

        本工作的基準系統(tǒng)有兩個: 一個是未經(jīng)過預調(diào)序的翻譯系統(tǒng),它用于驗證使用預調(diào)序技術對于翻譯系統(tǒng)的影響;第二個是對于輸入做基于稀疏特征的預調(diào)序的翻譯系統(tǒng),它用于驗證使用向量化詞匯表示的神經(jīng)網(wǎng)絡預調(diào)序模型對于翻譯結果的影響。

        本文中使用的稀疏特征包括詞匯特征,詞性標記,詞與詞之間距離,詞與詞之間依存句法關系等。

        對神經(jīng)網(wǎng)絡模型,我們使用的詞匯向量表示的長度是100,神經(jīng)網(wǎng)絡輸入層的窗口大小是5,中間隱含層的長度是50。在學習的過程中,初始的學習率設置為0.1,并隨著訓練的進行逐漸減小。我們在單語數(shù)據(jù)上學習詞匯向量的方法是按照Mikolov等[14]的方法實現(xiàn)的,并使用AdaptiveGradient方法加速訓練過程。我們的實驗中,中文和日文是源語言,因此我們只需對中文和日文的表示進行學習。對中文和日文,我們都只保留詞匯表中最高頻的50萬個詞。對于詞匯n元,我們采用長度為64的低維表示;我們對單語語料中頻率高于50的2—4元學習低維表示,其中中文約有1.2億個n元,而日文有0.6億個n元。

        對于使用預調(diào)序的系統(tǒng),我們會在未預調(diào)序的系統(tǒng)上進行詞對齊,在此基礎上訓練預調(diào)序模型;預調(diào)序模型訓練好后,我們用它對整個訓練語料的源語言進行預調(diào)序,然后再在調(diào)整之后的雙語句對上進行詞對齊,翻譯模型抽取等工作。這樣,我們能保持訓練和測試時使用的翻譯模型的一致性,從而取得更好的效果[10]。我們的詞對齊是使用GIZA++[18]生成的IBM-4詞對齊,使用grow-diag-final[1]的啟發(fā)式規(guī)則進行雙向合并。由于自動生成的詞對齊有噪聲,會影響預調(diào)序模型的訓練,我們手工定制了一些規(guī)則去除了關于一些停用詞 (如“the”等) 的對齊。

        5.3 機器翻譯實驗結果

        我們在中英和日英的數(shù)據(jù)集上進行了實驗,實驗結果的評測采用大小寫無關的BLEU-4[19]作為評價標準(表1、表2)。我們用“NoPR”表示沒有使用需調(diào)序的翻譯系統(tǒng),“SparsePR”表示只使用稀疏特征預調(diào)序的翻譯系統(tǒng),“NNPR”表示基于神經(jīng)網(wǎng)絡預調(diào)序的翻譯系統(tǒng)。

        表1 中文到英文翻譯結果

        表2 日語到英語翻譯結果

        可以看出,我們提出的預調(diào)序方法在兩種語言都比未使用預調(diào)序的翻譯系統(tǒng)取得了顯著的提高。

        在日英數(shù)據(jù)集上,使用神經(jīng)網(wǎng)絡的預調(diào)序模型和只使用稀疏特征的模型相比取得了相當?shù)慕Y果;而在中英數(shù)據(jù)集上,神經(jīng)網(wǎng)絡的預調(diào)序模型比只使用稀疏特征的模型相比有一定的提高。出現(xiàn)這種現(xiàn)象的原因是,日英間的調(diào)序主要由語法決定,這些語法信息在詞性標記等特征上已經(jīng)得到了一定的體現(xiàn);而對于中英文間的翻譯,調(diào)序更依賴于一些詞匯化的模式,神經(jīng)網(wǎng)絡模型使用的向量化的詞匯表示能夠發(fā)現(xiàn)這些模式之間的相似性,從而能更好的推廣到測試數(shù)據(jù)上。

        5.4 預調(diào)序結果的衡量

        除了機器翻譯的結果,我們想衡量預調(diào)序在調(diào)整語序這個任務上的性能。為此,我們采用源語言和目標語言間的詞對齊交叉連接數(shù)進行評價。調(diào)序過的源語言與目標語言的語序越一致,他們之間的詞對齊交叉連接數(shù)就應該越小,說明預調(diào)序的效果越好。由于自動生成的詞對齊可能會有錯誤,我們在中英和日英的數(shù)據(jù)集上各選擇了500個句對進行了詞對齊標注,然后在這500個句對上進行測試。

        從表3、表4中可以看出,預調(diào)序能幫助減少詞對齊的交叉連接數(shù)。在日英數(shù)據(jù)集上,預調(diào)序?qū)τ谡Z序的改善非常明顯。在中英數(shù)據(jù)集上,預調(diào)序也取得了一定的效果,并且基于神經(jīng)網(wǎng)絡的預調(diào)序模型比基于稀疏特征的預調(diào)序模型取得了更好的效果。這些實驗結果與機器翻譯性能的實驗結果的趨勢是一致的: 詞對齊交叉連接數(shù)較小的系統(tǒng),翻譯性能會相對好一些。

        表3 中文到英文詞每個句對對齊交叉連接數(shù)平均值

        表4 日文到英文詞每個句對對齊交叉連接數(shù)平均值

        5.5 與其他預調(diào)序方法的比較

        預調(diào)序看作線性排序(LO)問題外,還可以被形式化為非對稱旅行商(ATS)問題[12]或一般排序(Ranking)問題[11]。在這里,我們實現(xiàn)了基于稀疏特征的非對稱旅行商方法和一般排序方法的預調(diào)序系統(tǒng),實驗結果如表5和表6所示。

        表5 中文到英文不同預調(diào)序方法比較

        表6 日語到英語不同預調(diào)序方法比較

        從實驗結果中我們發(fā)現(xiàn),不同形式化的預調(diào)序模型的結果非常接近。在日文到英文的實驗中,三種采用稀疏特征的預調(diào)序模型和神經(jīng)網(wǎng)絡的預調(diào)序模型的結果相當;在中文到英文的實驗中,三種采用稀疏特征的預調(diào)序模型結果相當,而使用神經(jīng)網(wǎng)絡的線性排序模型結果好于只采用稀疏特征的模型。這說明在我們的實驗中,預調(diào)序模型的不同形式化在輸入特征相同的情況下效果區(qū)別不大。

        5.6 預訓練的作用

        神經(jīng)網(wǎng)絡模型的一個優(yōu)勢是能通過預訓練,自動的從單語數(shù)據(jù)中學習特征表示。為了驗證單語數(shù)據(jù)預訓練的作用,我們在中文到英文上做了對比實驗。在對比實驗中,我們隨機的初始化詞匯和詞匯n元的低維表示,并直接在雙語數(shù)據(jù)上進行模型訓練(表7)。

        表7 詞匯表示預訓練的作用

        實驗結果表明,如果不做預訓練,神經(jīng)網(wǎng)絡模型相較使用稀疏特征的線性模型并沒有顯著的優(yōu)勢。我們認為這是由于我們的神經(jīng)網(wǎng)絡模型采用了詞匯和詞匯n元的低維表示,它們數(shù)量巨大,只用雙語數(shù)據(jù)的源語言部分很難對他們進行準確的估計;而通過在單語數(shù)據(jù)的訓練,我們能更好的利用低頻n元和高頻n元的相似性,從而得到更好的效果。

        為了進一步說明這一點,我們展示幾個詞匯n元在低維空間中的最近鄰的方式。表8列出了幾個詞匯n元在詞匯空間中的最近鄰。由于這些詞匯n元在雙語數(shù)據(jù)中出現(xiàn)次數(shù)很少,直接從雙語數(shù)據(jù)學習的低維表示不能很好的對它們進行聚類。但由于我們使用了大量的單語數(shù)據(jù)進行預訓練,這些低頻n元仍然能被很好的聚類。例如,對低頻二元“卡伊達 組織”,我們可以發(fā)現(xiàn)它與相對高頻的“基地 組織”非常接近;神經(jīng)網(wǎng)絡的預調(diào)序模型能夠利用這樣的相似性,避免了將這個專有名詞在預調(diào)序時切割開來,而基于稀疏特征的模型沒有這樣的信息,難以對這樣的情況進行正確處理。

        表8 詞匯n元在低維空間中的最近鄰

        6 結論

        本文提出了一種基于神經(jīng)網(wǎng)絡的統(tǒng)計機器翻譯預調(diào)序模型。本方法利用神經(jīng)語言模型的方法,從未標注文本學習詞匯的向量表示,然后利用一個多層神經(jīng)網(wǎng)絡,將這個詞匯表示和其他特征結合起來,融入到一個線性排序的模型中。在中文到英文以及日文到英文的實驗結果表明,相比于基準系統(tǒng),本文提出的基于神經(jīng)網(wǎng)絡的預調(diào)序模型能顯著提高機器翻譯系統(tǒng)性能。

        沿著現(xiàn)在的方向,我們在將來打算探索短語的向量表示方法,以及這種表示對機器翻譯預調(diào)序的作用。此外,我們計劃考察在基于句法系統(tǒng)中本文的方法的表現(xiàn),以及研究如何對更加抽象的語法樹片段進行向量表示的學習。

        [1] Philipp Koehn,F(xiàn)ranz Josef Och,Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.2003,1: 48-54.

        [2] Deyi Xiong,Qun Liu,Shouxun Lin. Maximum entropy based phrase reordering model for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006: 521-528.

        [3] David Chiang. A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.2005: 263-270.

        [4] Yang Liu,Qun Liu,Shouxun Lin. Tree-to-string alignment template for statistical machine translation[C]// Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006: 609-616.

        [5] Roy Tromble,Jason Eisner. Learning linear ordering problems for better translation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.2009,1: 1007-1016.

        [6] Yoshua Bengio,Holger Schwenk,Jean-Sébastien Senécal,et al. Neural probabilistic language models[J]. Innovations in Machine Learning,2006,194: 137-186.

        [7] 馮洋,張冬冬,劉群. 層次短語翻譯模型的介詞短語調(diào)[J]. 中文信息學報,2012,26(1): 31-37.

        [8] 肖欣延,劉洋,劉群,林守勛. 面向?qū)哟味陶Z翻譯的詞匯化調(diào)序方法研究[J]. 中文信息學報,2012,26(1): 37-41.

        [9] Michael Collins,Philipp Koehn,Ivona Kucerova. Clause restructuring for statistical machine translation[C]//Proceedings of the 43rd annual meeting on association for computational linguistics.2005: 531-540.

        [10] Peng Xu,Jaeho Kang,Michael Ringgaard,et al. Using a dependency parser to improve SMT for subject-object-verb languages[C]//Proceedings of human language technologies: The 2009 annual conference of the North American chapter of the association for computational linguistics.2009: 245-253.

        [11] Nan Yang,Mu Li,Dongdong Zhang et al. A ranking-based approach to word reordering for statistical machine translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.2013,1: 912-920.

        [12] Karthik Visweswariah,Rajakrishnan Rajkumar,Ankur Gandhe,et al. A word reordering model for improved machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.2011: 486-496.

        [13] Peng Li,Yang Liu,Maosong Sun. Recursive Autoencoders for ITG-based Translation[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.2013: 567-577.

        [14] Ronan Collobert,Jason Weston,Léon Bottou,et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research 2011,12(1): 2493-2537.

        [15] Tomas Mikolov,Ilya Sutskever,Kai Chen,et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of Advances in Neural Information Processing Systems,2013: 3111-3119.

        [16] Dekai Wu. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora[J]. Computational linguistics,1997: 377-403.

        [17] Franz Josef Och,Hermann Ney. GIZA++: Training of statistical translation models[Z]. 2000.

        [18] Kishore Papineni,Salim Roukos,Todd Ward,et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics.2002: 311-318.

        [19] Slava Katz. Estimation of probabilities from sparse data for the language model component of a speech recognizer[J]. IEEE Transactions on Acoustics,Speech and Signal Processing,1987,35(3): 400-401.

        A Neural Pre-reordering Model for Statistical MT

        YANG Nan1,LI Mu2

        (1. School of Information Science and Technology,University of Science and Technology of China,Hefei,Anhui 230026,China;2. Microsoft Research Asia,Beijing 100080,China)

        Long distance reordering is a major challenge in statistical machine translation. Previous work has shown that pre-reordering is a promising way to tackle this problem. In this work,we extend this line of research and propose a neural network based pre-reorder model,which integrates neural network modeling into a linear ordering framework. The neural network based model can leverage syntactic and semantic information extracted from unlabeled data to predict the word order difference between languages. Experiments on Chinese-English,and Japanese-English machine translation tasks show the effectiveness of our approach.

        statistical machine translation; pre-reorder; neural network

        楊南(1985—),博士,主要研究領域為統(tǒng)計機器翻譯,自然語言處理,深度學習。E?mail:nyang.ustc@gmail.com李沐(1972—),博士,主要研究領域為統(tǒng)計機器翻譯,自然語言處理,深度學習。E?mail:muli@microsoft.com

        2014-04-07 定稿日期: 2014-08-10

        1003-0077(2016)03-00103-08

        TP391

        A

        猜你喜歡
        源語言語料排序
        排序不等式
        恐怖排序
        林巍《知識與智慧》英譯分析
        節(jié)日排序
        淺析日語口譯譯員素質(zhì)
        北方文學(2018年18期)2018-09-14 10:55:22
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        華語電影作為真實語料在翻譯教學中的應用
        以口譯實例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        中文字幕高清一区二区| 天天夜碰日日摸日日澡| 午夜丰满少妇性开放视频| 国产精品福利小视频| 精品人妻一区二区三区av| 日本免费在线不卡一区二区| 国产av旡码专区亚洲av苍井空| 人人妻人人添人人爽日韩欧美| 中文无码免费在线| 五月婷婷开心五月激情| 美女不带套日出白浆免费视频| 一本大道色婷婷在线| 第十色丰满无码| 中文字幕日本av网站| 色综合久久久无码中文字幕| 国外精品视频在线观看免费| 国产91一区二这在线播放| 91亚洲免费在线观看视频| 国产丝袜美女一区二区三区| 抽搐一进一出试看60秒体验区| 亚洲国产精品久久久久婷婷软件| 一区二区三区中文字幕在线播放| 女局长白白嫩嫩大屁股| 宅男噜噜噜| 国产在线视频网站不卡| 日韩av一区二区网址| 久激情内射婷内射蜜桃人妖| 久久久精品国产亚洲AV蜜| 91中文字幕精品一区二区| 青春草在线视频观看| 国产女主播喷水视频在线观看 | 亚洲av无一区二区三区久久| 成人免费ā片在线观看| 视频一区视频二区亚洲免费观看| 蜜臀av一区二区三区久久| 欧美中日韩免费观看网站| 亚洲AV成人无码国产一区二区| 综合久久一区二区三区| 国产精品极品美女自在线观看免费| 中文字幕美人妻亅u乚一596| 中文字幕一区二区三区.|