劉 群
(中國科學(xué)院 計算技術(shù)研究所 中國科學(xué)院 智能信息處理重點實驗室,北京 100190)
自從IBM在20世紀(jì)90年代初正式提出統(tǒng)計機(jī)器翻譯方法以來,統(tǒng)計機(jī)器翻譯的發(fā)展經(jīng)歷了一個從沉寂到復(fù)蘇再到迅猛發(fā)展的過程。在2003年前后,基于短語的統(tǒng)計機(jī)器翻譯方法已經(jīng)成熟,并超越了早前IBM提出的基于詞的方法。但基于短語的方法缺陷也是很明顯的: 泛化能力差,短語中的詞不能被相近的詞替換;調(diào)序能力差,短語內(nèi)調(diào)序還可以,但短語間調(diào)序和更遠(yuǎn)距離調(diào)序效果都不好。因此,研究者普遍意識到需要針對句子結(jié)構(gòu)進(jìn)行直接建模,才有可能解決上述問題。為此出現(xiàn)了各種各樣的基于句法的統(tǒng)計機(jī)器翻譯方法。
基于句法的統(tǒng)計機(jī)器翻譯模型可以分為兩大類: 第一大類是形式上基于句法的模型。這類模型利用了某種形式的句子結(jié)構(gòu),但這種結(jié)構(gòu)是通過語料庫學(xué)習(xí)自動獲得的,而不是語言學(xué)意義上的句法結(jié)構(gòu);第二大類是語言學(xué)上基于句法的模型,這類模型需要利用語言學(xué)意義上的句法結(jié)構(gòu)。第二大類又可分為三小類: 第一小類是樹到串模型,這類模型只在源語言端利用語言學(xué)意義上的句法結(jié)構(gòu);第二小類是串到樹模型,這類模型只在目標(biāo)語言端利用語言學(xué)意義上的句法結(jié)構(gòu);第三小類是樹到樹模型,要在源語言端和目標(biāo)語言端同時利用語言學(xué)意義上的句法結(jié)構(gòu)。
我們從2006年開始,在基于句法的統(tǒng)計機(jī)器翻譯模型方法方面開展了一系列深入的研究工作,提出了三個不同形式的翻譯模型: 最大熵括號轉(zhuǎn)錄語法模型、樹到串模型*為了簡明:從此以下,“樹到串模型”特指“短語結(jié)構(gòu)樹到串模型”。和依存到串模型。其中,對于樹到串模型,根據(jù)解碼時輸入形式的不同,我們又提出了三種不同形式的翻譯方法: 基于樹的翻譯方法、基于森林的翻譯方法和基于串的翻譯方法(句法分析與解碼一體化方法),這三種翻譯方法由簡單到復(fù)雜,時空復(fù)雜度逐漸增加,性能越來越高。
在基于短語的翻譯模型中,翻譯知識的基本表示形式是雙語短語表,也就是一個源語言短語翻譯成一個目標(biāo)語言短語,如表1所示:
表1 雙語短語示例
這種雙語短語無法表現(xiàn)句子的內(nèi)部結(jié)構(gòu)。要引入句子的內(nèi)部結(jié)構(gòu),最直觀的做法就是引入上下文無關(guān)規(guī)則,在機(jī)器翻譯中,就是需要引入同步上下文無關(guān)語法,如表2所示:
表2 同步上下文無關(guān)語法規(guī)則示例
由于同步上下文無關(guān)語法形式較為復(fù)雜,而且訓(xùn)練這類模型需要雙語句子結(jié)構(gòu)對齊的語料庫,在實現(xiàn)上面臨很多問題,目前還達(dá)不到預(yù)期的效果。因此目前研究較多的各種基于句法的統(tǒng)計翻譯模型都采用同步上下文無關(guān)語法的某種簡化形式。
Dekai Wu提出了一種簡化的同步上下文無關(guān)語法——反向轉(zhuǎn)錄語法(Inversion Transduction Grammar,ITG)[33], 這是同步上下文無關(guān)語法的二叉化形式,類似于喬姆斯基范式是上下文無關(guān)語法的二叉化形式。ITG只有三種類型的規(guī)則,如表3所示:
在ITG基礎(chǔ)上建立統(tǒng)計翻譯模型,還會面臨一個問題,就是如何獲得各個短語的短語標(biāo)記。為了回避這個問題,Dekai Wu對ITG進(jìn)一步簡化成了括號轉(zhuǎn)錄語法(Bracketing Transduction Grammar,BTG)[25]。BTG就是在ITG中只定義一個標(biāo)記(通常用X表示)。于是,在BTG中,上述三類規(guī)則簡化為表4:
表3 反向轉(zhuǎn)錄語法(ITG)的規(guī)則類型
表4 括號轉(zhuǎn)錄語法(BTG)的規(guī)則類型
實際上,由于只有唯一的短語標(biāo)記X,所以這里的兩類短語規(guī)則就是兩條規(guī)則,并無其他形式。這兩條短語規(guī)則分別表示兩個小短語在組合成一個大短語的情況下,翻譯時是否要交換位置。Dekai Wu 1996提出了一種用于統(tǒng)計機(jī)器翻譯的隨機(jī)括號轉(zhuǎn)錄語法模型(SBTG),在這個模型中,BTG的兩條短語規(guī)則被賦予不同的概率。可以想象,這個模型的描述能力太弱,很難準(zhǔn)確刻畫短語的語序調(diào)整規(guī)律。
針對SBTG描述能力弱的確定, 我們在SBTG的基礎(chǔ)上引入最大熵模型[1],采用最大熵方法來計算兩個短語組合翻譯時順序或逆序的概率,我們稱該模型為最大熵括號轉(zhuǎn)錄語法模型(MEBTG),如圖1所示。
在MEBTG模型中,任何兩個短語組合時,順序翻譯和逆序翻譯的概率之和為1,具體這兩個概率的計算由一個最大熵模型來決定,這個最大熵模型的特征來自于這兩個短語本身和這兩個短語出現(xiàn)的上下文。MEBTG模型的訓(xùn)練也很簡單。從詞語對齊的雙語語料庫中即可獲得大規(guī)模的訓(xùn)練數(shù)據(jù),無需任何額外的人工標(biāo)注。
MEBTG模型是一種形式上基于句法的模型。該模型一方面在短語模型的基礎(chǔ)上引入了二叉化的形式化句法結(jié)構(gòu),克服了短語模型的固有缺陷,又可以跟短語模型很好地兼容,同時與SBTG模型相比又大大增強(qiáng)了模型的區(qū)分能力,取得了很好的效果,模型性能超過了基于短語的模型。我們基于該模型開發(fā)的一個系統(tǒng),在NIST2006評測中作為一個對比系統(tǒng)取得了與第四名主系統(tǒng)完全相同的成績。
圖1 最大熵括號轉(zhuǎn)錄語法模型中規(guī)則概率示例
樹到串模型[2]建立在樹到串規(guī)則的基礎(chǔ)上,樹到串規(guī)則也可以看作是同步短語結(jié)構(gòu)語法規(guī)則的一種變化形式: 其源語言端是一棵句法樹片段(對應(yīng)多條上下文無關(guān)語法規(guī)則),目標(biāo)語言端是一個詞語和變量組成的序列,目標(biāo)端的每個變量對應(yīng)于源端句法樹片段的某個非終結(jié)符葉子節(jié)點,如圖2所示:
圖2 樹到串規(guī)則示例
樹到串模型建立在源語言端句法分析和雙語詞語對齊的基礎(chǔ)上,要求對雙語語料庫的源語言進(jìn)行完整的句法分析,并進(jìn)行雙語句子的詞語對齊。在這樣處理以后的語料庫上,就可以抽取出所有可能的規(guī)則,并統(tǒng)計出每條規(guī)則出現(xiàn)的次數(shù)。模型的定義采用與短語翻譯模型類似的方法,通過對數(shù)線性模型將多個概率進(jìn)行對數(shù)線性疊加而得到。
樹到串模型可以有效地利用源語言端的句法結(jié)構(gòu)信息,在句法分析正確的情況下,對于翻譯中的長距離調(diào)序問題可以取得較好的效果。
但簡單采用樹到串模型效果并不太好,一個主要的問題是樹到串模型無法兼容非句法短語(不具有完整句法結(jié)構(gòu)的短語)。實驗表明,在短語模型中,非句法短語的作用是非常明顯的,如果刪掉所有非句法短語,短語模型的性能將大大下降。在樹到串模型中,所有規(guī)則的源語言端都是一棵完整的句法樹片段,由此導(dǎo)致無法引入非句法短語,這會導(dǎo)致單純的樹到串模型的實際性能低于短語模型。解決這一問題的辦法有多種[2,5],最簡單的辦法是[2]把非句法短語用在樹到串模型翻譯結(jié)果的后處理中,替換掉相應(yīng)源語言短語的譯文。更復(fù)雜一些的方法[5]是引入樹序列到串(tree sequence to string)翻譯規(guī)則。后面介紹的基于森林的翻譯方法也可以一定程度上緩解這一問題。
利用樹到串模型進(jìn)行翻譯解碼,最簡單的做法就是首先對源語言句子進(jìn)行句法分析,然后自底向上對句法樹上的每個節(jié)點進(jìn)行規(guī)則匹配,記錄所有可能的翻譯結(jié)果,一直到根節(jié)點處理結(jié)束,就得到整個句子的翻譯結(jié)果。當(dāng)然每個節(jié)點上都需要進(jìn)行剪枝。這種翻譯方法稱為基于樹的翻譯方法[2]。
基于樹的翻譯方法簡單直觀,在不考慮句法分析的情況下,翻譯解碼速度極快,時間復(fù)雜度正比于句子長度。加上源語言句法分析的時間,復(fù)雜度是句子長度的三次方。
我們采用基于樹的翻譯方法,結(jié)合非句法短語進(jìn)行后處理,取得了較好的效果?;谠摲椒ㄩ_發(fā)的機(jī)器翻譯系統(tǒng),在NIST2006評測中作為我們的基本系統(tǒng)取得了第五名的成績。
但這種方法的缺陷也是很明顯的,由于句法分析正確率不高,句法分析錯誤將傳遞給翻譯解碼,造成翻譯錯誤。為解決這一問題,我們提出了基于森林的翻譯方法。
基于樹的翻譯方法中,句法分析錯誤會傳遞到翻譯解碼節(jié)點,使得翻譯準(zhǔn)確率嚴(yán)重下降。為了克服這一問題,直觀的做法是在句法分析過程輸出多個最優(yōu)句法分析結(jié)果,并利用這多個句法分析結(jié)果進(jìn)行句法分析,這種方法稱為K-best方法。
但K-best方法帶來的機(jī)器翻譯性能提高是很有限的,其原因在于K-best結(jié)果中存在大量的冗余。簡單地理解,一個句子中如果有三處歧義,那么互相組合,就會得到八個不同的句法分析結(jié)果。實際上,如果有n處歧義,可以組合得到2n個。也就是說,即使我們?nèi)?024-best的句法分析結(jié)果,花1 024倍的解碼時間,也只能多考慮10處句法分析歧義。這無疑是非常大的浪費,因為這1024-best個句法分析產(chǎn)生的句法樹中,絕大部分樹片段結(jié)構(gòu)都是重復(fù)的。以圖3為例,這個句子有兩個分析結(jié)果,兩個句法結(jié)構(gòu)樹上,陰影部分是不同的,其他部分都完全一樣。
為了解決這一問題,我們提出了基于森林的機(jī)器翻譯方法[3]。其核心思想,就是在統(tǒng)計機(jī)器翻譯中引入句法壓縮森林的結(jié)構(gòu)表示形式。圖3所示的兩個句法分析樹就可以表示為圖4所示的句法壓縮森林。
圖3 N-best句法樹的冗余
圖4 句法壓縮森林示例
句法壓縮森林很早就在句法分析中得到應(yīng)用,Liang Huang[26]提出了基于句法壓縮森林的K-best句法分析方法。我們的工作[3]最早把句法壓縮森林用在了統(tǒng)計機(jī)器翻譯中。
句法壓縮森林的采用,可以在多項式規(guī)模的壓縮森林中,保留指數(shù)級別的K-best句法分析結(jié)果,使得機(jī)器翻譯的搜索空間大大增加,很大程度上緩解了句法分析錯誤帶來的影響。
圖5給出了采用句法壓縮森林和采用K-best句法分析方法的機(jī)器翻譯系統(tǒng)性能對比。
圖5 基于森林的解碼和K-best句法樹解碼性能的比較
可以看到,采用K-best方法,當(dāng)K超過10以后,機(jī)器翻譯系統(tǒng)的性能隨著平均解碼時間的增加上升得非常緩慢,而采用句法壓縮森林解碼,翻譯系統(tǒng)的性能隨著平均解碼時間的增加迅速提高。兩種方法的差別是非常明顯的。
我們可以從另外一個角度來看采用句法壓縮森林的優(yōu)勢。句法壓縮森林是一種非常緊湊的數(shù)據(jù)結(jié)構(gòu),句法壓縮森林展開后得到的句法樹的數(shù)量,為句法壓縮森林結(jié)點數(shù)的指數(shù)級別。圖6說明了在一個基于句法壓縮森林的機(jī)器翻譯系統(tǒng)中,如果把句法壓縮森林展開成K-best句法樹序列,那么實際輸出的評分最高的機(jī)器翻譯譯文所對應(yīng)的句法分析樹,在這個K-best句法分析樹序列中的位置。
圖6 解碼器輸出的譯文在K-best句法樹序列中的分布
從圖中我們可以看到,32%的機(jī)器翻譯譯文對應(yīng)的句法分析樹位于100-best以外,20%的機(jī)器翻譯譯文對應(yīng)的句法分析樹位于1000-best以外。
基于森林的翻譯方法使得樹到串模型的性能有了大幅度提高。但如果我們仔細(xì)分析,還是會發(fā)現(xiàn)一個問題。在基于樹和基于森林的翻譯方法中,句法分析和翻譯解碼的過程是割裂的。這種割裂不僅是指過程的割裂,而且包括翻譯模型的割裂。源語言的句法分析采用的是獨立的句法分析器,這個句法分析器所采用句法分析模型(如詞匯化概率上下文無關(guān)語法模型[27])通常需要利用一個人工標(biāo)注的句法樹庫訓(xùn)練得到。而翻譯解碼采用的是樹到串模型,這個模型是利用雙語對齊語料庫得到的。人工標(biāo)注的句法樹庫通常規(guī)模較小,一般只有幾萬個句子的規(guī)模,而雙語語料庫規(guī)模大得多,在漢英機(jī)器翻譯研究中通常達(dá)到數(shù)百萬句子對的規(guī)模。這兩個模型的訓(xùn)練語料不僅規(guī)模上嚴(yán)重不匹配,實際上所涉及的領(lǐng)域通常也是差別很大的,也就是說,通過句法分析模型得到的高概率句法樹,在樹到串翻譯模型中,概率可能很低,反之亦然。這就會使得我們在句法分析中搜索到的高概率句法樹的實際翻譯效果并不好,反之,在樹到串翻譯模型中高概率的翻譯結(jié)果對應(yīng)的句法樹,在句法分析中因為概率太低又搜索不到。
為了解決這一問題,我們提出了句法分析和解碼一體化的翻譯方法[4]。其基本思想是,樹到串翻譯規(guī)則的源語言端是一棵句法樹片段,可以把這棵句法樹片段理解成一條句法分析規(guī)則,可以把翻譯規(guī)則的概率就理解為這條句法分析規(guī)則的概率,這樣,我們就得到了一部可以用于句法分析的概率語法(嚴(yán)格的說,是概率樹替換語法)。在翻譯解碼過程中,我們并不采用獨立的句法分析器,而是直接利用這部概率樹替換語法進(jìn)行句法分析,句法分析的概率就是翻譯的概率,這樣就避免了句法分析和翻譯解碼的概率不一致問題,甚至可以在句法分析的同時就完成翻譯解碼。
在這種翻譯方法中,翻譯解碼的起點既不是句法分析的1-best樹,也不是句法壓縮森林,而是源語言句子本身,在句法分析的同時完成翻譯解碼,所以我們又把這種方法稱為基于串的翻譯方法。
假設(shè)我們用兩個圓形分別表示句法分析模型和樹到串翻譯模型的概率分布,其中顏色越深表示搜索空間中該處的概率越大。通常情況下,由于這兩個模型來自于不同的訓(xùn)練數(shù)據(jù),因此二者概率分布通常并不一致,如圖7所示:
圖7 句法分析模型和樹到串翻譯模型的概率分布差異
在基于樹的翻譯方法中,句法分析得到的是句法分析模型中概率最大的點(不考慮搜索誤差),而這個點在樹到串翻譯模型中并不是概率最大的點(圖8)。
圖8 基于樹的翻譯方法中句法分析與翻譯解碼的搜索空間比較
而在基于森林的方法中,句法分析得到的森林可以覆蓋句法分析模型中概率最大的一片區(qū)域,因此相對于基于樹的翻譯方法,可以找到更接近樹到串模型中最優(yōu)位置的點(圖9)。
圖9 基于森林的翻譯方法中句法分析與翻譯解碼的搜索空間比較
而在句法分析與解碼一體化方法中,句法分析模型與樹到串翻譯模型共享相同的概率空間,句法分析搜索得到的最優(yōu)點就是翻譯模型的最優(yōu)點(圖10)。
圖10 基于串的翻譯方法中句法分析與翻譯解碼的搜索空間比較
實驗表明,采用基于樹的方法、基于森林的方法和基于串的方法,翻譯系統(tǒng)的性能可以穩(wěn)步提高,如圖11所示:
圖11 樹到串模型的三種解碼方法的性能對比
不過,這三種方法的搜索空間也是逐步增大的,因此帶來的時空消耗也增長非常明顯。特別是句法分析和翻譯解碼一體化方法,由于得到的規(guī)則數(shù)量遠(yuǎn)遠(yuǎn)大于傳統(tǒng)的基于小規(guī)模樹庫訓(xùn)練出來的句法分析器,因此解碼搜索空間非常大而且解碼時間也會大大延長。
依存樹是一種有效的句法結(jié)構(gòu)表現(xiàn)形式,與短語結(jié)構(gòu)樹相比,依存樹具有表達(dá)簡潔、冗余信息少、分析速度快等優(yōu)點,因此在自然語言處理的很多問題中得到了成功的應(yīng)用。但在統(tǒng)計機(jī)器翻譯中,基于依存樹的模型一直不是很成功。
在基于短語結(jié)構(gòu)樹的翻譯模型中,我們所定義的規(guī)則的源語言端都要求是完整的句法樹片段,也就是所每一個節(jié)點或者作為葉節(jié)點出現(xiàn),或者必須帶上其所有的子節(jié)點出現(xiàn)。這對于基于短語結(jié)構(gòu)樹的翻譯模型是合適的,但由于依存樹的每一個節(jié)點都是句子中的一個詞,因此這個規(guī)定對于依存樹來說就太嚴(yán)格了,如圖12所示。
圖12 包含所有子節(jié)點的依存到串規(guī)則抽取示例
在這個例子中,如果根節(jié)點“舉行”帶上其所有子節(jié)點作為一條規(guī)則,那么這樣的規(guī)則只能翻譯類似“*世界杯*在*成功*舉行*”這樣的句子,可以看到,這樣的規(guī)則過于具體,泛化能力太差,很難匹配到實際的句子。
我們在2007年提出的模型[28]采用了基于依存樹杈(treelet)建模的方法,也就是不要求每個非葉子節(jié)點都必須帶上其子節(jié)點,只要是依存樹上任何一個聯(lián)通子圖都可以用于建模,如圖13所示。
圖13 依存樹杈到串規(guī)則抽取示例
這種模型的好處是非常靈活,但帶來的問題是規(guī)則之間的組合形式會變得非常復(fù)雜,不同的規(guī)則組合后譯文如何排序沒有合理的描述方法,另外一條規(guī)則的譯文內(nèi)部會形成多個間隔(gap),而這些間隔的填充任意性太強(qiáng),也無法在模型中進(jìn)行準(zhǔn)確的刻畫,這都大大影響了翻譯的效果。
我們最近提出的依存到串模型[29],依據(jù)以下兩個原則提取規(guī)則。
(1) 每條規(guī)則只有一個層次,也就是說規(guī)則沒有嵌套結(jié)構(gòu);
(2) 提取規(guī)則時根節(jié)點的所有子節(jié)點都必須出現(xiàn)在規(guī)則中,這一點明顯區(qū)別于基于依存樹杈的模型。
提取初始規(guī)則后,我們還需要對每一條初始規(guī)則進(jìn)行泛化。每條初始規(guī)則的節(jié)點分為三類: 根節(jié)點、帶結(jié)構(gòu)的葉節(jié)點、不帶結(jié)構(gòu)的葉節(jié)點,對這三類節(jié)點可以分別用詞性標(biāo)記進(jìn)行泛化,一共可以組合出八類泛化規(guī)則。
采用前面的例子給出規(guī)則提取過程,如圖14所示,我們把方框中的樹片段結(jié)構(gòu)提取出一條規(guī)則。
圖14 抽取帶詞性標(biāo)記的依存到串規(guī)則的一個翻譯實例
對這條規(guī)則中的三類節(jié)點進(jìn)行泛化以后,我們可以得到八條規(guī)則,如圖15所示。
圖15 依存到串規(guī)則的抽取和泛化示例注圖中帶下劃線的節(jié)點表示該節(jié)點在匹配時不能被擴(kuò)展
實驗表明,我們采用這種依存到串翻譯模型實現(xiàn)的機(jī)器翻譯系統(tǒng)效果非常好,性能超過了層次短語模型[29]。
在最大熵括號轉(zhuǎn)錄語法模型方面,熊德意博士在本研究組畢業(yè)后,在新加坡I2R研究所后繼續(xù)在該模型基礎(chǔ)上做了一系列改進(jìn)工作[19-22]。ACM Computing Surveys上一篇機(jī)器翻譯綜述也引用了這項工作[23]。
樹到串翻譯模型我們最早發(fā)表在COLING-ACL2006上[2],該論文獲得了大會頒發(fā)的Meritorious Asian NLP Paper Award。國際上與我們這項工作相關(guān)的研究有: 賓州大學(xué)Liang Huang比我們稍晚提出了與我們非常類似的模型[8];新加坡I2R研究所Jun Sun等人將樹到串模型擴(kuò)展為不連續(xù)的樹序列對齊形式[12];新加坡I2R研究所Hui Zhang等人對樹到串規(guī)則匹配的索引結(jié)構(gòu)進(jìn)行了改進(jìn)[13];微軟亞洲研究院Dongdong Zhang改進(jìn)了我們的調(diào)序方法[14];IBM的Bing Zhao在我們的工作基礎(chǔ)上提出放寬樹到串規(guī)則匹配的約束條件來改進(jìn)翻譯的效果[15];南加州大學(xué)Liang Huang和本研究組Haitao Mi在EMNLP2010提出了一種高效的樹到串增量式解碼算法[7];東京大學(xué)XianchaoWu等人在ACL2010上發(fā)表論文[30],在一種更復(fù)雜的語法形式HPSG下實現(xiàn)了更高精度的樹到串規(guī)則提取,等等。
我們提出的基于森林的翻譯方法[3]是首次將句法壓縮森林應(yīng)用在統(tǒng)計機(jī)器翻譯中,這一做法后來在統(tǒng)計機(jī)器翻譯中被普遍采用。與之相關(guān)的工作有: 新加坡I2R研究所Hui Zhang等人對我們的工作進(jìn)行了擴(kuò)展,將句法森林應(yīng)用到樹序列到串的翻譯模型[11];本研究組Yang Liu等人將句法森林用于樹到樹模型[6];約翰霍普金斯大學(xué)(JHU)Zhifei Li等人為翻譯森林結(jié)構(gòu)及其上面定義的運算提供了更加理論化的形式描述[16];南加州大學(xué)信息科學(xué)研究所USC-ISI的John DeNero等人將翻譯森林應(yīng)用于系統(tǒng)融合[17];Google的Kumar等人將詞格和翻譯森林應(yīng)用于最小錯誤率訓(xùn)練和最小貝葉斯風(fēng)險解碼[18]。其中,前兩項工作是對我們的工作的直接擴(kuò)展,后三項工作主要是建立在目標(biāo)語言端的翻譯森林基礎(chǔ)上,與我們在源語言端句法森林的工作略有不同,但采用森林作為機(jī)器翻譯中的數(shù)據(jù)表示形式,也是受到了我們的工作的啟發(fā)。用句法森林取代單一句法樹作為機(jī)器翻譯的中間數(shù)據(jù)表示形式已經(jīng)成為研究界經(jīng)常采用的做法。
在統(tǒng)計機(jī)器翻譯中較早引入依存樹的是微軟研究院Quirk等人的工作[31],由于他們的工作非常復(fù)雜,其他研究者很難跟進(jìn)。我們在2007年提出了另一個簡單的基于依存樹杈(treelet)的模型[28],這個模型的性能也不是很理想。近年來統(tǒng)計機(jī)器翻譯領(lǐng)域利用依存樹信息比較有影響的工作是Libin Shen的工作[32],他是在層次短語模型的基礎(chǔ)上加上了目標(biāo)段的依存樹信息。雖然這個工作比較成功,但它不是一個單純的模型,而是在層次短語模型上的一個擴(kuò)展,并且是在一個依存語言模型的輔助下才能取得較好的效果。另一方面,這個模型利用的是目標(biāo)端的依存樹信息,而不是源端的依存樹信息。這與我們的工作也有較大差別。
本文介紹了近年來我們提出的多個基于句法的統(tǒng)計機(jī)器翻譯模型以及相關(guān)的多種機(jī)器翻譯方法。其中一些工作,如最大熵括號轉(zhuǎn)錄語法模型、樹到串模型、基于森林的機(jī)器翻譯方法等,都已經(jīng)產(chǎn)生了較大影響。依存到串模型是我們最近提出的新模型,該模型簡潔而且效果很好,我們認(rèn)為還有較大潛力,有可能成為通向基于語義的翻譯模型的一個橋梁。
另外在統(tǒng)計機(jī)器翻譯中起重要作用的一個模型是語言模型。目前在統(tǒng)計機(jī)器翻譯中采用的主流語言模型還是N-gram模型。雖然N-gram模型簡單并且效果不錯,但畢竟該模型無法考慮句子的結(jié)構(gòu)信息,無法評價一個句子是否是一個語言學(xué)上合法的句子,其缺陷是非常明顯的。目前在這方面已經(jīng)有了一些工作,但都還沒有普遍采用。我們期待在這方面能有進(jìn)一步的進(jìn)展。
本文是對本研究組多年來部分工作的一個綜述[1-6],所有這些工作都是在這些文章上共同署名的我的同事、學(xué)生和我共同完成的,其中做出主要貢獻(xiàn)的幾個人包括: 劉洋、熊德意、米海濤、黃亮、謝軍、呂雅娟。雖然他們在這篇綜述文章上不作為共同作者署名,但我必須向他們表示衷心的感謝。
[1] Deyi Xiong, Qun Liu, Shouxun Lin. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL (COLING-ACL2006), Sydney, Australia, July 17-21. 2006: 521-528.
[2] Yang Liu, Qun Liu, Shouxun Lin. Tree-to-String Alignment Template for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL (COLING-ACL2006), Sydney, Australia, July 17-21. 2006: 609-616.
[3] Haitao Mi, Liang Huang, Qun Liu. Forest-Based Translation[C]//Proceedings of ACL-08:HLT, Columbus, Ohio, USA. 2008: 192-199.
[4] Yang Liu, Qun Liu. Joint Parsing and Translation[C]//Proceedings of COLING 2010, Beijing, August, 2010 .
[5] Yang Liu, Yun Huang, Qun Liu, et al. Forest-to-String Statistical Translation Rules[C]//ACL2007, Prague, Czech,June 2007 .
[6] Yang Liu, Yajuan Lü, Qun Liu. Improving Tree-to-Tree Translation with Packed Forests[C]//Proceedings of ACL-IJCNLP 2009. Singapore, August. 2009: 558-566.
[7] Liang Huang, Haitao Mi. Efficient Incremental Decoding for Tree-to-String Translation[C]//Proceedings of EMNLP 2010, Boston, USA, October.
[8] Liang Huang, Kevin Knight, Aravind Joshi. Statistical Syntax-Directed Translation with Extended Domain of Locality[C]//Proceedings of AMTA, 2006.
[9] Min Zhang, Hongfei Jiang, Aiti Aw, et al. A Tree Sequence Alignment-based Tree-to-Tree Translation Model[C]//ACL08:HLT.
[10] Min Zhang, Hongfei Jiang, Ai Ti Aw, et al. 2007. A Tree-to-Tree Alignment-based Model for Statistical Machine Translation[C]//MT-Summit-07. 535-542.
[11] Hui Zhang, Min Zhang, Haizhou Li, et al. Forest-based Tree Sequence to String Translation Model[C]//The 47th Annual Meeting of Association for Computational Linguistics and the 4th International Joint Conference of Natural Language Processing (full paper, ACL-IJCNLP 2009), August 2-7 2009, Singapore.
[12] Jun Sun, Min Zhang, Chew Lim Tan. A non-contiguous Tree Sequence Alignment-based Model for Statistical Machine Translation[C]//Proceedings of ACL-IJCNLP 2009.
[13] Hui Zhang, Min Zhang, Haizhou Li, et al. Fast Translation Rule Matching for Syntax-based Statistical Machine Translation[C]//EMNLP 2009,August 6-7 2009, Singapore.
[14] Dongdong Zhang, Mu Li, Chi-Ho Li, et al. Phrase reordering model integrating syntactic knowledge for SMT[C]//EMNLP-CoNLL-2007: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic; 2007: 533-540.
[15] Bing Zhao, Yaser Al-Onaizan, Generalizing local and non-local word-reordering patterns for syntax-based machine translation[C]//EMNLP 2008: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 25-27 October 2008, Honolulu, Hawaii, USA 2008: 572-581.
[16] Zhifei Li, Jason Eisner, First- and Second-Order Expectation Semirings with Applications to Minimum-Risk Training on Translation Forests[C]//EMNLP2009.
[17] John DeNero, David Chiang, Kevin Knight. Fast Consensus Decoding over Translation Forests[C]//ACL-IJCNLP 2009.
[18] Shankar Kumar, Wolfgang Macherey, Chris Dyer, et al. Efficient Minimum Error Rate Training and Minimum Bayes-Risk Decoding for Translation Hypergraphs and Lattices[C]//ACL-IJCNLP2009.
[19] Deyi Xiong, Min Zhang, Aiti Aw, et al. Refinements in BTG-based Statistical Machine Translation[C]//IJCNLP2008.
[20] Deyi Xiong, Min Zhang, Ai Ti Aw. Linguistically Annotated BTG for Statistical Machine Translation[C]//Proceedings of COLING 2008.
[21] Deyi Xiong, Min Zhang, Ai Ti Aw, et al. A Linguistically Annotated Reordering Model for BTG-based Statistical Machine Translation[C]//Proceedings of ACL 2008.
[22] Deyi Xiong, Min Zhang, Aiti Aw et al. A Syntax-Driven Bracketing Model for Phrase-Based Translation[C]//Preceedings of ACL-IJCNLP 2009.
[23] Adam Lopez. Statistical machine translation[J]. ACM Computing Surveys, 2008, 40(3).
[24] Xianchao Wu, Takuya Matsuzaki, Jun’ichi Tsujii. Fine-grained Tree-to-String Translation Rule Extraction[C]//Proceedings of ACL 2010. Uppsala, Sweden, 2010: 325-334.
[25] Dekai Wu. A polynomial-time algorithm for statistical machine translation[C]//ACL-96: 34th Annual Meeting of the Assoc. for Computational Linguistics. Santa Cruz, CA: Jun. 1996.
[26] Liang Huang, David Chiang. Better k-best Parsing[C]//Proceedings of the 9th International Workshop on Parsing Technologies, Vancouver, B.C, October 2005.
[27] Michael John Collins, Mitchell P. Marcus. Head-driven statistical models for natural language parsing[J]. Journal of Computational Linguistics, 2003, 29(4).
[28] Deyi Xiong, Qun Liu, Shouxun Lin. A Dependency Treelet String Correspondence Model for Statistical Machine Translation[C]//Second Workshop on Statistical Machine Translation, Prague, Czech, June 2007.
[29] Jun Xie, Haitao Mi, Qun Liu. A novel dependency-to-string model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, July 27-31, 2011, Edinburgh, Scotland, UK.
[30] Wu, Xianchao and Matsuzaki, Takuya and Tsujii, Jun’ichi. Fine-Grained Tree-to-String Translation Rule Extraction[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden, 2010: 325-334.
[31] Chris Quirk, Arul Menezes, Colin Cherry. Dependency treelet translation: syntactically informed phrasal SMT[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.
[32] Libin Shen, Jinxi Xu, Ralph M. Weischedel: String-to-Dependency Statistical Machine Translation[J]. Computational Linguistics, 36(4): 649-671.
[33] Dekai Wu. Grammarless Extraction of Phrasal Translation Examples from Parallel Texts[C]//TMI-95, Sixth International Conference on Theoretical and Methodological Issues in Machine Translation, v2. Leuven, Belgium, 1995: 354-372.