亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

有限語料漢蒙統(tǒng)計機器翻譯調(diào)序方法研究

2013-10-15 01:38:06曾偉輝

中文信息學(xué)報 2013年5期

關(guān)鍵詞：排序規(guī)則模型

陳雷，李淼，張健，曾偉輝

（中國科學(xué)院合肥智能機械研究所，安徽合肥230031）

1 引言

在統(tǒng)計機器翻譯系統(tǒng)中，互譯語言之間的語序差異往往較為顯著。為了提升最終的譯文質(zhì)量，調(diào)序模型在消除互譯語言之間的語序差異方面起到至關(guān)重要的作用。

通常來說調(diào)序模型分為兩大類：一類是將調(diào)序知識作為特征函數(shù)，融入對數(shù)線性模型［1－2]。該模型在尋找所需要的特征時往往存在一些困難。同時，將特征融入訓(xùn)練與解碼過程會導(dǎo)致調(diào)序模型更加復(fù)雜，也更加耗時。另一類調(diào)序模型是在前處理過程中將源語言的語序盡可能地調(diào)整為與目標(biāo)語言一致。Visweswariah等提出了一個基于句法的調(diào)序方法［3]，該方法從源語言的解析樹上自動抽取重排序規(guī)則，并自動生成詞對齊。Khalilov和Sima'an提出了一個類似的依據(jù)源端解析樹的特征來決定重排序的源端重排序系統(tǒng)［4]。國內(nèi)在漢蒙統(tǒng)計機器翻譯調(diào)序方法的研究上，王斯日古楞［5]、Liang［6]、Chen［7]等均提出了一些基于規(guī)則的方法。這一類調(diào)序模型的效果取決于重排序規(guī)則及其應(yīng)用方式，同時還需要依賴高精度的句法分析器。上述兩類調(diào)序模型不是相互排斥的，一些調(diào)序模型既可以作為源端重排序的前處理過程，又可以作為特征函數(shù)融入到解碼器中［8]。

由以上國內(nèi)外相關(guān)研究現(xiàn)狀可知，現(xiàn)有的調(diào)序方法面向大規(guī)模平行語料行之有效。然而，無論是基于短語還是基于句法，都對平行語料的規(guī)模具有較高的要求，且存在一定的局限性：首先，基于語法樹的重排序依賴于句法分析，或利用短語結(jié)構(gòu)樹分析出句子由哪些短語類型（例如，動詞短語、名詞短語等）組成，或利用依存結(jié)構(gòu)樹分析出句子的語法成分（例如，主語、賓語等），根據(jù)這些句法分析所得信息，采用基于規(guī)則的方法實現(xiàn)相應(yīng)樹上的操作，例如，交換左右子樹等，從而完成對源語言語序的調(diào)整。然而一方面目前的句法分析準(zhǔn)確度不高；另一方面當(dāng)重排序規(guī)則較為復(fù)雜時，容易產(chǎn)生規(guī)則的嵌套而影響調(diào)序效果。其次，基于詞性標(biāo)注的重排序方法能夠在保證較細(xì)粒度的前提下盡可能多地利用語言的語法信息進行調(diào)序。然而目前自動化詞性標(biāo)注的研究工作尚有不足，獲取精準(zhǔn)的詞性標(biāo)注仍然需要大量且繁瑣的人工校對工作，對語言學(xué)專家的依賴性很強。

與漢、英、日、法、德等語言百萬句級規(guī)模的語料相比，我國少數(shù)民族語言的語料資源差距巨大，尤其是漢民平行語料規(guī)模還遠遠不能滿足需求，且短時間內(nèi)難以實現(xiàn)大規(guī)模增長。從目前漢蒙統(tǒng)計機器翻譯研究現(xiàn)狀來看，公開且可用于機器翻譯研究與測評的漢蒙雙語平行語料仍沒有超過10萬句對。同時，語言學(xué)專家數(shù)量不能滿足大規(guī)模語料的分析與處理，蒙文語言學(xué)知識相對不足且句法分析準(zhǔn)確率較低，導(dǎo)致現(xiàn)有的調(diào)序方法在漢蒙統(tǒng)計機器翻譯系統(tǒng)中難以取得理想的譯文質(zhì)量。

針對上述問題，本文提出了一種有限語料條件下漢蒙統(tǒng)計機器翻譯的調(diào)序方法。如上所述，在漢蒙統(tǒng)計機器翻譯系統(tǒng)中，第一類調(diào)序模型的特征難以獲取，因此本文采用第二類調(diào)序模型，即源端重排序。首先，借助于語言學(xué)知識，在語料與譯文兩個層面上進行分析，獲取對譯文語序影響顯著的短語類型，研究這些短語類型的調(diào)序規(guī)則，包括人工撰寫規(guī)則與自動抽取規(guī)則，然后基于規(guī)則進行源端重排序。與傳統(tǒng)的基于規(guī)則的方法不同，本文僅關(guān)注對譯文語序影響顯著的短語類型，借助于已有的語言學(xué)知識即可獲得，在對大規(guī)模平行語料以及語言學(xué)知識的需求方面尋找一個平衡點，力求滿足現(xiàn)有的實際情況。實驗表明本文的方法行之有效，在有限語料條件下能夠取得譯文質(zhì)量的顯著改善。

2 漢蒙統(tǒng)計機器翻譯的相關(guān)工作

漢蒙統(tǒng)計機器翻譯一直是我國自然語言處理研究領(lǐng)域的重要課題，經(jīng)歷了基于規(guī)則、基于實例與基于統(tǒng)計的多個發(fā)展過程。2007年，侯宏旭等給出了用于漢蒙EBMT機器翻譯的實例搜索以及短語片段劃分、匹配、組合的方法［9]，該方法基于詞語對齊，利用詞語對齊進行詞語的匹配，并根據(jù)匹配詞數(shù)和長度計算相似度，選取最好的實例；同時考慮到語料規(guī)模的限制，雙語詞典的詞匯覆蓋面往往不夠，采用雙語詞典進行詞語對齊有召回率不高的缺點，還需通過人工對齊工具進行校對。由于漢蒙平行語料的稀缺，直到2009年，隨著漢蒙統(tǒng)計機器翻譯評測的出現(xiàn)，其相關(guān)研究才逐步發(fā)展起來。楊攀等考慮到漢蒙語言形態(tài)信息的差異性以及當(dāng)前由于缺乏大規(guī)模漢蒙平行語料所造成的數(shù)據(jù)稀疏問題，將形態(tài)學(xué)方法引入到漢蒙統(tǒng)計機器翻譯的研究中［10]，在一定程度上解決了譯文的詞形選擇及語序混亂問題。駱凱等提出了類似的方法，將源語言句法信息和目標(biāo)語言形態(tài)信息引入到漢蒙統(tǒng)計機器翻譯的模型構(gòu)造中，以降低譯文的詞形錯誤率，并部分解決了譯文的長距離調(diào)序的問題，從而提高譯文的忠實度［11]。朱海等在漢蒙平行語料的基礎(chǔ)上，借助漢蒙對齊詞典來構(gòu)造統(tǒng)計模型，并嘗試以混淆網(wǎng)絡(luò)的形式進行詞級別的系統(tǒng)融合，在第五屆全國機器翻譯研討會的漢蒙日常用語評測項目中取得了良好的成績［12]。2010年，Li等將蒙古語詞素（詞干、詞綴）作為中間語言，構(gòu)造了多級的鏈?zhǔn)綑C器翻譯系統(tǒng)［13]：首先利用統(tǒng)計的方法將蒙古語切分為詞素，再構(gòu)造漢語與蒙古語詞素的統(tǒng)計機器翻譯系統(tǒng)將漢語翻譯為蒙古語詞素，然后構(gòu)造蒙古語詞素與蒙古語的統(tǒng)計機器翻譯系統(tǒng)將蒙古語詞素翻譯為蒙古語。該方法通過構(gòu)造鏈?zhǔn)綑C器翻譯系統(tǒng)，在第一個統(tǒng)計機器翻譯系統(tǒng)中將蒙古語詞素作為普通單詞對待，其本質(zhì)上是削減了蒙古語的形態(tài)信息，在第二個統(tǒng)計機器翻譯系統(tǒng)中利用了蒙古語詞素中所包含的語言信息以及蒙古語詞素與其表面詞形的內(nèi)在聯(lián)系，從而提高了最終的譯文質(zhì)量。2011年，王斯日古楞等針對漢蒙統(tǒng)計機器翻譯提出了一種基于人工撰寫規(guī)則的重排序方案［5]，依據(jù)漢蒙語言學(xué)知識，給出12條調(diào)序規(guī)則，其中動詞短語7條，介詞短語3條，主謂短語3條，這些規(guī)則較好地反映了漢蒙之間的語序差異，在統(tǒng)計機器翻譯系統(tǒng)中取得了良好的效果。Liang等提出了類似的基于人工撰寫規(guī)則的源端重排序方案［6]，依據(jù)這些規(guī)則來匹配源語言短語結(jié)構(gòu)樹的子樹，并進行左右子樹的交換操作，同時利用詞性標(biāo)注信息同步實現(xiàn)短語級別和詞級別的調(diào)序。在此基礎(chǔ)上，Chen等進一步提出在源端重排序模型中借助源端依存關(guān)系信息來平衡漢蒙之間的形態(tài)信息差異［7]。上述基于規(guī)則的調(diào)序模型首先需要對源語言進行句法分析，然而這一過程被認(rèn)為是這種方法主要的缺點［14]。尤其在蒙漢統(tǒng)計機器翻譯中，蒙古語句法分析器的精度偏低，在很大程度上影響了基于規(guī)則的調(diào)序模型的最終效果。2012年，斯·勞格勞等基于蒙古語依存樹庫MDTB，實現(xiàn)了一種基于詞匯依存概率的蒙古語依存句法分析模型［15]，該模型對核心詞進行分析的準(zhǔn)確率達到了93.05%。隨著句法分析器準(zhǔn)確率的提高，基于規(guī)則的調(diào)序模型的效果也將會隨之改善。

如上所述，目前漢蒙統(tǒng)計機器翻譯的研究主要是針對語序差異和形態(tài)差異的。然而在統(tǒng)計方法中解決這兩個問題對語料規(guī)模的依賴性較大，在短時間內(nèi)難以實現(xiàn)質(zhì)的突破，因此許多研究都引入了語言學(xué)知識，例如，調(diào)序規(guī)則、詞性標(biāo)注等信息，取得了一定的成果。本文與上述工作的不同，一方面是通過對語料與譯文兩個層面的分析，僅關(guān)注對譯文語序影響較大的短語類型并研究其調(diào)序方案；另一方面是立足實際情況，充分利用現(xiàn)有的有限語料以及語言學(xué)知識來獲取更佳的譯文質(zhì)量。

3 有限語料條件下的調(diào)序

總的來說，漢語的句子是主—謂—賓結(jié)構(gòu)，蒙古語的句子是主—賓—謂結(jié)構(gòu)，在短語級別與詞級別方面，漢蒙語序的差異則更加復(fù)雜，其具體表現(xiàn)為詞對齊關(guān)系存在很多交叉。如圖1所示，例子中的漢語句子與蒙古語句子（拉丁形式）的詞對齊連線存在很多交叉現(xiàn)象。語序的差異問題很大程度上影響了譯文的質(zhì)量。源端重排序的任務(wù)就是消除圖1中這種詞對齊連線的交叉現(xiàn)象。

圖1 漢語句子的短語結(jié)構(gòu)樹以及與蒙古語句子的詞對齊關(guān)系

基于短語的統(tǒng)計機器翻譯只解決了短距離的局部調(diào)序，而處理長距離的調(diào)序，正是漢蒙機器翻譯語序調(diào)整必需的。在基于短語的統(tǒng)計機器翻譯系統(tǒng)中，使用隱含長距離調(diào)序信息的規(guī)則對漢語句子語序進行調(diào)整，其中規(guī)則的獲取是至關(guān)重要的。規(guī)則可以由人工進行歸納總結(jié)，也可以從平行語料庫中自動獲取。本文分別探討了基于自動抽取短語結(jié)構(gòu)重排序規(guī)則的源端重排序和基于人工編寫短語結(jié)構(gòu)重排序規(guī)則的源端重排序。

3.1 人工撰寫的規(guī)則

由于動詞或謂語是句子的核心成分，且漢蒙語序的差異主要體現(xiàn)在動詞相關(guān)的短語上［5－7]，因此動詞短語的調(diào)序在漢蒙統(tǒng)計機器翻譯系統(tǒng)中至關(guān)重要。本文在漢蒙平行語料與機器翻譯系統(tǒng)產(chǎn)生的譯文兩個層面上分析對譯文語序影響顯著的動詞短語類型。

傳統(tǒng)矢量方法的優(yōu)點是對多邊形中軸的幾何特征和拓?fù)涮卣饔休^好保留，缺點是存在中軸定義問題。柵格距離變換法的優(yōu)點是提取的中軸形態(tài)完備，能實現(xiàn)復(fù)雜多邊形的中軸提取。但隨著數(shù)據(jù)的多源化和大數(shù)據(jù)的廣泛應(yīng)用，逐漸產(chǎn)生了局限性：一是柵格數(shù)據(jù)的大容量存儲特點使得該方法的運算效率較低；二是分辨率敏感性較高，針對多分辨率數(shù)據(jù)處理能力較低。而形態(tài)學(xué)方法，歷史上存在效率低、中軸精度不高、無法解決多分辨率等問題，未能實現(xiàn)工程化提取。

借助于已有的語言學(xué)知識，首先初始化一個包括所有可能顯著影響譯文語序的動詞短語類型的集合S；依據(jù)該集合對有限語料進行劃分，去除沒有對應(yīng)劃分的動詞短語類型，得到精簡后的集合S′；類似地再用精簡后的集合S′對機器翻譯系統(tǒng)輸出的譯文進行劃分，再次對集合S′進行精簡，得到最終包含所需的動詞短語類型的集合S″。

本文基于句法分析所得到的短語結(jié)構(gòu)樹［6]來定義針對集合中的動詞短語的調(diào)序規(guī)則，其形式為VP：x→x′，w，其中VP表示動詞短語在短語結(jié)構(gòu)樹上對應(yīng)的節(jié)點，x表示VP的孩子節(jié)點序列（按照從左到右的順序，遵守漢蒙之間的語言規(guī)則），x′表示對x進行重排序之后的節(jié)點序列，w表示該規(guī)則的權(quán)值，在人工撰寫規(guī)則時可由人為指定取值，在自動抽取規(guī)則時可從平行語料中訓(xùn)練獲得，用于在多條規(guī)則產(chǎn)生沖突時進行規(guī)則的選取。圖1給出了一個漢語句子短語結(jié)構(gòu)樹，可見每個短語可對應(yīng)短語結(jié)構(gòu)樹上的一棵子樹。

表1給出了人工撰寫動詞短語調(diào)序規(guī)則（不包含權(quán)值），其中VV表示動詞，P表示介詞，PP表示介詞短語，NP表示名詞短語，QP表示量詞短語。

表1 人工撰寫的動詞短語調(diào)序規(guī)則

在調(diào)序時，使用上述規(guī)則匹配源語言句子短語結(jié)構(gòu)樹的子樹進行調(diào)序。因此首先需要構(gòu)造源語言句子的短語結(jié)構(gòu)樹，可通過句法分析器獲?。黄浯尾檎叶陶Z結(jié)構(gòu)樹中滿足如下條件的節(jié)點n：標(biāo)注為VP且其孩子節(jié)點匹配某條規(guī)則r中x序列；然后根據(jù)規(guī)則r的x′序列重新排序節(jié)點n的孩子節(jié)點，從而實現(xiàn)源語言句子的重排序。從上述過程可以看出，重排序規(guī)則的應(yīng)用其本質(zhì)上是短語結(jié)構(gòu)樹上的樹變換過程。

3.2 自動抽取的規(guī)則

除上述人工撰寫規(guī)則外，本文還研究了如何基于有限語料自動抽取動詞短語的重排序規(guī)則。給定一個源語言句子s，其短語結(jié)構(gòu)樹記為ts，ts中非葉子節(jié)點n的孩子節(jié)點集合記為Cn，對應(yīng)于目標(biāo)端，節(jié)點n的平均位置計算如式（1）所示。

其中pos（ω）表示單詞ω對應(yīng)于目標(biāo)端的位置，當(dāng)單詞ω與目標(biāo)端的任何單詞沒有對齊關(guān)系時，將無須計算pos（ω）。類似地可以計算短語結(jié)構(gòu)樹ts中的每個節(jié)點的平均位置，用以調(diào)整節(jié)點順序，得到重排序之后的短語結(jié)構(gòu)樹，記為tr。基于語料中所有句子按照上述過程產(chǎn)生的樹對＜ts，tr＞，可以抽取所需的重排序規(guī)則，并依據(jù)最大概率P（tr｜ts）來選取規(guī)則，如式（2）所示。

其中I（ts）表示ts的非葉子節(jié)點集合，cn表示節(jié)點n的孩子節(jié)點序列，r（cn）表示對cn重排序之后的節(jié)點序列。P（r（cn）｜cn）計算如式（3）所示。

其中f（cn）是cn在短語結(jié)構(gòu)樹ts中出現(xiàn)的頻率，f（r（cn））是r（cn）在短語結(jié)構(gòu)樹tr中出現(xiàn)的頻率。

給定短語結(jié)構(gòu)樹ts上的一個具有k個孩子節(jié)點的節(jié)點n，其k個孩子節(jié)點的組合方式共有k！種，本文選擇概率最大的組合方式，即選擇概率最大的規(guī)則，從而獲得重排序規(guī)則。

利用上述方法，除能夠抽出表1給出的重排序規(guī)則之外，還能夠得到大量動詞短語相關(guān)的重排序規(guī)則，如表2給出的規(guī)則（5），其中IP表示以屈折成分開頭的簡單從句。

表2 人工撰寫的動詞短語調(diào)序規(guī)則

應(yīng)用自動抽取規(guī)則的方法與人工撰寫規(guī)則相同，所不同的是自動抽取規(guī)則數(shù)量遠遠超過人工撰寫的規(guī)則。從本文使用的有限語料中，即可抽出超過1千條重排序規(guī)則。通過去除錯誤規(guī)則與合并類似規(guī)則之后，仍然存在440條規(guī)則。在應(yīng)用重排序規(guī)則時，容易導(dǎo)致規(guī)則選取上的沖突，或造成過度重排序問題。因此定義規(guī)則時引入了權(quán)值w用以緩解此類問題。此外，加入一些語法限制條件也能起到類似的作用［5]。

圖2給出了在圖1所示的漢語短語結(jié)構(gòu)樹上進行源端重排序之后的結(jié)果，標(biāo)注陰影的節(jié)點分別匹配規(guī)則（3）和規(guī)則（5）?？梢钥闯觯槍渲械膬蓚€動詞短語進行調(diào)序，則完全消除了詞對齊的交叉現(xiàn)象，意味著重排序之后的漢語句子的語序與蒙古語一致。該例子表明針對動詞短語類型的調(diào)序在漢蒙統(tǒng)計機器翻譯的源端重排序中是行之有效的。

圖2 利用規(guī)則（3）和規(guī)則（5）對漢語句子進行重排序之后的結(jié)果

4 實驗

4.1 實驗環(huán)境與設(shè)置

實驗軟硬件平臺為：操作系統(tǒng)Ubuntu 11.04，處理器Inter（R）Core（TM）2Quad CPU Q6700＠2.66GHZ，內(nèi)存4G。

實驗語料為第五屆全國機器翻譯研討會（CWMT2009）提供的漢蒙雙語平行評測語料，訓(xùn)練集為67288句對，開發(fā)集為400句對，每句漢語對應(yīng)4句由蒙古語言學(xué)專家翻譯的蒙古語譯文，測試集與開發(fā)集相同。

在數(shù)據(jù)處理方面，使用中國科學(xué)院計算技術(shù)研究所的分詞工具ICTCLAS 2.0進行漢語分詞；使用斯坦福大學(xué)的句法分析器Stanford parser進行漢語的句法分析，并進行簡單的結(jié)構(gòu)映射變換得到短語結(jié)構(gòu)樹；在訓(xùn)練時，將訓(xùn)練集、開發(fā)集與測試集的傳統(tǒng)蒙文轉(zhuǎn)化為拉丁形式；采用開源解碼器Moses［16]進行翻譯模型的構(gòu)建與解碼，使用對數(shù)線性模型對各種參數(shù)特征進行融合，使用的主要特征包括：正反向短語翻譯概率、正反向詞匯翻譯概率、SRILM［17]訓(xùn)練的三元語言模型、詞長度懲罰、雙向msd調(diào)序模型；使用GIZA＋＋并采用啟發(fā)式方法進行詞對齊；使用最小錯誤率訓(xùn)練MERT［18]來調(diào)參。

以標(biāo)準(zhǔn)的基于短語的統(tǒng)計機器翻譯系統(tǒng)為參考，本文設(shè)置了三組實驗：（1）僅使用標(biāo)準(zhǔn)的基于短語的統(tǒng)計機器翻譯系統(tǒng)，作為基線系統(tǒng)；（2）使用手動撰寫規(guī)則進行源端重排序，包括逐個規(guī)則的使用與所有規(guī)則的同時使用；（3）使用440條自動抽取規(guī)則進行源端重排序。

4.2 實驗結(jié)果與分析

上述三組實驗的結(jié)果如表3所示，使用BLEU與NIST評分來評價實驗結(jié)果。

表3 實驗結(jié)果

從表3中的實驗結(jié)果可以看出，無論是人工撰寫規(guī)則還是自動抽取規(guī)則的應(yīng)用，取得的結(jié)果評分均比基線系統(tǒng)顯著提高。令人感興趣的是，取得最佳成績即提高1.63個BLEU值的結(jié)果是應(yīng)用人工撰寫的規(guī)則（1）所獲得的，而不是應(yīng)用所有人工撰寫規(guī)則，也不是應(yīng)用數(shù)量更多的自動抽取規(guī)則。這一結(jié)果標(biāo)明調(diào)序規(guī)則并不是越多越好。如上所述，數(shù)量眾多的規(guī)則容易導(dǎo)致規(guī)則選取上的沖突以及過度重排序問題。

5 結(jié)束語

本文提出在有限語料條件下，分析并獲取對譯文語序影響顯著的短語類型，利用這些短語類型的調(diào)序規(guī)則來調(diào)整源語言漢語的語序，實驗證明該方法在漢蒙統(tǒng)計機器翻譯系統(tǒng)中取得了良好的效果。該方法為現(xiàn)階段語料資源稀少的其他語言的機器翻譯系統(tǒng)調(diào)序技術(shù)的研究提供了參考。

下一步將研究減少重排序規(guī)則選擇上的沖突與降低多個規(guī)則同時使用造成的過度排序等問題。此外，由于目前本文的方法仍然依賴于句法分析器的準(zhǔn)確性，因此需要研究不依賴于句法分析器的調(diào)序方案，例如使用序列標(biāo)注模型（如：條件隨機場模型等）來進行特殊短語的識別與匹配問題。

致謝

感謝對本文工作提供幫助的老師和同學(xué)。感謝對本文撰寫提出中肯建議的各位評審老師。

［1]薛永增，李生，趙鐵軍，等.短語統(tǒng)計機器翻譯的句法調(diào)序模型［J].通信學(xué)報，2008，29（1）：7－14.

［2]侯宏旭，劉群，李錦濤.一種基于短語的漢蒙統(tǒng)計機器翻譯與調(diào)序模型［J].高技術(shù)通訊，2009，19（5）：475－479.

［3]K Visweswariah，J Navratil，J Sorensen，et al.Syntax based reordering with automatically derived rules for improved statistical machine translation［C]／／Proceeding of COLING，2010：1119－1127.

［4]M Khalilov，K Sima'an.Context－sensitive syntactic source－reordering by statistical transduction［C]／／Proceeding of IJCNLP，2011：38－46.

［5]王斯日古楞，斯琴圖，那順烏日圖.漢蒙統(tǒng)計機器翻譯中的調(diào)序方法研究［J].中文信息學(xué)報，2011，25（4）：88－92.

［6]F Liang，L Chen，M Li，et al.A rule－based sourceside reordering on phrase structure subtrees［C]／／Proceeding of IALP，2011：173－176.

［7]L Chen，M Li，M He，et al.Dependency parsing on source language with reordering information in SMT［C]／／Proceeding of IALP，2012：133－136.

［8]N Yang，M Li，D Zhang，et al.A ranking based approach to word reordering for statistical machine translation［C]／／Proceeding of ACL，2012：912－920.

［9]侯宏旭，劉群，那順烏日圖.基于實例的漢蒙機器翻譯［J].中文信息學(xué)報，2007，21（4）：65－72.

［10]楊攀，張建，李淼，等.漢蒙統(tǒng)計機器翻譯中的形態(tài)學(xué)方法研究［J].中文信息學(xué)報，2009，23（1）：50－57.

［11]駱凱，李淼，烏達巴拉，等.漢蒙翻譯模型中的依存語法與形態(tài)信息應(yīng)用研究［J].中文信息學(xué)報，2009，23（6）：98－104.

［12]朱海，應(yīng)玉龍，李文，等.第五屆全國機器翻譯研討會中科院智能所評測技術(shù)報告［C]／／第五屆全國機器翻譯研討會論文集，2009.

［13]W Li，L Chen，Wudabala，M Li.A Chained Machine Translation Using Morphemes as Pivot Language［C]／／Proceeding of COLING 2010workshop：ALR，2010：169－177.

［14]K Visweswariah，R Rajkumar，A Gandhe，et al.A word reordering model for improved machine translation［C]／／Proceeding of EMNLP，2011：486－496.

［15]斯·勞格勞，華沙寶，薩如拉.基于統(tǒng)計方法的蒙古語依存句法分析模型［J].中文信息學(xué)報，2012，26（3）：27－32.

［16]P Koehn，H Hoang，A Birch，et al.Moses：open source toolkit for statistical machine translation［C]／／Proceeding of ACL，2007：177－180.［17]A Stolcke.SRILM—an extensible language modeling toolkit［C]／／Proceeding of Intl.Conf.on Spoken Language Processing，2002：901－904.

［18]F J Och.Minimum error rate training in statistical machine translation［C]／／Proceeding of ACL，2003：160－167.