基于復述技術的漢語成語翻譯方法研究

2015-04-21 08:30:00陳毅東史曉東蘇勁松

中文信息學報 2015年4期

關鍵詞：漢英語料詞典

羅凌，陳毅東，史曉東，蘇勁松

(1. 廈門大學智能科學與技術系，福建廈門 361005；2. 廈門大學軟件學院，福建廈門 361005)

基于復述技術的漢語成語翻譯方法研究

羅凌1，陳毅東1，史曉東1，蘇勁松2

(1. 廈門大學智能科學與技術系，福建廈門 361005；2. 廈門大學軟件學院，福建廈門 361005)

漢語成語是漢語的精華，擁有特有的語言形式，并經(jīng)常出現(xiàn)在漢語中。但是由于漢英統(tǒng)計機器翻譯訓練語料中成語的稀疏性和現(xiàn)今大多機器翻譯系統(tǒng)并沒有對成語進行特殊的處理和研究，在漢英機器翻譯中成語的翻譯并不理想。針對該問題，本文提出了基于復述技術的兩種方法來提高漢英統(tǒng)計機器翻譯系統(tǒng)中成語翻譯的能力。方法1：測試集成語復述替換；方法2：訓練集成語復述替換。實驗結果表明，方法1可以解決成語未登錄詞問題，提高成語翻譯能力。方法2可以解決訓練語料中成語稀疏問題，改善翻譯訓練模型。

統(tǒng)計機器翻譯；成語翻譯；復述

1 引言

漢語成語是漢語特有的語言形式，是一個固定短語，一般表達一個固定的語義，它簡短精辟，大多是約定俗成的四字結構，并且富有深刻的思想內涵。漢語成語是漢語詞匯系統(tǒng)的重要組成部分，在漢語書面或者日常會話中經(jīng)常出現(xiàn)，特別是在文學作品中尤為頻繁，而在新聞領域中成語的使用頻率相對較低。盡管如此，經(jīng)劉長征等人[1]調查，2005年全年15種報紙的語料共使用四字格成語915 533次，文本總數(shù)為591 315個，平均每個文本使用成語1.5次。由此可見成語在漢語語句中出現(xiàn)地相當頻繁。而在現(xiàn)今漢英統(tǒng)計機器翻譯研究中，漢語成語在統(tǒng)計機器翻譯系統(tǒng)中存在的問題并沒有引起太多的關注，事實上，由于成語在翻譯訓練語料中的稀疏性導致了翻譯系統(tǒng)對包含成語的句子的翻譯質量比較糟糕。本文分別對Google在線機器翻譯系統(tǒng)*http://translate.google.cn/和使用開源工具Moses自行訓練的短語機器翻譯系統(tǒng)進

表1 成語翻譯出錯實例

行了包含成語句子的翻譯測試，測試結果表明現(xiàn)今漢英統(tǒng)計機器翻譯系統(tǒng)對漢語成語這部分的翻譯還是存在不少問題。

具體地，測試一，從成語詞典*http://cy.5156edu.com/中隨機抽取400條成語，并從網(wǎng)絡上爬取包含該成語的句子作為測試集，對Google在線機器翻譯系統(tǒng)進行測試，人工對翻譯結果進行評測，結果表明，400句測試集中，共143句成語翻譯存在問題，占句子總數(shù)的35.75%；測試二，從NIST04，05，06中抽取包含成語的句子共352句作為使用FBIS訓練的Moses短語系統(tǒng)測試集，人工對翻譯結果進行評測，結果表明，86句成語翻譯存在問題，占句子總數(shù)的24.43%。根據(jù)觀察，這些問題主要是：第一，成語作為未登錄詞致使翻譯系統(tǒng)無法翻譯；第二，訓練數(shù)據(jù)中部分成語比較稀疏，導致對齊和翻譯錯誤。一些問題實例可見表1，調查結果表明，現(xiàn)今的統(tǒng)計機器翻譯系統(tǒng)對成語的翻譯并不理想，并且這個問題普遍存在。

針對該問題，本文提出了基于復述技術的兩種方法來提高漢英統(tǒng)計機器翻譯系統(tǒng)中漢語成語的翻譯能力，方法1：測試集成語復述替換，用以解決成語作為未登錄詞的問題。方法2：訓練集成語復述替換，用以解決訓練集中成語稀疏問題。

本文其他部分安排如下：第二節(jié)闡述使用復述解決成語翻譯問題的原因以及總體思路；第三節(jié)介紹如何獲取成語復述，并提出了復述替換選擇的方法；第四節(jié)提出了兩種將成語復述替換應用到實際的漢英統(tǒng)計機器翻譯系統(tǒng)中的方法，并進行了詳細描述；第五節(jié)給出相應的實驗結果及分析；第六節(jié)給出相關結論以及未來的研究方向。

2 總體思路

對于成語翻譯問題首先最容易想到的解決辦法是構建一個漢英成語翻譯詞典，當待譯的語句中出現(xiàn)成語時，直接通過查找詞典來進行成語翻譯。

但是這樣的做法有以下三個弊端：第一，現(xiàn)今并沒有一個公開免費的漢英成語翻譯型電子詞典，要編寫一個這樣的漢英成語詞典需要大量的人力和物力；第二，詞典翻譯基本都是一對一，這樣相同的成語在不同句子中的翻譯都是同樣一個結果，結果單調，也會影響句子的通順度；第三，如果要做漢語除英語以外其他語言的翻譯，那么又需要構建其他語言的成語翻譯詞典。

在語言學界，漢語成語的翻譯已經(jīng)有不少研究，如果我們將語言學中的一些理論借鑒到機器翻譯中的成語翻譯問題上，那么在很大程度上可以解決以上弊端。

從20世紀60年代起，國外已逐漸形成了較為系統(tǒng)的翻譯語言學理論。對等翻譯就是西方翻譯理論中的一個核心概念[2]。其中尤金奈達是西方語言學派翻譯理論的主要代表，提出了許多有著深遠影響的翻譯理論，功能對等就是其中之一[3]。

功能對等理論主張翻譯時不求文字表面的死板對應，而要在兩種語言間達成功能上的對等。他強調譯文最基本的要求是使目標語的讀者能理解和欣賞原文讀者對原文的理解和欣賞[4]。

在語言學界，已經(jīng)有不少研究證明了功能對等理論對漢語成語翻譯的適用性[2,5-6]。受功能對等理論的啟發(fā)，我們可以在成語翻譯中利用自然語言處理領域中的復述技術來解決成語翻譯問題。所謂復述(Paraphrases)，主要是研究短語或者句子的同義現(xiàn)象[7]。本文使用復述來替換源語言端的成語，以達到功能對等的效果，再進行翻譯。

這種做法有三大優(yōu)點：第一，將成語替換成了更常見的短語，降低了翻譯難度；第二，獲取了成語復述庫后，對于漢語到其他語言的成語翻譯同樣可以進行；第三，替換源語言端，翻譯結果仍依賴訓練語料的統(tǒng)計結果，以致翻譯結果不至于單一。

由于復述現(xiàn)象的普遍性，在統(tǒng)計機器翻譯的各個階段復述研究已經(jīng)有著重要的應用[8]。前人研究表明，復述可在多個方面改進統(tǒng)計機器翻譯。首先，復述改善翻譯模型訓練[9-12]；其次，復述可以提高調參效果[13-15]；再次，通過復述改寫待譯語句來提高翻譯質量，解決未登錄詞問題[16-21]；另外，復述還可以改善機器翻譯自動評測[22-24]。

根據(jù)對等理論以及前人在機器翻譯中復述應用的研究，本文提出了兩種基于復述技術的漢語成語翻譯方法。方法1：測試集成語復述替換，將測試集中未登錄的成語進行復述替換，再進行解碼翻譯；方法2: 訓練集成語復述替換，將訓練集中分布稀疏的成語替換成相應復述，改善翻譯訓練模型。

3 成語復述的獲取及替換選擇

3.1 成語復述的獲取

要進行成語復述的替換首先要構建成語復述庫，成語復述的獲取自然成為了首先要解決的問題，它為后面的工作奠定了重要的基礎。近些年來，復述作為自然語言處理的一個重要研究方向得到了學術界越來越多的重視，研究者們相繼提出了多種獲取復述的方法和模型[25-28]。本文對前人提出的最有效也最具代表性的幾種方法加以實現(xiàn)和改進來獲取漢語成語復述，這其中包括：

方法1：基于單語平行語料庫的成語復述抽取方法。

方法2：基于雙語平行語料庫的成語復述抽取方法。

方法3：基于詞典的成語復述抽取方法。

對于每種方法抽取出的成語復述，我們都進行了人工評測，并且計算了準確率，本文還對每種方法的優(yōu)缺點進行了分析和比較，特別注明，本文中的成語識別均基于在線詞典②中的成語匹配。

抽取復述短語的一個最直觀的想法便是從一個含有大規(guī)模復述句對的單語平行語料中提取復述短語。Barzilay和McKeown首先提出了利用單語平行語料獲取復述短語[25]，他們獲得的復述對經(jīng)過人工評測準確率達到85%。借鑒他們的研究，我們首先從網(wǎng)上收集了小說《鋼鐵是怎樣煉成的》的兩本不同中文譯本。篩選出包含成語的句子，然后通過計算句對間同現(xiàn)詞的個數(shù)進行句對齊，構建平行句對，總共748對。接著計算成語和相應平行句中短語的上下文相似度，取其左右各四個詞作為上下文，最后取相似度最高的短語作為其復述。相似度計算均根據(jù)詞重疊率計算而得。

但由于可用的單語平行語料的規(guī)模限制以及單語文本類型領域的限制，Bannard和Callison-Burch[27]提出了基于“樞軸法(pivot approach)”從雙語平行語料庫中抽取復述短語，他們使用了統(tǒng)計機器翻譯的短語表，若采用自動詞對齊，準確率可達到64.5%。該方法的基本假設是：若兩個短語e1和e2對齊相同的外文翻譯短語f，則e1和e2便是一對復述短語。本文重現(xiàn)了該方法，具體地，本文使用了FBIS約20萬句對雙語平行語料，首先經(jīng)過Giza++[29]對齊，并根據(jù)基于短語的統(tǒng)計機器翻譯方法[30]獲取了短語表。然后從短語表中查找與成語擁有相同外文翻譯的短語，并取其中最大概率的短語作為該成語的復述。

由于上述兩種方法的資源比較有限，獲取的成語復述的數(shù)量較少，所以本文提出從成語詞典注釋中提取成語復述的方法，該方法可以得到大規(guī)模的成語復述?，F(xiàn)在網(wǎng)絡上電子成語詞典資源比較豐富并且容易獲取，經(jīng)過比較和分析，本文最終選擇在線成語詞典②用來抽取復述。該詞典與其他同類詞典相比，收集的成語相對全面，現(xiàn)已經(jīng)收錄41 843條成語，而且該詞典注釋簡明扼要，更利于成語復述的抽取。經(jīng)過分析，本文編寫了一些句子規(guī)則模板來從成語解釋中提取成語復述。

對于上述三種方法獲得的成語復述，我們都從中隨機抽出了200對，進行人工評測標注，并計算了準確率，為了更好地對每種方法加以比較，我們將各種方法使用的語料資源、抽取得到的成語復述規(guī)模及其準確率進行了總結，詳見表2。

表2 成語復述獲取方法對比表

其中‘K’表示的是單位“千”

基于前人的復述抽取方法對于成語這個特殊短語來說還是存在不少問題。從語料資源獲取的難度上看，由于網(wǎng)絡上相同名著的不同漢語譯本比較少，基本都是同一版本，所以單語平行語料獲取的難度比雙語平行語料和成語詞典大得多；從獲取的成語復述規(guī)模來看，由于單語平行語料和雙語平行語料的規(guī)模、領域受限，從中獲取到的成語復述規(guī)模自然受限，而成語詞典包含了大量成語，可以得到大規(guī)模的成語復述；從抽取成語復述結果的準確率來看，由于單語平行語料中句子意思并不一定完全一致，所以獲取的成語復述準確率比較低，雙語平行語料由于成語的稀疏性等問題，導致成語對齊結果不準確，由此獲得的成語復述準確率也不高，而成語的解釋就是成語的意思，所以基于詞典方法準確率可達到98.5%。

3.2 成語復述的替換選擇

通過上述不同方法，我們將獲取的復述整合成一個復述庫。表3展示了復述庫的一些實例。同一個成語可能會有多個不同的復述，這樣在進行復述替換時就需要進行復述選擇。

表3 成語復述實例

其中，1指基于單語平行語料的方法，2是基于雙語平行語料的方法，3是基于詞典的方法

通過對復述實例的觀察發(fā)現(xiàn)基于單語和基于雙語的方法抽取出來的復述基本是詞級別，而基于詞典的方法抽取出來的復述基本是短句級別。根據(jù)這些特點我們可以制定一些規(guī)則來進行復述選擇。首先我們對待譯的句子進行句法分析，然后根據(jù)句中的依存關系將成語進行分類，再根據(jù)我們制定的規(guī)則進行成語復述替換選擇。

由句法分析我們將成語分成四類：名詞性成語、修飾性成語、動詞性成語和其他成語。這里我們使用哈工大的依存句法分析工具LTP來進行成語的分類，將滿足表4相應依存關系的成語分到相應的成語類別中。

將成語進行分類后，我們使用如下的規(guī)則進行復述替換選擇：

? 不選擇包含訓練集中未登錄詞的復述。

表4 成語分類規(guī)則表

? 對于動詞性成語和其他成語，我們使用基于詞典的方法抽取出來的復述。

? 對于名詞性成語和修飾性成語，我們使用基于單語平行語料的方法和基于雙語平行語料的方法抽取出來的復述。如果同一個成語存在多個詞級別的復述時，我們使用N元語言模型進行打分，選取得分最高的作為該成語最終的復述替換。

由于基于詞典的方法抽取出來的復述多為短句級別，而且比較全面，準確率也比較高，這樣適合作為獨立分句的動詞性成語和其他成語的復述替換。而基于單語平行語料和雙語平行語料的方法抽取出來的復述基本都是詞級別，根據(jù)名詞性成語和修飾性成語在句子中充當?shù)某煞郑~級別的復述進行替換比較合適。后面實驗要進行的成語復述替換選擇都是使用本節(jié)的方法。

4 漢英SMT中成語復述替換方法

受前人在機器翻譯中復述應用的研究啟發(fā)，針對成語在統(tǒng)計機器翻譯中存在的問題，本文提出了兩種方法來提高漢英統(tǒng)計機器翻譯系統(tǒng)中成語的翻譯能力，方法1：測試集成語復述替換；方法2：訓練集成語復述替換。

下文將分別介紹兩種方法，包括方法的流程圖、詳細研究方法以及該方法的優(yōu)勢與不足。

4.1 方法1：測試集成語復述替換

將測試集中的成語替換成相應的復述，改寫待譯語句，再進行機器翻譯解碼。其流程圖如圖1所示。其中，機器翻譯訓練部分包括獲取短語表和訓練語言模型；解碼部分首先對待譯的測試集進行成語復述的替換，然后再進行統(tǒng)計機器翻譯解碼，得到譯文。

圖1 方法1流程圖

由于獲取的成語復述一般都是些常用詞匯，所以替換后可以解決未登錄詞的問題，起到了降低翻譯難度的作用。但這樣的替換存在的缺陷是，由于沒有對替換后的句子進行處理，在一些情況下，會影響句子的通順度。

4.2 方法2：訓練集成語復述替換

數(shù)據(jù)稀疏問題一直是統(tǒng)計機器翻譯中的一個重要問題，經(jīng)實驗，有一定數(shù)量的成語在訓練集中比較稀疏，這對詞語對齊和短語概率計算都會有一定的影響。本文將對訓練集中稀疏的成語進行復述的替換，試圖改善模型訓練，在解碼時，為了防止產(chǎn)生未登錄詞，因此對測試集也做了相應替換。其流程圖如圖2所示。其中，在訓練模塊，把成語用它的所有

圖2 方法2流程圖

復述進行替換，形成的句對集全部加入訓練集(為了讓頻率不失真，我們將所有句子都統(tǒng)一放大相同倍數(shù))，得到新的訓練語料，再進行訓練獲取短語表；在解碼模塊，首先對待譯的測試集做成語復述的選擇替換，然后再進行解碼翻譯，得到譯文。

大部分成語由于稀疏性問題在進行詞對齊時，常常會對空或者對錯，而成語復述大多是由常見的通俗詞語組成，經(jīng)過成語復述的替換，由訓練過程來自動選優(yōu)，對詞對齊和短語概率計算會起到糾正作用，改善翻譯模型訓練。

5 實驗與討論

5.1 實驗設置

我們把本文提出的方法應用到實際的漢英統(tǒng)計機器翻譯系統(tǒng)中來驗證它們的有效性。本文實驗中用到的系統(tǒng)都是基于開源工具Moses中的短語統(tǒng)計機器翻譯系統(tǒng)。

實驗中我們使用的訓練語料為FBIS語料，開發(fā)集使用的是NIST MT 2002的測試集，測試集有使用到NIST MT 2005、NIST MT 2006的測試集，還有從NIST MT 2004～2006測試集中提取出包含成語的句子作為一個測試集，下面稱作NIST-Idiom。實驗中使用的語言模型是通過SRILM工具根據(jù)Gigaword語料訓練出的四元語言模型。詞語對齊工具采用的是GIZA++。對于實驗結果，我們采用大小寫不敏感的BLEU[31]、GTM[32]、Meteor[33]和人工評測來評價翻譯質量，其中人工評測是根據(jù)譯文結果按0～5分打分，然后將每句的得分相加除以測試集中句子總數(shù)作為該測試集譯文結果的分數(shù)，由三個不同的人打分最后取平均值作為最終分數(shù)。表5展示了我們所用的實驗數(shù)據(jù)。

表5 實驗數(shù)據(jù)

其中‘K’表示的是單位“千”，‘M’表示的是單位“百萬”

根據(jù)上一節(jié)提到的成語復述在統(tǒng)計機器翻譯中的應用，本文分別對方法1和方法2設置了性能測試實驗，具體實驗結果和分析將在下面詳細介紹。

5.2 方法1性能測試實驗

由于網(wǎng)絡上漢英資源相對比較豐富，我們找到了一部英漢漢英詞典(73 003詞對)，為了和利用詞典的方法進行比較，我們設置了兩個Baseline(BL1和BL2)。BL1只用了FBIS進行訓練，BL2使用了FBIS和詞典資源進行訓練。我們將方法1在兩個Baseline上都進行了實驗。實驗中不僅替換了測試集中的未登錄成語，還根據(jù)成語在訓練集中出現(xiàn)的次數(shù)進行相應的測試集成語復述替換對比實驗。首先我們使用NIST05和NIST06作為測試集。但是由于NIST05和NIST06中包含成語的句子占整個測試集的比例太小，評測結果基本不變，表6給出了方法1在BL1上的結果，這樣的結果無法驗證方法1的有效性。所以我們又構建了NIST-Idiom測試集來進行測試。實驗結果見表7。

表6 方法1在NIST05和NIST06上的結果

“Tn”表示將測試集里在訓練集中出現(xiàn)次數(shù)小于等于n的成語替換成相應復述。其中T0表示替換未登錄詞，TAll表示替換測試集中全部成語。

表7 方法1在NIST-Idiom上的結果

“Tn”表示將測試集里在訓練集中出現(xiàn)次數(shù)小于等于n的成語替換成相應復述。其中T0表示替換未登錄詞，TAll表示替換測試集中全部成語。“+”表示是在BL2上的實驗結果。

從表7可以看出，無論是在BL1還是BL2上，使用方法1替換測試集中的未登錄詞，在GTM、Meteor和人工評測上都有所提升，在BLEU上略微有些下降。原因可能是BLEU方法是基于N元匹配，而替換成語復述后，替換部分往往會比原句長，導致得分偏低。通過對翻譯結果的查看分析發(fā)現(xiàn)，盡管BL2中加入了詞典，但是該詞典包含的成語還是比較少，并未解決成語翻譯的問題，方法1在BL2上也還是有效的。從實驗結果還可以看出，對于訓練集中出現(xiàn)次數(shù)小于等于10的成語，在測試集中做相應的替換，得到的Meteor和人工評測分數(shù)最高。說明方法1不僅能解決成語未登錄詞的問題，還可以在一定程度上提高訓練集中稀疏成語的翻譯能力。

表8展示了翻譯結果對比的一些示例，包括兩個正例和一個反例。從第一個正例來看，替換成語未登錄詞不僅可以解決未登錄詞無法翻譯的問題，還對未登錄詞周邊的部分翻譯有所改進。從第二個“1s”表示替換前的源語言句子，“1t”表示“1s”對應的系統(tǒng)翻譯結果；“2s”表示成語復述替換后的源語言句子，“2t”表示“2s”對應的系統(tǒng)翻譯結果。其中前兩個是正例，后一個是反例。

表8 方法1翻譯結果對比示例

正例可以看出，由于訓練集中部分成語過于稀疏，對齊結果常常出錯或者對空，該類成語即使不是未登錄詞，也是無法正確翻譯，替換這類成語可以提高其翻譯能力。但從反例可以看出，有些替換后的待譯句子并不通順或者出現(xiàn)句法錯誤，這種情況下翻譯效果并沒有得到改善。

5.3 方法2性能測試實驗

本實驗將方法2用在BL1基線系統(tǒng)上，對 NIST05、NIST06和NIST-Idiom測試集進行測試。我們根據(jù)成語在訓練集中出現(xiàn)次數(shù)來對訓練集中該成語進行復述替換，并按不同出現(xiàn)次數(shù)做了實驗對比，實驗結果見表9。

從表9中可以看出，盡管在不同的測試集，幾種評測方法并不完全一致，每個測試集的最佳替換效果也不是同一個頻數(shù)的替換，不過替換訓練集中出現(xiàn)次數(shù)在20以下的成語，在三個測試集上的翻譯結“Rn”表示將訓練集中出現(xiàn)次數(shù)小于等于n的成語替換成相應的成語復述。其中RAll表示替換訓練集中全部成語。BL2是加入詞典資源的基線系統(tǒng)。

表9 方法2在NIST05、NIST06和NIST-Idioms上的結果

果相比基線系統(tǒng)各項指標上都有所提高。和加入詞典資源的BL2相比，方法2在測試集上的最佳效果要優(yōu)于BL2。

對比方法2和方法1，方法2從訓練集角度改善了翻譯模型訓練，提高了模型的翻譯質量，方法1從測試集的角度解決了未登錄成語的翻譯，在NIST-Idiom測試集上，方法2在自動評測方法的優(yōu)勢比方法1大，方法1在人工評測上會有更大的優(yōu)勢。

實驗結果表明，將訓練集中出現(xiàn)次數(shù)較少的成語替換成其復述，使其轉換成了較常見的詞語組合，對詞對齊和短語計算概率有所影響，可以改善翻譯模型訓練。相比之下，替換出現(xiàn)次數(shù)較高的成語，翻譯結果概率相比基線系統(tǒng)有所下降，說明出現(xiàn)次數(shù)較高的成語在訓練時大多已經(jīng)能形成正確的對齊，而替換后產(chǎn)生了噪聲，反而影響了翻譯效果。

6 結論與未來工作

本文針對漢英統(tǒng)計機器翻譯中成語翻譯存在的問題，引入了復述的方法，根據(jù)獲取復述的特點提出了復述替換擇優(yōu)的方法，并分別應用在漢英統(tǒng)計機器翻譯測試集和訓練集中，來改善成語翻譯問題。實驗結果表明，利用復述技術能夠有效提高漢英統(tǒng)計機器翻譯系統(tǒng)中的成語翻譯質量。

由于現(xiàn)在基于詞典的成語復述抽取獲取的復述大多是短句級別，比較難擴展，并且其他方法獲取的成語復述又很少，所以現(xiàn)在的成語復述庫比較單一，使得在復述替換時并沒有較多的復述進行選擇。在未來的研究工作中，我們將研究如何改進基于詞典的成語復述抽取，使該方法抽取的成語復述更為簡潔扼要，這樣就可以使用一些基于語義的方法來擴展成語復述，使其更加豐富而不至于單一。同時，在成語復述的應用研究中，除了在機器翻譯中的應用，如何在自然語言處理其他領域有更好的應用，也是我們下一步研究的方向。

[1] 劉長征，秦鵬. 基于中國主流報紙動態(tài)流通語料庫(DCC)的成語使用情況調查[J]. 語言文字應用，2007， 8(3)： 78-86.

[2] 衡孝軍. 從社會符號學翻譯法看漢語成語英譯過程中的功能對等[J]. 中國翻譯，2003，24(4)： 23-25.

[3] 譚載喜. 新編奈達論翻譯[M]. 北京：中國對外翻譯出版公司，1999.

[4] Eugene A Nida. Language, Culture and Translating[M]. Shanghai: Shanghai Foregin Language Education Press，1999.

[5] 謝媛媛. 功能對等和漢語成語翻譯[J]. 安徽農業(yè)大學學報，2007，16(2)： 137-139.

[6] 王俊義. “功能對等”理論對成語翻譯的適用性[J]. 河北理工學院學報，2001，1(3)： 87-89.

[7] 劉挺，李維剛，張宇，等. 復述技術研究綜述[J]. 中文信息學報，2006，20(4)： 25-32.

[8] 胡金銘，史曉東，蘇勁松，等. 引入復述技術的統(tǒng)計機器翻譯研究綜述[J]. 智能系統(tǒng)學報，2013，8(3)： 199-207.

[9] F Bond，E Nichols，DS Appling，et al. Improving statistical machine translation by paraphrasing the training data[C]//Proceedings of the International Workshop on Spoken Language Translation. Waikiki，USA，2008： 150-157.

[10] P Nakov. Improved statistical machine translation using monolingual paraphrases[C]//Proceedings of the 18th Biennial European Conference on Artificial Intelligence. Patras，Greece，2008： 338-342.

[11] R Kuhn，B Chen，G Foster，et al. Phrase clustering for smoothing TM probabilities-or，how to extract paraphrases from phrase tables[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing，China，2010： 608-616.

[12] A Max. Example-based paraphrasing for improved phrase based statistical machine translation[C]//Proceedings of the 2010 Conference in Empirical Methods in Natural Language Processing. MIT，USA，2010： 656-666.

[13] N Madnani，NF Ayan，P Resnik，et al. Using paraphrases for parameter tuning in statistical machine translation[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Prague，The Czech Republic，2007： 120-127.

[14] N Madnani，P Resnik，BJ Dorr，et al. Are multiple reference translations necessary? Investigating the value of paraphrased reference translations in parameter optimization[C]//Proceedings of the 8th Conference of the Association for Machine Translation in the Americas，Waikiki，USA，2008： 993-1000.

[15] N Madnani，BJ Dorr. Generating targeted paraphrases for improved translation[J]. ACM Transactions on Intelligent Systems and Technology，2013，4(3)： 1-26.

[16] T Mitamura，E Nyberg. Automatic rewriting for controlled language translation[C]//Proceedings of the NLPRS 2002 Workship on Automatioc Paraphrasing： Theories and Applications，Tokyo，Japan，2001： 1-12.

[17] K Yamamoto. Machine translation by interaction between paraphraser and transfer[C]//Proceedings of the 19th International Conference on Computational Linguistics，Taipei，China，2002： 1107-1113.

[18] Y Zhang，K Yamamoto. Paraphrasing of Chinese utterances[C]//Proceedings of the 19th International Conference on Computational Linguistics，Taipei，China，2002： 1163-1169.

[19] M Shimohata，E Sumita，Y Matsumoto. Building a paraphrase corpus for speech translation [C]//Proceedings of the 4th International Conference on Language Resources and Evaluation，Lisbon， Portugal，2004： 1407-1410.

[20] T Onishi，M Utiyama，E Sumita. Paraphrase lattice for statistical machine translation [C]//Proceedings of the ACL 2010 Conference Short Papres，Uppsala，Sweden，2010： 1-5.

[21] J Du，J Jiang，A Way. Facilitating translation using source language paraphrase lattices[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing，MIT，USA，2010： 420-429.

[22] Y Lepage，E Denoual. Automatic generation of paraphrases to be used as translation references in objective evaluation measures of machine translation[C]//Proceedings of the 2nd International Joint Conference on Natural Language Processing，Jeju Island，Korea，2005： 57-64.

[23] L Zhou，CY Lin，E Hovy. Re-evaluating machine translation results with paraphrase support[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing，Sydney，Australia，2006： 77-84.

[24] G Russo-Lassner，J Lin，P Resnik. A paraphrased- based approach to machine translation evaluation[R]. College Park，USA： University of Maryland，2005.

[25] R Barzilay，K R McKeown. Extracting Paraphrases from a Parallel Corpus[C]//Proceedings of ACL/EACL. 2001:： 50-57.

[26] 李維剛，劉挺，李生. 基于雙語語料庫的短語復述實例獲取[J]. 中文信息學報，2007，21(5)： 112-117.

[27] C Bannard，C Callison-Burch. Paraphraseing with Bilingual Paraller Corpora[C]//Proceedings of ACL，2005： 597-604.

[28] R Higashinaka，K Nagao. Interactive Paraphrasing Based on Linguistic Annotation[C]//Proceedings of COLING，2002： 1218-1222.

[29] Franz Josef Och，Hermann Ney. Improved statistical alignment models[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics，Hong Kong，2000： 440-447.

[30] Philipp Koehn，F(xiàn)ranz Josef Och,，Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of HLT-NAACL，2003： 127-133.

[31] Kishore Papineni，Salim Roukos，Todd Ward. BLEU: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics，Philadelphia，2002： 311-318.

[32] Joseph P.Turian，Luke Shen，I Dan Melamed. Evaluation of Machine Translation and its Evaluation[C]//Proceedings of MT Summit IX，New Orleans，LA. 2003： 386-393.

[33] Satanjeev Banerjee，Alon Lavie. METEOR： An automatic metric for MT evaluation with improved correlation with human judgement[C]//Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43th Annual Meeting of the Association of Computational Linguistics， Ann Arbor， Michigan， 2005： 65-72.

Chinese Idiom Translation Based on Paraphrasing

LUO Ling1, CHEN Yidong1*, SHI Xiaodong1, SU Jinsong2

(1. Cognitive Science Department, Xiamen University, Xiamen, Fujian 361005, China;2. Software School, Xiamen University, Xiamen, Fujian 361005, China)

Chinese idioms are frequently used in all kinds of Chinese texts. However, since Chinese idioms are relatively sparse in most training corpora for Chinese-English SMT systems, translation quality of the idioms are not satisfactory. And to the best of our knowledge, there is very little research on handling the translation of Chinese idioms. This paper proposes two methods to improve the translation of Chinese idioms by paraphrases in Chinese-English SMT. In the first method, we paraphrase the Chinese idioms in the test set, while in the second method, we paraphrase the Chinese idioms in the training set. The experimental results show that both methods could significantly improve the performance of the Chinese-English SMT system.

statistical machine translation; idioms; paraphrases

羅凌(1988—),碩士研究生,主要研究領域為自然語言處理與機器翻譯。E-mail:robert_ai_xmu@163.com陳毅東(1977—)博士,副教授,主要研究領域為自然語言處理與機器翻譯。E-mail:ydchen@xmu.edu.cn史曉東(1966—),博士,教授,主要研究領域為自然語言處理與機器翻譯。E-mail:mandel@xmu.edu.cn

1003-0077(2015)04-0166-09

2013-08-15 定稿日期： 2014-03-13

國家自然科學基金(61005052)；國家科技支撐計劃(2012BAH14F03)；中央高?；究蒲袠I(yè)務費專項資金(2010121068)；福建省自然科學基金(2011J01369)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于復述技術的漢語成語翻譯方法研究

1 引言

2 總體思路

3 成語復述的獲取及替換選擇

4 漢英SMT中成語復述替換方法

5 實驗與討論

6 結論與未來工作