亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Web平行語料挖掘及其在機(jī)器翻譯中的應(yīng)用

2010-06-05 02:43:22呂雅娟馬希榮

中文信息學(xué)報(bào) 2010年5期

關(guān)鍵詞：方法

林政，呂雅娟，劉群，馬希榮

(中國科學(xué)院計(jì)算技術(shù)研究所, 智能信息處理重點(diǎn)實(shí)驗(yàn)室，北京 100190)

引言

在計(jì)算語言學(xué)的發(fā)展和研究中，雙語平行語料庫的作用日益突顯，雙語平行語料庫可以用于統(tǒng)計(jì)機(jī)器翻譯的模型訓(xùn)練[1]，雙語語料庫的建設(shè)對于雙語詞典編纂[2]、跨語言信息檢索也有重要價(jià)值。但是大規(guī)模雙語平行語料庫的獲取并不容易，現(xiàn)有的平行語料庫在規(guī)模、時(shí)效性和領(lǐng)域的平衡性等方面還不能滿足處理真實(shí)文本的需要[3]。隨著互聯(lián)網(wǎng)的普及和迅速發(fā)展，越來越多的信息以多語言的形式發(fā)布，這就為雙語或多語的語料庫建設(shè)提供了資源。

Web上的雙語網(wǎng)頁大致可以分為兩類，一類是雙語信息分布于兩個(gè)對照的網(wǎng)頁間，本文稱之為雙語平行網(wǎng)頁(例如http://www.gov.hk/tc/residents/和http://www.gov.hk/en/residents/)；另一類是雙語信息包含在同一個(gè)網(wǎng)頁內(nèi)，如圖1所示，本文稱之為雙語混合網(wǎng)頁。已有的研究方法主要處理的是雙語平行網(wǎng)頁，獲取雙語平行網(wǎng)頁有兩種常用方法：一種是基于URL相似性[4-5]：首先利用搜索引擎和雙語網(wǎng)站中的語言標(biāo)志作為啟發(fā)式信息(如網(wǎng)站中的“English Version”、“中文版”等)來獲取候選雙語平行網(wǎng)站，然后再利用網(wǎng)頁URL地址的相似性(如file_e.html 和 file_c.html)來獲取平行網(wǎng)頁。另一種是基于網(wǎng)頁結(jié)構(gòu)相似性的[6-7]：通過追蹤平行網(wǎng)頁上的鏈接，分析網(wǎng)頁之間的html標(biāo)簽結(jié)構(gòu)(DOM tree)的相似性，不斷迭代發(fā)現(xiàn)新的候選平行網(wǎng)頁?；陔p語平行網(wǎng)頁的雙語平行資源獲取方法取得了很好的效果，為平行語料庫的自動(dòng)獲取提供了有效的解決方案。

http://blog.sina.com.cn/s/blog_486c0f670100didk.html?tj=1

雙語平行網(wǎng)頁存在地址或結(jié)構(gòu)上的相似性，處理方法已經(jīng)很成熟，但這些方法并不適用于雙語混合網(wǎng)頁。雙語混合網(wǎng)頁與雙語平行網(wǎng)頁相比，雙語對照更整齊、翻譯質(zhì)量較好、句對長度適中，然而雙語混合網(wǎng)頁不存在地址和結(jié)構(gòu)上的相似性，很難自動(dòng)發(fā)現(xiàn)和區(qū)分，而且頁面組織形式多樣，很難精確抽取主體內(nèi)容。目前對于雙語混合網(wǎng)頁的解決方案仍比較少，一種自適應(yīng)模式學(xué)習(xí)的方法[8]最近被提出，該方法首先利用翻譯和音譯模型找到網(wǎng)頁中的翻譯詞對作為種子，然后利用種子學(xué)習(xí)泛化的模板，最后利用學(xué)習(xí)到的模板抽取網(wǎng)頁中所有的雙語平行數(shù)據(jù)。這種方法可以獲取大量的雙語平行句對，但是正確率只有83.5%。本文提出了另一種從雙語混合網(wǎng)頁自動(dòng)獲取雙語平行語料的方案，不僅可以獲得大量雙語平行句對，而且正確率比較高，平均正確率有93.75%，前150萬的平均正確率可以達(dá)到96%。本文提出的決方案解決了候選混合網(wǎng)頁的發(fā)現(xiàn)和獲取，網(wǎng)頁噪聲過濾，雙語網(wǎng)頁確認(rèn)以及平行句對抽取等難點(diǎn)問題。此外，本文將從Web上獲取的雙語平行句對應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯的模型訓(xùn)練，提出了句對質(zhì)量排序和領(lǐng)域信息檢索兩種不同的應(yīng)用策略將Web平行語料加載到訓(xùn)練集中，實(shí)驗(yàn)證明本文提出的兩種策略可以提高翻譯系統(tǒng)性能，在IWSLT評測任務(wù)中BLEU值可以提高2到5個(gè)百分點(diǎn)。

本文第1節(jié)主要闡述候選雙語混合網(wǎng)頁的獲取方法，第2節(jié)描述如何從雙語混合網(wǎng)頁抽取平行句對，第3節(jié)研究Web平行語料在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用策略，第4節(jié)是實(shí)驗(yàn)結(jié)果，第5節(jié)是對全文的總結(jié)和對未來工作的展望。

1 候選雙語混合網(wǎng)頁獲取

1.1 候選雙語混合網(wǎng)頁獲取方法

相對于候選雙語平行網(wǎng)頁而言，候選雙語混合網(wǎng)頁的獲取更為困難。因?yàn)檫@類網(wǎng)頁的分布通常不確定，缺乏一些常見的啟發(fā)式信息(如雙語網(wǎng)站獲取中的“中文版”、“英文版”等)。本文首先介紹兩種獲取雙語混合網(wǎng)頁的常用方法：

方法一：限定目標(biāo)源的方法，預(yù)先收集整理若干個(gè)相關(guān)主題的網(wǎng)站，比如英語學(xué)習(xí)網(wǎng)站和翻譯網(wǎng)站等，然后遞歸下載。

方法二：利用搜索引擎的方法，通過搜索引擎和啟發(fā)式信息可以獲得大量鏈接，然后以這些鏈接作為種子鏈接，進(jìn)行遞歸下載。

本文結(jié)合以上兩種方法，提出了第三種候選資源獲取方法——嘗試下載策略。首先利用搜索引擎和啟發(fā)式信息得到一個(gè)候選網(wǎng)站列表，比如以“雙語新聞英漢”為啟發(fā)信息用Google進(jìn)行檢索，可以得到不重復(fù)的524個(gè)鏈接。通過查看，這些頁面大致可以分成三類：

(1) 目錄型網(wǎng)頁：通常是所有雙語新聞或雙語閱讀的標(biāo)題鏈接頁，追溯鏈接可以得到大量的雙語混合網(wǎng)頁。此類網(wǎng)頁可以遞歸下載。

(2) 內(nèi)容型網(wǎng)頁：通常本身是雙語混合網(wǎng)頁，但是追溯鏈接得到的都是無關(guān)網(wǎng)頁，比如某人博客中一篇雙語文章。此類網(wǎng)頁不可以遞歸下載。

(3) 無關(guān)網(wǎng)頁：既不是目錄型網(wǎng)頁，也不是內(nèi)容型網(wǎng)頁。此類網(wǎng)頁不可以遞歸下載。

真正的候選網(wǎng)站列表應(yīng)由目錄型網(wǎng)頁組成，若對內(nèi)容型網(wǎng)頁和無關(guān)網(wǎng)頁進(jìn)行遞歸下載，將得到大量的無關(guān)網(wǎng)頁，不僅會(huì)占用較大的存儲空間，還會(huì)影響系統(tǒng)的執(zhí)行效率。由于不同網(wǎng)站的設(shè)計(jì)風(fēng)格和組織架構(gòu)各式各樣，所以很難利用規(guī)則判斷或是特征分類的思想對這三類網(wǎng)頁進(jìn)行區(qū)分，所以本文采用了一種嘗試下載策略。把通過啟發(fā)式信息和搜索引擎返回的所有種子鏈接分別追溯至下一層，即只下載當(dāng)前頁面和當(dāng)前頁面上的鏈接所對應(yīng)的頁面，不再進(jìn)行更深層的采集。然后用2.2節(jié)所提到的方法進(jìn)行雙語混合網(wǎng)頁確認(rèn)，如果一個(gè)種子鏈接所對應(yīng)的下一層含有5個(gè)(經(jīng)驗(yàn)值)以上的雙語混合網(wǎng)頁，則認(rèn)為此種子鏈接可以進(jìn)行遞歸下載，將其放入候選網(wǎng)站列表中，否則將其舍棄。

1.2 方法比較

方法一的優(yōu)點(diǎn)是候選資源質(zhì)量較好，避免了大量非雙語混合網(wǎng)站的下載，缺點(diǎn)是網(wǎng)頁數(shù)量有限且網(wǎng)站的選擇需要人工干預(yù)。

方法二的優(yōu)點(diǎn)是可以自動(dòng)發(fā)現(xiàn)候選網(wǎng)站，缺點(diǎn)是候選資源良莠不齊，會(huì)下載到大量非雙語混合的無關(guān)網(wǎng)頁，需要對大量無關(guān)網(wǎng)頁進(jìn)行過濾，空間和時(shí)間開銷都很大。

方法三同時(shí)具備以上兩種方法各自的優(yōu)點(diǎn)，即實(shí)現(xiàn)了高質(zhì)量候選網(wǎng)站的全自動(dòng)篩選，克服了方法一和方法二各自的不足。

為了衡量以上三種方法各自的特點(diǎn)，本文進(jìn)行了一組實(shí)驗(yàn)，即在相同時(shí)間下，考察分別使用三種方法得到的候選網(wǎng)站的正確率和候選網(wǎng)站的數(shù)量。

表1 候選雙語混合網(wǎng)站獲取方法比較

綜合考慮，在相同的時(shí)間開銷下，方法三是最優(yōu)的候選資源獲取方法，候選網(wǎng)站的質(zhì)量比方法一持平，候選網(wǎng)站的數(shù)量是方法一的2.47倍。與方法二相比，候選網(wǎng)站的正確率提高了59%，與此同時(shí)空間開銷也降低了一半。

2 雙語平行句對抽取

通過第一節(jié)的方法可以獲取大量的候選雙語混合網(wǎng)頁，然后需要從候選的雙語混合網(wǎng)頁中區(qū)分出真正的雙語混合網(wǎng)頁，并從真正的雙語混合網(wǎng)頁中抽取雙語平行句對，主要任務(wù)可以分成三部分：網(wǎng)頁噪聲過濾、雙語混合網(wǎng)頁確認(rèn)和句子對齊。

2.1 網(wǎng)頁噪聲過濾

Web文檔包含了大量的噪聲內(nèi)容，比如廣告鏈接、導(dǎo)航條和圖片等，這些噪音通常分布在網(wǎng)頁的不同位置，缺乏規(guī)律性。大量的網(wǎng)頁噪聲不僅會(huì)影響雙語混和網(wǎng)頁確認(rèn)的準(zhǔn)確率，也會(huì)影響句子對齊的準(zhǔn)確率，所以首先需要對所有候選網(wǎng)頁進(jìn)行噪聲過濾。

本文采用一種專用的基于模板的網(wǎng)頁噪聲過濾方法。因?yàn)椴煌W(wǎng)站的編輯規(guī)則通常不同，所以很難定義一組通用的規(guī)則來處理所有的候選網(wǎng)站，但是仔細(xì)觀察，發(fā)現(xiàn)同一個(gè)網(wǎng)站內(nèi)部的噪聲分布和內(nèi)容是大致相似，所以可以在每個(gè)網(wǎng)站內(nèi)部自動(dòng)學(xué)習(xí)噪聲模板，N個(gè)網(wǎng)站就會(huì)自動(dòng)生成N個(gè)噪聲模板，然后每個(gè)網(wǎng)站分別參照自身對應(yīng)的噪音模板進(jìn)行過濾，具體算法見文獻(xiàn)[9]。

2.2 雙語混合網(wǎng)頁確認(rèn)

候選雙語混合網(wǎng)頁并不一定是真實(shí)的雙語內(nèi)容對照的網(wǎng)頁，有很多單語網(wǎng)頁或者英語試題等等，因此必須區(qū)分真正的雙語混合網(wǎng)頁和非雙語混合網(wǎng)頁。本文對雙語平行網(wǎng)頁的確認(rèn)主要分為兩步來完成，分別是基于雙語字符數(shù)的粗判別和基于詞典的細(xì)判別。

通常雙語平行網(wǎng)頁中兩種語言的字符數(shù)是成比例的，以中英文為例，假設(shè)中文文件的字符數(shù)為number_zh, 英文文件的字符數(shù)為number_en, 當(dāng)“number_zh/number_en > T”或者“number_en / number_zh > T”時(shí)，則認(rèn)為是非雙語平行網(wǎng)頁。實(shí)驗(yàn)中，T 的取值為3。

2.3 句子對齊

經(jīng)過上一步的雙語混和網(wǎng)頁確認(rèn)，得到的是篇章級或段落級對齊的雙語文本，而統(tǒng)計(jì)機(jī)器翻譯模型訓(xùn)練需要的是句子級對齊的雙語平行語料庫，所以還需要在兩個(gè)單語文本之間抽取雙語平行句對。

Brown和Gale最早提出了基于長度的句子對齊方法[11]。Stanley F.Chen通過建立詞到詞的翻譯模型，實(shí)現(xiàn)了另一種基于詞典的句子對齊方法[12]。Wu、Utsuro將長度方法和詞典方法相結(jié)合，分別進(jìn)行了漢英和日英句子的對齊試驗(yàn)，得出了混合方法好于單純的長度方法或者詞匯方法[13-15]。

本文的主要工作是在長度加詞典的基礎(chǔ)上又考慮了標(biāo)點(diǎn)符號和數(shù)字、縮略詞等其他混合信息，實(shí)現(xiàn)了一個(gè)漢語和英語的句子對齊方法?；诨旌咸卣鞯木渥訉R方法主要考慮了3類特征，分別是：

(1) 長度特征：這是最廣泛被采用的特征，因?yàn)榛榉g的句子長度符合一定比率。

(2) 翻譯特征：利用翻譯特征來進(jìn)行句子對齊可以大幅度提高對齊的精度。

(3) 符號特征：句子中的符號主要包括標(biāo)點(diǎn)符號、數(shù)字、縮略詞等?；榉g的句子通常會(huì)使用對應(yīng)的標(biāo)點(diǎn)符號。

一些出現(xiàn)頻率較低的符號具有很高的參考價(jià)值，比如？、！、*、$。句子中的數(shù)字和縮略詞一般不會(huì)出現(xiàn)在雙語詞典中，在互譯文本中卻經(jīng)常采用相同的形式，比如表示日期、數(shù)量、專有名詞、機(jī)構(gòu)名等。因此，考慮符號特征對句子對齊是有意義的，可以作為長度特征和翻譯特征之外的一個(gè)很好的補(bǔ)充。

3 Web平行語料在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用

這一節(jié)主要研究Web平行語料的特點(diǎn)，以及根據(jù)Web平行語料的特點(diǎn)提出的兩種將Web語料應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯的方法。

3.1 Web平行語料特點(diǎn)

從Web上獲取的雙語平行語料庫主要有三個(gè)特點(diǎn)：

領(lǐng)域分布廣泛：Web平行語料是從互聯(lián)網(wǎng)上隨機(jī)采集的，可能來自于政府的官方新聞網(wǎng)站，可能來自于英語學(xué)習(xí)網(wǎng)站，可能來自于某人的博客等等，所以具有領(lǐng)域分布廣泛的特點(diǎn)?，F(xiàn)有的雙語平行語料庫通常都是限定領(lǐng)域的，比如官方的雙語法律文檔，而Web平行語料庫的多領(lǐng)域性可以克服現(xiàn)有平行語料庫領(lǐng)域局限的不足，也為領(lǐng)域性課題應(yīng)用提供了很好的基礎(chǔ)資源。

實(shí)時(shí)數(shù)據(jù)更新：由于互聯(lián)網(wǎng)上的數(shù)據(jù)及時(shí)更新瞬息萬變，所以從Web上獲取的雙語平行語料具有一定的實(shí)時(shí)性，可以捕捉到最新穎的詞匯和翻譯，新詞發(fā)現(xiàn)是計(jì)算語言學(xué)中的一個(gè)重要課題。比如“我被雷到了?！睂?yīng)英文翻譯“I am startled.”，把這些實(shí)時(shí)數(shù)據(jù)加到統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練集中可以讓系統(tǒng)學(xué)習(xí)到更多的知識從而提高性能。

存在噪音干擾：Web2.0時(shí)代的最大特點(diǎn)就是用戶的參與性，從Web上獲取的雙語平行數(shù)據(jù)很多來自互聯(lián)網(wǎng)用戶的個(gè)人發(fā)布，比如論壇中的翻譯擂臺，所以可能存在一些拼寫和語法上的錯(cuò)誤，這些噪音的存在使得Web平行語料不可能具有百分之百的正確率，所以需要去粗取精提取真正有價(jià)值的信息。

為了確認(rèn)Web平行語料的領(lǐng)域分布情況，我們進(jìn)行了如下實(shí)驗(yàn)，對從Web上獲取的雙語平行文本進(jìn)行分類，分類器采用的是中國科學(xué)院計(jì)算技術(shù)研究所的DRAP分類系統(tǒng)，這種分類器的效果要優(yōu)于支持向量機(jī)、樸素貝葉斯和K近鄰等分類技術(shù)(詳情參照http://www.searchforum.org.cn/tansongbo/software.htm)，分類結(jié)果如圖2所示。

圖2 Web雙語平行語料領(lǐng)域分類

從分類結(jié)果圖可以看出，Web雙語平行語料的領(lǐng)域分布比較隨機(jī)，其中娛樂、科技、教育和電腦四個(gè)領(lǐng)域的分布比例較高，其他領(lǐng)域所占比例較小，可見這些領(lǐng)域的雙語平行語料比較稀缺，而Web雙語平行語料本身規(guī)模巨大，所以對這些稀缺領(lǐng)域的平行語料獲取是非常有意義的。

由于Web雙語平行語料存在一定的噪音干擾，且領(lǐng)域分布非常隨機(jī)，所以若將其直接加載到統(tǒng)計(jì)機(jī)器翻譯的模型訓(xùn)練中效果并不理想，因此根據(jù)Web雙語平行語料的特點(diǎn)，我們提出了兩種應(yīng)用策略，使其更好的適應(yīng)實(shí)際應(yīng)用的需要。

3.2 Web平行語料應(yīng)用于SMT的兩種方法

(1) 句對質(zhì)量排序方法

統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能通常和雙語平行句對的質(zhì)量成正比，所以本文提出一種平行句對打分重排序的方法，以挑選質(zhì)量較好的雙語平行句對。這里定義一個(gè)評價(jià)函數(shù)為每一個(gè)平行句對打分，然后將平行句對按得分由高到低排序。

定義評價(jià)函數(shù)：F=Len_Ratio_Score(S,T)+Trans_Rate_Score(S,T)

Len_Ratio_Score(S,T)是源語言句子和目標(biāo)語言句子的長度比得分：

-∞<δ<+∞

Trans_Rate_Score(S,T)為源語言句子和目標(biāo)語言句子的互翻譯率得分：

平行句對互翻譯程度的得分定義為：按照從英文向中文的方向查詞典，中文解釋在中文句子中命中的次數(shù)比上英文句子的總單詞數(shù)。平行句對的互翻譯程度越高則Trans_Rate_Score(S,T)得分越高。

(2) 領(lǐng)域信息檢索方法

基于統(tǒng)計(jì)的機(jī)器翻譯方法使用雙語平行語料庫作為翻譯知識的來源，翻譯知識的獲取在翻譯之前完成?；诮y(tǒng)計(jì)的方法需要大規(guī)模雙語平行語料，其翻譯模型、語言模型參數(shù)的準(zhǔn)確性直接依賴于語料的規(guī)模，其翻譯質(zhì)量主要取決于概率模型的好壞和語料庫的覆蓋能力。在已知測試集領(lǐng)域的情況下，可以挑選與測試集領(lǐng)域相關(guān)的雙語平行語料進(jìn)行模型訓(xùn)練，使機(jī)器翻譯系統(tǒng)學(xué)習(xí)到的翻譯知識盡可能的與測試集一致，從而提高翻譯質(zhì)量。因此，為了更好的利用Web雙語平行語料庫，本文提出了一種領(lǐng)域信息檢索的方法從Web雙語平行語料庫種檢索與測試集相似的句子用于模型訓(xùn)練，具體分為三步：

(1) 在測試集上建立索引，本文使用開源的信息檢索工具Lemur進(jìn)行索引的建立和查詢。

(2) 把Web平行語料庫中的句對逐一作為查詢字符串，檢索測試集中與之相似的句子，然后把返回的所有句子的相似度得分相加，即得到Web平行語料庫中每個(gè)句對與整個(gè)測試集的相似程度。

(3) 按相似程度分值對整個(gè)Web雙語平行語料庫進(jìn)行排序。

4 實(shí)驗(yàn)

4.1 雙語平行句對獲取實(shí)驗(yàn)

目前針對雙語混合網(wǎng)頁的研究還比較少，微軟提出的自適應(yīng)模式學(xué)習(xí)的方法[8]有效的解決了從雙語混合網(wǎng)頁抽取平行句對的問題，取得了良好的效果。為了證明本文提出的方法同樣有效并且具有更高的句對正確率和網(wǎng)頁召回率，特將兩種方法進(jìn)行對比，結(jié)果如表2所示。

表2 基于雙語混合網(wǎng)頁的平行語料挖掘方法對比

從表2可以看出，對比兩種基于雙語混合網(wǎng)頁的平行句對挖掘方法，Microsoft的方法在獲取的平行句對總的數(shù)量上占優(yōu)勢，而本文提出的方法卻在雙語混合網(wǎng)頁召回率和平行句對正確率上占優(yōu)勢。之所以前者能獲取大量的平行句對是因?yàn)榫哂?5億的候選網(wǎng)頁可從中篩選，但其混合網(wǎng)頁的召回率只有0.6%，這無疑會(huì)消耗大量的空間和時(shí)間成本，而本文提出的方法具有更高的存儲利用率。此外，本文提出的方法所抽取的平行句對正確率幾乎比前者高出10%，顯然我們的研究是有價(jià)值的。

4.2 平行句對排序?qū)嶒?yàn)

將258萬雙語平行句對按照評價(jià)函數(shù)F進(jìn)行重排序，取前150萬句對平均分成五組進(jìn)行隨機(jī)抽樣，每組隨機(jī)抽樣500個(gè)句對，一共抽樣2 500個(gè)句對，然后通過人工查驗(yàn)的方式統(tǒng)計(jì)正確率，前150萬雙語平行句對的平均正確率是96%，分組統(tǒng)計(jì)結(jié)果如表3所示。

表3 句對重排序后正確率統(tǒng)計(jì)

從分組統(tǒng)計(jì)結(jié)果可以看出，評價(jià)函數(shù)F的設(shè)置是合理的，經(jīng)過打分重排序，可以將高質(zhì)量的平行句對排在前面，將低質(zhì)量的平行句對過濾掉，從而獲取正確率更高的雙語平行語料。

4.2 Web數(shù)據(jù)應(yīng)用于SMT的實(shí)驗(yàn)

Web雙語平行語料應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系的實(shí)驗(yàn)環(huán)境設(shè)置如下：解碼器為著名的開源解碼器moses(摩西)(http://www.statmt.org/moses/)，對齊工具使用的GIZA++(http://www.fjoch.com/GIZA++.html)，語言模型為四元，參數(shù)訓(xùn)練方法使用的是最小錯(cuò)誤率訓(xùn)練，系統(tǒng)實(shí)現(xiàn)采用對數(shù)線性模型，機(jī)器翻譯性能的評測標(biāo)準(zhǔn)為國際評測的通用標(biāo)準(zhǔn)BLEU[16]。

第一組實(shí)驗(yàn)，將用國際IWSLT評測的公用語料BTEC語料訓(xùn)練的翻譯系統(tǒng)作為基準(zhǔn)系統(tǒng)，按照平行句對打分重排序的方法將排序靠前的Web平行句對加入到訓(xùn)練集，以混合后的數(shù)據(jù)重新訓(xùn)練翻譯系統(tǒng)。為了觀察BLEU值的變化，我們按照指數(shù)級增加的方式分別加入2 000、4 000、8 000、16 000個(gè)Web雙語平行句對到訓(xùn)練集，實(shí)驗(yàn)結(jié)果如表4中數(shù)據(jù)所示。

從表4可以看出，隨著添加到訓(xùn)練集數(shù)據(jù)規(guī)模的增加，翻譯系統(tǒng)的性能也隨之提升。添加2 000個(gè)雙語平行句對時(shí)效果提升最明顯，主要因?yàn)檫@2 000個(gè)雙語平行句對的翻譯質(zhì)量是最好的，打分排序最靠前，翻譯正確率可以達(dá)到99%。隨著添加數(shù)據(jù)規(guī)模的增大，系統(tǒng)性能的提升速度越來越緩慢，因?yàn)楹竺嫣砑拥臄?shù)據(jù)的翻譯質(zhì)量要低于前面添加的數(shù)據(jù)，但是BLEU值都在穩(wěn)步提升，實(shí)驗(yàn)結(jié)果證明按照打分重排序挑選出的Web雙語平行句對是可以應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的模型訓(xùn)練的，效果比較理想。

表4 打分重排序方法挑選添加數(shù)據(jù)的實(shí)驗(yàn)

第二組實(shí)驗(yàn)，將用BTEC語料訓(xùn)練的翻譯系統(tǒng)作為基準(zhǔn)系統(tǒng)，按照平行句對信息檢索的方法將查詢返回的與測試集相似的Web平行句對加入到訓(xùn)練集，以混合后的數(shù)據(jù)重新訓(xùn)練翻譯系統(tǒng)。與第一組實(shí)驗(yàn)相同，也按照指數(shù)級增加的方式分別加入2 000、4 000、8 000、16 000個(gè)Web雙語平行句對到訓(xùn)練集，實(shí)驗(yàn)結(jié)果如表5中數(shù)據(jù)所示。

表5 信息檢索方法挑選添加數(shù)據(jù)的實(shí)驗(yàn)

從表5可以看出，隨著添加到訓(xùn)練集數(shù)據(jù)規(guī)模的增加，翻譯系統(tǒng)的性能也隨之提升，但BLEU值提升的趨勢與實(shí)驗(yàn)一有所不同。第二組實(shí)驗(yàn)中，翻譯系統(tǒng)性能的提升速度是比較平穩(wěn)的，而第一組實(shí)驗(yàn)呈現(xiàn)先快后慢的趨勢。因?yàn)榈谌M實(shí)驗(yàn)添加的句對翻譯質(zhì)量比較平均，而第二組實(shí)驗(yàn)添加的句對翻譯質(zhì)量是由高到低排序的。從實(shí)驗(yàn)二可以看出，用信息檢索的方法對Web雙語平行句對加以利用是有效的，因?yàn)镮WSTL評測是旅游會(huì)話領(lǐng)域的語料，所以相比第一組實(shí)驗(yàn)的NIST語料更能體現(xiàn)根據(jù)特定領(lǐng)域選取的語料對翻譯效果的影響。

上述實(shí)驗(yàn)證明，我們提出的兩種對于Web雙語平行語料的利用方案是都是有效的，按照兩種方案挑選出的數(shù)據(jù)加入統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)是可以提高翻譯性能的。

5 小結(jié)與展望

雙語平行語料庫在自然語言處理領(lǐng)域有很多重要應(yīng)用，但是大規(guī)模雙語平行語料庫的獲取并不容易，現(xiàn)有的平行語料庫在規(guī)模、時(shí)效性和領(lǐng)域的平衡性等方面還不能滿足處理真實(shí)文本的實(shí)際需要。而互聯(lián)網(wǎng)作為廣泛使用的信息載體，為我們提供了大量的雙語候選資源。因此，本文提出一種基于雙語混合網(wǎng)頁的雙語平行語料庫自動(dòng)獲取方案，解決了候選資源獲取、平行句對抽取等難點(diǎn)問題，運(yùn)用該解決方案實(shí)際獲取了百余萬雙語平行句對。為了有效利用Web數(shù)據(jù)，我們提出了兩種應(yīng)用策略，將從Web雙語平行語料中挑選出的數(shù)據(jù)加入到統(tǒng)計(jì)機(jī)器翻譯的模型訓(xùn)練，實(shí)驗(yàn)證明，我們提出的兩種方案都可以提高翻譯質(zhì)量，可以使Web數(shù)據(jù)更好的服務(wù)于統(tǒng)計(jì)機(jī)器翻譯的應(yīng)用。

在以后的研究中，我們希望解決以下幾個(gè)方面的工作：

第一，繼續(xù)探索候選資源獲取的解決方案，以期望能夠快速、自動(dòng)獲取雙語候選網(wǎng)站列表。

第二，構(gòu)建更大規(guī)模更高對齊正確率的雙語平行語料庫，以供實(shí)際應(yīng)用。

[1] Peter F. Brown, John Cocke, Stephen A, et al.. A Statistical Approach to Machine Translation: Parameter Estimation[J]. Computational Linguistics, 1990,volume 16: 79-85.

[2] 孫樂，金友兵，杜林,等. 平行語料庫中雙語術(shù)語詞典的自動(dòng)抽取[J].中文信息學(xué)報(bào)，2000,14(6):33-39.

[3] 馮志偉. 中國語料庫研究的歷史與現(xiàn)狀[J].Journal of Chinese Language and Computing,2002,11(2):127-136.

[4] Resnik,p. and N.A.Smith..The web as a Parallel Corpus[J].Comoutational Linguistics,2003, volume 29: 349-380.

[5] 葉莎妮, 呂雅娟, 黃赟,等. 基于Web的雙語平行句對自動(dòng)獲取[J]. 中文信息學(xué)報(bào)，2008,22(5):67-73.

[6] Lei Shi, Cheng Niu, Ming Zhou,,et al.A DOM Tree Alignment Model for Mining Parallel Data from the Web[C]//Joint Pro-ceedings of the Association for Computational Linguistics and the International Conference on Computational Linguistics, Sydney, Australia,2006: 489-496.

[7] Lei Shi, Ming Zhou: Improved Sentence Alignment on Parallel Web Pages Using a Stochastic Tree Alignment Model[C]//EMNLP,2008: 505-513.

[8] Long Jiang,Shiquan Yang,Ming Zhou,et al.Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing,2009: 870-878.

[9] 林政，呂雅娟，劉群,等. 基于雙語混和網(wǎng)頁的平行語料挖掘[C]//全國第十屆計(jì)算語言學(xué)會(huì)，煙臺，2009: 352-357.

[10] 劉非凡，趙軍，徐波. 大規(guī)模非限定領(lǐng)域漢英雙語語料庫建設(shè)及句子對齊研究[C]//全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議，哈爾濱，2003: 339-345.

[11] Gale, William A. Kenneth W. Church. A program for aligning sentences in Bilingual corpora[J]. Computational Linguistics,1993, 19 : 75-102.

[12] Stanley F.Chen.Aligning Sentences in Bilingual Corpora Using Lexical Information[C]//Proceedings of the 31stAnnual Meeting of the Association for Computational Linguaistics,1993:9-16.

[13] DeKai Wu.Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria[C]//Proceedings of the 32ndAnnual Conference of the Association for Computational Linguaistics,1994: 80-87.

[14] T.Utsuro,H.Ikeda.Bilingual Text Matching using Bilingual Dictionary and Statistics[C]//15thCOLING,1994: 1076-1082.

[15] 張艷，柏岡秀紀(jì). 基于長度的擴(kuò)展方法的漢英句子對齊[J]. 中文信息學(xué)報(bào)，2005,19(5):31-36.

[16] Kishore Papineni, Salim Roukos, Todd Ward, et al. BLEU: A Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 311-318.