姚 亮,洪 宇,劉 昊,劉 樂,姚建民
(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
基于翻譯模型和語言模型相融合的雙語句對(duì)選擇方法
姚 亮,洪 宇,劉 昊,劉 樂,姚建民
(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
雙語句對(duì)選擇方法旨在從大規(guī)模通用領(lǐng)域雙語語料庫中,自動(dòng)抽取與待翻譯文本領(lǐng)域相關(guān)性較高的句對(duì),以緩解特定領(lǐng)域翻譯模型訓(xùn)練語料不足的問題。區(qū)別于原有基于語言模型的雙語句對(duì)選擇方法,該文從句對(duì)生成式建模的角度出發(fā),提出一種基于翻譯模型和語言模型相融合的雙語句對(duì)選擇方法。該方法能夠有效評(píng)價(jià)雙語句對(duì)的領(lǐng)域相關(guān)性及互譯性。實(shí)驗(yàn)結(jié)果顯示,利用該文所提方法選擇雙語句對(duì)訓(xùn)練所得翻譯系統(tǒng),相比于基準(zhǔn)系統(tǒng),在測試集上性能提升3.5個(gè)BLEU值;此外,針對(duì)不同句對(duì)質(zhì)量評(píng)價(jià)特征之間的權(quán)重調(diào)節(jié)問題,該文提出一種基于句對(duì)重排序的特征權(quán)重自動(dòng)優(yōu)化方法?;谠摲椒ǖ臋C(jī)器翻譯系統(tǒng)性能繼續(xù)提升0.68個(gè)BLEU值。
雙語句對(duì)選擇;生成式建模;翻譯模型;語言模型;權(quán)重調(diào)節(jié)
面向特定領(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT)系統(tǒng)依賴于充分規(guī)模且質(zhì)量較好的目標(biāo)領(lǐng)域雙語語料,當(dāng)訓(xùn)練語料和測試文本的領(lǐng)域分布不一致時(shí),翻譯系統(tǒng)的性能往往較低。原因在于,特定領(lǐng)域中包含較多的專業(yè)術(shù)語,但從其他領(lǐng)域的訓(xùn)練數(shù)據(jù)中無法獲得這類專業(yè)術(shù)語的有效翻譯知識(shí)。例如,給定待翻譯句子 “Youhavetosubmityourapplicationtothewebbeforedeadline.”,如果訓(xùn)練數(shù)據(jù)屬于教育領(lǐng)域,機(jī)器翻譯系統(tǒng)很大程度上會(huì)將“application”譯為“申請(qǐng)”;反之,若訓(xùn)練數(shù)據(jù)屬于計(jì)算機(jī)領(lǐng)域,那么機(jī)器翻譯系統(tǒng)則傾向于將“application”譯為“應(yīng)用程序”。另一方面,在特定領(lǐng)域中,句子的表述方式和語言風(fēng)格也與其他領(lǐng)域有著巨大差異。例如,待翻譯句子為: “我 感到 很熱”。若訓(xùn)練語料來自口語領(lǐng)域,則機(jī)器翻譯系統(tǒng)會(huì)傾向于譯文“Ifeelsohot”;反之,若訓(xùn)練語料來自專業(yè)文學(xué)領(lǐng)域,那么機(jī)器翻譯系統(tǒng)將傾向于譯文“I’mburningup”。
針對(duì)上述機(jī)器翻譯中的領(lǐng)域適應(yīng)性問題,現(xiàn)有研究方法大致分為三類: 1)基于Web自動(dòng)獲取特定領(lǐng)域雙語語料[1-3]; 2)基于翻譯模型特征優(yōu)化的機(jī)器翻譯領(lǐng)域適應(yīng)性研究[4-6]; 3)基于句對(duì)選擇的機(jī)器翻譯領(lǐng)域適應(yīng)性研究[7-13]。其中,基于句對(duì)選擇的機(jī)器翻譯領(lǐng)域適應(yīng)性研究方法,旨在從大規(guī)模通用領(lǐng)域雙語語料中選擇與待翻譯文本領(lǐng)域相關(guān)性較高的句對(duì),用以提升訓(xùn)練集中特定領(lǐng)域翻譯知識(shí)的含量,或構(gòu)建專屬的領(lǐng)域雙語知識(shí)庫,并最終用于訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng)?,F(xiàn)有基于句對(duì)選擇的機(jī)器翻譯領(lǐng)域適應(yīng)性研究方法,多從判別模型的角度出發(fā),利用語言模型困惑度估計(jì)雙語句對(duì)屬于目標(biāo)領(lǐng)域的概率。此類方法主要考慮句對(duì)的領(lǐng)域相關(guān)性,忽略了句對(duì)在目標(biāo)領(lǐng)域的互譯性。例如,如下基于語言模型方法抽取的雙語句對(duì)樣例: “ifismoke?”,“你 是否 介意 ?”該句對(duì)的源端和目標(biāo)端句子均來自口語領(lǐng)域,但句對(duì)的互譯質(zhì)量較差,難以為訓(xùn)練翻譯模型提供有效的翻譯知識(shí)。此外,針對(duì)句對(duì)選擇方法中使用的各種語言特征或統(tǒng)計(jì)特征,現(xiàn)有方法通常基于人工經(jīng)驗(yàn)調(diào)節(jié)它們的權(quán)重。基于人工先驗(yàn)知識(shí)的參數(shù)調(diào)節(jié)方法,效率較低,且難以獲得最優(yōu)值。
針對(duì)上述研究問題,本文提出一種語言模型和翻譯模型相融合的特定領(lǐng)域雙語句對(duì)選擇方法。該方法首先利用目標(biāo)領(lǐng)域語言模型評(píng)價(jià)源語言句子的領(lǐng)域相關(guān)性;其次,利用領(lǐng)域內(nèi)語料訓(xùn)練的翻譯模型評(píng)價(jià)目標(biāo)領(lǐng)域下雙語句對(duì)的互譯性,并融合二者得分獲取雙語句對(duì)在目標(biāo)領(lǐng)域下的生成概率;最終,得分較高的雙語句對(duì)將會(huì)被優(yōu)先選擇,用以擴(kuò)充特定領(lǐng)域訓(xùn)練集。此外,本文進(jìn)一步融合不同方向的語言模型特征或翻譯模型特征,用于選擇領(lǐng)域相關(guān)的雙語句對(duì),并提出一種基于句對(duì)重排序的特征權(quán)重自動(dòng)優(yōu)化方法。該方法首先標(biāo)注一部分來自目標(biāo)領(lǐng)域且互譯質(zhì)量較好的句對(duì),并利用啟發(fā)式搜索策略自動(dòng)調(diào)節(jié)不同特征之間的權(quán)重,最終使得人工標(biāo)注的雙語句對(duì)在全部句對(duì)中的排序盡量靠前。實(shí)驗(yàn)中,利用本文方法選擇雙語句對(duì)訓(xùn)練獲得的機(jī)器翻譯系統(tǒng),相比于基準(zhǔn)系統(tǒng),在測試集上BLEU值提升3.5個(gè)百分點(diǎn)。此外,利用基于句對(duì)重排序的模型權(quán)重優(yōu)化方法優(yōu)化權(quán)重后所得翻譯系統(tǒng),BLEU值進(jìn)一步提升0.68個(gè)百分點(diǎn)。
本文章節(jié)組織如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)提出面向特定領(lǐng)域的雙語句對(duì)選擇方法;第四節(jié)提出基于句對(duì)重排序的特征權(quán)重自動(dòng)優(yōu)化方法;第五節(jié)給出實(shí)驗(yàn)結(jié)果和分析;第六節(jié)總結(jié)工作并提出未來展望。
基于句對(duì)選擇的機(jī)器翻譯領(lǐng)域適應(yīng)性相關(guān)工作主要可分為以下兩類。
1) 基于Web自動(dòng)獲取特定領(lǐng)域雙語語料。Pecina等[1]提出基于聚焦爬蟲自動(dòng)獲取特定領(lǐng)域雙語語料的方法,該方法利用聚焦爬蟲計(jì)算網(wǎng)頁與目標(biāo)領(lǐng)域相關(guān)性,并基于預(yù)先設(shè)定閾值對(duì)網(wǎng)頁進(jìn)行二值分類,最終在目標(biāo)領(lǐng)域網(wǎng)頁中抽取雙語平行文本。劉昊等[2]提出一種基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識(shí)別方法。該方法首先利用目標(biāo)領(lǐng)域雙語短語對(duì)構(gòu)造查詢,并基于搜索引擎的返回結(jié)果獲取候選領(lǐng)域雙語網(wǎng)站。其次,該方法融合領(lǐng)域性特征和雙語網(wǎng)站結(jié)構(gòu)特征,構(gòu)造二元分類器,用以過濾非目標(biāo)領(lǐng)域的候選雙語網(wǎng)站。最終從候選雙語網(wǎng)站中抽取雙語句對(duì)。然而,Rarrick等[3]指出從Web自動(dòng)獲取的雙語網(wǎng)站中抽取的雙語句對(duì)的質(zhì)量千差萬別,利用質(zhì)量較差的雙語句對(duì)不但不能提升翻譯性能,反而引入更多的噪聲和錯(cuò)誤。因此,利用該方法獲取的特定領(lǐng)域雙語語料仍需進(jìn)一步的篩選和分類。
2) 基于雙語句對(duì)選擇的機(jī)器翻譯領(lǐng)域適應(yīng)性研究。該方法旨在從大規(guī)模本地平行語料庫中自動(dòng)抽取與測試集領(lǐng)域相關(guān)的句對(duì),用以訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng)。Lü等[7],黃瑾等[8]提出一種基于信息檢索的雙語句對(duì)選擇方法,該方法利用測試集句子作為查詢,從通用語料庫中檢索與測試集語料較為相關(guān)的句對(duì)。Yasuda等[9]提出基于目標(biāo)領(lǐng)域語言模型困惑度評(píng)價(jià)并選取雙語句對(duì)的方法。Moore等[10],Axelrod等[11]分別利用目標(biāo)領(lǐng)域和通用領(lǐng)域語言模型計(jì)算句子的交叉熵得分,并基于交叉熵的差值選擇句對(duì)。Haddow等[12]同樣利用語言模型困惑度評(píng)價(jià)通用領(lǐng)域句對(duì)的領(lǐng)域相關(guān)性,并將選擇的雙語句對(duì)運(yùn)用于翻譯系統(tǒng)的詞對(duì)齊、短語抽取以及短語打分等階段,以評(píng)價(jià)其對(duì)翻譯性能的影響。Duh等[13]繼承Axelrod等[11]的方法,并利用神經(jīng)網(wǎng)絡(luò)語言模型計(jì)算交叉熵,以緩解n元文法語言模型存在的數(shù)據(jù)稀疏問題;此外,針對(duì)通用翻譯系統(tǒng)中的雙語句對(duì)選擇問題,姚書杰等[14]提出一種基于句對(duì)質(zhì)量和覆蓋度的雙語句對(duì)選擇方法,該方法基于人工設(shè)定的權(quán)重融合多種特征得分評(píng)價(jià)句對(duì)質(zhì)量,選擇得分較高的句對(duì),并基于N-gram覆蓋度進(jìn)一步過濾冗余的句對(duì)。王星等[15]提出一種基于分類的平行語料選擇方法,通過少數(shù)句對(duì)特征構(gòu)造差異較大的分類器,以區(qū)分雙語句對(duì)的質(zhì)量。上述基于雙語句對(duì)選擇的機(jī)器翻譯領(lǐng)域適應(yīng)性研究方法,雖然取得較好的效果,但仍存在以下不足。首先,該類方法僅考慮句對(duì)的領(lǐng)域相關(guān)性,但忽略句對(duì)在目標(biāo)領(lǐng)域中的互譯性。因此,利用此類方法選擇的雙語句對(duì),其互譯質(zhì)量可能較差,從而為后續(xù)翻譯模型的訓(xùn)練帶來噪聲。其次,現(xiàn)有研究方法中不同句對(duì)質(zhì)量評(píng)價(jià)特征之間的權(quán)重依賴于人工經(jīng)驗(yàn)調(diào)節(jié),無法獲得最佳性能。
基于此,本文提出一種翻譯模型和語言模型相結(jié)合的雙語句對(duì)選擇方法。該方法既考慮句對(duì)與目標(biāo)領(lǐng)域的相關(guān)性,又兼顧領(lǐng)域相關(guān)句對(duì)的互譯質(zhì)量,從而有效地提升了選擇句對(duì)的質(zhì)量;其次,本文進(jìn)一步提出一種基于句對(duì)重排序的特征權(quán)重自動(dòng)優(yōu)化方法,規(guī)避了基于人工經(jīng)驗(yàn)設(shè)定權(quán)重的句對(duì)選擇結(jié)果的影響。
本文從句對(duì)生成式建模的角度出發(fā),融合目標(biāo)領(lǐng)域語言模型和翻譯模型,用以評(píng)價(jià)雙語句對(duì)質(zhì)量(即領(lǐng)域相關(guān)性和互譯性)。分別提出基于翻譯模型、基于翻譯模型和語言模型相結(jié)合、基于雙向翻譯模型和語言模型的三種具體句對(duì)選擇方法,用以從大規(guī)模通用領(lǐng)域雙語語料中選擇與目標(biāo)領(lǐng)域相關(guān)的句對(duì)。
3.1 基于翻譯模型的句對(duì)選擇方法
翻譯模型是統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的核心組成部分,通常用于評(píng)價(jià)句對(duì)(或短語對(duì))的互譯概率。本文提出一種基于IBM Model 1[16]的句對(duì)質(zhì)量評(píng)價(jià)方法。該方法首先利用小規(guī)模目標(biāo)領(lǐng)域雙語語料統(tǒng)計(jì)單詞之間共現(xiàn)頻率,用以獲取IBM Model 1中的詞匯翻譯模型;其次,利用獲得的基于詞的翻譯模型對(duì)大規(guī)模通用領(lǐng)域雙語句對(duì)打分;最終,基于雙語句對(duì)得分對(duì)全部句對(duì)進(jìn)行排序,并從中選擇排序靠前的雙語句對(duì)子集。
基于上述方法,本文基于IBM Model 1評(píng)價(jià)雙語句對(duì)質(zhì)量,具體如式(1)、式(2)所示。
其中,P(e|f)表示利用IBM Model 1詞翻譯模型計(jì)算獲得的源語言句子f翻譯成目標(biāo)語言句子e的條件概率。t(ej|fi)表示單詞fi翻譯成單詞ej的條件概率,利用目標(biāo)領(lǐng)域雙語語料統(tǒng)計(jì)信息估計(jì)得到。lf和le分別表示源語言和目標(biāo)語言句子長度,∈表示歸一化常量,由于它不影響句對(duì)排序結(jié)果,因此此處將其賦值為1。R表示長度歸一化的IBM Model 1翻譯概率,用于評(píng)價(jià)通用領(lǐng)域句對(duì)的質(zhì)量。
3.2 融合翻譯模型和語言模型的句對(duì)選擇方法
本文從生成式建模角度出發(fā),估計(jì)在目標(biāo)領(lǐng)域下雙語句對(duì)的生成概率,并基于此排序和選擇領(lǐng)域相關(guān)的雙語句對(duì)。本文首先利用目標(biāo)領(lǐng)域單語語料訓(xùn)練n元文法語言模型,并依據(jù)語言模型困惑度得分評(píng)價(jià)源語言句子的領(lǐng)域性;其次,利用目標(biāo)領(lǐng)域雙語語料統(tǒng)計(jì)單詞之間的共現(xiàn)頻率,用以估計(jì)IBM Model 1翻譯模型參數(shù),進(jìn)而獲得句對(duì)在該領(lǐng)域下的互譯概率;最終,從生成式建模的角度出發(fā),融合語言模型和翻譯模型得分,用以評(píng)價(jià)雙語句對(duì)在目標(biāo)領(lǐng)域下的生成概率。具體如式(3)、式(4)所示。
其中,P(e|f)表示句對(duì)
3.3 融合雙向翻譯模型與語言模型的句對(duì)選擇方法
本文3.2節(jié)提出從生成式建模角度出發(fā),融合語言模型和翻譯模型評(píng)價(jià)雙語句對(duì)的質(zhì)量。但是,該方法僅利用源端語言模型和源端到目標(biāo)端翻譯模型評(píng)價(jià)句對(duì)的質(zhì)量。基于此,本文進(jìn)一步利用目標(biāo)端語言模型和目標(biāo)端到源端翻譯模型評(píng)估句對(duì)的生成概率。進(jìn)而整合不同方向的領(lǐng)域特征,對(duì)雙語句對(duì)質(zhì)量進(jìn)行綜合評(píng)價(jià)。其次,由于面向不同語言翻譯任務(wù)時(shí)(例如,英—漢或漢—英),不同方向的領(lǐng)域特征對(duì)句對(duì)質(zhì)量評(píng)價(jià)的重要程度不同,本文為它們分別設(shè)置不同的權(quán)值。具體如式(5)所示。
(5)
其中,R表示融合不同方向領(lǐng)域特征評(píng)價(jià)句對(duì)質(zhì)量的模型。λ1和λ2分別表示不同方向領(lǐng)域特征的權(quán)值,利用下文所提特征權(quán)重優(yōu)化方法獲得。
本文提出一種基于句對(duì)重排序思想自動(dòng)優(yōu)化不同領(lǐng)域特征權(quán)重的方法,該方法核心思想如下: 首先,在目標(biāo)領(lǐng)域訓(xùn)練語料中人工標(biāo)注一部分領(lǐng)域相關(guān)性高、對(duì)齊質(zhì)量較好的句對(duì)(規(guī)模為: n對(duì)),并與大規(guī)模通用領(lǐng)域平行句對(duì)(規(guī)模為: m對(duì))合并;其次,利用式(5)中的雙語句對(duì)選擇方法對(duì)全部句對(duì)(規(guī)模為: m+n對(duì))打分并排序;最終,通過啟發(fā)式的搜索算法,尋找最優(yōu)特征權(quán)重,使得人工標(biāo)注質(zhì)量較好的句對(duì)在全部句對(duì)中排序位置盡量靠前。
上述方法的關(guān)鍵是通過調(diào)節(jié)特征權(quán)重對(duì)全部句對(duì)進(jìn)行重排序,使得人工標(biāo)注句對(duì)的排序位置盡量靠前,因此需要定量表示不同權(quán)重下的排序結(jié)果。本文類比信息檢索中相關(guān)文檔的平均準(zhǔn)確率MAP(Mean Average Precision)[17],定義人工標(biāo)注句對(duì)的平均準(zhǔn)確率,用以量化表示句對(duì)的排序結(jié)果。相關(guān)文檔的平均準(zhǔn)確率是指,檢索返回結(jié)果中每篇相關(guān)文檔位置上的準(zhǔn)確率均值。平均準(zhǔn)確率越高,相關(guān)文檔的排序位置越靠前,檢索性能也越好。相關(guān)文檔的平均準(zhǔn)確率定義如式(6)所示。
(6)
其中n表示相關(guān)文檔總數(shù),posi表示第i個(gè)相關(guān)文檔的排序位置,ri表示前posi個(gè)排序結(jié)果中相關(guān)文檔的數(shù)目。
本文首先將人工標(biāo)注的雙語句對(duì)類比成信息檢索中的相關(guān)文檔,將其他來自通用領(lǐng)域的雙語句對(duì)類比成信息檢索中的不相關(guān)文檔,并利用式(6)計(jì)算人工標(biāo)注句對(duì)的平均準(zhǔn)確率。顯然,人工標(biāo)注句對(duì)的平均準(zhǔn)確率越高,其排序位置越靠前。其次,利用人工標(biāo)注的雙語句對(duì)作為參照,通過自動(dòng)調(diào)節(jié)不同方向領(lǐng)域特征的權(quán)重,使得人工標(biāo)注句對(duì)的平均準(zhǔn)確率不斷提升,即使得它們的排序位置盡量靠前。由于人工標(biāo)注句對(duì)來自于目標(biāo)領(lǐng)域且對(duì)齊質(zhì)量較好。因此,優(yōu)化特征權(quán)重后的句對(duì)選擇方法會(huì)傾向于選擇類似的雙語句對(duì),即與目標(biāo)領(lǐng)域比較相關(guān)同時(shí)互譯性較好的雙語句對(duì)。
基于上述思想,本文提出基于句對(duì)重排序的特征權(quán)重搜索算法,該算法基于人工標(biāo)注句對(duì)的平均準(zhǔn)確率,定義錯(cuò)誤率指標(biāo)err,用以評(píng)價(jià)人工標(biāo)注句對(duì)的排序情況。錯(cuò)誤率指標(biāo)的定義如式(7)所示。
(7)
本文提出的基于句對(duì)重排序的特征權(quán)重搜索算法屬于迭代算法,算法的具體描述如表1所示。
表1 基于句對(duì)重排序的特征權(quán)重搜索算法
基于上述算法,本文獲取不同方向領(lǐng)域特征的權(quán)重,進(jìn)而對(duì)通用領(lǐng)域的雙語句對(duì)進(jìn)行打分和排序,最終選擇排序靠前的TopN雙語句對(duì)子集用以擴(kuò)充目標(biāo)領(lǐng)域翻譯系統(tǒng)訓(xùn)練集。
5.1 語料配置
本文實(shí)驗(yàn)面向口語領(lǐng)域翻譯任務(wù),目標(biāo)領(lǐng)域語料采用CWMT09官方提供的旅游口語平行語料(規(guī)模為: 50k句);通用領(lǐng)域語料為利用Liu等[18]所提基于鏈接的平行網(wǎng)頁對(duì)識(shí)別方法,在Web中自動(dòng)獲取所得平行語料(規(guī)模為: 16m),該語料領(lǐng)域分布較為混雜。所有語料配置具體如表2所示。
表2 語料統(tǒng)計(jì)信息
本文實(shí)驗(yàn)使用NiuTrans[19]機(jī)器翻譯引擎搭建口語領(lǐng)域英到漢的層次短語翻譯系統(tǒng),系統(tǒng)的語料配置如下。
? 翻譯模型訓(xùn)練語料是利用本文所提雙語句對(duì)選擇方法從通用領(lǐng)域平行語料中選擇所得TopN句對(duì)子集;
? 語言模型訓(xùn)練語料取自本地漢語單語語料(規(guī)模為: 1 350k句);
? 翻譯系統(tǒng)的開發(fā)集使用2005年“863”口語翻譯任務(wù)的開發(fā)集,包含456英文句子和對(duì)應(yīng)四個(gè)中文翻譯結(jié)果;
? 翻譯系統(tǒng)的測試集使用2004年“863”口語翻譯任務(wù)的測試集,包含400個(gè)英文句子和四個(gè)中文翻譯結(jié)果。
5.2 系統(tǒng)設(shè)置
本文實(shí)驗(yàn)采用NiuTrans[19]開源機(jī)器翻譯系統(tǒng),該系統(tǒng)融合GIZA++[20]工具實(shí)現(xiàn)雙語句對(duì)詞對(duì)齊,并從詞對(duì)齊的平行句對(duì)中抽取層次短語翻譯規(guī)則。針對(duì)雙語句對(duì)選擇任務(wù),本文采用SRILM工具[21]獲取目標(biāo)領(lǐng)域4-gram語言模型,用以估計(jì)通用領(lǐng)域雙語句對(duì)與目標(biāo)領(lǐng)域的相關(guān)性。同時(shí),本文借助小規(guī)模目標(biāo)領(lǐng)域平行語料的詞對(duì)齊信息,獲取該領(lǐng)域詞匯翻譯概率表,用以估計(jì)特定領(lǐng)域下雙語句對(duì)的互譯概率。
本文搭建口語領(lǐng)域英語到漢語層次短語翻譯系統(tǒng),該系統(tǒng)基于最小錯(cuò)誤率訓(xùn)練方法[22]優(yōu)化翻譯系統(tǒng)權(quán)重,并采用BLEU[23]值作為評(píng)價(jià)指標(biāo)。本文設(shè)置如下八個(gè)翻譯系統(tǒng),以驗(yàn)證本文所提方法的有效性。
Baseline1: 利用通用領(lǐng)域16m句對(duì)訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
Baseline2: 利用CWMT口語領(lǐng)域約50k句對(duì)訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
Baseline3: 從通用領(lǐng)域中隨機(jī)抽取50k句對(duì)訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
Lv_2007: 利用Lü等[7]提出的基于信息檢索的句對(duì)選擇方法,從通用領(lǐng)域句對(duì)中選擇TopN句對(duì)子集訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
Duh_2013: 利用Duh等[13]方法,從通用領(lǐng)域句對(duì)中選擇TopN句對(duì)子集訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
TM: 利用本文所提基于翻譯模型的方法,從通用領(lǐng)域中選擇TopN句對(duì)子集訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
TM_LM: 利用本文所提融合翻譯模型和語言模型的方法,從通用領(lǐng)域中選擇TopN句對(duì)子集訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
Bidirectional TM+LM: 將不同方向翻譯模型和語言模型的特征權(quán)重均設(shè)為0.5,用以評(píng)價(jià)通用領(lǐng)域句對(duì)質(zhì)量,并選擇TopN句對(duì)子集訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
Tune_Bi_TM+LM: 利用本文所提特征權(quán)重優(yōu)化方法調(diào)節(jié)不同方向領(lǐng)域特征的權(quán)重,并基于此評(píng)價(jià)通用領(lǐng)域句對(duì)質(zhì)量,選擇TopN句對(duì)子集訓(xùn)練翻譯模型,所得機(jī)器翻譯系統(tǒng)。
5.3 實(shí)驗(yàn)結(jié)果及分析
? 基線系統(tǒng)
本文構(gòu)建的基線系統(tǒng)性能如表3所示。Baseline1,Baseline2,Baseline3語言模型均采用本地漢語單語語料訓(xùn)練(規(guī)模為: 1 350k句)。
表3 Baseline系統(tǒng)翻譯性能
實(shí)驗(yàn)結(jié)果表明,利用大規(guī)模通用領(lǐng)域平行語料訓(xùn)練的翻譯系統(tǒng)(Baseline1)相比利用目標(biāo)領(lǐng)域平行語料訓(xùn)練的翻譯系統(tǒng)(Baseline2),在相同的測試集上BLEU值提升了12個(gè)百分點(diǎn)。原因在于,大規(guī)模通用領(lǐng)域平行語料覆蓋更多的翻譯知識(shí)和語言現(xiàn)象;而特定領(lǐng)域平行語料由于規(guī)模較小,容易發(fā)生數(shù)據(jù)稀疏問題,從而導(dǎo)致翻譯系統(tǒng)的性能較低。另外,從通用領(lǐng)域中隨機(jī)抽取與Baseline2等規(guī)模的雙語句對(duì)訓(xùn)練所得翻譯系統(tǒng)(Baseline3)的性能明顯低于Baseline2。這一現(xiàn)象說明,與待翻譯文本領(lǐng)域一致的訓(xùn)練語料要優(yōu)于領(lǐng)域相對(duì)混雜的訓(xùn)練語料。原因在于,特定領(lǐng)域中存在較多的專業(yè)術(shù)語以及較為獨(dú)特的語言表達(dá)方式,從其他領(lǐng)域的雙語語料中難以有效學(xué)習(xí)這類專業(yè)用語或語言現(xiàn)象的翻譯知識(shí)。綜上所述,本文從通用領(lǐng)域雙語語料中抽取與待翻譯文本領(lǐng)域一致的訓(xùn)練語料,用以擴(kuò)充目標(biāo)領(lǐng)域翻譯系統(tǒng)訓(xùn)練集,是切實(shí)可行的。
? 雙語句對(duì)選擇方法
實(shí)驗(yàn)利用本文所提特定領(lǐng)域雙語句對(duì)選擇方法,對(duì)通用領(lǐng)域的平行句對(duì)打分并排序,依次選取排序Top N={50k,100k,200k,400k,600k,800k,1000k}的句對(duì)子集訓(xùn)練目標(biāo)領(lǐng)域機(jī)器翻譯系統(tǒng)。系統(tǒng)在測試集上的實(shí)驗(yàn)性能如圖1所示。
圖1 機(jī)器翻譯系統(tǒng)性能
圖1為利用所提方法從通用領(lǐng)域選擇排序TopN句對(duì)訓(xùn)練獲得機(jī)器翻譯系統(tǒng)的性能。其中,橫坐標(biāo)表示選取句對(duì)的規(guī)模(單位為: 1k),縱坐標(biāo)表示訓(xùn)練獲取機(jī)器翻譯系統(tǒng)的BLEU值。
實(shí)驗(yàn)結(jié)果表明,本文提出的雙語句對(duì)選擇方法對(duì)改善特定領(lǐng)域機(jī)器翻譯性能是有效的。當(dāng)僅從通用領(lǐng)域平行語料中選擇Top400k的句對(duì)子集訓(xùn)練機(jī)器翻譯系統(tǒng)時(shí),系統(tǒng)在測試集上的性能優(yōu)于使用全部的通用領(lǐng)域平行語料(規(guī)模為: 16m)。這一現(xiàn)象說明,機(jī)器翻譯系統(tǒng)訓(xùn)練語料的規(guī)模并非越大越好。原因在于,通用領(lǐng)域平行語料庫中包含各個(gè)領(lǐng)域的訓(xùn)練數(shù)據(jù),利用其抽取的翻譯規(guī)則中可能存在較多的噪聲,導(dǎo)致翻譯系統(tǒng)難以有效地選取適合目標(biāo)領(lǐng)域的翻譯結(jié)果。因此訓(xùn)練語料規(guī)模增大時(shí),翻譯性能反而下降。此外,實(shí)驗(yàn)結(jié)果表明,當(dāng)目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)相對(duì)較少時(shí),從通用領(lǐng)域平行語料匯總選擇領(lǐng)域相關(guān)較高的句對(duì)有助于提升機(jī)器翻譯系統(tǒng)的性能。
面向口語領(lǐng)域翻譯任務(wù)時(shí),相比使用通用領(lǐng)域語料訓(xùn)練的Baseline1系統(tǒng),TM方法僅選擇Top800k句對(duì)子集,但在測試集上的性能提升了3個(gè)百分點(diǎn);同時(shí),TM+LM和Bidirectional TM+LM方法的性能分別提升了3.52和3.5個(gè)百分點(diǎn)。相比主流的基于語言模型的句對(duì)選擇方法Duh_2013,TM方法在測試集上性能提升0.87個(gè)百分點(diǎn);同時(shí),TM+LM和Birectional TM+LM方法的性能分別提升了1.32和1.3個(gè)百分點(diǎn)。相比基于信息檢索的句對(duì)選擇方法Lü_2007,TM方法在測試集上提升1.2個(gè)百分點(diǎn);同時(shí),TM+LM和Birectional TM+LM方法的性能分別提升了1.65和1.63個(gè)百分點(diǎn)。雖然,如圖1所示,本文所提方法的在測試集上的性能并非一直優(yōu)于現(xiàn)有方法,但本文方法在整體上有著顯著的優(yōu)勢。這表明,融合翻譯模型和語言模型的雙語句對(duì)選擇方法,相比現(xiàn)有雙語句對(duì)選擇方法,能有效地提升選擇雙語句對(duì)的質(zhì)量。原因在于,通過融合翻譯模型和語言模型等領(lǐng)域特征,本文所提方法既能保證雙語句對(duì)的領(lǐng)域相關(guān)性,又能有效地保證選取的雙語句對(duì)具有較好的互譯性。此外,Birectional TM+LM方法同時(shí)兼顧了源語言句子和目標(biāo)語言句子的質(zhì)量。
實(shí)驗(yàn)結(jié)果還表明,相比Birectional TM+LM方法,優(yōu)化模型權(quán)重后的Tune_Bi_TM+LM方法,在測試集上的性能進(jìn)一步提升0.68個(gè)百分點(diǎn),且優(yōu)于本文其他方法。原因在于,利用雙向翻譯模型和語言模型選擇雙語句對(duì),能夠解決由于詞匯翻譯概率估計(jì)偏差導(dǎo)致某些質(zhì)量較差的句對(duì)得分較高的問題。在合理設(shè)置不同方向權(quán)重的情況下,本文方法能夠有效地減少這種錯(cuò)誤,從而保證選擇的句對(duì)質(zhì)量較優(yōu),最終有利于提升翻譯系統(tǒng)的性能。
本文提出翻譯模型和語言模型相融合的雙語句對(duì)選擇方法。相比于基準(zhǔn)系統(tǒng),利用本文所提方法選擇句對(duì)訓(xùn)練所得特定領(lǐng)域機(jī)器翻譯系統(tǒng),在測試集上BLEU值提升了3.5個(gè)百分點(diǎn)。此外,本文進(jìn)一步提出基于句對(duì)重排序的特征權(quán)重優(yōu)化方法,利用該方法優(yōu)化后的系統(tǒng),在測試集上BLEU值進(jìn)一步提升0.68個(gè)百分點(diǎn)。
在未來工作中,本文嘗試提出更多有效的領(lǐng)域特征用以選擇特定領(lǐng)域雙語句對(duì)。另外,本文方法僅從統(tǒng)計(jì)角度,通過融合翻譯模型和語言模型特征得分選擇雙語句對(duì),忽略了句對(duì)本身蘊(yùn)涵的語義信息。因此,未來工作中可進(jìn)一步融合句對(duì)的語義信息,如采用主題模型或神經(jīng)網(wǎng)絡(luò)等方法評(píng)價(jià)和選擇雙語句對(duì)。
[1] Pavel P, Antonio T, Andy W, et al. Towards using web-crawled data for domain adaptation in statistical machine translation[C]//Proceedings of the 15th Annual Conference of the European Association for Machine Translation.2011: 297-304.
[2] 劉昊, 洪宇, 劉樂等. 基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識(shí)別方法[C]. 第二十屆全國信息檢索學(xué)術(shù)會(huì)議(CCIR). KunMing, China, 2014.
[3] SpencerRarrick, Chris Quirk, Will Lewis. MT detection in web-scraped parallel corpora[C]//Proceedings of the Machine Translation Summit.2011: 422-429.
[4] Su J, Wu H, Wang H, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2012: 459-468.
[5] Foster G,Goutte C, Kuhn R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 451-459.
[6] Sennrich R, Schwenk H, Aransa W. A Multi-Domain Translation Model Framework for Statistical Machine Translation[C]//Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics.2013: 832-840.
[7] Lü, Yajuan, Jin H, Qun L. Improving Statistical Machine Translation Performance by Training Data Selection and Optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational, 2007: 343-350.
[8] 黃瑾, 呂雅娟, 劉群. 基于信息檢索方法的統(tǒng)計(jì)翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J]. 中文信息學(xué)報(bào), 2008, 22(2): 40-46.
[9] Yasuda K, Zhang R, Yamamoto H, et al. Method of Selecting Training Data to Build a Compact and Efficient Translation Model[C]//Proceedings of the IJCNLP.2008: 655-660.
[10] Moore R C, Lewis W. Intelligent selection of language model training data[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 220-224.
[11] Axelrod A, He X,Gao J. Domain adaptation via pseudo in-domain data selection[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 355-362.
[12] Haddow B, Philipp K. Analysing the effect of out-of-domain data on SMT systems[C]//Proceedings of the Seventh Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2012: 422-432.
[13] Duh K,Neubig G, Sudoh K, et al. Adaptation Data Selection using Neural Language Models: Experiments in Machine Translation[C]//Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics.2013: 678-683.
[14] 姚樹杰, 肖桐, 朱靖波. 基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語料選取[J]. 中文信息學(xué)報(bào), 2011, 25(2): 72-77.
[15] 王星, 涂兆鵬, 謝軍, 等. 一種基于分類的平行語料選擇方法[J]. 中文信息學(xué)報(bào), 2013, 27(6): 144-150.
[16] Brown P F,Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Parameter estimation [J]. Computational linguistics, 1993, 19(2): 263-311.
[17] Buckley C, Voorhees E M. Evaluating evaluation measure stability[C]//Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2000: 33-40.
[18] Liu L, Hong Y, Lu J, et al. An Iterative Link-based Method for Parallel Web Page Mining [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.2014: 1216-1233.
[19] Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the ACL 2012 System Demonstrations. Association for Computational Linguistics, 2012: 19-24.
[20] Och F J, Ney H. A systematic comparison of various statistical alignment models [J]. Computational linguistics, 2003, 29(1): 19-51.
[21] Andreas Stolcke. SRILM-an extensible language modeling toolkit[C]//Proceedings of the International Conference on Spoken Language Processing.2002: 901-904.
[22] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2003: 160-167.
[23] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 311-318.
Combining Translation and Language Models for Bilingual Data Selection
YAO Liang, HONG Yu, LIU Hao, LIU Le, YAO Jianmin
(Provincial Key Laboratory of Computer Information Processing Technology Soochow University, Suzhou, Jiangsu 215006,China)
Data Selection aims at selecting sentence pairs most relevant to target domain from large scale general-domain bilingual corpus that are , so as to alleviate the lack of high quality bi-text for statistical machine translation in the domain of interest. Instead of solely using traditional language models, we propose a novel approach combining translation models with language models for data selection from the perspective of generative modeling. The approach can better measure the relevance between sentence pairs and the target domain, as well as the translation probability of sentence pair. Experiments show that the optimized system trained on selected bi-text using our methods outperforms the baseline system trained on general-domain corpus by 3.5 BLEU points. In addition, we present an effective method based on sentence pairs re-ranking to tune the weights of different features which are used for evaluating quality of general domain texts. Machine translation system based on this method achieves further imporvments of 0.68 BLEU points.
bilingual data selection; generative modeling; translation model; language model; weight tuning
姚亮(1993—),碩士,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯,自然語言處理。E?mail:yaoliang310@163.com洪宇(1978—),博士后,副教授,主要研究領(lǐng)域?yàn)樵掝}檢測、信息檢索、和信息抽取。E?mail:tianxianer@gmail.com劉昊(1990—),碩士,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯,自然語言處理。E?mail:liuhao19900412@gmail.com
1003-0077(2016)05-0145-08
2015-07-31 定稿日期: 2016-01-25
國家自然科學(xué)基金(61373097, 61272259, 61272260)
TP391
A