楊玲
(武警工程大學(xué),陜西 西安710086)
把一種語(yǔ)言轉(zhuǎn)變成另一種我們想要的語(yǔ)言這一過(guò)程稱為機(jī)器翻譯[1]。其中比較常用的方法有基于記憶的翻譯方法、基于實(shí)例的翻譯方法、基于統(tǒng)計(jì)的翻譯方法、基于神經(jīng)網(wǎng)絡(luò)的翻譯方法。目前,基于統(tǒng)計(jì)的機(jī)器翻譯模型被稱為這一領(lǐng)域的主流方法,是由Brown[1]等人提出,該模型可分為翻譯模塊、語(yǔ)言模型訓(xùn)練模塊、解碼模塊。在進(jìn)行翻譯模型訓(xùn)練時(shí)需要進(jìn)行詞對(duì)齊,由于統(tǒng)計(jì)機(jī)器翻譯模型在訓(xùn)練詞對(duì)齊模型時(shí)未對(duì)訓(xùn)練集進(jìn)行分類訓(xùn)練,會(huì)影響系統(tǒng)的翻譯性能。因此,本文提出運(yùn)用最大熵分類器及領(lǐng)域自適應(yīng)方法對(duì)統(tǒng)計(jì)機(jī)器翻譯模型進(jìn)行優(yōu)化,旨在進(jìn)一步改善模型的翻譯性能。
傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯方法的系統(tǒng)原理是,用已對(duì)齊好的大規(guī)模平行語(yǔ)料訓(xùn)練詞對(duì)齊模型,然后基于此詞對(duì)齊模型建立翻譯模型和語(yǔ)言模型并訓(xùn)練模型參數(shù)。但是訓(xùn)練模型的平行語(yǔ)料來(lái)自不同領(lǐng)域,有些詞在不同領(lǐng)域意思也不用,這會(huì)影響模型參數(shù)的準(zhǔn)確度,基于此建立起的翻譯模型和語(yǔ)言模型精確度也會(huì)下降,由此得到的譯文不夠準(zhǔn)確。為解決這一問(wèn)題,我們運(yùn)用領(lǐng)域自適應(yīng)方法提高統(tǒng)計(jì)機(jī)器翻譯模型的翻譯精度,即首先應(yīng)用最大熵分類器的方法對(duì)平行語(yǔ)料進(jìn)行篩選,這一步保證了訓(xùn)練詞對(duì)齊模型的語(yǔ)料符合標(biāo)準(zhǔn),從而確保了模型參數(shù)的精確度。接下來(lái)可以運(yùn)用LDA 模型對(duì)雙語(yǔ)平行語(yǔ)料進(jìn)行主題提取,并得到每個(gè)主題對(duì)應(yīng)的語(yǔ)料。然后對(duì)每個(gè)主題訓(xùn)練其相應(yīng)的詞對(duì)齊模型,再訓(xùn)練每個(gè)主題的翻譯模型和語(yǔ)言模型。
語(yǔ)料可以劃分為完全平行句、部分平行句對(duì)和完全不平行句對(duì)。通過(guò)觀察可以發(fā)現(xiàn),高質(zhì)量平行句一般會(huì)呈現(xiàn)很多共性:源語(yǔ)言和目標(biāo)語(yǔ)言互譯準(zhǔn)確、源語(yǔ)言和目標(biāo)語(yǔ)言都比較流暢,基于此特征可以提出使用句對(duì)特征評(píng)價(jià)平行句對(duì)質(zhì)量,利用分類器進(jìn)行自動(dòng)判別句對(duì)質(zhì)量好壞的方法。該過(guò)程可分為兩部分,第一部分是挑選用于訓(xùn)練分類器的正負(fù)例句對(duì),首先確定句對(duì)特征,依據(jù)句對(duì)在各個(gè)特征上的得分對(duì)句對(duì)進(jìn)行排序。綜合各個(gè)排序的結(jié)果,構(gòu)造區(qū)分性較大的訓(xùn)練句對(duì)集合。將那些在各個(gè)特征中表現(xiàn)均不好的句對(duì)作為負(fù)例句對(duì)。余下的句對(duì)為待分類句對(duì),需要訓(xùn)練分類器自動(dòng)分類。第二部分利用前一部分構(gòu)造得到的正負(fù)例句對(duì)集合訓(xùn)練一個(gè)最大熵分類器,通過(guò)學(xué)習(xí)正負(fù)例句對(duì)的特征,分類器可以自動(dòng)地對(duì)句對(duì)進(jìn)行質(zhì)量判定。然后使用該分類器對(duì)第一部分的待分類句對(duì)進(jìn)行自動(dòng)分類。在分類器的選擇上,本文采用最大熵模型作為分類器進(jìn)行分類任務(wù)。
圖1 基于分類的平行語(yǔ)料選擇方法流程圖
統(tǒng)計(jì)機(jī)器翻譯模型需要用到大規(guī)模的雙語(yǔ)平行語(yǔ)料進(jìn)行訓(xùn)練,因此語(yǔ)料的質(zhì)量會(huì)影響模型的翻譯性能。所以需要對(duì)訓(xùn)練語(yǔ)料進(jìn)行篩選,淘汰影響系統(tǒng)翻譯質(zhì)量的語(yǔ)料,保留質(zhì)量較好的語(yǔ)料進(jìn)行訓(xùn)練,這樣可以從源頭上確保系統(tǒng)翻譯質(zhì)量。本節(jié)利用最大熵模型分類器[2]對(duì)待訓(xùn)練語(yǔ)料進(jìn)行分類,語(yǔ)料可以分為完全平行句對(duì)、部分平行句對(duì)、和不平行句對(duì),因此我們的任務(wù)是可以從這些大規(guī)模的平行語(yǔ)料中找到完全平行句對(duì),用這些來(lái)訓(xùn)練模型。首先,我們需要選擇訓(xùn)練分類器的正負(fù)例句,依據(jù)每個(gè)句對(duì)在句對(duì)特征的得分來(lái)區(qū)分正負(fù)例句,將得分高的作為正例句,得分低的作為負(fù)例句,通過(guò)對(duì)正負(fù)例句的學(xué)習(xí),分類器可以對(duì)句對(duì)進(jìn)行質(zhì)量評(píng)定,從而使用訓(xùn)練好的分類器對(duì)語(yǔ)料進(jìn)行篩選。
篩選流程:篩選語(yǔ)料有以下五個(gè)關(guān)鍵的環(huán)節(jié):
(1)句對(duì)特征打分。在訓(xùn)練語(yǔ)料中的句對(duì)進(jìn)行特征得分計(jì)算;
(2)句對(duì)排序。在上一環(huán)節(jié)的基礎(chǔ)上,依據(jù)每個(gè)句對(duì)的得分情況進(jìn)行排序,在此,每一個(gè)特征對(duì)應(yīng)都有一個(gè)排序結(jié)果。
(3)分離器訓(xùn)練。
(4)分類器自動(dòng)分類。使用分類器對(duì)待分類句對(duì)進(jìn)行分類,然后將分類結(jié)果和訓(xùn)練分類器句對(duì)進(jìn)行融合,得到最終的分類結(jié)果。
為了提高系統(tǒng)的翻譯性能,本文利用LDA 模型[3]挖掘雙語(yǔ)語(yǔ)料中的領(lǐng)域信息,從而應(yīng)用到該領(lǐng)域翻譯模型的搭建中,以提高參數(shù)精確度。LDA 模型是一個(gè)三層貝葉斯模型[4]。
LDA 模型:
David Blei[3]在2003 年提出隱含狄利克雷分配,這是一種用于離散數(shù)據(jù)集合的建模方法,它可以自動(dòng)地完成挖掘大規(guī)模語(yǔ)料庫(kù)中所蘊(yùn)含的主題信息。LDA 模型首先基于一篇文檔,這個(gè)文檔要求由許多主題組成,LDA 模型將這個(gè)文檔看作是這些主題的不同比例的混合,每個(gè)主題是指詞表中的一個(gè)多項(xiàng)式分布。
圖2 LDA 概率模型
由于訓(xùn)練翻譯模型的語(yǔ)料種類較多,對(duì)于這種異源的數(shù)據(jù)進(jìn)行詞對(duì)齊模型訓(xùn)練,再搭建翻譯模型,這會(huì)導(dǎo)致翻譯的準(zhǔn)確率下降。比如古漢語(yǔ)短文中有關(guān)于醫(yī)學(xué)的文章,也有關(guān)于軍事戰(zhàn)爭(zhēng)的文章,如果我們不對(duì)這些異源的數(shù)據(jù)進(jìn)行領(lǐng)域區(qū)分,這樣就會(huì)大大降低我們翻譯準(zhǔn)確率,因此在訓(xùn)練詞對(duì)齊模型時(shí),首先要考慮領(lǐng)域這一特性[4]。但是,不同的領(lǐng)域雖有本領(lǐng)域特有的詞語(yǔ),但是也會(huì)有領(lǐng)域之外的詞匯,這一點(diǎn)可以看出領(lǐng)域之間既有共同點(diǎn)也會(huì)有不同點(diǎn),但是我們不能簡(jiǎn)單的將不同領(lǐng)域劃分為互無(wú)交集的幾個(gè)部分分別去訓(xùn)練詞對(duì)齊模型,這會(huì)造成信息丟失,準(zhǔn)確率下降。因此,為了使得詞對(duì)齊準(zhǔn)確率提高,將在統(tǒng)計(jì)詞對(duì)齊模型中引入領(lǐng)域的信息。即對(duì)于訓(xùn)練語(yǔ)料的每個(gè)句子首先通過(guò)LAD 模型得到其所屬領(lǐng)域的概率,接下來(lái)結(jié)合領(lǐng)域內(nèi)與領(lǐng)域外的詞來(lái)進(jìn)行詞對(duì)齊。即通過(guò)加權(quán)技術(shù)來(lái)實(shí)現(xiàn)領(lǐng)域內(nèi)模型與領(lǐng)域外模型相互結(jié)合來(lái)提高領(lǐng)域內(nèi)的詞對(duì)齊準(zhǔn)確率[5]。
領(lǐng)域自適應(yīng)詞對(duì)齊的訓(xùn)練過(guò)程指:假設(shè)雙語(yǔ)平行語(yǔ)料庫(kù)由s 個(gè)句對(duì)組成,首先用LAD 模型對(duì)語(yǔ)料庫(kù)領(lǐng)域信息進(jìn)行提取,則假設(shè)某一句對(duì)(f,e)屬于某一領(lǐng)域的概率為pk[6],則接下來(lái)為每一領(lǐng)域訓(xùn)練相應(yīng)的詞對(duì)齊模型,訓(xùn)練過(guò)程用EM算法進(jìn)行參數(shù)估計(jì):在E 步,兩個(gè)詞共同出現(xiàn)在頻率:
通過(guò)不斷迭代直到收斂,從而得到最終翻譯概率。這個(gè)模型中,當(dāng)一個(gè)句對(duì)屬于某個(gè)領(lǐng)域的概率越大,則詞對(duì)齊結(jié)果就會(huì)屬于當(dāng)前領(lǐng)域,最終在此基礎(chǔ)上相應(yīng)的翻譯模型,則該模型能夠呈現(xiàn)出所屬領(lǐng)域準(zhǔn)確率最高的結(jié)果。
本文主要介紹了統(tǒng)計(jì)機(jī)器翻譯模型的改進(jìn)方法,首先運(yùn)用最大熵分類器的方法,對(duì)訓(xùn)練統(tǒng)計(jì)機(jī)器翻譯模型的語(yǔ)料進(jìn)行篩選,提升了語(yǔ)料的準(zhǔn)確性。接下來(lái)對(duì)篩選的語(yǔ)料運(yùn)用LDA 主題模型確定了語(yǔ)料的主題,在統(tǒng)計(jì)機(jī)器翻譯模型詞對(duì)齊的過(guò)程中對(duì)每個(gè)進(jìn)行詞對(duì)齊過(guò)程的句子結(jié)合其對(duì)應(yīng)的主題概率,從而使行詞對(duì)齊的結(jié)果更精確,進(jìn)而提升了統(tǒng)計(jì)機(jī)器翻譯模型中翻譯模型與語(yǔ)言模型的精度,使得統(tǒng)計(jì)機(jī)器翻譯模型性能有了一定程度的提高。