諾明花,劉匯丹,吳 健,丁治明
(1. 中國科學(xué)院 軟件研究所,北京100190;2. 中國科學(xué)院 研究生院,北京 100049)
長尾真(Nagao,M.)[1]提出:計算機(jī)輔助翻譯的過程一般是首先將輸入句子分解為片段,接著把這些片段譯成目標(biāo)語言,最后把這些片段合并成長句,其中每個片段采取類比的原則進(jìn)行翻譯。這些片段可以是詞、短語或其他由多個詞組合而成的語言單位,我們將這些語言單位統(tǒng)稱為多詞單元。多詞單元是單詞的擴(kuò)展,單詞和多詞單元一起構(gòu)成了翻譯的基本單位。在漢藏翻譯過程中,從翻譯人員的實踐來看,僅僅把詞作為翻譯的基本單位并不合適,將多詞單元作為一個整體來翻譯更能夠保證譯文的準(zhǔn)確度和流利度,這種整體性的翻譯對于提高全文翻譯的質(zhì)量是大有好處的。
本文將要構(gòu)建漢藏輔助翻譯系統(tǒng)的多詞單元翻譯詞典,其中每條記錄包含漢語有效多詞單元以及對應(yīng)的藏文譯文?;陔p語語料庫進(jìn)行翻譯詞典編纂,國內(nèi)外很多研究者都做了大量工作[2-3]。在漢藏短語對抽取方面,國內(nèi)已經(jīng)有了一些研究。文獻(xiàn)[4]中提出藏文詞串頻率統(tǒng)計算法(簡稱TSM)和藏文詞串序列相交算法(簡稱TIA)兩種方法進(jìn)行漢藏短語對抽取。TIA算法使用藏文詞序列相交短語譯文獲取模型(Sequence Intersection Based Phrase Translation Extraction Model,SIBPTM),對句對齊雙語語料庫中包含待翻譯漢語語塊的句對集合求交集來抽取譯文。為了提高準(zhǔn)確率,SIBPTM模型以漢藏詞典為輔助資源,并設(shè)定閾值解決部分未登錄現(xiàn)象。由于使用的漢藏雙語詞典覆蓋率較低,未登錄現(xiàn)象較突出,所以,這種方法能夠抽取的短語對規(guī)模有限。如果用大規(guī)模語料庫進(jìn)行訓(xùn)練以擴(kuò)大覆蓋率,一定程度上可以彌補(bǔ)召回率低的缺陷,但是漢藏機(jī)器翻譯的研究還處于起步階段,平行語料庫規(guī)模十分有限。因此,在當(dāng)前形勢下,相對而言,準(zhǔn)確率顯得不是特別重要,如何提高召回率是當(dāng)前更需要考慮的問題。
本文重點研究如何提高基于漢藏對齊語料庫的多詞單元等價對抽取方法召回率的問題。
本文提出CMWEPM(Collocation Based Multi-Word Equivalence Pair Extraction Model)模型來抽取漢藏多詞單元等價對。與SIBPTM類似,CMWEPM模型同樣分兩步完成翻譯等價對的抽取,但是它在獲取有效漢語語塊及確定譯文方法上均與SIBPTM模型不同。
為了識別漢語多詞單元,本文使用Ying Zhang和Ralf Brown等人[5]提出的關(guān)聯(lián)度(Collocation)度量指標(biāo)。下面簡要介紹這個度量指標(biāo)。
Collocation可以比較全面地衡量事件關(guān)聯(lián)度,其定義如下:
(1)
其中,VMI是平均互信息;w1,w2是待衡量的兩個事件,在本文中指單詞的出現(xiàn)。VMI定義如下:
VMI(w1,w2)
(2)
H是一個詞的平均信息量,是指每個詞所含的信息量的統(tǒng)計。N個離散消息源的平均信息量定義如式(3),在本文中離散消息源指漢語單詞。
(3)
本文使用的平均互信息VMI值是建立在相鄰兩個詞共現(xiàn)概率的基礎(chǔ)之上的,但不僅僅是兩個詞的互信息MI值??梢钥闯?,在VMI的計算公式中,前兩項分別是兩個詞同時出現(xiàn)、同時不出現(xiàn)的情況,表現(xiàn)了對兩個詞共現(xiàn)有貢獻(xiàn)的互信息;后兩項是一個詞出現(xiàn)而另一個詞不出現(xiàn)的情況,表現(xiàn)了對共現(xiàn)有抵消作用的互信息。平均互信息能夠綜合考慮整個語料庫的情況,可以全面地衡量兩個詞之間的關(guān)聯(lián)度。
然而,平均互信息值也只是說明了兩個詞共現(xiàn)的趨勢大小,該值高只能表明w1、w2同時出現(xiàn)的趨勢大,可能它們其中一個或者兩個都是高頻詞,因此,這兩個詞出現(xiàn)的頻率應(yīng)該被考慮進(jìn)去。式中分母即是w1、w2的平均信息量,對平均互信息值起到歸一化的作用。
假設(shè)句子片段包含三個詞w1,w2,w3.將w1與w2的Collocation值記為x,w2與w3的Collocation值記為y,則BindingDegree(x,y)計算方法如下:
(4)
在這里,BindingDegree(x,y) 用于衡量多詞單元中詞語的結(jié)合度并確定多詞單元的邊界。以下將BindingDegree(x,y)稱為結(jié)合度,它計算出的值簡稱BD值。
CMWEPM模型是基于詞對齊的,利用關(guān)聯(lián)度和結(jié)合度確定漢語多詞單元邊界后,通過詞對齊優(yōu)化結(jié)果選擇漢語多詞單元的譯文。利用 GIZA++獲得詞對齊矩陣是等價對抽取的起點。
Koehn[6]提出了一個基于詞對齊的短語翻譯模型。下面先給出短語定義。設(shè):f=f1…fm,e=e1…en分別為源語言和目標(biāo)語言句子,α是兩個句子上的對齊,則短語互譯對
(1) ?j?i′(i′,j′)∈α,i′?{i1,…,im},j∈{j1,…,jn};
(2) ?i?j′(i′,j′)∈α,i∈{i1,…,im},j′?{j1,…,jn};
(3) ?k,l(ik,jl)∈α,1≤k≤m,1≤l≤n。
Koehn抽取方法是嚴(yán)格按照詞對齊進(jìn)行的,因此本文稱此類多詞單元為嚴(yán)格多詞單元。它要求完全相容,因此抗噪聲能力不強(qiáng)。本文從漢藏多詞單元等價對抽取實際問題出發(fā),采用基于詞匯結(jié)合度約束的抽取策略來減小錯誤詞對齊結(jié)果造成的精度損失。放寬一致性條件,使得等價對中的詞對齊到多詞單元內(nèi)的某個詞的同時可以對齊到該多詞單元之外,可以避免抽取到不完整的多詞單元等價對。只要這個詞能夠滿足式(5)的對齊約束條件,避免破壞等價對的完整性。
(5)
滿足式(5)的詞串為約束多詞單元,其中,sim(ei,fj)是詞匯結(jié)合度度量函數(shù),θ是閾值。
CMWEPM模型構(gòu)建多詞單元詞典中漢語多詞單元自動獲取是關(guān)鍵。假設(shè)句子為W1,W2…Wi,Wi+1…Wn, 將W1和W2的Collocation值記為x,若通過了閾值過濾,則將這兩個詞作為一個多詞單元;計算W2和W3的Collocation值,記為y,若BindingDegree(x,y) 值通過了閾值過濾,則將這三個詞作為一個多詞單元,依此類推。
對于高頻多詞單元和低頻多詞單元設(shè)定同一個閾值并不合理,本文應(yīng)用四點法則弱化主觀影響且不失多詞單元的全面性,從而降低閾值本身所帶來的對精確度的影響,提高準(zhǔn)確度和效率。為了使計算更有針對性,本文將多詞單元分為以下四類:(1)短高頻多詞單元; (2)短低頻多詞單元;(3)長高頻多詞單元; (4)長低頻多詞單元 。表1給出多詞單元類型趨向與關(guān)聯(lián)度和結(jié)合度對應(yīng)情況。
表1 多詞單元分類表
設(shè)定四種閾值與多詞單元類型對應(yīng),保證閾值的選取對多詞單元類型具有更好的分辨力。閾值選取以關(guān)聯(lián)度和提取出的多詞單元的長度作為參考因素,基本上權(quán)衡這兩方面就可以。約定橫坐標(biāo)表示Collocation值,縱坐標(biāo)表示BindingDegree值;本文實驗所使用的短高頻、短低頻、長高頻和長低頻對應(yīng)的一組參考閾值用坐標(biāo)形式表示如下:A(0.38,0.6),B(0.1,0.6),C(0.38,0.3),D(0.1,0.3);其中Collocation值和BindingDegree值的高值和低值的閾值分別設(shè)定為thresh_col1=0.38、thresh_col2=0.1、thresh_sim1=0.3、thresh_sim2=0.6。需要說明的是,這些值都無須非常精確,只要結(jié)果大體符合以上分類的標(biāo)準(zhǔn)就可以,在后面的處理中還會有進(jìn)一步的調(diào)整。
本節(jié)舉例說明提取多詞單元等價對的流程。首先,預(yù)處理雙語語料;得到的漢藏句對如圖1,分詞后的漢語和藏文句子分別用CS和TS表示,句子中的詞用空格隔開。
第二步,計算漢語多詞單元。圖2給出CS中相鄰詞的關(guān)聯(lián)度計算結(jié)果。
圖1 實例詞對齊結(jié)果
圖2 例句關(guān)聯(lián)度直方圖
在圖2中,“提高”和“農(nóng)業(yè)”的Collocation值0.043,小于閾值thresh_col1=0.38;因此“提高”和“農(nóng)業(yè)”不是多詞單元?!稗r(nóng)業(yè)”與“機(jī)械化”的Collocation值0.337,大于閾值thresh_col2=0.1;“機(jī)械化”與“水平”的Collocation值0.264,這兩個關(guān)聯(lián)度的BD(0.264/0.337)=0.783,大于閾值thresh_sim1=0.3;“水平”與“?!钡腃ollocation值0.076,BD(0.076/0.264)=0.288;小于thresh_sim1=0.3;因此“農(nóng)業(yè)”、“機(jī)械化”和“水平”是一個長低頻多詞單元。依此類推,“適用”和“農(nóng)機(jī)具”是個短高頻多詞單元。實驗以三個詞為長短多詞單元的界限,根據(jù)多詞單元分類及閾值設(shè)定可以得到用“//”號分割的漢語句子CS的多詞單元劃分結(jié)果如下。
CS多詞單元劃分:推廣 //先進(jìn) //適用 農(nóng)機(jī)具 //, //提高 //農(nóng)業(yè) 機(jī)械化 水平//。 //
第三步,應(yīng)用Giza++得到詞對齊結(jié)果。圖1表示CS與TS詞對齊信息:1-5 2-4 3-1 4-3 6-12 7-9 8-9 9-11 10-14。
文獻(xiàn)[4]中提出的SIBPTM模型和本文提出的CMWEPM模型抽取漢藏多詞單元等價對的流程均先抽取漢語有效語塊,二者的不同之處在于確定漢語語塊邊界及獲取藏語譯文過程。本文將比較兩個模型抽取效果,證明本文的CMWEPM模型的有效性。
在實驗中,SIBPTM和CMWEPM兩個模型從訓(xùn)練語料抽取多詞單元等價對之后,采用人工抽樣檢查的方法判斷互譯對正確與否,實驗準(zhǔn)確率(P)定義為:
(6)
召回率(R)定義為:
(7)
通常將P和R兩個指標(biāo)綜合為二者的調(diào)和平均值F-Score來反映一個系統(tǒng)的整體性能。F-Score可以有不同的定義公式,通常采用:F=2PR/(P+R) ;本文用此定義。
表2給出實驗所采用的雙語語料庫,其內(nèi)容主要是漢藏法律法規(guī)和公文報告等特定領(lǐng)域語料。語料1是訓(xùn)練語料,包括7萬余對已經(jīng)對齊的雙語句子,長句占多數(shù)。為了提高詞對齊準(zhǔn)確度,將雙語詞典追加在語料1上,獲取22萬余句對的語料2,用于詞對齊。目前只選擇378句對的語料3用于人工測試。
表2 語料信息
SIBPTM模型抽取漢藏多詞單元等價對過程中用N-gram統(tǒng)計算法計算出漢語語料中所有2-gram到6-gram多詞單元作為候選漢語連續(xù)串。再根據(jù)文獻(xiàn)[7]中算法,通過子串歸并刪除同一頻度的子串。
本文嘗試CMWEPM模型應(yīng)用關(guān)聯(lián)度和結(jié)合度計算漢語多詞單元。兩種模型抽取的多詞單元統(tǒng)計結(jié)果見表3。
表3 漢語多詞單元信息
分析語料結(jié)果表明,其中數(shù)據(jù)稀疏問題十分突出。SIBPTM模型用n-gram統(tǒng)計算法抽取漢語多詞單元時候,為了避免太多的干擾信息,過濾掉頻次少于8的所有多詞單元,進(jìn)一步過濾掉左右邊界處包含的停用詞和標(biāo)點符號后保留包含兩個或以上詞的多詞單元,因此SIBPTM模型抽取的漢語多詞單元數(shù)量很少,這也是下一步實驗中造成此模型召回率低的主要原因。
SIBPTM模型中TIA算法在不依賴于額外資源的前提下,對句對齊雙語語料庫中包含待翻譯漢語多詞單元Q的句對求交集,通過后處理得到Q的譯文。
本文嘗試CMWEPM模型應(yīng)用關(guān)聯(lián)度和結(jié)合度先獲取源語的多詞單元,再通過Giza++優(yōu)化詞對齊結(jié)果采用Koehn方法獲取嚴(yán)格多詞單元互譯對或應(yīng)用Phi平方系數(shù)方法計算詞匯結(jié)合度約束條件的約束多詞單元等價對。表4給出SIBPTM模型抽取多詞單元互譯對結(jié)果、CMWEPM模型獲取的嚴(yán)格多詞單元和約束多詞單元等價對抽取結(jié)果。
表4 多詞單元抽取結(jié)果
表4結(jié)果表明,CMWEPM模型的召回率比SIBPTM模型有明顯提高。SIBPTM模型算法用雙語詞典作為輔助資源進(jìn)行機(jī)械匹配來篩選漢藏多詞單元,由于自然語言翻譯的靈活性和雙語詞典的有限性,詞典譯項對真實文本的覆蓋率很低,導(dǎo)致召回率過低。而CMWEPM模型嚴(yán)格多詞單元抽取方法算法簡單,容易實現(xiàn),因為使用了成熟的開源詞對齊工具進(jìn)行漢藏詞對齊,它抽取的多詞單元準(zhǔn)確率較高。CMWEPM模型不再依賴漢藏詞典,避免了因詞典覆蓋率低帶來的問題,能夠提高召回率。
但同時,嚴(yán)格多詞單元由于限定條件苛刻會丟失一些信息,影響召回率;與嚴(yán)格條件的多詞單元結(jié)果相比,約束條件的召回率有所提高,這對于處理漢藏語料庫有著十分重要的意義。
為了提高漢藏多詞單元等價對召回率,本文提出了CMWEPM模型。該模型應(yīng)用關(guān)聯(lián)度和結(jié)合度抽取源語言的多詞單元,并定義嚴(yán)格條件和約束條件,抽取出符合條件的多詞單元等價對。實驗結(jié)果表明,新模型在未經(jīng)分析語言特征的前提下,取得了令人滿意的正確率。與SIBPTM模型相比,新模型明顯提高了召回率。這對于處理漢藏語料庫有著十分重要的意義。
由于藏文形態(tài)變化豐富,并且漢語、藏語兩種語言差異很大,下一步的工作將考慮加入形態(tài)學(xué)信息來優(yōu)化詞對齊的準(zhǔn)確率,抽取出更為合理的漢藏多詞單元等價對。為已經(jīng)獲取的等價對計算翻譯概率,用于翻譯解碼也是論文下一步工作之一。
漢藏多詞單元對抽取研究,理論上需要極大語料支持,實驗所用資源規(guī)模有限,漢藏對齊語料正在建設(shè)中,因此進(jìn)一步工作中還需在更大資源上驗證本文方法的有效性。
[1] Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle[C]// Proceedings of the international NATO symposium on Artificial and human intelligence, New York,USA, PublisherElsevier North-Holland, 1984:173-180.
[2] J?rg Tiedemann. Automatical Lexicon Extraction from Aligned Bilingual Corpora [D]. Magdeburg University, Department of Computer Science, 1997.
[3] 常寶寶.基于漢英雙語語料庫的翻譯等價單位自動獲取研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2002,(2):24-29.
[4] 諾明花,張立強(qiáng),劉匯丹,等. 漢藏短語抽取 [J]. 中文信息學(xué)報,2011,25(2):105-110.
[5] Ying Zhang, Ralf Brown, Robert Frederking, et al. Pre-processing of Bilingual Corpora for Mandarin-English EBMT[C]//Proceedings of the MT Summit 8.Santinago de Compostela,Spain, 2001.
[6] Koehn P,Och F J,Marcu D.Statistical phrase based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Morristown NJ: Association for Computational Linguistics, 2003: 48-54.
[7] Xueqiang Lv, Le Zhang, Junfeng Hu. Statistical Substring Reduction in Linear Time[C]//Proceedings of IJCNLP-2004, Springer, 2004: 320-327.