于 新,吳 健,洪錦玲
(1.中國科學(xué)院 軟件研究所,北京 100190;2. 中國科學(xué)院 研究生院,北京 100190)
雙語語料庫是從事統(tǒng)計(jì)機(jī)器翻譯等自然語言處理研究必不可少的基礎(chǔ)資源。構(gòu)建雙語語料庫的關(guān)鍵技術(shù)之一是對齊,即在雙語文本中找到互為翻譯的源文和譯文片段,對齊的單位包括篇章、段落、句子、短語、詞語等,不同的自然語言應(yīng)用要求做到不同單位的對齊。對于雙語而言,構(gòu)建句子級(jí)別的對齊語料庫是構(gòu)建平行雙語語料庫的基本任務(wù)。
目前,藏文信息處理的重心正逐步從文字處理向文本處理轉(zhuǎn)移,漢藏機(jī)器翻譯/輔助翻譯研發(fā)都需要大規(guī)模漢藏雙語平行語料庫作為基礎(chǔ)。但是構(gòu)建大規(guī)模(百萬句對)漢藏平行語料庫,僅靠手工對齊是不現(xiàn)實(shí)的,因此對漢藏語言句子自動(dòng)對齊的研究是有意義且必要的。
英法、英德、漢英等語言的雙語句子對齊算法已經(jīng)較為成熟。句子對齊算法有很多,主要分三大類: 基于長度的算法[1-2]、基于詞匯的算法[3-9]和綜合使用句子長度與詞匯的算法[10-12]?;陂L度的句子對齊方法只適用于在沒有或只有很少噪聲的文本上使用,基于長度方法給出的動(dòng)態(tài)規(guī)劃框架是解決句子對齊問題的優(yōu)秀選擇,也被之后的眾多研究者采用。基于詞匯的方法,魯棒性好,模型選得普遍較復(fù)雜,獲得詞匯對應(yīng)的過程時(shí)間耗費(fèi)嚴(yán)重,并且抽取互譯詞對需要大量的已加工好的句子對齊的語料作為訓(xùn)練語料,這對于剛起步的藏文信息處理是不現(xiàn)實(shí)的。Haruno和Yamazaki[8]的方法,適用于語法結(jié)構(gòu)相差很大的語言,在算法中只考慮實(shí)詞之間的匹配,這符合漢藏語言語法結(jié)構(gòu)相差大的實(shí)際情況,但這需要對詞語進(jìn)行標(biāo)注,目前還沒有對藏文詞語的詞性進(jìn)行整理,沒有標(biāo)注工具來進(jìn)行這項(xiàng)工作。Ma Xiaoyi[9]的方法利用了詞典,取得了很好的對齊效果,這個(gè)方法就漢藏語言目前的現(xiàn)狀來說是可以借鑒的較好選擇。至于其他方法,在有充足語料和資源的情況下,可以進(jìn)一步嘗試,進(jìn)一步考察這些算法被用于漢藏句子對齊的有效性。
從雙語句子對齊問題的本身特點(diǎn)來看,起決定作用的還是譯文的對應(yīng)關(guān)系,所得句珠是否準(zhǔn)確首先取決于其中詞匯的對譯程度如何?;谠~典的句子對齊充分利用了句對中詞匯的互譯信息。詞匯的對應(yīng)信息可以通過已有資源來獲得,例如詞典,也可在文本中通過一定的方法獲得,例如通過翻譯模型獲得。通過詞典的方式來獲得詞匯信息簡單直接,但詞典信息資源可能不夠豐富。通過翻譯模型等方法從原文中獲得詞匯互譯的信息,這種方法操作起來較為復(fù)雜,時(shí)間復(fù)雜度較高,需要大量訓(xùn)練語料。
目前,還沒有對漢藏句子自動(dòng)對齊的研究。漢藏句子對齊有其特殊性?;谠~典的方法用于漢藏對齊,要解決的第一個(gè)問題是藏文分句問題。這個(gè)問題在研究的過程中已得到解決,本文主要論述對齊的算法及實(shí)現(xiàn)過程,藏文分句問題暫不予討論。漢藏句子對齊與其他語言的另一不同之處在于漢語和藏文兩種語言都需要分詞,藏文的一個(gè)音節(jié)不是一個(gè)有獨(dú)立含義的語義單元,不能被看作詞語,藏文詞與詞之間沒有明確的分隔標(biāo)記,因此藏文和漢語、日語等東方語言相似,同樣存在著分詞問題。而由于采用不同的分詞方法,導(dǎo)致漢語和藏文分詞粒度不同,影響了漢藏句子對齊正確率。
下面來具體介紹基于詞典的漢藏句子對齊方法及上述問題的解決方法。
該算法在動(dòng)態(tài)規(guī)劃的框架下,尋找最優(yōu)對齊路徑。最優(yōu)的含義是指這條路徑上所有句對的總得分最高,每一句對的得分是按照評(píng)分函數(shù)計(jì)算的。評(píng)分函數(shù)綜合考慮了源譯文的詞語互譯個(gè)數(shù),句子長度以及句對對齊模式(0-1,1-0,1-1,1-2,2-1,2-2,1-3,3-1)的概率。其中,源譯文的互譯詞語按照出現(xiàn)的頻度給了不同的權(quán)重,一個(gè)詞對在句子中出現(xiàn)次數(shù)越多,權(quán)重越大;而這個(gè)詞對在整個(gè)文本中出現(xiàn)的頻率越大,權(quán)重越小。
任給一組句子(Si,Ti)定義為
C= {c1,c2,...,cn-1,cn},B= {b1,b2,...,bn-1,bn}
其中ci和bi是分詞后的詞語。假定有k對互為翻譯的詞對,分別為(c1′,b1′), (c2′,b2′)…(ck′,bk′), 則(Si,Tj)的相似度定義為:
其中,stf(cm,bm)是(cm,bm)這對互為翻譯的詞語在句對中出現(xiàn)的次數(shù),由查詞典得到的,每查到一個(gè)詞,值就增加1;
idtf(cm)為cm在Si中出現(xiàn)的總次數(shù)與cm在其所在文本中出現(xiàn)的總次數(shù)的比值。idtf(cm)起調(diào)節(jié)權(quán)重的作用,一個(gè)詞語在篇章中出現(xiàn)頻率越高,所占權(quán)重越小。
|Si|和|Tj|分別是源語言Si和目標(biāo)語言Tj中的句子數(shù);
LSi和LTj分別是Si和Tj中的句子長度;
為了克服算法將更多句子組合在一起的傾向,引入懲罰因子matching_penalty(|Si|, |Tj|),是對不同對齊模式的懲罰,前面已經(jīng)提到過,1:1模式的句珠占90%的比例,其他模式根據(jù)所占比例給予適當(dāng)?shù)膽土P,當(dāng)|Si| = 1 且|Tj| = 1時(shí)為1,其他情況為區(qū)間[0,1]內(nèi)的值;
length_penalty則是由長度決定的懲罰因子。
S(i,j)代表從文本開始到第i個(gè)源語言句子和第j個(gè)目標(biāo)語言句子的最優(yōu)路徑的得分,Sim(i,j)代表第i個(gè)源語言句子與第j個(gè)目標(biāo)語言句子的相似度得分,由評(píng)分函數(shù)得到。考慮了1-0,0-1,1-1,1-2,2-1,2-2,1-3, 3-1共8種對齊模式。
下面給出算法核心部分的偽碼和流程圖:
MatchSentences(ChineseSentences, TibetanSentences)
{
score <- MatchSentencesWithLexicion(ChineseSentenceWordFrequency, TibetanSentenceWordFrequency)
if(max(ChineseSentencesLength*TibetanToChineseRatio, TibetanSentencesLength ) > 60)
{
computer lengthPenalty
score = score * lengthPenalty
return score
}
}
圖1 MatchSentencesWithLexicion流程圖
由于漢語文本和藏文文本都需要進(jìn)行分詞,這就產(chǎn)生了一個(gè)新的問題,漢藏分詞粒度不同。
漢語和藏文的分詞粒度不同,是因?yàn)椴匚姆衷~采用的基于詞典的最大匹配的方法,造成長詞覆蓋短詞,導(dǎo)致切分粒度過大。漢語分詞使用的ICTCLAS采用層疊隱馬爾可夫模型,分詞的顆粒度較小。
表1是漢語和藏文分詞不同的具體的例子。
表1 漢語和藏文分詞粒度分詞前后比較
續(xù)表
分詞粒度不同,在詞典中便查不到對應(yīng)詞語,會(huì)使k值減小,從而使Sim(Si,Tj)減小,句對相似度降低,影響對齊效果。
采用進(jìn)一步查找藏漢詞典的方法來找到互譯詞對。采用增加藏漢詞典的方式,對漢語中未找到對應(yīng)翻譯詞語的大顆粒的藏文詞語進(jìn)一步查找藏漢詞典,若找到互譯漢語,將其拿到漢語原文中匹配,匹配成功,k值增加,從而消除分詞粒度不同對句子對齊造成的影響,如圖1右半部分所示。
根據(jù)上述算法,研發(fā)了實(shí)用的漢藏句子對齊系統(tǒng)。
用準(zhǔn)確率(Precision)、召回率(Recall)、F測度值(F-measure)來評(píng)價(jià)實(shí)驗(yàn)結(jié)果。
用來評(píng)價(jià)句子對齊系統(tǒng)的標(biāo)準(zhǔn)對齊語料是先由算法運(yùn)行出結(jié)果,然后由人工校正后得到的。因?yàn)椴匚木渥拥呐袛鄻?biāo)準(zhǔn)有時(shí)不是很明確,可能出現(xiàn)標(biāo)準(zhǔn)語料的結(jié)果會(huì)與算法給出結(jié)果不統(tǒng)一的現(xiàn)象。會(huì)使正確率略有下降。
實(shí)驗(yàn)所使用的語料是根據(jù)項(xiàng)目需要收集的,均屬于政治領(lǐng)域,題材可分為法律、政府公文、偉人著作三種,從中選取部分文件進(jìn)行實(shí)驗(yàn)。法律選取的是《法律匯編》的27篇文檔、偉人著作選取的是《江澤民文選》和《毛澤東選集》共18篇文檔,政府公文選取的是近幾年中共中央的報(bào)告和公文共25篇文檔,所用語料的漢語版從網(wǎng)上下載得到,藏文版來自中央編譯局。
所有語料都整理成以篇章形式存儲(chǔ)。首先用篇章對齊工具由人工來篇章對齊生成篇章對齊的XML文件,作為漢藏句子對齊的輸入。
篇章對齊XML文件和句子對齊XML文件都以藏文國家標(biāo)準(zhǔn)編碼(擴(kuò)充集A)utf-8編碼。
語料有可能是網(wǎng)上下載,或是OCR識(shí)別等等。不經(jīng)過預(yù)處理的語料包含許多噪聲數(shù)據(jù),使用這樣的數(shù)據(jù)作為對齊輸入,會(huì)嚴(yán)重影響對齊效果。
主要預(yù)處理工作包括: 去除噪聲標(biāo)簽,人工修正遺漏的段落分割標(biāo)記,去掉方正排版標(biāo)記,編碼轉(zhuǎn)換以及字符歸一化。
實(shí)驗(yàn)采用的詞典為漢藏詞典。這個(gè)詞典是對漢藏對照詞典、藏漢大辭典、藏漢英電子詞典合并去重后得到的,共137 873詞條。
詞典的詞匯覆蓋率和翻譯與譯文的吻合度直接影響對齊結(jié)果,因此需先對詞典作一個(gè)評(píng)估。
表2是對所使用的詞典進(jìn)行的評(píng)價(jià),所用語料為從實(shí)驗(yàn)語料中挑選出的5篇文章。可以看出, 不考慮重復(fù)出現(xiàn)的詞語,所用詞典中能夠查到的漢語詞數(shù)所占文章總的漢語詞數(shù)百分比約為90%;在詞典中出現(xiàn)的漢語,不考慮重復(fù)出現(xiàn)的詞,對應(yīng)的藏文釋義在文章中出現(xiàn)并被正確分詞,這樣的詞語所占的百分比約為55%。
表2 對詞典的評(píng)價(jià)
詞典找不到藏文釋義的原因有三:
1) 詞典自身缺陷。詞典的釋義不全面,這是因?yàn)椴匚脑~語, 一事物多詞現(xiàn)象嚴(yán)重, 僅“太陽”一詞在不同場合下就有一百多種說法[14],一部詞典很難覆蓋所有的釋義。
2) 翻譯是意譯的。
3) 分詞錯(cuò)誤,并且漢語和藏文的分詞粒度不同。
評(píng)分函數(shù)中matching_penalty(m,n)是對不同對齊模式(1-0,0-1,1-1,1-2,2-1,2-2, 1-3,3-1)所做的懲罰,實(shí)驗(yàn)中matching_penalty(m,n)采用的參數(shù)為:
程序會(huì)對句子長度相差較大的句子作出懲罰
ChineseLen: 漢語句組長度;
TibetanLen: 藏文句組長度。
c: 單位長度藏文對單位長度漢語的比值, 對600句對統(tǒng)計(jì)得到的期望值為1.208。其中,漢語句子按照漢字個(gè)數(shù)(含標(biāo)點(diǎn))計(jì)算長度,藏文句子按照音節(jié)個(gè)數(shù)來計(jì)算長度。
對齊是按照篇章來進(jìn)行的,表3是對每種題材的文檔分別累計(jì)取得的結(jié)果。法律文本的對齊結(jié)果最好,平均正確率為82.86%; 偉人著作次之, 平均正確率為80.83%;政府報(bào)告最差,平均正確率為78.99%。
將三種題材的文檔累計(jì),得到總的實(shí)驗(yàn)句對數(shù)目為28 697句,得到平均正確率為81.11%,平均召回率為83.86%,平均F測度值為82.47%。
每種類型的文本都有對齊結(jié)果好的篇章,和對齊結(jié)果不好的篇章。分析個(gè)別錯(cuò)誤較多的文本,發(fā)現(xiàn)影響對齊正確率的因素有以下幾點(diǎn):
1) 格式問題。
分句只能正確切分句子,而不能切分出短語,無論在漢語和藏文文本中都會(huì)出現(xiàn)小標(biāo)題形式出現(xiàn)的短語,而這些地方?jīng)]有被正確換行,因此文本中這種情況出現(xiàn)較多的話,會(huì)影響正確率。
表3 實(shí)驗(yàn)結(jié)果匯總
從語料中選出3篇文本,將格式校正之前和校正之后的對齊結(jié)果做了比較,如表 4所示。
2) 分句錯(cuò)誤。尤其是在數(shù)字編號(hào)的地方較易出錯(cuò)。在漢語標(biāo)點(diǎn)符號(hào)冒號(hào)、分號(hào)處,藏文的對應(yīng)不是很明確, 有時(shí)可以斷句, 有時(shí)有連接詞不能斷句,出錯(cuò)較多。
表4 格式整理之前與之后對齊結(jié)果比較
3) 翻譯是意譯的,尤其是口語化比較嚴(yán)重的文章,句中的翻譯與在詞典中查到的詞語不能對應(yīng),在偉人著作中出現(xiàn)比較多。
4) 標(biāo)準(zhǔn)對齊是由人工校正得到的,里面有許多人為的判斷,句子是否應(yīng)該斷句,有時(shí)人為的判斷與采用的規(guī)則難以統(tǒng)一,即標(biāo)準(zhǔn)句對并不是百分之百正確的,也會(huì)影響到正確率。
本文首次對漢藏句子自動(dòng)對齊進(jìn)行了探索性研究及實(shí)現(xiàn)。采用基于詞典的方法來進(jìn)行漢藏句子自動(dòng)對齊,該方法借助詞典找出句對中的互譯詞對,低頻詞語占權(quán)重大,高頻詞語占權(quán)重小,利用動(dòng)態(tài)規(guī)劃框架根據(jù)評(píng)分函數(shù)尋找最優(yōu)路徑,并采用反查藏漢詞典的方法解決了漢藏分詞顆粒度不同造成的互譯詞對減少的問題。并對所用詞典進(jìn)行了評(píng)價(jià)。
實(shí)現(xiàn)了一個(gè)實(shí)用化的漢藏對齊系統(tǒng),在正確率上仍有很大的提升空間。文獻(xiàn)[9]中在將近4 000句的漢英語料上做對齊,正確率達(dá)到96.4%,召回率96.3%。漢藏句子對齊的結(jié)果和漢英的相比還是有一定差距的。
實(shí)驗(yàn)結(jié)果和語料的選取有很大關(guān)系,本文選取的語料數(shù)量上已經(jīng)足夠發(fā)現(xiàn)較多的問題,但在領(lǐng)域上不夠全面。
1) 做一部高頻詞典,文獻(xiàn)[9]中僅用4 000詞的高頻詞典就達(dá)到96.4%的正確率,采用高頻詞典不會(huì)影響正確率,可以減少查詞典的時(shí)間,提高效率。
2) 對分句問題做更嚴(yán)謹(jǐn)?shù)囊?guī)則總結(jié)。根據(jù)實(shí)際中出現(xiàn)的各種錯(cuò)誤,不斷歸納總結(jié)。
3) 提高藏文分詞正確率,采用更好的分詞方法,消除分詞粒度不同的問題。
[1] Brown P F, Lai J C, Mercer R L. Aligning sentences in parallel corpora[C]//Proceedings of 29th Annual Meeting of the Association For Computational Linguistics.Berkeley, CA: ACL, 1991: 169-176.
[2] William A.Gale, Kenneth W.Church. A Program for Aligning Sentences in Bilingual Corpora[J].Computational Linguistics. 1993,19(1):75-90.
[3] M. Kay & K. Roescheisen. Text-Translation Alignment[J].Computational Linguistics 1993,19(1), 121-142.
[4] S. F. Chen. Aligning Sentences in Bilingual Corpora Using Lexical Information [C]//the proceeding of Annual meeting of ACL - 31, 1993:9-16.
[5] Utsuro T, Ikeda H,Yamane M,et al.Bilingual Text Matching Using Bilingual Dictionary and Statistics[C]//Proceedings of the 15th conference on Computational linguistics, volume 2, 1994: 1076-1082.
[6] Melamed I D, Melamed A geometric approach to mapping bitext correspondence[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing,1996: 1-12.
[7] Dagan I, Church K W, Gale W A. Robust Bilingual Word Alignment for Machine Aided Translation[C]//Proceedings of the Workshop on Very Large Corpora, 1993: 1-8.
[8] Haruno, Masahiko, and Takefumi Yamazaki. High-performance bilingual text alignment using statistical and dictionary information[C]//ACL 34, 1996: 131-138.
[9] Ma X. Champollion: A Robust Parallel Text Sentence Aligner[C]//Proceedings of LREC-2006: Fifth International Conference on Language Resources and Evaluation, 2006: 489-492.
[10] DeKai Wu. Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria [C]//the proceeding of Annual meeting of ACL-32,1993: 80-87.
[11] Moore R C. Fast and Accurate Sentence Alignment of Bilingual Corpora[C]//Proceedings of AMTA. Springer-Verlag, 2002: 135-144.
[12] Simard M, Foster G F, Isabelle P.Using Cognates to Align Sentences in Bingual Corpora[C]//Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation,1992: 67-81.
[13] 李鵬. 高性能的中英文句子對齊算法及其應(yīng)用[D]. 清華大學(xué). 2009.
[14] 趙晨星, 楊兵. 藏文信息處理技術(shù)發(fā)展的廣闊前景[J]. 青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版),1999,1.