才藏太,趙海興,才讓加
(青海師范大學(xué),省部共建藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)
我國(guó)現(xiàn)有近600萬(wàn)藏族人口,主要居住在西藏自治區(qū)和青海、四川、甘肅、云南等省[1].作為藏文化最主要和最基本的載體,藏文已有近1400年的歷史,用藏文書(shū)寫(xiě)的經(jīng)典文獻(xiàn)、古籍著述和譯作浩如煙海,所以大力發(fā)展以藏漢機(jī)器翻譯為核心的藏文信息處理技術(shù)有利于促進(jìn)涉藏地區(qū)政治、經(jīng)濟(jì)、科技、教育、文化的建設(shè)[2].
目前西藏大學(xué)、西北民族大學(xué)、中央民族大學(xué)、中央翻譯局等單位從事藏文信息處理技術(shù)研究,但目前藏漢雙語(yǔ)數(shù)據(jù)資源缺乏、與藏文信息處理相關(guān)的國(guó)家標(biāo)準(zhǔn)少、藏漢雙語(yǔ)機(jī)器翻譯質(zhì)量較差、應(yīng)用示范不明顯、社會(huì)服務(wù)貢獻(xiàn)不足等問(wèn)題比較突出.針對(duì)以上存在的問(wèn)題,青海師范大學(xué)藏文信息處理研究團(tuán)隊(duì)提出了面向漢藏機(jī)器翻譯的數(shù)據(jù)資源構(gòu)建相關(guān)技術(shù),解決了藏文分詞及標(biāo)注、漢藏詞語(yǔ)對(duì)齊、藏文句子邊界識(shí)別、漢藏句子對(duì)齊等科學(xué)問(wèn)題,為漢藏機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)提供了技術(shù)保障.
句子級(jí)對(duì)齊的雙語(yǔ)平行語(yǔ)料庫(kù)是跨語(yǔ)言信息檢索、翻譯詞典編撰、雙語(yǔ)術(shù)語(yǔ)自動(dòng)提取以及多語(yǔ)言對(duì)比研究等的重要基礎(chǔ)資源[3].但是,目前在句子級(jí)對(duì)齊的漢藏雙語(yǔ)平行語(yǔ)料獲取方面還存在著嚴(yán)重的不足,基本處于人工對(duì)齊狀態(tài).人工對(duì)齊的優(yōu)點(diǎn)是對(duì)齊精確度高,其缺點(diǎn)是速度慢,對(duì)于有200萬(wàn)對(duì)句子的平行語(yǔ)料庫(kù),人工對(duì)齊一人需4000天才能完成,因此,研制出一種漢藏句子自動(dòng)對(duì)齊方法極為重要.基于長(zhǎng)度和詞典的兩種傳統(tǒng)方法對(duì)于漢英句子對(duì)齊各有優(yōu)點(diǎn),同時(shí)也存在致命的缺點(diǎn)[4].在漢藏對(duì)齊的過(guò)程中不加區(qū)別的直接借鑒傳統(tǒng)方法,效果不佳.鑒于此,本研究提出了一種利用句子長(zhǎng)度和錨點(diǎn)信息相結(jié)合的漢藏雙語(yǔ)句子對(duì)齊方法.錨點(diǎn)就是一段比較容易識(shí)別的文字,并且極有可能在雙語(yǔ)中每種語(yǔ)言的同一位置上出現(xiàn)[5].該方法利用(1∶1)型的句珠作為候選錨點(diǎn),用錨點(diǎn)將雙語(yǔ)文本分割成幾個(gè)塊,在對(duì)應(yīng)雙語(yǔ)分塊中用基于長(zhǎng)度的對(duì)齊實(shí)現(xiàn)句子的對(duì)齊.
設(shè)計(jì)思想是:首先讀入規(guī)范的漢藏雙語(yǔ)文本;利用句子邊界自動(dòng)識(shí)別程序識(shí)別漢語(yǔ)和藏語(yǔ)句子邊界,并進(jìn)行分句,對(duì)每一個(gè)句子進(jìn)行編號(hào);利用雙語(yǔ)文本圖選擇候選錨點(diǎn)句對(duì)(雙語(yǔ)文本中各抽一個(gè)句子對(duì)應(yīng)在一起,就形成一個(gè)句對(duì)),再用漢藏句子的長(zhǎng)度特性排除不需要計(jì)算對(duì)齊評(píng)價(jià)函數(shù)的句對(duì).計(jì)算排除后剩下的句對(duì)對(duì)應(yīng)的形式對(duì)齊評(píng)價(jià)函數(shù)值;找出對(duì)應(yīng)最小形式對(duì)齊評(píng)價(jià)函數(shù)值的句對(duì);如果最小對(duì)齊評(píng)價(jià)函數(shù)值小于對(duì)齊閾值,則計(jì)算其相似度閥值,如果最小對(duì)齊評(píng)價(jià)函數(shù)值不小于對(duì)齊閾值,則結(jié)束;如果句對(duì)的相似度大于相似度閾值,那么這個(gè)句對(duì)將成為對(duì)齊錨點(diǎn),將雙語(yǔ)文本分別分成兩部分,然后依據(jù)錨點(diǎn)可能出現(xiàn)的范圍限制下一個(gè)錨點(diǎn)的搜索區(qū)域,繼續(xù)進(jìn)行其他句對(duì)的比較;最后輸出對(duì)齊后的文本.
首先引入了雙語(yǔ)文本圖的概念.雙語(yǔ)文本圖(Bitext Map)在雙語(yǔ)文本研究中的應(yīng)用十分廣泛[6],如圖1所示.
圖1 雙語(yǔ)文本圖
本研究對(duì)它做了適當(dāng)改造,一般雙語(yǔ)文本圖中X,Y軸以字節(jié)數(shù)為單位,分別表示原譯文的長(zhǎng)度位置;而在本文中,X,Y軸則以句子為單位,它們分別表示漢文句子(c1,c2,…,cm)和藏文句子(t1,t2,…,tn).我們按照雙語(yǔ)文本的句子編號(hào)作為坐標(biāo)系的橫坐標(biāo)和縱坐標(biāo),雙語(yǔ)文本圖的原點(diǎn)表示原譯文的共同起始點(diǎn),而右上角頂點(diǎn)則表示原譯文的共同結(jié)束點(diǎn),起始點(diǎn)和結(jié)束點(diǎn)間的連線即為雙語(yǔ)矩形圖的對(duì)角線,其斜率稱(chēng)為雙語(yǔ)圖的斜率.雙語(yǔ)圖中的任意點(diǎn)P(i,j)表示漢語(yǔ)句子ci和藏語(yǔ)句子tj所構(gòu)成的1∶1對(duì)齊模式的句對(duì),本文中稱(chēng)為句對(duì)點(diǎn).如果該句對(duì)點(diǎn)表示的句對(duì)為錨點(diǎn)句對(duì),則稱(chēng)為錨點(diǎn)句對(duì)點(diǎn).
首先,在雙語(yǔ)文本圖中選擇一個(gè)很小的矩形區(qū)域,使得這個(gè)矩形區(qū)域的對(duì)角線與雙語(yǔ)矩形圖的對(duì)角線平行,從這個(gè)矩形區(qū)域開(kāi)始搜索,系統(tǒng)將查找所有滿足條件的候選句對(duì)點(diǎn),如果沒(méi)有找到任何合適的候選句對(duì)點(diǎn),搜索矩形區(qū)域?qū)⑦m當(dāng)?shù)財(cái)U(kuò)大,直到在這個(gè)搜索區(qū)域內(nèi)找到一個(gè)以上的候選句對(duì)點(diǎn).
其次利用句對(duì)的長(zhǎng)度計(jì)算該句對(duì)成為對(duì)齊錨點(diǎn)的可能性.考慮互譯文本C和T,為了計(jì)算任意一個(gè)句對(duì){ci,tj}的對(duì)齊值,定義四個(gè)參數(shù):
(1)對(duì)應(yīng)文本長(zhǎng)度之比P0=Lc/Lt;
(2)對(duì)應(yīng)句子長(zhǎng)度之比Pl[i,j]=Lci/Ltj;
(3)對(duì)應(yīng)上文部分長(zhǎng)度之比Pu[i,j]=Uci/Utj;
(4)對(duì)應(yīng)下文部分長(zhǎng)度之比Pd[i,j]=Dci/Dtj.
ci表示漢語(yǔ)文本中的第i句;tj表示藏語(yǔ)文本中的第j句;Lc表示漢語(yǔ)文本的總長(zhǎng)度;Lt表示藏語(yǔ)文本的總長(zhǎng)度;Lci表示漢語(yǔ)ci句子的長(zhǎng)度;Ltj表示藏語(yǔ)tj句子的長(zhǎng)度;Uci表示ci上半部分文本總長(zhǎng)度;Utj表示tj上半部分文本總長(zhǎng)度;Dci表示ci下半部分文本總長(zhǎng)度;Dtj表示tj下半部分文本總長(zhǎng)度[7].
若ci和tj確實(shí)可以構(gòu)成(1:1)句珠時(shí),則P[i,j]將小于一定對(duì)齊閾值,此處P[i,j]表示句{ci,tj}的整體對(duì)齊距離函數(shù)值,可構(gòu)造一個(gè)形式對(duì)齊評(píng)價(jià)函數(shù):
P[i,j]=(1/Sim)+a(Pu[i,j]-P0)×2+a(Pl[i,j]-P0)×2+a(Pd[i,j]-P0)×2.
其中:a是一個(gè)權(quán)重系數(shù),其作用是利用上下文長(zhǎng)度和本句的長(zhǎng)度對(duì)P[i,j]進(jìn)行調(diào)節(jié),文本越長(zhǎng),上下文長(zhǎng)度的影響效果就越不敏感.因此,a應(yīng)該做相應(yīng)的變化來(lái)均衡整個(gè)對(duì)齊函數(shù)的值,對(duì)于較短的文本亦如此.本文定義:
a=(Lc/Lci+Lt/Ltj)/2
句對(duì)中兩個(gè)句子的相似度為:
Match(c)代表譯文中出現(xiàn)在漢文句子中的藏語(yǔ)詞,Match(t)代表譯文中出現(xiàn)在藏文句子中的漢語(yǔ)詞.對(duì)齊評(píng)價(jià)函數(shù)值P[i,j]表示的漢藏句子長(zhǎng)度關(guān)系,其值越小,則ci和tj可以構(gòu)成句珠的可能性越大.
最后采用貪心算法,選取P[i,j]值小于某一特定閾值的所有錨點(diǎn),組成錨點(diǎn)集,所有的錨點(diǎn)集合將雙語(yǔ)文本分割為句對(duì)齊的文本.為了獲得更高的對(duì)齊準(zhǔn)確率,再對(duì)抽取出的句對(duì)進(jìn)行相似度過(guò)濾.
為驗(yàn)證上述方法的有效性,利用《毛澤東選集》(第二卷)和其相應(yīng)的藏文翻譯版的部分內(nèi)容作為測(cè)試語(yǔ)料,其中漢文文本201.36KB,句子數(shù)為5321句,藏文文本大小630.43KB,句子數(shù)為4876句.通過(guò)基于長(zhǎng)度和錨點(diǎn)信息相結(jié)合的算法使?jié)h藏句子的對(duì)齊正確率和召回率分別達(dá)到90.87%和87.79%.實(shí)驗(yàn)結(jié)果中491個(gè)漢文句子和412個(gè)藏文句子對(duì)齊不正確.經(jīng)分析,發(fā)生錯(cuò)誤的大多數(shù)句子是(1∶多)或(多∶1)形式的句珠.發(fā)生錯(cuò)誤的主要原因可能與漢藏句子的表達(dá)方式和語(yǔ)法結(jié)構(gòu)的差異有關(guān)系.在今后的研究中將語(yǔ)序、形態(tài)變化、表達(dá)方式等典型語(yǔ)法規(guī)則與句子長(zhǎng)度、錨點(diǎn)信息結(jié)合起來(lái)解決(1∶多)或(多∶1)句珠的對(duì)齊問(wèn)題,進(jìn)一步提高漢藏句子對(duì)齊的正確率.
青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年1期