亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

漢藏句子自動(dòng)對(duì)齊技術(shù)研究

2022-07-26 07:18:10才藏太趙海興才讓加

青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年1期

才藏太，趙海興，才讓加

(青海師范大學(xué)，省部共建藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室，青海西寧 810008)

我國(guó)現(xiàn)有近600萬(wàn)藏族人口，主要居住在西藏自治區(qū)和青海、四川、甘肅、云南等省[1].作為藏文化最主要和最基本的載體，藏文已有近1400年的歷史，用藏文書(shū)寫(xiě)的經(jīng)典文獻(xiàn)、古籍著述和譯作浩如煙海，所以大力發(fā)展以藏漢機(jī)器翻譯為核心的藏文信息處理技術(shù)有利于促進(jìn)涉藏地區(qū)政治、經(jīng)濟(jì)、科技、教育、文化的建設(shè)[2].

目前西藏大學(xué)、西北民族大學(xué)、中央民族大學(xué)、中央翻譯局等單位從事藏文信息處理技術(shù)研究，但目前藏漢雙語(yǔ)數(shù)據(jù)資源缺乏、與藏文信息處理相關(guān)的國(guó)家標(biāo)準(zhǔn)少、藏漢雙語(yǔ)機(jī)器翻譯質(zhì)量較差、應(yīng)用示范不明顯、社會(huì)服務(wù)貢獻(xiàn)不足等問(wèn)題比較突出.針對(duì)以上存在的問(wèn)題，青海師范大學(xué)藏文信息處理研究團(tuán)隊(duì)提出了面向漢藏機(jī)器翻譯的數(shù)據(jù)資源構(gòu)建相關(guān)技術(shù)，解決了藏文分詞及標(biāo)注、漢藏詞語(yǔ)對(duì)齊、藏文句子邊界識(shí)別、漢藏句子對(duì)齊等科學(xué)問(wèn)題，為漢藏機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)提供了技術(shù)保障.

句子級(jí)對(duì)齊的雙語(yǔ)平行語(yǔ)料庫(kù)是跨語(yǔ)言信息檢索、翻譯詞典編撰、雙語(yǔ)術(shù)語(yǔ)自動(dòng)提取以及多語(yǔ)言對(duì)比研究等的重要基礎(chǔ)資源[3].但是，目前在句子級(jí)對(duì)齊的漢藏雙語(yǔ)平行語(yǔ)料獲取方面還存在著嚴(yán)重的不足，基本處于人工對(duì)齊狀態(tài).人工對(duì)齊的優(yōu)點(diǎn)是對(duì)齊精確度高，其缺點(diǎn)是速度慢，對(duì)于有200萬(wàn)對(duì)句子的平行語(yǔ)料庫(kù)，人工對(duì)齊一人需4000天才能完成，因此，研制出一種漢藏句子自動(dòng)對(duì)齊方法極為重要.基于長(zhǎng)度和詞典的兩種傳統(tǒng)方法對(duì)于漢英句子對(duì)齊各有優(yōu)點(diǎn)，同時(shí)也存在致命的缺點(diǎn)[4].在漢藏對(duì)齊的過(guò)程中不加區(qū)別的直接借鑒傳統(tǒng)方法，效果不佳.鑒于此，本研究提出了一種利用句子長(zhǎng)度和錨點(diǎn)信息相結(jié)合的漢藏雙語(yǔ)句子對(duì)齊方法.錨點(diǎn)就是一段比較容易識(shí)別的文字，并且極有可能在雙語(yǔ)中每種語(yǔ)言的同一位置上出現(xiàn)[5].該方法利用(1∶1)型的句珠作為候選錨點(diǎn)，用錨點(diǎn)將雙語(yǔ)文本分割成幾個(gè)塊，在對(duì)應(yīng)雙語(yǔ)分塊中用基于長(zhǎng)度的對(duì)齊實(shí)現(xiàn)句子的對(duì)齊.

設(shè)計(jì)思想是：首先讀入規(guī)范的漢藏雙語(yǔ)文本；利用句子邊界自動(dòng)識(shí)別程序識(shí)別漢語(yǔ)和藏語(yǔ)句子邊界，并進(jìn)行分句，對(duì)每一個(gè)句子進(jìn)行編號(hào)；利用雙語(yǔ)文本圖選擇候選錨點(diǎn)句對(duì)(雙語(yǔ)文本中各抽一個(gè)句子對(duì)應(yīng)在一起，就形成一個(gè)句對(duì))，再用漢藏句子的長(zhǎng)度特性排除不需要計(jì)算對(duì)齊評(píng)價(jià)函數(shù)的句對(duì).計(jì)算排除后剩下的句對(duì)對(duì)應(yīng)的形式對(duì)齊評(píng)價(jià)函數(shù)值；找出對(duì)應(yīng)最小形式對(duì)齊評(píng)價(jià)函數(shù)值的句對(duì)；如果最小對(duì)齊評(píng)價(jià)函數(shù)值小于對(duì)齊閾值，則計(jì)算其相似度閥值，如果最小對(duì)齊評(píng)價(jià)函數(shù)值不小于對(duì)齊閾值，則結(jié)束；如果句對(duì)的相似度大于相似度閾值，那么這個(gè)句對(duì)將成為對(duì)齊錨點(diǎn)，將雙語(yǔ)文本分別分成兩部分，然后依據(jù)錨點(diǎn)可能出現(xiàn)的范圍限制下一個(gè)錨點(diǎn)的搜索區(qū)域，繼續(xù)進(jìn)行其他句對(duì)的比較；最后輸出對(duì)齊后的文本.

首先引入了雙語(yǔ)文本圖的概念.雙語(yǔ)文本圖(Bitext Map)在雙語(yǔ)文本研究中的應(yīng)用十分廣泛[6]，如圖1所示.

圖1 雙語(yǔ)文本圖

本研究對(duì)它做了適當(dāng)改造，一般雙語(yǔ)文本圖中X,Y軸以字節(jié)數(shù)為單位，分別表示原譯文的長(zhǎng)度位置；而在本文中，X,Y軸則以句子為單位，它們分別表示漢文句子(c1,c2,…,cm)和藏文句子(t1,t2，…,tn).我們按照雙語(yǔ)文本的句子編號(hào)作為坐標(biāo)系的橫坐標(biāo)和縱坐標(biāo)，雙語(yǔ)文本圖的原點(diǎn)表示原譯文的共同起始點(diǎn)，而右上角頂點(diǎn)則表示原譯文的共同結(jié)束點(diǎn)，起始點(diǎn)和結(jié)束點(diǎn)間的連線即為雙語(yǔ)矩形圖的對(duì)角線，其斜率稱(chēng)為雙語(yǔ)圖的斜率.雙語(yǔ)圖中的任意點(diǎn)P(i,j)表示漢語(yǔ)句子ci和藏語(yǔ)句子tj所構(gòu)成的1∶1對(duì)齊模式的句對(duì)，本文中稱(chēng)為句對(duì)點(diǎn).如果該句對(duì)點(diǎn)表示的句對(duì)為錨點(diǎn)句對(duì)，則稱(chēng)為錨點(diǎn)句對(duì)點(diǎn).

首先，在雙語(yǔ)文本圖中選擇一個(gè)很小的矩形區(qū)域，使得這個(gè)矩形區(qū)域的對(duì)角線與雙語(yǔ)矩形圖的對(duì)角線平行，從這個(gè)矩形區(qū)域開(kāi)始搜索，系統(tǒng)將查找所有滿足條件的候選句對(duì)點(diǎn)，如果沒(méi)有找到任何合適的候選句對(duì)點(diǎn)，搜索矩形區(qū)域?qū)⑦m當(dāng)?shù)財(cái)U(kuò)大，直到在這個(gè)搜索區(qū)域內(nèi)找到一個(gè)以上的候選句對(duì)點(diǎn).

其次利用句對(duì)的長(zhǎng)度計(jì)算該句對(duì)成為對(duì)齊錨點(diǎn)的可能性.考慮互譯文本C和T，為了計(jì)算任意一個(gè)句對(duì){ci,tj}的對(duì)齊值，定義四個(gè)參數(shù)：

(1)對(duì)應(yīng)文本長(zhǎng)度之比P0=Lc/Lt;

(2)對(duì)應(yīng)句子長(zhǎng)度之比Pl[i,j]=Lci/Ltj；

(3)對(duì)應(yīng)上文部分長(zhǎng)度之比Pu[i,j]=Uci/Utj;

(4)對(duì)應(yīng)下文部分長(zhǎng)度之比Pd[i,j]=Dci/Dtj.

ci表示漢語(yǔ)文本中的第i句；tj表示藏語(yǔ)文本中的第j句；Lc表示漢語(yǔ)文本的總長(zhǎng)度；Lt表示藏語(yǔ)文本的總長(zhǎng)度；Lci表示漢語(yǔ)ci句子的長(zhǎng)度；Ltj表示藏語(yǔ)tj句子的長(zhǎng)度；Uci表示ci上半部分文本總長(zhǎng)度；Utj表示tj上半部分文本總長(zhǎng)度；Dci表示ci下半部分文本總長(zhǎng)度；Dtj表示tj下半部分文本總長(zhǎng)度[7].

若ci和tj確實(shí)可以構(gòu)成(1：1)句珠時(shí)，則P[i,j]將小于一定對(duì)齊閾值，此處P[i,j]表示句{ci,tj}的整體對(duì)齊距離函數(shù)值，可構(gòu)造一個(gè)形式對(duì)齊評(píng)價(jià)函數(shù)：

P[i,j]=(1/Sim)+a(Pu[i,j]-P0)×2+a(Pl[i,j]-P0)×2+a(Pd[i,j]-P0)×2.

其中:a是一個(gè)權(quán)重系數(shù)，其作用是利用上下文長(zhǎng)度和本句的長(zhǎng)度對(duì)P[i,j]進(jìn)行調(diào)節(jié)，文本越長(zhǎng)，上下文長(zhǎng)度的影響效果就越不敏感.因此，a應(yīng)該做相應(yīng)的變化來(lái)均衡整個(gè)對(duì)齊函數(shù)的值，對(duì)于較短的文本亦如此.本文定義：

a=(Lc/Lci+Lt/Ltj)/2

句對(duì)中兩個(gè)句子的相似度為：

Match(c)代表譯文中出現(xiàn)在漢文句子中的藏語(yǔ)詞，Match(t)代表譯文中出現(xiàn)在藏文句子中的漢語(yǔ)詞.對(duì)齊評(píng)價(jià)函數(shù)值P[i,j]表示的漢藏句子長(zhǎng)度關(guān)系，其值越小，則ci和tj可以構(gòu)成句珠的可能性越大.

最后采用貪心算法，選取P[i,j]值小于某一特定閾值的所有錨點(diǎn)，組成錨點(diǎn)集，所有的錨點(diǎn)集合將雙語(yǔ)文本分割為句對(duì)齊的文本.為了獲得更高的對(duì)齊準(zhǔn)確率，再對(duì)抽取出的句對(duì)進(jìn)行相似度過(guò)濾.

為驗(yàn)證上述方法的有效性，利用《毛澤東選集》(第二卷)和其相應(yīng)的藏文翻譯版的部分內(nèi)容作為測(cè)試語(yǔ)料，其中漢文文本201.36KB，句子數(shù)為5321句，藏文文本大小630.43KB，句子數(shù)為4876句.通過(guò)基于長(zhǎng)度和錨點(diǎn)信息相結(jié)合的算法使?jié)h藏句子的對(duì)齊正確率和召回率分別達(dá)到90.87%和87.79%.實(shí)驗(yàn)結(jié)果中491個(gè)漢文句子和412個(gè)藏文句子對(duì)齊不正確.經(jīng)分析，發(fā)生錯(cuò)誤的大多數(shù)句子是(1∶多)或(多∶1)形式的句珠.發(fā)生錯(cuò)誤的主要原因可能與漢藏句子的表達(dá)方式和語(yǔ)法結(jié)構(gòu)的差異有關(guān)系.在今后的研究中將語(yǔ)序、形態(tài)變化、表達(dá)方式等典型語(yǔ)法規(guī)則與句子長(zhǎng)度、錨點(diǎn)信息結(jié)合起來(lái)解決(1∶多)或(多∶1)句珠的對(duì)齊問(wèn)題，進(jìn)一步提高漢藏句子對(duì)齊的正確率.