亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢藏句子自動(dòng)對(duì)齊技術(shù)研究

        2022-07-26 07:18:10才藏太趙海興才讓加
        關(guān)鍵詞:總長(zhǎng)度漢藏錨點(diǎn)

        才藏太,趙海興,才讓加

        (青海師范大學(xué),省部共建藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

        我國(guó)現(xiàn)有近600萬(wàn)藏族人口,主要居住在西藏自治區(qū)和青海、四川、甘肅、云南等省[1].作為藏文化最主要和最基本的載體,藏文已有近1400年的歷史,用藏文書(shū)寫(xiě)的經(jīng)典文獻(xiàn)、古籍著述和譯作浩如煙海,所以大力發(fā)展以藏漢機(jī)器翻譯為核心的藏文信息處理技術(shù)有利于促進(jìn)涉藏地區(qū)政治、經(jīng)濟(jì)、科技、教育、文化的建設(shè)[2].

        目前西藏大學(xué)、西北民族大學(xué)、中央民族大學(xué)、中央翻譯局等單位從事藏文信息處理技術(shù)研究,但目前藏漢雙語(yǔ)數(shù)據(jù)資源缺乏、與藏文信息處理相關(guān)的國(guó)家標(biāo)準(zhǔn)少、藏漢雙語(yǔ)機(jī)器翻譯質(zhì)量較差、應(yīng)用示范不明顯、社會(huì)服務(wù)貢獻(xiàn)不足等問(wèn)題比較突出.針對(duì)以上存在的問(wèn)題,青海師范大學(xué)藏文信息處理研究團(tuán)隊(duì)提出了面向漢藏機(jī)器翻譯的數(shù)據(jù)資源構(gòu)建相關(guān)技術(shù),解決了藏文分詞及標(biāo)注、漢藏詞語(yǔ)對(duì)齊、藏文句子邊界識(shí)別、漢藏句子對(duì)齊等科學(xué)問(wèn)題,為漢藏機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)提供了技術(shù)保障.

        句子級(jí)對(duì)齊的雙語(yǔ)平行語(yǔ)料庫(kù)是跨語(yǔ)言信息檢索、翻譯詞典編撰、雙語(yǔ)術(shù)語(yǔ)自動(dòng)提取以及多語(yǔ)言對(duì)比研究等的重要基礎(chǔ)資源[3].但是,目前在句子級(jí)對(duì)齊的漢藏雙語(yǔ)平行語(yǔ)料獲取方面還存在著嚴(yán)重的不足,基本處于人工對(duì)齊狀態(tài).人工對(duì)齊的優(yōu)點(diǎn)是對(duì)齊精確度高,其缺點(diǎn)是速度慢,對(duì)于有200萬(wàn)對(duì)句子的平行語(yǔ)料庫(kù),人工對(duì)齊一人需4000天才能完成,因此,研制出一種漢藏句子自動(dòng)對(duì)齊方法極為重要.基于長(zhǎng)度和詞典的兩種傳統(tǒng)方法對(duì)于漢英句子對(duì)齊各有優(yōu)點(diǎn),同時(shí)也存在致命的缺點(diǎn)[4].在漢藏對(duì)齊的過(guò)程中不加區(qū)別的直接借鑒傳統(tǒng)方法,效果不佳.鑒于此,本研究提出了一種利用句子長(zhǎng)度和錨點(diǎn)信息相結(jié)合的漢藏雙語(yǔ)句子對(duì)齊方法.錨點(diǎn)就是一段比較容易識(shí)別的文字,并且極有可能在雙語(yǔ)中每種語(yǔ)言的同一位置上出現(xiàn)[5].該方法利用(1∶1)型的句珠作為候選錨點(diǎn),用錨點(diǎn)將雙語(yǔ)文本分割成幾個(gè)塊,在對(duì)應(yīng)雙語(yǔ)分塊中用基于長(zhǎng)度的對(duì)齊實(shí)現(xiàn)句子的對(duì)齊.

        設(shè)計(jì)思想是:首先讀入規(guī)范的漢藏雙語(yǔ)文本;利用句子邊界自動(dòng)識(shí)別程序識(shí)別漢語(yǔ)和藏語(yǔ)句子邊界,并進(jìn)行分句,對(duì)每一個(gè)句子進(jìn)行編號(hào);利用雙語(yǔ)文本圖選擇候選錨點(diǎn)句對(duì)(雙語(yǔ)文本中各抽一個(gè)句子對(duì)應(yīng)在一起,就形成一個(gè)句對(duì)),再用漢藏句子的長(zhǎng)度特性排除不需要計(jì)算對(duì)齊評(píng)價(jià)函數(shù)的句對(duì).計(jì)算排除后剩下的句對(duì)對(duì)應(yīng)的形式對(duì)齊評(píng)價(jià)函數(shù)值;找出對(duì)應(yīng)最小形式對(duì)齊評(píng)價(jià)函數(shù)值的句對(duì);如果最小對(duì)齊評(píng)價(jià)函數(shù)值小于對(duì)齊閾值,則計(jì)算其相似度閥值,如果最小對(duì)齊評(píng)價(jià)函數(shù)值不小于對(duì)齊閾值,則結(jié)束;如果句對(duì)的相似度大于相似度閾值,那么這個(gè)句對(duì)將成為對(duì)齊錨點(diǎn),將雙語(yǔ)文本分別分成兩部分,然后依據(jù)錨點(diǎn)可能出現(xiàn)的范圍限制下一個(gè)錨點(diǎn)的搜索區(qū)域,繼續(xù)進(jìn)行其他句對(duì)的比較;最后輸出對(duì)齊后的文本.

        首先引入了雙語(yǔ)文本圖的概念.雙語(yǔ)文本圖(Bitext Map)在雙語(yǔ)文本研究中的應(yīng)用十分廣泛[6],如圖1所示.

        圖1 雙語(yǔ)文本圖

        本研究對(duì)它做了適當(dāng)改造,一般雙語(yǔ)文本圖中X,Y軸以字節(jié)數(shù)為單位,分別表示原譯文的長(zhǎng)度位置;而在本文中,X,Y軸則以句子為單位,它們分別表示漢文句子(c1,c2,…,cm)和藏文句子(t1,t2,…,tn).我們按照雙語(yǔ)文本的句子編號(hào)作為坐標(biāo)系的橫坐標(biāo)和縱坐標(biāo),雙語(yǔ)文本圖的原點(diǎn)表示原譯文的共同起始點(diǎn),而右上角頂點(diǎn)則表示原譯文的共同結(jié)束點(diǎn),起始點(diǎn)和結(jié)束點(diǎn)間的連線即為雙語(yǔ)矩形圖的對(duì)角線,其斜率稱(chēng)為雙語(yǔ)圖的斜率.雙語(yǔ)圖中的任意點(diǎn)P(i,j)表示漢語(yǔ)句子ci和藏語(yǔ)句子tj所構(gòu)成的1∶1對(duì)齊模式的句對(duì),本文中稱(chēng)為句對(duì)點(diǎn).如果該句對(duì)點(diǎn)表示的句對(duì)為錨點(diǎn)句對(duì),則稱(chēng)為錨點(diǎn)句對(duì)點(diǎn).

        首先,在雙語(yǔ)文本圖中選擇一個(gè)很小的矩形區(qū)域,使得這個(gè)矩形區(qū)域的對(duì)角線與雙語(yǔ)矩形圖的對(duì)角線平行,從這個(gè)矩形區(qū)域開(kāi)始搜索,系統(tǒng)將查找所有滿足條件的候選句對(duì)點(diǎn),如果沒(méi)有找到任何合適的候選句對(duì)點(diǎn),搜索矩形區(qū)域?qū)⑦m當(dāng)?shù)財(cái)U(kuò)大,直到在這個(gè)搜索區(qū)域內(nèi)找到一個(gè)以上的候選句對(duì)點(diǎn).

        其次利用句對(duì)的長(zhǎng)度計(jì)算該句對(duì)成為對(duì)齊錨點(diǎn)的可能性.考慮互譯文本C和T,為了計(jì)算任意一個(gè)句對(duì){ci,tj}的對(duì)齊值,定義四個(gè)參數(shù):

        (1)對(duì)應(yīng)文本長(zhǎng)度之比P0=Lc/Lt;

        (2)對(duì)應(yīng)句子長(zhǎng)度之比Pl[i,j]=Lci/Ltj;

        (3)對(duì)應(yīng)上文部分長(zhǎng)度之比Pu[i,j]=Uci/Utj;

        (4)對(duì)應(yīng)下文部分長(zhǎng)度之比Pd[i,j]=Dci/Dtj.

        ci表示漢語(yǔ)文本中的第i句;tj表示藏語(yǔ)文本中的第j句;Lc表示漢語(yǔ)文本的總長(zhǎng)度;Lt表示藏語(yǔ)文本的總長(zhǎng)度;Lci表示漢語(yǔ)ci句子的長(zhǎng)度;Ltj表示藏語(yǔ)tj句子的長(zhǎng)度;Uci表示ci上半部分文本總長(zhǎng)度;Utj表示tj上半部分文本總長(zhǎng)度;Dci表示ci下半部分文本總長(zhǎng)度;Dtj表示tj下半部分文本總長(zhǎng)度[7].

        若ci和tj確實(shí)可以構(gòu)成(1:1)句珠時(shí),則P[i,j]將小于一定對(duì)齊閾值,此處P[i,j]表示句{ci,tj}的整體對(duì)齊距離函數(shù)值,可構(gòu)造一個(gè)形式對(duì)齊評(píng)價(jià)函數(shù):

        P[i,j]=(1/Sim)+a(Pu[i,j]-P0)×2+a(Pl[i,j]-P0)×2+a(Pd[i,j]-P0)×2.

        其中:a是一個(gè)權(quán)重系數(shù),其作用是利用上下文長(zhǎng)度和本句的長(zhǎng)度對(duì)P[i,j]進(jìn)行調(diào)節(jié),文本越長(zhǎng),上下文長(zhǎng)度的影響效果就越不敏感.因此,a應(yīng)該做相應(yīng)的變化來(lái)均衡整個(gè)對(duì)齊函數(shù)的值,對(duì)于較短的文本亦如此.本文定義:

        a=(Lc/Lci+Lt/Ltj)/2

        句對(duì)中兩個(gè)句子的相似度為:

        Match(c)代表譯文中出現(xiàn)在漢文句子中的藏語(yǔ)詞,Match(t)代表譯文中出現(xiàn)在藏文句子中的漢語(yǔ)詞.對(duì)齊評(píng)價(jià)函數(shù)值P[i,j]表示的漢藏句子長(zhǎng)度關(guān)系,其值越小,則ci和tj可以構(gòu)成句珠的可能性越大.

        最后采用貪心算法,選取P[i,j]值小于某一特定閾值的所有錨點(diǎn),組成錨點(diǎn)集,所有的錨點(diǎn)集合將雙語(yǔ)文本分割為句對(duì)齊的文本.為了獲得更高的對(duì)齊準(zhǔn)確率,再對(duì)抽取出的句對(duì)進(jìn)行相似度過(guò)濾.

        為驗(yàn)證上述方法的有效性,利用《毛澤東選集》(第二卷)和其相應(yīng)的藏文翻譯版的部分內(nèi)容作為測(cè)試語(yǔ)料,其中漢文文本201.36KB,句子數(shù)為5321句,藏文文本大小630.43KB,句子數(shù)為4876句.通過(guò)基于長(zhǎng)度和錨點(diǎn)信息相結(jié)合的算法使?jié)h藏句子的對(duì)齊正確率和召回率分別達(dá)到90.87%和87.79%.實(shí)驗(yàn)結(jié)果中491個(gè)漢文句子和412個(gè)藏文句子對(duì)齊不正確.經(jīng)分析,發(fā)生錯(cuò)誤的大多數(shù)句子是(1∶多)或(多∶1)形式的句珠.發(fā)生錯(cuò)誤的主要原因可能與漢藏句子的表達(dá)方式和語(yǔ)法結(jié)構(gòu)的差異有關(guān)系.在今后的研究中將語(yǔ)序、形態(tài)變化、表達(dá)方式等典型語(yǔ)法規(guī)則與句子長(zhǎng)度、錨點(diǎn)信息結(jié)合起來(lái)解決(1∶多)或(多∶1)句珠的對(duì)齊問(wèn)題,進(jìn)一步提高漢藏句子對(duì)齊的正確率.

        猜你喜歡
        總長(zhǎng)度漢藏錨點(diǎn)
        怎么做能更好地理解工作總量可假設(shè)為“1”
        基于NR覆蓋的NSA錨點(diǎn)優(yōu)選策略研究
        5G手機(jī)無(wú)法在室分NSA站點(diǎn)駐留案例分析
        5G NSA錨點(diǎn)的選擇策略
        5G NSA組網(wǎng)下錨點(diǎn)站的選擇策略?xún)?yōu)化
        2《步輦圖》:初唐漢藏關(guān)系圖錄
        漢藏姐妹一家親
        民族大家庭(2016年3期)2016-03-20 14:52:24
        首先統(tǒng)一單位“1”
        古代漢藏文化交流研究成果(1979-2011)述評(píng)
        漢藏一家親 同愛(ài)大中國(guó)
        亚洲人成影院在线观看| 日本中国内射bbxx| 免费无码一区二区三区a片百度| 无码精品a∨在线观看| 国产精品户露av在线户外直播 | 中文人成影院| 国产精品麻花传媒二三区别| 国产日韩久久久精品影院首页| 日本成人三级视频网站| 男女打扑克视频在线看| 国产精品成人亚洲一区| 一本色道久久88亚洲精品综合| 婷婷久久久亚洲欧洲日产国码av| 97人妻视频妓女网| 国产99久久精品一区| 日本免费大片一区二区三区| 国产精品成熟老女人| 日本爽快片18禁免费看| 无码不卡高清毛片免费| 国产精品va在线观看一| 国产精品第一区亚洲精品| 国产三级久久精品三级91| 欧美大屁股xxxx高跟欧美黑人| 国产欧美日韩一区二区三区在线 | 人人妻人人澡人人爽人人精品电影| 久久中文字幕日韩精品| 精品亚洲视频免费观看网站| 国产一区二区三区最新地址| 妺妺窝人体色www婷婷| 国产真实老熟女无套内射| 97精品国产91久久久久久久| 免费女同毛片在线不卡| 一区二区三区午夜视频在线| 国产专区一线二线三线码| 99久久久无码国产精品试看| 国产成人精品亚洲午夜| 一本久久a久久精品综合| 国产精华液一区二区三区| 久久久久久人妻一区精品| japanesehd中国产在线看| 女同舌吻互慰一区二区|