亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢藏短語對抽取中短語譯文獲取方法研究

        2011-06-14 03:34:54諾明花劉匯丹丁治明
        中文信息學(xué)報 2011年3期
        關(guān)鍵詞:漢藏語塊藏文

        諾明花,吳 健,劉匯丹,丁治明

        (1. 中國科學(xué)院 軟件研究所,北京 100190;2. 中國科學(xué)院 研究生院,北京 100049)

        1 引言

        本文工作核心是要針對特定領(lǐng)域漢藏多策略機(jī)器輔助翻譯系統(tǒng)(MSCT_CAT)構(gòu)建短語對齊庫的需求,獲取藏文譯文。MSCT_CAT是基于實(shí)例的輔助翻譯系統(tǒng),它通過檢索實(shí)例句子庫,短句庫和短語庫來提供相似的參考譯文。

        基于短語的統(tǒng)計(jì)機(jī)器翻譯的優(yōu)勢在于短語能夠抓住局部上下文的依賴關(guān)系。迄今為止,已經(jīng)出現(xiàn)了多種短語抽取方法[1-8]。其中,有些計(jì)算復(fù)雜度太高,代價很高;有些模型依賴于詞對齊的結(jié)果,有些依賴于句法分析結(jié)果,對資源的要求很高。本文要從漢藏對齊語料中抽取互譯短語對。由于藏文自身的繁雜性及使用范圍相對較小的特點(diǎn),加之當(dāng)前藏文信息處理技術(shù)還在起步階段,藏語語料庫建設(shè),自動分詞標(biāo)注等與機(jī)器翻譯相關(guān)的基礎(chǔ)研究尚未形成系統(tǒng)。GIZA++等開源詞對齊工具對訓(xùn)練語料庫規(guī)模有一定要求,特定領(lǐng)域漢藏句對齊語料規(guī)模有限,漢藏詞對齊正確率為進(jìn)一步做短語抽取而言不可取。因此,考慮目前還沒有詞性、句法層面上加工過的語料,漢藏短語獲取方法一定擺脫對詞對齊、句法分析等資源的依賴。

        本文獲取的短語是廣義上的,它是由若干個單詞組成的語塊。MSCT_CAT的短語庫只要有漢語短語以及它的藏文譯文即可以轉(zhuǎn)成TMX庫,以供檢索和返回短語譯文用。本文的思路是先從句對齊雙語語料中獲取有效漢語語塊,對包含待譯語塊的句對求交集,得到候選譯文,最后經(jīng)過后處理得到漢藏互譯語塊并保持到短語庫中。

        2 翻譯基本模型

        王辰[9]提出了一種基于序列相交的短語譯文獲取方法,該方法不依賴于額外資源信息的特點(diǎn)正符合目前藏文資源匱乏,可以借鑒到MSCT_CAT的短語庫構(gòu)建模型中。

        本節(jié)先分析藏文短語類型,再介紹TIA譯文獲取模型。為了使用詞序列相交方法,漢藏兩種語言的文本都需要分詞。本文使用斯坦福的中文分詞開源項(xiàng)目和中國科學(xué)院軟件研究所多語言信息處理研究室開發(fā)的藏文分詞模塊分別對漢藏單語語料進(jìn)行分詞。

        2.1 藏文短語類型

        在藏文實(shí)際文本中,從不同層面來分析短語特性時可以得出以下結(jié)論。

        ? 其次,漢藏互譯對之間對應(yīng)關(guān)系有兩種形式;經(jīng)過分析收集的漢藏句對齊語料發(fā)現(xiàn)雙語短語中的漢語單詞既有只有一種譯文的,也有兩個或以上的譯文的。一個原文短語對應(yīng)一個譯文較常見,這里不舉例說明,這種現(xiàn)象本文稱為一詞一譯,簡稱一對一(1-1)。由于翻譯機(jī)構(gòu)的地域性或者上下文意譯,同一個中文有不同譯法,類似一詞多義,這種現(xiàn)象本文稱為一詞多譯,簡稱一對多(1-n)。

        2.2 藏文短語譯文獲取模型

        漢藏雙語句對詞序列相交的示例見表1。

        表1 漢藏雙語句對詞序列相交示例表

        從以上分析可以得出兩個句對SPr與SPt相交公式,表示如下:

        Q={Q1,Q2, …,Qk} 為句對SPr和SPt中漢語句子CSr和CSt的交集,Q中包含Qi(1≤i≤k)待翻譯的中文短語;T={T1,T2, …,Tg} 為SPr和SPt中藏文句子TSr和TSt的交集,T中肯定包含Qi的譯文,可以通過漢藏詞典確定 (Qi,Tj)漢藏互譯對。

        待翻譯中文短語由多個漢語單詞構(gòu)成,表示如公式(2):

        Qi中任意單詞Qi+θ(1≤θ≤l)在詞典中查找,如果詞典中有譯項(xiàng)計(jì)數(shù)并保存到一個鏈結(jié)構(gòu)L中,一定會存在某個Tj+ω能夠滿足Tj+ω∩L≠ Ф的條件,保留為候選譯文。當(dāng)Qi中有未找到譯項(xiàng)的Qi+θ時,設(shè)定一個閾值(本文取0.66),對待譯漢語語塊中查詞典成功率大于閾值的保留譯文,對小于閾值的候選譯文進(jìn)一步計(jì)算其在序列相交過程中累計(jì)的頻次權(quán)值,保留權(quán)值高的候選,丟棄權(quán)值低的候選譯文。最終保留的Tj+ω(1≤ω≤g)構(gòu)成Qi的譯文Tj。Tj可以是連續(xù)的,也可以是非連續(xù)的。

        3 藏文短語譯文獲取

        本文提出藏文詞串頻率統(tǒng)計(jì)算法(簡稱TSM)和藏文詞串序列相交算法(簡稱TIA)兩種方法獲取短語譯文。TSM可以滿足短語連續(xù)性,但是只能抽取1-1的短語對。而TIA可以彌補(bǔ)TSM的不足,能夠抽取1-n的漢藏短語對。TIA使用的語料為漢藏句對齊雙語語料庫,將通過漢藏詞序列相交模型,獲取1-n的漢藏互譯短語對。

        3.1 藏文詞串頻率統(tǒng)計(jì)算法

        先簡單描述一下詞串頻率統(tǒng)計(jì)算法思想。給定一個待翻譯漢語語塊Q,TSM需要解決怎樣確定Q的譯文P。TSM算法目標(biāo)是獲取1-1的互譯對。為了算法描述便利,先假定部分符號表示。

        ?SP表示語料中所有包含Q的句對集合;

        ?Sn表示SP中句對數(shù);

        ?TSS表示SP中藏文句子集;

        ?CS表示公共子串。

        以上符號通用于3.1節(jié)和3.2節(jié)。TSM算法生成公共子串CS過程描述如下:

        1. 從TSS中,任選一個藏文句子TS。

        2. 為TS建立一個單詞列表WL,并保留TS中的詞序。

        3.WL中詞在TSS范圍內(nèi)以句子為單位做詞頻統(tǒng)計(jì)。

        4. 標(biāo)記所有滿足詞頻為Sn的單詞,獲取CS的集合,用ICS來表示。

        5. 使用雙語詞典過濾ICS中與Q不相關(guān)的公共子串,用UCS表示。

        6. 按照WL中詞序恢復(fù)CS的鄰接性和連續(xù)性。

        7. 使用TSW過濾模塊過濾CS邊界高頻干擾信息得到譯文P。

        藏文詞串頻率統(tǒng)計(jì)算法抽取到的1-1互譯對(Q,P)能夠很好地滿足MSCT_CAT構(gòu)建短語庫的需求。TSM算法只適合1-1的連續(xù)和非連續(xù)短語抽取,然而以下兩個因素導(dǎo)致漢藏語料中存在漢語短語有多種譯法的情況,降低TSM的召回率。

        ? 短語中部分漢語單詞可以對應(yīng)意義相同的多個藏文單詞,不同的譯者選擇不一致。

        ? 根據(jù)上下文意譯時,藏文格特征和后修飾特征[12]引起中心詞之外的部分不一致。

        3.2 藏文詞串序列相交算法

        為了提高召回率,TIA重點(diǎn)解決1-n的短語對抽取問題。漢藏詞序列相交模型中提到,對包含Q的漢藏句對計(jì)算公共子串確定P后可以獲取漢藏短語對(Q,P)。從公式(1)得知,句對的序列相交由若干個藏文公共子串CS組成。將為每個CS構(gòu)造一個樹結(jié)構(gòu)T的話,句對的序列相交可以組成一個森林。T由中心節(jié)點(diǎn)和修飾節(jié)點(diǎn)兩種節(jié)點(diǎn)組成。表2給出兩種節(jié)點(diǎn)各個字段及功能,以便后續(xù)算法描述。

        表2中的中心節(jié)點(diǎn)用來存儲藏文句子取交后的CS的所有中心語,用ITN表示,修飾節(jié)點(diǎn)記錄與其相關(guān)聯(lián)的中心節(jié)點(diǎn)的修飾語,用SYN表示。因此,T的根節(jié)點(diǎn)是tag域?yàn)?的ITN節(jié)點(diǎn),T的葉子是next域?yàn)榭盏腎TN節(jié)點(diǎn)。對某個ITN來說,syn域指向左節(jié)點(diǎn),next域指向右節(jié)點(diǎn)。CS中某個中心節(jié)點(diǎn)的左子樹是由其在語料中出現(xiàn)的所有格特征和后修飾特征通過SYN的next域鏈接而成的鏈表SL。

        表2 公共子串樹節(jié)點(diǎn)各個域及功能表

        由公式(2),Q由若干個詞Qi(1≤i≤l) 組成。取交過程中Q的所有候選譯文均保存為表2的節(jié)點(diǎn),生成樹T或森林F。T或F中并不是所有節(jié)點(diǎn)組成最終譯文,通過確認(rèn)過程滿足以下兩個條件的節(jié)點(diǎn)才會被選為最終譯文的一部分。

        1) 譯文中一定包含任意Qi(1≤i≤l)的譯文;

        2) 所有候選譯文的支持度和等于Sn。

        TIA算法核心是為已知的漢語語塊Q構(gòu)建公共子串森林F,以及遍歷F來確認(rèn)Q的最終譯文P。構(gòu)建F的過程描述如下:

        TIA構(gòu)建F的過程

        1. Choose any two sentencesTS1andTS2fromTSSat random.

        2. CalculateTS1∩TS2results, denote asIL.

        3. FilterILby dictionary (D) in terms ofQ, get sublist ofIL, denotes asSL.

        4. Construct forestFofSL, based on table 3.

        5. for eachTSinTSS-{TS1,TS2}

        6. for each treeTinF

        7. ifTScontainsTthen

        8. plus 1 tofreqfor all nodes inTand exit.

        9. if (TScontains parts ofT) & (TScontains qualifierSfor the rest parts ofT)& (S?SL) then

        10. newly-built aSYNand assign theSto field syn and exit.

        11. end for

        12. end for

        以上取交過程生成一個森林F。下一步是通過遍歷F確認(rèn)Q的譯文P。P是CS的集合,藏語譯文確認(rèn)過程描述如下。其中用A,B,C,D分別將P標(biāo)記為1-1,1-n,,連續(xù)或非連續(xù)短語等短語類型。

        TIA藏語譯文確認(rèn)過程

        1. inttn=0,i=0.

        2. for eachTinF

        3. for eachtwinT

        4. iffreqequalsSn

        5. addtwto{Pi} andi++.

        6. else if sum offreqinSLequalsSn

        7. add sy_tw ofSLto {Pi} and

        i++.

        8. else

        9. discardT.

        10. end for

        11.tn++

        12. end for

        13. iftn==1

        14. (Q,P) are marked asA

        15. Iftn>1

        16. (Q,P) are marked as B

        17. Ifi==1

        18.Pis marked asC

        19.elseifi> 1 then

        20.Pis marked asD

        可以示例說明藏文譯文確認(rèn)過程。假設(shè),在漢藏平行語料中有50個句對包含待翻譯語塊Q,取交后獲取兩個公共子串CS1和CS2。為CS1和CS2構(gòu)建樹結(jié)構(gòu),分別用T1和T2表示,如圖1。

        圖1 譯文確認(rèn)過程

        待譯語塊Qi的譯文Tj的確認(rèn)過程是對由T1和T2組成的森林的搜索過程。在圖1 中,T1的根節(jié)點(diǎn)W11的freq域值等于50,因此被標(biāo)記為最終譯文的組成部分。W12_sy1是W12的修飾語,同時W12_sy1和W12的freq域值的和等于50,因此詞組[W12,W12_sy1] 被接受。W13的freq域?yàn)?0,它被接受為最終譯文的組成部分。W14的freq域值小于50,從而被丟棄。同樣原理,W21和W22被接受。Qi的最終翻譯譯文Tj是由兩棵樹T1和T2對應(yīng)的字符串中所有被接受并標(biāo)記的節(jié)點(diǎn)序列的集合,P={W11[W12|W12_sy1]W13,W21W22}。

        因?yàn)槭褂昧斯沧哟畼浜蜕纸Y(jié)構(gòu),TIA既能抽取1-1短語,又能抽取1-n短語。同時TIA也不會遺漏非連續(xù)短語,能夠滿足藏文短語的連續(xù)性。從而可以滿足MSCT_CAT的短語庫構(gòu)建需求。

        4 實(shí)驗(yàn)

        實(shí)驗(yàn)數(shù)據(jù)是漢藏法律法規(guī)和公文報告等特定領(lǐng)域語料。漢語語料通過網(wǎng)上下載處理得到,藏文語料由西藏翻譯局提供。收集到的原始語料通過篇章對齊和句子對齊后,最終形成短語對抽取模塊可以處理的五份漢藏語料,語料的統(tǒng)計(jì)數(shù)據(jù)見表3。表中,最后一列短語對數(shù)為計(jì)算召回率時人工確認(rèn)的平行語料中所含的短語對數(shù)量。

        表3 語料信息

        4.1 藏文短語連續(xù)性驗(yàn)證

        在實(shí)驗(yàn)中,對五組語料分別用TSM和TIA進(jìn)行短語抽取之后,采用計(jì)算機(jī)輔助人工的方法判斷互譯對正確與否,實(shí)驗(yàn)的準(zhǔn)確率(P)定義為:

        召回率(R)定義為:

        TSM算法簡單,容易實(shí)現(xiàn)。它抽取的連續(xù)短語準(zhǔn)確率較高。TSM抽取的1-1連續(xù)短語(C)和非連續(xù)短語(D)統(tǒng)計(jì)結(jié)果見表4。TIA算法因?yàn)榭紤]到同一個中文單詞的不同表示以及藏文的格特征和后修飾特征,準(zhǔn)確率沒有TSM好,但也能滿足系統(tǒng)需求。TIA抽取的連續(xù)短語和非連續(xù)短語統(tǒng)計(jì)結(jié)果見表5。表4和表5中D表示不連續(xù)(Discontinuous),C表示連續(xù)(Continuous)。

        表4 TSM抽取結(jié)果

        表5 TIA抽取結(jié)果的連續(xù)性統(tǒng)計(jì)表

        數(shù)據(jù)表明,兩種算法抽取的短語召回率都很低,TIA與TSM比較召回率明顯提高,原因有以下幾點(diǎn): (1)漢藏詞典數(shù)據(jù)稀疏問題。雖然算法中采用閾值和短語頻次權(quán)值來保留部分候選譯文,無法徹底解決數(shù)據(jù)稀疏問題。(2)漢藏分詞粒度不一致,一些漢語兩詞組成的短語在藏文中對應(yīng)一個詞,不再是短語。(3)漢語有效語塊是從單語語料中抽取的,只要有實(shí)際意義就可取。藏文是SOV型語言,其中部分漢語語塊在平行語料中失去了句法特征,所以很難找到譯文。(4)語料中1-n短語對的存在造成TSM的召回率明顯不如TIA的好。

        4.2 藏文短語對應(yīng)關(guān)系驗(yàn)證

        為了證明TIA算法抽取1-n短語對的有效性,分析TIA從五組語料中抽取到的短語對的漢藏對應(yīng)關(guān)系。表6給出漢藏短語對應(yīng)關(guān)系分布情況及準(zhǔn)確率和召回率。

        表6 TIA抽取結(jié)果的對應(yīng)關(guān)系統(tǒng)計(jì)表

        很顯然,語料中非連續(xù)藏文短語和1-n的藏文短語均不能忽略不計(jì)。TIA可以抽取連續(xù)和非連續(xù)的短語。同時,它能抽取1-1和1-n的漢藏短語對。TIA算法獲取的短語譯文準(zhǔn)確率達(dá)81%。

        實(shí)驗(yàn)結(jié)果分析得知,由于數(shù)據(jù)稀疏問題,語料1和語料4中低頻短語對(在語料中出現(xiàn)次數(shù)很少)較頻繁出現(xiàn),從而導(dǎo)致語料1和語料4的準(zhǔn)確率在同組試驗(yàn)中低于其他語料。低頻短語在序列相交過程中攜帶了額外的與譯文無關(guān)內(nèi)容,這些干擾信息使準(zhǔn)確率降低。設(shè)定頻率限度可以提高準(zhǔn)確率,但會損失召回率。從表3可以看出,語料5在五組語料中句對數(shù)最多;每組實(shí)驗(yàn)結(jié)果中,語料5的準(zhǔn)確率最佳,這表明通常語料變大可以提高覆蓋率,較高的覆蓋率能提高準(zhǔn)確率。

        5 結(jié)束語

        在目前漢藏語料資源匱乏、語料處理技術(shù)不成熟的前提下,本文提出獲取藏語譯文的方法。依據(jù)包含待翻譯漢語語塊的漢藏句對公共子串的思想,分別嘗試藏文詞串頻率統(tǒng)計(jì)算法和藏文詞串序列相交算法獲取待譯漢語語塊的譯文。

        然而,文章提出的方法召回率太低,這是下一步研究的重點(diǎn)。提高召回率后,可以將抽取的短語融入翻譯模型中進(jìn)行實(shí)際翻譯工作。目前收集的漢藏平行語料中存在數(shù)據(jù)稀疏問題,TSM和TIA都是依賴于統(tǒng)計(jì)的,對數(shù)據(jù)稀疏問題無可奈何。改進(jìn)語料覆蓋率有利于擴(kuò)建漢藏短語庫。

        [1] Daniel Marcu, William Wong. A Phrase-based, Joint Probability Module for Statistical Machine Translation [C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Morristown, NJ, USA. Association for Computational Linguistics, 2002:133-139.

        [2] Dekai Wu.Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J].Computational Linguistics, 1997,23(3):377-403.

        [3] Ying Zhang,Stephan Vogel, and Alex Waibel.Integrated phrase segmentation and alignment algorithm for statistical machine translation [C]//Proceeding of International Conference on Natural Language Processing and Knowledge Engineering.Beijing,2003:567-573.

        [4] Ying Zhang, Stephan Vogel. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model [C]//Proceeding of ACL Workshop on Building and Using Parallel Texts. Ann Arbor.2005:159-162.

        [5] H Kaji, Y Kida, and Y Morimoto. Learning Translation Templates from Bilingual Text[C]//Proceedings of the 14th International Conference on Computational Linguistics. Nantes, France. 1992:672-678.

        [6] Franz Josef Och,Hermann Ney.The alignment template approach to statistical machine translation[J].Computational Linguistics,2004,30(4):417-449.

        [7] David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics. Ann Arbor.2005:263-270.

        [8] 何彥青,周玉,宗成慶,等.基于“松弛尺度”的短語翻譯對抽取方法[J].中文信息學(xué)報,2007,21(5):91-95.

        [9] 王辰,宋國龍,吳宏林,等.基于序列相交的短語譯文獲取[J].中文信息學(xué)報,2009,23(1):39-43.

        [10] 周季文,傅同和.藏漢互譯教程[M].北京:民族出版社,1999.

        [11] 張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.

        [12] 陳玉忠,李保利,俞士汶,蘭措吉. 基于格助詞和接續(xù)特征的藏文自動分詞方案[C]//第一屆學(xué)生計(jì)算語言學(xué)研討會論文集.北京,2002.

        猜你喜歡
        漢藏語塊藏文
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        2《步輦圖》:初唐漢藏關(guān)系圖錄
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        現(xiàn)代語境下的藏文報刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        漢藏姐妹一家親
        民族大家庭(2016年3期)2016-03-20 14:52:24
        英語語塊在漢英翻譯中的積極作用
        語言與翻譯(2014年3期)2014-07-12 10:32:10
        從語塊類型看英語專業(yè)大學(xué)生語塊獲取能力與聽力理解能力的相關(guān)性研究
        外國語文(2013年1期)2013-09-12 07:57:56
        古代漢藏文化交流研究成果(1979-2011)述評
        語塊的性質(zhì)及漢語語塊系統(tǒng)的層級關(guān)系
        精品不卡视频在线网址| 日本韩国黄色三级三级| 欧美中出在线| 日本黄色一区二区三区视频| 97久久久一区二区少妇| 大尺度极品粉嫩嫩模免费| 欧美日韩国产另类在线观看 | 啦啦啦中文在线观看日本| 精品无码人妻一区二区三区不卡| 日本乱人伦在线观看| 国产成人亚洲不卡在线观看| 亚洲AV无码成人品爱| 国产在线观看免费一级| 久久精品国产亚洲av蜜臀久久| 人成综合视频在线播放| 男女猛烈无遮挡免费视频| 中文日韩亚洲欧美制服| 夜爽8888视频在线观看| 精品无码av不卡一区二区三区 | 色爱区综合五月激情| 亚洲熟妇色xxxxx欧美老妇| 日韩中文字幕网站| 亚洲自偷自拍另类第一页| 寂寞人妻渴望被中出中文字幕| 麻豆蜜桃av蜜臀av色欲av| 精品久久香蕉国产线看观看亚洲| 性一交一乱一伦a片| 四虎精品影视| 天堂AV无码AV毛片毛| 亚洲精品中文字幕一二三四| 高黄暴h日本在线观看| 久久久久久久综合综合狠狠| chinesefreexxxx国产麻豆| 精品人妻一区二区蜜臀av| 免费人成网站在线视频| 又粗又黄又猛又爽大片免费| 美女视频黄的全免费的| 亚洲日产无码中文字幕| 人妻一区二区三区免费看| 一区二区三区四区亚洲免费 | 人妻色中文字幕免费视频|