亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用句法信息改進(jìn)交互式機(jī)器翻譯

        2017-06-01 11:29:47張亞鵬蔡?hào)|風(fēng)
        中文信息學(xué)報(bào) 2017年2期
        關(guān)鍵詞:子樹(shù)解碼語(yǔ)料

        張亞鵬,葉 娜,蔡?hào)|風(fēng)

        (沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)

        利用句法信息改進(jìn)交互式機(jī)器翻譯

        張亞鵬,葉 娜,蔡?hào)|風(fēng)

        (沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)

        在很多領(lǐng)域中,全自動(dòng)機(jī)器翻譯的譯文質(zhì)量還無(wú)法達(dá)到令人滿意的程度。要想獲得正確無(wú)誤的譯文,往往需要翻譯人員對(duì)自動(dòng)翻譯系統(tǒng)的輸出進(jìn)行后處理。在交互式機(jī)器翻譯的框架內(nèi),翻譯系統(tǒng)和譯員協(xié)同工作,譯員確認(rèn)系統(tǒng)提供的譯文中的最長(zhǎng)正確前綴,系統(tǒng)據(jù)此對(duì)譯文后綴進(jìn)行預(yù)測(cè),共同完成翻譯任務(wù)。該文利用基于短語(yǔ)的翻譯模型,建立了交互式機(jī)器翻譯系統(tǒng),并結(jié)合交互式機(jī)器翻譯的特點(diǎn),利用句法層面的子樹(shù)信息來(lái)指導(dǎo)翻譯假設(shè)的擴(kuò)展。實(shí)驗(yàn)表明,該方法可以有效地減少人機(jī)交互次數(shù)。

        交互式機(jī)器翻譯;子樹(shù)信息;譯文前綴

        1 引言

        盡管機(jī)器翻譯在最近的幾十年取得了很大的進(jìn)展,但是,現(xiàn)有的自動(dòng)機(jī)器翻譯系統(tǒng),只是在有限的領(lǐng)域里,可以輸出直接可用的高質(zhì)量的譯文。對(duì)于大部分領(lǐng)域,用戶所需要的直接可用的譯文,都必須由擁有翻譯知識(shí)的譯員,對(duì)機(jī)器翻譯系統(tǒng)輸出的譯文進(jìn)行后處理,然后才能交付使用。在這種模式下,譯員可以利用翻譯系統(tǒng)推送的譯文完成翻譯任務(wù),但是,機(jī)器翻譯系統(tǒng)卻不能利用譯員的翻譯知識(shí)。于是,一些研究人員提出了交互式機(jī)器翻譯框架,在此框架內(nèi),允許譯員人工干預(yù)翻譯過(guò)程。首先機(jī)器翻譯系統(tǒng)會(huì)對(duì)給定的待翻譯句子推送出可能的譯文,然后譯員可以對(duì)翻譯系統(tǒng)推送出的譯文做出接受、修改或舍棄等操作,最后機(jī)器翻譯系統(tǒng)會(huì)根據(jù)譯員當(dāng)前的操作做出下一步的預(yù)測(cè),循環(huán)進(jìn)行此過(guò)程,直到譯員得到最終想要的譯文。圖1展示了一個(gè)經(jīng)典的交互式機(jī)器翻譯過(guò)程。

        圖1 交互式機(jī)器翻譯實(shí)例

        在這里我們要將一個(gè)漢語(yǔ)句子(source)“任何 不 屬 客船 的 船舶 ?!狈g為英文譯文(reference)“Any ship other than a passenger ship .”。在開(kāi)始交互之前(interaction-0),系統(tǒng)首先推薦一個(gè)可能的譯文(或譯文后綴,ts)。在第一次交互(interaction-1)中,用戶挪動(dòng)光標(biāo)來(lái)接受譯文的前四個(gè)字符“Any ”(空格也包含在內(nèi)),并且用鍵盤(pán)輸入字符s(k),然后系統(tǒng)根據(jù)用戶修改后的譯文前綴立即給出新的譯文后綴“hip other than passenger ships .”第二次交互(interaction-2)的境況類似。在最后一次交互時(shí)用戶完全接受了系統(tǒng)當(dāng)前推薦的譯文。

        交互式翻譯系統(tǒng)的解碼原理與傳統(tǒng)全自動(dòng)機(jī)器翻譯的解碼原理是一樣的,因此交互式的機(jī)器翻譯系統(tǒng)可以采用基于棧的解碼策略,利用多?;蛘呤侵阉鹘獯a算法。不同的地方在于,在交互式翻譯系統(tǒng)解碼時(shí),會(huì)考察當(dāng)前的翻譯假設(shè)是否符合譯文前綴,若不符合譯文前綴則不加入到待擴(kuò)展假設(shè)中。然后一步步擴(kuò)展,直至生成最終譯文。

        本文在基于短語(yǔ)的機(jī)器翻譯模型的基礎(chǔ)上,建立交互式機(jī)器翻譯框架,并針對(duì)交互式機(jī)器翻譯中前綴信息的引入,提出了利用句法層面的子樹(shù)信息來(lái)指導(dǎo)翻譯假設(shè)擴(kuò)展的方法。并且結(jié)合翻譯人員給予的譯文前綴,相比于傳統(tǒng)的機(jī)器翻譯系統(tǒng),交互式機(jī)器翻譯系統(tǒng)的特殊特征,用三種策略把子樹(shù)信息加入到交互式機(jī)器翻譯系統(tǒng)的解碼當(dāng)中。第一種: 只在完全匹配譯文前綴之前的翻譯假設(shè)擴(kuò)展時(shí),使用子樹(shù)信息指導(dǎo)翻譯假設(shè)的擴(kuò)展;第二種: 只在完全匹配譯文前綴之后的翻譯假設(shè)的擴(kuò)展時(shí)使用子樹(shù)信息作為指導(dǎo);第三種: 在整個(gè)翻譯假設(shè)擴(kuò)展當(dāng)中都使用子樹(shù)信息進(jìn)行指導(dǎo)。實(shí)驗(yàn)結(jié)果表明,三種策略相比于基線系統(tǒng),都能減少人機(jī)交互次數(shù),但是第三種策略的效果最好。

        本文結(jié)構(gòu)安排如下: 在第二部分,介紹與本文相關(guān)的研究;第三部分介紹子樹(shù)的抽取方法,以及如何將子樹(shù)信息嵌入交互式機(jī)器翻譯系統(tǒng)的解碼中;第四部分介紹實(shí)驗(yàn)配置、實(shí)驗(yàn)結(jié)果及分析;第五部分對(duì)本文進(jìn)行總結(jié),并給出未來(lái)的工作設(shè)想。

        2 相關(guān)工作

        在這部分中,介紹一些交互式機(jī)器翻譯方面的其他研究人員的工作。

        在早期的交互式機(jī)器翻譯研究中,研究人員主要的研究點(diǎn)集中在對(duì)源語(yǔ)言文本的解釋和消歧。Foster在1997年提出了TransType的基本系統(tǒng)[1],該系統(tǒng)第一次將交互式機(jī)器翻譯的關(guān)注點(diǎn)從對(duì)源語(yǔ)言文本的解釋分析轉(zhuǎn)移到目標(biāo)語(yǔ)言文本的生成上,減輕了譯員的工作負(fù)擔(dān)提高了效率,并且使譯員可以控制翻譯系統(tǒng)輸出的譯文。之后的幾年當(dāng)中,又有很多的研究人員對(duì)TransType系統(tǒng)進(jìn)行了改進(jìn)。Langlais等人在2000年對(duì)系統(tǒng)的用戶界面和詞的預(yù)測(cè)提出了改進(jìn)[2]。2002年,由許多歐盟研究機(jī)構(gòu)共同參與的TransType2項(xiàng)目,創(chuàng)新性的把一個(gè)完全的基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯系統(tǒng)嵌入到交互式翻譯框架中,并且在每一次的交互過(guò)程中,翻譯系統(tǒng)都會(huì)根據(jù)翻譯人員給出的譯文前綴,預(yù)測(cè)出一個(gè)或者多個(gè)最好的后綴補(bǔ)全譯文,供翻譯人員選擇。在TransType2項(xiàng)目中,很多的研究人員對(duì)系統(tǒng)進(jìn)行分析,并且提出很多種方法來(lái)解決這些問(wèn)題。TransType的這兩個(gè)項(xiàng)目極大的推動(dòng)了交互式機(jī)器翻譯技術(shù)的發(fā)展。2010年,Ortiz和Casacuberta等人,將在線學(xué)習(xí)的思想加入到了交互式機(jī)器翻譯技術(shù)當(dāng)中。其主要思想是利用用戶的反饋信息來(lái)不斷的完善系統(tǒng)的底層模型[3]。González-Rubio和Ortiz等人,將機(jī)器譯文的置信度評(píng)價(jià)作為其是否需要和翻譯人員進(jìn)行交互的衡量,從而有效地平衡了翻譯人員的工作量和系統(tǒng)翻譯結(jié)果的準(zhǔn)確率[4]。2012年,González-Rubio和Ortiz等人[5],將動(dòng)態(tài)學(xué)習(xí)的方法引入到交互式機(jī)器翻譯系統(tǒng)當(dāng)中,使系統(tǒng)可以增量式的從已經(jīng)翻譯完的句子中學(xué)習(xí),從而明顯地提高后續(xù)句子的翻譯準(zhǔn)確率,有效減少了翻譯人員的工作量。2013年,Jesús González-Rubio和Daniel Ortíz-Martinez等人[6],將基于層次短語(yǔ)的翻譯模型應(yīng)用到了交互式機(jī)器翻譯當(dāng)中,并且采用了超圖作為機(jī)器和用戶之間的交互接口。

        在之前的研究中,研究人員從對(duì)源語(yǔ)言的分析轉(zhuǎn)移到對(duì)目標(biāo)語(yǔ)言的生成,并且把在線學(xué)習(xí)和動(dòng)態(tài)學(xué)習(xí)的思想加入到模型中,但都沒(méi)有使用句法信息對(duì)翻譯系統(tǒng)進(jìn)行改進(jìn)。

        3 子樹(shù)信息抽取及嵌入

        這一部分,主要講述子樹(shù)信息的抽取及如何將子樹(shù)信息嵌入到翻譯系統(tǒng)的解碼中。

        3.1 子樹(shù)信息抽取

        句法樹(shù)采用短語(yǔ)結(jié)構(gòu)樹(shù)。該句法結(jié)構(gòu)把句子細(xì)分成更小的單位,然后通過(guò)短語(yǔ)連接起來(lái)。

        子樹(shù)是一個(gè)句子中相對(duì)獨(dú)立的一部分,它可以是一個(gè)名詞短語(yǔ)或動(dòng)詞短語(yǔ)。我們使用的子樹(shù)信息,是一個(gè)三元組,如式(1)所示,我們所用到的子樹(shù)并不包含整棵句法樹(shù),因?yàn)檎镁浞?shù)在本文中無(wú)任何意義。

        (1)

        N表示子樹(shù)名稱,In_s表示子樹(shù)開(kāi)始詞在句子中的位置,In_e表示子樹(shù)結(jié)束詞在句子中的位置。

        系統(tǒng)得到待翻譯的句子之后,我們首先用句法分析器對(duì)句子進(jìn)行句法分析,生成短語(yǔ)結(jié)構(gòu)句法樹(shù),如圖2所示。經(jīng)圖3的偽代碼處理之后,我們得到句子的子樹(shù)信息。最終我們得到的子樹(shù)是(NP,0,1)、(VP,2,6)、(IP ,3 ,6)、(VP ,4 ,6)、(VP ,5,6)。

        圖2 短語(yǔ)結(jié)構(gòu)樹(shù)的示例

        圖3 子樹(shù)抽取偽代碼

        3.2 子樹(shù)信息的嵌入

        對(duì)句子進(jìn)行翻譯時(shí),應(yīng)該在完成對(duì)一個(gè)子樹(shù)的翻譯之后,才能對(duì)其他子樹(shù)進(jìn)行翻譯,我們就把這個(gè)原則加入到交互式翻譯系統(tǒng)框架中。本文中,我們使用基于短語(yǔ)的交互式翻譯系統(tǒng)框架,利用多棧解碼算法對(duì)短語(yǔ)系統(tǒng)進(jìn)行解碼。在每個(gè)代表當(dāng)前翻譯假設(shè)覆蓋源語(yǔ)言詞個(gè)數(shù)的大棧中,有很多覆蓋不同位置但覆蓋源語(yǔ)言詞個(gè)數(shù)的小棧。當(dāng)擴(kuò)展翻譯假設(shè)時(shí),我們會(huì)選取每個(gè)大棧里的每個(gè)小棧中最大分值的翻譯假設(shè)進(jìn)行擴(kuò)展。在這里我們使用子樹(shù)信息選擇更合適的翻譯假設(shè),由于短語(yǔ)擴(kuò)展存在調(diào)序現(xiàn)象,所以覆蓋相同源語(yǔ)言詞的翻譯假設(shè)可能是由不同的短語(yǔ)組成的,選取短語(yǔ)假設(shè)擴(kuò)展時(shí),在覆蓋源語(yǔ)言詞個(gè)數(shù)且源語(yǔ)言詞位置相同的多個(gè)翻譯假設(shè)中,若存在符合子樹(shù)限制的翻譯假設(shè),則選擇此翻譯假設(shè)進(jìn)行擴(kuò)展,若不存在,我們按照傳統(tǒng)的翻譯假設(shè)選擇方法,選擇翻譯假設(shè)進(jìn)行擴(kuò)展,當(dāng)出現(xiàn)多個(gè)符合子樹(shù)限制翻譯假設(shè)時(shí),我們選擇分值最高的那個(gè)翻譯假設(shè)進(jìn)行擴(kuò)展。

        符合子樹(shù)限制的定義是: 當(dāng)前翻譯假設(shè)包含的上一個(gè)被翻譯的短語(yǔ)和最后一個(gè)被翻譯的短語(yǔ)所包含的詞在同一個(gè)子樹(shù)內(nèi)。為了更好的結(jié)合基于短語(yǔ)的翻譯模型,若當(dāng)前所選擇的子樹(shù)只有一個(gè)連續(xù)的短語(yǔ)未被翻譯且這個(gè)連續(xù)的短語(yǔ)在子樹(shù)的邊界上,允許擴(kuò)展當(dāng)前子樹(shù)未包含的源語(yǔ)言詞,前提是,當(dāng)前所擴(kuò)展的短語(yǔ)完全包含當(dāng)前子樹(shù)未翻譯的詞。例如,假設(shè)一個(gè)源語(yǔ)言句子有7個(gè)詞,已翻譯詞的標(biāo)志數(shù)組為[1100100](標(biāo)志位為1表示已經(jīng)被翻譯,標(biāo)志位為0表示未被翻譯),當(dāng)前翻譯的短語(yǔ)包含的詞在句子中的位置為<4,4>和選擇子樹(shù)(VP,3,5)來(lái)限制短語(yǔ)的擴(kuò)展,那么符合子樹(shù)限制的短語(yǔ)有<3,3>、<5,5>、<5,6>,不符合子樹(shù)限制的短語(yǔ)有<2,2>、<2,3>、<6,6>。

        在判斷翻譯假設(shè)是否符合子樹(shù)限制時(shí),只使用翻譯假設(shè)的上一個(gè)被翻譯的短語(yǔ)和當(dāng)前被翻譯的短語(yǔ)是一種軟策略,考慮到句法分析的性能,我們并不要求翻譯假設(shè)的每一次擴(kuò)展都符合子樹(shù)限制,這樣能夠更好的利用原有系統(tǒng)短語(yǔ)擴(kuò)展的優(yōu)勢(shì)。

        然后結(jié)合交互式翻譯所特有的特征——譯文前綴,本文提出三種策略,第一種: 只把子樹(shù)信息應(yīng)用到當(dāng)前所選擇的翻譯假設(shè)未覆蓋譯文前綴時(shí);第二種: 只把子樹(shù)信息應(yīng)用到當(dāng)前所選的翻譯假設(shè)覆蓋譯文前綴之后;第三種: 把前面兩種結(jié)合起來(lái),在整個(gè)句子的翻譯中使用子樹(shù)信息。三種策略的偽代碼如圖4~圖6所示。

        圖4 只在所選翻譯假設(shè)未覆蓋翻譯前綴時(shí)使用子樹(shù)信息偽代碼

        圖5 只在所選翻譯假設(shè)已經(jīng)覆蓋翻譯前綴時(shí)使用子樹(shù)信息偽代碼

        圖6 在整個(gè)翻譯過(guò)程中使用子樹(shù)信息偽代碼

        子樹(shù)抽取時(shí),抽取子樹(shù)之間會(huì)存在嵌套且僅僅對(duì)包含整個(gè)句子的子樹(shù)的特殊子樹(shù)限制抽取,會(huì)造成包含句子詞的個(gè)數(shù)過(guò)多的情況出現(xiàn),這將導(dǎo)致翻譯假設(shè)對(duì)子樹(shù)限制不敏感。針對(duì)子樹(shù)嵌套的情況,根據(jù)子樹(shù)包含句子中詞的個(gè)數(shù),我們提出了最大子樹(shù)策略(max_subtree)和最小子樹(shù)策略(min_subtree),當(dāng)出現(xiàn)子樹(shù)嵌套情況時(shí),根據(jù)策略不同,選取不同的子樹(shù)。為了避免出現(xiàn)包含句子中詞個(gè)數(shù)過(guò)多的子樹(shù)出現(xiàn),我們通過(guò)子樹(shù)包含詞的個(gè)數(shù)與整個(gè)句子詞的個(gè)數(shù)的比值(RatioSubtreeSentece)對(duì)所抽取子樹(shù)進(jìn)行過(guò)濾。另外,在選取符合子樹(shù)限制的翻譯假設(shè)進(jìn)行擴(kuò)展時(shí),我們還應(yīng)該考慮將本方法所選擇的翻譯假設(shè)的分值與傳統(tǒng)方法所選擇的翻譯假設(shè)的分值進(jìn)行比較,對(duì)一些分值過(guò)低但符合子樹(shù)限制的翻譯假設(shè)進(jìn)行舍棄。因?yàn)槿绻种颠^(guò)低,在下一步的剪枝策略時(shí)也會(huì)被舍棄。我們把這個(gè)因素定義為分值比(score_ratio),在實(shí)驗(yàn)環(huán)節(jié),會(huì)對(duì)以上提出的可能影響到系統(tǒng)性能的參數(shù)進(jìn)行單獨(dú)實(shí)驗(yàn)。

        4 實(shí)驗(yàn)設(shè)置及結(jié)果分析

        在這一部分,對(duì)實(shí)驗(yàn)語(yǔ)料的信息、評(píng)價(jià)標(biāo)準(zhǔn)和實(shí)驗(yàn)結(jié)果進(jìn)行描述,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        4.1 語(yǔ)料信息

        我們的實(shí)驗(yàn)采用部分的漢英平行語(yǔ)料Hong Kong Laws Parallel Text(LDC2000T47)進(jìn)行,該語(yǔ)料是來(lái)自香港的一些法律文本。我們使用了其中的20萬(wàn)平行句對(duì)來(lái)作為訓(xùn)練語(yǔ)料,并從這20萬(wàn)平行句對(duì)之外的部分隨機(jī)選取了不重疊的1 000個(gè)和1 558個(gè)平行句對(duì)分別做開(kāi)發(fā)集和測(cè)試集,并且考慮到模擬交互環(huán)境對(duì)參考譯文準(zhǔn)確性的要求,開(kāi)發(fā)集和測(cè)試集的平行句對(duì)都是經(jīng)過(guò)人工校正的。表1示出了所用語(yǔ)料的一些統(tǒng)計(jì)特性。

        中文部分都采用ICTCLAS進(jìn)行了分詞處理,并且所用語(yǔ)料的英文部分都經(jīng)過(guò)了詞形還原和小寫(xiě)化處理。GIZA++[8]工具被用來(lái)進(jìn)行訓(xùn)練語(yǔ)料的詞對(duì)齊工作,而雙向詞對(duì)齊的融合采用Grow-Diag-Final策略。此外我們利用SRLIM[9]工具在訓(xùn)練語(yǔ)料的英文單語(yǔ)語(yǔ)料上訓(xùn)練了一個(gè)3-gram的語(yǔ)言模型。我們使用開(kāi)源工具moses來(lái)訓(xùn)練基于短語(yǔ)的統(tǒng)計(jì)翻譯模型。該短語(yǔ)模型使用了moses默認(rèn)的14個(gè)特征,并且這些特征之間按照對(duì)數(shù)線性的方式進(jìn)行結(jié)合,此外, 我們使用了最小錯(cuò)誤率訓(xùn)練[10](MERT)來(lái)對(duì)特征的參數(shù)進(jìn)行優(yōu)化,并且優(yōu)化指標(biāo)采用大小寫(xiě)不敏感的BLEU-4指標(biāo)。句法樹(shù)采用berkeley句法分析器生成[11],我們選用1-best句法樹(shù)來(lái)抽取子樹(shù)信息。

        表1 語(yǔ)料統(tǒng)計(jì)特性

        4.2 評(píng)價(jià)標(biāo)準(zhǔn)

        在本文中,對(duì)交互式翻譯系統(tǒng)的性能評(píng)價(jià)我們采用了Key-stroke ratio(KSR)指標(biāo),該指標(biāo)的計(jì)算方法為: 用要得到標(biāo)準(zhǔn)譯文(參考譯文)所需的鍵盤(pán)敲擊次數(shù)除以標(biāo)準(zhǔn)譯文(參考譯文)所包含的字符總數(shù)[7]。KSR的值越小,則交互式翻譯系統(tǒng)的性能也應(yīng)該越好。

        4.3 系統(tǒng)設(shè)置

        基線系統(tǒng)(Baseline)是我們實(shí)現(xiàn)的傳統(tǒng)的交互式機(jī)器翻譯系統(tǒng),然后我們子樹(shù)信息通過(guò)三種策略加入到基線系統(tǒng)中。三種策略分別表示為(+ISIBCP : 在翻譯假設(shè)未覆蓋譯文前綴時(shí)使用子樹(shù)信息, +ISIACP : 在翻譯假設(shè)已經(jīng)覆蓋譯文前綴后使用子樹(shù)信息, +Both : 在整個(gè)翻譯過(guò)程中使用子樹(shù)信息)。為了更好的顯示系統(tǒng)性能,我們?cè)诓煌腘-best列表上計(jì)算評(píng)價(jià)標(biāo)準(zhǔn)。

        4.4 實(shí)驗(yàn)結(jié)果及分析

        表2的系統(tǒng)中,對(duì)于上一節(jié)我們所提到的三個(gè)影響因素設(shè)置是一致的。這里我們?cè)谑褂米訕?shù)的選擇上使用min_subtree,對(duì)于另外的兩個(gè)可能影響系統(tǒng)性能的因素沒(méi)有考慮。通過(guò)表2的實(shí)驗(yàn)結(jié)果,我們可以看到,把子樹(shù)信息嵌入到交互式翻譯系統(tǒng),無(wú)論是在覆蓋翻譯假設(shè)前,還是覆蓋翻譯假設(shè)后,都可以在一定程度上減少交互次數(shù),但在“+Both”系統(tǒng)中表現(xiàn)出比其他系統(tǒng)更好的性能。

        表2 不同系統(tǒng)的實(shí)驗(yàn)結(jié)果

        表3是各個(gè)系統(tǒng)的在用1-best結(jié)果作為參考的情況下,翻譯速度方面的表現(xiàn),我們發(fā)現(xiàn)隨著系統(tǒng)性能提高,在可接受的范圍內(nèi),速度也會(huì)有所下降。

        表3 不同系統(tǒng)的速度

        在其他影響因素固定的情況下,使用不同的策略選擇子樹(shù)。通過(guò)表4中的實(shí)驗(yàn)結(jié)果,我們知道,當(dāng)子樹(shù)出現(xiàn)嵌套的情況時(shí),選取不同的子樹(shù)來(lái)評(píng)價(jià)當(dāng)前的翻譯假設(shè),會(huì)對(duì)翻譯假設(shè)的選取有一定的影響,同時(shí)對(duì)翻譯系統(tǒng)的性能產(chǎn)生一定的影響。

        表4 max_subtree和min_subtree的實(shí)驗(yàn)結(jié)果

        表5的結(jié)果是在其他影響因素固定的情況,根據(jù)RatioSubtreeSentence在抽取子樹(shù)時(shí),對(duì)當(dāng)前句子中所包含的子樹(shù)進(jìn)行過(guò)濾,在遇到子樹(shù)嵌套的情況使用min_subtree策略選擇子樹(shù)。并在“+Both”系統(tǒng)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,在一定的情況下對(duì)子樹(shù)進(jìn)行過(guò)濾會(huì)提高系統(tǒng)性能。

        表5 RatioSubtreeSentece的實(shí)驗(yàn)結(jié)果

        表6的結(jié)果是我們?cè)凇?Both”系統(tǒng)基礎(chǔ)上,對(duì)所選擇符合子樹(shù)限制的翻譯假設(shè)的分值與當(dāng)前的翻譯假設(shè)的分值比做了限制,我們可以看到隨著分值比的限制系統(tǒng)性能越來(lái)越差,這也從另一個(gè)方面顯示了,調(diào)序模型的簡(jiǎn)單,未給出適當(dāng)?shù)姆种怠?/p>

        表6 score_ratio的實(shí)驗(yàn)結(jié)果

        5 總結(jié)及未來(lái)工作

        我們可以看到,隨著分值比的限制提高,系統(tǒng)的性能逐步下降。這也從另一個(gè)角度證明了,傳統(tǒng)方法未能充分利用前綴的約束信息,對(duì)翻譯假設(shè)給出合理的分值。提出三種不同的策略把子樹(shù)信息加入到交互式翻譯系統(tǒng)中。另外,我們還發(fā)現(xiàn)了幾個(gè)影響系統(tǒng)性能的因素,如當(dāng)子樹(shù)出現(xiàn)嵌套時(shí),子樹(shù)的選擇;抽取子樹(shù)時(shí)子樹(shù)包含詞的個(gè)數(shù)與當(dāng)前句子之間的比值;所選擇的符合子樹(shù)限制到翻譯假設(shè)與傳統(tǒng)的方法所選擇的翻譯假設(shè)之前的分值比。經(jīng)過(guò)實(shí)驗(yàn)證明這些都會(huì)影響到系統(tǒng)的性能,本文只驗(yàn)證了這些因素單獨(dú)使用時(shí)對(duì)系統(tǒng)性能的影響。在未來(lái)的工作中,我們會(huì)研究三種因素的綜合作用對(duì)系統(tǒng)性能的影響。而且,在此系統(tǒng)中,對(duì)于由于各種原因不能匹配用戶前綴的情況,系統(tǒng)會(huì)直接跳出解碼,不會(huì)給出翻譯后綴。因此,后面的研究也會(huì)涉及到在當(dāng)前系統(tǒng)不能匹配用戶給出翻譯前綴時(shí)生成翻譯后綴的策略。當(dāng)前我們的基線系統(tǒng)采用的是多棧的解碼策略,我們下一步將研究在柱搜索解碼策略中子樹(shù)信息的應(yīng)用。

        [1] Foster G, Isabelle P, Plamondon P. Target-text Mediated Interactive Machine Translation[J]. Machine Translation, 1997, 12(1): 175-194.

        [2] Langlais P, Foster G, and Lapalme G. TransType: a Computer-aided Translation Typing System[C]//Proceedings of the NAACL/ANLP Workshop on Embedded Machine Translation Systems, 2000: 46-52.

        [3] Ortiz-MartinezD, Garcia-Varea I, Casacuberta F. Online Learning for Interactive Statistical Machine Translation[C]//Proceedings of NAACL 2010, 2010: 546-554.

        [4] Gonzalez-Rubio J, Ortiz-Martinez D, Casacuberta F. Balancing User Effort and Translation Error in Interactive Machine Translation Via Confidence Measures[C]//Proceedings of the 48th ACL, 2010: 173-177.

        [5] Gonzalez-Rubio J,Ortiz-Martinez D, Casacuberta F. Active learning for interactive machine translation[C]//Proceedings of the 13th EACL, 2012: 245-254.

        [6] Jesús González-Rubio, Daniel Ortiz-Martínez, José-Miguel Benedí, et al. Interactive Machine Translation using Hierarchical Translation Models[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013: 244-254.

        [7] Och FJ, Zens R, Ney H. Efficient Search for Interactive Statistical Machine Translation[C]//Proceedings of EACL 2003, 2003: 287-293.

        [8] Och F J, H Ney. A systematic comparison of various statistical alignment models[J]. Computational Linguistics, 2003, 29(1): 19-51.

        [9] AndreasStolcke, Jing Zheng, Wen Wang, and Victor Abrash. SRILM at Sixteen: Update and Outlook[C]//Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop,2011.

        [10] Franz Josef Och. Minimum error rate training in statistical machine translation[C]//Proceedings of ACL, 2003: 160-167.

        [11] Petrov S, Barrett L, Thibaux R, et al. Learning accurate, compact, and interpretable tree annotation[C]//Proceedings of the 44th Association for Computational Linguistics, 2006: 433-440.

        Using Syntactic Information to Improve InteractiveMachine Translation

        ZHANG Yapeng,YE Na,CAI Dongfeng

        (Human-Computer Intelligence Research Center, Shenyang Aerospace University,Shenyang,Liaoning 110136,China)

        In many domains, the performance of fully automatic machine translation is still not satisfactory. In order to obtain error-free translation, human translators need to perform post-editing on the output of automatic translation systems. Under the framework of interactive machine translation, the translation system and the translator work collaboratively. The translator validates the longest correct prefix in the translation provided by the system, and the system predicts the suffix to complete the sentence. On the basis of phrase-based translation model, this paper built an interactive machine translation system. Considering the characteristics of interactive machine translation, syntactic subtree information is used to guide the extension of translation hypotheses. Experiments show that this method can effectively reduce the interaction time between human and the computer.

        interactive machine translation; subtree information; translation prefix

        張亞鵬(1988—),碩士研究生,通信作者,主要研究領(lǐng)域?yàn)榻换ナ綑C(jī)器翻譯。E?mail:zhangyp_nlp@163.com葉娜(1981—),博士,講師,主要研究領(lǐng)域?yàn)檩o助翻譯、文本挖掘。E?mail:yena_1@126.com蔡?hào)|風(fēng)(1958—),博士,教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄堋⒆匀徽Z(yǔ)言處理。E?mail:caidf@vip.163.com

        2015-01-10 定稿日期: 2015-03-10

        國(guó)家自然科學(xué)基金(61402299)

        1003-0077(2017)02-0042-07

        TP391

        A

        猜你喜歡
        子樹(shù)解碼語(yǔ)料
        黑莓子樹(shù)與烏鶇鳥(niǎo)
        一種新的快速挖掘頻繁子樹(shù)算法
        《解碼萬(wàn)噸站》
        書(shū)本圖的BC-子樹(shù)計(jì)數(shù)及漸進(jìn)密度特性分析?
        解碼eUCP2.0
        NAD C368解碼/放大器一體機(jī)
        Quad(國(guó)都)Vena解碼/放大器一體機(jī)
        基于覆蓋模式的頻繁子樹(shù)挖掘方法
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        久久99精品久久水蜜桃| 青青草视频在线观看9| 亚洲sm另类一区二区三区| 男人和女人做爽爽视频| 内射中出无码护士在线| аⅴ天堂一区视频在线观看| 白白色日韩免费在线观看| 曰韩无码av一区二区免费| 国产精品美女久久久久| 久久精品免视看国产盗摄| 国产精品中文字幕日韩精品| 精品久久久久久亚洲综合网| 欧美成人一区二区三区| 亚洲欧美日韩高清一区二区三区| 我的美艳丝袜美腿情缘| 国产精品乱码人妻一区二区三区| 少妇饥渴xxhd麻豆xxhd骆驼| 欧美中出在线| 91九色视频在线国产| 摸进她的内裤里疯狂揉她动图视频| y111111少妇影院无码| 国产在线一区二区视频免费观看| 美艳善良的丝袜高跟美腿| 色欲av蜜桃一区二区三| 无遮挡网站| 日韩av在线免费观看不卡| 人妻丰满熟妇aⅴ无码| 国产99久久亚洲综合精品| 麻豆国产AV网站| 人妻久久一区二区三区| 日本免费大片一区二区| 亚洲色欲色欲www| 国内成人精品亚洲日本语音| 少妇高潮紧爽免费观看| 亚洲高清一区二区三区在线播放| 久久香蕉国产线熟妇人妻| 欧美成人在线A免费观看| 美利坚亚洲天堂日韩精品| 精品人妻大屁股白浆无码| 国产精品乱码在线观看| 亚洲一区二区三区在线观看|