馬永亮,趙鐵軍
(哈爾濱工業(yè)大學(xué) 教育部—微軟語(yǔ)言語(yǔ)音重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001)
漢—英統(tǒng)計(jì)機(jī)器翻譯中:中文語(yǔ)料是由一個(gè)個(gè)以字為基本單位的句子組成。這與大多數(shù)歐洲語(yǔ)言不同,它們的句子是由自然切分的單詞組成的。有研究人員進(jìn)行了實(shí)驗(yàn)[1],基于單個(gè)字切分的漢語(yǔ)語(yǔ)料不能使統(tǒng)計(jì)機(jī)器翻譯獲得最好的性能。對(duì)于實(shí)際的漢—英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),常常需要使用中文分詞工具對(duì)漢語(yǔ)語(yǔ)料進(jìn)行預(yù)處理。
中文分詞的方法較多, 最早有一些基于最大匹配或者基于詞典的方法 , 隨后出現(xiàn)了基于層次隱馬爾可夫的中文分詞方法[2]。最近,許多state-of-the-art 機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用在自然語(yǔ)言處理領(lǐng)域,比如最大熵,支持向量機(jī),條件隨機(jī)域等?;谶@些機(jī)器學(xué)習(xí)算法,研究者提出了相應(yīng)的中文分詞方法[3-5]。除了眾多的中文分詞方法,中文分詞還使用了幾種不同的中文分詞標(biāo)準(zhǔn),比如CTB,PKU,MSR等等。這些標(biāo)準(zhǔn)定義了不同的分詞原則,這使得同樣的中文語(yǔ)料在使用不同標(biāo)準(zhǔn)的分詞工具處理后分詞結(jié)果也有較大的差別。例如,圖1給出一個(gè)簡(jiǎn)單句對(duì)的兩個(gè)分詞結(jié)果和相應(yīng)的詞對(duì)齊結(jié)果。
圖2 復(fù)雜句對(duì)的分詞結(jié)果和詞對(duì)齊
無(wú)疑這兩種分詞結(jié)果都是正確的,但是某些情況下我們更希望是第一個(gè)分詞結(jié)果。因?yàn)?,在這種情況下我們能夠從句對(duì)中獲得詞對(duì)齊信息“煎—Fried”。再給出一個(gè)對(duì)中文分詞來(lái)說(shuō)更加難以面面俱到的例子。我們的目標(biāo)是翻譯“能把腰部弄短嗎?”,當(dāng)翻譯結(jié)果是“Can you shorten the waist ?”,圖2(a)中的分詞和對(duì)齊結(jié)果沒(méi)有問(wèn)題。但是,如果翻譯結(jié)果是“Can you make the waist a little shorter?”, 我們更傾向于使用圖2(b)中的中文分詞結(jié)果。我們認(rèn)為基于不同方法和分詞標(biāo)準(zhǔn)的中文分詞工具產(chǎn)生的結(jié)果盡管不同,但是在特定的上下文和語(yǔ)義中他們都可能是正確而有用的。
這些通用中文分詞方法并不是為統(tǒng)計(jì)機(jī)器翻譯量身定做的,他們的分詞結(jié)果對(duì)統(tǒng)計(jì)機(jī)器翻譯而言也就不可能是優(yōu)化的。近些年許多研究者對(duì)中文分詞在統(tǒng)計(jì)機(jī)器翻譯中的影響進(jìn)行了廣泛而深入的研究。文獻(xiàn)[1,6]將中文分詞集成到統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的模型訓(xùn)練和解碼過(guò)程中,Chang[7]等的研究表明分詞的一致性和分詞的粒度對(duì)統(tǒng)計(jì)機(jī)器翻譯是重要的, 并且提出了一種直接針對(duì)統(tǒng)計(jì)機(jī)器翻譯對(duì)分詞的粒度進(jìn)行優(yōu)化的方法。Zhang等[8]進(jìn)行了比較綜合的研究。 在文獻(xiàn)[8]中, 作者對(duì)中文分詞和統(tǒng)計(jì)機(jī)器翻譯的關(guān)系進(jìn)行了細(xì)致的分析, 包括分詞標(biāo)準(zhǔn)、未登錄詞、切分錯(cuò)誤等對(duì)SMT的影響。
在文獻(xiàn)[1,6]和文獻(xiàn)[7]中,作者的主要目的是針對(duì)統(tǒng)計(jì)機(jī)器翻譯來(lái)優(yōu)化中文分詞方法??偟膩?lái)說(shuō),他們要找到單一的一種中文分詞方法,從而盡可能使分詞結(jié)果適合統(tǒng)計(jì)機(jī)器翻譯。但是從我們的觀點(diǎn)考慮,我們可以利用基于不同分詞方法和不同分詞標(biāo)準(zhǔn)的分詞工具的結(jié)果,從中獲得對(duì)統(tǒng)計(jì)機(jī)器翻譯而言有用的信息。我們研究的出發(fā)點(diǎn)與文獻(xiàn)[8]中融合多個(gè)不同分詞結(jié)果訓(xùn)練的模型是一致的。通過(guò)進(jìn)一步研究,我們給出了更一般的結(jié)論。
從Brown等人提出統(tǒng)計(jì)機(jī)器翻譯方法[9],統(tǒng)計(jì)機(jī)器翻譯已經(jīng)逐漸成為機(jī)器翻譯的主流技術(shù)。多年來(lái),基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯[10]、log-linear模型[11]、最小錯(cuò)誤率訓(xùn)練[12]等較大地提高了統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能,基于句法的統(tǒng)計(jì)機(jī)器翻譯也逐漸發(fā)展起來(lái)。
本文使用的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)是新近興起的一種基于句法的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[13]——層次短語(yǔ)翻譯模型,該模型建立在上下文無(wú)關(guān)文法的基礎(chǔ)之上。給定源語(yǔ)言句子f和一個(gè)同步上下文無(wú)關(guān)文法,則存在有多種推導(dǎo)得到源語(yǔ)言端的f,因此也就對(duì)應(yīng)著會(huì)有多種可能的翻譯結(jié)果e。在log-linear模型框架下,可以對(duì)每種推導(dǎo)如下建模:
(1)
(2)
式中f(D)是推導(dǎo)D對(duì)應(yīng)的源語(yǔ)言句子,e(D)是推導(dǎo)D對(duì)應(yīng)的目標(biāo)語(yǔ)言句子。
在我們的系統(tǒng)中,我們使用了7個(gè)特征,短語(yǔ)翻譯概率, 反向短語(yǔ)翻譯概率, 詞匯化權(quán)重, 反向詞匯化權(quán)重,詞匯懲罰,規(guī)則懲罰,Glue規(guī)則懲罰和目標(biāo)語(yǔ)言語(yǔ)言模型。這些特征的權(quán)重通過(guò)最小錯(cuò)誤率訓(xùn)練進(jìn)行優(yōu)化[12]。
HIT中文分詞系統(tǒng)[14]的基本方法是基于詞典的。為了獲得更高的分詞精度,HIT 中文分詞系統(tǒng)在全切分的基礎(chǔ)上加入了多步處理策略。ICTCLAS[3]是基于層次隱馬爾可夫模型的中文詞匯分析系統(tǒng)。ICTCLAS可以同時(shí)提供中文分詞,詞性標(biāo)注,中文命名實(shí)體識(shí)別。Stanford Chinese Word Segmenter[7]是基于條件隨機(jī)域模型的中文分詞系統(tǒng)。模型除了使用字符、字形、字符復(fù)現(xiàn)等特征外,還加入了詞匯化特征。
我們將不同分詞結(jié)果對(duì)應(yīng)的訓(xùn)練語(yǔ)料看成訓(xùn)練數(shù)據(jù)的幾個(gè)部分,然后對(duì)應(yīng)每個(gè)部分訓(xùn)練一個(gè)模型,最后根據(jù)目標(biāo)調(diào)整各個(gè)模型的權(quán)重。通??梢酝ㄟ^(guò)兩種方式完成這樣的工作。
第一種方式是線性的,在實(shí)際應(yīng)用中被廣泛采納,可以表示為:
p(x|h)=∑cλcpc(x|h)
(3)
式中p(x|h)是混合后的模型,pc(x|h)是從部分c上訓(xùn)練的模型,λc是對(duì)應(yīng)的權(quán)重。
第二種是log linear模型,可表示為:
(4)
式中ac可以通過(guò)全局優(yōu)化得到。本文使用了與Zhang等[7]相同的方法, 采用線性的方式對(duì)多分詞結(jié)果進(jìn)行融合,稱為翻譯模型線性插值。
翻譯模型的特征插值就是對(duì)相同類型的特征進(jìn)行線性插值計(jì)算。使用前面提到的3個(gè)中文分詞工具對(duì)漢英平行語(yǔ)料中的中文部分進(jìn)行分詞處理,由此得到對(duì)應(yīng)的3個(gè)經(jīng)過(guò)分詞的漢英平行語(yǔ)料。然后這3個(gè)平行語(yǔ)料分別用于訓(xùn)練各自的層次短語(yǔ)翻譯模型。特征插值的計(jì)算可以描述如下:
λipi(x|h)
(5)
在文獻(xiàn)[8]中, 特征融合被用于與特征插值進(jìn)行比較。特征融合首先要定義一個(gè)主模型,除主模型外的其他模型被定義為輔助模型。然后,將在輔助模型中的翻譯條目加入到主模型中。與特征插值不同的是,只有那些在主模型中沒(méi)有的翻譯條目才從輔助模型中加入到主模型中,并且每個(gè)翻譯條目的各個(gè)特征值不變。文獻(xiàn)[8]中的實(shí)驗(yàn)結(jié)果顯示特征插值要比特征融合性能更好,但是并沒(méi)有進(jìn)一步深入研究這一原因。本文繼續(xù)使用文獻(xiàn)[8]中對(duì)特征融合的定義,我們的研究重點(diǎn)是如何利用多分詞結(jié)果提高統(tǒng)計(jì)機(jī)器翻譯性能。我們認(rèn)為翻譯模型的特征融合是比翻譯模型的特征插值更有潛力的方法,因?yàn)檫@種方法基于一個(gè)明顯的事實(shí):更多的信息會(huì)有效地?cái)U(kuò)大模型的空間,如果能夠有效地控制模型空間增長(zhǎng)帶來(lái)的噪聲問(wèn)題,那么翻譯模型的特征融合技術(shù)就有希望獲得較好的性能。我們?cè)谖恼轮兄惶接憙蓚€(gè)模型的特征融合。
除去翻譯模型中的特征值,模型中的翻譯條目由兩部分組成源語(yǔ)言部分f和對(duì)應(yīng)的目標(biāo)語(yǔ)言部分e。我們將輔助模型分為4部分:
?f|||e,f是源語(yǔ)言部分,e是對(duì)應(yīng)的目標(biāo)語(yǔ)言部分。它們已經(jīng)在主模型中成對(duì)出現(xiàn)。
此外,文獻(xiàn)[15]中提出將特征插值和特征融合的方法結(jié)合起來(lái)。實(shí)驗(yàn)結(jié)果表明,將特征插值和特征融合結(jié)合并不能獲得更好的性能。
表1 特征融合的策略
我們的實(shí)驗(yàn)平臺(tái)是一個(gè)用C++實(shí)現(xiàn)的層次短語(yǔ)翻譯系統(tǒng)[13]。訓(xùn)練過(guò)程中使用GIZA++獲得詞對(duì)齊,使用SRI Language Modeling Tookit[16]訓(xùn)練modified-KN平滑的3-gram語(yǔ)言模型。
我們?cè)谛∫?guī)??谡Z(yǔ)漢英平行語(yǔ)料上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)的語(yǔ)料采用IWSLT2004的訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)采用自動(dòng)翻譯評(píng)價(jià),使用了大小寫相關(guān)的BLEU-4自動(dòng)翻譯評(píng)價(jià)指標(biāo)[17]。 訓(xùn)練集的英語(yǔ)部分用來(lái)訓(xùn)練語(yǔ)言模型。為了優(yōu)化系統(tǒng)的特征權(quán)重,使用最小錯(cuò)誤率訓(xùn)練來(lái)最大化系統(tǒng)在開(kāi)發(fā)集上的BLEU得分。最后,系統(tǒng)將使用不同的模型在測(cè)試集上進(jìn)行測(cè)試。訓(xùn)練集和測(cè)試集的詳細(xì)信息見(jiàn)表2。
表2 IWSLT2004語(yǔ)料
實(shí)驗(yàn)中,我們使用沒(méi)有加入任何模型優(yōu)化方法的層次短語(yǔ)翻譯系統(tǒng)作為Baseline系統(tǒng)。在Baseline系統(tǒng)的實(shí)驗(yàn)中,所有中文語(yǔ)料均使用HIT中文分詞系統(tǒng)進(jìn)行分詞。表3給出了Baseline系統(tǒng)的實(shí)驗(yàn)結(jié)果。表4給出了用Stanford和ICTCLAS分詞系統(tǒng)對(duì)所有中文語(yǔ)料進(jìn)行分詞后系統(tǒng)的實(shí)驗(yàn)結(jié)果。
表3 Baseline實(shí)驗(yàn)結(jié)果
表4 Stanford和ICTCLAS實(shí)驗(yàn)結(jié)果
我們對(duì)所有7個(gè)特征融合策略進(jìn)行了兩組實(shí)驗(yàn)。第一組實(shí)驗(yàn)使用HIT中文分詞系統(tǒng)處理的訓(xùn)練語(yǔ)料作為主模型的訓(xùn)練語(yǔ)料,Stanford中文分詞系統(tǒng)處理的訓(xùn)練語(yǔ)料作為輔助模型的訓(xùn)練語(yǔ)料;第二組實(shí)驗(yàn)使用HIT中文分詞系統(tǒng)處理的訓(xùn)練語(yǔ)料作為主模型的訓(xùn)練語(yǔ)料,ICTCLAS分詞系統(tǒng)處理的語(yǔ)料作為輔助模型的訓(xùn)練語(yǔ)料。兩組實(shí)驗(yàn)中的開(kāi)發(fā)集和測(cè)試集均由HIT中文分詞系統(tǒng)進(jìn)行分詞。表5給出了第一組實(shí)驗(yàn)結(jié)果,表6給出了第二組實(shí)驗(yàn)結(jié)果。
表5 HIT+Stanford實(shí)驗(yàn)結(jié)果
表6 HIT+ICTCLAS實(shí)驗(yàn)結(jié)果
最后,我們使用Paired Bootstrap Resampling[18]對(duì)系統(tǒng)性能差異的統(tǒng)計(jì)顯著性進(jìn)行衡量。結(jié)果顯示,在p=0.05的條件下,HIT+Stanford組中的策略6和HIT+ICTCLAS組中的策略2對(duì)Baseline系統(tǒng)、特征差值策略、HPBT(Stanford)和HPBT(ICTCLAS)的BLEU分?jǐn)?shù)提高都具有統(tǒng)計(jì)顯著性。
實(shí)驗(yàn)結(jié)果顯示。相對(duì)于Baseline系統(tǒng),兩組實(shí)驗(yàn)分別獲得了1.76和1.89的BLEU分?jǐn)?shù)增長(zhǎng)。
我們觀察Baseline系統(tǒng)和使用特征融合方法的系統(tǒng)的輸出,發(fā)現(xiàn)特征融合在改進(jìn)系統(tǒng)性能方面最為顯著的表現(xiàn)就是將Baseline系統(tǒng)無(wú)法翻譯的未登錄詞進(jìn)行了正確的翻譯,而這些翻譯知識(shí)正是從輔助模型中獲得的。例如,Baseline中的翻譯結(jié)果“I can’t see 屏幕.”改進(jìn)為“I can’t see screen very well.”“How 按摩 脊背?”改進(jìn)為“Have massage 脊背?”“一共 is 八十七 dollars.”改進(jìn)為“八十七 is all together dollars.”等。
前面這種類型的改進(jìn)可以通過(guò)融合多分詞結(jié)果中合適的分詞結(jié)果獲得正確的詞對(duì)齊并產(chǎn)生原本存在于漢—英句對(duì)中的對(duì)應(yīng)翻譯項(xiàng)。借助正確的詞對(duì)齊,我們可以獲得更準(zhǔn)確的短語(yǔ)翻譯。這些通過(guò)融合多分詞結(jié)果獲得的新翻譯知識(shí)是十分有意義的。這種改進(jìn)可以通過(guò)觀察系統(tǒng)輸出、分析訓(xùn)練和解碼過(guò)程方便的認(rèn)識(shí)到,但是我們猜測(cè)翻譯模型融合方法不會(huì)只通過(guò)這種方式改進(jìn)系統(tǒng)性能,其他復(fù)雜、深入的原理還不能通過(guò)我們的實(shí)驗(yàn)直觀地反映出來(lái)。
因?yàn)檩o助模型的各個(gè)部分之間以及輔助模型的各個(gè)部分與主模型之間的相互影響復(fù)雜,對(duì)應(yīng)不同中文分詞系統(tǒng)的組合,對(duì)于固定的訓(xùn)練和測(cè)試語(yǔ)料,最優(yōu)特征融合策略并不固定。因此,將這樣的方法應(yīng)用到大規(guī)模語(yǔ)料的處理必須首先確定一個(gè)最優(yōu)的策略。在沒(méi)有好的、確定的方法前,這樣的工作比較耗時(shí)。
本文提出的方法直接利用已有的中文分詞系統(tǒng)的分詞結(jié)果,采用多策略特征融合技術(shù)得到復(fù)合的翻譯模型,使用復(fù)合翻譯模型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)性能得到了顯著的提高。
我們的方法使用了多策略翻譯模型融合,每個(gè)策略對(duì)應(yīng)使用輔助模型的一部分信息。這些策略并不能都在測(cè)試集上得到性能的顯著提高,但是一些策略在實(shí)驗(yàn)中表現(xiàn)出了對(duì)Baseline系統(tǒng)較明顯的性能優(yōu)勢(shì)和對(duì)特征插值的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果顯示統(tǒng)計(jì)機(jī)器翻譯中有效地利用多分詞結(jié)果能夠顯著的提高漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。同時(shí),我們也認(rèn)識(shí)到我們提出的方法在處理大規(guī)模統(tǒng)計(jì)機(jī)器翻譯時(shí)存在效率問(wèn)題。在未來(lái)的工作中,我們將進(jìn)一步研究在我們提出的方法中融合策略選擇的問(wèn)題,并且進(jìn)一步深入發(fā)掘來(lái)自不同分詞結(jié)果的各個(gè)模型的內(nèi)部以及它們之間的作用機(jī)制,進(jìn)一步減小噪聲在復(fù)合模型中的影響。希望更多的研究者能夠從中文分詞入手,解決中文分詞在統(tǒng)計(jì)機(jī)器翻譯中存在的問(wèn)題,進(jìn)一步提高與漢語(yǔ)相關(guān)的統(tǒng)計(jì)機(jī)器翻譯的性能。
[1] Jia Xu, Richard Zens, and Hermann Ney. Do we need Chinese word segmentation for statistical machine translation? [C]//ACL SIGHAN Workshop 2004, 2004:122-128.
[2] Hua-Ping Zhang, Hong-Kui Yu, De-Yi Xiong, and Qun Liu. HHmm-based chinese lexical analyzer ICTCLAS[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, 2003:184-187.
[3] Nianwen Xue and Libin Shen. Chinese word segmentation as LMR tagging[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, 2003:176-179.
[4] Taku Kudo and Yuji Matsumoto. Chunking with support vector machines[C]//Second meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies, 2001:1-8.
[5] Fuchun Peng, Fangfang Feng, and Andrew McCallum. Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of COLING 2004, 2004:562-568.
[6] Jia Xu, Evgeny Matusov, Richard Zens, and Hermann Ney. Integrated Chinese word segmentation in statistical machine translation [C]//Proceedings of IWSLT 2005, 2005:141-147.
[7] Pi-Chuan Chang, Michel Galley, and Christopher D. Manning. Optimizing Chinese word segmentation for machine translation performance[C]//Proceedings of the Third Workshop on Statistical Machine Translation, 2008:224-232.
[8] Ruiqiang Zhang, Keiji Yasuda, and Eiichiro Sumita. Chinese word segmentation and statistical machine translation [J]. ACM Trans. Speech Lang.Process, 2008, 5(2):1-19.
[9] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin. A statistical approach to machine translation [J]. Computational Linguistics, 1990,16(2):79-85.
[10] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference ofthe North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003:48-54.
[11] Franz Josef Och and Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, 2002:295-302.
[12] Franz Josef Och. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, 2003:160-167.
[13] David Chiang. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33(2):201-228.
[14] 趙鐵軍,等.提高漢語(yǔ)自動(dòng)分詞精度的多步處理策略[J]. 中文信息學(xué)報(bào), 2001, 15(1): 13-18.
[15] Yongliang Ma, Tiejun Zhao. Improving Chinese to English SMT with multiple CWS results[C]//International Conference on Asian Language Processing 2009.
[16] Andreas Stolcke. Srilm - an extensible language modeling tookit[C]//Proceedings of the International Conference on Spoken Language Processing, 2002:901-904.
[17] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2001:311-318.
[18] Philipp Koehn. Statistical significance tests for machine translation evaluation[C]//Proceedings of EMNLP 2004, 2004:388-395.