黨莎莎,龔小濤
(西安航空職業(yè)技術(shù)學(xué)院 通識(shí)教育學(xué)院,西安 710089)
近些年,伴隨教育、科技的不斷發(fā)展,機(jī)器翻譯應(yīng)用產(chǎn)品的數(shù)量也越來(lái)越多[1],這些應(yīng)用主要集中在學(xué)術(shù)文獻(xiàn)、搜索引擎等外文翻譯方面。因此,機(jī)器翻譯技術(shù)有著龐大的市場(chǎng)應(yīng)用需求,發(fā)展前景較好。以往的機(jī)器翻譯技術(shù)或多或少有些弊端,翻譯的精準(zhǔn)性太低,是阻礙機(jī)器翻譯技術(shù)進(jìn)一步發(fā)展的巨大瓶頸。在實(shí)際的機(jī)器翻譯產(chǎn)品測(cè)試環(huán)節(jié),比如百度、GOOGLE翻譯軟件,翻譯結(jié)果和實(shí)際專(zhuān)業(yè)人工翻譯的質(zhì)量相差較大[2],暴露出現(xiàn)有的機(jī)器翻譯水平已經(jīng)無(wú)法適應(yīng)當(dāng)前翻譯需求的狀況,市場(chǎng)亟需一款高性能、翻譯準(zhǔn)確率高的機(jī)器翻譯技術(shù)。得益大數(shù)據(jù)的發(fā)展,許多研究者尋求通過(guò)計(jì)算機(jī)輔助翻譯(computer aided translation,CAT)來(lái)幫助完成翻譯工作。計(jì)算機(jī)輔助翻譯的核心思想是:翻譯的結(jié)果通常被當(dāng)成輔助性的參考,最后是由用戶來(lái)判斷翻譯的優(yōu)劣,進(jìn)行人工選擇;另外一方面對(duì)語(yǔ)料庫(kù)的運(yùn)用,能夠把各個(gè)行業(yè)領(lǐng)域的詞匯進(jìn)行歸類(lèi)整理,讓翻譯的質(zhì)量得到改進(jìn),更加貼近用戶的實(shí)際需求[3]。合理使用翻譯頻數(shù)較高的專(zhuān)業(yè)詞匯語(yǔ)料庫(kù)能夠很大程度地、較少重復(fù)、翻譯工作量,而且還能極大提高翻譯的準(zhǔn)確性。
周亞婷[4]分析了英語(yǔ)篇章機(jī)器翻譯符合單位屬于句號(hào)局的特性,其單位為NT小句,對(duì)其翻譯單位體系中的PTA模型實(shí)現(xiàn)了英漢翻譯的過(guò)程,實(shí)現(xiàn)面向篇章翻譯英漢小句語(yǔ)料庫(kù)的建設(shè),對(duì)其中的PTA模型進(jìn)行了詳細(xì)的講解,彰顯了語(yǔ)料庫(kù)的重要性。盧蓉[5]改進(jìn)了傳統(tǒng)基于規(guī)則的機(jī)器翻譯模型,使用基于語(yǔ)義網(wǎng)絡(luò)的英語(yǔ)機(jī)器翻譯模型,在具體的實(shí)現(xiàn)過(guò)程中,使用基于向量混合的短語(yǔ)合成語(yǔ)義統(tǒng)計(jì)英語(yǔ)機(jī)器翻譯方法,在翻譯相似度模型的度量過(guò)程中,使用余弦相似度計(jì)算方法獲取兩個(gè)向量的語(yǔ)義相似度,加入加權(quán)向量法計(jì)算規(guī)則辨別兩個(gè)相似向量的不同之處,獲取精準(zhǔn)翻譯的結(jié)果,保證翻譯的質(zhì)量。黃登嫻[6]克服了采用管道式逐層分析技術(shù)對(duì)機(jī)器翻譯進(jìn)行解析,將切分的短語(yǔ)單詞與短語(yǔ)語(yǔ)料庫(kù)對(duì)比分析詞性和句法,進(jìn)一步獲得待翻譯的英文的句法結(jié)構(gòu)的方法錯(cuò)誤具有逐步傳遞和累積,最終導(dǎo)致翻譯準(zhǔn)確率較低的弊端,設(shè)計(jì)基于知網(wǎng)的詞匯語(yǔ)義相似度以及對(duì)數(shù)線性模型,采用漢英依存樹(shù)到串的方式保存對(duì)應(yīng)的雙語(yǔ)語(yǔ)料,提供對(duì)語(yǔ)言依存結(jié)構(gòu)化的處理,確保漢英雙語(yǔ)的對(duì)應(yīng)關(guān)系,計(jì)算知網(wǎng)運(yùn)算輸入需要翻譯句子同實(shí)例庫(kù)內(nèi)源語(yǔ)言中詞匯的語(yǔ)義相似度,進(jìn)一步提高了翻譯的準(zhǔn)確率,翻譯結(jié)果具備較高的準(zhǔn)確性。
經(jīng)過(guò)對(duì)以上文獻(xiàn)的總結(jié),發(fā)現(xiàn)在翻譯過(guò)程中某個(gè)句子的短語(yǔ)包含的語(yǔ)義通常是這個(gè)句子中的核心內(nèi)容,對(duì)短語(yǔ)的智能識(shí)別是語(yǔ)言識(shí)別中重要的環(huán)節(jié),其原理就是通過(guò)對(duì)句子中的短語(yǔ)進(jìn)行識(shí)別匯總,然后分析短語(yǔ)的詞性和句法,對(duì)照短語(yǔ)語(yǔ)料庫(kù)進(jìn)行翻譯和自動(dòng)組合,最終得到原文句子的翻譯結(jié)果[7]。在機(jī)器翻譯領(lǐng)域,短語(yǔ)的智能識(shí)別是關(guān)鍵技術(shù),可以滿足翻譯樣本的選調(diào)、平行語(yǔ)料的精確對(duì)齊,采用短語(yǔ)智能識(shí)別的技術(shù)能夠有效減少語(yǔ)法上的歧義。結(jié)構(gòu)歧義是當(dāng)前英語(yǔ)翻譯領(lǐng)域中的難點(diǎn),需要運(yùn)用詞性識(shí)別算法來(lái)解決,本文使用基于改進(jìn)的GLR[8](generalized maximum likelihood ratio,廣義最大似然比檢測(cè),簡(jiǎn)稱(chēng)GLR)算法的機(jī)器翻譯算法,該算法構(gòu)建標(biāo)記規(guī)模約74萬(wàn)個(gè)英漢單詞的短語(yǔ)語(yǔ)料庫(kù),使短語(yǔ)具備可搜索功能,通過(guò)短語(yǔ)中心點(diǎn)構(gòu)建短語(yǔ)結(jié)構(gòu),可獲得詞性識(shí)別結(jié)果,依據(jù)解析線性表的句法功能校正詞性識(shí)別結(jié)果中的英漢結(jié)構(gòu)歧義,最終獲得識(shí)別的內(nèi)容,確定翻譯中短語(yǔ)的實(shí)際位置范圍,以期一定程度上緩解結(jié)構(gòu)歧義在當(dāng)前英語(yǔ)翻譯領(lǐng)域中的弊端,提高短語(yǔ)識(shí)別的效率。
語(yǔ)料庫(kù)在智能英語(yǔ)翻譯模型中扮演了重要的角色,將雙語(yǔ)短語(yǔ)資料存儲(chǔ)在語(yǔ)料庫(kù)中,能夠?qū)h語(yǔ)、英語(yǔ)中的短詞語(yǔ)的詞性進(jìn)行精準(zhǔn)的標(biāo)注,規(guī)范每個(gè)短語(yǔ)的功能,能夠大幅度地提高英漢機(jī)器翻譯過(guò)程中的短語(yǔ)自動(dòng)識(shí)別算法的精確性和時(shí)效性[9],協(xié)助英漢機(jī)器翻譯地更加準(zhǔn)確。眾所周知,通常的英漢機(jī)器翻譯都是將長(zhǎng)句轉(zhuǎn)換成多對(duì)短詞語(yǔ)形式,然后匹配語(yǔ)料庫(kù)中的語(yǔ)料,采用打分算法評(píng)估翻譯后的上下文環(huán)境和相應(yīng)的翻譯短語(yǔ)的優(yōu)劣,加大標(biāo)記范圍等方法能有效提升得分,這也是一些新興的算法創(chuàng)新的思路,最終形成機(jī)器翻譯的結(jié)果。所以,構(gòu)建的短語(yǔ)語(yǔ)料庫(kù)的整體功效對(duì)機(jī)器翻譯算法有著至關(guān)重要的作用。圖1對(duì)短語(yǔ)語(yǔ)料庫(kù)信息的流程進(jìn)行了展示。
本文基于智能識(shí)別的英語(yǔ)翻譯模型構(gòu)造的短語(yǔ)語(yǔ)料庫(kù)包含了74萬(wàn)個(gè)單詞,能夠滿足構(gòu)造2.2萬(wàn)個(gè)句子、1.2萬(wàn)個(gè)短語(yǔ)的需求,從圖1中的短語(yǔ)語(yǔ)料庫(kù)信息可以看出,短語(yǔ)語(yǔ)料庫(kù)是具有針對(duì)性的,本文選用的是英漢機(jī)器翻譯的短語(yǔ)語(yǔ)料庫(kù),分別對(duì)英漢的短語(yǔ)語(yǔ)料進(jìn)行了標(biāo)注,區(qū)分了不同短語(yǔ)語(yǔ)料的時(shí)態(tài);語(yǔ)料的標(biāo)記方式由數(shù)據(jù)、層次和加工方式三個(gè)部分組成,數(shù)據(jù)的類(lèi)型是文本格式,層次選用了詞性和對(duì)齊的方式,加工方式采用人機(jī)主動(dòng)溝通方式直接互動(dòng),進(jìn)行英文翻譯的一系列常規(guī)流程操作,促使短語(yǔ)語(yǔ)料翻譯的準(zhǔn)確性。
圖1 短語(yǔ)語(yǔ)料庫(kù)信息流程
短語(yǔ)的詞性識(shí)別是機(jī)器翻譯智能識(shí)別算法中關(guān)鍵的核心步驟,能夠?qū)Υ罅康木渥?、短語(yǔ)、單詞的語(yǔ)法歧義進(jìn)行處理[10]。通過(guò)對(duì)短語(yǔ)語(yǔ)料庫(kù)中內(nèi)容進(jìn)行詞性標(biāo)注,每個(gè)語(yǔ)句都會(huì)劃分為數(shù)個(gè)單詞,對(duì)于英文句子,每個(gè)單詞都是獨(dú)立的存在,中文語(yǔ)句需要進(jìn)行“分詞”處理,處理后的單詞經(jīng)過(guò)對(duì)齊處理后形成了短語(yǔ),其間通過(guò)對(duì)翻譯句子上下文的判斷會(huì)標(biāo)記單詞的詞性,最后通過(guò)句法分析短語(yǔ)的依存關(guān)系,形成句子的句法樹(shù)。通過(guò)這種方法使得機(jī)器翻譯的時(shí)效性和準(zhǔn)確性提升,另外還使得短語(yǔ)語(yǔ)料庫(kù)的處理能力得到顯著增加。GLR算法是詞性識(shí)別當(dāng)中常用的一種算法,主要用于判斷短語(yǔ)前后文關(guān)系,其核心理論是基于動(dòng)態(tài)識(shí)別表單和無(wú)條件轉(zhuǎn)移語(yǔ)句[11]。
經(jīng)典的GLR算法每個(gè)步驟的運(yùn)轉(zhuǎn)都是使用多種移位指令和精簡(jiǎn)的操作,期間的每個(gè)操作的開(kāi)端和終端都是使用特使的標(biāo)準(zhǔn)來(lái)展示。在進(jìn)行短語(yǔ)翻譯的過(guò)程中,當(dāng)GLR算法沒(méi)有檢測(cè)到語(yǔ)法歧義的狀況,就會(huì)重新開(kāi)始進(jìn)行去重和校準(zhǔn)操作;如果檢測(cè)到語(yǔ)法歧義,就需要使用句法分析的幾何結(jié)構(gòu)線性表來(lái)對(duì)解析線性表進(jìn)行調(diào)取,對(duì)短語(yǔ)的內(nèi)容展開(kāi)識(shí)別,根據(jù)局部最優(yōu)原則提供最優(yōu)的內(nèi)容,輸送至不同的識(shí)別通道中進(jìn)行符號(hào)的識(shí)別,根據(jù)識(shí)別的結(jié)果選擇最優(yōu)的結(jié)果。
通常情況下,由于GLR算法在詞性識(shí)別的結(jié)果中存在較大的偶然性,識(shí)別的數(shù)據(jù)點(diǎn)重合概率較高,仍然無(wú)法滿足現(xiàn)有的詞性識(shí)別精確度[12]。本文對(duì)經(jīng)典的GLR算法進(jìn)行了改進(jìn),提出使用短語(yǔ)中心來(lái)分析短語(yǔ)的結(jié)構(gòu),有效降低了數(shù)據(jù)點(diǎn)重合的概率,提升了詞性識(shí)別的精確度。改進(jìn)的GLR算法對(duì)短語(yǔ)前后文的似然性計(jì)算借助四元集群來(lái)實(shí)現(xiàn),算法如式(1)所示:
GE=(VN,VT,S,α)
(1)
在式(1)中,VN代表循環(huán)符號(hào)集群,VN≠φ;VT代表終止符號(hào)集群,VT≠φ且VT與VN中的元素不重合;S代表開(kāi)始符號(hào)集群,是VN中的元素;α代表短語(yǔ)動(dòng)作集群。
假設(shè)P是α中的任意動(dòng)作且P又存在于VN中,經(jīng)過(guò)推導(dǎo)可以得到式(2):
P→{θ,c,x,δ}
(2)
在式(2)中,θ,c,x,δ分別代表動(dòng)作右側(cè)符號(hào)、中心點(diǎn)符號(hào)、約束值和標(biāo)記方式,θ和c同時(shí)位于VT與VN中,δ可位于VT中,也可位于VN中。
改進(jìn)的GLR算法規(guī)定識(shí)別結(jié)果線性表最上面的符號(hào)與θ一致,約束值x需為真,中心點(diǎn)符號(hào)c需數(shù)值,不能為空值。只有達(dá)到了以上3個(gè)標(biāo)準(zhǔn)的識(shí)別結(jié)果,才是短語(yǔ)詞性識(shí)別的結(jié)果。
目前現(xiàn)行的英漢機(jī)器翻譯算法中,對(duì)切分的短語(yǔ)與短語(yǔ)語(yǔ)料庫(kù)匹配得到的結(jié)果往往作為最終的機(jī)器翻譯結(jié)果,缺乏對(duì)短語(yǔ)所處的上下文環(huán)境的分析,過(guò)分依賴(lài)短語(yǔ)語(yǔ)料庫(kù)的詞性分析,導(dǎo)致最終的翻譯結(jié)果不夠準(zhǔn)確[13]。因此本文進(jìn)一步考慮對(duì)詞性分析的結(jié)果進(jìn)行校正處理。在對(duì)改進(jìn)的GLR算法進(jìn)行詞性分析校正的過(guò)程中,針對(duì)GLR算法使用解析線性表對(duì)短語(yǔ)進(jìn)行詞性識(shí)別的結(jié)果中出現(xiàn)錯(cuò)誤點(diǎn)的狀況,校正過(guò)程通過(guò)核對(duì)短語(yǔ)語(yǔ)料庫(kù)中的標(biāo)記內(nèi)容進(jìn)行,詳細(xì)的短語(yǔ)校正算法流程如圖2所示。
圖2 智能識(shí)別算法校正流程圖
從圖2中可以看到歸約與推進(jìn)指標(biāo)的關(guān)系,具體的關(guān)系如表1所示。
在改進(jìn)的GLR算法運(yùn)行的過(guò)程中,對(duì)終止符展開(kāi)更換前,要先識(shí)別指針的類(lèi)型,如果是規(guī)約指針,需要檢測(cè)指針的約束條件是否存在于短語(yǔ)語(yǔ)料庫(kù)中;如果不存在,就直接進(jìn)入終止指針。終止指針一般會(huì)出現(xiàn)在有結(jié)構(gòu)歧義的后備點(diǎn)的位置上,當(dāng)查詢到終止指針后,就會(huì)形成短語(yǔ)結(jié)構(gòu)樹(shù),然后標(biāo)記符號(hào)棧,研究后備點(diǎn)的中心點(diǎn)符號(hào)是不是有,是不是放置在準(zhǔn)確的語(yǔ)句結(jié)構(gòu)上,如果沒(méi)有或者放置不正確,那算法就會(huì)調(diào)用出錯(cuò)指針,進(jìn)行校正詞性的識(shí)別結(jié)果[14]。
表1 歸約與推進(jìn)指令的比較表
為了驗(yàn)證改進(jìn)后的GLR算法的實(shí)際英漢翻譯效果,需要進(jìn)行相關(guān)的測(cè)評(píng),展示改進(jìn)的GLR算法的性能,測(cè)評(píng)的英漢翻譯任務(wù)主要性能指標(biāo)包括:翻譯精度、翻譯速度、更新能力。實(shí)驗(yàn)的測(cè)評(píng)小組由專(zhuān)業(yè)的英漢翻譯人員、3臺(tái)英漢翻譯機(jī)器和專(zhuān)業(yè)的評(píng)分人員組成,其中三臺(tái)英漢翻譯機(jī)器的詞性分析階段算法分別選擇的是統(tǒng)計(jì)算法、動(dòng)態(tài)記憶算法、GLR算法、改進(jìn)的GLR算法。
測(cè)評(píng)的過(guò)程:三臺(tái)英漢機(jī)器翻譯對(duì)指定的50條短語(yǔ)和50條網(wǎng)絡(luò)隨機(jī)語(yǔ)句進(jìn)行翻譯,英漢翻譯的專(zhuān)業(yè)人員同樣對(duì)對(duì)指定的50條短語(yǔ)和50條網(wǎng)絡(luò)隨機(jī)語(yǔ)句進(jìn)行翻譯,評(píng)分人員通過(guò)對(duì)比機(jī)器翻譯和人工翻譯,然后對(duì)三臺(tái)英漢機(jī)器的算法進(jìn)行進(jìn)行評(píng)分,評(píng)分的規(guī)則如表2所示。
表2 評(píng)分規(guī)則表
注:各項(xiàng)分值權(quán)重為識(shí)別精度0.8,識(shí)別速度0.1,更新能力0.1。
本次測(cè)評(píng)實(shí)驗(yàn)對(duì)50條短語(yǔ)和50條網(wǎng)絡(luò)隨機(jī)語(yǔ)句進(jìn)行短語(yǔ)識(shí)別,詳細(xì)描述見(jiàn)3.1小節(jié),詳細(xì)的實(shí)驗(yàn)結(jié)果如表3所示。
圖3 4種英漢翻譯算法評(píng)價(jià)結(jié)果
從圖3的測(cè)試結(jié)果來(lái)看,無(wú)論是從識(shí)別精度、識(shí)別速度、更新能力上,基于改進(jìn)的GLR算法詞性識(shí)別的機(jī)器翻譯都是同類(lèi)最優(yōu)的。從圖4綜合的測(cè)評(píng)結(jié)果上看,最高得分是基于改進(jìn)GLR算法92.3分,最低得分是統(tǒng)計(jì)算法76.8分,動(dòng)態(tài)記憶算法在最后的測(cè)試得分上與改進(jìn)的GLR算法得分差異不大,兩者的主要差距集中在更新能力方面的得分。結(jié)合圖3、圖4,顯然,改進(jìn)GLR算法較其他算法的性能優(yōu)勢(shì)明顯。
本文的比對(duì)實(shí)驗(yàn)還采用了對(duì)實(shí)際翻譯案例的實(shí)驗(yàn),選擇“西安市物價(jià)局就牛肉面限價(jià)”語(yǔ)句進(jìn)行翻譯,最終得到的基于統(tǒng)計(jì)算法、動(dòng)態(tài)記憶算法、改進(jìn)的GLR算法的機(jī)器翻譯和人工翻譯譯文的實(shí)驗(yàn)比對(duì)結(jié)果如表4所示。
圖4 4種英漢翻譯算法綜合測(cè)試得分比較
表4 翻譯實(shí)例結(jié)果對(duì)比
翻譯方法翻譯內(nèi)容統(tǒng)計(jì)算法Xi’an explained beef noodles reduce:only because of the excessive price.動(dòng)態(tài)記憶算法Xi’an explained that beef noodles reduce:only because ofthe excessive price increase.GLR 算法Xi’an price bureau explained that beef noodles reduce:only because of the excessive price raises.改進(jìn)GLR 算法Xi’an price bureau gives the explanations of beef noo-dles reduce:only because of the excessive price raises.人工翻譯譯文Xi’an price bureau gives explanations of price controlon beef noodles: it is only because the raises have been too large.
從表4中可以發(fā)現(xiàn),基于統(tǒng)計(jì)算法和動(dòng)態(tài)記憶算法的機(jī)器翻譯對(duì)“物價(jià)局”這個(gè)詞沒(méi)有進(jìn)行翻譯,而基于改進(jìn)GLR算法的機(jī)器翻譯正確的翻譯出來(lái)了。在對(duì)“做出解釋”,進(jìn)行翻譯的時(shí)候,只有基于改進(jìn)GLR算法的機(jī)器翻譯和人工翻譯譯文最接近,可以明顯地看到本文設(shè)計(jì)的基于改進(jìn)GLR算法的機(jī)器翻譯對(duì)比統(tǒng)計(jì)算法和動(dòng)態(tài)記憶算法翻譯得更加準(zhǔn)確,識(shí)別精度可達(dá)了95%以上,達(dá)到了與人工翻譯同等級(jí)別的水平,表明了基于改進(jìn)GLR算法在機(jī)器翻譯中的高效可行性。
針對(duì)英語(yǔ)翻譯領(lǐng)域中結(jié)構(gòu)歧義的難點(diǎn),同時(shí)克服了傳統(tǒng)GLR算法在翻譯模型中詞性識(shí)別存在數(shù)據(jù)點(diǎn)重合的弊端,提出了改進(jìn)的GLR算法。改進(jìn)GLR算法運(yùn)用短語(yǔ)中心點(diǎn)來(lái)設(shè)計(jì)短語(yǔ)的結(jié)構(gòu),依據(jù)解析線性表的句法功能校正詞性識(shí)別結(jié)果中的英漢結(jié)構(gòu)歧義,從而有效緩解了傳統(tǒng)統(tǒng)計(jì)算法和動(dòng)態(tài)記憶算法中識(shí)別結(jié)果精度不高的現(xiàn)狀,為識(shí)別的短語(yǔ)指定了最合理的位置。實(shí)驗(yàn)的結(jié)果表明,基于改進(jìn)GLR算法的機(jī)器翻譯同其他算法相比,具有計(jì)算簡(jiǎn)單快捷、難度不高、實(shí)用性更強(qiáng)的特性,適合英語(yǔ)機(jī)器翻譯工作。