姜東洋
(遼寧機電職業(yè)技術學院信息工程系 遼寧 118009)
近年,隨著科技技術的加速發(fā)展,人們越來越關注大量專利文獻的翻譯中,如何將人們從這些煩瑣的翻譯任務中解脫出來?統(tǒng)計機器翻譯技術的迅速發(fā)展為人類的輔助翻譯提供了強有力的手段。而專利文獻的翻譯任務中主要以大量的專利術語為主,平衡基于實例與基于統(tǒng)計的翻譯的優(yōu)缺點,本文結合兩者之間的優(yōu)點,提出一種基于匹配模板的術語翻譯方法,面向結構單一的專利術語。
術語是指“專業(yè)領域中一般概念的文字指稱”[1],《中國大百科全書》中指出,“術語是各門學科中的專門用語,術語可以是詞,也可以是詞組,用來正確標記生產(chǎn)技術、科學藝術、社會生活等各個專門領域中的事務、現(xiàn)象、特性、關系和過程。術語是科學研究的成果是人類進步歷程中知識語言的結晶”。
專利術語主要以名詞短語形式存在。因為的翻譯是英漢的專利術語翻譯。源語言是英文的名詞短語,該短語主要由修飾語和中心詞構成。修飾語可以是名詞、形容詞、分詞及其短語、介詞等的組合。英文專利術語在進行翻譯時要注意一些問題:
(1)修飾語與中心詞的位置關系也就是我們講的調(diào)序問題,這里我們歸納一部分的具有調(diào)序功能的模板,例如專利源語言術語:
A health medicine for protecting liver .
“A##1 for ##2”調(diào)序后變?yōu)椤?#2 ##1”.這里的“##1”和“##2”分別指英文名詞短語也可以是單純的名詞。
(2)另一類是不用調(diào)序的固定翻譯結構的模板,可以用來翻譯具有多種修飾語的專利術語。
例如:A drastically reduced budget.
翻譯后的模板轉(zhuǎn)換為”#1 #2 #3”.該類術語是無須調(diào)整語序,直接按順序翻譯。
我們建立了一定規(guī)模的模板庫后,設計術語模板的匹配算法成為核心。我們開發(fā)了基于中心短語的迭代匹配算法,其匹配過程如下圖所示:
圖1 術語匹配算法流程圖
下面詳細講解該算法的設計,首先對輸入的源語言術語進行匹配,匹配時如果有多個模板適用于輸入的術語,我們就會選擇匹配度最高的模板進行匹配。該匹配度的選擇我們通過一個打分機制來選擇,對于輸入的源術語對比模板庫里的術語之間的相似度來獲得終結果。當然,在這其中我們也融合了語言模型和翻譯模型。
通過模板的相似度計算來選擇最佳的匹配模板。模板庫的建立是利用 GiZA++詞對齊工具訓練語料進行詞對齊訓練,得到雙語對齊術語對。從中可以看出其中的對應關系,Giza++訓練的時候采用英漢和漢英兩個方向訓練。通過基于中心詞的依存來改善詞對齊的關系;英文部分通過parser進行句法分析,最終建立一個53907個模板。大小為5.12Mb.模板的格式如下:
模板 翻譯模板 概率(TOP(NP(NP(NN Preparation))(PP(IN of)(NP(NN koujiesu)))))123569 0.491(TOP(NP(CD 12)(NN Direction)(JJ signal)(NN input)(NN device)))134577 0.333(TOP(NP(NP(NN Cutter))(PP(IN of)(NP(NN steel)(NN wire)(NN curtain)(NN cloth)))(PP(IN at)(NP(NP(NN range))(PP(IN of)(NP(CD 15-70)(NNS degrees)))))))186555 0.333_ _ _
本文采用SRILM對10萬平行的術語語料訓練翻譯模型和三元的語言模型。
本文所采用的實驗語料是面向?qū)@I域的英文術語語料庫,語言模型和翻譯模型是通過平行的術語語料庫,規(guī)模為10萬句雙語術語對。該語料庫涵蓋了醫(yī)藥、器械、食品及生活等多個領域。為了彌補個別領域的訓練語料的不足,我們也加入一些專業(yè)的辭典到語料庫,訓練語料庫抽取350句作為開發(fā)集,抽取200句作為測試集,開發(fā)集,測試集的參考譯文都會有兩個人工參考譯文,下面是實驗設計:
實驗一:不使用模板,利用開發(fā)集進行訓練并以此作為baseline。
實驗二:使用模板庫,實驗結果用國際機器測評常用的BLEU方法。
Baseline Template_Matched Increase開發(fā)集 32.15% 34.56% 2.41%測試集 29.12% 31.23% 2.11%
BLEU評價方法:
BLEU評測方法是2001年美國IBM公司的研究人員提出來的,利用BLEU方法評估機器翻譯質(zhì)量的關鍵就是如何定量計算機器譯文與一個或多個人工翻譯參考答案之間的接近程度。該接近程度采用句子精確度的計算方法,也就是比較系統(tǒng)譯文的n元語法與參考譯文的n元語法相匹配的個數(shù),這種匹配與位置無關。系統(tǒng)譯文與人工參考譯文相匹配的n元語法的個數(shù)越多,BLEU得分越高。
另外考慮到句子的長度對 BLEU評分也有一定的影響,BLEU的評價標準又對比參考譯文更短的句子引入了長度懲罰因子。
在BLEU評測方法中,n的實際取值是1~4。總的評價指標是一元語法到四元語法的幾何平均。另外,對于整個語料庫而言,BLUE的計算一般是基于詞語進行的,而不是基于句子的。也就是說,對于長度不同的句子,要以句子的長度進行加權平均。BLEU 的總體評價公式如下:BLEU=BP×exp(
Wnlogpn)其中,是出現(xiàn)在參考譯文中的n 元詞組占候選譯文中n 元詞組總數(shù)的比例。
本文實現(xiàn)了面向?qū)@I域的英漢翻譯系統(tǒng),通過手工歸納一些模板庫來進行翻譯當中的模板匹配。因為專利術語本身的特點使翻譯術語結構比較單一,形式比較固定,所以非常適用于機器的自動翻譯。通過機器翻譯不僅節(jié)省了大量的物力、人力和財力,同時整體的翻譯結果基本上能滿足用戶需求,盡管有個別結果不盡如人意。系統(tǒng)本身具有可擴展性,通過增加術語語料庫可以體改模板匹配機率。
[1]全如堿.什么是術語[J].術語標準化與信息技術,2004(3)18
[2]林曉慶 英文名詞短語的翻譯[J].計算機工程與設計,2010.4.