羅煦 四川傳媒學院
1966年,自動語言處理咨詢委員會(ALPAC)發(fā)布的一份報告初步定義了歐洲煤鋼鐵協(xié)會(CECA)所使用的早期的翻譯記憶系統(tǒng)為:“包含上下文的自動字典查詢。[...]翻譯者用下劃線表示他想要的幫助。然后將整個句子按鍵打開并送入計算機。計算機通過搜索程序并打印出與問題句子最明顯匹配(在詞匯項目中)的一個句子或多個句子。譯者然后檢索打印出來的所需項目的上下文以及它們在源文件中出現的順序?!?ALPAC 1966,27)這個系統(tǒng)的出現,為了為現代翻譯記憶系統(tǒng)的發(fā)展鋪平道路,一些關鍵特征如文本對齊,自動匹配和檢索被創(chuàng)造了出來。
翻譯記憶(TM)是一個存儲“段”的數據庫,它存儲著之前翻譯過的句子,段落或類似句子的單位(列表中的標題,標題或元素),借以此幫助翻譯人員。翻譯記憶通常與專用計算機輔助翻譯(CAT)工具,文字處理程序,術語管理系統(tǒng),多語言字典或甚至原始機器翻譯輸出結合使用。雖然翻譯人員可用的技術范圍包括從電子詞典和詞匯提取工具到高度復雜的翻譯環(huán)境等各個領域,但翻譯及一系統(tǒng)存儲和檢索能力以非凡的速度發(fā)展,因而對翻譯這個行業(yè)帶來了變革。因此,就像在翻譯和翻譯之間架起了一座橋梁。當翻譯人員使用翻譯記憶庫工具翻譯新文本時,該工具會識別新文本片段和存儲的源文本之間的相似性。在此過程中,搜索和檢索功能是所有翻譯記憶工具的基本功能。
現如今,翻譯行業(yè)正在為今后幾年的需求大幅增長做好準備。根據Common Sense Advisory的調查,語言服務市場2015年的增長率為6.46%。雖然語言技術只占整個語言服務市場的2.8%,但它確實表明了語言技術發(fā)展的巨大潛力。Common Sense Advisory將名為翻譯自動化軟件的三家大型公司列為混合語言服務提供商,向所有市場利益相關者銷售服務,包括SDL,STAR和TransPerfect。他們的套裝包括翻譯記憶庫,術語管理和TMS。
而翻譯記憶最新發(fā)展是“文本記憶”,這一概念與翻譯記憶相反。這也是LISA OSCAR(前本地化產業(yè)標準協(xié)會出臺的標準)的基礎。在xml:tm中的文本內存包含“譯者內存”和“翻譯記憶”。譯者記憶用于記錄譯者編輯當中出現的改動。翻譯記憶則使用譯者記憶中的信息來實現翻譯記憶匹配。雖然主要針對XML文檔,但可以將XML:tm用于任何可以轉換為XLIFF格式的文檔。
翻譯記憶模式是指翻譯記憶存儲的方式。根據國內研究人員(王華偉,崔啟良2005,107)的分類,目前有兩種翻譯記憶模式。一種是基于句子的模式(SB),其中翻譯記憶以翻譯單元的形式存儲。另一種是雙語語料庫內的字符串(CSB)模式。目前,SB模式被應用于大多數翻譯記憶工具。因此,本文在比較兩種模型時將更重視前者。
就該模式而言,翻譯記憶系統(tǒng)是一種特殊類型的支持工具,它維護源語言和目標語言對的數據庫,并自動檢索數據庫中出現的新文本中的這些句子的翻譯。換句話說,每個源語句與目標語句中的語句完全匹配。在這一模式中,翻譯記憶系統(tǒng)將根據句子級別搜索和檢索數據。
為什么句子是大多數翻譯記憶工具選擇的首選翻譯單元?語料庫對在不同層面都差異甚大,比如文本、段落、句子、短語和詞語層面。一些像黃俊紅這樣的學者(2007,21)認為,對齊單位越小,它傳達的語言信息就越多。然而,Bowker(2002,56)認為,詞匯層次上的對齊非常困難,容易被誤解,因為大多數自然語言可以找到它們之間的確切等價關系,而段落對太寬而無法搜索和檢索。因此,詞匯對齊應該是構建雙語平行語料庫最合適的方法。
此外,通常來講,這樣的匹配也是高度精確的。盡管能夠訪問比句子更小的片段的工具可能會產生更多的匹配,但使用該句子作為基本單元的顯著益處在于,出現的匹配更有可能是相關的。這被認為是高精度,低召回的搜素形式。
這種基于句子的模型的另一個優(yōu)點是它基于容易識別的單位(句子)進行操作;系統(tǒng)可以根據形式標準(例如開頭的大寫字母,最后的標點符號)快速且比較容易地確定每個句子的開始和結束。但是,當文本中出現含有句點的縮寫詞時就會出現問題,但這可以在一定程度上用停用列表來幫助程序識別和忽略這些縮寫(Bowker 2002,95)。
任何以句對形式存在的翻譯記憶數據庫都促進了翻譯記憶系統(tǒng)在不同系統(tǒng)和用戶之間的可交換性,因為市場上大多數翻譯記憶系統(tǒng)使用該模式,而另一方面得歸功于本地化行業(yè)標準協(xié)會(LISA),因為它開發(fā)了TMX(翻譯記憶交換),這是一種標準格式,允許翻譯單元從一個翻譯記憶程序中導出并在另一個中重新打開,而不會丟失附加到這些單元的信息。
最明顯的缺點在于源文本和目標文本之間由于句子結構不同而導致的對齊問題。有時需要將兩個源語言句子合并成一個目標語言句子,或者將一個源語言句子分解成兩個目標語言句子,特別是在由很多分句組成的長句中(Bedard 1998,25)。
第二個明顯的缺點是匹配算法。匹配是通過字符匹配過程實現的,通過計算兩個段或子段中相同和相同順序的字符串數量。此計算以匹配值的形式表示,通常為百分比。這種匹配方式只考慮了語言因素,而不是語句所表達的意思。一些研究人員用以下三句話進行了測試:
(1) The wild child is destroying his new toy.
(2) The wild chief is destroying his new tool.
(3) The wild children are destroying their new toy.
事實證明,(2)和(1)比(3)和(1)匹配得更好,而我們都知道(1)和(3)在意義上更接近的事實,因為考慮到兩個句子只有單數 和復數形式。由于TM系統(tǒng)僅考慮共同字的數量,所以這個結果出來了。這種結果算法甚至會產生無用匹配的更大風險,這被稱為“噪聲”。
雙語語料庫內的字符串模式允許用戶看到更廣泛的匹配上下文(即整個段落或文本而不僅僅是一個單獨的段)。此外,用戶可以利用更大塊的重復或相似的文本,如段落或頁面,而不僅僅是在句子層面上運作。
在雙語語料庫中搜索字符串,而非在單獨的句對中查找匹配,這一模式的優(yōu)點在于能夠完整保存句子層面之外的上下文。用戶可以看到更廣泛的上下文匹配內容,即整個段落或文本,而不僅僅是一個單獨的片段。
此外,用戶可以利用更大塊的重復或相似的文本,如段落或頁面,而不是在句子層面進行操作。例如,如果要翻譯的文本中有大量重復的材料集中在大塊中(可能是更新或修訂的情況),雙語語料庫內的字符串模式的翻譯記憶系統(tǒng)具有能夠立刻識別和處理多個連續(xù)的相同句子。
在基于句子模式的翻譯記憶系統(tǒng)中,精確對準非常重要。這意味著創(chuàng)建和維護數據庫必須花費更多的時間。相反,當在雙語語料庫內的字符串模式中保留上下文時,可以在翻譯過程中用很少額外的努力來糾正錯誤對齊。
盡管擁有能夠拾取短字符串的優(yōu)點,但該模式可能以子段塊的形式產生更多的“噪音”,因為該系統(tǒng)可能識別許多兩個三字的字符串。
此外,當前文本的翻譯通常不會被添加到翻譯記憶中或者在翻譯過程完成之后才被驗證,從而使用戶難以地利用內部重復。這意味著,對于基于句子的模型,一旦翻譯完成,新的句對就可以很容易地從同一個數據庫中檢索出來。而在基于雙語語料庫內的字符串模式中,直到整個翻譯完成并添加到數據庫之前,新文本的內容才能以雙語語料的格式進行搜索。即使在翻譯過程中將術語和表達方式添加到術語銀行,除非用戶在每次添加后重復每個過程,否則這些術語和表達方式不會被識別為內部重復。
最后,雙語語料庫內的字符串模式不太可能在系統(tǒng)和用戶之間轉移,因為TMX標準格式是基于句子模式發(fā)明的。
本文的主要目的是分析兩種翻譯記憶模型:基于句子的模式和雙語語料庫內的字符串模式。但是,目前雙語語料庫內的字符串模式的翻譯記憶系統(tǒng)幾乎已經在市場上消失了。本文仍詳細分析了雙語語料庫內的字符串模式,旨在為翻譯記憶系統(tǒng)的新功能的研究和開發(fā)提供參考,因為它具有其獨特的優(yōu)勢。
[1]ALPAC,Language and Machines:Computers in Translation and Linguistics.A report by the Automatic Language Processing Advisory Committee,Division of Behavioral Sciences,National Academy of Sciences,National Research Council,Washington,DC.1996.
[2]王華偉,崔啟亮.軟件本地化[M].北京:電子工業(yè)出版社,2005.
[3]Bedard,Claude.“Jamais plus vous ne traduirez,ou les memoires des traduction,deuxieme partie”,Circuit,vol.61,1998:23.
[4]Bowker,Lynne.Computer-Aided Translation Technology:A Practical Introduction,University of Ottawa Press,2002.
[5]黃俊紅,范云,黃萍.雙語平行語料庫對齊技術述評[J].外語電化教學,2007(118):21-25.