吳恒 代思師
內容摘要:隨著神經(jīng)網(wǎng)絡翻譯的發(fā)展,谷歌翻譯和百度翻譯成為使用率較高的機器翻譯平臺。本文從金融時報(FT)雙語網(wǎng)站選取一篇新聞媒體的文本進行案例研究,對比人工翻譯和兩種機器翻譯,分析兩種機器翻譯的優(yōu)缺點,提出人工翻譯依然無法替代,同時通過適當利用機器翻譯的長處,可以提高翻譯效率和質量。
關鍵詞:信息類文本 機器翻譯 問題 分析
傳統(tǒng)的機器翻譯存在著“只見樹木不見森林”的問題,而近幾年,尤其是2016年以來,隨著神經(jīng)網(wǎng)絡機器翻譯技術的突飛猛進,機器翻譯的表現(xiàn)獲得質的飛躍。谷歌推出的神經(jīng)網(wǎng)絡翻譯(GNMT, Google Neural Machine Translation)采用循環(huán)神經(jīng)網(wǎng)絡(RNNs, Recurrent Neutral Networks)在產出譯句的每個部分時都會參考整個原句,譯文用詞和語序都更自然,更符合目標語的語法。以維基百科和新聞譯文為對象的質量測試表明,谷歌將翻譯錯誤將降低了55%-85%。而百度翻譯也采用了神經(jīng)網(wǎng)絡翻譯,目前,神經(jīng)機器翻譯已經(jīng)取代統(tǒng)計機器翻譯成為Google和百度等在線機器翻譯系統(tǒng)的核心技術。
根據(jù)德國翻譯家卡塔琳娜·賴斯(Katharine Reiss)的文本類型理論,文本類型包括信息型( informative)、表情型(expressive)、操作型(operative)三類。信息類文本是指“自然科學、科技、工商經(jīng)濟”類文書文本,講求術語表達的專業(yè)性,語言表述的直陳性、客觀性、邏輯性和文體風格的不變性。新聞文本屬于信息類文本,翻譯時強調重視原文、簡潔明了,且具有術語復雜、句式固定等特點,因此具有最高的機器翻譯適用性。
《金融時報》中文網(wǎng)站的文章是經(jīng)濟新聞類,屬于信息類文本。本文選取了網(wǎng)站中一篇題為《全球債市拋售加劇》的文章為研究對象,探討新聞信息類文本的機器翻譯的優(yōu)缺點,對比谷歌和百度兩種平臺的翻譯,并嘗試提出改進的建議。
本部分從字詞句等傳統(tǒng)領域進行對比分析,用R指代網(wǎng)站的人工翻譯,G為谷歌翻譯,B百度翻譯。為比對方便,原文劃線處對應的翻譯用陰影標出。
一.常用表達
這里的常用表達除了專有名詞外,還包括常用的詞和短語。
(P8)That lifted the 10-year US Treasury yield, the most widely watched interest rate in the global economy, by 5 basis points to a peak of 2.73 per cent on Monday, the highest since April 2014.
R: 這使得10年期美國國債收益率(全球經(jīng)濟中最受關注的利率)在周一上升5個基點,至2.73%的峰值,為2014年4月以來最高水平。
G: 這將全球經(jīng)濟最廣泛關注的10年期美國國債收益率提高了5個基點,至周一高點2.73%,為2014年4月以來的最高點。
B: 這使全球經(jīng)濟最受關注的10年期美國國債收益率提高了5個基點,達到星期一的2.73%點,為2014年4月以來的最高點。
財經(jīng)類的文章中,會經(jīng)常出現(xiàn)這樣的句式和表達,如“……上漲/下跌……,至……,為……最高/低水平”,原文的“a peak of number”是常用表達,意為“……峰值”。谷歌翻譯中翻譯成“高點”也未嘗不可,但是百度翻譯中漏譯了這層意思,只能歸咎于數(shù)據(jù)庫中沒有對應的詞條,或者訓練用的語料本身就漏譯了。需要擴充數(shù)據(jù)庫專業(yè)詞匯,輔以人工糾錯,解決詞匯層面的問題。
(P8)The ①10-year German Bund climbed ②7bp to 0.69 per cent, lifting the five-year Bund yield back into ③positive territory for the first time since November 2015.
R: ①10年期德國國債收益率攀升②7個基點,至0.69%,5年期德國國債收益率自2015年11月以來首次回到③正值區(qū)間。
G: ①10年期德國外灘上漲②7個基點至0.69%,自5月份以來首次將5年期外灘收益率回升至③正面區(qū)間。
B: ①德國10年期國債上漲②7BP至0.69%,提升五年債券的收益率回到了2015年11月以來的首次③正。
Bund在德語中對應bond,讀音和拼寫都與英語接近,人工翻譯能夠識別出來,但是bund在英語中也有“堤岸、同盟”等意思,會產生干擾,這時人工翻譯的優(yōu)勢就體現(xiàn)了出來。谷歌翻譯很顯然沒有“學習”這個特殊用法,即“德國”后面的Bund意為“國債”,而百度翻譯也沒有“學習”數(shù)字后面的bp意為“基點”。原文③positive territory暴露了百度翻譯的漏譯問題,因為沒有對應的詞條,機器翻譯只有一個字——“正”。谷歌翻譯雖然語義上有點偏差,但也算中規(guī)中矩,沒有完全漏掉。但是,谷歌翻譯中波浪線部分居然將November翻譯成“5月份”,說明系統(tǒng)還有很嚴重的漏洞。筆者嘗試將“since November 2015”之前的三個意群“l(fā)ifting the five-year Bund yield”,“back into positive territory”和“for the first time”任意刪除一個,機器都能識別出“2015年11月以來”,說明目前機器翻譯的模式識別還有提升空間。
對比詞條①的三種翻譯,人工翻譯增加了“收益率”,增詞不增意,讓譯文更清楚易懂,體現(xiàn)了人工翻譯的主動性。這一點是目前機器翻譯望塵莫及的地方。
二.詞語搭配
搭配是指某種語言中一些詞往往同時的趨勢,搭配的形成是隨機的,不同語言會有不同的搭配習慣。
(P1) The global bond market sell-off deepened on Monday, …
R: 全球債券市場的拋售周一加劇……
G: 周一全球債券市場拋售加深……
B: 星期一,全球債券市場拋售進一步加劇……
“deepen”的搭配意義取決于前面出現(xiàn)的詞sell-off(拋售),中文一般使用“加劇”,而非“加深”。如果是Friendship deeps,自然可以說“友情加深”。神經(jīng)機器翻譯能夠通過大量的數(shù)據(jù)訓練識別出語言模式,所以,谷歌翻譯的問題或許通過更進一步的數(shù)據(jù)訓練,可以得到解決。百度翻譯把“deepen”處理為“加劇”,更符合漢語的習慣,表明百度的翻譯系統(tǒng)能夠根據(jù)前文的“拋售”等詞,自動篩選出符合語境的譯文。畢竟,百度是中文搜索第一網(wǎng)站,其海量的中英文雙語語料是數(shù)據(jù)訓練的有力保障。
(P2) …but stirred concerns that long-dormant inflation might finally make a comeback …
R: ……但這也引發(fā)了人們的擔憂:即長期蟄伏的通脹也許終于會卷土重來……
G: ……但令人擔憂的是長期擱置的通貨膨脹最終可能卷土重來……
B: ……但人們擔心長期休眠的通脹可能最終卷土重來……
“l(fā)ong-dormant”這里的機器譯文分別是“長期擱置”和“長期休眠”。雖然在語義上都與“l(fā)ong-dormant”對應,但是適用于不同的搭配,如“長期擱置的問題”和“長期休眠的狀態(tài)”,但是原文的中心詞是“通脹”,所以更恰當?shù)拇钆涫侨斯しg選擇的“長期蟄伏”。根據(jù)語境選擇不同的搭配,是人工翻譯天然的優(yōu)勢,而機器翻譯通過海量數(shù)據(jù)的訓練,或許也能實現(xiàn)。
三.定語結構
(P7):Investors now expect the Federal Reserve to follow through on its plans to raise interest rates three times this year, and the European Central Bank is forecast to end its crisis-era stimulus programme.
R:投資者現(xiàn)在預計美聯(lián)儲(Fed)今年將執(zhí)行其加息三次的計劃,并預計歐洲央行(ECB)將結束危機時期的刺激計劃。
G:投資者現(xiàn)在預計美聯(lián)儲將在今年三次加息的計劃中繼續(xù)執(zhí)行,預計歐洲央行將結束危機時代的刺激計劃。
B:投資者現(xiàn)在預計美聯(lián)儲將執(zhí)行其今年三次加息的計劃,預計歐洲央行將結束其危機時期的刺激計劃。
后置定語依然是機器英中翻譯的一個重大挑戰(zhàn)。本例中“to …three times”的后置定語修飾前面的plan,兩個機器翻譯的版本都處理成前置定語,語言結構上機械轉換成漢語中習慣的形式也是機器翻譯擅長的地方。但是,兩種機器翻譯都將時間狀語this year看作“加息”的限定成分,而人工翻譯準確地把握限定對象,將“今年”的位置調整到動詞“執(zhí)行”的前面。這樣處理讀起來也更通順,更符合漢語的表達習慣。筆者也分析了機器翻譯遇到前后兩個定語同時修飾一個中心詞的情況,翻譯結果不盡如人意。
(P2): ①Mounting optimism ②over the strength of the world economy has buoyed equities, which have enjoyed their best start to a year since 1987, but ...
R: 人們②對世界經(jīng)濟走強①日益樂觀的情緒近期推高了股市。今年是自1987年以來股市開局表現(xiàn)最好的一年……
G: ②對世界經(jīng)濟實力表示樂觀的態(tài)度助長了自1987年以來最佳開局的股市……
B:人們②對世界經(jīng)濟實力的樂觀情緒提振了股市,自1987以來,股市迎來了一年來最好的開局……
原文中的mounting意為increasing,兩種機器翻譯中都沒有體現(xiàn)。筆者把optimism的后置定語“over … economy”刪除以后,谷歌翻譯變成“樂觀情緒提振了股市”,漏譯仍然存在;百度翻譯則是“越來越多的樂觀情緒提振了股市”。筆者將“optimism”改成“price”,谷歌翻譯成“股價上漲”,可見谷歌的“深度學習”還沒有學到mounting optimism這種情況,而百度翻譯雖然收錄了這種搭配,但是中文翻譯過于死板,沒有人工翻譯的靈性。
通過分析對比后面非限制性定語從句的處理情況,百度翻譯將從句另起一句,優(yōu)于谷歌翻譯。谷歌翻譯將which從句處理成限制性定語,跟前面一句揉在一起,結果比較冗長。筆者嘗試將定語②刪掉,谷歌翻譯成“樂觀情緒提振了股市,自1987年以來已經(jīng)開始了一年的最佳開局”,仍然是不明就里。谷歌翻譯在處理類似結構時,應學習百度翻譯的處理方法。或許讓機器把which機械的替換成距離最近的名詞,也能減少類似的錯譯。
四.指示代詞
指示代詞是實現(xiàn)銜接的一個重要手段。譯文與原文一樣需要銜接,英文銜接體現(xiàn)在語篇的表層結構上,通過語法手段和詞匯手段的使用。
(P6)“①It all feels a little bit euphoric,” said Larry Hatheway, chief economist at GAM, the investment group. “②It has led to a lot of people thinking that we should prepare the groundwork for some risk mitigation strategies. ③This cant go on forever.”
R: “①這一切讓人感覺有點欣快過頭,”投資集團GAM的首席經(jīng)濟學家拉里·夏德威(Larry Hatheway)說,“②這導致很多人認為,我們應該為一些風險緩解策略做好鋪墊。③這波行情不會永遠持續(xù)下去?!?/p>
G:… Larry Hatheway表示:“①這一切都讓人感到欣喜若狂。 “②這導致了很多人認為我們應該為一些風險緩解戰(zhàn)略奠定基礎。③這不可能永遠持續(xù)下去?!?/p>
B:“①這一切都感覺有點興奮,”Larry Hatheway說,在GAM投資集團首席經(jīng)濟學家?!阿谶@導致許多人認為我們應該為一些減輕風險的戰(zhàn)略做好準備。③這不能永遠持續(xù)下去。”
原文中使用了it和this,機器翻譯全部處理為“這”,一個兩個沒問題,但是一連串的“這”會讓讀者有點摸不著頭腦。原文it和this用詞的不同在中文翻譯中應該體現(xiàn)出來。這一點人工翻譯表現(xiàn)得更好,this譯成“這波行情”讓讀者很容易回溯到上文的語境。指示代詞的指代內容會隨著語境的變化而變化,而機器翻譯在技術上很難規(guī)定指代的具體內容,即便海量的數(shù)據(jù)“學習”以后,也難以應對千變萬化的指代對象。這種尷尬的結果其實可以追溯到中英兩種語言實現(xiàn)銜接的差異。英文用指示代詞,而中文常用具體名詞指代上文內容。所以,英漢互譯中指示代詞的處理上,人工翻譯是難以替代的。此外,兩種機器翻譯還有些小問題,比如谷歌機器翻譯中兩段引文合并后,波浪線處多了一個引號;百度翻譯中波浪線處的“在”也出現(xiàn)得莫名其妙,這都是機器容易出現(xiàn)“小毛病”的佐證。
五.名詞化
名詞化指的是其他詞類形成名詞的過程,或者是指分句派生出名詞詞組的過程。名詞化是信息類文章中常見的語法現(xiàn)象,名詞化結構的背后常常是一個動詞結構。
(P7): There is also nervousness that the Bank of Japan could scale back some of its ultra-aggressive stimulus later in 2018.
R: 還有人擔心,日本央行(BoJ)可能會在2018年晚些時候縮減一部分極端激進的刺激措施。
G: 日本央行也可能在2018年晚些時候縮減一些超激進的刺激措施。
B: 還有一種緊張情緒,即日本央行可能在2018年底縮減其部分激進刺激計劃。
原文中的there is nervousness,其深層的意思是people feel nervous about …,人工翻譯很準確地抓到這個意思。從兩種機器翻譯的對比看,谷歌翻譯出現(xiàn)漏譯;百度翻譯雖然沒有漏譯,但是譯文差強人意,究其原因是被原文“有”的表層結構限制了。名詞化涉及語義理解,需要看透表面的結構,抓住深層次的動作含義,這也許是目前機器翻譯比較難突破的問題之一。
從人工翻譯與兩種機器翻譯的對比可以看出,人工翻譯依然優(yōu)勢明顯,不可替代,而谷歌和百度翻譯各有優(yōu)缺點。百度在常用搭配的選擇上超過谷歌;而谷歌收錄的財經(jīng)類詞匯超過百度,百度需要更多的提高數(shù)據(jù)庫的專業(yè)化程度。而對于長難句的處理,百度傾向于保留原文結構,而谷歌則傾向于拆分結構。盡管長句翻譯一般是用拆句法,但是如果拆了以后出現(xiàn)漏譯錯譯,則是得不償失,所以需要人工翻譯審核把關。神經(jīng)網(wǎng)絡機器翻譯的技術雖然大大提高了機器翻譯質量,但是仍然存在一些低級錯誤,以及翻譯質量不高的問題,人工翻譯,尤其是高級筆譯和審校依然是不可替代的。
參考文獻
[1]Wu, Y., M. Schuster, Z. Chen et al. Googles Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv: 1609. 08144v2 [cs. CL], 2016.
[2]孫茂松,周建設.從機器翻譯歷程看自然語言處理研究的發(fā)展策略.語言戰(zhàn)略研究,2016(6):12-18.
[3]劉洋,神經(jīng)機器翻譯前沿發(fā)展.計算機研究與發(fā)展.2017,54(6):1144-1149.
[4]張美芳.文本類型理論及其對翻譯研究的啟示.中國翻譯,2009(5):54-55.
[5]原傳道.英語“信息型文本”翻譯策略.中國科技翻譯,2005,18(3):50-52.
[6]孫謹慎.基于文本類型理論的機器翻譯研究.中國科技翻譯,2016(3):27-29.
[7]羅賓·威格爾斯沃思.全球債市拋售加劇.http://www.ftchinese.com/story/001
076136/ce#adchannelID=1100.2018-2-1.
[8]Baker, Mona. In Other Words, A Course-book on Translation. Routledge, 1992: 15, 47.
[9]Halliday, M.A.K & Hasan, R. Cohesion in English. Longman, 1976.
(作者單位:空軍預警學院外語教研室;對外經(jīng)濟貿易大學英語學院在職人員高級課程研修班)