張為為
引言
機器翻譯又稱自動翻譯,是利用計算機來進行的語言之間的轉換,它是自然語言處理的一個分支,與計算語言學、自然語言理解之間存在著密不可分的關系。它是橫跨語言學、數學、計算機科學、翻譯學及人工智能等的綜合學科,也是信息時代語言應用的一個重要領域。
一、機器翻譯的歷史和必要性
1.機器翻譯的歷史。20世紀30年代初,法國科學家 G.B.阿爾楚尼提出了用機器來進行語言翻譯的想法。隨著科技的進步,1946年人類第一臺現代電子計算機ENIAC誕生,1949年,韋弗(W. Weaver)在其發(fā)表的《翻譯備忘錄》中,正式提出了機器翻譯的思想。中國機器翻譯研究開始起步于1957年,是世界上第四個開始搞機器翻譯的國家。80年代中期以后,中國機器翻譯研究發(fā)展進一步加快。90年代初KY-1 和MT/EC863兩個機譯系統(tǒng)的研制成功,表明中國在機器翻譯技術方面取得了歷史性突破,隨著互聯網的普及和人們對翻譯需求的迅猛增長,機器翻譯又迎來新的發(fā)展機遇,我國相繼推出了一系列在線翻譯系統(tǒng)
2.機器翻譯的必要性。同人工翻譯相比,機器翻譯有很多優(yōu)勢。首先,存儲容量大。存儲100萬個詞條對計算機來說是一件輕而易舉的事情,這是人的大腦無法企及的。其次,翻譯速度快。機器的翻譯速度是人工翻譯速度的幾十倍,乃至上百倍。再次,更加經濟和節(jié)省勞動力。據戴爾電腦制造商韋恩·波蘭德說,他的公司網站需要提供28種語言,機器翻譯已經為其節(jié)省了40%的翻譯時間。隨著對信息獲取速度要求的不斷提高和國際間交流的日益頻繁,人工翻譯的低效率、高成本遠遠不能滿足需要,機器翻譯將毋庸置疑地成為必要的輔助翻譯工具。
3.機器翻譯的主要方法。機器翻譯的過程一般可簡化為三個階段:原文分析、原文譯文轉化和譯文生成。表象上,機器翻譯的核心問題是翻譯的準確性;實質上,體現在技術層面則是機器翻譯系統(tǒng)采用的方法論問題。在方法論層面,機器翻譯系統(tǒng)可分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。基于規(guī)則(Rule-Based)就是由詞典和語法規(guī)則庫構成翻譯知識庫。基于語料庫(Corpus-Based)則是以語料的應用為核心,由經過劃分并具有標注的語料庫構成知識庫。語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。
二、漢英機器翻譯中常見錯誤分析
漢英機器翻譯中,漢語到英語的轉換實際上是一個信息增加的過程。在漢語中所沒有的各種形態(tài)信息,如單復數、時態(tài)、語態(tài)等等,在轉換和生成中都必須添加上去與過去相比,漢英機器翻譯譯的速度和質量盡管已明顯提高,但與人工翻譯相比,機譯的文本依然會出現許多錯誤。下面就在漢英機器翻譯過程中常見的錯誤加以舉例分析:
1.直譯的錯誤。漢語中一詞多義現象非常普遍,一個詞在與不同的詞語搭配時具有不同的詞義。人工翻譯會根據語境來選擇,而機器翻譯還達不到通過語境來判斷語義,通常是根據該詞的第一個詞義來直接翻譯,這就容易出現一些選詞不當或錯誤的翻譯結果。2.被動語態(tài)使用錯誤。漢英機器翻譯中,主動語態(tài)和被動語態(tài)的轉換也是對計算機的一個嚴峻考驗,因為漢語句子中并沒有相應的語法標志,只能根據句子所處的上下文環(huán)境和語義及常識進行判斷。3.冠詞使用錯誤。漢語沒有冠詞,在英語的名詞短語中卻往往要加上冠詞,這其中又分為零冠詞、定冠詞和不定冠詞三種情況。同時,英語中的冠詞有時候相當于漢語中的指示代詞“這”、“那”、“該”等。因此,如何把握就成了機器翻譯的難題,就會出現表達不當的情況。4.介詞及其搭配使用錯誤。據統(tǒng)計,漢語中總共有介詞30個左右,英語中有介詞286個,其中在一百個英語句子里幾個常用的介詞如at,in,on和for的重復出現率為二、三百之多。英語介詞不但多,而且使用范圍廣,所以機器翻譯起來往往錯誤百出。5.句法結構的錯誤。英語重形合,漢語重意合。所謂“形合”是指語言的詞語、分句以及句子之間借助語 言形式手段(如關聯詞)實現詞語或句子的連接,表達語法意義和邏輯意義。
三、幾點建議
1.正確使用機器翻譯。機器翻譯發(fā)展經歷了不同階段,從開始只能翻譯簡單的句子,到現在翻譯整篇的文章,已有了巨大的發(fā)展,在處理專業(yè)性強、數量大的技術資料和論文等有相當的優(yōu)勢。隨著新機器翻譯系統(tǒng)的開發(fā),人工譯員不再只是聽機器的指令,而是以一種與人工翻譯決策過程類似的方式來指引翻譯過程。但是,無論用多么復雜的技術制造出來的產品均不能與人類大腦的創(chuàng)造天賦相比。人工譯員介入改善翻譯文本仍然相當重要。因此,我們應根據自己的實際需求,客觀確定機器翻譯譯文質量的接受值,機器翻譯的結果也不能作為最終數據直接用于科研學術研究。
2.建立功能更加完善的語料庫。漢英機器翻譯處理的是語言問題,處理語言問題就不應該離開語言知識的輔助,機器翻譯時所需要的主要信息是一個大型的雙語語料庫,若是輸入的東西數據庫里沒有,機器就翻不出人們想要的結果。語言學家經過長期努力創(chuàng)建了含有成千上萬條規(guī)則的語料庫,覆蓋了多樣的語言現象,但是,如今信息的日新月異導致現實中的語言現象復雜多變,涉及到詞法、句法理論以及語用理論等。翻譯這些語料不僅需要扎實的語言功底,而且還需要有廣闊的文化和百科知識,甚至需要有很高程度的新學科領域的專門知識。作者認為目前的語料庫已無法滿足漢英機器翻譯的需求,這就導致漢英機器翻譯中諸多問題的出現。因此,從根本上還要依靠語言學家和每位語言愛好者更加深入細致的研究工作,投入更大的人力和物力,建立一個功能更加完善的語料庫,這樣可以大大提高機器翻譯的正確率及可讀性。