從機(jī)器翻譯歷程看自然語(yǔ)言處理研究的發(fā)展策略

2016-05-30 10:48:04孫茂松周建設(shè)

語(yǔ)言戰(zhàn)略研究 2016年6期

孫茂松?周建設(shè)

提要本文試圖從超脫細(xì)節(jié)的宏觀角度，對(duì)機(jī)器翻譯的發(fā)展歷程進(jìn)行扼要的總結(jié)和深刻的評(píng)介，著重于刻畫各個(gè)時(shí)期在基本方法和核心技術(shù)上的主要特征，從而勾勒出機(jī)器翻譯的全過(guò)程演進(jìn)脈絡(luò)。在上述考察和分析的基礎(chǔ)上，文章對(duì)國(guó)內(nèi)機(jī)器翻譯乃至自然語(yǔ)言處理研究的近期發(fā)展策略提出了若干建議。

關(guān)鍵詞機(jī)器翻譯；自然語(yǔ)言處理；發(fā)展歷史；策略

Abstract Machine translation （MT） is one of the major research fields of natural language processing （NLP）， and it always spearheads the research frontier in NLP. In this paper， after a systematic survey of the development history of MT from a macroscopic perspective， with particular emphasis on the main development path of underlying methodologies and core technologies in MT， we drew a general picture of the milestones that marked the key points of a long journey for both theoretical study and practical accomplishment for the past seven decades. The latest fruitful development achieved in the area of MT application shows that， the paradigm shift from the traditional linguistic rule-based approaches to the so-called empirical approach， based on increasingly available amounts of “raw data” in the form of massive collections of texts and their translations， compounded by the phenomenal advancement of computer technology， will become the driving force that will potentially lead to the breakthrough in MT. Based on the above observation and analysis， some suggestions on the short-term development strategy for machine translation as well as natural language processing in China are proposed.

Key words machine translation； natural language processing； development history； strategy

一、引言——從機(jī)器翻譯談起

2016年9月27日，“谷歌大腦小組”的科學(xué)家Quoc V. Le和Mike Schuster在“谷歌研究博客”上發(fā)表了一條博文：“一個(gè)產(chǎn)品規(guī)模的用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)”，稱繼十年前谷歌推出基于短語(yǔ)的機(jī)器翻譯系統(tǒng)Google Translate之后，谷歌在機(jī)器翻譯領(lǐng)域再次取得重大突破，全新推出了神經(jīng)機(jī)器翻譯系統(tǒng)GNMT（Le & Schuster 2016）。谷歌公司同時(shí)還在arXiv上發(fā)表了一篇論文，從技術(shù)角度詳細(xì)報(bào)告了GNMT的工作機(jī)制（Wu et al. 2016）。以維基百科和新聞?wù)Z料為測(cè)試數(shù)據(jù)的實(shí)驗(yàn)結(jié)果顯示，較經(jīng)典的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型GNMT將若干關(guān)鍵語(yǔ)言對(duì)之間的翻譯錯(cuò)誤率顯著降低了55%到85%。圖1顯示，從法語(yǔ)到英語(yǔ)、英語(yǔ)到西班牙語(yǔ)的機(jī)器翻譯質(zhì)量已非常接近人工翻譯質(zhì)量（也可以看到，從漢語(yǔ)到英語(yǔ)以及從英語(yǔ)到漢語(yǔ)的機(jī)器翻譯質(zhì)量是最遠(yuǎn)離人工翻譯質(zhì)量的）。與前不久谷歌AlphaGo戰(zhàn)勝人類九段圍棋選手相仿，谷歌的這個(gè)工作又一次在世界上引起了轟動(dòng)和熱議。

筆者有針對(duì)性地輸入一些頗為復(fù)雜的實(shí)際句子給GNMT，以考察其翻譯性能。總的印象是GNMT表現(xiàn)優(yōu)良，谷歌所言不虛。作為工作于自然語(yǔ)言處理領(lǐng)域的學(xué)者，一方面為機(jī)器翻譯取得的如此進(jìn)步而深感興奮，另一方面又有些失落感：在與國(guó)際大公司的核心技術(shù)角逐中，國(guó)內(nèi)研發(fā)單位又一次處于下風(fēng)。宏觀來(lái)看，機(jī)器翻譯的下一個(gè)關(guān)鍵步，我們?cè)撛趺醋?？進(jìn)一步地，機(jī)器翻譯是自然語(yǔ)言處理領(lǐng)域一個(gè)最為經(jīng)典問(wèn)題，自然語(yǔ)言處理的下一個(gè)關(guān)鍵步又該怎么走呢？

本文試圖通過(guò)扼要回顧機(jī)器翻譯的發(fā)展過(guò)程來(lái)部分地回答上述兩個(gè)問(wèn)題。需要說(shuō)明的是：我們并不關(guān)心機(jī)器翻譯發(fā)展歷史的細(xì)部，而只是就機(jī)器翻譯各發(fā)展階段中最重要的特點(diǎn)（主要關(guān)注在方法論及核心技術(shù)層面上）以及與本話題密切相關(guān)的某些“吉光片羽”，展開“散步式”的討論。這里對(duì)機(jī)器翻譯發(fā)展階段的劃分，大體上采用了Hutchins（1995）的說(shuō)法，但也有所調(diào)整。

二、機(jī)器翻譯的發(fā)展歷程：

大波浪式前進(jìn)

（一）大潮初起（1947—1956）

說(shuō)到機(jī)器翻譯近70年的發(fā)展史，就不能不提“機(jī)器翻譯之父”——Warren Weaver。

Warren Weaver是美國(guó)著名的科學(xué)家、數(shù)學(xué)家及科學(xué)管理者。他與“信息論之父”香農(nóng)于1949年合作出版了在通信領(lǐng)域具有里程碑意義的著作The Mathematical Theory of Communication，足見他在科學(xué)界的尊崇地位。1947年3月4日，他在寫給 “控制論之父”Norbert Wiener的一封信中，就認(rèn)真探討了機(jī)器翻譯的可能性（雖然他感覺由于語(yǔ)言中“語(yǔ)義困難”的存在，機(jī)器翻譯的質(zhì)量不太可能達(dá)到“雅”的境界，但對(duì)科技文獻(xiàn)達(dá)到“信”的程度卻是可能的）。1949年7月15日，他在題為《翻譯》（Weaver 1955）的備忘錄中正式提出了機(jī)器翻譯的思想，并在如下四個(gè)方面給出了他的真知灼見（以下簡(jiǎn)稱為“WW建議”）：

（1）意義與上下文：他充分認(rèn)識(shí)到上下文在解決詞匯歧義中的重要作用，由此引出了語(yǔ)言的統(tǒng)計(jì)語(yǔ)義性質(zhì)問(wèn)題（如句子的上下文窗口大小問(wèn)題）。這與后來(lái)的馬爾可夫語(yǔ)言模型有對(duì)應(yīng)關(guān)系。

（2）語(yǔ)言與邏輯：他認(rèn)為書面文本是邏輯性質(zhì)的表達(dá)，所以它至少是形式上可解的，盡管語(yǔ)言中確實(shí)存在某些非邏輯元素，如關(guān)于風(fēng)格的直覺感受、情感內(nèi)容等很難被計(jì)算機(jī)處理。其潛臺(tái)詞是應(yīng)該對(duì)句子進(jìn)行結(jié)構(gòu)化的句法語(yǔ)義分析，因?yàn)檫@是邏輯推演的基礎(chǔ)。

（3）從密碼學(xué)的角度，他認(rèn)為可以把“一本用中文寫的書看作是一本用英文寫的書被編碼成中文”，而把翻譯過(guò)程看作“解碼”過(guò)程。這差不多就是后來(lái)廣泛使用的統(tǒng)計(jì)機(jī)器翻譯模型。他還強(qiáng)調(diào)對(duì)語(yǔ)言統(tǒng)計(jì)語(yǔ)義性質(zhì)的研究應(yīng)成為機(jī)器翻譯初創(chuàng)階段必須下力氣完成的首要任務(wù)，隱含著應(yīng)從數(shù)學(xué)和計(jì)算角度深入研究語(yǔ)言的統(tǒng)計(jì)模型的意思。

（4）針對(duì)多語(yǔ)言之間的翻譯問(wèn)題，他指出應(yīng)研究人類通信的共同基礎(chǔ)——普遍語(yǔ)言（又被稱為語(yǔ)言的邏輯結(jié)構(gòu)）問(wèn)題，以期事半功倍之效。這與后來(lái)有學(xué)者提出的機(jī)器翻譯“中間語(yǔ)言”思路一脈相承。②

Warren Weaver的備忘錄起到了機(jī)器翻譯思想啟蒙的作用，并直接引發(fā)了機(jī)器翻譯研究的蓬勃興起。最早開展機(jī)器翻譯研究的有美國(guó)的麻省理工學(xué)院、喬治城大學(xué)和IBM等，前蘇聯(lián)的列寧格勒大學(xué)、英國(guó)的劍橋大學(xué)等也迅速跟進(jìn)。研究動(dòng)力不外兩個(gè)：（1）機(jī)器翻譯由于其所蘊(yùn)含著的深刻的科學(xué)問(wèn)題，已成為當(dāng)時(shí)計(jì)算機(jī)科學(xué)研究前沿的排頭兵之一；（2）體現(xiàn)了各自國(guó)家的需求（美國(guó)和前蘇聯(lián)的研究主要集中在英俄兩種語(yǔ)言對(duì)之間的翻譯上）。

這些早期研究在方法論和核心技術(shù)路線上都沒有顧及“WW建議”之（1）和（3）所倡導(dǎo)的基于語(yǔ)言統(tǒng)計(jì)語(yǔ)義性質(zhì)的機(jī)器翻譯模型研究，而是大體上沿著“WW建議”之（2）的取向，研究基于人工編制規(guī)則的詞法、句法分析的翻譯方法（當(dāng)然，也包括較為初級(jí)的基于雙語(yǔ)詞典的直接翻譯方法研究），并初步構(gòu)造了規(guī)模很小的實(shí)驗(yàn)系統(tǒng)（1954年，美國(guó)進(jìn)行了俄英機(jī)器翻譯試驗(yàn)，1955年到1956年，蘇聯(lián)完成了英俄和法俄機(jī)器翻譯試驗(yàn)）。這一點(diǎn)其實(shí)并不奇怪：第一，人們對(duì)語(yǔ)言和語(yǔ)言學(xué)的認(rèn)識(shí)會(huì)使機(jī)器翻譯設(shè)計(jì)者“自然而然”地首先遵循基于規(guī)則的詞法、句法分析的道路進(jìn)行探索（雖然理論語(yǔ)言學(xué)研究與這一時(shí)期的機(jī)器翻譯研究似乎并沒有太多關(guān)聯(lián)，只是在后來(lái)越來(lái)越多地介入進(jìn)來(lái)）；第二，那時(shí)候機(jī)器能力有限，也缺乏機(jī)器可讀的大規(guī)模語(yǔ)料庫(kù)，所以幾乎沒有滋生統(tǒng)計(jì)機(jī)器翻譯模型的土壤（雖然有研究者開始利用統(tǒng)計(jì)方法從一定規(guī)模的語(yǔ)料庫(kù)中提取雙語(yǔ)詞匯和語(yǔ)法信息，但那只是局部的統(tǒng)計(jì)方法）。

（二）從第一次波峰跌入波谷（1957—1966）

這個(gè)時(shí)期的研究是前一個(gè)時(shí)期工作的延續(xù)，并且有新的拓展。哈佛大學(xué)、加州伯克利分校、德州大學(xué)等紛紛投身于這一研究潮流中。美國(guó)和歐洲之外也不斷有研究團(tuán)隊(duì)加入。中國(guó)的反應(yīng)就相當(dāng)迅速：早在1958年8月，中國(guó)科學(xué)院計(jì)算技術(shù)研究所就成立了機(jī)器翻譯研究組，并與語(yǔ)言研究所密切合作，開展俄漢機(jī)器翻譯研究（劉涌泉 1959）。1959年，中國(guó)在自制的通用電子計(jì)算機(jī)上成功進(jìn)行了俄漢機(jī)器翻譯試驗(yàn)（劉涌泉 1963）。

這個(gè)時(shí)期美國(guó)的研究多集中在句法分析（包括依存分析）的基礎(chǔ)上，理論語(yǔ)言學(xué)日益發(fā)揮作用，機(jī)器翻譯模型也漸趨豐滿，如喬治城大學(xué)的自動(dòng)翻譯系統(tǒng)GAT就配置了三個(gè)層次的分析：詞法層（包括成語(yǔ)識(shí)別）、組合層（包括名詞和形容詞之間的一致性、動(dòng)詞的管約、形容詞的修飾等）和句法層（包括主語(yǔ)和謂語(yǔ)、從句關(guān)系等），歐洲和前蘇聯(lián)出于自身多語(yǔ)言環(huán)境的需要，偏重于“WW建議”之（4）涉及的基于“中間語(yǔ)言”（interlingua）的機(jī)器翻譯研究。這些研究無(wú)疑大大豐富了人們對(duì)機(jī)器翻譯模型的認(rèn)識(shí)。

對(duì)機(jī)器翻譯的高度期待和樂(lè)觀主義情緒彌漫于20世紀(jì)整個(gè)50年代。隨著若干機(jī)器翻譯系統(tǒng)被陸續(xù)研制出來(lái)并投入使用，人們得以直接觀察和評(píng)論機(jī)器翻譯系統(tǒng)的輸出結(jié)果。但觀察得到的總體印象是：機(jī)器翻譯的質(zhì)量與期望相差甚遠(yuǎn)。隨著研究工作的逐步展開，學(xué)者們?cè)絹?lái)越體會(huì)到語(yǔ)言的復(fù)雜性，越來(lái)越感受到橫亙?cè)跈C(jī)器翻譯征途上十分困難的“語(yǔ)義屏障”問(wèn)題。1960年，以色列著名的哲學(xué)家、數(shù)學(xué)家和語(yǔ)言學(xué)家Yehoshua Bar-Hillel發(fā)表了一篇長(zhǎng)文，產(chǎn)生了長(zhǎng)久的影響（他很早就在麻省理工學(xué)院從事機(jī)器翻譯研究，并于1952年組織了第一次機(jī)器翻譯國(guó)際會(huì)議）。他認(rèn)為由于語(yǔ)義歧義的存在，通用的高質(zhì)量全自動(dòng)機(jī)器翻譯理論上是不可能的（Bar-Hillel 1960）。他通過(guò)一個(gè)他所謂的再簡(jiǎn)單不過(guò)的例子來(lái)說(shuō)明其觀點(diǎn)：

The box was in the pen.

“pen”至少有兩個(gè)意思：“鋼筆”和“圍欄”。在如下語(yǔ)境中，人可以輕而易舉地確定其中的“pen”的意思應(yīng)該為“圍欄”：

Little John was looking for his toy box. Finally he found it. The box was in the pen.（盒子在圍欄里）John was very happy. （句1）

對(duì)比：

The pen was in the box. （鋼筆在盒子里）

他斷言，任何機(jī)器翻譯系統(tǒng)對(duì)此都會(huì)束手無(wú)策。原因在于，機(jī)器要處理好這個(gè)情形，至少需要補(bǔ)充兩個(gè)手段：第一，上下文需要從“WW建議”（1）中的句子擴(kuò)展到篇章，因此而增加的語(yǔ)言分析無(wú)窮的復(fù)雜性是機(jī)器無(wú)法處理的；第二，需要關(guān)于大千世界的系統(tǒng)性的形式化知識(shí)，而這在當(dāng)時(shí)完全是空白，也是難以想象的。

那時(shí)還出現(xiàn)了一個(gè)后來(lái)廣為流傳的“故事”。1962年，John A. Kouwenhoven在美國(guó)的Harpers Magazine上發(fā)表了一篇題目為《翻譯的困擾》的文章，講到當(dāng)時(shí)有人將《馬太福音》中的英語(yǔ)成語(yǔ)經(jīng)過(guò)機(jī)器翻譯成俄文，再將其譯回英語(yǔ)：

The spirit is willing but the flesh is weak. （句2）

（直譯：精神是愿意的，肉體卻是虛弱的。意譯：心有余而力不足）

經(jīng)過(guò)機(jī)器翻譯成俄文，再把它翻譯回英語(yǔ)，得到了令人啼笑皆非的結(jié)果：

The Vodka is good but the meat is rotten.

（伏特加酒是好的，但肉卻腐爛了）

錯(cuò)誤的產(chǎn)生來(lái)自該成語(yǔ)中存在的詞匯歧義現(xiàn)象，如“flesh”有“肉體，情欲，（動(dòng)物或人的）肉，果肉”的意思，“rotten”有“腐爛的，惡臭的，墮落的，（巖石等）風(fēng)化的，虛弱的，無(wú)用的”等意思。雙語(yǔ)詞典查找策略很容易會(huì)被迷惑。

馮志偉（2008）質(zhì)疑并否定了這個(gè)“故事”的真實(shí)性。但它也確實(shí)從一個(gè)側(cè)面反映了那個(gè)時(shí)期人們對(duì)機(jī)器翻譯任務(wù)艱巨性的某種認(rèn)識(shí)。

接下來(lái)發(fā)生的一件事便是上述理性認(rèn)識(shí)合乎邏輯的發(fā)展結(jié)果。1964年，美國(guó)科學(xué)院和美國(guó)國(guó)家研究理事會(huì)成立了“語(yǔ)言自動(dòng)處理咨詢委員會(huì)”（Automatic Language Processing Advisory Committee，簡(jiǎn)稱ALPAC），對(duì)機(jī)器翻譯的進(jìn)展?fàn)顩r，尤其是對(duì)過(guò)去十余年美國(guó)國(guó)防部、國(guó)家科學(xué)基金會(huì)和中央情報(bào)局重金資助的相關(guān)項(xiàng)目的執(zhí)行效果，進(jìn)行了系統(tǒng)的調(diào)研和評(píng)估。1966年11月，ALPAC發(fā)布了題為《語(yǔ)言與機(jī)器：翻譯和語(yǔ)言學(xué)視角下的計(jì)算機(jī)》的報(bào)告，即著名的ALPAC報(bào)告。報(bào)告正文不長(zhǎng)，只有30來(lái)頁(yè)，但提供了長(zhǎng)達(dá)90頁(yè)的20個(gè)附件，應(yīng)該說(shuō)態(tài)度是非常嚴(yán)謹(jǐn)?shù)?。?bào)告（也被稱為“黑皮書報(bào)告”）給出了兩個(gè)基本結(jié)論：第一，對(duì)全自動(dòng)機(jī)器翻譯持基本否定的態(tài)度，認(rèn)為在可預(yù)期的將來(lái)，不可能達(dá)到與人工翻譯相比更為快速、高質(zhì)量、經(jīng)濟(jì)的目標(biāo)，轉(zhuǎn)而建議應(yīng)該支持更為現(xiàn)實(shí)的機(jī)器輔助翻譯；第二，機(jī)器翻譯遇到了難以克服的“語(yǔ)義屏障”問(wèn)題，應(yīng)該加強(qiáng)對(duì)計(jì)算語(yǔ)言學(xué)（Computational Linguistics）的支持。ALPAC報(bào)告的影響是深遠(yuǎn)的，以致美國(guó)政府對(duì)機(jī)器翻譯的支持幾乎都停止了，而且一停就是十年，世界范圍內(nèi)機(jī)器翻譯熱潮也突然消失了，從第一個(gè)波峰深深地跌入了波谷。

機(jī)器翻譯遇到如此大的挫折，其實(shí)是無(wú)可避免的：第一，那時(shí)的人們過(guò)于迷信計(jì)算機(jī)強(qiáng)大的計(jì)算能力和存儲(chǔ)能力，嚴(yán)重低估了人類語(yǔ)言的復(fù)雜性，從“不知深淺”到碰壁而“知深淺”是繞不過(guò)去的認(rèn)識(shí)過(guò)程；第二，在方法論和核心技術(shù)的大方向上出現(xiàn)了是否具可行性的問(wèn)題，“WW建議”之（2）和（4）是人類分析之所長(zhǎng)，但恰恰是機(jī)器分析之所短。機(jī)器翻譯研究后來(lái)幾乎完全“改弦更張”到“WW建議”之（1）和（3）的方向上，應(yīng)該說(shuō)是碰壁后深刻反思的必然產(chǎn)物。

（三）波瀾不驚水長(zhǎng)流（1967—1989）

這一時(shí)期機(jī)器翻譯研究的中心從美國(guó)轉(zhuǎn)移到了加拿大和歐洲。持續(xù)不衰的動(dòng)力來(lái)自兩者對(duì)機(jī)器翻譯的強(qiáng)烈需求：加拿大的雙文化政策迫切需要英法翻譯，歐盟官方的所有科學(xué)、技術(shù)和管理文件都應(yīng)翻譯成所屬國(guó)家的任何一種語(yǔ)言，迫切需要多語(yǔ)言翻譯。由于沒有新的重大學(xué)術(shù)思想出現(xiàn)，所采用的方法論和核心技術(shù)基本上還是在“WW建議”之（2）和（4）的框架下進(jìn)行，即基于規(guī)則的方法以及基于“中間語(yǔ)言”的方法，當(dāng)然在這個(gè)方向上的研究深度仍在不斷增加。研究積淀開始在商業(yè)上產(chǎn)生回報(bào)，如1968年成立的SYSTRAN公司，其機(jī)器翻譯系統(tǒng)1979年被成功應(yīng)用于美國(guó)空軍，實(shí)際用于俄英翻譯，1976年被應(yīng)用于歐盟，實(shí)際用于英法翻譯，后來(lái)還被安裝在北約和國(guó)際原子能機(jī)構(gòu)等。再如，加拿大蒙特利爾大學(xué)研發(fā)的 METEO英-法機(jī)器翻譯系統(tǒng)，1977年被成功用于翻譯天氣預(yù)報(bào)文檔。值得一提的是，20世紀(jì)80年代機(jī)器翻譯在日本掀起了一次“小高潮”。在1982年日本提出“五代機(jī)”計(jì)劃的大背景下，不少日本大企業(yè)紛紛投資開展機(jī)器翻譯的研發(fā)。

期間也有個(gè)別新的方法被提出，如Nagao （1984）基于實(shí)例的機(jī)器翻譯方法（翻譯模型所需要的實(shí)例需要從語(yǔ)料庫(kù)中獲得）。

（四）兩個(gè)連環(huán)沖擊形成的第二次波峰（1990年至今）

1990年在芬蘭赫爾辛基召開的第13屆國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)提出了處理大規(guī)模真實(shí)文本的戰(zhàn)略任務(wù)，開啟了語(yǔ)言計(jì)算的一個(gè)新的歷史階段——基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)自然語(yǔ)言處理。在此潮流的帶動(dòng)下，機(jī)器翻譯領(lǐng)域先后推出了兩種新的方法論和核心技術(shù)，從而涌現(xiàn)了兩個(gè)沖擊波，連環(huán)形成了機(jī)器翻譯歷程中的第二次波峰。這次波峰的影響是革命性的，導(dǎo)致機(jī)器翻譯的性能實(shí)現(xiàn)了質(zhì)的飛躍，并且開辟了基于互聯(lián)網(wǎng)的開放式服務(wù)的新天地。

1. 第一個(gè)沖擊波——統(tǒng)計(jì)機(jī)器翻譯模型

其標(biāo)志性方法是著名的IBM模型1-5，與以前的相比，具有顛覆性（Brown et al. 1993）?；舅枷胧腔谙戕r(nóng)信息論中針對(duì)編解碼的“噪聲信道模型”，幾乎完全依賴大規(guī)模雙語(yǔ)語(yǔ)料庫(kù)，通過(guò)詞對(duì)齊、短語(yǔ)對(duì)齊等手段，來(lái)自動(dòng)構(gòu)造統(tǒng)計(jì)機(jī)器翻譯模型，而不再需要規(guī)則集（因而與語(yǔ)言學(xué)研究越離越遠(yuǎn)）。這種方法具有廣泛的一般性，與具體語(yǔ)種無(wú)關(guān)，機(jī)器翻譯系統(tǒng)的設(shè)計(jì)者可以完全不懂相關(guān)的語(yǔ)言，大規(guī)模雙語(yǔ)語(yǔ)料庫(kù)成了關(guān)鍵，成了一切。正如著名的機(jī)器翻譯學(xué)者（也是后來(lái)Google Translate的設(shè)計(jì)者）Och模仿阿基米德的口吻所聲稱的那樣，“只要給我充分的并行語(yǔ)言數(shù)據(jù)，那么，對(duì)于任何兩種語(yǔ)言，我就可以在幾小時(shí)之內(nèi)給你構(gòu)造出一個(gè)機(jī)器翻譯系統(tǒng)”。較之基于規(guī)則的系統(tǒng)，機(jī)器翻譯的性能得以顯著提升，很快催生了谷歌、百度等公司的互聯(lián)網(wǎng)機(jī)器翻譯系統(tǒng)（并且很容易就實(shí)現(xiàn)了數(shù)十個(gè)語(yǔ)言對(duì)之間的翻譯）。

這里淋漓盡致地展示了大數(shù)據(jù)乃至大數(shù)據(jù)思維的力量：人類的翻譯知識(shí)和經(jīng)驗(yàn)其實(shí)已經(jīng)最大限度地“隱式”地反映在極大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)中了。統(tǒng)計(jì)機(jī)器翻譯模型不需要人的任何幫助和介入，就可以有效挖掘和利用這些知識(shí)。

2. 第二個(gè)沖擊波——神經(jīng)機(jī)器翻譯模型

統(tǒng)計(jì)機(jī)器翻譯模型基本上是回歸到“WW建議”之（1）和（3）的方向上，但就計(jì)算模型本身而言，是比較經(jīng)典的。2014年前后，第二個(gè)沖擊波——基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法（神經(jīng)機(jī)器翻譯模型）接踵而至（Bahdanau et al. 2014；Sutskever et al. 2014）。這一次輪到與統(tǒng)計(jì)機(jī)器翻譯方法相比較了，前面那句話依然有效：具有顛覆性。機(jī)器翻譯的性能再次得以顯著提升，其標(biāo)志是：谷歌、百度已將其互聯(lián)網(wǎng)開放服務(wù)更新?lián)Q代為神經(jīng)機(jī)器翻譯系統(tǒng)。這就有了前面說(shuō)的谷歌的轟動(dòng)效應(yīng)。

盡管神經(jīng)機(jī)器翻譯模型的內(nèi)涵與統(tǒng)計(jì)機(jī)器翻譯模型已經(jīng)全然不同，其機(jī)理初看上去甚至難以理喻，但從外部特性來(lái)看，它們的基本點(diǎn)是完全一致的：第一，神經(jīng)機(jī)器翻譯模型具有更加廣泛的一般性（與語(yǔ)言學(xué)研究幾乎徹底分道揚(yáng)鑣）；第二，更加體現(xiàn)了大數(shù)據(jù)和大數(shù)據(jù)思維的力量。此外，神經(jīng)機(jī)器翻譯模型比統(tǒng)計(jì)機(jī)器翻譯模型更需要極其強(qiáng)大的計(jì)算能力的支持。

三、思考：機(jī)器翻譯乃至

自然語(yǔ)言處理的發(fā)展策略

縱觀機(jī)器翻譯近70年的歷程，有一種十分強(qiáng)烈的感受：方法論和核心技術(shù)（及其模型）層面上的創(chuàng)新是機(jī)器翻譯取得重大進(jìn)步的根本原因（如統(tǒng)計(jì)或神經(jīng)機(jī)器翻譯模型），而創(chuàng)新的“物質(zhì)基礎(chǔ)”是一類特殊的大數(shù)據(jù)——雙語(yǔ)語(yǔ)料庫(kù)。

在為機(jī)器翻譯經(jīng)過(guò)一波三折而終于取得驕人成績(jī)而感到欣慰的同時(shí)，也無(wú)可避免地產(chǎn)生了另外一種十分強(qiáng)烈的感受：在獨(dú)領(lǐng)風(fēng)騷的互聯(lián)網(wǎng)大公司的壓迫下，高校的相關(guān)研究淪落到了很難有所作為的尷尬境地。這是由于：

第一，神經(jīng)機(jī)器翻譯模型是一種通用的計(jì)算裝置。它基本上是帶attention機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)，最適合處理所謂“序列到序列”的問(wèn)題，如機(jī)器翻譯中源語(yǔ)言的句子和對(duì)應(yīng)的目標(biāo)語(yǔ)言的句子就構(gòu)成了一個(gè)序列對(duì)。目前看來(lái)，這個(gè)模型的性能是極為強(qiáng)大的，蓋過(guò)了其他所有模型。我們以往在計(jì)算語(yǔ)言學(xué)和語(yǔ)言學(xué)研究上積累起來(lái)的經(jīng)驗(yàn)，變得完全不起作用（至少是暫時(shí)），相關(guān)優(yōu)勢(shì)喪失殆盡。

第二，雙語(yǔ)語(yǔ)料庫(kù)的規(guī)模決定了神經(jīng)機(jī)器翻譯模型的性能。高校由于工程能力的限制，其雙語(yǔ)語(yǔ)料庫(kù)的獲得能力顯然會(huì)遠(yuǎn)小于互聯(lián)網(wǎng)大公司。

第三，設(shè)計(jì)并訓(xùn)練出一個(gè)神經(jīng)機(jī)器翻譯模型需要強(qiáng)大無(wú)比的計(jì)算能力，需要反復(fù)摸索。高校的計(jì)算能力通常會(huì)比互聯(lián)網(wǎng)大公司低1—2個(gè)數(shù)量級(jí)，導(dǎo)致高校的相關(guān)試驗(yàn)手段嚴(yán)重缺失，無(wú)法進(jìn)行高烈度的試驗(yàn)。

上述各點(diǎn)決定了高校對(duì)神經(jīng)機(jī)器翻譯模型在技術(shù)上的理解一般來(lái)說(shuō)不會(huì)超過(guò)互聯(lián)網(wǎng)大公司。加之互聯(lián)網(wǎng)大公司能高薪延攬到全世界的一流人才，并且全天候投身于研發(fā)工作。這一點(diǎn)上顯著優(yōu)越于高校。換言之，高校在“模型、大數(shù)據(jù)、計(jì)算能力”這三個(gè)關(guān)鍵要素上都處于明顯的劣勢(shì)。那么，對(duì)國(guó)內(nèi)研究單位來(lái)說(shuō)，機(jī)器翻譯接下來(lái)的出路在哪里呢？

首先，要下大力氣盡快解決基礎(chǔ)條件問(wèn)題：（1）要建設(shè)一個(gè)國(guó)家級(jí)的大規(guī)模深度學(xué)習(xí)計(jì)算平臺(tái)，解決計(jì)算能力問(wèn)題；（2）要建設(shè)一個(gè)國(guó)家級(jí)的高質(zhì)量的雙語(yǔ)語(yǔ)料庫(kù)（雖然在規(guī)模上不太可能比過(guò)互聯(lián)網(wǎng)大公司，但我們可以更多地關(guān)注于搜集高質(zhì)量的雙語(yǔ)語(yǔ)料庫(kù)，解決訓(xùn)練用高質(zhì)量大數(shù)據(jù)問(wèn)題）。

其次，要在有特色的方法創(chuàng)新上下功夫，解決模型問(wèn)題。這里面又有三層意思：

（1）對(duì)通用神經(jīng)機(jī)器翻譯模型進(jìn)行創(chuàng)新或改造。

我們不妨掉過(guò)頭看一下谷歌的GNMT對(duì)前文提及的歷史上著名例句的翻譯結(jié)果。首先輸入句2：

對(duì)句2輸出的漢語(yǔ)譯文：精神是愿意的，但肉體是軟弱的。

從漢語(yǔ)譯文再翻譯成英語(yǔ)：The spirit is willing， but the flesh is weak.

對(duì)句2輸出的俄語(yǔ)譯文：Дух бодр， но плоть слаба.

從俄語(yǔ)譯文再翻譯成英語(yǔ)：The spirit indeed is willing， but the flesh is weak.

對(duì)句2輸出的苗語(yǔ)譯文：Tus ntsuj plig yog kam， tab sis lub cev nqaij daim tawv yog tsis muaj zog.

從苗語(yǔ)譯文再翻譯成英語(yǔ)：The spirit is willing， but the flesh is weak.

我們無(wú)從判斷其相應(yīng)的俄語(yǔ)和苗語(yǔ)譯文是否正確。但從一個(gè)翻譯來(lái)回得到與原句幾乎完全一致的結(jié)果來(lái)看，GNMT的表現(xiàn)確實(shí)可圈可點(diǎn)。

接著我們輸入句1，GNMT輸出的譯文為：

約翰正在尋找他的玩具盒。最后他發(fā)現(xiàn)了。箱子在鋼筆。約翰很高興。

“pen”還是翻譯錯(cuò)了。可見，GNMT尚沒有考慮篇章分析和對(duì)世界知識(shí)的處理。在這個(gè)方面，我們應(yīng)該還有機(jī)會(huì)。當(dāng)然，這要取決于我們的模型創(chuàng)新能力到底有多強(qiáng)。

（2）對(duì)通用神經(jīng)機(jī)器翻譯模型進(jìn)行完善。

譬如，盡管GNMT對(duì)未登陸詞專門進(jìn)行了處理，但測(cè)試下來(lái)，感到仍有較大改進(jìn)空間。

輸入：嚴(yán)肅是個(gè)好同志。

輸出的英語(yǔ)譯文：Serious is a good comrade.

再如，譯文一致性也是一個(gè)問(wèn)題。輸入：

他在翻譯泰戈?duì)柕摹讹w鳥集》。

他在吟誦泰戈?duì)柕摹讹w鳥集》。

他在翻譯《飛鳥集》。

GNMT輸出的英語(yǔ)譯文分別為：

He translated Tagores Flying Birds collection.

He chanted Tagores Flying Birds.

He is in the translation of “birds”.

這實(shí)際上碰到了神經(jīng)網(wǎng)絡(luò)模型的軟肋，是不容易解決的。

（3）對(duì)特定條件下的神經(jīng)機(jī)器翻譯模型進(jìn)行全新設(shè)計(jì)。

如“一帶一路”所涉及的語(yǔ)言幾乎都屬于所謂的“資源貧乏語(yǔ)言”。通常只能搜集到小規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)，并且多為黏著語(yǔ)，都面臨著詞法分析問(wèn)題，而我們往往不懂這些語(yǔ)言。經(jīng)典的神經(jīng)機(jī)器翻譯模型肯定是不適用的。是否可能在只有一個(gè)常用雙語(yǔ)詞典、小規(guī)模雙語(yǔ)語(yǔ)料庫(kù)、較大規(guī)模單語(yǔ)語(yǔ)料庫(kù)以及基于無(wú)監(jiān)督詞法分析（甚至不做詞法分析）的條件下，設(shè)計(jì)一個(gè)有效的神經(jīng)機(jī)器翻譯模型，絕對(duì)是對(duì)我們模型創(chuàng)新能力的一大考驗(yàn)。

現(xiàn)在我們把視野從機(jī)器翻譯擴(kuò)大到自然語(yǔ)言處理。自然語(yǔ)言處理肇始于機(jī)器翻譯，機(jī)器翻譯是自然語(yǔ)言處理的核心組成之一，歷史上自然語(yǔ)言處理的發(fā)展歷程與機(jī)器翻譯幾乎是一致的（馮志偉 2011），兩者相輔相成。如1990年也是自然語(yǔ)言處理“斷代”的分水嶺，之前是基于規(guī)則的所謂“理性主義”方法論，之后便變成了基于統(tǒng)計(jì)的所謂“經(jīng)驗(yàn)主義”方法論。自然語(yǔ)言處理目前的研究熱點(diǎn)同樣也是基于深度神經(jīng)網(wǎng)絡(luò)的方法。所以本節(jié)針對(duì)機(jī)器翻譯的一些討論，在原則上對(duì)自然語(yǔ)言處理也是管用的。當(dāng)然，具體策略要根據(jù)自然語(yǔ)言處理的具體任務(wù)有所變化。例如：訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的句法分析模型，需要大規(guī)模的句法標(biāo)注語(yǔ)料庫(kù)（此時(shí)就沒有機(jī)器翻譯那么幸運(yùn)了，在那里從生語(yǔ)料庫(kù)中可以天然地得到序列對(duì)，而這里必須經(jīng)過(guò)人工標(biāo)注才能得到）。所以人工標(biāo)注策略可能有必要進(jìn)行調(diào)整。標(biāo)記集的設(shè)計(jì)不一定很復(fù)雜，應(yīng)足夠簡(jiǎn)潔，以方便人工在最短時(shí)間內(nèi)標(biāo)注出相當(dāng)規(guī)模的句法標(biāo)注語(yǔ)料庫(kù)。

以上構(gòu)成了未來(lái)幾年我們?cè)跈C(jī)器翻譯和自然語(yǔ)言處理領(lǐng)域應(yīng)當(dāng)采取的基本策略。

注釋

① 圖引自Le&Schuster（2016）。

② “WW建議”之（1）和（3）是相關(guān)的，（2）和（4）也是相關(guān)的。

參考文獻(xiàn)

馮志偉 2008 《一個(gè)關(guān)于機(jī)器翻譯的史料錯(cuò)誤》，《香港語(yǔ)文建設(shè)通訊》第89期。

馮志偉 2011 《計(jì)算語(yǔ)言學(xué)的歷史回顧與現(xiàn)狀分析》，《外國(guó)語(yǔ)》第1期。

劉涌泉 1959 《我國(guó)機(jī)器翻譯工作的進(jìn)展》，《科學(xué)通報(bào)》第17期。

劉涌泉 1963 《機(jī)器翻譯和文字改革（上）》，《文字改革》第2期。

Bahdanau， Dzmitry， Kyunghyun Cho， and Yoshua Bengio. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. arXiv：1409.0473v6 [cs.CL] 24 Apr 2015.

Bar-Hillel， Yehoshua. 1960. The Present Status of Automatic Translation of Languages. Advances in Computers 1， 91-163.

Brown， Peter E.， Vincent J. Della Pietra， Stephen A. Della Pietra， and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation： Parameter Estimation. Computational Linguistics 19（2）， 263-311.

Hutchins， W. John. 1995. Machine Translation： A Brief History. In E. F. K. Koerner and R. E Asher （eds.）， Concise History of the Language Sciences： From the Sumerians to the Cognitivists. Oxford： Pergamon Press.

Le， Quoc V. and Mike Schuster. 2016. Neural Network for Machine Translation， at Production Scale. n.d. Sep. 27， 2016. https：//research.googleblog.com/2016/09/a-neural-network-for-machine.htm.

Nagao， Makoto. 1984. Framework of a Mechanical Translation between Japanese and English by Analogy Principle. Artificial and Human Intelligence. Amsterdam： Elsevier Science Publishers.

Sutskever， Ilya， Oriol Vinyals， and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems 4， 3104-3112.

Weaver， Warren. 1955. Translation. In William N. Locke and Andrew Donald Booth （eds.）， Machine Translation of Languages： Fourteen Essays. Cambridge： MIT Press.

Wu， Yonghui， Mike Schuster， Zhifeng Chen et al. 2016. Googles Neural Machine Translation System： Bridging the Gap between Human and Machine Translation. arXiv：1609.08144v2 [cs.CL] 8 Oct 2016.

責(zé)任編輯：劉玥妍

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

從機(jī)器翻譯歷程看自然語(yǔ)言處理研究的發(fā)展策略