張嘉琪
“巴別塔,是人類聯合起來興建希望能通往天堂的高塔;為了阻止人類的計劃,上帝讓人類說不同的語言,‘翻譯就此產生。”在2018年的一場機器翻譯論壇上,馮志偉用《圣經》故事作為他演講的開頭。
四年后的今天,年過八旬、滿頭銀發(fā)的他依舊容光煥發(fā)。作為中國計算語言學的開拓者之一、世界上第一個漢語到多種外語機器翻譯系統的研制者,他仍然緊跟技術前沿,活躍在語言學跨學科研究領域。
在參加2022年9月7日首屆人工智能與國際傳播高層論壇前夕,國家教育部語言文字應用研究所研究員、博士生導師、學術委員會委員馮志偉回顧了他運用技術賦能語言學研究、探索機器翻譯促進國際交流的不凡之路。
文理兼修:
“別人覺得我是個怪人”
“計算語言學我已經做了很多年,我原來是學理工科的,在北大讀的是地球化學專業(yè),當時看到美國在搞機器翻譯,我覺得很奇怪,文科現象怎么能夠用機器來做,當時我覺得這個很有意思。另外我也覺得語言的障礙是人類一個很重要的問題,所以能夠用機器來做挺好,后來就改行了,學語言學。”
這還要從1957年說起——當時18歲的馮志偉考入北京大學地球化學專業(yè),課余時間喜歡鉆進北大圖書館探尋學術前沿。有一次,他在外文圖書室看到了美國語言學家喬姆斯基的論文《語言描寫的三個模型》。一篇語言學論文發(fā)表在自然科學的信息論雜志上,這讓馮志偉感到特別好奇。他懷著極大的興趣通讀了全文,認識到這是喬氏應用數學中的“馬爾科夫鏈”來描述自然語言的生成過程,為語言建立了一套獨特的數學模型。
憑著滿腔熱愛,身為家中長子的馮志偉不顧家人盼著他早日工作賺錢的期望,幾經波折于1959年成功轉到了中文系語言學專業(yè),從這個文科專業(yè)一年級學起,開始嘗試基于規(guī)則的機器翻譯研究。
如今備受推崇的跨學科研究,在當時讓馮志偉成了別人眼中的“怪人”:一個學中文的去研究數學?一個讀中文系的在忙著看外文書?考取北大研究生后,馮志偉想研究數學方法在語言學中的應用,連導師一開始都不太同意這既不是理工科又不像文科的論文選題;不僅如此,這位中學積極上進的團支部書記還被當成了北大的“落后分子”。
早期的困難和沖擊并沒有沖淡馮志偉的熱愛。1967年北大研究生畢業(yè)后,他到天津、昆明的中學任教,其間盡管工作不涉及語言學,但馮志偉仍是研究不輟,通過手工計算估測出漢字的“熵”。原理上講,計算出漢字的“熵”,才能給漢字編碼,才能在計算機上自由地輸入、輸出和傳輸漢字。他的這些努力為20世紀80年代漢字的雙字節(jié)編碼提供了可靠的語言學理論支持。
放眼世界:“中國已進入
世界計算語言學的前列”
“國際計算語言學會議20世紀60年代就開始了,1982年我們才首次出席……現在情況不太一樣,特別是進入21世紀以后,我們這個學科發(fā)展很快,一些文科單位、科學院、高等學校有好多人做,一些公司也開始做,也做得不錯,所以到了21世紀以后,中國人在國際計算語言學上的發(fā)言權是很大的,我們中國人可以說現在已經進入了世界計算語言學的前列。”
1982年去布拉格出席國際計算語言學會議的中國學者正是時任中國科學技術信息研究所計算中心軟件工程師的馮志偉。
時間回溯到四年前的1978年——全國科學大會召開,在“尊重知識、尊重人才”口號的感召下,馮志偉又歷經一番努力考入中國科技大學研究生院。當年,才39歲頭發(fā)卻已白的他又爭取到了留法的機會,學習數理語言學和機器翻譯。師從國際計算語言學學會首任主席沃古瓦,他倍加珍惜寶貴的學習研究機會,給自己規(guī)定了“887工作制”:每天8點上班,晚上8點下班,一周7天工作無休。留法期間,他利用當時先進的大型計算機進行了大規(guī)模的基于規(guī)則的語言學研究,提出了多叉多標記樹形圖模型,并在此基礎上研制出了世界上第一個從漢語到多種外語的機器翻譯系統——“漢—法、英、日、俄、德”多語種翻譯系統。在布拉格的會議上,馮志偉介紹的正是這一具有里程碑意義的研究成果。
幾年后,馮志偉調入國家語委語言文字應用研究所(現屬教育部)擔任計算語言學研究室主任,同時在中國科學院軟件研究所擔任兼職研究員;后又赴德國從事術語數據庫研究,研制成世界上第一個中文術語數據庫。
1998年退休后,馮志偉仍心系學術研究、關注國際交流。2000—2002年,他赴韓國科學技術院擔任客座教授、為博士生授課;2005年,與人合譯出版《自然語言處理綜論》;2011—2015年,參與修訂漢語拼音出海的國際標準《中文羅馬字母拼寫法》ISO-7098;他還對國內外自然語言處理的研究成果進行了系統梳理,寫成了基于規(guī)則與基于統計的自然語言處理方法的專著《自然語言計算機形式分析的理論與方法》,后又應世界上最大的科技出版社之一——德國斯普林格出版社邀約,將這本書譯成英文出版。
如今,一直致力于利用跨專業(yè)之磚砌筑“巴別塔”的馮老也沒有忘記溝通中外的初心?!懊鎸π录夹g帶來的新形勢和新變化,應當學習翻譯技術,把新技術也納入到翻譯工作中。人工智能翻譯成績巨大,應當提倡‘機器翻譯+譯后編輯,加強譯后編輯的作用,實現機器翻譯與人工翻譯和諧共處、相得益彰?!瘪T老還提出建議,作為國際傳播的一部分,有必要加強古代典籍漢譯外語資料庫建設。
在講述自己擔任ISO-7098國際標準國際工作組組長和應邀出版譯作的經歷時,馮老還不忘感慨和叮囑幾句:“做國際傳播,一定要知己知彼,了解對方的情況”“要尊重對方的意愿,不要強加于對方”……
唯有熱愛:
“我得到精神上的滿足”
“中國的計算語言學早期做的人少。我是愛好,做這個是屬于散兵游勇似的,也得不到什么好處。這件事完全是興趣,好奇心大于功利心,基本上功利心就是政府供我吃飯就行了,但是我好奇,我得到精神上的滿足?!?/p>
如今再回憶起崢嶸歲月,這位“巴別塔”上的中國計算語言學先鋒只字未提自己曾經榮獲的多個國內外重量級獎項,他面帶滿足、眼里閃著光的講述中提到最多的詞就是“興趣”和“愛好”。
談起人工智能大模型和Transformer一統自然語言處理等最新發(fā)展,這位中國計算機學會高級會員表示自己一直都在密切關注和學習領域內的最新發(fā)展成果,還立馬分享了一篇帶著期刊清樣修改痕跡的論文,表示這篇關于“記憶負擔最小化機制”的論文就是關于輕量化發(fā)展趨勢的。
中國計算語言學經歷了基于規(guī)則、基于統計和基于神經網絡的三個時期,馮老站在學科發(fā)展的角度總結道。他表示,從準確率角度來看,新方法效果不錯,但由于基于大量語言數據和參數,未來應在輕量化方向上著力,同時也要重視語言知識規(guī)則、兼顧理性主義研究來確??煽啃浴⒃鰪娊忉屝?。
他還表示,雖然如今中國在這個領域國際地位很高,但目前的研究基本上是跟蹤性的,缺乏創(chuàng)新,應加強創(chuàng)新性的研究。
馮老坦言,現在條件更好了,不只是物質層面,更有國家層面的支持和提倡。
“過去我是在研究當中得到樂趣,但我這個樂趣別人也不知道;現在情況不一樣了,現在政府公開提倡文理結合,再也不會給你戴什么帽子,也不會說你是‘落后分子?,F在年輕人條件好,只要努力,前途光明?!?/p>
他寬慰年輕學子不必擔心人工翻譯會被機器翻譯取代。在馮老看來,對于普通的文本,“機器翻譯+譯后編輯”可以提供助力,但是,對于優(yōu)秀的文學作品、國家重要文獻、領導人的著作,還是需要人工翻譯才能保證傳播質量。
同時,他也勸勉年輕學子們“要進行知識革新的再學習,使自己成為一個文理都懂的人”。
“這個也是國家對你們的希望,新文科就是這樣,我覺得是前途光明的。”馮老語重心長地說。
(摘自2022年10月9日《今日中國》)