傅琳凌,劉 磊
(華南師范大學外國語言文化學院,廣州 510631)
在人工智能技術的發(fā)展與驅動下,機器翻譯技術迅猛發(fā)展。2016年,隨著谷歌神經(jīng)機器翻譯系統(tǒng)取得重大突破,翻譯準確率顯著提高,全球機器翻譯領域迎來新一輪研發(fā)高潮[1]。2022年,人工智能研究實驗室OpenAI推出自然語言處理工具ChatGPT[2],為機器翻譯帶來人機互動新體驗。
本研究基于中國知網(wǎng)(CNKI)文獻數(shù)據(jù)庫,利用CiteSpace 6.1.R3軟件分析1992—2022年國內機器翻譯研究的演進趨勢及研究者、研究機構、研究主題等關鍵指標,梳理了國內機器翻譯研究的動態(tài)進展與不足之處,并對未來我國機器翻譯研究的趨勢做出了展望。
CiteSpace 6.1.R3軟件兼具圖與譜的雙重特性,既能顯示知識聚類間的網(wǎng)絡、結構、互動、交叉、演化或衍生等關系,也可揭示出復雜的知識關系孕育的前沿知識[3]。由于中國知網(wǎng)上檢索到國內最早研究機器翻譯的文獻是1992年黃昌寧發(fā)表的《計算語言學簡介》,故將檢索時間設定為1992—2022年,主題詞設定為“機器翻譯”,文獻來源類別設定為核心期刊(包括SCI、EI、CSSCI、CSCD及中文核心期刊),經(jīng)人工剔除廣告、會議、通知、書評等非研究性文獻后得到文獻1702篇。將數(shù)據(jù)導入CiteSpace 6.1.R3軟件,自動剔除13條重復或空白數(shù)據(jù),得到有效文獻1689篇。
我國機器翻譯研究總體呈現(xiàn)穩(wěn)步上升趨勢,以2016年為分界點,可分為以下兩個發(fā)展階段。①平穩(wěn)成長期(1992—2015年):該時期發(fā)文量穩(wěn)步上升,但增幅不大且伴隨發(fā)文數(shù)量的波動。②快速發(fā)展期(2016—2022年):該時期發(fā)文量增幅明顯,2017年的發(fā)文數(shù)量同比增長超過60%,原因可能在于2016年谷歌翻譯等機構在神經(jīng)機器翻譯系統(tǒng)研究領域取得重大突破,給全球機器翻譯的研發(fā)帶來了啟迪和動力,吸引大批學者投身機器翻譯相關研究;2019年起,年均發(fā)文量穩(wěn)定在110篇以上,2021年達到峰值(133篇)。詳見圖1。
圖1 機器翻譯研究年發(fā)文量Fig.1 Annual distribution of publications on machine translation
分析研究者的發(fā)文量及聚類情況,可了解某領域主要學者的文章發(fā)表情況及其研究的相關性。機器翻譯研究領域發(fā)文量在30篇以上的學者有5位,分別是來自中國科學院計算機研究所的劉群,哈爾濱工業(yè)大學的李生和趙鐵軍,國家教育部語言文字應用研究所的馮志偉及昆明理工大學信息工程與自動化學院的余正濤。其中,劉群發(fā)文量最多,達40篇。上述學者主要的研究領域均涉及自然語言處理,其中4位學者(占80%)的主要研究方向為機器翻譯,2位學者(占40%)的主要研究方向為機器學習。
不同研究者的研究相關性可通過聚類圖進行分析,聚類圖中研究者間的距離越近,代表其研究成果的關聯(lián)性越強。我國機器翻譯領域形成以“機器翻譯評測”“模式”“融合”“機器訓練語料選取”“回譯”等主題研究為核心的作者群。其中,“機器翻譯評測”主要涉及對特定翻譯系統(tǒng)或翻譯算法的評價與測試,常見的機器翻譯評測方法包括人工評測與基于n元匹配的自動評測,如“通過引入模糊匹配,BLEU的性能得到顯著提高”[4];“模式”相關研究成果主要涉及機器翻譯系統(tǒng)的計算模式及模式匹配算法研究;“融合”相關成果主要研究通過融合新模型、機制或知識如何進一步提升機器翻譯的性能,融合的目標多數(shù)服務于機器翻譯的模型訓練,故“融合”與“翻譯模型”這兩個研究主題的空間距離較近;無論是統(tǒng)計機器翻譯還是神經(jīng)機器翻譯,用于機器訓練的大規(guī)模、高質量平行語料是決定翻譯效果的核心要素,“訓練語料選取”是機器翻譯研究領域的核心主題;“回譯”是“翻譯中重要的數(shù)據(jù)增強方法”[5],通過精準性測試回譯訓練機器模型,是提高機器翻譯準確度的重要手段。詳見圖2。
圖2 研究者聚類圖Fig.2 Clustering knowledge atlas of researchers
分析文獻發(fā)表單位有助于了解特定領域的研究機構及其發(fā)文特點。機器翻譯領域的研究機構主要集中在計算機與信息工程類院校及研究所;前10所高產(chǎn)研究機構中僅有2所在2000年前發(fā)表過機器翻譯相關研究成果,其余8所機構均是2000年后開始發(fā)表機器翻譯相關主題文章的,可見我國機器翻譯研究發(fā)軔于1992年,研究中堅在2000年以后才陸續(xù)出現(xiàn)。詳見表1。
表1 前十位高產(chǎn)研究機構發(fā)文量及首發(fā)年份Tab.1 Number of publications among top 10 prolific organizations and the year of their first publication
從發(fā)文內容看,各機構的研究重點有所不同:蘇州大學計算機科學與技術學院、中國科學院計算技術研究所、中國科學院計算技術研究所智能信息處理重點實驗室、中國科學技術信息研究所及北京大學計算語言學研究所這5家單位多以研究自然語言處理方向為主;中國科學院新疆理化技術研究所、昆明理工大學信息工程與自動化學院、新疆大學信息科學與工程學院及內蒙古工業(yè)大學信息工程學院這4家單位的研究內容呈現(xiàn)出明顯的地域特色,重點關注少數(shù)民族語言與漢語或外語的機器翻譯問題。外語類院校在機器翻譯研究領域的發(fā)文量明顯少于計算機類院校,發(fā)文量最高的外語院校為上海外國語大學,在高產(chǎn)研究機構中排在第12位;此類院校主要關注翻譯教學中機器翻譯的應用、機器翻譯與人工翻譯的異同、機器翻譯產(chǎn)出的質量管理等主題。
在CiteSpace 6.1.R3軟件的功能與參數(shù)板塊中,設置時間切片(Time Slicing)為“From 1992 Jan. To 2022 Dec.”以完整覆蓋所有有效數(shù)據(jù),年份切片(Year Per Slice)為1,選取關鍵詞(Keywords)為參數(shù),得到關鍵詞聚類圖及前十位高頻關鍵詞表。在CiteSpace 6.1.R3軟件生成的關鍵詞聚類圖中,節(jié)點的大小代表其總被引次數(shù)[6]。節(jié)點越大代表該關鍵詞出現(xiàn)的頻次越多,研究熱度越高。CiteSpace 6.1.R3軟件還通過自動聚類將關鍵詞劃分為不同主題,劃分依據(jù)是關鍵詞的共現(xiàn)關系及強度,若多個關鍵詞集中于某個主題范圍內,則說明這些研究熱點間的聯(lián)系更為密切。
目前國內機器翻譯研究關注的熱點話題包括“人工智能”“翻譯技術”“深度學習”,以及與“句子對齊”“句法分析”“中間語言”等密切相關的自然語言處理。在主題分布上,“名詞短語”“句法分析”“多義詞”及“名詞詞組”等關鍵詞聯(lián)系緊密,這些研究內容均從屬于自然語言處理領域;“人工智能”“信息檢索”“神經(jīng)網(wǎng)絡”等關鍵詞附近的詞項多涉及新興前沿方向?!叭斯ぶ悄堋笔莾H次于“機器翻譯”的高頻關鍵詞,研究者對人工智能的關注幾乎與機器翻譯研究同步發(fā)端?!胺g技術”是排名第三的高頻詞,與“譯后編輯”“語言服務”等詞聚類關系明顯。與機器翻譯緊密相關的研究陣營主要包括主攻機器翻譯系統(tǒng)開發(fā)的計算機技術陣營及促進機器翻譯技術普及的翻譯研究陣營,后者往往將機器翻譯作為“翻譯技術”的代表以討論技術轉向[7]、技術倫理[8]及技術應用情況[9]等。學界對“機器翻譯”“人工智能”“人工翻譯”及“譯后編輯”等內容關注較早,而“翻譯技術”“深度學習”“神經(jīng)網(wǎng)絡”等則是機器翻譯研究領域較新的關注熱點,均在2010年后受到重點關注。詳見圖3、表2。
表2 前十位高頻關鍵詞Tab.2 Top 10 high-frequency keywords
圖3 關鍵詞聚類圖Fig.3 Clustering knowledge atlas of keywords
“語料庫”“深度學習”“信息檢索”等均為研究熱點,且這三個關鍵詞聯(lián)系緊密,原因在于平行語料庫是機器翻譯系統(tǒng)開發(fā)的重要原料,深度學習是機器翻譯水平提升的突破口,信息檢索模型是機器翻譯訓練中數(shù)據(jù)選擇與優(yōu)化的關鍵環(huán)節(jié)。作為機器學習(Machine Learning)的新方向,深度學習(Deep Learning)未來的發(fā)展方向更趨近于人工智能,“憑借龐大的數(shù)據(jù)集和強大的計算能力建立深層次神經(jīng)網(wǎng)絡,并基于其深度、隱性學習與算法正則化的顯性特征模擬人腦機制完成對數(shù)據(jù)的分析,進而提高不同層次上對數(shù)據(jù)的解釋能力”[10]。廣義的深度學習也常被用于處理多模態(tài)翻譯實踐中的聲音、圖像等非文本信息。
“神經(jīng)網(wǎng)絡”也是機器翻譯研究的高頻關鍵詞,多見于神經(jīng)機器翻譯(NMT)的研究中。神經(jīng)機器翻譯系統(tǒng)“根據(jù)雙語語料庫進行深度學習,就可實現(xiàn)機器翻譯,不再需要規(guī)模宏大而艱巨的‘語言特征工程’,幾乎完全拋棄了基于語言規(guī)則的符號主義方法”[11]。神經(jīng)機器翻譯的核心之一在于計算機神經(jīng)網(wǎng)絡技術的應用,讓機器翻譯系統(tǒng)模仿人類大腦神經(jīng)元進行翻譯,故神經(jīng)網(wǎng)絡成為機器翻譯研究者重點關注的對象。機器翻譯的發(fā)展離不開人工翻譯,二者相輔相成,二者的異同分析、機器翻譯對人工譯者的影響等成為研究焦點,故“人工翻譯”也出現(xiàn)在高頻關鍵詞表中。
關鍵詞突現(xiàn)點列表以關鍵詞突現(xiàn)開始的時間順序由遠及近排列,反映各研究熱點受到高度關注的時段,由近五年開始突現(xiàn)的關鍵詞可管窺相應領域的研究前沿。
在機器翻譯研究領域內,“大數(shù)據(jù)”“數(shù)據(jù)增強”“遷移學習”“回譯”這四個關鍵詞突現(xiàn)的起始時間集中在近五年之內(即2018年及以后),說明近五年研究者對這四個領域的關注度顯著提升。“數(shù)據(jù)增強”“遷移學習”及“回譯”有助于提升低資源或稀缺資源語種的機器翻譯訓練性能,如蔡子龍等在漢藏、漢英語對實驗中利用數(shù)據(jù)增強技術使得兩種語對與基準系統(tǒng)相比均多出4個BLEU值,發(fā)現(xiàn)數(shù)據(jù)增強技術可有效解決神經(jīng)機器翻譯因訓練數(shù)據(jù)太少而導致的泛化能力不足問題[12];數(shù)據(jù)增強是在不實質性增加數(shù)據(jù)的原則下,通過對已有數(shù)據(jù)進行隨機裁剪、隨機對比,讓有限的數(shù)據(jù)發(fā)揮更大的作用。遷移學習則是將模型(NMT)學習到的參數(shù)遷移到相近的任務上,利用高資源翻譯任務得到的參數(shù)改善低資源翻譯任務的性能[13],如Zoph通過遷移學習有效提高了4組低資源語對5.6個BLEU值[14]。回譯可以分為術語回歸回譯與翻譯精確性測試回譯[15],不僅可直接用于檢驗機器翻譯中兩種語言轉換的準確度,還可在高資源與低資源語對轉換中間接提升低資源語對的翻譯質量,如張文博等將漢語單語數(shù)據(jù)按照領域相似性劃分成多份單語數(shù)據(jù),通過回譯方法分段利用不同的單語數(shù)據(jù)訓練翻譯模型,借助模型平均、模型集成等方法進一步提升了維漢、蒙漢翻譯質量[16]。近五年機器翻譯領域內的四個突現(xiàn)關鍵詞均與低資源語對有關,可見如何提高低資源語對的機器翻譯質量是當下機器翻譯研究的前沿問題。詳見圖4。
圖4 前十五位關鍵詞突現(xiàn)情況Fig.4 Top 15 keywords with the strongest citation bursts
1)從演進趨勢來看,近三十年機器翻譯相關研究成果總體呈穩(wěn)步上升趨勢,且自2016年起呈現(xiàn)明顯的增長趨勢。2019年后,國內機器翻譯相關研究成果穩(wěn)定在年均110篇以上,且發(fā)文量在2021年達到峰值。機器翻譯研究的增長態(tài)勢不僅反映了人們日常工作生活對機器翻譯的現(xiàn)實需求,也體現(xiàn)了人工智能時代各類技術更新迭代的內在發(fā)展需求。
2)從研究群體來看,機器翻譯研究領域高產(chǎn)出、高影響力的學者主要具備計算機專業(yè)背景,這是由于機器翻譯的開發(fā)與優(yōu)化離不開計算機技術;其他領域學者對機器翻譯的關注與研究成果產(chǎn)出較為分散。
3)從研究機構來看,計算機科研院所為主力軍,與翻譯緊密相關的語言類院校研究力量仍未凝聚。機器翻譯的開發(fā)與突破離不開計算機技術,技術的發(fā)展推動機器翻譯從傳統(tǒng)基于統(tǒng)計、規(guī)則的算法升級到基于神經(jīng)網(wǎng)絡的發(fā)展階段;但是,機器翻譯要取得重大突破,單純依靠算法還不夠,還需語言學、腦科學等多領域學者通力合作,無論技術發(fā)展到何種程度,人依然是機器學習無法繞開的參照物,也是機器翻譯系統(tǒng)優(yōu)化的旨歸。
4)從研究熱點與前沿來看,機器翻譯研究領域的熱點呈現(xiàn)多樣化特征與智能化趨勢,前沿問題主要集中于如何通過大數(shù)據(jù)、數(shù)據(jù)增強、遷移學習及回譯等方法在已有高資源語對平行語料的基礎上,解決低資源語對由于原始數(shù)據(jù)不足導致的機器翻譯質量不如人意的難題。多樣化的特征體現(xiàn)在如今的機器翻譯已不再囿于傳統(tǒng)自然語言處理領域,而是與語料庫、人工智能、深度學習及翻譯技術等領域相互融合。智能化趨勢集中體現(xiàn)在大數(shù)據(jù)疊加機器翻譯催生的前沿翻譯技術,特別是2013年神經(jīng)網(wǎng)絡機器翻譯(NMT)模型興起后,機器翻譯超越了基于規(guī)則與統(tǒng)計的機器翻譯,跨入神經(jīng)網(wǎng)絡翻譯時代[17]。國外的谷歌、微軟,國內的百度、有道等企業(yè)不斷探索人工智能、大數(shù)據(jù)、語音識別技術(ASR)、深度學習等技術,旨在進一步提升機器翻譯產(chǎn)出的質量和效率。
基于近三十年的研究動態(tài),國內機器翻譯研究者應更加注重在研究方向、研究群體、研究應用與技術推廣等維度的跨學科、跨領域合作,讓技術的研發(fā)與普惠齊頭并進。
1)在研究方向層面,模型開發(fā)、訓練語料選取、計算機自然語言處理等仍為機器翻譯研究領域的熱點話題。面向低資源語對的機器翻譯系統(tǒng)研發(fā)將繼續(xù)成為機器翻譯研究界的攻堅核心[18]。為順應當前人工智能的發(fā)展趨勢,翻譯技術、機器深度學習、神經(jīng)機器翻譯將成為未來機器翻譯研究相關成果的主要增長點。
2)在研究群體層面,機器翻譯系統(tǒng)研發(fā)的瓶頸突破需融合計算機科學及翻譯學、認知語言學等多學科的力量。學科交叉與融合是各專業(yè)研究及人才培養(yǎng)的共同趨勢,以翻譯學科為例,未來的翻譯人才培養(yǎng)目標將不再局限于專職翻譯,而是既懂翻譯、又通曉技術的翻譯+語言工程師的融合體[19]。目前倡導的語言智能學科也是學科交叉的一個典范,有機融合了語言、認知、計算三大要素[20]。
3)在研究應用層面,機器翻譯系統(tǒng)研發(fā)的目的在于服務人類生活與生產(chǎn)的現(xiàn)實需求。未來機器翻譯的技術開發(fā)與研究還應注重對機器翻譯“功用”的追蹤,通過實際“功用”去調整語料的選取及算法、模型的設計。機器翻譯如何有效匹配人們在旅游、就醫(yī)、科技傳播、語言教學等不同情境的使用需求,如何滿足非通用語言使用者對機器翻譯的需求,如何實現(xiàn)低資源語言的平行語料庫資源建設等均是未來機器翻譯研發(fā)需重點調研的領域。
4)在技術推廣層面,機器翻譯作為一種易操作、易獲取的信息技術,在教學、醫(yī)療、旅游等多領域均有實踐意義與推廣價值。以教學情境為例,《教育信息化2.0行動計劃》提出,要加強學生課內外一體化的信息技術知識、技能、應用能力以及信息意識、信息倫理等方面的培育[21]。作為具有代表性及可操作性的信息技術,機器翻譯不僅可以賦能外語課堂的教與學,還能消除多語言課堂情境下師生、生生間的語言障礙,推動形成和諧的多語言學習交流環(huán)境。機器翻譯還可有效提升不同國家和文化間資訊共享的效率,減少文化沖突,促進交流合作。