【摘要】通過對機(jī)器翻譯和語音識別等相關(guān)知識的梳理和論述,在計算機(jī)輔助筆譯的基礎(chǔ)上提出計算機(jī)輔助口譯模型并進(jìn)行可行性推理及邏輯驗證,嘗試為今后的計算機(jī)輔助口譯系統(tǒng)建設(shè)提供借鑒。
【關(guān)鍵詞】機(jī)器翻譯;機(jī)器口譯;計算機(jī)輔助口譯
【作者簡介】夏寧(1995-),男,河北大學(xué),碩士研究生,研究方向:計算機(jī)輔助翻譯。
【基金項目】2018河北省研究生創(chuàng)新資助項目:十九大關(guān)鍵詞中英文對照術(shù)語庫建設(shè)及應(yīng)用研究,課題編號:CXZZSS2018007。
利用機(jī)器進(jìn)行翻譯的想法出現(xiàn)在計算機(jī)產(chǎn)生之前,早在17世紀(jì),萊布尼茨提出利用統(tǒng)一符號表示不同語言相同含義的方法,編寫以數(shù)字符號為基礎(chǔ)的詞典,這就是早期的機(jī)器翻譯思想:解碼編碼解碼(朱志強(qiáng),2015)。1933年前蘇聯(lián)科學(xué)家特羅揚(yáng)斯基向蘇聯(lián)科學(xué)院展示了一個簡單簡陋的翻譯機(jī)器—本質(zhì)上為一臺具有翻譯功能的打字機(jī),并于同年9月5日登記此項發(fā)明(馮志偉,1984)。1954年1月7日,IBM公司和美國喬治敦大學(xué)共同研發(fā)的IBM 701 計算機(jī)將俄語句子全自動翻譯成英語句子,完成了歷史上首次機(jī)器翻譯試驗。(靳海林,1987)由此可見,機(jī)器翻譯比計算機(jī)翻譯概念涵蓋范圍更廣,機(jī)器翻譯是指人類借助包括電子計算機(jī)在內(nèi)的由各種金屬和非金屬部件組裝成的裝置進(jìn)行自動翻譯的活動,而計算機(jī)翻譯則是指人類利用電子技術(shù)和相關(guān)原理根據(jù)一系列指令來對文本數(shù)據(jù)進(jìn)行自動翻譯的活動。
1956年中國政府將計算機(jī)翻譯技術(shù)納入全國科學(xué)工作發(fā)展規(guī)劃,并立項“機(jī)器翻譯、自然語言翻譯規(guī)則的建設(shè)和自然語言的數(shù)學(xué)理論”(注:出自超星慕課—機(jī)器翻譯的歷史回顧與現(xiàn)狀分析,主講馮志偉,慕課地址為mooc.chaoxing.com/course/37755.html)。1966年11月,美國科學(xué)院自動語言處理咨詢委員會發(fā)布報告《語言和機(jī)器》,聲稱計算機(jī)翻譯花費(fèi)大用處小,計算機(jī)翻譯研究暫時進(jìn)入緩慢發(fā)展期(柯平,1995)。但機(jī)器翻譯的研究并沒有停滯不前,隨著語言學(xué)理論不斷推陳出新和信息技術(shù)的日新月異,計算機(jī)翻譯研究在20世紀(jì)80年代迎來再次發(fā)展期。1990年在芬蘭赫爾辛基召開的第13 屆國際計算語言學(xué)大會開啟了基于大規(guī)模語料庫的統(tǒng)計自然語言處理的新時代,并催生了影響至今的統(tǒng)計機(jī)器翻譯模型(孫茂松,周建設(shè),2016)。21世紀(jì)以來,計算機(jī)翻譯研究不斷取得新進(jìn)展,互聯(lián)網(wǎng)普及,經(jīng)濟(jì)全球化加速,計算機(jī)翻譯的便捷高效受到越來越多使用者的認(rèn)可。2016年9月27日,谷歌發(fā)布谷歌神經(jīng)網(wǎng)絡(luò)翻譯,該技術(shù)與谷歌已經(jīng)投入生產(chǎn)的基于短語的翻譯模型相比誤差降低了50%,標(biāo)志著計算機(jī)翻譯進(jìn)入大發(fā)展時期(谷歌,2016)。
另一方面隨著計算機(jī)翻譯受挫,計算機(jī)輔助翻譯應(yīng)運(yùn)而生。計算機(jī)輔助翻譯思想源于20世紀(jì)70年代提出的“翻譯記憶”概念,是翻譯材料電子化后的一種翻譯技術(shù)。計算機(jī)輔助翻譯源于計算機(jī)翻譯,但區(qū)別于前者。計算機(jī)翻譯為自動化翻譯,可不通過人為干涉形成譯文,計算機(jī)輔助翻譯則是利用雙語語料庫進(jìn)行重復(fù)文本的模糊匹配并通過術(shù)語庫進(jìn)行專業(yè)詞匯翻譯和詞匯的全文統(tǒng)一。計算機(jī)輔助翻譯與計算機(jī)翻譯的最大區(qū)別在于計算機(jī)翻譯的最終譯文是翻譯自動化的結(jié)果,而計算機(jī)輔助翻譯的最終譯文需要人工補(bǔ)足和完善。參照《計算機(jī)輔助翻譯》(錢多秀,2011)和《機(jī)器翻譯簡明教程》(李正栓,孟俊茂,2009),得出如下表格:
1.計算機(jī)口譯發(fā)展現(xiàn)狀與市場需求。從20世紀(jì)80年代中后期開始,隨著語音識別和信息技術(shù)水平的不斷提高,計算機(jī)口譯研究呈現(xiàn)迅速發(fā)展趨勢。為實現(xiàn)再造巴別塔的夢想,IBM、谷歌、微軟、百度、科大訊飛等國內(nèi)外科研巨頭在計算機(jī)翻譯之路上不斷探索。1993-2000年德國主導(dǎo)研發(fā)Verbmobil免提式雙向移動多語對話翻譯系統(tǒng),該系統(tǒng)可處理德、英、日三語之間的商務(wù)對話,對話翻譯成功率達(dá)90%。IBM于2006年發(fā)布可識別、翻譯50000多英文單詞和100000阿拉伯語單詞的MASTOR多語種自動語音翻譯機(jī)。2012年,微軟發(fā)布基于深度神經(jīng)網(wǎng)絡(luò)計算的統(tǒng)計機(jī)器翻譯,使即時語音翻譯達(dá)到商用標(biāo)準(zhǔn)。2015年1月基于安卓系統(tǒng)的谷歌實時語音翻譯系統(tǒng)上線。2018年4月20日,科大訊飛翻譯器2.0發(fā)布,聲稱翻譯準(zhǔn)確率高達(dá)95%并成為博鰲亞洲論壇指定翻譯機(jī)。但此類系統(tǒng)大多針對特定垂直領(lǐng)域,針對日常會話的大范圍計算機(jī)口譯尚未成熟。2018年博鰲亞洲論壇,騰訊AI同傳遭遇滑鐵盧。2018年創(chuàng)新與新興產(chǎn)業(yè)發(fā)展國際會議科大訊飛計算機(jī)口譯被指造假,官方后續(xù)聲明中特別強(qiáng)調(diào)是一場誤會,是人機(jī)耦合的效果。
不論2018年創(chuàng)新與新興產(chǎn)業(yè)發(fā)展國際會議科大訊飛計算機(jī)口譯失敗與否,在官方的人機(jī)耦合解釋中,看到的是口譯活動離不開人的輔助,而這也從側(cè)面佐證了計算機(jī)輔助口譯的可行性和必要性??谧g對譯員的瞬間記憶是極大的考驗,口譯速記也因此成為最重要的基本口譯技能之一。在理想的計算機(jī)輔助口譯系統(tǒng)中,譯員可以獲得源語文本,甚至是基于源語文本的關(guān)鍵詞,平行術(shù)語和參考譯文。
2.口譯市場面臨的問題。新興產(chǎn)業(yè)不斷產(chǎn)生發(fā)展,根據(jù)中華人民共和國國家發(fā)展和改革委員會《戰(zhàn)略性新興產(chǎn)業(yè)重點(diǎn)產(chǎn)品和服務(wù)指導(dǎo)目錄》,新興產(chǎn)業(yè)可分為5大領(lǐng)域,8大產(chǎn)業(yè),40個重點(diǎn)方向,174個子方向,近4000項細(xì)分產(chǎn)品和服務(wù)。對面如此多的新興產(chǎn)業(yè),口譯員在從事口譯活動時,對專業(yè)領(lǐng)域整體了解度,對產(chǎn)業(yè)熟悉度,對專業(yè)詞匯掌握度都是件不易之事??谧g現(xiàn)場尤其是同聲傳譯現(xiàn)場留給口譯員思考查詢的時間幾乎為零,即使是最優(yōu)秀口譯譯員,如果沒有前期的大量行業(yè)知識儲備也無法勝任一場接一場的不同領(lǐng)域口譯活動。此外翻譯現(xiàn)場,口譯員神經(jīng)高度緊張,壓力大,分神絲毫都會導(dǎo)致漏譯,錯譯。
口譯活動較筆譯活動來說,靈活多變,即時性強(qiáng),受現(xiàn)場環(huán)境影響大,各種言外信息和副語信息都將成為計算機(jī)在執(zhí)行翻譯過程中的阻礙。根據(jù)奧斯丁提出的言語行為理論(注:言內(nèi)行為:是說出詞、短語和分句的行為,它是通過句法、詞匯和音位來表達(dá)字面意義的行為。言外行為:表達(dá)說話者的意圖的行為,它是在說某些話時所實施的行為。言后行為:是通過某些話所實施的行為,或講某些話所導(dǎo)致的行為,它是話語所產(chǎn)生的后果或所引起的變化,它是通過講某些話所完成的行為。)一句話通過句法,詞匯和音位表達(dá)出來的字面意義與說話者真正的意圖并不一致,語言的理解需要人腦通過以往的言語經(jīng)驗對說話人意圖進(jìn)行猜測推斷,計算機(jī)口譯目前能做到的只是對言內(nèi)行為的理解。面對瞬息萬變的口譯現(xiàn)場,充分理解講話者的會話含義,僅僅依靠機(jī)器的語義分析是遠(yuǎn)遠(yuǎn)不夠的,自然語言中存在的歧義和未知現(xiàn)象于機(jī)器翻譯一直是難以克服的障礙。
1.計算機(jī)輔助口譯可行性推理。本文涉及的計算機(jī)輔助口譯目前可供查閱的相關(guān)文獻(xiàn)較少,僅有《計算機(jī)輔助英譯漢口譯實證研究》、《語音數(shù)字識別輔助漢英交傳探究》、《試析計算機(jī)輔助工具在口譯中的應(yīng)用》等。計算機(jī)輔助口譯是基于計算機(jī)輔助筆譯提出的一項計算機(jī)輔助人工口譯的思路,在理想的計算機(jī)輔助口譯系統(tǒng)中,口譯員能夠及時獲得源語文本信息和參考信息并開展口譯活動。
計算機(jī)輔助翻譯源于傳統(tǒng)的機(jī)器翻譯,因增添人為翻譯校對過程,一定程度上彌補(bǔ)了全自動機(jī)器翻譯的缺點(diǎn),同時與人工翻譯相比,計算機(jī)輔助翻譯在提高翻譯效率,減少翻譯錯誤,統(tǒng)一上下文術(shù)語名詞等方面有著不可代替的優(yōu)點(diǎn)。傳統(tǒng)的計算機(jī)輔助筆譯系統(tǒng)依靠大量的雙語平行語料庫庫和雙語術(shù)語庫工作,而計算機(jī)輔助口譯與計算機(jī)輔助翻譯的不同之處在于增添語音識別模塊,將源語文本或是根據(jù)一定規(guī)則提取的核心口譯筆記以及術(shù)語通過一定手段提供給譯員進(jìn)行參考。
2.現(xiàn)有語音技術(shù)分析。傳統(tǒng)的語音翻譯系統(tǒng)由自動語音識別器,機(jī)器翻譯引擎和語音合成器三大部分組成,其中,語音識別是機(jī)器口譯和計算機(jī)輔助口譯的首要部分,也是基礎(chǔ)部分。貝爾實驗室于1952年成功研制成了世界上第一個語音識別系統(tǒng),雖然只能識別十個英文數(shù)字但卻成為語音識別的開端。語音識別率涉及諸多方面,如詞匯長短,自然語言的自然度和流暢度,話語人的口音和講話特點(diǎn)等。語音識別的準(zhǔn)確率是目前計算機(jī)語音翻譯的關(guān)鍵一環(huán)。理想狀態(tài)下,在語音識別率100%的語音翻譯系統(tǒng)中,語音內(nèi)容的翻譯準(zhǔn)確率與筆譯準(zhǔn)確率無異。目前,我國的科大訊飛語音識別技術(shù)位居世界前列,在2018年6月12日的科大訊飛訊飛輸入法產(chǎn)品經(jīng)理宣布其漢語識別準(zhǔn)確率已提升到98%,識別速度達(dá)每分鐘400字,此數(shù)字遠(yuǎn)大于一般狀態(tài)下每分鐘200字左右的語速。
3.流程分析。源語音頻通過聽筒等音頻采集器進(jìn)入系統(tǒng),通過降噪過濾等手段將純凈的源語音頻進(jìn)行語音識別。語音識別全過程不需要人工參與,通過識別初步得到源語文本,此時的源語文本可通過系統(tǒng)直接提供給口譯員進(jìn)行參考,或是進(jìn)行二次處理,得到預(yù)翻譯譯文、雙語術(shù)語文本和根據(jù)一定規(guī)則編寫的源語筆記。譯員結(jié)合自身聽取獲得的文本信息和系統(tǒng)提供的信息開展口譯活動。雙語術(shù)語文本基于已經(jīng)存在系統(tǒng)中的術(shù)語庫,在系統(tǒng)得到源語文本后自動在雙術(shù)語庫中進(jìn)行檢索匹配,得到初步匹配的模糊術(shù)語文本并在此根據(jù)術(shù)語進(jìn)行翻譯或者雙語術(shù)語檢索。如圖-1所示:
根據(jù)設(shè)想,整個系統(tǒng)基于云計算,由遠(yuǎn)程服務(wù)器進(jìn)行數(shù)據(jù)統(tǒng)計分析,譯員譯文音頻也將同步更新到遠(yuǎn)程服務(wù)器中,為今后的計算機(jī)輔助口譯和計算機(jī)口譯的機(jī)器學(xué)習(xí)提供訓(xùn)練數(shù)據(jù)。整體流程如下圖-2所示:
計算機(jī)口譯在2018年備受關(guān)注,但無論是機(jī)器口譯還是計算機(jī)輔助口譯都是為了降低口譯市場準(zhǔn)入門檻,降低生產(chǎn)成本,促進(jìn)生產(chǎn)力發(fā)展,譯員不會被取代,但譯員會借助信息化手段,擺脫勞動負(fù)擔(dān),提高勞動效率。本文僅是對計算機(jī)翻譯和語音識別相關(guān)知識進(jìn)行梳理和論述,提出計算機(jī)輔助口譯的邏輯假設(shè)并進(jìn)行初步可行性推理,更深層次的問題如技術(shù)層面的具體操作,譯員在口譯現(xiàn)場對聽力和信息的分析、記憶、語言表達(dá)、協(xié)調(diào)以及增加的計算機(jī)輔助口譯提供的文本參考之間的精力分配,以及有無計算機(jī)輔助對口譯活動的影響和譯文評價等方面都需要更深入的研究。
參考文獻(xiàn):
[1]Dan Jurafsky, James H. Martin. Speech and Language Processing[M]. Prentice Hall,2008:241-281.
[2]J. L. Austin. How to Do Things with Words[M]. Oxford: The Clarendon Press,1962.
[3]Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ?ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. Technical Report,2016.
[4]馮志偉.機(jī)器翻譯的歷史回顧與現(xiàn)狀分析[OL]. http: // mooc.chaoxing.com/course/37755.html.
[5]馮志偉.機(jī)器翻譯的歷史和現(xiàn)狀[J].國外自動化,1984(04):36-38.
[6]靳海林.機(jī)器翻譯的歷史與展望[J].中國翻譯,1987(05):33-35.
[7]柯平.歐美的機(jī)器翻譯[J].中國翻譯,1995(02):47-48.
[8]李正栓,孟俊茂.機(jī)器翻譯簡明教程[M].上海外語教育出版社, 2009:224-233.
[9]林小木.計算機(jī)輔助英譯漢口譯實證研究[D].山東師范大學(xué), 2013:1-9.
[10]錢多秀.計算機(jī)輔助翻譯[M].外語教學(xué)與研究出版社,2011:1-26
[11]孫茂松,周建設(shè). 從機(jī)器翻譯歷程看自然語言處理研究的發(fā)展策略[J].語言戰(zhàn)略研究,2016(06):12-18.
[12]宗成慶.統(tǒng)計自然語言處理[M].清華大學(xué)出版社,2013:399-413.
[13]朱志強(qiáng). 語音數(shù)字識別輔助漢英交傳探究[D].北京外國語大學(xué), 2015:3-7.
[14]中華人民共和國國家發(fā)展和改革委員會[J].戰(zhàn)略性新興產(chǎn)業(yè)重點(diǎn)產(chǎn)品和服務(wù)指導(dǎo)目錄,2017.