趙玉蓉?楊鑫?劉歡?龍玟月?楊茜?安超?阮先玉
【摘要】AI同傳的出現(xiàn)為翻譯行業(yè)發(fā)展注入了新動(dòng)力,同時(shí)也引起業(yè)內(nèi)學(xué)者與專業(yè)譯員們的極大關(guān)注:AI同傳未來(lái)發(fā)展前景如何,翻譯質(zhì)量有無(wú)保證,能否取代人工翻譯?此類討論將研究者的視線聚焦在AI同傳的核心技術(shù)——神經(jīng)機(jī)器翻譯上。在人工智能與大數(shù)據(jù)飛速發(fā)展的當(dāng)今,越來(lái)越多的綜合方法可應(yīng)用于神經(jīng)機(jī)器翻譯技術(shù)的更新與完善。本文以3款融合AI技術(shù)的翻譯軟件為例,選取實(shí)用性原文素材為研究對(duì)象,參考權(quán)威口譯質(zhì)量評(píng)估標(biāo)準(zhǔn),建立起一套評(píng)價(jià)標(biāo)準(zhǔn),得出結(jié)論:AI同傳及語(yǔ)音翻譯譯文仍未達(dá)到人工水平并存在較大差距,融合AI技術(shù)的神經(jīng)機(jī)器翻譯仍存在改進(jìn)空間,如擴(kuò)大語(yǔ)料庫(kù)、增強(qiáng)學(xué)習(xí)功能與聯(lián)想功能等。
【關(guān)鍵詞】AI同傳;神經(jīng)機(jī)器翻譯;口譯質(zhì)量評(píng)估
【作者簡(jiǎn)介】趙玉蓉,楊鑫,劉歡,龍玟月,楊茜,安超,阮先玉,西南石油大學(xué)。
【基金項(xiàng)目】本文由2019四川省級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“大數(shù)據(jù)背景下AI同傳翻譯質(zhì)量研究”(201910 615049)、西南石油大學(xué)第18期(2018-2019年度)課外開放實(shí)驗(yàn)重點(diǎn)項(xiàng)目(KSZ18C01)資助。
一、引言
自2016年起谷歌率先推出神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)NMT(Neural Machine Translation),機(jī)器翻譯(Machine Translation)技術(shù)領(lǐng)域開始發(fā)生重大變革,機(jī)器翻譯質(zhì)量實(shí)現(xiàn)了大幅度提升。借助飛速發(fā)展的人工智能技術(shù),國(guó)內(nèi)各大互聯(lián)網(wǎng)公司加快研發(fā)推廣步伐,競(jìng)相推出融合了AI技術(shù)的翻譯產(chǎn)品和服務(wù)。融合了AI技術(shù)且易獲取的口譯軟件在得到廣泛使用的同時(shí)也收獲了大量反饋信息,無(wú)論是應(yīng)用于口譯實(shí)戰(zhàn),還是應(yīng)用于大眾生活,其翻譯質(zhì)量參差不齊,得到了褒貶不一的評(píng)價(jià)。
二、國(guó)內(nèi)幾種支持AI技術(shù)的翻譯軟件翻譯原理——神經(jīng)機(jī)器翻譯(Neural Machine Translation,簡(jiǎn)稱NMT)簡(jiǎn)介
神經(jīng)機(jī)器翻譯在翻譯建模上不借用其他手段,只采用神經(jīng)網(wǎng)絡(luò)完成源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換。隨著信息技術(shù)的進(jìn)步、語(yǔ)言學(xué)理論的發(fā)展和人工智能技術(shù)的飛躍,引入神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯對(duì)提高機(jī)器翻譯效率和質(zhì)量做出了重大貢獻(xiàn)。但是,經(jīng)典的機(jī)器翻譯模型是一種通用的模型,并不完全針對(duì)機(jī)器翻譯任務(wù)本身而設(shè)計(jì),導(dǎo)致神經(jīng)機(jī)器翻譯仍然存在一些問題亟待解決。
三、研究方法
1. 使用軟件與素材。本文選用3種為大型會(huì)議提供過AI同傳服務(wù)的翻譯軟件(騰訊翻譯君、訊飛聽見、搜狗翻譯),人聲錄入原文,將軟件譯文與標(biāo)準(zhǔn)譯文對(duì)照,進(jìn)行初步分析。
本文選取的現(xiàn)場(chǎng)原文素材以及配套權(quán)威標(biāo)準(zhǔn)譯文,內(nèi)容涵蓋國(guó)際會(huì)議演講或致辭、歷年政府工作報(bào)告、總理答記者問等。素材特點(diǎn)為:選詞意義準(zhǔn)確,表意清晰。多采用書面詞匯、政治術(shù)語(yǔ)及復(fù)雜且長(zhǎng)但邏輯性強(qiáng)的句式結(jié)構(gòu)等,措辭嚴(yán)謹(jǐn)、精準(zhǔn),絕不會(huì)出現(xiàn)模棱兩可、易生歧義等語(yǔ)句,文體正式化和語(yǔ)體口語(yǔ)化兼?zhèn)涞奶攸c(diǎn)上。
2. 分析理論——楊承淑的口譯質(zhì)量評(píng)估標(biāo)準(zhǔn)。臺(tái)灣輔仁大學(xué)楊承淑提出的“量化”和“質(zhì)化”理論是認(rèn)可度較廣的一種口譯質(zhì)量評(píng)估標(biāo)準(zhǔn),評(píng)估項(xiàng)目及評(píng)分占比為:忠實(shí)(準(zhǔn)確、完整)占50%,表達(dá)(明確、流暢)占30%,語(yǔ)言(語(yǔ)法、選詞、風(fēng)格)占20%,時(shí)間控制(原文與譯文的時(shí)間比)以總分為基礎(chǔ)上下浮動(dòng)2%。由于該理論的對(duì)象為口譯專業(yè)考試,在考試過程中時(shí)間有限的情況下,將時(shí)間控制一項(xiàng)納入質(zhì)量評(píng)估有一定的必要性。但在本項(xiàng)目研究中,對(duì)于時(shí)間控制沒有過高要求,因此不做為重要評(píng)估標(biāo)準(zhǔn)參考。
四、譯文質(zhì)量分析
1. 譯文錯(cuò)誤類型及譯文質(zhì)量量化表。為了確保譯文對(duì)比質(zhì)量,本團(tuán)隊(duì)前期先完成6期素材的錄入、整理和分析,總結(jié)出幾種頻繁出現(xiàn)的錯(cuò)誤類型。在完成譯文錯(cuò)誤類型歸納的基礎(chǔ)上,參考楊承淑的口譯質(zhì)量評(píng)估標(biāo)準(zhǔn),制定出一套適用于本研究的評(píng)分標(biāo)準(zhǔn),采用扣分制,對(duì)10期譯文打分。錯(cuò)誤類型、扣分細(xì)則及評(píng)分表如表1所示。
2. 無(wú)錯(cuò)句的案例。無(wú)錯(cuò)句分為零翻譯、完全相同翻譯和基本標(biāo)準(zhǔn)翻譯。零翻譯指原文不需要做翻譯處理,譯文只需與原文保持一致,本素材譯文中不存在此情況。完全相同翻譯指的是機(jī)器譯文與標(biāo)準(zhǔn)譯文完全相同,可直接采用的情況?;緲?biāo)準(zhǔn)翻譯指的是機(jī)器譯文雖然與標(biāo)準(zhǔn)譯文基本相同,有修改的余地,但不做改動(dòng)也能表意清晰順暢的情況,亦可直接采用或稍做修改。
(1)完全相同翻譯。
原文:中華人民共和國(guó)成立70周年。
標(biāo)準(zhǔn):the 70th anniversary of the founding of the People’s Republic of China
三個(gè)軟件:the 70th anniversary of the founding of the People’s Republic of China
(2) 基本標(biāo)準(zhǔn)翻譯。
原文:我們已經(jīng)走上一條符合中國(guó)國(guó)情、適合時(shí)代要求的正確道路。
標(biāo)準(zhǔn): We have embarked on a right path that fits China’s conditions and is in keeping with the trend of the times.
三個(gè)軟件:We have embarked on a correct path that conforms to China’s national conditions and meets the requirements of the times.
3. 典型的有錯(cuò)句案例。
(1)詞匯錯(cuò)誤——用詞(組)不當(dāng),導(dǎo)致語(yǔ)義錯(cuò)誤或者偏差,與原文意思不符。
例:將“位居前列”譯為 “ranking first”(名列第一),與原文意思有出入。
原文:國(guó)內(nèi)生產(chǎn)總值達(dá)到67.7萬(wàn)億元,增長(zhǎng)6.9%,在世界主要經(jīng)濟(jì)體中位居前列。
標(biāo)準(zhǔn):GDP reached 67.7 trillion yuan, representing an increase of 6.9% over the previous year-a growth rate faster than that of most other major economies.
搜狗:The gross domestic product ...... ranking first among the world’s major economies.
騰訊:The gross domestic product (GDP) ...... , ranking first among the world’s major economies.
訊飛:......, an increase of 6.9%, ranking first among the major economies in the world.
(2)句法錯(cuò)誤——語(yǔ)法錯(cuò)誤。
例:使用現(xiàn)在分詞做狀語(yǔ)將“回顧歷史”譯為 “l(fā)ooking back on history”,但主句的主語(yǔ)為the economic globalization,不能與該狀語(yǔ)構(gòu)成主謂關(guān)系,是明顯的語(yǔ)法錯(cuò)誤。
原文:回顧歷史,20世紀(jì)興起的經(jīng)濟(jì)全球化,起初只是西方發(fā)達(dá)國(guó)家、或者說是地中海文明的經(jīng)濟(jì)全球化。
搜狗:Looking back on history, the economic globalization that arose in the last century ......
——生硬直譯,導(dǎo)致不能表意。
原文:堅(jiān)決打好藍(lán)天保衛(wèi)戰(zhàn)。
標(biāo)準(zhǔn):We will make our skies blue again.
訊飛:Fight against the blue sky!
(3)段落錯(cuò)誤——語(yǔ)義分析錯(cuò)誤,導(dǎo)致表意有誤。
例:將“背水一戰(zhàn)”譯為 “the spirit of the first World War”,對(duì)該詞組語(yǔ)義理解有誤。
原文:您在報(bào)告里講改革要有壯士斷腕的決心、背水一戰(zhàn)的氣概
騰訊:In your report, ...... the determination of a strong man to break his wrists, the spirit of the first World War......
(4)其他錯(cuò)誤。原文:40年來(lái),達(dá)沃斯小鎮(zhèn)以其獨(dú)特魅力,已經(jīng)成為中國(guó)觀察世界、交流思想、闡述主張和謀求共識(shí)的重要平臺(tái)。
標(biāo)準(zhǔn):Over the past four decades, Davos, this lovely small town ......
訊飛:the Davos small town apparatus apparatus has been so attractive ......(亂譯)
4.定量分析。本文10期素材統(tǒng)計(jì)得出素材原文小句總句數(shù)為508句,各軟件所譯有錯(cuò)誤譯文小句總句數(shù)統(tǒng)計(jì)情況為:搜狗154句、騰訊187句、訊飛162句,基本標(biāo)準(zhǔn)譯文小句總句數(shù)統(tǒng)計(jì)情況為:搜狗99句、騰訊95句、訊飛120句。
按評(píng)估標(biāo)準(zhǔn)對(duì)十期素材進(jìn)行打分,并計(jì)算平均分,所得結(jié)果如下:搜狗88.35分,騰訊87.85分,訊飛85.1分。
5.原因分析。(1)詞匯。詞匯的問題在于英語(yǔ)詞匯普遍一詞多義,AI口譯軟件無(wú)法準(zhǔn)確選取最恰當(dāng)?shù)脑~義,這是機(jī)器翻譯歷來(lái)為人詬病的弊端之一。從本項(xiàng)目研究過程來(lái)看,基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯在這方面已有一定改觀。(2)語(yǔ)料庫(kù)。AI口譯軟件譯文中許多類型的錯(cuò)誤都是由于語(yǔ)料庫(kù)的明顯不足。由于語(yǔ)言具有動(dòng)態(tài)性,而神經(jīng)機(jī)器翻譯為了加快訓(xùn)練速度,會(huì)將雙語(yǔ)詞典限制在一定范圍之內(nèi),語(yǔ)料不足必然導(dǎo)致翻譯質(zhì)量的降低。(3)語(yǔ)法。AI口譯軟件翻譯單句的語(yǔ)法結(jié)構(gòu)與源語(yǔ)語(yǔ)法形式一致,而未順應(yīng)目標(biāo)語(yǔ)言的語(yǔ)法內(nèi)涵,造成一些明顯的語(yǔ)法錯(cuò)誤,無(wú)法將原文隱性邏輯理清理順并體現(xiàn)在譯文語(yǔ)法結(jié)構(gòu)中。(4)語(yǔ)境。胡壯麟曾將語(yǔ)境歸納為三類:語(yǔ)言語(yǔ)境即語(yǔ)篇的上下文,情景語(yǔ)境即語(yǔ)言交流的環(huán)境、方式、條件和參與者等,文化語(yǔ)境即語(yǔ)言產(chǎn)生的人文背景等。語(yǔ)境本身就很復(fù)雜,對(duì)于神經(jīng)機(jī)器翻譯來(lái)說,無(wú)疑更是巨大的挑戰(zhàn)。首先,在語(yǔ)言語(yǔ)境方面,AI口譯軟件譯文缺少銜接詞,連貫性較差等問題,一方面可能與神經(jīng)機(jī)器翻譯的源語(yǔ)分析能力有關(guān),神經(jīng)機(jī)器翻譯無(wú)法識(shí)別分析詞匯或各句語(yǔ)境的統(tǒng)一關(guān)系或獨(dú)立關(guān)系;另一方面與其可譯句子長(zhǎng)度的受限有關(guān),由于句子長(zhǎng)度限定在一定詞數(shù)范圍內(nèi),同一語(yǔ)境下超出限制部分的詞句無(wú)法整合到同一邏輯關(guān)系或語(yǔ)法結(jié)構(gòu)中,導(dǎo)致斷句錯(cuò)誤等問題。其次,在文化語(yǔ)境方面,即結(jié)合源語(yǔ)文化背景處理譯文方面,由于文化是多種因素結(jié)合的產(chǎn)物,其蘊(yùn)含在語(yǔ)言中的廣度與深度表達(dá),要求譯員要具備豐富的文化常識(shí)和敏銳的學(xué)習(xí)觀察能力。神經(jīng)機(jī)器翻譯具有一定的長(zhǎng)時(shí)記憶,對(duì)于文化常識(shí)也有一定的內(nèi)存儲(chǔ)備,但根據(jù)分析過程中出現(xiàn)的諸多問題來(lái)看,這種記憶聯(lián)想和學(xué)習(xí)能力還遠(yuǎn)遠(yuǎn)不夠。
五、結(jié)論
1. 綜合評(píng)價(jià)結(jié)果。參照翻譯理論和口譯質(zhì)量評(píng)估標(biāo)準(zhǔn),本文從詞匯、句法、段落以及軟件自身其他問題四個(gè)方面,將三個(gè)軟件的AI同傳及語(yǔ)音翻譯譯文與標(biāo)準(zhǔn)人工譯文進(jìn)行對(duì)比分析,得出定量和定性分析結(jié)果顯示,三種軟件的AI同傳及語(yǔ)音翻譯質(zhì)量基本在同一水平。整體上,人工翻譯譯文質(zhì)量?jī)?yōu)于三個(gè)軟件的AI同傳及語(yǔ)音翻譯譯文質(zhì)量,后者翻譯質(zhì)量仍有待提高。2.研究啟示。(1)提高神經(jīng)機(jī)器翻譯源語(yǔ)分析能力是解決神經(jīng)機(jī)器翻譯諸多問題的根本。目前針對(duì)該問題,改善注意力機(jī)制已成為研究熱點(diǎn)。將大數(shù)據(jù)應(yīng)用到神經(jīng)機(jī)器翻譯系統(tǒng)中,其語(yǔ)言學(xué)習(xí)能力或許能得到增強(qiáng)。(2)擴(kuò)充神經(jīng)機(jī)器翻譯語(yǔ)料庫(kù)規(guī)模。當(dāng)前神經(jīng)機(jī)器翻譯為了加快訓(xùn)練速度,將語(yǔ)料庫(kù)規(guī)模限制在一定范圍內(nèi),也限制了系統(tǒng)的聯(lián)想預(yù)測(cè)能力。(3)AI口譯結(jié)合人工翻譯及譯員不斷自我提升的必要性。本文認(rèn)為,神經(jīng)機(jī)器翻譯與譯后編輯結(jié)合,能大大節(jié)省譯員的時(shí)間與精力,并有效檢驗(yàn)、修正機(jī)器譯文的錯(cuò)誤。這不僅對(duì)翻譯標(biāo)準(zhǔn)研究提出了要求,還對(duì)譯員個(gè)人素質(zhì)與技能水平做出了要求。AI口譯的進(jìn)步必然與人工翻譯的進(jìn)步緊密相連。 3.本項(xiàng)目的局限性由于時(shí)間、精力、能力和篇幅有限,另外出于便利統(tǒng)計(jì)和整理的目的,本文僅能通過案例研究的方式對(duì)三種軟件的AI同傳或語(yǔ)音翻譯質(zhì)量進(jìn)行評(píng)估,樣本類型不夠豐富,量化數(shù)據(jù)只作為一項(xiàng)參考指標(biāo),意在探尋量化分析的可能性。因此,本文建議未來(lái)研究可由翻譯界和其他相關(guān)學(xué)界專家合作進(jìn)行,融合多學(xué)科研究方法,將翻譯與科學(xué)技術(shù)尤其是AI技術(shù)緊密結(jié)合,建立實(shí)用可行的評(píng)估模型,積極探索AI同傳及語(yǔ)音翻譯質(zhì)量評(píng)估與改善的新途徑。
參考文獻(xiàn):
[1]姜敏浩.政府工作報(bào)告特點(diǎn)及英譯策略研究[J].學(xué)周刊,2015(30): 18.
[2]楊承淑.口譯教學(xué)研究:理論與實(shí)踐[M].北京:中國(guó)對(duì)外翻譯出版公司,2005.
[3]李梅,朱錫明.英漢機(jī)譯錯(cuò)誤分類及數(shù)據(jù)統(tǒng)計(jì)分析[J].上海理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013,35(03):201-207.
[4]孫逸群,周敏康.機(jī)器翻譯質(zhì)量綜合評(píng)價(jià)方法研究[J].中國(guó)科技翻譯,2017,30(02):20-24.