丁 皓
(浙江警察學(xué)院國際學(xué)院,浙江 杭州 310053)
【責(zé)任編輯:周丹】
【語言與文化】
涉外警務(wù)翻譯語料庫建設(shè)面臨的問題與解決方案
丁 皓
(浙江警察學(xué)院國際學(xué)院,浙江 杭州 310053)
隨著對外警務(wù)交流的日益增多和涉外案事件的頻發(fā),當(dāng)今的警務(wù)翻譯與警務(wù)行動一樣,對快速反應(yīng)的要求越來越高。為應(yīng)對這一挑戰(zhàn),傳統(tǒng)的純?nèi)斯すP譯顯得力不從心,計算機(jī)輔助翻譯(CAT)則有著巨大優(yōu)勢。CAT需要翻譯語料庫的支持,語料庫規(guī)模越大,其功效則越好。目前國內(nèi)警務(wù)翻譯語料庫十分短缺,警務(wù)部門需要建設(shè)符合保密要求的大型翻譯語料庫。為此,本文主要采用價值工程原理對高性價比的語料庫進(jìn)行設(shè)計,以優(yōu)質(zhì)、快速、低成本地開展大型警務(wù)翻譯語料庫建設(shè)。
警務(wù)翻譯;語料庫;語料降噪;價值工程;性價比
近年來,隨著我國國際警務(wù)交流與合作的日益深化,以及涉外案事件的逐漸增多,警務(wù)翻譯的任務(wù)已日趨繁重。為了應(yīng)對這一趨勢,警務(wù)部門需要開發(fā)一套內(nèi)部翻譯大數(shù)據(jù)系統(tǒng)。
“維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代》中前瞻性的指出,大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。在這場信息風(fēng)暴中首當(dāng)其沖被改變的就是翻譯行業(yè)?!盵1]翻譯行業(yè)的改變體現(xiàn)在翻譯技術(shù)的變革,而變革最顯著的標(biāo)志是計算機(jī)輔助翻譯(CAT)和機(jī)器翻譯(MT)。由于MT目前的翻譯質(zhì)量與人工翻譯相比還有較大差距,因此不能用于正式的文件資料翻譯。而CAT由于其翻譯質(zhì)量高、速度快的優(yōu)點,值得在警務(wù)部門推廣。但CAT工作需要語料庫的支持,語料庫越多,CAT的功效就越大。因此,開展大型警務(wù)翻譯語料庫建設(shè)方面的研究,對提高警務(wù)翻譯速度及涉外警務(wù)快速反應(yīng)能力來說意義重大。
為了高效地進(jìn)行CAT警務(wù)翻譯,需要建設(shè)大型警務(wù)翻譯語料庫。大型語料庫的建設(shè)要比中小型語料庫建設(shè)困難得多,因此非常短缺。據(jù)截止2014年的文獻(xiàn)報道,“國內(nèi)在警務(wù)英語語料庫建設(shè)方面仍處于空白階段”[2],且近幾年也未見這方面成規(guī)模的建庫報道。在其他語料庫建設(shè)方面,國內(nèi)較有代表性的平行語料庫主要包括哈工大的英漢雙語語料庫、北大計算語言學(xué)研究所雙語語料庫、東北大學(xué)英漢雙語語料庫、外研社英漢文學(xué)作品語料庫、國家語委語言文字所英漢雙語語料庫、中科院軟件所英漢雙語語料庫、中科院自動化所英漢雙語語料庫、北京外國語大學(xué)通用漢英對應(yīng)語料庫、南京國際關(guān)系學(xué)院英漢平行語料庫、《紅樓夢》平行語料庫、法律法規(guī)語料庫等。[3]除了這些語料庫外,國內(nèi)已建成的其他語料庫還有不少,但這些語料庫規(guī)模大多在幾十萬句對之間,屬于中小型語料庫。然而近兩年,上海一者信息科技有限公司開發(fā)成功的Tmxmall翻譯記憶庫交換平臺兼云記憶庫共享平臺,及上海佑譯信息科技有限公司(UTH)在建的云記憶庫共享翻譯服務(wù)平臺這二個項目非常引人注目。這二個平臺的語庫建設(shè)規(guī)模目標(biāo)非常龐大,前景也非常誘人,但要達(dá)到理想的目標(biāo)仍有較長的路要走。
此外還有一個更棘手的問題,即上述Tmxmall和UTH在線語料庫平臺不太適合警務(wù)部門的翻譯。因為警務(wù)文件有些是需要保密的,在翻譯時為防止泄密不可以像其他行業(yè)中的譯員一樣,自由地使用在線詞典或者云語料庫等公共網(wǎng)絡(luò)平臺資源。于是警務(wù)部門的譯員只能采用傳統(tǒng)的純?nèi)斯し绞椒g,所以目前警務(wù)部門落后的翻譯手段與不斷增長的警務(wù)反應(yīng)能力要求之間的矛盾日益突出。而要解決這一矛盾,可行的途徑就是研究建設(shè)警務(wù)部門自己的大型翻譯語料庫。
語料庫建設(shè)有三種辦法。一是把自己用CAT軟件翻譯的雙語句對保存為記憶庫,這種方法建庫速度極慢,建成的語料庫“質(zhì)高而量少”,所以不可能建成大型語料庫。二是搜集雙語材料,再用CAT的雙語對齊功能制作語料庫。雙語對齊法也是一個“質(zhì)高而量少”的建庫方案。第三種辦法是從各種渠道收集語料庫。自從第一個CAT軟件Trados問世近20年以來,全世界成千上萬的人一直在用各種手段制作語料庫。有不少人為了加快語料庫的制作速度,編寫了自動對齊程序制作了大量的語料庫,但由于目前人工智能技術(shù)還不夠成熟,用這種方法制作的語料庫大多含有各種雜質(zhì),稱為“語料噪音”。這些語料噪音可分類為:(1)譯文錯誤;(2)譯文與原文對齊錯亂;(3)譯文或原文中有亂碼;(4)句對中有非文字符號;(5)英文兩個以上的單詞連在一起;(6)有原文無譯文;(7)有譯文無原文;(8)翻譯明顯不完整;(9)超長或超短句對,等等。對于這些海量而帶有噪音的語料庫,若靠人工操作一句一句地清除語料噪音(簡稱“降噪”),其工作量太大,幾乎不可能完成。但如果為了追求高精度,把這些語料庫都廢棄,那將是一個巨大的財富浪費;可是若要利用這些語料庫,其質(zhì)量又太差。
上述三種語料庫構(gòu)建法均有局限性。因此,語料庫建設(shè)者陷入了一個兩難的境地——要么接受“質(zhì)高量小”的語料庫;要么接受“質(zhì)低量大”的語料庫,這就是目前大型語料庫建設(shè)中存在的問題和構(gòu)建難點。
為了解決大型語料庫的建設(shè)問題,人們采取了多種方法,但“大多數(shù)語料庫所采用的建設(shè)方法是集中一批專家,花費大量的人力和物力來搜集、整理和加工語料、最終形成語料庫。所以,目前語料庫的構(gòu)建普遍存在以下缺陷:人工參與過多,自動化程度不高;規(guī)模有限,代表性不夠;成本大,周期長”[4],結(jié)果耗費了巨大的人力、物力和時間成本后,仍不能建成大型語料庫。那么大型語料庫難建的原因是什么?回答這個問題需要從價值工程角度進(jìn)行分析。
我們知道,工程建設(shè)界在開始規(guī)劃設(shè)計一個工程時,需要先作價值工程評估,然后再據(jù)此選擇設(shè)計方案。價值工程的基本原理公式為:V=F/C,式中,V——價值(即所謂的性價比);F——功能(即所謂的性能);C——成本。從式中可見,為了達(dá)到價值最大化,功能應(yīng)該盡可能地高,而成本應(yīng)該盡可能地低,但功能與成本本身就是一對矛盾。根據(jù)價值工程理論,產(chǎn)品總成本C=C1+C2,式中,C1是生產(chǎn)成本,C2是使用維護(hù)成本。在一定范圍內(nèi),產(chǎn)品的生產(chǎn)成本與使用維護(hù)成本存在著此消彼長的關(guān)系,即隨著產(chǎn)品功能水平的提高,產(chǎn)品的生產(chǎn)成本C1增加,使用及維護(hù)成本C2降低。根據(jù)該變化規(guī)律,若想求得較高的功能,其生產(chǎn)成本C1將會變得極大,其總成本C也隨之變得極大,因而其價值V就會變得很小。從價值工程角度來說,這是一個較差的工程設(shè)計方案。
對于大型語料庫建設(shè)來說,它無疑也是一個大型的建設(shè)工程,理應(yīng)進(jìn)行價值工程分析,但現(xiàn)在語料庫建設(shè)中有一種傾向是片面追求高精度。從價值工程角度來說,這種把語料庫精度做得很高的建庫方案,相當(dāng)于要將其功能值F做得很高,這就要求其生產(chǎn)成本C1極大,從而其產(chǎn)品價值(性價比)V就會很低。
語料庫建設(shè)的另一種傾向是只求數(shù)量而不顧質(zhì)量,這就是前面提到過的編寫自動對齊程序的大型建庫法。用這種方法建成的庫因質(zhì)量較差,所以其F值也較低,但仍需要花費一定的生產(chǎn)成本C1,而其使用成本C2將會很高,這樣其V值就會較低。
總而言之,上述兩種傾向會造成兩種建庫結(jié)果:(1)F值較高,但C1值極大;(2)F值太低,但C值仍較大。這兩種建庫結(jié)果的V值均太低,而V值太低的語料庫難以滿足CAT的使用要求,所以我們面臨的問題不是大型語料庫難建,而是V值高的大型語料庫難建。
(一)價值工程原理
要建設(shè)高V值大型語料庫,需要找到一種提高V值的方法。從價值工程公式V=F/C來看,如果我們能在基本滿足使用要求的前提下適當(dāng)降低產(chǎn)品的功能F值,同時大幅降低其生產(chǎn)成本C1值,而C2值基本保持不變,這樣就能提高V值。
怎樣適當(dāng)降低產(chǎn)品的功能?在價值工程中,功能可分為基本功能、輔助功能、不必要功能、多余功能、過剩功能等。顯然,我們應(yīng)該確保產(chǎn)品具備基本功能,并適當(dāng)具備輔助功能,不追求不必要功能、多余功能、過剩功能,這樣就能適當(dāng)降低F值。
那么什么是不必要功能、多余功能和過剩功能?這個問題可以在工業(yè)生產(chǎn)中找到答案。在工業(yè)產(chǎn)品制造中,要讓產(chǎn)品做到絕對沒有誤差是不可能的。工業(yè)界為了解決這個問題會規(guī)定一個允許誤差,只要產(chǎn)品不超出這個允許誤差,它就是合格產(chǎn)品。這樣做通常能產(chǎn)生“F值略降,C值大降”的效果,從而獲得較高的V值而確保產(chǎn)品贏利。如果盲目追求高精度,不允許產(chǎn)品有適當(dāng)?shù)恼`差,那就是追求不必要功能、多余功能和過剩功能。這樣的生產(chǎn)方案必然會因產(chǎn)品的V值太低而導(dǎo)致企業(yè)虧本。
(二)大型語料庫建設(shè)方案
類似地,我們在語料庫建設(shè)中也可以遵循這樣的思路:如果容許語料庫這一產(chǎn)品存在微小誤差(即微量語料噪音),那么就可以在保證語料庫符合使用要求的前提下適當(dāng)降低F值,從而大幅降低C值,這樣就能提高它的V值。由此可見,高V值大型語料庫建設(shè)方案成功的關(guān)鍵在于怎樣做到“F值略降,C值大降”,從而達(dá)到語料庫產(chǎn)品功能和成本的最佳配置。
這種“最佳配置”的設(shè)計需要復(fù)雜的電腦軟件技術(shù)。迄今為止,在CAT界還未見到這一問題完整的技術(shù)解決方案。為了突破這一技術(shù)難題,筆者與軟件設(shè)計人員經(jīng)合作研究發(fā)現(xiàn),第二節(jié)中所述的第(1)(2)類語料噪音限于目前的人工智能技術(shù)水平,很難采用軟件技術(shù)作自動清除處理;而第(3)—(9)類噪音是有可能設(shè)計專門的軟件進(jìn)行自動清除的。如果我們能用軟件清除第(3)—(9)類錯誤,用少量人工對句庫進(jìn)行檢查驗收,若發(fā)現(xiàn)只有零星個別(1)(2)類錯誤,則順手刪除之。如果發(fā)現(xiàn)(1)(2)類錯誤較多,則拒絕該語料庫,以保證不接受噪音太多的語料庫。這樣可以節(jié)省大量的人力資源,大幅降低語料庫的建設(shè)成本C1,從而加快語料庫的建設(shè)速度。建成的語料庫由于第(3)—(9)類語料噪音已經(jīng)基本清除,只剩下極少量的(1)(2)類錯誤,所以語料庫總體來說只帶有微量語料噪音。
誠然,有微量雜質(zhì)的語料與沒有雜質(zhì)的語料相比,CAT譯員在選用時要多花時間來分離這些雜質(zhì),但這種雜質(zhì)分離所花的時間與譯員的翻譯思考時間相比是微不足道的。這種多花費的時間就是價值工程分析公式里的使用維護(hù)成本C2。由于F稍微降低后C2升高較小,而C1大幅降低,所以C=C1+C2也將大幅降低,這樣語料庫的價值(性價比)V=F/C將大幅提高。這種高性價比語料庫就是存在著允許誤差的“合格”產(chǎn)品。其性價比提高的好處是,語料庫建設(shè)者可以借助軟件自動處理技術(shù),少用人工操作來高效快速地從事語料庫建設(shè)。這樣,在成本(包括人力、財力和時間成本)不大的條件下,“質(zhì)量合格”的大型語料庫建設(shè)問題也就可望解決了。
由此可見,要成功地開展高V值大型語料庫建設(shè),關(guān)鍵是要有一種針對上述第(3)—(9)類雜質(zhì)的軟件自動處理技術(shù)。經(jīng)過筆者與軟件設(shè)計人員的長期合作研究,已經(jīng)開發(fā)出了一個“句庫處理軟件”,具體可參見《翻譯語料庫建設(shè)中一些問題的軟件處理法》[5]一文。該軟件除了具有較強的“降噪”功能外,還可在數(shù)億句對舊庫背景下對新庫進(jìn)行重復(fù)檢測和重復(fù)清除,以及對任意大小語料庫進(jìn)行切分,但它對于某些特殊的非文字符號尚難處理。對于這些問題,筆者與軟件設(shè)計人員正在設(shè)法研究解決,且已經(jīng)取得了一些進(jìn)展。
為了提高涉外警務(wù)部門的翻譯工作效率和快速反應(yīng)能力,警務(wù)部門需要建設(shè)自己的大型翻譯語料庫。大型語料庫的建設(shè)不能一味追求高精度,從價值工程角度來說,過度追求高精度就是追求不必要功能或過剩功能,這樣建成的語料庫性價比較低。因此,在規(guī)劃設(shè)計警務(wù)語料庫建設(shè)方案時,我們既要從技術(shù)角度考慮滿足該庫的使用功能,又要從經(jīng)濟(jì)角度盡量降低語料庫的建設(shè)成本,以便大量生產(chǎn)。本文提出的軟件自動語料庫構(gòu)建法在精度上比純?nèi)斯ふZ料庫構(gòu)建法精度稍低,但對CAT的實際使用效果影響不大,其能解決傳統(tǒng)語料庫建設(shè)中“質(zhì)高量小”與“質(zhì)低量大”這一對矛盾,在性價比方面具有巨大優(yōu)勢,因而是一種低成本、高效的大型優(yōu)質(zhì)語料庫建設(shè)方案,值得作進(jìn)一步的研究并在涉外警務(wù)部門推廣采用。
[1]李大屾,呂黛.大數(shù)據(jù)時代中譯者如何自處[J].河北聯(lián)合大學(xué)學(xué)報(社會科學(xué)版),2015,(5):113-116.
[2]劉震宇.公安院校微型警務(wù)英語口語語料庫的構(gòu)建與應(yīng)用[J].山東警察學(xué)院學(xué)報,2014,(5):157-160.
[3]黃金柱,樊信展,李峰,等.基于軍事平行語料庫的人機(jī)結(jié)合翻譯策略[J].洛陽師范學(xué)院學(xué)報,2016,(8):56-61.
[4]李培峰,朱巧明,錢培德.基于Web的大規(guī)模語料庫構(gòu)建方法[J].計算機(jī)工程,2008,(7):41-43.
[5]丁皓.翻譯語料庫建設(shè)中一些問題的軟件處理法[J].科教導(dǎo)刊,2017,(8):52-53.
H315.9;D035.3
A
1673-7725(2017)10-0173-04
2017-08-01
本文系浙江警察學(xué)院校級科研校局合作項目“涉外警務(wù)專業(yè)翻譯語料庫建設(shè)”(項目編號:2016XJY017)的研究成果。
丁皓(1985-),女,浙江舟山人,助教,主要從事語料庫翻譯學(xué)研究。