陳吉榮
(遼寧師范大學(xué) 外國(guó)語(yǔ)學(xué)院,遼寧 沈陽(yáng)116029)
隨著計(jì)算語(yǔ)言學(xué)的興起,語(yǔ)料庫(kù)在外語(yǔ)教學(xué)中的重要作用日益突顯?!耙哉Z(yǔ)料庫(kù)語(yǔ)言學(xué)理論為基礎(chǔ)的翻譯語(yǔ)料庫(kù),匯集了譯成外語(yǔ)的各種真實(shí)的語(yǔ)料,并對(duì)語(yǔ)言現(xiàn)象用計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)、比較和分析。作為一種實(shí)用方法,翻譯語(yǔ)料庫(kù)不僅可以為探討翻譯文本的性質(zhì)、譯者的個(gè)人風(fēng)格、源語(yǔ)對(duì)文本類(lèi)型的影響,以及其他一些翻譯學(xué)者和語(yǔ)言學(xué)家感興趣的問(wèn)題提供了廣泛的研究空間。同時(shí),作為一種具體而又詳細(xì)的資源,它還可以為研究者驗(yàn)證理論上的翻譯性質(zhì)是否有效,實(shí)踐中的翻譯方法是否可行”[1]。由于基于語(yǔ)料庫(kù)的翻譯教學(xué)形式具有學(xué)習(xí)直觀化、資料多元化、譯作精準(zhǔn)化、效果顯著化等四大方面的特點(diǎn)和優(yōu)勢(shì),平行雙語(yǔ)語(yǔ)料庫(kù)在外語(yǔ)教學(xué)與研究中發(fā)揮著越來(lái)越大的作用。但是,由于不同的語(yǔ)言在拼寫(xiě)形式、語(yǔ)法邏輯和詞匯搭配等方面存在著差異,語(yǔ)料對(duì)齊就成為外語(yǔ)教學(xué)和研究中的一個(gè)重要環(huán)節(jié)。
目前,國(guó)內(nèi)外對(duì)語(yǔ)料對(duì)齊技術(shù)都有研究。近20年來(lái),國(guó)內(nèi)的語(yǔ)料對(duì)齊研究取得了很大的進(jìn)步。已經(jīng)發(fā)表的科研成果論文有51 篇。這些研究成果可以分成以下幾個(gè)方面:第一大類(lèi)是對(duì)齊算法研究,如薛松的《漢英平行語(yǔ)料庫(kù)中名詞短語(yǔ)對(duì)齊算法的研究》,劉小虎等的《基于詞典和統(tǒng)計(jì)的語(yǔ)料庫(kù)詞匯級(jí)對(duì)齊算法》和熊偉等的《面向小詞典的高效英漢雙語(yǔ)語(yǔ)料對(duì)齊算法》。第二大類(lèi)是語(yǔ)料庫(kù)建設(shè)研究,如高翔等的《句對(duì)齊有聲語(yǔ)料庫(kù)在英語(yǔ)語(yǔ)音教與學(xué)中的應(yīng)用》,趙芳婷等的《納-漢雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建及雙語(yǔ)語(yǔ)料對(duì)齊》,張跟兄的《蒙漢雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)》、劉非凡等的《大規(guī)模非限定領(lǐng)域漢英雙語(yǔ)語(yǔ)料庫(kù)建設(shè)及句子對(duì)齊研究》,徐德寬等的《論文摘要漢英對(duì)齊語(yǔ)料庫(kù)的建設(shè)及應(yīng)用》,陳晴等的《基于雙語(yǔ)句對(duì)語(yǔ)料庫(kù)的詞對(duì)齊模型》。第三大類(lèi),是關(guān)于對(duì)齊方式的研究,如李秀英的《基于歷史典籍雙語(yǔ)平行語(yǔ)料庫(kù)的術(shù)語(yǔ)對(duì)齊研究》,劉冬明的《漢英雙語(yǔ)平行語(yǔ)料庫(kù)中對(duì)齊方法的研究》,肖健的《英中可比語(yǔ)料庫(kù)中多詞表達(dá)自動(dòng)提取與對(duì)齊》。第四大類(lèi)是多語(yǔ)種對(duì)齊研究,如畢雪華的《漢維雙語(yǔ)語(yǔ)料庫(kù)中句子對(duì)齊技術(shù)的研究》,艾山·毛力尼亞孜的《漢維哈柯雙語(yǔ)語(yǔ)料庫(kù)加工系統(tǒng)詞對(duì)齊技術(shù)的研究》,王成平的《信息處理用彝、漢、英三語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)與語(yǔ)料對(duì)齊技術(shù)研究》,雪艷的《漢蒙詞語(yǔ)對(duì)齊及相關(guān)技術(shù)研究》。
國(guó)外的語(yǔ)料對(duì)齊技術(shù)研究在對(duì)齊單位上主要以句子以下的單位為主,例如Louise Deléger 的研究表明,可以通過(guò)平行文本語(yǔ)料庫(kù)的字對(duì)齊技術(shù)來(lái)翻譯醫(yī)用術(shù)語(yǔ)。通過(guò)語(yǔ)料庫(kù)的字對(duì)齊技術(shù),獲得了平均值為[(74.8% +77.8% +76.3%)/3=76.3%]的語(yǔ)言準(zhǔn)確的新術(shù)語(yǔ)翻譯,該研究驗(yàn)證了使用文本語(yǔ)料對(duì)齊技術(shù)可以幫助譯者翻譯新的術(shù)語(yǔ),這一發(fā)現(xiàn)也為其他不同的翻譯過(guò)程提供了理論框架,有利于外語(yǔ)教學(xué)和研究。此外,國(guó)外對(duì)基于長(zhǎng)度基礎(chǔ)和文本基礎(chǔ)的對(duì)齊技術(shù)也很重視。Christopher C.Yang 等的研究表明,長(zhǎng)度基礎(chǔ)和文本基礎(chǔ)是對(duì)齊平行文件的兩個(gè)主要方法。許多平行文本對(duì)齊技術(shù)試圖采用不同的文本單位作為翻譯單位,以此來(lái)衡量雙語(yǔ)詞法,自動(dòng)翻譯驗(yàn)證和自動(dòng)活獲取翻譯知識(shí),其中翻譯對(duì)齊技術(shù)在自動(dòng)語(yǔ)料庫(kù)建構(gòu)過(guò)程中起到了對(duì)齊文本的重要作用。通過(guò)基于長(zhǎng)度基礎(chǔ)和文本基礎(chǔ)的自動(dòng)題目對(duì)齊方式來(lái)建構(gòu)平行語(yǔ)料庫(kù)又可以為語(yǔ)料對(duì)齊和語(yǔ)料庫(kù)構(gòu)建提供新的思路。第三,在語(yǔ)料對(duì)齊技術(shù)中使用自構(gòu)建語(yǔ)義圖示,如Qing Maa 等的研究表明,可以使用SOM 作為自構(gòu)建設(shè)計(jì)或者圖示。研究者最初使用從中日兩國(guó)報(bào)紙上選取的、根據(jù)其語(yǔ)法關(guān)系所做的對(duì)應(yīng)詞語(yǔ)作為自構(gòu)建詞語(yǔ),然后把這些詞語(yǔ)解碼為向量提交給SOM,并考慮其間相互的語(yǔ)義關(guān)聯(lián),再使用詞語(yǔ)相似度來(lái)進(jìn)行計(jì)算。自定義的單語(yǔ)語(yǔ)義圖示可以根據(jù)不同的標(biāo)準(zhǔn)來(lái)評(píng)估,例如準(zhǔn)確度、F 值、回溯,還可以通過(guò)詞簇規(guī)律比較和多樣的統(tǒng)計(jì)分析來(lái)進(jìn)行。這種基于語(yǔ)義基礎(chǔ)的字對(duì)齊技術(shù)對(duì)語(yǔ)料對(duì)齊研究也很有啟發(fā)。第四,使用P - NNT 與GMM 的句對(duì)齊技術(shù)。Mohamed Abdel Fattah 的研究表明,盡管平行語(yǔ)料庫(kù)在多語(yǔ)加工過(guò)程中已經(jīng)成為一個(gè)重要的來(lái)源,句子對(duì)齊的平行語(yǔ)料對(duì)于機(jī)器翻譯來(lái)說(shuō)意義重大。這種方法主要使用幾率性的神經(jīng)性網(wǎng)絡(luò)和高斯混合模式,萃取文本對(duì)中的特征向量,例如長(zhǎng)度、標(biāo)點(diǎn)符號(hào)評(píng)分值和同源評(píng)分值。通過(guò)使用P-NNT 與GMM,使得語(yǔ)料對(duì)齊錯(cuò)誤分別減少了27%和50%,并且,這些新的方法對(duì)任何語(yǔ)言對(duì)都適用。Victoria L.Fossum 等還研究了詞對(duì)齊過(guò)程中的整合與解析。
這些語(yǔ)料對(duì)齊的研究對(duì)外語(yǔ)教學(xué)中的語(yǔ)料庫(kù)建設(shè)、語(yǔ)料對(duì)齊技術(shù)與語(yǔ)料對(duì)齊方式等都有很多適用價(jià)值,值得借鑒。考慮到國(guó)內(nèi)外語(yǔ)教學(xué)特別是翻譯教學(xué)的特點(diǎn),句子層以下的語(yǔ)料對(duì)齊技術(shù)更有實(shí)用性。
黃俊紅等對(duì)2007年以前的國(guó)外語(yǔ)料庫(kù)對(duì)齊技術(shù)做了綜述性評(píng)價(jià),指出目前四種主要的對(duì)齊技術(shù),并分析了各自的優(yōu)缺點(diǎn)。例如,句子級(jí)對(duì)齊技術(shù)是最為重要且較為成熟的自動(dòng)對(duì)齊技術(shù),但是在處理復(fù)雜句子的對(duì)齊以及不同語(yǔ)系的句子對(duì)齊時(shí),準(zhǔn)確率可能卻并不高?;谠~匯層的對(duì)齊方法雖然可以提高對(duì)齊的準(zhǔn)確性,但卻費(fèi)時(shí)。多詞組合單位對(duì)齊在不同語(yǔ)系語(yǔ)言對(duì)的對(duì)齊過(guò)程中可能出現(xiàn)問(wèn)題,從句和段落的對(duì)齊也有其自身優(yōu)缺點(diǎn),從句的對(duì)齊更難且容易出錯(cuò)[2]。針對(duì)中國(guó)外語(yǔ)課堂教學(xué)特別是翻譯教學(xué)的實(shí)際情況,多數(shù)學(xué)生沒(méi)有接受過(guò)長(zhǎng)時(shí)間、有計(jì)劃的翻譯實(shí)踐與翻譯能力訓(xùn)練,課時(shí)少、課堂內(nèi)外翻譯實(shí)踐有限,學(xué)生在解決翻譯問(wèn)題時(shí)的語(yǔ)言單位小于成熟的譯者或者訓(xùn)練有素的譯員,前者往往以詞或者短語(yǔ)為翻譯單位,而后者常常以句子為翻譯單位。同時(shí),中英兩種語(yǔ)言在類(lèi)符和形符、切分單位、斷句以及術(shù)語(yǔ)分類(lèi)方面有很大差異,句子層的對(duì)齊模式有時(shí)候會(huì)出現(xiàn)不準(zhǔn)確的情況??紤]到這些實(shí)際因素,則句子層以下的對(duì)齊模式是可以借鑒的方法。
根據(jù)MACKEN 的定義,句子層以下的對(duì)齊方式是指:“在句子水平以下的翻譯對(duì)應(yīng)的自動(dòng)對(duì)齊,可能是詞,詞組或者詞塊”[3]。關(guān)于句子層以下的對(duì)齊技術(shù),也有一些相關(guān)研究。Lars Ahrenberg 認(rèn)為數(shù)據(jù)的選擇和突出樣本將會(huì)對(duì)詞語(yǔ)級(jí)別的對(duì)齊技術(shù)產(chǎn)生影響。Rada Mihalcea 等探討了詞對(duì)齊技術(shù)中的分享責(zé)任。Wu Hua 等認(rèn)為詞對(duì)齊技術(shù)改善了翻譯質(zhì)量并且節(jié)省了20% 的翻譯時(shí)間,Declan Groves 等研究了數(shù)據(jù)導(dǎo)向的翻譯和數(shù)據(jù)導(dǎo)向的分析在語(yǔ)料對(duì)齊中的作用。此外,Katharina Probst 等研究了使用類(lèi)似評(píng)分系統(tǒng)來(lái)改善句子層以下的對(duì)齊方式的雙語(yǔ)詞典,Y.Choueka 等研究了一個(gè)比較全面的雙語(yǔ)詞匯對(duì)齊系統(tǒng),這些研究為句子層以下的對(duì)齊技術(shù)研究提供了理?yè)?jù)。
2007年,比利時(shí)的Lieve Macken 發(fā)表了研究論文Analysis of Translational Correspondence in View of Sub-sentential Alignment。2010年,他的理論更加成熟,完成了博士論文Sub - sentential Alignment of Translational Correspondences。綜合這兩個(gè)研究成果,Lieve Macken 句子層以下對(duì)齊模式其特點(diǎn)就非常明顯。
Macken 的句子層以下對(duì)齊模式既適用于計(jì)算機(jī)輔助翻譯教學(xué)也適用于一般情況下的人工翻譯。其主要特點(diǎn)是關(guān)注不同的文本類(lèi)型,并且關(guān)注準(zhǔn)確性。該模式使用了各種不同的文本類(lèi)型的平行文本,目標(biāo)使用者最終設(shè)定為人類(lèi)譯員,目的是為其提供一個(gè)具有極高精確性的對(duì)齊劃分單位模式,并對(duì)對(duì)齊做出評(píng)價(jià)。
雖然在實(shí)際的驗(yàn)證過(guò)程中,Macken 使用了英語(yǔ)與荷蘭語(yǔ)的語(yǔ)言對(duì),但是他認(rèn)為這種句子層以下的對(duì)齊模式是不受語(yǔ)言對(duì)限制的,可以在翻譯活動(dòng)中通用。其中,手動(dòng)引用的語(yǔ)料庫(kù)包括三個(gè)不同類(lèi)型的關(guān)聯(lián):直接對(duì)應(yīng)的常規(guī)關(guān)聯(lián),不同類(lèi)型的專(zhuān)門(mén)翻譯轉(zhuǎn)換的模糊關(guān)聯(lián),以及無(wú)對(duì)應(yīng)的零關(guān)聯(lián)。不同文本類(lèi)型的不同的寫(xiě)作和翻譯文體呈現(xiàn)出不同數(shù)量的常規(guī)關(guān)聯(lián)、模糊關(guān)聯(lián)和零關(guān)聯(lián)。而句子層以下的對(duì)齊模式是由級(jí)聯(lián)模式構(gòu)成的,包含兩個(gè)階段。在第一個(gè)階段,以詞匯對(duì)等和句法相似性為基礎(chǔ)將錨點(diǎn)詞塊進(jìn)行關(guān)聯(lián)。在第二個(gè)階段,使用引導(dǎo)方式來(lái)萃取專(zhuān)門(mén)翻譯模式中的語(yǔ)言對(duì)。這種對(duì)齊模式是詞塊驅(qū)動(dòng)的,只需要針對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言的極淺的語(yǔ)言加工工具,例如詞性標(biāo)簽與詞塊。
為了產(chǎn)生詞匯對(duì)應(yīng),Macken 試驗(yàn)了兩種不同類(lèi)型的雙語(yǔ)詞典:手工的雙語(yǔ)詞典和概率的雙語(yǔ)詞典。在引導(dǎo)實(shí)驗(yàn)過(guò)程中,Macken 使用精確的GIZA + +與字對(duì)齊相交。預(yù)設(shè)的系統(tǒng)改善了相交的GIZA+ +字對(duì)齊的回溯性,保持了精確性,并使得對(duì)齊結(jié)果在融合計(jì)算機(jī)輔助工具和雙語(yǔ)術(shù)語(yǔ)萃取工具方面更有用。而且,對(duì)齊不連續(xù)詞塊的系統(tǒng)能力使得該系統(tǒng)對(duì)包含分離的言語(yǔ)構(gòu)建和短語(yǔ)動(dòng)詞的語(yǔ)言更為有用。該模式可以指導(dǎo)雙語(yǔ)術(shù)語(yǔ)萃取,也可以將其與商業(yè)翻譯記憶系統(tǒng)進(jìn)行比較。
Macken 句子層以下的對(duì)齊模式對(duì)于外語(yǔ)課堂教學(xué)的啟示主要體現(xiàn)在如下方面:
第一是增強(qiáng)了語(yǔ)料對(duì)齊技術(shù)的準(zhǔn)確性,有利于提高課堂教學(xué)質(zhì)量。在Macken 的對(duì)齊模式中,特別重視精確性和回溯性。精確性是指系統(tǒng)所產(chǎn)生的多少關(guān)聯(lián)是準(zhǔn)確的。回溯性是指系統(tǒng)建立了多少關(guān)聯(lián),也因此是衡量系統(tǒng)覆蓋率的指標(biāo)。這兩個(gè)特點(diǎn)在對(duì)齊模式的四個(gè)評(píng)估矩陣中都有體現(xiàn)。
第二是為語(yǔ)料對(duì)齊提供了多種量化的評(píng)估途徑。主要包括四個(gè)方面:F 值,對(duì)齊錯(cuò)誤率,加權(quán)F 值,詞塊水平的F 測(cè)試計(jì)算。在這些計(jì)算公式中,同時(shí)進(jìn)行手動(dòng)對(duì)齊與自動(dòng)對(duì)齊的比較。例如,F(xiàn) 值的計(jì)算公式為:
A 代表系統(tǒng)自動(dòng)對(duì)齊的數(shù)對(duì),R 代表手動(dòng)對(duì)齊的數(shù)對(duì)。
由上述公式可以看出,精確性和回溯性的計(jì)算是取手動(dòng)對(duì)齊和自動(dòng)對(duì)齊的交集,兩者的比較和差異可增強(qiáng)譯者對(duì)句子層以下翻譯對(duì)齊單位的認(rèn)知,從而辨別翻譯錯(cuò)誤并學(xué)習(xí)新的翻譯方式。類(lèi)似的,在對(duì)齊錯(cuò)誤率的計(jì)算中,Macken 也采用了上述計(jì)算思路,特別是他對(duì)準(zhǔn)確對(duì)齊和可能對(duì)齊的區(qū)分更增加了對(duì)錯(cuò)誤分析的準(zhǔn)確性,同時(shí)也兼顧了翻譯過(guò)程中多樣化的表達(dá)。Macken 的加權(quán)F 值更加關(guān)注短語(yǔ)對(duì)齊,其賦值方式和算法思路與前兩項(xiàng)也類(lèi)似。
第三,對(duì)于復(fù)雜多樣的翻譯對(duì)等來(lái)說(shuō),比較并為不同的對(duì)齊系統(tǒng)賦分并不容易,因?yàn)檫@些對(duì)齊不能簡(jiǎn)單地以對(duì)錯(cuò)來(lái)劃分。Macken 的對(duì)齊模式為各種多變的翻譯對(duì)等提供了解釋的途徑。
第四,學(xué)生可以通過(guò)此模式更為直觀地了解翻譯對(duì)等,對(duì)翻譯級(jí)階、翻譯單位等都有更為深入的認(rèn)識(shí)。同時(shí)也有利于在課堂教學(xué)中選一個(gè)好工具,提高速度,同時(shí)降低建庫(kù)的成本。
[1]李丙奎.析翻譯語(yǔ)料庫(kù)與翻譯教學(xué)和翻譯人才培養(yǎng)[J].語(yǔ)文學(xué)刊,2011(12):27 -29.
[2]黃俊紅,范 云,黃 萍.雙語(yǔ)平行語(yǔ)料庫(kù)對(duì)齊技術(shù)述評(píng)[J].外語(yǔ)電化教學(xué),2007(6):21 -25.
[3]Macken L.Sub - sentential Alignment of Translational Correspondences[D].Universiteit Antwerpen,2010.