陳少琛
(寧波工程學(xué)院外國(guó)語(yǔ)學(xué)院,浙江 寧波 315211)
語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起為翻譯研究提供了一個(gè)新的視角和方法,推動(dòng)了翻譯相關(guān)的語(yǔ)料庫(kù)建設(shè),為翻譯學(xué)開(kāi)啟了新的研究范式。Baker[1]在1993年闡述了語(yǔ)料庫(kù)在譯學(xué)研究中的作用,為語(yǔ)料庫(kù)翻譯學(xué)研究開(kāi)辟了新的天地。通過(guò)語(yǔ)料庫(kù)的方法,可對(duì)源語(yǔ)文本和翻譯語(yǔ)料進(jìn)行統(tǒng)計(jì)、比較和分析,以研究翻譯語(yǔ)言特征、譯者風(fēng)格和翻譯規(guī)范,因此,語(yǔ)料庫(kù)翻譯學(xué)成為譯學(xué)研究的重要領(lǐng)域[2]。在各類語(yǔ)料庫(kù)中,與翻譯關(guān)系最為緊密的莫過(guò)于雙語(yǔ)平行語(yǔ)料庫(kù)。雙語(yǔ)平行語(yǔ)料庫(kù)被廣泛應(yīng)用于語(yǔ)言研究、翻譯研究、外語(yǔ)教學(xué)和跨語(yǔ)言信息檢索,可為翻譯教學(xué)和研究提供可靠的翻譯實(shí)例和量化數(shù)據(jù)[3]。國(guó)內(nèi)研發(fā)了多個(gè)通用雙語(yǔ)平行語(yǔ)料庫(kù),包括中國(guó)科學(xué)院漢英平行語(yǔ)料庫(kù)、南京大學(xué)雙語(yǔ)詞典研究中心英漢雙語(yǔ)平行語(yǔ)料庫(kù)、清華大學(xué)中英平行語(yǔ)料庫(kù)、北京外國(guó)語(yǔ)大學(xué)雙語(yǔ)平行語(yǔ)料庫(kù)等,其在語(yǔ)言學(xué)研究和自然信息處理中的作用愈發(fā)重要[4]。
但是,目前的英漢平行語(yǔ)料庫(kù)多為通用語(yǔ)料庫(kù),針對(duì)性不強(qiáng),且大多無(wú)法公開(kāi)訪問(wèn),難以滿足特定領(lǐng)域的翻譯教學(xué)和研究需求。因此,筆者特構(gòu)建小型商務(wù)文本英漢平行語(yǔ)料庫(kù),以滿足商務(wù)領(lǐng)域翻譯資源建設(shè)、翻譯理論和技巧學(xué)習(xí)、翻譯實(shí)踐應(yīng)用等需求,可為商務(wù)文本的語(yǔ)言特征對(duì)比、文體風(fēng)格分析和翻譯研究提供可靠的數(shù)據(jù),為學(xué)生的學(xué)習(xí)和實(shí)踐提供真實(shí)的語(yǔ)料。
本語(yǔ)料庫(kù)建設(shè)的目的是服務(wù)商務(wù)翻譯的教學(xué)和研究,因此在語(yǔ)料構(gòu)成方面依照商務(wù)文本的類型設(shè)定,分成幾大類:公司介紹、產(chǎn)品推介、貿(mào)易單證、企業(yè)年報(bào)、招股章程、行業(yè)報(bào)告、經(jīng)濟(jì)政策、商業(yè)新聞等。每一大類的語(yǔ)料規(guī)模盡量均衡,并兼顧英漢和漢英兩種方向,其中英漢約占1/3,漢英約占2/3。
語(yǔ)料選取把握三個(gè)原則:真實(shí)性、相關(guān)性和高質(zhì)量。本語(yǔ)料庫(kù)大部分語(yǔ)料都是在商務(wù)場(chǎng)景中被實(shí)際運(yùn)用的語(yǔ)料,來(lái)源主要為企業(yè)網(wǎng)站、政府網(wǎng)站、經(jīng)濟(jì)論壇、新聞網(wǎng)站、權(quán)威教材等,確保語(yǔ)料的真實(shí)性。語(yǔ)料的選取嚴(yán)格依照語(yǔ)料庫(kù)的內(nèi)容分類進(jìn)行采樣,每個(gè)大類確保一定的語(yǔ)料數(shù)量,保證語(yǔ)料內(nèi)容與商務(wù)主題高度相關(guān)。此外,為了確保譯文的質(zhì)量,在語(yǔ)料采集時(shí)嚴(yán)格控制語(yǔ)料來(lái)源,僅選擇權(quán)威網(wǎng)站或教材的雙語(yǔ)材料,比如,企業(yè)材料選擇大型跨國(guó)企業(yè)或在境外上市的中國(guó)公司的官網(wǎng)資源,從其中文網(wǎng)站和英文網(wǎng)站上獲取對(duì)應(yīng)的雙語(yǔ)語(yǔ)料,新聞?wù)Z料從提供雙語(yǔ)文本的網(wǎng)站獲取,如China Daily、Financial Times等。
所有語(yǔ)料實(shí)現(xiàn)源語(yǔ)和目的語(yǔ)文本句級(jí)對(duì)齊,并進(jìn)行分詞和詞性標(biāo)注,便于考察文本特征、分析源語(yǔ)文本和目的語(yǔ)文本之間對(duì)應(yīng)關(guān)系、探討翻譯策略和方法,以滿足教學(xué)和研究的需要。
1.2.1 語(yǔ)料的采集
語(yǔ)料的采集分成三種類型:網(wǎng)頁(yè)抓取、文檔下載和紙質(zhì)教材。網(wǎng)頁(yè)語(yǔ)料主要從目標(biāo)站點(diǎn)抓取,保存為TXT文件。以文檔形式存在的語(yǔ)料從相關(guān)網(wǎng)站下載,多為PDF格式,使用PDF編輯器轉(zhuǎn)換為Word格式保存。紙質(zhì)教材通過(guò)掃描,保存為圖片格式,然后通過(guò)圖文識(shí)別軟件識(shí)別文字,導(dǎo)出保存為TXT文件。
1.2.2 語(yǔ)料的清洗
使用EmEditor對(duì)文本進(jìn)行降噪處理,利用正則表達(dá)式和查找、替換的功能,去除多余的空行、回車、字符和其他不利于后期處理的干擾信息,添加必要的標(biāo)記符號(hào),編輯后的文本統(tǒng)一保存為TXT文件,編碼為utf-8格式。
1.2.3 語(yǔ)料的對(duì)齊
語(yǔ)料的對(duì)齊使用ABBYY Aligner進(jìn)行英漢雙語(yǔ)的自動(dòng)對(duì)齊,再輔以人工校對(duì)和調(diào)整,依照原文句子對(duì)齊,進(jìn)行適當(dāng)?shù)那蟹只蚝喜ⅰK姓Z(yǔ)料實(shí)現(xiàn)句級(jí)對(duì)齊,導(dǎo)出TMX格式文件和雙語(yǔ)對(duì)照的Word文件,TMX文件保存用于翻譯記憶庫(kù),Word文件進(jìn)一步轉(zhuǎn)換成TXT文件,原文和譯文分成兩個(gè)文檔,文件名相同,英文文檔文件名后添加“.EN”,中文文檔添加“.CN”。
1.2.4 語(yǔ)料的標(biāo)注
為了實(shí)現(xiàn)中文文本的檢索和統(tǒng)計(jì),需要先進(jìn)行分詞和詞性標(biāo)注。中文的分詞和詞性標(biāo)注使用NLPIR-Parser系統(tǒng)(ICTCLAS分詞系統(tǒng))[5],該系統(tǒng)分詞的準(zhǔn)確率較高。利用該分詞系統(tǒng),完成對(duì)中文文本的分詞和詞性賦碼。英文文本的詞性標(biāo)注采用TreeTagger軟件。軟件標(biāo)注詞性后,進(jìn)行人工檢查和調(diào)整。
語(yǔ)料的檢索主要使用ParaConc和WordSmith。Para-Conc主要利用其平行文本的檢索功能,對(duì)某些字符匹配的對(duì)應(yīng)翻譯進(jìn)行檢索,利用熱詞搜索功能,對(duì)字符常用的對(duì)應(yīng)譯詞進(jìn)行統(tǒng)計(jì),利用詞頻統(tǒng)計(jì)功能,對(duì)不同文本的詞頻進(jìn)行統(tǒng)計(jì)和比較。WordSmith主要用于:統(tǒng)計(jì)語(yǔ)料的形符、類符、平均句長(zhǎng)和詞長(zhǎng)等數(shù)據(jù),以分析語(yǔ)料的語(yǔ)言特征;進(jìn)行某些詞匯的檢索,統(tǒng)計(jì)詞頻,制作關(guān)鍵詞詞表。
目前本語(yǔ)料庫(kù)的規(guī)模約為100萬(wàn)字詞,涵蓋八大商務(wù)主題,所有對(duì)齊語(yǔ)料各有三個(gè)版本,即tmx格式版本、未標(biāo)注詞性版本和完成分詞和詞性標(biāo)注版本,可滿足不同的需求。
不同類型的商務(wù)文本有著不同的語(yǔ)言特征和文體風(fēng)格,這對(duì)翻譯策略和方法的選擇有著重要的意義,在商務(wù)翻譯教學(xué)中,需要提高學(xué)生的文體意識(shí),確保譯文符合文體風(fēng)格方面的要求。因此,可以利用本平行語(yǔ)料庫(kù),對(duì)不同類別的商務(wù)文本進(jìn)行類符/形符比、詞匯密度、平均句長(zhǎng)、高頻詞等方面進(jìn)行統(tǒng)計(jì)和比較,以分析各類文本的語(yǔ)言特征,從而歸納總結(jié)特定文本類型的文體風(fēng)格,并可對(duì)原創(chuàng)文本和翻譯文本進(jìn)行語(yǔ)言特征的對(duì)比,以考察翻譯文本特有的語(yǔ)言特征。
通過(guò)語(yǔ)料檢索,可以考察源語(yǔ)文本和翻譯文本在詞匯層面的對(duì)應(yīng)關(guān)系,統(tǒng)計(jì)特定詞匯的使用情況,包括詞頻、詞語(yǔ)搭配、語(yǔ)義韻等,加深學(xué)生對(duì)特定詞匯使用的認(rèn)識(shí)。還可以通過(guò)獲取具體的翻譯數(shù)據(jù),統(tǒng)計(jì)特定詞匯對(duì)應(yīng)的常用譯詞,結(jié)合譯詞所在句子的上下文,分析翻譯中詞義選擇的考量因素,總結(jié)詞義選擇的方法。
翻譯策略和方法的教學(xué)是商務(wù)翻譯教學(xué)的重點(diǎn),在教學(xué)中可以利用本英漢平行語(yǔ)料庫(kù),對(duì)特定商務(wù)術(shù)語(yǔ)、文化詞匯和修辭性表達(dá)的檢索,獲得大量的翻譯實(shí)例,結(jié)合例子,分析針對(duì)某些特定的表達(dá),譯文中做出了哪些調(diào)整,采用何種翻譯策略和方法,分析其背后的原因,總結(jié)翻譯策略和方法使用的原則,以此提高學(xué)生的翻譯能力。
完成句級(jí)對(duì)齊的語(yǔ)料可以作為學(xué)生進(jìn)行翻譯實(shí)踐練習(xí)的輔助材料,為學(xué)生的練習(xí)提供術(shù)語(yǔ)和翻譯實(shí)例參考??山Y(jié)合Trados、Wordfast等機(jī)輔翻譯軟件,導(dǎo)入雙語(yǔ)對(duì)齊的語(yǔ)料,一方面可制作成術(shù)語(yǔ)表,規(guī)范術(shù)語(yǔ)的使用,另一方面導(dǎo)入記憶庫(kù),輔助學(xué)生的翻譯過(guò)程,為學(xué)生掌握基礎(chǔ)的翻譯技術(shù)提供語(yǔ)料的支撐。
商務(wù)翻譯是應(yīng)用翻譯的重要組成部分,商務(wù)翻譯的研究和教學(xué)需要跟上時(shí)代的發(fā)展。商務(wù)英漢平行語(yǔ)料庫(kù)的建設(shè),可為商務(wù)翻譯研究提供真實(shí)的語(yǔ)言數(shù)據(jù),對(duì)商務(wù)翻譯的語(yǔ)言特征進(jìn)行充分的描述,揭示商務(wù)文本的文體特征和翻譯規(guī)律。利用語(yǔ)料庫(kù)的資源,可以改進(jìn)商務(wù)翻譯教學(xué)的模式,為現(xiàn)有的教學(xué)內(nèi)容提供有效的補(bǔ)充,改變傳統(tǒng)基于教材的學(xué)習(xí)方式,融入語(yǔ)料庫(kù)手段,培養(yǎng)學(xué)生利用語(yǔ)言數(shù)據(jù)和語(yǔ)料庫(kù)技術(shù)的能力,以探索語(yǔ)言差異和語(yǔ)言轉(zhuǎn)換的規(guī)律。希望通過(guò)本語(yǔ)料庫(kù)的建設(shè),幫助實(shí)現(xiàn)翻譯研究、翻譯教學(xué)和實(shí)踐的有機(jī)結(jié)合,為商務(wù)翻譯的研究和教學(xué)貢獻(xiàn)一份力量。