劉曲 楊天地
摘 要:翻譯語(yǔ)料庫(kù)的建設(shè)和研究探索始于上世紀(jì)中期,經(jīng)過(guò)幾十年的發(fā)展,國(guó)內(nèi)外翻譯語(yǔ)料庫(kù)的建設(shè)已經(jīng)取得了豐碩的成果,并在計(jì)算機(jī)技術(shù)的輔助下不斷向?qū)I(yè)性和個(gè)性化的方向發(fā)展。
關(guān)鍵詞:翻譯語(yǔ)料庫(kù);建設(shè)現(xiàn)狀;發(fā)展趨勢(shì)
0 引言
語(yǔ)料庫(kù)語(yǔ)言學(xué)和語(yǔ)料庫(kù)建設(shè)的研究是一個(gè)相對(duì)起步較晚的領(lǐng)域,自上世紀(jì)五十年代以來(lái),隨著計(jì)算機(jī)科學(xué)研究的推廣和深入,各門類語(yǔ)料庫(kù)的建設(shè)研究逐漸進(jìn)入高速發(fā)展階段,并成為推動(dòng)語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展的源動(dòng)力。
1 翻譯語(yǔ)料庫(kù)與平行語(yǔ)料庫(kù)
翻譯語(yǔ)料庫(kù)是指按照一定的語(yǔ)言學(xué)標(biāo)準(zhǔn),在隨機(jī)采樣的基礎(chǔ)上,廣泛收集具有代表性、真實(shí)性和典型性特征的連續(xù)語(yǔ)言運(yùn)用材料文本或話語(yǔ)使用片段的具有一定包容性和可分析行的大型電子語(yǔ)料文本的集合。語(yǔ)料庫(kù)可為語(yǔ)言運(yùn)用提供學(xué)習(xí)范本,也可用于不同層面和領(lǐng)域的相關(guān)語(yǔ)言研究和語(yǔ)言教學(xué)。專業(yè)語(yǔ)料庫(kù)的建設(shè)更是專業(yè)語(yǔ)言研究不可或缺的有利工具。
平行語(yǔ)料庫(kù)屬雙語(yǔ)語(yǔ)料庫(kù)的一種,是目前雙語(yǔ)翻譯語(yǔ)料庫(kù)中最典型、使用最為廣泛的一種形式。平行語(yǔ)料庫(kù)主要收集原語(yǔ)與譯語(yǔ)的對(duì)照預(yù)料,“按設(shè)定的標(biāo)準(zhǔn)對(duì)語(yǔ)料進(jìn)行句子或段落的對(duì)齊,常用于考察原文中的某些語(yǔ)言現(xiàn)象如何在譯文中得到反映”(李德超,2010)。
2 國(guó)外翻譯語(yǔ)料庫(kù)研究建設(shè)現(xiàn)狀
國(guó)外翻譯語(yǔ)料庫(kù)研究大體經(jīng)歷了三個(gè)階段:第一階段,20世紀(jì)60年代至70年代第一代電子語(yǔ)料庫(kù)時(shí)期,以Quirk、Francis、Leech 等語(yǔ)言學(xué)家的研究為代表,誕生了BROWN、LOB和LLC三大經(jīng)典語(yǔ)料庫(kù)。這三大語(yǔ)料庫(kù)建立過(guò)程中形成的基本方法和基本原則,為建立更大規(guī)模的語(yǔ)料庫(kù)奠定了基礎(chǔ),標(biāo)志著語(yǔ)料庫(kù)研究進(jìn)入電子時(shí)代。第二階段,20世紀(jì)80至90年代第二代電子語(yǔ)料庫(kù)時(shí)期。出現(xiàn)了一批容量更大、標(biāo)注及檢索統(tǒng)計(jì)手段更先進(jìn)新型電子語(yǔ)料庫(kù)。最典型的是COBUILD、Longman、BNC、ICE等,與第一代電子語(yǔ)料庫(kù)相比容量更大,通常以億為單位,采用了更加先進(jìn)的計(jì)算機(jī)技術(shù),檢索統(tǒng)計(jì)能力更強(qiáng),速度更快。第三階段,20世紀(jì)90年代至今的第三代電子語(yǔ)料庫(kù)時(shí)期。計(jì)算機(jī)標(biāo)注技術(shù)、索引技術(shù)和檢索技術(shù)極大地提高了對(duì)超大規(guī)模語(yǔ)料庫(kù)的處理和查找能力。以上三方面為特大型語(yǔ)料庫(kù)、監(jiān)控語(yǔ)料庫(kù)、多模態(tài)語(yǔ)料庫(kù)及多功能語(yǔ)料庫(kù)的建設(shè)提供了物質(zhì)基礎(chǔ),這一時(shí)期的主流語(yǔ)料庫(kù)主要有COCA、BNC、ANC、OEC和BOE。特大型語(yǔ)料庫(kù)為基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究提供更全面、更豐富和更可靠的數(shù)據(jù)支持,由于語(yǔ)料規(guī)模巨大,概率統(tǒng)計(jì)更趨于平衡,語(yǔ)料采集時(shí)就更容易保證語(yǔ)料的典型性和代表性,從而降低平衡語(yǔ)料庫(kù)的平衡度對(duì)語(yǔ)料庫(kù)的代表性的影響。
3 國(guó)內(nèi)翻譯語(yǔ)料庫(kù)的研究建設(shè)現(xiàn)狀
國(guó)內(nèi)翻譯語(yǔ)料庫(kù)研究從20世紀(jì)70年代末80年代初興起,20世紀(jì)90年代后,隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的深入,廣泛開(kāi)展了語(yǔ)料庫(kù)建設(shè)研究,并形成了一批高水平的語(yǔ)料庫(kù)研究團(tuán)隊(duì),建成了JDEST、CEEC、CLEC、COLSEC、SWECCL 等較大型的英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù),并基于這些語(yǔ)料庫(kù)開(kāi)展了廣泛的英語(yǔ)語(yǔ)言學(xué)及教學(xué)研究。我國(guó)近30年語(yǔ)料庫(kù)研究實(shí)踐具有兩個(gè)共性特征:第一,語(yǔ)料主要來(lái)源于各級(jí)各類英語(yǔ)考試。SWECCL的語(yǔ)料采集于全國(guó)大學(xué)英語(yǔ)四級(jí)考試作文,COLSEC語(yǔ)料采集于全國(guó)大學(xué)英語(yǔ)口語(yǔ)考試錄音,SECCL采用了全國(guó)英語(yǔ)專業(yè)四級(jí)口語(yǔ)錄音,CEEC則采用全國(guó)英語(yǔ)高考廣東省考生抽樣的英語(yǔ)作文。采用來(lái)自各級(jí)各類英語(yǔ)考試的語(yǔ)料不僅使語(yǔ)料搜集更加容易,而且保證語(yǔ)料的代表性,客觀反應(yīng)我國(guó)不同級(jí)別英語(yǔ)學(xué)習(xí)者的實(shí)際水平。第二,語(yǔ)料標(biāo)注及檢索均采用國(guó)際通用軟件與自行研發(fā)軟件相結(jié)合的方式,國(guó)際通用軟件包括CLAWS、Wordsmith、TACT、Paraconcordancer、ICECUP、OCP、SARA。國(guó)內(nèi)語(yǔ)料庫(kù)研究者也根據(jù)需要,自主開(kāi)發(fā)了一些檢索及標(biāo)注工具,如CEEC研制的中英文檢索系統(tǒng)Project,CLEC研制的Corfind用于標(biāo)注、Cbrower用于檢索、Cleantxt用于清除漢字符號(hào)、Pargraph用于清除轉(zhuǎn)行符用、Merge用于合并和統(tǒng)計(jì)詞。自主開(kāi)發(fā)的標(biāo)注系統(tǒng)和檢索工具,彌補(bǔ)了國(guó)外常用語(yǔ)料庫(kù)工具處理中文的缺陷,使語(yǔ)料庫(kù)研究更為客觀全面。
4 語(yǔ)料庫(kù)的未來(lái)發(fā)展趨勢(shì)
首先,迄今為止,國(guó)內(nèi)外學(xué)者、研究機(jī)構(gòu)高校院所等所建立的語(yǔ)料庫(kù)多以通用型語(yǔ)料庫(kù)為主,容量巨大,標(biāo)準(zhǔn)明確,其語(yǔ)料來(lái)源多基于國(guó)內(nèi)外規(guī)模成熟的標(biāo)準(zhǔn)化考試材料,但是隨著專業(yè)領(lǐng)域研究的不斷深入,通用型語(yǔ)料庫(kù)已不能滿足不同專業(yè)領(lǐng)域研究的需要,不能為專業(yè)研究提供更精準(zhǔn)的數(shù)據(jù)支撐。因此,研究并建立一批專業(yè)性強(qiáng)的小型語(yǔ)料庫(kù)顯得勢(shì)在必行。
其次,隨著計(jì)算機(jī)技術(shù)的不斷深入發(fā)展和推廣,個(gè)人計(jì)算機(jī)能力的不斷增強(qiáng),借助計(jì)算機(jī)實(shí)現(xiàn)更加智能化的語(yǔ)料庫(kù)標(biāo)注和分類操作將成為可能,而且研究者也可以根據(jù)個(gè)人的研究條件和特色,在計(jì)算機(jī)的輔助下自行建立更有效輔助研究工作的個(gè)性化語(yǔ)料庫(kù)。
參考文獻(xiàn)
[1]李德超,王克非.新型雙語(yǔ)旅游語(yǔ)料庫(kù)的研制和應(yīng)用[J].現(xiàn)代外語(yǔ),2010,(1).