何禮
摘 要:翻譯研究語(yǔ)料庫(kù)可分為平行語(yǔ)料庫(kù),可比較語(yǔ)料庫(kù),翻譯語(yǔ)料庫(kù)和口譯語(yǔ)料庫(kù)。 這些語(yǔ)料庫(kù)的編譯涉及文本選擇,注釋和對(duì)齊等方面,而文本內(nèi)容的選擇尤為關(guān)鍵。
關(guān)鍵詞:翻譯語(yǔ)料庫(kù);文本內(nèi)容;選擇原則
一、翻譯語(yǔ)料庫(kù)選擇方法分析
在翻譯研究語(yǔ)料庫(kù)的研究中,三種文本選擇方法總結(jié)如下:
(一)基于學(xué)術(shù)成就或影響力的方法
如上所述,翻譯研究語(yǔ)料庫(kù)旨在用于調(diào)查翻譯特征,翻譯規(guī)范和語(yǔ)言轉(zhuǎn)換規(guī)則。因此,該語(yǔ)料庫(kù)中的文本應(yīng)該具有高質(zhì)量,影響力廣等特點(diǎn)。如果文本質(zhì)量不理想或翻譯內(nèi)容不合標(biāo)準(zhǔn),則無(wú)法實(shí)現(xiàn)預(yù)期目標(biāo)。更糟糕的是,這樣的語(yǔ)料庫(kù)可能會(huì)提供誤導(dǎo)性信息,從而影響翻譯規(guī)范的研究。所以,翻譯研究語(yǔ)料庫(kù)中的文本應(yīng)當(dāng)是由著名翻譯家或由著名出版社出版的譯文構(gòu)成。如果有兩個(gè)或兩個(gè)以上相同作品的翻譯文本,建議選擇更加著名翻譯者或出版商的作品,因?yàn)樗麄兿碛懈蟮淖x者群和更廣泛的影響力。對(duì)于口譯語(yǔ)料庫(kù)而言,由于高級(jí)會(huì)議的語(yǔ)言質(zhì)量通常優(yōu)于低級(jí)別會(huì)議的語(yǔ)言質(zhì)量,因此前者的文本對(duì)于口譯語(yǔ)料庫(kù)的編制具有更大的價(jià)值。例如,胡開(kāi)寶編寫(xiě)的漢英會(huì)議口譯語(yǔ)料庫(kù)所收集的素材都來(lái)自于中國(guó)國(guó)務(wù)院及其各部委舉行的新聞發(fā)布會(huì)上的口譯文本。這種語(yǔ)料庫(kù)中解釋文本的質(zhì)量更加可靠。
(二)基于文本可用性的方法
基于文本可用性的方法涉及(1)源文本及其翻譯是否可用以及(2)翻譯的作品是否是真實(shí)的。如果源作品的翻譯作品不可用,則不應(yīng)將其包含在語(yǔ)料庫(kù)中。同樣,如果不能找到翻譯原文,也不能被包含在翻譯研究的語(yǔ)料庫(kù)中。 此外,專門(mén)為翻譯研究而制作的翻譯譯文不能是虛構(gòu)或者理想的文本,而是現(xiàn)實(shí)生活中的真實(shí)文本。
(三)基于時(shí)間的方法
基于時(shí)間的方法強(qiáng)調(diào),翻譯研究語(yǔ)料庫(kù)應(yīng)該僅包含研究目標(biāo)所規(guī)定的特定時(shí)間段內(nèi)發(fā)表的翻譯作品,而不包括在此期間之外發(fā)表的翻譯作品。胡顯耀為當(dāng)代中國(guó)翻譯小說(shuō)研究編寫(xiě)的“當(dāng)代中國(guó)翻譯小說(shuō)語(yǔ)料庫(kù)”,包括了1980至2000年間出版的中文小說(shuō)多種語(yǔ)言譯本。上海交通大學(xué)的歷時(shí)英漢平行語(yǔ)料庫(kù),包括了1911年至2011年出版的英漢翻譯作品。
二、文本選擇過(guò)程中的抽樣策略
語(yǔ)料庫(kù)中的文本應(yīng)根據(jù)語(yǔ)料庫(kù)的性質(zhì)選擇。專注與著名作家翻譯作品的專業(yè)語(yǔ)料庫(kù),可以按照上面所提到的三個(gè)原則進(jìn)行篩選。 如果同時(shí)存在多個(gè)不同的版本,則應(yīng)優(yōu)先考慮知名度較高的版本。 對(duì)于一些具有更大范圍文本覆蓋的專業(yè)語(yǔ)料庫(kù)或通用語(yǔ)料庫(kù),如果包括所有相關(guān)文本,這些語(yǔ)料庫(kù)的將過(guò)大,從而增加編譯和管理這些語(yǔ)料庫(kù)的復(fù)雜性。 在這種情況下,采用科學(xué)的抽樣策略尤為重要。
抽樣策略包括系統(tǒng)抽樣和分層抽樣。系統(tǒng)抽樣,稱為間隔抽樣。抽樣過(guò)程中,所有樣本按順序排列,以相等的間隔選擇。分層抽樣是把所涉及的對(duì)象分成不同的組(稱為層),然后從這些分層中以相同或不同的比例抽取樣本。前者稱為平衡抽樣,后者稱為塔式抽樣。編制翻譯英語(yǔ)語(yǔ)料庫(kù)(TEC)的策略是分層抽樣。語(yǔ)料庫(kù)中包含的文本首先分為小說(shuō),傳記,新聞報(bào)道和雜志文章。然后從這些類別中對(duì)每個(gè)群體進(jìn)行抽樣。
三、翻譯語(yǔ)料庫(kù)文本捕捉策略分析
文本捕捉是指將書(shū)面文本和口頭文本計(jì)算機(jī)化的過(guò)程。由于文本載體等方面的區(qū)別,捕捉書(shū)面文本和口頭文件的方法存在著較大差異。
捕獲書(shū)面文本的方法涉及手動(dòng)輸入,掃描和電子文本的使用。使用計(jì)算機(jī)手動(dòng)輸入文本,適用于轉(zhuǎn)錄音頻文件,手寫(xiě)文本和掃描文件。這些文件通常包含了大量的雜亂的代碼等方面語(yǔ)言錯(cuò)誤,手動(dòng)輸入可以盡可能降低錯(cuò)誤率。 掃描方法是指使用掃描儀將文本輸入計(jì)算機(jī)。 在掃描文本時(shí),應(yīng)注意兩點(diǎn):(1)掃描機(jī)通常識(shí)別率較低,以及(2)有必要校對(duì)和編輯掃描文件以消除不必要的符號(hào)。此外,文本錄入也可以使用從因特網(wǎng)下載的已發(fā)布的電子文本。使用從互聯(lián)網(wǎng)上下載的文本的主要問(wèn)題在于它們可能存在多余的空格,空白行,虛線,多余的語(yǔ)言符號(hào),雜亂的代碼等問(wèn)題,這些符號(hào)對(duì)于語(yǔ)料庫(kù)研究毫無(wú)價(jià)值,必須將其刪除。
語(yǔ)音文本的捕獲涉及音頻或視頻文件的獲取和轉(zhuǎn)錄。 音頻和視頻文件主要出現(xiàn)在日常交流,商務(wù)談判,會(huì)議演講和電視廣播節(jié)目中,通過(guò)磁帶或錄像機(jī)或通過(guò)購(gòu)買(mǎi)電視廣播節(jié)目的音頻或錄像帶以及出版的磁帶或視頻錄制來(lái)獲得。
口頭文本與書(shū)面文本的不同之處在于以下幾點(diǎn):(1)由于口頭交流是一種無(wú)意識(shí)的或即興的交流,它的文本中包含許多副語(yǔ)言特征,如修改,重復(fù),暫停,笑聲,中斷,語(yǔ)言也存在一些錯(cuò)誤或不準(zhǔn)確。 (2)由于錄音質(zhì)量或說(shuō)話者含糊的發(fā)音,口頭文本中可能會(huì)有難以理解的發(fā)音。 (3)口頭文本中的斷句無(wú)法通過(guò)標(biāo)點(diǎn)符號(hào)來(lái)表示,而是通過(guò)暫停的持續(xù)時(shí)間來(lái)表示。此外,句子類型(無(wú)論是陳述句還是疑問(wèn)句)都是通過(guò)不同語(yǔ)調(diào)表現(xiàn)出來(lái)的。上升曲調(diào)表示疑問(wèn)句,而下降曲調(diào)表示陳述或感嘆句。這些都是口頭文本和書(shū)面文本的區(qū)別。在將口頭文本轉(zhuǎn)錄成書(shū)面文本時(shí),應(yīng)該考慮到這些差異,并通過(guò)使用各種書(shū)面符號(hào)來(lái)標(biāo)注這些特征。
例如,短暫停(2-3秒)可由符號(hào)“...”標(biāo)識(shí),符號(hào)“......”表示長(zhǎng)暫停(4-6秒)。 符號(hào)“ - ”表示中斷,而猶豫可以通過(guò)符號(hào)“...”標(biāo)識(shí)或通過(guò)單詞“er”或“well”標(biāo)識(shí)。符號(hào)“*”可用于表示難以理解的單詞。暫停時(shí)間的長(zhǎng)短也決定了不同標(biāo)點(diǎn)符號(hào)的使用。 例如,如果暫停很長(zhǎng),則在話語(yǔ)單元之后使用句號(hào)或問(wèn)號(hào),而如果暫停很短則使用逗號(hào)。
四、文本的分詞與注釋策略
與英語(yǔ)單詞不同,中文單詞是由一個(gè)或多個(gè)漢子組成。一個(gè)漢字可能代表一個(gè)音節(jié),但它不一定構(gòu)成一個(gè)單詞。另外,中文單詞之間沒(méi)有插入空格。鑒于漢語(yǔ)和英語(yǔ)單詞之間的差異以及對(duì)單詞級(jí)別進(jìn)行統(tǒng)計(jì)分析的需要,在語(yǔ)料庫(kù)中對(duì)中文文本進(jìn)行分詞是非常有必要的。目前,中文文本可以使用Autotag或ICTCLAS 3.0進(jìn)行單詞分詞。前者由臺(tái)灣中文信息處理集團(tuán)開(kāi)發(fā),后者由中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)。 ICTCLAS3.0遵循中國(guó)國(guó)家標(biāo)準(zhǔn)GB13715的“當(dāng)代漢語(yǔ)信息處理分詞規(guī)范”,可用于中文文本的分割和注釋,分割精度達(dá)97%。但是,由于軟件無(wú)法識(shí)別中文專有名詞,縮略詞和數(shù)字,因此需要進(jìn)一步進(jìn)行手動(dòng)校對(duì)。