楊曄?王子涵
摘要:《論語》被稱為東方哲學(xué)經(jīng)典中的經(jīng)典。一直以來為包括中國(guó)、日本等世界諸多國(guó)家久為研讀,并發(fā)揮著持久而深刻的影響力。本文選取在中華典籍文化海外傳播中發(fā)揮了重要影響力的漢學(xué)家譯注的《論語》譯本,創(chuàng)建漢日平行語料庫(kù),以期推動(dòng)《論語》語言特征等方面的實(shí)證研究。文中詳細(xì)介紹了包括語料清理、語料對(duì)齊、語料的分詞和標(biāo)注、語料檢索在內(nèi)的漢日平行語料庫(kù)的創(chuàng)建步驟。
關(guān)鍵詞:論語;多譯本;平行語料庫(kù)
一、概述
作為孔子教義權(quán)威記載和儒家思想的基礎(chǔ)文本,《論語》一直是中華文化的主流意識(shí)形態(tài),也對(duì)亞洲乃至西方文明產(chǎn)生了重要影響[1]。它以語錄體和對(duì)話文體為主,記錄了孔子及其弟子言行,以及孔子與時(shí)人的問答。它是進(jìn)行孔子研究的重要資料,書中集中體現(xiàn)了孔子的政治主張、倫理思想及教育思想等。從學(xué)而篇到堯曰篇,通行本《論語》共二十篇。
本文以《論語》現(xiàn)代漢語譯文及海外漢學(xué)家譯注的五個(gè)日譯本為語料,構(gòu)建《論語》漢日平行語料庫(kù),為《論語》的實(shí)證研究做基礎(chǔ)。
二、平行語料庫(kù)建設(shè)現(xiàn)狀
平行語料庫(kù)可分為通用語料庫(kù)和專門領(lǐng)域語料庫(kù)。通用語料庫(kù)以北京外國(guó)語大學(xué)研制的漢英、漢日對(duì)譯語料庫(kù)為代表,其特點(diǎn)是收錄內(nèi)容覆蓋面廣,語料規(guī)模大,可應(yīng)用于語言研究、翻譯研究、教學(xué)研究、詞典編纂等[2]。專門領(lǐng)域語料庫(kù)以文學(xué)類平行語料庫(kù)為主,法律、醫(yī)學(xué)、科技、旅游等非文學(xué)類平行語料庫(kù)的建設(shè)及研究也取得了進(jìn)展。
專門領(lǐng)域語料庫(kù)的研究也取得一定進(jìn)展。如:以教學(xué)應(yīng)用為目創(chuàng)建英漢平行語料庫(kù)、《紅樓夢(mèng)》中英平行語料庫(kù)、莎士比亞戲劇英漢平行語料庫(kù)、契訶夫小說俄漢平行語料庫(kù)等。學(xué)者基于自建平行語料庫(kù)對(duì)雙語文本進(jìn)行一對(duì)一或一對(duì)多平行檢索,對(duì)翻譯策略、譯者風(fēng)格和翻譯語言特征等方面進(jìn)行研究。具體包括:從詞匯角度對(duì)隱喻翻譯策略的研究、對(duì)報(bào)道動(dòng)詞的翻譯及顯化進(jìn)行的研究;從句法角度對(duì)“忙XX”結(jié)構(gòu)、“把”字句、敘事標(biāo)記語進(jìn)行的研究;以及從篇章角度對(duì)語篇難易度與語篇范化、譯者風(fēng)格等內(nèi)容進(jìn)行實(shí)證研究。
通過對(duì)文獻(xiàn)的梳理可以看到,這些研究成果存在一定相同之處,即普遍使用句對(duì)齊,所用工具和軟件基本相同;標(biāo)注過程中以詞性標(biāo)注為主,使用自動(dòng)標(biāo)注輔以人工校對(duì)的模式。不同點(diǎn)有:①標(biāo)注的內(nèi)容呈現(xiàn)多樣性,在平行語料庫(kù)的建設(shè)過程中,標(biāo)注雖然不是一個(gè)必須的步驟,但通過對(duì)句法或詞性的標(biāo)注為后續(xù)深入研究提供了方便。除詞性標(biāo)注外,學(xué)者基于不同的研究目的,對(duì)文化負(fù)載詞、對(duì)句子類型、有/無習(xí)語、諺語、有/無修辭等內(nèi)容進(jìn)行標(biāo)注;②部分學(xué)者開發(fā)了網(wǎng)絡(luò)檢索功能;③建設(shè)方法多樣性,除常見的語料對(duì)齊軟件外,還有學(xué)者使用Trados、python、office中VBA語言、web進(jìn)行語料庫(kù)建設(shè)。
目前,平行語料庫(kù)的建設(shè)以漢英雙語平行語料庫(kù)為主,非通用語種的語料庫(kù)建設(shè)尚存不足。部分自建的語料庫(kù)中收錄語料數(shù)目少,缺少一對(duì)多平行語料庫(kù)非通用語種平行語料庫(kù)建設(shè)成果較少。鑒于此,本文在中譯本之外,選取五個(gè)日譯本,構(gòu)建漢日平行語料庫(kù)。
三、《論語》漢日平行語料庫(kù)的創(chuàng)建
一般而言,平行語料庫(kù)的創(chuàng)建步驟主要為:①語料的預(yù)處理;②語料加工;③語料的檢索。其中,語料預(yù)處理包括語料輸入與語料清理等工作;語料加工包括語料對(duì)齊與語料標(biāo)注等工作。本文所建立的漢日平行語料庫(kù)是一文多譯,且在句子層面呈現(xiàn)對(duì)應(yīng)關(guān)系的語料庫(kù)。通過對(duì)漢語或日語的關(guān)鍵詞進(jìn)行檢索,可以提取出含有該關(guān)鍵詞的所有語句,并且能夠使原文與多個(gè)譯文同屏展示。同時(shí)為便于進(jìn)一步深入研究日語譯本,對(duì)語料進(jìn)行了分詞和詞性標(biāo)注。《論語》漢日平行語料庫(kù)的加工過程如圖1所示。
1.語料預(yù)處理
如圖1所示,語料預(yù)處理包含語料輸入及語料清理兩個(gè)步驟。
《論語》漢日平行語料庫(kù)中共收錄兩個(gè)中文文本、五個(gè)日譯本。中文文本為朱熹撰《論語集注》、楊伯峻的《論語譯注》。日譯本均為日本漢學(xué)家譯注的現(xiàn)代日語版本(譯注者分別是:貝塚茂樹、宇野哲人、金谷治、宮崎市定、加地伸行)。
將收集到的紙質(zhì)版語料,使用光學(xué)識(shí)別軟件電子化后,轉(zhuǎn)換為TXT格式,進(jìn)而對(duì)語料進(jìn)行清理和校對(duì)。語料清理一般包括文本格式的統(tǒng)一、字符替換、拼寫檢查和編碼轉(zhuǎn)換等。具體包括:①圖片及前言后記等無關(guān)信息的剔除;②文本格式、字體類型及大小的統(tǒng)一;③文本雜質(zhì)的清除,多余空格、符號(hào)的刪除;④錯(cuò)別字的修改等。漢學(xué)家譯注的《論語》為了便于讀者理解,在譯文之外,普遍添加了詞語注釋以及針對(duì)語義乃至語境的解釋,這些文字屬于注釋內(nèi)容,不屬于翻譯內(nèi)容。此外,為了讀懂漢文原典,日本人發(fā)明了“漢文訓(xùn)讀法”,具體方法是在漢文原文旁邊加上一些符號(hào),就可以閱讀中國(guó)古文。我們選取的日譯本中均有這種“訓(xùn)讀文”,這些內(nèi)容不屬于現(xiàn)代日語翻譯文本,所以在創(chuàng)建《論語》漢日平行語料庫(kù)時(shí),將書中出現(xiàn)的“注釋”以及“訓(xùn)讀文”未進(jìn)行收錄,只保留了日文譯文。清理完畢后的語料規(guī)模在40萬字左右。
2.語料加工
首先是使用線上對(duì)齊工具實(shí)現(xiàn)句子層面的對(duì)齊。《論語》語言為古漢語,段落簡(jiǎn)短,多以一句話為一個(gè)段落。由于日文版《論語》是日本譯注者根據(jù)朱熹、何晏等人的注釋,并結(jié)合自己的研究成果,進(jìn)行譯注,所以不但在語義理解方面,存在與中國(guó)學(xué)者相異之處,在段落的劃分上也存在差異。本研究以朱熹撰《論語集注》為依據(jù),將各譯本的段落劃分與此保持一致。同時(shí),在句對(duì)齊方面,以中文原文中的句號(hào)、問號(hào)、分號(hào)、嘆號(hào)等為切分句子單位,將日語譯文及現(xiàn)代漢語版譯文與原文進(jìn)行句對(duì)齊處理。
在此基礎(chǔ)之上,通過使用python對(duì)語料進(jìn)行了分詞和詞性標(biāo)注。并對(duì)分詞和標(biāo)注的結(jié)果進(jìn)行人工校對(duì)及修正。圖2為最終標(biāo)注結(jié)果。日語中有“形容詞”和“形容動(dòng)詞”之分,形容動(dòng)詞是表示事物性質(zhì)和狀態(tài)的詞語,在修飾名詞與可充當(dāng)謂語等功能方面,與形容詞相同。但活用形式不同。下圖中第4行右側(cè)第3個(gè)詞“形狀詞”,即為形容動(dòng)詞。此外,圖中詞性標(biāo)注中有“助動(dòng)詞”(如圖中第1行右側(cè)第1個(gè)詞),這是因?yàn)槿照Z中詞性有“助詞”和“助動(dòng)詞”之分。
3.語料檢索
本研究使用CUC_Paraconc進(jìn)行語料檢索。在CUC_Paraconc中載入語料,能夠?qū)崿F(xiàn)中日語料的雙向檢索,通過設(shè)置載入語料的數(shù)量可以實(shí)現(xiàn)一對(duì)一或一對(duì)多的語料檢索。如圖3,在“原文關(guān)鍵詞”處輸入中文“禮”,下方的檢索結(jié)果中,就能獲得包含關(guān)鍵詞“禮”的中文以及對(duì)應(yīng)譯文,同時(shí)還能看到該詞在中文原文出現(xiàn)的頻數(shù),即75個(gè)。這里顯示的是在中文原文中出現(xiàn)的頻數(shù),沒有顯示在日譯本中的出現(xiàn)頻數(shù)。如果想獲得該詞在日譯本中的出現(xiàn)頻數(shù),就要在“譯文關(guān)鍵詞”處輸入相應(yīng)日文關(guān)鍵詞。
經(jīng)過分詞處理后的語料可以進(jìn)行檢索分析。如圖4所示,如果想了解翻譯文本中哪些詞與“孔子”共同出現(xiàn)在一個(gè)句子中,可以將“孔子”設(shè)為索引詞。圖4所示是為了考察“孔子”一詞的右側(cè)有哪些詞高頻出現(xiàn),搜索范圍設(shè)置為右側(cè)三個(gè)詞。從圖4可以看到,「がいわれ」與“孔子”一詞共現(xiàn)頻率最高,其次為「から」一詞。(圖中「孔子がいわれた」相當(dāng)于漢語中的“子曰”;「孔子から聞いた」相當(dāng)于漢語中的“子問”的意思)。
此外,還可以進(jìn)行其他關(guān)于詞匯、搭配、句法方面的檢索;對(duì)分詞和詞性標(biāo)注的語料,可以利用軟件的統(tǒng)計(jì)功能,進(jìn)行類符、形符、詞頻、詞匯密度、詞匯搭配強(qiáng)度等參數(shù)的統(tǒng)計(jì)分析。
四、結(jié)束語
自建語料庫(kù)的優(yōu)點(diǎn)在于能夠遵循自己的研究目的,有針對(duì)性地選取語料,做符合研究目的的標(biāo)注。本文以《論語》原文及日譯文為研究文本,詳細(xì)介紹了從語料清理到語料檢索的語料庫(kù)建設(shè)過程,為多譯本漢日平行語料庫(kù)的建設(shè)及研究提供了經(jīng)驗(yàn)。目前市面上的語料庫(kù)工具多適用于英語,而對(duì)于非通用語種建庫(kù),存在功能不健全不完善之處,這也給非通用語種的語料庫(kù)建設(shè)提出了挑戰(zhàn)。今后,將繼續(xù)對(duì)《論語》漢日平行語料庫(kù)進(jìn)行完善。
參考文獻(xiàn):
[1]楊平.《論語》核心概念“仁”的英譯分析[J].外語與外語教學(xué),2008(02):61-63.
[2]王克非.新型雙語對(duì)應(yīng)語料庫(kù)的設(shè)計(jì)與構(gòu)建[J].中國(guó)翻譯,2004(06):75-77.
作者簡(jiǎn)介:
楊曄(1971年-),女,副教授,哈爾濱理工大學(xué)
王子涵(1995年-),女,碩士研究生,哈爾濱理工大學(xué)
基金項(xiàng)目:
黑龍江省哲學(xué)社會(huì)科學(xué)研究規(guī)劃項(xiàng)目(批準(zhǔn)號(hào)2019YYB067)的階段性成果。