陳友勛(重慶文理學院,重慶402160)
自建一對多漢英平行語料庫實踐探索*
——以《荷塘月色》六譯本為例
陳友勛
(重慶文理學院,重慶402160)
文章指出文科研究者應當順應語料庫翻譯學的趨勢,在科研工作中根據(jù)個人的研究需要自建小型的漢英平行語料庫,讓翻譯研究帶上定量研究的科學性質(zhì)。作者結(jié)合《荷塘月色》及其六種英語譯本,來討論建庫方面常用的原則、方法和技巧,并在此基礎(chǔ)上介紹了如何借助大眾化的工具軟件,對研究項目完成基本的語料分析。
一對多漢英平行語料庫;語料庫翻譯學;翻譯單位;語料對齊;語料標注
近二十年來,“翻譯研究”領(lǐng)域的一大突破就是語料庫翻譯學(也稱“基于語料庫的翻譯研究”)范式的建立和發(fā)展(黃海波:2013)。這種基于語料庫的翻譯研究從詳實的語料對比分析入手,從數(shù)據(jù)比對中得出研究結(jié)論,因此在很大程度上克服了傳統(tǒng)翻譯研究 “經(jīng)驗式”(impressionistic)、“隨感式”(essayistic)等不夠嚴謹?shù)谋锥耍尙F(xiàn)在的翻譯研究帶上了定量研究的特征,初步具備了科學性和規(guī)范性(王克非,2012),同時也朝著當初尤金·奈達所倡議的要建立一門 “翻譯的科學”(Towards a Science of Translating)的宏偉理想,邁進了重要的一步。
國內(nèi)一些敏感的學者也意識到語料庫建設(shè)對翻譯研究的潛在價值,因此早在2000年,廖七一教授就曾撰文《語料庫與翻譯研究》,對語料庫范式進行了初步的宣傳和介紹。
在開展語料庫翻譯學的過程中,建立雙語平行語料庫是進行一切研究活動的準備階段和基礎(chǔ)工作,其建庫質(zhì)量的好壞直接影響著后續(xù)的研究進展 (Tognini-Bonelli,2000),因此在開展語料庫翻譯學中具有重要的討論價值。雖然自1998年開始,以哈爾濱工業(yè)大學為首的國內(nèi)高校(北京大學、東北大學、外研社等)就開始嘗試漢英平行語料庫的建設(shè),這在時間上與國外相差得并不太遠,但鑒于漢藏語系與印歐語系之間存在的巨大差別,國外的建庫經(jīng)驗很難直接借鑒引用,我們在建庫時常常必須結(jié)合漢英兩種語言的實際情況來進行變通處理。
此外,建立大型的漢英平行語料庫是一項耗時耗力的巨大工程,往往存在具體問題(如缺乏統(tǒng)一的建庫標準和足夠的深度加工,詳見黃海波:2013),并且大型的漢英平行語料庫限于知識版權(quán)和其它的一些技術(shù)原因,一般的個人研究者也缺乏機會和途徑對其加以研究利用。因此,相對而言,在翻譯研究中根據(jù)個人的研究情況自建小型平行語料庫倒是比較實用的解決方法。
和大型的通用語料庫相比,小型的個人語料庫完全可以直接針對研究者當前的研究課題而有針對性地建立起來,因此語料庫和研究主題之間的吻合程度極高,并且在語料標注方面也完全可以針對研究目的而進行特殊處理。如,在建庫時就標注出原文的修辭手法和譯文的翻譯技巧,以及翻譯單位的對應情況等。這些標注信息對漢英筆譯研究具有重要的參考價值,但在大型的通用語料庫中,這樣的特殊標注信息往往是不提供的。
此外,要研究翻譯的多樣性和靈活性,或者說研究翻譯文體的風格特征,往往需要對同一原文提供多種譯文進行對照分析,而大型的通用雙語平行語料庫一般只提供一對一(即只有一份原文和一份譯文)的語料檢索,這樣的語料資源顯然太過單薄,單憑一種譯文得出的結(jié)論也讓讀者難以信服。
因此,綜合而言,針對個人研究用的翻譯語料庫最好能夠建成一對多的雙語平行語料庫,同時注意保證其中語料標注所提供的檢索信息能夠滿足課題研究的實際需要。
下面本文將以《荷塘月色》六譯本為例,介紹自建一對多漢英平行語料庫的基本原則和技巧方法??紤]到文科研究者一般對于專業(yè)的語料庫工具比較生疏,同時對復雜的軟件操作又容易存在畏難情緒,因此本文挑選了簡單實用的大眾化語料庫軟件 (主要是AntConc)來作為基本的分析工具,以期下面介紹的內(nèi)容能夠被廣大的文科研究者所掌握和利用,并應用于自己的科研工作之中。
《荷塘月色》是朱自清寫的一篇著名散文,王椒升1986(簡稱“王譯”);朱純深1992(簡稱“朱譯”);楊憲益1998(簡稱“楊譯”);Pollard(卜立德,英國漢學家)1999(簡稱“卜譯”);李明2005(簡稱“李譯”)以及Goldblat(葛浩文,美國漢學家)2007(簡稱“葛譯”)都曾先后對其進行翻譯。
雖然這篇散文的漢語原文很容易收集,但要注意在將其保存為電子文本時要選擇恰當?shù)奈淖志幋a格式,并且要和譯文的文本編碼格式相統(tǒng)一,否則容易出現(xiàn)語料庫軟件不能正確識別漢字,顯示一堆亂碼的問題。
一般語料庫分析用的電子文本都要求保存為文本文件(txt后綴,即Windows系統(tǒng)中的記事本文件),這時在彈出的“保存文件“的對話框底部會出現(xiàn)一個關(guān)于編碼的選項(常見的有ANSI、Uicode、UTF-8等),大多數(shù)情況下選擇UTF-8格式,因為其兼容性較好,能夠被處理印歐語言的語料庫軟件正確識別。
但處理《荷塘月色》的六個譯本的情況要比原文更為復雜。由于這些譯文翻譯的時間前后相隔較遠,因此收集這些譯文的途徑不盡相同,有直接在網(wǎng)上下載或拷貝的,也有從書上掃描識別的,它們無論是在文件格式還是排版布局方面都不盡相同,甚至差異很大。因此很有必要在轉(zhuǎn)寫成電子文本的過程中,對它們先進行一個“消除噪音”的整理工作,將其轉(zhuǎn)換成符合建庫要求的“清潔文本”。
這方面典型的操作一般是先要清除文本中的非段落換行和多余信息,糾正拼寫錯誤并統(tǒng)一保存文件的編碼格式,這樣才能保證譯文信息可以順利地輸入語料庫中存儲,能被語料庫軟件正確識別和分析。
為達到這個目的,本文對收集到的《荷塘月色》六個譯本初步電子化(通過人工打字、OCR識別或復制拷貝)之后,將其導入專門的文本編輯程序EverEdit中進行處理(這方面常用的工具還有UltraEdit等,但EverEdit是國人自產(chǎn)的軟件,對中文兼容性良好,所以作為本文首選的文本編輯工具)。
我們主要利用其中的“查找—替換”(或批處理命令等其它方式)進行格式編輯,從而得到合乎建庫要求的“清潔文本”。對于具有典型意義的格式編輯,可以借助軟件中的格式編輯命令或借助正則表達式進行高效快速的格式處理。
例如,要清除文本中多余的空行,可以直接選擇右鍵菜單中的“刪除更多—刪除空白行”;而要刪除文本中的非段落換行,則可以在文本中查找正則表達式“ ”并將其替換成“”;要把漢英混合文本中的漢字清除掉,只留下英語文本,只要查找正則“^ [u4E00-u9FFF]+$”(此正則匹配中文字符)并替代成“”就行了。這樣借助熟悉的文本編輯軟件并輔以簡單的正則表達式進行“查找—替換”就可以應付絕大多數(shù)常見的格式處理問題,既簡單又高效。
有了清潔文本,接下來至關(guān)重要的工作是將原文和譯文按翻譯單位進行語料對齊。傳統(tǒng)上雙語對齊都是以句為單位(柏曉靜,2002;王克非,2003;馮文賀,2013),即以漢語原文的每個句子劃分為一個翻譯單位,然后在譯文中尋找對應的英語表達。
這樣做的優(yōu)點是整齊劃一、簡單高效,適合建立大型語料庫時的機器自動斷句對齊工作,其弊端是完全忽視了漢英筆譯中譯者處理翻譯單位的靈活性,同時也無法反映合并、拆分和破句重組等翻譯技巧的應用情況。
鑒于上述原因,本文主張翻譯研究者在建立自己的小型漢英平行語料庫時,既然資料量不大,就應當體現(xiàn)人工干預和深度加工的個人建庫優(yōu)勢,應當以真實的翻譯單位為斷句標準,這樣來建立雙語對齊資料(劉澤權(quán)、田璐、劉超朋,2008)。
這樣做不可避免地會讓斷句對齊的工作量加大很多,因為每份譯文和原文之間的對應情況都有可能不一樣,雖然多數(shù)情況下會出現(xiàn)原文句子與譯文句子一對一(一句原文對應一句譯文)的情況,也可能會出現(xiàn)二對一、三對一、甚至四、五……對一的合句翻譯情況,還可能出現(xiàn)一對二、一對三、甚至一對四、五等的拆句翻譯情況。當然,這項工作借助雙語對齊工具會大大降低勞動強度。
本文中我們選擇的是使用雪人翻譯軟件免費版(廣州雪人翻譯公司產(chǎn)品),借助軟件提供的“文件—新建—雙語對齊項目”,然后導入前面整理好的漢語原文和英語譯文。軟件默認狀態(tài)下是以句為單位進行的斷句和對齊工作,這也是多數(shù)情況下原文翻譯單位和譯文翻譯單位之間的對應狀況,但對于其中翻譯單位對齊方式與默認狀態(tài)不相一致的情況,我們就必須進行微觀調(diào)整。比如,按delete鍵合并前后兩句為一個翻譯單位,或按enter鍵把當前語句在光標位置分為兩個翻譯單位。
表1 《荷塘月色》六譯本句子翻譯對應類型
總之,我們在軟件自動對齊的基礎(chǔ)上進行必要的人工干預,這樣才能保證原文和六個譯文分別按翻譯單位全部對齊。然后在此基礎(chǔ)上,我們選擇菜單命令“導出雙語對照文件—句子對照文本文件”就可以把剛才對齊的雙語材料保存成單獨的文本文件,這樣稍作處理之后就可以利用語料庫軟件進行后續(xù)的分析和處理。比如,表1就是我們統(tǒng)計出來的《荷塘月色》六譯本基于翻譯單位的語料對齊情況。
我們據(jù)此就可以詳細地分析各個譯者對原文句子結(jié)構(gòu)的操縱風格,發(fā)現(xiàn)他們在翻譯中是慣于短句表達還是長于邏輯調(diào)整,是主要遵循原文結(jié)構(gòu)進行直譯,還是照顧譯文讀者進行意譯。
如果要研究原文中同一表達在譯文中的不同處理情況,只要將上述六份雙語對照文本直接導入AntConc中進行關(guān)鍵詞搜索就行了。比如,我們想知道六位譯者對原文第一句“這幾天心里頗不寧靜”的翻譯情況,只要在AntConc的Concordance(查詢結(jié)果索引)界面Search Term處鍵入“這幾天心里頗不寧靜”并回車確定,就出現(xiàn)了下面的查詢結(jié)果(見圖1):
圖1 《荷塘月色》關(guān)鍵詞查詢結(jié)果
如果要進一步詳細考察譯文結(jié)果及其在上下文中的分布情況,可以再點擊查詢結(jié)果中的藍色關(guān)鍵詞部分,這樣就可以直接跳轉(zhuǎn)到具體的文件內(nèi)容中詳細顯示。如果要仔細比較各個譯文之間的差異情況,可以再點擊頁面下部的Clone Results(復制結(jié)果文件)按鈕,于是這個窗口就可以單獨顯示了。以同樣的方式操作,同時再進行必要的窗口移位和層疊排列操作,就可以直觀地比較各個譯文的差異(見圖2)。
圖2 《荷塘月色》譯文對比
也許有人會問,一對多的平行語料比較情況,在Paraconc(國際著名的平行語料庫軟件)或CUC_Paraconc(中國傳媒大學開發(fā)的平行語料庫軟件)中不是可以很方便地直接對比嗎,為什么本文還要推薦使用AntConc呢?
我們需要重申的是,本文的寫作初衷是照顧廣大文科研究者學會使用語料分析進行科研工作,因此“綠色免費、操作簡單、同時兼容中文”是我們對軟件工具的挑選標準,在功能上不求大而全,只要“夠用則行”。
在這樣的標準衡量之下,Paraconc盡管強大,但需要付費,價值不菲,且目前最多能同時顯示一個原文和三個不同譯本;而國內(nèi)的CUC_Paraconc雖然擴大到了可以同時顯示16份語料文件,但它對原文和譯文的對齊方式要求非常嚴格,必須一致才行,即使某句原文的譯文缺失也必須以空格或其它某種方式補充齊全,否則無法正常使用。
于是綜合平衡之后,本文還是選擇了AntConc作為文科研究者的首選工具,它是除了專業(yè)的WordSmith之外使用得最多的語料庫檢索軟件,很多學者甚至認為它就是WordSmith的綠色精簡版(王春艷,2009)。AntConc是日本早稻田大學的Antony教授研發(fā),目前版本已經(jīng)發(fā)展到3.5.0,對中文的兼容性良好。
前面這種語料用術(shù)語來稱呼就是“raw material”,意即“生語料”,沒有進一步加工,進行語料標注。生語料雖然也可滿足簡單的研究工作,但是如果我們要對語料進行進一步的細致分析,如研究原文和各個譯本中名詞、動詞、形容詞、虛詞的使用情況等,就必須對前面的語料文本進行詞性標注,將其變成“tagged material”(標注了的語料)。這對英文譯本是毫無困難的,因為國外對英語的詞性標注已經(jīng)非常發(fā)達,有很多軟件和網(wǎng)站都可實現(xiàn)英語文本的自動標注。不過進行詞性標注之前,還得把雙語文本從技術(shù)上處理成單語文本才行。
在本文中,我們是在EverEdit中用查找正則“^ [u4E00-u9FFF]+$”并替代成“”的方式把前面的六個雙語對照文本只保留英文而得到純粹的單語文本,再把這些英文單語文件導入語料標注軟件TreeTagger3中進行處理,于是得到了六個英語譯本的語料標注文件。
但對于漢語原文的語料標注,就沒有這么方便了,目前對漢語進行分詞標注最專業(yè)的應當是中科院ICTCLAS語義分析系統(tǒng) (其在線版本地址是http://ictclas. nlpir.org/nlpir/)。
但如果對漢語的分詞標注要求不是很高,也可使用中國語料庫在線網(wǎng)站提供的漢語分詞和詞性自動標注頁面 (其地址是:http://www.cncorpus.org/CpsParser.aspx)。
本文就是選擇語料庫在線提供的這個工具對《荷塘月色》原文進行了語料標注。這里需要提醒的是:英語的分詞標注一般是用符號“_”表示,而漢語的分詞標注一般是用符號“/”表示,為了在AntConc中同時處理中英文時便于顯示或隱藏語料標注信息,最好將中英文的語料標注符號全部統(tǒng)一成英文中使用的“_”,這樣就可以很輕松地在EverEdit中通過“查找—替換”功能完成標注符號之間的相互轉(zhuǎn)換。
這樣,在語料標注的基礎(chǔ)上,我們可以很方便地根據(jù)自身的研究需要對原文和譯文以及各個譯文之間進行詳細的數(shù)據(jù)統(tǒng)計和對比分析。
例如,下面是我們在 AntConc中使用關(guān)鍵詞“*_V*”統(tǒng)計《荷塘月色》六譯本中使用動詞的對比情況(見圖3)。
不過,要研究譯本的翻譯風格,一般可以從詞匯層面、句子層面和語篇層面展開研究。
對于詞匯層面的研究主要是考察類符/形符比(Word TTR)、詞長、詞頻、詞性分布和詞匯密度,其中類符/形符比中的形符(Word Token)是指譯本中所有出現(xiàn)過的單詞,而類符(Word Type)則指排出語法曲折變化之后所有不重復的單詞,因此二者之間的比值大小能夠反映譯語詞匯的豐富程度(Baker,2000:250)。
在AntConc的WordList界面,可以獲得各個譯本的形符、類符數(shù)值并進而計算二者比值或標準化類符/形符比。
圖3 《荷塘月色》六譯本中的動詞統(tǒng)計
在Concordance Plot界面,輸入通配符“#”就可以查詢所有文件的單詞數(shù)量和字母總數(shù),據(jù)此可以計算出每個譯本的平均詞長;如果要具體考察特定長度的單詞使用頻率,可以鍵入與字母數(shù)量相等的通配符“?”進行查詢,如鍵入“???”就表示統(tǒng)計文本中包含三個字母的單詞出現(xiàn)次數(shù),至于詞性的考察方式已在上文中進行了介紹。
在句子層面主要考察包括譯本與原文之間的句子數(shù)量、平均句長、譯文與原文之間的對齊類型等;對齊類型也已在上文介紹,在此不再贅述。而關(guān)于句子數(shù)量、平均句長的統(tǒng)計信息可以在MS Word中和對語篇層面的考察同時進行。
語篇層面的考察(包括上述句子數(shù)量、平均句長等數(shù)據(jù))可以借助MS Word統(tǒng)計文本的可讀性信息,其中對英語文章還可以顯示Flesch Reading Ease(弗萊士易讀度)和Flesch-Kincaid Grade Level(弗萊士—金凱德年級水平),F(xiàn)lesch Reading Ease是根據(jù)英語句子的字數(shù)和句子中所含的音節(jié)數(shù)等進行計算,得出的數(shù)值在0和 100之間波動,數(shù)值越大,說明文章越容易閱讀。
表2 《荷塘月色》六譯本可讀性信息統(tǒng)計
而Flesch-Kincaid Grade Level則是按美國中小學年級水平評定文本的得分。分數(shù)越高表示作者的英語寫作水平越高,當然對讀者的英語閱讀水平的要求也就越高。因此對二者的統(tǒng)計結(jié)果可以直觀地揭示各譯本的總體閱讀難度和流暢水平(見表2)。
語料庫分析為我們今后進行翻譯研究提供了一個強有力的工具,給傳統(tǒng)的翻譯研究注入了新的生機和活力,但很多的翻譯工作者卻對其望而生畏,未能在自己的科研工作中加以很好的利用。
因此本文以《荷塘月色》漢英語料為例,對文科研究者如何建立高質(zhì)量的雙語平行語料庫,以及選擇簡單實用的軟件工具進行基本的語料分析等內(nèi)容進行了概括性介紹,其目的既是拋磚引玉,同時也希望廣大翻譯工作者能夠在此基礎(chǔ)上舉一反三,把語料庫研究范式進一步發(fā)揚光大。
[1]Baker,Mona.Towards a Methodology for Investigating the Style of a Literary Translator[J]Target,2000(2):241-266.
[2]Tognini-Bonelli,Elena.Corpus Linguistics at Work [M].Amsterdam:John Benjamins Publishing Co.,2001:6.
[3]柏曉靜,常寶寶,詹衛(wèi)東等.構(gòu)建大規(guī)模的漢英雙語平行語料庫[A]機器翻譯研究進展——2002年全國機器翻譯研討會論文集[C].2002.
[4]馮文賀.漢英篇章結(jié)構(gòu)平行語料庫的對齊標注研究[J].中文信息學報,2013(6):158-164+186.
[5]黃立波,朱志瑜.國內(nèi)英漢雙語平行語料庫建構(gòu)與研究現(xiàn)狀及展望[J].當代外語研究,2013(1):45-49+77.
[6]廖七一.語料庫與翻譯研究[J].外語教學與研究,2000(5):380-384.
[7]劉澤權(quán),田璐,劉超朋.《紅樓夢》中英文平行語料庫的創(chuàng)建[J].當代語言學,2008,10(4):329-339.
[8]王春艷.免費綠色軟件AntConc在外語教學和研究中的應用[J].外語電化教學,2009(1):45-48+78.
[9]王克非.英漢/漢英語句對應的語料庫考察[J].外語教學與研究,2003(6):410-416+481.
[10]王克非.語料庫翻譯學探索[M].上海:上海交通大學出版社,2012(2).
(編輯:李曉萍)
G434
B
1673-8454(2016)12-0067-05
*2016年重慶市教育委員會人文社會科學研究一般項目“一帶一路”新形勢下重慶高校凸顯職業(yè)特征的筆譯教學模式研究”(項目編號:16SKGH163);2014年全國教育技術(shù)研究專項課題“信息技術(shù)與英漢筆譯課程的深度融合”(146232118);以及2014年重慶市教育委員會人文社會科學研究項目“生態(tài)翻譯視閾下非物質(zhì)文化遺產(chǎn)外宣翻譯研究”(14SKM12)的階段性成果。