□柯可 舒?zhèn)魅A/文
近十年來,語料庫的建設(shè)工作在世界范圍內(nèi)迅速發(fā)展,而專門研究某一地區(qū)或領(lǐng)域的雙語專門語料庫卻并多常見,以某個(gè)地區(qū)民俗文化為主題的語料庫建設(shè)性研究更是少之又少。
作為中部大省,湖北省擁有豐富的民俗文化。湖北民俗文化雙語平行語料庫旨在通過收集并記錄當(dāng)?shù)鼐哂写硇缘拿袼孜幕?,?gòu)建一個(gè)小型的英漢雙語平行語料庫。利用信息化手段更好地服務(wù)于民俗文化的保護(hù)、傳承和延續(xù),這對(duì)于傳承湖北地區(qū)的傳統(tǒng)社會(huì)歷史和傳承風(fēng)俗文化有著十分重要的作用,對(duì)于當(dāng)?shù)厝嗣裥纬晌幕J(rèn)同具有重大意義,同時(shí)對(duì)于當(dāng)?shù)卣Z言教學(xué)者和學(xué)習(xí)者也有很大的幫助。
目前國外民俗文化研究主要特點(diǎn)是:高度重視民俗文化的價(jià)值,不斷完善民俗文化保護(hù)的相關(guān)法律法規(guī),將民俗文化保護(hù)和市場開發(fā)相結(jié)合,注重對(duì)廣大民眾的宣傳教育,為保護(hù)和發(fā)展民俗文化提供學(xué)術(shù)保障等。國內(nèi)關(guān)于民俗文化的研究成果豐富,這些研究成果主要應(yīng)用于文學(xué)、教育、藝術(shù)、美學(xué)、旅游業(yè)、產(chǎn)品設(shè)計(jì)、文化傳承及鄉(xiāng)村經(jīng)濟(jì)振興等方面,具有極其廣泛的應(yīng)用價(jià)值。然而關(guān)于湖北省民俗文化的研究數(shù)量較少,國外目前鮮有對(duì)湖北民俗文化的研究。國內(nèi)關(guān)于湖北省民俗文化的研究聚焦在以下三個(gè)方面:一是對(duì)于湖北民間非物質(zhì)文化遺產(chǎn)的開發(fā)、保護(hù)及傳播研究。二是關(guān)于推動(dòng)湖北省民俗文化的產(chǎn)業(yè)發(fā)展途徑研究。三是基于某一個(gè)或某一類民俗文化的個(gè)體研究,從個(gè)體研究出發(fā)來研究地域符號(hào)以及民眾思想的變遷及民俗文化的傳承等[1]。
本研究借助構(gòu)建湖北民俗文化語料庫,旨在使科學(xué)技術(shù)更好地服務(wù)于荊楚民俗文化的傳承,推動(dòng)荊楚文化的國際傳播。通過對(duì)湖北民俗文化中文、英文語料的搜集、整理、歸類、分析、加工和技術(shù)處理,構(gòu)建體系上較為完整、內(nèi)容上較為翔實(shí)、使用較為方便、語料制作較為精細(xì)的語料庫。
首先,在建設(shè)語料庫之前需要明確研究目的和其構(gòu)建的用途;其次,根據(jù)研究目的確定語料庫的類型和規(guī)模;最后,遵循一定的方法和原則去建設(shè)該語料庫。湖北民俗文化雙語平行語料庫主要收集民間傳說、民間美術(shù)、民間舞蹈、戲曲曲藝四方面內(nèi)容,重點(diǎn)建設(shè)比較有代表性的民間傳說、民間美術(shù)、傳統(tǒng)舞蹈、傳統(tǒng)戲劇的雙語語料。
以湖北民間傳說為例,主要收集了湖北地區(qū)流傳的文學(xué)作品,其內(nèi)容豐富多樣,涉及的主題包括神話傳說、歷史故事、愛情故事、英雄傳說等,如黃鶴樓傳說、炎帝神農(nóng)傳說、王昭君傳說、木蘭傳說、屈原傳說等。該語料主要來源于湖北省民俗博物館的民俗文化資料、相關(guān)的數(shù)據(jù)庫和文獻(xiàn)資源。收集完成后,為確保語料的效度,對(duì)其進(jìn)行篩選,剔除掉關(guān)聯(lián)性不高的語料[2]。
該過程涉及語料的整理、切分、標(biāo)注和對(duì)齊等步驟。首先,針對(duì)收集后的雙語語料,分別以TXT格式(微軟系統(tǒng)自帶文本格式)保存。使用微軟平臺(tái)文本編輯器軟件(EmEditor)對(duì)漢英語料文本進(jìn)行降噪處理,例如,刪除多余的空格和空行、進(jìn)行替換等操作,以確保格式和編碼統(tǒng)一,沒有其他多余的雜質(zhì)。
其次,對(duì)整理后的正確語料文本進(jìn)行切分。該語料庫主要實(shí)現(xiàn)句子切分(根據(jù)內(nèi)容和句意對(duì)漢英的語料進(jìn)行分句),同樣使用EmEditor來實(shí)現(xiàn)此操作。利用EmEditor的替換功能,中文文本在查找欄中輸入“?!保鎿Q為“?!?seg〉〈seg〉”,而英文文本中則在查找欄中輸入“.”,替換為“.〈/seg〉〈seg〉”,最后將結(jié)尾的“〈seg〉”刪去,在開頭補(bǔ)充“〈seg〉”,將替換后的文本保存在TXT格式中。如圖1所示。
圖1 英文語料的分句操作
語料標(biāo)注是指對(duì)語料庫中的文本進(jìn)行語言學(xué)分析和標(biāo)記的過程,其目的是方便研究者對(duì)語料庫中的文本進(jìn)行進(jìn)一步的分析和研究,也可以用于自然語言處理、文本挖掘等領(lǐng)域的研究,以便機(jī)器能夠理解和使用這些數(shù)據(jù)。而語料標(biāo)注通常包括詞性標(biāo)注、句法分析、語義標(biāo)注等,它可以使用人工標(biāo)注和自動(dòng)標(biāo)注兩種方法。本語料庫采用了SegmentAnt軟件(中文分詞軟件名)進(jìn)行分詞和標(biāo)注操作,對(duì)標(biāo)注后的語料還需要人工進(jìn)一步進(jìn)行校對(duì),以確保其準(zhǔn)確性。
語料的平行與對(duì)齊是非常重要的步驟,也是為了實(shí)現(xiàn)平行語料庫檢索的目的。該語料庫利用ParaConc工具軟件(中國傳媒大學(xué)平行語料檢索工具軟件名)來實(shí)現(xiàn)此操作。首先將分句后的中英文文本在TXT格式中另存為“ANSI”格式(編碼格式名,能避免文字亂碼),然后再同時(shí)打開這兩個(gè)文件進(jìn)行原文和譯文在句子層面上的平行對(duì)齊。由于英漢兩種語言之間差異較大,自動(dòng)對(duì)齊在處理一些復(fù)雜的語言結(jié)構(gòu)時(shí)可能會(huì)出現(xiàn)錯(cuò)誤,所以還需人工進(jìn)行校對(duì)與調(diào)整以確保研究的準(zhǔn)確性與可信度。如圖2所示。
圖2 語料的平行對(duì)齊
在語料庫語言學(xué)中,通過語料檢索可以獲取大量的語言數(shù)據(jù),從而研究語言現(xiàn)象。例如,可以通過語料檢索研究詞匯的使用頻率、詞性分布、句法結(jié)構(gòu)等。對(duì)加工處理后的語料進(jìn)行檢索,將需要查詢的關(guān)鍵詞或語句輸入到計(jì)算機(jī)程序中,在語料庫中查找與查詢語句相匹配的記錄。本語料庫運(yùn)用ParaConc軟件進(jìn)行檢索操作,如圖3所示。
湖北民俗文化雙語語料庫的建立,一方面加強(qiáng)湖北民俗文化教育。另一方面擴(kuò)大湖北民俗文化在全國乃至全世界的影響力[3]。
在英語教學(xué)應(yīng)用方面,湖北民俗文化雙語語料庫能為本土高校英語翻譯、口語、寫作等實(shí)踐教學(xué)工作提供豐富、規(guī)范的語料資源。比如,在本土高校英語翻譯教學(xué)中,可以從文本的漢、英語料的對(duì)比研究入手,從文體和功能方面探究二者的差異和共性,發(fā)現(xiàn)不同類型的湖北民俗文化文本及其英譯文本的語言特點(diǎn),進(jìn)一步結(jié)合翻譯學(xué)理論,探討湖北民俗文化文本外宣翻譯的翻譯策略、翻譯方法及其內(nèi)在成因。
湖北民俗文化雙語平行語料庫將有助于在湖北地方政府實(shí)施文化強(qiáng)市戰(zhàn)略基礎(chǔ)上樹立湖北民俗文化對(duì)外宣傳的新形象。由于在建庫時(shí)嚴(yán)格控制入庫語料,所以建設(shè)成的湖北民俗文化雙語平行語料庫可以為湖北省地方政府門戶網(wǎng)站的構(gòu)建提供理論指導(dǎo)和素材積累,達(dá)到良好的外宣效果,推進(jìn)湖北省各地市政府網(wǎng)站的國際化發(fā)展和國際傳播能力建設(shè)[4]。
湖北民俗文化雙語平行庫的建設(shè)不僅能夠提高湖北地區(qū)的宣傳度,彌補(bǔ)當(dāng)?shù)孛袼孜幕麄鞣绞郊胺N類的不足,還能夠幫助人們對(duì)當(dāng)?shù)孛袼孜幕懈羁痰牧私?,加?qiáng)語言類學(xué)生對(duì)語言的學(xué)習(xí)和翻譯的練習(xí),對(duì)了解湖北當(dāng)?shù)氐拿袼孜幕哂兄匾饬x。該語料庫的構(gòu)建將為其他語料庫的建設(shè)和研究提供一定的參考,助力中華民俗文化翻譯研究及海外傳播。■
引用
[1] 王克非.雙語對(duì)應(yīng)語料庫:研制與應(yīng)用[M].北京:外語教學(xué)與研究出版社,2004.
[2] 王克非,黃立波.語料庫翻譯學(xué)十五年[J].中國外語,2008(6):9-14.
[3] 姚爽.民俗翻譯平行語料庫建設(shè)研究[J].佳木斯職業(yè)學(xué)院學(xué)報(bào),2016(08):370-371.
[4] 于淑芳.皖西紅色文化雙語語料庫的構(gòu)建及應(yīng)用[J].皖西學(xué)院學(xué)報(bào),2022(38):10-14.