王華鑫
摘 要 旅游英語語料庫旨在收集旅游文本,并應(yīng)用于旅游翻譯。本文首先回顧了旅游英語語料庫建立的背景,繼而從語料的采集、語料文本的數(shù)字化、語料的對齊、語料的標注四個方面闡述了語料庫創(chuàng)建的具體流程。
關(guān)鍵詞 旅游英語 語料庫 標示語翻譯 教學(xué)
0引言
南太行地區(qū)的旅游資源具有豐富的地方特色和文化多樣性。這些特點一方面凸顯了南太行旅游資源其獨特性,另一方面,也為旅游資源的翻譯問題增加了難度,假使景區(qū)標示語和景點翻譯過于隨意,則無法準確傳遞南太行景區(qū)的文化內(nèi)涵。20世紀90年代一個新的翻譯研究范式應(yīng)運而生,即語料庫翻譯研究。語料庫翻譯研究是通過建設(shè)平行語料庫的方法對翻譯進行研究,北京外國語大學(xué)王克非教授支持建立的英漢雙語語料庫是國內(nèi)較有影響的英漢漢英平行語料庫。經(jīng)調(diào)查,我們發(fā)現(xiàn)目前的通用型語料庫無法十分準確地反映南太行旅游景區(qū)的特征,因此,亟需建立一個標準旅游英語語料庫使之能夠應(yīng)用于南太行景區(qū)。
1旅游英語語料庫的創(chuàng)建
本語料庫的具體創(chuàng)建,首先需要采集語料并將語料數(shù)字化,之后對語料進行標注、對齊等一系列操作。
1.1采集語料
本語料庫屬于專用、同質(zhì)型語料庫,只收集與旅游景區(qū)相關(guān)的中英文原生性文本,雖然局限了該語料庫的文本收集,但確保收集到的語料符合建庫目的和標準。本語料庫在建設(shè)中除采用研究小組多成員把關(guān)措施之外,還另外邀請我院語料庫研發(fā)中心的多名資深專業(yè)教師和旅游管理領(lǐng)域的專業(yè)人士進行文本的審核、確定,確保采集文本的適合性和代表性。此外,在部分介紹較多的旅游景點文本材料選擇方面,該語料庫依據(jù)三角驗證法,反復(fù)核對入庫文本。確保旅游英語語料庫庫具有較好的準確性。
1.2文本數(shù)字化
一般而言,創(chuàng)建語料庫大多需要在線的電子網(wǎng)絡(luò)文本作為原材料,收集旅游標示語或景點介紹相關(guān)的翻譯用語等信息的圖片以及其他正式旅游出版物等,最終將這些材料以txt文本格式儲存在語料庫中,此時就需要語料文本的數(shù)字化處理技術(shù)。
根據(jù)該語料庫的文本來源的不同,可將語料文本數(shù)字化處理技術(shù)大致分為掃描識別、文本轉(zhuǎn)化、手工錄入等幾大類型。如對于以圖片形式儲存的語料文本,可借助掃描儀制成高清圖片,并將其轉(zhuǎn)化成PDF文件,再利用文本轉(zhuǎn)換器工具,將圖片上的文字轉(zhuǎn)換成文本進行采集,必要時可對模糊不清的圖片進行修復(fù);對于已經(jīng)出版的涉及旅游景區(qū)或景點介紹的翻譯用語的書籍資料,可通過機器掃描等技術(shù)將其錄入語料庫。
1.3對齊語料
語料的切分與對齊是建設(shè)平行語料庫的一個關(guān)鍵。本語料庫采用了人工切分對齊與使用軟件切分對齊兩種方法。通過ParaConc或AntConc等軟件來可以對語料庫進行檢索和分析,但必須要對語料庫的語料文本進行雙語對齊。目前,語料句式對齊是創(chuàng)建語料庫的重點和難點。國外已經(jīng)擁有較為先進的應(yīng)用工具,能夠?qū)φZ料文本進行高精度的句式對齊處理,譬如Multiconcord。但由于英語是形合語,漢語為意合語,兩種語言差異較大,而且在標點、句式等方面存在諸多不同,特別是在旅游景區(qū)或景點的翻譯方面,標示語或景點翻譯并未完全采取句式的標準,存在擴譯、省譯或摘譯等現(xiàn)象。所以,利用軟件進行語料文本自動對齊處理并不能完全滿足實際需求,還需人工對齊語料。
1.4標注語料
標注加工,首先做到英漢雙語在句子層級上對齊,可鏈接檢索,以方便各種研究需要。之后進行初步的分詞處理和詞性的標注,并預(yù)留今后在句法、語義等層面上深加工的余地。
語料對齊之后需要標注語料,通過對語料進行標注,可以更好地檢索分析。語料標注的模式多種多樣,本語料庫應(yīng)用的是TEI標注模式。
語料標注包括語料文本信息、詞性、語義、句法分析等。其中,文件名即能反映出語料文本的部分信息,如south.eng 表示是與南太行景區(qū)英文翻譯有關(guān)的文件。然而,僅憑文件名只能提供很少信息,不足以滿足實際需求,還需要補充標題、作者信息、語料來源、內(nèi)容格式以及類型等方面信息。本文僅以詞性賦碼(POS)為例,今后如有其他方面需求再另行補充。詞性賦碼是將詞的類別標注出來,如名詞、動詞等,其目的是令讀者明晰單詞的詞性。作為語料標注最基礎(chǔ)的詞性標注,對于語料庫中文本的句法分析和文本分析方面具有重要價值。該語料庫的中文語料采用中科院中文分詞程序ICTCLAS對文本詞性進行標注;英文語料則應(yīng)用德國斯圖加特大學(xué)計算語言學(xué)研究所Helmut Schmidt開發(fā)的Treetagger工具進行詞性標注。
2結(jié)語
本文借鑒了前人創(chuàng)建語料庫的寶貴經(jīng)驗,因此,在語料庫的設(shè)計、語料的收集、數(shù)字化、對齊以及標注等環(huán)節(jié)都較為慎重。基于語料庫的翻譯和語言實踐日益受到了國內(nèi)外研究者的重視,而完成高質(zhì)量的語料庫創(chuàng)建則是翻譯和語言實踐的前提條件。本文簡要分析了旅游英語語料庫創(chuàng)建的方法和流程,但仍有部分問題有待完善,如雙語文本在句子層面的對齊、語義標準技術(shù)革新等。但在可預(yù)計的情形下,隨著語料庫翻譯學(xué)的研究及旅游業(yè)的不斷發(fā)展,語料庫這一方法在旅游景區(qū)的應(yīng)用必將發(fā)揮更大優(yōu)勢。
參考文獻
[1] Anthony,L.AntConc Version 3.2.2 Tokyo[D].Japan: Waseda University,2011.
[2] Barlow,M.ParaConc: Concordance software for multilingual parallel corpora[J].Language Resources for Translation Work and Research,2002.
[3] Ide,N.& J. V閞onis,(Eds.). Text encoding initiative: Background and contexts [M]. Springer Science & Business Media,1995.
[4] Li, Defeng. 2004.Trustworthiness of think-aloud protocols in the study of translation processes[J].International Journal of Applied Linguistics,2004(03):301-313.
[5] Mason,I.Translator behavior and language usage: Some constraints on contrastive studies [J]. Hermes,2001(26): 65-80.
[6] Schmid,H.TC project at the Institute for Computational Linguistics of the University of Stuttgart[J].Treetagger,1994.
[7] Woolls,D.Multiconcord version 1.5.Birmingham[J].CFL Software Development,1997.
[8] 黃昌寧.語料庫語言學(xué)[M].北京:商務(wù)印書館,2002.
[9] 李德超,王克非.新型雙語旅游語料庫的研制和應(yīng)用[J].現(xiàn)代外語,2010(02):46-54.
[10] 梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社,2010.
[11] 王克非.新型雙語對應(yīng)語料庫的設(shè)計與構(gòu)建[J].中國翻譯,2004(06):73-75.