周衍
(遼寧科技大學(xué),遼寧 鞍山 114051)
語料庫是為一個或多個應(yīng)用目標(biāo)而專門收集的、有一定結(jié)構(gòu)的、有代表性的、可被計(jì)算機(jī)程序檢索的、具有一定規(guī)模的語料集合[1]。20 世紀(jì)60 年代,最先興起的是電子語料庫。而后在經(jīng)過五十多年的發(fā)展,語料庫種類越來越多,分類越來越細(xì)化。按語種分類,可分為單語語料庫,雙語語料庫和多語語料庫;按對應(yīng)關(guān)系,分為平行語料庫和類比語料庫;按用途分類,可分為通用語料庫和專門語料庫。
近年來許多學(xué)者研究開發(fā)雙語平行語料庫,采用原文與譯文對齊的方式,實(shí)現(xiàn)詞匯、短語、句子、段落、篇章等層面的雙語自動對齊,用戶可以根據(jù)自己的需要精確地檢索各層面的對應(yīng)翻譯,有很強(qiáng)的針對性和實(shí)用性。國外雙語平行語料庫的建設(shè)開始于20 世紀(jì)90 年代中期,其中著名的平行語料庫當(dāng)屬加拿大的英法雙語議會會議錄(the Canadian Hansards Corpus)、英國曼徹斯特大學(xué)的翻譯語料庫(TEC)、奧斯陸大學(xué)的英語-挪威語雙語對應(yīng)語料庫(ENPC) 等。國內(nèi)平行語料庫的研究主要集中在英漢平行語料庫的構(gòu)建上。研究的重點(diǎn)主要集中在語料庫的建設(shè)與發(fā)展技術(shù)、平行語料庫在教學(xué)或翻譯、語料庫相關(guān)內(nèi)容的分析與比較等領(lǐng)域中的應(yīng)用等。目前國內(nèi)規(guī)模最大的雙語平行語料庫是王克非教授主持建設(shè)的——漢英通用型對應(yīng)語料庫(PCCE)。與此同時,各地紛紛建立起了多種平行語料庫研究,如衢州生態(tài)旅游漢英雙語平行語料庫,河?xùn)|文化旅游資源漢英平行語料庫,江西英漢平行語料庫等。國內(nèi)語料庫的構(gòu)建存在一些需改進(jìn)的方面:1.語料庫類別少,各種不同用途語料庫急需豐富增加;2.小型語料庫較多,沒形成共聯(lián),可以實(shí)現(xiàn)同類型或者用途的多個小型語料庫的聯(lián)合應(yīng)用;3.語料庫沒有大規(guī)模應(yīng)用,利用率極低,應(yīng)采取不同方式宣傳推廣;4.語料庫中句子段落的對齊方式有待改進(jìn),不僅要實(shí)現(xiàn)句子、段落層面的對齊,更要實(shí)現(xiàn)深層含義的對應(yīng)?;谝陨喜蛔?,在語料庫構(gòu)建時,研究者應(yīng)構(gòu)建有一定規(guī)模,符合約定對齊標(biāo)準(zhǔn)的專門用途語料庫,以滿足更多專業(yè)語料庫研究的需要。語料庫的應(yīng)用也應(yīng)便于今后更大范圍的連接和推廣,實(shí)現(xiàn)共建共聯(lián)。
鞍山的旅游資源包括:世界第一玉佛、亞洲著名溫泉、國家名勝千山、中華寶玉之都和祖國鋼鐵之都。除此之外,鞍山擁有的國家級非物質(zhì)文化遺產(chǎn)數(shù)量居全省首位,多達(dá)11 項(xiàng),如岫巖滿族民間剪紙,岫巖皮影、岫巖玉雕、海城高蹺、評書、千山寺廟音樂,海城民間鼓樂、岫巖東北大鼓等。除了旅游民俗等相關(guān)的自然風(fēng)光、景點(diǎn)介紹、地方民俗風(fēng)情、傳統(tǒng)文藝及傳統(tǒng)技藝之外,將旅游相關(guān)語料,例如:城市概況、賓館飯店、交通指南、購物美食等語料也搜集進(jìn)語料庫,為游客更好地提供服務(wù)。
所有語料的搜集都將編入鞍山旅游英漢平行語料庫,該語料庫的設(shè)計(jì)主要參考北京外國語大學(xué)王克非教授在《雙語平行語料庫∶研究與應(yīng)用》[2]一書中描述的雙語平行語料庫設(shè)計(jì)思路進(jìn)行設(shè)計(jì)。語料庫的建立旨在整合相關(guān)旅游資料,進(jìn)行旅游資料中英文本的合理分類、篩選、翻譯、對齊、加工、標(biāo)注,最終建成一定規(guī)模的雙語平行語料庫。
語料庫的基本構(gòu)建過程包括語料采集、語料錄入、語料標(biāo)注和對齊,以及語料的檢索四個部分。首先是對原始語料進(jìn)行全面搜集,篩選出較為專業(yè)的語料翻譯,之后將所有語料在電子文檔中保存。所有語料都應(yīng)在經(jīng)專家的審定之后使用錄入,專家要著重對民族文化特色詞匯進(jìn)行漢英譯文審定,并對缺少英語譯文的中文語料,進(jìn)行翻譯,補(bǔ)齊雙語語料,至此,原始語料采集階段工作基本完成,形成原始語料電子文本庫。接下來錄入原始語料,首先是對語料進(jìn)行校對,刪除消除無用的語言信息,之后分別對英文語料進(jìn)行基本的詞性標(biāo)注,最后采取計(jì)算機(jī)軟件和人工標(biāo)注相結(jié)合的方式進(jìn)行雙語語料平行對齊,形成漢英雙語平行語料庫。最后一個階段是實(shí)現(xiàn)語料檢索。通過平行語料檢索工具,對語料庫的檢索功能進(jìn)行測試、修正、再測試,最終達(dá)到可以進(jìn)行在線檢索的目標(biāo)。
鞍山旅游雙語平行語料庫立足小型專業(yè)語料庫,在語料的收集過程中要保證語料的代表性和專業(yè)性[3]。因此,采集所有關(guān)于鞍山旅游的原始語料,主要語料來源包括:鞍山政府相關(guān)外宣文件、宣傳手冊、調(diào)查報告、網(wǎng)站資料、正式出版的書籍、博物館的資料、論文。將旅游相關(guān)中英文本進(jìn)行篩選,盡量選出最新的翻譯譯文進(jìn)行文本的保存。
采集后對語料進(jìn)行整理分類。按照自然風(fēng)光、民俗文化、交通食宿等進(jìn)行分類。對中文語料進(jìn)行重新梳理,借助翻譯工具對語料進(jìn)行翻譯,之后進(jìn)行人工校對。在對其中文進(jìn)行翻譯時,要注意:特別是對英文譯文文本,在充分理解了解內(nèi)涵含義的基礎(chǔ)上,要進(jìn)行修正和改進(jìn)使其更加標(biāo)準(zhǔn)化,更加符合慣例,這也以便于將來與其他各地的語料庫接軌。另外,人工校對時一定要保證統(tǒng)一性,尤其是專有名詞,地名等。對于其它沒有英譯文的純中文的語料,翻譯時要多參考查閱資料,做到翻譯盡量準(zhǔn)確,符合翻譯原則。最后用軟件的翻譯質(zhì)量保證功能來評估翻譯的整理語言質(zhì)量,生成翻譯報告后,請專家再次審核和校對譯文,之后保存譯文進(jìn)行文本錄入。
語料的標(biāo)注指詞性標(biāo)注,又稱詞性賦碼,是指對語料中的每一個字詞按其在句子中的語法功能對其加注詞性標(biāo)記,如單數(shù)普通名詞、動詞的過去分詞、形容詞的比較級等[4]。
語料的標(biāo)注和對齊是建好語料庫的關(guān)鍵,它直接影響到語料庫建成之后檢索功能的精確性和實(shí)用性[5]。標(biāo)注和對齊采用人工結(jié)合軟件的方式進(jìn)行。先用軟件進(jìn)行標(biāo)注和對齊,然后輔之人工方式校對。用tagger 賦碼器對詞性進(jìn)行標(biāo)注。再用tmxmall在線語料對齊工具對語料對齊,語料對齊以句子為單位實(shí)現(xiàn)漢英對照。再具體實(shí)施中,在處理翻譯對照時,由于中英文語序的不同,對句子邏輯關(guān)系的處理也不同,有時英文的一個長句會翻譯成幾句中文的短句,中文的多個句子也會合譯為一個英文長句,以便更好地符合中英文語言規(guī)則。所以,鑒于中英文句法的差異,翻譯就不能以句子一一對應(yīng)為對齊方式,應(yīng)該以句意為對齊方式,以體現(xiàn)完整的意思為基礎(chǔ)。正確使用翻譯技巧來保證中英文文本意義的完整表達(dá),這也體現(xiàn)了翻譯技巧的運(yùn)用,對翻譯的教學(xué)研究都有一定的實(shí)際意義和借鑒作用。此外,專用名詞的翻譯可按詞組方式對齊,檢索時,翻譯結(jié)果應(yīng)關(guān)聯(lián)一些原文的出處,以便游客和學(xué)生進(jìn)一步了解相關(guān)背景從而對檢索詞有清楚的理解。最后,使用語料庫軟件進(jìn)行詞組和句子對齊,軟件對齊完成后,需人工進(jìn)行調(diào)整。
語料標(biāo)注對齊后,就需要用語料庫軟件將所有語料按一定方式整合起來,實(shí)現(xiàn)檢索功能。由于軟件涉及計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫技術(shù)層面的問題,而語料庫軟件又屬于小眾型應(yīng)用軟件,所以現(xiàn)成的軟件并不多?,F(xiàn)成的軟件可以使用ParaConc等語料庫檢索軟件語料整合完成后還需經(jīng)過網(wǎng)絡(luò)測試,測試成功后便可以放在網(wǎng)站上對用戶開放,建成后根據(jù)用戶體驗(yàn)不斷持續(xù)完善語料庫。
鞍山旅游雙語平行語料庫的建立能夠助力區(qū)域經(jīng)濟(jì)發(fā)展,提升鞍山外宣水平,助力智慧旅游、智慧城市發(fā)展,對鞍山旅游文化的國際傳播具有十分重要的意義。其一,翻譯研究中越來越關(guān)注地方化特色。旅游民俗方面的翻譯時,地方化特色的最佳代表,這無疑豐富了此方面的研究成果,為對外宣傳研究提供了可借鑒參考的英文宣傳范本和詳實(shí)的實(shí)踐例句。其二,根據(jù)詳盡豐富的語料資源,可開發(fā)新型技術(shù)軟件。在此基礎(chǔ)上,探索更實(shí)用的檢索方法,創(chuàng)造更多語料庫的互聯(lián)互通,運(yùn)用軟件升級等技術(shù)手段推廣鞍山旅游雙語語料庫。
鞍山旅游文化平行語料庫可以為相關(guān)學(xué)術(shù)研究提供借鑒,為語言研究者提供語料豐富的對比平臺。研究者可以通過語料庫研究鞍山文化的語言特征的差異和共性,為進(jìn)一步研究旅游文化提供了方法和途徑。依托鞍山旅游雙語語料庫在鞍山高校內(nèi)開展語言與文化對比研究,可根據(jù)語料庫的文本搜索功能獲取的大量原始資料,可對旅游雙語文本的風(fēng)格、句法、詞匯等進(jìn)行比對和分析,進(jìn)行定量和定性結(jié)合的研究。
鞍山旅游文化雙語平行語料庫還可以為鞍山地區(qū)高校的翻譯教學(xué),相關(guān)專業(yè)的培養(yǎng)提供豐富、有針對性的翻譯實(shí)例。這些語料庫中的直觀文本能夠成為學(xué)生學(xué)習(xí)翻譯提供資料,激發(fā)學(xué)生的學(xué)習(xí)熱情和對城市的熱愛,提升課堂教學(xué)效果,對培養(yǎng)翻譯人才、旅游從業(yè)人才的培養(yǎng)都有積極的作用。
目前我國已經(jīng)建立了一些地域性的雙語平行語料庫、有力的服務(wù)和推動當(dāng)?shù)芈糜萎a(chǎn)業(yè)的發(fā)展。為順應(yīng)旅游國際化的趨勢,促進(jìn)對外宣傳,各地建立本土化的旅游雙語平行語料庫勢在必行。因此,廣泛搜集鞍山旅游資源,構(gòu)建旅游文化平行語料庫是為廣大游客提供優(yōu)質(zhì)的旅游翻譯服務(wù),幫助人們充分認(rèn)識旅游資源文化的內(nèi)涵,從而提升品牌質(zhì)量以及旅游市場價值。