郭賢茹 洪大勇 董梅
摘要:目前國內(nèi)外,通用型的、基于網(wǎng)絡(luò)的超大型語料庫發(fā)展迅速,然而專業(yè)用途的英漢平行語料庫發(fā)展緩慢,數(shù)量較少,尤其是農(nóng)學(xué)英語平行語料庫更是寥寥無幾。基于這樣的現(xiàn)狀,筆者對農(nóng)學(xué)英漢術(shù)語平行語料庫建設(shè)的背景和意義做了分析,探討了建庫思路和語料收集。希望為農(nóng)學(xué)領(lǐng)域從業(yè)者、譯員、論文寫作者的相關(guān)工作提供幫助。
關(guān)鍵詞:農(nóng)學(xué)英漢術(shù)語;平行語料庫
一、概述
(一)項目介紹
根據(jù)翻譯方向不同,平行語料庫可分為單向平行語料庫(uni-directionalparallelcorpus)、雙向平行語料庫(bi-directionalparallelcorpus)和多向平行語料庫(multidirectionalparallelcorpus)三種。根據(jù)使用目的不同,可分為通用英漢平行語料庫和專門用途英漢平行語料庫。英漢平行語料庫(parallelcorpus)是由原文文本及其平行對應(yīng)的譯語文本構(gòu)成的英漢雙語語料庫,其對齊程度可有詞級、句級、段級和篇級這四種。[1]筆者團(tuán)隊的項目屬于專門用途英漢平行語料庫,目前對齊程度主要是詞級和句級兩級雙語對齊,預(yù)計后續(xù)將繼續(xù)收錄文章以及大量語料,達(dá)到段級和篇級。
(二)現(xiàn)實依據(jù)
相比其它,專門用途的英漢平行語料庫數(shù)量較少、規(guī)模較小。作為專門用途英語語料庫分支之一的農(nóng)林英語語料庫,尤其是平行語料庫更是寥寥無幾,目前僅有華中農(nóng)業(yè)大學(xué)建設(shè)的農(nóng)科學(xué)術(shù)英語論文語料庫、西北農(nóng)林科技大學(xué)建立的FAO農(nóng)業(yè)英語語料庫、王景懌主持建設(shè)的英漢/漢英雙語畜牧業(yè)小型語料庫。研究農(nóng)林英語語料庫建設(shè)的學(xué)者也屈指可數(shù),如栗娜、范晶晶、張永萍和婁瑞娟等。[2]
(三)農(nóng)學(xué)英漢平行語料庫及術(shù)語平行語料庫的建設(shè)意義
英漢平行語料庫最基本也是最重要的一個功能是確認(rèn)表達(dá)是否正確。遇到模棱兩可的用詞和句式時,在語料庫中檢索、尋找例證,根據(jù)語料庫的建議和范例選擇合適的用詞和句式以確定表達(dá)是否正確、地道。也可以用來尋求地道的翻譯,根據(jù)源文和譯文的對應(yīng)來獲得目標(biāo)文本的翻譯。針對農(nóng)學(xué)專業(yè)同學(xué)在翻譯和閱讀英文文獻(xiàn)可能遇到的困難,以及國內(nèi)農(nóng)學(xué)英漢平行語料庫數(shù)量少、共享難的現(xiàn)狀。本團(tuán)隊通過需求分析、設(shè)計語料庫、收集語料、加工語料、建立語料庫、開發(fā)部署語料庫應(yīng)用軟件等步驟,以建立小型作物學(xué)英漢平行語料庫為起點和基礎(chǔ),逐步建立起涵蓋整個農(nóng)學(xué)的英漢平行語料庫。
二、農(nóng)學(xué)英漢平行語料庫的建設(shè)
(一)整體設(shè)計
本研究旨在建設(shè)一個完備的農(nóng)學(xué)英漢平行語料庫。語言本身是動態(tài)發(fā)展的,因此語料庫也設(shè)計為動態(tài)的,可以隨時對語料進(jìn)行擴(kuò)充或修改。在語料庫的規(guī)模上,條件允許的情況規(guī)模越大越好。在語料庫的內(nèi)容上,要保證語料具有相當(dāng)高的質(zhì)量。因此在語料的收集上,遵循系統(tǒng)性、準(zhǔn)確性和專用性。
由于語料來源和人力有限,本項目目前僅建設(shè)了一個小型語料庫,為以后建設(shè)更大規(guī)模語料庫做準(zhǔn)備。
(二)語料的采集
語料來源于近幾年各大農(nóng)業(yè)期刊如《應(yīng)用生態(tài)學(xué)報》、《中國農(nóng)業(yè)科學(xué)》、《作物學(xué)報》等等中所使用的論文段落,保證了時效性。另一部分來源于相關(guān)辭典、網(wǎng)絡(luò)文庫,保證內(nèi)容豐富性。搜集后的語料由專業(yè)學(xué)生小組進(jìn)行審閱批注和修改,保證語料的準(zhǔn)確性。
(三)語料的整理加工
1.語料清潔與標(biāo)注
由于原始語料的來源各不相同,大部分需要對文本的內(nèi)容和格式進(jìn)行整理及標(biāo)記。本項目使用MicrosoftWord、Notepad等文檔編輯工具對文檔修改,統(tǒng)一標(biāo)點符號、數(shù)字與字母,去除文中多余空格,使其成為內(nèi)容不互相重復(fù)、保存格式統(tǒng)一、排版格式一致的篇章級對齊單位。
在語料庫研制中,較為通用的標(biāo)注軟件包括:WinBrill、QTAG等等,本項目使用這些工具對語料進(jìn)行詞語切分,對詞性和詞義進(jìn)行標(biāo)注,以便于后續(xù)對語料進(jìn)行統(tǒng)計分析,研究詞組或句式的用法、翻譯策略及譯者風(fēng)格等等。
.2語料對齊與校對
經(jīng)過系統(tǒng)整理生成的清潔規(guī)范的篇章級對齊單位,需要進(jìn)一步進(jìn)行對齊和校對。我們使用TMX在線對齊工具h(yuǎn)ttps://tmx.yeekit.com/align/#/進(jìn)行語料對齊。該工具支持單文檔或雙文檔對齊,支持世界主流46種語言,能自動識別“一對多”、“多對一”、“多對多”句子對應(yīng)關(guān)系,極大地提高對齊的效率與準(zhǔn)確度。
之后對自動對齊導(dǎo)出的tmx文檔進(jìn)行人工校對。按照規(guī)范和要求,人工調(diào)整源文與譯文之間的對齊關(guān)系,并從格式、標(biāo)記及內(nèi)容等方面對單句進(jìn)行細(xì)節(jié)性修改。
(四)語料檢索工具
本研究使用了TMROBOT語料檢索軟件,該軟件支持中英文雙語查詢,正則模糊搜索。同時支持語料的批量導(dǎo)入共享與批量刪除修改;還具備在線翻譯功能,方便疑難詞的查詢。
本研究還開發(fā)了在線語料查詢網(wǎng)站。將農(nóng)林英漢平行語料庫部署在云服務(wù)器上,以網(wǎng)站的形式展現(xiàn)出來,方便用戶隨時隨地使用。用戶輸入英文或中文,系統(tǒng)將返回含有輸入內(nèi)容的英漢短句及其翻譯。在搜索中允許用戶使用模糊搜索,如“*crop*”,將返回所有含有crop的詞語、短句。在結(jié)果返回中若短句過多將會分頁展示。搜索一個術(shù)語后有多個譯文,則按譯文中含有搜索內(nèi)容的數(shù)量進(jìn)行排序,數(shù)量最多的連同所在句子一起全部出現(xiàn)在最前面,接著是數(shù)量次級的譯文,以此類推。
在線網(wǎng)站上,用戶能夠在留言板提出修改意見或者內(nèi)容報錯,以便管理員進(jìn)入管理員頁面在線對語料條目進(jìn)行增刪改查。開發(fā)人員能夠使用NavicatforMySQL對數(shù)據(jù)庫進(jìn)行可視化操作,批量導(dǎo)入語料、查找刪除修改條目,在日志中查看導(dǎo)入詳情(導(dǎo)入時間、導(dǎo)入條目數(shù)量等等)。
三、結(jié)束語
農(nóng)學(xué)英語語料庫的建設(shè)不僅能給農(nóng)學(xué)教學(xué)帶來極大的便利,更促進(jìn)相關(guān)語言研究工作的順利開展。由于客觀原因,農(nóng)業(yè)英語語料庫的建設(shè)和應(yīng)用仍然存在缺陷,主要表現(xiàn)在語料采集的深度和廣度不夠,但是語料庫不是一次成品,相信在今后的研究中,農(nóng)學(xué)英語語料庫會更加發(fā)展成熟完善,為農(nóng)學(xué)專業(yè)其他學(xué)科的語料庫建設(shè)打下基礎(chǔ),為國內(nèi)同行的類似研究提供一定的啟發(fā),從而為促進(jìn)農(nóng)學(xué)事業(yè)的發(fā)展。[3]
參考文獻(xiàn):
[1]GB/T7714王敏,李麗霞.FAO農(nóng)業(yè)英語語料庫的建設(shè)和應(yīng)用[J].考試周刊,2014(65):83-85.
[2]張永萍,婁瑞娟.農(nóng)林英漢術(shù)語平行語料庫建設(shè)初探[J].北京林業(yè)大學(xué)學(xué)報(社會科學(xué)版),2017,16(4):79-82.
[3]栗娜.淺析農(nóng)業(yè)學(xué)術(shù)英語語料庫建設(shè)思路及設(shè)想[J].高教學(xué)刊,000(18):261-262.
項目基金:四川農(nóng)業(yè)大學(xué)大學(xué)生創(chuàng)新訓(xùn)練項目“建立英漢平行語料庫—以作物學(xué)為例(201810626161)的階段性成果。