宋忱忱 張月輝
摘 要:自建的小型雙語語料庫在翻譯教學和研究領域中應用廣泛,近年來各學者也開始重視這方面的研究。但目前,我國的廣大翻譯研究者中,只有部分學者較為深入此領域,而大多數(shù)人只是淺略了解,缺乏相應的操作經驗。事實上語料庫技術是一項實用類技術,作為使用者的個人應該把主要精力放在內容的選取和呈現(xiàn)方面。本文旨在以翻譯記憶為基礎,嘗試以現(xiàn)有的常見機輔手段構建小型英漢雙語語料庫。
關鍵詞:翻譯記憶;小型英漢雙語語料庫
一、記憶庫
(1)定義。翻譯記憶庫(TM)是一種存儲原文和譯文的數(shù)據(jù)庫系統(tǒng),所存儲的數(shù)據(jù)可供在將來重復使用。在翻譯過程中,當出現(xiàn)相同或相似的句子或短語時,記憶模塊會搜索與原文相同或相似的實例,自動輸出譯文部分,以供譯員參考和修改。使用機輔軟件翻譯的材料越多,記憶庫(TM)存儲的內容就越多,因此譯者的翻譯工作效率也會隨之提高。
(2)應用。共享在線翻譯記憶庫,使譯者間自由選用和參考其他譯員的工作成果成為了可能。使用各類翻譯軟件時,譯員一般要先行建立一個記憶庫以及術語庫(表)。在初次使用且沒有現(xiàn)成記憶庫的情況下,記憶庫則有待慢慢積累,一般規(guī)模較小且只能夠提供有限的參考數(shù)據(jù)。那么,則可以利用雙語對齊工具來初步收集可用語料。其原理就是將原文句段和相應的譯文句段以翻譯單元進行自動配對。若效果偏差過大,則需要手工對齊,譯員可將句段分割開或將句段合并,在自動對齊以后再使用菜單檢查文件檢查對齊結果。最后將這些連好的翻譯單元導出生成相應文件,并最終導入到翻譯記憶庫中。
(3)術語。另一個重要工具就是術語管理系統(tǒng),譯員可以將術語及相關信息儲存于特定的數(shù)據(jù)庫中,即術語庫(termbase)。譯員可建立術語庫,添加和編輯術語,在術語庫中進行瀏覽,搜索,設置篩選條件,并且導出數(shù)據(jù)。在制作術語庫時,不能做得太大,否則運行速度會有所下降;也不宜太小,一方面不方便使用,另一方面,術語庫切換十分消耗時間。鑒于術語庫能夠為譯員提供更一致、更有效的術語管理,此項內容和技術的參考價值并不可忽視。
二、小型翻譯語料庫的構建
在創(chuàng)建自己的語料庫前,首先應根據(jù)該語料庫的用途確定一些基本原則。在實際翻譯作業(yè)中,各譯員多多少少都接觸過術語庫,也使用過一些綜合性翻譯軟件,且對翻譯記憶也有一定了解。但小型語料庫的建立迄今未有明確的標準和規(guī)范,其一般包括語料采集、標注和賦碼的過程。
(1)語料采集和格式轉換。在數(shù)十人參與同一個翻譯項目的情況下,每位譯員之間的交流溝通不僅不夠便利,另一方面也會影響作業(yè)效率。這時就可以在翻譯記憶和術語庫的基礎上,臨時建立小型語料庫以滿足項目的進程要求。尤其對于長期項目來說,此操作可以達到一舉多得事半功倍的效果。
構建語料庫所需語言材料的采集不是隨意的。對小型語料庫建設者來說,語料需要便于搜集、格式統(tǒng)一、內容要根據(jù)實際情況,有針對性地進行篩選。目前,因特網(wǎng)和各種大型電子文庫無疑為我們提供了方便可靠的機讀數(shù)據(jù)來源,然而把網(wǎng)頁內容逐頁下載的做法費時費力,可行性不高。在實際工作中可使用一些免費的小型工具軟件來輔助語料搜集,先進行關鍵詞搜尋,然后將含有關鍵詞的網(wǎng)頁的文字性內容一次性下載。語料庫工具軟件的相應輔助工具,能夠進行關鍵詞網(wǎng)頁搜索并可就網(wǎng)頁內容的語料語言、網(wǎng)頁的最小字數(shù)、語料的最小字數(shù)等條件進行定制,定制完成后就可一次性多線程下載相關網(wǎng)頁。
然而在網(wǎng)頁上采集語料雖然簡單易行,但是要特別注意語料版權的問題。版權問題有時要比語料收集更為復雜。美國版權法中有“合理使用”的條款,指用于非商業(yè)性的研究工作時,可以使用受版權保護文章的部分或全部內容。然而,該“合理使用”也不可以將受版權保護文章節(jié)選2000字以上,并私自用于語料庫發(fā)行。所以,對于個人制作的小型翻譯語料庫要嚴格限定其使用范圍,最好僅供建庫者個人使用,以避免版權糾紛。
(2)語料的賦碼。以上述方式獲得的語料還要清除雜質和多余符號,并統(tǒng)一語料的格式和存放方式。語料最好是每一個文本作為一個獨立文件單獨存放,這樣,研究時就可得出每個文本的統(tǒng)計特征及整個語料庫的總體統(tǒng)計特征。如果語料庫是一個文件,那么就只能檢測出整個語料庫的總體統(tǒng)計特征。語料賦碼工作的第一步通常是加注篇頭(header),即給語料標注篇名、作者、文本、領域、語體、時代、出版信息、文本字數(shù)文本、領域、語體、時代、出版信息、文本字數(shù)等。一般做法是將上述信息分別填入尖括號中并放置在文本第一句前面。加注篇頭目前還沒有自動工具軟件,在建立個人小型語料庫的過程中加注篇頭會耗費相當?shù)臅r間和精力??紤]到小型翻譯語料庫的用途,筆者建議不進行篇頭加注,一般情況下只進行詞性賦碼即可。
(3)語料的整合。語料賦碼完成后,要用語料庫工具軟件將所有語料整合起來。以Transmate為研究對象,譯員可以在語料管理選項下面新建相應的記憶庫,并結合事先導入的可用語料參考資源,不斷豐富和校正新構建的小型語料存儲單元。隨著項目的進展和眾多譯員的添磚加瓦,其翻譯效率也亦可隨之得到提升。
結語:語料庫的建立在全國范圍方興未艾,語料庫及其應用軟件為翻譯教學和科研提供了一個全新的思路和方法。通過個人建立小型翻譯語料庫,廣大翻譯課教師和研究人員可以加深對語料庫這一新的研究領域和科研方法的認識,方便自己的教學和科研工作并能有效克服所謂的“技術恐懼癥”?!霸谡Z料庫研究的許多領域,情勢仍很不穩(wěn)定,難以制定和實施明確、嚴謹?shù)臉藴省?。小型翻譯語料庫作為一個全新的領域,有太多有待解決的問題,即便是小型語料庫的定義目前語料庫語言學界也尚未達成一致意見。以上建立小型翻譯語料庫的方法仍有不成熟、不完備的地方,在此僅供學界參考。
此篇論文為華北理工大學校級創(chuàng)新項目——《醫(yī)學英語機輔漢譯及其語料庫的構建研究》的研究成果之一,項目編號:2018S44
參考文獻
[1]管新潮,胡開寶,張冠男.英漢醫(yī)學平行語料庫的創(chuàng)建與初始應用研究[J].當代外語研究,2011(09):36-41+61.
[2]賴康生,陳京明.淺議小型翻譯語料庫的創(chuàng)建[J].才智,2017(30):146-147.
[3]渠新峰.小型英漢雙語語料庫的建設和應用研究[J].學周刊,2013(28):18.
[4]趙宏展.小型翻譯語料庫的DIY[J].中國科技翻譯,2007(02):31-35.
[5]趙宏展.對小型語料庫的初步研究[J].遼寧行政學院學報,2006(12):214-215.