楊科++王瀟
摘 要藏族文學(xué)典籍對(duì)外譯介如何取得更好的效果?借助計(jì)算機(jī)輔助翻譯軟件技術(shù)提高翻譯效率已成為高校和翻譯業(yè)界普遍探索的方向。本文梳理了目前計(jì)算機(jī)輔助翻譯技術(shù)在中文、英文和藏語翻譯中取得的成績,并提出了針對(duì)于藏英漢三語的計(jì)算機(jī)輔助翻譯系統(tǒng)和藏英漢平行語料庫的設(shè)計(jì)方案,重點(diǎn)圍繞在藏英漢平行語料庫設(shè)計(jì)中所涉及的藏民族文學(xué)典籍語料庫建設(shè)和維護(hù),以及藏英、藏漢雙語句段對(duì)齊等關(guān)鍵問題。
【關(guān)鍵詞】語料庫 建設(shè)框架 藏族文學(xué)典籍 計(jì)算機(jī)輔助翻譯
1 藏族典籍藏英漢語料庫的建設(shè)意義
不同民族有不同的生產(chǎn)生活方式、文化傳統(tǒng)、風(fēng)俗人情等,由此形成了不同的文化資源,這些文化資源是中國少數(shù)民族文獻(xiàn)的重要組成部分。少數(shù)民族文獻(xiàn)是以語言為載體、能夠體現(xiàn)中國特色的文化要素。少數(shù)民族文化作為其不可或缺的重要組成部分,是我國各族人民共同擁有的寶貴精神財(cái)富和資源。而少數(shù)民族文獻(xiàn)是記錄有關(guān)少數(shù)民族在不同時(shí)期、不同地域、不同學(xué)科,以不同方式進(jìn)行社會(huì)實(shí)踐的知識(shí)和經(jīng)驗(yàn)總結(jié)的所有載體。通過文字、圖像、音頻、視頻等多種途徑和媒介譯介少數(shù)民族文獻(xiàn),這對(duì)世界了解中國傳統(tǒng)文化精髓和少數(shù)民族的文化魅力,具有重要的現(xiàn)實(shí)意義。
傳統(tǒng)的譯介載體主要是紙質(zhì)文件和口頭翻譯。不論是文學(xué)譯著,還是合同文書,都采用紙質(zhì)文件的形式保管和傳播??陬^翻譯傳統(tǒng)上包括同聲傳譯、交替翻譯和陪同翻譯。但多途徑譯介不僅包括傳統(tǒng)的紙質(zhì)和口頭形式,還應(yīng)充分利用當(dāng)前的多媒體手段,以便達(dá)到更好的保管和傳播效果。
調(diào)查顯示,目前雙語語料庫有GCEPC ( General Chinese-English Parallel Corpus,北京外國語大學(xué)通用漢英對(duì)應(yīng)語料庫),ZCTC ( ZJU Corpus of Translational Chinese,浙江大學(xué)漢語譯文語料庫),ECCC ( English-Chinese Classics Corpus,英漢名著翻譯語料庫),ECPCSP( English-Chinese Parallel Corpus of Shakespeare's Plays,莎劇英漢平行語料庫),LPCC( Literature Parallel Corpus for Children,兒童文學(xué)平行語料庫) 以及各種多譯本語料庫。盡管這些語料庫的類型和目的各異,但針對(duì)少數(shù)民族語言并不多見。涉及少數(shù)民族語言與英語的雙語語料庫,更是少之又少;而考慮到翻譯成本、時(shí)間、精確度以及雙語翻譯人才的缺乏,建立一個(gè)這樣的雙語語料庫尤為顯得尤為重要。
“英語翻譯語料庫大都是把真實(shí)的、已正式出版的譯文匯集起來,并可用計(jì)算機(jī)對(duì)其語言現(xiàn)象進(jìn)行統(tǒng)計(jì)、比較和分析”。語料庫有多種類型,確定類型的主要依據(jù)是它的研究目的和用途。“美國學(xué)者馬克·本德爾認(rèn)為中國少數(shù)民族文獻(xiàn)翻譯主要有三種途徑:(一)基于第二種語言材料的翻譯;(二)同樣也是在第二語言的基礎(chǔ)上進(jìn)行的翻譯;(三)直接從語言A到語言B的翻譯”。第三種途徑可以減少兩次翻譯產(chǎn)生的“失真”,最大程度保留原文本的語言信息和文體風(fēng)格。但這種途徑對(duì)譯者提出很高要求,若是少數(shù)民族譯者,需精通英語并對(duì)其民族的文化有所感悟總結(jié),若是英語國家譯者,需要長期生活在少數(shù)民族地區(qū),深入了解至少一個(gè)少數(shù)民族的生活習(xí)慣、文化習(xí)俗、地理歷史。藏語民族典籍英譯雙語語料庫建設(shè)完成后,可以系統(tǒng)地為科研人員提供一個(gè)統(tǒng)一的規(guī)范的文獻(xiàn)翻譯來源,便于藏語語言學(xué)的研究和藏文信息處理等方面的科研的進(jìn)行。
2 藏族文學(xué)典籍藏英漢語料庫多模態(tài)建設(shè)框架研究
對(duì)于如何構(gòu)建語料庫主要總結(jié)幾個(gè)方面:
(1)對(duì)于語素原料方面的收集,包括人名、醫(yī)藥名稱、重要?dú)v史資料典故以及藏傳佛教專門術(shù)語等不常見的特殊名詞。
(2)利用現(xiàn)代科技技術(shù)多媒體等方式用圖像手段進(jìn)行某些特定詞匯的錄入:比如“通過建立藏文人名構(gòu)成詞的成分屬性詞典,動(dòng)態(tài)生成人名庫,利用傳統(tǒng)文法中人名上下文信息特征的文法規(guī)則建立藏文人名上下文指示詞庫對(duì)人名自動(dòng)識(shí)別的方法?!?/p>
(3)在文字語料庫建設(shè)的同時(shí),需要針對(duì)藏族語言具體情況,積累語音、視頻、圖畫等多種形式的資料庫,為深入研究準(zhǔn)備。
具體來講,根據(jù)做過的積累, 初步籌建:臧英民族事務(wù)語料庫;藏英文學(xué)典籍語料庫等具有特色和前期基礎(chǔ)的語料庫。
3 具體實(shí)施策略
3.1 創(chuàng)建過程中的難點(diǎn)及解決辦法
創(chuàng)建語料庫的過程中,難點(diǎn)在于語料對(duì)齊。語料對(duì)齊有篇章、段落、句子、短語、詞語幾個(gè)截然不同的層次。如果用計(jì)算機(jī)程序做自動(dòng)對(duì)齊,那不同的層次所要解決的問題也不同。如:
段落對(duì)齊:每種語言的每個(gè)段落都有其獨(dú)特的標(biāo)志,所以段落對(duì)齊是最簡(jiǎn)單的也是最容易實(shí)現(xiàn)的。
句子對(duì)齊:在翻譯的過程中,語料大都來自人工翻譯, 句子之間并不都是一對(duì)一的翻譯模式, 還有一對(duì)多、多對(duì)多的翻譯模式;兩種語言中對(duì)應(yīng)譯文的句子長度不盡相等等原因?qū)е戮渥訉?duì)齊難度不小。在這里,舉例“基于詞典的漢藏句子對(duì)齊,使用的是在動(dòng)態(tài)規(guī)劃的框架下,尋找最優(yōu)對(duì)齊路徑的算法。
3.2 語料庫建設(shè)過程
3.2.1 語料選擇與收集
在建設(shè)少數(shù)民族和英語雙語語料庫之前,為了讓翻譯者更好的通過觀察和描寫其翻譯語言,充分利用雙語平行對(duì)應(yīng)的語料,需要大量積累少數(shù)民族文獻(xiàn)典籍素材。其次,翻譯者需掌握少數(shù)民族語言與英語之間的轉(zhuǎn)換規(guī)律,為之后的翻譯研究、翻譯實(shí)踐等奠定堅(jiān)實(shí)的基礎(chǔ)。具體有特點(diǎn)的有圖像與多媒體技術(shù)藏文人名自動(dòng)識(shí)別研究。目前的藏文人名識(shí)別研究大多通過英語、漢語等語種的方法來研究藏文人名的識(shí)別,比如在《統(tǒng)計(jì)與規(guī)則相結(jié)合的藏文人名自動(dòng)識(shí)別研究》一文中,“在處理漢族音譯人名情況時(shí),采用姓氏驅(qū)動(dòng)的方法,很好地解決了藏文文本中漢族人名的識(shí)別問題。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的準(zhǔn)確率和召回率?!?