亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

藏族文學(xué)典籍藏英漢語料庫多模態(tài)建設(shè)框架

2017-06-10 20:02:01楊科王瀟

電子技術(shù)與軟件工程 2017年11期

楊科++王瀟

摘要藏族文學(xué)典籍對(duì)外譯介如何取得更好的效果？借助計(jì)算機(jī)輔助翻譯軟件技術(shù)提高翻譯效率已成為高校和翻譯業(yè)界普遍探索的方向。本文梳理了目前計(jì)算機(jī)輔助翻譯技術(shù)在中文、英文和藏語翻譯中取得的成績，并提出了針對(duì)于藏英漢三語的計(jì)算機(jī)輔助翻譯系統(tǒng)和藏英漢平行語料庫的設(shè)計(jì)方案，重點(diǎn)圍繞在藏英漢平行語料庫設(shè)計(jì)中所涉及的藏民族文學(xué)典籍語料庫建設(shè)和維護(hù)，以及藏英、藏漢雙語句段對(duì)齊等關(guān)鍵問題。

【關(guān)鍵詞】語料庫建設(shè)框架藏族文學(xué)典籍計(jì)算機(jī)輔助翻譯

1 藏族典籍藏英漢語料庫的建設(shè)意義

不同民族有不同的生產(chǎn)生活方式、文化傳統(tǒng)、風(fēng)俗人情等，由此形成了不同的文化資源，這些文化資源是中國少數(shù)民族文獻(xiàn)的重要組成部分。少數(shù)民族文獻(xiàn)是以語言為載體、能夠體現(xiàn)中國特色的文化要素。少數(shù)民族文化作為其不可或缺的重要組成部分，是我國各族人民共同擁有的寶貴精神財(cái)富和資源。而少數(shù)民族文獻(xiàn)是記錄有關(guān)少數(shù)民族在不同時(shí)期、不同地域、不同學(xué)科，以不同方式進(jìn)行社會(huì)實(shí)踐的知識(shí)和經(jīng)驗(yàn)總結(jié)的所有載體。通過文字、圖像、音頻、視頻等多種途徑和媒介譯介少數(shù)民族文獻(xiàn)，這對(duì)世界了解中國傳統(tǒng)文化精髓和少數(shù)民族的文化魅力，具有重要的現(xiàn)實(shí)意義。

傳統(tǒng)的譯介載體主要是紙質(zhì)文件和口頭翻譯。不論是文學(xué)譯著，還是合同文書，都采用紙質(zhì)文件的形式保管和傳播?？陬^翻譯傳統(tǒng)上包括同聲傳譯、交替翻譯和陪同翻譯。但多途徑譯介不僅包括傳統(tǒng)的紙質(zhì)和口頭形式，還應(yīng)充分利用當(dāng)前的多媒體手段，以便達(dá)到更好的保管和傳播效果。

調(diào)查顯示，目前雙語語料庫有GCEPC （ General Chinese-English Parallel Corpus，北京外國語大學(xué)通用漢英對(duì)應(yīng)語料庫），ZCTC （ ZJU Corpus of Translational Chinese，浙江大學(xué)漢語譯文語料庫），ECCC （ English-Chinese Classics Corpus，英漢名著翻譯語料庫），ECPCSP（ English-Chinese Parallel Corpus of Shakespeare's Plays，莎劇英漢平行語料庫），LPCC（ Literature Parallel Corpus for Children，兒童文學(xué)平行語料庫）以及各種多譯本語料庫。盡管這些語料庫的類型和目的各異，但針對(duì)少數(shù)民族語言并不多見。涉及少數(shù)民族語言與英語的雙語語料庫，更是少之又少；而考慮到翻譯成本、時(shí)間、精確度以及雙語翻譯人才的缺乏，建立一個(gè)這樣的雙語語料庫尤為顯得尤為重要。

“英語翻譯語料庫大都是把真實(shí)的、已正式出版的譯文匯集起來，并可用計(jì)算機(jī)對(duì)其語言現(xiàn)象進(jìn)行統(tǒng)計(jì)、比較和分析”。語料庫有多種類型，確定類型的主要依據(jù)是它的研究目的和用途。“美國學(xué)者馬克·本德爾認(rèn)為中國少數(shù)民族文獻(xiàn)翻譯主要有三種途徑：（一）基于第二種語言材料的翻譯；（二）同樣也是在第二語言的基礎(chǔ)上進(jìn)行的翻譯；（三）直接從語言A到語言B的翻譯”。第三種途徑可以減少兩次翻譯產(chǎn)生的“失真”，最大程度保留原文本的語言信息和文體風(fēng)格。但這種途徑對(duì)譯者提出很高要求，若是少數(shù)民族譯者，需精通英語并對(duì)其民族的文化有所感悟總結(jié)，若是英語國家譯者，需要長期生活在少數(shù)民族地區(qū)，深入了解至少一個(gè)少數(shù)民族的生活習(xí)慣、文化習(xí)俗、地理歷史。藏語民族典籍英譯雙語語料庫建設(shè)完成后，可以系統(tǒng)地為科研人員提供一個(gè)統(tǒng)一的規(guī)范的文獻(xiàn)翻譯來源，便于藏語語言學(xué)的研究和藏文信息處理等方面的科研的進(jìn)行。

2 藏族文學(xué)典籍藏英漢語料庫多模態(tài)建設(shè)框架研究

對(duì)于如何構(gòu)建語料庫主要總結(jié)幾個(gè)方面：

（1）對(duì)于語素原料方面的收集，包括人名、醫(yī)藥名稱、重要?dú)v史資料典故以及藏傳佛教專門術(shù)語等不常見的特殊名詞。

（2）利用現(xiàn)代科技技術(shù)多媒體等方式用圖像手段進(jìn)行某些特定詞匯的錄入：比如“通過建立藏文人名構(gòu)成詞的成分屬性詞典，動(dòng)態(tài)生成人名庫，利用傳統(tǒng)文法中人名上下文信息特征的文法規(guī)則建立藏文人名上下文指示詞庫對(duì)人名自動(dòng)識(shí)別的方法?！?/p>

（3）在文字語料庫建設(shè)的同時(shí)，需要針對(duì)藏族語言具體情況，積累語音、視頻、圖畫等多種形式的資料庫，為深入研究準(zhǔn)備。

具體來講，根據(jù)做過的積累，初步籌建：臧英民族事務(wù)語料庫；藏英文學(xué)典籍語料庫等具有特色和前期基礎(chǔ)的語料庫。

3 具體實(shí)施策略

3.1 創(chuàng)建過程中的難點(diǎn)及解決辦法

創(chuàng)建語料庫的過程中，難點(diǎn)在于語料對(duì)齊。語料對(duì)齊有篇章、段落、句子、短語、詞語幾個(gè)截然不同的層次。如果用計(jì)算機(jī)程序做自動(dòng)對(duì)齊，那不同的層次所要解決的問題也不同。如：

段落對(duì)齊：每種語言的每個(gè)段落都有其獨(dú)特的標(biāo)志，所以段落對(duì)齊是最簡(jiǎn)單的也是最容易實(shí)現(xiàn)的。

句子對(duì)齊：在翻譯的過程中，語料大都來自人工翻譯，句子之間并不都是一對(duì)一的翻譯模式，還有一對(duì)多、多對(duì)多的翻譯模式；兩種語言中對(duì)應(yīng)譯文的句子長度不盡相等等原因?qū)е戮渥訉?duì)齊難度不小。在這里，舉例“基于詞典的漢藏句子對(duì)齊，使用的是在動(dòng)態(tài)規(guī)劃的框架下，尋找最優(yōu)對(duì)齊路徑的算法。

3.2 語料庫建設(shè)過程

3.2.1 語料選擇與收集

在建設(shè)少數(shù)民族和英語雙語語料庫之前，為了讓翻譯者更好的通過觀察和描寫其翻譯語言，充分利用雙語平行對(duì)應(yīng)的語料，需要大量積累少數(shù)民族文獻(xiàn)典籍素材。其次，翻譯者需掌握少數(shù)民族語言與英語之間的轉(zhuǎn)換規(guī)律，為之后的翻譯研究、翻譯實(shí)踐等奠定堅(jiān)實(shí)的基礎(chǔ)。具體有特點(diǎn)的有圖像與多媒體技術(shù)藏文人名自動(dòng)識(shí)別研究。目前的藏文人名識(shí)別研究大多通過英語、漢語等語種的方法來研究藏文人名的識(shí)別，比如在《統(tǒng)計(jì)與規(guī)則相結(jié)合的藏文人名自動(dòng)識(shí)別研究》一文中，“在處理漢族音譯人名情況時(shí)，采用姓氏驅(qū)動(dòng)的方法，很好地解決了藏文文本中漢族人名的識(shí)別問題。實(shí)驗(yàn)結(jié)果表明，該方法具有較高的準(zhǔn)確率和召回率?！?