亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從雙語平行語料庫到翻譯記憶庫

        2012-04-08 09:29:43李毅鵬
        關(guān)鍵詞:建庫語料平行

        李毅鵬

        (東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語系,廣東 東莞 523808)

        從雙語平行語料庫到翻譯記憶庫

        李毅鵬

        (東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語系,廣東 東莞 523808)

        雙語平行語料庫是一種獨(dú)特的語料庫,專門用于研究雙語翻譯,培養(yǎng)和訓(xùn)練翻譯人員,提升翻譯教學(xué)與實(shí)踐水平。翻譯記憶庫最主要存在于計(jì)算機(jī)輔助翻譯系統(tǒng)中,屬于一種“簡單”的語料庫,其原理、結(jié)構(gòu)和作用與雙語平行語料庫有許多相同之處,將對此進(jìn)行深入探討。

        雙語平行語料庫;翻譯記憶庫;翻譯研究

        一 引言

        語料庫與翻譯記憶庫均屬于語言數(shù)據(jù)庫。語料庫先于翻譯記憶庫出現(xiàn),語料庫出現(xiàn)之初主要應(yīng)用于語言學(xué)領(lǐng)域,如詞性、句法、語義、二語習(xí)得、修辭和辭典編撰等研究。隨著語料庫規(guī)模的擴(kuò)大以及相關(guān)技術(shù)的成熟,其他與語言相關(guān)的領(lǐng)域也相繼運(yùn)用語料庫對一些課題進(jìn)行研究,如新興的語料庫翻譯學(xué)就是其中一個(gè)典范,語料庫為研究翻譯顯性做出了巨大貢獻(xiàn)。語料庫,尤其是雙語平行語料庫,在翻譯實(shí)踐方面的應(yīng)用潛力也十分巨大。翻譯記憶庫則是計(jì)算機(jī)輔助翻譯系統(tǒng)的核心和翻譯工作站的主要部分,從廣義來講,它屬于一種“簡單”的雙語平行語料庫,與普通雙語平行語料庫在結(jié)構(gòu)和應(yīng)用等方面都有許多相似之處,在發(fā)展過程中,兩者相互促進(jìn),相互借鑒,互補(bǔ)不足。

        二 雙語平行語料庫

        語料是語言的記錄,是研究語言和翻譯的重要素材。按照一定的語言原則,運(yùn)用隨機(jī)抽樣方法收集自然出現(xiàn)的連續(xù)的語言,運(yùn)用文本或話語片段建成的具有一定容量的大型電子文本庫就是一個(gè)語料庫。[1]語料庫主要分為三類:可比語料庫、多語語料庫和平行語料庫。多語語料庫用于研究翻譯文本的風(fēng)格,為研究翻譯文本提供有效的參考系數(shù);可比語料庫在翻譯研究中最具應(yīng)用潛力,主要用于研究深層次的翻譯問題,如翻譯規(guī)范性等;平行語料庫,主要有詞語級(jí)別、句子級(jí)別和段落級(jí)別平行語料庫,同時(shí)它還分為單向平行語料庫和雙向平行語料庫,其主要應(yīng)用于翻譯實(shí)踐、翻譯教學(xué)、翻譯研究、譯員培訓(xùn)、詞典編撰和機(jī)器翻譯等領(lǐng)域,是與翻譯領(lǐng)域最接近的一種語料庫。

        雙語平行語料庫與其他語料庫最大區(qū)別在于所收集的語料類型和所涉及的語料處理過程。雙語平行語料庫收集的都是原語與目的語一一對應(yīng)的雙語語料,包括詞詞對應(yīng),句句對應(yīng),段段對應(yīng)或是篇篇對應(yīng),有些平行語料庫需要句子長度對應(yīng)的語料。語料對應(yīng)程度和翻譯質(zhì)量將直接影響雙語平行語料庫的質(zhì)量和建設(shè)進(jìn)程。雙語平行語料庫除了要對所收集的語料精挑細(xì)選,進(jìn)行格式和標(biāo)記處理,還需對語料進(jìn)行最為重要的對齊處理。語料對齊的精準(zhǔn)程度關(guān)系到整個(gè)平行語料庫的存亡。

        三 翻譯記憶庫

        翻譯記憶庫是一種用于儲(chǔ)存原文與對應(yīng)譯文的語言數(shù)據(jù)庫。[2]翻譯記憶庫主要存在于計(jì)算機(jī)輔助翻譯系統(tǒng)中,它憑借計(jì)算機(jī)高速處理能力將待翻譯原文與庫中每一個(gè)原語句子進(jìn)行匹對分析,然后根據(jù)匹配率進(jìn)行排名,將達(dá)到譯者要求的匹配率的庫中原文的譯文瞬間顯示給譯者參考,協(xié)助譯員完成翻譯工作;在譯員對一個(gè)新翻譯單元(如句子)翻譯完畢后,記憶庫會(huì)自動(dòng)將剛才完成的譯文與原文組成完全匹配對并收錄到記憶庫中,記憶庫規(guī)模通過此動(dòng)作得到不斷擴(kuò)充。

        翻譯記憶庫主要協(xié)助譯者開展工作, 譯者得到達(dá)到自己設(shè)定的匹配率要求的原文的譯文后,可根據(jù)實(shí)際情況,完全采用譯文或略作修改后使用或完全不使用。如果譯者選擇完全采用匹配率達(dá)到100%的已有原文的譯文,記憶庫將不會(huì)修改已有的譯文也不會(huì)重新收錄新的譯文;如果譯者對已有譯文進(jìn)行修改后再使用,記憶庫將對新的原文與譯文配對,并收錄到記憶庫中; 對于記憶庫沒有提供參考譯文的“新原文”,記憶庫同樣會(huì)將翻譯后的譯文與原文配對并收錄到庫中。在此過程中,記憶庫收錄的都是匹配率達(dá)100%的精確對齊的語料。

        翻譯記憶庫記錄了譯者從開始使用記憶庫以來翻譯過的所有原文和對應(yīng)的譯文,是譯者翻譯軌跡的最佳見證。無論是翻譯工作者個(gè)體還是翻譯團(tuán)隊(duì),只要他們一直使用已建立的記憶庫并沒有改變所從事的翻譯領(lǐng)域,翻譯記憶庫對他們的作用將會(huì)越來越顯現(xiàn)。當(dāng)記憶庫伴隨他們工作至一定時(shí)間或一定量時(shí),它給翻譯工作帶來的變化會(huì)從量變上升到質(zhì)變,譯者們也會(huì)越來越依賴記憶庫。

        翻譯記憶庫對譯者工作意義重大,但發(fā)展卻十分緩慢。目前允許共享使用的翻譯記憶庫幾乎沒有 ,具有一定規(guī)模并得到公認(rèn)的翻譯記憶庫還沒出現(xiàn)。究其原因,主要有三個(gè):第一,翻譯記憶庫存儲(chǔ)了翻譯個(gè)人或團(tuán)隊(duì)翻譯過的所有語料,是他們所有工作經(jīng)驗(yàn)的積累,他們對此尤其珍惜,將其視為自己無形無價(jià)的財(cái)產(chǎn)和核心競爭力,不會(huì)輕易與他人分享;第二,翻譯記憶庫記錄的是個(gè)人或團(tuán)隊(duì)的“筆跡”,是他們翻譯風(fēng)格翻譯習(xí)慣的集中體現(xiàn),如果開放了使用權(quán),其他譯者可修改庫里的譯文,這是記憶庫所有者所不想見到的;第三,翻譯記憶庫沒有對經(jīng)濟(jì)發(fā)展產(chǎn)生直接影響,而且過于專業(yè),社會(huì)對此關(guān)注不足,科研部門沒有給予其足夠的支持,特別是項(xiàng)目支持。

        四 雙語平行語料庫與翻譯記憶庫

        從以上分析不難看出,雙語平行語料庫主要用于翻譯領(lǐng)域或語言學(xué)領(lǐng)域,而翻譯記憶庫一般只用于翻譯領(lǐng)域,但從兩者所收錄的語料、結(jié)構(gòu)和作用角度分析,它們確實(shí)存在許多共同之處。

        1.語料與結(jié)構(gòu)。

        許多專家學(xué)者在建設(shè)雙語平行的語料庫的時(shí)候,會(huì)預(yù)留一定時(shí)間“順便”地建立一個(gè)與語料庫規(guī)模相約的翻譯記憶庫。雙語平行語料庫被認(rèn)為是一個(gè)升級(jí)版的翻譯記憶庫,兩者建立的過程步驟和所使用的工具基本相同,記憶庫較語料庫簡單,建立一個(gè)記憶庫所需時(shí)間大概是建立一個(gè)與其相同容量雙語平行語料庫的二分之一。

        語料選擇,無論是語料庫還是記憶庫都必須根據(jù)建庫目的選擇和篩選語料。一般來說,雙語平行語料庫因應(yīng)用領(lǐng)域廣,其收錄的語料也會(huì)較為全面;相對而言,翻譯記憶庫專業(yè)性較強(qiáng),其收錄的語料非常具有針對性。但無論怎樣,它們所收錄的語料都是原語與譯語一一對應(yīng)的,因此它們的語料都屬于已譯語料,對于沒有對應(yīng)譯文的語料,建庫者只能將其翻譯后再放入庫中。兩種庫對翻譯精確都有嚴(yán)格的要求。

        語料處理,它是兩者的生命線。語料處理的質(zhì)量決定了兩庫的存亡。兩庫收集的粗糙語料都必須經(jīng)過篩選、分類和格式處理,以方便使用。我們都將所有的語料按重要性和質(zhì)量進(jìn)行篩選,并按專業(yè)、主題、時(shí)間、來源、原語等進(jìn)行分類,同時(shí)將全部語料轉(zhuǎn)化為純文本格式。

        語料對齊,它是語料處理最重要的過程。語料對齊是指通過軟件或人工手段,將原語文本中的每個(gè)段落或每個(gè)句子與譯語文本中其對應(yīng)的段落或句子進(jìn)行配對。雖然語料分類和格式轉(zhuǎn)換已將初始語料整理得工整有序,但其仍然無法被雙語平行語料庫和翻譯記憶庫收錄使用,因?yàn)檎Z料還沒進(jìn)行雙語對齊。在對齊之前需規(guī)定對齊的標(biāo)準(zhǔn),目前公認(rèn)的是以句為單元的句句對齊。對于對齊工具的選擇,一些大型的平行語料庫有專屬的對齊工具,而翻譯記憶庫所在的計(jì)算機(jī)輔助翻譯系統(tǒng)中,一般也會(huì)附帶一套對齊工具。一般來說,只要已對齊語料的格式符合要求,均可被兩庫收錄使用。無論是在建設(shè)雙語平行語料庫還是翻譯記憶庫過程中,語料對齊都會(huì)出現(xiàn)一些共同毛病。在對齊過程中,軟件對齊速度遠(yuǎn)高于人工對齊速度,所以一般以自動(dòng)對齊為主,人工對齊為輔,但自動(dòng)對齊結(jié)果往往出現(xiàn)一些小毛病。對于這些小錯(cuò)誤,可通過使用對齊軟件自帶的拆分和合并功能解決;對于原文或譯文的信息有所缺失、冗余或錯(cuò)譯的語言單元,只能由譯員重新翻譯然后再對齊;而對于出現(xiàn)對齊嚴(yán)重混亂語料,對齊人員需解除所有已配對單元,重新檢查原語語料和譯語語料中各種標(biāo)記符。對于原文單元與譯文單元長度相差太遠(yuǎn)的情況,需采用獨(dú)特的處理方法,如將一個(gè)太長的英語句子按照句法結(jié)構(gòu)和語義,適當(dāng)?shù)夭鸱譃閹讉€(gè)小句,或者將幾個(gè)過短的小句進(jìn)行合并處理。

        在兩種庫的建設(shè)中,語料收集和處理過程大同小異,運(yùn)用的方法和工具,甚至所遇問題都幾乎相同,這是它們的相同之處。在完成語料對齊以后得到的是已完全精確對齊的語料,已可以錄入庫中使用。對于在建設(shè)雙語平行語料庫過程中,“順便地”建立起來的翻譯記憶庫也完成了,建庫人員可直接將已經(jīng)完成對齊處理的語料復(fù)制多一份,然后直接導(dǎo)入到一個(gè)新建立的空的翻譯記憶庫當(dāng)中,導(dǎo)入成功后意味著記憶庫已經(jīng)正式“竣工”可交付使用了,譯員可以直接利用此記憶庫中收錄的雙語平行語料進(jìn)行輔助翻譯。

        對于翻譯記憶庫來說,完成了語料對齊就意味著整個(gè)建庫過程基本完成了,但對于雙語平行語料庫來說,建庫工作還沒有結(jié)束。為了讓語料庫在翻譯和語言研究領(lǐng)域發(fā)揮最大作用,建庫人員還會(huì)對語料庫里所有的語料進(jìn)行標(biāo)注。當(dāng)前語料標(biāo)注主要有兩種方法:詞性標(biāo)注和句法標(biāo)注。詞性標(biāo)注可使用軟件完成,精確度高,基本不需人工干涉;句法標(biāo)注具有巨大實(shí)用價(jià)值,可惜目前仍沒有精準(zhǔn)的句法標(biāo)注軟件,所有句法標(biāo)注過程必須由人工完成,大部分雙語平行語料庫的語料都有詞性標(biāo)注。完成了語料的標(biāo)注后,雙語平行語料庫建庫過程也基本結(jié)束,經(jīng)過測試和評估后,可交付使用。

        2.兩種庫的維護(hù)與更新。

        隨著語言的發(fā)展和譯者的需要,同時(shí)為了保持這兩種庫的活力和時(shí)效性。兩種庫的負(fù)責(zé)人均需對庫進(jìn)行周期性的維護(hù)和更新。兩庫的維護(hù)過程基本相同,主要是檢測使用情況、所涉軟件的運(yùn)行情況,并對用戶反映的問題進(jìn)行處理;而兩庫的更新則差異較大。雙語平行語料庫更新主要由于大眾語言的發(fā)展變化或所處領(lǐng)域發(fā)生了一些變化,導(dǎo)致新語料出現(xiàn)和舊語料發(fā)生了改變,如技術(shù)的優(yōu)勝劣汰,技術(shù)創(chuàng)新等,其更新動(dòng)作主要是添加和修改。語料庫更新需要耗費(fèi)較多的人力物力,且實(shí)際的語言變化和行業(yè)發(fā)展有一定的時(shí)間需要,所以更新頻率不宜也不必過于頻繁,雙語平行語料庫更新周期一般為1—2年。翻譯記憶庫更新主要依賴協(xié)同翻譯過程。在翻譯過程中,記憶庫會(huì)將產(chǎn)生的所有新語料對一一收錄到記憶庫中,對于被修改過的譯文也會(huì)采取替換或覆蓋方法收錄下來,整個(gè)更新過程由軟件自動(dòng)完成。因此,相對于雙語平行語料庫,記憶庫的更新較為簡單。

        綜上所述,從建庫到使用,再到維護(hù)更新,雙語平行語料庫與翻譯記憶庫具有許多相通之處和可借鑒之處,尤其是兩者收錄的語料類型相似度非常高,相互兼容性強(qiáng)。兩者發(fā)展過程相互促進(jìn),相互依賴。如上文所說,翻譯記憶庫得到的支持和重視遠(yuǎn)不如雙語平行語料庫,但翻譯記憶庫得到雙語平行語料庫語料分享后,翻譯記憶庫已經(jīng)獲得了迅猛發(fā)展。在許多雙語平行語料庫開放使用權(quán)限的背景下,已有幾個(gè)較大的翻譯記憶庫計(jì)劃通過一定的手段在互聯(lián)網(wǎng)上實(shí)行共享,以促進(jìn)翻譯行業(yè)和相關(guān)行業(yè)的發(fā)展。

        [1]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002:33.

        [2]Bowker, L.(2002). Computer-aided Translation Technology: A Practical Introduction, Ottawa: University of Ottawa Press.93.

        ClassNo.:H315.9DocumentMark:A

        (責(zé)任編輯:蔡雪嵐)

        FromaBilingualParallelCorpustoTranslationMemory

        Li Yipeng

        Bilingual parallel corpora is a special kind of corpora. It specializes bilingual translation study and the translator training and improvement of translation practice. Translation memories mainly exist in computer-aided translation systems. They considered as“simple” Corpora have numerous similarities in principle, structure and role with the bilingual parallel corpora. This paper is devoted to discussing these similarities.

        bilingual parallel corpus;translation memory;translation study

        李毅鵬,碩士,講師,東莞職業(yè)技術(shù)學(xué)院。研究方向:語料庫翻譯學(xué)、計(jì)算機(jī)輔助翻譯。

        1672-6758(2012)12-0063-2

        H315.9

        A

        猜你喜歡
        建庫語料平行
        向量的平行與垂直
        平行
        逃離平行世界
        面向建庫與制圖一體化的規(guī)則研究
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        中文期刊回溯建庫的實(shí)踐與思考——以貴州省圖書館為例
        再頂平行進(jìn)口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        免费av网站大全亚洲一区| 久久精品性无码一区二区爱爱| 自拍视频国产在线观看| 精品一区二区三区久久久| 麻豆视频在线观看免费在线观看| 三级黄色片免费久久久| 色一情一区二区三区四区| 国产高清无码在线| 免费啪啪av人妻一区二区 | 国产精品一区二区av不卡| 久久99国产精一区二区三区| 无码中文字幕在线DVD| 人妻少妇久久精品一区二区 | 2021久久精品国产99国产| 国产一区资源在线播放| 亚洲精品第一国产综合精品| 欧美黑人疯狂性受xxxxx喷水| 无码专区亚洲avl| 熟妇人妻精品一区二区视频免费的| 性生交片免费无码看人| 欧美人与物videos另类xxxxx| 亚洲双色视频在线观看| 中文字幕隔壁人妻欲求不满| 无码乱人伦一区二区亚洲一| 中字无码av电影在线观看网站| 日本一区二区啪啪视频| 无码日韩精品一区二区免费暖暖| 精品无码人妻一区二区三区| 欧美日韩一区二区三区视频在线观看 | 日本亚洲视频免费在线看| 亚洲欧洲国产成人综合在线| 五十路熟妇亲子交尾| 99精品国产av一区二区| 久久久国产精品123| 久久夜色精品国产欧美乱| 91最新免费观看在线| 国产av精选一区二区| 欧美人牲交| 99热这里只有精品4| 亚洲天堂av路线一免费观看| 亚洲情综合五月天|