亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中央文獻(xiàn)翻譯語料庫采集方法及適用性研究

        2022-01-01 13:41:52天津外國語大學(xué)朱華
        區(qū)域治理 2021年21期
        關(guān)鍵詞:術(shù)語語料語料庫

        天津外國語大學(xué) 朱華

        一、語料庫的定義及發(fā)展

        在人類語言活動過程中,記錄了大量的語言資料。隨著國際交往的增多以及全球化的縱深發(fā)展,翻譯活動的需求急劇增加。在翻譯學(xué)習(xí)、教學(xué)和研究過程中,諸多學(xué)者和業(yè)界人士希望總結(jié)和歸納對應(yīng)的規(guī)律,或者對特有語言現(xiàn)象、語言轉(zhuǎn)換及翻譯效果進(jìn)行大規(guī)模的評估。因此,需要大量的語言資料,尤其是雙語或多語言對應(yīng)的語言資料。在此背景下,語料庫應(yīng)用和研究逐漸發(fā)展和繁榮起來。語料庫的形式多種多樣,比如從語言對而言,既有單語、也有雙語及多語對照語料庫;從內(nèi)容而言,既有通識類也有特定專門用途的領(lǐng)域語料等。隨著計算機(jī)科技尤其是數(shù)據(jù)庫技術(shù)的不斷發(fā)展進(jìn)步,語料采集、分析和利用的方法也日新月異。之前大型研究機(jī)構(gòu)才能擁有的軟件和工具,也逐漸走進(jìn)普通研究者和學(xué)習(xí)者的日常工作中,比如隨著CAT工具的推廣和應(yīng)用,幾乎所有的翻譯學(xué)習(xí)者都可以利用這些工具和軟件建立自己的平行語料庫,用于翻譯記憶或者研究。

        在上述背景下,語料庫的內(nèi)涵和定義也適時發(fā)生變化,且對于語料庫本身而言,針對用途不同,定義也有所差異。本文主要針對語言研究的語料庫,故而采用如下定義:

        Corpus n.(pl.corpora) refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.(Rayson, 2008)

        整體而言,語料庫是指經(jīng)優(yōu)化處理過的電子文本集合,可通過計算機(jī)輔助工具在庫中進(jìn)行語言研究或者應(yīng)用研究。

        二、語料庫的類型及特點(diǎn)

        語料庫劃分標(biāo)準(zhǔn)不同,擁有眾多類型。比如,根據(jù)研究目的和意義可分為異質(zhì)型(Heterogeneous)、同質(zhì)型(Homogeneous)、系統(tǒng)型(Systematic)、專用型(Specialized)等。后兩類數(shù)據(jù)庫是目前的主流類型,在語料搜集初期就會有明確的目的以及語料規(guī)模大小的控制,整體而言,此類語料庫比較平衡和系統(tǒng),經(jīng)過嚴(yán)密的搜集原則限制以及過程控制,能夠代表某一特定范圍內(nèi)的語言事實(shí),并且會按照既定設(shè)計思路,優(yōu)化分析過程,得到相應(yīng)的預(yù)期結(jié)果。最后一類只收集特定用途語料,但范圍更精準(zhǔn)、導(dǎo)向性更明確(廖七一,2000),適合于小規(guī)模,精細(xì)化的優(yōu)良數(shù)據(jù)分析,或者用于詞典編纂、翻譯教學(xué)、譯文效果分析等。

        如前文而言,對于語言研究尤其是翻譯研究來說,我們可以根據(jù)語料庫的語種或者語言對的方向,將其分為單語、雙語和多語。與此同時,我們又可以按照語料的采集單位,也就是對其文本的規(guī)模和大小,將其分為語篇、語句和短語型等。在此基礎(chǔ)上,雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語詞典編撰等領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,此類語料庫多用于語言對比研究(胡開寶,2012)。

        語料庫具有真實(shí)性、基礎(chǔ)性和操控性特征,要求存放的資料必須是實(shí)際使用的真實(shí)語言材料,具備基礎(chǔ)性的特征,另外也要具有加工屬性,如對齊、切割、分析和處理等操控和加工后方能成為有用資源(何中清,2011)。除此之外,當(dāng)代語料庫還具有動態(tài)性和流通性的屬性,語料會及時增加,進(jìn)行交換甚至是銷售等活動。

        三、語料庫的采集方法

        數(shù)據(jù)庫采集最常用的方法是對齊技術(shù)(Alignment),通過使用對齊雙語或多語語料的軟件或工具,做出平行語料庫或者對照語料庫。前者指庫中的兩種或多種文本互相是對方的譯文,常用于翻譯或者機(jī)器翻譯研究。

        傳統(tǒng)的語料采集采用的多是人工方式。隨著計算機(jī)技術(shù)的進(jìn)步及數(shù)據(jù)庫技術(shù)的發(fā)展,語料采集和分析工具層出不窮,給語言研究帶來了切實(shí)的便利性。對于翻譯工作者而言,語料采集應(yīng)用的軟件主要包括利用CAT工具建立雙語或多語平行文本;使用AntConc、Sketch Engine、Tmxmall、語智云帆術(shù)語寶等工具進(jìn)行語料庫整理、術(shù)語提取和分析等。對于中央文獻(xiàn)而言,我們主要的目的是用于雙語和多語詞典編纂、翻譯教學(xué)指導(dǎo)以及機(jī)器翻譯引擎訓(xùn)練等用途,所以平行語料庫,即對齊文本類型的語料庫同專用語料庫的結(jié)合更為適合。

        在此處著重介紹應(yīng)用CAT工具進(jìn)行雙語文本對齊,建立雙語語料庫。在主流的CAT工具如memoQ和Trados中,有一項專門為語料庫設(shè)計的功能,也就是雙語對齊。雙語對齊之前,首先需要建立一個翻譯記憶庫TM,翻譯記憶庫的主要目的是存儲翻譯過程中的翻譯單元,可以是雙語也可以是多語言。從本質(zhì)來說,翻譯記憶庫是一種簡單形式的語料庫,可以作為后續(xù)分析使用語料庫的基礎(chǔ)。打開無論是memoQ還是Trados的雙語對齊面板,需要做的就是將原來單語文本分別導(dǎo)入,系統(tǒng)會根據(jù)算法自動切割翻譯單元,并且會根據(jù)翻譯單元進(jìn)行自動匹配,匹配結(jié)果的好壞會用不同顏色或者匹配率標(biāo)注出來。隨后語料庫制作者需要逐句段確認(rèn)匹配結(jié)果,如果匹配結(jié)果沒有問題,予以確認(rèn)并隨時存入到庫中,如果發(fā)現(xiàn)匹配單元不一致,可進(jìn)行相應(yīng)調(diào)整,常見的作法是切割或合并句段單元,可以進(jìn)行1:1匹配,可以進(jìn)行1:n或者n:n匹配。待所有句段匹配完畢后,確認(rèn)并導(dǎo)入翻譯記憶庫TM,后續(xù)可以根據(jù)需要,導(dǎo)出不同格式進(jìn)行分析或者應(yīng)用。

        上述方法為精細(xì)匹配或者專門用途語料庫的制作。但在現(xiàn)實(shí)應(yīng)用中,會發(fā)現(xiàn)很多已有翻譯資產(chǎn)零散存放,或者并不能完全匹配,或者匹配時需要的人工成本較高,這時我們可以使用單語語料庫或者混雜類型語料庫,比如可以應(yīng)用memoQ中的LiveDocs功能,此時,我們可以將單語、雙語或者混合型資料導(dǎo)入庫中,存成語料庫格式,在翻譯或者研究過程中應(yīng)用。隨著翻譯自動化程度的不斷提升,我們不僅可以在翻譯過程中應(yīng)用語料庫,在翻譯教學(xué)中演示語料庫,也可以根據(jù)需求,比如同機(jī)器翻譯結(jié)合,進(jìn)行自有機(jī)器引擎的自適應(yīng)訓(xùn)練。根據(jù)已有語料庫類型進(jìn)行風(fēng)格化處理,影響機(jī)器翻譯的結(jié)果,從而有效地優(yōu)化和提升翻譯效率和翻譯質(zhì)量。

        對于零散語料而言,我們還可以在語料庫制作前進(jìn)行術(shù)語提取。術(shù)語庫TB在語料庫建立過程中同樣至關(guān)重要,對于術(shù)語而言,在譯前、譯中和譯后三個階段都可開展。比如在譯前,可以根據(jù)算法計算出特定詞語出現(xiàn)的頻率,在排除掉停用詞之后,對該詞組賦值,根據(jù)賦值大小可以推導(dǎo)出其作為術(shù)語的置信度,大大減輕人工成本,且有效提高準(zhǔn)確度。在譯中和譯后過程中同樣如此,可將雙語文本分別導(dǎo)入術(shù)語提取工具,根據(jù)頻率等進(jìn)行賦值后優(yōu)化匹配,后只需譯者或者研究者人工確定即可。在此過程中,置信度、賦值、頻率均可作為有效的研究目標(biāo)和數(shù)據(jù)進(jìn)行采集或者標(biāo)注。

        總而言之,科技的進(jìn)步和數(shù)據(jù)采集方式的優(yōu)化,讓大規(guī)模精細(xì)化建立語料庫成為可能。此外,語料庫結(jié)果的多元和動態(tài)展示,也讓結(jié)果更直觀和鮮明地呈現(xiàn)出來,使整個研究過程的意義得到凸顯。

        四、中央文獻(xiàn)語料庫采集應(yīng)用及適用性研究

        語料庫建立之后,可以用不同的工具進(jìn)行分析,如單機(jī)版本的AntConc或者在線的Sketch Engine等工具,可進(jìn)行索引、定位、“N元模式”(N-Gram)、搭配(Collocates)、詞 單(Word List)、關(guān)鍵詞單(Keyword List)等操作,全方位、多角度調(diào)用語料庫進(jìn)行相關(guān)分析和研究。

        對于中央文獻(xiàn)翻譯適用性而言,這些重要的文獻(xiàn)對黨在國際上形象的塑造和話語權(quán)的建立具有至關(guān)重要的意義。中央文獻(xiàn)翻譯工作者的初心和使命是闡釋好中國理論,傳遞好中國觀念。通過中央文獻(xiàn)語料庫的采集和建立,可以進(jìn)一步剖析譯者如何理解和踐行作為黨的聲音的傳播者、闡釋者和勸說者的身份和立場(王麗麗,2018),并且可以通過大規(guī)模文本分析以及譯文效果分析,對增強(qiáng)政治意識、時代意識、歷史意識和效果意識具有重要的意義,此外,根據(jù)政治文獻(xiàn)的特點(diǎn)采取相應(yīng)的翻譯策略對學(xué)生培養(yǎng)也有至關(guān)重要的意義。

        猜你喜歡
        術(shù)語語料語料庫
        《語料庫翻譯文體學(xué)》評介
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        有感于幾個術(shù)語的定名與應(yīng)用
        從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
        語料庫語言學(xué)未來發(fā)展趨勢
        免费人成年小说在线观看| 国产内射视频在线免费观看 | 国产精品无码一区二区在线观一| 亚洲欧美另类激情综合区| 亚洲欧美另类精品久久久| 中文字幕一区二区三区在线看一区| 日本免费一区二区三区影院| 午夜福利av无码一区二区| 俺也去色官网| 永久免费在线观看蜜桃视频| 久久96日本精品久久久| 欧美老熟妇喷水| 国产久热精品无码激情 | 亚洲二区三区四区太九| 丁香花五月六月综合激情| 日本久久高清一区二区三区毛片| 999国产精品视频| 日韩精品免费一区二区中文字幕| 亚洲中文字幕舔尻av网站| 日本人与黑人做爰视频网站| 亚洲 日韩 在线精品| 久久精品伊人久久精品伊人| 久久精品中文字幕| 亚洲精品久久久久久| 99热高清亚洲无码| 亚洲国产中文字幕一区| 欧美放荡的少妇| 日本高清中文字幕一区二区三区| 人妻1024手机看片你懂的| 人成午夜大片免费视频77777| 国产香蕉97碰碰视频va碰碰看| 无码av永久免费大全| 久久久精品国产免费看| 精品三级av无码一区| 亚洲国产午夜精品乱码| 最新日本免费一区二区三区| 曰韩内射六十七十老熟女影视 | 欧美极品少妇性运交| 日本高清中文一区二区三区| 手机免费在线观看av网址| 无码精品人妻一区二区三区人妻斩|