亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)的建設(shè)及應(yīng)用研究

        2016-12-06 08:52:54李葆衛(wèi)
        關(guān)鍵詞:權(quán)威

        李葆衛(wèi)

        (西藏民族大學(xué)外語(yǔ)學(xué)院 陜西咸陽(yáng) 712082)

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)的建設(shè)及應(yīng)用研究

        李葆衛(wèi)

        (西藏民族大學(xué)外語(yǔ)學(xué)院 陜西咸陽(yáng) 712082)

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)是以迄今為止中國(guó)政府發(fā)布的12部涉藏白皮書的漢英文本為語(yǔ)料構(gòu)建的平行語(yǔ)料庫(kù),主要為西藏各級(jí)政府的對(duì)外宣傳,高校涉藏翻譯教學(xué),翻譯軟件的開發(fā)及大型涉藏漢英平行語(yǔ)料庫(kù)的建設(shè)服務(wù),因此具有重大的應(yīng)用前景。

        西藏白皮書;漢英平行語(yǔ)料庫(kù);文本對(duì)齊

        一、前 言

        語(yǔ)料庫(kù)是一個(gè)按照一定的采樣標(biāo)準(zhǔn)采集而來(lái)的、代表一種語(yǔ)言或者某語(yǔ)言的一種變體或文類的電子文本集。近些年來(lái),語(yǔ)料庫(kù)的建設(shè)與研究發(fā)展迅速,其中平行語(yǔ)料庫(kù)的建設(shè)引起了更多學(xué)者的關(guān)注。雙語(yǔ)平行語(yǔ)料庫(kù)中的語(yǔ)料來(lái)自兩種語(yǔ)言,它們互相對(duì)應(yīng),一種語(yǔ)言是另一種語(yǔ)言的譯文。目前,因?yàn)榇蠖鄶?shù)雙語(yǔ)平行語(yǔ)料庫(kù)都做到了句子間對(duì)齊,所以雙語(yǔ)平行語(yǔ)料庫(kù)對(duì)人工翻譯研究和機(jī)器翻譯研究具有重要的意義。[1]

        白皮書是一個(gè)國(guó)家政府對(duì)重要的問題正式發(fā)表的官方文件,也是得到國(guó)際公認(rèn)的正式政府文件,因其慣用白色封面裝幀,所以又稱“白皮書”。白皮書具有立場(chǎng)鮮明,行文規(guī)范,語(yǔ)言簡(jiǎn)練的特點(diǎn)。自1991年發(fā)布第一部白皮書,截至2015年9月底,中國(guó)政府已發(fā)表了98部白皮書,[2]內(nèi)容涉及政治、經(jīng)濟(jì)、文化、人權(quán)、國(guó)防以及民族政策等方面。這些白皮書全面、準(zhǔn)確地介紹中國(guó)政府在上述重大問題上的原則、立場(chǎng)、政策、主張和取得的進(jìn)步,因此受到了國(guó)際社會(huì)的廣泛關(guān)注,成為研究中國(guó)政府政策的主要情報(bào)來(lái)源。迄今為止,“中國(guó)政府西藏白皮書”共發(fā)布12部,占全部發(fā)表白皮書的近1/6,反映了中央政府對(duì)西藏自治區(qū)的高度重視。中國(guó)政府白皮書的外文譯本一般由國(guó)務(wù)院新聞辦公室下設(shè)的專門機(jī)構(gòu)負(fù)責(zé),外文譯本在立場(chǎng)觀點(diǎn)及法律效力上等同于漢語(yǔ)文本,是國(guó)家對(duì)外宣傳的重要手段與方式。

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)是主要以12部關(guān)于西藏的白皮書的漢語(yǔ)及其對(duì)應(yīng)的英語(yǔ)文本為語(yǔ)料的專用語(yǔ)料庫(kù),能為西藏自治區(qū)各級(jí)政府部門的對(duì)外宣傳翻譯實(shí)踐提供指導(dǎo)與借鑒,具有維護(hù)國(guó)家原則立場(chǎng)與政治主張準(zhǔn)確;統(tǒng)一的重要作用。目前,以涉藏政府文件為內(nèi)容的專題語(yǔ)料庫(kù)的建設(shè)在我國(guó)及西藏自治區(qū)尚屬空白。因此,在一定程度上本研究填補(bǔ)了涉藏政府文件英漢雙語(yǔ)語(yǔ)料庫(kù)的空白,具有創(chuàng)新性與實(shí)踐性的特點(diǎn)。

        二、語(yǔ)料庫(kù)的建設(shè)

        (一)設(shè)計(jì)目的

        本語(yǔ)料庫(kù)的建設(shè)有以下三個(gè)服務(wù)目標(biāo)與目的:

        1、為西藏對(duì)外宣傳服務(wù)

        西方對(duì)西藏的報(bào)道“大多是負(fù)面的”。[3]一方面是因?yàn)槲鞣綌硨?duì)勢(shì)力操作輿論對(duì)我國(guó)政府蓄意進(jìn)行歪曲與詆毀;另一方面也是因?yàn)槲覀兊膶?duì)外宣傳做的不足。這要求西藏自治區(qū)各級(jí)地方政府不斷加大對(duì)外宣傳客觀真實(shí)的西藏,不斷宣傳西藏所取得的發(fā)展與成就,以事實(shí)來(lái)回?fù)糌?fù)面輿論。英語(yǔ)作為世界主流媒體語(yǔ)言之一,是對(duì)外宣傳必須使用的語(yǔ)言。但是作為政治敏感度較高的地區(qū),西藏對(duì)外宣傳的稍微不慎都會(huì)給西方持?jǐn)硨?duì)態(tài)度的反華輿論提供可乘之機(jī)與攻訐的口實(shí)。因此,在對(duì)外宣傳中保證國(guó)家政策、政治立場(chǎng)與觀點(diǎn)的準(zhǔn)確、清晰并與中央保持高度一致是對(duì)外宣傳的基本出發(fā)點(diǎn)。本研究擬建成的“中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)就是為對(duì)外宣傳提供可靠保證。它是我國(guó)涉藏官方正式文件漢英文本的匯編,屬于專門用途的單向?qū)?yīng)語(yǔ)料庫(kù),旨在為西藏自治區(qū)人民政府和西藏自治區(qū)外事僑務(wù)辦公室等對(duì)外宣傳工作提供準(zhǔn)確、規(guī)范、權(quán)威與統(tǒng)一的漢英雙語(yǔ)對(duì)照政策語(yǔ)料。

        2、為涉藏翻譯研究以及翻譯教學(xué)實(shí)踐服務(wù)

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)也可以為西藏自治區(qū)及國(guó)內(nèi)外高校各級(jí)研究機(jī)構(gòu)的涉藏翻譯研究提供翔實(shí)的涉藏政府文件雙語(yǔ)對(duì)照語(yǔ)料。建成后的漢英平行語(yǔ)料庫(kù)則可直接用作翻譯素材,為對(duì)外宣傳的翻譯教學(xué)提供準(zhǔn)確的實(shí)踐與研究實(shí)例。

        3、為翻譯軟件的開發(fā)及大型涉藏漢英平行語(yǔ)料庫(kù)的建設(shè)服務(wù)

        語(yǔ)料庫(kù)建設(shè)中未標(biāo)注的平行文本將可直接用作翻譯記憶,為CAT翻譯軟件提供涉藏翻譯記憶,從而為以后的涉藏翻譯項(xiàng)目提供支持。涉藏術(shù)語(yǔ)標(biāo)注將為涉藏術(shù)語(yǔ)的收集和識(shí)別提供基礎(chǔ),為開發(fā)涉藏翻譯軟件提供前期準(zhǔn)備。同時(shí),本平行語(yǔ)料庫(kù)的研發(fā)將為研制大型涉藏漢英平行語(yǔ)料庫(kù)的建設(shè)提供實(shí)踐機(jī)會(huì)和技術(shù)準(zhǔn)備。

        (二)語(yǔ)料庫(kù)構(gòu)成

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)共收錄12本白皮書及其英語(yǔ)譯文,包括:《西藏的主權(quán)歸屬與人權(quán)狀況》1992、《西藏自治區(qū)人權(quán)事業(yè)新發(fā)展》1998、《西藏文化的發(fā)展》2000、《西藏現(xiàn)代化發(fā)展》2001、《西藏的生態(tài)建設(shè)與環(huán)境保護(hù)》2003、《西藏的民族區(qū)域自治》2004、《西藏文化的保護(hù)與發(fā)展》2008、《西藏民主改革50年》2009、《西藏和平解放60年》2011、《西藏的發(fā)展與進(jìn)步》2013年、《西藏發(fā)展道路的歷史選擇》2015、《民族區(qū)域自治制度在西藏的成功實(shí)踐》2015。

        作為專門用途語(yǔ)料庫(kù),語(yǔ)料選取不遵循通用語(yǔ)料庫(kù)的抽樣原則,而是對(duì)其中的漢英語(yǔ)料進(jìn)行全文收錄。按照一般的平行語(yǔ)料庫(kù)的庫(kù)容計(jì)算方式,英語(yǔ)以詞數(shù)為計(jì),漢語(yǔ)以字?jǐn)?shù)為計(jì),該庫(kù)初步設(shè)計(jì)為445774字/詞,結(jié)合英漢字詞比,英語(yǔ)179465詞,漢語(yǔ)266309字。同時(shí),隨著新的“中國(guó)政府西藏白皮書”的出版發(fā)行,該庫(kù)也將作動(dòng)態(tài)收集并更新,因此庫(kù)容也會(huì)隨研究深入而增加。

        (三)語(yǔ)料收集

        1、語(yǔ)料來(lái)源

        為了保證語(yǔ)料的完整與正確性,所有白皮書的漢語(yǔ)文件與部分英語(yǔ)文件均取自“國(guó)務(wù)院新聞辦公室”網(wǎng)站(www.scio.gov.cn)中“政府白皮書”一欄,部分白皮書的英文版來(lái)自外文出版社正式出版的中國(guó)政府白皮書。

        2、存儲(chǔ)格式

        鑒于收集到的文本存儲(chǔ)介質(zhì)類別不同,所有文本不管處理與否,都需要留好原始文本的備份,以方便返回檢視。若為紙質(zhì)文本,則需要借助掃描儀掃描并進(jìn)行OCR識(shí)別為Word文本,再轉(zhuǎn)存為UTF-8格式的TXT文本;若為圖片類存儲(chǔ)的PDF文本,則仍需要借助軟件識(shí)別為Word文本,并轉(zhuǎn)為TXT文本;若PDF文本可直接轉(zhuǎn)為Word文本,然后繼續(xù)轉(zhuǎn)為TXT文本;Word文本則同樣直接轉(zhuǎn)為

        TXT文本??傊械恼Z(yǔ)料文本都需要轉(zhuǎn)為UTF-8的TXT純文本格式。

        3、文件命名

        以字母、數(shù)字和下劃線的編號(hào)方式來(lái)進(jìn)行,原則上力求文件名簡(jiǎn)短明晰,語(yǔ)料統(tǒng)一收錄在同名文件夾“Collection of White Paper by XX”文件夾中,XX為收錄人姓名首字母大寫。在文件夾內(nèi)按各自所負(fù)責(zé)的文件數(shù)量新建子文件夾,分別命名為D1,D2,D3等,D指documents。在子文件夾中以網(wǎng)頁(yè)、word文檔、純文本文檔三種形式保存語(yǔ)料及元信息。因此,假設(shè)語(yǔ)料文本是“《西藏主權(quán)歸屬與人權(quán)狀況》1992”,該文件由LBW收集,則文件編號(hào)為L(zhǎng)BW_N_DW_1992_Ch.txt,其英語(yǔ)翻譯文本則為L(zhǎng)BW_N_DW_1992_En.txt,對(duì)齊后的雙語(yǔ)文本則為L(zhǎng)BW_N_DW_1992_CE.txt,或者以翻譯記憶交換格式存儲(chǔ)的TMX文本。

        4、校對(duì)

        語(yǔ)料的內(nèi)容及文本格式需要檢查,以確定內(nèi)容完整無(wú)誤,以及是否存在亂碼。校對(duì)文本命名編號(hào),細(xì)致校對(duì)掃描識(shí)別后的文本。

        (四)語(yǔ)料的再加工

        1、語(yǔ)料處理

        收集完成的語(yǔ)料,利用正則表達(dá)式清潔文本、去除冗余信息。例如,對(duì)文本的空行,段首尾的空白等無(wú)意義的信息進(jìn)行批量清理。

        2、文本存儲(chǔ)

        在得到清潔文本后,將所有文本復(fù)制為三個(gè)文件夾內(nèi)存儲(chǔ)。第一個(gè)存儲(chǔ)作為原始語(yǔ)料。第二個(gè)用來(lái)標(biāo)示元文本信息。第三個(gè)則用來(lái)進(jìn)行平行語(yǔ)料對(duì)齊。另建一個(gè)Excel表用來(lái)記錄各個(gè)文本的元信息。

        3、元信息標(biāo)注

        元文本信息包括題目、發(fā)布者、時(shí)間等,使用XML格式進(jìn)行人工標(biāo)注。例如:

        〈Metadata〉

        〈Title〉Successful Practice of Regional Ethnic Autonomy in Tibet〈/Title〉

        〈Language〉EN〈/Language〉

        〈Type〉Document〈/Type〉

        〈Publisher〉SCIO〈/Publisher〉

        〈Publication_Year〉2015〈/Publication_Year〉

        〈URL〉http://www.scio.gov.cn/zfbps/32832/Docu? ment/1447091/1447091.htm〈/URL〉

        〈Contributor〉Li〈/Contributor〉

        〈Proofreader〉Zhou〈/Proofreader〉

        〈/Metadata〉

        4、語(yǔ)料對(duì)齊

        語(yǔ)料之間的平行對(duì)齊是平行語(yǔ)料庫(kù)建設(shè)的核心所在,平行對(duì)齊質(zhì)量的高低直接影響語(yǔ)料庫(kù)質(zhì)量的好壞。Bowker討論了對(duì)齊的單位問題,指出句級(jí)對(duì)齊應(yīng)是雙語(yǔ)平行語(yǔ)料庫(kù)建設(shè)中較為適合的對(duì)齊方式。[4]我們以漢語(yǔ)句子為主進(jìn)行切分,英語(yǔ)譯文句子與漢語(yǔ)對(duì)齊。我們采用ABBYY Aligner軟件進(jìn)行自動(dòng)對(duì)齊,但自動(dòng)對(duì)齊的語(yǔ)料存在諸多錯(cuò)誤,需要各部分負(fù)責(zé)人逐句進(jìn)行人工校對(duì)。對(duì)齊后進(jìn)行校對(duì)。校對(duì)完成后將所有文件保存為兩種格式,一種為翻譯記憶交換格式TMX文件,可以直接用作翻譯記憶;另一種則為帶表格式的純文本文件,用于詞性標(biāo)注。

        5、語(yǔ)料標(biāo)注

        語(yǔ)料庫(kù)標(biāo)注過程復(fù)雜,全方位標(biāo)注的語(yǔ)料庫(kù)并不常見,大部分語(yǔ)料庫(kù)根據(jù)自身需要和現(xiàn)有的人力軟件等條件有選擇地進(jìn)行標(biāo)注?!爸袊?guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)擬對(duì)平行語(yǔ)料中的中英文句子進(jìn)行詞性標(biāo)注。英語(yǔ)句子的詞性標(biāo)注擬使用Go Tagger軟件或CLAWS POS Tagger,漢語(yǔ)分詞及標(biāo)注擬使用ICTCLAS漢語(yǔ)分詞軟件。標(biāo)注完后保存并復(fù)制為兩個(gè)文件夾,其中一個(gè)文件夾內(nèi)文本使用程序?qū)刹糠址蛛x進(jìn)行標(biāo)注的文本重新合并為平行文本,從而成為經(jīng)過詞性標(biāo)注的平行文本。另外一個(gè)文本在經(jīng)過詞性標(biāo)注后,將進(jìn)一步進(jìn)行人工標(biāo)注,對(duì)涉藏術(shù)語(yǔ)進(jìn)行標(biāo)注。詞性標(biāo)注后的文本都將進(jìn)行人工校對(duì)。

        6、涉藏術(shù)語(yǔ)提取

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)擬對(duì)白皮書語(yǔ)料中涉藏專有名詞進(jìn)行提取及語(yǔ)義標(biāo)注,建成動(dòng)態(tài)的漢英單向翻譯術(shù)語(yǔ)庫(kù),為涉藏漢英術(shù)語(yǔ)翻譯提供參考。涉藏術(shù)語(yǔ)標(biāo)注將確定新的涉藏詞語(yǔ)碼類,對(duì)一些涉藏專名進(jìn)行分類編碼,力求簡(jiǎn)明清晰。結(jié)果依舊需要人工校對(duì)。

        (五)語(yǔ)料庫(kù)出版與在線檢索

        待詞性標(biāo)注完成后,所形成的未分詞的文本可以作為翻譯記憶用來(lái)進(jìn)行翻譯教學(xué)或翻譯項(xiàng)目工作,而分詞文本與標(biāo)注文本則可通過各類自由的單

        語(yǔ)或雙語(yǔ)平行檢索軟件進(jìn)行離線檢索,至此,其語(yǔ)料庫(kù)功能已可以得到發(fā)揮。至于其出版和在線檢索,則需要等各類文本解決完版權(quán)問題后,才可進(jìn)行。

        三、語(yǔ)料庫(kù)的運(yùn)用

        漢英平行語(yǔ)料庫(kù)的語(yǔ)料由整理好的漢英白皮書文本經(jīng)過保存而構(gòu)成。啟動(dòng)Paraconc,載入語(yǔ)料,就可以開始使用“中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)。本語(yǔ)料庫(kù)的主要作用體現(xiàn)在以下三個(gè)方面:

        第一,通過檢索關(guān)鍵詞,可以提供準(zhǔn)確、權(quán)威、一致的翻譯實(shí)例。

        “民族團(tuán)結(jié)”

        例如,“民族團(tuán)結(jié)”、“和平解放”、《十三法典》。

        第二,能對(duì)漢譯英、英譯漢雙語(yǔ)搭配等進(jìn)行全面考察。

        例如,漢語(yǔ)詞“堅(jiān)持”及其對(duì)應(yīng)英語(yǔ)詞“adhere to”在漢語(yǔ)及英語(yǔ)中的各自搭配。

        第三,查詢各類主題,起到政策庫(kù)的作用。

        例如,了解國(guó)家對(duì)“民族”的確認(rèn),對(duì)“西藏教育”的投入等。

        由此可見,本語(yǔ)料庫(kù)具有開放性、便捷性、連貫性三大特點(diǎn):

        漢語(yǔ)詞“堅(jiān)持”的搭配

        1、開放性。本語(yǔ)料庫(kù)是一個(gè)開放的系統(tǒng),隨著國(guó)家新的涉藏白皮書的發(fā)表,可以及時(shí)擴(kuò)充語(yǔ)料;2、便捷性。本語(yǔ)料庫(kù)可以迅速地檢查出涉藏專業(yè)

        術(shù)語(yǔ)的英文對(duì)應(yīng)詞及該詞所在的句子;3、連貫性。通過檢索專業(yè)術(shù)語(yǔ)可以發(fā)現(xiàn)國(guó)家在重大問題上的一貫表述與立場(chǎng),也可以了解某個(gè)民生問題的發(fā)展情況。

        四、結(jié) 語(yǔ)

        “中國(guó)政府西藏白皮書”漢英平行語(yǔ)料庫(kù)是一個(gè)開放的語(yǔ)料庫(kù),隨時(shí)收入新的涉藏白皮書,以保持最全、最新、最權(quán)威的特點(diǎn)。整個(gè)庫(kù)的建設(shè)通過建立課題小組,吸收對(duì)此有濃厚興趣的研究者加入,同時(shí)也吸納一定的學(xué)生,以增強(qiáng)學(xué)生的動(dòng)手能力??傊?,詳細(xì)的論證與細(xì)致科學(xué)的分工,為白皮書語(yǔ)料庫(kù)的建設(shè)奠定了堅(jiān)實(shí)的基礎(chǔ)。它將為西藏自治區(qū)的對(duì)外宣傳提供準(zhǔn)確、統(tǒng)一、權(quán)威的指導(dǎo),并可以服務(wù)于相關(guān)翻譯研究及教學(xué)實(shí)踐,因此具有重大的應(yīng)用前景。

        [1]梁茂成,李文中,許家金.語(yǔ)料庫(kù)應(yīng)用教程[M].北京:外語(yǔ)教育與研究出版社,2010.

        [2]國(guó)務(wù)院新聞辦公室網(wǎng)站www.scio.gov.cn

        [3]傳媒在線http://news.xinhuanet.com

        [4]Bowker,Lynne.Computer-Aided Translation Technology [M].Ottawa:University of Ottawa Press,2002.

        [責(zé)任編輯 劉曉艷]

        [校 對(duì) 夏 陽(yáng)]

        D635;H315.9

        A

        1003-8388(2016)05-0141-06

        2016-03-16

        李葆衛(wèi)(1973-),男,陜西岐山人,現(xiàn)為西藏民族大學(xué)外語(yǔ)學(xué)院講師,博士,主要研究方向?yàn)橥鈬?guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)。

        本文系西藏民族大學(xué)西藏文化傳承發(fā)展協(xié)同創(chuàng)新中心立項(xiàng)課題“‘中國(guó)政府西藏白皮書’漢英平行語(yǔ)料庫(kù)建設(shè)及應(yīng)用研究”(項(xiàng)目號(hào):XT15003);西藏民族大學(xué)校內(nèi)科研立項(xiàng)“關(guān)聯(lián)視角:言語(yǔ)幽默分析”(項(xiàng)目號(hào):14myy06)的階段性成果。

        猜你喜歡
        權(quán)威
        各大權(quán)威媒體聚焦流翔高鈣
        跟蹤督察:工作干得實(shí) 權(quán)威立得起
        權(quán)威發(fā)布
        電影(2017年6期)2017-06-24 11:01:26
        權(quán)威信息
        權(quán)威信息
        權(quán)威信息
        權(quán)威信息
        權(quán)威信息
        權(quán)威信息
        權(quán)威信息
        又大又长粗又爽又黄少妇视频| 天天综合天天爱天天做| 亚洲女优中文字幕在线观看| av无码精品一区二区三区| 精品偷拍被偷拍在线观看| 亚洲成av人片在线观看ww| 亚洲暴爽av人人爽日日碰| 成人国产精品一区二区网站| 人人狠狠综合久久亚洲| 亚洲精品老司机在线观看 | 男人的天堂在线无码视频| 亚洲一区二区情侣| 精品中文字幕久久久人妻| 亚洲一区第二区三区四区| 亚洲av成人无码久久精品老人| 欧美一性一乱一交一视频| 亚洲精品国产成人无码区a片| 国产精品三级一区二区按摩| 亚洲一区二区三区一站| 中文字幕综合一区二区| 老熟女的中文字幕欲望| 国产成人精品一区二区不卡| 国产精品美女久久久浪潮av| 最新手机国产在线小视频| 热热久久超碰精品中文字幕 | 一区二区三区在线观看人妖| 丁香婷婷在线成人播放视频| 又大又紧又粉嫩18p少妇| 日本精品人妻无码77777| 国产成人啪精品| 亚洲国产av剧一区二区三区| 亚洲中文字幕精品久久久| 国产在线视频一区二区天美蜜桃| 国产成人喷潮在线观看| 人成午夜免费大片| 91情侣在线精品国产免费| 一区二区三区在线乱码 | 国产v片在线播放免费无码| 又污又爽又黄的网站| 99精品成人片免费毛片无码| 男女啦啦啦视频在线观看|