亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隴藥漢英平行語料庫構(gòu)建研究

        2017-04-19 01:49:41陳偉
        中國中醫(yī)藥信息雜志 2017年4期
        關(guān)鍵詞:語料平行語料庫

        陳偉

        定西師范高等專科學(xué)校外語系,甘肅 定西 743000

        隴藥漢英平行語料庫構(gòu)建研究

        陳偉

        定西師范高等??茖W(xué)校外語系,甘肅 定西 743000

        雙語平行語料庫是專門用途英語(ESP)翻譯研究的新視角。本文以隴藥 10種大宗道地中藥材為研究對象,收集權(quán)威出版物關(guān)于隴藥的中英文對照文獻(xiàn),建立大型隴藥漢英平行語料庫,并就該庫構(gòu)建的具體步驟——語料庫的設(shè)計,語料的采集、加工、平行對齊和檢索等進(jìn)行了詳細(xì)分析,可為中藥英譯提供參考。

        隴藥;平行語料庫;中醫(yī)英語;語料庫建設(shè)

        中醫(yī)英語是英語語言在中醫(yī)藥對外翻譯與交流過程中逐漸形成的一種獨特的英語表達(dá)體系。在中醫(yī)國際化進(jìn)程中,中醫(yī)藥翻譯的重要性日益凸顯,其質(zhì)量在一定程度上影響中醫(yī)藥在國際上的認(rèn)可及推廣程度。甘肅中藥材資源豐富,其大宗道地藥材通稱隴藥。隴藥是甘肅物質(zhì)文化的重要組成部分,在華夏文明傳承創(chuàng)新區(qū)的建設(shè)中,相關(guān)翻譯不僅是對外傳播中醫(yī)的重要渠道,也是傳承文化的橋梁,但目前隴藥英譯良莠不齊。為此,筆者將語料庫數(shù)據(jù)驅(qū)動技術(shù)引入相關(guān)翻譯,建設(shè)隴藥漢英平行語料庫(English-Chinese Parallel Corpus of Gansu Medicine,ECPCGM),為隴藥英譯提供參考。

        1 研究現(xiàn)狀述評

        1.1 平行語料庫

        隨著專門用途英語(ESP)的發(fā)展,專門用途平行語料庫也得到相應(yīng)發(fā)展。中醫(yī)英譯研究引入語料庫數(shù)據(jù)驅(qū)動技術(shù)的設(shè)想肇始于 21世紀(jì)初,目前呈現(xiàn)零星發(fā)展態(tài)勢。中醫(yī)英漢平行語料庫的研究經(jīng)歷了2個階段。一是設(shè)想階段(2003-2009年),學(xué)者從宏觀方面提出了建庫設(shè)想和理論原則。聞永毅[1]提出中醫(yī)英語語料庫建設(shè)構(gòu)想及意義,并一直致力于《黃帝內(nèi)經(jīng)》語料庫研究;薛學(xué)彥[2]從建立中醫(yī)英語語料庫設(shè)想方面提出建庫方案;倪傳斌[3]從中醫(yī)英語語料庫建設(shè)原則方面解析了具體實施方法。但這些研究并不能直接指向?qū)嵺`。二是創(chuàng)建階段(2009年至今),學(xué)者提出了建立中醫(yī)平行語料庫細(xì)節(jié)問題及解決方案。管新潮等[4]開始了英漢醫(yī)學(xué)平行語料庫的創(chuàng)建與初始應(yīng)用研究,蘭彩玉[5]則設(shè)計并構(gòu)建中藥漢英雙語平行語料庫。另外,蘭鳳利等[6]基于自建的中醫(yī)典籍漢英雙語語料庫,分析了“經(jīng)絡(luò)”與“脈”的翻譯,認(rèn)為“vessel”指人體內(nèi)三維的管道,是對“經(jīng)脈”的恰當(dāng)譯語。蔣明佳[7]以人民網(wǎng)英文版為語料來源,建立“中醫(yī)藥英文報道專門用途小型語料庫”,分析了中醫(yī)藥對外報道,指出中醫(yī)藥對外英文報道應(yīng)以中醫(yī)藥歷史文化為核心。這些研究拓展了中醫(yī)典籍翻譯的研究視野,深化了中醫(yī)典籍翻譯研究。然而,以上研究是以中英文著作為范本進(jìn)行研究,選料單一,研究面窄且不夠深入,尚未建成實現(xiàn)網(wǎng)絡(luò)檢索的中醫(yī)典籍漢英語料庫。此外,2013年和2014年的國家社會科學(xué)基金指南仍有平行語料庫創(chuàng)建和應(yīng)用項目,表明平行語料庫的創(chuàng)建和應(yīng)用還不太成熟,中醫(yī)藥平行語料庫也不例外。

        1.2 隴藥對外宣傳英譯研究

        甘肅是全國中藥材優(yōu)勢主產(chǎn)區(qū)之一,人工種植面積位居全國第三,中藥材品種豐富,質(zhì)地優(yōu)良?,F(xiàn)有藥用品種1527種,2012年甘肅省將當(dāng)歸、白條黨參、紋黨、黃芪、紅芪、大黃、柴胡、甘草、板藍(lán)根9種藥材確定為甘肅道地大宗中藥材,包括半夏在內(nèi),業(yè)內(nèi)有“十大隴藥”之說。為實現(xiàn)把隴藥產(chǎn)業(yè)做大做強的目標(biāo),甘肅省制定了《甘肅省“十二五”隴藥產(chǎn)業(yè)發(fā)展規(guī)劃》(甘政辦發(fā)〔2011〕181號),提出拓寬營銷領(lǐng)域,鼓勵和支持隴藥企業(yè)開拓國內(nèi)外消費市場。

        然而,中國知識資源總庫(CNKI)中尚未有隴藥的翻譯研究。相關(guān)內(nèi)容僅散見于藥店的說明書、土特產(chǎn)店中藥飲片及制品的產(chǎn)品介紹,且存在問題較多。①譯文頻繁出現(xiàn)中式英語及毫無意義的字面翻譯等。如甘肅岷海制藥有限責(zé)任公司生產(chǎn)的消炎退熱顆粒(Xiaoyan Tuire Keli)、杜仲壯骨膠囊(Duzhong Zhuanggu Jiaonang)、五味子顆粒(Wuweizi Keli)、小柴胡顆粒(Xiaochaihu Keli)和丹參顆粒(Dan shen Ke Li)。這種全用漢語拼音的翻譯方式不倫不類。原因是譯者或英語功底欠佳,或?qū)χ嗅t(yī)藥知識知之甚少。②有些是“印象式”(impressionistic)、“隨感式”(essayistic)翻譯,有失嚴(yán)謹(jǐn)。因中醫(yī)知識匱乏而導(dǎo)致的錯誤翻譯,如把“板藍(lán)根沖劑”譯為“Radix Isatidis Lotion”。lotion指外用洗劑,屬不溶性藥物,不能內(nèi)服。內(nèi)服沖劑應(yīng)譯為“dissolvable powder”或“drink”。③中醫(yī)術(shù)語翻譯領(lǐng)域缺乏統(tǒng)一標(biāo)準(zhǔn)規(guī)范。如黃芪,在英文中就有astragalus、astragalus membranaceus、radix astragali及huang qi等多種翻譯,其主要原因是翻譯原則方面的學(xué)術(shù)分歧[8]。

        2 構(gòu)建語料庫依據(jù)

        語料庫是指在隨機(jī)采樣基礎(chǔ)上收集到有代表性的真實語言材料集合,是語言運用的樣本?;谡Z料庫的翻譯研究也稱語料庫翻譯學(xué),是以語言理論和翻譯理論為指導(dǎo),以概率和統(tǒng)計為手段,以大規(guī)模雙語真實語料為對象,采用語內(nèi)對比與語際對比相結(jié)合的方法,對翻譯現(xiàn)象歷時或共時描寫和解釋,探索翻譯本質(zhì)的一種翻譯學(xué)研究方法。語料庫具有強大的檢索功能,可以利用語言頻率的統(tǒng)計概率計算出高頻詞和低頻詞。因此,如果把某個中醫(yī)藥術(shù)語輸入ECPCGM,可通過ECPCGM及其檢索工具對詞頻進(jìn)行搜索,選擇詞頻最高的翻譯版本作為翻譯參考。從雙語文本“共現(xiàn)”(coexistent)中,可發(fā)現(xiàn)最易被人接受的詞與詞的搭配形式,對語法研究和詞匯在語言中的使用轉(zhuǎn)向做了語域再現(xiàn)式的翻譯實例和量化數(shù)據(jù),從而提高翻譯的可信度。中醫(yī)語言具有辭簡、文約、言煉等語言美學(xué)特點,如“滋陰補陽”這類具有特定文化信息的詞,ECPCGM可提供具體語境,突破單句層面上詞對詞的翻譯,使釋義更準(zhǔn)確。

        3 建立語料庫的基本思路

        3.1 總體設(shè)計

        研究目的決定語料庫的采樣,建立ECPCGM的目的是客觀描述、考察中國學(xué)者對隴藥英語研究所表現(xiàn)出的總體特征及隴藥翻譯過程中呈現(xiàn)的共性特征。語言本身是動態(tài)發(fā)展的,筆者通過初建一個 50萬字容的 ECPCGM,其他研究者可隨研究的進(jìn)展,添加適合的語料對該庫進(jìn)行更新擴(kuò)容。ECPCGM的建設(shè)過程包括總體設(shè)計、框架設(shè)計、語料采集、語料導(dǎo)入、雙語對齊、語料校對和語料優(yōu)化管理等步驟,見圖1。

        圖1 ECPCGM建設(shè)過程示意圖

        ECPCGM包含2個一級子庫。①著作類:選取上海中醫(yī)藥大學(xué)出版社出版的新編實用中醫(yī)文庫《中藥學(xué)》、人民衛(wèi)生出版社出版的《中醫(yī)基本名詞術(shù)語中英對照國際標(biāo)準(zhǔn)》、廣東科技出版社出版的《中國中草藥圖典》和上海浦江教育出版社出版的《方劑學(xué)》4種英漢對照醫(yī)學(xué)教材和專著;②電子類:搜集CNKI等數(shù)據(jù)庫中甘肅道地藥材中英文論文摘要和論文。另下設(shè)10個二級子庫(5萬字/詞),內(nèi)容涉及10大隴藥的植物學(xué)特征、生物學(xué)特征、生境和主產(chǎn)地、性味與歸經(jīng)、功能與主治和現(xiàn)代藥理研究6個方面。子庫可分可合,便于研究。

        3.2 建庫步驟

        3.2.1 語料采集 ECPCGM按照語料的典型性、代表性、權(quán)威性和可行性標(biāo)準(zhǔn),語料取材于公開發(fā)行的圖書、電子版論文等。圖書類語料選取上文提到的4部教材和專著,其內(nèi)容均是英漢一一對照文本,全部由國內(nèi)中醫(yī)藥院校的著名學(xué)者翻譯,能夠代表中國學(xué)者中藥英譯的最高水平。電子版論文語料取自CNKI學(xué)術(shù)核心期刊有關(guān)隴藥的中英文論文摘要和論文等。

        3.2.2 語料整理和加工 語料的加工是語料庫系統(tǒng)性構(gòu)建中的一個重要環(huán)節(jié)。該過程含3個步驟,即原始語料的采集、標(biāo)注和對齊。第一步把采集到的雙語對照文獻(xiàn),經(jīng)過良田高拍儀S800掃描,用OCR文字識別轉(zhuǎn)換成 word,輔以人工校對消除文本中錯誤信息,運用Pre Encoder對原始語料進(jìn)行初步整理、去除噪音等預(yù)處理,將其變成可機(jī)讀的txt文本。第二步對生語料進(jìn)行加工,即標(biāo)注,使生語料變成熟語料,便于檢索和進(jìn)一步研究。采用語料庫構(gòu)建流程的簡要XML標(biāo)記集。文獻(xiàn)信息標(biāo)注以<html>開頭,以</html>結(jié)束,注明語料類型<type>和</type>、譯者<author>和</author>、語料名稱<title>和</title>、出版地<publishing address>和</publishing address>和出版日期<publishing time>和</publishing time>等基本信息。第三步對齊。由于漢語句子與其英譯未形成一一對應(yīng),故應(yīng)采用 Corrector軟件和人工介入對齊。雙語語料的平行對齊是指將源語語料與目的語語料在篇章、段落、詞句和詞匯4個層面建立對應(yīng)關(guān)系。首先實現(xiàn)語料的篇章、段落對齊。語料為1本雙語書籍掃描為1個word文檔,1個文檔中往往包含了中英文2種語體。將所有word文檔轉(zhuǎn)換為txt文本格式,從每個文件中識別和提取英語和漢語文本進(jìn)行切分及漢英語料分存,每個篇章級對齊單位中的原文文件與譯文文件的翻譯關(guān)系用相同的文件名即書名來體現(xiàn),但附加不同的文件名后綴:原文文件為ch,英語文件為en。每個段落保存為一行,段落與段落之間保留1個空行,并且在行首和行尾添加段落標(biāo)記<p>…</p>,同時賦予段落的編號ID。借鑒蘭彩玉[5]的做法,英漢語句子對齊后在句子邊界采用xml格式標(biāo)記,句子以<s>開始,以</s>結(jié)束,1個句子級對齊單位是1個二元組,記作AS=<si,ti>,si和ti均由1個或多個自然的句子組成,si與 ti之間具有翻譯關(guān)系。<s>…</s>標(biāo)記嵌套在<a>…</a>標(biāo)記內(nèi)部,<a>…</a>標(biāo)記嵌套在<p>…</p>標(biāo)記內(nèi)部,并人工輔助對齊。

        3.2.3 語料入庫和組織 對齊后的語料需要通過語料庫索引,從而構(gòu)建成一個整體。索引結(jié)構(gòu)是語料庫的組織方式,也是語料庫檢索和應(yīng)用的基礎(chǔ)。可利用CUC Paraconc填寫每一文本信息,建立文本信息數(shù)據(jù)庫、單語索引和雙語索引的結(jié)構(gòu),方便以后進(jìn)行檢索。命名要有規(guī)律,文件名由“前綴+文件名”兩部分組成,前綴可以自己定義,文件名和后綴名一定要一致,如中文文件名“ch-testX.txt”,英文文件名“en-testX.txt”,ch-是中文前綴,en-是英文前綴,testX是文件名,X取值范圍為1~n,txt是后綴名。存貯采用tmx格式的xml標(biāo)記語言,統(tǒng)一碼用UTF-8編碼,以便存儲與檢索。雙語保存在一個文本中,也可雙語分開存貯在2個文本中。對雙語保存在一個文本中的平行語料,軟件能自動識別4種對齊形式,即漢語在前、漢語在后、漢語整體在前、漢語整體在后,也可把4種形式的文本混在一起檢索。

        3.2.4 語料檢索 語料庫檢索工具很多,常用的共享軟件如Free Text Browser、Web Concordance、Word Smith Tool 4、Concordancer等,可根據(jù)需要選擇使用檢索軟件。筆者使用中國傳媒大學(xué)研發(fā)的免費綠色雙語檢索軟件CUC_ParaConc作為檢索軟件。軟件默認(rèn)一對一平行語料檢索,其標(biāo)簽下有3個子標(biāo)簽:調(diào)入語料及設(shè)置檢索參數(shù)、檢索中英對齊語料、正則式檢索。首先選擇所要檢索的txt文本目錄,可檢索目錄下所有文件夾和子文件夾中的對齊文本。單擊源文本目錄右邊的按鈕,選擇目錄,軟件會自動生成“保存目錄”,默認(rèn)是在軟件同一目錄下自動創(chuàng)立一個“ParaResult”文件夾,也可通過點擊保存到右邊的按鈕更換保存地址。

        4 結(jié)語

        ECPCGM的創(chuàng)建完成,在理論價值方面,基于ECPCGM的雙語文本和量化信息能為深入開展中醫(yī)翻譯提供可靠依據(jù);在技術(shù)方面,通過語料庫技術(shù),可挖掘中醫(yī)學(xué)術(shù)語的標(biāo)準(zhǔn)翻譯術(shù)語,客觀描述隴藥翻譯過程中呈現(xiàn)的共性特征;在應(yīng)用方面,該庫和語料軟件結(jié)合,可供學(xué)習(xí)者自主學(xué)習(xí)研究,并為隴藥英語教學(xué)、隴藥的對外宣傳英譯及詞典與教材編寫等提供幫助,另與網(wǎng)絡(luò)結(jié)合,把開發(fā)完成的語料庫在線發(fā)布和索引,實現(xiàn)網(wǎng)絡(luò)用戶對語料庫的直接訪問,對今后大規(guī)模對外翻譯介紹隴藥文獻(xiàn)具有重要借鑒和參考價值,必將促進(jìn)隴藥及隴藥文化傳承與發(fā)展。

        [1] 聞永毅.淺談建設(shè)中醫(yī)英語語料庫的意義[J].陜西中醫(yī)學(xué)院學(xué)報, 2003,26(5):65-68.

        [2] 薛學(xué)彥.中醫(yī)英語語料庫建立的設(shè)想[J].廣州中醫(yī)藥大學(xué)學(xué)報,2004, 26(6):482-485.

        [3] 倪傳斌.中醫(yī)英語語料庫的建庫原則[J].上海中醫(yī)藥大學(xué)學(xué)報,2005, 19(3):5-6.

        [4] 管新潮,胡開寶,張冠男.英漢醫(yī)學(xué)平行語料庫的創(chuàng)建與初始應(yīng)用研究[J].當(dāng)代外語研究,2011(9):36-41.

        [5] 蘭彩玉.中藥漢英雙語平行語料庫的設(shè)計及構(gòu)建[J].亞太傳統(tǒng)醫(yī)藥, 2014,10(8):1-3.

        [6] 蘭鳳利,梁國慶,張葦航.中醫(yī)學(xué)中“脈”與“經(jīng)絡(luò)”概念的源流與翻譯[J].中國科技術(shù)語,2011,13(1):54-58.

        [7] 蔣明佳.人民網(wǎng)英文版中醫(yī)藥對外報道狀況及語言分析[D].北京:北京中醫(yī)藥大學(xué),2014.

        [8] 謝竹藩.關(guān)于中醫(yī)名詞術(shù)語英譯的討論[J].中國中西醫(yī)結(jié)合雜志, 2000,20(9):706-708.

        Study on Construction of Chinese-English Parallel Corpus in Gansu Chinese Materia Medica


        CHEN Wei (Foreign Language Department, Dingxi Teachers College, Dingxi 743000, China)

        Bilingual parallel corpus is a new perspective of English for Specific Purposes (ESP) translation studies. This article set 10 kinds of Gansu genuine bulk Chinese materia medica as the research objects, and collected Chinese-English data about Gansu Chinese materia medica in the authoritative publications for the establishment of English-Chinese parallel corpus on Gansu Chinese materia medica. This article also analyzed the construction concrete steps in detail - corpus design, data acquisition and processing and bilingual corpus parallel and so on, and provided references for English translation of Chinese materia medica.

        Gansu Chinese materia medica; English-Chinese parallel corpus; TCM English; corpus construction

        10.3969/j.issn.1005-5304.2017.04.003

        R2-05

        A

        1005-5304(2017)04-0009-04

        2015-12-24;編輯:梅智勝)

        猜你喜歡
        語料平行語料庫
        向量的平行與垂直
        平行
        逃離平行世界
        《語料庫翻譯文體學(xué)》評介
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        再頂平行進(jìn)口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        《苗防備覽》中的湘西語料
        亚洲一区中文字幕在线电影网| 精品国产亚洲av成人一区| 久久精品国产亚洲av热一区| 日韩极品在线观看视频| 国产成人精品人人做人人爽97 | 所有视频在线观看免费| 亚洲av无码一区二区一二区| 精品国产aⅴ无码一区二区 | 丝袜美腿一区二区三区| 国产精品亚洲成在人线| 中文字幕无码人妻丝袜| 极品少妇在线观看视频| 亚洲精品一区二区在线免费观看| 国产av一区二区三区天堂综合网| 亚洲精品午夜无码电影网| 亚洲精品中国国产嫩草影院美女 | 国产综合精品久久久久成人| 三级日本午夜在线观看| 女同三级伦理在线观看| 麻豆md0077饥渴少妇| 久久精品一区二区三区av| 亚洲午夜无码视频在线播放| 国产国语一级免费黄片| 国产18禁黄网站免费观看| 一边做一边喷17p亚洲乱妇50p| 国产精品无码专区av在线播放| 蜜臀av免费一区二区三区| 亚洲乱码少妇中文字幕| 国产丝袜一区丝袜高跟美腿| 中文字日产幕码三区的做法大全| 亚洲乱码日产精品一二三| 99re热这里只有精品最新| 亚洲AV无码乱码一区二区三区| 国产精品中文字幕日韩精品| 丰满少妇按摩被扣逼高潮| 台湾无码av一区二区三区| 婷婷丁香91| 偷拍自拍一区二区三区| 亚洲中文字幕第15页| 久久精品国产99国产精品澳门| 黄色视频在线免费观看|