亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢英平行語料庫的自我構(gòu)建

        2015-01-12 10:20:15崔紅葉鄭敏芳
        棗莊學(xué)院學(xué)報 2015年4期
        關(guān)鍵詞:漢英中英文語料

        崔紅葉,鄭敏芳

        (西藏民族大學(xué)外語學(xué)院,陜西咸陽712082)

        漢英平行語料庫的自我構(gòu)建

        崔紅葉,鄭敏芳

        (西藏民族大學(xué)外語學(xué)院,陜西咸陽712082)

        基于語料庫的翻譯研究已經(jīng)成為一種主要趨勢,但大型語料庫出于種種原因僅對少數(shù)教師和研究者開放,可及性不高。當(dāng)前,網(wǎng)絡(luò)技術(shù)和相關(guān)語料庫軟件持續(xù)發(fā)展,研究者根據(jù)興趣自建特色小型語料庫,為教學(xué)和科研服務(wù)是完全可行的。簡單高效的建庫方式可以有效降低語料庫建設(shè)門檻,促進語料庫技術(shù)的推廣。

        漢英平行語料庫;語料庫軟件;自我構(gòu)建

        一、自建漢英語料庫研究現(xiàn)狀

        相比大型語料庫,小型語料庫有著種種優(yōu)勢,如:目標(biāo)明確、語料收集針對性強、語料能不斷擴展、及時更新、自主設(shè)計、靈活標(biāo)注等特點[1](P28)。自建小型語料庫已成為熱點話題。如:梁茂成[2](P44)利用Wordpilot自建小型英語單語語料庫,探討了利用語料庫輔助課程教學(xué)的問題,并指出語料庫提供的檢索方法可以增加語言真實性,促進研究式教育;謝家成[3](P45)借助Paraconc軟件,自建規(guī)模達(dá)600萬字詞的個人英漢平行語料庫,提出平行語料庫能夠很好地輔助外語教學(xué)和外語研究,學(xué)生自主學(xué)習(xí)及翻譯研究,但該語料庫權(quán)衡建庫容量與建庫難度后選擇了段落對齊,不利于檢索后的雙語對比;肖維青[4](P62)基于小型自建語料庫研究翻譯批評,提出利用語料庫進行研究,有助于客觀把握原著風(fēng)格,科學(xué)分析譯者風(fēng)格,全面對比分析原文和譯文;趙宏展[5](P32)利用Wordsmith,Gotagger,Wordpilot軟件建成小型翻譯語料庫,并撰文介紹了建庫方法,但該語料庫只涉及網(wǎng)絡(luò)語料,且語料加注方面只介紹了英語詞匯賦碼,不夠詳盡;于正,孫東云[6](P81)利用商業(yè)軟件Trados的語料對齊功能自建句對齊語料庫,指出句級對齊應(yīng)當(dāng)是雙語平行語料庫較為適合的對齊方式,其選用的Trados在自動翻譯方面已表現(xiàn)出卓越的性能,但價格不菲,如果研究者僅為了實現(xiàn)句級對齊,Paraconc軟件完全可以實現(xiàn)該功能。該軟件由新西蘭奧克蘭大學(xué)應(yīng)用語言學(xué)教授Michael Barlow于1996年推出Windows版本[7](P3),網(wǎng)上提供免費Demo版本①。

        二、語料庫軟件構(gòu)建漢英平行語料庫

        語料庫建設(shè)是研究成果的重要物質(zhì)基礎(chǔ),而且影響長遠(yuǎn)[8](P2)。當(dāng)前,網(wǎng)絡(luò)技術(shù)和相關(guān)語料庫軟件持續(xù)發(fā)展,研究者根據(jù)興趣自建特色小型語料庫,為教學(xué)和科研服務(wù)是完全可行的。自建雙語平行語料庫需綜合考慮以下幾個方面的問題:語料庫設(shè)計方案、語料庫軟件選擇以及語料庫構(gòu)建的具體過程。

        語料庫設(shè)計之初就應(yīng)明晰建庫目的、明確建庫規(guī)模、確定加工深度。筆者主要從事高校英語教學(xué)和漢英翻譯方面的研究,尤其關(guān)注漢譯英的方法及特征。因此,語料庫建設(shè)的目的就是為英語教學(xué)和漢英翻譯研究服務(wù)。初步設(shè)計為動態(tài)可擴展的、句級對應(yīng)的、漢譯英單向語料庫。受經(jīng)驗及精力限制,首批內(nèi)容選擇篇幅普遍較短,公認(rèn)影響力較大的外教社中國文化漢外對照叢書之張培基英譯中國現(xiàn)代散文選系列。

        語料庫研究根據(jù)對已有語言分析體系所持態(tài)度可以分為“基于語料庫”和“語料庫驅(qū)動”兩種研究范式,前者將語料庫視為眾多數(shù)據(jù)種類的一種,后者主張一切源自語料庫[9](P329)。語料庫體是各項語料庫研究的基礎(chǔ)平臺,為了最大限度的方便研究,涉及語料全部按照來源進行了篇章編碼、原作者編碼及句子編碼,以兩種方式存儲,未標(biāo)注中英文詞性的生語料和標(biāo)注有中英文詞性的熟語料。

        對于廣大外語教師而言,受研究經(jīng)費和研究規(guī)模限制,選擇建庫軟件的原則一般是:簡便易行,功能強大,可免費試用。因此,商務(wù)軟件Wordpilot,Wordsmith和Trados不適用于自建漢英平行語料庫。本文擬使用Microsoft-Word整理文本,Microsoft-excel編號,ICT-CLAS和Gotagger分別標(biāo)注漢英詞性,Paraconc對齊和檢索文本。

        (二)語料庫構(gòu)建過程

        1.語料采集和整理

        語料采集主要通過兩種渠道:一是借助網(wǎng)絡(luò)獲取免費的電子版本,按照需要借用轉(zhuǎn)換工具進行自動轉(zhuǎn)換;二是借助掃描工具自主轉(zhuǎn)換原始的書面文本。需要指出的是,通過這兩種渠道,尤其是第二種渠道,得到的版本都存在很多問題,需借助Microsoft-word清潔文本,如利用通配符去除多余空行,利用“編輯替換”功能修正標(biāo)點符號。同時,為了保證文本質(zhì)量,需購買或借閱紙質(zhì)書籍,逐句核對,增補缺失語句,刪除謬誤信息。

        語料整理即中文分字、語料分割和語料編碼的過程。首先,中文分字。中英文分詞差異致使語料庫檢索軟件Paraconc無法識別未經(jīng)分詞的中文文本,雖然巧妙選用“正則表達(dá)式”檢索,可以實現(xiàn)檢索目的,但并不理想,比如搭配檢索就會受限。參考文秋芳[10](P40)等人的建庫經(jīng)驗,在漢字間加入空格,即可實現(xiàn)正常的文本檢索。其次,語料分割。完成中文分字后,即可對中英文語料進行語篇分割和語句分割。語篇分割很簡單,按照“第N本書+第N篇”的格式分篇命名,如101即表示第一本書的第一篇文章。語句分割相對復(fù)雜,需要分別對中英文語篇表示結(jié)句的標(biāo)點符號進行搜索分割,之后再按照“第N本書+第N篇+第N句”的格式進行命名,如10101即表示第一本書第一篇文章的第一句。再次,語料編碼。Paraconc缺省的常規(guī)標(biāo)注碼是“<>”和“</>”,分別表示片段的開始和結(jié)束,所以利用Microsoft-excel進行語料編碼時全部放在“<>”和“</>”之內(nèi),語篇編碼格式為“第N本書+第N篇”,原作者編碼格式為“author=N”,譯者編碼格式為“translator=ZPJ”,語句編碼格式為“第N本書+第N篇+第N句”,并將編碼完成的文本命名為“第N本書+第N篇”的.txt文檔,保存?zhèn)溆谩?/p>

        2.語料對齊

        老賈再次伸手把多的一堆錢幣撥成兩堆。老賈在新分出的兩堆里,從看起來很精致漂亮的一堆中取出一枚遞給孟導(dǎo)。孟導(dǎo)接過錢幣,心中暗叫不好。按照老賈報憂不報喜的烏鴉嘴特質(zhì),這堆錢看起來也是兇多吉少。

        國內(nèi)曾有多名學(xué)者撰文指出Paraconc軟件只能實現(xiàn)文本的段落對齊[6](P80),筆者在此有心為該軟件正名。Paraconc軟件的對齊功能,既可以實現(xiàn)文本的自動段落對齊,也可以實現(xiàn)語句的半自動對齊[7](P20)。如圖1②所示。

        圖1 Paraconc軟件對齊單元調(diào)整界面/Figure 1 Merging and Splitting Alignment Units

        經(jīng)過初步整理的中英文語料,已經(jīng)顯示為獨立的中英文語句,利用Paraconc軟件的merge和split功能予以調(diào)整,可以實現(xiàn)語句對齊。當(dāng)然這里所謂的句對齊,是一個較為寬泛的概念。中英文句子數(shù)量不一致,勢必涉及到拆分句子??紤]到這里是漢譯英語料,基本原則是以中文語句為準(zhǔn),盡量拆分英文語句。但如果中文語句對應(yīng)的英文部分不能獨立表意,則選擇合并漢語句子。

        3.語料標(biāo)注

        語料標(biāo)注的目的是通過系統(tǒng)標(biāo)注,附加相關(guān)信息,更大程度的方便研究。為了使語料發(fā)揮更大的作用,筆者對興建的小型語料庫進行了自動詞性標(biāo)注。標(biāo)注工具選擇了Gotagger和ICTCLAS軟件。英語賦碼軟件GoTagger③是日本GOTO Kazuaki所開發(fā)的一款簡便的詞性賦碼軟件,可以直接在Windows環(huán)境下運行。該款軟件采用Penn Treebank詞性標(biāo)記集④進行標(biāo)注。漢語詞法分析系統(tǒng)ICTCLAS⑤由中國科學(xué)院計算技術(shù)研究所研制,是較為理想的漢語詞法分析器,支持Windows操作系統(tǒng),采用計算所詞類標(biāo)注集ICTPOS⑥。圖2和圖3為標(biāo)注完成的語料示例。

        圖2 ICTCLAS標(biāo)注示例/Figure 2:Chinese Corpus Tagged by ICTCLAS

        圖3 GoTagger標(biāo)注示例/Figure 3:English Corpus Tagged by Go Tagger

        標(biāo)注形式可以選擇,為了方便以后的研究,中英文語料詞性標(biāo)注時統(tǒng)一選擇“詞+“/”+詞性。經(jīng)過詞性標(biāo)注的語料有助于研究同一詞性單詞或詞組的不同翻譯方法,特定句式的翻譯模型及特定修辭結(jié)構(gòu)的翻譯模型等問題。

        4.語料檢索

        語料庫建設(shè)完成后,就可以方便的利用計算機進行雙語檢索。上載要檢索的語料,選擇Search選項,選擇語言,鍵入想要搜索內(nèi)容,就可以實現(xiàn)檢索目的。巧妙利用通配符,可以實現(xiàn)搭配檢索和模糊檢索。

        另外,還可以選擇“Advanced Search”,控制檢索內(nèi)容,定義檢索語法,實現(xiàn)高級檢索。“Advanced Search”選項下設(shè)兩個變量“Search Syntax”和“General search Control”。前者包含三個選項:Text Search,Regular Expressions和Tag Search,可以控制檢索內(nèi)容,分別對文本、正則表達(dá)式和標(biāo)注進行檢索;后者也包含三個選項:Ignore case of letters,Use skipping and equal characters和Sentence mode,可以定義檢索語法,對忽略格式、篩選字符和選定句式后的文本進行檢索。

        三、結(jié)語

        任何語料庫研究均開始于語料庫體的建立[11](P63)。本文介紹的自建漢英平行語料庫方法簡單易行,旨在拉近廣大外語教師和研究人員與語料庫的距離。通過自建語料庫,研究者可以在日常教學(xué)和科研工作中積累點滴,即時總結(jié),動態(tài)補充庫存語料,為將來的教學(xué)和科研工作奠定基礎(chǔ)。當(dāng)然,以上建庫方法仍有不足之處,在此僅供學(xué)界參考。

        注釋

        ①Paraconc軟件下載地址:http://www.paraconc.com/demo.html.

        ②圖1、圖2、圖3顯示語料來源均為張培基譯注,上海外語教育出版社2007版的英譯中國現(xiàn)代散文選(1).

        ③GoTagger軟件下載地址:http://web4u.setsunan.ac.jp/Website/GoTagger.html,網(wǎng)頁上有相關(guān)的使用說明.

        ④Penn Treebank詞性標(biāo)記集下載地址:http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html.

        ⑤ICTCLAS軟件下載地址:http://ictclas.org/ictclas_download.aspx,網(wǎng)頁上有相關(guān)的使用說明.

        ⑥計算所詞類標(biāo)注集下載地址:ICTPOS http://ictclas.org/otherdocs/計算所漢語詞性標(biāo)記集ICTPOS3.0.doc.

        [1]謝家成.論個人教學(xué)語料庫的構(gòu)建[J].外語電化教學(xué),2003,(91).

        [2]梁茂成.利用WordPilot在外語教學(xué)中自建小型語料庫[J].外語電化教學(xué),2003,(94).

        [3]謝家成.小型英漢平行語料庫的建立與運用[J].解放軍外國語學(xué)院學(xué)報,2004,(3).

        [4]肖維青.自建語料庫與翻譯批評[J].外語研究,2005,(4).

        [5]趙宏展.小型翻譯語料庫的DIY[J].中國科技翻譯,2007,(2).

        [6]于正,孫東云.利用翻譯記憶系統(tǒng)自建雙語平行語料庫[J].外語研究,2009,(5).

        [7]Michael Barlow.ParaConc:A Concordancer for Parallel Texts[M].Huston:Athelstan,2003.

        [8]許家金,劉霞,等.基于CiteSpaceⅡ的國內(nèi)語料庫語言學(xué)研究概論(1998~2011)[J].語料庫語言學(xué),2012,(1).

        [9]梁茂成.語料庫語言學(xué)研究的兩種范式:淵源、分歧及前景[J].外語教學(xué)與研究,2012,(3).

        [10]文秋芳,王金銓.中國大學(xué)生英漢漢英口筆譯語料庫[M].北京:外語教學(xué)與研究出版社,2001.

        [11]John Sinclair著,王建華譯.關(guān)于語料庫的建立[J].語言文字應(yīng)用,2000,(2).

        [責(zé)任編輯:呂艷]

        Self-construction of C-E Parallel Corpus

        CUI Hong-ye,ZHENG Min-fang
        (School of Foreign Languages,Xiazang Minzu University,Xianyang 712082,China)

        Corpus-based Translation Research has become a major trend.However,large-scale corpora are limited to few teachers and researchers.With the great development of Internet and corpus software,it's possible for researchers to build small-scale corpora to meet their specific need.A simple but efficient way of building corpora will help to bring corpus to more teachers and researchers.

        C-E Parallel Corpus;Corpus Software;Self-construction

        H315.9

        A

        1004-7077(2015)04-0058-04

        2015-05-19

        西藏民族大學(xué)校級科研項目“張培基現(xiàn)代散文漢英翻譯語料庫的設(shè)計、建立和初探”(項目編號:2013myQ14)。

        崔紅葉(1986-),女,河北石家莊人,西藏民族大學(xué)外語學(xué)院講師,碩士,主要從事翻譯理論與實踐研究;鄭敏芳(1978-),女,陜西白水人,西藏民族大學(xué)外語學(xué)院講師,碩士,主要從事翻譯理論與實踐研究。

        猜你喜歡
        漢英中英文語料
        《古脊椎動物學(xué)報(中英文)》編委會
        第35卷(2020年)A輯中英文總目次
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        話題鏈在漢英篇章翻譯中的統(tǒng)攝作用
        從目的論看環(huán)保公示語的漢英翻譯
        APPITA 2015年第2期中英文摘要
        中國造紙(2016年3期)2016-04-19 08:29:58
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        漢英文字的幽默修辭功能淺探
        語言與翻譯(2014年1期)2014-07-10 13:06:14
        國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
        久久精品性无码一区二区爱爱| 国产无卡视频在线观看| 青青草国产手机观看视频| 日本边添边摸边做边爱| 久久综合给合综合久久| 永久免费的av在线电影网无码| 91精品国产免费青青碰在线观看| 亚洲一区二区三区视频免费| 国产精品一区二区熟女不卡| 国产精品久久成人网站| 天天做天天爱天天爽综合网| 国产欧美日韩在线观看| 亚洲成人av一区二区三区| 精品人妻午夜中文字幕av四季| 精品香蕉99久久久久网站| a级毛片内射免费视频| 国产真实露脸4p视频| 精品人妻一区二区三区蜜臀在线| 男女真人后进式猛烈视频网站| 亚洲av无码久久精品色欲| 日韩精品无码一区二区三区免费| 亚洲阿v天堂2018在线观看| 成年男女免费视频网站点播| 亚洲熟女精品中文字幕| 亚洲精品无码mv在线观看| 日本一道dvd在线中文字幕| 亚洲av乱码一区二区三区女同| 亚洲熟女少妇精品综合| 欧美激情在线播放| 国产成人亚洲精品无码mp4| 国产99re在线观看只有精品| 国内精品久久人妻性色av| 欧美牲交a欧美牲交| 亚洲另类欧美综合久久图片区| 精品国产AⅤ一区二区三区4区| 精品国模人妻视频网站| 亚洲日韩精品a∨片无码加勒比| 国产山东熟女48嗷嗷叫| 国产成人av在线影院无毒| 亚洲国产综合久久精品| 亚洲精品一区久久久久一品av|