亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

漢英平行語料庫的自我構(gòu)建

2015-01-12 10:20:15崔紅葉鄭敏芳

棗莊學(xué)院學(xué)報 2015年4期

關(guān)鍵詞：漢英中英文語料

崔紅葉，鄭敏芳

(西藏民族大學(xué)外語學(xué)院，陜西咸陽712082)

漢英平行語料庫的自我構(gòu)建

崔紅葉，鄭敏芳

(西藏民族大學(xué)外語學(xué)院，陜西咸陽712082)

基于語料庫的翻譯研究已經(jīng)成為一種主要趨勢，但大型語料庫出于種種原因僅對少數(shù)教師和研究者開放，可及性不高。當(dāng)前，網(wǎng)絡(luò)技術(shù)和相關(guān)語料庫軟件持續(xù)發(fā)展，研究者根據(jù)興趣自建特色小型語料庫，為教學(xué)和科研服務(wù)是完全可行的。簡單高效的建庫方式可以有效降低語料庫建設(shè)門檻，促進語料庫技術(shù)的推廣。

漢英平行語料庫;語料庫軟件;自我構(gòu)建

一、自建漢英語料庫研究現(xiàn)狀

相比大型語料庫，小型語料庫有著種種優(yōu)勢，如:目標(biāo)明確、語料收集針對性強、語料能不斷擴展、及時更新、自主設(shè)計、靈活標(biāo)注等特點［1］(P28)。自建小型語料庫已成為熱點話題。如:梁茂成［2］(P44)利用Wordpilot自建小型英語單語語料庫，探討了利用語料庫輔助課程教學(xué)的問題，并指出語料庫提供的檢索方法可以增加語言真實性，促進研究式教育;謝家成［3］(P45)借助Paraconc軟件，自建規(guī)模達(dá)600萬字詞的個人英漢平行語料庫，提出平行語料庫能夠很好地輔助外語教學(xué)和外語研究，學(xué)生自主學(xué)習(xí)及翻譯研究，但該語料庫權(quán)衡建庫容量與建庫難度后選擇了段落對齊，不利于檢索后的雙語對比;肖維青［4］(P62)基于小型自建語料庫研究翻譯批評，提出利用語料庫進行研究，有助于客觀把握原著風(fēng)格，科學(xué)分析譯者風(fēng)格，全面對比分析原文和譯文;趙宏展［5］(P32)利用Wordsmith，Gotagger，Wordpilot軟件建成小型翻譯語料庫，并撰文介紹了建庫方法，但該語料庫只涉及網(wǎng)絡(luò)語料，且語料加注方面只介紹了英語詞匯賦碼，不夠詳盡;于正，孫東云［6］(P81)利用商業(yè)軟件Trados的語料對齊功能自建句對齊語料庫，指出句級對齊應(yīng)當(dāng)是雙語平行語料庫較為適合的對齊方式，其選用的Trados在自動翻譯方面已表現(xiàn)出卓越的性能，但價格不菲，如果研究者僅為了實現(xiàn)句級對齊，Paraconc軟件完全可以實現(xiàn)該功能。該軟件由新西蘭奧克蘭大學(xué)應(yīng)用語言學(xué)教授Michael Barlow于1996年推出Windows版本［7］(P3)，網(wǎng)上提供免費Demo版本①。

二、語料庫軟件構(gòu)建漢英平行語料庫

語料庫建設(shè)是研究成果的重要物質(zhì)基礎(chǔ)，而且影響長遠(yuǎn)［8］(P2)。當(dāng)前，網(wǎng)絡(luò)技術(shù)和相關(guān)語料庫軟件持續(xù)發(fā)展，研究者根據(jù)興趣自建特色小型語料庫，為教學(xué)和科研服務(wù)是完全可行的。自建雙語平行語料庫需綜合考慮以下幾個方面的問題:語料庫設(shè)計方案、語料庫軟件選擇以及語料庫構(gòu)建的具體過程。

語料庫設(shè)計之初就應(yīng)明晰建庫目的、明確建庫規(guī)模、確定加工深度。筆者主要從事高校英語教學(xué)和漢英翻譯方面的研究，尤其關(guān)注漢譯英的方法及特征。因此，語料庫建設(shè)的目的就是為英語教學(xué)和漢英翻譯研究服務(wù)。初步設(shè)計為動態(tài)可擴展的、句級對應(yīng)的、漢譯英單向語料庫。受經(jīng)驗及精力限制，首批內(nèi)容選擇篇幅普遍較短，公認(rèn)影響力較大的外教社中國文化漢外對照叢書之張培基英譯中國現(xiàn)代散文選系列。

語料庫研究根據(jù)對已有語言分析體系所持態(tài)度可以分為“基于語料庫”和“語料庫驅(qū)動”兩種研究范式，前者將語料庫視為眾多數(shù)據(jù)種類的一種，后者主張一切源自語料庫［9］(P329)。語料庫體是各項語料庫研究的基礎(chǔ)平臺，為了最大限度的方便研究，涉及語料全部按照來源進行了篇章編碼、原作者編碼及句子編碼，以兩種方式存儲，未標(biāo)注中英文詞性的生語料和標(biāo)注有中英文詞性的熟語料。

對于廣大外語教師而言，受研究經(jīng)費和研究規(guī)模限制，選擇建庫軟件的原則一般是:簡便易行，功能強大，可免費試用。因此，商務(wù)軟件Wordpilot，Wordsmith和Trados不適用于自建漢英平行語料庫。本文擬使用Microsoft－Word整理文本，Microsoft－excel編號，ICT－CLAS和Gotagger分別標(biāo)注漢英詞性，Paraconc對齊和檢索文本。

(二)語料庫構(gòu)建過程

1.語料采集和整理

語料采集主要通過兩種渠道:一是借助網(wǎng)絡(luò)獲取免費的電子版本，按照需要借用轉(zhuǎn)換工具進行自動轉(zhuǎn)換;二是借助掃描工具自主轉(zhuǎn)換原始的書面文本。需要指出的是，通過這兩種渠道，尤其是第二種渠道，得到的版本都存在很多問題，需借助Microsoft－word清潔文本，如利用通配符去除多余空行，利用“編輯替換”功能修正標(biāo)點符號。同時，為了保證文本質(zhì)量，需購買或借閱紙質(zhì)書籍，逐句核對，增補缺失語句，刪除謬誤信息。

語料整理即中文分字、語料分割和語料編碼的過程。首先，中文分字。中英文分詞差異致使語料庫檢索軟件Paraconc無法識別未經(jīng)分詞的中文文本，雖然巧妙選用“正則表達(dá)式”檢索，可以實現(xiàn)檢索目的，但并不理想，比如搭配檢索就會受限。參考文秋芳［10］(P40)等人的建庫經(jīng)驗，在漢字間加入空格，即可實現(xiàn)正常的文本檢索。其次，語料分割。完成中文分字后，即可對中英文語料進行語篇分割和語句分割。語篇分割很簡單，按照“第N本書+第N篇”的格式分篇命名，如101即表示第一本書的第一篇文章。語句分割相對復(fù)雜，需要分別對中英文語篇表示結(jié)句的標(biāo)點符號進行搜索分割，之后再按照“第N本書+第N篇+第N句”的格式進行命名，如10101即表示第一本書第一篇文章的第一句。再次，語料編碼。Paraconc缺省的常規(guī)標(biāo)注碼是“＜＞”和“＜/＞”，分別表示片段的開始和結(jié)束，所以利用Microsoft－excel進行語料編碼時全部放在“＜＞”和“＜/＞”之內(nèi)，語篇編碼格式為“第N本書+第N篇”，原作者編碼格式為“author=N”，譯者編碼格式為“translator=ZPJ”，語句編碼格式為“第N本書+第N篇+第N句”，并將編碼完成的文本命名為“第N本書+第N篇”的.txt文檔，保存?zhèn)溆谩?/p>

2.語料對齊

老賈再次伸手把多的一堆錢幣撥成兩堆。老賈在新分出的兩堆里，從看起來很精致漂亮的一堆中取出一枚遞給孟導(dǎo)。孟導(dǎo)接過錢幣，心中暗叫不好。按照老賈報憂不報喜的烏鴉嘴特質(zhì)，這堆錢看起來也是兇多吉少。

國內(nèi)曾有多名學(xué)者撰文指出Paraconc軟件只能實現(xiàn)文本的段落對齊［6］(P80)，筆者在此有心為該軟件正名。Paraconc軟件的對齊功能，既可以實現(xiàn)文本的自動段落對齊，也可以實現(xiàn)語句的半自動對齊［7］(P20)。如圖1②所示。

圖1 Paraconc軟件對齊單元調(diào)整界面/Figure 1 Merging and Splitting Alignment Units

經(jīng)過初步整理的中英文語料，已經(jīng)顯示為獨立的中英文語句，利用Paraconc軟件的merge和split功能予以調(diào)整，可以實現(xiàn)語句對齊。當(dāng)然這里所謂的句對齊，是一個較為寬泛的概念。中英文句子數(shù)量不一致，勢必涉及到拆分句子?？紤]到這里是漢譯英語料，基本原則是以中文語句為準(zhǔn)，盡量拆分英文語句。但如果中文語句對應(yīng)的英文部分不能獨立表意，則選擇合并漢語句子。

3.語料標(biāo)注

語料標(biāo)注的目的是通過系統(tǒng)標(biāo)注，附加相關(guān)信息，更大程度的方便研究。為了使語料發(fā)揮更大的作用，筆者對興建的小型語料庫進行了自動詞性標(biāo)注。標(biāo)注工具選擇了Gotagger和ICTCLAS軟件。英語賦碼軟件GoTagger③是日本GOTO Kazuaki所開發(fā)的一款簡便的詞性賦碼軟件，可以直接在Windows環(huán)境下運行。該款軟件采用Penn Treebank詞性標(biāo)記集④進行標(biāo)注。漢語詞法分析系統(tǒng)ICTCLAS⑤由中國科學(xué)院計算技術(shù)研究所研制，是較為理想的漢語詞法分析器，支持Windows操作系統(tǒng)，采用計算所詞類標(biāo)注集ICTPOS⑥。圖2和圖3為標(biāo)注完成的語料示例。

圖2 ICTCLAS標(biāo)注示例/Figure 2:Chinese Corpus Tagged by ICTCLAS

圖3 GoTagger標(biāo)注示例/Figure 3:English Corpus Tagged by Go Tagger

標(biāo)注形式可以選擇，為了方便以后的研究，中英文語料詞性標(biāo)注時統(tǒng)一選擇“詞+“/”+詞性。經(jīng)過詞性標(biāo)注的語料有助于研究同一詞性單詞或詞組的不同翻譯方法，特定句式的翻譯模型及特定修辭結(jié)構(gòu)的翻譯模型等問題。

4.語料檢索

語料庫建設(shè)完成后，就可以方便的利用計算機進行雙語檢索。上載要檢索的語料，選擇Search選項，選擇語言，鍵入想要搜索內(nèi)容，就可以實現(xiàn)檢索目的。巧妙利用通配符，可以實現(xiàn)搭配檢索和模糊檢索。

另外，還可以選擇“Advanced Search”，控制檢索內(nèi)容，定義檢索語法，實現(xiàn)高級檢索。“Advanced Search”選項下設(shè)兩個變量“Search Syntax”和“General search Control”。前者包含三個選項:Text Search，Regular Expressions和Tag Search，可以控制檢索內(nèi)容，分別對文本、正則表達(dá)式和標(biāo)注進行檢索;后者也包含三個選項:Ignore case of letters，Use skipping and equal characters和Sentence mode，可以定義檢索語法，對忽略格式、篩選字符和選定句式后的文本進行檢索。

三、結(jié)語

任何語料庫研究均開始于語料庫體的建立［11］(P63)。本文介紹的自建漢英平行語料庫方法簡單易行，旨在拉近廣大外語教師和研究人員與語料庫的距離。通過自建語料庫，研究者可以在日常教學(xué)和科研工作中積累點滴，即時總結(jié)，動態(tài)補充庫存語料，為將來的教學(xué)和科研工作奠定基礎(chǔ)。當(dāng)然，以上建庫方法仍有不足之處，在此僅供學(xué)界參考。

注釋

①Paraconc軟件下載地址:http://www.paraconc.com/demo.html.

②圖1、圖2、圖3顯示語料來源均為張培基譯注，上海外語教育出版社2007版的英譯中國現(xiàn)代散文選(1).

③GoTagger軟件下載地址:http://web4u.setsunan.ac.jp/Website/GoTagger.html，網(wǎng)頁上有相關(guān)的使用說明.

④Penn Treebank詞性標(biāo)記集下載地址:http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html.

⑤ICTCLAS軟件下載地址:http://ictclas.org/ictclas_download.aspx，網(wǎng)頁上有相關(guān)的使用說明.

⑥計算所詞類標(biāo)注集下載地址:ICTPOS http://ictclas.org/otherdocs/計算所漢語詞性標(biāo)記集ICTPOS3.0.doc.

［1］謝家成.論個人教學(xué)語料庫的構(gòu)建［J］.外語電化教學(xué)，2003，(91).

［2］梁茂成.利用WordPilot在外語教學(xué)中自建小型語料庫［J］.外語電化教學(xué)，2003，(94).

［3］謝家成.小型英漢平行語料庫的建立與運用［J］.解放軍外國語學(xué)院學(xué)報，2004，(3).

［4］肖維青.自建語料庫與翻譯批評［J］.外語研究，2005，(4).

［5］趙宏展.小型翻譯語料庫的DIY［J］.中國科技翻譯，2007，(2).

［6］于正，孫東云.利用翻譯記憶系統(tǒng)自建雙語平行語料庫［J］.外語研究，2009，(5).

［7］Michael Barlow.ParaConc:A Concordancer for Parallel Texts［M］.Huston:Athelstan，2003.

［8］許家金，劉霞，等.基于CiteSpaceⅡ的國內(nèi)語料庫語言學(xué)研究概論(1998～2011)［J］.語料庫語言學(xué)，2012，(1).

［9］梁茂成.語料庫語言學(xué)研究的兩種范式:淵源、分歧及前景［J］.外語教學(xué)與研究，2012，(3).

［10］文秋芳，王金銓.中國大學(xué)生英漢漢英口筆譯語料庫［M］.北京:外語教學(xué)與研究出版社，2001.

［11］John Sinclair著，王建華譯.關(guān)于語料庫的建立［J］.語言文字應(yīng)用，2000，(2).

［責(zé)任編輯:呂艷］

Self－construction of C－E Parallel Corpus

CUI Hong－ye，ZHENG Min－fang
(School of Foreign Languages，Xiazang Minzu University，Xianyang 712082，China)

Corpus－based Translation Research has become a major trend.However，large－scale corpora are limited to few teachers and researchers.With the great development of Internet and corpus software，it＇s possible for researchers to build small－scale corpora to meet their specific need.A simple but efficient way of building corpora will help to bring corpus to more teachers and researchers.

C－E Parallel Corpus;Corpus Software;Self－construction

H315.9

1004－7077(2015)04－0058－04

2015－05－19

西藏民族大學(xué)校級科研項目“張培基現(xiàn)代散文漢英翻譯語料庫的設(shè)計、建立和初探”(項目編號:2013myQ14)。

崔紅葉(1986－)，女，河北石家莊人，西藏民族大學(xué)外語學(xué)院講師，碩士，主要從事翻譯理論與實踐研究;鄭敏芳(1978－)，女，陜西白水人，西藏民族大學(xué)外語學(xué)院講師，碩士，主要從事翻譯理論與實踐研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

漢英平行語料庫的自我構(gòu)建

一、自建漢英語料庫研究現(xiàn)狀

二、語料庫軟件構(gòu)建漢英平行語料庫

三、結(jié)語

一、自建漢英語料庫研究現(xiàn)狀

二、語料庫軟件構(gòu)建漢英平行語料庫

三、結(jié)語