崔紅葉,鄭敏芳
(西藏民族大學(xué)外語學(xué)院,陜西咸陽712082)
漢英平行語料庫的自我構(gòu)建
崔紅葉,鄭敏芳
(西藏民族大學(xué)外語學(xué)院,陜西咸陽712082)
基于語料庫的翻譯研究已經(jīng)成為一種主要趨勢,但大型語料庫出于種種原因僅對少數(shù)教師和研究者開放,可及性不高。當(dāng)前,網(wǎng)絡(luò)技術(shù)和相關(guān)語料庫軟件持續(xù)發(fā)展,研究者根據(jù)興趣自建特色小型語料庫,為教學(xué)和科研服務(wù)是完全可行的。簡單高效的建庫方式可以有效降低語料庫建設(shè)門檻,促進語料庫技術(shù)的推廣。
漢英平行語料庫;語料庫軟件;自我構(gòu)建
相比大型語料庫,小型語料庫有著種種優(yōu)勢,如:目標(biāo)明確、語料收集針對性強、語料能不斷擴展、及時更新、自主設(shè)計、靈活標(biāo)注等特點[1](P28)。自建小型語料庫已成為熱點話題。如:梁茂成[2](P44)利用Wordpilot自建小型英語單語語料庫,探討了利用語料庫輔助課程教學(xué)的問題,并指出語料庫提供的檢索方法可以增加語言真實性,促進研究式教育;謝家成[3](P45)借助Paraconc軟件,自建規(guī)模達(dá)600萬字詞的個人英漢平行語料庫,提出平行語料庫能夠很好地輔助外語教學(xué)和外語研究,學(xué)生自主學(xué)習(xí)及翻譯研究,但該語料庫權(quán)衡建庫容量與建庫難度后選擇了段落對齊,不利于檢索后的雙語對比;肖維青[4](P62)基于小型自建語料庫研究翻譯批評,提出利用語料庫進行研究,有助于客觀把握原著風(fēng)格,科學(xué)分析譯者風(fēng)格,全面對比分析原文和譯文;趙宏展[5](P32)利用Wordsmith,Gotagger,Wordpilot軟件建成小型翻譯語料庫,并撰文介紹了建庫方法,但該語料庫只涉及網(wǎng)絡(luò)語料,且語料加注方面只介紹了英語詞匯賦碼,不夠詳盡;于正,孫東云[6](P81)利用商業(yè)軟件Trados的語料對齊功能自建句對齊語料庫,指出句級對齊應(yīng)當(dāng)是雙語平行語料庫較為適合的對齊方式,其選用的Trados在自動翻譯方面已表現(xiàn)出卓越的性能,但價格不菲,如果研究者僅為了實現(xiàn)句級對齊,Paraconc軟件完全可以實現(xiàn)該功能。該軟件由新西蘭奧克蘭大學(xué)應(yīng)用語言學(xué)教授Michael Barlow于1996年推出Windows版本[7](P3),網(wǎng)上提供免費Demo版本①。
語料庫建設(shè)是研究成果的重要物質(zhì)基礎(chǔ),而且影響長遠(yuǎn)[8](P2)。當(dāng)前,網(wǎng)絡(luò)技術(shù)和相關(guān)語料庫軟件持續(xù)發(fā)展,研究者根據(jù)興趣自建特色小型語料庫,為教學(xué)和科研服務(wù)是完全可行的。自建雙語平行語料庫需綜合考慮以下幾個方面的問題:語料庫設(shè)計方案、語料庫軟件選擇以及語料庫構(gòu)建的具體過程。
語料庫設(shè)計之初就應(yīng)明晰建庫目的、明確建庫規(guī)模、確定加工深度。筆者主要從事高校英語教學(xué)和漢英翻譯方面的研究,尤其關(guān)注漢譯英的方法及特征。因此,語料庫建設(shè)的目的就是為英語教學(xué)和漢英翻譯研究服務(wù)。初步設(shè)計為動態(tài)可擴展的、句級對應(yīng)的、漢譯英單向語料庫。受經(jīng)驗及精力限制,首批內(nèi)容選擇篇幅普遍較短,公認(rèn)影響力較大的外教社中國文化漢外對照叢書之張培基英譯中國現(xiàn)代散文選系列。
語料庫研究根據(jù)對已有語言分析體系所持態(tài)度可以分為“基于語料庫”和“語料庫驅(qū)動”兩種研究范式,前者將語料庫視為眾多數(shù)據(jù)種類的一種,后者主張一切源自語料庫[9](P329)。語料庫體是各項語料庫研究的基礎(chǔ)平臺,為了最大限度的方便研究,涉及語料全部按照來源進行了篇章編碼、原作者編碼及句子編碼,以兩種方式存儲,未標(biāo)注中英文詞性的生語料和標(biāo)注有中英文詞性的熟語料。
對于廣大外語教師而言,受研究經(jīng)費和研究規(guī)模限制,選擇建庫軟件的原則一般是:簡便易行,功能強大,可免費試用。因此,商務(wù)軟件Wordpilot,Wordsmith和Trados不適用于自建漢英平行語料庫。本文擬使用Microsoft-Word整理文本,Microsoft-excel編號,ICT-CLAS和Gotagger分別標(biāo)注漢英詞性,Paraconc對齊和檢索文本。
(二)語料庫構(gòu)建過程
1.語料采集和整理
語料采集主要通過兩種渠道:一是借助網(wǎng)絡(luò)獲取免費的電子版本,按照需要借用轉(zhuǎn)換工具進行自動轉(zhuǎn)換;二是借助掃描工具自主轉(zhuǎn)換原始的書面文本。需要指出的是,通過這兩種渠道,尤其是第二種渠道,得到的版本都存在很多問題,需借助Microsoft-word清潔文本,如利用通配符去除多余空行,利用“編輯替換”功能修正標(biāo)點符號。同時,為了保證文本質(zhì)量,需購買或借閱紙質(zhì)書籍,逐句核對,增補缺失語句,刪除謬誤信息。
語料整理即中文分字、語料分割和語料編碼的過程。首先,中文分字。中英文分詞差異致使語料庫檢索軟件Paraconc無法識別未經(jīng)分詞的中文文本,雖然巧妙選用“正則表達(dá)式”檢索,可以實現(xiàn)檢索目的,但并不理想,比如搭配檢索就會受限。參考文秋芳[10](P40)等人的建庫經(jīng)驗,在漢字間加入空格,即可實現(xiàn)正常的文本檢索。其次,語料分割。完成中文分字后,即可對中英文語料進行語篇分割和語句分割。語篇分割很簡單,按照“第N本書+第N篇”的格式分篇命名,如101即表示第一本書的第一篇文章。語句分割相對復(fù)雜,需要分別對中英文語篇表示結(jié)句的標(biāo)點符號進行搜索分割,之后再按照“第N本書+第N篇+第N句”的格式進行命名,如10101即表示第一本書第一篇文章的第一句。再次,語料編碼。Paraconc缺省的常規(guī)標(biāo)注碼是“<>”和“</>”,分別表示片段的開始和結(jié)束,所以利用Microsoft-excel進行語料編碼時全部放在“<>”和“</>”之內(nèi),語篇編碼格式為“第N本書+第N篇”,原作者編碼格式為“author=N”,譯者編碼格式為“translator=ZPJ”,語句編碼格式為“第N本書+第N篇+第N句”,并將編碼完成的文本命名為“第N本書+第N篇”的.txt文檔,保存?zhèn)溆谩?/p>
2.語料對齊
老賈再次伸手把多的一堆錢幣撥成兩堆。老賈在新分出的兩堆里,從看起來很精致漂亮的一堆中取出一枚遞給孟導(dǎo)。孟導(dǎo)接過錢幣,心中暗叫不好。按照老賈報憂不報喜的烏鴉嘴特質(zhì),這堆錢看起來也是兇多吉少。
國內(nèi)曾有多名學(xué)者撰文指出Paraconc軟件只能實現(xiàn)文本的段落對齊[6](P80),筆者在此有心為該軟件正名。Paraconc軟件的對齊功能,既可以實現(xiàn)文本的自動段落對齊,也可以實現(xiàn)語句的半自動對齊[7](P20)。如圖1②所示。
圖1 Paraconc軟件對齊單元調(diào)整界面/Figure 1 Merging and Splitting Alignment Units
經(jīng)過初步整理的中英文語料,已經(jīng)顯示為獨立的中英文語句,利用Paraconc軟件的merge和split功能予以調(diào)整,可以實現(xiàn)語句對齊。當(dāng)然這里所謂的句對齊,是一個較為寬泛的概念。中英文句子數(shù)量不一致,勢必涉及到拆分句子??紤]到這里是漢譯英語料,基本原則是以中文語句為準(zhǔn),盡量拆分英文語句。但如果中文語句對應(yīng)的英文部分不能獨立表意,則選擇合并漢語句子。
3.語料標(biāo)注
語料標(biāo)注的目的是通過系統(tǒng)標(biāo)注,附加相關(guān)信息,更大程度的方便研究。為了使語料發(fā)揮更大的作用,筆者對興建的小型語料庫進行了自動詞性標(biāo)注。標(biāo)注工具選擇了Gotagger和ICTCLAS軟件。英語賦碼軟件GoTagger③是日本GOTO Kazuaki所開發(fā)的一款簡便的詞性賦碼軟件,可以直接在Windows環(huán)境下運行。該款軟件采用Penn Treebank詞性標(biāo)記集④進行標(biāo)注。漢語詞法分析系統(tǒng)ICTCLAS⑤由中國科學(xué)院計算技術(shù)研究所研制,是較為理想的漢語詞法分析器,支持Windows操作系統(tǒng),采用計算所詞類標(biāo)注集ICTPOS⑥。圖2和圖3為標(biāo)注完成的語料示例。
圖2 ICTCLAS標(biāo)注示例/Figure 2:Chinese Corpus Tagged by ICTCLAS
圖3 GoTagger標(biāo)注示例/Figure 3:English Corpus Tagged by Go Tagger
標(biāo)注形式可以選擇,為了方便以后的研究,中英文語料詞性標(biāo)注時統(tǒng)一選擇“詞+“/”+詞性。經(jīng)過詞性標(biāo)注的語料有助于研究同一詞性單詞或詞組的不同翻譯方法,特定句式的翻譯模型及特定修辭結(jié)構(gòu)的翻譯模型等問題。
4.語料檢索
語料庫建設(shè)完成后,就可以方便的利用計算機進行雙語檢索。上載要檢索的語料,選擇Search選項,選擇語言,鍵入想要搜索內(nèi)容,就可以實現(xiàn)檢索目的。巧妙利用通配符,可以實現(xiàn)搭配檢索和模糊檢索。
另外,還可以選擇“Advanced Search”,控制檢索內(nèi)容,定義檢索語法,實現(xiàn)高級檢索。“Advanced Search”選項下設(shè)兩個變量“Search Syntax”和“General search Control”。前者包含三個選項:Text Search,Regular Expressions和Tag Search,可以控制檢索內(nèi)容,分別對文本、正則表達(dá)式和標(biāo)注進行檢索;后者也包含三個選項:Ignore case of letters,Use skipping and equal characters和Sentence mode,可以定義檢索語法,對忽略格式、篩選字符和選定句式后的文本進行檢索。
任何語料庫研究均開始于語料庫體的建立[11](P63)。本文介紹的自建漢英平行語料庫方法簡單易行,旨在拉近廣大外語教師和研究人員與語料庫的距離。通過自建語料庫,研究者可以在日常教學(xué)和科研工作中積累點滴,即時總結(jié),動態(tài)補充庫存語料,為將來的教學(xué)和科研工作奠定基礎(chǔ)。當(dāng)然,以上建庫方法仍有不足之處,在此僅供學(xué)界參考。
注釋
①Paraconc軟件下載地址:http://www.paraconc.com/demo.html.
②圖1、圖2、圖3顯示語料來源均為張培基譯注,上海外語教育出版社2007版的英譯中國現(xiàn)代散文選(1).
③GoTagger軟件下載地址:http://web4u.setsunan.ac.jp/Website/GoTagger.html,網(wǎng)頁上有相關(guān)的使用說明.
④Penn Treebank詞性標(biāo)記集下載地址:http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html.
⑤ICTCLAS軟件下載地址:http://ictclas.org/ictclas_download.aspx,網(wǎng)頁上有相關(guān)的使用說明.
⑥計算所詞類標(biāo)注集下載地址:ICTPOS http://ictclas.org/otherdocs/計算所漢語詞性標(biāo)記集ICTPOS3.0.doc.
[1]謝家成.論個人教學(xué)語料庫的構(gòu)建[J].外語電化教學(xué),2003,(91).
[2]梁茂成.利用WordPilot在外語教學(xué)中自建小型語料庫[J].外語電化教學(xué),2003,(94).
[3]謝家成.小型英漢平行語料庫的建立與運用[J].解放軍外國語學(xué)院學(xué)報,2004,(3).
[4]肖維青.自建語料庫與翻譯批評[J].外語研究,2005,(4).
[5]趙宏展.小型翻譯語料庫的DIY[J].中國科技翻譯,2007,(2).
[6]于正,孫東云.利用翻譯記憶系統(tǒng)自建雙語平行語料庫[J].外語研究,2009,(5).
[7]Michael Barlow.ParaConc:A Concordancer for Parallel Texts[M].Huston:Athelstan,2003.
[8]許家金,劉霞,等.基于CiteSpaceⅡ的國內(nèi)語料庫語言學(xué)研究概論(1998~2011)[J].語料庫語言學(xué),2012,(1).
[9]梁茂成.語料庫語言學(xué)研究的兩種范式:淵源、分歧及前景[J].外語教學(xué)與研究,2012,(3).
[10]文秋芳,王金銓.中國大學(xué)生英漢漢英口筆譯語料庫[M].北京:外語教學(xué)與研究出版社,2001.
[11]John Sinclair著,王建華譯.關(guān)于語料庫的建立[J].語言文字應(yīng)用,2000,(2).
[責(zé)任編輯:呂艷]
Self-construction of C-E Parallel Corpus
CUI Hong-ye,ZHENG Min-fang
(School of Foreign Languages,Xiazang Minzu University,Xianyang 712082,China)
Corpus-based Translation Research has become a major trend.However,large-scale corpora are limited to few teachers and researchers.With the great development of Internet and corpus software,it's possible for researchers to build small-scale corpora to meet their specific need.A simple but efficient way of building corpora will help to bring corpus to more teachers and researchers.
C-E Parallel Corpus;Corpus Software;Self-construction
H315.9
A
1004-7077(2015)04-0058-04
2015-05-19
西藏民族大學(xué)校級科研項目“張培基現(xiàn)代散文漢英翻譯語料庫的設(shè)計、建立和初探”(項目編號:2013myQ14)。
崔紅葉(1986-),女,河北石家莊人,西藏民族大學(xué)外語學(xué)院講師,碩士,主要從事翻譯理論與實踐研究;鄭敏芳(1978-),女,陜西白水人,西藏民族大學(xué)外語學(xué)院講師,碩士,主要從事翻譯理論與實踐研究。