華中農(nóng)業(yè)大學(xué) 劉 萍 黃小倩 劉 珊
農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)的創(chuàng)建*
華中農(nóng)業(yè)大學(xué) 劉 萍 黃小倩 劉 珊
本文介紹華中農(nóng)業(yè)大學(xué)“農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)”的創(chuàng)建情況,包括語(yǔ)料收集、文本的轉(zhuǎn)換與清潔、標(biāo)記、賦碼等。借助CQPweb網(wǎng)絡(luò)語(yǔ)料庫(kù)系統(tǒng),將該語(yǔ)料庫(kù)部署在校園網(wǎng)供博士生和本科生的學(xué)術(shù)寫作教學(xué)。語(yǔ)料庫(kù)應(yīng)用于教學(xué)的效果調(diào)查表明:調(diào)查對(duì)象認(rèn)為語(yǔ)料庫(kù)的應(yīng)用有利于提高學(xué)術(shù)英語(yǔ)寫作水平,有意愿在寫作實(shí)踐中繼續(xù)運(yùn)用語(yǔ)料庫(kù)這一工具與資源;同時(shí)調(diào)查對(duì)象也指出:現(xiàn)有的語(yǔ)料庫(kù)資源有待充實(shí),語(yǔ)料庫(kù)的檢索操作仍顯復(fù)雜。本研究旨在為專門用途語(yǔ)料庫(kù)的建設(shè)提供一些參考。
農(nóng)科學(xué)術(shù)英語(yǔ)論文、語(yǔ)料庫(kù)、學(xué)術(shù)英語(yǔ)、CQPweb
20世紀(jì)60年代,世界上第一個(gè)電子化英語(yǔ)語(yǔ)料庫(kù)布朗語(yǔ)料庫(kù)問(wèn)世后,各種類型、用途、規(guī)模的語(yǔ)料庫(kù)相繼建成。按研究目的,可將語(yǔ)料庫(kù)分為通用英語(yǔ)(EGP)和專門用途英語(yǔ)(ESP)語(yǔ)料庫(kù)。布朗語(yǔ)料庫(kù)、英國(guó)國(guó)家語(yǔ)料庫(kù)等均屬于通用英語(yǔ)語(yǔ)料庫(kù)。而專門用途英語(yǔ)語(yǔ)料庫(kù)是特定領(lǐng)域語(yǔ)言的反映(黃大網(wǎng)等2010),包括商務(wù)、法律、醫(yī)學(xué)等專業(yè)方向的語(yǔ)料庫(kù),廣泛應(yīng)用于詞典編纂、機(jī)輔翻譯、語(yǔ)言教學(xué)等。專門用途英語(yǔ)中的很多用法在通用英語(yǔ)語(yǔ)料庫(kù)中未有收集,因而無(wú)法檢索到例子,那么就需要建立專門用途英語(yǔ)語(yǔ)料庫(kù)。Sinclair(2003)曾指出大型語(yǔ)料庫(kù)的建設(shè)已趨緩,建設(shè)規(guī)模較小、專業(yè)針對(duì)性更強(qiáng)的ESP語(yǔ)料庫(kù)將是語(yǔ)料庫(kù)建設(shè)的發(fā)展趨勢(shì)。國(guó)際上有代表性的ESP語(yǔ)料庫(kù),包括Hyland建設(shè)的多學(xué)科學(xué)術(shù)期刊論文語(yǔ)料庫(kù)(含8個(gè)學(xué)科,240篇論文,130萬(wàn)詞)、Swales(2003)開(kāi)發(fā)的學(xué)術(shù)口語(yǔ)語(yǔ)料庫(kù)(錄音轉(zhuǎn)寫170萬(wàn)詞)。另外,英國(guó)考文垂、雷丁等大學(xué)(2004-2007年)聯(lián)合建設(shè)了英國(guó)學(xué)術(shù)英語(yǔ)寫作語(yǔ)料BAWE(British Academic Writing of English)庫(kù),該庫(kù)子集life sciences(140萬(wàn)詞)的收錄涉及農(nóng)業(yè)科學(xué)(134篇)、生物科學(xué)(169篇)、食品科學(xué)(124篇)3個(gè)農(nóng)業(yè)學(xué)科400多篇,代表著由高層次英語(yǔ)母語(yǔ)學(xué)習(xí)者撰寫的學(xué)術(shù)論文。當(dāng)然,life sciences子語(yǔ)料庫(kù)并非農(nóng)科英語(yǔ)專屬語(yǔ)料庫(kù),它同時(shí)也收錄了醫(yī)學(xué)、健康、心理學(xué)等領(lǐng)域的學(xué)術(shù)論文。除此之外,未見(jiàn)國(guó)外其他農(nóng)科英語(yǔ)語(yǔ)料庫(kù)建設(shè)的相關(guān)文獻(xiàn)記載。
在國(guó)內(nèi),1983年由楊惠中和黃人杰主持建成的上海交大科技英語(yǔ)語(yǔ)料庫(kù)JDEST是國(guó)內(nèi)建設(shè)的第一個(gè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)。自20世紀(jì)90年代以來(lái),很多學(xué)科領(lǐng)域都相繼建設(shè)了專門用途英語(yǔ)語(yǔ)料庫(kù),如軍事、海事、法律、商務(wù)、醫(yī)學(xué)、計(jì)算機(jī)等學(xué)科的ESP語(yǔ)料庫(kù)(趙晴 2010;董愛(ài)華 2013)。迄今為止,國(guó)內(nèi)有關(guān)農(nóng)科英語(yǔ)語(yǔ)料庫(kù)建設(shè)的文獻(xiàn)只有3個(gè)檢索結(jié)果,包括西北農(nóng)林大學(xué)(王敏、李麗霞 2014:6855)建設(shè)的動(dòng)物科學(xué)國(guó)際期刊論文語(yǔ)料庫(kù)(100萬(wàn)詞)、王景懌(2015:51)主持建設(shè)的英漢/漢英雙語(yǔ)畜牧業(yè)小型語(yǔ)料庫(kù),但這兩個(gè)語(yǔ)料庫(kù)不僅庫(kù)容量小,而且只涉及農(nóng)科領(lǐng)域某一個(gè)專業(yè)方向。有學(xué)者(范晶晶、李麗霞 2014;栗娜 2015)呼吁創(chuàng)建農(nóng)業(yè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),并提出了建設(shè)構(gòu)想,這表明國(guó)內(nèi)部分學(xué)者已經(jīng)意識(shí)到農(nóng)科英語(yǔ)語(yǔ)料庫(kù)建設(shè)的必要性和重要性。
語(yǔ)料庫(kù)被廣泛用于語(yǔ)言教學(xué)與研究,正如Leech(1993)所言:“從科學(xué)方法的角度,語(yǔ)料庫(kù)研究方法是一種更為強(qiáng)有力的方法,因?yàn)槠浣Y(jié)果是可以驗(yàn)證的?!盝ohns(1991)提出了“數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)”(Data-driven Learning,簡(jiǎn)稱DDL)。國(guó)內(nèi)的語(yǔ)料庫(kù)專家論證了語(yǔ)料庫(kù)的頻率統(tǒng)計(jì)、概率分析等功能對(duì)于寫作中詞塊、類聯(lián)接、語(yǔ)義韻律等語(yǔ)言使用方面的研究?jī)r(jià)值(李文中 2001;王克非、黃立波2008;王克非、秦洪武 2012),桂詩(shī)春等(2010)專家論證了語(yǔ)料庫(kù)與ESP發(fā)展的互動(dòng)關(guān)系,呼吁利用語(yǔ)料庫(kù)促進(jìn)ESP教學(xué)發(fā)展。
農(nóng)業(yè)是涉及國(guó)計(jì)民生的支柱產(chǎn)業(yè),眾多從事農(nóng)業(yè)科技研究的科研人員和高層次的學(xué)習(xí)者均有發(fā)表SCI論文、在國(guó)際上推廣農(nóng)科研究成果的需求。因此,農(nóng)科英語(yǔ)語(yǔ)料庫(kù)的建設(shè)及其在寫作教學(xué)中的應(yīng)用具有緊迫的現(xiàn)實(shí)意義。依托國(guó)家社科基金項(xiàng)目,項(xiàng)目組創(chuàng)建了農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù),旨在為農(nóng)科專業(yè)高層次學(xué)習(xí)者的ESP寫作教學(xué)及SCI論文寫作過(guò)程提供資源、工具與方法,提升農(nóng)科英語(yǔ)論文的寫作質(zhì)量與刊發(fā)率,最終促進(jìn)農(nóng)科成果在國(guó)際上的推廣。
農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)是根據(jù)農(nóng)學(xué)專業(yè)分類,收集農(nóng)科文獻(xiàn)中完整的學(xué)術(shù)英語(yǔ)論文文本而建成的電子文庫(kù)。該庫(kù)收集的文本包括已發(fā)表的權(quán)威期刊論文和農(nóng)科專業(yè)碩士生、博士生撰寫的學(xué)術(shù)論文。該庫(kù)的創(chuàng)建意義有:1)多學(xué)科、跨學(xué)科、交叉學(xué)科的農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)的創(chuàng)建可基本滿足ESP寫作教學(xué)多方面的需求,例如為教材建設(shè)、大綱與詞表的制定、農(nóng)科詞典編纂、農(nóng)科專業(yè)翻譯和語(yǔ)言培訓(xùn)提供資源與工具;2)語(yǔ)料庫(kù)的應(yīng)用將促進(jìn)寫作教學(xué)的改革。長(zhǎng)期以來(lái),寫作教學(xué)被認(rèn)為費(fèi)時(shí)低效,枯燥的講授與單調(diào)的操練導(dǎo)致產(chǎn)出格式化、形式化(蔡少蓮 2008),語(yǔ)料庫(kù)數(shù)據(jù)驅(qū)動(dòng)的寫作教學(xué)方式可提高寫作教學(xué)成效,促進(jìn)ESP寫作教學(xué)改革。
3.1 農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)及其網(wǎng)絡(luò)檢索平臺(tái)
農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)包括農(nóng)科方向的SCI期刊論文語(yǔ)料庫(kù)(336個(gè)完整論文文本,220萬(wàn)詞)與學(xué)習(xí)者語(yǔ)料庫(kù),后者收錄了碩士生、博士生出于真實(shí)SCI發(fā)表目的撰寫的學(xué)術(shù)論文(306個(gè)完整論文文本,140萬(wàn)詞)。這兩個(gè)平行的語(yǔ)料庫(kù)有著相同的結(jié)構(gòu)框架,其下是按照學(xué)科分類的專業(yè)論文子集,包括九個(gè)學(xué)科:植物科學(xué)(ZWKX)、動(dòng)物科學(xué)(DWKX)、生命科學(xué)(SMKE)、園藝林學(xué)(YYLX)、水產(chǎn)科學(xué)(SCKX)、食品科學(xué)(SPKX)、農(nóng)科機(jī)械(NKJX)、農(nóng)業(yè)經(jīng)濟(jì)(NYJI)、資源環(huán)境(ZYHJ)。每篇論文按照“學(xué)科名稱漢語(yǔ)拼音的首字母組合 + 數(shù)字”命名,例如植物科學(xué)專業(yè)的第34篇論文,命名為ZWKX34。為了凸顯傳統(tǒng)農(nóng)科專業(yè)的地位,336篇期刊論文中4個(gè)傳統(tǒng)的農(nóng)科專業(yè)(植科、動(dòng)科、生科、園林)的文本數(shù)量(在50篇以上)比其他學(xué)科(在25篇以上)要多。期刊論文語(yǔ)料庫(kù)代表英語(yǔ)母語(yǔ)者專家語(yǔ)料庫(kù),學(xué)習(xí)者語(yǔ)料庫(kù)代表漢語(yǔ)母語(yǔ)者語(yǔ)料庫(kù)。這兩個(gè)語(yǔ)料庫(kù)除了按照學(xué)科劃分的9個(gè)學(xué)科子語(yǔ)料庫(kù)之外,還按照論文的部分分類,建立了6個(gè)論文部分子語(yǔ)料庫(kù),包括摘要ABS(abstract)、引言INT(introduction)、方法材料MET(methodology)、結(jié)果RES(results)、討論DIS(discussion)、結(jié)論CON(conclusion)。語(yǔ)料庫(kù)構(gòu)架如下圖所示:
圖1. 農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)構(gòu)架
為了實(shí)現(xiàn)語(yǔ)料庫(kù)資源共享與服務(wù)寫作教學(xué)及其研究的目的,項(xiàng)目組在北京外國(guó)語(yǔ)大學(xué)語(yǔ)料庫(kù)團(tuán)隊(duì)(特別是吳良平老師)的幫助下,架設(shè)了基于校園網(wǎng)的語(yǔ)料庫(kù)檢索平臺(tái)(corpus query processor,簡(jiǎn)稱CQPweb)。該平臺(tái)主體為農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)。同時(shí),為了語(yǔ)言的對(duì)比研究,得到授權(quán)后,項(xiàng)目組又上傳了BAWE語(yǔ)料庫(kù)。該庫(kù)收錄了高層次英語(yǔ)母語(yǔ)學(xué)習(xí)者撰寫的學(xué)術(shù)論文,可進(jìn)行英、漢語(yǔ)母語(yǔ)語(yǔ)言使用的對(duì)比比較,亦可進(jìn)行專家和學(xué)習(xí)者的語(yǔ)言對(duì)比研究。
3.2 語(yǔ)料選取的標(biāo)準(zhǔn)與文本元信息標(biāo)記
9個(gè)農(nóng)科專業(yè)方向相關(guān)的期刊論文來(lái)自9個(gè)農(nóng)科院系的專家、教授們親自下載推薦的權(quán)威期刊論文。他們對(duì)刊源的權(quán)威性和論文本身的質(zhì)量進(jìn)行了嚴(yán)格把關(guān)。期刊論文語(yǔ)料的選擇標(biāo)準(zhǔn)包括:1)論文的第一作者必須是英語(yǔ)母語(yǔ)者(依據(jù)姓名、國(guó)籍、工作單位、作者介紹判斷);2)源PDF論文的分欄排版最好是一欄或兩欄;3)文章具有典型的SCI論文結(jié)構(gòu),即包括摘要、引言、方法材料、結(jié)果、討論、結(jié)論幾個(gè)結(jié)構(gòu)板塊,剔除了板塊結(jié)構(gòu)不夠明顯的論文。例如,刊源為Science、Nature等自然科學(xué)頂級(jí)期刊上介紹性、報(bào)道性或綜述性的文章被剔除;4)文章的長(zhǎng)度以10頁(yè)左右為佳,不宜過(guò)長(zhǎng),也不宜過(guò)短。最終我們收集到9個(gè)農(nóng)科專業(yè)滿足條件的論文共336篇(220萬(wàn)詞)。其中大部分期刊論文的作者來(lái)自美國(guó)和英國(guó),少部分來(lái)自于加拿大、澳大利亞以及新西蘭等英語(yǔ)國(guó)家,刊源為包括Nature和Cell等在內(nèi)的國(guó)際權(quán)威期刊。
學(xué)習(xí)者語(yǔ)料庫(kù)的語(yǔ)料來(lái)自華中農(nóng)業(yè)大學(xué)9個(gè)農(nóng)科專業(yè)方向的碩士生、博士生出于真實(shí)SCI論文發(fā)表目的而撰寫的研究論文。論文由專門提供學(xué)術(shù)英語(yǔ)論文語(yǔ)言修改服務(wù)的華農(nóng)學(xué)術(shù)寫作工作室提供。項(xiàng)目組從該工作室采集到從2010年1月至2015年3月修改前的完整學(xué)術(shù)論文共300多篇,經(jīng)語(yǔ)料加工,最終得到有效文本305篇(140萬(wàn)詞)??偟膩?lái)說(shuō),由于來(lái)源局限,學(xué)習(xí)者論文語(yǔ)料比期刊論文語(yǔ)料少,論文的學(xué)科分布均衡性也不及期刊論文。由于論文修改遵循自愿原則,并非所有寫作者都選擇向華農(nóng)學(xué)術(shù)寫作工作室提交論文修改請(qǐng)求,有的院系的學(xué)生直接向國(guó)外公司提交論文修改。今后,我們將加大華農(nóng)學(xué)術(shù)寫作工作室的宣傳力度,同時(shí),我們將建立與其他農(nóng)科院校的合作,爭(zhēng)取在更廣范圍內(nèi)獲取學(xué)習(xí)者撰寫的研究論文,以便拓展語(yǔ)料來(lái)源,以求學(xué)習(xí)者語(yǔ)料庫(kù)語(yǔ)料的代表性及學(xué)科均衡性。
語(yǔ)料采集之后的工作便是文本元信息的統(tǒng)計(jì)。論文的編號(hào)與命名、文本字?jǐn)?shù)、作者國(guó)籍、期刊來(lái)源、作者姓名、論文標(biāo)題等信息被填寫在Excel表格中,以便對(duì)某些信息數(shù)據(jù)進(jìn)行計(jì)算分析。
3.3 文本轉(zhuǎn)換與清理、賦碼、標(biāo)記與子語(yǔ)料庫(kù)的建設(shè)
3.3.1 文本轉(zhuǎn)換與清理的兩種方法
文本元信息統(tǒng)計(jì)之后,便是對(duì)語(yǔ)料的加工處理。期刊論文的語(yǔ)料加工往往從PDF格式轉(zhuǎn)換開(kāi)始,學(xué)習(xí)者語(yǔ)料庫(kù)則從DOC格式文本轉(zhuǎn)換開(kāi)始。在此我們介紹兩種從PDF到TXT的文本格式轉(zhuǎn)換方法。
方法一:此法采用北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教育研究中心和外語(yǔ)教學(xué)與研究出版社聯(lián)合舉辦的暑期語(yǔ)料庫(kù)培訓(xùn)課程中所介紹的方法,該方法對(duì)期刊論文語(yǔ)料進(jìn)行了兩次轉(zhuǎn)換,即從PDF到DOC,再到TXT。文本格式轉(zhuǎn)換需借助的工具軟件和操作步驟展示如下:
(1)PDF文件轉(zhuǎn)換成DOC文件。這一步驟所用的工具軟件為Adobe Acrobat。首先對(duì)頁(yè)眉、頁(yè)腳裁剪刪除,之后另存為DOC格式文件。然后刪除DOC文件中的噪音信息,如刊源信息、作者信息(包括作者姓名、通訊地址等)、圖表、注釋、參考文獻(xiàn)等等,有些文本信息的取舍取決于研究目的,例如是否保留致謝部分取決于研究需要。
(2)將所有由PDF文本轉(zhuǎn)換得到的DOC文件整理到一個(gè)文件夾中,利用“DOC to TXT”軟件一次性轉(zhuǎn)換成TXT格式文件。但是轉(zhuǎn)換后的文本中亂碼現(xiàn)象時(shí)有發(fā)生。針對(duì)這一問(wèn)題,課題組成員嘗試著利用Nitro Reader軟件將PDF格式直接轉(zhuǎn)換成TXT格式文本,但是該軟件不具備裁剪頁(yè)眉、頁(yè)腳的功能,所以增加了手動(dòng)刪除的工作量,但基本上不會(huì)出現(xiàn)亂碼和正文內(nèi)容板塊順序錯(cuò)亂的情況,所以兩種軟件各有利弊。
(3)核對(duì)檢查TXT文件信息。對(duì)照PDF源文件,檢查TXT文件。檢查對(duì)象包括在刪除、復(fù)制、文本格式轉(zhuǎn)化過(guò)程造成的文本內(nèi)容的遺失、重復(fù)、板塊結(jié)構(gòu)順序錯(cuò)亂以及拼寫錯(cuò)誤。例如,我們發(fā)現(xiàn)經(jīng)過(guò)兩次格式轉(zhuǎn)換后,有些單詞中“fl”和“fi”的字母組合被顯示為“?”。如果某類錯(cuò)誤有規(guī)律可循,便可以使用EditPad Pro軟件進(jìn)行查找和替換,批量處理,或者在PowerGREP軟件中逐個(gè)修改。
(4)TXT文本的清潔。經(jīng)過(guò)上述檢查步驟得到一個(gè)初步的TXT基礎(chǔ)文本,但是這絕非是最終可以使用的清潔文本,因此需要對(duì)TXT基礎(chǔ)文本進(jìn)行清潔。TXT文本清潔工具軟件可采用PowerGREP軟件。
方法二:
我們不妨把上述文本轉(zhuǎn)換與清理的方法稱之為方法一。采用方法一,項(xiàng)目組完成了200多篇期刊論文語(yǔ)料的加工與處理。實(shí)踐表明,通過(guò)方法一加工1篇期刊論文文本的工作,包括從PDF到TXT文本的轉(zhuǎn)換與清潔大致需要花費(fèi)40-60分鐘。語(yǔ)料庫(kù)建設(shè)后期,華農(nóng)的博士生參與了語(yǔ)料資源的共建共享,有博士生推薦了一種快速有效的文本轉(zhuǎn)換方法,我們將其稱之為方法二。方法二加工處理1篇期刊論文平均所需時(shí)間在10分鐘以內(nèi),是方法一所需時(shí)間的1/6或1/5,依靠此種方法得到的TXT文本,基本不需要文本清潔,即文本轉(zhuǎn)化與清潔兩項(xiàng)工作一并完成。使用方法二實(shí)現(xiàn)從PDF到TXT直接轉(zhuǎn)化的3個(gè)簡(jiǎn)單步驟如下:
步驟1:用以下網(wǎng)址搜索所需要的英文文獻(xiàn):http://www.gfsoso.netscholar;https://scholar.ghbcx.com;https://scholar.wddmz.com。以第一個(gè)網(wǎng)址為例,在谷粉搜搜中找到提供全文資源的期刊論文。
步驟2:在網(wǎng)絡(luò)頁(yè)面找到相關(guān)全文資料后,不需要下載全文,可直接在網(wǎng)頁(yè)上點(diǎn)擊Full Text (HTML)瀏覽全文。
步驟3:直接選中目標(biāo),復(fù)制內(nèi)容,新建TXT文件,把復(fù)制的內(nèi)容直接粘貼到TXT文件中,便得到TXT目標(biāo)文件。
方法二的優(yōu)點(diǎn)在于:1)基本上不會(huì)出現(xiàn)斷行和亂碼現(xiàn)象;2)可以避免刪除圖表及其注釋的大量繁瑣工作,省時(shí)高效;3)操作簡(jiǎn)便易行。此法得到的文本可以放在PowerGREP軟件中進(jìn)行刪除空行的簡(jiǎn)單處理就能得到我們需要的清潔文本。同時(shí)利用谷粉搜搜檢索期刊論文也是對(duì)期刊論文質(zhì)量的檢驗(yàn)。但是,此法的局限性在于過(guò)分依賴網(wǎng)絡(luò),僅能加工處理網(wǎng)絡(luò)上能夠檢索到的文獻(xiàn),不能處理非網(wǎng)絡(luò)版的文獻(xiàn)。
3.3.2 賦碼與標(biāo)記
文本賦碼將有利于文本的檢索。利用正則表達(dá)式進(jìn)行的復(fù)雜檢索對(duì)文本賦碼提出了要求。不同工具軟件甚至要求不同的賦碼形式。目前,英語(yǔ)文本的賦碼主要有TreeTagger和CLAWS兩種賦碼,二者皆可借助軟件自動(dòng)完成。總的來(lái)說(shuō),CLAWS賦碼比TreeTagger賦碼的精確程度更高。華農(nóng)語(yǔ)料庫(kù)對(duì)TXT原始文本進(jìn)行了TreeTagger和CLAWS兩種賦碼,以便適用于不同的檢索工具。
為便于語(yǔ)料的提取,項(xiàng)目組對(duì)336篇期刊論文和305篇學(xué)習(xí)者論文文本(總共641篇)中title、abstract、body 3個(gè)部分進(jìn)行了標(biāo)記。標(biāo)記方法是在標(biāo)注對(duì)象的開(kāi)始位置與結(jié)尾位置分別加上一對(duì)尖括號(hào)。例如,對(duì)標(biāo)題的標(biāo)記,是在標(biāo)題前加,標(biāo)記后的標(biāo)題可提取,而對(duì)摘要和正文的標(biāo)記,同樣可以達(dá)到提取的目的。
3.3.3 子語(yǔ)料庫(kù)的建設(shè)
為了聚焦論文不同部分的寫作教學(xué)及其研究,在全文語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)上,我們進(jìn)行了論文各部分(摘要、引言等)子語(yǔ)料庫(kù)的建設(shè)。論文部分子語(yǔ)料庫(kù)的建設(shè)遇到了以下一些問(wèn)題:
1)不同期刊的論文寫作規(guī)范要求不一致,導(dǎo)致某些論文6個(gè)部分的結(jié)構(gòu)不是很清晰。例如,有的論文將Abstract界定為Summary,其位置可能放在論文的開(kāi)頭,也可能放在論文的結(jié)尾;有的論文中Abstract部分甚至缺失;有的論文的Results部分可能與Discussion部分合并,Discussion也可能與Conclusion部分合二為一。
2)語(yǔ)料的高度專業(yè)化給論文部分的切分、提取帶來(lái)了技術(shù)障礙。語(yǔ)料加工者原本是英語(yǔ)專業(yè)的學(xué)生,其自身的知識(shí)完成不了論文章節(jié)部分的切分。同時(shí),科技論文并非純語(yǔ)言文本,里面含有大量的學(xué)科專業(yè)領(lǐng)域的符號(hào)和公式,很多符號(hào)是英語(yǔ)語(yǔ)言文學(xué)專業(yè)學(xué)生不曾接觸到的,有些符號(hào)、公式的刪除會(huì)影響論文本內(nèi)容的完整性,那么具體的符號(hào)與公式是否能刪掉,文本中的某些上下標(biāo)是否應(yīng)該恢復(fù),抑或可以刪掉等問(wèn)題的解決需要應(yīng)用專業(yè)學(xué)科知識(shí)進(jìn)行識(shí)別、判斷與處理。
鑒于此,我們把子語(yǔ)料庫(kù)的建設(shè)任務(wù)以課后作業(yè)的形式分配給參與華農(nóng)學(xué)術(shù)英語(yǔ)寫作課程學(xué)習(xí)的60多名博士生,他們來(lái)自于植科、動(dòng)科等不同農(nóng)科專業(yè),每人分得10篇論文,完成對(duì)論文的標(biāo)記、論文各部分的切分提取以及語(yǔ)料的人工校對(duì)。華農(nóng)60多名博士生經(jīng)過(guò)兩個(gè)星期的共同努力,在全文語(yǔ)料庫(kù)建設(shè)基礎(chǔ)上,我們完成了摘要、引言、方法、結(jié)論等6個(gè)子語(yǔ)料庫(kù)的建設(shè)。
農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)建成后,上傳到華中農(nóng)業(yè)大學(xué)HZAU CQPweb平臺(tái)(http://211.69.132.28/)。隨后,在2個(gè)博士班和2個(gè)本科生A班(英語(yǔ)成績(jī)優(yōu)異者組成的班級(jí))的寫作教學(xué)中開(kāi)展了語(yǔ)料庫(kù)應(yīng)用的教學(xué)實(shí)驗(yàn)。4個(gè)班共124人通過(guò)給定的賬戶與密碼登錄HZAU CQPweb使用該平臺(tái)。
語(yǔ)料庫(kù)檢索培訓(xùn)未在寫作課程學(xué)習(xí)中單獨(dú)增加學(xué)時(shí)。在QQ學(xué)習(xí)群上,教師上傳了語(yǔ)料庫(kù)CQPweb檢索手冊(cè)和常見(jiàn)問(wèn)題及解答,供學(xué)生自學(xué),然后布置了語(yǔ)料庫(kù)檢索練習(xí)的課后作業(yè)。檢索練習(xí)的設(shè)計(jì)遵循從易到難、由簡(jiǎn)入繁的原則,從單個(gè)詞的檢索到短語(yǔ)的搭配、句型的提取,從單庫(kù)檢索到跨庫(kù)檢索,從簡(jiǎn)單檢索到復(fù)雜檢索。對(duì)于復(fù)雜檢索練習(xí)題,我們給予了檢索表達(dá)式進(jìn)行提示。在檢索作業(yè)完成期間,兩名教師24小時(shí)在QQ群提供檢索技術(shù)咨詢,在線實(shí)時(shí)解答學(xué)生關(guān)于語(yǔ)料庫(kù)檢索的各種提問(wèn)。老師鼓勵(lì)學(xué)生在線提問(wèn),并將每周的語(yǔ)料庫(kù)檢索提問(wèn)與答案收集整理,放到QQ群中與同學(xué)們分享。經(jīng)過(guò)4次循序漸進(jìn)的語(yǔ)料庫(kù)檢索練習(xí),學(xué)生基本掌握了語(yǔ)料庫(kù)檢索技術(shù)。在此基礎(chǔ)上,結(jié)合實(shí)際寫作任務(wù),要求同學(xué)們就寫作過(guò)程中實(shí)際遇到的語(yǔ)言困惑,自己提問(wèn)并通過(guò)語(yǔ)料庫(kù)檢索,找到問(wèn)題的答案。
語(yǔ)料庫(kù)應(yīng)用于寫作教學(xué)經(jīng)歷了一個(gè)學(xué)期的教學(xué)實(shí)驗(yàn),課程結(jié)束時(shí)我們對(duì)語(yǔ)料庫(kù)的應(yīng)用情況進(jìn)行了書面訪談。訪談圍繞“語(yǔ)料庫(kù)使用的困難與收獲”、“對(duì)語(yǔ)料庫(kù)的認(rèn)識(shí)”、“語(yǔ)料庫(kù)的局限”、“參與語(yǔ)料庫(kù)創(chuàng)建的感受”4個(gè)問(wèn)題進(jìn)行了提問(wèn)。反饋信息表明:絕大多數(shù)學(xué)生對(duì)語(yǔ)料庫(kù)在外語(yǔ)教學(xué)中的作用持肯定態(tài)度。他們認(rèn)為寫作過(guò)程中應(yīng)用語(yǔ)料庫(kù)有利于英語(yǔ)寫作質(zhì)量的提高,通過(guò)語(yǔ)料庫(kù)檢索及其結(jié)果分析,他們能夠?yàn)槟承┱Z(yǔ)言困惑自己探求答案。因此語(yǔ)料庫(kù)的應(yīng)用有利于提高學(xué)生的英語(yǔ)自主學(xué)習(xí)能力,有利于培養(yǎng)學(xué)生發(fā)現(xiàn)問(wèn)題、分析問(wèn)題、解決問(wèn)題的能力??鐜?kù)檢索的對(duì)比研究有利于培養(yǎng)學(xué)生的批判性思維能力,提高其對(duì)語(yǔ)言使用的敏感度。鑒于此,很多學(xué)生明確表示在今后實(shí)際寫作中他們?cè)敢饫谜Z(yǔ)料庫(kù)這一工具與資源,提高寫作質(zhì)量。
書面反饋也暴露出語(yǔ)料庫(kù)建設(shè)與使用中的一些問(wèn)題。其中最突出的兩個(gè)問(wèn)題分別是:1)現(xiàn)有語(yǔ)料庫(kù)庫(kù)容量不夠大,農(nóng)科方向某些專業(yè)領(lǐng)域的論文在語(yǔ)料庫(kù)中未有涉及,影響了語(yǔ)料的代表性,導(dǎo)致某些專業(yè)表達(dá)在語(yǔ)料庫(kù)中不能檢索到結(jié)果;2)語(yǔ)料庫(kù)檢索表達(dá)式的編寫過(guò)于復(fù)雜,檢索界面不夠友好,語(yǔ)料庫(kù)檢索的學(xué)習(xí)與使用對(duì)新手提出了挑戰(zhàn),他們希望語(yǔ)料庫(kù)的檢索能夠像Google和百度搜索一樣方便。
同時(shí),調(diào)查對(duì)象對(duì)語(yǔ)料庫(kù)的建設(shè)與完善提出了以下建議:1)語(yǔ)料資源須充實(shí)。語(yǔ)料庫(kù)及其子語(yǔ)料庫(kù)的專業(yè)方向須細(xì)化,以求語(yǔ)料涵蓋面更廣、更具代表性。有同學(xué)甚至建議教師傳授語(yǔ)料庫(kù)建庫(kù)流程,以便學(xué)生自己下載本專業(yè)領(lǐng)域的語(yǔ)料,建設(shè)專業(yè)領(lǐng)域小型語(yǔ)料庫(kù)或某個(gè)目標(biāo)期刊論文的語(yǔ)料庫(kù),滿足個(gè)性化語(yǔ)料檢索的需求。大部分同學(xué)表示愿意參與語(yǔ)料庫(kù)建設(shè),包括提供專業(yè)語(yǔ)料和進(jìn)行語(yǔ)料加工。2)在語(yǔ)料分類方面,他們建議根據(jù)期刊的影響因子的分值范圍進(jìn)行分類,以滿足用戶對(duì)不同檔次論文發(fā)表的檢索之需。3)在檢索技術(shù)培訓(xùn)方面,調(diào)查對(duì)象建議:編寫更簡(jiǎn)便易用的CQPweb操作手冊(cè);建立網(wǎng)絡(luò)討論平臺(tái),便于交流互動(dòng);開(kāi)設(shè)語(yǔ)料庫(kù)檢索技術(shù)培訓(xùn)課程。
本文探討了農(nóng)科英語(yǔ)語(yǔ)料庫(kù)建設(shè)的必要性,提出農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)的建設(shè)及其在學(xué)術(shù)英語(yǔ)教學(xué)中的應(yīng)用將有利于學(xué)術(shù)英語(yǔ)寫作質(zhì)量與水平的提高。本文詳細(xì)介紹了農(nóng)科英語(yǔ)語(yǔ)料庫(kù)的建設(shè)流程,介紹了兩種文本加工的方法。方法一:利用Adobe Acrobat和DOC to TXT兩個(gè)軟件實(shí)現(xiàn)從PDF到DOC,再到TXT的兩次文本格式轉(zhuǎn)化法,此種方法繁瑣耗時(shí),但是具有廣普適用性。方法二:利用學(xué)術(shù)文獻(xiàn)的瀏覽網(wǎng)頁(yè),直接復(fù)制文本黏貼到TXT文本中,一次性實(shí)現(xiàn)從PDF到TXT的格式轉(zhuǎn)換,此法高效省時(shí)、出錯(cuò)率低,特別適合已公開(kāi)發(fā)表的學(xué)術(shù)文本的加工處理。語(yǔ)料庫(kù)建成后,上傳到基于校園網(wǎng)的CQPweb系統(tǒng),嘗試將語(yǔ)料庫(kù)應(yīng)用于寫作教學(xué)。
語(yǔ)料庫(kù)應(yīng)用的效果調(diào)查表明:經(jīng)過(guò)CQPweb檢索手冊(cè)的自學(xué)和多次語(yǔ)料庫(kù)檢索練習(xí),實(shí)驗(yàn)對(duì)象基本能掌握語(yǔ)料庫(kù)檢索技術(shù),從而解答寫作中的部分語(yǔ)言困惑。調(diào)查對(duì)象認(rèn)為語(yǔ)料庫(kù)有益于寫作質(zhì)量的提高,明確表達(dá)了在今后實(shí)際寫作中將應(yīng)用語(yǔ)料庫(kù)的意愿。同時(shí),書面訪談暴露出現(xiàn)有語(yǔ)料庫(kù)資源仍不夠豐富,語(yǔ)料庫(kù)培訓(xùn)需由專門人員在網(wǎng)絡(luò)計(jì)算機(jī)教室進(jìn)行演示,安排專門課時(shí)上機(jī)操作。由于語(yǔ)料庫(kù)研制有一定的技術(shù)門檻,可以調(diào)動(dòng)有技術(shù)能力的學(xué)生參與語(yǔ)料庫(kù)建設(shè)。通過(guò)語(yǔ)料庫(kù)檢索技術(shù)的學(xué)習(xí)和應(yīng)用,學(xué)生意識(shí)到語(yǔ)料庫(kù)的價(jià)值,他們表示愿意提供專業(yè)語(yǔ)料文本并參與語(yǔ)料加工。
Hyland, K. 2008. Genre and academic writing in the disciplines [J]. Language Teaching 41(4):543-562.
Johns, T. 1991. Should you be persuaded—Two examples of data-driven learning materials [J].English Language Research Journal 4(1): 1-16.
Leech, G. 1993. Corpus annotation schemes [J]. Literary and Linguistic Computing 8(4): 275-281.
Leech, G. 1997. Teaching and language corpora: A convergence [A]. In A. Wichmann, S. Fligelstone,T. McEnery & G. Knowles (eds.). Teaching and Language Corpora [C]. London: Longman.1-23.
Sinclair, J. 2003. Reading Concordances [M]. London: Longman.
Swales J. 1990. Genre Analysis: English in Academic and Research Settings [M]. Cambridge:CUP.
蔡少蓮,2008,基于語(yǔ)料庫(kù)的英語(yǔ)寫作教學(xué)實(shí)證研究 [J],《外語(yǔ)教學(xué)》(6):61-68。
曹合建,2008,《基于語(yǔ)料庫(kù)的商務(wù)英語(yǔ)研究》[M]。北京:對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)出版社。
董愛(ài)華,2013,專門用途語(yǔ)料庫(kù)的建設(shè)、應(yīng)用、問(wèn)題與發(fā)展趨勢(shì) [J],《北京印刷學(xué)院學(xué)報(bào)》(5):59-62。
范晶晶、李麗霞,2014,農(nóng)業(yè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)建設(shè)構(gòu)想 [J],《安徽農(nóng)業(yè)科學(xué)》(7):2169-2170。
桂詩(shī)春、馮志偉、楊惠中、何安平、衛(wèi)乃興、李文中、梁茂成,2010,語(yǔ)料庫(kù)語(yǔ)言學(xué)與中國(guó)外語(yǔ)教學(xué) [J],《現(xiàn)代外語(yǔ)》(4):419-426。
何安平,2010,《語(yǔ)料庫(kù)輔助英語(yǔ)教學(xué)入門》[M]。北京:外語(yǔ)教學(xué)與研究出版社。
黃大網(wǎng)、秦 羿、徐賽穎,2010,專門用途英語(yǔ)語(yǔ)料庫(kù):挑戰(zhàn)、理?yè)?jù)與愿景 [J],《寧波大學(xué)學(xué)報(bào)(人文科學(xué)版)》(5):48-52。
栗 娜,2015,淺析農(nóng)業(yè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)建設(shè)思路及設(shè)想 [J],《高教學(xué)刊》(18):261-262。
梁茂成、李文中、許家金,2010,《語(yǔ)料庫(kù)應(yīng)用教程》[M]。北京:外語(yǔ)教學(xué)與研究出版社。
李文中、濮建忠,2001,語(yǔ)料庫(kù)索引在外語(yǔ)教學(xué)中的應(yīng)用 [J],《解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)》(2):20-25。
王景懌,2015,英漢–漢英雙語(yǔ)畜牧業(yè)小型語(yǔ)料庫(kù)建設(shè)及相關(guān)翻譯研究初探 [J],《語(yǔ)文學(xué)刊·外語(yǔ)教育教學(xué)》(2):51-52。
王克非、黃立波,2008,語(yǔ)料庫(kù)翻譯學(xué)十五年 [J],《中國(guó)外語(yǔ)》(6):9-14。
王克非、秦洪武,2012,英漢翻譯與漢語(yǔ)原創(chuàng)歷時(shí)語(yǔ)料庫(kù)的研制 [J],《外語(yǔ)教學(xué)與研究》(6):822-834。
王立非,2008,我國(guó)英語(yǔ)寫作教學(xué)與研究的語(yǔ)料庫(kù)語(yǔ)言學(xué)視角 [A]。載王立非(編),《英語(yǔ)寫作教學(xué)與研究的中國(guó)視角》 [C]。 北京:外語(yǔ)教學(xué)與研究出版社。2-9。
王 敏、李麗霞,2014,動(dòng)物科學(xué)國(guó)際期刊論文語(yǔ)料庫(kù)的創(chuàng)建與應(yīng)用 [J],《安徽農(nóng)業(yè)科學(xué)》(20):6854-6856。
衛(wèi)乃興、李文中、濮建忠,2005,《語(yǔ)料庫(kù)應(yīng)用研究》[C]。上海:上海外語(yǔ)教育出版社。
楊惠中、黃人杰,1982,JDEST科技英語(yǔ)計(jì)算機(jī)語(yǔ)料庫(kù) [J],《外語(yǔ)教學(xué)與研究》(4):60-62。
楊永林、李 鳴,2004,一種數(shù)字化英語(yǔ)學(xué)習(xí)語(yǔ)料庫(kù)及其應(yīng)用 [J],《外語(yǔ)電化教學(xué)》(6):20-26。
趙 晴,2010,專門用途語(yǔ)料庫(kù)在ESP教學(xué)中的應(yīng)用 [J],《重慶科技學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版)》(19):182-184。
通訊地址:430070 湖北武漢華中農(nóng)業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院(劉萍、劉珊)430070 湖北武漢華中農(nóng)業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院(黃小倩)
* 本研究得到2014國(guó)家社科基金項(xiàng)目“農(nóng)科英語(yǔ)語(yǔ)料庫(kù)的建設(shè)與其在ESP寫作教學(xué)中的應(yīng)用研究”(14BYY162)、中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2662015PY193)華中農(nóng)業(yè)大學(xué)2014年度校級(jí)重點(diǎn)建設(shè)課程(科技英語(yǔ)寫作)項(xiàng)目的資助。感謝北京外國(guó)語(yǔ)大學(xué)許家金教授、博士生吳良平對(duì)農(nóng)科學(xué)術(shù)英語(yǔ)論文語(yǔ)料庫(kù)的建設(shè)與本文的撰寫所提供的支持與幫助。