郭錦萍,陳宗華,馬建強(qiáng)
(1.海南大學(xué),海南 ???70228;2.海南師范大學(xué),海南 ???571158)
海南省高校大學(xué)生英語(yǔ)作文語(yǔ)料庫(kù)WECHCS建設(shè)
郭錦萍1,陳宗華2,馬建強(qiáng)1
(1.海南大學(xué),海南 ???70228;2.海南師范大學(xué),海南 ???571158)
語(yǔ)料庫(kù)建設(shè)講求客觀性、代表性、規(guī)模性、結(jié)構(gòu)性和歷時(shí)性。一個(gè)根據(jù)科學(xué)合理的設(shè)計(jì)建設(shè)起來(lái)的學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)具有語(yǔ)料庫(kù)語(yǔ)言學(xué)研究意義和教學(xué)指導(dǎo)意義。海南省高校大學(xué)生作文語(yǔ)料庫(kù)WECHCS建庫(kù)是十分必要的。語(yǔ)料庫(kù)建設(shè)的指導(dǎo)原則、結(jié)構(gòu)設(shè)計(jì)、內(nèi)容特色和變量類型等反映了WECHCS的建設(shè)情況;研究者最后還對(duì)自主開(kāi)發(fā)的子語(yǔ)料庫(kù)檢索軟件工具Sub-Corpus Finder的使用方法和功能特點(diǎn)作了圖示說(shuō)明。
海南省高校;大學(xué)生作文語(yǔ)料庫(kù);建設(shè);子語(yǔ)料庫(kù)檢索軟件
(一)國(guó)內(nèi)外學(xué)習(xí)者語(yǔ)料庫(kù)建設(shè)情況
近二十年來(lái),學(xué)習(xí)者語(yǔ)料庫(kù)(learner corpus)作為一種專用語(yǔ)料庫(kù)異軍突起,成為當(dāng)今語(yǔ)料數(shù)據(jù)庫(kù)建設(shè)中的一股新興力量。正如International Journal of Corpus Linguistics主編Wolfgang Teubert[1](P1-13)所坦言:“Today,the corpus is considered the default resource for almost anyone working in linguistics.No introspection can claim credence without verification through real language data.Corpus research has become a key element of almost all language study.”語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究中的劃時(shí)代意義決定了語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)作用和主導(dǎo)地位,因?yàn)檎Z(yǔ)料庫(kù)是任何語(yǔ)料語(yǔ)言學(xué)研究的前提和工具。
國(guó)外較早的學(xué)習(xí)者語(yǔ)料庫(kù)是上世紀(jì)八十年代末建立起來(lái)的朗曼學(xué)習(xí)者語(yǔ)料庫(kù)(Longman Learners’Corpus,LLC),包含了世界各地學(xué)生和教師主動(dòng)提交的1000萬(wàn)詞的英語(yǔ)書(shū)面作文。九十年代中期,比利時(shí)Louvain大學(xué)Granger教授等人建成的學(xué)習(xí)者英語(yǔ)國(guó)際語(yǔ)料庫(kù)(The International Corpus of Learner English,ICLE)是目前國(guó)際上公認(rèn)的最重要的學(xué)習(xí)者語(yǔ)料庫(kù),容詞量為200萬(wàn)詞,搜集了來(lái)自14種不同母語(yǔ)背景的大學(xué)英語(yǔ)專業(yè)3、4年級(jí)的課內(nèi)限時(shí)作文和課外非限時(shí)作文語(yǔ)料。另外,劍橋大學(xué)出版社和Cambridge ESOL共同建立的學(xué)習(xí)者語(yǔ)料庫(kù)(CLC)收集了來(lái)自150個(gè)國(guó)家、100種不同母語(yǔ)背景2000萬(wàn)詞的書(shū)面測(cè)試材料。除以上幾個(gè)大型語(yǔ)料庫(kù)外,其他以英語(yǔ)為二語(yǔ)或外語(yǔ)的國(guó)家近年來(lái)也相繼建立起了另外一些學(xué)習(xí)者語(yǔ)料庫(kù)。
國(guó)內(nèi)的學(xué)習(xí)者語(yǔ)料庫(kù)建設(shè)與研究始于上世紀(jì)90年代中期,進(jìn)入21世紀(jì)后以驚人的速度加快發(fā)展。初步統(tǒng)計(jì),目前已建成的有影響力的大型學(xué)習(xí)者語(yǔ)料庫(kù)有8個(gè):1.“中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)”(CLEC)[2]。1996 年籌建,國(guó)內(nèi)十幾個(gè)院校合作建成。該語(yǔ)料庫(kù)容詞量達(dá)100萬(wàn)詞,廣泛搜集了中國(guó)大陸的中學(xué)、大學(xué)非英語(yǔ)專業(yè)、大學(xué)英語(yǔ)專業(yè)學(xué)生在測(cè)試環(huán)境下寫(xiě)出的作文,也包括部分課外作文;2.香港科技大學(xué)約翰?彌爾頓教授建立的學(xué)習(xí)者語(yǔ)料庫(kù)(HKUST?Learner?Corpus)[3]。該庫(kù)搜集了香港高中生的英語(yǔ)作文語(yǔ)料,容量為2500萬(wàn)詞,并部分進(jìn)行了詞性賦碼和錯(cuò)誤標(biāo)注;3.MSEE(Middle School Educational English)[3]。華南師范大學(xué)何安平教授主持建立的中學(xué)英語(yǔ)教育語(yǔ)料庫(kù),包含了中學(xué)英語(yǔ)教材語(yǔ)料庫(kù)、英語(yǔ)課堂教學(xué)語(yǔ)料庫(kù),以及40萬(wàn)詞高考英語(yǔ)作文、40.6萬(wàn)詞初中生和高中生口頭英語(yǔ);4.“中國(guó)學(xué)生英語(yǔ)口筆語(yǔ)語(yǔ)料庫(kù)”(SWECCL 1.0)[4]。文秋芳、王立非、梁茂成等合力建成,收錄了我國(guó)大學(xué)英語(yǔ)專業(yè)學(xué)生口語(yǔ)和筆語(yǔ)語(yǔ)料200多萬(wàn)詞,主要是1996-2002年全國(guó)英語(yǔ)專業(yè)四級(jí)口試錄音資料以及部分高校英專學(xué)生的書(shū)面作文語(yǔ)料;5.“中國(guó)學(xué)生英語(yǔ)口筆語(yǔ)語(yǔ)料庫(kù)”(SWECCL 2.0)[5]。該庫(kù)是文秋芳等人采集的我國(guó)高校擴(kuò)招后英語(yǔ)專業(yè)學(xué)生(2003-2007年)四、八級(jí)考試語(yǔ)料,其中包含100萬(wàn)余詞的四、八級(jí)口試轉(zhuǎn)寫(xiě)文本和120萬(wàn)詞作文語(yǔ)料;6.“中國(guó)大學(xué)學(xué)習(xí)者英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)”(COLSEC)[6]。楊惠中教授負(fù)責(zé)的國(guó)家社科基金項(xiàng)目,采樣自2000至2004年全國(guó)大學(xué)英語(yǔ)考試(CET)口語(yǔ)考試實(shí)景音像資料,涵蓋三類體裁內(nèi)容,較為全面地反映了中國(guó)大學(xué)生在英語(yǔ)交談活動(dòng)中的語(yǔ)音語(yǔ)調(diào)特征、詞匯語(yǔ)法結(jié)構(gòu)特征、話語(yǔ)結(jié)構(gòu)特征與會(huì)話策略使用情況,全庫(kù)總?cè)萘繛?23,299詞;7.“中國(guó)高校外語(yǔ)專業(yè)多語(yǔ)種語(yǔ)料庫(kù)建設(shè)與研究——英語(yǔ)語(yǔ)料庫(kù)”(CEM)[7]。國(guó)家社科基金項(xiàng)目,第一批已進(jìn)行錯(cuò)誤標(biāo)注的100萬(wàn)語(yǔ)料于2008年3月由上海外語(yǔ)教育出版社出版;8.《體驗(yàn)英語(yǔ)寫(xiě)作語(yǔ)料庫(kù)》(EEWD)[3]。由高等教育出版社開(kāi)發(fā),是一個(gè)立體化、數(shù)字化、開(kāi)放式的寫(xiě)作訓(xùn)練平臺(tái),含3000篇學(xué)生習(xí)作語(yǔ)料,約80萬(wàn)詞,每篇作文都有教師批改和評(píng)語(yǔ)。除上述8個(gè)大型學(xué)習(xí)者語(yǔ)料庫(kù)之外,國(guó)內(nèi)其他語(yǔ)言院校和語(yǔ)言研究中心目前已經(jīng)和正在開(kāi)發(fā)建設(shè)的還有許多,但規(guī)模都比較小,從幾萬(wàn)詞到十幾萬(wàn)詞不等,涵蓋口語(yǔ)、筆語(yǔ)、平行語(yǔ)料、雙語(yǔ)語(yǔ)料、對(duì)比語(yǔ)料、特殊英語(yǔ)語(yǔ)料等不同類型和范圍。
(二)WECHCS建設(shè)的必要性
語(yǔ)料庫(kù)建設(shè)除了講求客觀性和規(guī)模性,還要求具備歷時(shí)性、代表性、結(jié)構(gòu)性和均衡性。上文介紹的國(guó)內(nèi)各大語(yǔ)料庫(kù)建設(shè)都取得了階段性成功,為基于語(yǔ)料庫(kù)的英語(yǔ)教學(xué)和語(yǔ)言學(xué)研究提供了寶貴的真實(shí)語(yǔ)料。在充分學(xué)習(xí)專家們的語(yǔ)料庫(kù)建設(shè)經(jīng)驗(yàn)后,我們認(rèn)為,建設(shè)一個(gè)海南省高校大學(xué)生英語(yǔ)作文語(yǔ)料庫(kù)是有必要的,原因在于:
1.眾所周知,語(yǔ)料庫(kù)樣本都具有“有限性”和“時(shí)效性”[8]特點(diǎn),這個(gè)缺陷是無(wú)法回避的,所以各大語(yǔ)料庫(kù)一經(jīng)建設(shè)完成,都難以避免這方面的局限性,需要后續(xù)的不斷建設(shè)和更新完善。目前已經(jīng)建成的國(guó)內(nèi)語(yǔ)料庫(kù)采集的作文語(yǔ)料截止時(shí)間為2007年,WECHCS的計(jì)劃是建庫(kù)采集2006-2010年入學(xué)的海南高校大學(xué)生英語(yǔ)作文,希望在歷時(shí)性方面會(huì)對(duì)國(guó)內(nèi)學(xué)習(xí)者語(yǔ)料庫(kù)的總體建設(shè)起到有效補(bǔ)充。
2.目前全國(guó)開(kāi)設(shè)英語(yǔ)專業(yè)的各大高校近千所,而已建成的學(xué)習(xí)者語(yǔ)料庫(kù)僅僅覆蓋了幾十所高校的部分學(xué)生作文,語(yǔ)料研究的廣泛性和代表性有待后續(xù)語(yǔ)料庫(kù)建設(shè)的不斷補(bǔ)充完善。
3.前期建成的各大語(yǔ)料庫(kù)(CLEC、SWECCL 1.0、SWECCL 2.0 等)收錄的大學(xué)生作文語(yǔ)料均為測(cè)試環(huán)境下的限時(shí)性命題作文,而對(duì)非測(cè)試環(huán)境下的非限時(shí)、非命題作文沒(méi)有涉及,存在結(jié)構(gòu)上的不完整性和非均衡性。WECHCS語(yǔ)料庫(kù)計(jì)劃收納三分之一左右非測(cè)試環(huán)境下的學(xué)生作文,這將有效填補(bǔ)國(guó)內(nèi)學(xué)習(xí)者語(yǔ)料庫(kù)總體建設(shè)的部分空白(目前在建的“中國(guó)高校外語(yǔ)專業(yè)多語(yǔ)種語(yǔ)料庫(kù)”也意識(shí)到了這一問(wèn)題,開(kāi)始有目的地采集學(xué)習(xí)者的其他學(xué)習(xí)資料如日記、課內(nèi)課外練習(xí)、非限時(shí)性作文、非命題作文、隨筆等)。
4.所建成的語(yǔ)料庫(kù)均以中國(guó)內(nèi)陸高校為對(duì)象,而海南作為最南方的海島省份,英語(yǔ)教學(xué)一直相對(duì)落后,高校英語(yǔ)教學(xué)與內(nèi)陸地區(qū)相比雖有其共性,更有不同點(diǎn)。針對(duì)海南省高校大學(xué)生英語(yǔ)學(xué)習(xí)現(xiàn)狀,我們希望建立一個(gè)服務(wù)于海南高校大學(xué)生英語(yǔ)教學(xué)研究的作文語(yǔ)料庫(kù),客觀、真實(shí)地反映本省大學(xué)生的英語(yǔ)中介語(yǔ)特點(diǎn),從而幫助教師了解學(xué)生在英語(yǔ)學(xué)習(xí)過(guò)程中出現(xiàn)的各類具體問(wèn)題,有的放矢,提高英語(yǔ)教學(xué)質(zhì)量。綜上所述,我們認(rèn)為,WECHCS語(yǔ)料庫(kù)的建設(shè)不僅能為本省大學(xué)英語(yǔ)教學(xué)和研究提供真實(shí)語(yǔ)料,而且還可以成為國(guó)內(nèi)學(xué)習(xí)者語(yǔ)料庫(kù)建設(shè)的一個(gè)有效補(bǔ)充,具有實(shí)際語(yǔ)料庫(kù)語(yǔ)言學(xué)研究意義和教學(xué)指導(dǎo)意義。
“海南省高校大學(xué)生英語(yǔ)作文語(yǔ)料庫(kù)(WECHCS)建設(shè)”于2009年獲得海南省教育廳高等學(xué)??蒲辛㈨?xiàng),項(xiàng)目歷時(shí)兩年,目標(biāo)是建立一個(gè)中型(50萬(wàn)詞次)大學(xué)生英語(yǔ)作文語(yǔ)料庫(kù)。整體建設(shè)包括語(yǔ)料庫(kù)的設(shè)計(jì)、文本的采集、分類、錄入、存檔、校對(duì)、抽檢、加注文本頭、編號(hào)、再校對(duì)、再抽檢、入庫(kù)等一系列程序。
(一)建庫(kù)指導(dǎo)思想和原則
WECHCS的建庫(kù)指導(dǎo)思想和原則是:科學(xué)規(guī)劃,細(xì)致操作,以科學(xué)發(fā)展觀的標(biāo)準(zhǔn)設(shè)計(jì)和建設(shè)語(yǔ)料庫(kù),盡可能體現(xiàn)語(yǔ)料庫(kù)建設(shè)的客觀性、規(guī)模性、代表性、歷時(shí)性、結(jié)構(gòu)性和均衡性。
(二)庫(kù)容量和結(jié)構(gòu)設(shè)計(jì)
WECHCS設(shè)計(jì)總庫(kù)容量為50萬(wàn)詞次(tokens),包含三個(gè)子庫(kù):1.“英語(yǔ)專業(yè)語(yǔ)料庫(kù)”;2.“非英語(yǔ)專業(yè)語(yǔ)料庫(kù)”;3.“文檔格式作文語(yǔ)料庫(kù)”。實(shí)際建成后的純文本庫(kù)容量為55.4萬(wàn)詞次,第三個(gè)子庫(kù)包含271份文檔格式的學(xué)生作文,每份文檔附有每個(gè)學(xué)生的初稿A和終稿B以及外教的批語(yǔ)和評(píng)分。初稿A的語(yǔ)料已經(jīng)收錄到純文本子庫(kù)中。考慮到進(jìn)行純文本轉(zhuǎn)化會(huì)混淆作文中教師的部分評(píng)語(yǔ),而且教師以“批注”形式插入的批改內(nèi)容也無(wú)法在記事本中體現(xiàn)出來(lái),因此這部分材料我們不做純文本轉(zhuǎn)化,也不統(tǒng)計(jì)詞次。
純文本子庫(kù)包含學(xué)生英語(yǔ)作文共計(jì)2,520篇。其中英語(yǔ)專業(yè)學(xué)生作文1,439篇,非英語(yǔ)專業(yè)學(xué)生作文1,081篇;限時(shí)作文1,752篇,非限時(shí)作文768篇;議論文901篇,說(shuō)明文1,105篇,記敘文353篇,小說(shuō)118篇,便條43篇。(詳見(jiàn)表4.1、表 4.2)
(三)語(yǔ)料來(lái)源
WECHCS語(yǔ)料來(lái)源于2006-2010年海南省四所主要高校的英語(yǔ)專業(yè)和非英語(yǔ)專業(yè)學(xué)生英語(yǔ)作文,包括海南大學(xué)(海甸校區(qū)、儋州校區(qū)、城西校區(qū))、海南師范大學(xué)、海南醫(yī)學(xué)院、瓊州大學(xué)。作文分限時(shí)作文和非限時(shí)作文,部分限時(shí)作文來(lái)源于課堂練習(xí),其他限時(shí)作文來(lái)源于學(xué)生的期末試題,限定時(shí)間均為30分鐘。非限時(shí)作文來(lái)源于教師布置的課后作業(yè)和練習(xí),體裁和題材多樣。語(yǔ)料處理要求細(xì)致、客觀,輸入時(shí)不對(duì)作文內(nèi)容如拼寫(xiě)、大小寫(xiě)、標(biāo)點(diǎn)符號(hào)等作任何改動(dòng),以求真實(shí)全面地反映學(xué)生作文情況。
1.語(yǔ)料格式
學(xué)生的初稿語(yǔ)料經(jīng)采集加工后全部處理成純文本格式,并逐一加注文本頭信息,即8個(gè)變量。此外,對(duì)于“文檔格式作文語(yǔ)料庫(kù)”中的271份經(jīng)美籍教師修改、批注和評(píng)分的學(xué)生作文語(yǔ)料,為真實(shí)反映原稿全貌我們保留了原文檔格式,不進(jìn)行純文本格式轉(zhuǎn)換。
2.文本頭標(biāo)注
每篇文本語(yǔ)料都附有文本頭標(biāo)注,標(biāo)注的信息記錄了對(duì)應(yīng)文本的屬性。WECHCS借鑒了SWECCL(2.0 版)[5]的變量設(shè)計(jì),同時(shí)為方便研究另外設(shè)計(jì)添加了新的變量,共計(jì)8個(gè)變量,即英專/非英專(<EM>/<NEM>)、學(xué)生代碼(<STUxxxx>)、所在班級(jí)代碼(<CLASSxx>)、體裁(<ARGxx>/<EXPxx>/<NARxx>/<FICxx>/<SHTNOTExx>)、題材(共計(jì) 39個(gè)不同題目)、入學(xué)年份(<YEARxx>)、寫(xiě)作時(shí)所在學(xué)期(<TERMx>)、限時(shí)/非限時(shí)(<TIMED>/<UNTIMED>)。以下是8個(gè)變量對(duì)應(yīng)的一個(gè)文本頭信息舉隅:
<EM><STU1337><CLASS33><ARG08><YEAR06><TERM5><TIMED>
所記錄的對(duì)應(yīng)個(gè)體學(xué)習(xí)者信息為:
英語(yǔ)專業(yè),1337號(hào)學(xué)生,33班,議論文第8篇,06級(jí),第5學(xué)期,限時(shí)作文。
3.WECHCS的運(yùn)行環(huán)境
軟件運(yùn)行配置:
CPU:主頻266MHZ或更高;
內(nèi)存:64MB或更高;
硬盤(pán):1G可用空間或以上;
操作系統(tǒng):Windows2000/xp;
WECHCS建庫(kù)目的明確,在取樣過(guò)程中盡量兼顧語(yǔ)料的真實(shí)性、代表性、歷時(shí)性和均衡性,具有以下多方面特點(diǎn)。
(一)全新語(yǔ)料,共55.4萬(wàn)余詞次,2,520篇作文,采集自2006-2010海南高校大學(xué)生作文,便于研究者從宏觀視角對(duì)WECHCS與國(guó)內(nèi)外語(yǔ)料庫(kù)語(yǔ)料進(jìn)行大樣本的定量統(tǒng)計(jì)對(duì)比研究[9]。
(二)客觀文本頭標(biāo)注,提供8個(gè)均衡因子,便于微觀視角下采用不同研究方法進(jìn)行研究:
1.專業(yè)類型包含英語(yǔ)專業(yè)和非英語(yǔ)專業(yè)學(xué)生的作文語(yǔ)料,英語(yǔ)專業(yè)學(xué)生作文1,439篇,非英語(yǔ)專業(yè)學(xué)生作文1,081篇,便于區(qū)分不同層次的學(xué)習(xí)者。
2.學(xué)生編號(hào)包含課題組給每個(gè)學(xué)生編訂的代碼,通過(guò)編號(hào)可以追蹤部分學(xué)生不同學(xué)期的作文,便于個(gè)案定性文本研究[9]。
3.班級(jí)編號(hào)包含課題組給每個(gè)學(xué)生所在班級(jí)編訂的代碼(出于語(yǔ)言科學(xué)研究中涉及的倫理因素考慮我們不區(qū)分各個(gè)學(xué)校),共計(jì)47個(gè)班級(jí),便于群體橫向?qū)Ρ妊芯浚╟ross-sectional study)。
4.體裁包含議論文、說(shuō)明文、記敘文、小說(shuō)、便箋等5種不同體裁,便于考察不同體裁任務(wù)對(duì)學(xué)習(xí)者的實(shí)際語(yǔ)言產(chǎn)出的影響。
5.題材包含39個(gè)不同的寫(xiě)作題目(詳見(jiàn)附錄一),便于多維度考察不同題材任務(wù)影響下學(xué)習(xí)者的實(shí)際語(yǔ)言產(chǎn)出情況。
6.入學(xué)年份包含2006-2010年入學(xué)的學(xué)生作文語(yǔ)料,真實(shí)反映學(xué)習(xí)者的不同入學(xué)背景。
7.寫(xiě)作學(xué)期包含六個(gè)學(xué)期的作文語(yǔ)料,便于對(duì)不同層次和不同水平的學(xué)習(xí)者語(yǔ)料進(jìn)行寫(xiě)作發(fā)展次序研究(developmental sequence study)和發(fā)展指標(biāo)研究(developmental index study);也便于縱向研究(longitudinal study)[10],追蹤探討同一批學(xué)習(xí)者在不同學(xué)習(xí)發(fā)展階段中介語(yǔ)的典型特征及動(dòng)態(tài)發(fā)展規(guī)律。
8.限時(shí)/非限時(shí)包含限時(shí)性和非限時(shí)性作文,尤其非限時(shí)作文的補(bǔ)充便于考察學(xué)習(xí)者無(wú)需采用回避策略[11]后的語(yǔ)言產(chǎn)出情況。
(三)包含271份學(xué)生初稿作文和經(jīng)過(guò)美籍教師修改、批注和評(píng)分的終稿作文語(yǔ)料,可以為觀察二語(yǔ)學(xué)習(xí)者和母語(yǔ)學(xué)習(xí)者的語(yǔ)言運(yùn)用特點(diǎn)和思維習(xí)慣提供最直觀的語(yǔ)料。
(四)自主開(kāi)發(fā)“子語(yǔ)料庫(kù)檢索”軟件(Sub-Corpus Finder),研究者可以根據(jù)不同研究需要生成相應(yīng)的子語(yǔ)料庫(kù)。
學(xué)習(xí)者個(gè)體差異的不同、任務(wù)的不同,都會(huì)對(duì)語(yǔ)言產(chǎn)出造成影響。為服務(wù)于不同研究目的,我們參考了文秋芳等人[5]的語(yǔ)料庫(kù)設(shè)計(jì),并在此基礎(chǔ)上增加新的變量,將WECHCS純文本庫(kù)中的8個(gè)變量設(shè)計(jì)分為兩大類型,即學(xué)習(xí)者變量和任務(wù)變量,以便于研究者進(jìn)行各種不同維度的觀察和對(duì)比分析。以下是兩組變量類型的含義、標(biāo)記、作文篇數(shù)及形符數(shù)統(tǒng)計(jì)表。
(一)學(xué)習(xí)者變量
表4.1 WECHCS中的學(xué)習(xí)者變量
(二)任務(wù)變量
表4.2 WECHCS中的任務(wù)變量
變量類型 變量含義 標(biāo)記 作文篇數(shù) 形符數(shù)議論文 <ARGxx> 901 193,226說(shuō)明文 <EXPxx> 1,105 207,作文文體544記敘文 <NARxx> 353 94,941小說(shuō)體 <FICxx> 118 53,190是否限時(shí)作文 限時(shí)作文 <TIMED> 1,752 344,359便箋 <SHTNOTExx> 43 5,767非限時(shí)作文 <UNTIMED> 768 209,493總?cè)萘?2,520 554,260
Sub-Corpus Finder軟件專為海南省大學(xué)生英語(yǔ)作文語(yǔ)料庫(kù)(WECHCS)課題組設(shè)計(jì),是從海量語(yǔ)料中按照要求選擇生成子語(yǔ)料庫(kù)的有效工具。
(一)Sub-Corpus Finder的使用方法
軟件的基本界面如圖1所示:
圖1:基本界面
軟件的使用步驟如下:
1.設(shè)置初始化文件:對(duì)初始變量表進(jìn)行設(shè)置。
選擇<編輯>-<設(shè)置初始化文件>(或者CTRL+R,或者工具欄中第二個(gè)按鈕),可以對(duì)系統(tǒng)里“專業(yè)類型”、“學(xué)生編號(hào)”等8個(gè)變量進(jìn)行設(shè)置,當(dāng)使用該功能時(shí),會(huì)打開(kāi)軟件安裝目錄下“Data”文件夾下的“variables.xls”,用戶可以根據(jù)自己的需要編輯該EXCEL文件,進(jìn)行基本變量設(shè)置。如果該文件損壞或者丟失,可以通過(guò)選擇<編輯>-<創(chuàng)建初始化文件>(或者CTRL+N,或者工具欄中第一個(gè)按鈕)重新創(chuàng)建該文件后再進(jìn)行設(shè)置。
2.初始化條件列表:用來(lái)初始化7個(gè)變量列表框。
選擇<文件>-<初始化條件列表>(或者CTRL+I,或者工具欄中第三個(gè)按鈕),可以利用設(shè)置好的初始變量表“variables.xls”對(duì)“專業(yè)類型”、“學(xué)生編號(hào)”等7個(gè)列表框進(jìn)行初始設(shè)置,以供生成子語(yǔ)料庫(kù)時(shí)進(jìn)行選擇。
3.點(diǎn)擊“瀏覽”按鈕選擇原始語(yǔ)料庫(kù)的文件夾。
4.通過(guò)7個(gè)下拉列表框完成對(duì)“專業(yè)類型”、“學(xué)生編號(hào)”等7個(gè)條件進(jìn)行選擇。
5.點(diǎn)擊“生成”按鈕,在“生成結(jié)果列表”中顯示所有生成的子語(yǔ)料庫(kù)中語(yǔ)料的文件名,可以通過(guò)點(diǎn)擊每個(gè)文件名在“文本內(nèi)容”進(jìn)行內(nèi)容瀏覽。同時(shí),生成的子語(yǔ)料庫(kù)將存儲(chǔ)在軟件安裝目錄下“Result”文件夾下以“日期_所選擇的各個(gè)條件”所命名的子文件夾里。
圖2所示為按照條件選擇語(yǔ)料并建庫(kù)成功的結(jié)果,并可以點(diǎn)擊“生成結(jié)果列表”中的文件名,進(jìn)行文本瀏覽,如圖3所示。
圖2:子語(yǔ)料庫(kù)生成成功界面
圖3:瀏覽語(yǔ)料內(nèi)容
(二)Sub-Corpus Finder的功能特點(diǎn)
本軟件的開(kāi)發(fā)還有以下幾個(gè)特點(diǎn):
1.可以根據(jù)需要?jiǎng)討B(tài)更改系統(tǒng)變量,從而提高了軟件的通用性及推廣性;
2.具有防損壞機(jī)制,更可以隨時(shí)創(chuàng)建新的初始變量表,具有易用性和健壯性。
3.改進(jìn)了查找算法,能快速?gòu)暮A款A(yù)料中選擇符合要求的語(yǔ)料;
4.查找成功后,能迅速在指定位置生成子語(yǔ)料庫(kù),提高生成效率;
5.使用過(guò)程中,用戶可以隨時(shí)從“幫助”菜單中獲得提示。
語(yǔ)料庫(kù)建設(shè)是一個(gè)龐大繁瑣的系統(tǒng)工程,需要巨大的時(shí)間、人力和資金投入,因?yàn)槊恳豁?xiàng)信息的收錄都需要仔細(xì)斟酌和大量手工操作。后期建設(shè)中,我們計(jì)劃在已經(jīng)建立起來(lái)的WECHCS語(yǔ)料庫(kù)基礎(chǔ)上進(jìn)一步完善,對(duì)語(yǔ)料庫(kù)進(jìn)行賦碼和錯(cuò)誤標(biāo)注,同時(shí)進(jìn)行動(dòng)態(tài)跟蹤采集。在此基礎(chǔ)上,擴(kuò)大語(yǔ)料的采集范圍,逐步把海南省其他高校的學(xué)生作文語(yǔ)料納入到二期建庫(kù)工程中,以期建立一個(gè)橫向和縱時(shí)(cross-sectional and longitudinal)方式相結(jié)合的學(xué)習(xí)者語(yǔ)料庫(kù)。
[1]Teubert,W.My Version of Corpus Linguistics[J].International Journal of Corpus Linguistics,2005,10(1).
[2]桂詩(shī)春,楊慧中.中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)[M/CD].上海:上海外語(yǔ)教育出版社,2003.
[3]Connor,U & Upton,Thomas A.王立非(導(dǎo)讀).Applied Corpus Linguistics:A Multidimensional Perspective.應(yīng)用語(yǔ)料庫(kù)語(yǔ)言學(xué)的多維視角[M].北京:世界圖書(shū)出版公司,2009.
[4]文秋芳,王立非,梁茂成.中國(guó)學(xué)生英語(yǔ)口筆語(yǔ)語(yǔ)料庫(kù)(1.0版)[M/CD].北京:外語(yǔ)教學(xué)與研究出版社,2005.
[5]文秋芳,梁茂成,晏小琴.中國(guó)學(xué)生英語(yǔ)口筆語(yǔ)語(yǔ)料庫(kù)(2.0版)[M/CD].北京:外語(yǔ)教學(xué)與研究出版社,2008.
[6]楊慧中,衛(wèi)乃興.中國(guó)學(xué)習(xí)者英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)建設(shè)與研究[M].上海:上海外語(yǔ)教育出版社,2005.
[7]中國(guó)高校外語(yǔ)專業(yè)多語(yǔ)種語(yǔ)料庫(kù)建設(shè)和研究項(xiàng)目組.中國(guó)高校外語(yǔ)專業(yè)多語(yǔ)種語(yǔ)料庫(kù)建設(shè)和研究——英語(yǔ)語(yǔ)料庫(kù)[M/CD].上海:上海外語(yǔ)教育出版社,2009.
[8]馮志偉.拓展基于語(yǔ)料研究的范圍:新應(yīng)用,新挑戰(zhàn)[M].北京:世界圖書(shū)出版公司,2009.
[9]王立非,梁茂成.計(jì)算機(jī)輔助第二語(yǔ)言研究方法與應(yīng)用[M].北京:外語(yǔ)教學(xué)與研究出版社,2007.
[9]秦曉晴,文秋芳.中國(guó)大學(xué)生英語(yǔ)寫(xiě)作能力發(fā)展規(guī)律與特點(diǎn)研究[M].北京:中國(guó)社會(huì)出版社,2007.
[10]楊慧中,桂詩(shī)春,楊達(dá)復(fù).基于CLEC語(yǔ)料庫(kù)的中國(guó)學(xué)習(xí)者英語(yǔ)分析[M].上海:上海外語(yǔ)教育出版社,2005.
附錄一 WECHCS中的作文題目(略)
1.議論文 Argumentative
2.說(shuō)明文Expositive
3.記敘文 Narrative
4.小說(shuō) fiction
5.便箋 Short Note
附錄二 WECHCS中的各類變量研究索引(略)
附錄三 國(guó)內(nèi)外主要英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)一覽表(略)
On Corpus Building of Written English Corpus of Hainan College Students
GUO Jin-ping1,CHEN Zong-h(huán)ua2,MA Jian-qiang1
(1.Hainan University,Haikou 570228,China;2.Hainan Normal University,Haikou 571158,China)
Corpus building stresses on such properties as objectivity,representativeness,scale,designability,and diachronism.A learner’s English corpus based on scientific design has its significant role in corpus linguistic study and pedagogical application.This paper first analyzes the background and necessity of building Written English Corpus of Hainan Colleges Students(WECHCS).It then gives a detailed introduction to the specific building of WECHCS,with respect to its guiding principle,framework design,features,and variable types.At the end of this paper,special illustrations of a WECHCS – based self- developed search tool—Sub - Corpus Finder—are presented,with regard to its usage methods and features.
Hainan Colleges;Written English Corpus of Students(WECHCS);Building;Sub-Corpus Finder
H 319
A
1009-9743(2011)03-0103-08
2011-06-10
1.郭錦萍(1971-),女,漢族,廣東潮州人。海南大學(xué)外國(guó)語(yǔ)學(xué)院英語(yǔ)系副教授。主要研究方向:英語(yǔ)語(yǔ)言教學(xué);2.陳宗華(1951-),男,漢族,湖南株洲人。海南師范大學(xué)外國(guó)語(yǔ)學(xué)院教授。主要研究方向:英美文學(xué)、英語(yǔ)語(yǔ)言教學(xué);1.馬建強(qiáng)(1981-),男,滿族,河北遷安人。海南大學(xué)信息科學(xué)技術(shù)學(xué)院講師。主要研究方向:面向?qū)ο蠹夹g(shù)、信息隱藏。
本文是海南省教育廳高等學(xué)校2009年“海南省高校大學(xué)生英語(yǔ)作文語(yǔ)料庫(kù)建設(shè)”科研立項(xiàng)課題(批準(zhǔn)號(hào):Hjsk2009-02)的部分成果。
(責(zé)任編輯:陳 棠)