【摘 要】大型語料庫包含的語料信息非常龐雜,它們對(duì)于語言用法的研究、教材和詞典的編寫有著重要的意義。然而對(duì)于一線高職英語教師而言,大型語料庫的數(shù)據(jù)冗余使得針對(duì)其的觀察研究費(fèi)時(shí)費(fèi)力,實(shí)用性不夠強(qiáng)。自建小型或微型的語料庫有助于豐富外語教學(xué)環(huán)境,開展以課堂為中心的實(shí)證教學(xué)研究。但多數(shù)教師認(rèn)為自建語料庫難度太大、技術(shù)要求過高、時(shí)間和精力投入難以達(dá)到。實(shí)際上,教師可以通過使用網(wǎng)上可獲取的電子化文檔、利用有效的語料庫軟件,把精力集中于語料庫內(nèi)容的選取和呈現(xiàn)上。本文介紹微型語料庫建設(shè)的可行性、方法、步驟以及應(yīng)用,借以提倡廣大一線高職英語教師利用科研成果豐富和提高自己,讓高職英語教學(xué)更加科學(xué)化和客觀化。
【關(guān)鍵詞】微型語料庫;高職英語;檢索軟件
中圖分類號(hào): H319.3 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)01-0056-002
【Abstract】The corpus information contained in the large corpus is very complicated.It is of great significance for the study of language usage, teaching materials and dictionaries. However, for first-line vocational English teachers, the data redundancy of large-scale corpus makes the observation and research on it time-consuming and laborious, and the practicability is not strong enough. Self-built small or mini corpus helps to enrich the foreign language teaching environment and carry out the classroom-centered empirical teaching research. However, most teachers think that the difficulty of self-built corpus is too high, the technical requirements are too high, and time and effort are hard to reach. In fact, teachers can focus their efforts on the selection and presentation of corpus content by using the corpus of available electronic documents available online. This article introduces the feasibility, method, procedure and application of the construction of miniature corpus, in order to promote the majority of first-line vocational English teachers to use scientific research to enrich and improve themselves, to make higher vocational English teaching more scientific and objective.
【Key words】Micro corpus; Vocational English; Retrieval software
0 引言
語料庫語言學(xué)自20 世紀(jì) 60 年代初期開始發(fā)展,是一門新興的語言學(xué)分支學(xué)科,現(xiàn)在理論和技術(shù)兩方面都已趨于成熟。它致力于研究真實(shí)的語言數(shù)據(jù),研究者需要借助語料庫檢索工具對(duì)語料文本進(jìn)行檢索、取樣、分析和統(tǒng)計(jì),從而發(fā)現(xiàn)原本未留意的語言在真實(shí)語境中使用的模式和規(guī)律[1]。近年來,越來越多的學(xué)者和專家投入到語料庫的研究中,語料庫應(yīng)用涉及到語言研究的方方面面。
與此同時(shí),大型通用語料庫迅猛發(fā)展,數(shù)據(jù)規(guī)模急速變大,目前已經(jīng)達(dá)到了幾億形符[2]。如英國國家語料庫BNC(British National Corpus)收集了各種來源的書面、口頭語言樣本1億字;美國當(dāng)代英語語料庫COCA(Corpus of Contemporary American English),截至2017年11月共收錄超過5.6億字的語言材料。大型語料庫包羅萬象、語料樣品多,但是繁多的語料和復(fù)雜的語境使得產(chǎn)出數(shù)據(jù)復(fù)雜,學(xué)習(xí)者或者研究者僅靠人工觀察想在結(jié)果中找出特定的內(nèi)容或者發(fā)現(xiàn)規(guī)律猶如大海撈針。相比較而言,自建語料庫建庫目標(biāo)明確、更新速度快、針對(duì)性強(qiáng),適合特定教學(xué)對(duì)象的難度和興趣。而且本機(jī)操作,經(jīng)濟(jì)快捷。
但是在國內(nèi),語料庫建設(shè)方面的研究常見于本科院校,高職院校此方面的探索較少。本文以筆者自建的《絕望主婦》對(duì)白語料庫為例介紹微型語料庫建設(shè)的步驟和方法,并對(duì)如何使用微型語料庫輔助教學(xué)進(jìn)行了簡(jiǎn)單探討。
1 自建微型語料庫的可行性
語料庫,顧名思義就是語言材料庫,其中存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料。梁茂成等(2010)將其定義為“一個(gè)按照一定的采樣標(biāo)準(zhǔn)采集的、由若干個(gè)電子文本構(gòu)成的、具有一定容量的‘電子文本集,并且這些電子文本可作為一個(gè)整體代表某語言或者某語言的某種變體或文類”[3]。
人們一般認(rèn)為構(gòu)建語料庫是一個(gè)花費(fèi)大量人力物力的工程,大量數(shù)據(jù)的獲取和材料的規(guī)范型電子化聽起來就很難。實(shí)際上,隨著計(jì)算機(jī)技術(shù)的發(fā)展、網(wǎng)上電子文本的日益豐富、如ABBYY Fine Reader 之類OCR軟件的廣泛使用,個(gè)人收集大量真實(shí)的語料不再是一件非常困難的事情[4]。其次, WordSmith、AntConc、WordPilot和CQPweb等語料庫軟件提供了有效的技術(shù)支持。此外,個(gè)人語料庫的規(guī)模不會(huì)很大、建庫要求不是很嚴(yán)格、語料加工程度也不用很深,所以個(gè)人建設(shè)微型的教學(xué)語料庫是完全可行的。
2 高職微型語料庫的創(chuàng)建
事先設(shè)計(jì)對(duì)于語料庫建設(shè)非常重要,即使是微型教學(xué)語料庫,也是如此。建立語料庫需要有明確的目的,它直接影響了語料庫的類型和規(guī)模,并最終決定語料的選擇和整理的方式[4]。此外還要考慮取樣標(biāo)準(zhǔn)、設(shè)備、存貯方式和格式等因素。筆者在設(shè)計(jì)語料庫時(shí),考慮到目前使用的教材語言不夠地道、與現(xiàn)實(shí)生活相脫節(jié)、缺少對(duì)應(yīng)視頻輔助這些情況,目標(biāo)是創(chuàng)建一個(gè)帶視、聽、讀資源的微型教學(xué)語料庫,激發(fā)學(xué)生的學(xué)習(xí)興趣、豐富化學(xué)生的學(xué)習(xí)體驗(yàn)。
2.1 語料的選擇、采集
為了保證語料的真實(shí)性,教學(xué)語料庫應(yīng)選用母語人士的語言材料。在選擇時(shí),優(yōu)先選用網(wǎng)上已有的電子化語料可以簡(jiǎn)化語料庫建設(shè)的人力和物力。網(wǎng)上英語語言材料十分豐富,不僅有來自各個(gè)網(wǎng)站的最新語料,還有一些專門的電子文本庫、電影電視劇本等。此外,如果研究者找不到符合建庫目的現(xiàn)有電子文本材料,還可以利用OCR軟件電子化紙質(zhì)材料再進(jìn)行校對(duì)。
筆者建庫主要是為了使之服務(wù)于教學(xué),希望語料內(nèi)容盡可能生活化、語言的難度符合高職聽說教學(xué)的要求,并有音頻、視頻材料作為有效補(bǔ)充,所以在對(duì)比了《老友記》、《生活大爆炸》、《摩登家庭》和《絕望的主婦》四部英語學(xué)習(xí)者非常喜愛的美劇后,選擇了生活氣息比較濃厚、主要演員發(fā)音地道、對(duì)白語速適中的家庭倫理劇《絕望的主婦》。該劇包含很多精彩的臺(tái)詞對(duì)白,尤其是每集故事解說中使用的語句詞匯,非常值得細(xì)心品讀[5]。筆者通過互聯(lián)網(wǎng)搜集到現(xiàn)已播出的八季英中對(duì)照字幕文檔。
2.2 語料的分類和整理
收集的語料應(yīng)按照一定的原則進(jìn)行分類,分類原則在參考大型語料庫分類標(biāo)準(zhǔn)的基礎(chǔ)上兼顧實(shí)際應(yīng)用需要。創(chuàng)建語料庫文件時(shí),需要將每一個(gè)文本獨(dú)立存放,存檔為txt純文本格式且以英文字母形式命名,這是大多數(shù)語料庫軟件支持的格式。文件命名格式也應(yīng)該統(tǒng)一,方便語料庫的后續(xù)補(bǔ)充添加。筆者采集的是美劇對(duì)白語料,為了便于根據(jù)檢索結(jié)果定位至相應(yīng)視頻片段,就直接按照相應(yīng)的劇集將八季文檔分為8個(gè)文件夾、178個(gè)txt文本。
從網(wǎng)絡(luò)獲取的文件,一方面其文本信息可能會(huì)有一些錯(cuò)誤,要仔細(xì)核對(duì);另一方面文本會(huì)存在不合規(guī)范的符號(hào)和格式,影響到檢索結(jié)果的正確性和可靠性,需要批量清潔與整理。筆者在實(shí)際操作中首先使用了EditPadPro、PowerGREP進(jìn)行文本格式的轉(zhuǎn)換和清潔,然后通過Super Batch Renamer統(tǒng)一重命名文本,得到了178個(gè)生文本,之后根據(jù)相應(yīng)劇集視頻快速核對(duì)這178個(gè)文本語言信息的正誤,同時(shí)刪除多余的空格和空行,減少冗余數(shù)據(jù)的產(chǎn)生。
2.3 語料的標(biāo)注和賦碼?
標(biāo)注是大型語料庫的重要規(guī)范之一,對(duì)語料庫的生文本進(jìn)行標(biāo)注可以為語料庫帶來增值[6]。按照國際通用的COCOA標(biāo)準(zhǔn),標(biāo)注多位于文件的首行,提供的相關(guān)信息放入尖括號(hào)“<>”中,便于識(shí)別。
語料的賦碼是一種特殊的標(biāo)識(shí),它分為詞類賦碼和句法賦碼兩類。在進(jìn)行詞性賦碼之前,應(yīng)確定賦碼方案,常見的賦碼方案有CLAWS賦碼系統(tǒng)、TAGGIT系統(tǒng)和Brills tagger 賦碼系統(tǒng)[7]。賦碼標(biāo)注過的語料庫可以進(jìn)行較為復(fù)雜的檢索和分析,從而發(fā)揮更多的作用;未經(jīng)賦碼的語料庫被稱為生語料庫,只能進(jìn)行詞匯層級(jí)的檢索。筆者選用了常用的賦碼工具Tree tagger對(duì)自建語料庫生文本進(jìn)行自動(dòng)詞性標(biāo)注。
2.4 微型語料庫的使用
經(jīng)過整理和標(biāo)注后的電子文本集中存放在某個(gè)文件夾中,就是自建的微型語料庫。研究者必須借助語料庫檢索工具,如Word Smith、AntConc,對(duì)語料庫進(jìn)行檢索應(yīng)用。
比如在進(jìn)行大學(xué)英語第二單元“how to express thanks and respond to it”的授課時(shí),學(xué)生遇到了owe這個(gè)疑難詞,筆者通過在對(duì)白語料庫中檢索“owe”獲取了批量的語例、并截取了相應(yīng)的視頻片段,應(yīng)用于課堂講解中,使得教學(xué)更生動(dòng)、直接,學(xué)生的學(xué)習(xí)興趣更加濃厚。再比如鑒于動(dòng)詞在句子中的靈魂性作用,筆者要求學(xué)生優(yōu)先掌握一些常用動(dòng)詞的用法,這時(shí)就運(yùn)用了AntConc的詞匯表功能,統(tǒng)計(jì)絕望主婦各季中的高頻動(dòng)詞。比如經(jīng)過概率統(tǒng)計(jì)可知,第一季23劇集中高頻使用了was,have,know,are ,get,go,like,want,think,did這十個(gè)動(dòng)詞,然后再分別以這十個(gè)詞為關(guān)鍵詞進(jìn)行檢索,可以其具體的語境的使用情況。
在語料庫實(shí)際應(yīng)用中,一方面教師可以運(yùn)用語料庫工具觀察和分析語料庫呈現(xiàn)的語例,發(fā)現(xiàn)語言規(guī)律和特征,使教學(xué)更具針對(duì)性;另一方面教師也可以引導(dǎo)學(xué)生分組討論從語料庫中篩選出的多行詞語索引項(xiàng),自行進(jìn)行推斷、歸納和總結(jié)規(guī)律,參與自身的知識(shí)構(gòu)建中來。這響應(yīng)了以學(xué)生為中心的二語習(xí)得教學(xué)原則,也是甄鳳超(2005)所強(qiáng)調(diào)的“語言的習(xí)得不是一個(gè)從教師到學(xué)生的簡(jiǎn)單過程,而是一個(gè)由學(xué)生自己發(fā)現(xiàn)和探索的過程”的體現(xiàn)[8]。
3 結(jié)語
綜上所述,自建微型語料庫加深了高職英語教師對(duì)語料庫的認(rèn)識(shí)、提高了自身的教學(xué)能力和專業(yè)素養(yǎng)。教師利用語料庫工具加工、處理語料,應(yīng)用于高職英語課堂教學(xué),不僅為教學(xué)帶來了豐富、有趣、地道的新資源,而且拓展了教學(xué)方法和教學(xué)技術(shù),從而豐富了學(xué)習(xí)者的學(xué)習(xí)體驗(yàn),讓高職英語教學(xué)更加多樣化、科學(xué)化和客觀化。但由于受到語料庫語言學(xué)、二語教學(xué)理念以及相關(guān)技術(shù)的限制,高職英語教師關(guān)于“在教學(xué)中構(gòu)建和使用微型教學(xué)語料庫的研究”還不夠充分,有待進(jìn)一步、更深入的探索。高職教師應(yīng)該經(jīng)常更新教學(xué)理念、提升科研能力,然后將語言學(xué)和二語習(xí)得方面的一些新發(fā)現(xiàn)、新成果積極運(yùn)用于課堂實(shí)踐。微型語料庫的建設(shè)涉及收集、分類、整理和標(biāo)注多個(gè)環(huán)節(jié),需要研究者投入相當(dāng)多的時(shí)間和精力,但回報(bào)是非常豐厚的。尤其是標(biāo)注環(huán)節(jié),標(biāo)注的種類越多,在檢索時(shí)運(yùn)用正則表達(dá)式能提取的語言信息就越多,也越能發(fā)揮語料庫的教學(xué)效力和功用。此外,研究和應(yīng)用的過程也是一個(gè)教師不斷學(xué)習(xí)和提高自我的過程。
【參考文獻(xiàn)】
[1]何安平.語料庫語言學(xué)與英語教學(xué)[M].外語教學(xué)與研究出版社,2004.
[2]楊惠中.語料庫語言學(xué)導(dǎo)論=An Introduction to Corpus Linguistics[M].上海外語教育出版社,2002.
[3]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社,2010.
[4]謝家成,談宏慧.學(xué)習(xí)者英漢平行語料庫的建設(shè)與運(yùn)用[J].長(zhǎng)江大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009,32(2):87-89.
[5]李影.語料庫在高職高專英語詞匯教學(xué)中的應(yīng)用[J].阜陽職業(yè)技術(shù)學(xué)院學(xué)報(bào),2017,28(1):44-47.
[6]梁茂成.詞性賦碼語料庫的檢索與正則表達(dá)式的編寫[J].中國外語教育,2009(2):65-73.
[7]鄭志恒.美英報(bào)刊英語標(biāo)注語料庫建設(shè)研究[J].外語研究,2007(2):32-38.
[8]甄鳳超.語料庫數(shù)據(jù)驅(qū)動(dòng)的外語學(xué)習(xí):思想、方法和技術(shù)[J].外語界,2005,04:19-27+40.
[9]Graeme Kennedy.語料庫語言學(xué)入門[M].外語教學(xué)與研究出版社,2000.
[10]何安平.語料庫與外語教學(xué)[J].國外外語教學(xué),2001,03:15-19.
[11]謝家成.論個(gè)人教學(xué)語料庫的構(gòu)建[J].外語電化教學(xué),2003,03:27-30.
[12]許葵花,張衛(wèi)平.論語料庫語言學(xué)在外語教學(xué)中的應(yīng)用[J].外語與外語教學(xué),2003,04:21-24.
[13]徐曼菲.小型語料庫在外語教學(xué)中應(yīng)用研究[J].廣東第二師范學(xué)院學(xué)報(bào),2007,27(4):98-102.
[14]岳豪.利用AntConc在外語教學(xué)中自建小型語料庫[J]. 河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2008,04:44-47.
[15]李影.論話語標(biāo)記語so的語用功能[J].阜陽職業(yè)技術(shù)學(xué)院學(xué)報(bào),2014,02:81-84.