曾利霞
(懷化學(xué)院外國語言文學(xué)系,湖南懷化418008)
語料庫能成規(guī)模地將零散的書面或口語語料匯集起來,加以系統(tǒng)管理和開發(fā),并利用軟件進行自動檢索;其優(yōu)勢是可以批量地獲取人們言語行為的信息,便于發(fā)現(xiàn)規(guī)律和趨勢以用于研究與教學(xué)[1]。國內(nèi)基于語料庫的教學(xué)研究的絕對數(shù)量越來越大,將語料庫應(yīng)用于外語教學(xué)的趨勢也越來越明顯[2]。隨著語料庫語言學(xué)的興起,國內(nèi)外學(xué)者們致力于學(xué)習(xí)者語料庫的開發(fā),陸續(xù)建立起了多個大規(guī)模的語料庫,如國外 LLC(Longman Learners' Corpus)、BNC(British National Corpus)、ANC(American National Corpus)、 LOCNESS(Louvain Corpus of Native English Essays)等語料庫,國內(nèi)CLEC(Chinese Learners' English Corpus)、 MSEE(Middle School Educational English)、COLSEC(Chinese Learners'Spoken English Corpus)、
SWECCL 1.0和SWECCL 2.0等語料庫。學(xué)習(xí)者語料庫的建設(shè)已經(jīng)成為當(dāng)今語料庫語言學(xué)研究的重點之一[3],這些大規(guī)模語料庫的建成為之后的各種相關(guān)研究提供了堅實而有價值的數(shù)據(jù)資源。
隨著語料庫建設(shè)和輔助英語教學(xué)知識的進一步普及與相關(guān)技術(shù)的飛速發(fā)展,廣大一線教師可以在充分學(xué)習(xí)專家們的語料庫建設(shè)經(jīng)驗后,從自己的教學(xué)與研究需求出發(fā)建設(shè)小型專用的語料庫。這種小型專用語料庫有著種種優(yōu)勢:目標(biāo)明確、語料收集針對性強、語料能不斷擴展、及時更新、自主設(shè)計、靈活標(biāo)注[4]。目前越來越多的小規(guī)模的語料庫已經(jīng)建成或正在建設(shè)中,涵蓋了口語語料、書面語語料、雙語語料、對比語料、特殊英語語料等不同類型和范圍。這些語料庫是國內(nèi)英語學(xué)習(xí)者語料庫總體建設(shè)的有效補充,為建設(shè)者們的教學(xué)和科研提供了真實的語料,具有實際的研究和教學(xué)指導(dǎo)雙重意義。
HUEMWEC的建設(shè)和使用有著重要的意義。首先,該語料庫的建立及應(yīng)用將推動我校英語專業(yè)學(xué)生根據(jù)各自需求和興趣,進行探索式—發(fā)現(xiàn)式—驗證式學(xué)習(xí)。其次,該語料庫的建立有助于相關(guān)一線教師避免主觀和偏頗,科學(xué)地、理性地、全面地掌握學(xué)生的語言學(xué)習(xí)情況和語言特點,找出學(xué)生寫作中相對普遍存在的問題,從而開展有的放矢的教學(xué)。再次,該語料庫的建設(shè)是國內(nèi)學(xué)習(xí)者語料庫總體建設(shè)的補充。因此,該語料庫的建設(shè)是必要的。
語料庫的建立是一項非常費時費力的工作。一個大型、系統(tǒng)語料庫的建立可能需要研究者們付出數(shù)年甚至數(shù)十年的努力。但是,基于本校師生教學(xué)與研究需求的微型語料庫庫容量相對較小,標(biāo)注和分析也相對容易,而且可以在教學(xué)過程中不斷補充,因而難度大大降低。另外,筆者開展同行之間的合作,并集合了幾位感興趣的高年級學(xué)生,共同致力于HUEMWEC的建設(shè)和發(fā)展。因此,該語料庫的建設(shè)具有可行性。
小型專用語料庫HUEMWEC具有以下四個主要特點:
(一)微型。與CLEC、COLSEC等大型的普遍適用于英語學(xué)習(xí)者、庫容量為數(shù)百萬詞次的語料庫不同,初步建成的HUEMWEC僅收集了640篇懷化學(xué)院2010級學(xué)生專四模擬考試作文,約13萬詞次。
(二)本地化。HUEMWEC主要用于本校英語專業(yè)師生教與學(xué)的分析、反思、發(fā)展與研究,從而為本校及同等水平學(xué)校的英語教學(xué)提供參考,因此,它的語料僅限于本校英語專業(yè)學(xué)生書面英語。但是,筆者及其團隊采用大型語料庫的賦碼和標(biāo)注符號,以便在一定條件下資源共享。
(三)發(fā)展性。HUEMWEC收錄的語料可以識別來源并且可進行歷時的跟蹤調(diào)查。目前該語料庫初步建成,但筆者及其團隊將根據(jù)教學(xué)和研究的需求繼續(xù)致力于該庫的擴大和完善,收錄不同年級學(xué)生不同時期的書面英語語料,以便動態(tài)地掌握其書面語言能力的變化。
(四)參與性。當(dāng)前及后續(xù)的建庫,都由筆者與同事合作指導(dǎo)若干高年級學(xué)生開展語料的收集、輸機、校對、賦碼、標(biāo)注和入庫等工作。學(xué)生的參與一方面出于分散勞動強度的要求;另一方面,參與的學(xué)生也為自己畢業(yè)論文的撰寫獲取了實證性的數(shù)據(jù)。
(一)語料的來源與分類保存
HUEMWEC語料來自懷化學(xué)院2010級兩次專四模擬考試寫作語料。試卷批改之后輸入計算機存檔。這些未經(jīng)處理的語料叫做生文本 (raw text)。存檔時把每一個生文本作為獨立文件用學(xué)號單獨命名存為純文本(.txt)格式,便于讓軟件識別和添加新的文件。
(二)語料的整理、賦碼與標(biāo)注
將生文本合并后進行簡單的整理和加工。首先,利用“文本整理器”軟件批量進行去除段落首尾空格、去除首跳格、去除段落間空行、全角標(biāo)點變半角標(biāo)點等處理[5],然后重新命名該整理文本并保存。接著,在文本頭用尖括號標(biāo)出該語篇的作者姓名、性別、年級、班級、文本字?jǐn)?shù)這些基本信息,便于之后的研究與繼續(xù)建設(shè)。然后,利用德國斯圖加特大學(xué)計算語言學(xué)研究所Helmut Schmid設(shè)計的TreeTagger免費工具對其進行自動詞性賦碼操作并另命名保存。最后,手動進行一些簡單的錯誤標(biāo)注。錯誤標(biāo)注是基于表1對錯誤標(biāo)注的賦碼進行的。
表1
簡單來說,在完成規(guī)劃、語料收集、輸機、校對、賦碼、標(biāo)注、入庫這些工作后,HUEMWEC初步建成。筆者及其團隊會在今后的教學(xué)中不斷添加新的語料并根據(jù)不同的需求補充標(biāo)注,使其發(fā)揮更大的作用。
HUEMWEC的建成和后續(xù)發(fā)展可以在以下四個方面發(fā)揮積極作用:
(一)促進自主型和探究型學(xué)習(xí)模式的培養(yǎng)
本族語語料庫可以為語言學(xué)習(xí)者提供真實的、地道的目的語表達(dá)方式,而作為學(xué)習(xí)者語料庫的HUEMWEC能夠清楚地反應(yīng)出本校英語專業(yè)學(xué)生綜合的語言水平和普遍存在的語言使用問題。兩者結(jié)合起來使用,學(xué)生在老師的指導(dǎo)下使用易于操作的檢索軟件如文本分析程序Writer's Workbench,進行對比、分析、探索、發(fā)現(xiàn)、總結(jié),在自我探究的過程中發(fā)展語言能力。這種探究式的學(xué)習(xí)方法可以延伸到課堂之外,學(xué)生掌握了這種方法以后可以隨時利用檢索工具,解決自己學(xué)習(xí)中遇到的各種疑問,從而達(dá)到自主學(xué)習(xí)的目的。
(二)確定學(xué)生中間語中的典型錯誤,增強教學(xué)的針對性
筆者和同事在教學(xué)過程中發(fā)現(xiàn)學(xué)生中間語中存在的錯誤數(shù)量大種類多,那么哪些是值得進一步關(guān)注的典型錯誤呢?教師幫助學(xué)生認(rèn)識到自己在語言使用中的錯誤并改正它們的顯性教學(xué)方式比一味給學(xué)習(xí)者提供正確語言輸入的隱性教學(xué)方式更容易使學(xué)生在語言學(xué)習(xí)方面取得進步[6]。HUEMWEC建成之后,就可以利用該語料庫數(shù)據(jù)分析本系學(xué)生錯誤的類型、特點和原因,相應(yīng)地給予針對性的指導(dǎo)。例如,筆者在批改作業(yè)的時候發(fā)現(xiàn)學(xué)生常產(chǎn)出這樣的句子“Venice is greatly benefited from its extensive contact with China”, 檢索 HUEMWEC后發(fā)現(xiàn)該類型的錯誤具有非常強的代表性。目前,筆者正致力于統(tǒng)計該類型的錯誤,分析原因,以期在今后的教學(xué)中給學(xué)生明確、有效的指導(dǎo)。
(三)為教和學(xué)的評價與反思提供更全面的依據(jù)
與考試成績相比,HUEMWEC的檢索數(shù)據(jù)更能全面地反映出本校學(xué)生綜合語言水平與老師的教學(xué)效果。通過分析該語料庫數(shù)據(jù),可以掌握學(xué)生語言在詞匯、句子結(jié)構(gòu)、格式、斷句、銜接手段等各方面的特點,從而實質(zhì)性地評價教和學(xué)的效果。另外,隨著HUEMWEC的擴充,縱向比較學(xué)生不同時期的書面語言,可以動態(tài)地了解教學(xué)對學(xué)生語言能力發(fā)展的干預(yù)效果及學(xué)生語言能力的發(fā)展。
(四)為高年級學(xué)生撰寫畢業(yè)論文提供數(shù)據(jù)支持
在興趣的驅(qū)動下,2010級幾位學(xué)生選擇寫作基于語料庫研究的畢業(yè)論文,如基于HUEMWEC的懷化學(xué)院英語專業(yè)學(xué)生寫作現(xiàn)狀分析、語法錯誤分析、冠詞誤用分析等。他們在HUEMWEC基礎(chǔ)上根據(jù)自己的需求進行再加工,不但豐富了自己的研究素材,也為HUEMWEC的建設(shè)做出了貢獻。
盡管HUEMWEC的建設(shè)還需要不斷的豐富和完善,但是我們在收集整理的過程中一邊分析、一邊利用語料為教學(xué)服務(wù),已經(jīng)取得了初步成效。筆者相信,通過團隊的力量和研究的擴展與繼續(xù),HUEMWEC的標(biāo)注會更細(xì),內(nèi)容也會更加充實。同時,它在培養(yǎng)學(xué)生英語寫作能力和自主學(xué)習(xí)能力、促進相關(guān)課程的教學(xué)效果及師生的科研等方面會得到更廣泛的應(yīng)用。
向參與HUEMWEC建庫工作的段海霞、唐潔瓊、黃春等同學(xué)誠表謝意。
[1]劉學(xué)惠.英語師范生課堂話語的建庫、分析和應(yīng)用[J].外語電化教學(xué),2006,(5):42-46.
[2]刑富坤.語料庫:值得教育技術(shù)學(xué)關(guān)注的新型學(xué)習(xí)資源 [J].解放軍外國語學(xué)院學(xué)報,2006,(2):67-70.
[3]甑鳳超,張霞.語料庫語言學(xué)發(fā)展趨勢展望[J].外語界,2004,(4):74-77.
[4]謝家成.論個人教學(xué)語料庫的構(gòu)建 [J].外語電化教學(xué),2003,(3):30-33.
[5]梁茂成,李文中,許家金,等.語料庫應(yīng)用教程 [M].北京:外語教學(xué)與研究出版社,2010.
[6]Carroll,S.&Swain,M.Explicit and Implicit Negative Feedback:An Emperical Study of the Learning of Linguistic Generalization[J].Studies in Second Language Acquisition.1993,(15):357-366.