殷銘
摘? ? 要: 本文采用中介語對比分析方法,將搜集到的獨立學(xué)院學(xué)生英語寫作文本自建語料庫,與LOCNESS語料庫中英、美大學(xué)生寫作語料進(jìn)行對比分析,運用語料庫檢索、標(biāo)注、統(tǒng)計等一系列工具,研究并分析獨立學(xué)院學(xué)生英語寫作詞匯的宏觀特征,并對獨立學(xué)院大學(xué)英語寫作教學(xué)提出一些建議。
關(guān)鍵詞: 語料庫? ? 獨立學(xué)院? ? 英語寫作? ? 詞匯特征
1.引言
2017年最新發(fā)布的《大學(xué)英語教學(xué)指南》(以下簡稱《指南》)對中國大學(xué)生的英語能力提出了全新的要求,除了能用英語進(jìn)行日常溝通與交流外,還要能有效地傳播中華文化,這已經(jīng)上升到國家戰(zhàn)略需求的層面?!吨改稀芬髮W(xué)生在高中英語的基礎(chǔ)上進(jìn)一步提高英語聽、說、讀、寫、譯的能力。作為五項基本技能之一,寫作是最能體現(xiàn)學(xué)生語言綜合運用能力的部分,同時是目前英語教學(xué)中最薄弱的環(huán)節(jié)(鹿青,2017)。寫作需要英語教師給予及時、有效的反饋,反饋不足甚至零反饋只能導(dǎo)致學(xué)生去網(wǎng)絡(luò)上尋找良莠不齊的范文作為參照,久而久之便失去寫作的熱情和信心,只能期望在四、六級考試前突擊背誦作文模板或經(jīng)典例句。
語料庫語言學(xué)的目標(biāo)之一是解釋各種語言現(xiàn)象是否可能發(fā)生及發(fā)生概率的大小(Kennedy,1998:270),語料庫相關(guān)研究中的對比最終常常落實到頻率的對比,語料庫內(nèi)部詞匯或短語的比較和兩個乃至更多語料庫見的比較最終是頻率的比較(梁茂成,2010:10)。本研究從寫作詞匯特征入手,因為詞匯是英語寫作最基本的材料,詞匯運用的豐富程度是高質(zhì)量作文的顯著性特征之一(Reed,2000),并對各類詞匯特征出現(xiàn)的概率和頻率進(jìn)行量化分析。對比獨立學(xué)院學(xué)生與英、美大學(xué)生寫作用詞的特點及差異,并分析原因,提出相關(guān)的寫作教學(xué)建議,使學(xué)生盡快適應(yīng)《指南》的最新要求。
2.研究設(shè)計
2.1研究問題
本研究期望解決如下三個問題:獨立學(xué)院學(xué)生與英、美大學(xué)生英語寫作詞匯各自有哪些特征?這些詞匯特征是否存在顯著差異?是否有行之有效的措施提升獨立學(xué)院學(xué)生英語寫作詞匯水平?
2.2研究方法
本研究采用語料庫中介語對比分析方法,參照英語母語成人語料庫,對自建的獨立學(xué)院語料庫進(jìn)行觀察和分析,運用語料庫工具分析詞匯密度、詞級、詞長、詞頻及詞性分布情況,試圖從宏觀上揭示獨立學(xué)院學(xué)生英語寫作詞匯特征。
2.3研究對象
本研究所選取的觀察語料來自南京某高校設(shè)在泰州的一所獨立學(xué)院。該校自2015年起每年舉行一次同命題英語寫作比賽(見表1),筆者共收集到2015年—2018四年間的學(xué)生作文共計7841篇。為保證本研究的信度和效度,筆者從每年比賽文本中各隨機(jī)抽取500篇共計2000篇自建語料庫,庫容量為497915詞,并將其命名為NNUTC。
用于參照的語料庫是由比利時Louvain大學(xué)Sylviane Granger教授主持建立的英、美本族語大學(xué)生作文語料庫LOCNESS(The Louvain Corpus of Native English Essays)。該庫容量為265695詞,包括英國和美國大學(xué)生議論文和說明文共322篇,涉及若干主題。
2.4研究工具
本研究使用一系列語料庫檢索、標(biāo)注、統(tǒng)計工具分析各種詞匯特征出現(xiàn)的概率和頻率,分別為用來測量詞匯密度和詞長的WordSmith,統(tǒng)計詞級分布的Range,檢索詞頻的AntConc,進(jìn)行詞性標(biāo)注的TreeTagger和用來檢驗頻數(shù)差異的Log-likelihood Ratio Calculator。
3.發(fā)現(xiàn)與討論
3.1詞匯密度
類符/形符比是衡量文本中詞匯密度的常用方法(梁茂成,2010:9)。筆者使用WordSmith對兩庫中的類符/形符比進(jìn)行分析發(fā)現(xiàn),NNUTC的形符數(shù)為497915詞,類符數(shù)為12631詞,LOCNESS的形符數(shù)為265695詞,類符數(shù)為16055詞,類符/形符比分別為2.54%和6.04%。但由于寫作中不可避免會重復(fù)出現(xiàn)大量諸如the, a, of等功能詞,且文本越長功能詞重復(fù)次數(shù)越多,密度反而會降低,因此標(biāo)準(zhǔn)化類符/形符比被認(rèn)為是較為可靠的詞匯密度的測量工具(梁茂成,2010:10)。將二者的標(biāo)準(zhǔn)化類符/形符比進(jìn)行對比發(fā)現(xiàn),NNUTC的標(biāo)準(zhǔn)化類符/形符比為37.53%,要略低于LOCNESS的40.13%,可見獨立學(xué)院學(xué)生的作文中詞匯密度較低,主要體現(xiàn)為寫作用詞變化不多且種類單一,缺乏一定的變化。
3.2詞級
筆者利用Range軟件分別統(tǒng)計兩個語料庫的詞級分布和詞匯復(fù)現(xiàn)率情況。如表2所示,獨立學(xué)院學(xué)生所使用的一級、二級、三級和超綱詞匯的百分比分別為82.95-9.34-2.32-5.39,而表3中英、美大學(xué)生各級詞匯使用比例分別為80.93-7.61-2.29-9.17。Cobb(2003:393-423)經(jīng)過研究發(fā)現(xiàn),英語母語者作文的詞頻比分別為70-10-10-10,高級英語學(xué)習(xí)者的作文詞頻比分別為88-3-3-6,而中國高水平英語學(xué)習(xí)者的書面語詞頻比為84-6-5-6(文秋芳,2003)。
可以看出:(1)獨立學(xué)院學(xué)生和英、美大學(xué)生都偏重于使用高頻詞匯(list one),且比例均超過80%,而獨立學(xué)院學(xué)生超綱詞匯使用比例要遠(yuǎn)低于英、美大學(xué)生;(2)英、美大學(xué)生所用詞匯的詞族(Families)和種類(Types)明顯高于獨立學(xué)院學(xué)生,體現(xiàn)出獨立學(xué)院學(xué)生詞匯使用的豐富性不足,重復(fù)使用部分單詞;(3)從詞匯復(fù)現(xiàn)率(Tokens/Types)來看,獨立學(xué)院學(xué)生的高頻詞匯和次高頻詞匯的復(fù)現(xiàn)均遠(yuǎn)遠(yuǎn)高出英、美大學(xué)生,特別是高頻詞匯高出一倍多。綜上所述,獨立學(xué)院學(xué)生高頻和次高頻詞匯的掌握情況基本達(dá)到英語母語者和中國高水平英語學(xué)習(xí)者的平均水平,但學(xué)術(shù)詞匯的掌握能力亟待提高。
3.3詞長
Karlgren(1996),Attali and Burstein(2004),桂詩春等(2003)都提出詞長是比較語料庫常用的參數(shù)。筆者運用WordSmith工具對兩個語料庫中的平均詞長、詞長標(biāo)準(zhǔn)差和不同字母數(shù)構(gòu)成的單詞數(shù)進(jìn)行了統(tǒng)計。由于15字母以上的單詞數(shù)量偏少,不具備典型性,因此本研究僅選取1-15字母數(shù)的單詞數(shù)量進(jìn)行對比分析,得出表4所示數(shù)據(jù)。
從平均詞長看,兩庫的平均詞長均為5個字母,詞長標(biāo)準(zhǔn)差沒有太大的差異。隨后筆者將不同字母數(shù)構(gòu)成的詞數(shù)進(jìn)行標(biāo)準(zhǔn)化處理(詞數(shù)/總形符數(shù)×10000000),以折線圖形式呈現(xiàn)。從圖1的對比中發(fā)現(xiàn),兩庫中使用最頻繁的單詞均由2個—4個字母構(gòu)成。LOCNESS中3字母詞最多,其次是2字母詞、4字母詞、5字母詞和6字母詞。NNUTC中2字母詞最多,其次是3字母詞、4字母詞、5字母詞和7字母詞。在5字母以上的單詞數(shù)中,NNUTC中除了7字母詞高于LOCNESS外,其余均略低。
為了進(jìn)一步弄清NNUTC中為何出現(xiàn)7字母單詞比例過多的情況,筆者通過編寫正則式檢索出所有7字母單詞,發(fā)現(xiàn)除了ability, against, another, because, between, various, whether, without等各類作文中普遍出現(xiàn)的高頻詞外,其他一些高頻出現(xiàn)的7字母詞諸如AlphaGo,booming, Chinese, English, connect, broaden, culture, foreign, reading, science, society, stories, telling, Western均為各年作文比賽中的主題詞或關(guān)鍵詞,出現(xiàn)高頻使用的情況也就不足為奇了。
雖然詞長參數(shù)不能全面準(zhǔn)確地測量英語寫作水平,但至少從一個側(cè)面反映出學(xué)生在英語寫作水平上確實存在差異(文秋芳,2003)。上圖說明母語學(xué)習(xí)者能較為熟練地使用詞長較長的詞,而獨立學(xué)院學(xué)生則需要提高多字母單詞的使用能力,盡量避免使用簡單、通用和口語化的詞語來表達(dá)思想,而應(yīng)多使用書面文體進(jìn)行寫作。
另外需要補(bǔ)充一點,自動分詞工具雖然提高了信息處理的效率,但其分詞的依據(jù)是單詞之間存在的空格。當(dāng)詞與詞之間或單詞后出現(xiàn)標(biāo)點卻沒有跟下一個單詞之間留有空格時,工具將默認(rèn)為是一個單詞,如*handsome,rich,因為handsome之后的逗號跟rich之間沒有空格,工具會默認(rèn)為這是一個由13個字母構(gòu)成的單詞。部分學(xué)生因為書寫時沒有養(yǎng)成空格的習(xí)慣,所以多字母單詞數(shù)量有所增加,但這畢竟是少數(shù),并不影響整體的趨勢。
3.4詞頻
筆者通過AntConc軟件的“詞表生成”功能觀察兩庫中的詞頻情況(見表5),并研究是否存在個別高頻詞出現(xiàn)過度使用的情況。兩庫中位列前20位的高頻詞匯大同小異,都是諸如the, to, of, and等功能詞和I, it, we, that等代詞。
把兩庫中同現(xiàn)的13個高頻詞匯進(jìn)行頻數(shù)差異檢驗,分析這些單詞是否存在顯著性差異。筆者使用許家金教授(Xu,2009)設(shè)計的對數(shù)似然比計算工具(Log-likelihood Ratio Calculator)進(jìn)行統(tǒng)計(見表6),發(fā)現(xiàn)除to外,其他12個詞均存在顯著性差異。其中and, in, are, with, it在獨立學(xué)院學(xué)生作文中出現(xiàn)過度使用的情況。
另外,筆者發(fā)現(xiàn)獨立學(xué)院學(xué)生高頻使用了people(Rank 13)和Chinese(Rank 15)兩詞,頻率分別達(dá)到5100和4526次,而這兩個詞在LOCNESS中的出現(xiàn)頻率分別為1234(Rank 26)和14(Rank 1980)。經(jīng)分析發(fā)現(xiàn),Chinese為2018年作文關(guān)鍵詞,高頻出現(xiàn)不難理解,而people一詞則出現(xiàn)了過度使用的情況。王立非等人曾發(fā)現(xiàn),people在書面語作文中大量出現(xiàn),占0.77%(王立非,2007)。people一詞的過度使用說明獨立學(xué)院學(xué)生在寫作時可能受到母語和固定模板的影響,當(dāng)要表達(dá)“人”或“人們”概念時往往認(rèn)為people最安全,或許也是唯一能用到的詞,而忽略諸如individual, person, one, public等詞的使用。
3.5詞性
筆者利用詞性標(biāo)注軟件TreeTagger對兩個庫中的文本進(jìn)行詞性賦碼標(biāo)注,試圖發(fā)現(xiàn)獨立學(xué)院學(xué)與英、美大學(xué)生寫作用詞的詞性分布情況。使用TreeTagger賦碼器對英文賦碼,準(zhǔn)確率在96%-97%之間(梁茂成,2010:53),可以滿足研究的要求。再使用AntConc分別對賦碼后的文本進(jìn)行檢索和排序,通過標(biāo)準(zhǔn)化頻率處理(normalization)后得出表7的結(jié)果,比如普通名詞(NN)在NNUTC中出現(xiàn)75744次,每千詞使用普通名詞約為74.42次。
經(jīng)過對兩庫中排名前10的詞性對比發(fā)現(xiàn),獨立學(xué)院學(xué)生和英、美大學(xué)生都高頻使用了名詞(單、復(fù)數(shù))、介詞、形容詞、副詞等,且差異不大。而獨立學(xué)院學(xué)生對人稱代詞(Rank 5,35127次)的使用頻率偏高。筆者經(jīng)過進(jìn)一步研究發(fā)現(xiàn),兩庫中常見人稱代詞的使用存在顯著差異性(見表8)。其中獨立學(xué)院學(xué)生第一、二人稱代詞使用數(shù)量是英、美大學(xué)生的3.56倍,存在過度使用的情況,而第三人稱代詞則使用不足。文秋芳等人也發(fā)現(xiàn),就第一、二人稱代詞使用數(shù)量而言,中國高水平英語學(xué)習(xí)者每萬詞使用的代詞數(shù)量是美國大學(xué)生的2.84倍(文秋芳,2003)。
4.結(jié)論及建議
通過對獨立學(xué)院學(xué)生和英、美大學(xué)生英語寫作詞匯特點的對比分析可以發(fā)現(xiàn):(1)獨立學(xué)院學(xué)生在英語寫作時的詞匯輸出能力還是比較薄弱的,主要體現(xiàn)在寫作時重復(fù)使用高頻、低詞級的普通詞匯,學(xué)術(shù)詞匯的掌握能力亟待提高;(2)表達(dá)個人觀點時手段顯得單一,且過度依賴寫作要求中給出的關(guān)鍵詞;(3)詞匯變化不豐富,尚處于中介語發(fā)展的初級階段,寫作用詞能力亟待提高。
影響英語寫作的因素很多,但英語表達(dá)詞匯水平對英語寫作能力起著至關(guān)重要的作用(馬廣惠,1999)。針對獨立學(xué)院學(xué)生英語寫作用詞現(xiàn)狀,教師應(yīng)在課堂教學(xué)中強(qiáng)化學(xué)生的詞匯意識,讓詞匯成為語言教學(xué)的中心(Lewis, 1993)。教師可以將語料庫研究方法融入課堂教學(xué)中,讓學(xué)生掌握基本的語料庫檢索工具。如可以利用“詞表生成”工具讓學(xué)生了解一篇文章的主題詞,或利用“搭配檢索”工具讓學(xué)生熟悉詞語之間的共選關(guān)系,再或者通過詞頻軟件得出母語者在寫作中的高頻詞等。同時,教師可以在寫作教學(xué)環(huán)節(jié)中加入詞匯專項訓(xùn)練,例如通過同義詞替換、詞形轉(zhuǎn)換等形式鞏固、強(qiáng)化學(xué)生的詞匯表達(dá)能力。另外,教師對學(xué)生的作文應(yīng)給予及時、有針對性的反饋,鼓勵學(xué)生多寫、愛寫、要寫。最后,教師要了解所教學(xué)生目前的中介語水平,要給出適合學(xué)生模仿、學(xué)習(xí)的范文,而不是從網(wǎng)絡(luò)上找一篇范文,或直接讓學(xué)生背誦所謂的模板或經(jīng)典句型。
參考文獻(xiàn):
[1]Attali Y., Burstein J.. Automated Essay Scoring With E-Rater[J]. Journal of Technology Learning and Assessment, 2006,4(2).
[2]Cobb, T.. Analyzing Late Interlanguage with Learner Corpora: Quebec Replications of Three European Studies[J]. Canadian Modern Language Review, 2003,59(3).
[3]Karlgren J.. Stylistic Variation in An Information Retrieval Experiment[J]. Computer Science, 1996.
[4]Kennedy, G. . An Introduction to Corpus Linguistics [M]. London: Longman, 1998.
[5]Lewis, M.. The Lexical Approach[M]. Hove: Language Teaching Publications, 1993.
[6]Read, J.. Assessing Vocabulary[M]. Cambridge: CUP, 2000.
[7]Xu, Jiajin. Log-likelihood ratio calculator [M]. Beijing: National Research Centre for Foreign Language Education, Beijing Foreign Studies University, 2009.
[8]桂詩春,楊惠中.中國學(xué)習(xí)者英語語料庫[M].上海:上海外語教育出版社,2003.
[9]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社,2010.
[10]鹿青.獨立學(xué)院學(xué)生大學(xué)英語四級寫作現(xiàn)狀思考[J].校園英語,2017(16).
[11]馬廣惠,文秋芳.大學(xué)生英語寫作能力的影響因素研究[J].外語教學(xué)與研究,1999(4).
[12]王立非,梁茂成.WordSmith方法在外語教學(xué)研究中的應(yīng)用[J].外語電化教學(xué),2007(3).
[13]文秋芳,丁言仁,王文宇.中國大學(xué)生英語書面語中的口語化傾向——高水平英語學(xué)習(xí)者語料對比分析[J].外語教學(xué)與研究,2003,35(4).