(浙江工業(yè)大學(xué) 之江學(xué)院,浙江 杭州 310024)
長期以來,我國高校英語教學(xué)的評估方式一直過多地依賴于終結(jié)性評估(summative assessment),即僅以考試成績評定學(xué)生的學(xué)習(xí)能力和教學(xué)質(zhì)量。盡管這種評價省時省力,有其自身的一些優(yōu)點,但它重結(jié)果、輕過程,不能提供全面、準(zhǔn)確的信息來描述學(xué)習(xí)者的學(xué)習(xí)行為、能力發(fā)展和成績進步等方面的情況[1],在很大程度上忽視了學(xué)生在學(xué)習(xí)上的主體性、能動性和創(chuàng)造性。在英語教學(xué)日益強調(diào)自主學(xué)習(xí)的今天,這種評價體系的缺點也日益暴露出來,具體表現(xiàn)為:學(xué)生學(xué)習(xí)的動機是為了通過考試;不能因材施教,扼殺學(xué)生個性;不利于學(xué)生創(chuàng)新精神和實踐能力的培養(yǎng)。
教學(xué)評估研究從二十世紀(jì)中葉算起,已經(jīng)發(fā)展了半個多世紀(jì)。在這期間,越來越多的專家學(xué)者逐漸意識到教學(xué)評估不僅包括以標(biāo)準(zhǔn)化考試為代表的終結(jié)性評估,也包括以學(xué)習(xí)為目的、注重學(xué)習(xí)過程的形成性評估(formative assessment) 。形成性評估以建構(gòu)主義、人本主義為基礎(chǔ),根據(jù)學(xué)生在各項學(xué)習(xí)活動中的行為表現(xiàn),對其學(xué)習(xí)過程、學(xué)習(xí)態(tài)度、學(xué)習(xí)策略和學(xué)習(xí)效果等進行綜合性的評估,這在一定程度上彌補了終結(jié)性評估的不足。
與國外相比,國內(nèi)形成性評估方面的研究始于二十世紀(jì)九十年代末,起步較晚,以理論研究為先導(dǎo)。最近十幾年,有些研究者將形成性評估的理論應(yīng)用到大學(xué)英語的口語、寫作等課程的實踐上,并取得了一些成果[2]。但到目前為止,涉及到英語專業(yè)尤其是實證方面的研究仍然很少[3],這有待于我們通過試驗來檢驗形成性評估的理論成果,找出適用于英語專業(yè)各門課程的行之有效的評估方式,克服終結(jié)性評估固有的缺陷。
形成性評估以建構(gòu)主義為依據(jù),把建構(gòu)主義、人本主義等觀點有機結(jié)合起來,是基于目標(biāo)、注重過程、及時反饋、促進發(fā)展的、在教學(xué)過程中進行的過程性、發(fā)展性評估,使教與學(xué)能夠相互促進、相互提高[3]。
根據(jù)建構(gòu)主義(Constructivism),學(xué)習(xí)不是知識由教師向?qū)W生的傳遞,而是學(xué)生建構(gòu)自己知識的過程,這意味著學(xué)習(xí)是主動的,學(xué)習(xí)不是被動地接受外來信息,而是主動地進行選擇加工[4],因而不是行為主義所描述的S-R(Stimulus-Response)過程。學(xué)生不是被動的信息吸收者,而是意義的主動建構(gòu)者,這種建構(gòu)不可能由其他人代替。建構(gòu)主義的核心是個體內(nèi)化知識,強調(diào)學(xué)習(xí)者的主觀能動性。而形成性評估恰恰從動態(tài)的、構(gòu)建的角度為學(xué)習(xí)者提供了檢測知識內(nèi)化的工具,為學(xué)生和教師提供了知識建構(gòu)的檢測手段。
羅杰斯在二十世紀(jì)六十年代提出的“自由學(xué)習(xí)”和“學(xué)生中心”(student-centered)的學(xué)習(xí)與教學(xué)觀進一步強調(diào)了發(fā)揮學(xué)習(xí)者個人主觀能動性的重要性[5]。他所倡導(dǎo)的人本主義認(rèn)為,人天然具有學(xué)習(xí)的潛力,學(xué)習(xí)是人的終生需求。教育要尊重學(xué)習(xí)者個體,尊重學(xué)習(xí)者的個人需求和情感,鼓勵學(xué)習(xí)者對自己負(fù)責(zé),自己選擇??梢姡吮局髁x重視的是教學(xué)過程而非教學(xué)內(nèi)容,重視的是教學(xué)方法而非教學(xué)結(jié)果。而形成性評估能夠有效滿足學(xué)生認(rèn)知自我的要求,培養(yǎng)學(xué)生自我負(fù)責(zé)、自我發(fā)展的能力,從而為學(xué)生的全面進步提供客觀的衡量尺度。
概言之,基于以人為本、建構(gòu)主義的形成性評估強調(diào)對學(xué)生的學(xué)習(xí)過程進行評價,提供反饋信息,并對學(xué)生的情感、態(tài)度和策略等方面的發(fā)展做出評價[5]。
與國外相比,國內(nèi)形成性評估的研究起步較晚,主要集中于介紹形成性評估的理論基礎(chǔ)、實施方法、原則、優(yōu)缺點等內(nèi)容,大多停留在理論研究層面,或僅僅是簡單的經(jīng)驗介紹。實證研究相對較少,主要集中于大學(xué)英語的口語、寫作等課程方面[3]。如將形成性評估應(yīng)用于網(wǎng)絡(luò)教學(xué)[5],監(jiān)控寫作的各個環(huán)節(jié)[6],評價學(xué)生的自主學(xué)習(xí)能力[1]。這些實證研究表明,形成性評估可以激發(fā)學(xué)生學(xué)習(xí)語言的動機和學(xué)習(xí)興趣,能有效地監(jiān)控學(xué)生的學(xué)習(xí)過程,同時培養(yǎng)了學(xué)習(xí)者的自主學(xué)習(xí)和交際能力。在為數(shù)不多的實證研究中,周文博[7]借鑒于廣的“235多元評價體系”[8]所進行的研究對于形成性評估的實踐應(yīng)用有一定的指導(dǎo)意義。于廣針對大學(xué)英語的教學(xué),以多元智能為理論依據(jù),將過程性評估與終結(jié)性評估相結(jié)合,嘗試提出了一個激勵多元智能發(fā)展、突出聽說能力培養(yǎng)的“235多元評價體系”,即把原有的終結(jié)性評價的100分轉(zhuǎn)換為20%的口語成績、30%的平時成績、50%的卷面成績。這個體系有一定的創(chuàng)新性、科學(xué)性和實用性,但于廣并未將該評價體系應(yīng)用于實踐。而周文博[7]在“235多元評價體系”的基礎(chǔ)上,針對自己所教授課程的特點對該體系進行了調(diào)整、細(xì)化,在大學(xué)英語這門課程的教學(xué)和評估中進行了實踐。研究結(jié)果表明:學(xué)生對“235多元評價體系”的各個細(xì)節(jié)滿意度均較高,普遍認(rèn)為該體系能夠有效地促進學(xué)習(xí),激發(fā)自己學(xué)習(xí)英語的積極性,多數(shù)學(xué)生認(rèn)為這種評價方式更加公平公正。但該研究也發(fā)現(xiàn)了一些問題,如學(xué)生對一些形式較為傳統(tǒng)的期中測試、隨機測試的認(rèn)同率非常低,對小組討論、網(wǎng)上自主學(xué)習(xí)等比較新的教學(xué)手段也不太認(rèn)同。
那么,上述研究中發(fā)現(xiàn)的有關(guān)形成性評估的優(yōu)點和問題是大學(xué)英語這門課程所獨有的,還是其他課程所共有的?該體系中提到的各項指標(biāo)及其所占比例是否也適用于其他課程?該研究的結(jié)果是否可以復(fù)制?這些問題均有待于我們通過實證研究來解答。
形成性評估的實證研究以往主要集中于非英語專業(yè)即大學(xué)英語上[3]。因此,本研究旨在通過試驗來驗證形成性評估是否能成功地應(yīng)用于英語專業(yè)課程的教學(xué)實踐。
本研究的試驗對象為浙江工業(yè)大學(xué)之江學(xué)院2009級和2010級英語專業(yè)的本科生,其中2009級學(xué)生為對照組,2010級學(xué)生為試驗組。試驗課程為中級英語測試,該課程的性質(zhì)為英語專業(yè)四級(TEM4)備考課程,內(nèi)容包括聽寫、聽力、詞匯語法、完形填空、閱讀等TEM4考查的題型。試驗從2010年9月開始,至2012年5月結(jié)束,前后歷時將近兩年。對照組采用的評估方法是終結(jié)性評估,而試驗組采用了形成性的評估方法。
在該門課程第二次上課時,即學(xué)生基本上熟悉了TEM4題型之后,筆者分別于2010年9月和2011年9月對對照組和試驗組進行了模擬考試(前測),試題完全相同,考查了除寫作外的全部TEM4題型,滿分為75分。經(jīng)獨立樣本T檢驗,T值為1.794,雙尾顯著性為0.74,這說明試驗組和對照組的英語水平總的來說是一致的,沒有顯著性差異。T檢驗的具體結(jié)果如表1:
表1 試驗組與對照組的英語水平T檢驗
由于所試驗課程的性質(zhì)為應(yīng)試課,因此,本研究在235多元評價體系[7-8]的基礎(chǔ)上,主要采用了作業(yè)、隨堂測試、課堂表現(xiàn)、自評互評、教師評價、階段總結(jié)、模擬考試、期末考試等考核方式。在試驗初期,筆者制定了上述各部分在學(xué)生總評成績中的比例,即期末考試30%,模擬考試20%,課堂測驗15%,課后作業(yè)15%,課堂表現(xiàn)10%,自評2%,他評3%,出席5%。
經(jīng)過為期近兩年的試驗,對照組和試驗組分別于2011年4月和2012年4月進行了后測,除增加寫作之外,其他試題與前測完全一致。試驗組的平均分為61.05,明顯高于對照組的57.96分,經(jīng)過獨立樣本T檢驗,T值的顯著性達到了.009(表2)。這說明,不同的評估方法對試驗組和對照組的最終成績產(chǎn)生了顯著性的影響:采用形成性評估的試驗組學(xué)生學(xué)習(xí)成績提高幅度更大,這在2010級的TEM4通過率上也得到了充分的驗證(表3)。
表2 試驗后試驗組與對照組的英語水平T檢驗
注:**表示顯著性水平在0.01。
表3 試驗組與對照組專業(yè)四級考試通過率
注:*表示顯著性水平在0.05; **表示顯著性水平在0.01。
對照組與試驗組的學(xué)生分別于2011年4月和2012年4月參加了TEM4全國統(tǒng)考。從表3的結(jié)果來看,在獨立學(xué)院和全國的英語專業(yè)學(xué)生TEM4通過率顯著下降的大背景下,試驗組的平均分(62.65)和通過率(74.77%)均取得了顯著性的提高,這再次驗證了過程性評估在注重教學(xué)過程的同時,對學(xué)生的學(xué)習(xí)結(jié)果確實產(chǎn)生了顯著性的影響,收到了良好的成效。
形成性評估在測試性質(zhì)的課程上的試驗無疑是成功的,那么在本試驗中哪些做法是值得肯定的呢?2012年5月,筆者對試驗組的學(xué)生進行了問卷調(diào)查及訪談,主要的問題有:總評成績中應(yīng)該包括哪些內(nèi)容、過去一年我們的評估中哪些做法對他們的學(xué)習(xí)是起促進作用的、總評成績是否能反映他們的真實成績及其在班級中的排名等。共收回107份有效問卷。
從調(diào)查結(jié)果看,學(xué)生仍然認(rèn)為期末考試非常重要(40.8%),是總評成績中最重要的部分。而課堂測驗(15.6%)和模擬考試(11.6%)的比重也均超過了10%。對于教師評價(2.8%)、自評(1.7%)、他評(2.4%)、課堂表現(xiàn)(4.5%)等可能會受人為因素影響的考核方式,學(xué)生認(rèn)為不應(yīng)在總評成績中占很大的比例。在被問及哪些評估內(nèi)容對他們的學(xué)習(xí)有促進作用時,學(xué)生認(rèn)同度較高的評估方法有:課堂測驗(86.9%)、事先告知上交課后作業(yè)(65.4%)、期末考試(54.2%)、模擬考試(50.5%)、突擊抽查作業(yè)(36.4%)、事先告知不上交課后作業(yè)(30.8%)、課堂表現(xiàn)(20.6%),而出席(11.2%)、教師評價(8.4%)、自評(2.8%)、他評(1.9%)的認(rèn)同度幾乎可以忽略不計了。由此,我們可以得出如下結(jié)論:
第一,課堂測驗、課后作業(yè)、考試等傳統(tǒng)評估方式的反撥效應(yīng)(washback)較好。反撥效應(yīng)指測試(評估方式)對教學(xué)和學(xué)習(xí)的影響[9]。如上文所述,學(xué)生認(rèn)為對他們成績最有幫助的仍然是那些非常傳統(tǒng)的評估方式:測驗、作業(yè)和考試等。另外,有78.5%的學(xué)生認(rèn)為,老師對所留的作業(yè)是需要全部檢查的,而抽查和不上交作業(yè)的做法所起到的作用是有限的,因為總有一些學(xué)生存在僥幸的心理。
第二,自評、他評、教師評價等考核方式的信度、效度受到質(zhì)疑。任何測量手段包括測試都需要具備一定的信度(reliability)和效度(validity)[10]。從問卷調(diào)查結(jié)果看,學(xué)生普遍認(rèn)為這三種考核方式對于他們成績的提高幫助很小。筆者在與一些學(xué)生的訪談中,他們均提到了自評、他評、教師評價等方式對他們的課內(nèi)外學(xué)習(xí)有一定的督促作用,但主觀性強,其科學(xué)性和公平性受到了質(zhì)疑,他們擔(dān)心這些評價方式容易受人為因素的影響,不好操作,如學(xué)生或老師可能會給評價對象人情分。因此,信度、效度較低,缺少可行性(practicality)。
第三,235多元評價體系基本能適用于應(yīng)試性質(zhì)的英語專業(yè)課程的評估。在問卷調(diào)查的最后兩個問題上,分別有86% 和81.3%的被調(diào)查的學(xué)生認(rèn)為該門課程期末的總評成績能完全或基本上反映出他們的英語能力及其在所在班級的排名。這說明,經(jīng)過修改的235多元評價體系總體來說具有很高的信度、效度和可行性。
目前,中國的大專院校普遍存在輕過程、重結(jié)果的問題,對學(xué)生的考核主要看學(xué)生在期末考試中能取得什么樣的成績[3]。教師與學(xué)生之間形成了評價與被評價的關(guān)系,學(xué)生對作業(yè)和考試等傳統(tǒng)評估方法已習(xí)以為常。因此,對本研究中的自評、他評、教師評價等過程性評估的做法普遍不太認(rèn)同。
從本試驗中我們得到的啟示是:考試、測驗等傳統(tǒng)的考核方式仍是約束學(xué)生的學(xué)習(xí)行為、提高學(xué)習(xí)成績的最好方式,這與周文博[7]的研究結(jié)果有些出入。與本研究一樣,他的學(xué)生總的來說是贊同這種評估方法的,但與本研究不同的是,他的學(xué)生對這些傳統(tǒng)的考核方式是不太認(rèn)同的。究其原因,本文的研究對象為獨立學(xué)院的學(xué)生,他們的自我約束能力、自主學(xué)習(xí)能力總體上不如一本、二本院校。因此,他們希望教師能對其學(xué)習(xí)行為進行嚴(yán)格的約束,而約束的最好的、最傳統(tǒng)的方法就是考試(包括課堂測驗)和作業(yè),調(diào)查的結(jié)果也恰恰證明了這一點:傳統(tǒng)的考核方式對他們的學(xué)習(xí)幫助最大。
整體而言,基于235多元評價體系的過程性評估在本研究中取得了良好的教學(xué)效果。這種評估方式充分體現(xiàn)了以人為本的教學(xué)理念,使學(xué)生也成為了評估的主體,師生之間多了合作,不再是簡單的評價與被評價的關(guān)系,實現(xiàn)了重過程也重結(jié)果的目的。因此,這種評估方式是可以在不同的課程中復(fù)制的。
參考文獻:
[1] 沈梅英.形成性評估在學(xué)生自主學(xué)習(xí)能力評價中作用的實證研究[J].天津外國語學(xué)院學(xué)報,2010,(2): 71-76.
[2] 魏薇.大學(xué)英語口語測試中的形成性評價[J].文教資料,2005,(24): 36-38.
[3] 解芳.形成性評估與外語教學(xué)研究述評[J].邊疆經(jīng)濟與文化,2008, (6): 119-120.
[4] 莫雷.教育心理學(xué)[M].廣州: 廣東高等教育出版社, 2005. 127,150-151.
[5] 周娉娣, 秦秀白.形成性評估在大學(xué)英語網(wǎng)絡(luò)教學(xué)中的應(yīng)用[J].外語電化教學(xué),2005,(5): 9-13.
[6] 曹榮平, 等.形成性評估在中國大學(xué)非英語專業(yè)英語寫作教學(xué)中的運用[J].外語教學(xué), 2004, (9):82-87.
[7] 周文博.“235多元評價”體系在大學(xué)英語課堂的應(yīng)用[J].齊齊哈爾師范高等專科學(xué)校學(xué)報, 2010, (2): 139-140.
[8] 于廣.大學(xué)英語教學(xué)多元評價體系探析與思考[J].中國高教研究,2008, (8): 92-93.
[9] Brown J D. Testing in Language Programs: A Comprehensive Guide to English Language Assessment[M].北京:高等教育出版社,2006. 242.
[10] 李筱菊.語言測試科學(xué)與藝術(shù)[M].長沙:湖南教育出版社,2001. 34,398.
浙江工業(yè)大學(xué)學(xué)報(社會科學(xué)版)2014年2期