郭蕓等
摘 要: 本文將科學(xué)測(cè)量理論的多面Ranch模型理論用于師范生說課技能評(píng)價(jià)的數(shù)據(jù)分析,為相關(guān)評(píng)價(jià)提供信效度信息,同時(shí)為未來教育測(cè)評(píng)提供有價(jià)值的參考。
關(guān)鍵詞: 說課技能 評(píng)價(jià) Rasch模型 加權(quán)擬合統(tǒng)計(jì)
說課是一種重要的教學(xué)研討形式,說課技能訓(xùn)練對(duì)提高師范生教育教學(xué)水平具有重要作用,已成為師范生教學(xué)技能培訓(xùn)的重要組成部分。然而,在師范生說課培訓(xùn)實(shí)踐中,師范生的說課技能評(píng)價(jià)主要依靠指導(dǎo)教師的主觀評(píng)分確定,評(píng)價(jià)可信度相對(duì)較低。
丹麥數(shù)學(xué)家Georg Rasch于1960年提出的Rasch模型提供的統(tǒng)計(jì)框架可以消除主觀評(píng)價(jià)中各方面因素對(duì)評(píng)價(jià)結(jié)果的影響[1]。該模型除了考生能力和試題難度兩個(gè)因素外,還將評(píng)分員及評(píng)分量表等因素加入模型,不僅可以分析考生能力和試題難度導(dǎo)致的評(píng)價(jià)差異,而且可以分析由其他因素導(dǎo)致的評(píng)價(jià)誤差來源,可有效提高主觀評(píng)分信度[2]。
本文通過Rasch模型對(duì)說課比賽中學(xué)生的表現(xiàn)、評(píng)分者的評(píng)分及評(píng)分標(biāo)準(zhǔn)的難度做整體分析,從而檢驗(yàn)是否每個(gè)學(xué)生都得到合理評(píng)估,評(píng)分者對(duì)學(xué)生的評(píng)估是否做出了合理判斷及評(píng)分嚴(yán)厲度的差異,評(píng)分標(biāo)準(zhǔn)的難度值是否符合學(xué)生的整體能力,為師范生教學(xué)技能評(píng)價(jià)提供有益參考。
1.研究對(duì)象
以某高等師范院校生物科學(xué)(師范)專業(yè)四年級(jí)的8名師范生(其中男生3名,女生5名)的說課比賽成績(jī)?yōu)閷?duì)象,其中說課內(nèi)容包括一說教材,二說教法,三說學(xué)法,四說教學(xué)過程,五說教學(xué)評(píng)價(jià),六說板書。5位評(píng)分教師根據(jù)說課學(xué)生上述六方面的表現(xiàn),按照評(píng)分標(biāo)準(zhǔn)采用10點(diǎn)計(jì)分,具體見表1。
2.研究方法
采用Bond & Fox Facets[3],一種進(jìn)行多面Rasch分析的計(jì)算機(jī)軟件程序?qū)ι鲜鰯?shù)據(jù)資料進(jìn)行分析。本研究設(shè)計(jì)了三個(gè)側(cè)面,即學(xué)生表現(xiàn)、題目/任務(wù)難度、評(píng)分者的嚴(yán)厲度。采用的可以接受的吻合統(tǒng)計(jì)(infit)范圍設(shè)置在0.6-1.4之間[4]。此外,學(xué)生表現(xiàn)評(píng)估報(bào)告分離比的期望值大于2.0[5]。
3.研究結(jié)果
3.1對(duì)評(píng)分者、學(xué)生及內(nèi)容的概述
在這次說課比賽中,對(duì)學(xué)生能力、評(píng)分者嚴(yán)厲度和評(píng)分標(biāo)準(zhǔn)難度的總體評(píng)估結(jié)果見圖1所示。圖中最左側(cè)呈現(xiàn)的是對(duì)數(shù)(logits)刻度,范圍從-2到+4,對(duì)于三個(gè)側(cè)面標(biāo)尺都相同;學(xué)生能力以學(xué)生編號(hào)呈現(xiàn)在第二列,能力最高的學(xué)生在頂端,能力最低的學(xué)生在底端;評(píng)分者的嚴(yán)格程度在第三列,最寬松的評(píng)分者在底部,而最嚴(yán)格的評(píng)分者在最頂端;項(xiàng)目(評(píng)分標(biāo)準(zhǔn))的難易程度在第四列,圖中由上而下依次為由難而易;最后一列為評(píng)分量表的使用情況。該圖可直觀地顯示每個(gè)側(cè)面的整體分布及不同個(gè)體之間的差異。由圖1可知,8名學(xué)生的能力排序,其中最高能力的表現(xiàn)者為S6,最低能力的表現(xiàn)者為S4;評(píng)分者中有3位在0以下,1位評(píng)分者在0處,1位在+2到+3之間,顯示5位評(píng)分者中4位較寬松,一位較嚴(yán)格;在項(xiàng)目難度方面,既不容易,又不難,六個(gè)項(xiàng)目中一個(gè)高于平均值,三個(gè)處于平均值,兩個(gè)低于平均值。
3.2學(xué)生能力表現(xiàn)分析
學(xué)生能力表現(xiàn)的估計(jì)值從-0.94logits到3.95logits(圖1第2列)。按照學(xué)生表現(xiàn)的質(zhì)量以降序排列。具體來說,能力估計(jì)值縱列顯示學(xué)生6是能力水平最高為3.95logits,而學(xué)生5能力最差為-0.94logits。
學(xué)生說課比賽中的能力表現(xiàn)分析的吻合統(tǒng)計(jì)——加權(quán)擬合統(tǒng)計(jì)(infit)結(jié)果見表2。在表中,擬合統(tǒng)計(jì)顯示所有學(xué)生都擬合模型,加權(quán)擬合統(tǒng)計(jì)量(infit)在可接受范圍內(nèi)(0.6-1.4),表明每個(gè)學(xué)生都能被科學(xué)地評(píng)估,得到合理的能力分?jǐn)?shù)。
多面Rasch分析也提供RMSE(Root Mean-Square Standard Error),即估計(jì)值標(biāo)準(zhǔn)誤均方的平方根,代表估計(jì)的平均誤差。學(xué)生能力的RMSE是0.24,表明學(xué)生的測(cè)量誤差很低。分離比(Separation)取值范圍在0至無窮大,達(dá)到2就能區(qū)分高低水平,學(xué)生的分離比是5.20,超過了最低要求2.0,說明依據(jù)學(xué)生的表現(xiàn)能夠把學(xué)生的能力區(qū)分開來。上述結(jié)果說明本測(cè)驗(yàn)信度高,能夠按照能力水平將學(xué)生區(qū)分開。
3.3評(píng)分質(zhì)量分析
5個(gè)評(píng)分者的嚴(yán)格程度平均值為0,表明評(píng)分者的評(píng)分整體上比較適宜。對(duì)評(píng)分者評(píng)分質(zhì)量的吻合統(tǒng)計(jì)結(jié)果見表3。按照擬合統(tǒng)計(jì)量可接受的范圍(0.6-1.4),表明評(píng)分者對(duì)學(xué)生的表現(xiàn)都作出了合理判斷。評(píng)分者的分離比為5.61,分離信度為0.97,這些信息表明評(píng)分者之間是存在差異的,5位評(píng)分者中至少有一位評(píng)分者在評(píng)分過程中表現(xiàn)出明顯不同的嚴(yán)厲度,但總體上呈現(xiàn)較好的內(nèi)部一致性,他們以統(tǒng)一標(biāo)準(zhǔn)行使自己的評(píng)判職責(zé)。
3.4項(xiàng)目難度分析
對(duì)項(xiàng)目難度分析的吻合統(tǒng)計(jì)結(jié)果見表4。表中項(xiàng)目以難度降序呈現(xiàn),結(jié)果顯示“項(xiàng)目1”是最難的項(xiàng)目(說教材),“項(xiàng)目4”在六個(gè)標(biāo)準(zhǔn)中是最容易的(說教學(xué)過程)。“說教材”成為學(xué)生說課最困難的項(xiàng)目,表明入職前的教師(師范生)由于缺乏對(duì)教材的系統(tǒng)學(xué)習(xí)與思考,未能在深入理解課程標(biāo)準(zhǔn)的基礎(chǔ)上準(zhǔn)確把握教材。擬合統(tǒng)計(jì)顯示所有項(xiàng)目都非常吻合模型期望,各個(gè)項(xiàng)目的infit統(tǒng)計(jì)量都在0.6-1.4之間,即各評(píng)分者跨評(píng)分標(biāo)準(zhǔn)的一致性較好,各評(píng)分者在同一評(píng)分標(biāo)準(zhǔn)上的寬嚴(yán)標(biāo)準(zhǔn)相同。
4.討論
在依靠主觀評(píng)價(jià)學(xué)生的學(xué)業(yè)能力時(shí),傳統(tǒng)做法是除去一個(gè)最高分和一個(gè)最低分,評(píng)價(jià)者所給平均分就代表學(xué)生的學(xué)業(yè)能力,這樣的做法往往存在局限性。評(píng)分者對(duì)評(píng)價(jià)項(xiàng)目的理解及要求(嚴(yán)厲度)存在差異,有可能給出最高分或最低分的評(píng)分者對(duì)學(xué)生的表現(xiàn)做出了合理判斷,即檢測(cè)存在樣本依賴與測(cè)驗(yàn)依賴[6],學(xué)生的能力無法得到客觀評(píng)價(jià)。
與傳統(tǒng)教育測(cè)量相比,Rasch模型分析可以鑒別影響主觀評(píng)價(jià)可靠性的各種因素,如特殊的評(píng)分者、特殊的評(píng)分標(biāo)準(zhǔn)。同時(shí),能夠依據(jù)吻合統(tǒng)計(jì)(Infit)改進(jìn)測(cè)驗(yàn),當(dāng)發(fā)現(xiàn)不吻合因素時(shí),能夠通過與評(píng)分者、參與學(xué)生進(jìn)行討論改進(jìn)評(píng)估。本研究基于Rasch模型對(duì)師范生說課能力評(píng)價(jià)結(jié)果的分析提供三個(gè)評(píng)估側(cè)面之間的關(guān)系(圖1)、學(xué)生能力和吻合統(tǒng)計(jì)(表2)、評(píng)委的嚴(yán)格程度和吻合統(tǒng)計(jì)(表3)、項(xiàng)目難度和吻合統(tǒng)計(jì)(表4),模型分析的結(jié)果表明,每位學(xué)生都在吻合統(tǒng)計(jì)范圍之內(nèi),說明每個(gè)學(xué)生都能被科學(xué)地評(píng)估,得到合理評(píng)價(jià),其分離比說明測(cè)驗(yàn)信度高,能夠把學(xué)生分為不同能力水平;對(duì)評(píng)分質(zhì)量分析得到擬合統(tǒng)計(jì)量在可接受范圍,證明評(píng)分者對(duì)學(xué)生的表現(xiàn)做出了合理判斷,分離比等信息表明評(píng)分者之間存在差異,但總體上呈現(xiàn)較好的內(nèi)部一致性;對(duì)評(píng)分標(biāo)準(zhǔn)(項(xiàng)目難度)的分析表明各評(píng)分者跨評(píng)分標(biāo)準(zhǔn)的一致性較好,各評(píng)分者在同一評(píng)分標(biāo)準(zhǔn)上的寬嚴(yán)標(biāo)準(zhǔn)相同。
參考文獻(xiàn):
[1]晏子.心理科學(xué)領(lǐng)域內(nèi)的客觀測(cè)量——Rasch模型之特點(diǎn)及發(fā)展規(guī)律[J].心理科學(xué)進(jìn)展,2010,18(8):1298-1305.
[2]Linacre JM,Wright.BD.A user’s guide to FACETS:Rasch model computer program,version 2.4 for PC compatible computers[M].Chicago,IL:MESA Press.1993.
[3]Bond TC,F(xiàn)ox CM.Applying the Rasch model:Fundamental measurement in the human sciences (2nded)[M].Lawrenec Erlbaum Associates Inc,2012.
[4]Wright BD,Linacre,JM,Gustafson JE,Martin-Lof P.Reasonable mean-square fit values[J].Rasch Measurement Transactions,1994,8(3):370.
[5]Linacre,JM.Many-facet Rasch measurement.Chicago,IL:MESA Press.1993.
[6]王蕾.Rasch測(cè)量理論及在高考命題中的實(shí)證研究[J].中國(guó)考試,2008(1):32-39.
通訊作者:龍中兒