麥裕華 黎光明 錢(qián)揚(yáng)義
表現(xiàn)性評(píng)價(jià)是在真實(shí)情境下,對(duì)人們問(wèn)題解決過(guò)程中表現(xiàn)的復(fù)雜知識(shí)、能力和情意進(jìn)行測(cè)量的評(píng)價(jià)方式。中學(xué)理科課程的實(shí)驗(yàn)操作考查作為典型的表現(xiàn)性評(píng)價(jià),主要評(píng)估學(xué)生完成理科常見(jiàn)實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力。自20 世紀(jì)80 年代末以來(lái),國(guó)內(nèi)各地教育行政部門(mén)加強(qiáng)中學(xué)理科課程管理,設(shè)置初、高中理科實(shí)驗(yàn)操作考查,借此提高學(xué)生實(shí)驗(yàn)操作能力。教育部提出,初中學(xué)業(yè)水平考試“要重視對(duì)有關(guān)學(xué)科教學(xué)實(shí)驗(yàn)操作的考查”[1],普通高中學(xué)業(yè)水平考試“要對(duì)相關(guān)科目的實(shí)驗(yàn)操作的考試提出要求”[2]。國(guó)務(wù)院辦公廳“鼓勵(lì)有條件的地方將技術(shù)科目和理化生實(shí)驗(yàn)操作納入省級(jí)統(tǒng)一考試”[3]。中學(xué)理科實(shí)驗(yàn)操作考查逐漸成為選拔中學(xué)優(yōu)秀人才、有高利害關(guān)系的表現(xiàn)性評(píng)價(jià)。然而,實(shí)驗(yàn)操作考查的研究主要集中在試題命制和考務(wù)組織[4][5][6][7]、評(píng)分方式[8][9]、對(duì)理科實(shí)驗(yàn)教學(xué)的反撥作用[10]等主題上,鮮少討論評(píng)分者效應(yīng)、評(píng)分者信度等關(guān)鍵問(wèn)題。相關(guān)的實(shí)證研究有麥裕華等人應(yīng)用百分比法和相關(guān)法,初步探討考查學(xué)生高階思維的化學(xué)復(fù)雜實(shí)驗(yàn)的評(píng)分者信度及其影響因素。[11]
評(píng)分者的認(rèn)識(shí)、情緒和疲勞等主觀因素,容易使其在表現(xiàn)性評(píng)價(jià)中出現(xiàn)偏差,產(chǎn)生評(píng)分者效應(yīng)(rater effect)。[12]評(píng)分者效應(yīng)包括寬嚴(yán)效應(yīng)(leniency/severity effect)、 趨 中 效 應(yīng)(central tendency effect)、隨機(jī)效應(yīng)(randomness effect)、光環(huán)效應(yīng)(halo effect)和區(qū)分性寬嚴(yán)效應(yīng)(differential leniency/severityeffect)。[13]評(píng)分者效應(yīng)的存在會(huì)影響評(píng)分者信度(包括評(píng)分者間信度和評(píng)分者內(nèi)信度)。但是常用計(jì)算評(píng)分者信度的百分比法、相關(guān)法和概化理論[14]均無(wú)法清楚地顯示每位評(píng)分者的評(píng)分對(duì)作答者得分、評(píng)分者效應(yīng)和評(píng)分者信度等的具體影響,也無(wú)法同時(shí)考慮計(jì)分規(guī)則、測(cè)試任務(wù)的難度等因素可能產(chǎn)生的作用。
Linacre 提出的多面Rasch 模型(many-facet Rasch model,MFRM)以項(xiàng)目反應(yīng)理論的Rasch 模型為基礎(chǔ),將可以對(duì)測(cè)量結(jié)果產(chǎn)生系統(tǒng)誤差的因素作為側(cè)面,既估計(jì)每位評(píng)分者評(píng)分的寬嚴(yán)度,分離和校正評(píng)分者誤差對(duì)作答者得分的影響,又估計(jì)其他側(cè)面對(duì)作答者得分的影響,以及評(píng)分者與其他側(cè)面的偏差作用,可以提供豐富的評(píng)價(jià)信息。[15][16]許多研究者曾應(yīng)用MFRM 研究不同形式表現(xiàn)性評(píng)價(jià)的評(píng)分者效應(yīng)或評(píng)分者信度,包括寫(xiě)作[17][18][19][20][21]、口頭匯報(bào)[22][23][24][25][26]、無(wú)領(lǐng)導(dǎo)小組討論[27]和創(chuàng)造力測(cè)驗(yàn)[28][29]等,但鮮少應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的相關(guān)問(wèn)題。另外,在考務(wù)管理中,當(dāng)評(píng)分者監(jiān)考不同人數(shù)考生時(shí),其對(duì)考生實(shí)驗(yàn)操作過(guò)程的觀察和判斷可能有不同反應(yīng),這都可能影響評(píng)分者信度。因此,了解監(jiān)考人數(shù)和評(píng)分者信度的具體關(guān)系十分重要。
總的來(lái)說(shuō),探討中學(xué)理科實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)和評(píng)分者信度的實(shí)證研究,亟須應(yīng)用高級(jí)測(cè)量和統(tǒng)計(jì)方法,如MFRM。這一方面有助于評(píng)分者了解和提高評(píng)分質(zhì)量,避免錯(cuò)誤評(píng)分,完善實(shí)驗(yàn)操作考查的組織管理;另一方面有助于彌補(bǔ)過(guò)往研究的不足,認(rèn)識(shí)評(píng)分者效應(yīng)和評(píng)分者信度對(duì)學(xué)生評(píng)價(jià)的影響,最終為促進(jìn)國(guó)家教育考試招生制度改革提供實(shí)質(zhì)性支持?;谏鲜隹紤],本研究以初三化學(xué)實(shí)驗(yàn)操作考查常見(jiàn)試題為例,探討如下問(wèn)題:(1)實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)如何?(2)實(shí)驗(yàn)操作考查的評(píng)分者信度如何?(3)監(jiān)考學(xué)生人數(shù)對(duì)評(píng)分者信度有何影響?
本研究通過(guò)隨機(jī)抽樣,在廣州市400 所初中隨機(jī)選擇某學(xué)校,再隨機(jī)選擇該校初三年級(jí)某班36 位學(xué)生作為被試。這些學(xué)生已學(xué)習(xí)初三化學(xué)課程的過(guò)濾實(shí)驗(yàn)操作,能夠獨(dú)立完成“過(guò)濾粗鹽水”實(shí)驗(yàn)。學(xué)生被隨機(jī)分為3 個(gè)大組,第一、第二、第三大組分別有6 人、12 人、18 人。3 個(gè)大組分別按每小組2 人、4 人、6 人的標(biāo)準(zhǔn)隨機(jī)分成3 個(gè)小組,依次編號(hào)為1~9 號(hào)小組。
評(píng)分者在中學(xué)理科實(shí)驗(yàn)操作考查中的表現(xiàn)是本研究的重點(diǎn),評(píng)分者的選擇是影響研究質(zhì)量的關(guān)鍵因素。因此,本研究隨機(jī)選擇3 所初中,在每所學(xué)校的初三化學(xué)教師中再隨機(jī)選擇一位教師作為評(píng)分者(甲、乙、丙)。3 位評(píng)分者均為大學(xué)化學(xué)類(lèi)專(zhuān)業(yè)畢業(yè),有多年初三化學(xué)課程教學(xué)經(jīng)驗(yàn),而且都開(kāi)展過(guò)所在學(xué)校初三化學(xué)實(shí)驗(yàn)操作考查工作,有著豐富的實(shí)驗(yàn)操作考查評(píng)分經(jīng)驗(yàn)。選擇他們作為評(píng)分者,具有一定的代表性。在研究開(kāi)始前,3 位評(píng)分者對(duì)評(píng)分標(biāo)準(zhǔn)進(jìn)行過(guò)討論,具有一致的評(píng)分認(rèn)識(shí)。
初三化學(xué)實(shí)驗(yàn)操作考查主要以初三化學(xué)課程常見(jiàn)的、重要的實(shí)驗(yàn)為試題素材。如“過(guò)濾粗鹽水”實(shí)驗(yàn)主要考查學(xué)生的過(guò)濾實(shí)驗(yàn)操作,是初三化學(xué)實(shí)驗(yàn)操作常考的內(nèi)容。本研究選擇該實(shí)驗(yàn)作為考查內(nèi)容,是為了模擬實(shí)驗(yàn)操作考查的真實(shí)情境?!斑^(guò)濾粗鹽水”實(shí)驗(yàn)被劃分為9 個(gè)評(píng)分要點(diǎn),分別是:(1)正確制作濾紙過(guò)濾器;(2)濾紙邊緣低于漏斗口;(3)濕潤(rùn)濾紙貼緊漏斗內(nèi)壁;(4)調(diào)整漏斗合理高度;(5)漏斗下端管口靠燒杯內(nèi)壁;(6)用玻璃棒引流濁液;(7)玻璃棒靠在三層濾紙上;(8)濁液面低于濾紙邊緣;(9)濁液過(guò)濾結(jié)果良好。評(píng)分要點(diǎn)(3)(5)(6)(7)各計(jì)2 分,其他評(píng)分要點(diǎn)各計(jì)1 分,滿(mǎn)分是13 分。評(píng)分要點(diǎn)經(jīng)過(guò)化學(xué)教育學(xué)科專(zhuān)家討論,具有良好的內(nèi)容效度和專(zhuān)家效度。
實(shí)驗(yàn)操作考查分9 個(gè)場(chǎng)次進(jìn)行,每個(gè)場(chǎng)次分別安排對(duì)應(yīng)編號(hào)的小組參加。第1~3 場(chǎng)分別由第一大組的3 個(gè)小組參加,每場(chǎng)2 位學(xué)生。類(lèi)似地,第4~6 場(chǎng)、第7~9 場(chǎng)依次分別由第二大組的3 個(gè)小組(每組4 人)、第三大組的3 個(gè)小組(每組6人)參加。學(xué)生在15 分鐘內(nèi)獨(dú)立完成實(shí)驗(yàn)操作。3位評(píng)分者同時(shí)監(jiān)考每個(gè)場(chǎng)次的所有學(xué)生,分別觀察學(xué)生的實(shí)驗(yàn)操作,依據(jù)評(píng)分要點(diǎn)獨(dú)立評(píng)分。
本研究建構(gòu)學(xué)生、評(píng)分者、評(píng)分要點(diǎn)和學(xué)生組別4 個(gè)側(cè)面。其中,學(xué)生組別側(cè)面是虛擬側(cè)面,根據(jù)學(xué)生所在大組編號(hào)來(lái)確定。研究使用Linacre編制的MFRM 計(jì)算機(jī)統(tǒng)計(jì)軟件FACETS(版本為3.81.1)處理數(shù)據(jù),了解各側(cè)面的觀察值、模型預(yù)測(cè)值和模型適配度統(tǒng)計(jì)量。為了解評(píng)分者側(cè)面與其他側(cè)面是否存在交互作用,本研究進(jìn)一步對(duì)“評(píng)分者與學(xué)生(及其組別)”“評(píng)分者與評(píng)分要點(diǎn)”“評(píng)分者與學(xué)生(及其組別)、評(píng)分要點(diǎn)”進(jìn)行偏差分析。
本研究通過(guò)FACETS 計(jì)算卡方值和分隔信度等統(tǒng)計(jì)量,檢視評(píng)分者寬嚴(yán)度的內(nèi)部是否有極大的差異,以及作答者能力值、組別能力值和測(cè)試任務(wù)難度的內(nèi)部是否分別有極小的差異,從而判斷評(píng)分者在群體上存在的各種評(píng)分者效應(yīng)。[13][30][31]由于卡方檢驗(yàn)的顯著結(jié)果易受樣本量影響,所以研究者建議主要參考分隔比率(separation ratio)、分隔指數(shù)(separation index)和分隔信度(reliability of the separation index)等統(tǒng)計(jì)量。[13]這些統(tǒng)計(jì)量的數(shù)值越小,表示各側(cè)面數(shù)據(jù)內(nèi)部差異程度越小。分隔信度的取值范圍是0~1。Myford 和Wolfe 認(rèn)為,當(dāng)分隔信度達(dá)到0.70 時(shí),就存在可識(shí)別的統(tǒng)計(jì)上的顯著差異。[13]
筆者使用FACETS 計(jì)算加權(quán)均方擬合統(tǒng)計(jì)量(infit MNSQ)和未加權(quán)均方擬合統(tǒng)計(jì)量(outfit MNSQ),評(píng)估每個(gè)側(cè)面的觀察值與模型擬合的情況。由于outfit 值對(duì)極端值比較敏感,一般以infit值作為評(píng)估的主要指標(biāo)。研究者提出多個(gè)不同的infit 值范圍,以判斷觀察值是否擬合模型。[15][32]為了獲得較高精確度的測(cè)量結(jié)果,本研究采用的infit 值范圍是0.80~1.20。[26][32]當(dāng)infit 值在該范圍內(nèi),表示觀察值適合使用MFRM 分析;當(dāng)infit 值大于1.20 時(shí),表示多位評(píng)分者的觀察值與模型預(yù)測(cè)值的差異過(guò)于懸殊,說(shuō)明評(píng)分一致性程度和評(píng)分者間信度較低;當(dāng)infit 值小于0.80 時(shí),表示多位評(píng)分者的觀察值與模型預(yù)測(cè)值的差異過(guò)于一致,說(shuō)明評(píng)分一致性程度過(guò)高。
偏差分析通過(guò)分析不同側(cè)面間的交互作用,判斷評(píng)分者的評(píng)分是否存在顯著偏差。FACETS提供交互作用組合的t 值,可以將該值的絕對(duì)值大于2 作為判斷評(píng)分存在顯著偏差的標(biāo)準(zhǔn)。[13][33]當(dāng)t 值是負(fù)數(shù)且數(shù)值越小時(shí),表示評(píng)分者評(píng)分越嚴(yán)格。同時(shí),F(xiàn)ACETS 提供非期望反應(yīng)(unexpected responses),以標(biāo)準(zhǔn)殘差stRes 的絕對(duì)值大于3 作為評(píng)分存在顯著偏差的判斷標(biāo)準(zhǔn),呈現(xiàn)多個(gè)側(cè)面具體的顯著差異情況。
(1)學(xué)生能力值:顯示可接受的評(píng)分者間信度
“過(guò)濾粗鹽水”實(shí)驗(yàn)是初三化學(xué)課程的重要教學(xué)內(nèi)容,36 位學(xué)生的能力值范圍是0.19~4.67 logits,平均能力為2.40 logits,說(shuō)明學(xué)生的能力在該實(shí)驗(yàn)操作考查中均處于較高水平??ǚ綑z驗(yàn)顯示,學(xué)生能力值的χ2(35)=97.60,p<0.001。但分隔比率是0.91,分隔指數(shù)是1.55,分隔信度是0.45,這說(shuō)明學(xué)生能力的差異不顯著。學(xué)生具體的評(píng)分情況如下。
首先,4 位學(xué)生的原始成績(jī)獲得滿(mǎn)分,他們的infit 值顯示為“maximum”,另有16 位學(xué)生的infit 值在建議值范圍。這20 位學(xué)生約占總?cè)藬?shù)的56%,說(shuō)明評(píng)分者對(duì)全體學(xué)生的評(píng)分一致性程度,即評(píng)分者間信度處于可接受的一般水平。
其次,學(xué)生的infit 值高于1.20 的有8 人,占總?cè)藬?shù)的22%。第一至第三大組分別有該情況的學(xué)生是2 人、2 人、4 人,占各大組人數(shù)的33%、17%、22%。這顯示3 位評(píng)分者對(duì)學(xué)生各個(gè)評(píng)分要點(diǎn)的評(píng)分與模型預(yù)測(cè)值之間差異較大,對(duì)于監(jiān)考學(xué)生人數(shù)最少的第一大組,評(píng)分者評(píng)分差異較大的情況出現(xiàn)得最多、較低評(píng)分者間信度出現(xiàn)的比例最大。
最后,學(xué)生的infit 值低于0.80 的有8 人,占總?cè)藬?shù)的22%。第二、第三大組分別有該情況的學(xué)生是5 人、3 人,占各大組人數(shù)的42%、17%。這顯示3 位評(píng)分者對(duì)學(xué)生各個(gè)評(píng)分要點(diǎn)的評(píng)分與模型預(yù)測(cè)值的差異高度一致,對(duì)于監(jiān)考學(xué)生人數(shù)居中的第二大組,評(píng)分者評(píng)分高度一致的情況出現(xiàn)得最多。
此外,根據(jù)學(xué)生組別虛擬側(cè)面的統(tǒng)計(jì)結(jié)果,第二、第三大組的infit 值在0.80~1.20,第一大組的infit 值略大于1.20,這顯示評(píng)分者在第一大組的評(píng)分者間信度略低。卡方檢驗(yàn)顯示,學(xué)生組別能力值的差異不顯著,χ2(2)=0.00,p=0.99>0.05。學(xué)生組別能力值的分隔比率是0.00,分隔指數(shù)是0.33,分隔信度是0.00,說(shuō)明學(xué)生組別能力的差異不顯著。
(2)評(píng)分者寬嚴(yán)度:顯示良好的評(píng)分者內(nèi)信度
評(píng)分者寬嚴(yán)度指評(píng)分者在評(píng)分時(shí)的寬松或嚴(yán)厲程度,可以表現(xiàn)評(píng)分者效應(yīng)的寬嚴(yán)效應(yīng)。寬嚴(yán)度的logits 值越高,表示評(píng)分者的嚴(yán)厲程度越大,反之則表示寬松程度越大。表1 顯示:3 位評(píng)分者寬嚴(yán)度范圍是-0.35~0.36 logits,平均寬嚴(yán)度為0.00 logits,其中,評(píng)分者丙最嚴(yán)格、寬嚴(yán)度最高,評(píng)分者乙最寬松、寬嚴(yán)度最低。3 位評(píng)分者寬嚴(yán)度的infit 值均在0.80~1.20,這顯示3 位評(píng)分者個(gè)人評(píng)分一致性程度,即評(píng)分者內(nèi)信度良好。
(3)評(píng)分要點(diǎn)難度:顯示較低的考查難度
表2 顯示:9 個(gè)評(píng)分要點(diǎn)的難度范圍是-4.13~0.62 logits,平均難度為-1.84 logits。學(xué)生在評(píng)分要點(diǎn)(1)(2)(4)(9)均獲得原始成績(jī)滿(mǎn)分,評(píng)分要點(diǎn)(5)的難度最大,說(shuō)明“過(guò)濾粗鹽水”實(shí)驗(yàn)操作考查整體難度偏低,但符合考查考生基本實(shí)驗(yàn)操作能力的目標(biāo)。
評(píng)分要點(diǎn)(1)(2)(4)(9)的infit 值顯示為“minimum”,這與學(xué)生在上述要點(diǎn)上均獲得原始成績(jī)滿(mǎn)分有關(guān)。評(píng)分要點(diǎn)(3)(6)的infit 值分別是0.71,1.22,其余評(píng)分要點(diǎn)的infit 值均在0.80~1.20??ǚ綑z驗(yàn)顯示,評(píng)分要點(diǎn)難度的χ2(8)=40.20,p<0.001。但分隔比率是1.42,分隔指數(shù)是2.23,分隔信度是0.67,說(shuō)明評(píng)分要點(diǎn)難度的差異未達(dá)到顯著。
表1 評(píng)分者寬嚴(yán)度統(tǒng)計(jì)
表2 評(píng)分要點(diǎn)難度統(tǒng)計(jì)
表3 評(píng)分等級(jí)的使用情況
(4)評(píng)分等級(jí)使用:顯示合理的等級(jí)使用
評(píng)分者在各評(píng)分要點(diǎn)使用的評(píng)分等級(jí)情況見(jiàn)表3。隨著評(píng)分等級(jí)的提高,評(píng)分者使用次數(shù)和評(píng)分等級(jí)預(yù)測(cè)能力值都相應(yīng)遞增,最高評(píng)分等級(jí)的使用比例也相應(yīng)增大,這說(shuō)明評(píng)分者合理地使用了評(píng)分等級(jí)。
除了已經(jīng)在“評(píng)分者寬嚴(yán)度”中討論的寬嚴(yán)效應(yīng),其余4 種評(píng)分者效應(yīng)的表現(xiàn)情況如下。
首先,趨中效應(yīng)指評(píng)分者在具有多個(gè)評(píng)分等級(jí)的量尺中,過(guò)度使用量尺中間的評(píng)分等級(jí),因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中,表3 顯示:評(píng)分者在評(píng)分要點(diǎn)(3)(5)(6)(7)上使用1 分(中間評(píng)分等級(jí))的次數(shù),并未同時(shí)顯著高于2 分(最高評(píng)分等級(jí))和0 分(最低評(píng)分等級(jí))的次數(shù),說(shuō)明評(píng)分者并未過(guò)度使用量尺中間的評(píng)分等級(jí),在群體上不存在趨中效應(yīng)。
其次,隨機(jī)效應(yīng)指評(píng)分者由于理解或其他原因,與其他評(píng)分者相比,不一致地使用評(píng)分等級(jí),因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中,學(xué)生能力值的分隔信度顯示學(xué)生的能力差異不顯著,說(shuō)明評(píng)分者在群體上存在隨機(jī)效應(yīng)。[13]使用獨(dú)立評(píng)分者-其他評(píng)分者相關(guān)系數(shù)“single rater-rest of the raters(SR/ROR)correlations”,可以進(jìn)一步確定具有隨機(jī)效應(yīng)的評(píng)分者。當(dāng)某評(píng)分者的相關(guān)系數(shù)比其他評(píng)分者的系數(shù)明顯更小,這說(shuō)明該評(píng)分者具有隨機(jī)效應(yīng)。評(píng)分者甲、乙、丙的相關(guān)系數(shù)分別是0.46、0.41、0.53,各評(píng)分者的相關(guān)系數(shù)都較低且接近,說(shuō)明他們可能都存在一定的隨機(jī)效應(yīng)。
再者,光環(huán)效應(yīng)指評(píng)分者不能清晰地辨別不同項(xiàng)目的含義,在這些項(xiàng)目中均給予學(xué)生相似的分?jǐn)?shù),因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中,評(píng)分要點(diǎn)分為2 個(gè)或3 個(gè)層次,分隔指數(shù)和分隔信度并不算小,評(píng)分要點(diǎn)難度的差異接近顯著,說(shuō)明評(píng)分者在群體上不存在光環(huán)效應(yīng)。[13]
最后,區(qū)分性寬嚴(yán)效應(yīng)指評(píng)分者對(duì)某些組別學(xué)生給予更寬松或更嚴(yán)厲的評(píng)分,因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中,通過(guò)綜合比較評(píng)分者的評(píng)分情況可知,評(píng)分者在群體上不存在區(qū)分性寬嚴(yán)效應(yīng)。
(1)二側(cè)面偏差分析:未顯示光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)
本研究中,4 位學(xué)生和4 個(gè)評(píng)分要點(diǎn)(1)(2)(4)(9)均獲得原始成績(jī)滿(mǎn)分,這些學(xué)生和評(píng)分要點(diǎn)均未被軟件納入偏差分析的計(jì)算。如表4 所示,根據(jù)交互作用組合的t 值和卡方檢驗(yàn),評(píng)分者與學(xué)生、評(píng)分者與學(xué)生組別、評(píng)分者與評(píng)分要點(diǎn)的二側(cè)面交互作用均不顯著。這顯示評(píng)分者不會(huì)因?yàn)閷W(xué)生、學(xué)生組別和評(píng)分要點(diǎn)的不同,而使用顯著不同的評(píng)分寬嚴(yán)尺度。同時(shí),評(píng)分者與評(píng)分要點(diǎn)、評(píng)分者與學(xué)生組別的偏差分析t 值,可以作為判斷評(píng)分者在個(gè)人上是否存在光環(huán)效應(yīng)、區(qū)分性寬嚴(yán)效應(yīng)的方法。[13]表4 也顯示3 位評(píng)分者均不存在光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。
表4 評(píng)分者與不同側(cè)面的偏差分析
(2)三側(cè)面或四側(cè)面偏差分析:顯示較弱的區(qū)分性寬嚴(yán)效應(yīng)
在評(píng)分者與學(xué)生組別、評(píng)分要點(diǎn)的三側(cè)面偏差分析中,χ2(45)=36.90,p=0.80>0.05,交互作用組合的t 值的絕對(duì)值均小于2,這顯示評(píng)分者與學(xué)生組別、評(píng)分要點(diǎn)的三個(gè)側(cè)面交互作用不顯著。
在評(píng)分者與學(xué)生、評(píng)分要點(diǎn)的三側(cè)面偏差分析中,χ2(480)=694.50,p<0.001,共有58 個(gè)交互作用組合的t 值小于-2,達(dá)到顯著偏差,占交互作用組合總數(shù)(480 個(gè))的12%,這顯示評(píng)分者與學(xué)生、評(píng)分要點(diǎn)的三個(gè)側(cè)面交互作用顯著。其中,3 位評(píng)分者在評(píng)分要點(diǎn)(8)上的評(píng)分存在顯著偏差。
在評(píng)分者與學(xué)生及其組別、評(píng)分要點(diǎn)的四側(cè)面偏差分析中,僅出現(xiàn)9 個(gè)非期望反應(yīng),占交互作用組合總數(shù)(1440 個(gè))的0.63%。9 個(gè)非期望反應(yīng)具有以下共同點(diǎn):對(duì)于學(xué)生及其組別,主要是第三大組學(xué)生,尤其是第34 號(hào)學(xué)生出現(xiàn)非期望反應(yīng);對(duì)于評(píng)分者,主要是評(píng)分者甲出現(xiàn)非期望反應(yīng);對(duì)于評(píng)分要點(diǎn),主要是在評(píng)分要點(diǎn)(5)和(8)上出現(xiàn)非期望反應(yīng);在這9 個(gè)非期望反應(yīng)中,評(píng)分者的觀察值均比預(yù)測(cè)值小,說(shuō)明評(píng)分者給予了顯著嚴(yán)格的評(píng)分。這些具體的多側(cè)面偏差分析信息顯示評(píng)分者在個(gè)體上存在較弱的區(qū)分性寬嚴(yán)效應(yīng),有助于評(píng)分者做出準(zhǔn)確評(píng)估。
本研究應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)、評(píng)分者信度,其若干發(fā)現(xiàn)對(duì)提升實(shí)驗(yàn)操作考查的評(píng)分質(zhì)量有一定助益。
實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試,不過(guò)分追求試題的區(qū)分度,主要是對(duì)考生完成理科常見(jiàn)實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力進(jìn)行系統(tǒng)的評(píng)價(jià)。實(shí)驗(yàn)操作的科學(xué)性和規(guī)范性是極其明確的,有著容易判斷對(duì)錯(cuò)的評(píng)分標(biāo)準(zhǔn)。因此,評(píng)分者對(duì)評(píng)分維度、項(xiàng)目?jī)?nèi)涵和評(píng)分標(biāo)準(zhǔn)(即評(píng)價(jià)規(guī)則)可以形成共識(shí),也容易根據(jù)考生的實(shí)際表現(xiàn)(即評(píng)價(jià)對(duì)象)給予較一致的評(píng)分。
實(shí)驗(yàn)操作考查的這些特點(diǎn)容易對(duì)評(píng)分者效應(yīng)和評(píng)分者信度產(chǎn)生重要影響。在本研究中,評(píng)分者不存在群體上的寬嚴(yán)效應(yīng)、趨中效應(yīng)、光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng),但存在一定的隨機(jī)效應(yīng),同時(shí)考慮學(xué)生組別和其他側(cè)面時(shí)存在較弱的區(qū)分性寬嚴(yán)效應(yīng)。由于評(píng)分者效應(yīng)不嚴(yán)重,對(duì)評(píng)分質(zhì)量的影響不大,說(shuō)明本研究具有一般的評(píng)分者間信度和良好的評(píng)分者內(nèi)信度。值得關(guān)注的是,一般的評(píng)分者間信度可能由評(píng)分者的隨機(jī)效應(yīng)所致。
偏差分析結(jié)果顯示:首先,本研究發(fā)現(xiàn)評(píng)分者與學(xué)生組別、評(píng)分者與評(píng)分要點(diǎn)的二側(cè)面交互作用均不顯著,評(píng)分者與學(xué)生組別、評(píng)分要點(diǎn)的三側(cè)面交互作用不顯著,其結(jié)果與一些報(bào)道評(píng)分者與不同側(cè)面偏差分析結(jié)果的研究[18][19][22][25][27][28]相比,結(jié)論不同,在這些研究中,評(píng)分者與學(xué)生等側(cè)面的二側(cè)面交互作用存在顯著性;其次,本研究也發(fā)現(xiàn),在評(píng)分者與學(xué)生、評(píng)分要點(diǎn)的三側(cè)面交互作用組合中,顯著偏差組合占交互作用組合總數(shù)的12%,在評(píng)分者與其他側(cè)面的四側(cè)面交互作用組合中,非期望反應(yīng)僅占交互作用組合總數(shù)的0.63%,這些統(tǒng)計(jì)數(shù)據(jù)也低于許多研究結(jié)果。
造成上述研究差異,主要是因?yàn)樵趯?xiě)作、口頭匯報(bào)、小組討論、創(chuàng)造力測(cè)驗(yàn)等研究主題中,評(píng)分者較難對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)規(guī)則形成一致的認(rèn)識(shí)。上述表現(xiàn)性評(píng)價(jià)的評(píng)分維度、項(xiàng)目?jī)?nèi)涵和評(píng)分標(biāo)準(zhǔn)并不容易明確,評(píng)分范圍也比較寬泛。評(píng)分者對(duì)評(píng)分維度和內(nèi)容存在較多的主觀判斷,不容易形成共識(shí),在使用評(píng)分等級(jí)時(shí)容易出現(xiàn)各種情況,產(chǎn)生各種評(píng)分者效應(yīng)[17][24],使得評(píng)分者信度不高。這些均可能導(dǎo)致評(píng)分者與各側(cè)面的交互作用顯著,顯著偏差組合、非期望反應(yīng)占交互作用總數(shù)比例較高。
綜上所述,初三化學(xué)實(shí)驗(yàn)操作考查結(jié)果顯示,評(píng)分者效應(yīng)和評(píng)分者信度可被接受。但本研究只是孤立的案例,研究者仍須在日后開(kāi)展大量的實(shí)驗(yàn)操作考查實(shí)證研究,進(jìn)一步了解評(píng)分者效應(yīng)和評(píng)分者信度在不同情況下的具體表現(xiàn),為優(yōu)化實(shí)驗(yàn)操作考查提供參考。
本研究特別地安排評(píng)分者監(jiān)考不同人數(shù)學(xué)生,以了解監(jiān)考學(xué)生人數(shù)的變化對(duì)評(píng)分者信度的影響。根據(jù)常識(shí),監(jiān)考學(xué)生人數(shù)較少時(shí),評(píng)分者可以對(duì)每位學(xué)生有充足的觀察,更準(zhǔn)確地評(píng)分,因而較高評(píng)分者間信度的出現(xiàn)比例可能較大。當(dāng)監(jiān)考學(xué)生人數(shù)較多時(shí),評(píng)分者可能對(duì)每位學(xué)生缺乏充足的觀察,給予不準(zhǔn)確的評(píng)分,因而較低評(píng)分者間信度的出現(xiàn)比例可能較大。
但本研究顯示,監(jiān)考學(xué)生人數(shù)為最少的2 人時(shí),學(xué)生能力值的infit 值大于1.20 的人數(shù)比例最大(33%),遠(yuǎn)高于監(jiān)考人數(shù)處于中間的4 人(17%)和最多的6 人(22%)。換而言之,與監(jiān)考4位、6 位學(xué)生相比,評(píng)分者監(jiān)考2 位學(xué)生時(shí),評(píng)分差異較大的學(xué)生人數(shù)比例和較低評(píng)分者間信度出現(xiàn)的比例最大。該研究結(jié)果似乎與常識(shí)相悖,其可能的原因是評(píng)分者在不同的學(xué)生群體中使用了不同的評(píng)分策略。實(shí)驗(yàn)操作有明顯動(dòng)作和細(xì)微動(dòng)作之分,當(dāng)監(jiān)考學(xué)生人數(shù)最少時(shí),評(píng)分者只需關(guān)注較少的學(xué)生,能夠?qū)W⒌?、長(zhǎng)時(shí)間地觀察每一位學(xué)生的明顯動(dòng)作和細(xì)微動(dòng)作。當(dāng)評(píng)分者對(duì)某個(gè)學(xué)生細(xì)微動(dòng)作的判斷不一致時(shí),容易出現(xiàn)評(píng)分不一致的情況,導(dǎo)致評(píng)分者間信度較低,在同類(lèi)學(xué)生群體中,較低評(píng)分者間信度的出現(xiàn)比例就容易較高。當(dāng)監(jiān)考學(xué)生人數(shù)最多時(shí),評(píng)分者需要關(guān)注較多的學(xué)生,未必能夠?qū)W⒌?、長(zhǎng)時(shí)間地觀察每一位學(xué)生的實(shí)驗(yàn)操作,特別是細(xì)微動(dòng)作。如果學(xué)生不是做出明顯的錯(cuò)誤操作,評(píng)分者可能采用保守的評(píng)分策略,給予學(xué)生滿(mǎn)分,這可能導(dǎo)致評(píng)分者間信度較高,在同類(lèi)學(xué)生群體中,較低評(píng)分者間信度的出現(xiàn)比例則較低。但評(píng)分者使用評(píng)分策略的真實(shí)想法仍然有待研究者通過(guò)非結(jié)構(gòu)型的個(gè)人訪談來(lái)確定。
另外,本研究的評(píng)分要點(diǎn)具有明確的評(píng)分標(biāo)準(zhǔn),可以使用的評(píng)分等級(jí)較少。部分學(xué)生能力值的infit 值小于0.80,出現(xiàn)這種結(jié)果可能是因?yàn)樵u(píng)分者采用了保守的評(píng)分策略,也可能是因?yàn)樵u(píng)分者觀察到學(xué)生實(shí)驗(yàn)操作的某些狀況,所以給予相近的評(píng)分等級(jí)。因此,現(xiàn)在尚難以直接判斷第二、第三大組中能力值的infit 值小于0.80 的學(xué)生究竟屬于何種情況,各組人數(shù)比例差異的成因也有待后續(xù)研究解釋。
總體而言,本研究顯示,監(jiān)考學(xué)生人數(shù)對(duì)評(píng)分者間信度產(chǎn)生重要影響,但這種影響的方向和強(qiáng)度與常識(shí)相悖,尚需要更多的實(shí)證研究來(lái)共同判斷。公平和科學(xué)是高利害考試的基本要求,評(píng)分者對(duì)每位考生的評(píng)分都極其重要。如果條件允許,建議教育行政部門(mén)在組織實(shí)驗(yàn)操作考查時(shí),應(yīng)用信息技術(shù)手段拍攝每位學(xué)生完整的實(shí)驗(yàn)操作過(guò)程,評(píng)分者可以結(jié)合實(shí)驗(yàn)錄像對(duì)學(xué)生評(píng)分,以避免監(jiān)考學(xué)生人數(shù)對(duì)評(píng)分者的評(píng)分產(chǎn)生負(fù)面影響。
中學(xué)理科實(shí)驗(yàn)操作考查是一些省份高中學(xué)業(yè)水平考試和中考的重要內(nèi)容。評(píng)分質(zhì)量的控制決定著實(shí)驗(yàn)操作考查能否在中、高考中進(jìn)一步廣泛應(yīng)用。為提高評(píng)分質(zhì)量,可以從評(píng)分者事前培訓(xùn)和評(píng)分結(jié)果事后檢查兩方面開(kāi)展工作。
首先,評(píng)分者事前培訓(xùn)對(duì)減少評(píng)分者效應(yīng),提高評(píng)分質(zhì)量具有重要的正面影響。[34][35][36]教育招生考試機(jī)構(gòu)可以組織系統(tǒng)的考前評(píng)分實(shí)踐培訓(xùn),增加評(píng)分者對(duì)評(píng)分維度、項(xiàng)目?jī)?nèi)涵、評(píng)分標(biāo)準(zhǔn),尤其是對(duì)不同類(lèi)型評(píng)分者效應(yīng)的一致性理解,提高個(gè)人準(zhǔn)確評(píng)分的能力,并基于培訓(xùn)結(jié)果的反饋建議,增強(qiáng)評(píng)分者對(duì)個(gè)人評(píng)分能力的認(rèn)知。[37][38]結(jié)合評(píng)分者的認(rèn)知和評(píng)分表現(xiàn),教育招生考試機(jī)構(gòu)可以先將評(píng)分者分類(lèi),再給予有針對(duì)性的培訓(xùn)。[39][40]但已有研究也表明,評(píng)分者培訓(xùn)及其反饋并不能完全消除評(píng)分者效應(yīng),教育招生考試機(jī)構(gòu)仍然要面對(duì)潛在的評(píng)分者效應(yīng)對(duì)評(píng)分質(zhì)量的影響。[36][41]因此,建議教育招生考試機(jī)構(gòu)把評(píng)分者效應(yīng)控制在極小的變動(dòng)范圍,努力減少隨機(jī)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。
其次,MFRM 是一種效果不錯(cuò)的實(shí)驗(yàn)操作考查評(píng)分質(zhì)量分析方法,它能夠清晰和詳細(xì)地呈現(xiàn)學(xué)生能力值、評(píng)分者寬嚴(yán)度和不同側(cè)面的偏差分析,有助于教育招生考試機(jī)構(gòu)檢查可能存在問(wèn)題的學(xué)生評(píng)分和評(píng)分者,及時(shí)了解評(píng)分者效應(yīng)。因此,在評(píng)分結(jié)果事后檢查方面,可將MFRM 作為評(píng)分質(zhì)量控制的分析方法。如果學(xué)生的實(shí)驗(yàn)操作過(guò)程被錄像,評(píng)分者可以回放錄像,重新對(duì)存疑的學(xué)生進(jìn)行評(píng)分。
此外,實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試,學(xué)生容易獲得一致或相近的評(píng)分,評(píng)分要點(diǎn)也有相同或相近的難度。這會(huì)導(dǎo)致MFRM 統(tǒng)計(jì)的學(xué)生(及其組別)能力值、評(píng)分要點(diǎn)難度產(chǎn)生極小的差異,形成評(píng)分者在群體上存在各種評(píng)分者效應(yīng)的現(xiàn)象,但實(shí)際上這些評(píng)分者效應(yīng)可能并不真實(shí)存在。因此,研究者有必要積極使用真實(shí)考查情境下的評(píng)分?jǐn)?shù)據(jù),探討適應(yīng)實(shí)驗(yàn)操作考查特點(diǎn)的評(píng)分者效應(yīng)判斷規(guī)則,為準(zhǔn)確判斷評(píng)分者效應(yīng)提供可信賴(lài)的依據(jù),更好地開(kāi)展表現(xiàn)性評(píng)價(jià)。
教育測(cè)量與評(píng)價(jià)2020年11期