中學(xué)理科實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)和評(píng)分者信度
——基于多面Rasch 模型的分析

2020-12-21 03:16:04麥裕華黎光明錢(qián)揚(yáng)義

教育測(cè)量與評(píng)價(jià) 2020年11期

麥裕華黎光明錢(qián)揚(yáng)義

一、問(wèn)題提出

表現(xiàn)性評(píng)價(jià)是在真實(shí)情境下，對(duì)人們問(wèn)題解決過(guò)程中表現(xiàn)的復(fù)雜知識(shí)、能力和情意進(jìn)行測(cè)量的評(píng)價(jià)方式。中學(xué)理科課程的實(shí)驗(yàn)操作考查作為典型的表現(xiàn)性評(píng)價(jià)，主要評(píng)估學(xué)生完成理科常見(jiàn)實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力。自20 世紀(jì)80 年代末以來(lái)，國(guó)內(nèi)各地教育行政部門(mén)加強(qiáng)中學(xué)理科課程管理，設(shè)置初、高中理科實(shí)驗(yàn)操作考查，借此提高學(xué)生實(shí)驗(yàn)操作能力。教育部提出，初中學(xué)業(yè)水平考試“要重視對(duì)有關(guān)學(xué)科教學(xué)實(shí)驗(yàn)操作的考查”[1]，普通高中學(xué)業(yè)水平考試“要對(duì)相關(guān)科目的實(shí)驗(yàn)操作的考試提出要求”[2]。國(guó)務(wù)院辦公廳“鼓勵(lì)有條件的地方將技術(shù)科目和理化生實(shí)驗(yàn)操作納入省級(jí)統(tǒng)一考試”[3]。中學(xué)理科實(shí)驗(yàn)操作考查逐漸成為選拔中學(xué)優(yōu)秀人才、有高利害關(guān)系的表現(xiàn)性評(píng)價(jià)。然而，實(shí)驗(yàn)操作考查的研究主要集中在試題命制和考務(wù)組織[4][5][6][7]、評(píng)分方式[8][9]、對(duì)理科實(shí)驗(yàn)教學(xué)的反撥作用[10]等主題上，鮮少討論評(píng)分者效應(yīng)、評(píng)分者信度等關(guān)鍵問(wèn)題。相關(guān)的實(shí)證研究有麥裕華等人應(yīng)用百分比法和相關(guān)法，初步探討考查學(xué)生高階思維的化學(xué)復(fù)雜實(shí)驗(yàn)的評(píng)分者信度及其影響因素。[11]

評(píng)分者的認(rèn)識(shí)、情緒和疲勞等主觀因素，容易使其在表現(xiàn)性評(píng)價(jià)中出現(xiàn)偏差，產(chǎn)生評(píng)分者效應(yīng)（rater effect）。[12]評(píng)分者效應(yīng)包括寬嚴(yán)效應(yīng)（leniency/severity effect）、趨中效應(yīng)（central tendency effect）、隨機(jī)效應(yīng)（randomness effect）、光環(huán)效應(yīng)（halo effect）和區(qū)分性寬嚴(yán)效應(yīng)（differential leniency/severityeffect）。[13]評(píng)分者效應(yīng)的存在會(huì)影響評(píng)分者信度（包括評(píng)分者間信度和評(píng)分者內(nèi)信度）。但是常用計(jì)算評(píng)分者信度的百分比法、相關(guān)法和概化理論[14]均無(wú)法清楚地顯示每位評(píng)分者的評(píng)分對(duì)作答者得分、評(píng)分者效應(yīng)和評(píng)分者信度等的具體影響，也無(wú)法同時(shí)考慮計(jì)分規(guī)則、測(cè)試任務(wù)的難度等因素可能產(chǎn)生的作用。

Linacre 提出的多面Rasch 模型（many-facet Rasch model，MFRM）以項(xiàng)目反應(yīng)理論的Rasch 模型為基礎(chǔ)，將可以對(duì)測(cè)量結(jié)果產(chǎn)生系統(tǒng)誤差的因素作為側(cè)面，既估計(jì)每位評(píng)分者評(píng)分的寬嚴(yán)度，分離和校正評(píng)分者誤差對(duì)作答者得分的影響，又估計(jì)其他側(cè)面對(duì)作答者得分的影響，以及評(píng)分者與其他側(cè)面的偏差作用，可以提供豐富的評(píng)價(jià)信息。[15][16]許多研究者曾應(yīng)用MFRM 研究不同形式表現(xiàn)性評(píng)價(jià)的評(píng)分者效應(yīng)或評(píng)分者信度，包括寫(xiě)作[17][18][19][20][21]、口頭匯報(bào)[22][23][24][25][26]、無(wú)領(lǐng)導(dǎo)小組討論[27]和創(chuàng)造力測(cè)驗(yàn)[28][29]等，但鮮少應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的相關(guān)問(wèn)題。另外，在考務(wù)管理中，當(dāng)評(píng)分者監(jiān)考不同人數(shù)考生時(shí)，其對(duì)考生實(shí)驗(yàn)操作過(guò)程的觀察和判斷可能有不同反應(yīng)，這都可能影響評(píng)分者信度。因此，了解監(jiān)考人數(shù)和評(píng)分者信度的具體關(guān)系十分重要。

總的來(lái)說(shuō)，探討中學(xué)理科實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)和評(píng)分者信度的實(shí)證研究，亟須應(yīng)用高級(jí)測(cè)量和統(tǒng)計(jì)方法，如MFRM。這一方面有助于評(píng)分者了解和提高評(píng)分質(zhì)量，避免錯(cuò)誤評(píng)分，完善實(shí)驗(yàn)操作考查的組織管理；另一方面有助于彌補(bǔ)過(guò)往研究的不足，認(rèn)識(shí)評(píng)分者效應(yīng)和評(píng)分者信度對(duì)學(xué)生評(píng)價(jià)的影響，最終為促進(jìn)國(guó)家教育考試招生制度改革提供實(shí)質(zhì)性支持?；谏鲜隹紤]，本研究以初三化學(xué)實(shí)驗(yàn)操作考查常見(jiàn)試題為例，探討如下問(wèn)題：（1）實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)如何？（2）實(shí)驗(yàn)操作考查的評(píng)分者信度如何？（3）監(jiān)考學(xué)生人數(shù)對(duì)評(píng)分者信度有何影響？

二、研究方法

1.被試學(xué)生

本研究通過(guò)隨機(jī)抽樣，在廣州市400 所初中隨機(jī)選擇某學(xué)校，再隨機(jī)選擇該校初三年級(jí)某班36 位學(xué)生作為被試。這些學(xué)生已學(xué)習(xí)初三化學(xué)課程的過(guò)濾實(shí)驗(yàn)操作，能夠獨(dú)立完成“過(guò)濾粗鹽水”實(shí)驗(yàn)。學(xué)生被隨機(jī)分為3 個(gè)大組，第一、第二、第三大組分別有6 人、12 人、18 人。3 個(gè)大組分別按每小組2 人、4 人、6 人的標(biāo)準(zhǔn)隨機(jī)分成3 個(gè)小組，依次編號(hào)為1～9 號(hào)小組。

2.評(píng)分者

評(píng)分者在中學(xué)理科實(shí)驗(yàn)操作考查中的表現(xiàn)是本研究的重點(diǎn)，評(píng)分者的選擇是影響研究質(zhì)量的關(guān)鍵因素。因此，本研究隨機(jī)選擇3 所初中，在每所學(xué)校的初三化學(xué)教師中再隨機(jī)選擇一位教師作為評(píng)分者（甲、乙、丙）。3 位評(píng)分者均為大學(xué)化學(xué)類(lèi)專(zhuān)業(yè)畢業(yè)，有多年初三化學(xué)課程教學(xué)經(jīng)驗(yàn)，而且都開(kāi)展過(guò)所在學(xué)校初三化學(xué)實(shí)驗(yàn)操作考查工作，有著豐富的實(shí)驗(yàn)操作考查評(píng)分經(jīng)驗(yàn)。選擇他們作為評(píng)分者，具有一定的代表性。在研究開(kāi)始前，3 位評(píng)分者對(duì)評(píng)分標(biāo)準(zhǔn)進(jìn)行過(guò)討論，具有一致的評(píng)分認(rèn)識(shí)。

3.研究工具

初三化學(xué)實(shí)驗(yàn)操作考查主要以初三化學(xué)課程常見(jiàn)的、重要的實(shí)驗(yàn)為試題素材。如“過(guò)濾粗鹽水”實(shí)驗(yàn)主要考查學(xué)生的過(guò)濾實(shí)驗(yàn)操作，是初三化學(xué)實(shí)驗(yàn)操作常考的內(nèi)容。本研究選擇該實(shí)驗(yàn)作為考查內(nèi)容，是為了模擬實(shí)驗(yàn)操作考查的真實(shí)情境?！斑^(guò)濾粗鹽水”實(shí)驗(yàn)被劃分為9 個(gè)評(píng)分要點(diǎn)，分別是：（1）正確制作濾紙過(guò)濾器；（2）濾紙邊緣低于漏斗口；（3）濕潤(rùn)濾紙貼緊漏斗內(nèi)壁；（4）調(diào)整漏斗合理高度；（5）漏斗下端管口靠燒杯內(nèi)壁；（6）用玻璃棒引流濁液；（7）玻璃棒靠在三層濾紙上；（8）濁液面低于濾紙邊緣；（9）濁液過(guò)濾結(jié)果良好。評(píng)分要點(diǎn)（3）（5）（6）（7）各計(jì)2 分，其他評(píng)分要點(diǎn)各計(jì)1 分，滿(mǎn)分是13 分。評(píng)分要點(diǎn)經(jīng)過(guò)化學(xué)教育學(xué)科專(zhuān)家討論，具有良好的內(nèi)容效度和專(zhuān)家效度。

4.研究流程

實(shí)驗(yàn)操作考查分9 個(gè)場(chǎng)次進(jìn)行，每個(gè)場(chǎng)次分別安排對(duì)應(yīng)編號(hào)的小組參加。第1～3 場(chǎng)分別由第一大組的3 個(gè)小組參加，每場(chǎng)2 位學(xué)生。類(lèi)似地，第4～6 場(chǎng)、第7～9 場(chǎng)依次分別由第二大組的3 個(gè)小組（每組4 人）、第三大組的3 個(gè)小組（每組6人）參加。學(xué)生在15 分鐘內(nèi)獨(dú)立完成實(shí)驗(yàn)操作。3位評(píng)分者同時(shí)監(jiān)考每個(gè)場(chǎng)次的所有學(xué)生，分別觀察學(xué)生的實(shí)驗(yàn)操作，依據(jù)評(píng)分要點(diǎn)獨(dú)立評(píng)分。

5.數(shù)據(jù)處理

本研究建構(gòu)學(xué)生、評(píng)分者、評(píng)分要點(diǎn)和學(xué)生組別4 個(gè)側(cè)面。其中，學(xué)生組別側(cè)面是虛擬側(cè)面，根據(jù)學(xué)生所在大組編號(hào)來(lái)確定。研究使用Linacre編制的MFRM 計(jì)算機(jī)統(tǒng)計(jì)軟件FACETS（版本為3.81.1）處理數(shù)據(jù)，了解各側(cè)面的觀察值、模型預(yù)測(cè)值和模型適配度統(tǒng)計(jì)量。為了解評(píng)分者側(cè)面與其他側(cè)面是否存在交互作用，本研究進(jìn)一步對(duì)“評(píng)分者與學(xué)生（及其組別）”“評(píng)分者與評(píng)分要點(diǎn)”“評(píng)分者與學(xué)生（及其組別）、評(píng)分要點(diǎn)”進(jìn)行偏差分析。

6.數(shù)據(jù)分析

本研究通過(guò)FACETS 計(jì)算卡方值和分隔信度等統(tǒng)計(jì)量，檢視評(píng)分者寬嚴(yán)度的內(nèi)部是否有極大的差異，以及作答者能力值、組別能力值和測(cè)試任務(wù)難度的內(nèi)部是否分別有極小的差異，從而判斷評(píng)分者在群體上存在的各種評(píng)分者效應(yīng)。[13][30][31]由于卡方檢驗(yàn)的顯著結(jié)果易受樣本量影響，所以研究者建議主要參考分隔比率（separation ratio）、分隔指數(shù)（separation index）和分隔信度（reliability of the separation index）等統(tǒng)計(jì)量。[13]這些統(tǒng)計(jì)量的數(shù)值越小，表示各側(cè)面數(shù)據(jù)內(nèi)部差異程度越小。分隔信度的取值范圍是0～1。Myford 和Wolfe 認(rèn)為，當(dāng)分隔信度達(dá)到0.70 時(shí)，就存在可識(shí)別的統(tǒng)計(jì)上的顯著差異。[13]

筆者使用FACETS 計(jì)算加權(quán)均方擬合統(tǒng)計(jì)量（infit MNSQ）和未加權(quán)均方擬合統(tǒng)計(jì)量（outfit MNSQ），評(píng)估每個(gè)側(cè)面的觀察值與模型擬合的情況。由于outfit 值對(duì)極端值比較敏感，一般以infit值作為評(píng)估的主要指標(biāo)。研究者提出多個(gè)不同的infit 值范圍，以判斷觀察值是否擬合模型。[15][32]為了獲得較高精確度的測(cè)量結(jié)果，本研究采用的infit 值范圍是0.80～1.20。[26][32]當(dāng)infit 值在該范圍內(nèi)，表示觀察值適合使用MFRM 分析；當(dāng)infit 值大于1.20 時(shí)，表示多位評(píng)分者的觀察值與模型預(yù)測(cè)值的差異過(guò)于懸殊，說(shuō)明評(píng)分一致性程度和評(píng)分者間信度較低；當(dāng)infit 值小于0.80 時(shí)，表示多位評(píng)分者的觀察值與模型預(yù)測(cè)值的差異過(guò)于一致，說(shuō)明評(píng)分一致性程度過(guò)高。

偏差分析通過(guò)分析不同側(cè)面間的交互作用，判斷評(píng)分者的評(píng)分是否存在顯著偏差。FACETS提供交互作用組合的t 值，可以將該值的絕對(duì)值大于2 作為判斷評(píng)分存在顯著偏差的標(biāo)準(zhǔn)。[13][33]當(dāng)t 值是負(fù)數(shù)且數(shù)值越小時(shí)，表示評(píng)分者評(píng)分越嚴(yán)格。同時(shí)，F(xiàn)ACETS 提供非期望反應(yīng)（unexpected responses），以標(biāo)準(zhǔn)殘差stRes 的絕對(duì)值大于3 作為評(píng)分存在顯著偏差的判斷標(biāo)準(zhǔn)，呈現(xiàn)多個(gè)側(cè)面具體的顯著差異情況。

三、研究結(jié)果

1.各側(cè)面的統(tǒng)計(jì)結(jié)果分析

（1）學(xué)生能力值：顯示可接受的評(píng)分者間信度

“過(guò)濾粗鹽水”實(shí)驗(yàn)是初三化學(xué)課程的重要教學(xué)內(nèi)容，36 位學(xué)生的能力值范圍是0.19～4.67 logits，平均能力為2.40 logits，說(shuō)明學(xué)生的能力在該實(shí)驗(yàn)操作考查中均處于較高水平?？ǚ綑z驗(yàn)顯示，學(xué)生能力值的χ2（35）=97.60，p＜0.001。但分隔比率是0.91，分隔指數(shù)是1.55，分隔信度是0.45，這說(shuō)明學(xué)生能力的差異不顯著。學(xué)生具體的評(píng)分情況如下。

首先，4 位學(xué)生的原始成績(jī)獲得滿(mǎn)分，他們的infit 值顯示為“maximum”，另有16 位學(xué)生的infit 值在建議值范圍。這20 位學(xué)生約占總?cè)藬?shù)的56%，說(shuō)明評(píng)分者對(duì)全體學(xué)生的評(píng)分一致性程度，即評(píng)分者間信度處于可接受的一般水平。

其次，學(xué)生的infit 值高于1.20 的有8 人，占總?cè)藬?shù)的22%。第一至第三大組分別有該情況的學(xué)生是2 人、2 人、4 人，占各大組人數(shù)的33%、17%、22%。這顯示3 位評(píng)分者對(duì)學(xué)生各個(gè)評(píng)分要點(diǎn)的評(píng)分與模型預(yù)測(cè)值之間差異較大，對(duì)于監(jiān)考學(xué)生人數(shù)最少的第一大組，評(píng)分者評(píng)分差異較大的情況出現(xiàn)得最多、較低評(píng)分者間信度出現(xiàn)的比例最大。

最后，學(xué)生的infit 值低于0.80 的有8 人，占總?cè)藬?shù)的22%。第二、第三大組分別有該情況的學(xué)生是5 人、3 人，占各大組人數(shù)的42%、17%。這顯示3 位評(píng)分者對(duì)學(xué)生各個(gè)評(píng)分要點(diǎn)的評(píng)分與模型預(yù)測(cè)值的差異高度一致，對(duì)于監(jiān)考學(xué)生人數(shù)居中的第二大組，評(píng)分者評(píng)分高度一致的情況出現(xiàn)得最多。

此外，根據(jù)學(xué)生組別虛擬側(cè)面的統(tǒng)計(jì)結(jié)果，第二、第三大組的infit 值在0.80～1.20，第一大組的infit 值略大于1.20，這顯示評(píng)分者在第一大組的評(píng)分者間信度略低。卡方檢驗(yàn)顯示，學(xué)生組別能力值的差異不顯著，χ2（2）=0.00，p=0.99＞0.05。學(xué)生組別能力值的分隔比率是0.00，分隔指數(shù)是0.33，分隔信度是0.00，說(shuō)明學(xué)生組別能力的差異不顯著。

（2）評(píng)分者寬嚴(yán)度：顯示良好的評(píng)分者內(nèi)信度

評(píng)分者寬嚴(yán)度指評(píng)分者在評(píng)分時(shí)的寬松或嚴(yán)厲程度，可以表現(xiàn)評(píng)分者效應(yīng)的寬嚴(yán)效應(yīng)。寬嚴(yán)度的logits 值越高，表示評(píng)分者的嚴(yán)厲程度越大，反之則表示寬松程度越大。表1 顯示：3 位評(píng)分者寬嚴(yán)度范圍是-0.35～0.36 logits，平均寬嚴(yán)度為0.00 logits，其中，評(píng)分者丙最嚴(yán)格、寬嚴(yán)度最高，評(píng)分者乙最寬松、寬嚴(yán)度最低。3 位評(píng)分者寬嚴(yán)度的infit 值均在0.80～1.20，這顯示3 位評(píng)分者個(gè)人評(píng)分一致性程度，即評(píng)分者內(nèi)信度良好。

（3）評(píng)分要點(diǎn)難度：顯示較低的考查難度

表2 顯示：9 個(gè)評(píng)分要點(diǎn)的難度范圍是-4.13～0.62 logits，平均難度為-1.84 logits。學(xué)生在評(píng)分要點(diǎn)（1）（2）（4）（9）均獲得原始成績(jī)滿(mǎn)分，評(píng)分要點(diǎn)（5）的難度最大，說(shuō)明“過(guò)濾粗鹽水”實(shí)驗(yàn)操作考查整體難度偏低，但符合考查考生基本實(shí)驗(yàn)操作能力的目標(biāo)。

評(píng)分要點(diǎn)（1）（2）（4）（9）的infit 值顯示為“minimum”，這與學(xué)生在上述要點(diǎn)上均獲得原始成績(jī)滿(mǎn)分有關(guān)。評(píng)分要點(diǎn)（3）（6）的infit 值分別是0.71，1.22，其余評(píng)分要點(diǎn)的infit 值均在0.80～1.20?？ǚ綑z驗(yàn)顯示，評(píng)分要點(diǎn)難度的χ2（8）=40.20，p＜0.001。但分隔比率是1.42，分隔指數(shù)是2.23，分隔信度是0.67，說(shuō)明評(píng)分要點(diǎn)難度的差異未達(dá)到顯著。

表1 評(píng)分者寬嚴(yán)度統(tǒng)計(jì)

表2 評(píng)分要點(diǎn)難度統(tǒng)計(jì)

表3 評(píng)分等級(jí)的使用情況

（4）評(píng)分等級(jí)使用：顯示合理的等級(jí)使用

評(píng)分者在各評(píng)分要點(diǎn)使用的評(píng)分等級(jí)情況見(jiàn)表3。隨著評(píng)分等級(jí)的提高，評(píng)分者使用次數(shù)和評(píng)分等級(jí)預(yù)測(cè)能力值都相應(yīng)遞增，最高評(píng)分等級(jí)的使用比例也相應(yīng)增大，這說(shuō)明評(píng)分者合理地使用了評(píng)分等級(jí)。

2.其余4 種評(píng)分者效應(yīng)的情況

除了已經(jīng)在“評(píng)分者寬嚴(yán)度”中討論的寬嚴(yán)效應(yīng)，其余4 種評(píng)分者效應(yīng)的表現(xiàn)情況如下。

首先，趨中效應(yīng)指評(píng)分者在具有多個(gè)評(píng)分等級(jí)的量尺中，過(guò)度使用量尺中間的評(píng)分等級(jí)，因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中，表3 顯示：評(píng)分者在評(píng)分要點(diǎn)（3）（5）（6）（7）上使用1 分（中間評(píng)分等級(jí)）的次數(shù)，并未同時(shí)顯著高于2 分（最高評(píng)分等級(jí)）和0 分（最低評(píng)分等級(jí)）的次數(shù)，說(shuō)明評(píng)分者并未過(guò)度使用量尺中間的評(píng)分等級(jí)，在群體上不存在趨中效應(yīng)。

其次，隨機(jī)效應(yīng)指評(píng)分者由于理解或其他原因，與其他評(píng)分者相比，不一致地使用評(píng)分等級(jí)，因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中，學(xué)生能力值的分隔信度顯示學(xué)生的能力差異不顯著，說(shuō)明評(píng)分者在群體上存在隨機(jī)效應(yīng)。[13]使用獨(dú)立評(píng)分者-其他評(píng)分者相關(guān)系數(shù)“single rater-rest of the raters（SR/ROR）correlations”，可以進(jìn)一步確定具有隨機(jī)效應(yīng)的評(píng)分者。當(dāng)某評(píng)分者的相關(guān)系數(shù)比其他評(píng)分者的系數(shù)明顯更小，這說(shuō)明該評(píng)分者具有隨機(jī)效應(yīng)。評(píng)分者甲、乙、丙的相關(guān)系數(shù)分別是0.46、0.41、0.53，各評(píng)分者的相關(guān)系數(shù)都較低且接近，說(shuō)明他們可能都存在一定的隨機(jī)效應(yīng)。

再者，光環(huán)效應(yīng)指評(píng)分者不能清晰地辨別不同項(xiàng)目的含義，在這些項(xiàng)目中均給予學(xué)生相似的分?jǐn)?shù)，因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中，評(píng)分要點(diǎn)分為2 個(gè)或3 個(gè)層次，分隔指數(shù)和分隔信度并不算小，評(píng)分要點(diǎn)難度的差異接近顯著，說(shuō)明評(píng)分者在群體上不存在光環(huán)效應(yīng)。[13]

最后，區(qū)分性寬嚴(yán)效應(yīng)指評(píng)分者對(duì)某些組別學(xué)生給予更寬松或更嚴(yán)厲的評(píng)分，因而無(wú)法有效區(qū)分不同水平的學(xué)生。在本研究中，通過(guò)綜合比較評(píng)分者的評(píng)分情況可知，評(píng)分者在群體上不存在區(qū)分性寬嚴(yán)效應(yīng)。

3.各側(cè)面間的偏差分析

（1）二側(cè)面偏差分析：未顯示光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)

本研究中，4 位學(xué)生和4 個(gè)評(píng)分要點(diǎn)（1）（2）（4）（9）均獲得原始成績(jī)滿(mǎn)分，這些學(xué)生和評(píng)分要點(diǎn)均未被軟件納入偏差分析的計(jì)算。如表4 所示，根據(jù)交互作用組合的t 值和卡方檢驗(yàn)，評(píng)分者與學(xué)生、評(píng)分者與學(xué)生組別、評(píng)分者與評(píng)分要點(diǎn)的二側(cè)面交互作用均不顯著。這顯示評(píng)分者不會(huì)因?yàn)閷W(xué)生、學(xué)生組別和評(píng)分要點(diǎn)的不同，而使用顯著不同的評(píng)分寬嚴(yán)尺度。同時(shí)，評(píng)分者與評(píng)分要點(diǎn)、評(píng)分者與學(xué)生組別的偏差分析t 值，可以作為判斷評(píng)分者在個(gè)人上是否存在光環(huán)效應(yīng)、區(qū)分性寬嚴(yán)效應(yīng)的方法。[13]表4 也顯示3 位評(píng)分者均不存在光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。

表4 評(píng)分者與不同側(cè)面的偏差分析

（2）三側(cè)面或四側(cè)面偏差分析：顯示較弱的區(qū)分性寬嚴(yán)效應(yīng)

在評(píng)分者與學(xué)生組別、評(píng)分要點(diǎn)的三側(cè)面偏差分析中，χ2（45）=36.90，p=0.80＞0.05，交互作用組合的t 值的絕對(duì)值均小于2，這顯示評(píng)分者與學(xué)生組別、評(píng)分要點(diǎn)的三個(gè)側(cè)面交互作用不顯著。

在評(píng)分者與學(xué)生、評(píng)分要點(diǎn)的三側(cè)面偏差分析中，χ2（480）=694.50，p＜0.001，共有58 個(gè)交互作用組合的t 值小于-2，達(dá)到顯著偏差，占交互作用組合總數(shù)（480 個(gè)）的12%，這顯示評(píng)分者與學(xué)生、評(píng)分要點(diǎn)的三個(gè)側(cè)面交互作用顯著。其中，3 位評(píng)分者在評(píng)分要點(diǎn)（8）上的評(píng)分存在顯著偏差。

在評(píng)分者與學(xué)生及其組別、評(píng)分要點(diǎn)的四側(cè)面偏差分析中，僅出現(xiàn)9 個(gè)非期望反應(yīng)，占交互作用組合總數(shù)（1440 個(gè)）的0.63%。9 個(gè)非期望反應(yīng)具有以下共同點(diǎn)：對(duì)于學(xué)生及其組別，主要是第三大組學(xué)生，尤其是第34 號(hào)學(xué)生出現(xiàn)非期望反應(yīng)；對(duì)于評(píng)分者，主要是評(píng)分者甲出現(xiàn)非期望反應(yīng)；對(duì)于評(píng)分要點(diǎn)，主要是在評(píng)分要點(diǎn)（5）和（8）上出現(xiàn)非期望反應(yīng)；在這9 個(gè)非期望反應(yīng)中，評(píng)分者的觀察值均比預(yù)測(cè)值小，說(shuō)明評(píng)分者給予了顯著嚴(yán)格的評(píng)分。這些具體的多側(cè)面偏差分析信息顯示評(píng)分者在個(gè)體上存在較弱的區(qū)分性寬嚴(yán)效應(yīng)，有助于評(píng)分者做出準(zhǔn)確評(píng)估。

四、思考與建議

本研究應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)、評(píng)分者信度，其若干發(fā)現(xiàn)對(duì)提升實(shí)驗(yàn)操作考查的評(píng)分質(zhì)量有一定助益。

1.本研究的評(píng)分者效應(yīng)和評(píng)分者信度可被接受

實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試，不過(guò)分追求試題的區(qū)分度，主要是對(duì)考生完成理科常見(jiàn)實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力進(jìn)行系統(tǒng)的評(píng)價(jià)。實(shí)驗(yàn)操作的科學(xué)性和規(guī)范性是極其明確的，有著容易判斷對(duì)錯(cuò)的評(píng)分標(biāo)準(zhǔn)。因此，評(píng)分者對(duì)評(píng)分維度、項(xiàng)目?jī)?nèi)涵和評(píng)分標(biāo)準(zhǔn)（即評(píng)價(jià)規(guī)則）可以形成共識(shí)，也容易根據(jù)考生的實(shí)際表現(xiàn)（即評(píng)價(jià)對(duì)象）給予較一致的評(píng)分。

實(shí)驗(yàn)操作考查的這些特點(diǎn)容易對(duì)評(píng)分者效應(yīng)和評(píng)分者信度產(chǎn)生重要影響。在本研究中，評(píng)分者不存在群體上的寬嚴(yán)效應(yīng)、趨中效應(yīng)、光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)，但存在一定的隨機(jī)效應(yīng)，同時(shí)考慮學(xué)生組別和其他側(cè)面時(shí)存在較弱的區(qū)分性寬嚴(yán)效應(yīng)。由于評(píng)分者效應(yīng)不嚴(yán)重，對(duì)評(píng)分質(zhì)量的影響不大，說(shuō)明本研究具有一般的評(píng)分者間信度和良好的評(píng)分者內(nèi)信度。值得關(guān)注的是，一般的評(píng)分者間信度可能由評(píng)分者的隨機(jī)效應(yīng)所致。

偏差分析結(jié)果顯示：首先，本研究發(fā)現(xiàn)評(píng)分者與學(xué)生組別、評(píng)分者與評(píng)分要點(diǎn)的二側(cè)面交互作用均不顯著，評(píng)分者與學(xué)生組別、評(píng)分要點(diǎn)的三側(cè)面交互作用不顯著，其結(jié)果與一些報(bào)道評(píng)分者與不同側(cè)面偏差分析結(jié)果的研究[18][19][22][25][27][28]相比，結(jié)論不同，在這些研究中，評(píng)分者與學(xué)生等側(cè)面的二側(cè)面交互作用存在顯著性；其次，本研究也發(fā)現(xiàn)，在評(píng)分者與學(xué)生、評(píng)分要點(diǎn)的三側(cè)面交互作用組合中，顯著偏差組合占交互作用組合總數(shù)的12%，在評(píng)分者與其他側(cè)面的四側(cè)面交互作用組合中，非期望反應(yīng)僅占交互作用組合總數(shù)的0.63%，這些統(tǒng)計(jì)數(shù)據(jù)也低于許多研究結(jié)果。

造成上述研究差異，主要是因?yàn)樵趯?xiě)作、口頭匯報(bào)、小組討論、創(chuàng)造力測(cè)驗(yàn)等研究主題中，評(píng)分者較難對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)規(guī)則形成一致的認(rèn)識(shí)。上述表現(xiàn)性評(píng)價(jià)的評(píng)分維度、項(xiàng)目?jī)?nèi)涵和評(píng)分標(biāo)準(zhǔn)并不容易明確，評(píng)分范圍也比較寬泛。評(píng)分者對(duì)評(píng)分維度和內(nèi)容存在較多的主觀判斷，不容易形成共識(shí)，在使用評(píng)分等級(jí)時(shí)容易出現(xiàn)各種情況，產(chǎn)生各種評(píng)分者效應(yīng)[17][24]，使得評(píng)分者信度不高。這些均可能導(dǎo)致評(píng)分者與各側(cè)面的交互作用顯著，顯著偏差組合、非期望反應(yīng)占交互作用總數(shù)比例較高。

綜上所述，初三化學(xué)實(shí)驗(yàn)操作考查結(jié)果顯示，評(píng)分者效應(yīng)和評(píng)分者信度可被接受。但本研究只是孤立的案例，研究者仍須在日后開(kāi)展大量的實(shí)驗(yàn)操作考查實(shí)證研究，進(jìn)一步了解評(píng)分者效應(yīng)和評(píng)分者信度在不同情況下的具體表現(xiàn)，為優(yōu)化實(shí)驗(yàn)操作考查提供參考。

2.監(jiān)考學(xué)生人數(shù)會(huì)影響評(píng)分者信度

本研究特別地安排評(píng)分者監(jiān)考不同人數(shù)學(xué)生，以了解監(jiān)考學(xué)生人數(shù)的變化對(duì)評(píng)分者信度的影響。根據(jù)常識(shí)，監(jiān)考學(xué)生人數(shù)較少時(shí)，評(píng)分者可以對(duì)每位學(xué)生有充足的觀察，更準(zhǔn)確地評(píng)分，因而較高評(píng)分者間信度的出現(xiàn)比例可能較大。當(dāng)監(jiān)考學(xué)生人數(shù)較多時(shí)，評(píng)分者可能對(duì)每位學(xué)生缺乏充足的觀察，給予不準(zhǔn)確的評(píng)分，因而較低評(píng)分者間信度的出現(xiàn)比例可能較大。

但本研究顯示，監(jiān)考學(xué)生人數(shù)為最少的2 人時(shí)，學(xué)生能力值的infit 值大于1.20 的人數(shù)比例最大（33%），遠(yuǎn)高于監(jiān)考人數(shù)處于中間的4 人（17%）和最多的6 人（22%）。換而言之，與監(jiān)考4位、6 位學(xué)生相比，評(píng)分者監(jiān)考2 位學(xué)生時(shí)，評(píng)分差異較大的學(xué)生人數(shù)比例和較低評(píng)分者間信度出現(xiàn)的比例最大。該研究結(jié)果似乎與常識(shí)相悖，其可能的原因是評(píng)分者在不同的學(xué)生群體中使用了不同的評(píng)分策略。實(shí)驗(yàn)操作有明顯動(dòng)作和細(xì)微動(dòng)作之分，當(dāng)監(jiān)考學(xué)生人數(shù)最少時(shí)，評(píng)分者只需關(guān)注較少的學(xué)生，能夠?qū)Ｗ⒌?、長(zhǎng)時(shí)間地觀察每一位學(xué)生的明顯動(dòng)作和細(xì)微動(dòng)作。當(dāng)評(píng)分者對(duì)某個(gè)學(xué)生細(xì)微動(dòng)作的判斷不一致時(shí)，容易出現(xiàn)評(píng)分不一致的情況，導(dǎo)致評(píng)分者間信度較低，在同類(lèi)學(xué)生群體中，較低評(píng)分者間信度的出現(xiàn)比例就容易較高。當(dāng)監(jiān)考學(xué)生人數(shù)最多時(shí)，評(píng)分者需要關(guān)注較多的學(xué)生，未必能夠?qū)Ｗ⒌?、長(zhǎng)時(shí)間地觀察每一位學(xué)生的實(shí)驗(yàn)操作，特別是細(xì)微動(dòng)作。如果學(xué)生不是做出明顯的錯(cuò)誤操作，評(píng)分者可能采用保守的評(píng)分策略，給予學(xué)生滿(mǎn)分，這可能導(dǎo)致評(píng)分者間信度較高，在同類(lèi)學(xué)生群體中，較低評(píng)分者間信度的出現(xiàn)比例則較低。但評(píng)分者使用評(píng)分策略的真實(shí)想法仍然有待研究者通過(guò)非結(jié)構(gòu)型的個(gè)人訪談來(lái)確定。

另外，本研究的評(píng)分要點(diǎn)具有明確的評(píng)分標(biāo)準(zhǔn)，可以使用的評(píng)分等級(jí)較少。部分學(xué)生能力值的infit 值小于0.80，出現(xiàn)這種結(jié)果可能是因?yàn)樵u(píng)分者采用了保守的評(píng)分策略，也可能是因?yàn)樵u(píng)分者觀察到學(xué)生實(shí)驗(yàn)操作的某些狀況，所以給予相近的評(píng)分等級(jí)。因此，現(xiàn)在尚難以直接判斷第二、第三大組中能力值的infit 值小于0.80 的學(xué)生究竟屬于何種情況，各組人數(shù)比例差異的成因也有待后續(xù)研究解釋。

總體而言，本研究顯示，監(jiān)考學(xué)生人數(shù)對(duì)評(píng)分者間信度產(chǎn)生重要影響，但這種影響的方向和強(qiáng)度與常識(shí)相悖，尚需要更多的實(shí)證研究來(lái)共同判斷。公平和科學(xué)是高利害考試的基本要求，評(píng)分者對(duì)每位考生的評(píng)分都極其重要。如果條件允許，建議教育行政部門(mén)在組織實(shí)驗(yàn)操作考查時(shí)，應(yīng)用信息技術(shù)手段拍攝每位學(xué)生完整的實(shí)驗(yàn)操作過(guò)程，評(píng)分者可以結(jié)合實(shí)驗(yàn)錄像對(duì)學(xué)生評(píng)分，以避免監(jiān)考學(xué)生人數(shù)對(duì)評(píng)分者的評(píng)分產(chǎn)生負(fù)面影響。

3.可通過(guò)評(píng)分者事前培訓(xùn)和評(píng)分結(jié)果事后檢查提高評(píng)分質(zhì)量

中學(xué)理科實(shí)驗(yàn)操作考查是一些省份高中學(xué)業(yè)水平考試和中考的重要內(nèi)容。評(píng)分質(zhì)量的控制決定著實(shí)驗(yàn)操作考查能否在中、高考中進(jìn)一步廣泛應(yīng)用。為提高評(píng)分質(zhì)量，可以從評(píng)分者事前培訓(xùn)和評(píng)分結(jié)果事后檢查兩方面開(kāi)展工作。

首先，評(píng)分者事前培訓(xùn)對(duì)減少評(píng)分者效應(yīng)，提高評(píng)分質(zhì)量具有重要的正面影響。[34][35][36]教育招生考試機(jī)構(gòu)可以組織系統(tǒng)的考前評(píng)分實(shí)踐培訓(xùn)，增加評(píng)分者對(duì)評(píng)分維度、項(xiàng)目?jī)?nèi)涵、評(píng)分標(biāo)準(zhǔn)，尤其是對(duì)不同類(lèi)型評(píng)分者效應(yīng)的一致性理解，提高個(gè)人準(zhǔn)確評(píng)分的能力，并基于培訓(xùn)結(jié)果的反饋建議，增強(qiáng)評(píng)分者對(duì)個(gè)人評(píng)分能力的認(rèn)知。[37][38]結(jié)合評(píng)分者的認(rèn)知和評(píng)分表現(xiàn)，教育招生考試機(jī)構(gòu)可以先將評(píng)分者分類(lèi)，再給予有針對(duì)性的培訓(xùn)。[39][40]但已有研究也表明，評(píng)分者培訓(xùn)及其反饋并不能完全消除評(píng)分者效應(yīng)，教育招生考試機(jī)構(gòu)仍然要面對(duì)潛在的評(píng)分者效應(yīng)對(duì)評(píng)分質(zhì)量的影響。[36][41]因此，建議教育招生考試機(jī)構(gòu)把評(píng)分者效應(yīng)控制在極小的變動(dòng)范圍，努力減少隨機(jī)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。

其次，MFRM 是一種效果不錯(cuò)的實(shí)驗(yàn)操作考查評(píng)分質(zhì)量分析方法，它能夠清晰和詳細(xì)地呈現(xiàn)學(xué)生能力值、評(píng)分者寬嚴(yán)度和不同側(cè)面的偏差分析，有助于教育招生考試機(jī)構(gòu)檢查可能存在問(wèn)題的學(xué)生評(píng)分和評(píng)分者，及時(shí)了解評(píng)分者效應(yīng)。因此，在評(píng)分結(jié)果事后檢查方面，可將MFRM 作為評(píng)分質(zhì)量控制的分析方法。如果學(xué)生的實(shí)驗(yàn)操作過(guò)程被錄像，評(píng)分者可以回放錄像，重新對(duì)存疑的學(xué)生進(jìn)行評(píng)分。

此外，實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試，學(xué)生容易獲得一致或相近的評(píng)分，評(píng)分要點(diǎn)也有相同或相近的難度。這會(huì)導(dǎo)致MFRM 統(tǒng)計(jì)的學(xué)生（及其組別）能力值、評(píng)分要點(diǎn)難度產(chǎn)生極小的差異，形成評(píng)分者在群體上存在各種評(píng)分者效應(yīng)的現(xiàn)象，但實(shí)際上這些評(píng)分者效應(yīng)可能并不真實(shí)存在。因此，研究者有必要積極使用真實(shí)考查情境下的評(píng)分?jǐn)?shù)據(jù)，探討適應(yīng)實(shí)驗(yàn)操作考查特點(diǎn)的評(píng)分者效應(yīng)判斷規(guī)則，為準(zhǔn)確判斷評(píng)分者效應(yīng)提供可信賴(lài)的依據(jù)，更好地開(kāi)展表現(xiàn)性評(píng)價(jià)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中學(xué)理科實(shí)驗(yàn)操作考查的評(píng)分者效應(yīng)和評(píng)分者信度——基于多面Rasch 模型的分析