何 壯,袁淑莉,余 水,任 敏
(貴陽(yáng)學(xué)院 教育科學(xué)學(xué)院,貴州 貴陽(yáng) 550005)
如果一個(gè)測(cè)驗(yàn)的結(jié)果對(duì)接受測(cè)驗(yàn)的個(gè)體、群體或單位意義重大,則該測(cè)驗(yàn)可稱為“高風(fēng)險(xiǎn)考試”或“高利害測(cè)驗(yàn)”(High-stakes Test)。中考是義務(wù)教育階段的重要考試之一,考試目的是衡量學(xué)生是否達(dá)到畢業(yè)標(biāo)準(zhǔn),同時(shí)考試成績(jī)也是高中階段學(xué)校招生選拔的重要依據(jù),是典型的高風(fēng)險(xiǎn)考試。為了保證高風(fēng)險(xiǎn)考試試題的質(zhì)量,西方國(guó)家普遍要求試題開(kāi)發(fā)者提供有力的心理測(cè)量學(xué)方面的證據(jù)。[1]
新一輪課改對(duì)中考命題提出了更高的要求:中考命題應(yīng)當(dāng)起到導(dǎo)向性作用。這種導(dǎo)向性不僅體現(xiàn)在知識(shí)層面,更體現(xiàn)在能力水平和價(jià)值觀層面。對(duì)試卷和考試結(jié)果的分析,不僅可以獲得有關(guān)考題質(zhì)量的信息,還能獲得具有導(dǎo)向價(jià)值的信息,更可以了解考試對(duì)學(xué)生能力的要求,為調(diào)整教學(xué)提供參考。
隨著心理測(cè)量理論的發(fā)展,以項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)為代表的技術(shù)已經(jīng)逐漸成為考試數(shù)據(jù)分析的主流。與經(jīng)典測(cè)量理論(Classical Test Theory, CTT)相比,項(xiàng)目反應(yīng)理論具有能力參數(shù)與項(xiàng)目難度參數(shù)配套、參數(shù)等距、參數(shù)不變性等優(yōu)勢(shì)。[2]以最常用的Rasch模型為例,Rasch分析將被試能力和題目難度定義在同一量尺上,方便被試能力和題目難度之間的比較,同時(shí)還克服了CTT題目難度受抽樣影響、原始數(shù)據(jù)之間不等距的缺陷。在對(duì)考試數(shù)據(jù)的分析中如果能夠綜合兩種測(cè)量理論進(jìn)行分析,得出的結(jié)果將更有實(shí)用價(jià)值。
由于大規(guī)模高風(fēng)險(xiǎn)考試對(duì)數(shù)據(jù)的保密要求較高,國(guó)內(nèi)高風(fēng)險(xiǎn)考試的分析最常見(jiàn)的是英語(yǔ)等級(jí)考試的相關(guān)研究。中考、高考、研究生入學(xué)考試等社會(huì)影響更大考試的研究還很少,可參見(jiàn)趙守盈等對(duì)研究生入學(xué)考試客觀題的分析。[3]而對(duì)中高考等高風(fēng)險(xiǎn)考試整套試卷進(jìn)行分析的研究還非常少。筆者擬以中考化學(xué)模擬考試數(shù)據(jù)為例,介紹Rasch模型為代表的現(xiàn)代測(cè)評(píng)理論在這一領(lǐng)域的應(yīng)用。
數(shù)據(jù)來(lái)自東部某市,共有47636人參加了當(dāng)次考試,研究所用到的數(shù)據(jù)是化學(xué)考試的全部數(shù)據(jù)。試卷包括6個(gè)客觀題、7個(gè)主觀題,滿分60分??陀^題(1—6題)每題2分、主觀題(7—13題)分?jǐn)?shù)從5至9分不等。
對(duì)考試數(shù)據(jù)的分析理論以IRT為主,CTT作必要補(bǔ)充。數(shù)據(jù)整理及CTT分析使用SPSS 22軟件,IRT分析使用Winsteps 3.7軟件,參數(shù)估計(jì)選用Rasch模型,參數(shù)估計(jì)過(guò)程中將試題的平均難度設(shè)定為Rasch量尺的零點(diǎn)。分析得到的主要結(jié)果包括:學(xué)生能力參數(shù)、學(xué)生能力分布、試題難度、擬合指數(shù)、測(cè)驗(yàn)信息量。
單維性是IRT使用的前提條件之一。本研究中,單維性是指考試過(guò)程中只有化學(xué)知識(shí)一種潛在能力起決定作用,可以忽視其他因素對(duì)考試結(jié)果的影響。Rasch中常用模型解釋的方差與未解釋方差的關(guān)系來(lái)判斷數(shù)據(jù)是否單維。[4]參數(shù)估計(jì)結(jié)果發(fā)現(xiàn),由題目所解釋的方差為38.6,占總方差的39.2%。模型未解釋方差為13。由學(xué)生所解釋的方差為46.8,占總方差的47.6%。對(duì)未解釋方差進(jìn)行主成分分析,首因子所解釋的方差為1.5,占總方差的1.5%。這表明學(xué)生作答過(guò)程中“化學(xué)能力”對(duì)整個(gè)考試過(guò)程起主導(dǎo)作用,其他因素對(duì)考試的影響不大。這說(shuō)明考試數(shù)據(jù)是單維的,可以用Rasch模型分析。
Rasch理論認(rèn)為:只有實(shí)際數(shù)據(jù)與模型預(yù)測(cè)值相擬合時(shí)測(cè)量的結(jié)果才是客觀準(zhǔn)確的,分析得到的結(jié)果才有實(shí)際價(jià)值。Rasch分析中主要的擬合統(tǒng)計(jì)量稱為加權(quán)均方擬合統(tǒng)計(jì)量(Infit MNSQ),擬合指數(shù)為1,說(shuō)明實(shí)際數(shù)據(jù)與模型預(yù)測(cè)完全擬合。擬合指數(shù)在[0.6,1.4]范圍內(nèi)最好。[5]題目的Infit MNSQ>1.4說(shuō)明實(shí)際數(shù)據(jù)與模型預(yù)測(cè)值間存在隨機(jī)偏差,稱為不擬合(Under fit);Infit MNSQ<0.6說(shuō)明實(shí)際數(shù)據(jù)間差異小于模型預(yù)測(cè)值,稱為過(guò)度擬合(Over fit)。不論是過(guò)度擬合還是不擬合都會(huì)對(duì)測(cè)量的效果產(chǎn)生影響。表1的分析結(jié)果顯示多數(shù)題目擬合都在Rasch理論要求的范圍之內(nèi),但第3題和第6題的擬合較差,屬于不擬合。題總相關(guān)系數(shù)也能用于評(píng)價(jià)題目的擬合,這兩題的相關(guān)系數(shù)在所有題目中也是最低的。這表明這兩個(gè)題目的命題質(zhì)量相對(duì)較低,與整套題目測(cè)量目標(biāo)的一致性較低。
表1 數(shù)據(jù)—模型擬合
47636名學(xué)生平均32分,標(biāo)準(zhǔn)差15分,及格率46%。Rasch模型可以根據(jù)學(xué)生在每個(gè)題目上的作答情況為每名學(xué)生估計(jì)出一個(gè)能力。該能力與原始成績(jī)不同,具有等距的特點(diǎn),這種特點(diǎn)可以通過(guò)下面的例子來(lái)理解。
在實(shí)際的教學(xué)工作中,低能力學(xué)生提高幾分比高能力學(xué)生提高同樣的分?jǐn)?shù)要容易得多。例如:將學(xué)生成績(jī)從30分提高到40分比較容易,但從90分提高到100分卻困難得多。原始分?jǐn)?shù)看似等距,但卻不能體現(xiàn)這種差異。Rasch的能力分?jǐn)?shù)就解決了這一問(wèn)題。以此次考試的數(shù)據(jù)為例:同樣相差1分,在高分端原始分?jǐn)?shù)58分與59分的學(xué)生能力分別為6.167和7.155,能力相差0.988;在低分段,原始分?jǐn)?shù)18分與19分的學(xué)生能力分別為-1.201和-0.725,能力相差0.476。同樣是1分的差距,在高分端所體現(xiàn)的能力差異就大于低分段,這與教育的實(shí)際情況更相符。所以,Rasch分?jǐn)?shù)才是真正的等距數(shù)據(jù),對(duì)學(xué)生能力的分析以Rasch能力分?jǐn)?shù)為基礎(chǔ)才更加科學(xué)。本次考試學(xué)生能力分布的峰度(Kurtosis)為-0.012。峰度接近于0,學(xué)生能力分布呈正態(tài)分布。
圖1為學(xué)生能力與試題難度分布圖。圖左側(cè)以#代表學(xué)生,越靠近上方學(xué)生能力越高。圖右側(cè)為題目的難度分布情況,越靠近上方題目難度越大。最左側(cè)的一列數(shù)字為Rasch量尺,以Logit為單位。量尺的零點(diǎn)為所有題目的平均難度。
當(dāng)題目難度與學(xué)生能力相當(dāng)時(shí),題目的測(cè)量效果最好。即高難度題目更適用于測(cè)量高水平學(xué)生,低難度題目測(cè)量低水平學(xué)生時(shí)誤差更小。從圖1題目與學(xué)生的分布關(guān)系來(lái)看,高難度題目較少,能力大于3的學(xué)生附近沒(méi)有與之相對(duì)應(yīng)的題目。這部分學(xué)生有可能答對(duì)全部題目,出現(xiàn)“天花板效應(yīng)”。這就影響了對(duì)優(yōu)秀學(xué)生能力的測(cè)量。
圖1 學(xué)生能力與試題難度分布圖
試卷共有6個(gè)客觀題,均為四選一的選擇題??陀^題以考察基本知識(shí)為主,難度在[-2.42,0.71]之間,為中低難度水平。最難的題目為第6題,難度0.71。該題考察學(xué)生從圖像獲取信息的能力,要求學(xué)生分析給出的幾張圖表,結(jié)合坐標(biāo)軸標(biāo)注的信息回答問(wèn)題??疾斓氖浅踔谢瘜W(xué)學(xué)習(xí)的重點(diǎn)內(nèi)容,學(xué)生需要掌握讀圖和相應(yīng)的化學(xué)知識(shí)才能正確作答。學(xué)生在這一題目上的表現(xiàn)也最差,只有48.4%的學(xué)生回答正確。最簡(jiǎn)單的是第2題,難度為-2.09,有88.1%的學(xué)生回答正確。題目選擇了與環(huán)保相關(guān)的材料,考察的是初中化學(xué)最基礎(chǔ)的知識(shí)??陀^題難度處在中、低水平,符合客觀題命題特點(diǎn)和要求。另外,從知識(shí)點(diǎn)和價(jià)值觀兩個(gè)方面起到了導(dǎo)向作用,符合當(dāng)前考試命題選材體現(xiàn)價(jià)值觀引導(dǎo)作用的要求。
表2 客觀題分析結(jié)果
主觀題可以測(cè)量學(xué)生對(duì)某個(gè)知識(shí)點(diǎn)的理解、遷移以及應(yīng)用知識(shí)解決問(wèn)題的過(guò)程。與客觀題相比,主觀題考察范圍更廣,考察結(jié)果更具外部效度。[6]此次考試中共有7個(gè)主觀題,均以等級(jí)方式計(jì)分。
主觀題分析使用了分部計(jì)分模型(Rasch-Masters Partial Credit Model, PCM)。[7]PCM分析得到的參數(shù)稱為閾值參數(shù)(Threshold Parameter),對(duì)于有n個(gè)得分的題目,存在n-1個(gè)參數(shù)。閾值參數(shù)其實(shí)是兩個(gè)相鄰等級(jí)的選項(xiàng)特征曲線(Category response curves, CRC)之交點(diǎn)。
以第8題為例,滿分為8分,理論上可以有0至8分共九種得分的可能。圖2為該題各選項(xiàng)的特征曲線。橫軸為Rasch量尺,縱軸為得分的概率。A至H點(diǎn)為相鄰兩條曲線的交點(diǎn),如點(diǎn)H為7、8分兩條曲線的交點(diǎn),H點(diǎn)對(duì)應(yīng)到Rasch量尺上的值為1.65。在該點(diǎn)右側(cè)代表8分的曲線位置最高,在該點(diǎn)左側(cè)代表7分的曲線位置最高。這表示當(dāng)學(xué)生能力大于1.65時(shí),得8分的概率最高;當(dāng)學(xué)生能力在[0.90,1.65]區(qū)間內(nèi)時(shí)(點(diǎn)G和點(diǎn)H所對(duì)應(yīng)的區(qū)間),得7分的概率最高。這些交點(diǎn)對(duì)應(yīng)的能力值就是該題目的閾值參數(shù)。每?jī)蓚€(gè)閾值之間有一條曲線的位置最高,代表能力在這一區(qū)間內(nèi)的學(xué)生得到這一分?jǐn)?shù)的概率最大。
閾值參數(shù)應(yīng)當(dāng)是從左至右遞增的[8],但第8題卻出現(xiàn)了閾值順序錯(cuò)亂的現(xiàn)象。A點(diǎn)對(duì)應(yīng)的能力為-0.9,大于B點(diǎn)所對(duì)應(yīng)的能力值-1.1。從圖形上看能力在[-1.1,-0.9]區(qū)間內(nèi)的學(xué)生得1分的概率還不及得0分的概率。出現(xiàn)這種情況的原因可能是閱卷教師對(duì)0分和1分的評(píng)分標(biāo)準(zhǔn)掌握較差,或者評(píng)分標(biāo)準(zhǔn)在這兩個(gè)分?jǐn)?shù)的使用上表述不明,這都將影響測(cè)評(píng)的結(jié)果。對(duì)主觀題的閾值參數(shù)進(jìn)行整理后發(fā)現(xiàn),除第8題的0、1得分外,第7題的3、4得分和第13題的4、5得分也出現(xiàn)了上述現(xiàn)象。
圖2 第8題選項(xiàng)特征曲線
從例子中不難看出,兩個(gè)閾值之間的距離不宜太小,整個(gè)閾值的分布也應(yīng)當(dāng)越寬越好,這樣才能更好地區(qū)分不同能力水平的學(xué)生。主觀題中閾值寬度最大的是第11和12題,最小的是第13題。該題考查的內(nèi)容均為基礎(chǔ)知識(shí),將多個(gè)基礎(chǔ)知識(shí)整合后命題是當(dāng)前考試的一種重要命題形式。該題目考查的知識(shí)點(diǎn)是溶液中溶質(zhì)的計(jì)算方法、分子式化學(xué)方程式的書寫、質(zhì)量守恒定律等。這種學(xué)科內(nèi)的綜合的考查方式有利于引導(dǎo)學(xué)生重視對(duì)所學(xué)化學(xué)知識(shí)進(jìn)行整合,建立起知識(shí)內(nèi)聯(lián)系,培養(yǎng)對(duì)化學(xué)知識(shí)的概括、歸納、判斷以及對(duì)化學(xué)知識(shí)的遷移運(yùn)用能力。
表3 主觀題分析結(jié)果
各題目的第一個(gè)閾值可以看作是學(xué)生“能否得分的臨界點(diǎn)”,以第7題為例:學(xué)生能力高于-1.58,則有可能高出越多,得分越高,因此-1.58可以作為學(xué)生“能否得分的臨界點(diǎn)”。這一臨界點(diǎn)對(duì)應(yīng)的能力值越小,說(shuō)明學(xué)生在該題上得分越容易。由表3可以發(fā)現(xiàn),第10題和第12題得分最容易,這兩個(gè)題考查的內(nèi)容均為基礎(chǔ)的化學(xué)實(shí)驗(yàn),這表明中考對(duì)實(shí)驗(yàn)相關(guān)內(nèi)容的考查注重基礎(chǔ)知識(shí)的掌握。與學(xué)生“能否得分的臨界點(diǎn)”相對(duì)應(yīng),最后一個(gè)閾值參數(shù)則稱為學(xué)生“得滿分的臨界點(diǎn)”。該點(diǎn)對(duì)應(yīng)的能力值越高表明該題目得滿分越難,只有高水平的學(xué)生才有可能得到滿分。從表3中可以發(fā)現(xiàn),得滿分難度最高的是第11題。該題要求學(xué)生根據(jù)提示內(nèi)容寫出化學(xué)反應(yīng)的方程式、配平方程式,之后在此基礎(chǔ)上回答一系列問(wèn)題。在這一題目上獲得高分需要學(xué)生掌握題干中所描述的化學(xué)反應(yīng)和配平公式等多個(gè)知識(shí)點(diǎn)。這些知識(shí)對(duì)學(xué)生能力都有很高的要求。
值得一提的是第10、12題的第一個(gè)閾值對(duì)應(yīng)的能力很低,同時(shí)最后一個(gè)閾值對(duì)應(yīng)的能力很高。這表明中考對(duì)實(shí)驗(yàn)知識(shí)的考查不僅注重基本知識(shí)的掌握,同時(shí)也試圖通過(guò)實(shí)驗(yàn)題拉開(kāi)學(xué)生之間的得分差距。實(shí)驗(yàn)知識(shí)是初中化學(xué)學(xué)習(xí)的重點(diǎn),是高中階段學(xué)習(xí)的基礎(chǔ),因此中考非常重視對(duì)實(shí)驗(yàn)技能的考查,利用這部分知識(shí)區(qū)分學(xué)生能力,為高中選拔優(yōu)秀學(xué)生提供了重要參考,同時(shí)也起到了引導(dǎo)化學(xué)教學(xué)重視實(shí)驗(yàn)的導(dǎo)向作用。
信息量是IRT中表示測(cè)量精度的指標(biāo),信息量越大測(cè)量誤差越小。整套測(cè)驗(yàn)的信息量如圖3。測(cè)驗(yàn)的最高信息量Imax=10.81,信息曲線的峰值點(diǎn)對(duì)應(yīng)的能力值為0.32,表明測(cè)驗(yàn)對(duì)能力在該水平附近學(xué)生的測(cè)量精度最高。中考作為選拔性考試,參加考試的學(xué)生人數(shù)很多,學(xué)生的能力水平差異很大。能力很高的學(xué)生肯定可以達(dá)到入學(xué)要求,能力很低的學(xué)生則肯定會(huì)落榜。與這兩類極端能力水平的學(xué)生相比,一套好的試卷更應(yīng)當(dāng)精確區(qū)分能力在中等水平的學(xué)生?;瘜W(xué)試卷測(cè)量精度最高的能力范圍在0.32附近,符合了這一命題思路。
圖3 測(cè)驗(yàn)信息量
項(xiàng)目分析及信息量分析結(jié)果表明:學(xué)生能力與題目難度基本匹配,但高難度題目較少,導(dǎo)致對(duì)極高能力的優(yōu)秀考生測(cè)量誤差較大。以全市前1000名考生為例,他們的能力在[4.24,8.55]之間,測(cè)量的誤差在[0.73,1.89]之間,測(cè)量誤差較大。所以在選拔優(yōu)秀學(xué)生時(shí),對(duì)這些學(xué)生再進(jìn)行難度更大的第二階段測(cè)試,如發(fā)揮學(xué)校自主招生環(huán)節(jié)的作用,才能準(zhǔn)確評(píng)估他們的能力。
選擇題分析結(jié)果表明:命題的內(nèi)容選擇和難度分配比較合理,符合客觀題題型的特點(diǎn)和以往的命題傳統(tǒng);主觀題數(shù)據(jù)分析結(jié)果表明:題目難度評(píng)分細(xì)則的設(shè)計(jì)或在閱卷環(huán)節(jié)未予明確,導(dǎo)致教師在閱卷過(guò)程中出現(xiàn)評(píng)分誤差,對(duì)評(píng)分的客觀性、公平性有一定的影響。建議在閱卷環(huán)節(jié)組織教師對(duì)評(píng)分規(guī)則進(jìn)行評(píng)審、集中學(xué)習(xí),增加修訂和試評(píng)環(huán)節(jié)。
以中考為代表的大型選拔性高風(fēng)險(xiǎn)考試,在命題時(shí)首先追求考試的效率,題目不宜過(guò)長(zhǎng),所以才會(huì)出現(xiàn)壓縮分值、多個(gè)科目合卷的情況,如中、高考中的文理科綜合考試。這就造成了對(duì)能力水平處在Rasch量尺兩端的學(xué)生測(cè)量精度較低的現(xiàn)狀,可能會(huì)造成考試結(jié)果的不公平。解決效率與公平的問(wèn)題可以通過(guò)多階段測(cè)試的方法,如在入學(xué)后再根據(jù)學(xué)生成績(jī),分組進(jìn)行更有針對(duì)性的考試,得到較為準(zhǔn)確的學(xué)生能力參數(shù),這樣才有利于對(duì)不同能力水平學(xué)生的培養(yǎng),真正實(shí)現(xiàn)因材施教。