柳鑫淼
(中國勞動關(guān)系學(xué)院 英語教研室,北京 100048)
多項選擇題作為教育測量的主要題型之一被廣泛應(yīng)用于各類學(xué)科的測試中.多項選擇題通常由題干和備選答案兩部分組成,受試者從多項備選答案中選出一個最合適或正確的選項.多項選擇題具有評分客觀、閱卷高效、答案簡明等諸多優(yōu)勢,這些優(yōu)勢在結(jié)構(gòu)主義測試階段備受推崇,但人們對其測試效度的質(zhì)疑卻一直存在[1].多項選擇題的潛在弱點之一是難以規(guī)避猜測因素的影響,即受試者在不知道或不確定正確答案的情況下也可以憑借猜測而答對部分題目,這易使測量準(zhǔn)確性受到影響.正如Glass和Wiley所指出的,幾乎所有參與多項選擇測試的受試者都會不同程度地進行猜測[2].國外學(xué)者針對這一現(xiàn)象進行了大量的研究,試圖通過修正多項選擇測試來降低受試者的猜測概率.例如,Prihoda等研究了病理學(xué)專業(yè)考試中應(yīng)用公式評分法后的猜測修正效果,發(fā)現(xiàn)公式評分能夠提高測試的效度[3].國內(nèi)有少數(shù)學(xué)者探討了多項選擇題的修正方法和效果.如孫惠超探討了多項選擇題評分標(biāo)準(zhǔn)對猜測誤差的影響,利用概率分析對目前廣泛采用的評分標(biāo)準(zhǔn)進行了比較,認為"全或無"的評分標(biāo)準(zhǔn)更能有效降低猜測誤差,提高教育測量的科學(xué)性[4].但是,國內(nèi)外鮮有專門針對英語測試中多項選擇題修正效果的研究.本研究對英語聽力考試中多項選擇題評分標(biāo)準(zhǔn)這一因素進行探討,用實證研究對比了"答對的給正分,答錯的給負分,不答不得分"的公式評分法與國內(nèi)通用的"答對得分,答錯不得分"評分標(biāo)準(zhǔn)的有效性,旨在降低聽力考試多項選擇題的猜測概率方面給命題人員提供實證參考.
自20世紀(jì)初開始,公式評分法(formula scoring)逐漸受到教育測量學(xué)界的關(guān)注,并在諸多國家的教育測試和市場調(diào)查中得到廣泛應(yīng)用.路易斯.瑟斯頓(Louis Thurstone)指出,公式評分是一種較為直觀的評分方法,答對得到全部分數(shù),答錯從全部分數(shù)中按比例扣分[5].公式評分法旨在降低因猜測而產(chǎn)生的測驗分數(shù)的隨機性.這種評分標(biāo)準(zhǔn)可概括為:對于有 C個備選答案的選擇題,回答正確得1分,回答錯誤扣除1/(C-1)分,不回答記為0分.公式評分法可以用以下公式加以表示[6]:
其中FS是受試者修正后的得分,R是受試者作出正確回答的數(shù)量,W是作出錯誤回答的數(shù)量,C代表每個題目的備選答案數(shù)量.公式評分可以應(yīng)用在備選答案數(shù)量不同的各類多項選擇題中.以具有3個備選答案的多項選擇題為例,按照修正后的評分標(biāo)準(zhǔn),在受試者對考題進行猜測時,猜到正確答案并獲得2分的概率為1/3,猜到錯誤答案并被扣除1分的概率是2/3,因此受試者通過隨機猜測方式所獲得分數(shù)的估算值為(1/3)X2+(2/3)X(-1)=0,也就是說,受試者通過猜測方式獲得額外分數(shù)的預(yù)期值為零.相比之下,按照傳統(tǒng)評分標(biāo)準(zhǔn),受試者在不知道正確答案的情況下,通過猜測方式每題仍有可能獲得分數(shù)的估算值為(1/3)X2+(2/3)X0=2/ 3,因此受試者選擇猜測的可能性會更大.此外,公式評分鼓勵受試者在多項選擇中進行排除,以10道具有3個備選答案的題目為例,若受試者能夠排除其中一個選項,則受試者作出正確選擇的可能性為50%,答對題目5道,答錯題目5道,那么受試者通過猜測最終可得到的分數(shù)是5X1-5X(1/2)= 2.5,高于隨機猜測的得分.可見,公式評分法并不是要求受試者徹底放棄猜測,而是鼓勵受試者在備選答案中作出排除,畢竟,能夠準(zhǔn)確排除部分選項也是受試者判斷力的體現(xiàn).猜測決定的過程實際上是博弈的過程,受試者在權(quán)衡失分成本和得分收益后才會決定是否進行猜測.由此可見,公式評分法修正的不是所有猜測,而是受試者的隨機猜測.公式評分標(biāo)準(zhǔn)是否能夠有效促使受試者在不知道正確答案的情況下放棄猜測?下文將實證檢驗這一評分標(biāo)準(zhǔn)和傳統(tǒng)評分標(biāo)準(zhǔn)相比在校正猜測方面的有效性.
1.實驗設(shè)計
由于簡答題能夠極大降低甚至消除受試者的猜測概率,因此本實驗假定簡答題更能反映受試者的實際聽力水平,簡答題得分更接近于代表受試者實際水平的分數(shù).分別用公式評分標(biāo)準(zhǔn)和傳統(tǒng)評分標(biāo)準(zhǔn)計算選擇題的得分,用簡答題分數(shù)作為衡量兩種評分標(biāo)準(zhǔn)有效性的標(biāo)尺.通過計算得分分布散點圖、均值差距和組內(nèi)相關(guān)系數(shù)3種方式驗證選擇題和簡答題得分的一致性.
研究通過4次測驗考察多項選擇題猜測校正的評分標(biāo)準(zhǔn)的有效性,共設(shè)計4套試題,其中A卷包括25道多選題(從3個備選項中選擇一個正確答案),按照兩種不同評分標(biāo)準(zhǔn)標(biāo)記成A1卷、A2卷.兩套試題題目完全相同,但A1卷采用傳統(tǒng)評分標(biāo)準(zhǔn),正確答案得2分,錯誤答案不得分;A2卷采用公式評分標(biāo)準(zhǔn),正確答案得2分,錯誤答案扣1分,不選答案計0分.在試卷上方用清晰的字體注明評分標(biāo)準(zhǔn),并在測試前口頭告知兩組受試者.B卷為25道簡答題,每題2分,受試者回答出關(guān)鍵詞即視為答對,若受試者回答中包括兩個及以上關(guān)鍵詞,以第一個為準(zhǔn),不設(shè)置額外加分項目.將B卷得分視為更接近受試者實際聽力水平的標(biāo)準(zhǔn).同樣分成B1和B2兩組試卷,但試卷內(nèi)容和評分標(biāo)準(zhǔn)完全相同.
參與實驗的受試者是北京市某高校80名英語專業(yè)一年級學(xué)生,分成A組(40人)和B組(40人),其中A組為對照組,B組為實驗組.測試于2010年12月在學(xué)校語音實驗室進行,A組和B組同步進行聽力測驗,A組完成A1、B1卷,B組完成A2、B2卷.為避免受試者長時間聽力引起的疲勞對實驗效果的影響,聽力測試的時間限定為約30分鐘.
2.數(shù)據(jù)分析
采集4組得分數(shù)據(jù)后,將A1、B1卷得分和A2、B2卷得分全部換算為百分制,以便進一步比較和分析.首先,利用SPSS軟件分別對對照組和實驗組得分進行描述性統(tǒng)計分析,計算兩組數(shù)據(jù)的最大值、最小值、平均值和標(biāo)準(zhǔn)差.描述性統(tǒng)計分析結(jié)果如表1所示.
表1 修正前后多選、簡答測驗得分的描述性統(tǒng)計數(shù)據(jù)
從表1中可以得出,A1卷的平均分為72分,B1卷的平均分為64.575分,兩者相差7.425分,而A2卷的平均分為70.135分,B2卷的平均分為66.85分,兩者僅相差3.285分,實驗組的平均分差值低于對照組平均分差值4.14分,單尾檢驗顯示實驗組選擇題與簡答題得分的一致性顯著高于對照組的一致性(p=0.015).也就是說,運用公式評分法對多選題進行猜測修正后測試得分更接近于修正前的測試,測試有效性明顯增加.
散點圖是回歸分析中數(shù)據(jù)點在直角坐標(biāo)系平面上的分布圖,能夠更加直觀地觀察到兩個變量間的相關(guān)性,圖形顯示兩組數(shù)據(jù)都具有線性分布趨勢.圖1為實驗組和對照組測試得分分布的散點圖,實線為擬合線性回歸直線,代表每組A卷和B卷分數(shù)分布的實際線性關(guān)系,虛線是代表理想契合程度的均等線,當(dāng)分數(shù)沿均等線排列時A卷得分和B卷得分相等,為理想的完全契合狀態(tài),實際散點越靠近均等線分布,表明A卷和B卷得分的一致性越高.回歸直線和均等線越接近,兩組試卷得分的一致性也就越高.下面通過數(shù)據(jù)比較對照組和實驗組的回歸直線與均等線間的一致程度.分別對數(shù)據(jù)進行線性回歸分析,結(jié)果如表2所示.
圖1 對照組和實驗組測驗得分散點圖
表2 對照組與實驗組回歸系數(shù)
將表2中回歸數(shù)據(jù)代入直線方程,可得到對照組的線性回歸方程 y=28.615+0.672x,實驗組的線性回歸方程 y=16.826+0.797x.兩組數(shù)據(jù)中,各回歸系數(shù)的T檢驗顯著性水平都小于0.05,即各回歸系數(shù)在0.05的顯著性水平上都通過了檢驗,因此可拒絕H0假設(shè),A1與B1卷分數(shù)、A2與B2卷分數(shù)之間均具有直線關(guān)系.
比較發(fā)現(xiàn),對照組回歸直線在 y軸上的截距(28.615)大于實驗組回歸直線在 y軸上的截距(16.826),對照組回歸系數(shù)(0.672)小于實驗組回歸系數(shù)(0.797),實驗組的回歸系數(shù)0.797更接近于均等線的斜率值1,說明實驗組回歸直線與均等線更加契合,對照組回歸直線的偏離程度更大.也就是說,A2卷和B2卷得分的一致性高于A1卷和B1卷得分的一致性.運用公式評分法的測試結(jié)果更接近于考生的真實水平,所得出的結(jié)論和上文均值對照的結(jié)果一致.
下面使用組內(nèi)相關(guān)系數(shù)來進一步測算兩組得分的一致性.組內(nèi)相關(guān)系數(shù)是衡量和評價觀察者間信度(inter-observer reliability)和復(fù)測信度(test-retest reliability)的信度系數(shù)指標(biāo)之一,等于個體的變異度除以總的變異度,故其值介于0到1之間,0表示不可信,1表示完全可信.一般認為信度系數(shù)低于0.4表示信度較差,大于0.75表示信度良好.皮爾森相關(guān)性系數(shù)在這里并不適用,因為它的測算對象是關(guān)聯(lián)度,而此處主要的目的是比較兩次測試結(jié)果與簡答題分數(shù)的一致性.一致性較高者就意味著更接近簡答題分數(shù)的評分標(biāo)準(zhǔn),也就是信度更高的評分標(biāo)準(zhǔn).經(jīng)SPSS軟件測算,常規(guī)組單一測量和平均測量組內(nèi)相關(guān)系數(shù)分別為0.705和0.827,實驗組的單一測量和平均測量組內(nèi)相關(guān)系數(shù)分別是0.788和0.882,平均測量相關(guān)系數(shù)相差0.055,單一測量相關(guān)系數(shù)相差0.083,均顯著高于常規(guī)組的組內(nèi)相關(guān)系數(shù).測算結(jié)果表明,實驗組兩組測試得分信度系數(shù)更高,選擇題和簡答題得分的相對一致性更高.這也就意味著實驗組多選測驗的結(jié)果更能真實反映受試者的實際聽力水平.
本研究通過實證研究對比了公式評分和傳統(tǒng)評分在聽力多選題猜測修正方面的有效性.研究發(fā)現(xiàn)實驗組的組內(nèi)相關(guān)系數(shù)顯著高于對照組的組內(nèi)相關(guān)系數(shù),均值差距明顯小于對照組,散點圖的得分分布也表明實驗組得分一致性更高.由此可見,英語聽力測試中采用公式評分標(biāo)準(zhǔn)可降低猜測概率,使成績更接近受試者的實際水平.采用公式評分法時,受試者在博弈過程中需要權(quán)衡選錯答案的失分成本,有效規(guī)避了受試者誤打誤撞的僥幸心理,作出的選擇也能夠反映受試者的真實聽力水平,有利于更加科學(xué)有效地測試語言水平.需要指出的是,任何一種評分方法在具備優(yōu)勢的同時都不可避免地具有一定的局限性[7].公式評分操作較為煩瑣,人工計分工作量較大,且容易出現(xiàn)誤差,通常需要采用計算機閱卷,這就需要測試人員在選擇評分方法時考慮測試環(huán)境是否具備相應(yīng)的硬件條件.
[1]潘之欣.語言測試中的多項選擇題型[J].外語界,2001, 84(4):67-74.
[2]GLASS V G,WILEYD E.Formula scoring and test reliability[J].Journal of Educational Measurement,1964,1(1): 43-45.
[3]PRIHODA T,PINCKARD R,MCMAHAN C,et al.Correcting for guessing increases validity in multiple-choice examinations in an oral and maxillofacial pathology course[J]. Journal of Dental Education,2006,70(4):378-386.
[4]孫惠超.多項選擇題評分標(biāo)準(zhǔn)對猜測誤差的影響[J].零陵學(xué)院學(xué)報,2003,24(5):131.
[5]THURSTONE L L.A method for scoring tests[J].Psychological Bulletin,1919,16(7):235-240.
[6]FRARAT R B.NCME instructional module:formula scoring of multiple-choice tests(correction for guessing)[J]. Educational Measurement:Issues and Practice,1988,7 (2):33-38.
[7]DAVIS F B.A note on the correction for chance success [J].Journal of Experimental Education,1967,35(3):43-47.