馮艷賓 馬洪超
“熵增值”在試題質(zhì)量分析中的應用
馮艷賓 馬洪超
難度和區(qū)分度是傳統(tǒng)試題質(zhì)量分析所采用的指標,而依據(jù)(難度,區(qū)分度)二維向量指標對試題質(zhì)量進行排序需要主觀權衡,從而造成了試題質(zhì)量評判的不穩(wěn)定性?;诖耍鶕?jù)信息熵理論,構建一種基于考生得分分布變化的客觀試題質(zhì)量指標“熵增值”。通過HSK閱讀分測驗的實證分析,“熵增值”的大小有效地反映了試題質(zhì)量的優(yōu)劣,其對應的難度和區(qū)分度指標符合經(jīng)典測量理論的分析原則。最后采用模擬仿真的方式論證了“熵增值”和難度、區(qū)分度的相互影響關系。
試題質(zhì)量;熵增值;難度;區(qū)分度
通過率、區(qū)分度常常作為傳統(tǒng)的題目分析指標。一般認為在經(jīng)典理論中難度在0.3~0.7之間為好,難度為0.5最合適(謝小慶,1998)。在大規(guī)模考試中,難易試題均應保持在合理范圍,例如,漢語水平考試HSK(初中級)試題在難易度分布上是由易逐步過渡到難,呈正態(tài)曲線分布。難度系數(shù)區(qū)間在0.1~0.9之間,難度值為0.4~0.6(<0.6)的中等難度題目最多(李慧,2000)。在經(jīng)典理論中難度值為通過率,區(qū)分度的值則是采用鑒別指數(shù)法、積差相關或點二列相關計算獲得的。區(qū)分度一般理解為題目具有區(qū)分不同水平考生的能力,區(qū)分度的含義因計算方法的不同而存在差異。理論上區(qū)分度取值范圍為[-1,1],實際上區(qū)分度應為正值才有意義,一般認為區(qū)分度大于0.4時,題目才具有良好的鑒別能力。
項目反應理論中題目難度b的取值為項目特征曲線拐點在橫坐標上的投影,其值與被試能力被統(tǒng)一在相同的尺度上;拐點處曲線的斜率為題目區(qū)分度,a值越大說明題目對被試的區(qū)分程度越高(馮艷賓和馬洪超,2012)。項目反應理論中的難度值和區(qū)分度均依賴項目特征曲線拐點,以拐點的值作為整體指標,無法全面反映不同被試在試題上的作答情況。
在經(jīng)典理論中,以通過率計算得來的題目難度值可能會掩蓋具有一定能力的考生能全部答對,而能力較低的考生答對率低和高猜測的現(xiàn)象。這種“天花板效應”和“地板效應”意味著該題對部分被試失去意義。而用鑒別指數(shù)法計算出來的區(qū)分度只是區(qū)分高分組和低分數(shù)的能力,采用相關方法計算的區(qū)分度值也只反映題目得分和總體得分之間的相關關系。因此,以經(jīng)典理論的難度值和區(qū)分度值來判定試題質(zhì)量的好壞,可能會出現(xiàn)誤斷的情況,也即是說即使0.5難度值的試題,其質(zhì)量也未必很好。
兩種理論中的難度均為中間點的值來度量,而且難度和區(qū)分度因計算方法不同其含義完全不同,簡單的難度值無法全面反映被試的整體反應狀況。此外,經(jīng)典理論的區(qū)分度和項目反應理論的區(qū)分度均無法全面體現(xiàn)試題對考生的鑒別功能。通過(難度,區(qū)分度)二維向量項指標來判定試題質(zhì)量的優(yōu)劣,需要依賴主觀權衡,從而影響試題質(zhì)量評判的效率,增加了評判結(jié)果的不穩(wěn)定性?;诖?,本研究以HSK數(shù)據(jù)為研究對象,采用“熵增值”來分析閱讀測試中題目的質(zhì)量,將傳統(tǒng)的試題分析指標與熵增值進行比較,探討“熵增值”在題目分析中的應用。
在信息論中,熵表示的是不確定性的量度。信息論的創(chuàng)始人香農(nóng)在其著作《通信的數(shù)學理論》中提出了建立在概率統(tǒng)計模型上的信息度量。其中自信息和熵是信息論中兩個最基本的度量單位。在一個離散事件集合X,它含有N個事件:X={x1,x2,…,xn},事件xi出現(xiàn)的概率為pi,則事件xi的自信息為I(xi)=-logpi。自信息給出了一個隨機事件未出現(xiàn)時所呈現(xiàn)的不確定性,同時它也度量了該事件出現(xiàn)后所給出的信息量。因此,事件自信息的大小也表明了它在該集合中所占的比重。即事件對集合X的自信息越大,它隸屬于該集合的程度也就越高(Thomas M.Cover&Joy A.Thomas,2007)。
熵給出了集合X中各個事件未出現(xiàn)時所呈現(xiàn)的平均不確定性,也度量了集合X中一個事件出現(xiàn)時所給出的平均信息量。
對于一個由n道0、1得分的試題構成的大規(guī)模考試來說,總成績的所有可能分數(shù)為0~n分,總成績分數(shù)的概率分布為P(X=i)=pi(i=0,1,…,n),總成績分數(shù)的熵記為Hn;當增加一第n+1道0、1得分的試題時,總成績的所有可能得分變成了0~n+1分,這時總成績分數(shù)的概率分布為P(X=i)=(i=0,1,…,n+1),該分數(shù)集合的熵記為Hn+1,根據(jù)熵理論知Hn+1≥Hn。我們將熵的增加值Hn+1-Hn稱作第n+1題相對于前n道試題的熵增值,簡稱第n+1題的熵增值。
由表1可知,第33題的熵增值最小,41題的熵增值最大。因為熵增值是一種動態(tài)的相對值,因而不同試題具有相同的熵增值。現(xiàn)根據(jù)熵增值的大小,選擇兩組試題,將試題的熵增值與經(jīng)典理論和項目反應理論中試題參數(shù)進行比較。如表2、表3所示。
表2中的6道試題均為熵增值較低的題目,其中1、3、46題難度偏易且區(qū)分度低,27、49題難度偏難且區(qū)分度也低。根據(jù)經(jīng)典測量理論的分析原則,偏難和偏易的題目都不是理想的試題。而33題難度雖然是中等,但區(qū)分度極低,依然不是理想試題。由以上數(shù)據(jù)我們看到,熵增值較小的試題在經(jīng)典測量理論中的參數(shù)指標均不理想。同樣,這幾道試題在項目反應理論中的參數(shù)指標也均不理想。
表3中的題目在兩種理論下的參數(shù)指標都很理想,其熵增值較大。綜合表2和表3的數(shù)據(jù)可以看到,熵增值大時,試題質(zhì)量較好,熵增值小時,試題質(zhì)量較差。為展現(xiàn)不同熵增值試題的特征,給出熵增值最大的44題和熵增值最小的33題的考察熵增值較小試題的累計概率曲線,如圖1所示。
表1 閱讀測試試題熵增值(從小到大排序)
表2 熵增值較小試題的題目參數(shù)
表3 熵增值較大試題的題目參數(shù)
圖1 熵增值最小最大試題累積概率曲線比較
圖1中,33題熵增值最小,累積概率曲線在0分到25分的考生群體中呈增長趨勢,但在25分到50分之間的考生群體中卻沒有繼續(xù)增長,曲線趨于水平,這說明33題在25分到50分之間的考生群體,沒有隨著能力的提高而增加答對率,表明33題對水平比較高的考生沒有鑒別力。而第41題,曲線漸進上升,說明隨著考生能力的提高,答對率也逐步提高,在25分到30分之間的中等能力的考生群體上,答對率有顯著提高,這與項目反應理論中的假設相一致,也符合我們直觀的理解和常識。
熵增值是一種相對值,是在總體分布的基礎上,減少某一試題,形成新的分數(shù)分布。由于減少的某一試題與其他試題并不同質(zhì),因而對得分分布產(chǎn)生不同影響,使得不同得分分布的熵值發(fā)生變化,這種熵值的差稱為某一試題的熵增值。
以下采用模擬仿真,對熵值與難度、區(qū)分度之間的關系進行分析。首先假定考試群體的能力分布為標準正態(tài)分布,考試試卷由6道0、1計分的試題構成,其中難度均為bi=0,區(qū)分度取ai=1(i=1,2,…,6,采用IRT中難度、區(qū)分度定義)。分三種情況來添加第7道題目:第一種情況,區(qū)分度和難度和前6道題一致,即b7=0,a7=1。第二種情況,區(qū)分度不變,而難度為2,即b7=2,a7=1。經(jīng)計算,第一種情況下,總分分布的偏度SK=0,第7題的熵增值為ΔH(a=1,b=0)=0.2073。屬于較難的試題。第二種情況下,總分分布出現(xiàn)右偏,該第7題的熵增值為ΔH(a=1,b=2)=0.137。看到ΔH(a=1,b=2)小于ΔH(a=1,b=0),這種熵增值差異是由試題的難度造成的(見圖2)。
圖2 試題難度對得分分布的影響
第三種情況,增加第7道題的難度為b6=0,區(qū)分度a6=0.5,這時總分的分布的峰度值增大,得分更加集中,計算得到第7題的熵增值為ΔH(a=0.5,b=0)=0.1732,小于ΔH(a=1,b=0)=0.2073。這種熵增值差異是由區(qū)分度不同造成的(見圖3)。
圖3 試題區(qū)分度對得分分布的影響
由圖3可知,熵增值與試題自身的難度和區(qū)分度緊密相關,因為不同難度和區(qū)分度的試題會影響考生得分分布,從而導致熵的變化,它是參數(shù)指標的綜合反映。在信息論中,熵是整個系統(tǒng)的平均信息量,是概率分布的函數(shù)。在能力考試中,考試分數(shù)的分布是研究試卷質(zhì)量的基本指針之一,而考試分數(shù)分布的熵是反映考生能力和試題參數(shù)的一個綜合指標。當試題的參數(shù)指標異常時,熵增值也會有相應的體現(xiàn),能夠體現(xiàn)考生群體對試題的全面反應。
在經(jīng)典測量理論和項目反應理論中,評判試題質(zhì)量主要依靠難度和區(qū)分度。難度體現(xiàn)了考生總體對題目的作答的整體反映。區(qū)分度體現(xiàn)了考生不同能力部分考生作答差異的反映。傳統(tǒng)的題目質(zhì)量分析主要通過難度和區(qū)分度來進行評判,而在實踐中要對題目質(zhì)量優(yōu)劣進行排序時,評判者需要綜合考慮難度和區(qū)分度,形成一個主觀判斷,這在試題取舍時一方面會增大抉擇的難度,另一方面也會帶來評判結(jié)果的不穩(wěn)定性。熵增值是在考生分數(shù)分布的基礎上,通過調(diào)整某一試題,計算得來的,綜合體現(xiàn)了難度和區(qū)分度對分數(shù)分布的影響,是一個綜合指標,便于對考試試題質(zhì)量進行排序,方便判斷試題的優(yōu)劣。
熵增值綜合體現(xiàn)了試題難度和區(qū)分度,避免理論模型選擇帶來的誤差,比如項目反應理論單、雙、三參數(shù)logistic模型的題目參數(shù)均有差異,有些計算出來的試題參數(shù)與題目特征曲線并不擬合,有的甚至存在較大的偏差。熵增值與試題自身的難度和區(qū)分度緊密相關,當試題的難度和區(qū)分度異常時,熵增值也會有相應的體現(xiàn),利用熵增值對試題進行甄別,能快速找出參數(shù)異常的試題。
另外,熵增值是基于得分分布計算出來的數(shù)值,應該考慮考生群體的代表性和測驗的針對性;同時熵增值在大規(guī)模測試的試題質(zhì)量分析效果比較明顯,對于小規(guī)??荚?,尤其是考生人數(shù)較少的測試,效果不明顯。
[1]謝小慶.心理學講義[M].武漢:華中師范大學出版社,1998.
[2]李慧.漢語水平考試(初中級)閱讀理解命題中的效度考慮[J].漢語學習,2000(5):55-59.
[3]馮艷賓,馬洪超.關于經(jīng)典測量理論和項目反應理論中難度和區(qū)分度的探討[J].中國考試,2012(4):10-14.
[4]Thomas M.Cover&Joy A.Thomas.信息論基礎[M].北京:機械工業(yè)出版社,2007.
(責任編輯 周黎明)
Quality Analysis of Items Based on Increased Value of Entropy
FENG Yanbin and MA Hongchao
Difficulty and discrimination are traditional index in item analysis.To distinguish the quality of items and sequence the items basing on difficulty and discrimination need subjective weigh,so the instability of the items estimation cannot be avoided.So according to the information entropy theory,increased value of entropy is constructed as the index to measure the quality of items basing on the examinee score distribution.Through the empirical analysis of HSK reading test,the entropy value reflects the quality of items effectively;and they are consistent with the indexes in Classical Test Theory.In the end,It is showed that increased value of entropy is affected by difficulty and discrimination by using analog simulation.
Item quality;Increased Value of Entropy;Difficulty;Discrimination
G405
A
1005-8427(2014)11-0017-5
本課題為北京語言大學青年自主科研支持計劃資助項目(中央高?;究蒲袠I(yè)務費專項資金)項目批號:11JBB016;北京語言大學院級科研項目(中央高?;究蒲袠I(yè)務專項資金資助),項目編號:14YJ030008。
馮艷賓,男,北京語言大學信息科學學院,講師(北京 100083)
馬洪超,男,北京語言大學漢語速成學院,講師(北京 100083)