王曉慶 羅 芬 丁樹良 熊建華
(江西師范大學(xué)計算機信息工程學(xué)院,南昌 330022)
?
多級評分計算機化自適應(yīng)測驗動態(tài)調(diào)和平均選題策略*
王曉慶羅芬丁樹良熊建華
(江西師范大學(xué)計算機信息工程學(xué)院,南昌 330022)
摘要:對于等級反應(yīng)模型下計算機化自適應(yīng)測驗構(gòu)建一個新選題策略,利用調(diào)和平均數(shù)以更好地度量難度參數(shù)向量與能力估計值之間的距離;調(diào)節(jié)區(qū)分度參數(shù)的冪指數(shù)以控制其在測驗各階段對項目選擇的不同影響;利用項目信息函數(shù)提高測驗的精度,并綜合權(quán)衡能力估計精度和項目曝光率。模擬實驗表明在同等實驗條件下該策略與著名的最大Fisher 信息量選題策略(MFI)相比,僅僅測驗長度多用兩個項目,能力估計精度基本相當(dāng),而曝光率有很明顯優(yōu)勢,只為MFI的十分之一,這大大提高了測驗安全性。
關(guān)鍵詞:等級反應(yīng)模型;計算機化自適應(yīng)測驗;動態(tài)綜合選題策略;調(diào)和平均
1引言
計算機化自適應(yīng)測驗(computerized adaptive testing,CAT)依靠大型題庫,采用現(xiàn)代測量理論,自行適應(yīng)被試水平,靈活施測難度最恰當(dāng)且性能優(yōu)良的項目,從而實現(xiàn)對被試的高效測量(漆書青,戴海琦,丁樹良,2002)。許多大型的測驗都采用了CAT形式,例如美國的研究生入學(xué)考試(GRE)、美國商學(xué)院研究生入學(xué)考試(GMAT)和美國的醫(yī)生護士資格考試(NCLEX)等。CAT包括六個基本組成部分:所采用的項目反應(yīng)理論(Item Response Theory,IRT)模型、題庫、初始項目的選擇、選題策略、特質(zhì)估計方法和測驗終止規(guī)則(Weiss & Kingsbury,1984)。其中選題策略是CAT的重要環(huán)節(jié)之一,關(guān)系到測量準(zhǔn)確性,測驗安全和測驗信度及效度(毛秀珍,辛濤,2011)。
0~1評分CAT通常采用最大Fisher信息量(MFI)(Lord,1977)(以下將Fisher信息量簡稱為信息量)選題策略,該策略只需施測較少項目就能準(zhǔn)確估計被試能力。IRT指出能力的測量方差為測驗信息量的倒數(shù)(漆書青等,2002),即測驗信息量越大,對潛在特質(zhì)的估計標(biāo)準(zhǔn)誤差就越小,CAT測量的精度越高。因此,CAT的選題策略往往是MFI或其變式(李銘勇,張敏強,簡小珠,2010)。由于MFI使高區(qū)分度項目過早使用或使用頻繁,而低區(qū)分度項目很少使用甚至不使用,導(dǎo)致題庫中的項目使用率不均勻,從而危害了考試的安全(Chang & Ying,1996,1999)。針對這種測驗安全問題,國內(nèi)外研究者從用條件概率方法(簡稱SH法)(Sympon & Herrer,1985;Stocking & Lewis,1998)和改進選題策略這兩方面入手以控制項目的最大曝光率。由于SH方法不能提高低曝光率項目的使用率且當(dāng)題庫更新時,必須重新模擬計算曝光參數(shù)(程小揚,丁樹良,嚴(yán)深海,朱隆尹,2011)。因此更多的學(xué)者尋求基于MFI的改進策略。
Chang和Ying(1996,1999)針對MFI安全問題,提出了a-分層和按b分塊按a分層選題,這兩種方法提高了低區(qū)分度項目的使用率,卻不能明顯降低高曝光率項目的使用率。程小揚等人(2011)認(rèn)為a-分層選題策略中分層的數(shù)目是預(yù)先確定的,在同一層中對備選項目的要求是其難度與能力估計值相匹配;但是在執(zhí)行a-分層,區(qū)分度不能按照指定的規(guī)則跟隨能力估計精度的變化而做比較細微的變化(Cheng,Chang,Douglas,& Gao,2009)。他們將信息量與層間可變冪指數(shù)的區(qū)分度相結(jié)合改進MFI,同時從控制項目的最大曝光率的角度出發(fā),加入曝光因子,該策略在保證測驗精度的基礎(chǔ)上,極大地提高題庫的利用率。
使用多級評分項目,而不僅僅使用0~1評分項目是當(dāng)前測驗發(fā)展的新方向之一(Meijer & Nering,1999)。由于0-1評分模型中盡量選取難度與能力估計值相近為基本原則制定選題策略,多級評分模式的特點是每個項目有多個等級難度(步驟參數(shù))(Dodd,De Ayala,& Koch,1995),因此0-1評分模型的選題策略難以移植到多級評分模型。然而和0-1評分CAT一樣,多級評分模式下CAT的研究重點仍然是在給定要求下,尋找合適的選題策略。
Choi和Swartz(2009)、Penfield(2006)均在多級評分模式中不考慮項目曝光率的前提下,討論基于貝葉斯方法選題策略的優(yōu)劣,他們發(fā)現(xiàn)貝葉斯方法在多級評分模式下沒有0-1評分中表現(xiàn)得那么好,而且發(fā)現(xiàn)對于多級評分項目的選題策略而言,項目區(qū)分度的影響比項目難度的影響大。程小揚和丁樹良(2011)基于拓廣分部評分模型提出了變加權(quán)選題策略,在CAT的逐步求精的過程中,依據(jù)能力估計精度的提高改變區(qū)分度的冪指數(shù)從而達到調(diào)整區(qū)分度對初始選題的影響。如果不僅考慮在層與層之間調(diào)整區(qū)分度的影響,還能夠像b-分層那樣結(jié)合項目難度參數(shù)的分層,應(yīng)該可以對這種選題策略進行改進。對于多級評分模型的選題策略,羅照盛、歐陽雪蓮、漆書青、戴海琦和丁樹良(2008)提出能力估計值應(yīng)該與項目的多個等級難度/步驟參數(shù)相匹配的想法。羅芬、丁樹良和王曉慶(2012)利用能力估計值和項目所有難度/步驟參數(shù)差的絕對值的幾何平均(geometric mean,GM)值實現(xiàn)羅照盛等(2008)的這個想法,提出了多級評分下基于幾何平均的動態(tài)綜合選題策略(Dynamic and Comprehensive Item Selection Strategy,簡稱為DC,本文中稱之為GMDC)。他們的研究表明該策略對題庫結(jié)構(gòu)(即項目參數(shù)的分布)不敏感,并且和MFI相比,在保證測驗的精度的同時,可以極大地降低項目的曝光率,其曝光率僅僅是MFI的三分之一左右。
以上的研究均表明巧妙使用信息量可能是平衡能力測量準(zhǔn)確性和題庫使用安全性的重要途徑,而更加精細地控制區(qū)分度參數(shù)在CAT實施過程中對選題的影響,更好地度量能力估計值與項目等級難度參數(shù)的距離等均有助于新選題策略的制定。
2新的選題策略
GMDC策略通過在剩余題庫中極小化下式(羅芬等,2012)
(1)
在(1)式中,GMDC利用幾何平均數(shù)綜合項目的步驟參數(shù)向量,它度量步驟參數(shù)向量和能力估計值之間的距離,距離越小,能力和難度(步驟)參數(shù)向量越接近,效果就越好。然而能不能夠用其他方法更加準(zhǔn)確地度量難度(步驟)參數(shù)向量和能力估計值之間的差異?眾所周知,對于正數(shù),幾何平均數(shù)不超過(小于等于)算術(shù)平均數(shù)(Becknbach & Bellman,1961),調(diào)和平均數(shù)不超過幾何平均數(shù)。我們欲用調(diào)和平均數(shù)代替(1)中的幾何平均數(shù),希望更加準(zhǔn)確地度量難度(步驟)參數(shù)向量和能力估計值之間的差異;并依照程小揚和丁樹良(2011)提出區(qū)分度按照指定的規(guī)則跟隨能力估計精度的變化而做比較細微的變化,制定了一個新的選題策略,稱為調(diào)和平均的動態(tài)綜合選題策略HMDC(DC based on harmonic mean),即極小化(2)式
(2)
本文建立在等級反應(yīng)模型GRM的基礎(chǔ)上,比較了4種選題策略:GMDC策略、HMDC策略、加上最大信息量法和隨機選題法作為比較的基準(zhǔn)。我們的模擬實驗表明程小揚和丁樹良(2011)提出的區(qū)分度的冪指數(shù)比羅芬等(2012)的冪指數(shù)的結(jié)果更好,因此,我們對GMDC中區(qū)分度的冪指數(shù)做了一些變化,采用了程小揚和丁樹良(2011)的區(qū)分度冪指數(shù)的定義方法。參數(shù)調(diào)整后的4種選題策略分別為:
③MFI選題策略
④隨機選題策略(RAN)
3實驗方法
實驗采用Monte Carlo模擬方法,比較在同等條件下各種選題策略的表現(xiàn)。CAT的施測過程請參見漆書青等(2002)一書。
3.1Monte Carlo模擬數(shù)據(jù)
用N(p,q)表示平均值為p,方差為q的正態(tài)分布。p=0,q=1時為標(biāo)準(zhǔn)正態(tài)分布;在[p,q]區(qū)間上的均勻分布用U(p,q)表示。
根據(jù)陳平、丁樹良、林海菁和周婕(2006)的設(shè)計,模擬4個服從不同分布的題庫,每個題庫含有1000個項目,每個項目的難度等級數(shù)從{3,4,5,6}中隨機選取。題庫參數(shù)(區(qū)分度參數(shù)a,等級難度參數(shù)b)的分布如下:第一種題庫b~N(0,1),lna~N(0,1);第二種題庫b~U(-3,3),lna~N(0,1);第三種題庫b~N(0,1),a~U(0.4,2.5);第四種題庫b~U(-3,3),a~U(0.4,2.5);并且在各種分布條件下,限定a的取值范圍為[0.4,2.5]。
模擬1000個能力服從N(0,1)的被試群體參與不同題庫結(jié)構(gòu)的CAT的測試。
我們設(shè)定測驗的信息量達到預(yù)定值M(設(shè)M=16)或達到最大測驗長度ML(設(shè)ML=30)時,CAT過程結(jié)束。采用EAP估計被試的能力。
3.2評價指標(biāo)
使用的三個評價指標(biāo)如下(羅芬等,2012)
本文中ABS是平均絕對偏差,ABS的值越小,說明估計的精度越高。Nf是平均測驗長度,用以評估測驗效率,值越小,說明測驗效率越高??ǚ?χ2)統(tǒng)計量(Chang & Ying,1996,1999)用來評估題庫項目的曝光率,值越小,說明曝光率越均勻,CAT的安全性越好。
4模擬實驗的結(jié)果分析
4.14種不同選題策略在ABS上的表現(xiàn)
表1 能力服從N(0,1),6種不同選題策略的ABS
從表1中我們可以看出,在給定條件下,對于評價指標(biāo)ABS來說:
HMDC的表現(xiàn)比GMDC差一些,但至少和MFI相當(dāng);HMDC、GMDC這兩種選題策略的估計精度均在b和lna服從標(biāo)準(zhǔn)正態(tài)分布題庫結(jié)構(gòu)下要高于其他題庫結(jié)構(gòu);和MFI相比,其他3種選題策略的能力估計精度都不差。
4.24種不同選題策略在Nf上的表現(xiàn)
表2 能力服從N(0,1),6種不同選題策略的Nf
表2表示在同等條件下4種選題策略的平均測驗長度(Nf),圖1表示測驗終止時,不同測驗長度上累計人數(shù)占群體人數(shù)的百分比。
從表2可以看出,HMDC與GMDC的平均測驗長度基本相當(dāng),HMDC在b~U(-3,3),a~U(0.4,2.5)結(jié)構(gòu)下,較其他題庫結(jié)構(gòu)測驗長度更短。上述4種選題策略中,MFI的測驗長度最短,RAN的測驗長度最長。
從圖1可以看出在四種題庫結(jié)構(gòu)下,HMDC的結(jié)果都好于或接近GMDC。
4.34種不同選題策略在χ2上的表現(xiàn)
表3 能力服從N(0,1),4種不同選題策略在χ2上的表現(xiàn)
從表3中我們可以看出,對于關(guān)乎題庫安全性的指標(biāo)χ2值:
4種不同選題策略中MFI的χ2值最大,RAN的χ2值最小。HMDC是除RAN之外表現(xiàn)最好的選題策略。HMDC僅為GMDC的χ2值的1/4到1/3;僅為MFI的1/10到1/8,并且HMDC在各個題庫結(jié)構(gòu)下,χ2的值相差不大。
若將題庫中各個項目調(diào)用次數(shù)占總?cè)藬?shù)的百分比從低到高排序,從0%到100%,以10%為步長遞增,稱這些百分點為曝光點,統(tǒng)計在各個曝光點區(qū)間項目的累計個數(shù)。顯然曝光率越均勻,各曝光點的連線越接近一條直線,否則就變成折線(羅芬等,2012)。圖2為四種不同題庫結(jié)構(gòu)下,被試群體分別運用上述4種選題策略,滿足CAT終止規(guī)則時,各個相鄰曝光點(曝光點的定義如上)區(qū)間累積曲線示意圖。
從圖2中可以看出,無論在哪種題庫結(jié)構(gòu)下曝光點為50%以后的累計項目個數(shù),各種選題策略的差別不大。RAN策略的連線接近直線平滑上升,HMDC策略的連線和RAN最接近,MFI策略的連線成階梯式上升,曝光點前50%的累計項目個數(shù)大約為題庫容量的40%,而RAN在這個曝光點的累計項目個數(shù)接近或超過題庫容量的55%,MFI選題策略在曝光點50%與60%的連線較其他選題策略更加陡峭,這也充分說明采用MFI選題策略使得題庫的利用率不夠均勻;曝光點為前30%時,除在b~U(-3,3),lna~N(0,1)題庫下,MFI的累計項目數(shù)接近于40%,其他題庫結(jié)構(gòu)下,MFI的累計項目數(shù)大約在20%左右,而HMDC策略的前50%的累計項目個數(shù)都接近或超過60%。其他選題策略,曝光點為前30%時,累計項目數(shù)基本在25%-40%,尤其HMDC曝光點為前30%時,累計項目數(shù)達到了35%以上。
5結(jié)論與討論
從Monte Carlo模擬實驗結(jié)果中我們有如下發(fā)現(xiàn):
HMDC選題策略在不同的題庫結(jié)構(gòu)下,表現(xiàn)有不同。對于能力估計精度(ABS)而言,在b~N(0,1),lna~ N(0,1)題庫結(jié)構(gòu)下的結(jié)果要好于其他題庫結(jié)構(gòu);而對于測驗長度(Nf)和曝光率(χ2)而言,在a~U(0.4,2.5)的題庫結(jié)構(gòu)下的結(jié)果要好于lna~N(0,1)題庫結(jié)構(gòu)的結(jié)果。在四種不同的題庫結(jié)構(gòu)下,HMDC在ABS和Nf這兩個指標(biāo)的值基本和GMDC相當(dāng),但在χ2這個指標(biāo)下,較GMDC有較大的優(yōu)勢。HMDC的ABS值與MFI基本相當(dāng),Nf比MFI要多用兩個項目,但在χ2值上,與MFI相比有很明顯的優(yōu)勢,幾乎僅為MFI的十分之一。
圖1 能力服從N(0,1),滿足終止規(guī)則,被試人數(shù)的累計百分比
圖2 各個曝光點上累計項目個數(shù)百分比
本文利用項目信息函數(shù),項目的區(qū)分度參數(shù)和項目的難度參數(shù)向量構(gòu)建了一個新的選題策略,模擬實驗表明,該選題策略在保證測驗精度的同時,極大地降低了項目的曝光率,提高了題庫的使用率,有效地保障了CAT的測驗安全性。從本文可以看出,項目信息函數(shù)、項目的區(qū)分度參數(shù)和項目的難度參數(shù)向量都對CAT的實施有重要的作用,能否找到其他更有效的方法來利用這些信息?另外新的選題策略對其他多級評分模型的作用如何也值得研究;新的選題策略中,我們采用程小揚和丁樹良(2011)調(diào)節(jié)區(qū)分度的方法以合理地使用區(qū)分度參數(shù),能否找到其他更有效的調(diào)節(jié)方法,這也值得進一步的研究。
參考文獻
陳平,丁樹良,林海菁,周婕.(2006).等級反應(yīng)模型下計算機化自適應(yīng)測驗選題策略.心理學(xué)報,38,461-467.
程小揚,丁樹良.(2011).拓廣分部評分模型下計算機自適應(yīng)測驗變加權(quán)選題策略.心理科學(xué),34,965-969.
程小揚,丁樹良,嚴(yán)深海,朱隆尹.(2011).引入曝光因子的計算機化自適應(yīng)測驗選題策略.心理學(xué)報,43,203-212.
李銘勇,張敏強,簡小珠.(2010).計算機自適應(yīng)測驗中測驗安全控制方法評述.心理科學(xué)進展,18,1339-1348.
羅芬,丁樹良,王曉慶.(2012).多級評分計算機化自適應(yīng)測驗動態(tài)綜合選題策略.心理學(xué)報,44,400-412.
羅照盛,歐陽雪蓮,漆書青,戴海琦,丁樹良.(2008).項目反應(yīng)理論等級反應(yīng)模型項目信息量.心理學(xué)報,40,1212-1220.
毛秀珍,辛濤.(2011).計算機自適應(yīng)測驗選題策略述評.心理科學(xué)進展,19,1552-1562.
漆書青,戴海琦,丁樹良.(2002).現(xiàn)代教育與心理測量學(xué)原理.北京:高等教育出版社.
Chang,H.H.,& Ying,Z.L.(1996).A global information approach to computerized adaptive testing.AppliedPsychologicalMeasurement,20,213-229.
Chang,H.H.,& Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement,23,211-222.
Cheng,Y.,Chang,H.H.,Douglas,J.,& Guo,F(xiàn).M.(2009).Constraint-weighted a-stratification for computerized adaptive testing with nonstatistical constraints.EducationalandPsychologicalMeasurement,69,35-49.
Choi,S.W.,& Swartz,R.J.(2009).Comparison of CAT item selection criteria for polytomous items.AppliedPsychologicalMeasurement,33,419-440.
Dodd,B.G.,De Ayala,R.J.,& Koch,W.R.(1995).Computerized adaptive testing with polytomous items.AppliedPsychologicalMeasurement,19,5-22.
Lord,F(xiàn).M.(1977).A broad-range tailored test of verbal ability.AppliedPsychologicalMeasurement,1,95-100.
Meijer,R.R.,& Nering,M.L.(1999).Computerized adaptive testing:Overview and introduction.AppliedPsychologicalMeasurement,23,187-194.
Penfield,R.D.(2006).Applying Bayesian item selection approaches to adaptive tests using polytomous items.AppliedMeasurementinEducation,19,1-20.
Sympson,J.,& Hetter,R.(1985).Controlling item exposure rates in computerized adaptive testing.Proceedingsofthe27thannualmeetingoftheMilitaryTestingAssociation(pp.973-977).San Diego,CA:Navy Personnel Research and Development Center.
Stocking,M.L.,& Lewis,C.(1998).Controlling item exposure conditional on ability in computerized adaptive testing.JournalofEducationalandBehavioralStatistics,23,57-75.
Weiss,D.J.,& Kingsbury,G.G.(1984).Application of computerized adaptive testing to educational problems.JournalofEducationalMeasurement,21,361-375.
An Item Selection Strategy in Computerized Adaptive Testing using Harmonic Mean to Measure the Distance between Ability Estimated and Item Difficulty Vector for Polytomous Items
Wang XiaoqingLuo FenDing ShuliangXiong Jianhua
(College of Computer Information and Engineering,Jiangxi Normal University,Nanchang 330022)
Abstract:Some researches based on dichotomous model and polytomous model show that it is helpful of raising test security by making full use of the function of item Fisher information(FIFI)and item parameters.In this study,a new ISS named HMDC(Dynamic and Comprehensive Item Selection Strategies based on harmonic mean)is proposed based on Graded Response Model(GRM),its special features are(1)harmonic mean is used to measure the distance between difficulty parameter vector of an item and the estimate of ability parameter(2)the role of differentiate parameters is adjusted in the process of CAT(3)add FIFI to integrate the advantages of MFI.To compare the results of the different item selection strategy(ISS)approaches in CAT,a simulation study is conducted based on GRM.According to different distributions of the logarithm of discrimination parameter a and the difficult parameter vector b,four item pools were simulated.Three indices of ABS,Nf and Chi-square value were used to compare the different ISS approaches.The results of the simulation study show that the HMDC acquired higher the accuracy of ability estimation and lower average exposure rates than MFI,but test lengths are longer than MFI,particularly,Chi-square value is approximately one-tenth of MFI.
Key words:Graded Response Model(GRM);Computerized Adaptive Testing(CAT);Dynamic and Comprehensive Item Selection Strategies;harmonic mean
*基金項目:國家自然科學(xué)基金(31160203,31360237,31300876,31500909),教育部人文社會科學(xué)研究青年基金項目(13YJC880060),江西省教育廳青年科學(xué)基金項目(GJJ13208),江西省教育廳科學(xué)技術(shù)研究項目(GJJ150356),江西師范大學(xué)青年成長基金。
通訊作者:羅芬,E-mail:luofen312@163.com。
中圖分類號:B841.2
文獻標(biāo)識碼:A
文章編號:1003-5184(2016)03-0270-06