黎光明 張曉婷
(華南師范大學(xué)心理學(xué)院,心理應(yīng)用研究中心,廣州 510631)
垂直量尺化(vertical scaling),又名垂直量表化、垂直等值(vertical equating),是指在某個(gè)特質(zhì)領(lǐng)域內(nèi),在縱向發(fā)展的不同水平(如年齡、年級)群體之間,建立關(guān)于群體或者個(gè)體特質(zhì)水平發(fā)展?fàn)顩r的評價(jià)參照體系的過程(漆書青,戴海崎,1992)。垂直量尺化廣泛應(yīng)用于TIMSS、PISA等國際大型測驗(yàn)(羅照盛,2012;Kolen &Brennan,2013)。當(dāng)不同測驗(yàn)之間的難度水平相差較大且受測者的能力水平存在一定差距時(shí),不再滿足測驗(yàn)等值(testing equating)中的水平等值(horizontal equating)條件,宜使用垂直量尺化,其能夠有效評價(jià)和預(yù)估個(gè)體或群體動(dòng)態(tài)發(fā)展水平和趨勢,進(jìn)而為教育發(fā)展與評估提供相關(guān)建議。
垂直量尺化主要是用來描述某一群體的縱向發(fā)展水平,而水平等值需要建立各個(gè)平行測驗(yàn)之間的確切關(guān)系,相較而言,垂直量尺化的流程無需進(jìn)行最后的測驗(yàn)等值步驟,卻需將非平行測驗(yàn)轉(zhuǎn)換到同一量尺(葉昶成,2015)。對于能力不同層次的測驗(yàn)群體,比如小學(xué)1~4年級學(xué)生,必須選定一個(gè)年級作為分?jǐn)?shù)轉(zhuǎn)化的基準(zhǔn),將其他年級的分?jǐn)?shù)轉(zhuǎn)化到該年級上形成一個(gè)統(tǒng)一分?jǐn)?shù)量尺,一般稱為垂直量尺(vertical scale)或發(fā)展性量尺(developmental scale)。由于分?jǐn)?shù)轉(zhuǎn)化的算法是一個(gè)逐步疊加的過程,比如從3年級轉(zhuǎn)化到2年級再轉(zhuǎn)化到作為基準(zhǔn)的1年級,所以當(dāng)前年級距離基準(zhǔn)年級越遠(yuǎn),轉(zhuǎn)化的次數(shù)越多,受到等值方法誤差的影響可能就越大,垂直量尺化精度可能就越低(郭小軍,2014;梁正妍,2017)。因此,在實(shí)踐中通常選用處于中間的年級作為基準(zhǔn)來減少誤差。
在構(gòu)建垂直量尺的最初階段,需要選定相應(yīng)模型擬合被試的真實(shí)作答情況,針對二級計(jì)分的測驗(yàn),通常會(huì)選擇邏輯斯蒂克模型(Petersen et al.,1989)。郭小軍(2014)采用兩參數(shù)logistic模型(2PLM)進(jìn)行數(shù)據(jù)模擬,發(fā)現(xiàn)基準(zhǔn)年級的選取和年級離散程度對垂直量尺化效果產(chǎn)生較大影響。梁正妍(2017)同樣采用2PLM,探究年級離散程度與錨題比例對于垂直量尺化的影響,發(fā)現(xiàn)兩者存在交互作用。
錨題的代表性對測驗(yàn)等值的影響一直以來受到眾多研究者關(guān)注,其中典型的有錨題難度范圍的代表性(葉萌,辛濤,2015)。葉萌和辛濤(2015)對垂直量尺化中錨題代表性問題進(jìn)行了詳細(xì)的闡述,提出了錨題難度范圍的設(shè)定會(huì)影響垂直量尺化的精度,其將垂直量尺化中錨題難度范圍設(shè)置為三種水平,結(jié)果發(fā)現(xiàn)不同錨題難度范圍對垂直量尺化性能和參數(shù)返真都有影響,但其沒有在不同年級離散程度的群體中進(jìn)行探討,未能發(fā)現(xiàn)年級離散程度和基準(zhǔn)年級的設(shè)置對錨題難度范圍選取的影響。在錨題設(shè)計(jì)中,如何選取難度合適的題目構(gòu)成錨題是實(shí)踐中的關(guān)鍵問題和難點(diǎn)。由于錨題處于低年級測驗(yàn)的結(jié)尾和高年級測驗(yàn)的開始位置,如果錨題選取不當(dāng),則會(huì)出現(xiàn)項(xiàng)目參數(shù)漂移(item parameter drift),即同樣的題目在兩個(gè)位置發(fā)揮不同的作用,從而降低垂直量尺化的精度(Wells et al.,2002)。過往的研究和實(shí)踐中錨題是從低年級測驗(yàn)中隨機(jī)抽取的,不能保證難度的代表性。對于如何設(shè)置錨題難度范圍這一問題,Sinharay和Holland(2006,2007)研究發(fā)現(xiàn),在題目難度和測驗(yàn)特征的關(guān)系中沒有表明微型錨測驗(yàn)(錨題與總測驗(yàn)難度范圍相匹配)是理想的錨測驗(yàn),其設(shè)置了三種難度范圍的錨測驗(yàn),分別是微型錨測驗(yàn)、midi錨測驗(yàn)(在內(nèi)容上對總測驗(yàn)具有代表性,但只包括中等難度的題目)以及半midi測驗(yàn)(難度范圍小于微型測驗(yàn),但大于midi測驗(yàn)),結(jié)果顯示midi錨測驗(yàn)和總測驗(yàn)的相關(guān)穩(wěn)定性高于微型錨測驗(yàn)和總測驗(yàn)的相關(guān)穩(wěn)定性,midi錨的性能和微型錨的性能一樣,后續(xù)的研究也驗(yàn)證了這一結(jié)論(Liu et al.,2011)。Chin等(2006)在垂直量尺化中將錨題難度范圍設(shè)定為小中大三個(gè)等級,結(jié)果發(fā)現(xiàn)不同錨題難度范圍對垂直量尺化性能和參數(shù)返真都有影響,難度范圍擴(kuò)大會(huì)使這兩種分析結(jié)果更準(zhǔn)確??梢?在實(shí)際應(yīng)用中設(shè)置錨題難度范圍的標(biāo)準(zhǔn)是十分重要的。
前人對于垂直量尺化影響因素的研究較為深入,分別從被試數(shù)量、題目數(shù)量、年級數(shù)量、基準(zhǔn)年級、年級離散程度、錨題比例、難度范圍等方面對垂直量尺化的影響進(jìn)行了較為深入的探討。但是,前人的相關(guān)研究仍然存在以下問題:一是多采用兩參數(shù)logistic模型(2PLM)來估計(jì)項(xiàng)目參數(shù)和能力參數(shù),未能估計(jì)猜測參數(shù)c,實(shí)際上,相比2PLM,三參數(shù)logistic模型(3PLM)更加適用于可猜測作答的選擇題等客觀題型(戴海琦,張峰,2018),使用范圍增大,可能將提高垂直量尺化的精確性;二是對于錨題的代表性研究,未能同時(shí)關(guān)注“錨題難度范圍”和“基準(zhǔn)年級選取”,缺乏探討對于不同基準(zhǔn)年級下錨題難度范圍與年級離散程度對垂直量尺化的影響,這對于錨題設(shè)計(jì)下的垂直量尺化研究來說,是可以深入分析的方向。
基于此,本文對錨題的選取提出了更高的要求,以不同錨題難度范圍和不同基準(zhǔn)年級“聯(lián)合作用”為突破點(diǎn),使用3PLM,探討不同基準(zhǔn)年級下錨題難度范圍與年級離散程度對垂直量尺化的影響。
采用2×3×3三因素隨機(jī)實(shí)驗(yàn)設(shè)計(jì),自變量1為基準(zhǔn)年級(邊緣年級,中間年級);自變量2為錨題難度范圍(較小[μlow,μhigh]、中等[μlow-σ,μhigh+σ]、較大[μlow-2σ,μhigh+2σ]);自變量3為年級離散程度(相鄰年級間效應(yīng)ES大小:0.5、1.0、1.5)。因變量為等值精度指標(biāo)Bias和RMSE(Briggs &Peck,2015;Briggs &Dadey,2015)。
(1)基準(zhǔn)年級。對于基準(zhǔn)年級的選擇一般有兩種,即邊緣年級(低年級或高年級)和中間年級。本文設(shè)定了四個(gè)年級,對于基準(zhǔn)年級,邊緣年級為1年級,中間年級為2年級。采用非等組錨題設(shè)計(jì),錨題為相鄰年級共用的題目。
(2)錨題難度范圍。依據(jù)Chin等(2006)選取標(biāo)準(zhǔn),分別選取錨題難度范圍較小(兩個(gè)相鄰年級能力均值之間),錨題難度范圍中等(低于低年級群體能力均值一個(gè)標(biāo)準(zhǔn)差和高于高年級群體能力均值一個(gè)標(biāo)準(zhǔn)差之間),錨題難度范圍較大(低于低年級群體能力均值兩個(gè)標(biāo)準(zhǔn)差和高于高年級群體能力均值兩個(gè)標(biāo)準(zhǔn)差之間),作為錨題難度范圍的指標(biāo)。
(3)年級離散程度。垂直量尺化的結(jié)果一般從三個(gè)角度進(jìn)行評價(jià),即跨年級增長(grade-to-grade growth)、跨年級變異(grade-to-grade variability),以及年級間的離散程度(separation of grade distribution)。其中,年級間的離散程度應(yīng)用最為廣泛,是指兩個(gè)相鄰年級的量尺分?jǐn)?shù)分布的重疊程度,俗稱為“年級離散程度”。多數(shù)研究使用效應(yīng)大小(Effect Size,ES)這一統(tǒng)計(jì)量來表示年級離散程度(Yen,1986),其計(jì)算公式為:
(1)
(4)固定變量。蔡艷等(2009)通過固定被試數(shù)和測驗(yàn)長度,得出當(dāng)測驗(yàn)長度為100時(shí)錨題比例最低可達(dá)14.29%。熊建華等(2010)提出當(dāng)測驗(yàn)長度為600、300、200、100題時(shí),相應(yīng)比例可以降低到1/15、1/12、1/10、1/5。參考前人研究,本文錨題比例固定為20%。題目數(shù)固定為100,年級人數(shù)固定為1000。
分別以低年級和中間年級作為參照基準(zhǔn),使用自編R3.0程序,基于蒙特卡洛模擬法,采用三參數(shù)logistic模型獲得四個(gè)不同年級組被試在本年級上的作答矩陣。模擬四個(gè)年級上各100道題目的項(xiàng)目參數(shù)以及各年級1000名被試的能力參數(shù)。使用BILOG-MG軟件進(jìn)行同時(shí)估計(jì)(Yildirim,2014),計(jì)算不同錨題難度范圍以及不同年級離散程度下4個(gè)年級的偏差Bias和返真性參數(shù)RMSE。
以低年級為基準(zhǔn)年級為例,具體模擬過程見圖1。
圖1 基準(zhǔn)年級為低年級時(shí)模擬流程圖
常用的垂直量尺化評價(jià)指標(biāo)為Bias和RMSE。
(1)Bias,即平均偏差,是考察真值與估計(jì)值之間偏差的一個(gè)指標(biāo),其主要用于檢測研究中是否含有系統(tǒng)誤差,以及偏差的方向性問題。Bias值為正,代表低估,Bias值為負(fù),代表高估。
(2)
(2)RMSE,即均方根誤差(Root Mean Square Error),是真值與觀測值偏差的平方和觀測次數(shù)n比值的平方根。均方根誤差對一組測量中的特大或特小誤差反映非常敏感,所以能夠很好地反映出估計(jì)的精度。RMSE是對一組測量數(shù)據(jù)可靠性的估計(jì)。RMSE越小,測量的可靠性越大,估計(jì)精度就越高。
(3)
圖2和圖3為各條件下項(xiàng)目參數(shù)、被試能力參數(shù)Bias折線圖。
圖2 基準(zhǔn)年級為低年級時(shí)不同條件下各年級項(xiàng)目與能力參數(shù)Bias值折線圖
圖3 基準(zhǔn)年級為中間年級時(shí)不同條件下各年級項(xiàng)目與能力參數(shù)Bias值折線圖
由圖2a~圖2d可知,基準(zhǔn)年級為低年級時(shí),對于各年級項(xiàng)目參數(shù)而言,會(huì)出現(xiàn)普遍高估的情況,對于被試能力參數(shù)來說,會(huì)出現(xiàn)普遍低估的情況。隨著與基準(zhǔn)年級距離的逐漸增大,各參數(shù)的估計(jì)精度也逐漸下降,且在年級4上的表現(xiàn)尤為明顯。究其因,是由于錨題設(shè)計(jì)下垂直量尺化通過等值公式進(jìn)行累加轉(zhuǎn)換,離基準(zhǔn)年級越遠(yuǎn),轉(zhuǎn)換的次數(shù)就越多,其估計(jì)的誤差就越大。由此可知,錨題設(shè)計(jì)下垂直量尺化的轉(zhuǎn)換不宜超過兩個(gè)年級,此結(jié)果與郭小軍(2014)的研究結(jié)果相似。
由圖3a~圖3d可知,基準(zhǔn)年級為中間年級時(shí),對于區(qū)分度參數(shù)a和被試能力參數(shù)θ而言,其Bias值時(shí)正時(shí)負(fù),說明對參數(shù)的估計(jì)會(huì)出現(xiàn)忽高忽低的情況。對于難度參數(shù)b和猜測度參數(shù)c則傾向于高估,這種情況可能與基準(zhǔn)年級的改變有關(guān)。與此同時(shí),以中間年級為基準(zhǔn)年級時(shí),除區(qū)分度參數(shù)外,對其他參數(shù)的估計(jì),年級1產(chǎn)生的Bias值始終大于年級3。這兩個(gè)年級的錨題均從年級2上選取,在垂直量尺化過程中的轉(zhuǎn)換次數(shù)也相同,唯一區(qū)別在于:對于年級1來說,其錨題是從比自身高的年級上選取的,對于年級3來說,其錨題是從比自身低的年級上選取的。因此,根據(jù)Bias結(jié)果,這表明在垂直量尺化中,從高年級選取錨題會(huì)比從低年級選取錨題產(chǎn)生更大誤差。
綜合圖2和圖3,對比發(fā)現(xiàn),基準(zhǔn)年級為中間年級時(shí),各參數(shù)的Bias的絕對值明顯小于基準(zhǔn)年級為低年級時(shí),說明以中間年級為基準(zhǔn)進(jìn)行的垂直量尺化,將會(huì)產(chǎn)生更小的估計(jì)誤差。
圖4和圖5為各條件下項(xiàng)目參數(shù)、被試能力參數(shù)RMSE折線圖。
圖4 基準(zhǔn)年級為低年級時(shí)不同條件下各年級項(xiàng)目與能力參數(shù)RMSE值折線圖
圖5 基準(zhǔn)年級為中間年級時(shí)不同條件下各年級項(xiàng)目與能力參數(shù)RMSE值折線圖
基準(zhǔn)年級為低年級時(shí),對于區(qū)分度參數(shù)a(圖4a),年級離散程度為0.5和1.0時(shí)參數(shù)估計(jì)精度差別不大,且均好于年級離散程度為1.5。對于猜測度參數(shù)c(圖4c),三種年級離散程度下的參數(shù)估計(jì)精度相差不大。然而,對于難度參數(shù)b(圖4b)和被試能力參數(shù)θ(圖4d),均當(dāng)離散程度為0.5時(shí),估計(jì)精度最好;年級離散程度為1.0和1.5時(shí),在個(gè)別情況下均存在較大誤差。因此,綜合看來,在基準(zhǔn)年級為低年級時(shí),對于所有參數(shù),年級離散程度為0.5時(shí)估計(jì)精度最好,年級離散程度為1.0時(shí)次之,年級離散程度為1.5時(shí)最差。
在基準(zhǔn)年級為低年級時(shí),對于區(qū)分度參數(shù)a(圖4a),中等或較大錨題難度范圍下的估計(jì)精度較好,較小難度范圍下估計(jì)精度最差。對于難度參數(shù)b(圖4b),較大錨題難度范圍下的估計(jì)精度較好,中等范圍次之,較小難度范圍下估計(jì)精度最差。對于猜測度參數(shù)c(圖4c),較小或較大難度范圍下的估計(jì)精度較好,中等范圍次之,但總體來說三種錨題難度范圍下的猜測度參數(shù)估計(jì)結(jié)果相差不大。對于被試能力參數(shù)θ(圖4d),中等或較大難度范圍下的估計(jì)精度較好,較小范圍次之。因此,綜合看來,在基準(zhǔn)年級為低年級時(shí),較大難度范圍下的參數(shù)估計(jì)精度最佳,參數(shù)返真性最好,中等范圍次之,較小范圍最差。
在基準(zhǔn)年級為低年級時(shí),對于區(qū)分度參數(shù)a(圖4a),年級離散程度為0.5時(shí),對于年級1、2,較大錨題難度范圍下的結(jié)果最佳,對于年級3,中等范圍最好,對于年級4,較小范圍最好。年級離散程度為1.0時(shí),對于年級1、2、3,中等錨題難度范圍下的效果最好,對年級4較大范圍最好。年級離散程度為1.5時(shí),只有較小錨題難度范圍下的結(jié)果收斂。對于難度參數(shù)b(圖4b),年級離散程度為0.5時(shí),在各年級上,三種錨題難度范圍下的結(jié)果差別不大。年級離散程度為1.0時(shí),年級1、2、3在較大錨題難度范圍下表現(xiàn)最好,年級4在較小錨題難度范圍下表現(xiàn)最好。年級離散程度為1.5時(shí),只有較小難度范圍下的結(jié)果收斂。對于猜測度參數(shù)c(圖4c),在各年級離散程度與錨題難度范圍下,4個(gè)年級結(jié)果差別不大。對于被試能力參數(shù)θ(圖4d),年級離散程度為0.5時(shí),三種錨題難度范圍下被試表現(xiàn)差別不大。年級離散程度為1.0時(shí),在中等和較大錨題難度范圍下,4個(gè)年級表現(xiàn)均較好,較小方范圍產(chǎn)生的誤差最大。年級離散程度為1.5時(shí),只有較小錨題難度范圍下的結(jié)果收斂。
基準(zhǔn)年級為中間年級時(shí),對于區(qū)分度參數(shù)a(圖5a),當(dāng)年級離散程度為0.5時(shí),估計(jì)精度最好;當(dāng)年級離散程度為1.0時(shí)次之,而當(dāng)年級離散程度為1.5時(shí),結(jié)果不夠穩(wěn)定,在各個(gè)年級上起伏較大。對于難度參數(shù)b(圖5b),當(dāng)年級離散程度為0.5和1.0時(shí),估計(jì)精度均較好;而當(dāng)年級離散程度為1.5時(shí),結(jié)果不夠穩(wěn)定,在各個(gè)年級上起伏較大。對于猜測度參數(shù)c(圖5c),年級離散程度為0.5和1.0時(shí)參數(shù)估計(jì)精度差別不大,且均好于年級離散程度為1.5時(shí)參數(shù)估計(jì)的精度。對于被試能力參數(shù)θ(圖5d),當(dāng)年級離散程度為0.5時(shí),估計(jì)精度最好;當(dāng)年級離散程度為1.0時(shí)個(gè)別條件下誤差較大;當(dāng)年級離散程度為1.5時(shí),估計(jì)精度不如其他兩種情況。因此,綜合看來,在基準(zhǔn)年級為中間年級時(shí),年級離散程度為0.5時(shí)估計(jì)精度最好,年級離散程度為1.0時(shí)次之,年級離散程度為1.5時(shí)最差。
在基準(zhǔn)年級為中間年級時(shí),對于區(qū)分度參數(shù)a(圖5a),中等或較大難度范圍下估計(jì)精度較好,較小錨題難度范圍下估計(jì)的誤差不穩(wěn)定。對于難度參數(shù)b(圖5b),中等難度范圍下估計(jì)精度較好,較大范圍次之,較小難度范圍下估計(jì)精度最差。對于猜測度參數(shù)c(圖5c),中等及較大難度范圍下估計(jì)精度較好,較小范圍次之。對于被試能力參數(shù)θ(圖5d),中等難度范圍下的估計(jì)精度較好,較小或較大難度范圍下的估計(jì)結(jié)果均在個(gè)別條件下存在較大誤差。因此,綜合看來,在基準(zhǔn)年級為中間年級時(shí),中等難度范圍下的參數(shù)估計(jì)精度最佳,參數(shù)返真性最好,較大范圍次之,較小范圍最差。
在基準(zhǔn)年級為中間年級時(shí),對于區(qū)分度參數(shù)a(圖5a),年級離散程度為0.5時(shí),對于年級1、2、3,較大錨題難度范圍下的結(jié)果最佳,對于年級4,較小范圍最好。在年級離散程度為1.0時(shí),對于各年級,較小難度范圍下的效果最好,但中等難度范圍下的效果與之差別不大。在年級離散程度為1.5時(shí),對于各年級,中等難度范圍下的效果最好。對于難度參數(shù)b(圖5b),年級離散程度為0.5和1.0時(shí),各年級在三種的估計(jì)結(jié)果差別不大。在年級離散程度為1.5時(shí),對于各年級,中等難度范圍下的結(jié)果最好。對于猜測度參數(shù)c(圖5c),年級離散程度為0.5和1.0時(shí),對于各年級,三種錨題難度范圍下的誤差均較小。在年級離散程度為1.5時(shí),對于各年級,中等或較大錨題難度范圍下的結(jié)果均較好。對于被試能力參數(shù)θ(圖5d),年級離散程度為0.5時(shí),各年級在三種錨題難度范圍下的被試表現(xiàn)差別不大。在年級離散程度為1.0和1.5時(shí),各年級在中等錨題難度范圍下的表現(xiàn)最好。
綜合圖4和圖5,對比發(fā)現(xiàn),當(dāng)基準(zhǔn)年級為中間年級時(shí),RMSE整體誤差小于基準(zhǔn)年級為低年級時(shí)產(chǎn)生的誤差。
當(dāng)基準(zhǔn)年級為中間年級時(shí),Bias和RMSE的整體誤差均小于基準(zhǔn)年級為低年級時(shí)產(chǎn)生的誤差。這表明,基準(zhǔn)年級的選擇會(huì)影響垂直量尺化的結(jié)果。錨題設(shè)計(jì)下的垂直量尺化過程是一個(gè)累加轉(zhuǎn)換的過程,換言之,由于只有相鄰年級間存在錨題,因而與基準(zhǔn)年級較遠(yuǎn)的年級需要經(jīng)過層層轉(zhuǎn)換,最終轉(zhuǎn)換到基準(zhǔn)年級上,而多次的轉(zhuǎn)換勢必造成偏差的累加,正因?yàn)榇嬖谶@種“累積效應(yīng)”,所以通常需要選擇中間年級作為基準(zhǔn)年級(Yen et al.,2012)。
當(dāng)基準(zhǔn)年級為中間年級時(shí),到高年級和低年級的垂直量尺轉(zhuǎn)化是方便的。如果選擇以低年級或高年級作為基準(zhǔn)年級,則有可能加大垂直量尺轉(zhuǎn)化難度,顯得“路途遙遠(yuǎn)”,而以基準(zhǔn)年級選擇為中間年級,顯得更為方便。因此,在教育與心理實(shí)踐中,為了更加關(guān)注學(xué)生的連續(xù)發(fā)展和學(xué)業(yè)上的進(jìn)步模式,或?yàn)榱烁雨P(guān)注學(xué)生在不同學(xué)年的進(jìn)步表現(xiàn),年級與年級之間的垂直量尺轉(zhuǎn)化選擇以“中間模式”較好,以防止垂直量尺化過程中產(chǎn)生更大的誤差。
整體而言,當(dāng)年級離散程度為0.5時(shí),估計(jì)精度最好,且隨著年級離散程度的增大,估計(jì)精度隨之下降。當(dāng)年級離散程度為1.5時(shí),估計(jì)精度極不穩(wěn)定,甚至出現(xiàn)了數(shù)據(jù)無法收斂的情況。特別地,即使以中間年級作為基準(zhǔn)年級,雖然沒有出現(xiàn)類似以低年級為基準(zhǔn)年級時(shí)無法收斂的情形,但在年級4上也出現(xiàn)了一些極不穩(wěn)定的Bias和RMSE值,特別是在難度參數(shù)和能力參數(shù)上,形成若干Bias和RMSE“極端值”。
基于非等組錨題設(shè)計(jì),以低年級為基準(zhǔn)年級時(shí),在Bias和RMSE上,出現(xiàn)較多的無法收斂的情況,其原因是由于年級離散程度過大,年級與年級之間的“異質(zhì)性”增加,不同年級學(xué)生的“能力差異”就會(huì)不斷放大,造成“分?jǐn)?shù)偏差”增加,最終導(dǎo)致難以相互轉(zhuǎn)化(Ye &Xin,2014)。同樣地,以中間年級為基準(zhǔn)年級時(shí),雖然情況有一定的好轉(zhuǎn),但也出現(xiàn)了較多的偏差“極值”。如果轉(zhuǎn)換超過兩個(gè)年級,那么垂直量尺化精度開始下降。特別地,在年級4上出現(xiàn)了若干Bias和RMSE“極值”?;诖?在教育與心理實(shí)踐中,如追蹤監(jiān)測學(xué)生的學(xué)業(yè)進(jìn)展,進(jìn)行垂直量尺化時(shí),建議與基準(zhǔn)年級間隔不宜超過2個(gè)年級。
年級離散程度為0.5時(shí),垂直量尺化精度最好,年級離散程度為1.0時(shí)次之,年級離散程度為1.5時(shí),垂直量尺化精度最差。在3PLM下,不同基準(zhǔn)年級下,年級離散程度越小,估計(jì)精度越好,這與前人使用2PLM得出的結(jié)果是一致的(梁正妍,2017;郭小軍,2014)。年級離散程度越大,對于距離基準(zhǔn)年級越遠(yuǎn)的年級,垂直量尺化精度越低。因此,在實(shí)際的教育與心理測量實(shí)踐中,年級離散程度不宜過大,否則會(huì)影響垂直量尺化的精度。
實(shí)際上,在使用項(xiàng)目反應(yīng)理論方法進(jìn)行垂直量尺化時(shí),需要滿足兩大潛在假設(shè):一是年級內(nèi)的測驗(yàn)單維性(Unidimensionality);二是年級間測驗(yàn)同構(gòu)性(Construct invariance)(Li,2011;Martineau,2004)。單維性是指每道題目只測量單一的潛在能力特質(zhì);同構(gòu)性是指不同年級水平或難度水平的測驗(yàn)維持相同的內(nèi)容結(jié)構(gòu)(Li &Lissitz,2012;Reckase &Martineau,2004)。在垂直量尺化實(shí)踐中,普遍涉及到3~6個(gè)年級的多組學(xué)生和試題。在試題層面,所考察的知識(shí)點(diǎn)跨度較大,因此跨年級同構(gòu)性假設(shè)一般較難滿足。Martineau(2006)最初用結(jié)構(gòu)漂移(Construct shift)一詞來描述違背同構(gòu)性假設(shè)的現(xiàn)象。以數(shù)學(xué)測驗(yàn)為例,在進(jìn)行垂直量尺化時(shí),3年級題目和6年級題目雖然都是考察數(shù)學(xué)知識(shí),但是具體考察的知識(shí)點(diǎn)可能是很不一樣的。
隨著與基準(zhǔn)年級距離的逐漸增大,各參數(shù)的估計(jì)精度也逐漸下降,在年級4上表現(xiàn)尤為明顯,說明錨題設(shè)計(jì)下的累加轉(zhuǎn)換確實(shí)會(huì)降低估計(jì)精度。當(dāng)基準(zhǔn)年級為低年級時(shí),為了提高垂直量尺化的估計(jì)精度,就需要有較大的錨題難度范圍,這是因?yàn)殄^題難度范圍較大,低一年級學(xué)生的題目與上一年級學(xué)生的題目重疊可能更多,那么這對于低一年級的學(xué)生而言,這是有利的,從而使得垂直量尺化更為順利。實(shí)際上,作為低一級年級的學(xué)生可能缺乏能力來完成上一年級學(xué)生的題目,但若錨題難度范圍不斷變大,則較有可能完成上一年級學(xué)生的題目(Lao,2015)。但是,當(dāng)基準(zhǔn)年級為中間年級時(shí),因?yàn)槠湟騼蛇厰U(kuò)充,既要“沖上”(向年級3和年級4轉(zhuǎn)化),又要“沖下”(向年級1轉(zhuǎn)化),所以難度范圍的設(shè)置不能過于“寬”,也不能過于“窄”,中等的錨題難度范圍則相對更好。
由此可見,在不同的基準(zhǔn)年級下進(jìn)行垂直量尺化,對于錨題難度范圍的選取要求不同。當(dāng)基準(zhǔn)年級為低年級時(shí),建議選取較大的錨題難度范圍;當(dāng)基準(zhǔn)年級為中間年級時(shí),建議選取中等的錨題難度范圍。但是,從高年級選取錨題會(huì)比從低年級選取錨題產(chǎn)生更大誤差,這是因?yàn)楦呒墝W(xué)生做低年級學(xué)生題目是相對容易的,但低年級學(xué)生做高年級學(xué)生題目則是相對困難的?;诖?在教育與心理實(shí)踐中,為了比較不同年級學(xué)生學(xué)業(yè)能力的發(fā)展軌跡,設(shè)置有利于低年級學(xué)生的錨題難度范圍,對垂直量尺化可能更為受益。
以低年級作為基準(zhǔn)年級,在年級離散程度為0.5時(shí),年級1、2更適合錨題難度較大范圍,年級3更適合錨題難度中等范圍,年級4更適合錨題難度較小范圍。在年級離散程度為1.0時(shí),年級1、2、3選擇錨題難度中等或較大范圍均可,年級4的表現(xiàn)則非常不穩(wěn)定,無法選取最佳錨題難度范圍。在年級離散程度為1.5時(shí),只有選取錨題難度較小范圍,才能進(jìn)行可靠的垂直量尺化。若需要4個(gè)年級統(tǒng)一選擇相同的錨題難度范圍,則建議:當(dāng)基準(zhǔn)年級為低年級時(shí),年級離散程度為0.5時(shí),選擇錨題難度較大范圍;當(dāng)年級離散程度為1.0時(shí),選擇錨題難度中等或較大范圍;年級離散程度為1.5時(shí),選擇錨題難度較小范圍。
以中間年級作為基準(zhǔn)年級,在年級離散程度為0.5時(shí),年級1、2、3更適合錨題難度較大范圍,年級4更適合錨題難度較小范圍。在年級離散程度為1.0時(shí),各年級選擇錨題難度較小或中等范圍均可。在年級離散程度為1.5時(shí),各年級更適合錨題難度中等范圍。若需要4個(gè)年級統(tǒng)一選擇相同的錨題難度范圍,則建議:當(dāng)基準(zhǔn)年級為中間年級時(shí),年級離散程度為0.5時(shí),選擇錨題難度較大范圍;當(dāng)年級離散程度為1.0時(shí),選擇錨題難度較小或中等范圍;當(dāng)年級離散程度為1.5時(shí),選擇錨題難度中等范圍。
綜上所述,基于不同基準(zhǔn)年級,年級離散程度與錨題難度范圍存在交互效應(yīng)(見表1)。
表1 不同基準(zhǔn)年級下年級離散程度與錨題難度范圍的交互效應(yīng)
(1)基準(zhǔn)年級的選擇會(huì)影響垂直量尺化的精度。選擇以中間年級為基準(zhǔn)進(jìn)行垂直量尺化,將會(huì)使得垂直量尺化的結(jié)果保持在一個(gè)較好的精度。
(2)錨題設(shè)計(jì)下垂直量尺化的轉(zhuǎn)換不宜超過兩個(gè)年級。如果轉(zhuǎn)換超過兩個(gè)年級,那么垂直量尺化精度開始下降。特別地,在年級4上出現(xiàn)了若干Bias和RMSE“極值”,建議與基準(zhǔn)年級間隔不宜超過2個(gè)年級。
(3)不同基準(zhǔn)年級下,年級離散程度越小,估計(jì)精度越好。年級離散程度為0.5時(shí),垂直量尺化精度最好,年級離散程度為1.0時(shí)次之,年級離散程度為1.5時(shí),精度最差。
(4)不同基準(zhǔn)年級下,對錨題難度范圍的選擇應(yīng)有所不同。當(dāng)基準(zhǔn)年級為低年級時(shí),錨題難度較大范圍時(shí)垂直量尺化精度最好。當(dāng)基準(zhǔn)年級為中間年級時(shí),錨題難度中等范圍時(shí)垂直量尺化精度最好。
(5)年級離散程度與錨題難度范圍之間存在交互效應(yīng)。在不同基準(zhǔn)年級與不同年級離散程度下,對于錨題難度范圍的選擇應(yīng)該有所不同。