亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國(guó)際大型測(cè)評(píng)項(xiàng)目中等值技術(shù)的應(yīng)用與啟示

        2017-11-07 00:48:27王燁暉張纓斌楊濤辛濤
        中國(guó)考試 2017年8期
        關(guān)鍵詞:設(shè)計(jì)學(xué)生

        王燁暉 張纓斌 楊濤 辛濤

        (北京師范大學(xué),北京 100875)

        國(guó)際大型測(cè)評(píng)項(xiàng)目中等值技術(shù)的應(yīng)用與啟示

        王燁暉 張纓斌 楊濤 辛濤

        (北京師范大學(xué),北京 100875)

        國(guó)際大型測(cè)評(píng)項(xiàng)目在年度內(nèi)題本等值時(shí),主要采用同時(shí)估計(jì)的方法實(shí)現(xiàn)對(duì)題目參數(shù)的估計(jì),并使用似真值實(shí)現(xiàn)對(duì)學(xué)生個(gè)體能力的報(bào)告,各個(gè)測(cè)評(píng)項(xiàng)目之間的等值設(shè)計(jì)與處理相對(duì)統(tǒng)一與一致。在年度間等值時(shí),不同的項(xiàng)目,依據(jù)各自的設(shè)計(jì)特點(diǎn),采用錨題或錨人的方法,使用同時(shí)估計(jì),并通過(guò)線性轉(zhuǎn)換將學(xué)生能力分?jǐn)?shù)置于同一量尺上,實(shí)現(xiàn)年度間分?jǐn)?shù)的比較。依據(jù)我國(guó)國(guó)情,建議采用錨題與錨人相結(jié)合的等值設(shè)計(jì)方式實(shí)現(xiàn)年度間測(cè)評(píng)結(jié)果的鏈接。

        等值;鏈接;題本設(shè)計(jì);大規(guī)模測(cè)評(píng)

        國(guó)際大型測(cè)評(píng)項(xiàng)目日益受重視,不僅因其有助于人們?cè)u(píng)估學(xué)生的學(xué)習(xí)現(xiàn)狀和教育目標(biāo)的達(dá)成情況,還因其有助于研究者全面考察學(xué)生發(fā)展的影響因素,為教育政策的制定提供客觀依據(jù)。但這些測(cè)試都面臨著同樣的問(wèn)題——廣泛的測(cè)試內(nèi)容與有限的測(cè)試時(shí)間之間的矛盾。為了解決該問(wèn)題,矩陣抽樣的多題本設(shè)計(jì)技術(shù)應(yīng)運(yùn)而生:根據(jù)測(cè)試內(nèi)容開(kāi)發(fā)一套完整的試題,然后把試題劃分成若干小套試題,每一小套試題就是一個(gè)題本,每個(gè)學(xué)生只作答其中的一個(gè)題本[1]。為了讓學(xué)生的測(cè)試分?jǐn)?shù)具有可比性,就需要運(yùn)用等值技術(shù),把作答不同題本的學(xué)生的測(cè)試分?jǐn)?shù)鏈接(linking)到同一量尺上,即年度內(nèi)等值。

        僅憑一次測(cè)試結(jié)果,并不能提供充足而穩(wěn)定的信息。國(guó)際大型測(cè)評(píng)項(xiàng)目越來(lái)越重視開(kāi)展追蹤或趨勢(shì)研究。從2003年國(guó)際教育成就評(píng)價(jià)協(xié)會(huì)(In?ternational Association for the Evaluation of Education?al Achievement)將其負(fù)責(zé)的一個(gè)項(xiàng)目的名稱由Third International Mathematics and Science Study變更為T(mén)rends in International Mathematics and Science Study可以看出,趨勢(shì)研究已成為T(mén)IMSS的一個(gè)關(guān)注點(diǎn)。和年度內(nèi)等值類似,若需要分析學(xué)生測(cè)試表現(xiàn)的發(fā)展趨勢(shì),就得保證不同年度的測(cè)試分?jǐn)?shù)具有可比性。此時(shí),也需要用到等值技術(shù),將不同年份學(xué)生的測(cè)試分?jǐn)?shù)轉(zhuǎn)換到同一量尺上,即年度間等值。

        1 年度內(nèi)等值

        1.1 PISA

        1.1.1 題本設(shè)計(jì)

        在2012年及之前,PISA采用平衡的不完全組塊設(shè)計(jì)(balanced incomplete block design,BIB)進(jìn)行題本的設(shè)計(jì)。以2012年為例,所有題目組成13個(gè)題組:7個(gè)數(shù)學(xué)題組,3個(gè)閱讀題組和3個(gè)科學(xué)題組。在將題目分配到各題組中時(shí),一方面會(huì)盡量使每個(gè)題組所需的作答時(shí)間相同;另一方面,會(huì)使同一科目不同題組所含的題目在內(nèi)容維度和認(rèn)知維度上的分布盡量相近。不同題組間無(wú)相同題目。劃分好題組后,4個(gè)題組構(gòu)成一個(gè)題本,題組的兩兩組合在所有題本中均不重復(fù),共有13個(gè)題本。每個(gè)題組在題本的4個(gè)組塊位置均出現(xiàn)一次,以平衡可能存在的順序效應(yīng)。在這種設(shè)計(jì)中,大部分題本在不同科目上的題量存在差異,這種差異有可能給學(xué)生作答帶來(lái)影響[2]。為了降低這種影響,PISA2015的題本設(shè)計(jì)中,大部分題本只考查某兩個(gè)科目,且兩個(gè)科目的題量相同。由于一個(gè)題本只能考查兩個(gè)科目,PISA2015的紙筆作答題本數(shù)量多達(dá)30個(gè)。

        1.1.2 等值方法

        PISA在進(jìn)行年度內(nèi)等值時(shí)采用的是同時(shí)標(biāo)定法,在一次參數(shù)估計(jì)過(guò)程中同時(shí)估計(jì)所有題本的題目參數(shù)和能力參數(shù)[3]。具體做法為:將兩個(gè)或更多題本的數(shù)據(jù)合并,對(duì)其中由于題本設(shè)計(jì)造成的缺失,在估計(jì)軟件中將相關(guān)題目標(biāo)識(shí)為未施測(cè)。以PISA2012為例,首先從每個(gè)國(guó)家隨機(jī)選取500個(gè)學(xué)生,組成一個(gè)標(biāo)定樣本;其次,根據(jù)標(biāo)定樣本的作答數(shù)據(jù)標(biāo)定所有題目參數(shù);最后,根據(jù)題目參數(shù)估計(jì)所有學(xué)生的能力參數(shù)(似真值①除了IRT模型、題目參數(shù)和學(xué)生作答數(shù)據(jù),PISA、TIMSS和NAEP還會(huì)結(jié)合一些背景變量(或?qū)Ρ尘白兞窟M(jìn)行主成分分析后提取得到的變量),對(duì)學(xué)生的能力參數(shù)分布進(jìn)行估計(jì)。然后,從能力參數(shù)分布中抽出5個(gè)值代表學(xué)生能力。這5個(gè)值被稱為學(xué)生能力的似真值(plausible value)。)。

        PISA2015中,仍然采用同時(shí)標(biāo)定法,但與以往的做法有3點(diǎn)不同:(1)以往PISA采用單參數(shù)模型(包括one parameter logistic model和partial credit model,即1PLM和PCM),PISA2015采用的是兩參數(shù)模型(包括two parameter logistic model和generalized partial credit model,即 2PLM 和 GPCM);(2)以往PISA在分析試題時(shí),限定所有參與國(guó)家和地區(qū)共享相同的題目參數(shù),即題目具有測(cè)量不變性。如果在事先的檢驗(yàn)中發(fā)現(xiàn)某個(gè)題目在某個(gè)國(guó)家或地區(qū)上出現(xiàn)項(xiàng)目功能差異(differential item functioning,DIF),在標(biāo)定題目參數(shù)時(shí),該題會(huì)被設(shè)置成未施測(cè)給這個(gè)國(guó)家或地區(qū)的被試。相應(yīng)地,在估計(jì)這個(gè)國(guó)家或地區(qū)的被試能力參數(shù)時(shí),不使用這道題目。而PISA2015在標(biāo)定題目參數(shù)時(shí),在保證具有測(cè)量不變性的題目數(shù)量足夠多的前提下,允許少量有DIF的題目在施測(cè)國(guó)家或地區(qū)偏離國(guó)際參數(shù)。一些研究認(rèn)為這種做法在保證測(cè)驗(yàn)分?jǐn)?shù)具有跨國(guó)家和地區(qū)可比性的同時(shí),能提高測(cè)驗(yàn)公平性[4];(3)PISA2015中的標(biāo)定樣本不僅包括2015年度的參與國(guó)家和地區(qū)的學(xué)生,還包括往年參加PISA測(cè)試的學(xué)生[5]。

        1.2 NAEP

        1.2.1 題本設(shè)計(jì)

        NAEP主要包括國(guó)家測(cè)試、州測(cè)試、閱讀和數(shù)學(xué)的長(zhǎng)期趨勢(shì)測(cè)試等幾種類型,其題本設(shè)計(jì)主要為平衡的不完全組塊設(shè)計(jì)(BIB)和部分平衡的不完全組塊設(shè)計(jì)(partial balanced incomplete block design,pBIB)。不同學(xué)科、不同類型的測(cè)試會(huì)根據(jù)需要采用其中一種設(shè)計(jì)方式。BIB設(shè)計(jì)能夠保證所有題組在各個(gè)組塊出現(xiàn)次數(shù)相同,并且不同題組之間的組合頻率相同。而pBIB設(shè)計(jì)則無(wú)法滿足這樣的要求。以NAEP2012數(shù)學(xué)長(zhǎng)期測(cè)試采用的pBIB設(shè)計(jì)為例(見(jiàn)表1),每個(gè)題組在不同組塊出現(xiàn)的次數(shù)不同,如題組M21在組塊1和組塊3上都出現(xiàn)了兩次,但在組塊2上只出現(xiàn)一次。在各個(gè)題本中都沒(méi)有MX52和M24的組合。

        1.2.2 等值方法

        NAEP采用同時(shí)標(biāo)定法估計(jì)所有題目的參數(shù)。對(duì)于選擇題、二級(jí)計(jì)分的建構(gòu)題和多級(jí)計(jì)分的建構(gòu)題,分別使用3PLM、2PLM和GPCM等項(xiàng)目反應(yīng)理論模型處理,并結(jié)合學(xué)生的背景信息,采用似真值報(bào)告學(xué)生個(gè)體的能力值。

        表1 NAEP2012數(shù)學(xué)長(zhǎng)期趨勢(shì)測(cè)試標(biāo)準(zhǔn)題本設(shè)計(jì)(9歲年齡段)[6]

        1.3 TIMSS

        1.3.1 題本設(shè)計(jì)

        從2007年起,TIMSS一直采用同樣的矩陣抽樣設(shè)計(jì)對(duì)數(shù)學(xué)和科學(xué)兩門(mén)學(xué)科進(jìn)行測(cè)查:共14個(gè)題本,每個(gè)題本包括數(shù)學(xué)和科學(xué)兩部分,每個(gè)學(xué)科有兩個(gè)題組,即每個(gè)題本包括4個(gè)題組。每個(gè)題組的作答時(shí)間相近,同一科目不同題組所含的題目在內(nèi)容維度和認(rèn)知維度上的分布相近。不同題組以及不同學(xué)科按照螺旋的方式排列,以平衡題組和學(xué)科在不同題本上的順序效應(yīng)。

        1.3.2 等值方法

        TIMSS處理數(shù)據(jù)時(shí)采用的模型與NAEP非常類似,用同時(shí)標(biāo)定的方法對(duì)所有題本進(jìn)行同時(shí)估計(jì),其中,選擇題、二級(jí)計(jì)分的建構(gòu)題和多級(jí)計(jì)分的建構(gòu)題分別使用3PLM、2PLM和GPCM等進(jìn)行處理[7]。TIMSS一直穩(wěn)定使用這幾個(gè)模型進(jìn)行相應(yīng)的參數(shù)估計(jì),并結(jié)合學(xué)生的背景信息,采用似真值報(bào)告學(xué)生個(gè)體的能力值。

        1.4 小結(jié)

        PISA、NAEP和TIMSS三大項(xiàng)目在年度內(nèi)等值設(shè)計(jì)方面比較相似,均采用矩陣抽樣的方法進(jìn)行題本分配,使用同時(shí)標(biāo)定法實(shí)現(xiàn)對(duì)題目參數(shù)的估計(jì),最后采用似真值進(jìn)行學(xué)生能力的報(bào)告。PISA在2015年前,采用1PLM進(jìn)行估計(jì),此后采用2PLM和GPCM,與TIMSS和NAEP的估計(jì)模型更加一致??傮w而言,在年度內(nèi)等值方面,三個(gè)項(xiàng)目的做法比較一致。但三者對(duì)于學(xué)生來(lái)不及作答的題目處理有所不同。PISA2015中,如果某個(gè)學(xué)生沒(méi)來(lái)得及作答位于題本末尾處的題目,未作答題目會(huì)被當(dāng)作是沒(méi)有給這位學(xué)生施測(cè),而此前PISA的處理方式是把未作答題目當(dāng)作學(xué)生答錯(cuò)的題目。NAEP分三種情況處理無(wú)時(shí)間作答題目:(1)無(wú)時(shí)間作答的選擇題被設(shè)定為沒(méi)有施測(cè);(2)對(duì)于無(wú)時(shí)間作答的開(kāi)放題,如果該題前一道也未作答,那么該題連同前一道題目都被設(shè)定為沒(méi)有施測(cè);(3)如果前一道題目被作答了,則設(shè)定為答錯(cuò)或完全答錯(cuò)。TIMSS在標(biāo)定題目參數(shù)時(shí),學(xué)生無(wú)時(shí)間作答題目會(huì)被設(shè)定為沒(méi)有給這位學(xué)生施測(cè),但在估計(jì)能力參數(shù)時(shí),無(wú)時(shí)間作答題目則被設(shè)定為該學(xué)生答錯(cuò)的題目。

        2 年度間等值

        2.1 PISA

        2.1.1 等值設(shè)計(jì)

        PISA在進(jìn)行年度間等值時(shí)采用非等組錨題設(shè)計(jì),不同年度的測(cè)試之間通過(guò)趨勢(shì)題(即錨題)進(jìn)行鏈接。如果是該年度的主測(cè)科目,該科目的試題中有一部分是錨題,和上一個(gè)年度進(jìn)行鏈接;若不是主測(cè)科目,則該科目的所有試題都是錨題。以PISA2012為例,主測(cè)科目數(shù)學(xué)共110道題,36道錨題;而閱讀共44題,科學(xué)共53題,均為錨題。PISA2015為了提高年度間等值的準(zhǔn)確性,增加了錨題的題量;科學(xué)為主測(cè)學(xué)科,總題量為184道,其中錨題85道;而數(shù)學(xué)共83題,閱讀共103題,均為錨題。

        2.1.2 2015年之前的等值方法

        2015年之前,PISA進(jìn)行跨年度等值時(shí),采用了均值/均值法[8]。均值/均值法的原理認(rèn)為,錨題在不同測(cè)試中的參數(shù)僅僅是量尺原點(diǎn)和單位不同,可以實(shí)現(xiàn)線性轉(zhuǎn)換。通過(guò)計(jì)算錨題在不同年度的參數(shù)均值之差,得到等值常數(shù),就可以把不同年度的測(cè)試分?jǐn)?shù)轉(zhuǎn)換到同一量尺上。以鏈接PISA2012和PISA2009的數(shù)學(xué)能力參數(shù)為例:首先,根據(jù)PISA2012標(biāo)定樣本對(duì)題目參數(shù)進(jìn)行估計(jì);然后,基于2012年題目參數(shù)估計(jì)值,估計(jì)2012年學(xué)生的數(shù)學(xué)能力參數(shù)值;最后,根據(jù)PISA2009標(biāo)定樣本得到的數(shù)學(xué)錨題難度均值,減去根據(jù)PISA2012標(biāo)定樣本得到的數(shù)學(xué)錨題難度均值,得到等值常數(shù),為0.07 logit,PISA2012的能力參數(shù)加上0.07 logit后,就與PISA2009的能力參數(shù)在同一個(gè)量尺上了。要把PISA2012的數(shù)學(xué)能力參數(shù)轉(zhuǎn)換到PISA數(shù)學(xué)量尺上,通過(guò)一定的線性轉(zhuǎn)換即可實(shí)現(xiàn),原理與上述步驟類似。

        2.1.3 2015年的等值方法

        PISA2015進(jìn)行跨年度等值時(shí),采用的是同時(shí)標(biāo)定法。具體步驟如下:

        (1)PISA2015標(biāo)定題目參數(shù)所用的標(biāo)定樣本,不僅包括PISA2015的參與國(guó)家和地區(qū)的學(xué)生,還包括最近三輪測(cè)試(即PISA2012、PISA2009以及PISA2006)參與國(guó)家和地區(qū)的學(xué)生。因?yàn)?015年之前,PISA用的都是單參數(shù)模型,所以PISA2015在標(biāo)定題目參數(shù)時(shí),限定2012年、2009年和2006年三個(gè)年度的所有題目以及2015年度的錨題的區(qū)分度相同,以降低使用兩參數(shù)模型進(jìn)行參數(shù)估計(jì)可能帶來(lái)的影響。此過(guò)程中,4個(gè)年度的題目都是放一起進(jìn)行參數(shù)標(biāo)定的,所以得到的題目參數(shù)都處于同一量尺上。

        (2)根據(jù)(1)中得到的題目參數(shù)估計(jì)PISA2015的學(xué)生能力參數(shù),同時(shí)重新估計(jì)PISA2012、PISA2009以及PISA2006的學(xué)生能力參數(shù)。因?yàn)樗玫念}目參數(shù)都在同一量尺上,所以這個(gè)過(guò)程得到的各輪測(cè)試的能力參數(shù)也在同一量尺上。

        (3)過(guò)程(2)中得到的PISA2012、PISA2009以及PISA2006學(xué)生能力參數(shù),與對(duì)應(yīng)年度的學(xué)生PISA量尺分?jǐn)?shù)(用于結(jié)果報(bào)告中的分?jǐn)?shù))存在線性轉(zhuǎn)換關(guān)系。根據(jù)這種線性轉(zhuǎn)換關(guān)系,并且根據(jù)某科目為主考科目的那一輪數(shù)據(jù),計(jì)算該科目的轉(zhuǎn)換系數(shù)。例如,PISA2006的主考科目為科學(xué),那么根據(jù)過(guò)程(2)中得到的PISA2006學(xué)生科學(xué)能力參數(shù)與PISA2006學(xué)生科學(xué)量尺分?jǐn)?shù)間的轉(zhuǎn)換關(guān)系,就可以計(jì)算科學(xué)科目的轉(zhuǎn)換系數(shù)。計(jì)算公式如下:

        (4)過(guò)程(2)得到的各輪測(cè)試能力參數(shù)都在同一量尺上,那么就可以根據(jù)過(guò)程(3)得到的各科目轉(zhuǎn)換系數(shù),將過(guò)程(2)中得到的PISA2015學(xué)生能力參數(shù)轉(zhuǎn)換到PISA量尺上,用于后續(xù)的數(shù)據(jù)分析和報(bào)告撰寫(xiě)。以科學(xué)為例,轉(zhuǎn)換公式如下:

        ScienceX2015代表過(guò)程(2)得到的PISA2015學(xué)生科學(xué)能力參數(shù),ScienceY2015代表PISA2015學(xué)生科學(xué)量尺分?jǐn)?shù)。

        今后,PISA測(cè)試將沿用這一做法進(jìn)行跨年的等值,例如PISA2018在標(biāo)定題目參數(shù)時(shí),標(biāo)定樣本將涉及PISA2018、PISA2015、PISA2012和PISA2009的學(xué)生。然后按照上述步驟,將PISA2018的學(xué)生能力參數(shù)轉(zhuǎn)換成PISA量尺分?jǐn)?shù)。

        2.2 NAEP

        2.2.1 等值設(shè)計(jì)

        (1)NAEP的國(guó)家測(cè)試

        NAEP的國(guó)家測(cè)試采用錨題的方式實(shí)現(xiàn)年度間的等值。以數(shù)學(xué)為例,2011年的數(shù)學(xué)測(cè)試(四、八年級(jí))有10個(gè)題組,其中8個(gè)題組來(lái)源于2009年測(cè)試,四、八年級(jí)的8個(gè)2009年題組又分別有5個(gè)題組和4個(gè)題組來(lái)自于2007年的測(cè)試。

        (2)NAEP的長(zhǎng)期趨勢(shì)測(cè)試

        NAEP的閱讀和數(shù)學(xué)長(zhǎng)期趨勢(shì)測(cè)試每4年一輪,針對(duì)9歲、13歲和17歲的學(xué)生進(jìn)行[9]。閱讀和數(shù)學(xué)的長(zhǎng)期發(fā)展趨勢(shì)分別可以回溯到1971年和1973年。為了實(shí)現(xiàn)長(zhǎng)時(shí)間對(duì)學(xué)生學(xué)業(yè)發(fā)展的追蹤研究,長(zhǎng)期趨勢(shì)測(cè)試的工具一直保持穩(wěn)定不變。2004年,NAEP對(duì)其長(zhǎng)期趨勢(shì)測(cè)試進(jìn)行了唯一一次較大的調(diào)整,主要包括:刪除科學(xué)和寫(xiě)作測(cè)試;面向殘疾和非英語(yǔ)母語(yǔ)的學(xué)生開(kāi)放;更新不合時(shí)宜的題目;更新背景問(wèn)卷并與測(cè)試卷分離;語(yǔ)文和數(shù)學(xué)單獨(dú)成冊(cè);調(diào)整實(shí)施流程。

        2.2.2 等值方法

        (1)NAEP的國(guó)家測(cè)試

        由于存在大比例的錨題,NAEP的國(guó)家測(cè)試中各學(xué)科相鄰輪次之間的測(cè)試通過(guò)同時(shí)估計(jì)和線性轉(zhuǎn)換便可將結(jié)果置于同一量尺上。

        (2)NAEP的長(zhǎng)期趨勢(shì)測(cè)試

        由于2004年的長(zhǎng)期趨勢(shì)進(jìn)行了較大的改動(dòng),因此2004年之后的測(cè)試結(jié)果與2004年之前的測(cè)試結(jié)果無(wú)法簡(jiǎn)單地通過(guò)同時(shí)標(biāo)定來(lái)實(shí)現(xiàn)統(tǒng)一量尺化。為了降低這種改動(dòng)可能對(duì)等值結(jié)果造成的影響,NAEP采用了隨機(jī)等組設(shè)計(jì)(randomly equivalent samples design)來(lái)解決這個(gè)問(wèn)題[10]。2004年度的長(zhǎng)期趨勢(shì)測(cè)試編制了兩套測(cè)試工具,一套是與舊有測(cè)試相同的工具,稱之為橋測(cè)驗(yàn)(bridge assessment),另一套則是根據(jù)新設(shè)計(jì)編制的修訂版工具(modi?fied assessment),把2004年的學(xué)生樣本隨機(jī)分為兩個(gè)同質(zhì)樣本,將修訂后的2004年長(zhǎng)期趨勢(shì)測(cè)試施測(cè)給一個(gè)樣本,將舊版2004年橋測(cè)驗(yàn)施測(cè)給另一樣本[11]。因?yàn)閮蓚€(gè)樣本是同質(zhì)的,所以有著相同的能力分布,據(jù)此可以計(jì)算轉(zhuǎn)換系數(shù),實(shí)現(xiàn)新版2004年長(zhǎng)期趨勢(shì)測(cè)試分?jǐn)?shù)與舊版2004年長(zhǎng)期趨勢(shì)測(cè)試分?jǐn)?shù)的鏈接。通過(guò)同時(shí)估計(jì),新版2004年長(zhǎng)期趨勢(shì)測(cè)試的結(jié)果能和之后的所有長(zhǎng)期趨勢(shì)結(jié)果進(jìn)行鏈接,而舊版2004年長(zhǎng)期趨勢(shì)測(cè)試的結(jié)果則能夠和2004年之前所有的長(zhǎng)期趨勢(shì)測(cè)試結(jié)果進(jìn)行鏈接,加之2004年隨機(jī)等組設(shè)計(jì)的這個(gè)橋梁,NAEP能夠?qū)崿F(xiàn)所有年份長(zhǎng)期趨勢(shì)結(jié)果的鏈接。

        2.3 TIMSS

        2.3.1 等值設(shè)計(jì)

        以TIMSS2015為例,包括14個(gè)數(shù)學(xué)題組和14個(gè)科學(xué)題組,其中8個(gè)數(shù)學(xué)題組和8個(gè)科學(xué)題組來(lái)自于TIMSS2011,以保證能在TIMSS2015和TIMSS2011之間進(jìn)行等值。

        2.3.2 等值方法

        TIMSS年度間的等值方法與NAEP類似,一貫的做法是,年度內(nèi)等值和跨年度等值同時(shí)進(jìn)行,把相鄰測(cè)試輪次的學(xué)生作答數(shù)據(jù)放一起,對(duì)題目參數(shù)進(jìn)行同時(shí)標(biāo)定。首先,TIMSS把2015年所有學(xué)生的作答數(shù)據(jù)和2011年所有學(xué)生的作答數(shù)據(jù)放一起,同時(shí)標(biāo)定題目參數(shù);其次,估計(jì)學(xué)生能力參數(shù)。因?yàn)槭褂迷谕涣砍呱系念}目參數(shù)估計(jì)2011年度和2015年度的學(xué)生能力參數(shù),所以得到的兩個(gè)年度的學(xué)生能力參數(shù)在同一量尺上。后續(xù)處理與PISA2015類似。以數(shù)學(xué)為例,計(jì)算公式如下:

        MathX2015代表TIMSS2015學(xué)生科學(xué)能力參數(shù),MathY2015代表TIMSS2015學(xué)生科學(xué)量尺分?jǐn)?shù)。

        2.4 小結(jié)

        在跨年度等值中,三大項(xiàng)目的做法既有共同之處,又各有特色。三者之間均采用錨題設(shè)計(jì)的方式,通過(guò)同時(shí)估計(jì)實(shí)現(xiàn)各輪次之間的跨年度等值,但不同項(xiàng)目同時(shí)進(jìn)行估計(jì)的輪次數(shù)量不同。PISA測(cè)試閱讀、數(shù)學(xué)和科學(xué),每一輪次只有一個(gè)主測(cè)學(xué)科。因此,為了實(shí)現(xiàn)同一學(xué)科跨輪次之間的比較,需要至少對(duì)4輪次測(cè)試進(jìn)行同時(shí)估計(jì),才能實(shí)現(xiàn)主測(cè)學(xué)科的跨年度比較。NAEP的主測(cè)驗(yàn)分學(xué)科進(jìn)行,每次只需和其相鄰的測(cè)試輪次進(jìn)行同時(shí)估計(jì)即可。TIMSS每個(gè)輪次都全面測(cè)查數(shù)學(xué)和科學(xué),因此相鄰輪次的共同估計(jì)便可實(shí)現(xiàn)年度間等值。

        NAEP的長(zhǎng)期趨勢(shì)測(cè)驗(yàn)需要對(duì)青少年的學(xué)業(yè)發(fā)展進(jìn)行長(zhǎng)期的趨勢(shì)描述,因此整體設(shè)計(jì)與其主測(cè)驗(yàn)及PISA和TIMSS均不相同。它要在較長(zhǎng)的時(shí)間內(nèi)保持工具的穩(wěn)定性,因此通過(guò)同時(shí)估計(jì)可以直接進(jìn)行多年的結(jié)果比較。但是,課程體系隨著時(shí)間在不斷進(jìn)行調(diào)整變化,測(cè)評(píng)技術(shù)也在不斷改進(jìn)與提升。因此,這樣的長(zhǎng)期趨勢(shì)測(cè)驗(yàn)也需要有相應(yīng)的改動(dòng)與更新。在長(zhǎng)期趨勢(shì)測(cè)驗(yàn)改動(dòng)更新的年份,則通過(guò)隨機(jī)等組的方式(即錨人的方式)實(shí)現(xiàn)新舊版本測(cè)試之間的鏈接。

        3 啟示

        在大規(guī)模的學(xué)業(yè)測(cè)評(píng)中,矩陣抽樣設(shè)計(jì)已經(jīng)成為題本設(shè)計(jì)的主要方式,切實(shí)解決了廣泛測(cè)試內(nèi)容和有限測(cè)試時(shí)間之間的矛盾。隨著矩陣抽樣設(shè)計(jì)的興起,勢(shì)必面臨著題本之間的等值和報(bào)告學(xué)生個(gè)體學(xué)業(yè)成績(jī)。就當(dāng)前來(lái)看,題本間的等值(即年度內(nèi)等值)利用錨題對(duì)參數(shù)進(jìn)行同時(shí)估計(jì),并且合理處理好學(xué)生未能完成題目的缺失,能夠較精確實(shí)現(xiàn)項(xiàng)目參數(shù)的估計(jì)。年度間的結(jié)果比較(即跨年度等值設(shè)計(jì))面臨著更多的問(wèn)題,如何選擇合適的等值方案與測(cè)驗(yàn)本身的設(shè)計(jì)、測(cè)驗(yàn)?zāi)康拿懿豢煞帧?/p>

        考試在我國(guó)向來(lái)是一項(xiàng)高風(fēng)險(xiǎn)、高利害關(guān)系的事業(yè)。無(wú)論是中考、高考,抑或是國(guó)家教育質(zhì)量監(jiān)測(cè),橫向單次的測(cè)試結(jié)果所能提供的信息有限。我們希望能夠通過(guò)縱向的比較,提供學(xué)生學(xué)業(yè)的動(dòng)態(tài)發(fā)展?fàn)顩r或者教育發(fā)展趨勢(shì)。如果是要進(jìn)行較為嚴(yán)格的追蹤趨勢(shì)研究,測(cè)評(píng)工具需要相對(duì)穩(wěn)定(例如NAEP的長(zhǎng)期趨勢(shì)研究),但測(cè)試完成之后會(huì)曝光所有題目,這對(duì)中考、高考等高風(fēng)險(xiǎn)測(cè)試并不適合。如何將不同年度或者測(cè)試輪次之間的結(jié)果進(jìn)行鏈接,是準(zhǔn)確報(bào)告發(fā)展趨勢(shì)的關(guān)鍵所在。

        年度之間的鏈接主要通過(guò)錨題和錨人兩種方法實(shí)現(xiàn)。若采用錨題設(shè)計(jì),為保證估計(jì)的穩(wěn)定性,減少估計(jì)的誤差,各大項(xiàng)目中錨題占總題量的比例至少在50%左右,且錨題不僅僅只是在相鄰的測(cè)試輪次之間,在多個(gè)輪次的測(cè)試之間都可能存在共同的題目。但是一半以上的錨題,甚至多輪次使用,可能會(huì)造成錨題過(guò)度曝光,引發(fā)練習(xí)效應(yīng),影響鏈接的準(zhǔn)確性。

        采用錨人設(shè)計(jì),若采用同一批考生完成兩套試卷,那么這批考生需要對(duì)總體具有很好的代表性,對(duì)抽樣設(shè)計(jì)要求較高。此外,考生需要完成兩套測(cè)試卷,對(duì)考試的組織實(shí)施提出了更高的要求。若采用隨機(jī)等組設(shè)計(jì),則需要實(shí)現(xiàn)對(duì)考生進(jìn)行相應(yīng)的分組,保證兩組學(xué)生之間完全“等價(jià)”,在兩個(gè)組中匹配考生成為保證等值效果的關(guān)鍵所在。

        就我國(guó)國(guó)情而言,完全采用錨題設(shè)計(jì),可能會(huì)導(dǎo)致錨題過(guò)度曝光,但若完全采用錨人設(shè)計(jì),如果是隨機(jī)等組設(shè)計(jì),一方面對(duì)等組的要求比較高,不容易實(shí)現(xiàn);另一方面,兩組考生作答兩份不同的試卷,社會(huì)大眾不易理解。如果單組設(shè)計(jì),同一批被試同時(shí)完成兩份試卷,一方面具體實(shí)施的可行性不大;另一方面樣本的代表性不易得到保證。如果能夠?qū)㈠^題設(shè)計(jì)與錨人設(shè)計(jì)結(jié)合起來(lái)使用,適當(dāng)減少錨題占總題量的比例,降低錨題曝光程度,同時(shí)在部分代表性的區(qū)域采用隨機(jī)等組設(shè)計(jì)或單組設(shè)計(jì),實(shí)現(xiàn)年度間的穩(wěn)定等值鏈接,可能是適合我國(guó)國(guó)情的一種有效設(shè)計(jì)。

        [1]李凌艷,辛濤,董奇.矩陣取樣技術(shù)在大尺度教育測(cè)評(píng)中的運(yùn)用[J].北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2007(6):19-25.

        [2]OECD.PISA 2012 Technical Report[M].Paris:OECD Publishing,2014.

        [3]WINGERSKY M S,LORD F M.An investigation of methods for re?ducing sampling error in certain IRT procedures[J].Applied Psycho?logical Measurement,1983(3):52.

        [4]OLIVERI M E,VON D M.Toward increasing fairness in score scale calibrations employed in international large-scale assessments[J].International Journal of Testing,2014,14(1):1-21.

        [5]OECD.PISA 2015 Results Volume I:Excellence and Equity in Edu?cation[M].Paris:OECD Publishing,2016.

        [6]NCES.Student booklets for the 2012 mathematics long-term trend assessment[EB/OL].(2014-06-02)[2017-04-18].https://nces.ed.gov/nationsreportcard/tdw/instruments/2012/cog_dev_math_booklets 2012.aspx.

        [7]MARTIN M O,MULLIS I V S,HOOPER M.Methods and proce?dures in TIMSS 2015[Z].Chestnut Hill,MA:TIMSS&PIRLS Inter?national Study Center,Boston College,2016.

        [8]MARCO G L.Item characteistic curve solutions to three intractable testing problems[J].Journal of Educational Measurement,1977,14(2):139-160.

        [9]NCES.How were the NAEP long-term trend assessments devel?oped?[EB/OL].(2013-06-25)[2017-04-18].https://nces.ed.gov/nationsreportcard/ltt/howdevelop.aspx.

        [10]NCES.Development of the long-term trend cognitive items and in?struments[EB/OL].(2014-06-02)[2017-04-18].https://nces.ed.gov/nationsreportcard/tdw/instruments/cog_dev_ltt.aspx.

        [11]NCES.2004 Bridge study[EB/OL].(2013-06-25)[2017-04-18].https://nces.ed.gov/nationsreportcard/ltt/bridge_study.aspx.

        Applications and Implications of Test Equating in Large-scale International Educational Assessments

        WANG Yehui,ZHANG Yingbin,YANG Tao,XIN Tao
        (Beijing Normal University,Beijing,100875,China)

        To link scores of different test booklets from the same cycle to the same scale,large-scale international educational assessment programs mainly use concurrent calibration to estimate item parameters.Plausible values are used as students’ability scores.The equating designs and methods are relatively consistent across different assessment programs.To link scores of different tests from different cycles to the same scale,common item design or equivalent groups design,the concurrent calibration and the method of linear transformation are used in educational assessment programs.As for China’s situation,this paper suggests the national assessment use the equating designs of the combination of the common item design and the equivalent groups design to link test scores from different cycles to the same scale.

        Equating;Linking;Booklet Design;Large-scale Assessment

        G405

        A

        1005-8427(2017)08-0043-7

        10.19360/j.cnki.11-3303/g4.2017.08.008

        王燁暉(1982—),女,北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,講師;

        張纓斌(1993—),男,北京師范大學(xué)教育學(xué)部,在讀碩士;

        楊 濤(1967—),女,北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,副教授;

        辛 濤(1968—),男,北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心常務(wù)副主任,教授。

        (責(zé)任編輯:陳寧)

        猜你喜歡
        設(shè)計(jì)學(xué)生
        快把我哥帶走
        何為設(shè)計(jì)的守護(hù)之道?
        《豐收的喜悅展示設(shè)計(jì)》
        流行色(2020年1期)2020-04-28 11:16:38
        《李學(xué)生》定檔8月28日
        電影(2018年9期)2018-11-14 06:57:21
        趕不走的學(xué)生
        瞞天過(guò)?!律O(shè)計(jì)萌到家
        設(shè)計(jì)秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計(jì)叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        學(xué)生寫(xiě)話
        學(xué)生寫(xiě)的話
        日本高清在线一区二区三区| 欧美成人aaa片一区国产精品| 亚洲av日韩专区在线观看| 在线视频 亚洲精品| 亚洲国产精品午夜一区| 亚洲一区二区国产激情| 亚洲熟妇av日韩熟妇在线| 精品国产一级毛片大全| 国产麻豆精品久久一二三| 国产精品久久久看三级| 青青草精品在线视频观看| 中文字幕+乱码+中文字幕一区| 国产中文制服丝袜另类| 福利视频自拍偷拍视频| 中文字幕亚洲综合久久天堂av| 九一九色国产| 加勒比精品久久一区二区三区 | 日韩内射美女人妻一区二区三区| 爱a久久片| 国色天香精品亚洲精品| 日日噜噜噜夜夜狠狠久久蜜桃| 夜夜爽日日澡人人添| 久久久精品波多野结衣| 无码熟妇人妻av在线c0930| 国产一区二区三区在线爱咪咪| 波多野结衣在线播放| 美女视频黄的全免费的| 亚洲va成无码人在线观看| 亚洲国产综合人成综合网站| 国产午夜伦鲁鲁| 美女啪啪国产| 久久偷拍国内亚洲青青草| 69国产成人精品午夜福中文| 国产精品va在线观看无码| 亚洲中文字幕在线一区二区三区 | 日韩精品极品视频在线观看免费 | 日韩黑人欧美在线视频观看| 男子把美女裙子脱了摸她内裤| 高清国产国产精品三级国产av | 和黑人邻居中文字幕在线| 色丁香久久|