亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

全國(guó)英語(yǔ)等級(jí)考試錨測(cè)驗(yàn)非等組設(shè)計(jì)中樣本量對(duì)等值結(jié)果的影響

2017-09-12 03:36:17景春麗馬潔章建石

中國(guó)考試 2017年6期

關(guān)鍵詞：教育部考試中心等值樣本量

景春麗馬潔章建石

（教育部考試中心,北京 100084）

全國(guó)英語(yǔ)等級(jí)考試錨測(cè)驗(yàn)非等組設(shè)計(jì)中樣本量對(duì)等值結(jié)果的影響

景春麗馬潔章建石

（教育部考試中心,北京 100084）

本研究采用錨測(cè)驗(yàn)非等組設(shè)計(jì)，探究了錨測(cè)驗(yàn)樣本量的變化對(duì)等值結(jié)果的影響。數(shù)據(jù)來(lái)自全國(guó)英語(yǔ)等級(jí)考試（PETS），使用以Bigsteps為核心的自主改進(jìn)軟件，基于Rasch模型估計(jì)題目參數(shù)。為了探究等值結(jié)果對(duì)合格分?jǐn)?shù)線的影響，本研究對(duì)比了不同樣本量錨測(cè)驗(yàn)參數(shù)估計(jì)值與錨題參數(shù)給定值的差異，并對(duì)不同樣本量錨測(cè)驗(yàn)得出的實(shí)考試卷等值結(jié)果與最大樣本量錨測(cè)驗(yàn)得出的實(shí)考試卷等值結(jié)果進(jìn)行了差異分析。結(jié)果表明，當(dāng)錨測(cè)驗(yàn)樣本量達(dá)到150時(shí)，等值結(jié)果比較穩(wěn)定。這一結(jié)果表明，PETS設(shè)定的300人左右的錨測(cè)驗(yàn)樣本量是合理的。

錨測(cè)驗(yàn)非等組設(shè)計(jì);項(xiàng)目反應(yīng)理論;單參數(shù)模型;等值

1 問(wèn)題提出

全國(guó)英語(yǔ)等級(jí)考試（Public English Test System，簡(jiǎn)稱PETS）是教育部考試中心設(shè)計(jì)并負(fù)責(zé)的全國(guó)性英語(yǔ)水平考試體系。除PETS-4外，其他級(jí)別的考試每半年舉行一次，從這個(gè)角度來(lái)看，PETS為當(dāng)前新高考英語(yǔ)科一年兩考的改革在考試技術(shù)層面進(jìn)行了多年的探索。在一年兩考中，等值技術(shù)至關(guān)重要。PETS所采用的等值技術(shù)是錨測(cè)驗(yàn)非等組設(shè)計(jì)，設(shè)定進(jìn)行錨測(cè)驗(yàn)等值的樣本量為300人左右。在實(shí)際操作過(guò)程中，很多情況下由于抽樣的限制，樣本量往往達(dá)不到300人。那么在這種情況下，等值結(jié)果是否精確？基于以上實(shí)際情況，本研究探究了錨測(cè)驗(yàn)樣本量對(duì)PETS等值結(jié)果及其穩(wěn)定性的影響。

測(cè)驗(yàn)等值是將不同量尺的測(cè)驗(yàn)分?jǐn)?shù)轉(zhuǎn)換到同一量尺的測(cè)量技術(shù)。具體地說(shuō)，測(cè)驗(yàn)等值是將測(cè)量同一心理特質(zhì)的多種測(cè)驗(yàn)形式的測(cè)驗(yàn)分?jǐn)?shù)轉(zhuǎn)換成相同標(biāo)尺上的分?jǐn)?shù)，進(jìn)而使得這些不同測(cè)驗(yàn)形式的分?jǐn)?shù)之間具有可比性的過(guò)程[1]。在主要以標(biāo)準(zhǔn)參照方式進(jìn)行分?jǐn)?shù)解釋的能力水平認(rèn)證考試和職業(yè)資格考試中，分?jǐn)?shù)的可比性是考試質(zhì)量的重要保證[2]。測(cè)驗(yàn)等值中的一項(xiàng)重要任務(wù)就是控制等值誤差，使得誤差的大小不會(huì)影響對(duì)等值結(jié)果的應(yīng)用，以及在等值基礎(chǔ)上開(kāi)展的后續(xù)工作?？刂茰y(cè)驗(yàn)等值誤差的研究包括分析等值誤差性質(zhì)，探清等值誤差各種可能的來(lái)源，設(shè)計(jì)各種控制等值誤差的技術(shù)與方法等[3]?；贗RT的分?jǐn)?shù)等值是在估計(jì)出參數(shù)的基礎(chǔ)上進(jìn)行轉(zhuǎn)換，等值結(jié)果的穩(wěn)定性與考生樣本量密不可分。在假定考生群體沒(méi)有變化的情況下，增大樣本量可以保證參數(shù)估計(jì)的穩(wěn)定性和準(zhǔn)確性，從而可以有效地降低隨機(jī)誤差，因此樣本量是影響隨機(jī)誤差最直接的指標(biāo)之一。國(guó)內(nèi)外研究證明，增加樣本量可以增大等值的精確度，降低隨機(jī)誤差。Kolen和Brennan認(rèn)為，在傳統(tǒng)等值和線性等值中，每個(gè)測(cè)驗(yàn)通常需要400個(gè)樣本，等百分位等值需要略多于1 500的樣本量[4]。馬洪超的研究表明，考生樣本量為2 000左右時(shí)，各種方案的等值結(jié)果均比較穩(wěn)定，考生樣本量進(jìn)一步增大時(shí)，等值誤差不降反增[5]。Victor K.Heh研究了小樣本在隨機(jī)等組設(shè)計(jì)中對(duì)等值結(jié)果精確性的影響[6]。Fitzpatrick和Yen討論了不同樣本量對(duì)等值結(jié)果可信度的影響，分析了樣本量為200、500、1 000的結(jié)果，發(fā)現(xiàn)樣本量為200時(shí)，不能夠估計(jì)出比較精確的題目參數(shù)[7]。Motika詳細(xì)討論了樣本量為25、50、100、200時(shí)對(duì)線性等值結(jié)果精確性的影響[8]。Eid研究了樣本量對(duì)等值結(jié)果的影響，表明共同題設(shè)計(jì)在不同的樣本量下和兩個(gè)測(cè)試難度下均具有精確性和有效性，還發(fā)現(xiàn)等組設(shè)計(jì)在樣本量為200、400、800的情況下均不精確[9]。不同形式的測(cè)驗(yàn)等值對(duì)樣本量的要求也不一樣，等值實(shí)踐中需針對(duì)具體的測(cè)驗(yàn)形式選取適宜的樣本量，而不是機(jī)械地采用某一研究結(jié)論[5]。

2 數(shù)據(jù)收集

在全國(guó)英語(yǔ)等級(jí)考試中，為保證不同考次對(duì)考生筆試能力的考查要求一致，需要將具有不同難度、不同分?jǐn)?shù)分布的試卷的分?jǐn)?shù)轉(zhuǎn)換到一個(gè)統(tǒng)一的量尺上。數(shù)據(jù)收集設(shè)計(jì)是錨測(cè)驗(yàn)非等組設(shè)計(jì)，錨題外置[4]。每次正式考試前一周左右隨機(jī)抽取300名左右參加本次考試的考生參加錨測(cè)試。本研究采用某次全國(guó)英語(yǔ)等級(jí)考試第五級(jí)（PETS-5）的錨測(cè)驗(yàn)數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)。錨卷在一定時(shí)間內(nèi)盡可能保持穩(wěn)定，通過(guò)每次考前的錨測(cè)驗(yàn)題目參數(shù)和給定錨題參數(shù)的關(guān)系，將本次正式考試的題目參數(shù)轉(zhuǎn)換到錨卷的量表上。

在實(shí)際情況下，由于很多原因，不能保證每次參加錨測(cè)試的樣本量都能達(dá)到300人左右。因此，本研究從參加錨測(cè)驗(yàn)的考生樣本中隨機(jī)抽取30人、60人、90人、120人、150人、180人、210人、240人、300人作為樣本，再?gòu)恼娇荚囍谐槿?0 000人（包括隨機(jī)抽取參加錨測(cè)驗(yàn)的樣本），通過(guò)考號(hào)將錨測(cè)驗(yàn)和正式考試的成績(jī)鏈接起來(lái)。參數(shù)估計(jì)基于Rasch模型來(lái)計(jì)算[10]，采用以Bigsteps為核心的自主改進(jìn)軟件進(jìn)行參數(shù)估計(jì)和參數(shù)轉(zhuǎn)換。

3 結(jié)果分析

3.1 依據(jù)經(jīng)典測(cè)量理論分析抽樣的合理性

研究的樣本是從參加錨卷測(cè)試的660名考生中隨機(jī)抽取的，用Excel中的隨機(jī)抽樣函數(shù)進(jìn)行隨機(jī)抽樣。為了驗(yàn)證抽樣是否合理，表1、表2、表3對(duì)不同樣本量錨測(cè)驗(yàn)的觀察分?jǐn)?shù)進(jìn)行了分析。由表1、表2可知，不同樣本量錨測(cè)驗(yàn)觀察分?jǐn)?shù)的均值不存在顯著差異。表3表明，不同樣本量的抽樣與實(shí)際考生樣本之間錨測(cè)驗(yàn)的觀察分?jǐn)?shù)也均不存在顯著差異。綜合表1、表2、表3結(jié)果可知，研究的隨機(jī)抽樣合理。

表1 不同樣本量錨測(cè)驗(yàn)觀察分?jǐn)?shù)的統(tǒng)計(jì)描述

表2 不同樣本量錨測(cè)驗(yàn)觀察分?jǐn)?shù)的方差分析

3.2 參數(shù)估計(jì)

在錨測(cè)驗(yàn)非等組設(shè)計(jì)中，不同版本測(cè)驗(yàn)中項(xiàng)目參數(shù)和能力參數(shù)的轉(zhuǎn)換均是通過(guò)錨題參數(shù)的平均值和標(biāo)準(zhǔn)差實(shí)現(xiàn)的，而Rasch模型在錨題參數(shù)轉(zhuǎn)換過(guò)程中只用到了錨題參數(shù)均值。不同樣本量錨題難度參數(shù)均值及與給定錨題難度的相關(guān)系數(shù)見(jiàn)表4。從表4可知，不同樣本量錨題難度參數(shù)均值為-0.09～-0.04，隨著樣本量的變大，難度均值變化越小，在樣本量達(dá)到150之后，參數(shù)均值趨于穩(wěn)定；從不同樣本量錨題難度與給定錨題難度之間的相關(guān)系數(shù)也可以看出，隨著樣本量的變大，相關(guān)系數(shù)趨于穩(wěn)定，在樣本量達(dá)到150以后，相關(guān)系數(shù)穩(wěn)定在0.7～0.72。

表3 不同樣本量錨測(cè)驗(yàn)觀察分?jǐn)?shù)之間的比較

表4 不同樣本量估計(jì)錨題難度參數(shù)均值及與給定錨題難度的相關(guān)系數(shù)

3.3 估計(jì)差異分析

本研究從兩個(gè)方面考慮參數(shù)及等值差異：一是考慮樣本量不同時(shí)錨測(cè)驗(yàn)所估計(jì)出的錨題難度值與給定錨題難度值之間的差異；二是考慮不同樣本量錨測(cè)驗(yàn)對(duì)應(yīng)的試卷等值結(jié)果的差異。同時(shí)，以樣本量為660的錨測(cè)驗(yàn)等值結(jié)果為標(biāo)準(zhǔn)，比較不同樣本量的錨測(cè)驗(yàn)的等值結(jié)果與樣本量為660的錨測(cè)驗(yàn)的等值結(jié)果。計(jì)算差異的指標(biāo)為均方根離差（Root Mean Squared Deviation,RMSD）。

從表5可知，不同樣本量估計(jì)出的錨題難度值與給定錨題難度值的差異較小，但是當(dāng)樣本量介于30到120之間時(shí)，RMSD值并不穩(wěn)定，當(dāng)樣本量達(dá)到150之后，RMSD值趨于穩(wěn)定。由表6可知，不同樣本量錨測(cè)驗(yàn)對(duì)應(yīng)的試卷等值結(jié)果與設(shè)置的標(biāo)準(zhǔn)之間的均方根離差較小，但是當(dāng)樣本量介于30到120之間時(shí)，RMSD值并不穩(wěn)定，當(dāng)樣本量達(dá)到150之后，RMSD值趨于穩(wěn)定。

3.4 等值結(jié)果對(duì)實(shí)際考試結(jié)果的影響

垂直量表是將測(cè)量領(lǐng)域相似但考查的內(nèi)容水平不同的數(shù)個(gè)測(cè)試構(gòu)建到一個(gè)共同量表上的過(guò)程，即在測(cè)試內(nèi)容相同但水平不同的測(cè)試之間，通過(guò)共同量表，使得試題的難度或考生的水平能夠在數(shù)值上相互比較。莫春暉詳細(xì)介紹了將PETS-1至PETS-5統(tǒng)一到一個(gè)量表上的過(guò)程，并且定位了每個(gè)級(jí)別的合格能力值，PETS-5級(jí)的合格能力值為75[11]。

本研究用不同樣本量錨測(cè)驗(yàn)將實(shí)際考試題目參數(shù)轉(zhuǎn)換到給定錨題的量表上，通過(guò)自主研制的計(jì)算能力值軟件（abli）計(jì)算合格能力值對(duì)應(yīng)的客觀題實(shí)際分?jǐn)?shù)線。由表7可知，用不同樣本量錨測(cè)驗(yàn)得出的實(shí)際分?jǐn)?shù)線是47或者48，但是當(dāng)樣本量達(dá)到150以上，實(shí)際分?jǐn)?shù)線就穩(wěn)定在47。

4 結(jié)論

本研究比較了錨測(cè)驗(yàn)的樣本量不同時(shí)等值結(jié)果的差異，分別從經(jīng)典測(cè)量理論、IRT中的參數(shù)估計(jì)均值及與給定錨題的相關(guān)系數(shù)、估計(jì)差異、等值結(jié)果對(duì)實(shí)際考試結(jié)果的影響幾個(gè)方面進(jìn)行了分析。結(jié)果表明，在保證抽樣隨機(jī)并且具有代表性的前提下，樣本量在150～660時(shí)（PETS設(shè)置的樣本量在300左右，本研究的最大樣本量是660），基于Rasch模型的等值方法的等值結(jié)果比較穩(wěn)定。也就是說(shuō)，對(duì)于目前的PETS-5，考前進(jìn)行的錨測(cè)驗(yàn)樣本量確定在150以上就可以得到比較穩(wěn)定的結(jié)果。但需要注意的是，試題參數(shù)估計(jì)與等值試卷的長(zhǎng)度、題型及試題的性質(zhì)有關(guān)。當(dāng)這些因素變化時(shí)，對(duì)錨測(cè)驗(yàn)樣本量的要求也可能會(huì)發(fā)生變化。因此，一個(gè)考試要采用多大的錨測(cè)驗(yàn)樣本量，要具體分析，不能一概而論。

表5 不同樣本量錨題估計(jì)難度值與給定錨題難度值之間的誤差

表6 不同樣本量對(duì)應(yīng)的試卷等值結(jié)果與樣本量為660的等值誤差

表7 不同樣本量錨測(cè)驗(yàn)等值結(jié)果對(duì)實(shí)際考試結(jié)果的影響

[1]顧海根.心理與教育測(cè)量[M].北京:北京大學(xué)出版社,2008.

[2]謝小慶.考試分?jǐn)?shù)等值的新框架[J].考試研究,2008（2）:4-16.

[3]戴海崎.等值誤差理論與我國(guó)高考等值的誤差控制[J].江西師范大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版）,1999（1）:29-35.

[4]KOLEN M J,BRENNAN R L.Test Equating,Scaling,and Linking methods and Practices（3nd edition）[M].New York:Springer,2014.

[5]馬洪超.考生樣本量對(duì)項(xiàng)目反應(yīng)理論（IRT）等值穩(wěn)定性的影響[J].考試研究,2011（2）:62-66.

[6]HEH V K.Equating accuracy using small samples in the random groups design[EB/OL].（2007-07-01）[2017-03-22].https://etd.ohiolink.edu/rws_etd/document/get/ohiou1178299995/inline.

[7]FITZPATRICK A R,YEN W M.The Effects of Test Length and Sample Size on the Reliability and Equating of Tests Composed of Constructed-Response Items[J].Applied Measurement in Education,2001 14（1）:31-57.

[8]MOTIKA R.Effects of anchor item content representation on the accuracy and precision of small sample linear test equating[D].Iowa:University of Iowa,2003:84-154.

[9]EID G K.The Effects of Sample Size on the Equating of Test Items[J].Education,2005（1）:165

[10]余民寧.試題反應(yīng)理論（IRT）及其應(yīng)用[M].臺(tái)北:心理出版社,2009.

[11]莫春暉.PETS垂直量表的建立[J].中國(guó)考試,2014（10）:40-46.

The Effects of the Sample Size on the Result of Test Equating on the Common-Item Nonequivalent Group Design for PETS

JING Chunli,MA Jie,ZHANG Jianshi
（National Education Examinations Authority,Beijing 100084,China）

This study explores the effects of the sample size on the result of test equating on the common-item nonequivalent group design,using data from the Public English Test System（PETS）.This study uses a selfimproved Rasch-based software tool called Bigsteps to estimate the item parameter.To explore the effects of test equating on the passing score,the researchers compare the parameter estimate based on the different-sample-size anchor test and the given value of the parameter,and analyze the difference between the equating results on the live test based on the different-sample-size anchor test and the largest-sample-size anchor test.It turns out that the equating result becomes stable when the increasing sample size reaches 150.Therefore,the sample size of 300,which PETS uses,is reasonable.

Common-Item Nonequivalent Group Design;Item Response Theory;Rasch Model;Equating

G405

1005-8427（2017）06-0060-5

10.19360/j.cnki.11-3303/g4.2017.06.010

（責(zé)任編輯：陳寧）

景春麗（1982—），女，教育部考試中心；

章建石（1979—），男，教育部考試中心，助理研究員；

馬潔（1993—），女，教育部考試中心。