亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

兩種DIF檢測(cè)方法的模擬研究

2014-11-08 08:06:34廖虹宇王立君

中國考試 2014年5期

廖虹宇王立君

1 引言

考試作為一種相對(duì)公平競(jìng)爭(zhēng)的機(jī)制，從古至今都是人才選拔的主要方式?，F(xiàn)代社會(huì)不管是升學(xué)、就業(yè)升職等都離不開考試，考試的重要性日益凸顯。那么考試項(xiàng)目本身是否足夠公平？考試內(nèi)容是否有利于某些群體，而對(duì)另外的群體不利呢？同時(shí)，在考試公平性受到影響時(shí)，考試的效度也得不到保證?，F(xiàn)代考試采用項(xiàng)目功能差異（Differential Item Functioning，DIF）來研究該問題。DIF分析作為評(píng)估測(cè)驗(yàn)公平性和效度的關(guān)鍵，已經(jīng)成為世界標(biāo)準(zhǔn)化考試質(zhì)量分析的必要環(huán)節(jié)。由于DIF研究的重要性，曾秀芹和孟慶茂（1998，1999）等較早在國內(nèi)進(jìn)行了DIF的相關(guān)研究，隨后嚴(yán)芳和張?jiān)鲂蓿?001），任杰（2002），曹亦薇（2003）張穎和趙世明（2004），鹿士義（2004），劉文、邊玉芳和陳玲麗（2010）等將DIF分析運(yùn)用到了各種測(cè)驗(yàn)的分析當(dāng)中，可見國內(nèi)越來越多的研究者開始重視DIF分析在測(cè)驗(yàn)質(zhì)量評(píng)估中的作用。另外，關(guān)于DIF方法的比較也涌現(xiàn)出一些文章，如董圣鴻和馬世曄（2001），于媛穎（2004），駱方和張厚粲（2006）。但是這些研究都是基于實(shí)際數(shù)據(jù)的研究，由于實(shí)際數(shù)據(jù)的特殊性，用其作為研究的基礎(chǔ)，難以對(duì)不同方法間的特性差異得出普遍的結(jié)論。而Monte Carlo模擬作為一種經(jīng)濟(jì)高效的方法可以為我們提供更為普遍的結(jié)論。因此，本研究采用Monte Carlo模擬，對(duì)兩種常用的DIF分析方法進(jìn)行比較。

目前，已經(jīng)開發(fā)出了許多DIF檢測(cè)方法，如MH方法（Mantel-Haenszel Procedure），SIBTEST方法（Simultaneous Item Bias Procedure），LR方法（Logistic Regression Procedure），STND 方法（Standardization），Lord卡方檢驗(yàn)法等。各種方法都有其優(yōu)缺點(diǎn)，在此本文選取MH和LR方法，兩種方法均使用普遍，且檢出率高。MH方法計(jì)算簡(jiǎn)單，花費(fèi)低，易于實(shí)際應(yīng)用，且不要求大樣本（Narayanan&Swaminathan，1996）。LR方法可以看作MH方法的擴(kuò)展方法，可同時(shí)有效地檢測(cè)一致性DIF（Uniform DIF）和非一致性DIF（Nonuniform DIF）（Rogers&Swaminathan，1993）。

2 兩種DIF檢測(cè)方法的介紹

2.1 MH方法

MH方法由Mantel和Haenszel（1959）首先提出，Holland（1985）以及Holland和Thayer（1988）把這種方法用于檢測(cè)項(xiàng)目功能差異[3]?，F(xiàn)在已經(jīng)成為檢測(cè)DIF應(yīng)用最為廣泛的一種方法。MH法用于偵查兩級(jí)記分項(xiàng)目的DIF，以測(cè)驗(yàn)總分作為匹配變量。MH方法統(tǒng)計(jì)量的計(jì)算建立在一張S×2×2的列聯(lián)表中，其中S是測(cè)驗(yàn)總分的水平數(shù)，對(duì)于其中的任一水平K，可構(gòu)成一個(gè)來自兩子群體在項(xiàng)目上得、失分?jǐn)?shù)的2×2列聯(lián)次數(shù)表（見表1）。

表1 MH法S×2×2列聯(lián)表

根據(jù)樣本數(shù)據(jù)完成上述的S×2×2列聯(lián)表，即可按表中數(shù)據(jù)計(jì)算αMH，公式如下：

其中f1rk、f0rk分別是在第k個(gè)能力水平組中，參照組答對(duì)項(xiàng)目的人數(shù)和答錯(cuò)項(xiàng)目的人數(shù)；f1fk、f0fk則是目標(biāo)組答對(duì)的人數(shù)和答錯(cuò)的人數(shù)。

αMH的取值介于0至正無窮之間。αMH=1.0時(shí)，表示該研究項(xiàng)目無DIF；αMH＜1.0時(shí)，表示研究項(xiàng)目對(duì)目標(biāo)組有較低難度；αMH＞1.0時(shí)，表示所研究項(xiàng)目對(duì)參照組有較低難度。但是由于αMH的計(jì)算來自樣本數(shù)據(jù)，因此對(duì)其值是否等于1.0必須進(jìn)行統(tǒng)計(jì)檢驗(yàn)（董圣鴻，馬世曄，2001）。

2.2 LR方法

Swaminathan和Rogers于1990年介紹了此方法：令Y為項(xiàng)目分?jǐn)?shù)變量，取值為1或0；令Z為觀察變量，通常為測(cè)驗(yàn)總分；令V為被試分類變量。在完全的Logistic回歸模型中，在給定Z與V的條件下，被試正確作答該測(cè)驗(yàn)項(xiàng)目的概率為：

對(duì)上式兩邊取對(duì)數(shù)，整理得：

這樣就將Logistic回歸模型轉(zhuǎn)化成了線性回歸模型，因變量就是我們通常所說的Logit，Z和V都是觀察變量，ZV項(xiàng)僅是一個(gè)記號(hào)，表示兩觀察變量的組合水平。雖非直接觀察變量，但也可由Z與V的觀察變量而推定。用極大似然法或最小二乘法等其他方法估出回歸參數(shù)β0、β1、β2和β3。對(duì)于這些估計(jì)的回歸參數(shù)可以用假設(shè)檢驗(yàn)方法檢驗(yàn)它們的顯著性。檢驗(yàn)的不同結(jié)果，對(duì)DIF的檢測(cè)有不同的含義：如果方程中只有β0與β1不為零（與零有顯著差異），則表示該項(xiàng)目無DIF；如果方程中β0、β1與β2均不為零，表示該項(xiàng)目有一致性DIF；如果ZV項(xiàng)參數(shù)β3也不為零，則表示項(xiàng)目存在非一致性DIF]（鹿士義，2004）。

3 實(shí)驗(yàn)設(shè)計(jì)

3.1 數(shù)據(jù)模擬

本研究所使用的是兩參數(shù)Logistic模型，對(duì)于任意一個(gè)能力為θ的被試，其在項(xiàng)目i上的正確作答概率Pi（θ）為：

其中，被試能力參數(shù)θ～N（0，1），項(xiàng)目區(qū)分度ln（a）～N（0，1），難度參數(shù)b ～N（0，1），D=1.7。

3.2 DIF項(xiàng)目模擬設(shè)計(jì)

本研究固定測(cè)驗(yàn)長度為50個(gè)項(xiàng)目，均為二級(jí)記分項(xiàng)目。50個(gè)項(xiàng)目的原始參數(shù)情況（見表2）。無DIF的項(xiàng)目在目標(biāo)組與參照組中各參數(shù)不變，即不同組中能力相同的被試，其在該類項(xiàng)目上的正確作答概率相同；有一致性DIF的項(xiàng)目在兩組中具有不同的難度，相同的區(qū)分度，因此通過改變其中一組被試的項(xiàng)目難度參數(shù)來設(shè)定有一致性DIF的項(xiàng)目；有非一致性DIF的項(xiàng)目在兩組中具有不同的區(qū)分度，相同的難度，因此通過改變其中一組被試的項(xiàng)目區(qū)分度參數(shù)來設(shè)定有非一致性DIF的項(xiàng)目。

3.3 研究設(shè)計(jì)

表2 項(xiàng)目參數(shù)情況

兩被試組的匹配變量為被試在無DIF的題目上的得分和。

本研究的自變量如下：樣本量（300，800，1200，1600，2000），DIF值大?。?.25，0.5，1），DIF項(xiàng)目的比例（8%，16%，24%），DIF方法（MH和LR）。已有研究表明，要想得到合適的檢出率，參照組和目標(biāo)組的樣本量至少分別要200～250人（Swaminathan&Rogers，1990;Rogers&Swaminathan，1993）。為了獲得更加穩(wěn)定的結(jié)果，本文選取了300作為最小樣本量，并以2000作為最大樣本量（見表2）。在8%的項(xiàng)目（4個(gè)項(xiàng)目）有DIF時(shí)，設(shè)定3題，6題，26題，30題有DIF，前兩個(gè)項(xiàng)目為含一致性DIF的項(xiàng)目，后兩個(gè)為含非一致性DIF的項(xiàng)目；在16%的項(xiàng)目（8個(gè)項(xiàng)目）有DIF時(shí)，設(shè)定3題，6題，9題，12題，26題，30題，34題，40題有DIF，前4個(gè)項(xiàng)目為含一致性DIF的項(xiàng)目，后4個(gè)題目為含非一致性DIF的項(xiàng)目；24%的項(xiàng)目（12個(gè)項(xiàng)目）有DIF時(shí)，設(shè)定3題，6題，9題，12題，17題，21題，26題，30題，34題，40題，43題，48題有DIF，同樣前6個(gè)題目為含一致性DIF的項(xiàng)目，后6個(gè)題目為含非一致性DIF的項(xiàng)目。因此本研究的實(shí)驗(yàn)設(shè)計(jì)為5×3×3×2的混合設(shè)計(jì)，共計(jì)90種實(shí)驗(yàn)條件，每種條件下重復(fù)100次，共計(jì)9 000次。模擬運(yùn)算用R-2.15.2進(jìn)行。

因變量：I型錯(cuò)誤率和檢出率。統(tǒng)計(jì)學(xué)中I型錯(cuò)誤為棄真錯(cuò)誤，即當(dāng)原假設(shè)為真（統(tǒng)計(jì)學(xué)意義上不顯著）時(shí)，卻錯(cuò)誤地否定了原假設(shè)。在DIF分析中則表示，當(dāng)原假設(shè)（題目沒有DIF）為真時(shí)，卻錯(cuò)誤地否定原假設(shè)，認(rèn)為題目含有DIF。如果一個(gè)DIF檢測(cè)方法I型錯(cuò)誤率高，那么就說明該方法不夠好，會(huì)錯(cuò)誤識(shí)別不含DIF的題目，而被錯(cuò)誤識(shí)別出有DIF的題目可能會(huì)面臨被修改或刪除，從而也就增加了相應(yīng)的工作量，浪費(fèi)人力。檢出率為統(tǒng)計(jì)學(xué)中的正確拒斥率，也被成為統(tǒng)計(jì)檢驗(yàn)力，即原假設(shè)（題目沒有DIF）為假時(shí)，正確地拒絕了原假設(shè)，認(rèn)為題目有DIF。因此，檢出率高就代表該方法好，能夠很好地檢測(cè)出有DIF的項(xiàng)目。

4 結(jié)果

4.1 I型錯(cuò)誤率分析

表3呈現(xiàn)了MH和LR兩種方法在不同條件下的平均I型錯(cuò)誤率。

表3 MH和LR的平均I型錯(cuò)誤率情況（α=0.05時(shí)）

由表3可以看出，MH和LR兩種方法的I型錯(cuò)誤率均在0.05左右，說明兩種方法都比較好。MH的I型錯(cuò)誤率隨樣本量有較小幅度的增加（0.052增至0.0550）；且隨著有DIF的項(xiàng)目比例的增加也有較小幅度的增加（0.0510增至0.0546）；而LR的I型錯(cuò)誤率在所有情況下都較穩(wěn)定，保持在0.049～0.051。因此，可以看出MH方法的I型錯(cuò)誤率變動(dòng)范圍比LR略大（MH:0.0510～0.0550；LR:0.0497～0.0517）。

另外也可以看到，MH的I型錯(cuò)誤率總是略高于LR的I型錯(cuò)誤率，在樣本量=2000及DIF項(xiàng)目的比例=24%時(shí)，兩種方法的I型錯(cuò)誤率差異最大。在樣本量=800時(shí)，兩種方法的I型錯(cuò)誤率都最小。

表4呈現(xiàn)了MH和LR兩種方法的檢出率情況。

表4 MH和LR的檢出率情況

從表4可以看到，對(duì)于DIF類型來說，MH對(duì)非一致性DIF的檢測(cè)相當(dāng)差，對(duì)一致性DIF的檢出率大大高于對(duì)非一致性DIF的檢出率。對(duì)于一致性DIF，MH和LR在樣本量小（NR=NF=300）時(shí)，檢出率能達(dá)到0.5，且MH的檢出率在所有樣本量下都是略高于LR的（Swaminathan&Rogers，1990）；對(duì)于非一致性DIF，LR的檢出率則遠(yuǎn)遠(yuǎn)高于MH的，LR對(duì)兩種類型的DIF檢測(cè)都很好，適用于檢測(cè)兩種DIF類型。MH對(duì)非一致性DIF的檢測(cè)很差，是因?yàn)镸H是設(shè)計(jì)來用于檢測(cè)一致性DIF的，其對(duì)非一致性DIF的檢測(cè)不夠敏感（Swaminathan&Rogers，1990;Li，Brooks，&Johanson，2012）。因此，兩種方法的比較在接下來僅限于比較檢測(cè)一致性DIF時(shí)的表現(xiàn)。

兩種方法的檢出率，不管是一致性DIF還是非一致性DIF，都隨著樣本量及DIF值的增加而增加，在樣本量從300到800及DIF值從0.25增到0.5時(shí)，兩種方法檢出率的增長幅度最大?？梢钥吹?，在樣本量大（NR=NF=2000）及DIF值大（DIF=1）時(shí)，除去MH檢測(cè)非一致性DIF時(shí)，此時(shí)兩種方法的檢出率都很高，在0.9左右。

DIF項(xiàng)目的比例對(duì)兩種方法的檢出率的影響則不同。對(duì)一致性DIF來說，兩種方法的檢出率隨DIF項(xiàng)目比例的增加而增加，在DIF項(xiàng)目比列達(dá)到24%（12個(gè)題目有DIF）時(shí)，兩種方法的檢出率都在0.8以上；而對(duì)非一致性DIF來說，檢出率有所下降[MH：0.314（8%），0.230（24%）；LR：0.803（8%），0.732（24%）]。

從表4還可以看出，在檢測(cè)一致性DIF時(shí)，MH方法的檢出率在樣本量為1200時(shí)就已在0.8以上，而LR在1600才達(dá)到MH的水平。這可能是因?yàn)長R是參數(shù)方法，對(duì)樣本量的要求較大，因此在樣本量偏大時(shí)才能達(dá)到一個(gè)比較好的檢出率。

5 討論

本研究的結(jié)果與前人的研究結(jié)果一致，MH適合于檢測(cè)一致性DIF，檢測(cè)一致性DIF時(shí)，檢出率高，且略高于LR。而LR在檢測(cè)一致性和非一致性DIF時(shí)檢出率都很好，但是其對(duì)樣本量的要求較高。DIF項(xiàng)目的比例增加對(duì)檢出率影響隨著DIF類型的不同有所不同?？偟膩碚f，MH是檢測(cè)一致性DIF非常好的方法，并且它不需要大樣本，方法簡(jiǎn)單易用。因此ETS一直采用它對(duì)項(xiàng)目DIF作常規(guī)分析（余仁勝，1999）。當(dāng)要研究其他方法時(shí)，通常以這個(gè)方法作為標(biāo)準(zhǔn)，將其他方法與之對(duì)比（曾秀芹，孟慶茂，1999）。LR是一個(gè)可以同時(shí)檢測(cè)一致性DIF和非一致性DIF的很強(qiáng)大的方法，在樣本量達(dá)到1500左右時(shí)，能夠很好地發(fā)揮其優(yōu)勢(shì)。

項(xiàng)目功能差異是在我國的研究還有待進(jìn)一步地深入，未來還有許多可以研究的方向，當(dāng)兩被試組能力水平不同時(shí)不同方法的DIF檢測(cè)情況，不同匹配變量對(duì)DIF檢測(cè)的影響，小樣本時(shí)如何優(yōu)化DIF檢測(cè)等都值得進(jìn)一步的研究。

[1]曹亦薇.項(xiàng)目功能差異在跨文化人格問卷分析中的應(yīng)用[J].心理學(xué)報(bào)，2003，35（1）：120-126.

[2]董圣鴻，馬世曄.三種常用DIF檢測(cè)方法的比較研究[J].心理學(xué)探新.2001，（1）：43-48.

[3]劉文，邊玉芳，陳玲麗，等.馬洛-克羅恩社會(huì)贊許性量表在跨文化研究中的項(xiàng)目功能差異檢驗(yàn)[J].心理科學(xué)，2010，33（6）：1473-1476.

[4]鹿士義.漢語水平考試HSK的DIF研究[D].南京師范大學(xué)教育科學(xué)學(xué)院，2004：30.

[5]駱方，張厚粲.檢驗(yàn)功能差異的兩類方法——CFA和IRT的比較[J].心理學(xué)探新，2006，1（26）：74-78.

[6]任杰.中國境內(nèi)外HSK成績(jī)公平性的分析[J].語言教學(xué)與研究，2002，5：69-74.

[7]嚴(yán)芳，張?jiān)鲂?用Logistic Regression偵察題目差異功能[J].應(yīng)用心理學(xué)，2001，7（1）：57-62.

[8]余仁勝.訪美觀感[J].考試研究動(dòng)態(tài)，1999（3）.

[9]于媛穎.多種DIF檢測(cè)方法的比較研究[D].北京語言大學(xué)，2004.

[10]曾秀芹，孟慶茂.項(xiàng)目功能差異的簡(jiǎn)介[J].心理學(xué)探新，1998（1）.

[11]曾秀芹，孟慶茂.項(xiàng)目功能差異及其檢測(cè)方法[J].心理學(xué)動(dòng)態(tài)，1999（2）：41-47.

[12]張穎，趙世明.醫(yī)師資格考試中的項(xiàng)目功能差異研究[J].中國考試，2004（10）：23-26.

[13]Li，Y.，Brooks，G.P.，&Johanson，G.A.Item Discrimination and Type IError in the Detection of Differential Item Functioning.Educational and Psychological Measurement，2012，72（5），847-861.

[14]Narayanan，P.，&Swaminathan，H..Identification of items that show nonuniform DIF[J].Applied Psychological Measurement，1996（20）：257-274.

[15]Rogers，H.J.，&Swaminathan，H..A comparison of logistic regression and Mantel-Haenszel procedures for detecting differential item functioning[J].Applied Psychological Measurement，1993（17）：105-116.

[16]Swaminathan，H.&Rogers，H.J.Detectingitem functioningusinglogistic regression procedures[J].Journal of Educational Measurement，1990（27）：361-370.