廖虹宇 王立君
考試作為一種相對(duì)公平競(jìng)爭(zhēng)的機(jī)制,從古至今都是人才選拔的主要方式?,F(xiàn)代社會(huì)不管是升學(xué)、就業(yè)升職等都離不開(kāi)考試,考試的重要性日益凸顯。那么考試項(xiàng)目本身是否足夠公平?考試內(nèi)容是否有利于某些群體,而對(duì)另外的群體不利呢?同時(shí),在考試公平性受到影響時(shí),考試的效度也得不到保證?,F(xiàn)代考試采用項(xiàng)目功能差異(Differential Item Functioning,DIF)來(lái)研究該問(wèn)題。DIF分析作為評(píng)估測(cè)驗(yàn)公平性和效度的關(guān)鍵,已經(jīng)成為世界標(biāo)準(zhǔn)化考試質(zhì)量分析的必要環(huán)節(jié)。由于DIF研究的重要性,曾秀芹和孟慶茂(1998,1999)等較早在國(guó)內(nèi)進(jìn)行了DIF的相關(guān)研究,隨后嚴(yán)芳和張?jiān)鲂蓿?001),任杰(2002),曹亦薇(2003)張穎和趙世明(2004),鹿士義(2004),劉文、邊玉芳和陳玲麗(2010)等將DIF分析運(yùn)用到了各種測(cè)驗(yàn)的分析當(dāng)中,可見(jiàn)國(guó)內(nèi)越來(lái)越多的研究者開(kāi)始重視DIF分析在測(cè)驗(yàn)質(zhì)量評(píng)估中的作用。另外,關(guān)于DIF方法的比較也涌現(xiàn)出一些文章,如董圣鴻和馬世曄(2001),于媛穎(2004),駱?lè)胶蛷埡耵樱?006)。但是這些研究都是基于實(shí)際數(shù)據(jù)的研究,由于實(shí)際數(shù)據(jù)的特殊性,用其作為研究的基礎(chǔ),難以對(duì)不同方法間的特性差異得出普遍的結(jié)論。而Monte Carlo模擬作為一種經(jīng)濟(jì)高效的方法可以為我們提供更為普遍的結(jié)論。因此,本研究采用Monte Carlo模擬,對(duì)兩種常用的DIF分析方法進(jìn)行比較。
目前,已經(jīng)開(kāi)發(fā)出了許多DIF檢測(cè)方法,如MH方法(Mantel-Haenszel Procedure),SIBTEST方法(Simultaneous Item Bias Procedure),LR方法(Logistic Regression Procedure),STND 方法(Standardization),Lord卡方檢驗(yàn)法等。各種方法都有其優(yōu)缺點(diǎn),在此本文選取MH和LR方法,兩種方法均使用普遍,且檢出率高。MH方法計(jì)算簡(jiǎn)單,花費(fèi)低,易于實(shí)際應(yīng)用,且不要求大樣本(Narayanan&Swaminathan,1996)。LR方法可以看作MH方法的擴(kuò)展方法,可同時(shí)有效地檢測(cè)一致性DIF(Uniform DIF)和非一致性DIF(Nonuniform DIF)(Rogers&Swaminathan,1993)。
MH方法由Mantel和Haenszel(1959)首先提出,Holland(1985)以及Holland和Thayer(1988)把這種方法用于檢測(cè)項(xiàng)目功能差異[3]?,F(xiàn)在已經(jīng)成為檢測(cè)DIF應(yīng)用最為廣泛的一種方法。MH法用于偵查兩級(jí)記分項(xiàng)目的DIF,以測(cè)驗(yàn)總分作為匹配變量。MH方法統(tǒng)計(jì)量的計(jì)算建立在一張S×2×2的列聯(lián)表中,其中S是測(cè)驗(yàn)總分的水平數(shù),對(duì)于其中的任一水平K,可構(gòu)成一個(gè)來(lái)自?xún)勺尤后w在項(xiàng)目上得、失分?jǐn)?shù)的2×2列聯(lián)次數(shù)表(見(jiàn)表1)。
表1 MH法S×2×2列聯(lián)表
根據(jù)樣本數(shù)據(jù)完成上述的S×2×2列聯(lián)表,即可按表中數(shù)據(jù)計(jì)算αMH,公式如下:
其中f1rk、f0rk分別是在第k個(gè)能力水平組中,參照組答對(duì)項(xiàng)目的人數(shù)和答錯(cuò)項(xiàng)目的人數(shù);f1fk、f0fk則是目標(biāo)組答對(duì)的人數(shù)和答錯(cuò)的人數(shù)。
αMH的取值介于0至正無(wú)窮之間。αMH=1.0時(shí),表示該研究項(xiàng)目無(wú)DIF;αMH<1.0時(shí),表示研究項(xiàng)目對(duì)目標(biāo)組有較低難度;αMH>1.0時(shí),表示所研究項(xiàng)目對(duì)參照組有較低難度。但是由于αMH的計(jì)算來(lái)自樣本數(shù)據(jù),因此對(duì)其值是否等于1.0必須進(jìn)行統(tǒng)計(jì)檢驗(yàn)(董圣鴻,馬世曄,2001)。
Swaminathan和Rogers于1990年介紹了此方法:令Y為項(xiàng)目分?jǐn)?shù)變量,取值為1或0;令Z為觀(guān)察變量,通常為測(cè)驗(yàn)總分;令V為被試分類(lèi)變量。在完全的Logistic回歸模型中,在給定Z與V的條件下,被試正確作答該測(cè)驗(yàn)項(xiàng)目的概率為:
對(duì)上式兩邊取對(duì)數(shù),整理得:
這樣就將Logistic回歸模型轉(zhuǎn)化成了線(xiàn)性回歸模型,因變量就是我們通常所說(shuō)的Logit,Z和V都是觀(guān)察變量,ZV項(xiàng)僅是一個(gè)記號(hào),表示兩觀(guān)察變量的組合水平。雖非直接觀(guān)察變量,但也可由Z與V的觀(guān)察變量而推定。用極大似然法或最小二乘法等其他方法估出回歸參數(shù)β0、β1、β2和β3。對(duì)于這些估計(jì)的回歸參數(shù)可以用假設(shè)檢驗(yàn)方法檢驗(yàn)它們的顯著性。檢驗(yàn)的不同結(jié)果,對(duì)DIF的檢測(cè)有不同的含義:如果方程中只有β0與β1不為零(與零有顯著差異),則表示該項(xiàng)目無(wú)DIF;如果方程中β0、β1與β2均不為零,表示該項(xiàng)目有一致性DIF;如果ZV項(xiàng)參數(shù)β3也不為零,則表示項(xiàng)目存在非一致性DIF](鹿士義,2004)。
本研究所使用的是兩參數(shù)Logistic模型,對(duì)于任意一個(gè)能力為θ的被試,其在項(xiàng)目i上的正確作答概率Pi(θ)為:
其中,被試能力參數(shù)θ~N(0,1),項(xiàng)目區(qū)分度ln(a)~N(0,1),難度參數(shù)b ~N(0,1),D=1.7。
本研究固定測(cè)驗(yàn)長(zhǎng)度為50個(gè)項(xiàng)目,均為二級(jí)記分項(xiàng)目。50個(gè)項(xiàng)目的原始參數(shù)情況(見(jiàn)表2)。無(wú)DIF的項(xiàng)目在目標(biāo)組與參照組中各參數(shù)不變,即不同組中能力相同的被試,其在該類(lèi)項(xiàng)目上的正確作答概率相同;有一致性DIF的項(xiàng)目在兩組中具有不同的難度,相同的區(qū)分度,因此通過(guò)改變其中一組被試的項(xiàng)目難度參數(shù)來(lái)設(shè)定有一致性DIF的項(xiàng)目;有非一致性DIF的項(xiàng)目在兩組中具有不同的區(qū)分度,相同的難度,因此通過(guò)改變其中一組被試的項(xiàng)目區(qū)分度參數(shù)來(lái)設(shè)定有非一致性DIF的項(xiàng)目。
表2 項(xiàng)目參數(shù)情況
兩被試組的匹配變量為被試在無(wú)DIF的題目上的得分和。
本研究的自變量如下:樣本量(300,800,1200,1600,2000),DIF值大?。?.25,0.5,1),DIF項(xiàng)目的比例(8%,16%,24%),DIF方法(MH和LR)。已有研究表明,要想得到合適的檢出率,參照組和目標(biāo)組的樣本量至少分別要200~250人(Swaminathan&Rogers,1990;Rogers&Swaminathan,1993)。為了獲得更加穩(wěn)定的結(jié)果,本文選取了300作為最小樣本量,并以2000作為最大樣本量(見(jiàn)表2)。在8%的項(xiàng)目(4個(gè)項(xiàng)目)有DIF時(shí),設(shè)定3題,6題,26題,30題有DIF,前兩個(gè)項(xiàng)目為含一致性DIF的項(xiàng)目,后兩個(gè)為含非一致性DIF的項(xiàng)目;在16%的項(xiàng)目(8個(gè)項(xiàng)目)有DIF時(shí),設(shè)定3題,6題,9題,12題,26題,30題,34題,40題有DIF,前4個(gè)項(xiàng)目為含一致性DIF的項(xiàng)目,后4個(gè)題目為含非一致性DIF的項(xiàng)目;24%的項(xiàng)目(12個(gè)項(xiàng)目)有DIF時(shí),設(shè)定3題,6題,9題,12題,17題,21題,26題,30題,34題,40題,43題,48題有DIF,同樣前6個(gè)題目為含一致性DIF的項(xiàng)目,后6個(gè)題目為含非一致性DIF的項(xiàng)目。因此本研究的實(shí)驗(yàn)設(shè)計(jì)為5×3×3×2的混合設(shè)計(jì),共計(jì)90種實(shí)驗(yàn)條件,每種條件下重復(fù)100次,共計(jì)9 000次。模擬運(yùn)算用R-2.15.2進(jìn)行。
因變量:I型錯(cuò)誤率和檢出率。統(tǒng)計(jì)學(xué)中I型錯(cuò)誤為棄真錯(cuò)誤,即當(dāng)原假設(shè)為真(統(tǒng)計(jì)學(xué)意義上不顯著)時(shí),卻錯(cuò)誤地否定了原假設(shè)。在DIF分析中則表示,當(dāng)原假設(shè)(題目沒(méi)有DIF)為真時(shí),卻錯(cuò)誤地否定原假設(shè),認(rèn)為題目含有DIF。如果一個(gè)DIF檢測(cè)方法I型錯(cuò)誤率高,那么就說(shuō)明該方法不夠好,會(huì)錯(cuò)誤識(shí)別不含DIF的題目,而被錯(cuò)誤識(shí)別出有DIF的題目可能會(huì)面臨被修改或刪除,從而也就增加了相應(yīng)的工作量,浪費(fèi)人力。檢出率為統(tǒng)計(jì)學(xué)中的正確拒斥率,也被成為統(tǒng)計(jì)檢驗(yàn)力,即原假設(shè)(題目沒(méi)有DIF)為假時(shí),正確地拒絕了原假設(shè),認(rèn)為題目有DIF。因此,檢出率高就代表該方法好,能夠很好地檢測(cè)出有DIF的項(xiàng)目。
表3呈現(xiàn)了MH和LR兩種方法在不同條件下的平均I型錯(cuò)誤率。
表3 MH和LR的平均I型錯(cuò)誤率情況(α=0.05時(shí))
由表3可以看出,MH和LR兩種方法的I型錯(cuò)誤率均在0.05左右,說(shuō)明兩種方法都比較好。MH的I型錯(cuò)誤率隨樣本量有較小幅度的增加(0.052增至0.0550);且隨著有DIF的項(xiàng)目比例的增加也有較小幅度的增加(0.0510增至0.0546);而LR的I型錯(cuò)誤率在所有情況下都較穩(wěn)定,保持在0.049~0.051。因此,可以看出MH方法的I型錯(cuò)誤率變動(dòng)范圍比LR略大(MH:0.0510~0.0550;LR:0.0497~0.0517)。
另外也可以看到,MH的I型錯(cuò)誤率總是略高于LR的I型錯(cuò)誤率,在樣本量=2000及DIF項(xiàng)目的比例=24%時(shí),兩種方法的I型錯(cuò)誤率差異最大。在樣本量=800時(shí),兩種方法的I型錯(cuò)誤率都最小。
表4呈現(xiàn)了MH和LR兩種方法的檢出率情況。
表4 MH和LR的檢出率情況
從表4可以看到,對(duì)于DIF類(lèi)型來(lái)說(shuō),MH對(duì)非一致性DIF的檢測(cè)相當(dāng)差,對(duì)一致性DIF的檢出率大大高于對(duì)非一致性DIF的檢出率。對(duì)于一致性DIF,MH和LR在樣本量?。∟R=NF=300)時(shí),檢出率能達(dá)到0.5,且MH的檢出率在所有樣本量下都是略高于LR的(Swaminathan&Rogers,1990);對(duì)于非一致性DIF,LR的檢出率則遠(yuǎn)遠(yuǎn)高于MH的,LR對(duì)兩種類(lèi)型的DIF檢測(cè)都很好,適用于檢測(cè)兩種DIF類(lèi)型。MH對(duì)非一致性DIF的檢測(cè)很差,是因?yàn)镸H是設(shè)計(jì)來(lái)用于檢測(cè)一致性DIF的,其對(duì)非一致性DIF的檢測(cè)不夠敏感(Swaminathan&Rogers,1990;Li,Brooks,&Johanson,2012)。因此,兩種方法的比較在接下來(lái)僅限于比較檢測(cè)一致性DIF時(shí)的表現(xiàn)。
兩種方法的檢出率,不管是一致性DIF還是非一致性DIF,都隨著樣本量及DIF值的增加而增加,在樣本量從300到800及DIF值從0.25增到0.5時(shí),兩種方法檢出率的增長(zhǎng)幅度最大??梢钥吹?,在樣本量大(NR=NF=2000)及DIF值大(DIF=1)時(shí),除去MH檢測(cè)非一致性DIF時(shí),此時(shí)兩種方法的檢出率都很高,在0.9左右。
DIF項(xiàng)目的比例對(duì)兩種方法的檢出率的影響則不同。對(duì)一致性DIF來(lái)說(shuō),兩種方法的檢出率隨DIF項(xiàng)目比例的增加而增加,在DIF項(xiàng)目比列達(dá)到24%(12個(gè)題目有DIF)時(shí),兩種方法的檢出率都在0.8以上;而對(duì)非一致性DIF來(lái)說(shuō),檢出率有所下降[MH:0.314(8%),0.230(24%);LR:0.803(8%),0.732(24%)]。
從表4還可以看出,在檢測(cè)一致性DIF時(shí),MH方法的檢出率在樣本量為1200時(shí)就已在0.8以上,而LR在1600才達(dá)到MH的水平。這可能是因?yàn)長(zhǎng)R是參數(shù)方法,對(duì)樣本量的要求較大,因此在樣本量偏大時(shí)才能達(dá)到一個(gè)比較好的檢出率。
本研究的結(jié)果與前人的研究結(jié)果一致,MH適合于檢測(cè)一致性DIF,檢測(cè)一致性DIF時(shí),檢出率高,且略高于LR。而LR在檢測(cè)一致性和非一致性DIF時(shí)檢出率都很好,但是其對(duì)樣本量的要求較高。DIF項(xiàng)目的比例增加對(duì)檢出率影響隨著DIF類(lèi)型的不同有所不同。總的來(lái)說(shuō),MH是檢測(cè)一致性DIF非常好的方法,并且它不需要大樣本,方法簡(jiǎn)單易用。因此ETS一直采用它對(duì)項(xiàng)目DIF作常規(guī)分析(余仁勝,1999)。當(dāng)要研究其他方法時(shí),通常以這個(gè)方法作為標(biāo)準(zhǔn),將其他方法與之對(duì)比(曾秀芹,孟慶茂,1999)。LR是一個(gè)可以同時(shí)檢測(cè)一致性DIF和非一致性DIF的很強(qiáng)大的方法,在樣本量達(dá)到1500左右時(shí),能夠很好地發(fā)揮其優(yōu)勢(shì)。
項(xiàng)目功能差異是在我國(guó)的研究還有待進(jìn)一步地深入,未來(lái)還有許多可以研究的方向,當(dāng)兩被試組能力水平不同時(shí)不同方法的DIF檢測(cè)情況,不同匹配變量對(duì)DIF檢測(cè)的影響,小樣本時(shí)如何優(yōu)化DIF檢測(cè)等都值得進(jìn)一步的研究。
[1]曹亦薇.項(xiàng)目功能差異在跨文化人格問(wèn)卷分析中的應(yīng)用[J].心理學(xué)報(bào),2003,35(1):120-126.
[2]董圣鴻,馬世曄.三種常用DIF檢測(cè)方法的比較研究[J].心理學(xué)探新.2001,(1):43-48.
[3]劉文,邊玉芳,陳玲麗,等.馬洛-克羅恩社會(huì)贊許性量表在跨文化研究中的項(xiàng)目功能差異檢驗(yàn)[J].心理科學(xué),2010,33(6):1473-1476.
[4]鹿士義.漢語(yǔ)水平考試HSK的DIF研究[D].南京師范大學(xué)教育科學(xué)學(xué)院,2004:30.
[5]駱?lè)?,張厚?檢驗(yàn)功能差異的兩類(lèi)方法——CFA和IRT的比較[J].心理學(xué)探新,2006,1(26):74-78.
[6]任杰.中國(guó)境內(nèi)外HSK成績(jī)公平性的分析[J].語(yǔ)言教學(xué)與研究,2002,5:69-74.
[7]嚴(yán)芳,張?jiān)鲂?用Logistic Regression偵察題目差異功能[J].應(yīng)用心理學(xué),2001,7(1):57-62.
[8]余仁勝.訪(fǎng)美觀(guān)感[J].考試研究動(dòng)態(tài),1999(3).
[9]于媛穎.多種DIF檢測(cè)方法的比較研究[D].北京語(yǔ)言大學(xué),2004.
[10]曾秀芹,孟慶茂.項(xiàng)目功能差異的簡(jiǎn)介[J].心理學(xué)探新,1998(1).
[11]曾秀芹,孟慶茂.項(xiàng)目功能差異及其檢測(cè)方法[J].心理學(xué)動(dòng)態(tài),1999(2):41-47.
[12]張穎,趙世明.醫(yī)師資格考試中的項(xiàng)目功能差異研究[J].中國(guó)考試,2004(10):23-26.
[13]Li,Y.,Brooks,G.P.,&Johanson,G.A.Item Discrimination and Type IError in the Detection of Differential Item Functioning.Educational and Psychological Measurement,2012,72(5),847-861.
[14]Narayanan,P.,&Swaminathan,H..Identification of items that show nonuniform DIF[J].Applied Psychological Measurement,1996(20):257-274.
[15]Rogers,H.J.,&Swaminathan,H..A comparison of logistic regression and Mantel-Haenszel procedures for detecting differential item functioning[J].Applied Psychological Measurement,1993(17):105-116.
[16]Swaminathan,H.&Rogers,H.J.Detectingitem functioningusinglogistic regression procedures[J].Journal of Educational Measurement,1990(27):361-370.