亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        兩種DIF檢測(cè)方法的模擬研究

        2014-11-08 08:06:34廖虹宇王立君
        中國(guó)考試 2014年5期
        關(guān)鍵詞:錯(cuò)誤率樣本量一致性

        廖虹宇 王立君

        1 引言

        考試作為一種相對(duì)公平競(jìng)爭(zhēng)的機(jī)制,從古至今都是人才選拔的主要方式?,F(xiàn)代社會(huì)不管是升學(xué)、就業(yè)升職等都離不開(kāi)考試,考試的重要性日益凸顯。那么考試項(xiàng)目本身是否足夠公平?考試內(nèi)容是否有利于某些群體,而對(duì)另外的群體不利呢?同時(shí),在考試公平性受到影響時(shí),考試的效度也得不到保證?,F(xiàn)代考試采用項(xiàng)目功能差異(Differential Item Functioning,DIF)來(lái)研究該問(wèn)題。DIF分析作為評(píng)估測(cè)驗(yàn)公平性和效度的關(guān)鍵,已經(jīng)成為世界標(biāo)準(zhǔn)化考試質(zhì)量分析的必要環(huán)節(jié)。由于DIF研究的重要性,曾秀芹和孟慶茂(1998,1999)等較早在國(guó)內(nèi)進(jìn)行了DIF的相關(guān)研究,隨后嚴(yán)芳和張?jiān)鲂蓿?001),任杰(2002),曹亦薇(2003)張穎和趙世明(2004),鹿士義(2004),劉文、邊玉芳和陳玲麗(2010)等將DIF分析運(yùn)用到了各種測(cè)驗(yàn)的分析當(dāng)中,可見(jiàn)國(guó)內(nèi)越來(lái)越多的研究者開(kāi)始重視DIF分析在測(cè)驗(yàn)質(zhì)量評(píng)估中的作用。另外,關(guān)于DIF方法的比較也涌現(xiàn)出一些文章,如董圣鴻和馬世曄(2001),于媛穎(2004),駱?lè)胶蛷埡耵樱?006)。但是這些研究都是基于實(shí)際數(shù)據(jù)的研究,由于實(shí)際數(shù)據(jù)的特殊性,用其作為研究的基礎(chǔ),難以對(duì)不同方法間的特性差異得出普遍的結(jié)論。而Monte Carlo模擬作為一種經(jīng)濟(jì)高效的方法可以為我們提供更為普遍的結(jié)論。因此,本研究采用Monte Carlo模擬,對(duì)兩種常用的DIF分析方法進(jìn)行比較。

        目前,已經(jīng)開(kāi)發(fā)出了許多DIF檢測(cè)方法,如MH方法(Mantel-Haenszel Procedure),SIBTEST方法(Simultaneous Item Bias Procedure),LR方法(Logistic Regression Procedure),STND 方法(Standardization),Lord卡方檢驗(yàn)法等。各種方法都有其優(yōu)缺點(diǎn),在此本文選取MH和LR方法,兩種方法均使用普遍,且檢出率高。MH方法計(jì)算簡(jiǎn)單,花費(fèi)低,易于實(shí)際應(yīng)用,且不要求大樣本(Narayanan&Swaminathan,1996)。LR方法可以看作MH方法的擴(kuò)展方法,可同時(shí)有效地檢測(cè)一致性DIF(Uniform DIF)和非一致性DIF(Nonuniform DIF)(Rogers&Swaminathan,1993)。

        2 兩種DIF檢測(cè)方法的介紹

        2.1 MH方法

        MH方法由Mantel和Haenszel(1959)首先提出,Holland(1985)以及Holland和Thayer(1988)把這種方法用于檢測(cè)項(xiàng)目功能差異[3]?,F(xiàn)在已經(jīng)成為檢測(cè)DIF應(yīng)用最為廣泛的一種方法。MH法用于偵查兩級(jí)記分項(xiàng)目的DIF,以測(cè)驗(yàn)總分作為匹配變量。MH方法統(tǒng)計(jì)量的計(jì)算建立在一張S×2×2的列聯(lián)表中,其中S是測(cè)驗(yàn)總分的水平數(shù),對(duì)于其中的任一水平K,可構(gòu)成一個(gè)來(lái)自?xún)勺尤后w在項(xiàng)目上得、失分?jǐn)?shù)的2×2列聯(lián)次數(shù)表(見(jiàn)表1)。

        表1 MH法S×2×2列聯(lián)表

        根據(jù)樣本數(shù)據(jù)完成上述的S×2×2列聯(lián)表,即可按表中數(shù)據(jù)計(jì)算αMH,公式如下:

        其中f1rk、f0rk分別是在第k個(gè)能力水平組中,參照組答對(duì)項(xiàng)目的人數(shù)和答錯(cuò)項(xiàng)目的人數(shù);f1fk、f0fk則是目標(biāo)組答對(duì)的人數(shù)和答錯(cuò)的人數(shù)。

        αMH的取值介于0至正無(wú)窮之間。αMH=1.0時(shí),表示該研究項(xiàng)目無(wú)DIF;αMH<1.0時(shí),表示研究項(xiàng)目對(duì)目標(biāo)組有較低難度;αMH>1.0時(shí),表示所研究項(xiàng)目對(duì)參照組有較低難度。但是由于αMH的計(jì)算來(lái)自樣本數(shù)據(jù),因此對(duì)其值是否等于1.0必須進(jìn)行統(tǒng)計(jì)檢驗(yàn)(董圣鴻,馬世曄,2001)。

        2.2 LR方法

        Swaminathan和Rogers于1990年介紹了此方法:令Y為項(xiàng)目分?jǐn)?shù)變量,取值為1或0;令Z為觀(guān)察變量,通常為測(cè)驗(yàn)總分;令V為被試分類(lèi)變量。在完全的Logistic回歸模型中,在給定Z與V的條件下,被試正確作答該測(cè)驗(yàn)項(xiàng)目的概率為:

        對(duì)上式兩邊取對(duì)數(shù),整理得:

        這樣就將Logistic回歸模型轉(zhuǎn)化成了線(xiàn)性回歸模型,因變量就是我們通常所說(shuō)的Logit,Z和V都是觀(guān)察變量,ZV項(xiàng)僅是一個(gè)記號(hào),表示兩觀(guān)察變量的組合水平。雖非直接觀(guān)察變量,但也可由Z與V的觀(guān)察變量而推定。用極大似然法或最小二乘法等其他方法估出回歸參數(shù)β0、β1、β2和β3。對(duì)于這些估計(jì)的回歸參數(shù)可以用假設(shè)檢驗(yàn)方法檢驗(yàn)它們的顯著性。檢驗(yàn)的不同結(jié)果,對(duì)DIF的檢測(cè)有不同的含義:如果方程中只有β0與β1不為零(與零有顯著差異),則表示該項(xiàng)目無(wú)DIF;如果方程中β0、β1與β2均不為零,表示該項(xiàng)目有一致性DIF;如果ZV項(xiàng)參數(shù)β3也不為零,則表示項(xiàng)目存在非一致性DIF](鹿士義,2004)。

        3 實(shí)驗(yàn)設(shè)計(jì)

        3.1 數(shù)據(jù)模擬

        本研究所使用的是兩參數(shù)Logistic模型,對(duì)于任意一個(gè)能力為θ的被試,其在項(xiàng)目i上的正確作答概率Pi(θ)為:

        其中,被試能力參數(shù)θ~N(0,1),項(xiàng)目區(qū)分度ln(a)~N(0,1),難度參數(shù)b ~N(0,1),D=1.7。

        3.2 DIF項(xiàng)目模擬設(shè)計(jì)

        本研究固定測(cè)驗(yàn)長(zhǎng)度為50個(gè)項(xiàng)目,均為二級(jí)記分項(xiàng)目。50個(gè)項(xiàng)目的原始參數(shù)情況(見(jiàn)表2)。無(wú)DIF的項(xiàng)目在目標(biāo)組與參照組中各參數(shù)不變,即不同組中能力相同的被試,其在該類(lèi)項(xiàng)目上的正確作答概率相同;有一致性DIF的項(xiàng)目在兩組中具有不同的難度,相同的區(qū)分度,因此通過(guò)改變其中一組被試的項(xiàng)目難度參數(shù)來(lái)設(shè)定有一致性DIF的項(xiàng)目;有非一致性DIF的項(xiàng)目在兩組中具有不同的區(qū)分度,相同的難度,因此通過(guò)改變其中一組被試的項(xiàng)目區(qū)分度參數(shù)來(lái)設(shè)定有非一致性DIF的項(xiàng)目。

        3.3 研究設(shè)計(jì)

        表2 項(xiàng)目參數(shù)情況

        兩被試組的匹配變量為被試在無(wú)DIF的題目上的得分和。

        本研究的自變量如下:樣本量(300,800,1200,1600,2000),DIF值大?。?.25,0.5,1),DIF項(xiàng)目的比例(8%,16%,24%),DIF方法(MH和LR)。已有研究表明,要想得到合適的檢出率,參照組和目標(biāo)組的樣本量至少分別要200~250人(Swaminathan&Rogers,1990;Rogers&Swaminathan,1993)。為了獲得更加穩(wěn)定的結(jié)果,本文選取了300作為最小樣本量,并以2000作為最大樣本量(見(jiàn)表2)。在8%的項(xiàng)目(4個(gè)項(xiàng)目)有DIF時(shí),設(shè)定3題,6題,26題,30題有DIF,前兩個(gè)項(xiàng)目為含一致性DIF的項(xiàng)目,后兩個(gè)為含非一致性DIF的項(xiàng)目;在16%的項(xiàng)目(8個(gè)項(xiàng)目)有DIF時(shí),設(shè)定3題,6題,9題,12題,26題,30題,34題,40題有DIF,前4個(gè)項(xiàng)目為含一致性DIF的項(xiàng)目,后4個(gè)題目為含非一致性DIF的項(xiàng)目;24%的項(xiàng)目(12個(gè)項(xiàng)目)有DIF時(shí),設(shè)定3題,6題,9題,12題,17題,21題,26題,30題,34題,40題,43題,48題有DIF,同樣前6個(gè)題目為含一致性DIF的項(xiàng)目,后6個(gè)題目為含非一致性DIF的項(xiàng)目。因此本研究的實(shí)驗(yàn)設(shè)計(jì)為5×3×3×2的混合設(shè)計(jì),共計(jì)90種實(shí)驗(yàn)條件,每種條件下重復(fù)100次,共計(jì)9 000次。模擬運(yùn)算用R-2.15.2進(jìn)行。

        因變量:I型錯(cuò)誤率和檢出率。統(tǒng)計(jì)學(xué)中I型錯(cuò)誤為棄真錯(cuò)誤,即當(dāng)原假設(shè)為真(統(tǒng)計(jì)學(xué)意義上不顯著)時(shí),卻錯(cuò)誤地否定了原假設(shè)。在DIF分析中則表示,當(dāng)原假設(shè)(題目沒(méi)有DIF)為真時(shí),卻錯(cuò)誤地否定原假設(shè),認(rèn)為題目含有DIF。如果一個(gè)DIF檢測(cè)方法I型錯(cuò)誤率高,那么就說(shuō)明該方法不夠好,會(huì)錯(cuò)誤識(shí)別不含DIF的題目,而被錯(cuò)誤識(shí)別出有DIF的題目可能會(huì)面臨被修改或刪除,從而也就增加了相應(yīng)的工作量,浪費(fèi)人力。檢出率為統(tǒng)計(jì)學(xué)中的正確拒斥率,也被成為統(tǒng)計(jì)檢驗(yàn)力,即原假設(shè)(題目沒(méi)有DIF)為假時(shí),正確地拒絕了原假設(shè),認(rèn)為題目有DIF。因此,檢出率高就代表該方法好,能夠很好地檢測(cè)出有DIF的項(xiàng)目。

        4 結(jié)果

        4.1 I型錯(cuò)誤率分析

        表3呈現(xiàn)了MH和LR兩種方法在不同條件下的平均I型錯(cuò)誤率。

        表3 MH和LR的平均I型錯(cuò)誤率情況(α=0.05時(shí))

        由表3可以看出,MH和LR兩種方法的I型錯(cuò)誤率均在0.05左右,說(shuō)明兩種方法都比較好。MH的I型錯(cuò)誤率隨樣本量有較小幅度的增加(0.052增至0.0550);且隨著有DIF的項(xiàng)目比例的增加也有較小幅度的增加(0.0510增至0.0546);而LR的I型錯(cuò)誤率在所有情況下都較穩(wěn)定,保持在0.049~0.051。因此,可以看出MH方法的I型錯(cuò)誤率變動(dòng)范圍比LR略大(MH:0.0510~0.0550;LR:0.0497~0.0517)。

        另外也可以看到,MH的I型錯(cuò)誤率總是略高于LR的I型錯(cuò)誤率,在樣本量=2000及DIF項(xiàng)目的比例=24%時(shí),兩種方法的I型錯(cuò)誤率差異最大。在樣本量=800時(shí),兩種方法的I型錯(cuò)誤率都最小。

        表4呈現(xiàn)了MH和LR兩種方法的檢出率情況。

        表4 MH和LR的檢出率情況

        從表4可以看到,對(duì)于DIF類(lèi)型來(lái)說(shuō),MH對(duì)非一致性DIF的檢測(cè)相當(dāng)差,對(duì)一致性DIF的檢出率大大高于對(duì)非一致性DIF的檢出率。對(duì)于一致性DIF,MH和LR在樣本量?。∟R=NF=300)時(shí),檢出率能達(dá)到0.5,且MH的檢出率在所有樣本量下都是略高于LR的(Swaminathan&Rogers,1990);對(duì)于非一致性DIF,LR的檢出率則遠(yuǎn)遠(yuǎn)高于MH的,LR對(duì)兩種類(lèi)型的DIF檢測(cè)都很好,適用于檢測(cè)兩種DIF類(lèi)型。MH對(duì)非一致性DIF的檢測(cè)很差,是因?yàn)镸H是設(shè)計(jì)來(lái)用于檢測(cè)一致性DIF的,其對(duì)非一致性DIF的檢測(cè)不夠敏感(Swaminathan&Rogers,1990;Li,Brooks,&Johanson,2012)。因此,兩種方法的比較在接下來(lái)僅限于比較檢測(cè)一致性DIF時(shí)的表現(xiàn)。

        兩種方法的檢出率,不管是一致性DIF還是非一致性DIF,都隨著樣本量及DIF值的增加而增加,在樣本量從300到800及DIF值從0.25增到0.5時(shí),兩種方法檢出率的增長(zhǎng)幅度最大??梢钥吹?,在樣本量大(NR=NF=2000)及DIF值大(DIF=1)時(shí),除去MH檢測(cè)非一致性DIF時(shí),此時(shí)兩種方法的檢出率都很高,在0.9左右。

        DIF項(xiàng)目的比例對(duì)兩種方法的檢出率的影響則不同。對(duì)一致性DIF來(lái)說(shuō),兩種方法的檢出率隨DIF項(xiàng)目比例的增加而增加,在DIF項(xiàng)目比列達(dá)到24%(12個(gè)題目有DIF)時(shí),兩種方法的檢出率都在0.8以上;而對(duì)非一致性DIF來(lái)說(shuō),檢出率有所下降[MH:0.314(8%),0.230(24%);LR:0.803(8%),0.732(24%)]。

        從表4還可以看出,在檢測(cè)一致性DIF時(shí),MH方法的檢出率在樣本量為1200時(shí)就已在0.8以上,而LR在1600才達(dá)到MH的水平。這可能是因?yàn)長(zhǎng)R是參數(shù)方法,對(duì)樣本量的要求較大,因此在樣本量偏大時(shí)才能達(dá)到一個(gè)比較好的檢出率。

        5 討論

        本研究的結(jié)果與前人的研究結(jié)果一致,MH適合于檢測(cè)一致性DIF,檢測(cè)一致性DIF時(shí),檢出率高,且略高于LR。而LR在檢測(cè)一致性和非一致性DIF時(shí)檢出率都很好,但是其對(duì)樣本量的要求較高。DIF項(xiàng)目的比例增加對(duì)檢出率影響隨著DIF類(lèi)型的不同有所不同。總的來(lái)說(shuō),MH是檢測(cè)一致性DIF非常好的方法,并且它不需要大樣本,方法簡(jiǎn)單易用。因此ETS一直采用它對(duì)項(xiàng)目DIF作常規(guī)分析(余仁勝,1999)。當(dāng)要研究其他方法時(shí),通常以這個(gè)方法作為標(biāo)準(zhǔn),將其他方法與之對(duì)比(曾秀芹,孟慶茂,1999)。LR是一個(gè)可以同時(shí)檢測(cè)一致性DIF和非一致性DIF的很強(qiáng)大的方法,在樣本量達(dá)到1500左右時(shí),能夠很好地發(fā)揮其優(yōu)勢(shì)。

        項(xiàng)目功能差異是在我國(guó)的研究還有待進(jìn)一步地深入,未來(lái)還有許多可以研究的方向,當(dāng)兩被試組能力水平不同時(shí)不同方法的DIF檢測(cè)情況,不同匹配變量對(duì)DIF檢測(cè)的影響,小樣本時(shí)如何優(yōu)化DIF檢測(cè)等都值得進(jìn)一步的研究。

        [1]曹亦薇.項(xiàng)目功能差異在跨文化人格問(wèn)卷分析中的應(yīng)用[J].心理學(xué)報(bào),2003,35(1):120-126.

        [2]董圣鴻,馬世曄.三種常用DIF檢測(cè)方法的比較研究[J].心理學(xué)探新.2001,(1):43-48.

        [3]劉文,邊玉芳,陳玲麗,等.馬洛-克羅恩社會(huì)贊許性量表在跨文化研究中的項(xiàng)目功能差異檢驗(yàn)[J].心理科學(xué),2010,33(6):1473-1476.

        [4]鹿士義.漢語(yǔ)水平考試HSK的DIF研究[D].南京師范大學(xué)教育科學(xué)學(xué)院,2004:30.

        [5]駱?lè)?,張厚?檢驗(yàn)功能差異的兩類(lèi)方法——CFA和IRT的比較[J].心理學(xué)探新,2006,1(26):74-78.

        [6]任杰.中國(guó)境內(nèi)外HSK成績(jī)公平性的分析[J].語(yǔ)言教學(xué)與研究,2002,5:69-74.

        [7]嚴(yán)芳,張?jiān)鲂?用Logistic Regression偵察題目差異功能[J].應(yīng)用心理學(xué),2001,7(1):57-62.

        [8]余仁勝.訪(fǎng)美觀(guān)感[J].考試研究動(dòng)態(tài),1999(3).

        [9]于媛穎.多種DIF檢測(cè)方法的比較研究[D].北京語(yǔ)言大學(xué),2004.

        [10]曾秀芹,孟慶茂.項(xiàng)目功能差異的簡(jiǎn)介[J].心理學(xué)探新,1998(1).

        [11]曾秀芹,孟慶茂.項(xiàng)目功能差異及其檢測(cè)方法[J].心理學(xué)動(dòng)態(tài),1999(2):41-47.

        [12]張穎,趙世明.醫(yī)師資格考試中的項(xiàng)目功能差異研究[J].中國(guó)考試,2004(10):23-26.

        [13]Li,Y.,Brooks,G.P.,&Johanson,G.A.Item Discrimination and Type IError in the Detection of Differential Item Functioning.Educational and Psychological Measurement,2012,72(5),847-861.

        [14]Narayanan,P.,&Swaminathan,H..Identification of items that show nonuniform DIF[J].Applied Psychological Measurement,1996(20):257-274.

        [15]Rogers,H.J.,&Swaminathan,H..A comparison of logistic regression and Mantel-Haenszel procedures for detecting differential item functioning[J].Applied Psychological Measurement,1993(17):105-116.

        [16]Swaminathan,H.&Rogers,H.J.Detectingitem functioningusinglogistic regression procedures[J].Journal of Educational Measurement,1990(27):361-370.

        猜你喜歡
        錯(cuò)誤率樣本量一致性
        限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類(lèi)錯(cuò)誤率膨脹*
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        醫(yī)學(xué)研究中樣本量的選擇
        注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
        IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
        航空裝備測(cè)試性試驗(yàn)樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        正視錯(cuò)誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        解析小學(xué)高段學(xué)生英語(yǔ)單詞抄寫(xiě)作業(yè)錯(cuò)誤原因
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        丰满人妻一区二区三区免费视频| 国产一区二区三区高清视频| 国产成人美涵人妖视频在线观看| 色婷婷精品久久二区二区蜜桃| 亚洲综合激情五月丁香六月| 国产99r视频精品免费观看| 极品人妻少妇一区二区| 一区二区三区中文字幕在线播放| 男人扒开添女人下部免费视频 | 极品美女尤物嫩模啪啪| 91九色国产老熟女视频| 高潮潮喷奶水飞溅视频无码| 波多野结衣aⅴ在线| 免费观看视频在线播放| 亚洲av高清一区二区在线观看 | 亚洲国产精品一区二区久| 亚洲av色香蕉一区二区蜜桃| 国产国语按摩对白av在线观看| 国产成人精品a视频一区| 99久久精品自在自看国产| 视频精品亚洲一区二区| 国产免费一区二区三区精品视频| 国产熟妇按摩3p高潮大叫| 大陆一级毛片免费播放| 狼人狠狠干首页综合网| 亚洲午夜久久久精品影院| 国产精品jizz视频| 国产成人亚洲综合小说区| 日韩少妇人妻精品中文字幕| 亚洲av美国av产亚洲av图片| 国产在线高清视频| 人妖系列在线免费观看| 人人爽久久久噜人人看| 日本老熟欧美老熟妇| 淫妇日韩中文字幕在线| 大香蕉av一区二区三区| 大桥未久亚洲无av码在线| 婷婷激情六月| 你懂的视频网站亚洲视频| 亚洲精品久久久久avwww潮水| 精品欧美在线|