亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多級計(jì)分題目的分步功能差異檢驗(yàn)

        2014-01-16 02:22:42李美娟劉紅云
        關(guān)鍵詞:一致性水平檢測

        李美娟,劉紅云

        (1.北京教育科學(xué)研究院,北京 100191;2.北京師范大學(xué)心理學(xué)院,北京 100875)

        0 引言

        從20世紀(jì)60年代起,美國教育界就開始關(guān)注性別與種族在測驗(yàn)結(jié)果上的差異,即測驗(yàn)公平的問題.測驗(yàn)的公平性是測驗(yàn)研發(fā)者、使用者,乃至整個(gè)社會所普遍關(guān)注的一個(gè)非常重要而又異常復(fù)雜的問題.對于中國這個(gè)考試大國來講,為了提高試題質(zhì)量,對于一些高考、公務(wù)員等考試進(jìn)行題目的公平性檢驗(yàn)是十分必要的.美國的教育研究學(xué)會(AERA)、心理學(xué)學(xué)會(APA)、教育測量年會(NCME)認(rèn)為測驗(yàn)的公平必須滿足4個(gè)條件:(i)項(xiàng)目沒有偏差;(ii)所有的考生都有平等的機(jī)會證實(shí)自己對于測驗(yàn)內(nèi)容掌握的熟練性程度;(iii)所有的考生都有平等的機(jī)會學(xué)習(xí)測驗(yàn)內(nèi)容(除了就業(yè)、認(rèn)證或者入學(xué)考試);(iv)不同類別考生的分?jǐn)?shù)分布是相同的[1].中國教育學(xué)會教育測量與統(tǒng)計(jì)分會認(rèn)為測驗(yàn)公平性是指如果一個(gè)測驗(yàn)對來自不同團(tuán)體而具有相同能力或熟練程度的個(gè)體所測得的特性相同,則說明該測驗(yàn)具有公平性,如果測得的特性不同,則說明該測驗(yàn)不公平而具有偏差[2].即公平性檢查的目的是找出是否存在測驗(yàn)范圍之外引起組間差異的因素.

        項(xiàng)目偏差這個(gè)概念是美國在20世紀(jì)60年代提出的,主要用于對跨文化團(tuán)體、性別、種族差異的研究.一直以來,對于項(xiàng)目偏差的研究,項(xiàng)目功能差異(DIF,differential item functioning)一直發(fā)揮著非常重要的作用,DIF是項(xiàng)目偏差的充分而非必要條件.相對于項(xiàng)目偏差,DIF是一個(gè)有關(guān)統(tǒng)計(jì)分析的術(shù)語,表示不同團(tuán)體相同能力水平的被試對于相同測驗(yàn)題目的通過率卻不同,引起DIF的原因是2組被試在與測驗(yàn)所測的能力無關(guān)的知識或經(jīng)驗(yàn)上存在差異[3-5].目前大多數(shù)檢測DIF的方法都集中在2級計(jì)分題目上,其中包括(i)非參數(shù)方法:MH,SIBTEST,LRDIF,STND等;(ii)參數(shù)方法:基于IRT的Lord卡方檢驗(yàn)法,Raju面積測量法和似然比率法(IRT和LRDIF);而對于多級計(jì)分題目DIF的檢測方法多來源于2級計(jì)分題目檢測方法的拓展,目前也有許多關(guān)于多級計(jì)分題目DIF檢測的方法,其中包括標(biāo)準(zhǔn)化均值差異法、Mantel的卡方檢驗(yàn)、廣義 Mantel-Haenszel法、多級SIBTEST法、邏輯斯蒂克判別函數(shù)分析法、累積發(fā)生比方法等.但是,這些傳統(tǒng)的多級計(jì)分題目檢測DIF的方法只能提供項(xiàng)目水平上的DIF指標(biāo),不能測量題目在哪個(gè)分?jǐn)?shù)水平上存在DIF,進(jìn)而也不能進(jìn)一步解釋DIF的產(chǎn)生原因.

        縱觀國外對于DIF的研究,大多數(shù)研究者集中在其方法的探討上,有少數(shù)研究涉及到DIF檢測的影響因素,如樣本量、維度,以及模型的參數(shù)等方面.而國內(nèi)對DIF的研究也比較早,主要是對DIF相關(guān)概念以及檢測方法的研究.之后也有不少研究者使用實(shí)際數(shù)據(jù)對DIF檢測方法進(jìn)行應(yīng)用,并對幾種方法進(jìn)行比較,還有一些研究者將DIF的檢測直接應(yīng)用到心理測驗(yàn)中,對心理測驗(yàn)的公平性進(jìn)行初步探討.但是很少有研究對DIF的解釋進(jìn)行深入分析,或者對產(chǎn)生DIF的原因進(jìn)行挖掘,從而使測量在心理學(xué)的實(shí)際應(yīng)用中變得更有意義.近年來,對多級計(jì)分項(xiàng)目的DIF的研究有進(jìn)一步細(xì)化和深入的趨勢,本研究的目的在于回顧DIF研究方法這一領(lǐng)域的新進(jìn)展及應(yīng)用,介紹一種新的檢測DIF的方法——分步功能差異(DSF)檢驗(yàn)法,同時(shí)結(jié)合一個(gè)實(shí)際測驗(yàn),簡要介紹這一方法的具體應(yīng)用.本研究的目的在于為研究者進(jìn)一步探討產(chǎn)生DIF的原因提供更充分的依據(jù)和途徑.

        1 分步功能差異(DSF)的相關(guān)概念

        1.1 分步函數(shù)的定義

        分步功能差異(DSF)可以檢測多級計(jì)分題目的不同分?jǐn)?shù)水平上是否存在DIF,即通過分步函數(shù)的特征(基本參數(shù))得到特定能力的被試在各個(gè)分?jǐn)?shù)水平上正確做答的概率[6].其分步函數(shù)根據(jù)IRT模型的不同具有不同的形式.基于不同形式的分步功能特征的含義是不同的,最常用的是等級反應(yīng)模型(GRM)下的累積形式和分部計(jì)分模型(PCM)下的連接形式的分步功能差異.

        分步函數(shù)主要是在多級計(jì)分題目上,個(gè)體從低分?jǐn)?shù)水平跨越到高分?jǐn)?shù)水平的概率,對于一個(gè)有r個(gè)分?jǐn)?shù)水平的多級計(jì)分題目,則有J=r-1個(gè)分步水平.例如,一個(gè)4級計(jì)分題目,分?jǐn)?shù)水平定為0,1,2,3,r=4,分步水平 J=3,結(jié)果用符號 Y 表示.其累積形式的分步函數(shù)是:(i)被試從分?jǐn)?shù)水平0到分?jǐn)?shù)水平1或者高于1的概率,即Y≥1概率;(ii)被試從分?jǐn)?shù)水平1到分?jǐn)?shù)水平2或者高于2的概率,即Y≥2概率;(iii)被試從分?jǐn)?shù)水平2到分?jǐn)?shù)水平為3的概率,即Y=3概率.而其連接形式的分步函數(shù)是:(i)被試從分?jǐn)?shù)水平0到分?jǐn)?shù)水平1的概率,即Y=1概率.(ii)被試從分?jǐn)?shù)水平1到分?jǐn)?shù)水平2的概率,即Y=2概率.(iii)被試從分?jǐn)?shù)水平2到分?jǐn)?shù)水平3的概率,即Y=3概率.

        1.2 分步函數(shù)的參數(shù)

        每個(gè)分步水平均使用2參數(shù)Logistic回歸模型進(jìn)行參數(shù)估計(jì)[7]:

        其中bj為j分步水平的難度系數(shù),且每個(gè)分步水平的難度系數(shù)是不同的;a為分步水平的區(qū)分度系數(shù),且每個(gè)分步水平的區(qū)分度系數(shù)是相同的;θ為被試的能力水平;D為1.7.G=0為目標(biāo)組,G=1為參照組.a描述了每個(gè)分步水平能夠區(qū)分高低能力被試的程度,bj描述了通過該分步水平的概率為0.5的特定被試的能力水平.在GRM模型中,假設(shè)bj隨著分步水平的提高而增加,而在PCM模型中,則沒有這樣的假設(shè).ωj=0表示不存在DSF,ωj>0表示參照組占優(yōu)勢,ωj<0表示目標(biāo)組占優(yōu)勢.

        1.3 一致性DSF和非一致性DSF的概念

        在DSF的分析中,一致性DSF和非一致性DSF是基于j個(gè)分步水平的DSF分析.一致性DSF指j個(gè)分步水平的DSF均相同,而非一致性DSF是指j個(gè)分步水平的DSF不完全相同[8].由此可見,雖然DSF和2級計(jì)分題目DIF的研究較相似,但是對于非一致性DIF和DSF,組間a參數(shù)差異的不同是區(qū)分兩者最重要的因素.在2級計(jì)分題目中,a參數(shù)的不同表示非一致性DIF的存在,而非一致性DSF表示在不同的分步水平上2組DIF方向不一致或DIF大小程度不一致,如DSF分析結(jié)果在第1個(gè)分步水平上有利于男生組,在第2個(gè)分步水平上有利于女生組,以上屬于非一致性DSF的一種情況.

        非一致性DSF的檢測方法與2級計(jì)分的非一致性DIF檢驗(yàn)方法是相同的,但是相關(guān)研究文獻(xiàn)中還沒有真正應(yīng)用過,所以應(yīng)用的價(jià)值還有待進(jìn)一步證實(shí).

        2 DSF的估計(jì)

        已有研究關(guān)于DSF的估計(jì)方法主要有參數(shù)和非參數(shù)2類方法,其中參數(shù)法主要有IRT方法,而非參數(shù)法主要有odds比率法和Logistic回歸法.這些方法曾是檢測2級計(jì)分DIF的方法,所以在應(yīng)用時(shí)要注意:(i)必須將所研究題目的等級水平轉(zhuǎn)化為j個(gè)分步水平,(ii)必須對每個(gè)分步水平獨(dú)立分析.

        2.1 分步水平的建構(gòu)方法

        雖然從理論上講構(gòu)建分步水平的方法有多種,但主要的是以廣義分部計(jì)分模型[9](GPCM)為基礎(chǔ)的連接方法(AC-LOR)和以等級計(jì)分模型[10](GRM)為基礎(chǔ)的累積方法(CU-LOR),這2種方法對DSF的定義如前所述,但是2種概念下DSF的結(jié)果和解釋是否相同也是DIF研究者們需要深入考察的一個(gè)內(nèi)容.對以這2種模型為基礎(chǔ)的DSF發(fā)生比方法進(jìn)行了統(tǒng)計(jì)特征的模擬研究比較,結(jié)果發(fā)現(xiàn)累積方法下的DSF結(jié)果更穩(wěn)定[7],精確性更高.另外,將2種方法應(yīng)用于實(shí)際數(shù)據(jù)時(shí)[11],當(dāng)不存在DSF或者DSF很小時(shí),兩者結(jié)果一致.但是第1種方法缺乏獨(dú)立性,一個(gè)水平存在較大的DSF,將伴隨著高水平反方向的較大DSF.當(dāng)存在較大的DSF時(shí),使用第2種方法更容易獲得顯著的結(jié)果,而且這種方法標(biāo)準(zhǔn)誤更小,穩(wěn)定性和檢驗(yàn)力更強(qiáng).研究還發(fā)現(xiàn),當(dāng)僅有一個(gè)分?jǐn)?shù)水平上存在DSF時(shí),第1種方法的精確性更強(qiáng),解釋更加合理.

        2.2 參數(shù)估計(jì)方法

        IRT檢測DSF的基礎(chǔ)是比較參照組和目標(biāo)組在多級計(jì)分題目的每個(gè)分步水平上的差異[8],表示為Δ(bj)=bjF-bjR.如果 Δ(bj)=0,則不存在 DSF.若Δ(bj)>0,則表示參照組占優(yōu)勢.反之,目標(biāo)組占優(yōu)勢.Δ(bj)為j分步水平上參照組和目標(biāo)組的有符號面積測度[12],這與 Raju對2級計(jì)分題目DIF的面積測量法是相同的.因此,DSF的效應(yīng)大小的衡量標(biāo)準(zhǔn)與Raju的面積測量法的衡量標(biāo)準(zhǔn)是相同的.

        常用的檢驗(yàn)標(biāo)準(zhǔn)是:若︱Δ(bj)︱<0.25,則表示較小的DSF值.︱Δ(bj)︱<0.50,則表示中等的DSF值.如果︱Δ(bj)︱>0.50,則表示較大的DSF值.檢驗(yàn)IRT模型下不存在DSF的虛無假設(shè)的方法有2種,其中一種是將Δ(bj)除以標(biāo)準(zhǔn)誤,并且假設(shè)其是標(biāo)準(zhǔn)正態(tài)分布的.另外一種方法是似然比檢驗(yàn)法,即將緊縮模型(2組項(xiàng)目參數(shù)固定)和擴(kuò)展模型(自由估計(jì)2組分步函數(shù)參數(shù))的似然值進(jìn)行比較.

        2.3 非參數(shù)方法

        與檢驗(yàn)DSF的參數(shù)方法比較,在實(shí)際應(yīng)用中非參數(shù)方法更受歡迎,因?yàn)槠洳皇軜颖玖俊?shù)據(jù)與模型擬合程度的影響,而且易操作.

        2.3.1 發(fā)生比方法(odds ratio) 發(fā)生比方法(odds ratio)主要是比較參照組和目標(biāo)組成功通過j分步水平的發(fā)生比,該發(fā)生比的自然對數(shù)就是λ值,即不同能力水平被試的λ值[13].λ的算法為

        其中Ajk為k能力水平的參照組成功通過j分步水平的人數(shù);Bjk為k能力水平的參照組未成功通過j分步水平的人數(shù);Cjk為k能力水平的目標(biāo)組成功通過j分步水平的人數(shù);Djk為k能力水平的參照組未成功通過j分步水平的人數(shù);若λj=0,則表示在j分步水平上不存在DSF;若λj>0,則表示在j分步水平上,題目得分會有利于參照組;若λj<0,則表示j分步水平上,題目得分會有利于目標(biāo)組.

        發(fā)生比(odds ratio)方法可以檢驗(yàn)DSF的顯著性,檢驗(yàn)方法為

        其中 SE(λ^j)的算法如下:

        另外,上述方程所檢驗(yàn)的統(tǒng)計(jì)量服從標(biāo)準(zhǔn)正態(tài)分布的[14].

        ETS常用的判斷標(biāo)準(zhǔn)為:當(dāng)︱λj︱ <0.43時(shí),則表示存在較小的DSF值;當(dāng)0.43≤︱λj︱≤0.63時(shí),則表示存在中等的DSF值;當(dāng)︱λj︱ >0.63時(shí),則表示較大的DSF值.

        2.3.2 Logistic回歸 估計(jì)DSF的另一種非參數(shù)方法是Logistic回歸[8],模型表述為

        其中Y為被試在某個(gè)項(xiàng)目上第j步的得分,X為測驗(yàn)總分.G為一個(gè)關(guān)于組別變量的虛無變量,并且是G=0代表目標(biāo)組,G=1代表參照組.βj2為j分步水平的DSF效應(yīng).其中βj2=0為j分步水平不存在DSF,βj2>0則表示j分步水平上存在DSF,題目得分有利于參照組,βj2<0則表示j分步水平上存在DSF,題目得分有利于目標(biāo)組.這個(gè)方法也可以通過在模型中加入測驗(yàn)分?jǐn)?shù)X和分組變量G的交互作用來考察是否存在非一致性DSF.

        顯著性檢驗(yàn)方法:似然比方法,即將緊縮模型(無βj2G項(xiàng))和擴(kuò)展模型(有βj2G項(xiàng))的似然值進(jìn)行比較.統(tǒng)計(jì)軟件提供β的估計(jì)值,顯著性水平以及模型的(-2×似然值),以便進(jìn)行適當(dāng)?shù)乃迫槐葯z驗(yàn).該方法劃定DSF范圍的標(biāo)準(zhǔn)是ΔR2,若ΔR2<0.10,則表示較小的DSF值,若0.10≤ΔR2≤0.20,則表示中等的DSF值.若ΔR2>0.20,則表示較大的DSF 值[15].

        2.4 3種估計(jì)方法之間的區(qū)別和聯(lián)系

        IRT參數(shù)估計(jì)要求樣本量大,數(shù)據(jù)需與相關(guān)分步函數(shù)擬合,并且該方法比較耗時(shí),建議使用BILOGMG3、IRTLRDIF[16]和 MULTILOG7.DIFAS程序,均可計(jì)算 λj和 z(λj)[17].如果在觀測分?jǐn)?shù)與IRT模型擬合的情況下,并且將測驗(yàn)總分認(rèn)為是能力水平的近似估計(jì)時(shí),3種估計(jì)方法的結(jié)果具有一定的關(guān)系,即 Logistic回歸(迭代法)和 odds ratio(非迭代法)方法估計(jì)的β值和λj是等值的[18],另外,這2個(gè)數(shù)值與2組難度系數(shù)的差異是成比例的,其中比例系數(shù)就是區(qū)分度值[16].

        3 使用DSF的結(jié)果檢測DIF

        3.1 利用DSF效應(yīng)模式識別DIF產(chǎn)生的原因

        R.D.Penfield等[19]根據(jù) DSF產(chǎn)生的軌跡將DSF分為普遍性DSF和非普遍性DSF,普遍性DSF是指所有的分步水平都有DSF效應(yīng),說明導(dǎo)致DIF的因素在題目水平上造成影響.而非普遍性DSF是指一些分步水平上存在DSF,說明導(dǎo)致DIF的因素僅僅在一個(gè)或者少數(shù)幾個(gè)分步水平上造成影響.根據(jù)DSF產(chǎn)生的一致性將分為一致性DSF、會聚性DSF、發(fā)散性DSF 3種.一致性DSF是指分步水平DSF值的大小和符號都相同,會聚性DSF是指分步水平的DSF值符號相同,大小卻不同,發(fā)散性DSF是指分步水平的DSF值符號不同,詳見表1.

        表1 DSF效應(yīng)模式

        一致普遍性DSF對DIF的產(chǎn)生源于題目水平的特征提供了充足的證據(jù),而一致非普遍性DSF說明DIF的產(chǎn)生不一定源于題目水平的特征,而是源于存在DSF效應(yīng)的分步水平的特征.會聚性DSF說明DIF可能源于題目水平的特征,也可能源于不同分?jǐn)?shù)水平的不同特征.會聚性DSF的解釋很有挑戰(zhàn)性,尤其在分步水平較多的情況下.發(fā)散性DSF給DIF源于不同分步水平的特征提供了充足的證據(jù),而且不同的分步特征使得有利的組別不同.所以DIF研究者的任務(wù)就是檢測定義分步水平的分?jǐn)?shù)等級的特征,從而識別是一個(gè)特征對不同分步水平有影響還是多個(gè)特征分別對不同分步水平有影響.

        3.2 基于DSF結(jié)果檢驗(yàn)項(xiàng)目DIF

        每個(gè)分步水平不存在DSF是題目不存在DIF的充分必要條件.這種方法也就是R.D.Penfield提出的DIF同時(shí)性分步水平檢測方法(SSL),其源于發(fā)生比的DSF估計(jì)法[6].SSL基于分步水平,并且在DSF的符號和大小隨著分步水平的變化而變化時(shí),具有比其它DIF方法更強(qiáng)的檢驗(yàn)力.

        上述方法也就是DIF的global檢驗(yàn)方法的一種,DIF的global檢驗(yàn)則關(guān)注無符號DSF,因此它對發(fā)散性DSF是敏感的.當(dāng)分步水平的DSF符號不同、大小不同時(shí),global檢驗(yàn)法對DIF的檢測是比較敏感的,其中現(xiàn)有的global檢驗(yàn)法包括,IRT的似然比方法,多級邏輯斯蒂克回歸方法,廣義的MH卡方檢驗(yàn)法,還有SSL法[7],但是在分步水平的 DSF一致時(shí),net檢驗(yàn)法的敏感性更強(qiáng).DIF的net檢驗(yàn)基于所有分步水平有符號DSF的集合,它對發(fā)散性DSF是不敏感的.其中DIF的net檢驗(yàn)包括Mantel的卡方檢驗(yàn)法、多級計(jì)分SIBTEST檢測法、標(biāo)準(zhǔn)均值差異和其相關(guān)方法,以及 Liu-Aresti的累積 common odds ratio估計(jì)法.因此,DIF的 net檢驗(yàn)對發(fā)散性DSF是不敏感的,而 DIF的 global檢驗(yàn)對發(fā)散性DSF 是敏感的[21].

        3.3 DSF和DIF的聯(lián)合使用

        對于如何使DIF和DSF的檢測最有效地發(fā)揮作用,最重要的是弄清楚兩者在多級計(jì)分模型中評價(jià)測量不變性的優(yōu)缺點(diǎn).在關(guān)注造成DIF的分?jǐn)?shù)水平時(shí),DIF的檢測并沒有提供任何的信息.相反,DSF的檢測卻能提供給項(xiàng)目水平的DIF提供分?jǐn)?shù)水平上的信息.雖然DIF存在這樣的缺點(diǎn),但是有時(shí)DIF的檢驗(yàn)力可能更強(qiáng).因?yàn)槠浞治鼍C合了j個(gè)分步水平的結(jié)果.總之,DIF在非等同測量中可能更敏感,而DSF可以給非等同測量的形式提供更多的信息.

        基于DIF和DSF檢測的優(yōu)缺點(diǎn),建議在虛無假設(shè)為不存在DIF的多級計(jì)分題目中,測量等同的開始階段則同時(shí)使用DIF的net檢驗(yàn)和global檢驗(yàn).前有研究發(fā)現(xiàn):(i)當(dāng)DSF效應(yīng)不一致時(shí)(除了普遍性DSF),global檢驗(yàn)法的檢驗(yàn)力更強(qiáng).(ii)當(dāng)DSF效應(yīng)一致時(shí)(普遍一致性DSF),net檢驗(yàn)法的檢驗(yàn)力更強(qiáng).如果結(jié)果接受虛無假設(shè),則說明測量的等同性存在,如果拒絕虛無假設(shè),則說明需要進(jìn)一步的DSF分析[20].

        因此,DSF和DIF檢驗(yàn)的聯(lián)合可以提高敏感性,并且可以給題目提供更多的信息.DSF的檢測可以對DIF產(chǎn)生原因和軌跡提供更多的信息.在實(shí)際應(yīng)用中,建議同時(shí)進(jìn)行DIF的net檢驗(yàn)和global檢驗(yàn),如果兩者中的一種檢驗(yàn)結(jié)果顯著,那么需要繼續(xù)進(jìn)行DSF的檢測[19],所以建議同時(shí)使用3種方法對DIF進(jìn)行檢驗(yàn),檢驗(yàn)力會更強(qiáng).

        4 應(yīng)用舉例

        以下是一個(gè)對DSF使用以及解釋的實(shí)證研究.本研究的研究材料是Ralf Schwarzer等編制的一般自我效能感量表[21],其中有10個(gè)題目,均為4點(diǎn)計(jì)分.被試為美國人和香港人,其中美國被試1 167人,約占48%,香港被試1 152人,約占52%.另外,在此研究中,美國為參照組,香港為目標(biāo)組.

        分別使用發(fā)生比方法,Logistic回歸法,IRT方法對自我效能感量表的10個(gè)題目DSF分析.結(jié)果如表2所示.

        表2 發(fā)生比的DSF數(shù)據(jù)分析

        在表2中,使用DIFAS程序[17]計(jì)算各分步水平上的 common log-ratio(λj),λj值的標(biāo)準(zhǔn)誤.為了驗(yàn)證如何將DSF的分析與DIF結(jié)合在一起,每個(gè)題目也均進(jìn)行了global和net檢驗(yàn),其中DIF的global檢驗(yàn)對每個(gè)分步水平的DSF進(jìn)行顯著性水平為Bonfereoni-adjusted Typed Ierror rate(0.05/J)的顯著性檢驗(yàn),而DIF的net檢驗(yàn)使用Liu-Agresti累積 common Log-odds ration(LA),LA值服從正態(tài)分布,可通過Z值對其進(jìn)行顯著性檢驗(yàn)[22].

        在表2中第1列為題目,第2列為分步水平,第3列為λi,第4列為λi的標(biāo)準(zhǔn)誤,第5列為顯著性水平為Bonfereoni-adjusted typed I error rate(0.05/J)的顯著性檢驗(yàn),即DSF的global檢驗(yàn),第6列是根據(jù)判斷標(biāo)準(zhǔn)判別的DSF效應(yīng)大小,第7列為DSF模式,第8列為DSF的net檢驗(yàn).

        表3中,使用Logistic回歸法(SPSS)和IRT方法(Multilog軟件)對上述10個(gè)題目進(jìn)行DSF分析,結(jié)果發(fā)現(xiàn),Logistic回歸法和IRT方法計(jì)算的結(jié)果與發(fā)生比方法的計(jì)算結(jié)果基本相似,符合上文中的理論假設(shè),另外,也說明該數(shù)據(jù)和IRT的分步函數(shù)是擬合的.

        綜上所述,本研究將使用發(fā)生比方法對研究結(jié)果進(jìn)行解釋,在本結(jié)果中,8個(gè)題目的global檢驗(yàn)結(jié)果顯著,net檢驗(yàn)結(jié)果也顯著.DSF模式完全決定于DSF的大小,而不是DSF效應(yīng)的顯著性水平.研究結(jié)果發(fā)現(xiàn),2,7,10題的net DIF檢驗(yàn)顯著,且DSF屬于普遍一致型,由此可以說明造成DIF的原因在于題目本身;2題和7題的λ值為正,表明對于第2和7題講,相同自我效能感的香港人和美國人,美國人在此題目上會得分更高,而10題相反,香港人得分會更高.9題屬于普遍會聚型DSF,說明造成DIF的原因在于不僅在于題目本身,而且在于題目選項(xiàng)的設(shè)置,λj值越大,說明選項(xiàng)j的設(shè)置出現(xiàn)問題的程度越大,并且λ值為正,則說明在每個(gè)選項(xiàng)的設(shè)置上美國人得分都比較高,只是差異程度不同.3,4,5,8題的DSF屬于非普遍會聚型,與前面一致的是,λj值越大,說明選項(xiàng)j的設(shè)置出現(xiàn)問題的程度越大,并且具有中等或者較大程度λ值的選項(xiàng)j的設(shè)置標(biāo)準(zhǔn)比較容易出現(xiàn)問題.總之,使用該問卷對美國人和香港人的自我效能感進(jìn)行測量和比較是很不公平的.

        表3 Logistic方法和IRT方法的DSF分析

        5 本方法的未來研究趨勢以及局限

        分步功能差異(DSF)檢驗(yàn)法的優(yōu)點(diǎn)是:(i)測量不變性水平高于DIF的整體測量方法.(ii)DSF方法可以分?jǐn)?shù)水平上(分步水平)分析產(chǎn)生DIF的原因.即如果一個(gè)多級計(jì)分題目標(biāo)記有DIF,那么DSF可以分離題目的成分來確定導(dǎo)致DIF的原因給題目內(nèi)容的審核以及修訂提供依據(jù).造成DIF的影響因素是修訂或者刪除題目的關(guān)鍵[18].(iii)越來越多的研究者對題目認(rèn)知策略感興趣[23],這就強(qiáng)調(diào)了研究者應(yīng)在有關(guān)認(rèn)知策略的測量特征上理解組別差異,而DSF可以對多級計(jì)分題目檢測其認(rèn)知策略的組別差異.但是,面對一個(gè)顯著的分步水平DSF值,研究者的任務(wù)就是將分步水平的DSF轉(zhuǎn)為特定分?jǐn)?shù)水平的DSF.2種概念下DSF的解釋是不同的,由于累積方法的DSF穩(wěn)定性強(qiáng),所以其是研究者們常用的一種方法.例如,4級計(jì)分題目的第2個(gè)分步水平上存在DSF表示2個(gè)最低分?jǐn)?shù)水平到2個(gè)最高分?jǐn)?shù)水平的過渡對于其中一個(gè)組來說要更難.但是,僅DSF是不足以說明哪個(gè)高分?jǐn)?shù)水平造成DSF,有可能是第3個(gè)分?jǐn)?shù)水平,也有可能是第4個(gè)分?jǐn)?shù)水平,也有可能兩者都有.

        一些研究者提出的策略是,如果一個(gè)分步水平上存在DSF(如,第j分步水平)表示在第j個(gè)分?jǐn)?shù)水平上存在著組間差異,說明DIF的產(chǎn)生是由于第j個(gè)分?jǐn)?shù)水平的特征因素造成的;如果第j和j+1個(gè)分步水平均存在著組間差異,說明DIF的產(chǎn)生是由于第j和j+1個(gè)分?jǐn)?shù)水平的特征因素造成的.但是通過這種方法計(jì)算的結(jié)果是有偏的,所以寄予在未來研究中能夠發(fā)現(xiàn)一種能夠?qū)Ψ植剿降椒謹(jǐn)?shù)水平進(jìn)行準(zhǔn)確轉(zhuǎn)化的方法,也希望未來的研究能夠更深刻得理解非一致性DSF,并且進(jìn)一步對檢測非一致性DSF的方法進(jìn)行研究和實(shí)踐應(yīng)用.另外,DSF是DIF研究領(lǐng)域的一種新方法,其可以在分?jǐn)?shù)水平上檢測DSF,從而對DIF產(chǎn)生的原因深入探討,但是無論從方法上來講,還是從實(shí)踐上來講,這種方法還不是很成熟,所以期望未來大量的將其應(yīng)用于心理測驗(yàn)的實(shí)證研究,進(jìn)而為測驗(yàn)公平性提供充足的證據(jù).

        [1] American Educational Research Association,American Psychological Association,National Council on Measurement in Education.Standards for educational and psychological testing[M].Washington D C:American Psychological Association,1999.

        [2]中國教育學(xué)會教育測量與統(tǒng)計(jì)分會.測量術(shù)語測驗(yàn)公平性[J].中國考試,2003,12(上半月刊):19.

        [3]Holland PW,Thayer D T.Differential item performance and the Mantel-Haenszel procedure[C].NJ:Erlbaum,1998:129-145.

        [4]Penfield R D,Camilli G.Differential item functioning and item bias[C].New York:Elsevier,2007:125-167.

        [5]Zumbo B D.Three generations of DIF analyses:considering where it has been,where it is now,and where it is going [J].Language Assessment Quarterly,2007,4(2):223-233.

        [6] Penfield R D.Assessing differential step functioning in polytomous items using a common odds ratio estimator[J].Journal of Educational Measurement,2007,44(3):187-210.

        [7]Penfield R D.Three classes of nonparametric differential step functioning effectestimators[J].Applied Psychological Measurement,2008,32(6):480-501.

        [8]Penfield R D,Gattamorta K,Childs R A.An NCME instructionalmodule on using differential step functioning to refine the analysis of DIF in polytomous items[J].Educational Measurement:Issues and Practice,2009,28(1):38-49.

        [9]Muraki E.A generalized partial credit model:application of an EM algorithm[J].Applied Psychological Measurement,1992,16(2):159-176.

        [10]Wim Jvan der Linden,Ronald K Hambleton.Handbook of modern item response theory[M].New York:Springer-Verlag New York Inc,1997:85-100.

        [11]Gattamorta K A.A comparison of adjacent categories and cumulative DSF effect estimators[D].Miami:University of Miami,2009.

        [12]Cohen A S,Kim SH,Baker F B.Detection of differential item functioning in the graded response model[J].Applied Psychological Measurement,1993,17(4):335-350.

        [13]Penfield R D.A nonparametricmethod for assessing differential step functioning in polytomous items[C].San Francisco:CA,2006.

        [14] Hauck W W.The large sample variance of the Mantel-Haenszel estimator of a common odds ratio[J].Biometrics,1979,35(4):817-819.

        [15]Jodoin M G,Gierl M J.Evaluating type I error and power rates using an effect sizemeasure with the logistic regression procedure for DIF detection [J].Applied Measurement in Education,2001,14(4):329-349.

        [16]Thissen D.IRTLRDIF v.2.0 b:software for the computation of the statistics involved in item response theory likelihood-ratio tests for differential item functioning.2001,Unpublished ms.

        [17]Penfield R D.Computer program exchange DIFAS:differential item functioning analysis system [J].Applied Psychological Measurement,2005,29(2):150-151.

        [18]Alvarez K,Penfield R D.Using differential step functioning(DSF)to refine the analysis of DIF in polytomous items:an illustration[C].Washington D C,2007.

        [19]Penfield R D,Alvarez K,Lee O.Using a taxonomy of differential step functioning to improve the interpretation of DIF in polytomous items:an illustration [J].Applied Measurement in Education,2009,22(1):61-78.

        [20]Penfield R D.Distinguishing between net and global DIF in polytomous items[J].Journal of Educational Measurement,2010,47(2):129-149.

        [21]Schwarzer R,Jerusalem M.Generalized self-efficacy scale[EB/OL].[2014-05-16].www.thefindingsgroup.com.

        [22]Penfield R D,Algina J.Applying the Liu-Agrestiestimator of the cumulative common odds ratio to DIF detection in polytomous items[J].Journal of Educational Measurement,2003,40(4):353-370.

        [23] Leighton JP,GierlM J.Defining and evaluatingmodels of cognition used in educational measurement to make inferences aboutexaminees’thinking processes[J].Educational Measurement:Issues and Practice,2007,26(2):3-16.

        猜你喜歡
        一致性水平檢測
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        張水平作品
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
        IOl-master 700和Pentacam測量Kappa角一致性分析
        加強(qiáng)上下聯(lián)動 提升人大履職水平
        小波變換在PCB缺陷檢測中的應(yīng)用
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        亚洲国产一区二区三区在观看| 亚洲一区二区三区偷拍自拍 | 国产一区二区高清不卡在线| 国产老熟女精品一区二区| 99无码熟妇丰满人妻啪啪| 国产午夜三级一区二区三| 国产丝袜精品不卡| 日韩十八禁在线观看视频| 亚洲一区二区三区四区地址| 久热国产vs视频在线观看| 美女无遮挡免费视频网站| 四虎永久免费影院在线| 资源在线观看视频一区二区| 最新中文字幕日韩精品| 免费va国产高清大片在线| 国产成人综合久久精品推| 日韩在线精品视频观看| 丰满人妻猛进入中文字幕| 国产又黄又爽又色的免费| 国产综合自拍| 亚洲一区二区三区天堂av| 亚洲日韩成人无码| 日日碰狠狠躁久久躁9| 成人午夜毛片| 亚洲av第一区综合激情久久久| 国产人妖网站在线视频| 黑人大群体交免费视频| 国产高颜值大学生情侣酒店| 在线观看日本一区二区| 蜜桃成熟时日本一区二区| 久久精品中文闷骚内射| 精品一品国产午夜福利视频| av黄片免费在线观看| 人成综合视频在线播放| 熟女熟妇伦av网站| 国产亚洲AV天天夜夜无码| 日本少妇熟女一区二区| 精品露脸国产偷人在视频 | 不卡高清av手机在线观看| 日本熟女视频一区二区三区| 老熟女富婆激情刺激对白|