亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一個(gè)簡易DIF 偵測方法在性別差異中的應(yīng)用研究

        2020-12-21 03:16:04儲林林李付鵬宋吉祥
        教育測量與評價(jià) 2020年11期
        關(guān)鍵詞:效應(yīng)測量差異

        儲林林 李付鵬 宋吉祥

        美國心理與教育測量學(xué)家桑代克曾提出一個(gè)假說:“凡是存在必有數(shù)量,既有數(shù)量即可測量。”這表明,事物的質(zhì)可以轉(zhuǎn)化為量來計(jì)算??荚嚕y驗(yàn))就是一種測量,基于心理特質(zhì)在一定時(shí)間范圍內(nèi)是相對穩(wěn)定的假設(shè),通過一組或幾組試題,被試的心理特質(zhì)是可以測量出來的。由此我們可以進(jìn)一步提出若干問題:對于參加某個(gè)測驗(yàn)的不同群體(男生與女生、農(nóng)村學(xué)生與城市學(xué)生等),測驗(yàn)分?jǐn)?shù)是否具有群體差異?分?jǐn)?shù)差異是否是被試群體的真正能力體現(xiàn)?測驗(yàn)分?jǐn)?shù)群體差異的原因是什么?這些問題與教育測驗(yàn)研究中的項(xiàng)目功能差異(differentialitemfunctioning,DIF)相關(guān)。

        本研究在Rasch 試題難度計(jì)算的基礎(chǔ)上,根據(jù)一個(gè)常見的效應(yīng)量計(jì)算公式,以一份普通高中語文學(xué)科試卷成績的抽樣數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn)設(shè)計(jì),偵測考試分?jǐn)?shù)在不同性別中的DIF 現(xiàn)象。為保持與相關(guān)DIF 研究文獻(xiàn)表述的一致性,文中有時(shí)把試題稱為項(xiàng)目,項(xiàng)目和試題是同一概念。

        一、DIF 定義

        心理測量的目的是了解被試在成就、能力、水平、人格等心理特質(zhì)上的差異。任何測量(考試)都是由具體的試題構(gòu)成的,具有不同文化背景和生活環(huán)境的被試由于對試題的熟悉程度、理解能力等存在差異,可能獲取不同的結(jié)果,從而出現(xiàn)測量結(jié)果對一些群體或個(gè)體有利,對另一些群體或個(gè)體有偏見或者不利的情況,即導(dǎo)致項(xiàng)目(試題)的功能差異,這就是DIF 現(xiàn)象。Angoff[1]將DIF 定義為在控制群體能力之后,一個(gè)項(xiàng)目在不同團(tuán)體中顯示的不同統(tǒng)計(jì)特性。Dorans 等人[2]更明確地把DIF 定義為兩組能力或表現(xiàn)相匹配的群體,在答題表現(xiàn)上出現(xiàn)顯著的差異。DIF 分析作為一種統(tǒng)計(jì)方法,已經(jīng)成為當(dāng)前偵測測驗(yàn)公平性的重要手段。

        在DIF 研究中有兩個(gè)易于與DIF 混淆的概念:項(xiàng)目影響(itemimpact)和項(xiàng)目偏差(itembias)。

        項(xiàng)目影響主要是比較兩個(gè)原始群體(沒有經(jīng)過匹配的被試群體)在某個(gè)項(xiàng)目上的表現(xiàn),例如男生群體和女生群體在同一份試卷上的差異。項(xiàng)目影響與DIF 的區(qū)別在于:項(xiàng)目影響常被解釋為被試能力分布中群體之間穩(wěn)定的、一致的差異,而DIF 則是經(jīng)過匹配后的不同群體在項(xiàng)目功能上的差異;項(xiàng)目影響通過在項(xiàng)目表現(xiàn)上的差異來反映全體被試的能力分布,DIF 則比較經(jīng)過匹配的兩個(gè)群體之間的差異,并且這一差異不是測驗(yàn)編寫者所期望的。與DIF 相比,項(xiàng)目影響是“真正的”差異;DIF 則是由不恰當(dāng)或不相關(guān)的含有DIF的項(xiàng)目造成的差異,是“人為的”差異。

        項(xiàng)目偏差是指試題中與測驗(yàn)構(gòu)念(test construct)無關(guān)的因素造成的試題難度對不同背景被試群體的差異。舉例來說,如果一道以足球賽為背景的數(shù)學(xué)推理問題,除了測試被試的數(shù)學(xué)知識,也許還測量了足球方面的知識,如果該題設(shè)計(jì)時(shí)并沒有將足球知識作為考查的目標(biāo),但因不同背景群體的被試對足球知識的了解程度不同,造成試題對兩個(gè)群體被試產(chǎn)生了不同的功能,從而測試結(jié)果出現(xiàn)了差異,這類差異是由項(xiàng)目偏差造成的,這類試題屬于具有偏差的試題,不屬于具有DIF 的試題。

        二、DIF 檢驗(yàn)方法

        偵測不同群體的DIF 現(xiàn)象是教育測量的一個(gè)熱點(diǎn)研究問題,目前已發(fā)展了多種DIF 方法,其中大部分方法都依賴于專門的分析工具,這不利于DIF 研究的普及和推廣。根據(jù)不同群體均值差異效應(yīng)量偵測DIF[3]是一種易于推廣的方法,不需要借助專門的DIF 分析工具。下面給出不同性別群體均值差異效應(yīng)量的DIF 計(jì)算公式。對于某個(gè)給定的試題i,計(jì)算該試題性別差異的效應(yīng)量的公式[3][4]為:

        判定效應(yīng)量大小的標(biāo)準(zhǔn)如下:如果|t|>1.96,顯示了該試題具有DIF 存在,數(shù)值的絕對值越大,DIF 越嚴(yán)重;t>1.96,表示該試題的難度相對于男生更難一些,即該試題有利于女生;t<-1.96,表示該試題的難度相對于女生更難一些,即該試題有利于男生;-1.96≤t≤1.96,可認(rèn)為試題不存在DIF 或者存在輕微的DIF。判斷效應(yīng)量可根據(jù)實(shí)際的研究需要來確定,難有統(tǒng)一的標(biāo)準(zhǔn),也有研究[5]確定了比上述更為嚴(yán)格的判斷標(biāo)準(zhǔn)。

        需要指出的是,上述方法僅僅能夠偵測試題在不同性別之間的一致性(uniform)DIF 現(xiàn)象。這意味著,如果以試題特征曲線顯示不同性別之間的DIF 差異,兩個(gè)曲線不會(huì)相交。其原因不在于上述計(jì)算公式,而在于所使用的試題難度計(jì)算方法。本文選擇了基于單一難度參數(shù)Rasch 測量理論的試題難度計(jì)算方法,如果選擇基于兩參數(shù)(難度和區(qū)分度)或三參數(shù)(難度、區(qū)分度和猜測度)IRT 模型計(jì)算難度,則存在不同性別試題特征曲線相交的現(xiàn)象。實(shí)際測驗(yàn)中,不同群體間既存在一致性DIF 現(xiàn)象也存在不一致DIF 現(xiàn)象,但選擇兩參數(shù)或三參數(shù)模型,這是一個(gè)模型選擇問題,也一直是研究界長期存在的“測量”與“統(tǒng)計(jì)”之爭的問題,超出了本研究的范圍。

        而浙江省氣象臺此前使用的省級海洋業(yè)務(wù)平臺因?yàn)殚_發(fā)應(yīng)用多年,且主要功能以多種產(chǎn)品顯示為主,不具有GIS縮放、格點(diǎn)訂正等功能,無法很好展示近年來發(fā)展的海洋氣象客觀預(yù)報(bào)產(chǎn)品的精細(xì)化程度,已不能滿足現(xiàn)代化海洋預(yù)報(bào)業(yè)務(wù)的需求。為此,省氣象臺及時(shí)組織力量開發(fā)新一代省級海洋預(yù)報(bào)業(yè)務(wù)平臺。新一代海洋預(yù)報(bào)業(yè)務(wù)平臺是立足于為全省氣象預(yù)報(bào)員服務(wù),基于海洋業(yè)務(wù)扁平化的理念,提供集數(shù)據(jù)采集、精細(xì)分析、格點(diǎn)訂正、預(yù)報(bào)制作、快速發(fā)布、產(chǎn)品展示、工作記錄等功能于一體,基于Silverlight和SQL數(shù)據(jù)庫技術(shù)進(jìn)行開發(fā)的專業(yè)業(yè)務(wù)平臺,并將在使用中不斷發(fā)展來更好滿足臺風(fēng)和海洋氣象預(yù)報(bào)業(yè)務(wù)需求。

        三、試題難度計(jì)算方法的選擇

        從效應(yīng)量公式可知,效應(yīng)量的計(jì)算涉及求解不同性別考生在每道試題的難度和標(biāo)準(zhǔn)誤。目前有兩種方法供選擇:一種是基于經(jīng)典測量理論(CTT)的試題難度和標(biāo)準(zhǔn)誤的求解;一種是基于Rasch 測量理論的試題難度和標(biāo)準(zhǔn)誤的求解。兩種方法有著本質(zhì)的區(qū)別。CTT 下的試題難度具有被試樣本依賴問題,選擇不同能力水平的被試樣本集,計(jì)算得到的試題難度有較大的差異:低水平被試樣本集的試題難度系數(shù)更低一些,顯示試題更難一些;高水平被試樣本集的試題難度系數(shù)則更高一些,顯示試題更簡單一些。這也導(dǎo)致了一個(gè)尷尬的問題:哪一個(gè)被試樣本集得到的試題難度更接近試題的“真實(shí)”難度?CTT 無法回答這個(gè)問題,因?yàn)橛卸嗌賯€(gè)被試樣本集,理論上就可能有多少個(gè)試題的難度系數(shù)。

        Rasch 測量理論下的試題難度計(jì)算具有樣本獨(dú)立性。Rasch 模型下的測量具有等距性和客觀性兩個(gè)最顯著的特性。[6][7]這兩個(gè)特性也是Rasch得以廣泛應(yīng)用的基礎(chǔ),解決了CTT 下試題難度對樣本依賴的問題。以兩名被試和兩道試題為例:客觀性可表述為,兩名被試的能力水平比與試題的難度無關(guān),即被試能力水平是客觀的和等比率的;等距性可表述為,兩名被試的能力水平差距和題目難度無關(guān),無論兩名被試的能力水平高低如何,二者之間的差距不會(huì)改變,因此是等距量尺。Rasch 測量的等距性和客觀性反映了樣本的選擇與試題難度的計(jì)算無關(guān),類似地,試題的選擇也與樣本能力水平的計(jì)算無關(guān),Rasch 具有被試能力水平和項(xiàng)目難度測量的不變性。

        從上述分析可知:CTT 下的試題難度對選擇的樣本有依賴性,試題難度不穩(wěn)定;Rasch 測量理論下的試題難度與選擇的樣本無關(guān),試題難度具有穩(wěn)定性。基于此,本研究選擇以Rasch 測量理論為基礎(chǔ)獲取試題的難度。

        四、實(shí)驗(yàn)設(shè)計(jì)

        1.研究目標(biāo)

        本研究有兩個(gè)目標(biāo):一方面,對一份普通高中語文學(xué)科試卷的學(xué)生成績抽樣數(shù)據(jù)進(jìn)行分析,偵測試題是否存在不同性別的DIF 現(xiàn)象;另一方面,將研究的DIF 結(jié)果與其他DIF 偵測方法的結(jié)果進(jìn)行對比分析,檢驗(yàn)上述DIF 偵測方法的有效性。

        2.數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理包含3 個(gè)方面的內(nèi)容:成績數(shù)據(jù)編碼;試題擬合統(tǒng)計(jì);群體能力匹配。

        (1)成績數(shù)據(jù)編碼

        對考試成績數(shù)據(jù)進(jìn)行編碼是因?yàn)镽asch 測量模型僅能處理具有0,1,2……這樣連續(xù)分?jǐn)?shù)的試題,因此,需要對試卷中的主觀性試題的原始分?jǐn)?shù)重新編碼。編碼參照了考生在主觀性試題上的分?jǐn)?shù)分布和評分細(xì)則,并邀請了語文學(xué)科專家進(jìn)行評估。編碼結(jié)果如表1 所示。

        表1 高中語文學(xué)科試卷的試題編碼

        (2)試題擬合統(tǒng)計(jì)

        在基于模型的測量統(tǒng)計(jì)中,數(shù)據(jù)是否擬合模型是分析問題的前提。項(xiàng)目擬合統(tǒng)計(jì)是一個(gè)反映數(shù)據(jù)滿足測量模型期望的重要指示,只有數(shù)據(jù)擬合模型,模型產(chǎn)生的結(jié)果才有意義,這就要求研究之前要進(jìn)行數(shù)據(jù)與模型的擬合分析。表2 以非擬合數(shù)值大小順序給出了試題擬合統(tǒng)計(jì)信息。從表2 可知,大部分試題的加權(quán)擬合MNSQ 指標(biāo)都在參照值1.00 左右浮動(dòng),部分試題的未加權(quán)擬合MNSQ 指標(biāo)偏離參照值1.00 遠(yuǎn)一些。編號為T14,T17,T16 的試題加權(quán)擬合MNSQ 指標(biāo)偏離1.00 較遠(yuǎn)。為盡量減少非擬合對后續(xù)DIF 的影響,本研究刪除了這3 個(gè)試題,對剩余的19 個(gè)試題進(jìn)行DIF 分析。

        表2 高中語文學(xué)科試卷的試題擬合統(tǒng)計(jì)

        根據(jù)DIF 的定義,僅僅在分?jǐn)?shù)或能力匹配之后,不同群體之間的差異才能稱為DIF,否則,可能僅僅是因?yàn)樯鲜龅捻?xiàng)目影響,這是進(jìn)行不同群體被試能力匹配的原因。本文采取的匹配方法是對不同性別群體被試分別分層抽樣,確保不同性別群體每個(gè)分?jǐn)?shù)段的被試數(shù)量大致相同,再將抽樣數(shù)據(jù)合并為一個(gè)數(shù)據(jù)集。為確保被試能力覆蓋盡量寬廣,要保證每個(gè)群體的高分端和低分端都有一定數(shù)量的被試。

        3.數(shù)據(jù)分析

        數(shù)據(jù)分析包含總體差異、試題難度和標(biāo)準(zhǔn)誤分布,以及試題不同性別的DIF 效應(yīng)量這3 個(gè)部分。

        (1)總體差異

        總體差異將抽樣樣本分為男生組和女生組,分析不同群體的測驗(yàn)功能差異(differential test functioning,DTF),該分析有助于初步了解不同性別考生在這套試卷中的總體表現(xiàn)。圖1 顯示了不同性別考生的試題難度差異情況。圖中每個(gè)點(diǎn)都代表一個(gè)試題,Y 軸是女生的試題難度,X 軸是男生的試題難度,點(diǎn)劃線是試題均值的趨勢線,兩側(cè)曲線圖具有近似95%的置信區(qū)間。圖1 顯示:對于女生,編號為7 的試題更有難度;對于男生,編號為6 和9的試題更有難度。由前述DIF 與項(xiàng)目影響的區(qū)別可知,圖1 顯示,不同性別考生的個(gè)別試題存在著明顯的差異。為驗(yàn)證這些差異是由DIF 造成的,我們需要繼續(xù)進(jìn)行進(jìn)一步的分析。圖中各試題編號是刪除非擬合試題之后的新的編號,共19 道試題。

        (2)試題難度和標(biāo)準(zhǔn)誤分布

        與上述總體差異分析不同,這里把男、女生視為一個(gè)抽樣總體,利用上述效應(yīng)量公式分析試題在不同性別中的DIF 差異。表3 給出了男、女生在每道試題上的難度、標(biāo)準(zhǔn)誤、難度差異。

        圖2 更加直觀地呈現(xiàn)了不同性別考生在試題難度上的差異,圖中略小的方形點(diǎn)為男生的試題難度,略大的方形點(diǎn)為女生的試題難度,圖形上方同時(shí)給出了試題編號和題號,較難試題的題號為T11 和T12,較易試題的題號為T4,這3 道試題對于女生來說都略微難一些。圖2 也清晰地顯示了其他試題相對于不同性別的難度差異。

        (3)試題不同性別的DIF 效應(yīng)量

        圖1 不同性別考生的試題難度差異

        圖2 不同性別考生的DIF

        表3 不同性別考生的試題難度和標(biāo)準(zhǔn)誤統(tǒng)計(jì)

        依據(jù)表3 給出的不同性別考生的試題難度和標(biāo)準(zhǔn)誤,利用公式1,我們可以直接計(jì)算出男、女考生在每個(gè)試題上的DIF 效應(yīng)量,計(jì)算結(jié)果如表4 所示。表中的“DIF 效應(yīng)量”列中,數(shù)值為正表示有利于女生,數(shù)值為負(fù)表示有利于男生。我們按照試題DIF 的程度進(jìn)行了分類:|t|<1.96 歸為A類,這類試題具有輕微的DIF 現(xiàn)象;1.96≤|t|≤2.5×1.96 歸為B 類,這類試題具有中等程度的DIF 現(xiàn)象;|t|>2.5×1.96 歸為C 類,這類試題具有較為嚴(yán)重的DIF 現(xiàn)象。表4 按照這個(gè)標(biāo)準(zhǔn)給出了每個(gè)試題的DIF 分類,其中A 類共有11 題,B 類共有8 題,沒有C 類DIF 試題。

        4.與其他DIF 偵測方法的結(jié)果比較

        為檢驗(yàn)上述DIF 方法的有效性,本研究還進(jìn)行了與其他DIF 偵測方法的結(jié)果比較,主要進(jìn)行了兩個(gè)方面的比較:一方面,根據(jù)Mantel 卡方檢驗(yàn)試題的顯著性,結(jié)果見表4 中的“Mantel 卡方”列,試題T6,T7,T9,T15,T20,T21,T22 在0.05 的水平呈現(xiàn)出顯著性;另一方面,根據(jù)基于Rasch理論拓展的RCML 通用模型進(jìn)行DIF 性別檢驗(yàn),結(jié)果見表4 中的“RCML 模型”列,試題T6,T7,T9,T18,T22 呈現(xiàn)出以字母“B”表示的中等程度的DIF 現(xiàn)象,該分類方法參照了ETS 的Mantel-Haenszel DIF 檢驗(yàn)分類標(biāo)準(zhǔn)。綜合表4 中的信息可知:在本文所使用的效應(yīng)量方法中,以字母“B”表示的中等DIF 程度的試題都顯示了Mantel 卡方檢驗(yàn)顯著性,其中大部分試題也在RCML 通用模型DIF 性別檢驗(yàn)中呈現(xiàn)出了中等程度的DIF現(xiàn)象;所顯示出有差異的試題T15,T20 和T21 均處于兩種檢驗(yàn)方法劃分DIF 類別的臨界水平,如T15 的效應(yīng)量數(shù)值為2.22,接近效應(yīng)量方法A 類和B 類1.96 的臨界水平,如果把這3 個(gè)試題均劃歸為A 類DIF,該方法和RCML 通用模型DIF性別檢驗(yàn)方法將完全一致。這顯示了兩種分類方法的差異,并不是兩種DIF 檢驗(yàn)方法自身的差異。

        五、結(jié)語

        本研究通過兩個(gè)群體均值差異效應(yīng)量公式偵測試題的DIF 現(xiàn)象,對一份普通高中語文學(xué)科試卷的學(xué)生成績抽樣數(shù)據(jù)進(jìn)行了DIF 分析。結(jié)果顯示,大部分試題僅具有輕微的DIF 現(xiàn)象,部分試題具有一定程度的DIF 現(xiàn)象。分析也顯示,該方法簡單、易于理解,實(shí)際數(shù)據(jù)處理也不復(fù)雜,只要給出試題的難度和標(biāo)準(zhǔn)誤就可以進(jìn)行DIF 分析。更加有意義的是,該方法可以統(tǒng)一對一套包含二分計(jì)分的客觀題和多分計(jì)分的主觀題同時(shí)進(jìn)行分析。目前較多的文獻(xiàn)是對一份試卷中的二分計(jì)分試題和多分計(jì)分試題分別進(jìn)行DIF 分析,這種處理方法割裂了一份完整的試卷,破壞了測驗(yàn)整體的結(jié)構(gòu),具有一定的局限性。本文使用的DIF 效應(yīng)量方法是建立于考生在整張?jiān)嚲硭从车哪芰λ降幕A(chǔ)上的,分析保持了試卷的完整性,結(jié)果更加有效。此外,本文給出了一個(gè)基于該方法的DIF 程度分類標(biāo)準(zhǔn),結(jié)果顯示該標(biāo)準(zhǔn)與現(xiàn)有的DIF 分類標(biāo)準(zhǔn)具有一致性。

        表4 試題的DIF 效應(yīng)量

        猜你喜歡
        效應(yīng)測量差異
        相似與差異
        音樂探索(2022年2期)2022-05-30 21:01:37
        鈾對大型溞的急性毒性效應(yīng)
        懶馬效應(yīng)
        把握四個(gè)“三” 測量變簡單
        找句子差異
        滑動(dòng)摩擦力的測量和計(jì)算
        生物為什么會(huì)有差異?
        滑動(dòng)摩擦力的測量與計(jì)算
        應(yīng)變效應(yīng)及其應(yīng)用
        測量
        国语对白精品在线观看| 伊人色网站| 无码熟妇人妻AV不卡| 亚洲综合一区二区三区久久| 国产在线无码一区二区三区视频 | 成人性生交大片免费5| 亚洲精品天天影视综合网| 999久久久免费精品国产| 中文字幕无码免费久久9一区9| 男生自撸视频在线观看| 大陆国产乱人伦| 韩国精品一区二区三区无码视频| 精品免费一区二区三区在| 亚洲av成人波多野一区二区| 男女18禁啪啪无遮挡激烈网站| 亚洲精品黑牛一区二区三区| 国产视频最新| 色婷婷在线一区二区三区| 丁香婷婷激情综合俺也去| 99久久精品国产成人综合| 狠狠色丁香婷婷久久综合2021| 成人性生交大片免费看l| 亚洲av无码成人精品区狼人影院 | 午夜理论片yy6080私人影院 | 91久久青青草原线免费| 成人国产自拍在线播放| 久久精品国产亚洲av蜜点| 卡一卡二卡三无人区| 亚洲一区二区三区av链接| 国产精品国产三级国产不卡| 丰满熟妇乱又伦精品| 精品国产18久久久久久| 久久久精品国产亚洲麻色欲| 国产一区二区三区在线大屁股| 国产精品99久久久久久猫咪| 国产a级网站| 日本超骚少妇熟妇视频| 亚洲一区二区三区小说| 好大好硬好爽免费视频| 亚洲av综合色区久久精品天堂| 日本人妻伦理在线播放|