亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一個(gè)簡易DIF 偵測方法在性別差異中的應(yīng)用研究

2020-12-21 03:16:04儲林林李付鵬宋吉祥

教育測量與評價(jià) 2020年11期

儲林林李付鵬宋吉祥

美國心理與教育測量學(xué)家桑代克曾提出一個(gè)假說：“凡是存在必有數(shù)量，既有數(shù)量即可測量。”這表明，事物的質(zhì)可以轉(zhuǎn)化為量來計(jì)算?？荚嚕y驗(yàn)）就是一種測量，基于心理特質(zhì)在一定時(shí)間范圍內(nèi)是相對穩(wěn)定的假設(shè)，通過一組或幾組試題，被試的心理特質(zhì)是可以測量出來的。由此我們可以進(jìn)一步提出若干問題：對于參加某個(gè)測驗(yàn)的不同群體（男生與女生、農(nóng)村學(xué)生與城市學(xué)生等），測驗(yàn)分?jǐn)?shù)是否具有群體差異？分?jǐn)?shù)差異是否是被試群體的真正能力體現(xiàn)？測驗(yàn)分?jǐn)?shù)群體差異的原因是什么？這些問題與教育測驗(yàn)研究中的項(xiàng)目功能差異（differentialitemfunctioning，DIF）相關(guān)。

本研究在Rasch 試題難度計(jì)算的基礎(chǔ)上，根據(jù)一個(gè)常見的效應(yīng)量計(jì)算公式，以一份普通高中語文學(xué)科試卷成績的抽樣數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn)設(shè)計(jì)，偵測考試分?jǐn)?shù)在不同性別中的DIF 現(xiàn)象。為保持與相關(guān)DIF 研究文獻(xiàn)表述的一致性，文中有時(shí)把試題稱為項(xiàng)目，項(xiàng)目和試題是同一概念。

一、DIF 定義

心理測量的目的是了解被試在成就、能力、水平、人格等心理特質(zhì)上的差異。任何測量（考試）都是由具體的試題構(gòu)成的，具有不同文化背景和生活環(huán)境的被試由于對試題的熟悉程度、理解能力等存在差異，可能獲取不同的結(jié)果，從而出現(xiàn)測量結(jié)果對一些群體或個(gè)體有利，對另一些群體或個(gè)體有偏見或者不利的情況，即導(dǎo)致項(xiàng)目（試題）的功能差異，這就是DIF 現(xiàn)象。Angoff[1]將DIF 定義為在控制群體能力之后，一個(gè)項(xiàng)目在不同團(tuán)體中顯示的不同統(tǒng)計(jì)特性。Dorans 等人[2]更明確地把DIF 定義為兩組能力或表現(xiàn)相匹配的群體，在答題表現(xiàn)上出現(xiàn)顯著的差異。DIF 分析作為一種統(tǒng)計(jì)方法，已經(jīng)成為當(dāng)前偵測測驗(yàn)公平性的重要手段。

在DIF 研究中有兩個(gè)易于與DIF 混淆的概念：項(xiàng)目影響（itemimpact）和項(xiàng)目偏差（itembias）。

項(xiàng)目影響主要是比較兩個(gè)原始群體（沒有經(jīng)過匹配的被試群體）在某個(gè)項(xiàng)目上的表現(xiàn)，例如男生群體和女生群體在同一份試卷上的差異。項(xiàng)目影響與DIF 的區(qū)別在于：項(xiàng)目影響常被解釋為被試能力分布中群體之間穩(wěn)定的、一致的差異，而DIF 則是經(jīng)過匹配后的不同群體在項(xiàng)目功能上的差異；項(xiàng)目影響通過在項(xiàng)目表現(xiàn)上的差異來反映全體被試的能力分布，DIF 則比較經(jīng)過匹配的兩個(gè)群體之間的差異，并且這一差異不是測驗(yàn)編寫者所期望的。與DIF 相比，項(xiàng)目影響是“真正的”差異；DIF 則是由不恰當(dāng)或不相關(guān)的含有DIF的項(xiàng)目造成的差異，是“人為的”差異。

項(xiàng)目偏差是指試題中與測驗(yàn)構(gòu)念（test construct）無關(guān)的因素造成的試題難度對不同背景被試群體的差異。舉例來說，如果一道以足球賽為背景的數(shù)學(xué)推理問題，除了測試被試的數(shù)學(xué)知識，也許還測量了足球方面的知識，如果該題設(shè)計(jì)時(shí)并沒有將足球知識作為考查的目標(biāo)，但因不同背景群體的被試對足球知識的了解程度不同，造成試題對兩個(gè)群體被試產(chǎn)生了不同的功能，從而測試結(jié)果出現(xiàn)了差異，這類差異是由項(xiàng)目偏差造成的，這類試題屬于具有偏差的試題，不屬于具有DIF 的試題。

二、DIF 檢驗(yàn)方法

偵測不同群體的DIF 現(xiàn)象是教育測量的一個(gè)熱點(diǎn)研究問題，目前已發(fā)展了多種DIF 方法，其中大部分方法都依賴于專門的分析工具，這不利于DIF 研究的普及和推廣。根據(jù)不同群體均值差異效應(yīng)量偵測DIF[3]是一種易于推廣的方法，不需要借助專門的DIF 分析工具。下面給出不同性別群體均值差異效應(yīng)量的DIF 計(jì)算公式。對于某個(gè)給定的試題i，計(jì)算該試題性別差異的效應(yīng)量的公式[3][4]為：

判定效應(yīng)量大小的標(biāo)準(zhǔn)如下：如果|t|＞1.96，顯示了該試題具有DIF 存在，數(shù)值的絕對值越大，DIF 越嚴(yán)重；t＞1.96，表示該試題的難度相對于男生更難一些，即該試題有利于女生；t＜-1.96，表示該試題的難度相對于女生更難一些，即該試題有利于男生；-1.96≤t≤1.96，可認(rèn)為試題不存在DIF 或者存在輕微的DIF。判斷效應(yīng)量可根據(jù)實(shí)際的研究需要來確定，難有統(tǒng)一的標(biāo)準(zhǔn)，也有研究[5]確定了比上述更為嚴(yán)格的判斷標(biāo)準(zhǔn)。

需要指出的是，上述方法僅僅能夠偵測試題在不同性別之間的一致性（uniform）DIF 現(xiàn)象。這意味著，如果以試題特征曲線顯示不同性別之間的DIF 差異，兩個(gè)曲線不會(huì)相交。其原因不在于上述計(jì)算公式，而在于所使用的試題難度計(jì)算方法。本文選擇了基于單一難度參數(shù)Rasch 測量理論的試題難度計(jì)算方法，如果選擇基于兩參數(shù)（難度和區(qū)分度）或三參數(shù)（難度、區(qū)分度和猜測度）IRT 模型計(jì)算難度，則存在不同性別試題特征曲線相交的現(xiàn)象。實(shí)際測驗(yàn)中，不同群體間既存在一致性DIF 現(xiàn)象也存在不一致DIF 現(xiàn)象，但選擇兩參數(shù)或三參數(shù)模型，這是一個(gè)模型選擇問題，也一直是研究界長期存在的“測量”與“統(tǒng)計(jì)”之爭的問題，超出了本研究的范圍。

而浙江省氣象臺此前使用的省級海洋業(yè)務(wù)平臺因?yàn)殚_發(fā)應(yīng)用多年,且主要功能以多種產(chǎn)品顯示為主,不具有GIS縮放、格點(diǎn)訂正等功能,無法很好展示近年來發(fā)展的海洋氣象客觀預(yù)報(bào)產(chǎn)品的精細(xì)化程度,已不能滿足現(xiàn)代化海洋預(yù)報(bào)業(yè)務(wù)的需求。為此,省氣象臺及時(shí)組織力量開發(fā)新一代省級海洋預(yù)報(bào)業(yè)務(wù)平臺。新一代海洋預(yù)報(bào)業(yè)務(wù)平臺是立足于為全省氣象預(yù)報(bào)員服務(wù),基于海洋業(yè)務(wù)扁平化的理念,提供集數(shù)據(jù)采集、精細(xì)分析、格點(diǎn)訂正、預(yù)報(bào)制作、快速發(fā)布、產(chǎn)品展示、工作記錄等功能于一體,基于Silverlight和SQL數(shù)據(jù)庫技術(shù)進(jìn)行開發(fā)的專業(yè)業(yè)務(wù)平臺,并將在使用中不斷發(fā)展來更好滿足臺風(fēng)和海洋氣象預(yù)報(bào)業(yè)務(wù)需求。

三、試題難度計(jì)算方法的選擇

從效應(yīng)量公式可知，效應(yīng)量的計(jì)算涉及求解不同性別考生在每道試題的難度和標(biāo)準(zhǔn)誤。目前有兩種方法供選擇：一種是基于經(jīng)典測量理論（CTT）的試題難度和標(biāo)準(zhǔn)誤的求解；一種是基于Rasch 測量理論的試題難度和標(biāo)準(zhǔn)誤的求解。兩種方法有著本質(zhì)的區(qū)別。CTT 下的試題難度具有被試樣本依賴問題，選擇不同能力水平的被試樣本集，計(jì)算得到的試題難度有較大的差異：低水平被試樣本集的試題難度系數(shù)更低一些，顯示試題更難一些；高水平被試樣本集的試題難度系數(shù)則更高一些，顯示試題更簡單一些。這也導(dǎo)致了一個(gè)尷尬的問題：哪一個(gè)被試樣本集得到的試題難度更接近試題的“真實(shí)”難度？CTT 無法回答這個(gè)問題，因?yàn)橛卸嗌賯€(gè)被試樣本集，理論上就可能有多少個(gè)試題的難度系數(shù)。

Rasch 測量理論下的試題難度計(jì)算具有樣本獨(dú)立性。Rasch 模型下的測量具有等距性和客觀性兩個(gè)最顯著的特性。[6][7]這兩個(gè)特性也是Rasch得以廣泛應(yīng)用的基礎(chǔ)，解決了CTT 下試題難度對樣本依賴的問題。以兩名被試和兩道試題為例：客觀性可表述為，兩名被試的能力水平比與試題的難度無關(guān)，即被試能力水平是客觀的和等比率的；等距性可表述為，兩名被試的能力水平差距和題目難度無關(guān)，無論兩名被試的能力水平高低如何，二者之間的差距不會(huì)改變，因此是等距量尺。Rasch 測量的等距性和客觀性反映了樣本的選擇與試題難度的計(jì)算無關(guān)，類似地，試題的選擇也與樣本能力水平的計(jì)算無關(guān)，Rasch 具有被試能力水平和項(xiàng)目難度測量的不變性。

從上述分析可知：CTT 下的試題難度對選擇的樣本有依賴性，試題難度不穩(wěn)定；Rasch 測量理論下的試題難度與選擇的樣本無關(guān)，試題難度具有穩(wěn)定性。基于此，本研究選擇以Rasch 測量理論為基礎(chǔ)獲取試題的難度。

四、實(shí)驗(yàn)設(shè)計(jì)

1.研究目標(biāo)

本研究有兩個(gè)目標(biāo)：一方面，對一份普通高中語文學(xué)科試卷的學(xué)生成績抽樣數(shù)據(jù)進(jìn)行分析，偵測試題是否存在不同性別的DIF 現(xiàn)象；另一方面，將研究的DIF 結(jié)果與其他DIF 偵測方法的結(jié)果進(jìn)行對比分析，檢驗(yàn)上述DIF 偵測方法的有效性。

2.數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理包含3 個(gè)方面的內(nèi)容：成績數(shù)據(jù)編碼；試題擬合統(tǒng)計(jì)；群體能力匹配。

（1）成績數(shù)據(jù)編碼

對考試成績數(shù)據(jù)進(jìn)行編碼是因?yàn)镽asch 測量模型僅能處理具有0，1，2……這樣連續(xù)分?jǐn)?shù)的試題，因此，需要對試卷中的主觀性試題的原始分?jǐn)?shù)重新編碼。編碼參照了考生在主觀性試題上的分?jǐn)?shù)分布和評分細(xì)則，并邀請了語文學(xué)科專家進(jìn)行評估。編碼結(jié)果如表1 所示。

表1 高中語文學(xué)科試卷的試題編碼

（2）試題擬合統(tǒng)計(jì)

在基于模型的測量統(tǒng)計(jì)中，數(shù)據(jù)是否擬合模型是分析問題的前提。項(xiàng)目擬合統(tǒng)計(jì)是一個(gè)反映數(shù)據(jù)滿足測量模型期望的重要指示，只有數(shù)據(jù)擬合模型，模型產(chǎn)生的結(jié)果才有意義，這就要求研究之前要進(jìn)行數(shù)據(jù)與模型的擬合分析。表2 以非擬合數(shù)值大小順序給出了試題擬合統(tǒng)計(jì)信息。從表2 可知，大部分試題的加權(quán)擬合MNSQ 指標(biāo)都在參照值1.00 左右浮動(dòng)，部分試題的未加權(quán)擬合MNSQ 指標(biāo)偏離參照值1.00 遠(yuǎn)一些。編號為T14，T17，T16 的試題加權(quán)擬合MNSQ 指標(biāo)偏離1.00 較遠(yuǎn)。為盡量減少非擬合對后續(xù)DIF 的影響，本研究刪除了這3 個(gè)試題，對剩余的19 個(gè)試題進(jìn)行DIF 分析。

表2 高中語文學(xué)科試卷的試題擬合統(tǒng)計(jì)

根據(jù)DIF 的定義，僅僅在分?jǐn)?shù)或能力匹配之后，不同群體之間的差異才能稱為DIF，否則，可能僅僅是因?yàn)樯鲜龅捻?xiàng)目影響，這是進(jìn)行不同群體被試能力匹配的原因。本文采取的匹配方法是對不同性別群體被試分別分層抽樣，確保不同性別群體每個(gè)分?jǐn)?shù)段的被試數(shù)量大致相同，再將抽樣數(shù)據(jù)合并為一個(gè)數(shù)據(jù)集。為確保被試能力覆蓋盡量寬廣，要保證每個(gè)群體的高分端和低分端都有一定數(shù)量的被試。

3.數(shù)據(jù)分析

數(shù)據(jù)分析包含總體差異、試題難度和標(biāo)準(zhǔn)誤分布，以及試題不同性別的DIF 效應(yīng)量這3 個(gè)部分。

（1）總體差異

總體差異將抽樣樣本分為男生組和女生組，分析不同群體的測驗(yàn)功能差異（differential test functioning，DTF），該分析有助于初步了解不同性別考生在這套試卷中的總體表現(xiàn)。圖1 顯示了不同性別考生的試題難度差異情況。圖中每個(gè)點(diǎn)都代表一個(gè)試題，Y 軸是女生的試題難度，X 軸是男生的試題難度，點(diǎn)劃線是試題均值的趨勢線，兩側(cè)曲線圖具有近似95%的置信區(qū)間。圖1 顯示：對于女生，編號為7 的試題更有難度；對于男生，編號為6 和9的試題更有難度。由前述DIF 與項(xiàng)目影響的區(qū)別可知，圖1 顯示，不同性別考生的個(gè)別試題存在著明顯的差異。為驗(yàn)證這些差異是由DIF 造成的，我們需要繼續(xù)進(jìn)行進(jìn)一步的分析。圖中各試題編號是刪除非擬合試題之后的新的編號，共19 道試題。

（2）試題難度和標(biāo)準(zhǔn)誤分布

與上述總體差異分析不同，這里把男、女生視為一個(gè)抽樣總體，利用上述效應(yīng)量公式分析試題在不同性別中的DIF 差異。表3 給出了男、女生在每道試題上的難度、標(biāo)準(zhǔn)誤、難度差異。

圖2 更加直觀地呈現(xiàn)了不同性別考生在試題難度上的差異，圖中略小的方形點(diǎn)為男生的試題難度，略大的方形點(diǎn)為女生的試題難度，圖形上方同時(shí)給出了試題編號和題號，較難試題的題號為T11 和T12，較易試題的題號為T4，這3 道試題對于女生來說都略微難一些。圖2 也清晰地顯示了其他試題相對于不同性別的難度差異。

（3）試題不同性別的DIF 效應(yīng)量

圖1 不同性別考生的試題難度差異

圖2 不同性別考生的DIF

表3 不同性別考生的試題難度和標(biāo)準(zhǔn)誤統(tǒng)計(jì)

依據(jù)表3 給出的不同性別考生的試題難度和標(biāo)準(zhǔn)誤，利用公式1，我們可以直接計(jì)算出男、女考生在每個(gè)試題上的DIF 效應(yīng)量，計(jì)算結(jié)果如表4 所示。表中的“DIF 效應(yīng)量”列中，數(shù)值為正表示有利于女生，數(shù)值為負(fù)表示有利于男生。我們按照試題DIF 的程度進(jìn)行了分類：|t|＜1.96 歸為A類，這類試題具有輕微的DIF 現(xiàn)象；1.96≤|t|≤2.5×1.96 歸為B 類，這類試題具有中等程度的DIF 現(xiàn)象；|t|＞2.5×1.96 歸為C 類，這類試題具有較為嚴(yán)重的DIF 現(xiàn)象。表4 按照這個(gè)標(biāo)準(zhǔn)給出了每個(gè)試題的DIF 分類，其中A 類共有11 題，B 類共有8 題，沒有C 類DIF 試題。

4.與其他DIF 偵測方法的結(jié)果比較

為檢驗(yàn)上述DIF 方法的有效性，本研究還進(jìn)行了與其他DIF 偵測方法的結(jié)果比較，主要進(jìn)行了兩個(gè)方面的比較：一方面，根據(jù)Mantel 卡方檢驗(yàn)試題的顯著性，結(jié)果見表4 中的“Mantel 卡方”列，試題T6，T7，T9，T15，T20，T21，T22 在0.05 的水平呈現(xiàn)出顯著性；另一方面，根據(jù)基于Rasch理論拓展的RCML 通用模型進(jìn)行DIF 性別檢驗(yàn)，結(jié)果見表4 中的“RCML 模型”列，試題T6，T7，T9，T18，T22 呈現(xiàn)出以字母“B”表示的中等程度的DIF 現(xiàn)象，該分類方法參照了ETS 的Mantel-Haenszel DIF 檢驗(yàn)分類標(biāo)準(zhǔn)。綜合表4 中的信息可知：在本文所使用的效應(yīng)量方法中，以字母“B”表示的中等DIF 程度的試題都顯示了Mantel 卡方檢驗(yàn)顯著性，其中大部分試題也在RCML 通用模型DIF 性別檢驗(yàn)中呈現(xiàn)出了中等程度的DIF現(xiàn)象；所顯示出有差異的試題T15，T20 和T21 均處于兩種檢驗(yàn)方法劃分DIF 類別的臨界水平，如T15 的效應(yīng)量數(shù)值為2.22，接近效應(yīng)量方法A 類和B 類1.96 的臨界水平，如果把這3 個(gè)試題均劃歸為A 類DIF，該方法和RCML 通用模型DIF性別檢驗(yàn)方法將完全一致。這顯示了兩種分類方法的差異，并不是兩種DIF 檢驗(yàn)方法自身的差異。

五、結(jié)語

本研究通過兩個(gè)群體均值差異效應(yīng)量公式偵測試題的DIF 現(xiàn)象，對一份普通高中語文學(xué)科試卷的學(xué)生成績抽樣數(shù)據(jù)進(jìn)行了DIF 分析。結(jié)果顯示，大部分試題僅具有輕微的DIF 現(xiàn)象，部分試題具有一定程度的DIF 現(xiàn)象。分析也顯示，該方法簡單、易于理解，實(shí)際數(shù)據(jù)處理也不復(fù)雜，只要給出試題的難度和標(biāo)準(zhǔn)誤就可以進(jìn)行DIF 分析。更加有意義的是，該方法可以統(tǒng)一對一套包含二分計(jì)分的客觀題和多分計(jì)分的主觀題同時(shí)進(jìn)行分析。目前較多的文獻(xiàn)是對一份試卷中的二分計(jì)分試題和多分計(jì)分試題分別進(jìn)行DIF 分析，這種處理方法割裂了一份完整的試卷，破壞了測驗(yàn)整體的結(jié)構(gòu)，具有一定的局限性。本文使用的DIF 效應(yīng)量方法是建立于考生在整張?jiān)嚲硭从车哪芰λ降幕A(chǔ)上的，分析保持了試卷的完整性，結(jié)果更加有效。此外，本文給出了一個(gè)基于該方法的DIF 程度分類標(biāo)準(zhǔn)，結(jié)果顯示該標(biāo)準(zhǔn)與現(xiàn)有的DIF 分類標(biāo)準(zhǔn)具有一致性。

表4 試題的DIF 效應(yīng)量

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一個(gè)簡易DIF 偵測方法在性別差異中的應(yīng)用研究

一、DIF 定義

二、DIF 檢驗(yàn)方法

三、試題難度計(jì)算方法的選擇

四、實(shí)驗(yàn)設(shè)計(jì)