亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于RCMLM 模型的數(shù)學(xué)試卷性別DIF 研究

2021-01-13 07:28:24宋吉祥李付鵬杜海燕

考試研究 2021年1期

宋吉祥李付鵬杜海燕

偵測試題在不同群體中的DIF（Differential Item Functioning，項目功能差異）現(xiàn)象是研究試題公平性的重要議題。 DIF 可描述為：控制了參加同一測驗的不同群體的能力之后，試題在不同群體中顯示的統(tǒng)計特性[1]；也可描述為：兩組或多組能力或表現(xiàn)相匹配的群體，在答題表現(xiàn)上的顯著差異。檢索國內(nèi)近年來的相關(guān)研究文獻發(fā)現(xiàn)，多數(shù)是分別基于0-1 計分試題（選擇題、填空題、判斷題等）或基于多級計分試題（解答題、論述題、分析題等）的DIF 研究，將0-1計分試題和多級計分試題統(tǒng)一起來進行DIF 研究的較少。一般情況下，一份完整的試題包含0-1 計分試題和多級計分試題，如果分開進行DIF 研究，破壞了試卷的整體結(jié)構(gòu)，分析的結(jié)果具有一定局限性。

本文利用基于Rasch 測量理論的RCMLM（Random Coefficient Multinomial Logit Model，隨機系數(shù)多項式Logit 模型）通用拓展模型，對一份包含0-1 計分和多級計分試題的普通高中數(shù)學(xué)試卷進行DIF 研究。為與其他文獻的表述保持一致，文中試題有時用項目描述，試題和項目是統(tǒng)一概念。

一、RCMLM 模型

RCMLM 模型是通用的Rasch 單維模型，包含基本Rasch 模型、PCM 模型（Partial Credit Model，分部評分模型）和RSM 模型（Rating Scale Model，等級量表模型）。分析0-1 計分試題時，RCMLM 模型被調(diào)整為Rasch 模型；分析多級計分試題時，RCMLM 模型被調(diào)整為PCM 模型或RSM 模型。

假定參加測驗的被試n 的潛在能力為θn，n=1，2，3， ……，N，每道試題i 有Ki+1 個試題反應(yīng)類別，i=1，2，3，……，I，k=0，1，2，3，……，K。隨機變量向量Xni=（Xni1，Xni2，Xni3，……，XniKi）T表示被試n 對試題i 的個Ki+1 反應(yīng)，其中被試n 對試題i 在類別j 的反應(yīng)正確時Xnij=1，反應(yīng)錯誤時Xnij=0。試題由參數(shù)向量ξi=（ξi1，ξi2……，ξip）表示，設(shè)計矩陣A 用于表示ξ的線性組合，全部試題的設(shè)計向量aij（i=1，……，I；j=0，1，……，Ki）形成設(shè)計矩陣A=（a11，…，a1k1，a21，…，a2k1，…，aI1，…，aIKi）。RCMLM 引入向量bi=（bi0，bi1，……，bik）來表示每道試題上每個反應(yīng)類別的分數(shù)，b 向量形成所有測驗試題的分數(shù)矩陣B=（b1，b2，……，bi）。

按照上述定義，基于RCMLM 模型[2，3]的被試n在試題i 第j 個類別的正確反應(yīng)概率可表示為

分數(shù)矩陣和設(shè)計矩陣為RCMLM 帶來了很大的靈活性，模型可以方便地轉(zhuǎn)化為簡單Rasch 模型、PCM 模型或RSM 模型。

二、性別DIF 模型

在項目反應(yīng)理論框架下，控制群體能力后，若群體間在一道試題上正確反應(yīng)的差異在概率上表現(xiàn)出統(tǒng)計學(xué)意義，則表明試題呈現(xiàn)出DIF。 DIF 公式可以定義為：

其中：對于所有的θ 和g 而言，x 是觀測變量，θ是潛在特質(zhì)，g 是群體指示值。通常，沒有DIF 表明某種反應(yīng)的概率不依賴于群體成員。對于性別差異，公式（2）可以表述為：

因此，在RCMLM 框架下，被試n 在一個0-1 計分試題i 的DIF 偵測模型[4]可以表示為

其中：Xni表示被試n 對于試題i 的反應(yīng)，ξi表示試題i 的難度參數(shù)，γi是試題DIF 參數(shù)，g 表示參照組時G=0，g 表示焦點組時G=1。當(dāng)G 這樣編碼時，γi可以解釋為焦點組和參照組之間的試題難度之差，是群體和試題之間的交互效應(yīng)。 G=0 時，上述模型變?yōu)楹唵蜶asch 模型。

這個模型可以拓展到多級計分試題。本研究即以PCM 為例，介紹該模型在多級計分試題DIF 中的應(yīng)用。對于每個具有K 個類別的試題，PCM 包括K-1 個ξ 參數(shù)。這些參數(shù)被描述為步驟參數(shù)ξij，j 是試題i 的步驟，被試n 在一道試題的得分表示完成試題i步驟j 的數(shù)量。在RCMLM 框架下，被試n 在一個多級計分試題i 步驟j 的DIF 偵測模型[5]可以表示為：

被試n 在試題i 類別j 正確反應(yīng)時Xnij=1，錯誤反應(yīng)時Xnij=0。對于參照組，G=0 時，上述模型變?yōu)镻CM 模型，γi與0-1 計分試題中的含義相同。

ConQuest 軟件可以同時完成在上述RCMLM 模型下0-1 計分試題（公式4）和多級計分試題（公式5）的性別DIF 偵測工作。對于每一道試題，ConQuest提供γ 參數(shù)來估計性別和試題的交互效應(yīng)，γ 代表男生和女生在試題難度上的差異，具體在ConQuest軟件中的實現(xiàn)形式如下：

其中：γ 參數(shù)的估計由上述公式中的“item*gender”項實現(xiàn)。

三、DIF 分類標(biāo)準(zhǔn)

上述DIF 差異可等效到常見的基于Mantel-Haensze 方法的DIF 效應(yīng)量分類標(biāo)準(zhǔn)。ETS 也采取了這樣的DIF 效應(yīng)量作為分類準(zhǔn)則。如果利用上述公式估計的DIF 差異滿足|2γi|＜0.426，試題被認為表現(xiàn)出輕微的DIF（A 類DIF）；0.426≤|2γi|＜0.638，試題表現(xiàn)出中等程度的DIF（B 類DIF）；|2γi|≥0.638，試題表現(xiàn)出較大的DIF（C 類DIF）。如果試題出現(xiàn)輕微的DIF 可以忽略不計，表現(xiàn)出較大的DIF 就需要對試題進行調(diào)整，出現(xiàn)中等程度的DIF 則要視情況而定。

四、實驗設(shè)計

（一）研究目標(biāo)

利用RCMLM 模型對一份普通高中數(shù)學(xué)試卷進行不同性別的DIF 分析，一方面?zhèn)蓽y該試卷在不同性別之間的難度差異；另一方面檢測模型對0-1 計分和多級計分試題同時進行DIF 分析的效果。

（二）考試成績編碼

由于Rasch 模型僅適用于處理具有0，1，2，……這樣連續(xù)分數(shù)的試題，因此，需要對試卷中解答題的原始分數(shù)重新編碼。編碼參照考生在解答題的分數(shù)分布和評分細則，并約請數(shù)學(xué)學(xué)科專家進行了評估。選擇題和填空題正確反應(yīng)記為1，錯誤反應(yīng)記為0。編碼結(jié)果如表1 所示。

表1 數(shù)學(xué)學(xué)科試題編碼

（三）試題擬合統(tǒng)計

在基于模型的測量統(tǒng)計中，數(shù)據(jù)是否擬合模型是分析問題的前提。表2 給出了樣本的試題擬合統(tǒng)計信息。從表2 可知，試題加權(quán)擬合MNSQ（Mean Square，殘差均方）指標(biāo)基本在參照值1.00 左右，部分試題未加權(quán)擬合MNSQ 指標(biāo)偏離參照值1.00 略多。試題名稱為LKSX01、LKSX012 、LKSX013 的試題，其未加權(quán)的MNSQ 值偏離1.00 較多。為盡量減少非擬合對后續(xù)DIF 的影響，本研究刪除這3 道試題，對剩余的18 道試題進行DIF 分析。

表2 試題擬合統(tǒng)計

（四）總體性別差異

試卷總體的性別差異可視為單道試題差異在整張試卷上的累積。如果試卷整體呈現(xiàn)出較大的不同性別的群體差異，則部分試題可能存在DIF 現(xiàn)象。因此，先從總體上進行兩方面的差異分析：（1）試卷總體的不同性別難度差異；（2）試卷總體的不同性別試題分布。

表3 給出了測驗總體男生、女生的能力參數(shù)和測量標(biāo)準(zhǔn)誤。男生和女生的能力差異為0.032。未加權(quán)和加權(quán)的擬合指數(shù)MNSQ 接近1.000，說明模型與數(shù)據(jù)擬合很好，結(jié)果可靠。男生、女生兩個群體的總體略有差異，但并不明顯，男生群體的能力參數(shù)略低于女生群體的能力參數(shù)。

表3 總體性別差異

將懷特圖應(yīng)用到不同群體的DIF 分析，可以顯示不同群體對應(yīng)的試題難度分布。圖1 最左列給出從-3 到+5 的量表范圍，該量表以logit 為單位，根據(jù)該范圍，不僅可以分析“+item”列下的試題難易度分布，也可以分析“-gender”列下不同性別的總體難度差異和“+item*gender”列下性別與可能存在DIF 的試題的交互效應(yīng)。從圖1 可知，試題難度和考生能力分布都較為寬泛，這是測驗所期望的，但較容易的試題略多，較難的試題略少。與本研究直接關(guān)聯(lián)的分析是“-gender”列下不同群體的總體能力分布：圖1 顯示，總體上男生（圖中用1 表示）和女生（圖中用2 表示）處于非常接近的能力水平，這表明在男生和女生總體上沒有明顯差異，這與表3 男生的-0.016 和女生0.016 的總體平均能力水平基本相當(dāng)?shù)慕Y(jié)論是一致的。圖1 最后一列性別與試題的交互圖給出可能具有DIF 的試題，包括題號為3、4 和13（圓點前面的數(shù)字為題號，后面的數(shù)字為性別，如13.1 表示題號為13 的試題與男生的交互效應(yīng)）的試題等。

圖1 懷特圖

（五）解答題性別差異

多級計分的解答題DIF 分析。解答題一般包含多個步驟，每道試題在不同步驟上的性別DIF，是值得關(guān)注的問題。表4 給出了5 道解答題中每個試題步驟的難度和不同性別之間的DIF 效應(yīng)量。依據(jù)上述給定的DIF 效應(yīng)量分類標(biāo)準(zhǔn)，5 道解答題每個步驟的效應(yīng)量均小于0.426，均屬于可以忽略不計的A類DIF 試題。圖1 也沒有顯示解答題存在較為明顯的DIF 現(xiàn)象，二者的分析結(jié)果是一致的。

（六）試題性別差異

總體分析和解答題分析均沒有顯示較大的性別DIF 現(xiàn)象，這里忽略解答題的試題步驟難度，將每道解答題作為一個整體，以每道試題為單位，對試卷全部試題進行DIF 分析。表5 給出了數(shù)學(xué)18 道題（不含刪除的3 道試題）不同性別DIF 的效應(yīng)量，也給出了每道試題的標(biāo)準(zhǔn)誤。 DIF 效應(yīng)量列中數(shù)值為正表示對女生有利，數(shù)值為負表示對男生有利。

表4 解答題的步驟難度和不同性別之間的DIF效應(yīng)量

表5 試題的DIF 效應(yīng)量

依據(jù)上述分類標(biāo)準(zhǔn)和DIF 差異，表6 分別給出了有利于男生和有利于女生的試題編號及各道試題所屬的DIF 分類。試卷大多數(shù)試題顯示較為輕微的A 類DIF，2 道試題（題號為3 和4）顯示有利于女生的B 類DIF，1 道試題（題號為13）顯示有利于男生的B 類DIF，沒有表現(xiàn)出較為嚴重DIF 的C 類試題。顯示B 類DIF 的3 道試題均為客觀題。

表6 試題的DIF 效應(yīng)量

為進一步觀察顯示出DIF 的試題對不同性別在不同能力水平上的差異，圖2 和圖3 分別給出了1道有利于女生（題號為3，對應(yīng)的題目名稱為LKSX04）的試題和1 道有利于男生（題號為13，對應(yīng)的題目名稱為LKSX16）的試題的特征曲線。圖2 中，女生的項目反應(yīng)曲線靠近圖形的上方；圖3 中，男生的項目反應(yīng)曲線靠近圖形的上方。隨著考生能力的增加，圖2 顯示男女生差異具有越來越小的趨勢，圖3顯示男女生差異具有越來越大的趨勢。這表明有利于女生的試題在較低能力的考生群體中表現(xiàn)出較大的性別差異，有利于男生的試題在較高能力的考生群體中表現(xiàn)出較大的性別差異。

圖2 試題名稱LKSX04 的項目特征曲線

圖3 試題名稱LKSX16 的項目特征曲線

五、研究結(jié)論

本文利用基于Rasch 測量理論的RCMLM 通用拓展模型，對包含0-1 計分試題和多級計分試題的試卷同時進行DIF 分析。分析結(jié)果顯示，大部分試題僅具有輕微的DIF 現(xiàn)象，部分試題具有一定程度的DIF 現(xiàn)象；分析也表明RCMLM 通用拓展模型可以對0-1 計分試題和多級計分試題同時進行DIF 分析，保持了試卷的完整性，DIF 分析結(jié)果更加有效。

相比于目前普遍使用的基于CTT （classical test theory，經(jīng)典測量理論）的Mantel-Haenszel 方法，基于Rasch 測量理論的RCMLM 模型的DIF 偵測敏感度更高[6]；同時，RCMLM 模型也可以進一步拓展為多維模型，具有更好的適應(yīng)性，是一種具有發(fā)展前景的DIF 偵測方法。