亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RCMLM 模型的數(shù)學(xué)試卷性別DIF 研究

        2021-01-13 07:28:24宋吉祥李付鵬杜海燕
        考試研究 2021年1期
        關(guān)鍵詞:計分試卷試題

        宋吉祥 李付鵬 杜海燕

        偵測試題在不同群體中的DIF(Differential Item Functioning,項(xiàng)目功能差異)現(xiàn)象是研究試題公平性的重要議題。 DIF 可描述為:控制了參加同一測驗(yàn)的不同群體的能力之后, 試題在不同群體中顯示的統(tǒng)計特性[1];也可描述為:兩組或多組能力或表現(xiàn)相匹配的群體,在答題表現(xiàn)上的顯著差異。檢索國內(nèi)近年來的相關(guān)研究文獻(xiàn)發(fā)現(xiàn), 多數(shù)是分別基于0-1 計分試題(選擇題、填空題、判斷題等)或基于多級計分試題(解答題、論述題、分析題等)的DIF 研究,將0-1計分試題和多級計分試題統(tǒng)一起來進(jìn)行DIF 研究的較少。一般情況下,一份完整的試題包含0-1 計分試題和多級計分試題,如果分開進(jìn)行DIF 研究,破壞了試卷的整體結(jié)構(gòu),分析的結(jié)果具有一定局限性。

        本文利用基于Rasch 測量理論的RCMLM(Random Coefficient Multinomial Logit Model,隨機(jī)系數(shù)多項(xiàng)式Logit 模型)通用拓展模型,對一份包含0-1 計分和多級計分試題的普通高中數(shù)學(xué)試卷進(jìn)行DIF 研究。 為與其他文獻(xiàn)的表述保持一致,文中試題有時用項(xiàng)目描述,試題和項(xiàng)目是統(tǒng)一概念。

        一、RCMLM 模型

        RCMLM 模型是通用的Rasch 單維模型,包含基本Rasch 模型、PCM 模型(Partial Credit Model,分部評分模型)和RSM 模型(Rating Scale Model,等級量表模型)。分析0-1 計分試題時,RCMLM 模型被調(diào)整為Rasch 模型; 分析多級計分試題時,RCMLM 模型被調(diào)整為PCM 模型或RSM 模型。

        假定參加測驗(yàn)的被試n 的潛在能力為θn,n=1,2,3, ……,N, 每道試題i 有Ki+1 個試題反應(yīng)類別,i=1,2,3,……,I,k=0,1,2,3,……,K。 隨機(jī)變量向量Xni=(Xni1,Xni2,Xni3,……,XniKi)T表示被試n 對試題i 的個Ki+1 反應(yīng),其中被試n 對試題i 在類別j 的反應(yīng)正確時Xnij=1,反應(yīng)錯誤時Xnij=0。 試題由參數(shù)向量ξi=(ξi1,ξi2……,ξip) 表示, 設(shè)計矩陣A 用于表示ξ的線性組合,全部試題的設(shè)計向量aij(i=1,……,I;j=0,1,……,Ki)形成設(shè)計矩陣A=(a11,…,a1k1,a21,…,a2k1,…,aI1,…,aIKi)。RCMLM 引入向量bi=(bi0,bi1,……,bik) 來表示每道試題上每個反應(yīng)類別的分?jǐn)?shù),b 向量形成所有測驗(yàn)試題的分?jǐn)?shù)矩陣B=(b1,b2,……,bi)。

        按照上述定義,基于RCMLM 模型[2,3]的被試n在試題i 第j 個類別的正確反應(yīng)概率可表示為

        分?jǐn)?shù)矩陣和設(shè)計矩陣為RCMLM 帶來了很大的靈活性, 模型可以方便地轉(zhuǎn)化為簡單Rasch 模型、PCM 模型或RSM 模型。

        二、性別DIF 模型

        在項(xiàng)目反應(yīng)理論框架下,控制群體能力后,若群體間在一道試題上正確反應(yīng)的差異在概率上表現(xiàn)出統(tǒng)計學(xué)意義,則表明試題呈現(xiàn)出DIF。 DIF 公式可以定義為:

        其中: 對于所有的θ 和g 而言,x 是觀測變量,θ是潛在特質(zhì),g 是群體指示值。通常,沒有DIF 表明某種反應(yīng)的概率不依賴于群體成員。 對于性別差異,公式(2)可以表述為:

        因此,在RCMLM 框架下,被試n 在一個0-1 計分試題i 的DIF 偵測模型[4]可以表示為

        其中:Xni表示被試n 對于試題i 的反應(yīng),ξi表示試題i 的難度參數(shù),γi是試題DIF 參數(shù),g 表示參照組時G=0,g 表示焦點(diǎn)組時G=1。 當(dāng)G 這樣編碼時,γi可以解釋為焦點(diǎn)組和參照組之間的試題難度之差,是群體和試題之間的交互效應(yīng)。 G=0 時,上述模型變?yōu)楹唵蜶asch 模型。

        這個模型可以拓展到多級計分試題。 本研究即以PCM 為例,介紹該模型在多級計分試題DIF 中的應(yīng)用。 對于每個具有K 個類別的試題,PCM 包括K-1 個ξ 參數(shù)。這些參數(shù)被描述為步驟參數(shù)ξij,j 是試題i 的步驟, 被試n 在一道試題的得分表示完成試題i步驟j 的數(shù)量。 在RCMLM 框架下,被試n 在一個多級計分試題i 步驟j 的DIF 偵測模型[5]可以表示為:

        被試n 在試題i 類別j 正確反應(yīng)時Xnij=1, 錯誤反應(yīng)時Xnij=0。 對于參照組,G=0 時, 上述模型變?yōu)镻CM 模型,γi與0-1 計分試題中的含義相同。

        ConQuest 軟件可以同時完成在上述RCMLM 模型下0-1 計分試題(公式4)和多級計分試題(公式5)的性別DIF 偵測工作。 對于每一道試題,ConQuest提供γ 參數(shù)來估計性別和試題的交互效應(yīng),γ 代表男生和女生在試題難度上的差異, 具體在ConQuest軟件中的實(shí)現(xiàn)形式如下:

        其中:γ 參數(shù)的估計由上述公式中的“item*gender”項(xiàng)實(shí)現(xiàn)。

        三、DIF 分類標(biāo)準(zhǔn)

        上述DIF 差異可等效到常見的基于Mantel-Haensze 方法的DIF 效應(yīng)量分類標(biāo)準(zhǔn)。ETS 也采取了這樣的DIF 效應(yīng)量作為分類準(zhǔn)則。 如果利用上述公式估計的DIF 差異滿足|2γi|<0.426,試題被認(rèn)為表現(xiàn)出輕微的DIF(A 類DIF);0.426≤|2γi|<0.638,試題表現(xiàn)出中等程度的DIF(B 類DIF);|2γi|≥0.638,試題表現(xiàn)出較大的DIF(C 類DIF)。如果試題出現(xiàn)輕微的DIF 可以忽略不計, 表現(xiàn)出較大的DIF 就需要對試題進(jìn)行調(diào)整,出現(xiàn)中等程度的DIF 則要視情況而定。

        四、實(shí)驗(yàn)設(shè)計

        (一)研究目標(biāo)

        利用RCMLM 模型對一份普通高中數(shù)學(xué)試卷進(jìn)行不同性別的DIF 分析, 一方面?zhèn)蓽y該試卷在不同性別之間的難度差異; 另一方面檢測模型對0-1 計分和多級計分試題同時進(jìn)行DIF 分析的效果。

        (二)考試成績編碼

        由于Rasch 模型僅適用于處理具有0,1,2,……這樣連續(xù)分?jǐn)?shù)的試題,因此,需要對試卷中解答題的原始分?jǐn)?shù)重新編碼。 編碼參照考生在解答題的分?jǐn)?shù)分布和評分細(xì)則,并約請數(shù)學(xué)學(xué)科專家進(jìn)行了評估。選擇題和填空題正確反應(yīng)記為1, 錯誤反應(yīng)記為0。編碼結(jié)果如表1 所示。

        表1 數(shù)學(xué)學(xué)科試題編碼

        (三)試題擬合統(tǒng)計

        在基于模型的測量統(tǒng)計中, 數(shù)據(jù)是否擬合模型是分析問題的前提。 表2 給出了樣本的試題擬合統(tǒng)計信息。 從表2 可知, 試題加權(quán)擬合MNSQ(Mean Square,殘差均方)指標(biāo)基本在參照值1.00 左右,部分試題未加權(quán)擬合MNSQ 指標(biāo)偏離參照值1.00 略多。 試題名稱為LKSX01、LKSX012 、LKSX013 的試題,其未加權(quán)的MNSQ 值偏離1.00 較多。 為盡量減少非擬合對后續(xù)DIF 的影響, 本研究刪除這3 道試題,對剩余的18 道試題進(jìn)行DIF 分析。

        表2 試題擬合統(tǒng)計

        (四)總體性別差異

        試卷總體的性別差異可視為單道試題差異在整張試卷上的累積。 如果試卷整體呈現(xiàn)出較大的不同性別的群體差異,則部分試題可能存在DIF 現(xiàn)象。 因此,先從總體上進(jìn)行兩方面的差異分析:(1)試卷總體的不同性別難度差異;(2)試卷總體的不同性別試題分布。

        表3 給出了測驗(yàn)總體男生、 女生的能力參數(shù)和測量標(biāo)準(zhǔn)誤。 男生和女生的能力差異為0.032。 未加權(quán)和加權(quán)的擬合指數(shù)MNSQ 接近1.000,說明模型與數(shù)據(jù)擬合很好,結(jié)果可靠。 男生、女生兩個群體的總體略有差異,但并不明顯,男生群體的能力參數(shù)略低于女生群體的能力參數(shù)。

        表3 總體性別差異

        將懷特圖應(yīng)用到不同群體的DIF 分析, 可以顯示不同群體對應(yīng)的試題難度分布。 圖1 最左列給出從-3 到+5 的量表范圍,該量表以logit 為單位,根據(jù)該范圍,不僅可以分析“+item”列下的試題難易度分布,也可以分析“-gender”列下不同性別的總體難度差異和“+item*gender”列下性別與可能存在DIF 的試題的交互效應(yīng)。從圖1 可知,試題難度和考生能力分布都較為寬泛,這是測驗(yàn)所期望的,但較容易的試題略多,較難的試題略少。與本研究直接關(guān)聯(lián)的分析是“-gender”列下不同群體的總體能力分布:圖1 顯示,總體上男生(圖中用1 表示)和女生(圖中用2 表示)處于非常接近的能力水平,這表明在男生和女生總體上沒有明顯差異, 這與表3 男生的-0.016 和女生0.016 的總體平均能力水平基本相當(dāng)?shù)慕Y(jié)論是一致的。 圖1 最后一列性別與試題的交互圖給出可能具有DIF 的試題,包括題號為3、4 和13(圓點(diǎn)前面的數(shù)字為題號,后面的數(shù)字為性別,如13.1 表示題號為13 的試題與男生的交互效應(yīng))的試題等。

        圖1 懷特圖

        (五)解答題性別差異

        多級計分的解答題DIF 分析。 解答題一般包含多個步驟,每道試題在不同步驟上的性別DIF,是值得關(guān)注的問題。 表4 給出了5 道解答題中每個試題步驟的難度和不同性別之間的DIF 效應(yīng)量。 依據(jù)上述給定的DIF 效應(yīng)量分類標(biāo)準(zhǔn),5 道解答題每個步驟的效應(yīng)量均小于0.426,均屬于可以忽略不計的A類DIF 試題。 圖1 也沒有顯示解答題存在較為明顯的DIF 現(xiàn)象,二者的分析結(jié)果是一致的。

        (六)試題性別差異

        總體分析和解答題分析均沒有顯示較大的性別DIF 現(xiàn)象,這里忽略解答題的試題步驟難度,將每道解答題作為一個整體,以每道試題為單位,對試卷全部試題進(jìn)行DIF 分析。 表5 給出了數(shù)學(xué)18 道題(不含刪除的3 道試題)不同性別DIF 的效應(yīng)量,也給出了每道試題的標(biāo)準(zhǔn)誤。 DIF 效應(yīng)量列中數(shù)值為正表示對女生有利,數(shù)值為負(fù)表示對男生有利。

        表4 解答題的步驟難度和不同性別之間的DIF效應(yīng)量

        表5 試題的DIF 效應(yīng)量

        依據(jù)上述分類標(biāo)準(zhǔn)和DIF 差異, 表6 分別給出了有利于男生和有利于女生的試題編號及各道試題所屬的DIF 分類。 試卷大多數(shù)試題顯示較為輕微的A 類DIF,2 道試題(題號為3 和4)顯示有利于女生的B 類DIF,1 道試題(題號為13)顯示有利于男生的B 類DIF,沒有表現(xiàn)出較為嚴(yán)重DIF 的C 類試題。顯示B 類DIF 的3 道試題均為客觀題。

        表6 試題的DIF 效應(yīng)量

        為進(jìn)一步觀察顯示出DIF 的試題對不同性別在不同能力水平上的差異, 圖2 和圖3 分別給出了1道有利于女生 (題號為3, 對應(yīng)的題目名稱為LKSX04)的試題和1 道有利于男生(題號為13,對應(yīng)的題目名稱為LKSX16)的試題的特征曲線。圖2 中,女生的項(xiàng)目反應(yīng)曲線靠近圖形的上方;圖3 中,男生的項(xiàng)目反應(yīng)曲線靠近圖形的上方。 隨著考生能力的增加,圖2 顯示男女生差異具有越來越小的趨勢,圖3顯示男女生差異具有越來越大的趨勢。 這表明有利于女生的試題在較低能力的考生群體中表現(xiàn)出較大的性別差異, 有利于男生的試題在較高能力的考生群體中表現(xiàn)出較大的性別差異。

        圖2 試題名稱LKSX04 的項(xiàng)目特征曲線

        圖3 試題名稱LKSX16 的項(xiàng)目特征曲線

        五、研究結(jié)論

        本文利用基于Rasch 測量理論的RCMLM 通用拓展模型, 對包含0-1 計分試題和多級計分試題的試卷同時進(jìn)行DIF 分析。分析結(jié)果顯示,大部分試題僅具有輕微的DIF 現(xiàn)象, 部分試題具有一定程度的DIF 現(xiàn)象;分析也表明RCMLM 通用拓展模型可以對0-1 計分試題和多級計分試題同時進(jìn)行DIF 分析,保持了試卷的完整性,DIF 分析結(jié)果更加有效。

        相比于目前普遍使用的基于CTT (classical test theory,經(jīng)典測量理論)的Mantel-Haenszel 方法,基于Rasch 測量理論的RCMLM 模型的DIF 偵測敏感度更高[6];同時,RCMLM 模型也可以進(jìn)一步拓展為多維模型,具有更好的適應(yīng)性,是一種具有發(fā)展前景的DIF 偵測方法。

        猜你喜歡
        計分試卷試題
        2021年高考數(shù)學(xué)模擬試題(四)
        帶定性判斷的計分投票制及其公理刻畫
        2019年高考數(shù)學(xué)模擬試題(五)
        《陳涉世家》初三復(fù)習(xí)試題
        引導(dǎo)素質(zhì)教育的新高考計分模式構(gòu)想:線性轉(zhuǎn)化計分模式
        基于單片機(jī)的中國式摔跤比賽計分器開發(fā)設(shè)計
        電子制作(2019年9期)2019-05-30 09:42:06
        2019屆高考數(shù)學(xué)模擬試題(二)
        Module5 A Trip Along the Three Gorges
        Module5 Great People and Great Inventions of Ancient China
        Module 4 Sandstorms in Asia
        国产精品一区二区久久蜜桃| 日韩久久一级毛片| 天天插天天干天天操| 色婷婷久色国产成人免费| 久久久久久夜精品精品免费啦| 国产一极内射視颍一| 午夜高清福利| 亚洲精品国产一区av| 久久伊人最新网址视频| 国产成人涩涩涩视频在线观看| 久久天天爽夜夜摸| 一区两区三区视频在线观看| 日韩人妻另类中文字幕| 国产无遮挡无码视频免费软件| 91爱爱视频| 国产白浆一区二区三区佳柔| 国产精品免费观看调教网| 99精产国品一二三产品香蕉| 久久青草亚洲AV无码麻豆| 国内偷拍精品一区二区| 粗大的内捧猛烈进出小视频| 亚洲首页一区任你躁xxxxx| 亚洲精品天堂在线观看| 国产乱人精品视频av麻豆网站| 凹凸在线无码免费视频| 亚洲熟妇在线视频观看| 成人亚洲av网站在线看| 性无码一区二区三区在线观看| 日韩人妻精品无码一区二区三区 | 一区五码在线| 一级内射免费观看视频| 3d动漫精品啪啪一区二区免费| 亚洲人成网站77777在线观看| 亚洲av网站首页在线观看| 日韩精品视频久久一区二区| 日本aⅴ大伊香蕉精品视频| 少妇的诱惑免费在线观看| 成人男性视频在线观看| 亚洲va国产va天堂va久久| 久久噜噜噜| 亚洲精品中文字幕乱码3|