亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Logistic加權(quán)模型的理論構(gòu)建與模擬分析*

        2016-02-01 22:11:24簡(jiǎn)小珠戴步云戴海琦
        心理學(xué)報(bào) 2016年12期
        關(guān)鍵詞:記分參數(shù)估計(jì)測(cè)驗(yàn)

        簡(jiǎn)小珠 戴步云 戴海琦

        (1井岡山大學(xué)教育學(xué)院, 江西 吉安 343009)

        (2江西師范大學(xué)心理學(xué)院, 江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室, 南昌 330022)

        1 前言

        1.1 以往的多級(jí)記分模型

        1.2 多級(jí)記分試題的試題屬性

        多級(jí)記分試題的試題屬性主要表現(xiàn)為:(1)用試題滿分值來表達(dá)試題知識(shí)考查重要性程度的加權(quán)作用; (2)用平均得分比例來表達(dá)被試群體在多級(jí)記分試題上的平均難度。

        第一個(gè)屬性:試題考查重要性程度加權(quán)作用。從測(cè)驗(yàn)設(shè)計(jì)來看, 多級(jí)記分試題的賦分基本思想:給予某一道試題賦予更大的分?jǐn)?shù)權(quán)重, 是為了增大該試題在整份測(cè)驗(yàn)中的分?jǐn)?shù)權(quán)重比例, 以反映所考查知識(shí)與能力的重要性。正如教學(xué)內(nèi)容、測(cè)驗(yàn)內(nèi)容具有難點(diǎn)與重點(diǎn), 試題也具有難易程度與考查重要性這兩個(gè)屬性。因此, 反映在IRT模型上應(yīng)使用不同的參數(shù)來表達(dá)多級(jí)記分試題的難度、重要性。試題難易程度是通過難度來體現(xiàn), 而試題所測(cè)量?jī)?nèi)容的重要性則需通過分?jǐn)?shù)權(quán)重, 即權(quán)重參數(shù)來表達(dá)。試題所測(cè)量?jī)?nèi)容重要性可通過該試題滿分值、或該試題所在內(nèi)容模塊總分在整份測(cè)驗(yàn)總分的比重來體現(xiàn)。本文提出的Logistic加權(quán)模型將包含權(quán)重參數(shù)。

        第二個(gè)屬性:試題的平均難度。被試群體在多級(jí)記分試題上的得分為:得1分及以上的人數(shù)比例最大, 得2分及以上的人數(shù)比例依次減小, 依此類推, 得滿分的被試人數(shù)比例最小。多級(jí)記分題的評(píng)分點(diǎn)結(jié)構(gòu)、評(píng)分等級(jí)相對(duì)復(fù)雜, 為簡(jiǎn)化認(rèn)識(shí), 可使用平均難度表達(dá)被試群體在多級(jí)記分試題上的得分比例, 也就是說, 計(jì)算被試群體在多級(jí)記分試題上的平均得分, 并除以該試題滿分值得到平均得分比例

        P

        , 即平均難度。

        1.3 GRM在多級(jí)記分試題上應(yīng)用的不足

        GRM在多級(jí)記分試題上應(yīng)用的不足:第一,GRM下多級(jí)記分試題的項(xiàng)目信息量并不是兩級(jí)記分試題的倍數(shù)。分別計(jì)算一道滿分為5分, 區(qū)分度為1, 難度參數(shù)分別為?1, ?0.5, 0.0, 0.5, 1的多級(jí)記分試題, 和一道區(qū)分度為1, 難度為0.0的兩級(jí)記分試題的項(xiàng)目信息量, 發(fā)現(xiàn)該多級(jí)記分試題的項(xiàng)目信息量在能力量尺的各個(gè)點(diǎn)上都僅僅比兩級(jí)記分試題多0.1~0.2。第二, GRM有時(shí)無法適合實(shí)際情境,(1)如果最后一個(gè)等級(jí)得分的被試太少, 會(huì)嚴(yán)重影響難度參數(shù)的估計(jì)(Embretson & Reise, 2000)。(2)評(píng)分為非連續(xù)時(shí), 比如在英語測(cè)驗(yàn)中詞匯題每題1分, 閱讀理解每題2分(答對(duì)給2分, 答錯(cuò)給0分,無中間得分), 在GRM下無法進(jìn)行參數(shù)估計(jì)。

        2 Logistic加權(quán)模型的構(gòu)建思想

        2.1 Logistic加權(quán)模型的平均難度參數(shù)

        以往GRM等多級(jí)記分模型是建立兩級(jí)記分Logistic模型的基礎(chǔ)上, 用

        m

        道不同難度的兩級(jí)記分試題的難度參數(shù)表示一道滿分為

        m

        的多級(jí)記分試題的難度參數(shù)(Embretson & Reise, 2000)。Logistic加權(quán)模型也以兩級(jí)記分Logistic模型為基礎(chǔ), 依據(jù)多級(jí)記分試題的分?jǐn)?shù)加權(quán)作用, 用

        m

        道難度相同的兩級(jí)記分試題的試題難度來描述一道滿分為

        m

        的多級(jí)記分試題的平均難度, 具體為:(1)用

        m

        道難度值相同的兩級(jí)記分試題的難度

        b

        表示為該道多級(jí)記分試題的平均難度, 即用一個(gè)難度參數(shù)

        b

        表示多級(jí)記分試題的平均難度; (2)用試題滿分

        m

        來表示試題的權(quán)重參數(shù), 以反映該試題考查知識(shí)的重要性程度。在Logistic加權(quán)模型下, 多級(jí)記分題的平均難度參數(shù)的參數(shù)含義與兩級(jí)記分試題的難度參數(shù)含義相似, 含義為:當(dāng)被試在某一多級(jí)記分題上的得分為中間得分及以下的期望概率累加和為0.5時(shí), 此時(shí)該被試的能力估計(jì)值即是該多級(jí)記分題的平均難度參數(shù)。

        2.2 Logistic加權(quán)模型的項(xiàng)目特征函數(shù)推導(dǎo)

        在兩級(jí)記分試題時(shí), 被試在中等難度試題上得分為1的作答情況為:在能力量尺低端, 低能力被試群體中答對(duì)此題的人數(shù)比例較小, 在能力量尺高端, 高能力被試群體中答對(duì)此題的人數(shù)比例大, 此時(shí)曲線呈單調(diào)上升趨勢(shì), 其曲線描述為圖1中得分為1的曲線; 同時(shí)圖1也描述了得分為0時(shí)項(xiàng)目特征曲線:在能力量尺低端, 低能力被試群體中答錯(cuò)此題的人數(shù)比例較大; 在能力量尺高端, 高能力被試群體中答錯(cuò)此題的人數(shù)比例小, 此時(shí)曲線呈單調(diào)下降趨勢(shì)。由圖1也可描繪為

        u

        u

        分以上的正確作答比例曲線圖, 為圖2。Baker和Kim (2004)描繪兩級(jí)記分試題項(xiàng)目特征曲線時(shí)也是用這兩種方式。

        圖1 兩級(jí)記分題的項(xiàng)目特征曲線(恰得u分)

        圖2 兩級(jí)記分題的項(xiàng)目特征曲線(得u分及以上)

        圖3 多級(jí)記分題的項(xiàng)目特征曲線(恰得u分)

        圖4 多級(jí)記分題項(xiàng)目特征曲線(得u分及以上)

        Logistic加權(quán)模型表示

        u

        u

        分以上的概率

        3 模擬研究與實(shí)測(cè)數(shù)據(jù)分析

        3.1 Logistic加權(quán)模型的參數(shù)估計(jì)

        Logistic加權(quán)模型增加了權(quán)重參數(shù)即試題滿分值, 試題滿分值是在命題時(shí)確定, 有一定的主觀性,但測(cè)驗(yàn)設(shè)計(jì)者需根據(jù)心理測(cè)驗(yàn)設(shè)計(jì)藍(lán)圖(或教學(xué)大綱), 及測(cè)驗(yàn)編制經(jīng)驗(yàn)規(guī)律來確定試題滿分值, 因此試題滿分值可看成是人們對(duì)試題分?jǐn)?shù)權(quán)重共同認(rèn)識(shí)的間接反映, 可作為Logistic加權(quán)模型的權(quán)重參數(shù), 且不需要進(jìn)行估計(jì)。

        Logistic加權(quán)模型可使用邊際極大似然估計(jì)EM算法(Bock & Aitkin, 1981)估算出兩級(jí)和多級(jí)記分試題的區(qū)分度、平均難度參數(shù)。根據(jù)全體被試的作答矩陣建立似然函數(shù):

        3.2 模擬研究與討論分析

        以往兩級(jí)記分模型的模擬研究已經(jīng)論證了題量、被試量、試題難度分布會(huì)影響到測(cè)驗(yàn)?zāi)M結(jié)果(吳佳儒, 陳柏熹, 2008; 朱隆尹, 丁樹良, 涂冬波,盧震輝, 2009)。這里探討Logistic加權(quán)模型下, 被試數(shù)量、試題滿分值這兩個(gè)因素對(duì)測(cè)驗(yàn)?zāi)M返真性能的影響。

        測(cè)驗(yàn)?zāi)M設(shè)計(jì)為:被試數(shù)量分1000、5000; 試題滿分值分2, 3, 4, 5, 多個(gè)滿分值混合五種情況,測(cè)驗(yàn)總分100分, 模擬重復(fù)50次。測(cè)驗(yàn)?zāi)M所得的模擬返真性能結(jié)果如表1。

        由表1, (1)被試數(shù)量對(duì)模擬結(jié)果的影響, 被試5000的各個(gè)測(cè)驗(yàn)情境下ABS、RMSE, 比被試1000時(shí)的ABS、RMSE都要稍微小一些。在被試5000的各個(gè)情境下, Bias值都比較小, 表明偏差很小。相對(duì)于被試1000時(shí), 被試5000時(shí)的各種題量下的Bias更接近0。(2)試題滿分值對(duì)模擬結(jié)果的影響。在被試5000或1000時(shí), 當(dāng)滿分值從2到3, 4, 5分時(shí), 試題區(qū)分度、難度的ABS、RMSE, 無明顯的變大或變小趨勢(shì), 而且都在0.09以內(nèi)波動(dòng), 說明試題滿分值大小對(duì)測(cè)驗(yàn)?zāi)M返真性能幾乎沒有影響??傊? 在各情境下Logistic加權(quán)模型的測(cè)驗(yàn)?zāi)M返真性能良好。

        表1 被試得分為連續(xù)時(shí)的模擬結(jié)果

        本文還進(jìn)行了評(píng)分為非連續(xù)時(shí)的測(cè)驗(yàn)?zāi)M, 發(fā)現(xiàn)模擬返真性能也相對(duì)良好。

        將表1與以往兩級(jí)記分模型的模擬研究結(jié)果比較(朱瑋, 丁樹良, 陳小攀, 2006; 吳佳儒, 陳柏熹,2008), 發(fā)現(xiàn)本文的模擬返真性能結(jié)果與其他研究者的模擬返真性能結(jié)果很相近, 這也說明本文的測(cè)驗(yàn)?zāi)M返真性能良好。

        3.3 實(shí)測(cè)數(shù)據(jù)分析

        4 結(jié)論

        試題難度、試題考查重要性程度加權(quán)是多級(jí)記分試題的兩個(gè)基本屬性。依據(jù)多級(jí)記分試題在測(cè)驗(yàn)設(shè)計(jì)時(shí)的分?jǐn)?shù)加權(quán)作用, 本文提出了Logistic加權(quán)模型并論述了其構(gòu)建思想, 同時(shí)推導(dǎo)了Logistic加權(quán)模型的項(xiàng)目參數(shù)估計(jì)EM算法并編寫了相應(yīng)的程序。在Logistic加權(quán)模型下進(jìn)行測(cè)驗(yàn)?zāi)M并進(jìn)行項(xiàng)目參數(shù)估計(jì), 發(fā)現(xiàn)項(xiàng)目參數(shù)估計(jì)的模擬返真性能良好。Logistic加權(quán)模型適合需要體現(xiàn)分?jǐn)?shù)權(quán)重作用的教育成就測(cè)驗(yàn)、智力測(cè)驗(yàn)等, 而使用多個(gè)分?jǐn)?shù)等級(jí)評(píng)定的人格測(cè)驗(yàn)往往試題都是相同等級(jí), 適合使用GRM。

        Baker, F. B., & Kim, S. H. (2004).

        Item response theory: Parameter estimation techniques

        (2nd ed.). New York: Marcel Dekker, Inc.Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: An application of a EM algorithm.

        Psychometrika, 46

        , 443–459.Du, W. J. (2006). Information of IRT multilevel item.

        Acta Psychologica Sinica, 38

        (1), 135–144.[杜文久. (2006). 項(xiàng)目反應(yīng)理論框架下多級(jí)評(píng)分項(xiàng)目的信息函數(shù).

        心理學(xué)報(bào), 38

        (1), 135–144.]Embretson, S. E., & Reise, S. P. (2000).

        Item response theory for psychologists.

        Mahwah, NJ: Lawrence Erlbaum Associates.Qi, S. Q., Dai, H. Q., & Ding, S. L. (2002).

        Principles of modern educational and psychological measurement.

        Beijing, China:Higher Education Press.[漆書青, 戴海崎, 丁樹良. (2002).

        現(xiàn)代教育與心理測(cè)量學(xué)原理.

        北京: 高等教育出版社]Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.

        Psychometrika Monograph Supplement, 34

        (4), 100–114.van der Linden, W. J., & Hambleton, R. K. (Eds.). (1997).

        Handbook of mo dern it em re sponse th eory

        . New York:Springer.Wu, G. R., & Chen, B. X. (2008, November).

        The influences of the sample sizes and ability distributions on the item and trait parameters measurement accuracy

        . Paper presented at the meeting of the 8th cross–strait conference on psychological and educational testing, Kunming, Yunnan.[吳佳儒, 陳柏熹. (2008, 11).

        受試者人數(shù)及能力分布型態(tài)對(duì)試題與能力參數(shù)估計(jì)的影響

        . 第八屆海峽兩岸心理與教育測(cè)驗(yàn)學(xué)術(shù)研討會(huì), 云南, 昆明.]Xiao, H. M., Du, W. J., & Zhang, T. T. (2011). Deriving polytomous scoring models based on item node.

        Acta Psy chologica Sinica, 43

        (12), 1462–1467.[肖涵敏, 杜文久, 張婷婷. (2011). 基于項(xiàng)目節(jié)點(diǎn)的多級(jí)評(píng)分模型的統(tǒng)一.

        心理學(xué)報(bào), 43

        (12), 1462–1467.]Zhu, L. Y., Ding, S. L., Tu, D. B., & Lu, Z. H. (2009). Comparison among parameter estimation methods based on small sample under item response theory.

        Psychological Exploration,29

        (5), 72–76.[朱隆尹, 丁樹良, 涂冬波, 盧震輝. (2009). 基于小樣本容量的IRT參數(shù)估計(jì)方法比較研究.

        心理學(xué)探新, 29

        (5),72–76.]Zhu, W., Ding, S. L., & Chen, X. P. (2006). Minimum chisquare/EM estimation under IRT.

        Acta Psychologica Sinica,38

        (3), 453–460.[朱瑋, 丁樹良, 陳小攀. (2006). IRT中最小化χ/EM參數(shù)估計(jì)方法.

        心理學(xué)報(bào), 38

        (3), 453–460.]

        猜你喜歡
        記分參數(shù)估計(jì)測(cè)驗(yàn)
        一起來看看交通違法記分分值有什么變化
        基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
        山西:太原對(duì)民辦中小學(xué)實(shí)行記分管理 學(xué)校違規(guī)超計(jì)劃招生等行為將被記分
        《新年大測(cè)驗(yàn)》大揭榜
        趣味(語文)(2018年7期)2018-06-26 08:13:48
        上海 將施行最嚴(yán)交規(guī)
        汽車縱橫(2017年4期)2017-06-14 18:12:47
        Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
        兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
        基于競(jìng)爭(zhēng)失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
        你知道嗎?
        国产极品女主播国产区| 中文字幕人妻少妇美臀| 国产激情小视频在线观看的 | 免费a级毛片又大又粗又黑| 亚洲av麻豆aⅴ无码电影| 高清国产日韩欧美| 亚洲av网站首页在线观看| 国产成人精品一区二三区孕妇| 国产成+人+综合+亚洲欧美丁香花| 四虎影视在线观看2413| 巨臀精品无码AV在线播放| 粉嫩人妻91精品视色在线看| 伊人久久大香线蕉av色| 精品香蕉久久久午夜福利| av无码一区二区三| 免费在线亚洲视频观看| 国产激情无码一区二区| 1717国产精品久久| 中文字幕亚洲区第一页| 午夜精品免费视频一区二区三区| 亚洲av片在线观看| 色丁香久久| 日本一区二区高清视频在线| 偷拍一区二区视频播放器| 日本一卡2卡3卡四卡精品网站| 日韩女人毛片在线播放| 白色白色视频在线观看| 亚洲精品国产成人片| 亚洲日本va午夜在线影院| 一区二区三区在线视频免费观看| 91久久偷偷做嫩模影院| 熟女性饥渴一区二区三区| 国产人澡人澡澡澡人碰视频| 国产一区二区三区在线影院| 国产69久久精品成人看| 老太脱裤让老头玩ⅹxxxx| 中文字幕日本一区二区在线观看| 亚洲精品中文字幕一区二区| 夜夜高潮夜夜爽夜夜爱爱| 99久久综合国产精品免费| 日本一区二区三区光视频|