亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)交叉設(shè)計(jì)的試題計(jì)分誤差來(lái)源及可靠性分析*

        2014-03-02 03:14:36嵩王震蕾
        關(guān)鍵詞:效應(yīng)測(cè)量研究

        秦 嵩王震蕾

        (1.臺(tái)州學(xué)院 經(jīng)貿(mào)管理學(xué)院,浙江 臺(tái)州 318000;2.杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院,浙江 杭州 310018)

        基于隨機(jī)交叉設(shè)計(jì)的試題計(jì)分誤差來(lái)源及可靠性分析*

        秦 嵩1王震蕾2

        (1.臺(tái)州學(xué)院 經(jīng)貿(mào)管理學(xué)院,浙江 臺(tái)州 318000;2.杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院,浙江 杭州 310018)

        概化理論在標(biāo)準(zhǔn)化參照系測(cè)驗(yàn)、非標(biāo)準(zhǔn)化測(cè)驗(yàn)、教師教學(xué)評(píng)價(jià)和人事測(cè)評(píng)等領(lǐng)域得到了廣泛應(yīng)用。通過(guò)對(duì)某高校運(yùn)籌學(xué)試題進(jìn)行隨機(jī)交叉設(shè)計(jì),探討考試試題的計(jì)分誤差來(lái)源和試題可靠性。研究表明,考生通過(guò)試題所獲得的分?jǐn)?shù)與掌握課程的真實(shí)水平之間的差異來(lái)自于考生本身掌握知識(shí)的水平、試題難易度以及考生和試題兩者的交互效應(yīng)。通過(guò)計(jì)算得出在不同題型下的變異分量估計(jì)值和試題可靠值,為測(cè)評(píng)試題的區(qū)分度和穩(wěn)定性提供了一種工具。

        隨機(jī)交叉設(shè)計(jì);計(jì)分誤差;可靠性;試題

        一、引 言

        教育領(lǐng)域的測(cè)驗(yàn)、企事業(yè)單位的人才選拔、績(jī)效考核等的測(cè)驗(yàn)項(xiàng)目越來(lái)越多,試題是否能真正反映被試者能力或?qū)δ稠?xiàng)知識(shí)的掌握水平,以及試題針對(duì)不同被試群體是否有一致的穩(wěn)定性和可靠性的研究越來(lái)越備受關(guān)注。

        1905年,比納-西蒙量表的產(chǎn)生標(biāo)志著科學(xué)標(biāo)準(zhǔn)化考試產(chǎn)生。1950年,美國(guó)學(xué)者古里科森出版《心理測(cè)驗(yàn)的理論》,第一次用公理化方法系統(tǒng)總結(jié)了標(biāo)準(zhǔn)化考試的原理和方法,出現(xiàn)了較為成熟的經(jīng)典測(cè)驗(yàn)理論(CTT)。由于CTT體系存在對(duì)考生真實(shí)水平的判定過(guò)度依賴于考題樣本,對(duì)考生能力估計(jì)的精度不恰當(dāng),題目難度參數(shù)與考生能力參數(shù)定義于不同量表,不利于改進(jìn)測(cè)驗(yàn)并達(dá)到預(yù)期目標(biāo)等缺陷,所以出現(xiàn)了討論測(cè)量條件等考試外部效度的研究,并逐漸發(fā)展成概化理論[1]??她埌秃盏热税l(fā)表《概化理論:信度理論的豐富和發(fā)展》標(biāo)志著概化理論的誕生[2]。1972年出版了第一部關(guān)于概化理論的權(quán)威專著《行為測(cè)量的可靠性:用于測(cè)驗(yàn)分?jǐn)?shù)和剖面圖的概化理論》[3]。隨著研究水平及計(jì)算機(jī)技術(shù)的發(fā)展,概化理論應(yīng)用范圍越來(lái)越廣泛,如標(biāo)準(zhǔn)化參照系測(cè)驗(yàn)、非標(biāo)準(zhǔn)化測(cè)驗(yàn)、教師教學(xué)評(píng)價(jià)和人事測(cè)評(píng)等領(lǐng)域。

        我國(guó)學(xué)者如楊志明和張雷合著的《測(cè)評(píng)的概化理論及其應(yīng)用》一書(shū),較系統(tǒng)的闡述了該理論的概念以及不同實(shí)驗(yàn)設(shè)計(jì)情景研究。劉曉陵開(kāi)展了基于課程標(biāo)準(zhǔn)的初中標(biāo)準(zhǔn)化數(shù)學(xué)成就測(cè)驗(yàn)的編制研究,利用多元概化理論對(duì)心理測(cè)量學(xué)特征進(jìn)行鑒定,對(duì)測(cè)驗(yàn)的項(xiàng)目質(zhì)量、效度和信度進(jìn)行了分析[4]。毛翠云利用多元概化決策建立創(chuàng)業(yè)潛質(zhì)勝任力腦象圖優(yōu)勢(shì)特征測(cè)評(píng)模型,用于綜合評(píng)價(jià)創(chuàng)業(yè)勝任力[5]。田金亭利用概化理論對(duì)基于同感評(píng)估技術(shù)的中學(xué)生創(chuàng)造力評(píng)價(jià)進(jìn)行了測(cè)評(píng),并得到總測(cè)驗(yàn)比單個(gè)測(cè)驗(yàn)?zāi)芨玫販y(cè)量學(xué)生的創(chuàng)造力水平,以及創(chuàng)造力具有特定領(lǐng)域化傾向[6]。國(guó)內(nèi)學(xué)者大多將概化理論應(yīng)用于中小學(xué)或高考、雅思等測(cè)驗(yàn)中,鮮有對(duì)高校某課程的試題質(zhì)量和信度進(jìn)行研究。本文以某高校運(yùn)籌學(xué)課程為研究對(duì)象,來(lái)測(cè)評(píng)考生對(duì)于該門(mén)課程的掌握程度,并進(jìn)一步利用概化理論比較不同試題類型下的考試結(jié)果的可靠性程度。

        二、概化理論基本方法

        概化理論是根據(jù)測(cè)量目的,選擇測(cè)量側(cè)面及

        水平數(shù),用樣本觀測(cè)值去估計(jì)真值,從而得到不同的測(cè)驗(yàn)信度,具體包括概化研究(G研究)和決策研究(D研究)。概化研究包括明確測(cè)量對(duì)象及其潛在的特質(zhì),確定影響測(cè)驗(yàn)值的因素(即測(cè)量側(cè)面)及個(gè)數(shù),設(shè)計(jì)測(cè)量對(duì)象和測(cè)量側(cè)面之間的關(guān)系(交叉、嵌套等)以及因素之間的交互效應(yīng)(變異分量值);決策研究通過(guò)確定不同的概括全域,比較測(cè)驗(yàn)結(jié)果的估計(jì)精度(概化系數(shù)和可靠性指數(shù))。

        根據(jù)測(cè)量目標(biāo)、測(cè)量側(cè)面及其兩者之間的關(guān)系,概化理論包括隨機(jī)單面(多面)交叉設(shè)計(jì)、隨機(jī)單面(多面)嵌套設(shè)計(jì)、多元概化理論研究等,本文主要探討隨機(jī)單面交叉設(shè)計(jì)研究。單面交叉設(shè)計(jì)指僅有一個(gè)測(cè)量側(cè)面,且測(cè)量側(cè)面和測(cè)量目標(biāo)間具有交叉關(guān)系,側(cè)面和目標(biāo)都是隨機(jī)取樣的,總體和全域都是無(wú)限的測(cè)量設(shè)計(jì)。依據(jù)概化理論的研究步驟,隨機(jī)單面交叉設(shè)計(jì)的步驟包括G和D研究。

        (一)G研究及變異分量估計(jì)。假設(shè)被試者(測(cè)驗(yàn)者)為p和試題為i,p×i表示每個(gè)被試者作答每道試題,即為交叉,則G研究交叉設(shè)計(jì)的數(shù)學(xué)模型及變異分量的估計(jì)如下:

        其中,μ為總均值,μp-μ為被試者效應(yīng),μi-μ為試題效應(yīng),Xpi-μp-μi+μ為殘余效應(yīng)(不能被模型解釋的效應(yīng))。

        由于被試p和試題i的隨機(jī)性設(shè)計(jì),可采用方差分析技術(shù)估計(jì)出各變異數(shù)分量值,見(jiàn)表1。

        表1 隨機(jī)單面交叉設(shè)計(jì)(p×i)各變異分量估計(jì)公式

        (二)D研究及變異分量估計(jì)。D研究交叉設(shè)計(jì)的數(shù)學(xué)模型與G研究類似,一般地將被試者(測(cè)驗(yàn)者)和試題指標(biāo)記為P和I,其變異分量的估計(jì)如下:

        由于D研究的任務(wù)是根據(jù)決策的需要,利用G研究的結(jié)果,基于不同概括全域估計(jì)出測(cè)量精確度,以提供改進(jìn)測(cè)量方法的建議,所以有必要引進(jìn)相對(duì)誤差(被試者在實(shí)測(cè)樣本上觀測(cè)分?jǐn)?shù)的離均差與概括全域上全域分?jǐn)?shù)的離均差之間的差值)和絕對(duì)誤差(為被試觀測(cè)分與全域分之差),前者關(guān)心被試者間的排位順序,后者反映被試者的真實(shí)水平。

        三、試題設(shè)計(jì)及數(shù)據(jù)搜集

        以某高校的運(yùn)籌學(xué)課程為研究對(duì)象,測(cè)驗(yàn)設(shè)計(jì)了判斷題(10題)、單項(xiàng)選擇題(6題)和填空題(10題)三種類型的試題,以此來(lái)測(cè)評(píng)學(xué)生對(duì)該門(mén)課程的掌握水平,通過(guò)不同題型的組合來(lái)評(píng)判試題測(cè)評(píng)的可靠性和精確性。測(cè)量目標(biāo)為測(cè)評(píng)學(xué)生對(duì)運(yùn)籌學(xué)課程理解及掌握水平層次,測(cè)量側(cè)面為運(yùn)籌學(xué)試題(包括三種類型),要求每位學(xué)生作答每道試題,即學(xué)生掌握水平和測(cè)試題目之間是交叉的。共有62名學(xué)生參加試題測(cè)驗(yàn)。

        用三種題型分別來(lái)測(cè)評(píng)學(xué)生掌握水平,總共有7種組合:判斷、選擇、填空、判斷+選擇、判斷+填空、選擇+填空、判斷+選擇+填空。根據(jù)得到的得分矩陣可計(jì)算出不同題型組合情況下的得分均值,見(jiàn)表2。

        表2 不同題型組合下的得分均值情況表

        四、基于隨機(jī)交叉設(shè)計(jì)的試題研究

        (一)計(jì)分誤差來(lái)源。由表2和表1,得到基于7種題型的單面交叉設(shè)計(jì)的各種變異分量的估計(jì)值,見(jiàn)表3。由G研究的估計(jì)值不難得到不同題型組合的效應(yīng)或變異來(lái)源,即不同題型下學(xué)生獲得分?jǐn)?shù)與其實(shí)際知識(shí)掌握水平之間差異的來(lái)源。下面從不同角度來(lái)分析差異的來(lái)源。

        1、從學(xué)生角度p來(lái)看,不同題型組合的分?jǐn)?shù)差異由大到小順序?yàn)樘羁眨?.0255)>選擇+填空(0.0115)>判斷+填空(0.0074)>判斷+選擇+填空(0.0057)>判斷+選擇(0.0017)>選擇(0.0011)>判斷(0.0008),此順序表明將學(xué)生最大限度的區(qū)分成不同水平的題型為填空題,其次為選擇+填空,依變異估計(jì)值的順序題型區(qū)分度逐次下降,以判斷題區(qū)分度最小。

        2、從試題題目i本身來(lái)看,區(qū)分學(xué)生掌握知識(shí)水平的效應(yīng)依次為選擇+填空(0.0529)>填空(0.0515)>判斷+填空(0.0461)>判斷+選擇+填空(0.0435)>判斷(0.0306)>判斷+選擇(0.0232)>選擇(0.0037),此次序說(shuō)明以選擇+填空對(duì)學(xué)生分?jǐn)?shù)的區(qū)分度最大,其次為填空,選擇題區(qū)分度最小。

        3、從學(xué)生和試題的交叉效應(yīng)(不能被被試者和試題解釋的其他效應(yīng))p×i來(lái)看,效應(yīng)最大為填空題,最小為選擇題。

        表3 基于7種題型的運(yùn)籌學(xué)試題的隨機(jī)單面交叉設(shè)計(jì)的變異分量估計(jì)值

        (二)誤差及可靠性研究。上述G研究獲得了考生計(jì)分與真實(shí)分?jǐn)?shù)之間差異來(lái)源,下面通過(guò)計(jì)算不同題型下相對(duì)誤差和絕對(duì)誤差的值來(lái)衡量影響考生排位順序的因素效應(yīng)。因?yàn)榭忌餍?yīng)是測(cè)量目標(biāo),是考生真實(shí)水平的體現(xiàn),所以考生主效應(yīng)不被列入相對(duì)誤差,而試題主效應(yīng)僅是試題間的難度的反映,不能改變考生之間的排序,所以相對(duì)誤差由考生和題目之間的交互效應(yīng)組成;由于試題的難易直接影響考生的得分,所以絕對(duì)誤差由試題主效應(yīng)和試題與考生之間的交互效應(yīng)組成。其中ni'為概括全域上題目樣本的容量。

        相對(duì)誤差變異分量的估計(jì)公式:

        此外依據(jù)克龍巴赫構(gòu)建的概化系數(shù)ρ和Brennan與Kane(1977)定義的可靠性指數(shù)Φ(可靠性指數(shù)是測(cè)量目標(biāo)本身的分?jǐn)?shù)變異在全體分?jǐn)?shù)變異中所占的比例)。來(lái)評(píng)判對(duì)于測(cè)評(píng)不同考生群體的試題的穩(wěn)定性高低。概化系數(shù)ρ=σ2(p)/[σ2(p)+σ2(δ)],可靠性指數(shù)Φ=σ2(p)/[σ2(p)+σ2( )]。利用公式(4)、(5)和概化系數(shù)及可靠性指數(shù)分別計(jì)算出此試題的相對(duì)誤差、絕對(duì)誤差及可靠性值,見(jiàn)表4。

        表4 以隨機(jī)單面交叉設(shè)計(jì)為基礎(chǔ)的D研究結(jié)果

        由表4可知,前三類題型組合的考生與試題之間的交互效應(yīng)大于后幾類題型組合的交互效應(yīng),交互效應(yīng)、相對(duì)誤差、絕對(duì)誤差的變異均比較小,而概化系數(shù)和可靠性指數(shù)都比較大。此說(shuō)明前三題型組合的測(cè)量誤差都比較小,測(cè)量的信度比較高。

        但是,不同題型組合的試題可靠性指數(shù)為40%以上的由大到小依次為填空>選擇+填空>判斷+選擇+填空>判斷+填空,此結(jié)果說(shuō)明填空題在所有類型的題型中對(duì)測(cè)評(píng)不同考生群體所體現(xiàn)的可靠性最強(qiáng),依次為選擇題和判斷題,從另一個(gè)側(cè)面反映選擇題和判斷題在測(cè)評(píng)考生時(shí)不夠可靠,需要進(jìn)一步的修正以提高此題型的試卷的可靠性。

        五、小 結(jié)

        利用概化理論對(duì)某高校運(yùn)籌學(xué)試題進(jìn)行隨機(jī)交叉設(shè)計(jì),探討了考試試題的計(jì)分誤差來(lái)源和試題可靠性,為測(cè)評(píng)試題的區(qū)分度和穩(wěn)定性提供了一種工具。研究發(fā)現(xiàn)考生通過(guò)試題所獲得的分?jǐn)?shù)與掌握課程的真實(shí)水平之間的差異來(lái)自于考生本身掌握知識(shí)的水平、試題難易度以及考生和試題兩者的交互效應(yīng);通過(guò)試題組合的可靠性指數(shù)和概化系數(shù)的計(jì)算,表明填空題的加入提高了試題的可靠性,較之選擇題和判斷題具有更強(qiáng)的區(qū)分力。

        [1]Cronbach,L.J.,Rajaratnam,N.&Gleser,G.C..Theory of generalizability:A liberalization of reliability theory[J].British Journal of Statistical Psychology,1963,16(1):137-163.

        [2]Cronbach,L.J.,Rajaratnam,N,Nanda,H.&Gleser,G.C.The dependability of behavioral measurements:Theory of generalizability for scores and profiles[J].New York:John Wiley,1972.

        [3]毛翠云.創(chuàng)業(yè)勝任力綜合測(cè)評(píng)研究[D].鎮(zhèn)江:江蘇大學(xué),2011.

        [4]田金亭.基于CAT的中學(xué)生創(chuàng)造力評(píng)價(jià)技術(shù)探討[D].南京:南京師范大學(xué),2011.

        [5]劉曉陵.基于課程標(biāo)準(zhǔn)的初中標(biāo)準(zhǔn)化數(shù)學(xué)成就測(cè)驗(yàn)的編制研究[D].上海:華東師范大學(xué),2010.

        [6]楊志明,張雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003:50-125.

        The Analysis of Randomized Crossover Test’s Scoring Error Sources and Reliability Basing on Generalizability Theory

        Qin Song,Wang Zhenlei

        (School of Trade and Management,Taizhou University,Taizhou 318000,Zhejiang;College of Economics,Hangzhou Dianzi University,Hangzhou 310018,Zhejiang)

        Generalizability theory is widely applied to standardized tests,non-standardized tests, teaching evaluation and personnel evaluation.Basing on this theory,the paper sets up a randomized crossover design and analyzed the test’s error sources and reliability.It puts forward that the difference between examination results and true grades comes from how well the students have mastered the knowledge,the degree of difficulty of test and interaction of students and test.At last,it calculates the value of difference and reliability in different question types and provides a tool which can review the test’s differentiation and stabilization.

        randomized crossover design;scoring error;reliability;test

        G449.7

        A

        1672-3708(2014)01-0061-05

        2013-10-20

        秦 嵩(1978- ),男,陜西府谷人,講師。王震蕾(1979- ),女,浙江溫嶺人,講師。

        *本文為臺(tái)州學(xué)院教學(xué)改革研究項(xiàng)目(課題編號(hào):JG2011006)的成果之一。

        猜你喜歡
        效應(yīng)測(cè)量研究
        FMS與YBT相關(guān)性的實(shí)證研究
        鈾對(duì)大型溞的急性毒性效應(yīng)
        遼代千人邑研究述論
        懶馬效應(yīng)
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        把握四個(gè)“三” 測(cè)量變簡(jiǎn)單
        EMA伺服控制系統(tǒng)研究
        滑動(dòng)摩擦力的測(cè)量和計(jì)算
        滑動(dòng)摩擦力的測(cè)量與計(jì)算
        應(yīng)變效應(yīng)及其應(yīng)用
        8888四色奇米在线观看| 欧美粗大无套gay| 亚洲人成未满十八禁网站| 少妇人妻偷人精品无码视频| 国产一区二区三区小说| 久久99精品久久久久久齐齐百度| 精品国产又大又黄又粗av| 国产高清视频在线不卡一区| 亚洲av无码电影在线播放| 一本大道无码人妻精品专区| 小sao货水好多真紧h视频| 人妖另类综合视频网站| 国产内射视频在线播放| 日本人妻系列一区二区| 国产亚洲一区二区精品| 精品无码人妻夜人多侵犯18 | 精品女同一区二区三区| 国产aⅴ无码专区亚洲av麻豆 | 国产精品丝袜黑色高跟鞋| 亚洲精品乱码久久久久久麻豆不卡| 国产激情久久久久久熟女老人| 日韩一二三四区免费观看| 亚洲婷婷久久播66性av| 青青草精品视频在线播放| 国产精品186在线观看在线播放| 人妻少妇偷人精品无码| 洗澡被公强奷30分钟视频| 人妻中出精品久久久一区二| 丝袜美腿在线播放一区二区| 十八禁视频网站在线观看| 8888四色奇米在线观看| 99精品国产成人一区二区在线| 漂亮丰满人妻被中出中文字幕| 欧美噜噜久久久xxx| 人妻精品无码一区二区三区| 国产精品久久久久…| 伊人久久婷婷综合五月97色| 蜜臀av在线一区二区尤物| 欧美另类人妖| 又黄又爽又色又刺激的视频| 久久久调教亚洲|