亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機(jī)交叉設(shè)計(jì)的試題計(jì)分誤差來(lái)源及可靠性分析*

2014-03-02 03:14:36嵩王震蕾

臺(tái)州學(xué)院學(xué)報(bào) 2014年1期

關(guān)鍵詞：效應(yīng)測(cè)量研究

秦嵩王震蕾

（1.臺(tái)州學(xué)院經(jīng)貿(mào)管理學(xué)院，浙江臺(tái)州 318000；2.杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院，浙江杭州 310018）

基于隨機(jī)交叉設(shè)計(jì)的試題計(jì)分誤差來(lái)源及可靠性分析*

秦嵩1王震蕾2

（1.臺(tái)州學(xué)院經(jīng)貿(mào)管理學(xué)院，浙江臺(tái)州 318000；2.杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院，浙江杭州 310018）

概化理論在標(biāo)準(zhǔn)化參照系測(cè)驗(yàn)、非標(biāo)準(zhǔn)化測(cè)驗(yàn)、教師教學(xué)評(píng)價(jià)和人事測(cè)評(píng)等領(lǐng)域得到了廣泛應(yīng)用。通過(guò)對(duì)某高校運(yùn)籌學(xué)試題進(jìn)行隨機(jī)交叉設(shè)計(jì)，探討考試試題的計(jì)分誤差來(lái)源和試題可靠性。研究表明，考生通過(guò)試題所獲得的分?jǐn)?shù)與掌握課程的真實(shí)水平之間的差異來(lái)自于考生本身掌握知識(shí)的水平、試題難易度以及考生和試題兩者的交互效應(yīng)。通過(guò)計(jì)算得出在不同題型下的變異分量估計(jì)值和試題可靠值，為測(cè)評(píng)試題的區(qū)分度和穩(wěn)定性提供了一種工具。

隨機(jī)交叉設(shè)計(jì)；計(jì)分誤差；可靠性；試題

一、引言

教育領(lǐng)域的測(cè)驗(yàn)、企事業(yè)單位的人才選拔、績(jī)效考核等的測(cè)驗(yàn)項(xiàng)目越來(lái)越多，試題是否能真正反映被試者能力或?qū)δ稠?xiàng)知識(shí)的掌握水平，以及試題針對(duì)不同被試群體是否有一致的穩(wěn)定性和可靠性的研究越來(lái)越備受關(guān)注。

1905年，比納-西蒙量表的產(chǎn)生標(biāo)志著科學(xué)標(biāo)準(zhǔn)化考試產(chǎn)生。1950年，美國(guó)學(xué)者古里科森出版《心理測(cè)驗(yàn)的理論》，第一次用公理化方法系統(tǒng)總結(jié)了標(biāo)準(zhǔn)化考試的原理和方法，出現(xiàn)了較為成熟的經(jīng)典測(cè)驗(yàn)理論（CTT）。由于CTT體系存在對(duì)考生真實(shí)水平的判定過(guò)度依賴于考題樣本，對(duì)考生能力估計(jì)的精度不恰當(dāng)，題目難度參數(shù)與考生能力參數(shù)定義于不同量表，不利于改進(jìn)測(cè)驗(yàn)并達(dá)到預(yù)期目標(biāo)等缺陷，所以出現(xiàn)了討論測(cè)量條件等考試外部效度的研究，并逐漸發(fā)展成概化理論［1］?？她埌秃盏热税l(fā)表《概化理論：信度理論的豐富和發(fā)展》標(biāo)志著概化理論的誕生［2］。1972年出版了第一部關(guān)于概化理論的權(quán)威專著《行為測(cè)量的可靠性：用于測(cè)驗(yàn)分?jǐn)?shù)和剖面圖的概化理論》［3］。隨著研究水平及計(jì)算機(jī)技術(shù)的發(fā)展，概化理論應(yīng)用范圍越來(lái)越廣泛，如標(biāo)準(zhǔn)化參照系測(cè)驗(yàn)、非標(biāo)準(zhǔn)化測(cè)驗(yàn)、教師教學(xué)評(píng)價(jià)和人事測(cè)評(píng)等領(lǐng)域。

我國(guó)學(xué)者如楊志明和張雷合著的《測(cè)評(píng)的概化理論及其應(yīng)用》一書(shū)，較系統(tǒng)的闡述了該理論的概念以及不同實(shí)驗(yàn)設(shè)計(jì)情景研究。劉曉陵開(kāi)展了基于課程標(biāo)準(zhǔn)的初中標(biāo)準(zhǔn)化數(shù)學(xué)成就測(cè)驗(yàn)的編制研究，利用多元概化理論對(duì)心理測(cè)量學(xué)特征進(jìn)行鑒定，對(duì)測(cè)驗(yàn)的項(xiàng)目質(zhì)量、效度和信度進(jìn)行了分析［4］。毛翠云利用多元概化決策建立創(chuàng)業(yè)潛質(zhì)勝任力腦象圖優(yōu)勢(shì)特征測(cè)評(píng)模型，用于綜合評(píng)價(jià)創(chuàng)業(yè)勝任力［5］。田金亭利用概化理論對(duì)基于同感評(píng)估技術(shù)的中學(xué)生創(chuàng)造力評(píng)價(jià)進(jìn)行了測(cè)評(píng)，并得到總測(cè)驗(yàn)比單個(gè)測(cè)驗(yàn)?zāi)芨玫販y(cè)量學(xué)生的創(chuàng)造力水平，以及創(chuàng)造力具有特定領(lǐng)域化傾向［6］。國(guó)內(nèi)學(xué)者大多將概化理論應(yīng)用于中小學(xué)或高考、雅思等測(cè)驗(yàn)中，鮮有對(duì)高校某課程的試題質(zhì)量和信度進(jìn)行研究。本文以某高校運(yùn)籌學(xué)課程為研究對(duì)象，來(lái)測(cè)評(píng)考生對(duì)于該門(mén)課程的掌握程度，并進(jìn)一步利用概化理論比較不同試題類型下的考試結(jié)果的可靠性程度。

二、概化理論基本方法

概化理論是根據(jù)測(cè)量目的，選擇測(cè)量側(cè)面及

水平數(shù)，用樣本觀測(cè)值去估計(jì)真值，從而得到不同的測(cè)驗(yàn)信度，具體包括概化研究（G研究）和決策研究（D研究）。概化研究包括明確測(cè)量對(duì)象及其潛在的特質(zhì)，確定影響測(cè)驗(yàn)值的因素（即測(cè)量側(cè)面）及個(gè)數(shù)，設(shè)計(jì)測(cè)量對(duì)象和測(cè)量側(cè)面之間的關(guān)系（交叉、嵌套等）以及因素之間的交互效應(yīng)（變異分量值）；決策研究通過(guò)確定不同的概括全域，比較測(cè)驗(yàn)結(jié)果的估計(jì)精度（概化系數(shù)和可靠性指數(shù)）。

根據(jù)測(cè)量目標(biāo)、測(cè)量側(cè)面及其兩者之間的關(guān)系，概化理論包括隨機(jī)單面（多面）交叉設(shè)計(jì)、隨機(jī)單面（多面）嵌套設(shè)計(jì)、多元概化理論研究等，本文主要探討隨機(jī)單面交叉設(shè)計(jì)研究。單面交叉設(shè)計(jì)指僅有一個(gè)測(cè)量側(cè)面，且測(cè)量側(cè)面和測(cè)量目標(biāo)間具有交叉關(guān)系，側(cè)面和目標(biāo)都是隨機(jī)取樣的，總體和全域都是無(wú)限的測(cè)量設(shè)計(jì)。依據(jù)概化理論的研究步驟，隨機(jī)單面交叉設(shè)計(jì)的步驟包括G和D研究。

（一）G研究及變異分量估計(jì)。假設(shè)被試者（測(cè)驗(yàn)者）為p和試題為i，p×i表示每個(gè)被試者作答每道試題，即為交叉，則G研究交叉設(shè)計(jì)的數(shù)學(xué)模型及變異分量的估計(jì)如下：

其中，μ為總均值，μp-μ為被試者效應(yīng)，μi-μ為試題效應(yīng)，Xpi-μp-μi+μ為殘余效應(yīng)（不能被模型解釋的效應(yīng)）。

由于被試p和試題i的隨機(jī)性設(shè)計(jì)，可采用方差分析技術(shù)估計(jì)出各變異數(shù)分量值，見(jiàn)表1。

表1 隨機(jī)單面交叉設(shè)計(jì)（p×i）各變異分量估計(jì)公式

（二）D研究及變異分量估計(jì)。D研究交叉設(shè)計(jì)的數(shù)學(xué)模型與G研究類似，一般地將被試者（測(cè)驗(yàn)者）和試題指標(biāo)記為P和I，其變異分量的估計(jì)如下：

由于D研究的任務(wù)是根據(jù)決策的需要，利用G研究的結(jié)果，基于不同概括全域估計(jì)出測(cè)量精確度，以提供改進(jìn)測(cè)量方法的建議，所以有必要引進(jìn)相對(duì)誤差（被試者在實(shí)測(cè)樣本上觀測(cè)分?jǐn)?shù)的離均差與概括全域上全域分?jǐn)?shù)的離均差之間的差值）和絕對(duì)誤差（為被試觀測(cè)分與全域分之差），前者關(guān)心被試者間的排位順序，后者反映被試者的真實(shí)水平。

三、試題設(shè)計(jì)及數(shù)據(jù)搜集

以某高校的運(yùn)籌學(xué)課程為研究對(duì)象，測(cè)驗(yàn)設(shè)計(jì)了判斷題（10題）、單項(xiàng)選擇題（6題）和填空題（10題）三種類型的試題，以此來(lái)測(cè)評(píng)學(xué)生對(duì)該門(mén)課程的掌握水平，通過(guò)不同題型的組合來(lái)評(píng)判試題測(cè)評(píng)的可靠性和精確性。測(cè)量目標(biāo)為測(cè)評(píng)學(xué)生對(duì)運(yùn)籌學(xué)課程理解及掌握水平層次，測(cè)量側(cè)面為運(yùn)籌學(xué)試題（包括三種類型），要求每位學(xué)生作答每道試題，即學(xué)生掌握水平和測(cè)試題目之間是交叉的。共有62名學(xué)生參加試題測(cè)驗(yàn)。

用三種題型分別來(lái)測(cè)評(píng)學(xué)生掌握水平，總共有7種組合：判斷、選擇、填空、判斷+選擇、判斷+填空、選擇+填空、判斷+選擇+填空。根據(jù)得到的得分矩陣可計(jì)算出不同題型組合情況下的得分均值，見(jiàn)表2。

表2 不同題型組合下的得分均值情況表

四、基于隨機(jī)交叉設(shè)計(jì)的試題研究

（一）計(jì)分誤差來(lái)源。由表2和表1，得到基于7種題型的單面交叉設(shè)計(jì)的各種變異分量的估計(jì)值，見(jiàn)表3。由G研究的估計(jì)值不難得到不同題型組合的效應(yīng)或變異來(lái)源，即不同題型下學(xué)生獲得分?jǐn)?shù)與其實(shí)際知識(shí)掌握水平之間差異的來(lái)源。下面從不同角度來(lái)分析差異的來(lái)源。

1、從學(xué)生角度p來(lái)看，不同題型組合的分?jǐn)?shù)差異由大到小順序?yàn)樘羁眨?.0255）＞選擇+填空（0.0115）＞判斷+填空（0.0074）＞判斷+選擇+填空（0.0057）＞判斷+選擇（0.0017）＞選擇（0.0011）＞判斷（0.0008），此順序表明將學(xué)生最大限度的區(qū)分成不同水平的題型為填空題，其次為選擇+填空，依變異估計(jì)值的順序題型區(qū)分度逐次下降，以判斷題區(qū)分度最小。

2、從試題題目i本身來(lái)看，區(qū)分學(xué)生掌握知識(shí)水平的效應(yīng)依次為選擇+填空（0.0529）＞填空（0.0515）＞判斷+填空（0.0461）＞判斷+選擇+填空（0.0435）＞判斷（0.0306）＞判斷+選擇（0.0232）＞選擇（0.0037），此次序說(shuō)明以選擇+填空對(duì)學(xué)生分?jǐn)?shù)的區(qū)分度最大，其次為填空，選擇題區(qū)分度最小。

3、從學(xué)生和試題的交叉效應(yīng)（不能被被試者和試題解釋的其他效應(yīng)）p×i來(lái)看，效應(yīng)最大為填空題，最小為選擇題。

表3 基于7種題型的運(yùn)籌學(xué)試題的隨機(jī)單面交叉設(shè)計(jì)的變異分量估計(jì)值

（二）誤差及可靠性研究。上述G研究獲得了考生計(jì)分與真實(shí)分?jǐn)?shù)之間差異來(lái)源，下面通過(guò)計(jì)算不同題型下相對(duì)誤差和絕對(duì)誤差的值來(lái)衡量影響考生排位順序的因素效應(yīng)。因?yàn)榭忌餍?yīng)是測(cè)量目標(biāo)，是考生真實(shí)水平的體現(xiàn)，所以考生主效應(yīng)不被列入相對(duì)誤差，而試題主效應(yīng)僅是試題間的難度的反映，不能改變考生之間的排序，所以相對(duì)誤差由考生和題目之間的交互效應(yīng)組成；由于試題的難易直接影響考生的得分，所以絕對(duì)誤差由試題主效應(yīng)和試題與考生之間的交互效應(yīng)組成。其中ni'為概括全域上題目樣本的容量。

相對(duì)誤差變異分量的估計(jì)公式：

此外依據(jù)克龍巴赫構(gòu)建的概化系數(shù)ρ和Brennan與Kane（1977）定義的可靠性指數(shù)Φ（可靠性指數(shù)是測(cè)量目標(biāo)本身的分?jǐn)?shù)變異在全體分?jǐn)?shù)變異中所占的比例）。來(lái)評(píng)判對(duì)于測(cè)評(píng)不同考生群體的試題的穩(wěn)定性高低。概化系數(shù)ρ=σ2(p)/[σ2(p)+σ2(δ)]，可靠性指數(shù)Φ=σ2(p)/[σ2(p)+σ2( )]。利用公式（4）、（5）和概化系數(shù)及可靠性指數(shù)分別計(jì)算出此試題的相對(duì)誤差、絕對(duì)誤差及可靠性值，見(jiàn)表4。

表4 以隨機(jī)單面交叉設(shè)計(jì)為基礎(chǔ)的D研究結(jié)果

由表4可知，前三類題型組合的考生與試題之間的交互效應(yīng)大于后幾類題型組合的交互效應(yīng)，交互效應(yīng)、相對(duì)誤差、絕對(duì)誤差的變異均比較小，而概化系數(shù)和可靠性指數(shù)都比較大。此說(shuō)明前三題型組合的測(cè)量誤差都比較小，測(cè)量的信度比較高。

但是，不同題型組合的試題可靠性指數(shù)為40%以上的由大到小依次為填空＞選擇+填空＞判斷+選擇+填空＞判斷+填空，此結(jié)果說(shuō)明填空題在所有類型的題型中對(duì)測(cè)評(píng)不同考生群體所體現(xiàn)的可靠性最強(qiáng)，依次為選擇題和判斷題，從另一個(gè)側(cè)面反映選擇題和判斷題在測(cè)評(píng)考生時(shí)不夠可靠，需要進(jìn)一步的修正以提高此題型的試卷的可靠性。

五、小結(jié)

利用概化理論對(duì)某高校運(yùn)籌學(xué)試題進(jìn)行隨機(jī)交叉設(shè)計(jì)，探討了考試試題的計(jì)分誤差來(lái)源和試題可靠性，為測(cè)評(píng)試題的區(qū)分度和穩(wěn)定性提供了一種工具。研究發(fā)現(xiàn)考生通過(guò)試題所獲得的分?jǐn)?shù)與掌握課程的真實(shí)水平之間的差異來(lái)自于考生本身掌握知識(shí)的水平、試題難易度以及考生和試題兩者的交互效應(yīng)；通過(guò)試題組合的可靠性指數(shù)和概化系數(shù)的計(jì)算，表明填空題的加入提高了試題的可靠性，較之選擇題和判斷題具有更強(qiáng)的區(qū)分力。

［1］Cronbach,L.J.,Rajaratnam,N.&Gleser,G.C..Theory of generalizability:A liberalization of reliability theory［J］.British Journal of Statistical Psychology，1963，16（1）：137-163.

［2］Cronbach,L.J.,Rajaratnam,N,Nanda,H.&Gleser,G.C.The dependability of behavioral measurements:Theory of generalizability for scores and profiles［J］.New York:John Wiley，1972.

［3］毛翠云.創(chuàng)業(yè)勝任力綜合測(cè)評(píng)研究［D］.鎮(zhèn)江：江蘇大學(xué)，2011.

［4］田金亭.基于CAT的中學(xué)生創(chuàng)造力評(píng)價(jià)技術(shù)探討［D］.南京：南京師范大學(xué)，2011.

［5］劉曉陵.基于課程標(biāo)準(zhǔn)的初中標(biāo)準(zhǔn)化數(shù)學(xué)成就測(cè)驗(yàn)的編制研究［D］.上海：華東師范大學(xué)，2010.

［6］楊志明，張雷.測(cè)評(píng)的概化理論及其應(yīng)用［M］.北京：教育科學(xué)出版社，2003：50-125.

The Analysis of Randomized Crossover Test’s Scoring Error Sources and Reliability Basing on Generalizability Theory

Qin Song，Wang Zhenlei

（School of Trade and Management,Taizhou University,Taizhou 318000,Zhejiang；College of Economics,Hangzhou Dianzi University,Hangzhou 310018,Zhejiang）

Generalizability theory is widely applied to standardized tests,non-standardized tests, teaching evaluation and personnel evaluation.Basing on this theory,the paper sets up a randomized crossover design and analyzed the test’s error sources and reliability.It puts forward that the difference between examination results and true grades comes from how well the students have mastered the knowledge,the degree of difficulty of test and interaction of students and test.At last,it calculates the value of difference and reliability in different question types and provides a tool which can review the test’s differentiation and stabilization.

randomized crossover design；scoring error；reliability；test

G449.7

1672-3708（2014）01-0061-05

2013-10-20

秦嵩（1978- ），男，陜西府谷人，講師。王震蕾（1979- ），女，浙江溫嶺人，講師。

*本文為臺(tái)州學(xué)院教學(xué)改革研究項(xiàng)目（課題編號(hào)：JG2011006）的成果之一。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機(jī)交叉設(shè)計(jì)的試題計(jì)分誤差來(lái)源及可靠性分析*

一、引 言

二、概化理論基本方法

三、試題設(shè)計(jì)及數(shù)據(jù)搜集

四、基于隨機(jī)交叉設(shè)計(jì)的試題研究

五、小 結(jié)

一、引言

二、概化理論基本方法

三、試題設(shè)計(jì)及數(shù)據(jù)搜集

五、小結(jié)