亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主觀考試信度的計(jì)算方法

2009-04-29 00:00:00李傳益

考試周刊 2009年24期

摘要：信度是衡量考試質(zhì)量的重要指標(biāo)之一，由于主觀考試受評(píng)分員因素的影響很大，因此其信度研究備受測(cè)量界的關(guān)注。本文主要介紹了幾種主觀考試信度的計(jì)算方法及其適用范圍，以幫助測(cè)量使用者根據(jù)需要更好地選擇使用。

關(guān)鍵詞：主觀考試信度評(píng)分員信度計(jì)算方法

考試從其本質(zhì)來(lái)說(shuō)是一種測(cè)量工具，用來(lái)考查被試的某種知識(shí)和能力。按照評(píng)分方法，考試可分為主觀考試和客觀考試。主觀考試是指在評(píng)分過(guò)程中需要評(píng)分員根據(jù)評(píng)分標(biāo)準(zhǔn)作出判斷的考試，作文、口語(yǔ)、聽(tīng)寫(xiě)等開(kāi)放式反應(yīng)項(xiàng)目都是典型的主觀考試。主觀試題由于能提供更多有關(guān)被試的信息，因此應(yīng)用范圍越來(lái)越廣，但由于評(píng)分員的評(píng)分存在差異，有關(guān)主觀考試信度的研究一直倍受測(cè)量界廣泛的關(guān)注。不論采用哪種形式，不論使用什么樣的操作程序，對(duì)主觀考試信度作出最終評(píng)價(jià)的依據(jù)總是某種形式的數(shù)字，因此，本文主要探討幾種主觀考試信度的計(jì)算方法。

1.主觀考試信度

由于主觀考試無(wú)固定答案，評(píng)分時(shí)，評(píng)分員需根據(jù)評(píng)分標(biāo)準(zhǔn)作出自己的判斷，因而評(píng)分受評(píng)分員主觀因素的影響很大，評(píng)分員給出的分?jǐn)?shù)并不總是穩(wěn)定的。因此，主觀考試的信度主要指評(píng)分員信度或評(píng)分員一致性。評(píng)分員信度又可分為評(píng)分員間信度和評(píng)分員內(nèi)信度。評(píng)分員間信度指兩名或兩名以上評(píng)分員對(duì)相同試卷評(píng)分取得的一致性；評(píng)分員內(nèi)信度指同一評(píng)分員在不同的時(shí)間對(duì)相同試卷評(píng)分所取得的一致性。

2.經(jīng)典測(cè)量理論（CTT）計(jì)算評(píng)分員信度的方法

經(jīng)典測(cè)量理論有以下幾種方法計(jì)算主觀考試信度。

2.1斯皮爾曼-布朗估計(jì)法（Spearman-Brown Prophecy Formula）

主觀考試一般由兩名或兩名以上的評(píng)分員進(jìn)行獨(dú)立評(píng)分，其評(píng)分信度可用計(jì)算這幾名評(píng)分員評(píng)分的相關(guān)來(lái)表示。其公式如下：

2.2積差相關(guān)估計(jì)法

如果兩名評(píng)分員都以原始分?jǐn)?shù)評(píng)分，其評(píng)分信度可用積差相關(guān)系數(shù)表示。其計(jì)算公式（張凱，2002）為：

2.3等級(jí)相關(guān)估計(jì)法

如果兩名評(píng)分員以等級(jí)分?jǐn)?shù)評(píng)分，其評(píng)分信度可用等級(jí)相關(guān)系數(shù)表示。其計(jì)算公式為：

2.4肯德?tīng)枺↘andall）和諧系數(shù)估計(jì)法

當(dāng)兩名以上（K名）評(píng)分員以等級(jí)分?jǐn)?shù)評(píng)分，其評(píng)分信度可用肯德?tīng)柕燃?jí)相關(guān)系數(shù)表示。其計(jì)算公式（張厚粲，徐建平，2003）為：

評(píng)分之和的平方和。

2.5 α系數(shù)估計(jì)法

當(dāng)兩名以上（K名）評(píng)分員采用連續(xù)評(píng)分時(shí)，其評(píng)分信度還可用α系數(shù)表示。其計(jì)算公式（王孝玲，2004）為：

3.概化理論計(jì)算主觀考試信度的方法

由于經(jīng)典測(cè)量理論不能從多方面考查影響被試語(yǔ)言表現(xiàn)的誤差來(lái)源，當(dāng)測(cè)量涉及較多側(cè)面時(shí)，其測(cè)量誤差的估計(jì)方法有重大缺陷。如評(píng)分者信度、測(cè)量結(jié)果跨時(shí)間的穩(wěn)定性系數(shù)、跨不同測(cè)驗(yàn)版本的等值復(fù)本信度等都需要分開(kāi)逐個(gè)處理（楊志明、張雷，2003）。從上文我們也可以看出，考查評(píng)分員信度的方法只是求兩個(gè)或多個(gè)評(píng)分員獨(dú)立評(píng)分的相關(guān)。但相關(guān)法并不一定能提供證據(jù)證實(shí)變量之間的概念關(guān)系，完全不相同、不相關(guān)的概念也可能具有很高的正相關(guān)（Jackson Maraun，1996）。因此，用相關(guān)法考查評(píng)分員信度，無(wú)法估計(jì)評(píng)分員的系統(tǒng)誤差。但在CTT基礎(chǔ)上發(fā)展起來(lái)的概化理論（generalizability theory，GT）則不存在類(lèi)似的問(wèn)題，它通過(guò)引進(jìn)方差分析技術(shù)可以將測(cè)驗(yàn)總誤差分解，因而可以詳細(xì)地探討分?jǐn)?shù)總誤差的來(lái)源，分析不同來(lái)源的誤差在總誤差中的大?。钪久?、張雷，2003），從而估計(jì)不同的誤差對(duì)測(cè)驗(yàn)分?jǐn)?shù)的影響（Brennan，2001），比如估計(jì)評(píng)分員評(píng)分變異對(duì)被試分?jǐn)?shù)變異的影響，這些都是對(duì)分?jǐn)?shù)作出正確解釋的基礎(chǔ)。

這里我們主要介紹基于概化理論的Longford（1995）評(píng)分員信度估計(jì)方法。

部分實(shí)現(xiàn)。評(píng)分時(shí)，不同評(píng)分員的個(gè)體特征如年齡、性別、經(jīng)驗(yàn)、個(gè)人喜好等會(huì)導(dǎo)致他們對(duì)同一篇作文的評(píng)分有所不同，評(píng)分員的一些臨時(shí)狀態(tài)，如情緒波動(dòng)、外界環(huán)境影響、疲勞程度等也會(huì)影響評(píng)分的準(zhǔn)確性?？紤]到這些因素，Longford提出了一個(gè)基本的加法模型來(lái)表示被試的觀測(cè)分?jǐn)?shù)：

也叫殘項(xiàng)（residual terms）。它指除了評(píng)分員嚴(yán)厲度以外的任何影響評(píng)分差異的因素。

將影響被試能力的誤差總來(lái)源分解后，評(píng)分員間信度可以用不同評(píng)分員給同一篇作文所評(píng)分?jǐn)?shù)的方差來(lái)表示，其公式為：

如果同一名評(píng)分員對(duì)同一篇作文進(jìn)行兩次獨(dú)立的評(píng)分，那么，其評(píng)分員內(nèi)信度也可用他兩次評(píng)分的方差來(lái)表示：

另一種估計(jì)評(píng)分員信度的方法是計(jì)算評(píng)分員評(píng)分的均方誤差MSE。MSE越小，評(píng)分信度越高。如果對(duì)同一篇作文評(píng)4.結(jié)語(yǔ)

在計(jì)算評(píng)分員信度時(shí)，對(duì)于相同的材料，我們可以采用不同的算法。本文介紹了經(jīng)典測(cè)量理論中幾種有關(guān)評(píng)分員信度的估計(jì)方法，以及一種新的Longford計(jì)算評(píng)分員信度的方法。Longford方法能分解評(píng)分總誤差，探討不同的誤差來(lái)源，但由于沒(méi)有現(xiàn)成的計(jì)算軟件，運(yùn)用該方法需要評(píng)分員自己編制運(yùn)行程序，因而對(duì)評(píng)分員提出了更高的技術(shù)要求。雖然經(jīng)典測(cè)量理論越來(lái)越受到測(cè)量界的批評(píng)，人們也在不斷地研發(fā)和嘗試新的方法以代替經(jīng)典測(cè)量理論中估計(jì)評(píng)分員信度的方法，但其計(jì)算方法相對(duì)而言還是要簡(jiǎn)單得多。在新的測(cè)量技術(shù)和方法得到推廣之前，經(jīng)典測(cè)量理論仍將被繼續(xù)使用。我們也期待既有理論上的突破，計(jì)算的誤差更小，評(píng)分員信度更高，又運(yùn)行簡(jiǎn)便的方法早日問(wèn)世。

參考文獻(xiàn)：

［1］Brennan，R.L.Generalizability theory［M］.New York：Springer-Verlag Inc，2001.

［2］Henning，G.語(yǔ)言測(cè)試指南：發(fā)展、評(píng)估與研究［M］.北京：外語(yǔ)教學(xué)與研究出版社，2001.

［3］Jackson Maraun.The conceptual validity of empirical scale construction：the case of sensation seeking scale［J］. Personality and Individual Differences，1996，（21），1.

［4］Longford，T.Models for Uncertainty in Educational Testing［M］.New York：Springer-Verlag New York，Inc.，1995.

［5］王孝玲.教育測(cè)量［M］.上海：華東師范大學(xué)出版社，2004.

［6］楊志明，張雷.測(cè)評(píng)的概化理論及其應(yīng)用［M］.北京：教育科學(xué)出版社，2003.

［7］張厚粲，徐建平.現(xiàn)代心理與教育統(tǒng)計(jì)學(xué)［M］.北京：北京師范大學(xué)出版社，2003.

［8］張凱.語(yǔ)言測(cè)試?yán)碚撆c實(shí)踐［M］.北京：北京語(yǔ)言大學(xué)出版社，2002.

校級(jí)科研課題：項(xiàng)目編號(hào)SK0746

考試周刊2009年24期

考試周刊的其它文章: 開(kāi)展學(xué)生出題互考活動(dòng)，力求終結(jié)性評(píng)價(jià)過(guò)程化; 點(diǎn)亮生成資源，展現(xiàn)精彩語(yǔ)文; 初中數(shù)學(xué)教學(xué)中的情感教育滲透; 自我效能感理論對(duì)中職英語(yǔ)教學(xué)的啟示; 解析炫耀性消費(fèi)的動(dòng)機(jī); 英語(yǔ)課堂教學(xué)應(yīng)激發(fā)學(xué)生的創(chuàng)造力