試卷評(píng)價(jià)理論的比較研究

2015-03-29 07:12:08梅松竹

淮北師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版) 2015年2期

梅松竹，冷平

（淮北師范大學(xué) a.教育學(xué)院；b.數(shù)學(xué)科學(xué)學(xué)院，安徽淮北 235000）

教育，是培養(yǎng)人的活動(dòng)，教育的成效如何需要進(jìn)行評(píng)價(jià)。評(píng)價(jià)原指對(duì)客體滿足主體需要程度的判斷[1]，教育評(píng)價(jià)則是系統(tǒng)地、有步驟地從數(shù)量或性質(zhì)上描述兒童的學(xué)習(xí)過程與結(jié)果[2]，并判斷是否滿足個(gè)體發(fā)展和社會(huì)發(fā)展需求的程度。教育評(píng)價(jià)是教育測(cè)量的深化和發(fā)展，它屬于價(jià)值判斷，強(qiáng)調(diào)科學(xué)性與綜合性，是定量和定性相結(jié)合的活動(dòng)[3]。教育評(píng)價(jià)的范圍十分廣泛，幾乎涵蓋了教育的所有因素。近年來，關(guān)于考試的評(píng)價(jià)逐漸升溫，特別是在“高利害”考試的環(huán)境下，試卷命制的科學(xué)性、合理性和規(guī)范性成為考試相關(guān)利益人評(píng)議的焦點(diǎn)。當(dāng)前，試卷評(píng)價(jià)的理論主要有經(jīng)典真分?jǐn)?shù)理論（Classic True Score Theory，CTT）、概化理論（Generalizability Theory，GT）和項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）。此三種理論源于西方，我國教育界雖然對(duì)其進(jìn)行了充分的借鑒和發(fā)展，但仍然存在著“誤用”“濫用”“非用”等亂象，這無疑不利于我國教育評(píng)價(jià)的健康發(fā)展和教育公平的順利實(shí)施。因此，在教育評(píng)價(jià)國際化和現(xiàn)代化的背景下，在我國基礎(chǔ)教育改革的當(dāng)口，厘清試卷評(píng)價(jià)理論的本質(zhì)屬性及其適用范圍，理性選擇恰當(dāng)?shù)脑u(píng)價(jià)理論，謹(jǐn)防陷入試卷評(píng)價(jià)的誤區(qū)，可謂當(dāng)務(wù)之急、必要之舉。

一、CTT、GT、IRT比較研究

CTT是歷史上第一個(gè)教育與心理測(cè)量理論，也是最基礎(chǔ)、最根本的測(cè)量理論，GT和IRT是為了克服CTT在信度和效度方面的不足而分別發(fā)展起來的現(xiàn)代測(cè)量理論，三者在諸多方面有所不同，比較如下：

1.理論基礎(chǔ)

CTT的理論基礎(chǔ)是隨機(jī)樣本理論，即隨機(jī)抽取足夠數(shù)量的試題樣本和被試樣本，進(jìn)行測(cè)評(píng)和統(tǒng)計(jì)分析，它弱化個(gè)體間差異，強(qiáng)調(diào)總體表現(xiàn)水平，具有諸多不可避免的缺陷，但是發(fā)展至今仍具有旺盛的生命力，因此堪稱經(jīng)典測(cè)量理論。GT從考試的外部和宏觀角度入手，繼續(xù)沿著隨機(jī)樣本理論的思路，關(guān)注考試的外部效度，重點(diǎn)討論測(cè)量條件和測(cè)量結(jié)論推廣及其應(yīng)用范圍之間的關(guān)系，以及測(cè)量誤差及其來源的問題，改變了真分?jǐn)?shù)固定不變，測(cè)量誤差只是含混不清的隨機(jī)誤差，測(cè)驗(yàn)信度就是計(jì)算相關(guān)系數(shù)等傳統(tǒng)看法[4]。GT將考試看作是對(duì)考生進(jìn)行觀測(cè)的一般樣本，將試卷看作是一個(gè)由無數(shù)試題組成的全域的一個(gè)樣本，它只假設(shè)平行試題來自同一全域。GT是一種評(píng)價(jià)行為測(cè)量的可靠性或信度的統(tǒng)計(jì)理論，它擴(kuò)展了真分?jǐn)?shù)理論，但并不包含真分?jǐn)?shù)理論的所有特征。與GT相比，IRT從考試的內(nèi)部或微觀角度入手，放棄隨機(jī)樣本理論的思路，轉(zhuǎn)而關(guān)注考試的內(nèi)部效度，采取數(shù)學(xué)建模和統(tǒng)計(jì)調(diào)整的方法，重點(diǎn)討論考生的能力水平與試題之間的關(guān)系，它將被試對(duì)試題的應(yīng)答看作是考生的特征和試題特征的函數(shù)，假定被測(cè)在某道試題上的表現(xiàn)只依賴于某一潛在特質(zhì)或能力，并且被測(cè)在該題上的表現(xiàn)與其測(cè)量的特質(zhì)之間是單調(diào)增函數(shù)的關(guān)系[5]。IRT將原始分?jǐn)?shù)轉(zhuǎn)化為能力參數(shù)和難度參數(shù)的做法，是對(duì)CTT的一大改進(jìn)，克服了樣本依賴性的弊端。由此可見，CTT、GT、IRT的理論基礎(chǔ)各異，但并不具有包含和從屬關(guān)系，GT和IRT只是在某種程度上完善了CTT，滿足了現(xiàn)代教育測(cè)量與評(píng)價(jià)的精度和多樣化的需求。

2.對(duì)“分?jǐn)?shù)”的理解

CTT認(rèn)為測(cè)驗(yàn)分?jǐn)?shù)X是由真分?jǐn)?shù)T和隨機(jī)誤差E組合而成。真分?jǐn)?shù)，又稱為無誤差分?jǐn)?shù)，在概念上它是假設(shè)對(duì)同一試卷（或不同試卷）多次重復(fù)測(cè)量后得到的平均分，它是一個(gè)單獨(dú)的參數(shù)，并假定考生的每個(gè)觀察分?jǐn)?shù)都可以用來估計(jì)這個(gè)參數(shù)。CTT將真分?jǐn)?shù)看作是考生的特征，將隨機(jī)誤差分?jǐn)?shù)看作是考試的特征。GT的焦點(diǎn)不是真分?jǐn)?shù)，而是全域分?jǐn)?shù)，它將被測(cè)稱為測(cè)量目標(biāo)，將影響和制約測(cè)量目標(biāo)的各種因素稱為側(cè)面，如教師側(cè)面、試題側(cè)面，而評(píng)分教師和試題則構(gòu)成了相應(yīng)側(cè)面的一個(gè)條件，所有這些側(cè)面的總體構(gòu)成可接受的觀察全域，考生在某個(gè)側(cè)面或某些側(cè)面的所有條件上的平均得分叫做全域分?jǐn)?shù)。GT研究隨機(jī)側(cè)面和固定側(cè)面，關(guān)注觀測(cè)分?jǐn)?shù)在隨機(jī)側(cè)面上可以被概化的水平及其信度。IRT放棄了測(cè)驗(yàn)的原始分?jǐn)?shù)，將被試對(duì)于試題的某種反應(yīng)概率與此題目的特征聯(lián)系起來，進(jìn)而確定考生具有怎樣的能力水平才能夠做出正確的應(yīng)答。IRT用一組數(shù)學(xué)模型來估計(jì)模型參數(shù)，如考生的能力（或特質(zhì)）參數(shù)、試題難度參數(shù)，并將其定義到同一量標(biāo)之上，可以直接進(jìn)行比較。IRT主要是為了獲得試題的特征參數(shù)，確定考生具有什么樣的能力水平才能夠?qū)υ囶}做出正確的應(yīng)答，以及試題對(duì)什么能力水平的學(xué)生具有良好的區(qū)分能力，進(jìn)而判斷試題是否有質(zhì)量問題。因此，不管是“全域分?jǐn)?shù)”，還是“能力參數(shù)”，都與真分?jǐn)?shù)的概念非常接近，但是它們的計(jì)量單位不同，所具特征也有所差異。

3.模型假設(shè)

CTT是基于桑代克（E.L.Thorndike）的“凡客觀存在的事物都有其數(shù)量”和麥考（W.A.McCall）的“凡有數(shù)量的東西都可以測(cè)量”這一可測(cè)性假設(shè)提出的[6]。1950年，古麗科森（Harold Gulliksen）提出了CTT的三個(gè)假設(shè)，即受測(cè)者總體的誤差分?jǐn)?shù)的平均數(shù)為零、受測(cè)者總體的真分?jǐn)?shù)與誤差分?jǐn)?shù)的相關(guān)為零、受測(cè)者參加的兩次獨(dú)立測(cè)驗(yàn)的誤差分?jǐn)?shù)相關(guān)為零[7]。CTT假設(shè)是標(biāo)準(zhǔn)化考試的重要的理論基礎(chǔ)和技術(shù)支柱，是考試公平和評(píng)分公正的前提條件，在實(shí)際考試中發(fā)揮著巨大的作用。GT改變了CTT誤差因素的假設(shè)，關(guān)注樣本的代表性及概化推測(cè)，它有兩個(gè)基本假設(shè)——觀察樣本具有代表性、樣本容量足夠大，可以控制抽樣誤差[8]。也就是說，GT假定受測(cè)者的特定測(cè)量能概化到更廣泛的測(cè)量領(lǐng)域中去，不同側(cè)面對(duì)概化程度都會(huì)產(chǎn)生影響，通過擴(kuò)大樣本容量來減少抽樣時(shí)的系統(tǒng)誤差。GT的假設(shè)將不同來源的測(cè)量誤差區(qū)別開來，并確定其效應(yīng)，研究不同變量對(duì)整卷測(cè)量效果的影響，這是對(duì)CTT假設(shè)的一大改進(jìn)。IRT有三個(gè)強(qiáng)假設(shè)，即假定考生對(duì)于試題的解答只由唯一潛在特質(zhì)或能力來解釋，并且針對(duì)在潛在特質(zhì)量表上的某一點(diǎn)的受測(cè)者子體而言，對(duì)所有試題的應(yīng)答是相互獨(dú)立的，即單維性和局部獨(dú)立性。單維性假定表明決定考生對(duì)試題應(yīng)答的能力只有一種，局部獨(dú)立假定表明任何一道試題都不會(huì)給另一道試題提供線索。單維性和局部獨(dú)立性不是等價(jià)概念，項(xiàng)目獨(dú)立有可能測(cè)驗(yàn)是多維的，測(cè)驗(yàn)單維項(xiàng)目局部獨(dú)立卻不一定成立。在實(shí)際測(cè)量時(shí)，單維性和局部獨(dú)立性往往難以滿足，還需要進(jìn)一步驗(yàn)證或修改試題以滿足此假設(shè)。IRT還假定所有試題沒有猜測(cè)因素，即試題特征曲線僅反映出被試的應(yīng)答表現(xiàn)與其測(cè)量特質(zhì)之間的單調(diào)遞增關(guān)系。

4.測(cè)量誤差

CTT認(rèn)為測(cè)量誤差是觀察分?jǐn)?shù)與真分?jǐn)?shù)之間的假設(shè)差別，它是隨機(jī)的和不可預(yù)測(cè)的，在概念上不同于系統(tǒng)誤差。系統(tǒng)誤差往往是有規(guī)律的且是可以預(yù)測(cè)的，它可能是因?yàn)殡y度不等值的兩套試卷引起。當(dāng)參加測(cè)試的兩個(gè)群體水平相當(dāng)時(shí)，做難度較小的試卷的平均分通常會(huì)高于做難度較大的試卷的平均分，而且這種結(jié)果顯而易見，是可以事先預(yù)測(cè)到的。測(cè)量誤差的來源主要包括三個(gè)方面：測(cè)量工具、測(cè)量目標(biāo)和施測(cè)過程。顯然，CTT并不區(qū)分這些誤差來源，而是將它們統(tǒng)一看成籠統(tǒng)的、含糊不清的隨機(jī)誤差，因而估計(jì)的測(cè)量誤差總是偏大，誤差分析單位定義太籠統(tǒng)，揭示的信息相對(duì)較少，獲得的考生群體和考生的真分?jǐn)?shù)誤差較大[9]。GT改變了CTT無視誤差區(qū)別的做法，將誤差分為系統(tǒng)誤差和隨機(jī)誤差，并重點(diǎn)關(guān)注了誤差的來源，包括被試之間水平差異、評(píng)分差異、測(cè)量?jī)?nèi)容差異、平行測(cè)驗(yàn)之間差異、不同施測(cè)環(huán)境差異、不同體力狀況差異、初試與復(fù)試的差異以及被試臨場(chǎng)發(fā)揮不當(dāng)?shù)牟町怺10]。GT將不同來源的測(cè)量誤差區(qū)別開來，進(jìn)一步評(píng)價(jià)不同變量對(duì)整卷測(cè)量效果的影響，所獲得的概化全域的分?jǐn)?shù)較為準(zhǔn)確，為改善測(cè)驗(yàn)、提高試卷質(zhì)量提供了大量有用的信息。IRT雖沒有嚴(yán)格區(qū)分誤差來源，但是它從模型本身入手力圖減小不必要的誤差，根據(jù)測(cè)驗(yàn)精度和試卷組成的不同，分別設(shè)計(jì)了Rasch模型、logistic模型及其改良形式，并引入難度參數(shù)、區(qū)分度參數(shù)和猜測(cè)度參數(shù)，采用迭代法計(jì)算參數(shù)，再對(duì)模型和數(shù)據(jù)的擬合程度進(jìn)行檢驗(yàn)和修正，以減小測(cè)量誤差。在IRT中，當(dāng)獲得了能力參數(shù)的極大似然估計(jì)值之后，便可以對(duì)被試的能力參數(shù)估計(jì)值的精度進(jìn)行估計(jì)，而且考生能力參數(shù)的估計(jì)值的標(biāo)準(zhǔn)誤與試卷長(zhǎng)度和質(zhì)量密切相關(guān)，試卷越長(zhǎng)，或試題區(qū)分度參數(shù)越大，或試題猜測(cè)參數(shù)越小，或試題難度參數(shù)與考生實(shí)際能力水平越接近，標(biāo)準(zhǔn)誤都將越小，而且項(xiàng)目反應(yīng)模式還提供了利用信息函數(shù)來評(píng)價(jià)試題和試卷的質(zhì)量的方法，這與CTT中測(cè)量的標(biāo)準(zhǔn)誤差不變是不同的。

5.模型驗(yàn)證

在CTT中，由于施測(cè)者真正關(guān)心的是真分?jǐn)?shù)，而不是觀測(cè)分?jǐn)?shù)。因此，如何在二者之間建立一種有效聯(lián)系，就顯得特別重要。由于無法得到真分?jǐn)?shù)和所有可能的觀測(cè)分?jǐn)?shù)，所以CTT采用平行測(cè)驗(yàn)的方法，將兩套平行測(cè)驗(yàn)分?jǐn)?shù)之間的關(guān)系定義為信度系數(shù)，以此來驗(yàn)證模型的可靠性。此處，平行測(cè)驗(yàn)需要滿足兩個(gè)條件，即每個(gè)受測(cè)者在該測(cè)驗(yàn)的兩種形式上的真分?jǐn)?shù)相同，兩種形式的誤差方差相等?；谄叫袦y(cè)驗(yàn)的定義，可以得到兩套平行測(cè)驗(yàn)的觀察分?jǐn)?shù)之間的信度系數(shù)。實(shí)際上，完全平行測(cè)驗(yàn)的獲得并非易事。若考慮在不同場(chǎng)合對(duì)同一組受測(cè)者進(jìn)行同一形式的測(cè)試，則還需要判斷場(chǎng)合的變化、被測(cè)認(rèn)知水平的變化及記憶的作用對(duì)測(cè)試的影響，通常用穩(wěn)定系數(shù)來表示這個(gè)變化。若考慮在同一場(chǎng)合對(duì)相同受測(cè)者實(shí)施內(nèi)容相同但形式不同的測(cè)試，那么平行試卷的命制就尤為關(guān)鍵，通常用等值系數(shù)來表示平行試卷的關(guān)聯(lián)程度。穩(wěn)定系數(shù)和等值系數(shù)都有可能低估理論上真正平行測(cè)驗(yàn)的信度系數(shù)。

類似于經(jīng)典測(cè)量理論中的信度系數(shù)，GT用概化系數(shù)來刻畫觀察分?jǐn)?shù)與全域分?jǐn)?shù)之間的相關(guān)關(guān)系，以此來判斷測(cè)量結(jié)果可以概化到全域分?jǐn)?shù)的程度。定義概化系數(shù)的常用方法是用全域分?jǐn)?shù)方差與觀測(cè)分?jǐn)?shù)方差期望值的比值來表示，根據(jù)測(cè)試情形的不同，有不同的概化系數(shù)計(jì)算公式，如不同評(píng)分者給每個(gè)受測(cè)者評(píng)分，每個(gè)受測(cè)只有一名評(píng)分者的情形下，其概化系數(shù)為σ2p/(σ2p+σ2i+σ2δ)。對(duì)于測(cè)量的精度，GT使用可靠性指數(shù)?來刻畫，并將其定義為（其中，?p是指考生p的考試結(jié)果被有效概化的可靠性指數(shù)，σ2p是考生 p自身的分?jǐn)?shù)變異，σ2Δ則包括了全部的系統(tǒng)誤差和隨機(jī)誤差的變異）。GT用方差分析法來全面估計(jì)出各種方差成分的相對(duì)大小，既能估計(jì)出主效應(yīng)，也能估計(jì)出交互作用的效應(yīng)，并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。

相比之下，IRT對(duì)考試結(jié)果和模型的擬合性檢驗(yàn)更為全面和細(xì)致，它從模型假設(shè)檢驗(yàn)、模型性質(zhì)檢驗(yàn)和模型預(yù)測(cè)能力檢驗(yàn)三個(gè)方面進(jìn)行[11]。模型假設(shè)檢驗(yàn)包括單維假定檢驗(yàn)和等區(qū)分度假定檢驗(yàn)，前者可采用因素分析法，后者可以計(jì)算各試題與總分的點(diǎn)二列相關(guān)系數(shù)。模型性質(zhì)檢驗(yàn)又包括試題參數(shù)不變性檢驗(yàn)和考生能力參數(shù)不變性檢驗(yàn)，前者可以在所有被測(cè)中隨機(jī)抽取兩個(gè)子群體，分別估計(jì)試題參數(shù)，然后檢查其線性相關(guān)程度；后者采用兩組難度不同的試題對(duì)同一考生群體施測(cè)，估計(jì)兩組能力參數(shù)，并檢驗(yàn)其線性相關(guān)程度。模型預(yù)測(cè)能力檢驗(yàn)主要采用試題和考試的信息函數(shù)來表示考生能力水平估計(jì)值的測(cè)量精度。為了充分驗(yàn)證模型對(duì)考生能力水平估計(jì)的精度和可靠性，IRT定義了試題信息函數(shù)，根據(jù)試題提供的信息量的大小來判斷試題的優(yōu)劣。考生能力水平與試題難度參數(shù)越接近，試題提供的信息量越大；試題區(qū)分度越大，試題提供的信息量越大，但是區(qū)分度很大的試題也只能在一定的能力水平范圍內(nèi)可以提供較大的信息；試題猜測(cè)度越小，試題提供的信息量越大，猜測(cè)度較大的試題增加了考生正確應(yīng)答的偶然性，基于偶然性的考試結(jié)果所提供的信息就有可能存在較大的偏差。

6.樣本依賴性

在CTT中，考生能力參數(shù)嚴(yán)重地依賴于試題樣本，試題難，則得分低，反之則高；試題參數(shù)也嚴(yán)重地依賴于考生樣本，考生的平均水平會(huì)影響試題的難度，考生個(gè)體的差異程度也會(huì)直接影響試題的信度和區(qū)分度水平。CTT對(duì)于樣本的依賴性使得抽樣誤差會(huì)明顯改變測(cè)評(píng)的結(jié)果，以及相應(yīng)的統(tǒng)計(jì)論斷和教育決策。GT對(duì)于樣本也有一定的依賴性，試題抽樣的代表性以及對(duì)于全域的覆蓋程度將直接影響到概化系數(shù)。為此，GT采用擴(kuò)大抽樣樣本容量，減小抽樣誤差的方法來提高整個(gè)模型的信度水平。IRT對(duì)考生能力水平的估計(jì)與考試采用試題無關(guān)，對(duì)試題參數(shù)的估計(jì)與考生樣本無關(guān)，考生的能力參數(shù)與試題的難度參數(shù)統(tǒng)一到同一量標(biāo)上，可以直接對(duì)比，也可以直接估計(jì)考生能力參數(shù)估計(jì)值的精度，這一點(diǎn)是CTT和GT無法比擬的。

7.應(yīng)用去向

CTT自誕生之日起，便得到了廣泛的應(yīng)用，它對(duì)心理和教育測(cè)量領(lǐng)域的理論和實(shí)踐都產(chǎn)生了巨大的貢獻(xiàn)，雖然它有明顯的缺陷，但是仍有不凡的效用，特別是為標(biāo)準(zhǔn)化考試奠定了理論基礎(chǔ)，并且這種影響一直持續(xù)到當(dāng)今，并將繼續(xù)發(fā)揮作用。1950年，古麗科森（Gulliksen，1950）出版了《心理測(cè)量的理論》，首次使用公理化的方法系統(tǒng)地總結(jié)了標(biāo)準(zhǔn)化考試的原理和方法，這標(biāo)志著CTT走向成熟。GT最重要的應(yīng)用是概化推測(cè)，即根據(jù)觀察的分?jǐn)?shù)推測(cè)概化全域的分?jǐn)?shù)，因而常常被用作交叉設(shè)計(jì)和嵌套設(shè)計(jì)，通過控制某些側(cè)面，觀察其它側(cè)面對(duì)于考試結(jié)果的影響，從而找到控制誤差的方法，為測(cè)驗(yàn)內(nèi)容、測(cè)驗(yàn)方式的設(shè)計(jì)提供了有價(jià)值的信息，并作出最佳決策設(shè)計(jì)。IRT在教育領(lǐng)域的應(yīng)用更為廣泛，其一是指導(dǎo)測(cè)驗(yàn)編制，其二是指導(dǎo)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)的開發(fā)，其三是將測(cè)量導(dǎo)向與認(rèn)知心理學(xué)相結(jié)合。在指導(dǎo)測(cè)驗(yàn)編制的過程中，IRT不但可以提供全卷的信息量和標(biāo)準(zhǔn)測(cè)量誤差，而且能夠提供每一道試題或評(píng)分項(xiàng)的信息量和標(biāo)準(zhǔn)測(cè)量誤差，因此提供考試信度和標(biāo)準(zhǔn)測(cè)量誤差的信息最為完全，IRT還為因人（被試）實(shí)施測(cè)提供了可能。IRT通過項(xiàng)目特征曲線還可以預(yù)測(cè)被試在其他項(xiàng)目上的正確反應(yīng)概率，提高了試題庫特征參數(shù)的完備性及題庫管理的可控性，對(duì)于基于標(biāo)準(zhǔn)的測(cè)驗(yàn)的試題開發(fā)具有重要效用。

8.優(yōu)勢(shì)

CTT的模型構(gòu)造簡(jiǎn)單、淺顯易懂，所用公式及其計(jì)算并不復(fù)雜，模型參數(shù)估計(jì)具有概念上的直觀性，不需要嚴(yán)格的擬合檢驗(yàn)，統(tǒng)計(jì)結(jié)果對(duì)于分?jǐn)?shù)的解釋相對(duì)直觀、清晰，因而容易為一線教師所接受。GT區(qū)別不同來源測(cè)量誤差，關(guān)注不同側(cè)面對(duì)整卷測(cè)量效果的影響，所獲得的概化全域分?jǐn)?shù)較為準(zhǔn)確，為改善測(cè)驗(yàn)、提高試卷質(zhì)量提供了有用信息，但由于需要利用方差分析等數(shù)學(xué)工具，導(dǎo)致很多一線教師理解困難。IRT提供考試信度和標(biāo)準(zhǔn)測(cè)量誤差的信息最為完全，通過項(xiàng)目特征曲線還可以預(yù)測(cè)被試在其他項(xiàng)目上的正確反應(yīng)概率，提高了試題特征參數(shù)的完備性，測(cè)驗(yàn)編制具有主動(dòng)性和可控性，不需要嚴(yán)格的平行測(cè)驗(yàn)來評(píng)估測(cè)驗(yàn)信度，因而在技術(shù)層面具有一定的優(yōu)越性。

9.局限性

CTT對(duì)考生能力參數(shù)估計(jì)的精度不夠高，用測(cè)量信度和標(biāo)準(zhǔn)誤來估計(jì)所有考生的能力參數(shù)，這一做法顯然沒有考慮考生個(gè)體的差異，因而是不恰當(dāng)?shù)?；信度估?jì)所依賴的平行測(cè)驗(yàn)的假設(shè)在現(xiàn)實(shí)中往往難以滿足；試題難度定義在考生樣本上，考生能力參數(shù)定義在試題樣本上，二者不屬于同一參照系，因而無法統(tǒng)一，也難以判斷二者是否匹配，不利于測(cè)驗(yàn)工作的改進(jìn)；另外，由于使用了配對(duì)或標(biāo)準(zhǔn)化技術(shù)和隨機(jī)化技術(shù)，使得測(cè)量條件的完全一致性難以滿足，進(jìn)而制約了測(cè)驗(yàn)結(jié)果的可拓廣性。GT并未改良經(jīng)典測(cè)量理論的微觀結(jié)構(gòu)及其項(xiàng)目參數(shù)系統(tǒng)，只是更多地從整個(gè)測(cè)驗(yàn)的宏觀結(jié)構(gòu)及其與外部測(cè)驗(yàn)條件的關(guān)系上作了深入的計(jì)量分析，因此，經(jīng)典理論在其自身框架下的一些主要局限性依然存在[12]。而且，GT模型結(jié)構(gòu)比較復(fù)雜，統(tǒng)計(jì)計(jì)算也相當(dāng)繁雜，需要借助統(tǒng)計(jì)分析工具方可解決此類問題，這也是不利于GT廣泛推廣的一個(gè)重要因素。IRT依賴于更強(qiáng)的假設(shè)，模型結(jié)構(gòu)復(fù)雜、計(jì)算量偏大，對(duì)信息技術(shù)的依賴性較強(qiáng)，項(xiàng)目參數(shù)的獲得需要合適的樣本量，而且被試的能力分布范圍要廣，如果不能滿足此要求，則會(huì)影響模型結(jié)果的精確性，也很難檢測(cè)出模型與數(shù)據(jù)之間的偏差。此外，項(xiàng)目反應(yīng)模型并沒有對(duì)考試的效度問題提供獨(dú)到的見解。

二、啟示與建議

CTT、GT、IRT既有廣泛聯(lián)系，又有顯著區(qū)別，它們各有利弊，三者分別展示了不同的試卷評(píng)價(jià)理論框架和參數(shù)表征，為研究者和應(yīng)用者提供多樣化的選擇。

1.根據(jù)研究需求的不同，選擇不同的評(píng)價(jià)理論

每一位研究者對(duì)試卷評(píng)價(jià)都有自己獨(dú)特的需求或希望獲得的報(bào)告形式，而不同的試卷評(píng)價(jià)理論正是為個(gè)性化的需求提供了自由選擇。如果研究者關(guān)注的是整卷的統(tǒng)計(jì)指標(biāo)、總量指標(biāo)、相對(duì)指標(biāo)和平均指標(biāo)，那么CTT將是最佳選擇，它可以提供試卷的信度、效度、難度、區(qū)分度、偏度、峰度、均值、眾數(shù)、中位數(shù)、標(biāo)準(zhǔn)差、分布圖表或曲線等方面的信息，呈現(xiàn)出直觀的或經(jīng)驗(yàn)性的統(tǒng)計(jì)數(shù)據(jù)和報(bào)表，有助于非專業(yè)人士的理解。如果研究者側(cè)重于測(cè)量的信度及其驗(yàn)證，那么GT將是理想選擇，它可以提供概化系數(shù)、可靠性指數(shù)、誤差分類等信息，全面考量影響考試分?jǐn)?shù)的多個(gè)側(cè)面，可以進(jìn)行交叉設(shè)計(jì)和嵌套設(shè)計(jì)等方面的試題開發(fā)。如果研究者偏向測(cè)量的效度及其檢驗(yàn)，那么IRT將是不二之選，它可以提供信息函數(shù)、參數(shù)驗(yàn)證等信息，易于對(duì)不同群體的正確應(yīng)答的預(yù)測(cè)及全面的誤差分析。

2.根據(jù)研究精度的不同，選擇不同的評(píng)價(jià)理論

CTT、GT和IRT在誤差處理方面有著明顯的不同，因而產(chǎn)生了不同的測(cè)量精度。如果研究者對(duì)測(cè)量的精度要求不高，那么就可以直接選用CTT，它并沒有嚴(yán)格區(qū)分誤差的類別和來源，而且弱化了個(gè)體間的差異，強(qiáng)調(diào)樣本總體表現(xiàn)水平和整卷效果，因而統(tǒng)計(jì)結(jié)果是宏觀而粗糙的。如果研究者對(duì)測(cè)量精度有稍高要求，特別是希望區(qū)分不同的誤差來源對(duì)測(cè)驗(yàn)結(jié)果的影響，那么就需要選用GT了，它將誤差分為系統(tǒng)誤差和隨機(jī)誤差，并考查誤差的來源，重點(diǎn)關(guān)注被試的生理、動(dòng)機(jī)、興趣、注意力、情緒、答題速度、受訓(xùn)情況、測(cè)驗(yàn)技巧，以及考試的物理環(huán)境、監(jiān)考者狀態(tài)、意外干擾、評(píng)分計(jì)分和分?jǐn)?shù)轉(zhuǎn)換等環(huán)節(jié)所產(chǎn)生的誤差。如果研究者對(duì)測(cè)量精度有更高的要求，希望考查試題設(shè)置和呈現(xiàn)方式對(duì)不同群體的“偏見”或功能差異，那么就可以選用IRT，因?yàn)樗愿泳_的數(shù)學(xué)模型和函數(shù)表達(dá)式來呈現(xiàn)難度參數(shù)、能力參數(shù)及其他參數(shù)之間的關(guān)系，可以量化地分析誤差的大小及其對(duì)測(cè)量的影響。當(dāng)然，我們還需要注意到，并不是所有的分?jǐn)?shù)變化都必然歸咎于測(cè)量誤差，還有可能是因?yàn)橥獠拷槿?、自身學(xué)習(xí)或成熟度提高的結(jié)果。此時(shí)，分?jǐn)?shù)差異或變化于是成為信度所依賴的測(cè)量值[13]。

3.根據(jù)研究水平的不同，選擇不同的評(píng)價(jià)理論

三種評(píng)價(jià)理論的理論體系、方法原理、模型結(jié)構(gòu)和參數(shù)估計(jì)方法各不相同，其復(fù)雜程度也有所差異。對(duì)于研究水平有限的一線教師和普通研究者而言，CTT相對(duì)簡(jiǎn)單且容易被人理解和掌握，統(tǒng)計(jì)結(jié)果對(duì)于分?jǐn)?shù)的解釋相對(duì)比較直觀、清晰，所倡導(dǎo)的標(biāo)準(zhǔn)化測(cè)驗(yàn)技術(shù)在考試誤差等方面具有明顯的效果，并為多數(shù)人所認(rèn)可。相比之下，GT對(duì)于研究者在測(cè)量與評(píng)價(jià)領(lǐng)域的理論素養(yǎng)和數(shù)學(xué)應(yīng)用能力有一定的要求，否則難以理解各側(cè)面的影響及概化的過程和水平。如果研究者是專業(yè)人士，尤其是大規(guī)模測(cè)評(píng)試卷的命題或?qū)徍巳藛T，可能會(huì)具有深厚的測(cè)量與評(píng)價(jià)理論基礎(chǔ)以及精湛的試卷評(píng)價(jià)技術(shù)，因而可以選用IRT來進(jìn)行更為深入、細(xì)致的試卷質(zhì)量分析，進(jìn)而實(shí)施更廣泛的試卷質(zhì)量評(píng)判、命題指導(dǎo)和有效測(cè)評(píng)。

綜上，CTT、GT與IRT有諸多不同，至于選擇哪一種理論模型，主要依據(jù)各模型的適用條件、測(cè)驗(yàn)的分析要求以及研究者的理論與實(shí)踐水平。每一種理論模型都不是完美的，在實(shí)際測(cè)量與評(píng)價(jià)過程中，可以進(jìn)行有效的組合，以發(fā)揮各自的優(yōu)勢(shì)，從而對(duì)試卷質(zhì)量進(jìn)行全面、客觀、科學(xué)、理性的分析。

[1]陳玉琨.教育評(píng)價(jià)學(xué)[M].上海:華東師范大學(xué)出版社,2005:1.

[2]王景英.教育評(píng)價(jià)學(xué)[M].長(zhǎng)春:東北師范大學(xué)出版社,2005:3.

[3]王孝玲.教育評(píng)價(jià)的理論與技術(shù)[M].上海:上海教育出版社,2002:2-3.

[4]漆書清,戴海崎,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002:42.

[5]Martin T Wells.Handbook of Modern Item Response Theory[J].Journal of the American Statistical Association,1997,92(439):1227.

[6]鐘軼,季曉輝.兩種教育測(cè)量理論在試卷質(zhì)量控制和評(píng)價(jià)中的應(yīng)用及其展望[J].南京醫(yī)科大學(xué)學(xué)報(bào)：社會(huì)科學(xué)版,2013(1):66.

[7]Linda Crocker＆ James Algina.經(jīng)典和現(xiàn)代測(cè)驗(yàn)理論導(dǎo)論[M].金瑜，等,譯.上海:華東師范大學(xué)出版社,2004:121.

[8]雷新勇.基于標(biāo)準(zhǔn)的教育考試—命題、標(biāo)準(zhǔn)設(shè)置和學(xué)業(yè)評(píng)價(jià)[M].上海:上?？萍汲霭嫔?2011:27-29.

[9]周群.基于論證的我國高考開發(fā)質(zhì)量評(píng)價(jià)模型研究[D].上海:華東師范大學(xué),2011:165.

[10]楊志明,張雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003:41.

[11]雷新勇.大規(guī)模教育考試命題與評(píng)價(jià)[M].上海:華東師范大學(xué)出版社,2006:71.

[12]熊江玲.經(jīng)典測(cè)量理論、概化理論及項(xiàng)目反映理論比較研究[J].求索,2004(4):99.

[13][美]美國教育研究協(xié)會(huì),美國心理學(xué)協(xié)會(huì),全美教育測(cè)量學(xué)會(huì)，主編.教育與心理測(cè)試標(biāo)準(zhǔn)[M].燕娓琴,謝小慶,譯.沈陽:沈陽出版社,2003:41.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放