亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        試卷評(píng)價(jià)理論的比較研究

        2015-03-29 07:12:08梅松竹
        關(guān)鍵詞:真分?jǐn)?shù)測(cè)驗(yàn)信度

        梅松竹,冷 平

        (淮北師范大學(xué) a.教育學(xué)院;b.數(shù)學(xué)科學(xué)學(xué)院,安徽 淮北 235000)

        教育,是培養(yǎng)人的活動(dòng),教育的成效如何需要進(jìn)行評(píng)價(jià)。評(píng)價(jià)原指對(duì)客體滿足主體需要程度的判斷[1],教育評(píng)價(jià)則是系統(tǒng)地、有步驟地從數(shù)量或性質(zhì)上描述兒童的學(xué)習(xí)過程與結(jié)果[2],并判斷是否滿足個(gè)體發(fā)展和社會(huì)發(fā)展需求的程度。教育評(píng)價(jià)是教育測(cè)量的深化和發(fā)展,它屬于價(jià)值判斷,強(qiáng)調(diào)科學(xué)性與綜合性,是定量和定性相結(jié)合的活動(dòng)[3]。教育評(píng)價(jià)的范圍十分廣泛,幾乎涵蓋了教育的所有因素。近年來,關(guān)于考試的評(píng)價(jià)逐漸升溫,特別是在“高利害”考試的環(huán)境下,試卷命制的科學(xué)性、合理性和規(guī)范性成為考試相關(guān)利益人評(píng)議的焦點(diǎn)。當(dāng)前,試卷評(píng)價(jià)的理論主要有經(jīng)典真分?jǐn)?shù)理論(Classic True Score Theory,CTT)、概化理論(Generalizability Theory,GT)和項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)。此三種理論源于西方,我國教育界雖然對(duì)其進(jìn)行了充分的借鑒和發(fā)展,但仍然存在著“誤用”“濫用”“非用”等亂象,這無疑不利于我國教育評(píng)價(jià)的健康發(fā)展和教育公平的順利實(shí)施。因此,在教育評(píng)價(jià)國際化和現(xiàn)代化的背景下,在我國基礎(chǔ)教育改革的當(dāng)口,厘清試卷評(píng)價(jià)理論的本質(zhì)屬性及其適用范圍,理性選擇恰當(dāng)?shù)脑u(píng)價(jià)理論,謹(jǐn)防陷入試卷評(píng)價(jià)的誤區(qū),可謂當(dāng)務(wù)之急、必要之舉。

        一、CTT、GT、IRT比較研究

        CTT是歷史上第一個(gè)教育與心理測(cè)量理論,也是最基礎(chǔ)、最根本的測(cè)量理論,GT和IRT是為了克服CTT在信度和效度方面的不足而分別發(fā)展起來的現(xiàn)代測(cè)量理論,三者在諸多方面有所不同,比較如下:

        1.理論基礎(chǔ)

        CTT的理論基礎(chǔ)是隨機(jī)樣本理論,即隨機(jī)抽取足夠數(shù)量的試題樣本和被試樣本,進(jìn)行測(cè)評(píng)和統(tǒng)計(jì)分析,它弱化個(gè)體間差異,強(qiáng)調(diào)總體表現(xiàn)水平,具有諸多不可避免的缺陷,但是發(fā)展至今仍具有旺盛的生命力,因此堪稱經(jīng)典測(cè)量理論。GT從考試的外部和宏觀角度入手,繼續(xù)沿著隨機(jī)樣本理論的思路,關(guān)注考試的外部效度,重點(diǎn)討論測(cè)量條件和測(cè)量結(jié)論推廣及其應(yīng)用范圍之間的關(guān)系,以及測(cè)量誤差及其來源的問題,改變了真分?jǐn)?shù)固定不變,測(cè)量誤差只是含混不清的隨機(jī)誤差,測(cè)驗(yàn)信度就是計(jì)算相關(guān)系數(shù)等傳統(tǒng)看法[4]。GT將考試看作是對(duì)考生進(jìn)行觀測(cè)的一般樣本,將試卷看作是一個(gè)由無數(shù)試題組成的全域的一個(gè)樣本,它只假設(shè)平行試題來自同一全域。GT是一種評(píng)價(jià)行為測(cè)量的可靠性或信度的統(tǒng)計(jì)理論,它擴(kuò)展了真分?jǐn)?shù)理論,但并不包含真分?jǐn)?shù)理論的所有特征。與GT相比,IRT從考試的內(nèi)部或微觀角度入手,放棄隨機(jī)樣本理論的思路,轉(zhuǎn)而關(guān)注考試的內(nèi)部效度,采取數(shù)學(xué)建模和統(tǒng)計(jì)調(diào)整的方法,重點(diǎn)討論考生的能力水平與試題之間的關(guān)系,它將被試對(duì)試題的應(yīng)答看作是考生的特征和試題特征的函數(shù),假定被測(cè)在某道試題上的表現(xiàn)只依賴于某一潛在特質(zhì)或能力,并且被測(cè)在該題上的表現(xiàn)與其測(cè)量的特質(zhì)之間是單調(diào)增函數(shù)的關(guān)系[5]。IRT將原始分?jǐn)?shù)轉(zhuǎn)化為能力參數(shù)和難度參數(shù)的做法,是對(duì)CTT的一大改進(jìn),克服了樣本依賴性的弊端。由此可見,CTT、GT、IRT的理論基礎(chǔ)各異,但并不具有包含和從屬關(guān)系,GT和IRT只是在某種程度上完善了CTT,滿足了現(xiàn)代教育測(cè)量與評(píng)價(jià)的精度和多樣化的需求。

        2.對(duì)“分?jǐn)?shù)”的理解

        CTT認(rèn)為測(cè)驗(yàn)分?jǐn)?shù)X是由真分?jǐn)?shù)T和隨機(jī)誤差E組合而成。真分?jǐn)?shù),又稱為無誤差分?jǐn)?shù),在概念上它是假設(shè)對(duì)同一試卷(或不同試卷)多次重復(fù)測(cè)量后得到的平均分,它是一個(gè)單獨(dú)的參數(shù),并假定考生的每個(gè)觀察分?jǐn)?shù)都可以用來估計(jì)這個(gè)參數(shù)。CTT將真分?jǐn)?shù)看作是考生的特征,將隨機(jī)誤差分?jǐn)?shù)看作是考試的特征。GT的焦點(diǎn)不是真分?jǐn)?shù),而是全域分?jǐn)?shù),它將被測(cè)稱為測(cè)量目標(biāo),將影響和制約測(cè)量目標(biāo)的各種因素稱為側(cè)面,如教師側(cè)面、試題側(cè)面,而評(píng)分教師和試題則構(gòu)成了相應(yīng)側(cè)面的一個(gè)條件,所有這些側(cè)面的總體構(gòu)成可接受的觀察全域,考生在某個(gè)側(cè)面或某些側(cè)面的所有條件上的平均得分叫做全域分?jǐn)?shù)。GT研究隨機(jī)側(cè)面和固定側(cè)面,關(guān)注觀測(cè)分?jǐn)?shù)在隨機(jī)側(cè)面上可以被概化的水平及其信度。IRT放棄了測(cè)驗(yàn)的原始分?jǐn)?shù),將被試對(duì)于試題的某種反應(yīng)概率與此題目的特征聯(lián)系起來,進(jìn)而確定考生具有怎樣的能力水平才能夠做出正確的應(yīng)答。IRT用一組數(shù)學(xué)模型來估計(jì)模型參數(shù),如考生的能力(或特質(zhì))參數(shù)、試題難度參數(shù),并將其定義到同一量標(biāo)之上,可以直接進(jìn)行比較。IRT主要是為了獲得試題的特征參數(shù),確定考生具有什么樣的能力水平才能夠?qū)υ囶}做出正確的應(yīng)答,以及試題對(duì)什么能力水平的學(xué)生具有良好的區(qū)分能力,進(jìn)而判斷試題是否有質(zhì)量問題。因此,不管是“全域分?jǐn)?shù)”,還是“能力參數(shù)”,都與真分?jǐn)?shù)的概念非常接近,但是它們的計(jì)量單位不同,所具特征也有所差異。

        3.模型假設(shè)

        CTT是基于桑代克(E.L.Thorndike)的“凡客觀存在的事物都有其數(shù)量”和麥考(W.A.McCall)的“凡有數(shù)量的東西都可以測(cè)量”這一可測(cè)性假設(shè)提出的[6]。1950年,古麗科森(Harold Gulliksen)提出了CTT的三個(gè)假設(shè),即受測(cè)者總體的誤差分?jǐn)?shù)的平均數(shù)為零、受測(cè)者總體的真分?jǐn)?shù)與誤差分?jǐn)?shù)的相關(guān)為零、受測(cè)者參加的兩次獨(dú)立測(cè)驗(yàn)的誤差分?jǐn)?shù)相關(guān)為零[7]。CTT假設(shè)是標(biāo)準(zhǔn)化考試的重要的理論基礎(chǔ)和技術(shù)支柱,是考試公平和評(píng)分公正的前提條件,在實(shí)際考試中發(fā)揮著巨大的作用。GT改變了CTT誤差因素的假設(shè),關(guān)注樣本的代表性及概化推測(cè),它有兩個(gè)基本假設(shè)——觀察樣本具有代表性、樣本容量足夠大,可以控制抽樣誤差[8]。也就是說,GT假定受測(cè)者的特定測(cè)量能概化到更廣泛的測(cè)量領(lǐng)域中去,不同側(cè)面對(duì)概化程度都會(huì)產(chǎn)生影響,通過擴(kuò)大樣本容量來減少抽樣時(shí)的系統(tǒng)誤差。GT的假設(shè)將不同來源的測(cè)量誤差區(qū)別開來,并確定其效應(yīng),研究不同變量對(duì)整卷測(cè)量效果的影響,這是對(duì)CTT假設(shè)的一大改進(jìn)。IRT有三個(gè)強(qiáng)假設(shè),即假定考生對(duì)于試題的解答只由唯一潛在特質(zhì)或能力來解釋,并且針對(duì)在潛在特質(zhì)量表上的某一點(diǎn)的受測(cè)者子體而言,對(duì)所有試題的應(yīng)答是相互獨(dú)立的,即單維性和局部獨(dú)立性。單維性假定表明決定考生對(duì)試題應(yīng)答的能力只有一種,局部獨(dú)立假定表明任何一道試題都不會(huì)給另一道試題提供線索。單維性和局部獨(dú)立性不是等價(jià)概念,項(xiàng)目獨(dú)立有可能測(cè)驗(yàn)是多維的,測(cè)驗(yàn)單維項(xiàng)目局部獨(dú)立卻不一定成立。在實(shí)際測(cè)量時(shí),單維性和局部獨(dú)立性往往難以滿足,還需要進(jìn)一步驗(yàn)證或修改試題以滿足此假設(shè)。IRT還假定所有試題沒有猜測(cè)因素,即試題特征曲線僅反映出被試的應(yīng)答表現(xiàn)與其測(cè)量特質(zhì)之間的單調(diào)遞增關(guān)系。

        4.測(cè)量誤差

        CTT認(rèn)為測(cè)量誤差是觀察分?jǐn)?shù)與真分?jǐn)?shù)之間的假設(shè)差別,它是隨機(jī)的和不可預(yù)測(cè)的,在概念上不同于系統(tǒng)誤差。系統(tǒng)誤差往往是有規(guī)律的且是可以預(yù)測(cè)的,它可能是因?yàn)殡y度不等值的兩套試卷引起。當(dāng)參加測(cè)試的兩個(gè)群體水平相當(dāng)時(shí),做難度較小的試卷的平均分通常會(huì)高于做難度較大的試卷的平均分,而且這種結(jié)果顯而易見,是可以事先預(yù)測(cè)到的。測(cè)量誤差的來源主要包括三個(gè)方面:測(cè)量工具、測(cè)量目標(biāo)和施測(cè)過程。顯然,CTT并不區(qū)分這些誤差來源,而是將它們統(tǒng)一看成籠統(tǒng)的、含糊不清的隨機(jī)誤差,因而估計(jì)的測(cè)量誤差總是偏大,誤差分析單位定義太籠統(tǒng),揭示的信息相對(duì)較少,獲得的考生群體和考生的真分?jǐn)?shù)誤差較大[9]。GT改變了CTT無視誤差區(qū)別的做法,將誤差分為系統(tǒng)誤差和隨機(jī)誤差,并重點(diǎn)關(guān)注了誤差的來源,包括被試之間水平差異、評(píng)分差異、測(cè)量?jī)?nèi)容差異、平行測(cè)驗(yàn)之間差異、不同施測(cè)環(huán)境差異、不同體力狀況差異、初試與復(fù)試的差異以及被試臨場(chǎng)發(fā)揮不當(dāng)?shù)牟町怺10]。GT將不同來源的測(cè)量誤差區(qū)別開來,進(jìn)一步評(píng)價(jià)不同變量對(duì)整卷測(cè)量效果的影響,所獲得的概化全域的分?jǐn)?shù)較為準(zhǔn)確,為改善測(cè)驗(yàn)、提高試卷質(zhì)量提供了大量有用的信息。IRT雖沒有嚴(yán)格區(qū)分誤差來源,但是它從模型本身入手力圖減小不必要的誤差,根據(jù)測(cè)驗(yàn)精度和試卷組成的不同,分別設(shè)計(jì)了Rasch模型、logistic模型及其改良形式,并引入難度參數(shù)、區(qū)分度參數(shù)和猜測(cè)度參數(shù),采用迭代法計(jì)算參數(shù),再對(duì)模型和數(shù)據(jù)的擬合程度進(jìn)行檢驗(yàn)和修正,以減小測(cè)量誤差。在IRT中,當(dāng)獲得了能力參數(shù)的極大似然估計(jì)值之后,便可以對(duì)被試的能力參數(shù)估計(jì)值的精度進(jìn)行估計(jì),而且考生能力參數(shù)的估計(jì)值的標(biāo)準(zhǔn)誤與試卷長(zhǎng)度和質(zhì)量密切相關(guān),試卷越長(zhǎng),或試題區(qū)分度參數(shù)越大,或試題猜測(cè)參數(shù)越小,或試題難度參數(shù)與考生實(shí)際能力水平越接近,標(biāo)準(zhǔn)誤都將越小,而且項(xiàng)目反應(yīng)模式還提供了利用信息函數(shù)來評(píng)價(jià)試題和試卷的質(zhì)量的方法,這與CTT中測(cè)量的標(biāo)準(zhǔn)誤差不變是不同的。

        5.模型驗(yàn)證

        在CTT中,由于施測(cè)者真正關(guān)心的是真分?jǐn)?shù),而不是觀測(cè)分?jǐn)?shù)。因此,如何在二者之間建立一種有效聯(lián)系,就顯得特別重要。由于無法得到真分?jǐn)?shù)和所有可能的觀測(cè)分?jǐn)?shù),所以CTT采用平行測(cè)驗(yàn)的方法,將兩套平行測(cè)驗(yàn)分?jǐn)?shù)之間的關(guān)系定義為信度系數(shù),以此來驗(yàn)證模型的可靠性。此處,平行測(cè)驗(yàn)需要滿足兩個(gè)條件,即每個(gè)受測(cè)者在該測(cè)驗(yàn)的兩種形式上的真分?jǐn)?shù)相同,兩種形式的誤差方差相等?;谄叫袦y(cè)驗(yàn)的定義,可以得到兩套平行測(cè)驗(yàn)的觀察分?jǐn)?shù)之間的信度系數(shù)。實(shí)際上,完全平行測(cè)驗(yàn)的獲得并非易事。若考慮在不同場(chǎng)合對(duì)同一組受測(cè)者進(jìn)行同一形式的測(cè)試,則還需要判斷場(chǎng)合的變化、被測(cè)認(rèn)知水平的變化及記憶的作用對(duì)測(cè)試的影響,通常用穩(wěn)定系數(shù)來表示這個(gè)變化。若考慮在同一場(chǎng)合對(duì)相同受測(cè)者實(shí)施內(nèi)容相同但形式不同的測(cè)試,那么平行試卷的命制就尤為關(guān)鍵,通常用等值系數(shù)來表示平行試卷的關(guān)聯(lián)程度。穩(wěn)定系數(shù)和等值系數(shù)都有可能低估理論上真正平行測(cè)驗(yàn)的信度系數(shù)。

        類似于經(jīng)典測(cè)量理論中的信度系數(shù),GT用概化系數(shù)來刻畫觀察分?jǐn)?shù)與全域分?jǐn)?shù)之間的相關(guān)關(guān)系,以此來判斷測(cè)量結(jié)果可以概化到全域分?jǐn)?shù)的程度。定義概化系數(shù)的常用方法是用全域分?jǐn)?shù)方差與觀測(cè)分?jǐn)?shù)方差期望值的比值來表示,根據(jù)測(cè)試情形的不同,有不同的概化系數(shù)計(jì)算公式,如不同評(píng)分者給每個(gè)受測(cè)者評(píng)分,每個(gè)受測(cè)只有一名評(píng)分者的情形下,其概化系數(shù)為σ2p/(σ2p+σ2i+σ2δ)。對(duì)于測(cè)量的精度,GT使用可靠性指數(shù)?來刻畫,并將其定義為(其中,?p是指考生p的考試結(jié)果被有效概化的可靠性指數(shù),σ2p是考生 p自身的分?jǐn)?shù)變異,σ2Δ則包括了全部的系統(tǒng)誤差和隨機(jī)誤差的變異)。GT用方差分析法來全面估計(jì)出各種方差成分的相對(duì)大小,既能估計(jì)出主效應(yīng),也能估計(jì)出交互作用的效應(yīng),并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。

        相比之下,IRT對(duì)考試結(jié)果和模型的擬合性檢驗(yàn)更為全面和細(xì)致,它從模型假設(shè)檢驗(yàn)、模型性質(zhì)檢驗(yàn)和模型預(yù)測(cè)能力檢驗(yàn)三個(gè)方面進(jìn)行[11]。模型假設(shè)檢驗(yàn)包括單維假定檢驗(yàn)和等區(qū)分度假定檢驗(yàn),前者可采用因素分析法,后者可以計(jì)算各試題與總分的點(diǎn)二列相關(guān)系數(shù)。模型性質(zhì)檢驗(yàn)又包括試題參數(shù)不變性檢驗(yàn)和考生能力參數(shù)不變性檢驗(yàn),前者可以在所有被測(cè)中隨機(jī)抽取兩個(gè)子群體,分別估計(jì)試題參數(shù),然后檢查其線性相關(guān)程度;后者采用兩組難度不同的試題對(duì)同一考生群體施測(cè),估計(jì)兩組能力參數(shù),并檢驗(yàn)其線性相關(guān)程度。模型預(yù)測(cè)能力檢驗(yàn)主要采用試題和考試的信息函數(shù)來表示考生能力水平估計(jì)值的測(cè)量精度。為了充分驗(yàn)證模型對(duì)考生能力水平估計(jì)的精度和可靠性,IRT定義了試題信息函數(shù),根據(jù)試題提供的信息量的大小來判斷試題的優(yōu)劣。考生能力水平與試題難度參數(shù)越接近,試題提供的信息量越大;試題區(qū)分度越大,試題提供的信息量越大,但是區(qū)分度很大的試題也只能在一定的能力水平范圍內(nèi)可以提供較大的信息;試題猜測(cè)度越小,試題提供的信息量越大,猜測(cè)度較大的試題增加了考生正確應(yīng)答的偶然性,基于偶然性的考試結(jié)果所提供的信息就有可能存在較大的偏差。

        6.樣本依賴性

        在CTT中,考生能力參數(shù)嚴(yán)重地依賴于試題樣本,試題難,則得分低,反之則高;試題參數(shù)也嚴(yán)重地依賴于考生樣本,考生的平均水平會(huì)影響試題的難度,考生個(gè)體的差異程度也會(huì)直接影響試題的信度和區(qū)分度水平。CTT對(duì)于樣本的依賴性使得抽樣誤差會(huì)明顯改變測(cè)評(píng)的結(jié)果,以及相應(yīng)的統(tǒng)計(jì)論斷和教育決策。GT對(duì)于樣本也有一定的依賴性,試題抽樣的代表性以及對(duì)于全域的覆蓋程度將直接影響到概化系數(shù)。為此,GT采用擴(kuò)大抽樣樣本容量,減小抽樣誤差的方法來提高整個(gè)模型的信度水平。IRT對(duì)考生能力水平的估計(jì)與考試采用試題無關(guān),對(duì)試題參數(shù)的估計(jì)與考生樣本無關(guān),考生的能力參數(shù)與試題的難度參數(shù)統(tǒng)一到同一量標(biāo)上,可以直接對(duì)比,也可以直接估計(jì)考生能力參數(shù)估計(jì)值的精度,這一點(diǎn)是CTT和GT無法比擬的。

        7.應(yīng)用去向

        CTT自誕生之日起,便得到了廣泛的應(yīng)用,它對(duì)心理和教育測(cè)量領(lǐng)域的理論和實(shí)踐都產(chǎn)生了巨大的貢獻(xiàn),雖然它有明顯的缺陷,但是仍有不凡的效用,特別是為標(biāo)準(zhǔn)化考試奠定了理論基礎(chǔ),并且這種影響一直持續(xù)到當(dāng)今,并將繼續(xù)發(fā)揮作用。1950年,古麗科森(Gulliksen,1950)出版了《心理測(cè)量的理論》,首次使用公理化的方法系統(tǒng)地總結(jié)了標(biāo)準(zhǔn)化考試的原理和方法,這標(biāo)志著CTT走向成熟。GT最重要的應(yīng)用是概化推測(cè),即根據(jù)觀察的分?jǐn)?shù)推測(cè)概化全域的分?jǐn)?shù),因而常常被用作交叉設(shè)計(jì)和嵌套設(shè)計(jì),通過控制某些側(cè)面,觀察其它側(cè)面對(duì)于考試結(jié)果的影響,從而找到控制誤差的方法,為測(cè)驗(yàn)內(nèi)容、測(cè)驗(yàn)方式的設(shè)計(jì)提供了有價(jià)值的信息,并作出最佳決策設(shè)計(jì)。IRT在教育領(lǐng)域的應(yīng)用更為廣泛,其一是指導(dǎo)測(cè)驗(yàn)編制,其二是指導(dǎo)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)的開發(fā),其三是將測(cè)量導(dǎo)向與認(rèn)知心理學(xué)相結(jié)合。在指導(dǎo)測(cè)驗(yàn)編制的過程中,IRT不但可以提供全卷的信息量和標(biāo)準(zhǔn)測(cè)量誤差,而且能夠提供每一道試題或評(píng)分項(xiàng)的信息量和標(biāo)準(zhǔn)測(cè)量誤差,因此提供考試信度和標(biāo)準(zhǔn)測(cè)量誤差的信息最為完全,IRT還為因人(被試)實(shí)施測(cè)提供了可能。IRT通過項(xiàng)目特征曲線還可以預(yù)測(cè)被試在其他項(xiàng)目上的正確反應(yīng)概率,提高了試題庫特征參數(shù)的完備性及題庫管理的可控性,對(duì)于基于標(biāo)準(zhǔn)的測(cè)驗(yàn)的試題開發(fā)具有重要效用。

        8.優(yōu)勢(shì)

        CTT的模型構(gòu)造簡(jiǎn)單、淺顯易懂,所用公式及其計(jì)算并不復(fù)雜,模型參數(shù)估計(jì)具有概念上的直觀性,不需要嚴(yán)格的擬合檢驗(yàn),統(tǒng)計(jì)結(jié)果對(duì)于分?jǐn)?shù)的解釋相對(duì)直觀、清晰,因而容易為一線教師所接受。GT區(qū)別不同來源測(cè)量誤差,關(guān)注不同側(cè)面對(duì)整卷測(cè)量效果的影響,所獲得的概化全域分?jǐn)?shù)較為準(zhǔn)確,為改善測(cè)驗(yàn)、提高試卷質(zhì)量提供了有用信息,但由于需要利用方差分析等數(shù)學(xué)工具,導(dǎo)致很多一線教師理解困難。IRT提供考試信度和標(biāo)準(zhǔn)測(cè)量誤差的信息最為完全,通過項(xiàng)目特征曲線還可以預(yù)測(cè)被試在其他項(xiàng)目上的正確反應(yīng)概率,提高了試題特征參數(shù)的完備性,測(cè)驗(yàn)編制具有主動(dòng)性和可控性,不需要嚴(yán)格的平行測(cè)驗(yàn)來評(píng)估測(cè)驗(yàn)信度,因而在技術(shù)層面具有一定的優(yōu)越性。

        9.局限性

        CTT對(duì)考生能力參數(shù)估計(jì)的精度不夠高,用測(cè)量信度和標(biāo)準(zhǔn)誤來估計(jì)所有考生的能力參數(shù),這一做法顯然沒有考慮考生個(gè)體的差異,因而是不恰當(dāng)?shù)?;信度估?jì)所依賴的平行測(cè)驗(yàn)的假設(shè)在現(xiàn)實(shí)中往往難以滿足;試題難度定義在考生樣本上,考生能力參數(shù)定義在試題樣本上,二者不屬于同一參照系,因而無法統(tǒng)一,也難以判斷二者是否匹配,不利于測(cè)驗(yàn)工作的改進(jìn);另外,由于使用了配對(duì)或標(biāo)準(zhǔn)化技術(shù)和隨機(jī)化技術(shù),使得測(cè)量條件的完全一致性難以滿足,進(jìn)而制約了測(cè)驗(yàn)結(jié)果的可拓廣性。GT并未改良經(jīng)典測(cè)量理論的微觀結(jié)構(gòu)及其項(xiàng)目參數(shù)系統(tǒng),只是更多地從整個(gè)測(cè)驗(yàn)的宏觀結(jié)構(gòu)及其與外部測(cè)驗(yàn)條件的關(guān)系上作了深入的計(jì)量分析,因此,經(jīng)典理論在其自身框架下的一些主要局限性依然存在[12]。而且,GT模型結(jié)構(gòu)比較復(fù)雜,統(tǒng)計(jì)計(jì)算也相當(dāng)繁雜,需要借助統(tǒng)計(jì)分析工具方可解決此類問題,這也是不利于GT廣泛推廣的一個(gè)重要因素。IRT依賴于更強(qiáng)的假設(shè),模型結(jié)構(gòu)復(fù)雜、計(jì)算量偏大,對(duì)信息技術(shù)的依賴性較強(qiáng),項(xiàng)目參數(shù)的獲得需要合適的樣本量,而且被試的能力分布范圍要廣,如果不能滿足此要求,則會(huì)影響模型結(jié)果的精確性,也很難檢測(cè)出模型與數(shù)據(jù)之間的偏差。此外,項(xiàng)目反應(yīng)模型并沒有對(duì)考試的效度問題提供獨(dú)到的見解。

        二、啟示與建議

        CTT、GT、IRT既有廣泛聯(lián)系,又有顯著區(qū)別,它們各有利弊,三者分別展示了不同的試卷評(píng)價(jià)理論框架和參數(shù)表征,為研究者和應(yīng)用者提供多樣化的選擇。

        1.根據(jù)研究需求的不同,選擇不同的評(píng)價(jià)理論

        每一位研究者對(duì)試卷評(píng)價(jià)都有自己獨(dú)特的需求或希望獲得的報(bào)告形式,而不同的試卷評(píng)價(jià)理論正是為個(gè)性化的需求提供了自由選擇。如果研究者關(guān)注的是整卷的統(tǒng)計(jì)指標(biāo)、總量指標(biāo)、相對(duì)指標(biāo)和平均指標(biāo),那么CTT將是最佳選擇,它可以提供試卷的信度、效度、難度、區(qū)分度、偏度、峰度、均值、眾數(shù)、中位數(shù)、標(biāo)準(zhǔn)差、分布圖表或曲線等方面的信息,呈現(xiàn)出直觀的或經(jīng)驗(yàn)性的統(tǒng)計(jì)數(shù)據(jù)和報(bào)表,有助于非專業(yè)人士的理解。如果研究者側(cè)重于測(cè)量的信度及其驗(yàn)證,那么GT將是理想選擇,它可以提供概化系數(shù)、可靠性指數(shù)、誤差分類等信息,全面考量影響考試分?jǐn)?shù)的多個(gè)側(cè)面,可以進(jìn)行交叉設(shè)計(jì)和嵌套設(shè)計(jì)等方面的試題開發(fā)。如果研究者偏向測(cè)量的效度及其檢驗(yàn),那么IRT將是不二之選,它可以提供信息函數(shù)、參數(shù)驗(yàn)證等信息,易于對(duì)不同群體的正確應(yīng)答的預(yù)測(cè)及全面的誤差分析。

        2.根據(jù)研究精度的不同,選擇不同的評(píng)價(jià)理論

        CTT、GT和IRT在誤差處理方面有著明顯的不同,因而產(chǎn)生了不同的測(cè)量精度。如果研究者對(duì)測(cè)量的精度要求不高,那么就可以直接選用CTT,它并沒有嚴(yán)格區(qū)分誤差的類別和來源,而且弱化了個(gè)體間的差異,強(qiáng)調(diào)樣本總體表現(xiàn)水平和整卷效果,因而統(tǒng)計(jì)結(jié)果是宏觀而粗糙的。如果研究者對(duì)測(cè)量精度有稍高要求,特別是希望區(qū)分不同的誤差來源對(duì)測(cè)驗(yàn)結(jié)果的影響,那么就需要選用GT了,它將誤差分為系統(tǒng)誤差和隨機(jī)誤差,并考查誤差的來源,重點(diǎn)關(guān)注被試的生理、動(dòng)機(jī)、興趣、注意力、情緒、答題速度、受訓(xùn)情況、測(cè)驗(yàn)技巧,以及考試的物理環(huán)境、監(jiān)考者狀態(tài)、意外干擾、評(píng)分計(jì)分和分?jǐn)?shù)轉(zhuǎn)換等環(huán)節(jié)所產(chǎn)生的誤差。如果研究者對(duì)測(cè)量精度有更高的要求,希望考查試題設(shè)置和呈現(xiàn)方式對(duì)不同群體的“偏見”或功能差異,那么就可以選用IRT,因?yàn)樗愿泳_的數(shù)學(xué)模型和函數(shù)表達(dá)式來呈現(xiàn)難度參數(shù)、能力參數(shù)及其他參數(shù)之間的關(guān)系,可以量化地分析誤差的大小及其對(duì)測(cè)量的影響。當(dāng)然,我們還需要注意到,并不是所有的分?jǐn)?shù)變化都必然歸咎于測(cè)量誤差,還有可能是因?yàn)橥獠拷槿?、自身學(xué)習(xí)或成熟度提高的結(jié)果。此時(shí),分?jǐn)?shù)差異或變化于是成為信度所依賴的測(cè)量值[13]。

        3.根據(jù)研究水平的不同,選擇不同的評(píng)價(jià)理論

        三種評(píng)價(jià)理論的理論體系、方法原理、模型結(jié)構(gòu)和參數(shù)估計(jì)方法各不相同,其復(fù)雜程度也有所差異。對(duì)于研究水平有限的一線教師和普通研究者而言,CTT相對(duì)簡(jiǎn)單且容易被人理解和掌握,統(tǒng)計(jì)結(jié)果對(duì)于分?jǐn)?shù)的解釋相對(duì)比較直觀、清晰,所倡導(dǎo)的標(biāo)準(zhǔn)化測(cè)驗(yàn)技術(shù)在考試誤差等方面具有明顯的效果,并為多數(shù)人所認(rèn)可。相比之下,GT對(duì)于研究者在測(cè)量與評(píng)價(jià)領(lǐng)域的理論素養(yǎng)和數(shù)學(xué)應(yīng)用能力有一定的要求,否則難以理解各側(cè)面的影響及概化的過程和水平。如果研究者是專業(yè)人士,尤其是大規(guī)模測(cè)評(píng)試卷的命題或?qū)徍巳藛T,可能會(huì)具有深厚的測(cè)量與評(píng)價(jià)理論基礎(chǔ)以及精湛的試卷評(píng)價(jià)技術(shù),因而可以選用IRT來進(jìn)行更為深入、細(xì)致的試卷質(zhì)量分析,進(jìn)而實(shí)施更廣泛的試卷質(zhì)量評(píng)判、命題指導(dǎo)和有效測(cè)評(píng)。

        綜上,CTT、GT與IRT有諸多不同,至于選擇哪一種理論模型,主要依據(jù)各模型的適用條件、測(cè)驗(yàn)的分析要求以及研究者的理論與實(shí)踐水平。每一種理論模型都不是完美的,在實(shí)際測(cè)量與評(píng)價(jià)過程中,可以進(jìn)行有效的組合,以發(fā)揮各自的優(yōu)勢(shì),從而對(duì)試卷質(zhì)量進(jìn)行全面、客觀、科學(xué)、理性的分析。

        [1]陳玉琨.教育評(píng)價(jià)學(xué)[M].上海:華東師范大學(xué)出版社,2005:1.

        [2]王景英.教育評(píng)價(jià)學(xué)[M].長(zhǎng)春:東北師范大學(xué)出版社,2005:3.

        [3]王孝玲.教育評(píng)價(jià)的理論與技術(shù)[M].上海:上海教育出版社,2002:2-3.

        [4]漆書清,戴海崎,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002:42.

        [5]Martin T Wells.Handbook of Modern Item Response Theory[J].Journal of the American Statistical Association,1997,92(439):1227.

        [6]鐘軼,季曉輝.兩種教育測(cè)量理論在試卷質(zhì)量控制和評(píng)價(jià)中的應(yīng)用及其展望[J].南京醫(yī)科大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013(1):66.

        [7]Linda Crocker& James Algina.經(jīng)典和現(xiàn)代測(cè)驗(yàn)理論導(dǎo)論[M].金瑜,等,譯.上海:華東師范大學(xué)出版社,2004:121.

        [8]雷新勇.基于標(biāo)準(zhǔn)的教育考試—命題、標(biāo)準(zhǔn)設(shè)置和學(xué)業(yè)評(píng)價(jià)[M].上海:上??萍汲霭嫔?2011:27-29.

        [9]周群.基于論證的我國高考開發(fā)質(zhì)量評(píng)價(jià)模型研究[D].上海:華東師范大學(xué),2011:165.

        [10]楊志明,張雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003:41.

        [11]雷新勇.大規(guī)模教育考試命題與評(píng)價(jià)[M].上海:華東師范大學(xué)出版社,2006:71.

        [12]熊江玲.經(jīng)典測(cè)量理論、概化理論及項(xiàng)目反映理論比較研究[J].求索,2004(4):99.

        [13][美]美國教育研究協(xié)會(huì),美國心理學(xué)協(xié)會(huì),全美教育測(cè)量學(xué)會(huì),主編.教育與心理測(cè)試標(biāo)準(zhǔn)[M].燕娓琴,謝小慶,譯.沈陽:沈陽出版社,2003:41.

        猜你喜歡
        真分?jǐn)?shù)測(cè)驗(yàn)信度
        《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識(shí)量表》的信度和效度研究
        最簡(jiǎn)真分?jǐn)?shù)的個(gè)數(shù)
        《新年大測(cè)驗(yàn)》大揭榜
        趣味(語文)(2018年7期)2018-06-26 08:13:48
        “真分?jǐn)?shù)”新解
        兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        真分?jǐn)?shù)不等式“a+mb+m>ab”
        科技成果評(píng)價(jià)的信度分析及模型優(yōu)化
        體育社會(huì)調(diào)查問卷信度檢驗(yàn)的方法學(xué)探索——基于中文核心體育期刊163篇文章分析
        中文版腦性癱瘓兒童生活質(zhì)量問卷的信度
        你知道嗎?
        精品少妇大屁股白浆无码| 午夜被窝精品国产亚洲av香蕉| 无码人妻丰满熟妇区免费| 又爽又黄又无遮挡的视频| 日本亚洲国产一区二区三区| 亚洲色欲色欲大片WWW无码| 一区二区三区成人av| 亚洲av综合av一区| av中文字幕潮喷人妻系列| 久久精品国产亚洲av大全| 午夜免费福利小电影| 99精品国产99久久久久久97| 久久福利青草精品资源| 色青青女同性恋视频日本熟女| 一区二区三区国产色综合| 亚洲午夜成人精品无码色欲| 国产精品亚洲二区在线观看 | 大地资源高清在线视频播放 | 狠狠躁夜夜躁人人爽天天古典| 亚洲色偷偷综合亚洲av伊人| 国产成人丝袜在线无码| 国产一区二区三区精品乱码不卡 | 穿着白丝啪啪的av网站| 把女的下面扒开添视频| 久久久久久久女国产乱让韩| 亚洲AV色欲色欲WWW| 三级国产高清在线观看| 精品国际久久久久999波多野| 亚洲av无码一区二区三区四区| 国产精品国产午夜免费福利看| 免费国产不卡在线观看| 国产aⅴ激情无码久久久无码| 玩弄放荡人妻少妇系列| 91精品国产综合久久青草| 中国黄色偷拍视频二区| 全免费a级毛片免费看无码| 性一交一乱一透一a级| 国产精品98视频全部国产| 亚洲精品中文字幕一二| 精品卡一卡二卡3卡高清乱码| 欧美日韩中文国产一区发布|