姜鶯鷹
南京機電職業(yè)技術學院,江蘇南京 211135
經典測量理論(Classical Test Theory,簡稱CTT)、項目反應理論(Item Response Theory,簡稱IRT)是心理測量界的兩大著名理論派別,過去是經典測驗理論一統(tǒng)測量領域,但是隨著項目反應理論以及后來形成的可概括性理論(Generalizability Theory,簡稱GT)的發(fā)展,三者形成了鼎足之勢,這在一定程度上也促進了心理測量的發(fā)展。但是就我國目前的狀況而言,還是以CTT的應用為主,對于IRT的應用尚處于起步階段,本文擬通過對CTT與IRT的對比,來探討一下HSK考試中CTT和IRT的運用。
HSK全名中國漢語水平考試,是為測試母語非漢語者的漢語水平而設立的國家級標準化考試。HSK成績是外國留學生進入中國高等院校學習專業(yè)的必要條件,并且已經成為國內外一些機構人員選拔的一種依據。如果HSK證書的授予標準缺乏穩(wěn)定性和公平性,那么,不僅會影響HSK的信度和效度,而且會對有關的決策產生誤導,會使考生受到不公平的對待。盡管專家們命題過程中總是盡量保持考試難度的穩(wěn)定性,但不同試卷之間在難度、信度、分數分布方面的差別很難完全避免。因此,對HSK的要求也越來越高,不僅要求實現“試卷”之間的等值,甚至要求實現“試題”之間的等值。
CTT主要是指真分數理論, 其基本思想是:把測驗的得分(通常稱為測驗的觀察分數)看做真分數和誤差分數的線性組合,可歸結為如下簡單數學模型:X=T+e,其中X是觀測分數,是真分數,T是反映被試穩(wěn)定心理特征的真分數,e是誤差分數,也即由隨機因素例如考試中考生的情緒、考場的因素等所造成的實際成績與其真正能力水平的差異。真分數(T)是相對穩(wěn)定的,它刻劃的是被試某種比較穩(wěn)定的心理特質(比如在教育測驗中考生的真實能力水平),而對相同對象多次重復測量的誤差分數(e)往往呈正態(tài)分布,真分數和誤差分數相互獨立,真分數分數與誤差分數最終可簡單合成測驗分數。傳統(tǒng)信度、效度、項目分析的原理與方法均建立在這一模型之上 。
CTT的不足:1)測驗項目質量評價的指標過度依賴于計算這些指標時所用的被試樣本;2)難度、區(qū)分度等各項指標的計算都與被試整體的個性特征密切相關;3)就同一試題,被試組的個體水平都很高,算出的難度值就偏低;如果水平都較低,難度值就會偏高;4)對于區(qū)分度,如被試組的個體程度參差不齊(較為異質),求出的區(qū)分度值就很高;若程度整齊(即較為同質),求出的區(qū)分度就低;5)這種度量質量的指標隨測試對象而變化的問題正是經典測量理論的不足所致。
CTT的優(yōu)點:1)建立在較簡單的數學模型之上,易于被人理解和接受,且計算簡便,容易推廣;2)理論假設較弱,對實施條件要求不嚴格,適用性廣;3)在多數情況下CTT是足夠精確的,可以放心地應用。
IRT以項目分析為基礎,建立在潛在特質理論和統(tǒng)計理論基礎上。 它假設被試對測驗的反應受某種心理特質支配,我們可以對這種特質進行界定。IRT估計出被試在這種特質的分數,并根據分數的高低來預測、解釋被試對項目或測驗的反應。IRT主要用于建立各種與數據擬合的模型,確定被試的潛在特質值與他們對項目的反應之間的關系。IRT認為,通過被試對具有一定難度和區(qū)分度等特征的項目的反應可以確定被試的潛能特征和傾向。它所建立的模型可以表達被試的特性水平和它對項目所作的反應之間的關系。
IRT的優(yōu)點:1)對項目難度的估計不受被試樣本的限制;2)對被試能力的估計不依賴于特定的測驗題目;3)可發(fā)現靠猜測作答或表現異常的被試;4)具有分數等值處理的功能;5)具有測試的適應性功能,可用于計算機自適應測試;6)根據項目信息量的大小來選擇對能力估計精度最有增益的項目,使測驗達到預設的滿意精度。
IRT的不足:1)因其理論假設建立在較深奧的數學基礎之上,所以普遍性上有一定的難度;2)IRT從測量模型的理論框架來講,多使用1、0記分資料的單維模型,造成其應用上的嚴重局限;3)由于受到苛刻的假設限制,必須有大樣本進行配合,否則精確度不高。
雖然CTT有許多缺點,但是由于CTT建立在較簡單的數學模型之上,易于被人理解和接受,且計算簡便,容易推廣且理論假設較弱,對實施條件要求不嚴格,因此在很長的一段時間里適用范圍較廣,但是CTT方法不能解決目前遇到的一些實質性問題。例如:隨著計算機技術的發(fā)展,測驗、考試計算機化正在成為一種重要趨勢,各種具有影響力的考試,如GRE、TOEFL等均已逐步實行機考,那么作為愈來愈熱的HSK,勢必也會遇到機考的問題,但是目前我國HSK,依舊沿用的CTT卻很難滿足機考的需要;另外CTT只能實現“試卷”之間的等值,不能實現“試題”之間的等值,因此在試題庫的建設上,CTT的不足也很明顯,這些都需要IRT的幫助,譬如由ETS組織的SAT測驗的試題分析主要是基于CTT的,但其等值過程卻是通過IRT模型而實現的。但是,IRT的理論假設建立在較深奧的數學基礎之上,接受的人群相對較少,并且需要大量的樣本配合,且包含猜測參數,不存在與原始分數低分段相對應的估計等值分數,這樣的話會增加等值誤差,基于以上的對比,綜合我國HSK現行等值設計和數據特點來說,總體上看,CCT優(yōu)于IRT。但是為了進行題庫建設及HSK計算機化我們又只能在IRT方法中擇優(yōu)。因此,在相當長的一段時間內,要做好HSK,CTT和IRT需共同存在,共同發(fā)展,共同完善。
[1]俞曉琳.項目反應理論與經典測驗理論之比較[J].南京師大學報:社會科學版,1998(4):74-77.
[2]漆書青,戴海崎,丁樹良.現代教育與心理測量學原理[M].北京:高等教育出版社,2002:82.