王 芳 燕雁 趙守盈
項目反應(yīng)理論模型應(yīng)用中需要注意的幾個問題
王 芳 燕雁 趙守盈
對IRT模型應(yīng)用中須注意的幾個重要問題做了分析與探討,包括模型的假設(shè),模型的擬合,模型對樣本大小的要求等,雖然分析與探討這些問題時主要以單維參數(shù)IRT模型為焦點,但非參數(shù)IRT模型以及多維IRT模型的應(yīng)用也同樣涉及這些問題。這些模型擁有某些特別的優(yōu)勢,在某些情況下應(yīng)用是恰當(dāng)?shù)?,但在健康評估領(lǐng)域并不是全部適用。
項目反應(yīng)理論;模型假設(shè);模型選?。荒P蛿M合;樣本量
近年來,隨著我國心理測量研究不斷發(fā)展,項目反應(yīng)理論得到越來越多學(xué)者的關(guān)注,在實踐領(lǐng)域的應(yīng)用也越來越多。以全文出現(xiàn)“項目反應(yīng)理論”在中國知網(wǎng)進(jìn)行檢索,得到如表1所示檢索結(jié)果,足以看出項目理論在我國發(fā)展之迅速。但由于項目反應(yīng)理論本身有其特殊要求,為了避免誤用,對項目反應(yīng)理論應(yīng)用中必須注意的問題進(jìn)行研究與討論有非常重要的意義與價值。本文從以下四個方面探討項目反應(yīng)理論應(yīng)用中值得注意的問題(見表1)。
表1 中國知網(wǎng)全文轉(zhuǎn)載有關(guān)項目反應(yīng)理論內(nèi)容論文篇數(shù)統(tǒng)計
單維參數(shù)IRT模型有一個非常重要的假設(shè),就是所有項目所測量的心理品質(zhì)只有一種,即保證測量的目標(biāo)為單一心理結(jié)構(gòu),項目間的協(xié)方差能夠被單一潛在維度解釋,檢驗這一假設(shè)是否得到滿足的方法之一是對項目做主成分分析,考察特征根值的相對大小[1](Reckase M D.A,1977)。探索性因素分析常用特征根的值大于1這一標(biāo)準(zhǔn)來確定因子個數(shù)[2](Loeh Lin,1987),但在IRT應(yīng)用中,即便是特征根大于1的因子有多個時,依然可以認(rèn)為單維性假設(shè)成立。確定因子數(shù)的另一種方法是考察特征根碎石圖[2~4],(Cattell,1966;1978;L oeh Lin,1987)。這種方法是通過特征根的值迅速下降,曲線降轉(zhuǎn)變?yōu)槠骄従€型的節(jié)點來確定因子數(shù)目。例如,對一30個項目的測驗進(jìn)行主成分分析,發(fā)現(xiàn)特征根大于1的因子有5個,不過第一因子的特征根(13.37)明顯大于其他4個因子(1.6,1.5,1.4,1.1),而且30個項目中有29個項目在第一個因子上的標(biāo)準(zhǔn)化因子載荷大于0.35,分布區(qū)間為0.28到0.81之間,平均載荷值為0.65,根據(jù)這些觀察結(jié)果即可以斷定該測驗為單一維度,滿足IRT的單維性假設(shè)[5](Orlando,Sherbourne, &Thissen,2001)。這就是說可以綜合考察特征根的大小,第一因子各項目的載荷值分布范圍以及各項目在第一因子上的載荷值大小來確定IRT單維性假設(shè)是否得以滿足。同樣,對于幾個擁有二階因子結(jié)構(gòu)的項目組來說,如果所有二階因子都在同一個高階因子上有較大載荷值,也可以認(rèn)為單維性假設(shè)得到滿足[6](羅洪剛等,2012)。另外,對于認(rèn)知性測驗來說,也可以運用哥特曼量表譜評價單維性假設(shè)是否得到滿足。當(dāng)不能確切判斷單一維度假設(shè)是否滿足時,考察IRT模型的分析結(jié)果是否因為違背單維性假設(shè)而出現(xiàn)異常就變得非常重要(比如,是否存在1個或多個區(qū)分度特別低的項目)。此外,如果將項目的反應(yīng)結(jié)果看作連續(xù)型數(shù)據(jù)不合適,最好采用分類數(shù)據(jù)探索性因素分析技術(shù)。
IRT模型的第二個假設(shè)就是局部獨立性,這一點從技術(shù)層面講也屬于單維性假設(shè),要求除了與測量的目標(biāo)之間的關(guān)系,項目間不應(yīng)該有另外的系統(tǒng)性共變,否則就稱為項目間存在局部依存關(guān)系(LD)。局部依存的潛在源頭是項目有相同的題干(如所有項目都涉及身體疼痛,經(jīng)歷等),項目擁有非常相似的內(nèi)容或者項目循序出現(xiàn)等。有學(xué)者編制了檢驗二值計分項目局部依存的軟件[7](Chen& Thissen,1997),但檢驗多值計分的項目依存性合適的軟件還沒有。檢驗多值計分項目依存的替代性方法是驗證性因子分析,在驗證性因子分析中,如果單一因子殘差矩陣有過量的共變,則預(yù)示存在局部依存,仔細(xì)考察這一殘差矩陣或者觀察與單一因子分析結(jié)果對應(yīng)的模型修正指數(shù)即可發(fā)現(xiàn)是否存在局部依存。除此之外,IRT的分析結(jié)果也可以提供一些有用信息。對于短量表來說,這些做法尤其有效。如果存在局部依存,就會衍生新的測量目標(biāo)變量。如果兩個項目存在高的局部依存,則這兩個項目的區(qū)分度就會顯著大于其他項目,在這種情況下,應(yīng)該將其中一個項目刪除,再重新進(jìn)行IRT分析。參數(shù)IRT模型應(yīng)用中涉及的最基本假設(shè)之一是模型必須適用于數(shù)據(jù)。對這一假設(shè)進(jìn)行檢驗涉及模型的選擇和模型擬合分析問題,接下來對這兩個問題做詳細(xì)討論。
研究者已經(jīng)提出了多種IRT模型[8](Thissen and Steinberg,1986)在為數(shù)據(jù)選擇合適的IRT模型時首先要考慮的問題是項目反應(yīng)的類別數(shù)。對于二值計分的項目來說,單參、雙參以及三參邏輯斯蒂模型均可用,對于多值計分項目來說,各種部分計分模型[9~13](PCM,Masters,1982;RSM,Andrich,1978a, 1978b;GPCM,Muraki,1992,1997),等級反應(yīng)模型[14,15](GRM,Samejima,1969,1997)以及稱命模型[16](Bock, 1972)均會用到,其中等級反應(yīng)模型常用于順序性反應(yīng)項目,稱名模型常用于無確定性順序反應(yīng)項目。
Rasch模型也是常用的IRT模型。Rasch模型的獨到特點是假定所有項目與作為測量目標(biāo)的潛在特質(zhì)之間存在相同的相關(guān)關(guān)系,因此,所有項目的區(qū)分度參數(shù)相同。不管是二值計分還是多值計分項目,選擇模型時必須考慮的一個重要問題就是是否將區(qū)分度參數(shù)釋放的問題,也就是是否允許不同的項目有不同的區(qū)分度。如果要釋放項目區(qū)分度參數(shù)則應(yīng)該選擇除Rasch模型之外的其他IRT模型,如果不釋放區(qū)分度參數(shù)則Rasch模型更為合適,因為這一類模型更為簡約,因而其運算優(yōu)勢也較為明顯(比如,Rasch模型軟件可以更為豐富的分析結(jié)果,而且直接給出模型擬合的分析結(jié)果)。不過,因為對項目區(qū)分度做了限定,即要求所有項目的區(qū)分度相同,所以Rasch模型在精確反應(yīng)數(shù)據(jù)信息方面存在一定局限。
除了項目區(qū)分度參數(shù)的釋放問題,對于二值計分的項目來說還應(yīng)考慮其猜測參數(shù)問題,這一問題通常是出現(xiàn)在學(xué)業(yè)測量中。當(dāng)然,在學(xué)業(yè)測量之外也有人考慮過這一問題[16](如Reise&Waller,2003),但由于其解釋較為模糊,所以使用并不普遍。
對于多值計分項目,稱名模型適用于對項目的作答無具體順序性的情況,比如,在健康研究領(lǐng)域,對項目的反應(yīng)多為多個類別且有一定的順序性,因此,不管是GPCM(或者是Rasch模型中的PCMs)還是GRM都是適用的模型。在這兩類模型中做進(jìn)一步選擇通常取決于研究人員的偏好或者研究人員對這兩種模型軟件的熟悉程度。(PARSCALE分析PCM模型更為容易,MULTILOG更適于GRM模型)。運用TESTGRF軟件[17](Ramsay,1995)生成項目的描述圖對于確定適合數(shù)據(jù)的恰當(dāng)IRT模型也能提供一些有用的參考信息。
所有IRT模型的應(yīng)用都是基于模型正確這一基本假設(shè),IRT模型的應(yīng)用價值依賴于其對于數(shù)據(jù)信息反映的程度。在對IRT模型與數(shù)據(jù)的擬合分析中,期望有一種診斷性工具來評價模型與數(shù)據(jù)擬合的程度,模型的擬合可以通過比較模型預(yù)測結(jié)果與被試的真實作答結(jié)果之間的差異大小進(jìn)行分析,已經(jīng)有多種方法來實現(xiàn)這一思想。
對模型總體擬合情況進(jìn)行直接評價存在很多挑戰(zhàn),也很少使用。不過,對IRT模型與數(shù)據(jù)之間的擬合進(jìn)行相對性評價運用較多,其公式如下:
這一評價是通過對嵌套模型進(jìn)行對數(shù)似然比計算實現(xiàn)的,這一統(tǒng)計量符合x2分布,例如,檢驗2PL和3PL模型對一組項目的相對擬合情況,可以檢驗其差異的顯著性,其公式如下:
其D統(tǒng)計值符合x2分布,其自由度等于兩個模型參數(shù)的差異。如果分析結(jié)果達(dá)到顯著水平則認(rèn)為3PLM對數(shù)據(jù)的擬合度更好。
除了對模型與數(shù)據(jù)的總體擬合情況外,還可以評價每個項目的擬合情況,對于Rasch模型來說,由于觀察分?jǐn)?shù)可以作為被試能力水平θ的統(tǒng)計值,各分?jǐn)?shù)組的模型預(yù)測的比例也可以直接與實際觀察的結(jié)果進(jìn)行比較,所以,Rasch模型的項目擬合統(tǒng)計量的建構(gòu)相對容易。到目前,研究者已經(jīng)提出了多種用于檢驗Rasch模型下項目擬合優(yōu)度的統(tǒng)計量[18~22](Anderson,1973;Glas,1988;Rost&Davier,1994; Wright&Mead,1977;Wright Panchapakesan,1969),這些統(tǒng)計量在Rasch模型專用軟件包的分析結(jié)果中也大多可以得到。
目前,研究者也構(gòu)建了多種針對2PLM和3PLM的項目擬合優(yōu)度統(tǒng)計量,因為對于這兩種模型來說,被試的能力為潛在變量,模型預(yù)測的答對比例作為能力水平的函數(shù),通常不能直接與觀察數(shù)據(jù)進(jìn)行比較,所以這些統(tǒng)計量的建構(gòu)就復(fù)雜得多。
有些針對二值計分項目的2PLM和3PLM的項目擬合優(yōu)度是按照這樣的思路建構(gòu)的:以基于模型估計的能力水平對被試進(jìn)行分組,然后計算各組的觀察結(jié)果以及模型預(yù)測結(jié)果,并將這兩種結(jié)果的差異作為項目擬合優(yōu)度的統(tǒng)計量,Yen的Q1[23](Yen,1981),Bock的x2[24](Bock,1972),以及McKinLey和Mill[25](1985)在Yen的基礎(chǔ)上提出的似然比G2統(tǒng)計量都屬此類項目擬合優(yōu)度統(tǒng)計量,當(dāng)項目數(shù)多于20個時,BiLOG軟件分析結(jié)果中會給出這些統(tǒng)計量,但在對這些統(tǒng)計量進(jìn)行解釋時必須謹(jǐn)慎,因為其I類錯誤有被放大的傾向。
近年來有研究從另外角度提出來了一些新的項目擬合優(yōu)度統(tǒng)計量[26,27](Orlando&Thissen,2000; 2003),這一統(tǒng)計量只針對二值計分的項目,以各總分組被試模型預(yù)測和實際觀察的答對頻數(shù)與答錯頻數(shù)為基礎(chǔ)來計算,這一基于總分的方法構(gòu)建了兩個新的統(tǒng)計指標(biāo):S-x2(Pearson x2值)和S-G2(似然比統(tǒng)計量G2)。但針對多值計分的以似然方法為基礎(chǔ)的項目擬合優(yōu)度指數(shù)的算法還在研究過程中(Bjorner等)。雖然這些項目擬合優(yōu)度統(tǒng)計量在部分商用軟件中還不能計算,但研究人員對這些統(tǒng)計量的興趣越來越強(qiáng),已經(jīng)開發(fā)出了免費的計算S-x2的軟件。
也有研究者提出了用圖形直觀呈現(xiàn)項目擬合情況的方法,這些圖形往往與項目擬合的統(tǒng)計指標(biāo)結(jié)合使用,或者作為項目擬合情況的初步診斷。Hambleton和Swaminathan[28](1985)提出了一種通過圖形直觀比較各能力組被試在項目的平均觀察表現(xiàn)與模型預(yù)測表現(xiàn)的方法。Wainer和Mislevy[29](1990)提出了與之相似的另一種圖示方法,他們將觀察數(shù)據(jù)和描線結(jié)合在一起構(gòu)建項目擬合情況直觀圖。Kingston和Dorans[30](1985)將項目作答結(jié)果與能力水平的回歸曲線作為判斷項目擬合情況的工具。也有研究者以后驗概率分布為基礎(chǔ)構(gòu)建項目擬合情況圖[31,32](Drasgow等,1995,Mislevy和Bock,1986)。
就樣本大小來說,雖無確定性的要求,但也有一些一般性論述和指導(dǎo)性原則。
首先,模型參數(shù)越少,對樣本量的要求也越小,模型越復(fù)雜,需要的樣本量越大。有研究者認(rèn)為,要得到穩(wěn)定的參數(shù)估計量,樣本量不能少于100(Linacre,1994),對于最簡單的Rasch模型來說,至少需要50個樣本。Tsutakawa和Johnson[33](1990)建議,要使模型參數(shù)得以精確估計,樣本量應(yīng)該接近500。不過,有其他學(xué)者建議有200個觀察樣本或者再少一點都可以[34,35](如對于DIF的檢驗,Qrlando& Marshall,2002;Thissen,Steinberg&Gerrard,1986)。
其次,樣本量越大,IRT的項目參數(shù)和被試分?jǐn)?shù)的估計就越精確(標(biāo)準(zhǔn)誤更小),這意味著參數(shù)估計的目的是一個值得考慮的問題。不同的問題和不同的目的,對精確度水平的要求也不同。例如,如果以評價問卷質(zhì)量為目的,則不需要太大的樣本量。但如果是以獲得被試在一個問卷上的精確IRT分?jǐn)?shù)為目的,或者是為建設(shè)題庫對項目進(jìn)行校準(zhǔn),則需要較大的樣本量。
另外一個值得考慮的問題是被試樣本的能力(潛在心理特質(zhì))分布,較大的同質(zhì)性被試樣本不能夠反映被試總體的特征,所以只能獲得潛在特質(zhì)某一有限區(qū)間范圍內(nèi)得到參數(shù)的精確估計結(jié)果。從理論上來說,被試的能力水平(潛在特質(zhì))在這一區(qū)域范圍內(nèi)應(yīng)該呈均勻分布,落在能力(潛在特質(zhì))分布兩邊較為極端位置的項目,如果這一位置的被試較少,項目越滿足IRT的單維性假設(shè)及條件獨立性假,而且難度水平也存在一定的差異,則需要的樣本量就越小。
另外,項目得分與作為測量目標(biāo)的潛在特質(zhì)之間的相關(guān)也是一個重要問題,如果相關(guān)較弱則需要較大的樣本量[36](Thissen,2003)。還有,項目的反應(yīng)類別越多,則待估計的項目參數(shù)也就越多,需要的樣本量也就越大。在理想情況下,項目的各種作答結(jié)果上都應(yīng)該有被試,不過,在實際情況下,這一點很難得到滿足,至少是要求項目的各個反應(yīng)類型都有被試選擇,這樣才能保證IRT模型的各個分析指標(biāo)及項目參數(shù)得以全部估計。
[1]Reckase M D.A linear logistic multidimensional model for dichoto?mous item response data.In W.J.van der Linden and Ronald K. Hambleton(Eds),Handbook ofmodern item response theory(pp.271-286)[M].New York:Springer-Verlag.1977.
[2]Loehlin J C.Latent variable models[M].New Jersery:Lawrence Erl?baum Associates.1987.
[3]Cattell R B.The scientific use of factor analysis[M].New York:Ple?num.1978.
[4]Cattell R B.The screetest for the number of factors[M].1966:1, 245-267.
[5]Orlando M A T D.Likelihood-based item-fit indices for dichoto?mous item response theory models[M].2001:24,50-64.
[6]羅洪剛,羅杰,趙守盈.Guttman量表諳及其發(fā)展[J].黔南民族師范學(xué)院學(xué)報,2012(4).
[7]Chen W H T D.Local dependence indices for item pairs using item response theory[M].1997:22,265-289.
[8]Thissen D S L.A Taxonomy of Item Response Models[M].1986:51, 567-577.
[9]Masters G N.A Rasch model for partial credit scoring[M].1982: 47,149-174.
[10]Andrich D.Application of a psychometric rating model to ordered categories,which are scored with successive integers[M].1978:2, 581-594.
[11]Muraki E.A generalized partial credit model:Application of the EM algorithm[M].1992:16,159-176.
[12]Muraki E.A generalized partial credit model.In W.van der Linden &R.K.Hambleton(Eds.)[M].New York:Springer,1997:153-164.
[13]F.S.Estimation of latent ability using a response pattern of graded scores[M].1969:17.
[14]F.S.Graded response model.In W.van der Linden&R.K.Hamble?ton(Eds.)[M].New York:Springer.,1997:85-100.
[15]Bock R D.Estimating item parameters and latent ability when re?sponses are scored in two or more nominal categories[M].1972:37, 29-51.
[16]Reise S P W N.How many IRT parameters does it take to model psychopathology items?[M].2003:8,164-184.
[17]Ramsay J O.TestGraf-A Program for the Graphical Analysis of Multiple Choice Test and Questionnaire Data[Computer software] [M].Montreal:McGill University,1995.
[18]Anderson E.A goodness of fit test for the rasch model[M].1973:38,123-140.
[19]Glas C A W.The derivation of some tests for the Rasch model from the multinomial distribution[M].1988:53,525-546.
[20]Rost J V D M.A conditional item-fit index for rasch models[M]. 1994:18,171-182.
[21]Wright B M R.BICAL:Calibrating items and scales with the Rasch model(Research Memorandum No.23)[M].Chicago IL:University of Chicago,Department of Education,Statistical Laboratory,1977.
[22]Wright B P N.A procedure for sample-free item analysis[M].1969: 29,23-48.
[23]Yen W.Using simulation results to choose a latent trait model[M]. 1981:5,245-262.
[24]Bock R D.Estimating item parameters and latent ability when re?sponses are scored in two or more nominal categories[M].1972:37, 29-51.
[25]Mckinley R M C.A comparison of several goodness-of-fit statistics [M].1985:19,49-57.
[26]Orlando M A T D.Likelihood-based item-fit indices for dichoto?mous item response theory models[M].2000:24,50-64.
[27]Orlando M A T D.Further examination of the performance of S-x2, an item fit index for dichotomous item response theory models[M]. 2003:27,289-298.
[28]Hambleton R K S H.Item response theory:principles and applica?tions[M].Boston:Kluwer-Nijhoff,1985.
[29]Wainer H M R J.Item response theory,item calibration,and profi?ciency estimation.In H.Wainer,N.J.Dorans,R.Flaugher,B.F.Green, R.J.Mislevy,L.Steinberg,&D.Thissen,Computerized adaptive testing: A primer(65-101)[M].Hillsdale NJ:Lawrence Earlbaum Associ?ates,1990.
[30]Kingston N D N.The analysis of item-ability regressions:an explor?atory IRT model fit tool[M].1985:9,281-288.
[31]Drasgow F L M V.Fitting polytomous item response theory models to multiple-choice tests[M].1995:19,143-165.
[32]Mislevy R J B R.Bilog:item analysis and test scoring with bianry lo?gistic models[M].Mooresville,Indiana:Scientific Software,1986.
[33]Tsutakawa R K J J.The effect of uncertainty of item parameter esti?mation on ability estimates[M].1990:55,371-390.
[34]Orlando M.Marshall G N.Differential item functioning in a Span?ish translation of the PTSD checklist:detection and evaluation of impact[M].2002:14,50-59.
[35]Thissen D S L.A Taxonomy of Item Response Models[M].1986:51, 567-577.
[36]Thissen D.Estimation in Multilog,in M.du Toit(ed.),IRT from SSI: Bilog-MG,Multilog,Parscale,Testfact,Lincolnwood[M].IL:Scientific Software International,2003.
Some Key Issues Concerning the Application of Item Response Theory
WANG Fang,YAN Yan&ZHAO Shouying
Several Key Issues concerning the application of IRT were explored in depth,including the hypothesis of IRT model,the model fit of IRT and the appropriate sample size.Though these Issues were discussed mainly based on parameter IRT models,we never meant that these issues have nothing to do with non-parameter IRT models. These models are relatively advantageous in some areas and need to be applied appropriately.However not of all these models are appropriate when used in health assessment.
Item Response Theory;Model Hypothesis;Model Choice;Model Fit;Sample Size
G405
A
1005-8427(2015)02-0020-5
王 芳,女,貴州師范大學(xué)心理碩士研究生(貴陽 550001)
燕 雁,女,貴州航天職業(yè)技術(shù)學(xué)院,助教,貴州師范大學(xué)碩士研究生(貴州遵義 563000)
趙守盈,男,貴州師范大學(xué)教授,碩士研究生導(dǎo)師(貴陽 550001)