亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

應(yīng)用非參數(shù)項目反應(yīng)理論模型分析人格量表*——以EPQ 個性問卷N 分量表為例

2015-12-27 06:25:26王曉潔張敏強(qiáng)簡小珠蔡圣剛

心理學(xué)探新 2015年1期

王曉潔，張敏強(qiáng)，簡小珠，蔡圣剛

(1.華南師范大學(xué)心理學(xué)院/心理應(yīng)用研究中心，廣州510631;2.井岡山大學(xué)教師教育研究中心，吉安343009;3.華南師范大學(xué)經(jīng)濟(jì)與管理學(xué)院，廣州510631)

1 前言

1.1 項目反應(yīng)理論和非參數(shù)項目反應(yīng)理論在人格量表中的應(yīng)用

項目反應(yīng)理論(Item Response Theory，簡稱IRT)是相對于經(jīng)典測量理論(Classical Testing Theory，簡稱CCT)而言的一種新的測量理論，它較多應(yīng)用在成就測驗中，而隨著理論的發(fā)展，其應(yīng)用領(lǐng)域已擴(kuò)展到了人格量表。Roskam(1985)率先指出IRT項目參數(shù)在人格量表中的意義。隨后，越來越多IRT 模型用于人格量表的研究，主要集中在量表的項目分析和記分解釋方面，并將IRT 方法與傳統(tǒng)的CTT 方法進(jìn)行比較(Lange ＆ Houran，1999;Rapson，2005;朱寧寧，張厚粲，2005;楊業(yè)兵等，2008)。Reise 和Waller(2003)對進(jìn)行人格量表數(shù)據(jù)分析的IRT 模型選擇進(jìn)行了討論。

這些研究都基于參數(shù)項目反應(yīng)理論(Parametric Item Response Theory，簡稱PIRT)，使用2PLM、3PLM或等級反應(yīng)模型等PIRT 模型。近十年，有研究者開始關(guān)注項目反應(yīng)理論中另一大分支——非參數(shù)項目反應(yīng)理論(Nonparametric Item Response Theory，簡稱NIRT)在人格量表中的應(yīng)用研究。Junker 和Sijtsma(2001)對非參數(shù)項目反應(yīng)理論的使用提出三條理由:(1)為參數(shù)項目反應(yīng)模型提供一種更深的理解;(2)為參數(shù)項目反應(yīng)模型的局限性提出更適應(yīng)更有彈性的框架;(3)為短量表和小樣本提供比大樣本測驗更容易更準(zhǔn)確的方法。

Chernyshenko 等人(2001)將NIRT 模型應(yīng)用到人格量表中，他們分別用2PLM，3PLM，等級反應(yīng)模型和NIRT 模型與16PF 和大五人格測驗數(shù)據(jù)進(jìn)行擬合比較，發(fā)現(xiàn)非參數(shù)模型與實際數(shù)據(jù)擬合最好。Meijer 和Baneke(2004)進(jìn)一步探索應(yīng)用NIRT 模型解釋和分析人格量表，并與PIRT 模型比較。他們將MMPI-2 中的抑郁分量表與莫肯模型(Mokken Model)進(jìn)行擬合分析，說明NIRT 模型易于應(yīng)用并且能夠避免PIRT 模型得到的錯誤結(jié)果。另外，NIRT 模型還常用于構(gòu)建等級量表(Hierarchical scale)(Stewart ＆ Watson，2010;Watson ＆ Robert，2008)。

1.2 非參數(shù)項目反應(yīng)理論模型介紹

Meredith 于1965 年將非參數(shù)模型引入項目反應(yīng)理論中，Mokken(1971，1997)在此基礎(chǔ)上將NIRT模型做了系統(tǒng)的闡述與研究，提出適用于二級記分項目的Mokken 模型。非參數(shù)項目反應(yīng)理論的基本思想是:用被試在量表中的得分來對被試的潛在特質(zhì)進(jìn)行排序，而這樣排序的結(jié)果與用被試的潛在特質(zhì)排序的結(jié)果等效。與PIRT 模型不同，Mokken 模型不定義被試應(yīng)答模式與潛在特質(zhì)之間的函數(shù)關(guān)系。也就是說，當(dāng)數(shù)據(jù)與Mokken 模型擬合時，只能得到被試潛在特質(zhì)在此特質(zhì)量尺上的位置信息，而不能得到被試潛在特質(zhì)與項目參數(shù)的點估計值。

Mokken(1971，1997)提出兩種模型——單調(diào)勻質(zhì)模型(The Monotone Homogeneity Model，MHM)和雙單調(diào)模型(The Double Monotonicity Model，DMM)，DMM 比MHM 多了一個不變的項目順序假設(shè)，可以認(rèn)為DMM 是MHM 的特例。MHM 基于三個基本假設(shè):(1)單維性，(2)局部獨立性，(3)項目反應(yīng)函數(shù)的單調(diào)性。如果一個數(shù)據(jù)集滿足以上三個假設(shè)，就稱其為Mokken 量表。

1.2.1 Mokken 模型擬合檢驗

在Mokken(1971，1997)模型中，適宜性系數(shù)H(Scalability coefficient)表示量表數(shù)據(jù)結(jié)構(gòu)與期望量表結(jié)構(gòu)的誤差。適宜性系數(shù)有三種:由項目j 和項目k 組成的成對試題的適宜性系數(shù)Hjk、項目j 的適宜性系數(shù)Hj和整個量表適宜性系數(shù)H。分別定義如下:

其中，Xj和Xk分別表示被試在項目j 和項目k上的得分，Cov(Xj，Xk)表示Xj和Xk的協(xié)方差，Covmax(Xj，Xk)為邊緣分布情況下，項目j 和項目k的最大協(xié)方差。Mokken(1971)根據(jù)適宜性系數(shù)對Mokken 量表作出以下定義:(1)量表中所有項目對的協(xié)方差值或成對適宜性系數(shù)值為正，Cov(Xj，Xk)＞0 或Hjk＞0，j≠k，并且(2)所有的項目適宜性系數(shù)值大于或等于常數(shù)c，Hj≥c，0 ＜c ＜1。通常選擇c=0.3。

適宜性系數(shù)不但是數(shù)據(jù)與模型擬合的指標(biāo)，Hj也可作為項目j 的區(qū)分度指標(biāo)，與Logistic 模型中的a 參數(shù)類似。Mokken(1986)和Koning(2002)等人指出H 值越高，根據(jù)量表總分對被試潛質(zhì)進(jìn)行排序就越有效。

單維性假設(shè)檢驗:自下而上的順序選題過程(Bottom-up item selection procedure)是根據(jù)適宜性系數(shù)從題庫中構(gòu)建一個或多個單維量表的方法(Hemker，Sijtsma，＆ Molenaar，1995)。MSP5 軟件提供了構(gòu)建單維量表的自動選題程序(Molenaar ＆ Sijtsma，2000)。Hemker，Sijtsma 和Molenaar(1995)根據(jù)模擬實驗結(jié)果，建議用順序選題法檢驗量表維度時，應(yīng)選擇不同的適宜性系數(shù)下限c 多次運行自動選題程序，并總結(jié)出判斷量表維度的法則。

單調(diào)性假設(shè)檢驗:項目j 的單調(diào)性就是檢驗它的正向應(yīng)答概率是否為潛質(zhì)水平的非遞減函數(shù)?？梢栽贛SP5 中進(jìn)行檢驗(Molenaar ＆ Sijtsma，2000)，其中每個項目的Crit 值作為單調(diào)性的指標(biāo)，若Crit值超過80，則不滿足單調(diào)性;若Crit 值在40 和80 之間，應(yīng)根據(jù)項目內(nèi)容和量表目的考慮是否保留;若Crit 值小于40，則認(rèn)為它基本滿足單調(diào)性，個別的違背單調(diào)性情況可視為被試抽樣誤差。

1.2.2 項目反應(yīng)函數(shù)及特征曲線

在Mokken 模型中，通常使用核平滑方法估計項目反應(yīng)函數(shù)(Item Response Function，IRF)，它是一種非參數(shù)回歸方法，基于局部加權(quán)的思想。通過TestGraf 軟件能夠得到各個項目在其余分?jǐn)?shù)上的IRF 直觀圖示，即項目特征曲線(Item Characteristic Curve，ICC)(Ramsay，2000)，其余分?jǐn)?shù)指除被檢驗的項目外，其他項目的量表總分。Mokken 模型對IRT 沒有特定形式，如Logistic 的要求，與實際數(shù)據(jù)吻合。

1.2.3 平均項目信息函數(shù)

TestGraf 提供了幾種檢驗潛質(zhì)測量準(zhǔn)確性的方法，平均項目信息曲線是其中一種(Ramsay，2000)。二級記分項目的信息函數(shù)為

這里的潛質(zhì)值θ 同樣由其余分?jǐn)?shù)代替。Pj(θ)使用核平滑方法計算，表示潛質(zhì)為θ 的被試在第j 個項目選擇1 時的概率。平均項目信息量越大，說明根據(jù)總分對被試潛質(zhì)進(jìn)行排序的結(jié)果越準(zhǔn)確。同時，從平均項目信息曲線還可以得出量表測量特性信息。

1.3 研究目的

以艾森克個性問卷(Eysenck Personality Questionnaire，EPQ)中的情緒穩(wěn)定性(N)分量表為例(龔耀先，1983)，比較Mokken 模型及PIRT 模型與量表的擬合度、項目分析和測量準(zhǔn)確性等結(jié)果，PIRT 模型選擇2PLM 和3PLM。從而分析NIRT 模型用于人格測驗分析的可行性、優(yōu)勢和適用性。

2 方法

2.1 測量工具及被試

選用龔耀先1983 年修訂的艾森克個性問卷成人版(EPQ)中的情緒穩(wěn)定性(N)分量表(龔耀先，1983)，該分量表共有24 個項目。被試為來自廣州某高校的1451 名在校大學(xué)生，其中男生799 人，女生652 人，平均年齡為19.49 ±1.03。所有被試完成EPQ 問卷所有88 個項目。

2.2 統(tǒng)計分析

使用MSP5 檢驗量表的單調(diào)性和單維性，并計算量表適宜性系數(shù)H 及各項目的適宜性系數(shù)Hj，使用TestGraf98 軟件估計Mokken 模型下各項目的IRF 和平均項目信息函數(shù)，得到項目ICC 和平均項目信息曲線。PIRT 的參數(shù)值、及其ICC、測驗信息曲線由MULTILOG7.03 估計得出，用BILOG3.0 計算實際數(shù)據(jù)與2PLM、3PLM 的擬合χ2值。為了驗證MSP5 檢驗單維性的準(zhǔn)確性，再使用SPSS15.0 對數(shù)據(jù)進(jìn)行主成分分析。

3 結(jié)果

3.1 假設(shè)檢驗

3.1.1 單調(diào)性檢驗

首先在MSP5 中進(jìn)行單調(diào)性檢驗，結(jié)果顯示除項目27 外，其余23 個項目沒有出現(xiàn)任何違背單調(diào)性的情況。項目27 的Crit = 26 ，小于40，那么可以認(rèn)為它出現(xiàn)的個別違背單調(diào)性情況是由抽樣誤差引起的。經(jīng)過檢驗，可以認(rèn)為N 分量表中24 個項目全部滿足單調(diào)性假設(shè)。而且所有項目的ICC 都是單調(diào)遞減的，驗證MSP5 檢驗單調(diào)性的準(zhǔn)確性。

3.1.2 單維性檢驗

從c = 0.1 開始，由低到高選擇不同的適宜性系數(shù)下限c，在MSP5 中多次運行自動選題程序來檢驗量表的單維性。結(jié)果顯示，當(dāng)下限c = 0.1 和0.2 時，得到相同的量表，所有項目都在這個量表中，沒有項目被拒絕，量表的適宜性系數(shù)H = 0.33 。將下限提高到0.3 時，項目15、27、51、67、86 與其他項目不在同一量表中，得到19 個項目的量表，量表的適宜性系數(shù)H = 0.38 。而當(dāng)c = 0.4 時，量表變?yōu)?0 個項目，量表適宜性系數(shù)H = 0.44 ，并形成另外三個更小的量表，還有6 個項目被拒絕。根據(jù)Hemker 的經(jīng)驗法則(Hemker，Sijtsma，＆ Hamers，1995)，可以將下限為0.2 或者0.3 時的量表作為最終結(jié)果，因此，情緒穩(wěn)定性量表滿足單維性假設(shè)。

應(yīng)用SPSS15.0 對數(shù)據(jù)進(jìn)行主成分分析，結(jié)果發(fā)現(xiàn)分量表第一和第二因子的負(fù)荷量分別為24.8%和5.5%，第一因子負(fù)荷量是第二因子的4.5 倍，而且碎石圖的第一因子拐點明顯，可以認(rèn)為此分量表滿足單維性要求。

3.2 項目分析

在Mokken 模型下，計算每個項目的適宜性系數(shù)Hj。估計被試在2PLM 和3PLM 中的參數(shù)值，并對所選Logistic 模型與實際數(shù)據(jù)的擬合性做χ2檢驗。所有結(jié)果見表1。

所有項目的Hj值在0.24 到0.44 之間，2PLM和3PLM 的a 參數(shù)值在0.82 到2.13 之間，都在正常范圍內(nèi)，說明所有項目都有較好的區(qū)分度。仔細(xì)觀察Hj與2PLM 和3PLM 的a 參數(shù)值的關(guān)系，發(fā)現(xiàn)Hj與a 參數(shù)大小基本一致。Hj大于0.35 的項目，a參數(shù)值大多都在1.50 以上，Hj小于0.30 的項目，a參數(shù)值都在1.20 以下。而項目12、73 和82 不遵循此規(guī)律，項目12 的適宜性系數(shù)在24 個項目中最大，H12= 0.44 ，但是a 參數(shù)值卻偏小，只有1.15 和1.18。項目82 類似，H82= 0.33 ，是中等水平，a 參數(shù)值在24 個項目中最小，為0.82 和0.83。

2PLM 與實際數(shù)據(jù)的χ2檢驗結(jié)果顯示項目12、35、73 和82 與模型不擬合，3PLM 與實際數(shù)據(jù)的χ2檢驗結(jié)果顯示除27、59、63 和74 項目外，其他均與模型不擬合，那么不適合用3PLM 分析N 量表。

單調(diào)性與單維性檢驗結(jié)果顯示24 個項目都與Mokken 模型擬合，可以認(rèn)為N 量表是Mokken 量表，H = 0.33 。

表1 N 量表各項目的Hj 及2PLM、3PLM 中的a 參數(shù)值

3.3 項目特征曲線

分別估計24 個項目在Mokken 模型和2PLM 下的ICC，由于TestGraf 得到的是選項特征曲線，而N量表為二級記分，所以圖中有兩條對稱的曲線，標(biāo)為1 的即為該項目的特征曲線。對比兩種模型下的ICC，結(jié)果發(fā)現(xiàn)大部分項目在兩個模型中的ICC 圖非常接近，而4 個與2PLM 不擬合的項目在兩種模型下的ICC 差異較大，尤其是項目12 與82。圖1給出這兩個項目的ICC 圖，在Mokken 模型下的ICC不符合Logistic 形態(tài)，見圖1a，它們的曲線在低分段急劇上升，高分段變化平緩，項目12 選擇1 的概率范圍在0 到0.9 之間的被試其余分?jǐn)?shù)約為0 到8，項目82 選擇1 的概率范圍在0 到0.9 之間的被試其余分?jǐn)?shù)約為0 到10。這說明它們能夠較好區(qū)分中低分被試，而且區(qū)分度較高，特別是項目12，H12=0.44 。如果用2PLM 的ICC 分析這兩個項目，見圖1b，則在低分段急劇上升的趨勢不明顯，不能反映數(shù)據(jù)的真實情況，從而得出這兩個項目區(qū)分度不高的錯誤結(jié)果。

從這兩個項目看出，采用與數(shù)據(jù)不擬合的模型分析項目會得出錯誤結(jié)果。如果刪除又錯過有用信息，因為這些項目本身可能有應(yīng)用價值。如項目12 與82 相比其它項目能夠更有效地區(qū)分中低分被試。

圖1a 項目12、82 在Mokken 模型下的ICC

圖1b 項目12、82 在2PLM 下的ICC

3.4 測量準(zhǔn)確性

個不擬合項目，剩余19 個項目的平均項目信息曲線。圖2c 和2d 分別是2PLM 中，24 個項目和刪除4 個不擬合項目后的測驗信息曲線。

圖2a Mokken 模型下24 個項目平均項目信息曲線

圖2b Mokken 模型下19 個項目平均項目信息曲線

圖2c 2PLM 中24 個項目測驗信息曲線

圖2d 2PLM 中20 個項目測驗信息曲線

從圖2a 中看出，量表其余分?jǐn)?shù)為2 到18 的被試提供了較大的信息量，對于中低分的被試根據(jù)量表總分對情緒穩(wěn)定性排序的結(jié)果較準(zhǔn)確。其中被試其余分?jǐn)?shù)為7 或8 分時，項目的平均信息量最大約為0.32。而刪除項目15、27、51、67、86 后，平均項目信息量有所提高，為0. 40 左右，增量大約為0.080。N 量表在2PLM 下，測驗最大信息量為11.21，最大平均項目信息量是0.47。刪除不擬合的4 個項目，其余20 個項目的測驗最大信息量為10.3，最大平均信息量增加到0.51，增量是0.045。從中可以看出，雖然在Mokken 模型中測量準(zhǔn)確性不如2PLM 高，但也在可接受范圍內(nèi)，說明按照量表總分對被試潛質(zhì)進(jìn)行的排序是較準(zhǔn)確的。而且高M(jìn)okken 模型擬合標(biāo)準(zhǔn)，使量表平均項目信息量的增量比2PLM 刪除不擬合項目增加的平均項目信息量大0.035，差異較明顯。那么根據(jù)Mokken 模型的擬合程度鑒別刪除性能不好項目比PIRT 模型擬合檢驗更加準(zhǔn)確有效。

4 討論

文中展示NIRT 模型如何用于分析人格量表，并與PIRT 模型量表擬合性和項目分析結(jié)果做比較，從中總結(jié)出NIRT 模型用于人格測驗的優(yōu)勢和適用性。

4.1 NIRT 模型用于人格測驗的優(yōu)勢

第一，NIRT 模型基于弱假設(shè)，容易與數(shù)據(jù)擬合。只要符合單調(diào)性與單維性假設(shè)的項目都可以用NIRT 模型分析，而PIRT 模型要求數(shù)據(jù)較嚴(yán)格，沒有擬合特定形式參數(shù)模型的項目就要被刪除，但是這些項目可能在某些特定潛質(zhì)水平或特定樣本上仍然是有用的(Meijer，＆ Baneke，2004)。NIRT 模型可準(zhǔn)確地分析這些項目性能。

第二，NIRT 模型比PIRT 模型靈活，更貼近實際數(shù)據(jù)。PIRT 模型限制項目的IRF 符合Logistic 形式，可能導(dǎo)致研究者無從獲得貼近實際數(shù)據(jù)的項目IRF，而偏離了真實情況。NIRT 模型對項目IRF 沒有特定形式的要求，完全根據(jù)實際數(shù)據(jù)獲得，可能是任何形式，相比PIRT 模型更加靈活。而人格測驗的反應(yīng)模式復(fù)雜多樣，需要應(yīng)用靈活的NIRT 模型使研究者了解更多更加貼近實際情況的信息。

第三，可根據(jù)NIRT 擬合程度構(gòu)建準(zhǔn)確有效短量表。人格量表的項目一般較多，在特定情況下需要使用較短量表施測，那么提高NIRT 模型擬合標(biāo)準(zhǔn)刪除不擬合項目可以構(gòu)建測量準(zhǔn)確有效的短量表。如研究中將下限提高到0.3 時，得到19 個項目的量表，平均項目信息量明顯提高。若需要更短的量表，那么0.4 的下限可構(gòu)建10 個項目的N 量表。PIRT 模型刪除不擬合項目后，平均項目信息量提高較小。這說明與PIRT 模型不擬合的項目并不是性能最差項目，那么根據(jù)PIRT 模型擬合性構(gòu)建短量表不夠準(zhǔn)確有效。

第四，NIRT 模型原理簡單易懂。為了準(zhǔn)確反映人格量表項目存在非0 下漸近線和非1 上漸近線現(xiàn)象，Reise 和Waller(2003)提出使用4PLM。然而PIRT 模型本身算法復(fù)雜，將參數(shù)增加到4 無疑更加難以理解，參數(shù)估計也更加難以實現(xiàn)。很多研究者已經(jīng)強(qiáng)調(diào)過進(jìn)行數(shù)據(jù)推斷或檢驗假設(shè)時使用的模型越簡單和越靈活越好(Junker ＆ Sijtsma，2001;Santor ＆Ramsay，1998)。Mokken 模型建立在協(xié)方差和非參數(shù)回歸技術(shù)之上，這些方法都簡單易懂，而且MSP5 軟件和TESTGRAF98 軟件操作方便，易于掌握。

4.2 NIRT 模型用于人格測驗的適用性

綜上所述，NIRT 模型以及它相關(guān)的分析技術(shù)非常適用于人格量表分析。然而，并不是說用NIRT模型替代PIRT 模型進(jìn)行所有人格量表分析。畢竟NIRT 模型存在最大的一個弊端就是只能根據(jù)被試在量表上的總分，對潛質(zhì)特質(zhì)進(jìn)行排序，而不能直接估計被試潛質(zhì)數(shù)值，因此測量準(zhǔn)確性比PIRT 模型稍差。那么，必須要考慮NIRT 模型分析人格量表的適用性。

第一，NIRT 模型可作為PIRT 模型的補(bǔ)充。若要使用PIRT 模型，如2PLM、3PLM 分析或構(gòu)建人格量表時，可以在之前進(jìn)行NIRT 模型分析。將其作為檢驗單調(diào)性、單維性假設(shè)的方法。更重要的是NIRT 模型得到的貼近實際數(shù)據(jù)的IRF 可以作為判斷選用哪一種PIRT 模型研究數(shù)據(jù)，和對項目進(jìn)行初步分析的依據(jù)。

第二，NIRT 模型可作為PIRT 模型的替代模型。如果研究數(shù)據(jù)與PIRT 模型擬合較差，此時可以用NIRT 模型完全替代PIRT 模型進(jìn)行數(shù)據(jù)分析。

第三，NIRT 模型可用于構(gòu)建人格量表維度。常用的人格量表一般都是以某種人格理論為基礎(chǔ)，根據(jù)不同的潛質(zhì)特質(zhì)分為幾個不同維度的分量表，那么NIRT 單維性檢驗的選題策略就尤其有用。

5 結(jié)論

N 量表與Mokken 模型完全擬合，與2PLM 有4個項目不擬合，而不擬合項目用Mokken 模型分析比2PLM 模型準(zhǔn)確，根據(jù)NIRT 模型擬合程度刪除項目后，平均項目信息量的增量明顯高于根據(jù)2PLM擬合程度刪除項目后的增量。NIRT 模型適用于人格測驗，優(yōu)勢體現(xiàn)在比PIRT 模型易與數(shù)據(jù)擬合且更加靈活，有效構(gòu)建短量表，原理簡單易懂。人格測驗研究中，NIRT 模型可作為PIRT 模型的補(bǔ)充和替代模型，也可作為構(gòu)建量表維度的方法。

6 研究展望

Molenaar(2001)指出，NIRT 中的MSP5 等分析過程可以使數(shù)據(jù)得到充分的利用，從而與短量表或小樣本數(shù)據(jù)擬合。也就是說NIRT 模型適用于小樣本的數(shù)據(jù)，而PIRT 模型需要較大的樣本量，當(dāng)人格量表樣本量較小時，NIRT 模型如何體現(xiàn)出相對PIRT 模型的優(yōu)勢可作為以后的研究方向。

龔耀先.(1983).修訂艾森克個性問卷手冊.長沙:湖南醫(yī)學(xué)院.

楊業(yè)兵，苗丹民，等. (2008). 應(yīng)用項目反應(yīng)理論對《中國士兵人格問卷》的項目分析.心理學(xué)報，40(5)，611 -617.

朱寧寧，張厚粲.(2003).CTT 與IRT 方法對人格量表結(jié)果處理的比較研究.心理學(xué)探新，23(3)，48 -51.

Chernyshenko，O.S.，Stark，S.，Chan，K.，et al. (2001).Fitting item response theory models to two personality inventories:Issue and Insight.Multivariate Behavioral Research，36(4)，523-562.

Hemker，B.T.，Sijtsma，K.，＆ Molenaar，I. W. (1995). Selection of unidimensional scales from a multidimensional item bank in the polytomous Mokken IRT model. Applied Psychological Measurement，19(4)，337 -352.

Junker，B. W.，＆ Sijtsma，K. (2001). Nonparametric item response theory in action:An overview of the special issue.Applied Psychological Measurement，25(3)，211 -220.

Koning，D.E.，Sijtsma，K.，＆ Hamers，J.H.M.(2002).Comparision of four IRT models when analyzing two tests for inductive reasoning. Applied Psychological Measurement，26(3)，302 -320.

Lange，R.，＆ Houran，J.(1999).Scaling MacDonald’s AT-20 usingitem -response theory.Personality and Individual Differences，26，467 -475.

Meijer，R.R.，＆ Baneke，J.J.(2004).Analyzing psychopathology items:A case for nonparametric item responsetheory modeling.Psychological Methods，9(3)，354 -368.

Mokken，R.J.(1971).A theory and procedure of scale analysis.The Hague，The Netherlands:Mouton.

Mokken，R. J. (1997). Nonparametric models for dichotomous responses. In W. J. van der Linden ＆ R. K. Hambleton(Eds.)，Handbook of modern item response theory(pp.351 -367).New York:Springer-Verlag.

Mokken，R. J.，Lewis，C.，＆ Sijtsma，K. (1986). Rejoinder to“The Mokken scale:A critical discussion”. Applied Psychological Measurement，10(3)，279 -285.

Molenaar，I.W.(2001). Thirty years of nonparametric item response theory. Applied Psychological Measurement，25(3)，295 -299.

Molenaar，I. W.，＆ Sijtsma，K. (2000). MSP5 for Windows，a program for Mokken scale analysis for polytomous items.Groningen，The Netherlands.

Ramsay，J.O. (2000). TestGraf. A program for the graphical analysis of multiple-choice tests and questionnairedata.McGill University.

Rapson，G. (2005). An item response theory analysis of the Carver and White(1994)BIS/BAS Scales.Personality and Individual Differences，39，1093 -1103.

Reise，S. P.，＆ Waller，N. G. (2003). How many IRT parameters does it take to model psychopathology items?Psychological Methods，8(2)，164 -184.

Roskam，E. E. (1985). Current issues in item responsetheory:Beyond psychometrics. In E. E. Roskam(Ed.)，Measurement and personality assessment(pp.3 -19). Amsterdam:Elsevier Science.

Santor，D.A.，＆ Ramsay，J.O.(1998).Progress in the technology of measurement:Applications of item response models.Psychological Assessment，10(4)，345 -359.

Stewart，M.E.，Watson，R.，Clark，A.，et al. (2010). A hierarchy of happiness?Mokken scaling analysis of the Oxford Happiness Inventory. Personality and Individual Differences，48，845 -848.

Watson，R.，Roberts，B.，Gow，A.，et al.(2008).A hierarchy of items within Eysenck’s EPI. Personality and Individual Differences，45，333 -335.