廣州中醫(yī)藥大學基礎醫(yī)學院(510006)
陳新林△ 陳麗霞 郎建英 鄧潔敏
項目反應理論(item response theory,IRT)也稱條目反應理論,廣泛用于教育學、心理學及醫(yī)學量表測驗中。Parscale軟件是實現(xiàn)IRT理論的常用軟件,由Eiji Muraki 和Darrell Bock等開發(fā),現(xiàn)在由Scientific Software International(SSI)公司擁有(http://www.ssicentral.com/irt/)。Parscale軟件可以用于二分類和多分類條目的分析,包括單、二和三參數(shù)logistic 模型,Samejima模型(graded response model),Master部分評分模型(partial credit model),廣義部分評分模型(generalized partial credit model),多項選擇項目分析,多組多分類項目反應模型(multiple-group polytomous item response models)。Parscale軟件還可以對量表進行項目功能差異(differential item functioning,DIF)分析。
目前,Parscale軟件廣泛用于心理量表的評價[1-3],教育學的評價,生存質(zhì)量量表的研發(fā)和分析[6-9]。例如Castro等使用Parscale軟件評價Beck抑郁問卷,研究發(fā)現(xiàn)Beck抑郁問卷中,患者最嚴重的條目是減肥、自殺的想法和社會退出[1]。Kopec等使用Parscale軟件評價關節(jié)炎患者生存質(zhì)量量表,從218個條目中篩選出不存在DIF的31個條目,構(gòu)成5個領域。Fukuhara等使用Parscale軟件研制視覺功能問卷的簡短版,將原來的32個條目簡化為11個條目[8]。本文結(jié)合多分類條目介紹如何使用Parscale軟件。
分析資料為鼻咽癌患者生存質(zhì)量量表的生理領域,一共包括9個條目,都是五分類的正向條目,得分越高說明生存質(zhì)量越大。資料保存為dat格式,命名為NPC.DAT。一共15列,前面3列是ID,中間3列是空格,后面9列是條目得分。使用Samejima模型計算各個條目的參數(shù),并估計患者的能力參數(shù)。
本文使用的Parscale軟件是4.1版本。打開Parscale軟件。點擊“File…New”,建立分析的文件,文件命名為Pars.PSL。 Parscale的語法都以“>”開始。在Pars.PSL中輸入以下語法:
>FILE DFNAME=′NPC.DAT′,SAVE;
>SAVE PARM=′NPC.PAR′,SCORE=′NPC.SCO′;
>INPUTNIDW=3,NTOTAL=9,NTEST=1,LENGTH=(9),NFMT=1;
(3A1,3X,9A1)
>TEST1TNAME=SCALE1,ITEM=(1(1)9),NBLOCK=1;
>BLOCK1 BNAME=SBLOCK1,NITEMS=9,NCAT=4,CADJUST=0.0;
>CALIBGRADED,LOGISTIC,SCALE=1.7,NQPTS=30,CYCLES=(25,2,2,2,2),NEWTON=5,CRIT=0.005,ITEMFIT=10;
>SCOREEAP,NQPT=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;
FILES語句,用于讀取數(shù)據(jù)。DFNAME=NPC.DAT表示讀取NPC.DAT 的數(shù)據(jù),要求數(shù)據(jù)和語法文件放在同一個文件夾。SAVE表示保存語法。
SAVE語句,用于保存結(jié)果。PARM=′NPC.PAR′,表示保存條目參數(shù)(包括名字和文件擴展名);SCORE= NPC.SCO,表示保存患者的能力參數(shù)(得分)。
INPUT語句,說明分析數(shù)據(jù)的屬性。NIDW表示患者的ID數(shù)量;NTOTAL表示分析的總條目數(shù);NTEST表示量表(測試)的數(shù)量;LENGTH表示每個量表的條目數(shù);NFMT表示讀取原始記錄的行數(shù)。另外TAKE = n表示選取前面n個測試者進行分析;MGROUP/MRATER說明亞組(或評價者)的數(shù)目,用于DIF分析;WEIGHT表示加權(quán)。
(3A1,3X,9A1) 語句,是變量格式語句,說明數(shù)據(jù)的存儲格式,前3列是ID,其次3列是屬性,最后9列是分析的條目。
TEST1語句,是測試命令語法,用于說明分析的條目數(shù),測試的名字,定義閾值參數(shù)和區(qū)分度的初始值等。TNAME 表示測試量表的名字;INAME表示條目的列表;NBLOCK表示有相同分類參數(shù)(區(qū)組)條目的數(shù)量。另外,ITEMS表示估計的條目;INTERCEPT、THRESHOLD和SLOPE分別設定條目截距、閾值參數(shù)和區(qū)分度的初始值,經(jīng)常采用默認值。
BLOCK1語句,說明每個區(qū)組的屬性,Parscale軟件把具有相同分類數(shù)目的條目放在一起估計。BNAME表示區(qū)組的名字;NITEMS表示每個區(qū)組包含的條目;NCAT表示每個條目的分類數(shù)目(條目的分類,本例是四分類);CADJUST對區(qū)組參數(shù)的均數(shù)進行調(diào)整。另外,GPARM設定猜測參數(shù),RATER用于提供評價者的方差比例;REPEAT表示BLOCK語法的重復次數(shù);SCORING表示指定計分函數(shù)。ORIGINAL表示條目的初始得分,MODIFIED表示對條目重新賦分。例如將1、2得分轉(zhuǎn)化為2、1,使用ORIGINAL=(1,2),MODIFIED=(2,1)。
CALIB語句,說明估計所采用的方法。GRADED/PARTIAL表示采用Samejima模型(GRM)或者Master模型(partial credit model)對參數(shù)進行估計;LOGISTIC/NORMAL說明要使用的響應函數(shù);SCALE表示尺度常數(shù),設定為1.7;NQPTS表示積分點的數(shù)目;CYCLE完成EM估計的最大次數(shù);NEWTON表示Gauss-Newton迭代的最大次數(shù);CRIT為EM估計和Gauss-Newton迭代的收斂標準;ITEMFIT說明用于計算條目擬合統(tǒng)計的次數(shù)。>SCOREEAP,NQPTS=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;
SCORE語句,說明評分過程,用于估計被測試者的得分。EAP/MLE/WML為估計的方法,EAP、ML和WML分別表示Bayes后驗估計、最大似然估計和加權(quán)最大似然估計方法;NQPT為積分點的數(shù)目;SMEAN為測試的平均值;SSD為測試的標準差;NAME為估計文件的名字;PFQ說明移動到臨近分類的百分比;DIST說明先驗分布類型。
點擊菜單欄的Run,包括四個階段:
(1)0階段(phase 0),輸入數(shù)據(jù)和準備分析,包括模型說明(model specifications)、校準參數(shù)(calibration parameters)、文件任務和規(guī)定(file assignments dispositions)。校準參數(shù)的結(jié)果主要包括:最大EM周期數(shù)、最大內(nèi)部EM周期數(shù)、最大類別估計周期、最大條目參數(shù)估計周期數(shù)、EM周期的收斂標準、斜率的收斂標準、閾值的收斂標準等等。
(2)1階段(phase 1),輸出數(shù)據(jù)和計算條目統(tǒng)計量。條目匯總統(tǒng)計量(summary item statistics),給出每個條目的總?cè)藬?shù)、每個選項的人數(shù)及比例,見表1;條目參數(shù)估計值,給出每個條目的均數(shù)和標準差,所有條目的均數(shù)(31.922)和標準差(5.416),并計算出經(jīng)典測量理論下的閾值參數(shù)(initial location)和區(qū)分度參數(shù)(initial slope),見表2。
表1 條目匯總統(tǒng)計量
*:Cumul表示匯總結(jié)果。
表2 條目參數(shù)估計值
*:本表結(jié)果基于經(jīng)典測量理論。
(3)2階段(phase 2),估計模型的條目參數(shù)。包括給出類別參數(shù)(category parameter)及其標準誤;每個條目的參數(shù)估計值,包括區(qū)分度參數(shù)(slope)及標準誤;閾值參數(shù)(location)及標準誤,猜測參數(shù)(guessing)及標準誤,條目擬合統(tǒng)計量的χ2值和P值,見表3。所有條目的猜測參數(shù)均為0,條目5的閾值參數(shù)最小(-2.376),條目3的閾值參數(shù)最大(0.578),所有條目閾值參數(shù)的平均數(shù)為-1.005,說明擬定的條目對患者而言偏容易。
表3 條目的參數(shù)估計值及條目擬合統(tǒng)計量
*:Slope表示區(qū)分度,location表示閾值參數(shù),guessing表示猜測參數(shù),SE表示標準誤,χ2表示條目擬合統(tǒng)計量。
(4)3階段(phase 3),估計被測試者的參數(shù),包括每個被測試者的平均分類(mean category)、能力參數(shù)(ability)及標準誤,見表4。這里的ability是根據(jù)IRT理論計算出來的能力參數(shù),跟閾值參數(shù)的尺寸一致。
表4 被測試者的參數(shù)估計值
(5)顯示圖形。Parscale軟件還提供了很多圖形,運行完所有程序后,點擊Run…Plot,顯示了常見的圖形,包括條目特征曲線(item characteristic curve,ICC),條目信息曲線(item information curves),總體信息曲線(total information curves)等。例如圖1顯示了條目0001的條目特征曲線;圖2顯示了總體信息曲線。同時顯示所有條目的ICC,見圖3;估計能力的直方圖,見圖4。
圖1 條目0001的條目特征曲線
圖2 總體信息曲線
圖3 同時顯示所有條目的ICC
圖4 估計能力的直方圖
Parscale軟件功能強大,可以估計條目參數(shù)和被試者的能力參數(shù),并展現(xiàn)多種圖形,廣泛用于多種模型,包括logistic 模型,Samejima模型,Master模型和廣義部分評分模型等。RUMM 2030軟件也可以用于分析多個模型[10];而Bilog-MG軟件只能分析二分類條目(logistic 模型),不能分析多分類條目[11]。Parscale軟件的實現(xiàn)需要編寫語句,而RUMM 2030采用點擊的操作模式;兩種軟件各有優(yōu)缺點,相對而言,Parscale軟件的語句容易出錯,在一定程度上影響了它的使用。