白文靜,何麗云**,張艷宏,劉為民,劉保延
(1.中國中醫(yī)科學院中醫(yī)臨床基礎(chǔ)醫(yī)學研究所 北京 100700;2.中國中醫(yī)科學院 北京 100700)
基于單維項目反應(yīng)模型的量表評價研究*
白文靜1,何麗云1**,張艷宏1,劉為民1,劉保延2
(1.中國中醫(yī)科學院中醫(yī)臨床基礎(chǔ)醫(yī)學研究所 北京 100700;2.中國中醫(yī)科學院 北京 100700)
目的:探索應(yīng)用單維項目反應(yīng)模型與經(jīng)典測驗理論相結(jié)合的方法,解決量表評價問題。方法:對841例亞健康二手數(shù)據(jù)實證分析,進行信度、效度以及項目角度的測量學評價。結(jié)果:5個領(lǐng)域的克朗巴赫a系數(shù)均高于0.6,內(nèi)部一致性較高;5個領(lǐng)域的量表結(jié)構(gòu)效度較好,CFI為0.96;項目區(qū)分度>0.3,項目對所屬領(lǐng)域診斷的靈敏度較高;量表信息量為33.8,對亞健康狀態(tài)估計精度較高;但仍有部分條目需要進一步修訂。結(jié)論:單維項目反應(yīng)模型通過單維性、局部獨立性檢驗,可以用來評價項目的心理學測量性能,對經(jīng)典測驗理論評價結(jié)果進行補充。亞健康量表信、效度較高,經(jīng)IRT校正后的項目可以用于開展計算機自適應(yīng)測試,進行人機交互“治未病”動態(tài)監(jiān)測。
項目反應(yīng)理論 亞健康 治未病 區(qū)分度 信息量
隨著疾病譜和“生物-心理-社會”醫(yī)學模式的轉(zhuǎn)變,以及“個體化醫(yī)療”與“敘事醫(yī)學”等理念的提出,健康管理與疾病治療成為同等重要,患者主觀感受及其測評方法也成為臨床療效評價研究的熱點。生存質(zhì)量相關(guān)量表作為測量和評價這類主觀指標的重要工具,已廣泛應(yīng)用于國內(nèi)外臨床科研實踐。早在80年代初,F(xiàn)DA就將患者生存質(zhì)量(Quality Of Life,QOL)作為與臨床獲益金標準“生存期”并列的主要終點指標,用于衡量腫瘤新藥的有效性和安全性;《測量患者報告臨床結(jié)局的行業(yè)指南(草案)》(2006年)明確規(guī)定,將患者報告結(jié)局(Patient Reported Outcome,PRO)納入反映疾病相關(guān)癥狀或功能狀態(tài)改善的結(jié)局指標體系。國內(nèi)學者在國外成熟量表的引進及本土化方面開展了深入研究,考慮到生存質(zhì)量的文化依賴性,更多量表研究者致力于獨立開發(fā)適合國人的生存質(zhì)量量表。在中醫(yī)基礎(chǔ)理論指導下,中醫(yī)藥領(lǐng)域量表研究者融入中國傳統(tǒng)文化背景知識,編制了大量體現(xiàn)中醫(yī)特色的健康相關(guān)生存質(zhì)量評定量表。這些量表的研制既符合標準的量表編制流程又蘊含了豐富的中醫(yī)思想,涉及“形神一體”、“天人合一”、臟腑辨證、陰平陽秘和五態(tài)人格體質(zhì)辨識等,對中醫(yī)辨證分型和臨床療效判定有一定的指導作用。
盡管不同量表的目的、測量對象、排列方式、應(yīng)用場合等迥然不同,但其編制與評價的基本原理均源自心理和教育領(lǐng)域的測驗理論。隨著測驗理論的發(fā)展,基于平行測驗與線性模型弱假設(shè)(①測驗分數(shù)=真分數(shù)+誤差;②真分數(shù)=測驗分數(shù)的期望;③測驗分數(shù)的方差=真分數(shù)方差與誤差方差之和)的經(jīng)典測驗理論(classical test theory,CTT)逐漸被采用條件概率函數(shù)刻畫潛在特質(zhì)與項目應(yīng)答間非線性關(guān)系的項目反應(yīng)理論(Item response theory,IRT)補充替代:后者從項目分析入手,提出了項目參數(shù)和信息函數(shù)等指標,考評量表的測量學特性,從而克服了前者的籠統(tǒng)誤差、項目性能指標的樣本依賴性等缺陷[1],提高了測量精度。然而,現(xiàn)有醫(yī)學量表的編制與評價多以經(jīng)典測驗理論為基礎(chǔ),運用項目反應(yīng)理論評價或改進量表的文獻報道尚不多見;且應(yīng)用IRT分析評價量表條目時,常常忽略模型應(yīng)用條件的強假設(shè)檢驗,未交代模型-數(shù)據(jù)的擬合效果,根據(jù)條目的應(yīng)答選項簡單套用項目反應(yīng)模型,導致參數(shù)估計結(jié)果有偏,對樣本的潛特質(zhì)水平估計不準確。
圖1 二分類項目的項目特征曲線(a=1,b=0)
表1 常見的項目反應(yīng)模型
亞健康,是一種介于健康與疾病之間動態(tài)的臨界狀態(tài)[2-3],屬于中醫(yī)“未病”“欲病”階段[4-5];通過準確辨識與早期干預(yù)[6],可以起到“未病養(yǎng)生,防病于先”,“欲病救萌、防微杜漸”作用。由于亞健康內(nèi)容涵蓋范圍較廣,不僅包括機體自適應(yīng)能力減退引發(fā)的功能性改變,還涉及心理、社會等因素,具有鮮明的主觀評價特點,因此,測量性能優(yōu)良的量表成為評價亞健康的主要工具。基于此,本文以《亞健康狀態(tài)量表》為例,探索將單維項目反應(yīng)模型與傳統(tǒng)的信、效度分析相結(jié)合,對量表性能、項目性質(zhì)及適用情況進行評價,為科學有效測評亞健康提供參考。
項目反應(yīng)理論,從項目角度而非量表整體出發(fā),用“潛在特質(zhì)”代替經(jīng)典測驗理論“真分數(shù)”,用信息函數(shù)反映測量誤差,構(gòu)建非線性模型,建立被試對項目的應(yīng)答與其潛在特質(zhì)之間的概率函數(shù)關(guān)系,刻畫具有參數(shù)不變性的項目/類別特征曲線(如圖1),只要模型對數(shù)據(jù)資料擬合效果好,就可以得到項目參數(shù)和被試能力的精確估計。項目反應(yīng)模型是一套用于擬合項目/類別特征曲線的光滑函數(shù),計算不同水平被試在該項目上不同得分的概率。這些光滑函數(shù)也被稱為鏈接函數(shù),目前常用的有2類:累積正態(tài)分布函數(shù)[7]和logistic函數(shù)[8];從曲線特征來看,涉及到4個參數(shù),即:①曲線中心的位置——拐點或峰值對應(yīng)的能力值,②曲線中心的斜率,③曲線的上界,④曲線的下界限;結(jié)合教育測量學領(lǐng)域知識,分別賦予該條目的難度、區(qū)分度、能力為-∞時正確作答概率及能力為+∞時正確作答概率等涵義,通常后兩者取值0和1。根據(jù)應(yīng)答選項形式和曲線特征的不同組合,早期項目反應(yīng)理論研究者開發(fā)了一系列單維參數(shù)項目反應(yīng)模型(見表1)。
本文建立等級應(yīng)答模型(Graded response model,GRM),評價條目的測量特性以及應(yīng)答等級設(shè)置的合理性。模型表達式為(1)式。
其中,α為區(qū)分度參數(shù),反映該項目對亞健康狀態(tài)區(qū)分能力的高低;b為閾值參數(shù),反映項目/選項的亞健康狀態(tài)嚴重程度,相鄰選項間界值,bk取值應(yīng)單調(diào)增加;θ代表潛在特質(zhì),即能力參數(shù),反映亞健康各領(lǐng)域潛變量(如,軀體亞健康、情緒亞健康等)水平的高低。k為項目應(yīng)答等級,共m級。Pijk*為被試 j在項目i選“k等級及以上”的概率;Pijk為被試 j在項目i恰好選k等級的概率。
上述單維參數(shù)項目反應(yīng)模型必須滿足以下基本假設(shè):(1)單維性假設(shè)。量表/領(lǐng)域僅測量一種潛在特質(zhì),即潛在特質(zhì)空間為單維;(2)局部獨立性假設(shè)。被試對某一項目的正答概率不依賴于該被試在其他項目作答情況,嚴格來說,給定潛在特質(zhì)水平的條件下,不同項目間彼此獨立。給定能力θ,被試在J個項目上觀測到的應(yīng)答 X=(x1,x2…,xJ)′,j=1,2,…J。可以用公式(2)表示:
對模型假設(shè)和數(shù)據(jù)-模型擬合效果的統(tǒng)計檢驗包括:1)項目間殘差相關(guān):Q3統(tǒng)計量[9],項目間存在顯著相關(guān)時,“局部獨立性假設(shè)”違背;2)項目角度擬合:Zh統(tǒng)計量和S-χ2統(tǒng)計量[10],擬合效果不好、差異顯著,說明項目與領(lǐng)域所測特質(zhì)不一致。此外,RMSEA、CFI和TLI等在CFA中用于驗證模型擬合效果的檢驗統(tǒng)計量也可用來識別LD。
項目反應(yīng)模型的待估參數(shù)有2類:一是反映項目特征的項目參數(shù),如區(qū)分度(斜率)或位置(截距)等參數(shù);一是界定潛在特質(zhì)分布的能力參數(shù),如能力的均值和協(xié)方差矩陣等。
項目參數(shù)已知估計能力參數(shù)或能力參數(shù)已知估計項目參數(shù)時,采用的估計方法為最大似然估計。它是項目反應(yīng)理論參數(shù)估計的基礎(chǔ),隨后提出的許多參數(shù)估計方法都是基于該方法在不同條件下發(fā)展得到的,如聯(lián)合最大似然估計(JMLE)、邊際最大似然估計、邊際貝葉斯、EM算法、MCMC算法等。最大似然估計的基本思想是,對全體被試的項目應(yīng)答模式建立似然函數(shù),通過取對數(shù)后求導和迭代計算,找到使應(yīng)答模式出現(xiàn)可能性最大情況下所對應(yīng)的參數(shù),這些參數(shù)的取值即為項目反應(yīng)模型的最大似然估計。
信息函數(shù)在項目反應(yīng)理論中地位十分重要,是篩選適宜項目構(gòu)建項目庫的主要依據(jù)。通過項目提供的關(guān)于被試潛在特質(zhì)的(總)信息量,了解該項目在整個潛在特質(zhì)空間上的測量準確性。項目信息量越大,測量結(jié)果越準確可靠。項目信息函數(shù)I(θ),定義為測量誤差方差的倒數(shù),即:
當項目反應(yīng)模型的鏈接函數(shù)為logistic函數(shù)形式時,(3)可以推導為:
由(4)可知,信息函數(shù)是能力水平的函數(shù),信息量與 θ大小有關(guān)。同時,信息函數(shù)還受項目特征參數(shù)影響,項目特征曲線越陡峭,區(qū)分度參數(shù)越大,項目特征曲線下限越低,項目方差越小,信息量越大。各項目所提供的信息量不受其他項目影響,各項目信息量獨立;這與CTT的測量標準誤(信度)不同,后者的信度依賴于測驗整體,任一項目的增刪都需要重新計算測驗整體信度。在指導量表編制或施測時,運用測驗信息函數(shù)能提高測量有效性,動態(tài)開展計算機適應(yīng)性測評,提高測量效率。
本文是對2008年我中心開展的“亞健康量表及評價體系研究”調(diào)查資料進行的二次數(shù)據(jù)分析。研究對象為典型亞健康人,采用方便抽樣,在空軍航空醫(yī)學研究所亞健康評估中心、中國中醫(yī)科學院廣安門醫(yī)院、西苑醫(yī)院的體檢中心、北京世紀壇醫(yī)院體檢中心等4家單位同時開展。納入標準:年齡30~55歲,自愿接受調(diào)查,符合亞健康標準[11]。疾病排除標準:患有重大疾病如心腦血管、糖尿病、腫瘤等;患非重大疾病但需藥物維持者;不合作者。健康人排除方法:采用專家共識法共同判定,專家來自中醫(yī)學、預(yù)防醫(yī)學、臨床流行病學等領(lǐng)域。最終,發(fā)放問卷3 000份,回收問卷2 486份,回收率為82.87%;經(jīng)專家判定841例受訪者為典型亞健康。
調(diào)查方式為自填式。研究小組配備了經(jīng)過嚴格培訓的現(xiàn)場督導員,進行協(xié)調(diào)及質(zhì)量控制。初步量表以亞健康的共性表現(xiàn)和臟腑相關(guān)的特異性癥狀為基礎(chǔ),體現(xiàn)中醫(yī)癥狀信息;具體內(nèi)容涉及軀體、能力減退、情緒、睡眠、二便等5領(lǐng)域,共計40個項目組成;題目的應(yīng)答選項均為Likert 5級評分,從1到5表示亞健康程度逐漸加重。
CTT分析,以克朗巴赫α系數(shù)評價量表信度,采用結(jié)構(gòu)方程模型考評量表結(jié)構(gòu)效度。
IRT分析,建立等級應(yīng)答模型(Graded response model,GRM),評價條目的測量特性以及應(yīng)答等級設(shè)置的合理性。
統(tǒng)計分析軟件:經(jīng)典測驗理論的信度分析采用SPSS16.0,效度分析采用AMOS22.0;項目反應(yīng)理論分析采用Multilog7.0和Rltmpackage。
841例典型亞健康人的人口學分布情況詳見表2。
效度分析。效度是反映量表能否有效測量所要測量的潛在特質(zhì)的程度,主要包括內(nèi)容效度、結(jié)構(gòu)效度等。條目-領(lǐng)域相關(guān)系數(shù)在0.389~0.801范圍內(nèi),說明量表的內(nèi)容效度較高(見表3)。驗證性因子分析得到5因子的量表結(jié)構(gòu)效度合理(RMSEA=0.054,CFI=0.96)。
信度分析。信度是評價量表可靠性的重要指標。根據(jù)研究設(shè)計及評價側(cè)重點不同,CTT的信度分析主要包括重測信度、復本信度、內(nèi)部信度、評分者信度等[12]。本研究采用內(nèi)部一致性信度和IRT信度分析,對各領(lǐng)域內(nèi)條目測量內(nèi)容是否相同進行評價。信度分析(見表4)發(fā)現(xiàn):各領(lǐng)域內(nèi)部一致性均較高(Cronbach α>0.6);其中,“二便”領(lǐng)域最低(0.663)。
表2 人口學資料分析結(jié)果(N=841)
表3 量表整體及各領(lǐng)域的內(nèi)容效度
表4 CTT與IRT的信度分析結(jié)果
2.5.1 單維性檢驗
采用平行分析(Parallel Analysis,PA)與Hambleton的標準[13]“第一特根與第二特征根之比大于3”,兩種方法相結(jié)合檢驗量表各領(lǐng)域是否符合單維性假設(shè)。結(jié)果顯示(圖2),除“軀體”和“二便”領(lǐng)域(實際主成分特征根大于模擬數(shù)據(jù)特征根的個數(shù)超過1個)外,其他3個領(lǐng)域均通過了PA關(guān)于單維性檢驗;“軀體”和“二便”領(lǐng)域的第一特征根與第二特征根之比分別為4.77和1.84。因此,可以認為“能力”、“軀體”、“睡眠”、“情緒”4個領(lǐng)域滿足單維性條件,“二便”領(lǐng)域尚不符合單維假設(shè)。
為開展IRT條目分析,對不滿足“單維性”假設(shè)的“二便”領(lǐng)域進一步細分。經(jīng)探索性因子分析,將“二便”領(lǐng)域進一步劃分為便秘(“便干”、“排便困難”)、泄瀉(“便不成形”、“腹瀉”)、淋證(“尿不盡”、“尿頻”、“易汗”)3個方面,故后續(xù)對IRT分析的量表域體系見圖3。
2.5.2 局部獨立性檢驗
經(jīng)Yens Q3統(tǒng)計量檢驗,在能力領(lǐng)域2對項目存在LD(C36熬夜精力和E66日常精力、C40工作能力滿意和E70日常生活滿意);軀體領(lǐng)域4對項目存在LD(B01疲乏和B24氣短,B07眼睛不適與B09視力下降、B25胸悶,B24氣短和B25胸悶);睡眠領(lǐng)域C33夜間醒來與其他3個條目間存在LD;情緒領(lǐng)域2對項目存在LD(D59無法使高興和D61害怕不幸,D60煩躁易怒和D65信心不足)。上述項目,其所對應(yīng)的項目參數(shù)估計有誤,需要進一步修訂。
2.5.3 GRM模型參數(shù)估計
GRM項目參數(shù)估計和信息函數(shù)結(jié)果如表5所示。區(qū)分度系數(shù)α在0.53~3.83范圍內(nèi),取值大于0.3,說明量表區(qū)分度高,即各條目都能靈敏地檢測所在領(lǐng)域潛變量的變化。閾值參數(shù)bi,相鄰選項間的閾值?!鞍疽购缶Τ渑妗逼骄y度<0,大部分樣本在該條目作答為“很少有精力”和“根本沒精力”,說明該條目適用于對“能力”極好的被試進行測量。各領(lǐng)域條目的難度參數(shù)均為升序,說明應(yīng)答選項順序可以體現(xiàn)亞健康各領(lǐng)域潛特質(zhì)程度的加重;但從難度參數(shù)估計值的分布范圍來看,不是均衡分布在(-3,3)范圍,取值極端,說明個別項目即使亞健康狀態(tài)比總體均值高的人也會選擇“很少有”(如B15、C51等)。上述現(xiàn)象與Steven P.Reise等關(guān)于IRT在臨床測量的綜述研究結(jié)果相一致。
圖2 亞健康5個領(lǐng)域Parallel analysis結(jié)果
2.5.4 信息函數(shù)估計
亞健康量表總信息量為33.8(大于25[14]),說明量表整體測量準確度較高。各項目信息量最大值見表5,精度過低的項目有8個。這些項目的測量內(nèi)容或者與所在領(lǐng)域其他條目有差異,或者由于語言表達不合適,對應(yīng)答者來說過于復雜;需要進一步修訂。以領(lǐng)域為單位,考量對亞健康狀態(tài)連續(xù)體的估計精度,除了二便領(lǐng)域方面2的測驗信息量較低(平均為2.390)外,其他領(lǐng)域/方面的測驗信息量(見圖4)的均值都超過3,軀體領(lǐng)域的信息量最高,平均為9.984。
2.5.5 基于IRT的信度
軀體、能力減退、情緒、睡眠等領(lǐng)域IRT邊際信度較好(>0.75),二便領(lǐng)域3個方面的IRT邊際信度可接受,方面2最低(詳見表4)。
2.5.6 項目的模型擬合檢驗
經(jīng)Zh統(tǒng)計量檢驗,未發(fā)現(xiàn)不擬合項目;同時,采用S-χ2檢驗,識別出項目模型擬合效果較差的有:能力領(lǐng)域,B15、B19、E66和 E70;軀體領(lǐng)域,B02,B07,B09,B23,B24,B25;睡眠領(lǐng)域,C34,C37;情緒領(lǐng)域,無;二便由于項目數(shù)過少,無法計算??紤]有些項目存在LD,下一步擬擴大樣本量構(gòu)建多維項目反應(yīng)模型以期更貼合該項目特征實際。
本研究探索在CTT基礎(chǔ)上進行IRT分析的方法,對辨識“未病”的《亞健康狀態(tài)量表》進行綜合評價。
圖3 量表域體系(用于IRT)
經(jīng)結(jié)構(gòu)方程模型與探索性因子分析,最終判定的量表結(jié)構(gòu)與預(yù)期域體系基本一致。在初始設(shè)定的“能力-軀體-睡眠-情緒-二便”5個領(lǐng)域的基礎(chǔ)上,進一步將“二便”領(lǐng)域劃分為3個方面:便秘、泄瀉、淋證。量表整體結(jié)構(gòu)符合中醫(yī)辨證診斷的整體思維,涵蓋了能力下降、軀體不適、睡眠障礙、情志和二便等方面,同時,也符合亞健康在“未病”范疇的定義。內(nèi)容效度較好,說明項目對所屬領(lǐng)域/方面具有較高代表性。由信度結(jié)果可知,量表整體信度較好,測量亞健康狀態(tài)及各領(lǐng)域亞健康的可靠性較高,但“二便”方面2所含條目需要進一步修訂和增補。IRT邊際信度分析,發(fā)現(xiàn)除“二便”領(lǐng)域方面1外,各領(lǐng)域/方面IRT邊際信度結(jié)果均高于CTT的內(nèi)部一致性信度,這是因為克朗巴赫a系數(shù)是信度系數(shù)估計值的下限,故二者結(jié)合考慮可以對量表信度進行更為準確地估計。
表5 亞健康量表各項目的區(qū)分度、難度和信息量
從IRT項目參數(shù)和信息量角度評價《亞健康狀態(tài)量表》指標,分析更為完善、精確,有助于多角度、分層次開展研究。首先,5領(lǐng)域3方面均符合單維性,但有14個條目違背局部獨立性假設(shè),故在GRM模型參數(shù)估計有誤,需要對條目進一步修訂或者構(gòu)建多維項目反應(yīng)模型重新估計參數(shù)。其次,通過GRM建模分析,可知:條目對所在領(lǐng)域的不同水平被試具有良好的區(qū)分能力;最后,從信息量來看,量表整體的估計精度較高;從條目的最大信息量來看,能力減退、情緒、睡眠、二便等領(lǐng)域(方面)的信息量平均大于1,說明測量精度較高;“軀體”領(lǐng)域條目信息量較低;項目信息量過低的條目8個。因此,考慮LD、區(qū)分度、信息量等判斷有20個項目需要進一步調(diào)整,其余20個項目均為測量性質(zhì)較高的條目,可以用于構(gòu)建亞健康項目庫。此外,由于樣本量有限,待估參數(shù)較多,故本文未給出模型-資料的全局擬合效果檢驗(M2)。
圖4 亞健康狀態(tài)量表個領(lǐng)域/方面測驗信息函數(shù)
綜上,單維項目反應(yīng)模型與經(jīng)典信度、效度測評相結(jié)合,可以更系統(tǒng)、科學考評量表的一致性和有效性;但其應(yīng)用條件嚴苛,須滿足強假設(shè)方可正確估計項目和能力參數(shù)。本研究,亞健康量表具有較好的信度和效度;經(jīng)過校正的優(yōu)質(zhì)條目初步形成亞健康條目庫,為“治未病”理論的指導下開展亞健康狀態(tài)的計算機自適應(yīng)動態(tài)測量、實現(xiàn)移動醫(yī)療奠定基礎(chǔ)。
1 Santor DA,Ramsay JO.Progress in the technology of measurement:ap?plications of item response models.Psychological Assessment,1998,10(4):345-359.
2 劉保延,何麗云,謝雁鳴,等,亞健康狀態(tài)的概念研究.中國中醫(yī)基礎(chǔ)醫(yī)學雜志,2006,12(11):801-803.
3 王利敏,趙歆,陳家旭,等.亞健康狀態(tài)綜合評價指標體系研究思路探析.中華中醫(yī)藥雜志,2010,25(2):180-183.
4 吳鴻,高水波.淺析中醫(yī)“治未病”理論及其現(xiàn)實意義.中國中醫(yī)基礎(chǔ)醫(yī)學雜志,2011,11(9):372.
5 王天芳,孫濤.亞健康與“治未病”的概念、范疇及其相互關(guān)系的探討.中國中西醫(yī)結(jié)合雜志,2009,29(10):929-933.
6 薛曉琳,王天芳,林殷,亞健康中醫(yī)干預(yù)研究中的幾個關(guān)鍵環(huán)節(jié),北京中醫(yī)藥大學學報(中醫(yī)臨床版),2013(6):1-4.
7 Richardson,M.W.(1936).The relationship between difficulty and the differential validity of atest.Psychometrika,1(2),33-49.
8 Maxwell,A.E.(1959).Maximum likelihood estimates of item parame?tersusingthelogistic function.Psychometrika,24,221-227.
9 Wen-Hung Chen,David Thissen.Local dependence indexes for item pairs using item response theory.Journal of Educational and behavioral statistics,1997,22(3):265-289.
10 Taehoon Kang,Troy T.Chen.Performance of the generalized S-χ2 item fit index for polytomous IRTmodels.Journal of Education Measurement.2008,45(4):391-406.
11張艷宏,何麗云,劉保延,亞健康狀態(tài)的界定思路,遼寧中醫(yī)雜志,2008,35(6):852-853.
12劉保延.患者報告結(jié)局的測量—原理、方法與應(yīng)用[M].北京:人民衛(wèi)生出版社,2011年,163-166。
13楊錚,戚艷波,萬崇華,等,慢性病患者生命質(zhì)量測定量表體系共性模塊項目反應(yīng)理論的進一步分析,中國全科醫(yī)學,2012(8A):2544-2547.
14楊建原,臧運洪,趙守盈,用項目反應(yīng)理論修訂教學效能感量表,教育科學,2012,28(2):46-51.
Evaluation on Scales Based on Unidimensional Item Response Models
Bai Wenjing1,He Liyun1,Zhang Yanhong1,Liu Weimin1,Liu Baoyan2
(1.Instituteof Basic Research in Clinical Medicine,China Academy of Chinese Medical Sciences,Beijing 100700,China;2.China Academy of Chinese Medical Sciences,Beijing 100700,China)
This study was aimed to assess scales with the unidimensional item response models(UIRM)and classical test theory.The reliability and validity of 841 sub-health status samples were analyzed by CTT.Surveying evaluation from the project perspective was also conducted.The results showed that Cronbach’sα coefficients in five areas were all larger than 0.6 with relatively high consistency.The scale structures of five areas were relatively good and the CFI was 0.96.When discriminations of all items were larger than 0.3,the sensitivity of item for its area was high.When the scale test information was 33.8,the accuracy of sub-health status was relatively high.However,there were still some items should be further revised.It was concluded that UIRM can be used to evaluate the psychological measurement performance in the project.It is a supplement to the evaluation result of classical test theory.The reliability and validity of sub-health status scale are relatively high.After IRT correction,it can be used for human-computer interaction techniques“preventive treatment”dynamic monitoring.
Itemresponsetheory,sub-health,preventive treatment,discrimination,information quantity
10.11842/wst.2017.09.010
R203
A
2017-05-12
修回日期:2017-08-23
* 中國中醫(yī)科學院第九批自助選題(Z0409):基于多維IRT的健康狀態(tài)評估系統(tǒng)構(gòu)建研究,負責人:白文靜。
** 通訊作者:何麗云,研究員,主要研究方向:臨床評價方法學。
(責任編輯:張娜娜,責任譯審:王 晶)