張慧敏 陳炳為△ 黃 灝 薛芳靜 陳啟光 申春悌
【提 要】 目的 以高血壓病的肝陽上亢證為例,探討其四診信息的效度、等級劃分的合理性及重要性。方法 利用R語言ltm包中的等級效應(yīng)模型對1280例高血壓病的肝陽上亢證進(jìn)行分析,以得到肝陽上亢證的區(qū)分度系數(shù)與難度系數(shù)的估計值。結(jié)果 所有指標(biāo)的區(qū)分度參數(shù)a均大于0.4,說明這12個條目的效度均較好,能較好反映肝陽上亢證的結(jié)構(gòu)。結(jié)論 應(yīng)用等級反應(yīng)模型研究證候規(guī)范標(biāo)準(zhǔn)是可行的。
項目反應(yīng)理論( item response theory,IRT)是近二十多年來在西歐和北美各國教育與心理測量領(lǐng)域得以迅速發(fā)展和廣泛應(yīng)用的一種新的教育和測量理論,是一種建立潛在變量與顯在變量間的對應(yīng)關(guān)系的模型系統(tǒng)[1]。它通過受試者回答的項目,分析受試者在不同潛在能力(潛在特質(zhì)水平)上不同受試者回答測驗項目的反應(yīng)。IRT模型廣泛應(yīng)用于個性、精神病學(xué)、患者報告的臨床結(jié)局(PRO)和健康相關(guān)生活質(zhì)量(HRQOL)測量中[2]。項目反應(yīng)理論屬于潛在變量模型的一種類型,它也屬于統(tǒng)計學(xué)的非線性混合模型中的一種[3]。IRT在指導(dǎo)測驗編制中的優(yōu)異性使得其已成為發(fā)達(dá)國家的主流測量理論[4]。
辨證論治理論和方法是中醫(yī)的核心組成部分,辨證是根據(jù)所采集的四診信息(望診、聞診、問診、切診)資料,概括、判斷為某種性質(zhì)的證候。因此,中醫(yī)的證候不是直接觀測的,而是通過四診信息來反映,將中醫(yī)學(xué)的證候視為統(tǒng)計學(xué)中的潛在變量,四診信息看成顯在變量,可利用結(jié)構(gòu)方程模型、潛在類別或項目反應(yīng)理論對中醫(yī)證候進(jìn)行量化研究[5-6]。本文以高血壓病的中醫(yī)肝陽上亢證為例,利用R語言ltm包進(jìn)行分析,以探討項目反應(yīng)理論在中醫(yī)證候測量中應(yīng)用的可行性。
等級反應(yīng)模型(graded response model,GRM)是項目反應(yīng)理論中的一種模型,其顯在變量為等級分類資料。假設(shè)測量工具有m條項目,現(xiàn)有n個個體被測量,yij為第j個個體(j=1,2,…,n)第i條項目(i=1,2,…,m)的測量結(jié)果,其測量結(jié)果為4個類別的等級資料。Samejima于1969年提出了等級反應(yīng)模型如下[1-2]:
上式中,D為常數(shù)項,等于1.702。θj稱為能力參數(shù)或潛在特質(zhì)(latent trait)參數(shù),它是潛在變量,代表在第j個個體的能力。如果對于正確與錯誤的兩分類的IRT模型中,則為選項正確的能力。αi第i個項目的區(qū)分度參數(shù);bik為第i條項目的難度參數(shù),它是項目鑒別不同受試者潛在變量特質(zhì)水平(能力) 的一種度量。
在中醫(yī)四診信息的采集中,通常采用無、輕、中、重四個等級。能力參數(shù)θj是度量中醫(yī)證候的潛在得分(即病情嚴(yán)重程度),區(qū)分度系數(shù)可認(rèn)為是四診信息鑒別不同病人在證候中嚴(yán)重程度的度量。
在項目反應(yīng)理論中,特征曲線( item characteristic curve,ICC)反映了潛在能力與項目應(yīng)答概率間的關(guān)系。如對于急躁易怒,分為無、輕、中和重四個等級,共有四條曲線,每一個等級的特征曲線與其臨近等級的特征曲線有一個交點,所對應(yīng)的橫坐標(biāo)稱為閾值。因此,四個等級的特征曲線有三個交點,因而橫軸上有三個閾值,可以計算出對應(yīng)于各個閾值的概率。一般來說,能力參數(shù)和難度參數(shù)都在(-3~3)的范圍間。
信息函數(shù)(information function,IF)包括項目信息函數(shù)(item information function,IIF)與測試信息函數(shù)(test information function,TIF)[7]。IF是關(guān)于被測量個體能力的函數(shù),IIF及TIF均隨被測個體能力(如證候嚴(yán)重程度)不同而變化。IIF的公式如下:
TIF則是所有IIF的總和,其值介于[0,1]。
在項目反應(yīng)理論中,當(dāng)信息量越高則估計越準(zhǔn)確,可作為能力估計精確度的判斷,反映了不同項目的信息貢獻(xiàn)。項目信息量的大小由項目參數(shù)和被測個體能力決定,項目提供的信息量越大,表明這個項目在評價被測個體能力時越有價值[7]。
資料來自2006年7月至2009年12月在常州、南京、沈陽和珠海四個地區(qū)五個三級甲等中醫(yī)院收集到的高血壓病病例共計1280例。對于肝陽上亢癥的12個指標(biāo):急躁易怒、煩躁、頭痛、頭脹、面紅、目脹、目赤、口苦、小便黃赤、舌紅、黃苔與弦脈。通過GRM模型對肝陽上亢癥對應(yīng)四診信息等級的劃分的合理性進(jìn)行評估。
應(yīng)用R軟件對潛在變量分析并作參數(shù)估計,并做出類別反應(yīng)曲線圖。通過模型擬合得到對數(shù)似然值為-12156.7,AIC=24409.4,BIC=24656.82。
表1 肝陽上亢證12個指標(biāo)GRM模型分析
從表1可見12個指標(biāo)的區(qū)分度參數(shù)a的值都在0.4以上,說明了其效度是不錯的,即這12個指標(biāo)用來鑒別肝陽上亢證是較好的。
ICC圖形中,橫坐標(biāo)為潛在能力標(biāo)準(zhǔn)化得分,縱坐標(biāo)為不同能力下4個不同分類應(yīng)答的概率。如對于四診信息急躁易怒,其4個級別對應(yīng)描述為“無癥狀或體征”、“性情偏急,事欲速成,遇事不成易動感情”、“性情急躁,容易發(fā)怒”、“性情暴躁,動輒發(fā)怒”,4條曲線分別代表不同證候標(biāo)化得分下選項為4個級別的概率。四個等級特征曲線的交點可以得到橫軸上的難度參數(shù)閾值分別為:b1=0.175,b2=1.844,b3=4.345。但是第三個閾值4.345很大,即認(rèn)為急躁易怒在肝陽上亢證的病人出現(xiàn)性情暴躁,動輒發(fā)怒的可能性少。對于頭痛,從圖中可見,四個類別的特征曲線的交點分不開,說明實際工作中頭痛這一個指標(biāo)在肝陽上亢證研究中四個等級的區(qū)分性不是很好。特別是舌紅、黃苔、弦脈項目在證候潛在得分較大時回答重級的概率還是很低,即這三個條目主要以無、輕、中為主。
根據(jù)項目信息函數(shù),得到面紅的IIF函數(shù)最高,用于評價肝陽上亢癥是具有價值的,其次是小便黃赤、舌紅等指標(biāo)。12個指標(biāo)的項目信息函數(shù)在區(qū)間(-4,8)的信息量達(dá)到全信息的92.8%,能反映大部分的信息量。
等級反應(yīng)理論是項目反應(yīng)理論中的一種,我們借助現(xiàn)代測量心理和教育理論中的項目反應(yīng)理論統(tǒng)計方法可以對中醫(yī)證候作如下問題的深入研究:(1)項目的效度分析,即對每一個證候與主要四診信息的內(nèi)在聯(lián)系;(2)可以科學(xué)地評價四診信息等級的劃分是否合理,研究中表明,在12條四診信息中,目脹與頭痛的等級區(qū)分不是很好;(3)在IRT模型中,可以給出所有四診信息的IIF,從而分析出指標(biāo)重要性的順序,從群體意義上提供篩查證候的主要四診信息指標(biāo)。(4)從難度系數(shù)b3看,除急躁易怒、煩躁出現(xiàn)重的比例高些,其余的指標(biāo)均較低,特別是弦脈、黃苔與舌紅出現(xiàn)癥狀重的比例較少。
在項目反應(yīng)理論中主要有三個條件:(1)潛在變量的單維性。事實上,在高血壓的中醫(yī)證候研究中,先利用探索性因子分析與驗證性因子分析提取高血壓的5個主要證候,肝陽上亢證為其中之一,這滿足了單維性的假設(shè)。肝陽上亢證的12個四診信息是根據(jù)驗證性因子分析獲得結(jié)果。(2)項目間的局部獨立性,即在給定能力的情況下,不同項目間是相互獨立的。IRT與潛在類別模型一樣,均假定項目間存在獨立性。(3)項目特征曲線假設(shè),即假定ICC曲線為logistic曲線或probit曲線。項目反應(yīng)理論中probit曲線是早期應(yīng)用較多的,但后期的研究主要是基于logistic曲線進(jìn)行建模的。項目反應(yīng)理論分析的軟件很多,有專用軟件BILOG與MULTILOG、PARSCALE等,在R語言、SAS、MPLUS等軟件也有可用于分析的模塊。
圖1 肝陽上亢證四分類指標(biāo)GRM模型下類別反應(yīng)曲線圖