劉雨今,華雨婷,黃維肖,沈建通*
1.金華市第二醫(yī)院,浙江321200;2.湖州師范學(xué)院醫(yī)學(xué)院
近年來(lái),國(guó)內(nèi)出現(xiàn)了大量測(cè)量工具,但對(duì)于這些工具的使用缺乏規(guī)范,導(dǎo)致工具的信效度難以得到準(zhǔn)確評(píng)估。針對(duì)這一問(wèn)題,澳大利亞學(xué)者Kat Leung于2012年制定并發(fā)表了心理測(cè)驗(yàn)分級(jí)框架(the psychometric grading framework,PGF)[1],該框架基于信度和效度對(duì)各種測(cè)量工具進(jìn)行定量分級(jí),幫助臨床決策人員選擇有效的測(cè)量工具,用于指導(dǎo)臨床實(shí)踐。與以往的工具評(píng)估方法相比,PGF直接對(duì)證據(jù)強(qiáng)度進(jìn)行分級(jí),使得評(píng)估過(guò)程更加簡(jiǎn)便、便利、客觀和透明,減少了評(píng)估結(jié)果的主觀性?,F(xiàn)將詳細(xì)介紹PGF的結(jié)構(gòu)與分級(jí)方法,并以循證實(shí)踐問(wèn)卷(the Evidence-Based Practice Questionnaire,EBPQ)[2]為例對(duì)其使用進(jìn)行分步解讀,以期促進(jìn)臨床實(shí)踐者的理解與正確使用。
目前,國(guó)內(nèi)測(cè)量工具種類(lèi)繁多,但對(duì)于測(cè)量工具的使用缺乏規(guī)范,最初的工具管理中也沒(méi)有明確的定義對(duì)各項(xiàng)指標(biāo)進(jìn)行量化,缺少大樣本數(shù)據(jù)驗(yàn)證其信效度[2]。因此,急需開(kāi)發(fā)或引進(jìn)更加科學(xué)、靈敏的評(píng)估工具,用于驗(yàn)證測(cè)量工具的信效度強(qiáng)度,滿足研究者的決策需要。2012年,澳大利亞學(xué)者Kat Leung制定并發(fā)表的PGF[1],基于信度和效度可對(duì)各種問(wèn)卷、量表、清單、循證實(shí)踐自我報(bào)告等測(cè)量工具的測(cè)量證據(jù)強(qiáng)度進(jìn)行定量分級(jí),針對(duì)有效性證據(jù)的強(qiáng)度進(jìn)行排序,給出整體證據(jù)使用戶(hù)可以定量地得出工具的有效性,幫助臨床決策人員選擇有效的測(cè)量工具,用于指導(dǎo)臨床實(shí)踐[4]。
以往測(cè)量工具大多數(shù)包含關(guān)于測(cè)量和使用方法的“是-否”清單,不能用于評(píng)估測(cè)量屬性的強(qiáng)度,評(píng)估結(jié)果也不直接使用分?jǐn)?shù)或信效度的等級(jí)作結(jié)論,使得評(píng)估結(jié)果無(wú)法被直接比較。PGF借鑒了GRADE和AGREE Ⅱ等分級(jí)系統(tǒng)的相關(guān)經(jīng)驗(yàn),將現(xiàn)有的最佳證據(jù)與工具強(qiáng)度的整體分級(jí)相結(jié)合,使用評(píng)分系統(tǒng)來(lái)評(píng)估證據(jù)的強(qiáng)度,將評(píng)估結(jié)果分為4個(gè)等級(jí),直接比較和反映各種測(cè)量工具的有效性,以確定某一測(cè)量工具是否值得推薦或應(yīng)用[5],有助于臨床護(hù)理人員更科學(xué)合理地進(jìn)行決策。此外,PGF直接對(duì)證據(jù)強(qiáng)度進(jìn)行分級(jí),在快節(jié)奏的臨床工作環(huán)境中,使得評(píng)估過(guò)程更加簡(jiǎn)便,便利性更高,評(píng)價(jià)結(jié)果更加客觀、透明,減少了研究人員對(duì)評(píng)估結(jié)果的主觀性,更易使用。
本研究將詳細(xì)介紹PGF的結(jié)構(gòu)與分級(jí)方法,并以EBPQ[2]為例,對(duì)PGF的使用進(jìn)行分步解讀,旨在促進(jìn)臨床實(shí)踐者的理解與正確使用。
PGF包括測(cè)量水平量表(Measurement Level Scale)和證據(jù)強(qiáng)度分級(jí)量表(Evidence Strength Grading Scale)。
1)測(cè)量水平量表是一個(gè)分級(jí)矩陣[6],包含6個(gè)心理測(cè)量特性(內(nèi)部一致性、重測(cè)信度、評(píng)分者間信度、內(nèi)容效度、結(jié)構(gòu)效度、效標(biāo)效度)。心理測(cè)量特性是指用于評(píng)價(jià)研究工具信效度、最大允許誤差、測(cè)量不確定度、穩(wěn)定性、重復(fù)性、再現(xiàn)性等的評(píng)價(jià)指標(biāo)。每個(gè)測(cè)量特性都是一個(gè)獨(dú)立的模塊,包含不同的子特性,將被分配一個(gè)等級(jí),從高到低依次分為A級(jí)、B級(jí)、C級(jí)、D級(jí)4個(gè)等級(jí),A級(jí)代表等級(jí)的頂端,D級(jí)代表等級(jí)的底部,更高的等級(jí)代表這一測(cè)量特性更可靠。各等級(jí)層次強(qiáng)度根據(jù)國(guó)際通用的統(tǒng)計(jì)檢驗(yàn)閾值指南建議,納入相對(duì)客觀、量化的統(tǒng)計(jì)學(xué)檢驗(yàn)方法和效應(yīng)值范圍,作為評(píng)判依據(jù)[7]。2)證據(jù)強(qiáng)度分級(jí)量表采用李克特4點(diǎn)評(píng)分法將證據(jù)強(qiáng)度分為 “好”“適當(dāng)”“弱”“非常弱”4個(gè)等級(jí)[8],“好”提示證據(jù)強(qiáng)度等級(jí)為高級(jí),是值得推薦或應(yīng)用于臨床實(shí)踐的測(cè)量工具,表明該工具有效性很好;“適當(dāng)”表示測(cè)量工具的有效性較好,可以推薦或應(yīng)用;“弱”表示測(cè)量工具的有效性一般,推薦優(yōu)先使用其他有效性更高的測(cè)量工具;“非常弱”則表示測(cè)量工具的有效性很差,不值得推薦或應(yīng)用。任何與心理測(cè)量特性相匹配的變量證據(jù)都包含在心理測(cè)量特性分級(jí)中,根據(jù)每個(gè)測(cè)量特性的質(zhì)量不僅能夠確定測(cè)量工具的信度和效度[9];將最后的等級(jí)數(shù)量及高低水平,通過(guò)組合還可以幫助研究人員確定該測(cè)量工具的總體證據(jù)強(qiáng)度,實(shí)現(xiàn)任何測(cè)量工具證據(jù)強(qiáng)度等級(jí)的可視化[10]。測(cè)量水平量表見(jiàn)表1,證據(jù)強(qiáng)度分級(jí)量表見(jiàn)表2。
表1 測(cè)量水平量表
表2 證據(jù)強(qiáng)度分級(jí)量表
PGF基于效度和信度2個(gè)維度對(duì)測(cè)量工具進(jìn)行評(píng)測(cè),其中效度反映測(cè)量工具或手段的有效性和準(zhǔn)確性,包括內(nèi)容效度、結(jié)構(gòu)效度和效標(biāo)效度3個(gè)指標(biāo);信度反映在不同情況下進(jìn)行反復(fù)測(cè)量后結(jié)果的一致性與穩(wěn)定性,包括內(nèi)部一致性、重測(cè)信度和評(píng)分者信度3個(gè)指標(biāo)。
3.1.1 內(nèi)容效度
內(nèi)容效度反映量表中的條目是否能夠準(zhǔn)確表達(dá)希望調(diào)查的內(nèi)容,體現(xiàn)測(cè)量工具內(nèi)容的全面性與恰當(dāng)性,作為最重要的測(cè)量特征,通常作優(yōu)先評(píng)估。通過(guò)文獻(xiàn)綜述、專(zhuān)家委員會(huì)評(píng)議(專(zhuān)家小組成員要求具有心理測(cè)量學(xué)、評(píng)估和測(cè)量方面的專(zhuān)業(yè)知識(shí))[20]與病人觀點(diǎn)和內(nèi)容驗(yàn)證調(diào)查確定。
3.1.2 結(jié)構(gòu)效度
結(jié)構(gòu)效度包含聚合效度和區(qū)別效度2個(gè)子特性,反映了量表的內(nèi)在結(jié)構(gòu)與預(yù)期領(lǐng)域結(jié)構(gòu)間的一致性,用來(lái)衡量研究工具與理論模型的預(yù)測(cè)值之間的相符合程度。一般需要先建立模型與理論結(jié)構(gòu)假設(shè),然后將實(shí)際測(cè)量結(jié)果進(jìn)行探索性因子分析,比較實(shí)際與理論結(jié)果的吻合程度。用于假設(shè)檢驗(yàn)的最常見(jiàn)統(tǒng)計(jì)檢驗(yàn)及其對(duì)應(yīng)的相關(guān)系數(shù):為方差分析(f)、t檢驗(yàn)(d)、皮爾遜相關(guān)(r)、斯皮爾曼等級(jí)順序相關(guān)(ρ)。除此之外,因子分析常用相關(guān)系數(shù)為KMO,范圍一般在0~1。KMO>0.9,提示變量間的相關(guān)性強(qiáng),非常適合作因子分析;KMO越趨近于0則提示相關(guān)性越弱,不適合作因子分析。在確定因素結(jié)構(gòu)后,還可以采用Cronbach′s α進(jìn)一步檢驗(yàn)各因素結(jié)構(gòu)效度,計(jì)算各因素間的相關(guān)性。
3.1.3 效標(biāo)效度
效標(biāo)效度包含預(yù)測(cè)效度和同時(shí)效度子特性,反映研究工具與“金標(biāo)準(zhǔn)”或現(xiàn)有的真實(shí)指標(biāo)之間的相關(guān)關(guān)系。相關(guān)系數(shù)的值越高,提示效標(biāo)效度越好。除常用的系數(shù)外,還采用AUC和似然比,用于診斷試驗(yàn)或篩查測(cè)量工具。AUC根據(jù)靈敏度與特異度繪制,在0.5~1.0范圍內(nèi),比較不同測(cè)量工具的有效性。一般AUC的值越大提示診斷價(jià)值越高,反之,AUC<0.5,提示診斷價(jià)值低或不具有判別能力。另外,似然比反映了診斷試驗(yàn)的敏感度和特異度,從而全面反映是否存在診斷價(jià)值。
3.1.4 內(nèi)部一致性
內(nèi)部一致性反映研究工具各項(xiàng)目之間的內(nèi)在相關(guān)性與一致性程度,常用指標(biāo)有折半信度、Cronbach′s α系數(shù)、KR-20。其中Cronbach′s α為最常用系數(shù),范圍一般在0~1。Cronbach′s α系數(shù)≥0.9則提示信度很好;若Cronbach′s α系數(shù)<0.7,則提示信度較差。
3.1.5 重測(cè)信度
即使用同一測(cè)量方法,對(duì)同一組被試者先后2次進(jìn)行測(cè)量,2次所得結(jié)果的相關(guān)系數(shù)稱(chēng)為重測(cè)信度,反映測(cè)量工具結(jié)構(gòu)的穩(wěn)定性和一致性,不會(huì)隨著時(shí)間的推移而改變。相關(guān)性系數(shù)介于0~1,相關(guān)系數(shù)越趨近于1,提示測(cè)量標(biāo)準(zhǔn)誤差愈小,說(shuō)明一致性程度越高。通常使用Kappa系數(shù)、加權(quán)Kappa系數(shù)、皮爾遜相關(guān)系數(shù)或組內(nèi)相關(guān)系數(shù)等。一般Kappa相關(guān)系數(shù)或組內(nèi)相關(guān)系數(shù)>0.7都提示重測(cè)信度好。
3.1.6 評(píng)分者間信度
指針對(duì)相同測(cè)量對(duì)象、相同測(cè)量工具,不同評(píng)估者所得評(píng)估結(jié)果之間的一致程度。常用是Kappa系數(shù),Cohen′s к適用于僅有2個(gè)評(píng)分者的情況,而Fleiss′s к和Landis′s к用于衡量2個(gè)以上評(píng)估者間的一致性,其他統(tǒng)計(jì)指標(biāo)大致與重測(cè)信度相同。
證據(jù)強(qiáng)度分級(jí)量表的評(píng)測(cè)結(jié)果中,A級(jí)和B級(jí)代表強(qiáng)測(cè)量指標(biāo),C級(jí)和D級(jí)代表弱測(cè)量指標(biāo)。A級(jí)和B級(jí)的數(shù)量對(duì)于確定測(cè)量工具證據(jù)的強(qiáng)度具有決定性作用,同時(shí)也允許最終結(jié)果指標(biāo)中沒(méi)有A級(jí)和(或)B級(jí)的情況存在,此時(shí)C級(jí)和D級(jí)的數(shù)量對(duì)強(qiáng)度分級(jí)同樣存在影響,但影響相對(duì)較小。此外,如果某一心理測(cè)量特性因包含多個(gè)子特性而獲得多個(gè)等級(jí),那么最終等級(jí)結(jié)果將不是通過(guò)相加獲得,而是由研究人員通過(guò)四舍五入或被取平均值的方法確定。
表2中展示了多種組合形式,具體如下:若各測(cè)量特性根據(jù)表1獲得的等級(jí)指標(biāo)結(jié)果為3個(gè)或以上的強(qiáng)測(cè)量指標(biāo),而其余指標(biāo)均為弱測(cè)量指標(biāo),則該測(cè)量工具的評(píng)測(cè)等級(jí)即為“好”;若某一測(cè)量工具包含2個(gè)強(qiáng)測(cè)量指標(biāo),其余指標(biāo)均為弱,則該測(cè)量工具的評(píng)測(cè)等級(jí)即為“適當(dāng)”;若某一測(cè)量工具僅有1個(gè)強(qiáng)測(cè)量指標(biāo)(A級(jí)或B級(jí)),其余指標(biāo)均為弱測(cè)量指標(biāo)(C級(jí)或D級(jí)),說(shuō)明證據(jù)強(qiáng)度等級(jí)為“弱”,提示該測(cè)量工具有效性一般,是否值得推薦則有待考量,優(yōu)先推薦其他有效性較好的測(cè)量工具;若某一測(cè)量工具的評(píng)測(cè)結(jié)果僅包含1個(gè)或多個(gè)弱性指標(biāo),說(shuō)明證據(jù)強(qiáng)度“非常弱”,則提示該測(cè)量工具的有效性很差,不推薦使用或需要從其他途徑獲得更多相關(guān)證據(jù)進(jìn)行補(bǔ)充以進(jìn)一步確定該測(cè)量工具的強(qiáng)度等級(jí)。但是需要注意的是,等級(jí)結(jié)果反映測(cè)量工具的有效性程度,可用于決定某一測(cè)量工具是否值得推薦或采用,不能用于判斷一個(gè)測(cè)量工具的好壞。
開(kāi)發(fā)PGF的目的是形成一個(gè)系統(tǒng)的框架,通過(guò)描述測(cè)量工具的心理測(cè)量特性,根據(jù)其綜合證據(jù)強(qiáng)度推薦最佳工具用于不同場(chǎng)景、不同人群的互動(dòng)過(guò)程中,或在測(cè)量工具選擇困難或不協(xié)調(diào)的情況下,為研究決策人員提供一個(gè)一致性相對(duì)較高的用于提高選擇結(jié)果效率的分級(jí)框架[23],并提供科學(xué)的決策依據(jù)。PGF的具體使用方法為提取測(cè)量工具所體現(xiàn)的所有分級(jí)證據(jù)以及質(zhì)量評(píng)估數(shù)據(jù),對(duì)工具包含的測(cè)量特性進(jìn)行定量評(píng)估[24],為每一測(cè)量特性賦予1個(gè)等級(jí),通過(guò)組合,依據(jù)等級(jí)的高低以確定所評(píng)估對(duì)象的最終有效性。
以EBPQ[1]為例,對(duì)PGF的使用方法進(jìn)行分步解讀,使用過(guò)程將分為以下3個(gè)步驟。
第1步:閱讀相關(guān)文獻(xiàn)或清單簡(jiǎn)便,了解評(píng)估工具的內(nèi)部結(jié)構(gòu)與統(tǒng)計(jì)學(xué)檢驗(yàn)方法,從中提取出針對(duì)該工具或影響結(jié)果的所有測(cè)量證據(jù)指標(biāo)與統(tǒng)計(jì)學(xué)依據(jù)。EBPQ共24個(gè)條目,分為3個(gè)分量表,旨在對(duì)護(hù)士的循證實(shí)踐技能、態(tài)度和知識(shí)能力進(jìn)行衡量。該工具包含的所有測(cè)量特性為內(nèi)容效度、內(nèi)部一致性、結(jié)構(gòu)效度、區(qū)別效度,因此,將從以上4個(gè)特性提取相關(guān)證據(jù)進(jìn)行證據(jù)強(qiáng)度分級(jí),得到的所有測(cè)量特性與其對(duì)應(yīng)的測(cè)量證據(jù)指標(biāo)。內(nèi)容效度通過(guò)1個(gè)由衛(wèi)生保健專(zhuān)業(yè)人員組成的指導(dǎo)小組進(jìn)行審核。內(nèi)部一致性為Cronbach′s α系數(shù)為0.87,結(jié)構(gòu)效度:r或ρ值為0.3~0.4(P<0.001),區(qū)別效度:η2=0.02(P≤0.01)。
第2步:由研究人員使用表1將所得的測(cè)量指標(biāo)和統(tǒng)計(jì)學(xué)依據(jù)匹配到最接近的等級(jí)范圍(A級(jí)~D級(jí))[6],每個(gè)證據(jù)指標(biāo)對(duì)應(yīng)1個(gè)等級(jí)。EBPQ根據(jù)測(cè)量水平量表所得的等級(jí)情況。EBPQ的內(nèi)容效度通過(guò)專(zhuān)家小組進(jìn)行審核,并由經(jīng)驗(yàn)豐富的與醫(yī)療相關(guān)的專(zhuān)業(yè)人員進(jìn)行完善,與表1對(duì)應(yīng)等級(jí)為C級(jí)。整個(gè)調(diào)查問(wèn)卷的內(nèi)部一致性采用總相關(guān)性與Cronbach′s α進(jìn)行評(píng)估,Cronbach′s α范圍通常為0~1,Cronbach′s α的值越大,則提示信度越高。各分量表的內(nèi)部一致性均較好,最終得出為Cronbach′s α系數(shù)為0.87,說(shuō)明量表的內(nèi)部一致性非常好,即量表的信度非常好,與表1對(duì)應(yīng)等級(jí)為B級(jí)。結(jié)構(gòu)效度使用皮爾遜相關(guān)系數(shù)(r或ρ值)進(jìn)行評(píng)估,評(píng)估確定r或ρ值為0.3~0.4(P<0.001),說(shuō)明存在適度的相關(guān)性,與表1對(duì)應(yīng)等級(jí)為B級(jí)。區(qū)別效度采用獨(dú)立樣本t檢驗(yàn)來(lái)評(píng)估,得出η2=0.02,說(shuō)明該問(wèn)卷具有較好的區(qū)別效度。與表1對(duì)應(yīng)等級(jí)為C級(jí)。
第3步:通過(guò)以上步驟,EBPQ的測(cè)量指標(biāo)結(jié)果為C級(jí)+B級(jí)+B級(jí)+C級(jí)。區(qū)別效度獲得C級(jí)等級(jí),但是作為結(jié)構(gòu)效度的一個(gè)子特性,通過(guò)四舍五入,與結(jié)構(gòu)效度綜合后獲得等級(jí)結(jié)果為1個(gè)B級(jí),如表2所示,EBPQ最終獲得2個(gè)B級(jí),通過(guò)PGF定量評(píng)價(jià)后,獲得“適當(dāng)”整體證據(jù)強(qiáng)度,說(shuō)明該自我報(bào)告工具具有足夠的信度和效度。
PGF框架使用簡(jiǎn)單的分級(jí)矩陣,將測(cè)量特性結(jié)果與證據(jù)強(qiáng)度分級(jí)相結(jié)合,根據(jù)測(cè)量特性等級(jí)的高低和數(shù)量來(lái)定義工具的強(qiáng)度,旨在識(shí)別和客觀性評(píng)價(jià)測(cè)量工具的有效性程度,以確定測(cè)量工具的易用性和潛在的可行性。以等級(jí)代替文字描述,定量的方法減少了評(píng)估者主觀判斷對(duì)結(jié)果產(chǎn)生的偏倚。就框架的適應(yīng)性而言,每一測(cè)量工具證據(jù)強(qiáng)度或方法學(xué)質(zhì)量都可用PGF進(jìn)行評(píng)價(jià),適合臨床醫(yī)學(xué)、護(hù)理學(xué)或其他衛(wèi)生學(xué)科的實(shí)踐中,也可以用來(lái)評(píng)估其他類(lèi)型工具的證據(jù)強(qiáng)度,滿足研究人員篩選符合研究目的的高有效性評(píng)估工具[25]的目的。此外,PGF還適用于橫斷面研究的相關(guān)設(shè)計(jì),可以通過(guò)相關(guān)因子分析,探討某些因素之間的相關(guān)關(guān)系。但PGF不適用于評(píng)價(jià)研究方法和評(píng)估工具的研發(fā)策略。
PGF減少了對(duì)測(cè)量證據(jù)質(zhì)量和結(jié)果的主觀判斷,對(duì)測(cè)量特性的數(shù)量和強(qiáng)度沒(méi)有限制,只需同時(shí)包含兩個(gè)維度的測(cè)量特性即可,使用時(shí)考慮的因素較少。因此,無(wú)論測(cè)量特性數(shù)量多少,只需依次為每一測(cè)量特性分配A級(jí)、B級(jí)、C級(jí)、D級(jí)等級(jí),再將評(píng)測(cè)結(jié)果進(jìn)行組合即可確定證據(jù)強(qiáng)度分級(jí)。此外,PGF還允許最終評(píng)測(cè)結(jié)果中僅包含強(qiáng)測(cè)量指標(biāo)或弱測(cè)量指標(biāo)的情況存在,此時(shí)仍能反映測(cè)量工具證據(jù)強(qiáng)度的整體分級(jí)。但是也存在測(cè)量工具僅包含信度或效度單一維度的指標(biāo)的情況,若評(píng)測(cè)等級(jí)能達(dá)到“好”,此時(shí)卻不能將該工具的等級(jí)評(píng)定為“好”,相反該工具的有效性等級(jí)可能會(huì)下降,除非研究人員繼續(xù)獲取其他維度證據(jù)進(jìn)行補(bǔ)充后再次評(píng)定以確定最終等級(jí)。在評(píng)估過(guò)程中,還需注意,應(yīng)當(dāng)優(yōu)先評(píng)估測(cè)量工具的內(nèi)容效度,若內(nèi)容效度不滿足,則不作繼續(xù)評(píng)估。
PGF系統(tǒng)全面地包含了各類(lèi)工具可能存在的測(cè)量特性[26],且每一特性都由最常用的統(tǒng)計(jì)測(cè)量指標(biāo)和指南推薦的閾值準(zhǔn)則所構(gòu)成,為評(píng)估測(cè)量工具的有效性提供了更廣泛的統(tǒng)計(jì)檢驗(yàn)測(cè)量方法。PGF旨在使用定量方法對(duì)研究證據(jù)進(jìn)行測(cè)量,確定有效性證據(jù)強(qiáng)度等級(jí),從而使研究決策人員更直觀地了解測(cè)量工具的有效性。框架所包含的每一特性雖基于國(guó)際共識(shí),但仍可采取更嚴(yán)格的方法對(duì)各項(xiàng)指標(biāo)進(jìn)行改進(jìn)。如內(nèi)容效度的測(cè)量欠規(guī)范[25],除了定量方法少有報(bào)道,不能對(duì)方法學(xué)質(zhì)量進(jìn)行評(píng)價(jià)之外,還存在評(píng)估結(jié)果受經(jīng)驗(yàn)性與主觀性的影響較大的問(wèn)題,可使用德?tīng)柗品ǐ@得心理測(cè)量學(xué)家和專(zhuān)家的集體共識(shí)與確認(rèn);或增加內(nèi)容效度指數(shù)作為評(píng)估依據(jù)[27],直觀地對(duì)內(nèi)容效度進(jìn)行檢驗(yàn),以提高評(píng)估內(nèi)容的相關(guān)性、代表性、特異度[28]。再比如,評(píng)估重測(cè)信度時(shí),2次評(píng)估的間隔時(shí)間應(yīng)控制在合理范圍,一般在2周左右,以減少回憶偏倚。再比如,進(jìn)行內(nèi)部一致性檢驗(yàn)前應(yīng)先明確量表的結(jié)構(gòu)效度,以更好的測(cè)量方法學(xué)質(zhì)量。
隨著循證理念的普及和循證實(shí)踐大環(huán)境的改變[29],研究與決策人員越來(lái)越傾向于使用真實(shí)、客觀的臨床證據(jù)做出科學(xué)合理的決策。在臨床工作中,問(wèn)卷、量表、調(diào)查清單等的使用越來(lái)越普遍,使得對(duì)這類(lèi)測(cè)量工具的質(zhì)量要求也越來(lái)越高,然而在面對(duì)不同的臨床實(shí)踐問(wèn)題時(shí),研究決策者尚且缺乏相關(guān)質(zhì)量的評(píng)估工具以幫助判斷并選擇合適的工具用于臨床實(shí)踐。加之,面對(duì)種類(lèi)繁多、功能復(fù)雜的測(cè)量工具,很難找到一個(gè)系統(tǒng)的模式對(duì)各種測(cè)量證據(jù)的質(zhì)量和強(qiáng)度進(jìn)行評(píng)估?,F(xiàn)有的證據(jù)評(píng)估工具多為隨機(jī)對(duì)照試驗(yàn)等干預(yù)性研究證據(jù)開(kāi)發(fā),并不適用于量表等測(cè)量工具的質(zhì)量評(píng)估。因此,制定一個(gè)用于確定各種測(cè)量工具有效性的定量框架將非常受用。
PGF作為一個(gè)基于證據(jù)強(qiáng)度的測(cè)量工具分級(jí)框架,以等級(jí)作為結(jié)論將測(cè)量水平的結(jié)果整合成測(cè)量工具的整體評(píng)分,不僅定量確定了證據(jù)的強(qiáng)度和分級(jí)[30],還能測(cè)量研究特征與方法學(xué)質(zhì)量,減少了對(duì)證據(jù)質(zhì)量和建議強(qiáng)度的主觀判斷[31],解決了以往評(píng)定結(jié)果不統(tǒng)一、無(wú)法直接反映或比較評(píng)估結(jié)果的問(wèn)題。目前,這一框架已被應(yīng)用于護(hù)理學(xué)、心理學(xué)等領(lǐng)域的測(cè)量工具分級(jí),但仍處于探索階段,需進(jìn)一步研究與實(shí)踐。同時(shí)評(píng)估者在使用過(guò)程中可能面臨研究報(bào)告規(guī)范化問(wèn)題,許多研究的測(cè)量統(tǒng)計(jì)數(shù)據(jù)不完整導(dǎo)致框架信息不足,此時(shí)可能需要從開(kāi)發(fā)人員那里獲得更多關(guān)于測(cè)試統(tǒng)計(jì)數(shù)據(jù)的信息作為補(bǔ)充證據(jù),才能最終確定該測(cè)量工具的等級(jí)。
綜上所述,針對(duì)臨床測(cè)量工具缺乏統(tǒng)一評(píng)價(jià)工具的現(xiàn)狀,PGF作為一個(gè)能對(duì)各類(lèi)測(cè)量工具進(jìn)行定量分級(jí)的系統(tǒng)框架,改進(jìn)評(píng)價(jià)體系的同時(shí),為研究決策人員提供了一種創(chuàng)新的思路和較為靈活易用的工具,將有潛力為未來(lái)的臨床實(shí)踐工作提供信息和證據(jù)。本研究選取一個(gè)自我報(bào)告式量表作為案例也顯示了該框架具有較為可靠的信度、效度和實(shí)用價(jià)值。