王飛,湯靖琪,孫小楠,孫昕霙,黎俊,孟星星,吳一波*
1.100875 北京市,北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國家重點(diǎn)實(shí)驗(yàn)室
2.200062 上海市,華東師范大學(xué)心理與認(rèn)知科學(xué)學(xué)院
3.150081 黑龍江省哈爾濱市,哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院
4.100191 北京市,北京大學(xué)公共衛(wèi)生學(xué)院
5.100191 北京市,北京大學(xué)第三醫(yī)院全科醫(yī)學(xué)科
6.230039 安徽省合肥市,安徽大學(xué)哲學(xué)學(xué)院
WHO 在1977 年第30 屆世界衛(wèi)生大會上提出“人人享有健康”的宏偉目標(biāo),并指出初級衛(wèi)生保健是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵和基本途徑[1]。全科醫(yī)生作為初級衛(wèi)生保健服務(wù)的主要提供者,常需要面臨臨床和科研的雙重壓力。在實(shí)際的臨床工作中,全科醫(yī)生通常很少使用量表來幫助診斷,但在科研工作中,由于量表具有便捷等優(yōu)勢,量表研究已經(jīng)成為全科醫(yī)生青睞的研究范式之一。然而,量表的設(shè)計(jì)與開發(fā)涉及多個復(fù)雜且耗時的步驟,這些程序可能會令人望而卻步,且其中的部分程序通常會被忽略[2]。這就導(dǎo)致目前量表設(shè)計(jì)領(lǐng)域研究存在一定的問題,如:一項(xiàng)系統(tǒng)評價(jià)研究顯示,在納入的多項(xiàng)使用問卷評估運(yùn)動員和教練營養(yǎng)態(tài)度、營養(yǎng)知識的研究中,約70%的研究使用了效度和可靠性未知的工具,67%的研究使用了未經(jīng)過驗(yàn)證的工具[3];陳文雄編制的孤獨(dú)癥篩查量表中個別項(xiàng)目的信效度較差,但仍保留在正式量表中[4]。這些未經(jīng)信效度驗(yàn)證或信效度較差的量表會嚴(yán)重限制結(jié)論的準(zhǔn)確性,甚至?xí)鸬截?fù)面作用。因此,制定出能夠指導(dǎo)初級衛(wèi)生保健領(lǐng)域開展量表設(shè)計(jì)研究的標(biāo)準(zhǔn)化流程十分必要。除此之外,當(dāng)前大部分初級衛(wèi)生保健領(lǐng)域的量表設(shè)計(jì)研究是在經(jīng)典測量理論的框架下進(jìn)行的,這一技術(shù)對量表心理測量學(xué)特性的驗(yàn)證至關(guān)重要,但由于經(jīng)典測量理論的固有缺陷——誤差的模糊性和不可知性,常不能保證測量的客觀性,Rasch 模型是解決這一問題的良好方法。Rasch 模型以自然科學(xué)領(lǐng)域內(nèi)的客觀測量為標(biāo)桿,為社會科學(xué)領(lǐng)域的測量建立起一套客觀標(biāo)準(zhǔn),可以確保測量所提供的信息更為客觀和可靠[5]?;诖耍狙芯繉慕?jīng)典測量理論和Rasch模型兩個角度來總結(jié)目前國內(nèi)外初級衛(wèi)生保健領(lǐng)域常用的問卷編制和量表設(shè)計(jì)方法,通過對具體步驟和統(tǒng)計(jì)學(xué)方法的闡述來幫助該領(lǐng)域研究者更好地開展研究。
在初級衛(wèi)生保健領(lǐng)域進(jìn)行量表開發(fā),最重要的一步就是對所需要測量的構(gòu)念進(jìn)行準(zhǔn)確、概括的定義。定義中既需要解釋所要測量構(gòu)念的內(nèi)涵和外延,也需要解釋這一構(gòu)念的結(jié)構(gòu)是什么。這種定義通常由經(jīng)典教材/指南、該領(lǐng)域權(quán)威專家、經(jīng)驗(yàn)豐富的全科醫(yī)生給出,也可以基于大量文獻(xiàn)和調(diào)查總結(jié)而來。前者在臨床上較為常用,為進(jìn)一步擴(kuò)展相關(guān)方法學(xué)應(yīng)用,本文以基于大量調(diào)查和專家訪談確立定義為例。
WANG 等[6]的研究中使了Weiss-Laxer 等基于大量調(diào)查和專家訪談確立的定義:(1)研究者首先聯(lián)系知名家庭健康領(lǐng)域研究者組成專家小組,由研究執(zhí)行者組成領(lǐng)導(dǎo)小組,以明確專家訪談的最終目標(biāo)。(2)通過第1 輪專家咨詢,專家組提出并共同修改“家庭健康”的概念,由領(lǐng)導(dǎo)小組將概念劃分為6 個不同的領(lǐng)域。(3)專家進(jìn)一步確認(rèn)各領(lǐng)域的內(nèi)容及包含的概念,并按照重要性和可行性程度進(jìn)行劃分。最終得出家庭健康的定義為:其是家庭單位層面的資源,從每個家庭成員的健康、互動和能力,以及家庭的身體、社會、情感、經(jīng)濟(jì)和醫(yī)療資源的交叉點(diǎn)發(fā)展而來。在量表編制過程中選用重要的4 個因素:家庭/社會/情感健康過程、家庭健康生活方式、家庭健康資源、家庭外部社會支持。有學(xué)者在研究開始前界定了構(gòu)念的內(nèi)涵,包含了想要去測量的家庭健康的確切主題,也涵蓋了家庭健康的相關(guān)維度,為研究的順利推進(jìn)奠定了基礎(chǔ),其方法值得研究者學(xué)習(xí)。研究者也可以根據(jù)定義來確定問卷的初始維度和預(yù)期目的,以使初始測試盡可能多樣化。
在完成測量構(gòu)念的定義后,研究者即開始制作初始維度的條目池。代表同一維度的條目池要盡可能冗余,以確保最后能夠符合預(yù)期條目,也避免在后期數(shù)據(jù)處理過程中刪減條目造成條目數(shù)不足等問題。一般來說,研究者所編制量表的條目至少要達(dá)到最終保留版本的2 倍。
條目池的生成通常以經(jīng)典教材、指南、文獻(xiàn)和理論為指導(dǎo),結(jié)合針對臨床問題的既往研究或已有問卷,通過對已有資料的評估,編制出能夠測量各維度特征的問題。因此,在編制量表?xiàng)l目池前一定要明確各維度的定義,根據(jù)各維度的定義來編制符合其含義的問題。如高志強(qiáng)等[7]編制成功恐懼問卷時,通過對已有研究進(jìn)行整理與分析,總結(jié)出了成功恐懼的結(jié)構(gòu)維度包括生活品質(zhì)、家庭幸福、身體健康、心理健康、人際關(guān)系和戀愛擇偶,然后圍繞該6 個維度編制了最初的條目池,并針對施測人群進(jìn)行了初始化的結(jié)構(gòu)化訪談和半開放式的問卷調(diào)查。
在量表設(shè)計(jì)的語言方面也要遵循一定的原則,在編制量表?xiàng)l目時使用的語言應(yīng)盡可能簡單明了,避免使用專業(yè)性詞匯和雙重否定,因?yàn)檫@會讓受訪者感到困惑;各條目的語言應(yīng)盡量避免涉及社會禁忌和個人隱私,防止受訪者出現(xiàn)抵觸情緒,干擾研究;語言的使用一定要符合受測者所處地區(qū)的文化規(guī)范,必要時需進(jìn)行調(diào)整。在成功恐懼問卷的編制中,完成對量表內(nèi)容的制定后還邀請了中文系專家對量表語言進(jìn)行評估,以排除語意重復(fù)和存在歧義的條目[7]。
1.3.1 響應(yīng)格式:響應(yīng)格式選擇通常與條目池的生成同步進(jìn)行,研究者需要根據(jù)實(shí)際情況和調(diào)查的具體目的來選擇適合該研究的評分系統(tǒng)和響應(yīng)格式。
首先,研究者需要確定所編制條目池中每個問題的響應(yīng)格式,是采用開放式提問的方式還是封閉式提問?開放式提問要求施測對象提供每個問題的答案,這對于受訪者和研究者來說難度較大,同時給出的答案具有多樣性,不利于進(jìn)行編碼計(jì)分。開放式提問的好處是可以為研究者提供更多的思路,一般更適合在初始調(diào)查中使用,而在一個成型的量表中使用得并不多。因此,在初級衛(wèi)生保健領(lǐng)域研究中,使用較多的仍然是封閉式提問。封閉式提問會給出具體的選項(xiàng),對施測對象來說更容易回答,但這也會造成其他問題,如答案是設(shè)置單選還是多選?給出的可選擇答案不同是否會影響測量結(jié)果?這在量表設(shè)計(jì)類研究中都是不可忽略的。
在絕大多數(shù)量表設(shè)計(jì)類研究中使用較多的是單選題,但是多項(xiàng)選擇仍然是有價(jià)值的,因?yàn)楹芏鄷r候一個問題并不會只有一個答案,而多項(xiàng)選擇能夠提供關(guān)于該問題更多的信息。孫昕霙等[8]利用項(xiàng)目反應(yīng)理論開發(fā)出了糖尿病功能性健康素養(yǎng)量表,該量表共30 道題目,其中3 道是多選題,這提供了與糖尿病功能性健康素養(yǎng)有關(guān)的更多的信息。在評分方面,該量表將多選題按選項(xiàng)數(shù)量每答對1 個選項(xiàng)計(jì)1 分,但這種計(jì)分方式較為復(fù)雜,同時也會受到選項(xiàng)設(shè)置的干擾。一般來說,“選擇所有正確的選項(xiàng)”的問題可能難以“編碼”和評分,應(yīng)盡可能避免[2]。此外,在封閉式提問設(shè)置選項(xiàng)時,仍然需要加以注意。如在量表選項(xiàng)設(shè)置中是否應(yīng)該加入“不確定”這一選項(xiàng),ALSAFFAR[9]在翻譯營養(yǎng)知識問卷時就使用了“不確定”這一選項(xiàng),但FOLASIRE 等[10]對此提出了質(zhì)疑,質(zhì)疑原因?yàn)椤安淮_定”選項(xiàng)容易導(dǎo)致那些對選項(xiàng)有很好了解的人在信心低下時避免回答或因?yàn)閼卸瓒x擇逃避。除此之外,研究者還應(yīng)避免將“其他”類別作為選項(xiàng),當(dāng)然只有在仔細(xì)確定了絕大部分可能存在的潛在類別之后,才能做出不提供“其他”選項(xiàng)的決定。
1.3.2 評分系統(tǒng):在一份量表中,評分系統(tǒng)的設(shè)置需要結(jié)合具體條目。一般來說,當(dāng)問題回答有正誤之分時,只需將正確的選項(xiàng)計(jì)為1 分,將錯誤的選項(xiàng)計(jì)為0 分。但在大多數(shù)時候,受測對象很難做到絕對的二分,因此在實(shí)際研究中,常用的評分系統(tǒng)是Likert 評分系統(tǒng),如Likert 5 級計(jì)分、7 級計(jì)分、9 級計(jì)分等。胡海利等[11]在編制中學(xué)生心理復(fù)原力量表時即采用了Likert 5 級計(jì)分法,以“從不”“偶爾”“有時”“經(jīng)?!薄翱偸恰?個等級進(jìn)行程度評定,分別計(jì)為1、2、3、4、5 分。而在涉及態(tài)度的研究中,研究者更傾向于使用“非常不同意”“有些不同意”“中立”“有些同意”“非常同意”5個等級,計(jì)分仍然是1~5 分。這兩者均屬于Likert 5 級計(jì)分,而7 級計(jì)分和9 級計(jì)分則是在5 級計(jì)分的基礎(chǔ)上進(jìn)一步將選項(xiàng)細(xì)分。那么在研究中該如何選擇Likert 量尺點(diǎn)數(shù)呢?PODSAKOFF 等[12]認(rèn)為,當(dāng)調(diào)查對象具有較多的知識和較高的興趣時,量表需要更多的態(tài)度量尺點(diǎn)數(shù),此時使用7 級或9 級計(jì)分比5 級計(jì)分更合適,因?yàn)閼B(tài)度量尺的點(diǎn)數(shù)越少,偏態(tài)程度越大。
此外,在研究過程中,哪怕是收集了數(shù)據(jù)后,不同量尺點(diǎn)數(shù)的Likert 計(jì)分之間仍然可以轉(zhuǎn)換。這種轉(zhuǎn)換是通過Rasch 分析實(shí)現(xiàn)的,Rasch 分析可以系統(tǒng)地分析每個選項(xiàng)的測量特性,通過繪制選項(xiàng)概率曲線(category probability curve,CPC)判斷是否存在選項(xiàng)等級的濫用和缺失[13]。以2021 年中國居民心理與行為調(diào)查(PBICR)中的法式煙草依賴評估量表(FTND)為例作圖[14],F(xiàn)TND 的條目1 為“您早晨醒后多長時間吸第1 支煙?>60 min(類別0),31~60 min(類別1),6~30 min(類別2),≤5 min(類別3)”。圖1 為條目1 的CPC圖,圖中每條曲線對應(yīng)一個選項(xiàng),橫軸代表被試煙草依賴程度(從左往右遞增),縱軸代表被試選擇的概率。以某位煙草依賴程度為-4 的被試為例,其選擇類別0的概率約為95%,選擇類別1 的概率約為5%,選擇其他選項(xiàng)的概率接近于0。因此,該被試選擇類別0 的可能性最大。以此類推,在類別0 與類別2 交點(diǎn)左側(cè),選擇類別0 的概率最大;在類別0 與類別2 交點(diǎn)和類別2與類別3 交點(diǎn)之間,選擇類別2 的概率最大;在類別2與類別3 交點(diǎn)右側(cè),選擇類別3 的概率最大。研究團(tuán)隊(duì)在測量過程中發(fā)現(xiàn),類別1 選項(xiàng)的使用率偏低,出現(xiàn)了Likert 等級濫用的情況。根據(jù)LINACRE[15]的建議,當(dāng)出現(xiàn)Likert 等級濫用時,應(yīng)考慮將相應(yīng)選項(xiàng)與相鄰選項(xiàng)合并。因此,這里可以考慮將類別1 與類別2 合并為6~60 min,但合并選項(xiàng)后的量表仍需要再進(jìn)行檢驗(yàn)。需要注意的是,由于FTND 條目1 為多分類選項(xiàng)設(shè)置,因此在模型擬合時使用了分步計(jì)分模型(Partial Credit Model,PCM)。
圖1 FTND 條目1 的選項(xiàng)概率曲線圖Figure 1 Probability curve of item 1 options in the FTND
定性預(yù)測試是任何問卷或心理測量工具開發(fā)、翻譯或修訂的關(guān)鍵階段。選取小樣本受訪人群進(jìn)行小范圍預(yù)測試,目的是驗(yàn)證目標(biāo)受眾是否理解條目問題與選項(xiàng),從受訪者角度評價(jià)條目表述是否存在歧義,若出現(xiàn)語義理解困難、框架不清晰等問題,需修改條目后進(jìn)行新一輪預(yù)測試,直至確保所有受訪者理解條目含義且內(nèi)容可接受[16]。預(yù)測試主要采用便利抽樣法抽取樣本,盡可能選擇30 份或以上樣本,以確保數(shù)據(jù)分析的穩(wěn)定性與可靠性[16],并需對目標(biāo)人群進(jìn)行問卷填寫感受與理解度調(diào)查。如程彥如等[17]在編制失能老年人照顧者居家照護(hù)行為量表時,采用便利抽樣法選取了3 個社區(qū)的102 名失能老年人照顧者為預(yù)測試對象。
預(yù)測試環(huán)節(jié)需進(jìn)行量表的表面效度測評,即從受訪者角度看測評工具內(nèi)容是否與測評目的一致,表面效度并不是真正的效度指標(biāo)。在實(shí)際應(yīng)用中,如果直接閱讀問卷?xiàng)l目能夠明顯覺察問卷的測量意圖,則該問卷表面效度較高。如測量護(hù)理人員洗手狀況的問卷涉及洗手次數(shù)、時長及方法等,故此問卷具備表面效度[18]。在初級衛(wèi)生保健領(lǐng)域,研究者想要考察患者的行為情況或針對某一病情進(jìn)行詳細(xì)詢問,必然應(yīng)當(dāng)提高量表的表面效度,確?!八鸺此鶈枴?;然而在涉及個人隱私方面或影響社會形象的問題上,表面效度過高可能會導(dǎo)致欺騙和隱瞞行為的出現(xiàn),因此表面效度的設(shè)置需要依據(jù)具體研究目的設(shè)定。
在初級衛(wèi)生保健領(lǐng)域的量表編制過程中,應(yīng)當(dāng)在完成預(yù)測試后對量表進(jìn)行項(xiàng)目分析,該步驟可為進(jìn)一步修訂量表提供依據(jù),也是后續(xù)正確評價(jià)量表的前提。項(xiàng)目分析的實(shí)質(zhì)是探究每個題項(xiàng)的差異,檢驗(yàn)其質(zhì)量,并依據(jù)一定的標(biāo)準(zhǔn)對其進(jìn)行修訂或剔除,保障項(xiàng)目之間的同質(zhì)性與量表的可靠性。研究者主要可以從項(xiàng)目的難度、項(xiàng)目區(qū)分度和項(xiàng)目功能的差異3 個方面來考察。
1.5.1 項(xiàng)目難度:項(xiàng)目難度是指完成測驗(yàn)項(xiàng)目的困難程度,是對測試者作答情況進(jìn)行評估的指標(biāo),作答正確率越高,難度越低。設(shè)置測驗(yàn)難度水平的目的在于通過研究者開發(fā)的量表將不同的受測者盡可能區(qū)分開來,以最大限度體現(xiàn)受測者的差異,體現(xiàn)量表的鑒別力。正如步驟3 所述,不同的量表類型適宜設(shè)置不同的計(jì)分系統(tǒng),對于非二分法計(jì)分項(xiàng)目的難度可以采用所有受測者某一項(xiàng)目的平均得分與該題目滿分之比來計(jì)算難度。如在一項(xiàng)關(guān)于大學(xué)生健康素養(yǎng)的研究中,研究者將多項(xiàng)選擇題的反應(yīng)進(jìn)行重新編碼,換算成另一種比例,對于正確值<0.2 或>0.8 的項(xiàng)目都進(jìn)行了重評,并考慮是否刪除[19]。過高或過低的難度值都會給得分的分布和分?jǐn)?shù)的離散程度帶來影響,在實(shí)際操作過程中研究者應(yīng)當(dāng)考慮量表的性質(zhì)和目的,科學(xué)設(shè)置合理的難度臨界值。
Rasch 模型與經(jīng)典測量理論運(yùn)用的方法不同,Rasch模型主要強(qiáng)調(diào)測量的客觀性和可比性。因此對于測量難度這一指標(biāo),Rasch 模型認(rèn)為題目難度必須獨(dú)立于樣本被試分布,即抽樣的人群在選擇選項(xiàng)時不受題目難度的影響,同時個體的能力也應(yīng)當(dāng)獨(dú)立于測量題目的難度分布。即題目的難度不隨被試樣本的變化而變化,不受被試能力水平高低的影響。因此Rasch 測量能夠提供關(guān)于個體能力和題目難度的等距分?jǐn)?shù),將個體能力水平和題目難度水平置于同一個Logit 量尺中進(jìn)行對比,刻畫被試能力水平和項(xiàng)目難度水平的人-項(xiàng)目圖(Person-Item Map)。圖2 是生活滿意度量表的人-項(xiàng)目圖,由該圖可知,圖中的黑點(diǎn)主要位于0~2,提示在生活滿意度量表項(xiàng)目中,中等及偏高水平生活滿意度的被試者提供的信息量最大,但不適用于用來評定生活滿意度水平較低的被試。不同的被試和項(xiàng)目分布在一張圖表中,可為研究者提供更多的信息。如果研究者計(jì)算出來的難度閾值和均值圍繞在0 附近,這就表明試題的難度適中。如惠建榮等[20]關(guān)于卒中患者生活質(zhì)量量表的質(zhì)量分析中,所有條目的難度閾值為-0.32~0.67(M=0.00,SD=0.34),這意味著所有條目的認(rèn)可度處于中等水平,認(rèn)可度良好。如果在量表開發(fā)過程中,項(xiàng)目難度水平過高或過低,則說明該題目所代表的行為或維度出現(xiàn)頻率并不高,或?qū)τ诒辉噥碚f過難,而這樣的量表只有在針對特定人群(過高或過低水平的被試)時準(zhǔn)確度才高。
圖2 生活滿意度量表的人-項(xiàng)目圖Figure 2 Person-item map of the Life Satisfaction Scale
1.5.2 項(xiàng)目區(qū)分度:考察項(xiàng)目區(qū)分度的目的在于檢驗(yàn)設(shè)計(jì)的量表是否能將兩類不同的人真正區(qū)分開來,達(dá)到研究者預(yù)先的設(shè)想,主要包括鑒別指數(shù)法、相關(guān)法和矯正項(xiàng)總計(jì)相關(guān)性(corrected item-total correlation,CITC)法。
(1)鑒別指數(shù)的計(jì)算方法并不復(fù)雜,在統(tǒng)計(jì)好所有受測者的總分后按分?jǐn)?shù)高低依次排序,測量學(xué)上一般以前后27%的比例劃分出高分組和低分組,對兩組人群的各題項(xiàng)得分進(jìn)行獨(dú)立樣本t 檢驗(yàn),最終對于未表現(xiàn)出統(tǒng)計(jì)學(xué)意義的題項(xiàng)單獨(dú)考慮,必要情況下可以剔除,以保障量表的準(zhǔn)確性。(2)可采用計(jì)算項(xiàng)目得分和測驗(yàn)總分的相關(guān)系數(shù)(PT-mesure)作為區(qū)分度指標(biāo),相關(guān)系數(shù)越大區(qū)分度越高,最終綜合考量是否剔除相關(guān)度不佳的項(xiàng)目。(3)CITC 也可以用來考察量表維度中項(xiàng)目之間的相關(guān)性,如果≥0.5 則說明該題項(xiàng)與其他項(xiàng)之間有著較高的相關(guān)性,如果<0.5 則可以考慮刪除該項(xiàng)目后觀察Cronbach'sα系數(shù)的變化,或考慮修改該項(xiàng)目?;o等[21]編制的兒童運(yùn)動發(fā)育家庭環(huán)境量表運(yùn)用鑒別指數(shù)的方法測量項(xiàng)目區(qū)分度,結(jié)果顯示,各個項(xiàng)目之間,高分組和低分組在71 個條目的得分上均存在統(tǒng)計(jì)學(xué)意義,因此在該階段保留了所有條目。楊振等[22]在對老年健康促進(jìn)量表進(jìn)行信效度檢驗(yàn)時,測得條目與量表總分的相關(guān)系數(shù)為0.406~0.752,呈中等程度相關(guān)(臨界值為0.300),隨后結(jié)合信度系數(shù)對每個條目進(jìn)行了進(jìn)一步的檢驗(yàn)。
在項(xiàng)目反應(yīng)理論當(dāng)中,難度與區(qū)分度是密不可分的,在中等難度下,項(xiàng)目的區(qū)分度常最高。因此,項(xiàng)目的難度也可以通過人-項(xiàng)目圖看出。圖2 中最下側(cè)為Logit標(biāo)尺,從左到右測量值逐漸升高,對于每個被試而言,所處位置越靠近右端,其生活滿意度越高。圖中條形高度表示位于這一位置被試的數(shù)量,被試分布越集中說明該量表的區(qū)分度越小,分布越分散說明量表的區(qū)分度越大。在圖中的5 個項(xiàng)目上,被試的掌握水平基本呈偏態(tài)分布,并集中分布在0 Logit 到2 Logit 之間。這說明在5 個項(xiàng)目中,該量表的區(qū)分度較差,在區(qū)分生活滿意度較差的被試時較為困難。趙福菓等[13]在編制奧爾維斯欺負(fù)量表時,使用Rasch 模型發(fā)現(xiàn)難度分布非常集中,導(dǎo)致量表對不同霸凌/被霸凌程度被試的區(qū)分效果較差,尤其難以區(qū)分高霸凌/被霸凌群體。值得注意的是,一般意義上的Rasch 模型僅考慮了難度這一個參數(shù),如果需要將區(qū)分度納入模型,需要使用雙參數(shù)模型。
1.5.3 項(xiàng)目功能差異(differential item functioning,DIF):DIF 是指兩組被試在某個項(xiàng)目上的表現(xiàn)差異,代表了項(xiàng)目對不同被試有不同的統(tǒng)計(jì)特性,如果在同一項(xiàng)目上正確作答的概率不同,達(dá)到某一臨界值,那么該項(xiàng)目則存在偏差,需要進(jìn)一步的探究差異的來源[23]。Rasch 模型傾向于運(yùn)用統(tǒng)計(jì)檢驗(yàn)的方法計(jì)算DIF,隨著該理論模型影響力的進(jìn)一步擴(kuò)大,不同的學(xué)者提出了不同的計(jì)算方法。通過運(yùn)用Mantel-Haenszel(M-H 方法)檢驗(yàn)法檢驗(yàn)被試者個人特征變量帶來的DIF,當(dāng)差異>0.5 且P<0.05 時認(rèn)為題目存在項(xiàng)目功能差異[24]。如杜海燕等[25]應(yīng)用M-H 方法進(jìn)行DIF 檢驗(yàn)時發(fā)現(xiàn)第9、39、58 題呈現(xiàn)出中等或較為嚴(yán)重的DIF 現(xiàn)象。也可以通過Lord χ2卡方檢驗(yàn)法、運(yùn)用R 語言軟件進(jìn)行DIF 檢驗(yàn),分析結(jié)果中χ213為項(xiàng)目功能差異指標(biāo),某一項(xiàng)中χ213>0.05 說明存在DIF[26]。如高爽等[27]應(yīng)用Rasch模型分析Rosenberg 自尊量表時便是使用Lord χ2檢驗(yàn)法,結(jié)果發(fā)現(xiàn)項(xiàng)目1 和項(xiàng)目5 存在DIF,即在這兩個項(xiàng)目上,性別差異導(dǎo)致自尊水平不同。對于多級計(jì)分題也可以使用方差分析法進(jìn)行檢驗(yàn),如在WHO 殘疾評估計(jì)劃的開展過程中,發(fā)現(xiàn)不同性別群體間的項(xiàng)目難度不同,研究者采用方差分析,通過性別和其他有可能產(chǎn)生DIF的項(xiàng)目進(jìn)行對比,從而找出不合適的項(xiàng)目進(jìn)行修改[28]。值得注意的是,項(xiàng)目分析的三大方面并非要求在編制量表時全部使用,而是根據(jù)量表的特征加以選擇——量表是單項(xiàng)選擇還是多項(xiàng)選擇?是二分法還是多級計(jì)分?開發(fā)的量表是什么性質(zhì)的?在項(xiàng)目分析過程中發(fā)現(xiàn)的問題項(xiàng)是否剔除也不能一概而論,簡單的刪除難度過大、區(qū)分度不良或擬合度不高的項(xiàng)目都并非值得提倡的做法,因?yàn)檫^于完美的模型難以真實(shí)存在,其只是一種理想性的假設(shè)與指導(dǎo),應(yīng)當(dāng)結(jié)合多項(xiàng)指標(biāo)的綜合情況進(jìn)行考慮。
1.6.1 基于經(jīng)典測量理論的初次評價(jià):經(jīng)典測量理論也被稱作真分?jǐn)?shù)理論,20 世紀(jì)50 年代趨于完善。該理論認(rèn)為測驗(yàn)得到的分?jǐn)?shù)X 是由真分?jǐn)?shù)T 和隨機(jī)誤差E 所組成,即X=T+E,誤差E 的平均數(shù)為零,T 和E 之間的相關(guān)為零。并在此基礎(chǔ)之上建立了測驗(yàn)項(xiàng)目的測量學(xué)指標(biāo),如信度、效度、難度和區(qū)分度等,并以此篩選測驗(yàn)項(xiàng)目、建立題庫和構(gòu)制測驗(yàn)[29]。前文中已經(jīng)對如何利用難度和區(qū)分度篩選測驗(yàn)項(xiàng)目做了詳細(xì)說明,此處旨在介紹如何運(yùn)用經(jīng)典測量理論來完成測驗(yàn)的初次評價(jià),即進(jìn)行探索性因素分析(exploratory factor analysis,EFA)和信效度分析。
(1)EFA 作為一種經(jīng)典測量理論技術(shù),已經(jīng)被廣泛運(yùn)用于初級衛(wèi)生保健領(lǐng)域的量表設(shè)計(jì)與開發(fā)之中。EFA 主要是通過數(shù)學(xué)的方法探索量表中的變量或因素,以此來確定量表的具體維度和每個項(xiàng)目歸屬于哪個維度。EFA 應(yīng)包括確定變量及樣本、確定是否可以進(jìn)行EFA、確定因子個數(shù)、因子旋轉(zhuǎn)4 個關(guān)鍵步驟。
①確定變量及樣本。這是進(jìn)行數(shù)據(jù)分析前的準(zhǔn)備工作,對于整個研究來說至關(guān)重要。該階段要求研究者根據(jù)以往研究和理論盡可能編制或收集與自己研究主題相關(guān)的條目,有時甚至需要包含一些與主題無關(guān)的條目。因?yàn)樵诮?jīng)過EFA 的篩選之后,剩下的條目常會比原始條目少很多,如何決定條目的去留也是研究者需要關(guān)注的問題,常見的標(biāo)準(zhǔn)有因子載荷量、項(xiàng)目共同度、跨因子載荷等。通常認(rèn)為成分矩陣中項(xiàng)目的因子載荷量>0.71 為優(yōu)秀,>0.63 為非常好,>0.55 為好,>0.45 為一般,>0.32 為差[30];項(xiàng)目共同度不能過低,一般認(rèn)為項(xiàng)目共同度不得低于0.30[31];同一個項(xiàng)目不能在兩個因子上都有著較高的載荷,如陳貴等[32]剔除了在不同因子上有相近載荷且難以解釋的項(xiàng)目。在做因素分析之前,還需要注意樣本量,因素分析的樣本量不可太低,否則結(jié)果沒有太大說服力。Corsuch 建議的樣本數(shù)和變量數(shù)比為5 ∶1,同時樣本量不能低于100;Nunnally 則推薦樣本數(shù)和變量數(shù)比為10 ∶1[33]。
②確定是否可以進(jìn)行EFA。EFA 的目的是簡化數(shù)據(jù)或者找出量表的基本數(shù)據(jù)結(jié)構(gòu),目前研究者普遍采用主成分分析法來進(jìn)行EFA,因此在進(jìn)行EFA 之前需要確保因素分析的理論假設(shè)和統(tǒng)計(jì)假設(shè)得以滿足。因素分析的理論假設(shè)認(rèn)為這組變量中確實(shí)存在潛在結(jié)構(gòu),而統(tǒng)計(jì)假設(shè)要求觀測變量之間存在較強(qiáng)的相關(guān)性。因此,在進(jìn)行EFA 前需要確保以下幾個條件被滿足:項(xiàng)目間相關(guān)性>0.3、Bartlett 球形檢驗(yàn)顯著(P<0.05)、抽樣充分性(MSA)的KMO 度量至少為0.6[2]。項(xiàng)目間相關(guān)性>0.3 要求研究者計(jì)算所有題目的相關(guān)性,如果所有或大部分相關(guān)性≤0.3 則不適合做EFA。球形檢驗(yàn)和MSA 也是同樣的道理。如郭靜等[34]在修訂中文版心理脆弱性問卷時進(jìn)行了KMO 度量和Bartlett 球形檢驗(yàn),結(jié)果顯示KMO=0.89,Bartlett 球形檢驗(yàn)的χ2/df=25.31,P<0.001。需要注意的是,這些參數(shù)合格僅代表可以進(jìn)行因素分析,而不是說明因素分析結(jié)果較好。
③確定因子個數(shù)。確定所選變量的因子結(jié)構(gòu)和因子個數(shù)是EFA 中非常關(guān)鍵的一步,因子抽取過少或過多都會造成一定的問題,但實(shí)證研究中更傾向于保留較多的因子,因?yàn)槌槿∵^度相比于抽取不足的因子載荷估計(jì)更加準(zhǔn)確。因此,研究者提出了多種檢驗(yàn)方法來幫助決策,主要包括3 種。其一,特征值>1,也叫K1 原則,是研究者最常采用的標(biāo)準(zhǔn)之一。其二,解釋方差總量。方差解釋量也是基于主成分分析法的思想發(fā)展而來,關(guān)于因子解釋多少總體方差合適并沒有統(tǒng)一的標(biāo)準(zhǔn),有研究者認(rèn)為因子解釋的方差總量應(yīng)不低于50%[35]。表1 顯示了8 條目一般自我效能感量表的因子分析結(jié)果[14],其中僅有一個主成分的特征值大于1,研究者據(jù)此認(rèn)為一般自我效能感量表是個單維度的量表,僅包含1 個因子;不僅如此,表中還顯示了該因子的方差解釋量(71.91%),意味著該因子能夠解釋一般自我效能感71.91%的變異,能較好地反映一般自我效能感。其三,碎石圖。碎石圖提供了因子數(shù)和特征值大小的圖形表示,研究者只需要根據(jù)EFA 給出的碎石圖選擇出現(xiàn)拐點(diǎn)時對應(yīng)的因子數(shù)即可,這種方法簡單方便,也更加直觀。圖3 為一般自我效能感量表的碎石圖,由圖可知,在從第1 個成分開始,特征值產(chǎn)生了巨大轉(zhuǎn)折,因此可將第1 個成分視為拐點(diǎn),認(rèn)為該量表僅包含一個因子。
表1 基于主成分分析法的一般自我效能感量表因子分析結(jié)果Table 1 Factor analysis results of the General Self-efficacy Scale using principal component analysis
圖3 一般自我效能感量表的碎石圖Figure 3 Scree plot of the general self-efficacy scale
④因子旋轉(zhuǎn)。在確定了因子個數(shù)后,下一步就需要確定因子旋轉(zhuǎn)的方法。因子旋轉(zhuǎn)的方法可分為兩大類:斜交旋轉(zhuǎn)(oblique rotation)和正交旋轉(zhuǎn)(orthogonal Rotation)。與斜交旋轉(zhuǎn)不同的是,正交旋轉(zhuǎn)需要假設(shè)因子之間無相關(guān)。就初級衛(wèi)生保健領(lǐng)域的實(shí)證研究而言,因子之間常存在著或大或小的相關(guān)性,因此采用斜交旋轉(zhuǎn)更加客觀,然而目前已發(fā)表的絕大多數(shù)研究使用的多是正交旋轉(zhuǎn),其結(jié)果更有利于研究者對因子結(jié)構(gòu)做出解讀,但這也容易對研究結(jié)論造成誤導(dǎo)。因此,研究者在未來的研究中先選用斜交旋轉(zhuǎn),如果發(fā)現(xiàn)因子間相關(guān)性較小或沒有相關(guān)性再考慮采用正交旋轉(zhuǎn)。
(2)信度分析:經(jīng)歷了EFA 的剔除條目后,正式量表已經(jīng)成型,此時還需要利用該數(shù)據(jù)檢驗(yàn)正式量表的信度。信度是指測量結(jié)果的穩(wěn)定性。如果一個人的同一種特質(zhì)能夠用同一種測量工具反復(fù)測量,那么各種測量相互間的吻合程度就稱為信度,有時也稱為測量的可靠性。在經(jīng)典測量理論中,衡量信度的方法通常包括復(fù)本信度、重測信度、同質(zhì)性信度、分半信度、評分者信度。在臨床研究中,由于復(fù)本信度較難獲得,故很少使用這一指標(biāo),研究者更傾向于使用重測信度、分半信度和同質(zhì)性信度。
①重測信度:在量表設(shè)計(jì)類研究中,量表的跨時間一致性是一個衡量測量工具可靠性的重要指標(biāo)。因此,在初級衛(wèi)生保健領(lǐng)域進(jìn)行量表的開發(fā)和設(shè)計(jì)時,需要報(bào)告該量表兩次對同一組被試施測所得結(jié)果的一致性程度,其大小可用前后兩次相同測驗(yàn)的皮爾遜積差相關(guān)系數(shù)來表示。如劉蕾等[36]在編制中文版老年人鍛煉心理需求滿足量表時報(bào)告了該量表的重測信度為0.883,3 個維度的重測信度系數(shù)為0.829~0.876。對于測驗(yàn)中的重測信度,一般公認(rèn)的評價(jià)標(biāo)準(zhǔn)是:0.65~0.70 為最小可接受值,>0.70~0.80為相當(dāng)好,>0.80~0.90為非常好[37]。因此,劉蕾等[36]編制量表的重測信度較好,但劉蕾等[36]并未報(bào)告兩次施測的間隔,這也是影響重測信度的重要因素,在今后的研究中應(yīng)加以注意,因?yàn)殡S著第2 次測量的時間不同,量表可以有不同的重測信度。
②復(fù)本信度:通過設(shè)計(jì)兩個平行測驗(yàn)來測量同一批被試,所得結(jié)果的一致性程度稱為復(fù)本信度,其大小可使用兩個復(fù)本測驗(yàn)上同一批人測試的皮爾遜積差相關(guān)系數(shù)來表示。復(fù)本信度也是衡量量表可靠性的一個指標(biāo),但是由于設(shè)計(jì)復(fù)本測驗(yàn)費(fèi)時費(fèi)力,同時又很難保證兩個測驗(yàn)在內(nèi)容和結(jié)果上一致,故其在測量領(lǐng)域并未得到廣泛使用。劉愛梅等[38]在編制適用于突發(fā)性耳聾患者的健康知信行問卷時就使用了這一信度,復(fù)本測驗(yàn)采用內(nèi)容、應(yīng)答形式相似的問卷進(jìn)行調(diào)查,結(jié)果發(fā)現(xiàn)健康相關(guān)知識部分的復(fù)本信度為0.88,而復(fù)本信度的評價(jià)標(biāo)準(zhǔn)與重測信度基本保持一致[37],故該量表的復(fù)本信度較好。
③分半信度,也叫內(nèi)部一致性系數(shù),研究者需要將一個完整的測試分成對等的兩半,比較參與測驗(yàn)的被試在新得到的兩組上測驗(yàn)分?jǐn)?shù)的一致性。分半信度是目前研究中使用較多的信度指標(biāo)之一,研究者只需要在統(tǒng)計(jì)軟件內(nèi)進(jìn)行簡單操作即可得出量表的分半信度。
④同質(zhì)性信度:研究者可通過測量測驗(yàn)內(nèi)部所有題項(xiàng)間的一致性程度得到同質(zhì)性信度,即內(nèi)部一致性系數(shù)。研究者一般采用Cronbach'sα系數(shù)來衡量一個測驗(yàn)的內(nèi)部一致性。Cronbach'sα系數(shù)是目前研究中使用最多的信度,與分半信度類似,研究者只需要在統(tǒng)計(jì)軟件內(nèi)簡單操作即可算出該量表的Cronbach'sα系數(shù)。量表的Cronbach'sα系數(shù)最好在0.80 以上,0.70~0.80 是可以接受的范圍;分量表的Cronbach'sα系數(shù)最好在0.70以上,0.60~0.70 是可以接受的范圍[37]。
⑤評分者信度:由多個評分者給同一批人的答卷進(jìn)行打分,通過計(jì)算得分的一致性,可以得到量表的評分者信度。其大小等于一個評分者的一組評分與另一個評分者的一組評分的肯德爾和諧系數(shù)??系聽柡椭C系數(shù)是表示多列等級數(shù)據(jù)相關(guān)程度的一種量數(shù),常用于評價(jià)多個主評者的評分一致性。
(3)效度分析:在進(jìn)行初級衛(wèi)生保健領(lǐng)域量表設(shè)計(jì)研究時,還應(yīng)檢驗(yàn)所編制量表的效度。效度是一個測試量表能夠測量其試圖測量特征的程度。效度的理論定義是:在與測量目的相關(guān)的一系列測量中,真實(shí)變化(被測量變化引起的有效變化)與總變化(真實(shí)變化)的比值。測試效度可分為內(nèi)容效度、結(jié)構(gòu)效度和經(jīng)驗(yàn)效度。
①內(nèi)容效度:是由相關(guān)專家對測評工具的條目與內(nèi)容范圍的吻合度進(jìn)行詳盡、系統(tǒng)判斷。其中,參評專家的資質(zhì)、專業(yè)范圍是內(nèi)容效度評估質(zhì)量的基本保障。如崔楚云等[39]選擇6 名護(hù)理領(lǐng)域?qū)<遥▉碜詫W(xué)校和醫(yī)院的護(hù)理學(xué)教授、護(hù)理部主任及臨床護(hù)理專家)對量表內(nèi)容效度進(jìn)行評價(jià),因?yàn)檫x擇研究領(lǐng)域的教授或臨床專家是開展內(nèi)容效度評價(jià)是最常見的選擇。另外,內(nèi)容效度在條目篩選中的定量評估包括多種指標(biāo)計(jì)算,其中內(nèi)容效度指數(shù)(content validity index,CVI)由于計(jì)算簡單、易于理解和交流、可對隨機(jī)一致性進(jìn)行校正等優(yōu)點(diǎn)得到了廣泛應(yīng)用。項(xiàng)目水平的內(nèi)容效度指數(shù)(I-CVI)可以評估各項(xiàng)目的內(nèi)容效度,量表層面的內(nèi)容效度指數(shù)(S-CVI)可用于衡量整個量表的內(nèi)容效度。如在完成冠心病患者二級預(yù)防服藥依從性問卷的初步編制后,研究者依照Likert 4 級評分法編制專家評定表,選項(xiàng)設(shè)定為“不相關(guān)”“修改否則不相關(guān)”“很相關(guān)但仍需修改”“十分相關(guān)”4 級,依次計(jì)為1~4 分,發(fā)放給專家作答,回收后計(jì)算得出I-CVI 和S-CVI 均為1.00,表明問卷的內(nèi)容效度良好[40]。
②結(jié)構(gòu)效度:測驗(yàn)在實(shí)際上所測到想要測量的理論和特質(zhì)的程度即為量表的結(jié)構(gòu)效度,其表示了一份量表在多大程度上能夠說明測驗(yàn)理論的某種結(jié)構(gòu)或特質(zhì)。在實(shí)證研究中,研究者一般可以通過項(xiàng)目分析、EFA 及驗(yàn)證性因子分析(confirmatory factor analysis,CFA)來衡量一個量表的結(jié)構(gòu)效度。項(xiàng)目分析是通過計(jì)算量表各條目與所在維度的相關(guān)矩陣及各維度之間的相關(guān)矩陣來檢驗(yàn)量表各維度之間的關(guān)聯(lián)性與獨(dú)立性。如楊麗等[41]在認(rèn)知風(fēng)格問卷中使用了項(xiàng)目分析來衡量量表的結(jié)構(gòu)效度,結(jié)果顯示項(xiàng)目與所在維度的相關(guān)系數(shù)均在0.55 以上,基本分布在0.56~0.75,問卷的項(xiàng)目區(qū)分度良好,認(rèn)知風(fēng)格問卷4 個維度之間存在中等相關(guān),說明4 個維度相互關(guān)聯(lián),同時相對獨(dú)立。EFA 與上節(jié)所述基本一致,只不過這次不需要刪減條目,一般來說,經(jīng)歷過EFA形成的問卷在檢驗(yàn)其結(jié)構(gòu)效度時應(yīng)重新收取新的數(shù)據(jù),對新的數(shù)據(jù)采用EFA 或CFA 來衡量。如WU 等[42]在檢驗(yàn)中文版杜克抗凝滿意度量表(DASS)的信效度時使用AMOS 軟件進(jìn)行CFA 來檢驗(yàn)?zāi)P蛿M合,結(jié)果發(fā)現(xiàn)各項(xiàng)指標(biāo)均顯示4 因素的DASS 模型擬合良好[CMIN/DF=1.825(<5.000),適配度指數(shù)(GFI)=0.854(>0.850),相對擬合指數(shù)(CFI)=0.938(>0.900),漸進(jìn)殘差均方和平方根(RMSEA)=0.066(<0.080),標(biāo)準(zhǔn)擬合指數(shù)(NFI)=0.875(<0.900),Tucker-Lewis 指數(shù)(TLI)=0.921(>0.900)],量表具備良好的結(jié)構(gòu)效度。
③實(shí)證效度:如果一個量表能夠?qū)μ幱诰唧w情境中的被試的行為進(jìn)行有效估計(jì),則稱該量表具有良好的實(shí)證效度或校標(biāo)關(guān)聯(lián)效度。效標(biāo)效度主要可以通過相關(guān)法、區(qū)分法、命中率法來衡量,而目前初級衛(wèi)生保健領(lǐng)域的量表設(shè)計(jì)研究多采用相關(guān)法。相關(guān)法是測試成績與效度變量之間的相關(guān)程度。計(jì)算出的相關(guān)系數(shù)為效度系數(shù),效度系數(shù)的平方為效度。如游永恒等[43]就選取總體幸福感量表(GWB)作為效標(biāo)來驗(yàn)證Beck 抑郁(BDI)量表的同時效度,再發(fā)放抑郁量表時同時要求作答校標(biāo)量表,結(jié)果發(fā)現(xiàn)總體幸福感各維度及總分與抑郁總分均有明顯相關(guān)性(P<0.001),這表明BDI 量表具有較好的效標(biāo)效度。
1.6.2 基于Rasch 模型的初次評價(jià):Rasch 模型是一種基本特征模型,其通過個體在某項(xiàng)上的表現(xiàn)來衡量基本特征。Rasch 模型的基本原理是:一個人在具體題目上的具體表現(xiàn)是由這個人的能力和題目的難度來衡量的,因此個體反應(yīng)的好壞完全取決于個體能力和項(xiàng)目難度。Rasch 模型是一種理想化的數(shù)學(xué)模型,因此Rasch 模型對客觀測量提出了兩個要求:第一是對任何題目,能力高的個體應(yīng)該比能力低的個體有更大可能做出正確回答;第二是任何個體在容易題目上表現(xiàn)得更好,在困難題目上表現(xiàn)得更差[44]。盡管Rasch 模型已經(jīng)發(fā)展了數(shù)十年,但其仍未引起足夠重視,尤其是在初級衛(wèi)生保健領(lǐng)域。在中國知網(wǎng)以“Rasch”為主題進(jìn)行檢索,發(fā)現(xiàn)1915—2022 年僅發(fā)表了160 篇核心期刊論文,其中2017—2021 年的研究占比高達(dá)46.25%,這意味著近年來Rasch 模型已逐漸得到研究者的注意,然而這些研究仍然主要集中于心理學(xué)、教育學(xué)領(lǐng)域,涉及初級衛(wèi)生保健的文章僅有幾篇。因此,在初級衛(wèi)生保健領(lǐng)域開展Rasch 模型研究非常必要。
(1)單維性檢驗(yàn)。項(xiàng)目反應(yīng)理論(item response theory,IRT)是一種關(guān)于個體回答問題的概率與潛在特質(zhì)之間關(guān)系的數(shù)學(xué)表述,是區(qū)別于CTT 的又一測量領(lǐng)域的經(jīng)典理論。常見的IRT 模型包括單參數(shù)模型、雙參數(shù)模型和三參數(shù)模型[44]。部分研究者將Rasch 模型作為IRT 單參數(shù)模型的一個特例,其使用有一個前提,那就是量表具有單維性。單維性是指測量過程中有且僅有一種潛在特質(zhì)影響被試作答。在這里需要注意的是,一種潛在特質(zhì)并不意味著該量表只能有一個維度,只要量表中的各個維度都指向同一種特質(zhì)即可。如陳圓圓等[45]在漢化營養(yǎng)素養(yǎng)評價(jià)工具時發(fā)現(xiàn)該工具包含6 個分量表,但分量表中包含的條目都指向營養(yǎng)素養(yǎng)這一特質(zhì),于是針對分量表和全量表均做了Rasch 分析。一般采用Rasch 模型殘差主成分分析法(PCA)檢驗(yàn)量表單維性,根據(jù)Raiche 的建議,首因子殘差標(biāo)準(zhǔn)化特征值在1.4~2.1即可認(rèn)為該數(shù)據(jù)滿足單維性的要求,適合Rasch 模型[45]。如陳圓圓等[45]在漢化營養(yǎng)素養(yǎng)評價(jià)工具過程中進(jìn)行單維性檢驗(yàn),發(fā)現(xiàn)分量表1~6 的首成分殘差特征值為1.6~1.8,總量表的首成分殘差特征值為3.1,即認(rèn)為該量表適合進(jìn)行Rasch 分析。
(2)模型擬合度。從懷特圖中可得知,Rasch 模型能夠估計(jì)項(xiàng)目的難度和被試的能力水平,通過將實(shí)際的觀測分?jǐn)?shù)與每個被試在每個項(xiàng)目上答對的理論概率進(jìn)行比較,即可評估Rasch 模型的擬合情況。Rasch 模型通常需要計(jì)算兩個擬合指標(biāo):加權(quán)均方擬合統(tǒng)計(jì)量(infit mean square,infit MNSQ)和非加權(quán)均方擬合統(tǒng)計(jì)量(outfit mean square,outfit MNSQ),兩者接近于1 表示模型擬合效果好。一般認(rèn)為,當(dāng)數(shù)據(jù)擬合良好時,非加權(quán)均方擬合統(tǒng)計(jì)量和加權(quán)均方擬合統(tǒng)計(jì)量為0.5~1.5 為好[46]。以生活滿意度量表為例[14],研究者收集了569 份數(shù)據(jù),使用R 軟件進(jìn)行模型擬合度檢驗(yàn),結(jié)果見表2。由表2可知,所有項(xiàng)目的參數(shù)基本在可接受范圍內(nèi),說明數(shù)據(jù)與模型達(dá)到了很好的擬合。題目5(如果我能重新活過,差不多沒有東西我想改變。1=不同意,2=有些不同意,3=中立,4=有些同意,5=同意)的非加權(quán)均方擬合統(tǒng)計(jì)量和加權(quán)均方擬合統(tǒng)計(jì)量參數(shù)值分別為1.52 和1.40(均>1.000)。這意味著有較高生活滿意度的人選擇了低分,即不同意/有些不同意;而有著較低生活滿意度的人選擇了高分,即同意/有些同意。因此,題目5 在區(qū)分被試生活滿意度時誤差較大,需要進(jìn)一步考慮是否需要保留該條目。
表2 生活滿意度量表的模型擬合參數(shù)Table 2 Model fitting parameters of the Life Satisfaction Scale
此外,一個較好的項(xiàng)目或量表應(yīng)該能夠?yàn)闇y試提供較多的信息,降低對被試特質(zhì)水平估計(jì)方面的誤差。項(xiàng)目反應(yīng)理論認(rèn)為,用與被試特質(zhì)水平相當(dāng)?shù)牧勘磉M(jìn)行測試時,量表才能提供最精準(zhǔn)的測量結(jié)果。在研究中,一般采用測試信息曲線進(jìn)行測量,其可以反映當(dāng)不同特征水平的被試完成完整量表的所有項(xiàng)目時,量表整體能提供準(zhǔn)確評價(jià)的程度。其中,項(xiàng)目的難度可參見橫坐標(biāo),代表了被試的特質(zhì)水平,每個刻度代表1 個Logit 單位,縱坐標(biāo)代表信息量,即Fisher 信息函數(shù)[13]。圖4 是生活滿意度量表的測驗(yàn)信息曲線圖[14],其中上半圖是各條目的測驗(yàn)信息曲線,下半圖是總量表的測驗(yàn)信息曲線??傮w而言,該量表在生活滿意度估計(jì)值為0~2 時準(zhǔn)確率最高,能為中、高生活滿意度的被試提供最大的信息。如高爽等[27]在計(jì)算Fisher 信息函數(shù)后發(fā)現(xiàn),自尊的估計(jì)值為-2~0,可以提供最高的測量精度,為中、低自尊被試提供最多的信息。
圖4 生活滿意度的測驗(yàn)信息曲線Figure 4 Information curve of life satisfaction test
(3) 信度。Rasch 模型以分隔信度(person separation reliability,PSR)衡量量表信度,分隔信度可以通過計(jì)算個體所產(chǎn)生“真實(shí)”變異與總變異的比例得出,通常用于考察受試者在項(xiàng)目評定上的可靠程度[13]。Rasch 模型測量的總體信度是通過計(jì)算個體水平上的解釋率得到的,其值從0 到1。一般情況下,可靠性指標(biāo)在0.7 以上為可接受,0.8 以上為良好[5]。
從第1 步到第6 步,一個量表基本已經(jīng)成型。但由于量表?xiàng)l目篩選和信效度檢驗(yàn)均是采用同一份樣本進(jìn)行,該量表是否具有跨樣本和跨時間的一致性仍然是未知的。因此,研究者應(yīng)該使用正式量表重新收集一個新的樣本,檢驗(yàn)該量表在新樣本上的信度與效度。當(dāng)然,需要注意的是,如果研究者需要檢驗(yàn)該量表的重測信度,那么第2 批量表的被試中就應(yīng)該包含一部分第1 批施測的對象。由于信效度分析的相關(guān)內(nèi)容已經(jīng)在前面闡述,研究者只需要使用相同方法再次檢驗(yàn)即可,故不再贅述。此處僅對經(jīng)典測量理論中使用CFA 檢驗(yàn)量表結(jié)構(gòu)效度的方法進(jìn)行闡述。
CFA 是指在明確觀測指標(biāo)和潛在因子之間隸屬關(guān)系的前提下進(jìn)行的假設(shè)檢驗(yàn),是理論驅(qū)動型分析。在經(jīng)歷了EFA 以后,已經(jīng)明確了正式量表的因子結(jié)構(gòu),故可以利用新數(shù)據(jù)構(gòu)建CFA 模型來檢驗(yàn)量表的結(jié)構(gòu)效度。再根據(jù)輸出結(jié)果的擬合狀況考慮是否需要進(jìn)行模型修正,主要選用的擬合指標(biāo)包含卡方自由度比值(χ2/df)、GFI、調(diào)整擬合優(yōu)度指數(shù)(AGFI)、RMSEA、NFI、增量擬合指數(shù)(IFI)、相對擬合指數(shù)(RFI)、CFI、TLI 等。這些參數(shù)的適配標(biāo)準(zhǔn)為:χ2/df<2 時(也有研究者認(rèn)為χ2/df<3),表示假設(shè)模型的適配度較佳[47];RMSEA<0.08 意味著模型尚可接受[6];AGFI 與GFI 應(yīng)>0.90,表示模型與數(shù)據(jù)有著良好的匹配度[48];NFI、RFI、IFI、TLI、CFI 應(yīng)>0.90[48]。如果這些擬合指數(shù)未達(dá)到較好的適配標(biāo)準(zhǔn),研究者應(yīng)考慮對模型進(jìn)行修正,具體做法是利用AMOS 報(bào)表呈現(xiàn)的MI 值,釋放兩個測驗(yàn)誤差變量彼此之間的關(guān)系,即在其之間建立共變關(guān)系[46],從而達(dá)到對優(yōu)化模型的目的。
量表設(shè)計(jì)類方法在初級衛(wèi)生保健領(lǐng)域得到了充分的運(yùn)用,這主要體現(xiàn)在量表設(shè)計(jì)研究的使用廣度上。大部分研究會涉及量表的使用,故一個量表的設(shè)計(jì)與開發(fā)是否合理便決定了該研究是否可靠。而目前關(guān)于量表設(shè)計(jì)的研究仍存在諸多不規(guī)范的地方,如信效度較差、缺乏關(guān)鍵步驟、統(tǒng)計(jì)錯誤等??傮w而言,在初級衛(wèi)生保健領(lǐng)域開展量表設(shè)計(jì)類研究需要嚴(yán)格按照上述標(biāo)準(zhǔn)化流程進(jìn)行,這在一定程度上能夠解決研究過程中步驟和統(tǒng)計(jì)方法使用不規(guī)范的問題。當(dāng)然,為了更好地掌握這種方法,有些必需技能也是需要注意的。
量表設(shè)計(jì)類研究所需要的必要技能主要包括理論指導(dǎo)和統(tǒng)計(jì)檢驗(yàn)。理論指導(dǎo)是自上而下的加工,是理論驅(qū)動的過程。理論指導(dǎo)要求研究者在開發(fā)量表前期和中期一定要閱讀大量相關(guān)文獻(xiàn),了解所需要測量特質(zhì)的結(jié)構(gòu)及現(xiàn)有理論和量表,只有在了解這些成熟的前人經(jīng)驗(yàn)的基礎(chǔ)上才能盡可能地確保所編制量表的有效性。而統(tǒng)計(jì)檢驗(yàn)是自下而上的加工,是數(shù)據(jù)驅(qū)動的過程。統(tǒng)計(jì)檢驗(yàn)可以幫助研究者更好地發(fā)現(xiàn)項(xiàng)目編制過程中存在的問題,同時也是研究者篩選不佳條目的重要參照。研究者通過統(tǒng)計(jì)學(xué)來檢驗(yàn)量表的信度和效度,以此來保證這一量具的客觀與有效。綜上,理論指導(dǎo)和統(tǒng)計(jì)檢驗(yàn)是量表設(shè)計(jì)類研究中兩項(xiàng)必需的技能,只有將這兩者很好地結(jié)合起來,將自下而上的自上而下的角度一起考慮,才能最大限度地保證所設(shè)計(jì)測量工具的可靠性。
此外,從統(tǒng)計(jì)的視角來看,傳統(tǒng)的因素分析和Rasch分析(項(xiàng)目反應(yīng)理論)是兩種不同的數(shù)據(jù)分析方法。因素分析傾向于將被試的反應(yīng)(即0~4 點(diǎn)評分的選擇)理解為是連續(xù)變量,而項(xiàng)目反應(yīng)理論則將其視為5 個不同的類別[49]。因此,在量表開發(fā)或漢化過程中,可以使用兩種方法一起檢驗(yàn)量表的信效度,但切忌混用,例如使用經(jīng)典測量理論刪減條目之后再使用項(xiàng)目反應(yīng)理論去構(gòu)建統(tǒng)計(jì)模型。
本研究較為系統(tǒng)地闡述了如何在初級衛(wèi)生保健領(lǐng)域開展量表設(shè)計(jì)研究,但由于篇幅和專業(yè)限制,部分臨床醫(yī)生可能很難理解文中出現(xiàn)的術(shù)語。另外,可能對于大多數(shù)全科醫(yī)生而言,如何選取一個合適的量表比設(shè)計(jì)一個量表更為直接、有效。為此,在附件中提供了文中出現(xiàn)的一些專業(yè)詞匯的解釋及全科醫(yī)生選取量表的相關(guān)建議(請掃描文章二維碼獲?。?。此外,本研究還為研究者提供了繼續(xù)深入學(xué)習(xí)量表設(shè)計(jì)類方法的參考文獻(xiàn),如《潛變量建模與Mplus 應(yīng)用-基礎(chǔ)篇》[33]、《健康調(diào)查問卷設(shè)計(jì)原理與實(shí)踐》[49]、《R 語言:量表編制,統(tǒng)計(jì)分析與試題反應(yīng)理論》[50]、《心理與行為定量研究手冊》[51]??偟膩碚f,研究者在開展量表設(shè)計(jì)時需要嚴(yán)格遵守標(biāo)準(zhǔn)化流程,具體步驟可參照清單中的相關(guān)資料操作,以確保設(shè)計(jì)量表的客觀性和有效性。
致謝:感謝安徽大學(xué)哲學(xué)學(xué)院的高志強(qiáng)副教授在心理測量領(lǐng)域給予的指導(dǎo),正是因?yàn)楦咧緩?qiáng)副教授的心理測量課程才讓本文作者很早就了解到了這一領(lǐng)域。還要感謝參與2021 年中國居民心理與行為調(diào)查的全體調(diào)查員,正是因?yàn)橛辛舜蠹业膮⑴c,才能有如此多的數(shù)據(jù)來支持文中的相關(guān)圖表。
作者貢獻(xiàn):王飛提出選題方向,負(fù)責(zé)數(shù)據(jù)處理,撰寫論文初稿;湯靖琪參與論文初稿撰寫,并進(jìn)行數(shù)據(jù)管理;孫小楠負(fù)責(zé)論文修訂;孫昕霙對文章提出了批判性建議;黎俊從全科醫(yī)生的視角對文章進(jìn)行了修改和完善;孟星星、吳一波全程指導(dǎo)論文寫作,負(fù)責(zé)文章的質(zhì)量控制及審校,對文章整體負(fù)責(zé);所有作者確認(rèn)了論文終稿。
本文無利益沖突。