如何用錨點情境法降低自評健康的回答偏誤？
——一項基于CFPS2012數(shù)據(jù)的實證分析*

2019-04-12 03:37:22吳菲

人口與發(fā)展 2019年2期

關(guān)鍵詞：差異情境

吳菲

(復(fù)旦大學(xué) 社會學(xué)系，上海 200433)

1 引言

近幾十年來，越來越多的人口學(xué)研究開始探索健康不平等的議題，發(fā)現(xiàn)遷移地位(牛建林，2013；齊亞強等，2012)、年齡以及社會經(jīng)濟(jì)地位(杜本峰、王璇，2013；李實、楊穗，2011；易松國、鄢盛明，2006)等都是影響人群健康水平的重要因素。由于可及性高及收集便捷等優(yōu)勢，自評健康[注]自評健康，即self-reated health，是請被訪者對于自身的健康狀況所作出的主觀的評價，回答一般為李克特量表，從最不健康到最健康，所得測量為三分、五分或七分的定序變量。正在逐漸成為人口學(xué)健康研究中的主要因變量(黃慶波等，2017；劉生龍、郎曉娟，2017；陸杰華等，2017；孫博文等，2016；王偉進(jìn)等，2014)。盡管自評健康的信度和效度已經(jīng)被廣泛討論(柳玉芝、李強，2004；Benyamini and Idler,1999;Bound,1991)，但作為主觀測量，它的回答偏誤問題卻仍未引起應(yīng)有的重視。

當(dāng)研究者提出諸如“遷移人口的自評健康高于農(nóng)村留守人口”這樣的結(jié)論時，一個隱含前提是同一回答選項(如“非常健康”)對所有被訪者而言都代表著一致的潛在水平(同樣的客觀健康狀況)，因此所觀測到的自評健康在不同群體間是可比較的，即具備群間可比性(inter-group comparability)。遺憾的是，一直以來，作為調(diào)查方法中的難題，群間可比性卻并不總是成立。因著文化背景、認(rèn)知水平甚至參照對象差異，不同群體被訪者可能會對同一回答項目有完全不同的理解，這種現(xiàn)象常被稱為回答異質(zhì)性(King et al.，2004)。[注]雖然“回答類別異質(zhì)性”只是“回答異質(zhì)性”的一種形式，但由于其是錨點情境法主要應(yīng)用對象，為了表達(dá)簡潔，本文中上述兩個概念交替使用。當(dāng)回答異質(zhì)性存在時，研究者觀測到的群體間的健康差異有多大程度上能體現(xiàn)實質(zhì)性的健康差別仍然是個未知數(shù)。因而，認(rèn)識、測量及糾正自評健康測量的回答異質(zhì)性是進(jìn)行更高信度的健康研究不可忽略的一步。

圖1 五分類自評健康的回答類別異質(zhì)性

本文旨在介紹一種廣為使用的處理回答異質(zhì)性的方法：錨點情境法(anchoring vignette method)。在對該方法的基本原理和核心假設(shè)簡要綜述的基礎(chǔ)上，通過逐步對CFPS2012數(shù)據(jù)中自評健康的影響進(jìn)行糾正，展示該方法的有效性，最后對于該方法在更廣闊的研究議題應(yīng)用的可能性及挑戰(zhàn)進(jìn)行了討論。

2 問題：自評健康的回答異質(zhì)性

本文將回答異質(zhì)性定義為兩個潛在水平一致的個體，給出不一致的主觀評判的現(xiàn)象(Hopkins and King,2010)。如圖1所示：假設(shè)存在一個單維度的潛在健康水平，A、B、C三人在將各自的潛在健康水平轉(zhuǎn)化為統(tǒng)一五分定序回答時采取了不同的分界點。與A相比，B在每個回答類別都更加“悲觀”：即盡管潛在健康水平相近，但卻采納了比A更高的分界點(thresholds，τBk>τAk,k=1,2,3,4),因而 A回答的自評健康SA1為“非常健康“，而B回答的自評健康SB1卻僅僅為”健康“。另一種情況下：C的自評健康分界點與A也有所不同，但差異卻呈現(xiàn)非平移的模式，在更健康的一端，C比A更“悲觀”，采取更高的分界點(τCk>τAk,k=3,4)，而不健康的一端，C卻更樂觀，采取更低的分界點(τCk<τAk,k=1,2)，導(dǎo)致了同樣潛在健康水平S2，被A評價為SA2:“不健康”，而被C評價為 SC2“一般”。

當(dāng)然，“A”也可代表一個群體，如農(nóng)村居民，“B”代表城鎮(zhèn)居民。有些研究中發(fā)現(xiàn)城鎮(zhèn)居民的自評健康與農(nóng)村居民沒有差異，甚至更低(牛建林,2013)，除了實質(zhì)性的差異外，另一個可能的原因就是圖1展示的回答異質(zhì)性，即城鎮(zhèn)居民在回答自評健康時比農(nóng)村居民采納了更高的分界點。如果我們單純依賴ABC三人給出的自評健康水平進(jìn)行群際比較，就混淆了實質(zhì)性差異和回答類別異質(zhì)導(dǎo)致的群體間差異，由此會得出偏差的結(jié)論。

3 錨點情境法：原理及核心假設(shè)

錨點情境法自提出以來，就被廣泛應(yīng)用于解決回答異質(zhì)性問題，被眾多學(xué)者認(rèn)為是該領(lǐng)域“最有前途的”方法(Murray et al.,2002)。該方法使用若干客觀具體的虛擬情境描述作為固定的“錨點”(anchors)，以量化地估計并去除回答異質(zhì)性，從而得到群體之間不受回答偏誤影響的實際差異。盡管問世只有十多年[注]第一篇系統(tǒng)介紹該方法的文章為Gary King和同事于2004年發(fā)表在《美國政治科學(xué)評論》上的文章：“提高調(diào)查研究中測量的信度及跨文化可比性”。在這篇開創(chuàng)性的文章中，作者不僅詳細(xì)介紹了錨點情境法的原理、兩個基本假設(shè)和非參數(shù)及參數(shù)糾正方法，還以政治效能感和視力的測量作為例子，展示了該方法的有效性(King et al.,2004)。，西方學(xué)術(shù)界已對于錨點情境法表現(xiàn)出很大的關(guān)注。不僅在方法上出現(xiàn)了各種修正及反思(Bago D’Uva et al.,2011b;Grol-Prokopczyk et al.,2015;Hopkins and King,2010；Jurges and Winter,2013)，也在應(yīng)用領(lǐng)域上不斷擴(kuò)展，從最開始的健康(Salomon et al.,2004)，到近期的非認(rèn)知能力(Primi et al.,2016)，錨點情境法已逐漸成為眾多研究領(lǐng)域處理主觀測量的回答異質(zhì)性問題的主要工具。相較而言，即使在錨點情境法使用最多的健康領(lǐng)域，我國對于該方法的認(rèn)知和應(yīng)用仍處于萌芽階段。只有少量研究使用了錨點情境法糾正自評健康的回答異質(zhì)性問題(劉寶、胡善聯(lián)， 2005;Xu and Xie,2016)。另一些研究雖然采取了“錨點”的思路來糾正回答偏誤，但更多使用的是客觀健康指標(biāo)而非情境作為錨點(齊亞強，2014)?？梢哉f，我國學(xué)者對于該方法的重視程度仍和國際學(xué)術(shù)界有一定的差距。

3.1 原理

錨點情境是一系列體現(xiàn)所測概念的假想情境描述，遵循客觀和具體的原則。對于同一概念可以設(shè)置程度不同的一組情境，也可以有反映不同維度的多組情境。實施時，研究者會同時收集被訪者的自評得分以及對于同一概念的錨點情境的評價得分，兩類得分使用同樣的回答類別。借用上述兩類得分，研究者就有機會透過非參數(shù)的重編碼，或是參數(shù)的多層次模型來調(diào)整回答類別異質(zhì)性，從而得到不受回答異質(zhì)性影響的系數(shù)估計值(King et al.,2004)。以自評健康為例，除了詢問個人的自評健康外，問卷中還會請被訪者對若干情境中的主人公的健康水平進(jìn)行評價，如CFPS2012中的健康情境：

導(dǎo)引語：現(xiàn)在我給您說幾個有不同程度健康問題的人，我想知道您怎么評價他們的健康狀況，就如您剛才怎么評價您自己的健康狀況一樣。請您想象這些人和您具有相同的年齡和背景：

情境1.孫軍/李梅在走路、跑步、活動四肢上毫無問題。他/她每周慢跑兩次，每次跑5公里。他/她記不清最近一次感到身體疼痛是什么時候，因為最近一年里他/她都從未感到過疼痛。即使在體力勞動或者鍛煉后，他/她也不曾感到任何身體疼痛。您認(rèn)為，孫軍/李梅的健康狀況如何？

情境2.趙剛/王麗走200米路毫無困難。但走完一公里或爬完幾層樓后，會覺得累。他/她的日?；顒記]有問題，比如從市場上買完菜拎回家。他/她每月都有一次頭痛，吃藥之后會有所緩解。頭痛時，他/她能繼續(xù)做日常工作，您認(rèn)為，趙剛/王麗的健康狀況如何？

以上兩個情境的簡短描述中涉及到健康的兩個主要維度：行動能力和疼痛。按照設(shè)計，第一個情境主人公比第二個情境中主人公的健康水平更高。自我評價的健康狀況和情境健康狀況都采用同樣的回答類別，從1“非常健康”，到5“不健康”。正如導(dǎo)引語所強調(diào)的，題目設(shè)計的核心目標(biāo)是讓被訪者評價自己和情境中的主人公時使用同樣標(biāo)準(zhǔn)，因此一般會按照被訪者的性別出現(xiàn)同性別的名字。

圖2 使用錨點情境來糾正自評健康的回答類別異質(zhì)性

圖2以上述情境為例，展示了錨點情境解決回答異質(zhì)性問題的基本原理。盡管同樣面對五分健康量表，但A和B采用了完全不同的分界點標(biāo)準(zhǔn)：很明顯，B在整體判斷上更顯悲觀。如果忽略這種回答異質(zhì)性的影響，我們會得到A比B更健康的結(jié)論(SRHA>SRHB)。然而，當(dāng)我們納入對前述兩組健康情境得分，經(jīng)過調(diào)整后的結(jié)果發(fā)生了質(zhì)的變化。具體而言：盡管兩個情境的潛在健康水平被假定對于A和B是相同的(表現(xiàn)在“李梅”及“王麗”兩條虛線平行穿過A和B的潛在健康軸)。然而由于回答異質(zhì)性，A對兩個情境的評分都顯著高于B(正如A的自評健康高于B一樣)。而且盡管具體得分不同，A和B都給出了情境設(shè)計所期待的排序：李梅比王麗更健康。第三個軸將B的情境得分“拉到”A的得分同樣水平，得出了新的觀察。B的自評健康高于李梅，而A處于李梅與王麗之間，因此B反而比A更健康。

3.2 兩個核心假設(shè)及其檢驗

錨點情境法能夠有效糾正回答類別異質(zhì)性有賴于兩個核心測量假設(shè)：情境等價性(Vignette Equivalence，VE)和回答一致性(Response Consistency,RC)。任何一個假設(shè)被違反，都會實質(zhì)性地影響錨點情境法的有效性(Bago D’Uva et al.,2011b ；King et al.,2004;Grol-Prokopczyk et al.,2015)。

情境等價性指所有被訪者對于同一個情境所反映的潛在水平都有相同的認(rèn)識。換句話說，對于情境的評分與個人特征完全不相關(guān)(King et al.,2004;Murray et al.,2003)。當(dāng)然，盡管認(rèn)知的潛在水平一致，不同被訪者也完全可能因著回答類別異質(zhì)性給出完全不同的評分(King et al.,2004)。當(dāng)情境描述不完整、信息模棱兩可時，會導(dǎo)致不同人群對于同一情境有不相同的理解(Bago D’Uva et al.,2011b)。此時，情境等價性假設(shè)不再成立。

若情境等價性假設(shè)被違反，圖2中的兩條情境的虛線不再是平行分布，同一情境對不同被訪者失去了恒定性，因而我們無法將情境評分的差異僅僅歸結(jié)為回答異質(zhì)性，情境也就由此失去了 “錨點”的功能。對于情境等價性假設(shè)的檢驗方法按照嚴(yán)謹(jǐn)度由低到高可以分為以下幾類：

3.2.1 順序相合

最初由King等(2004)提出，即考察多個情境的得分排序是否與設(shè)計排序一致，如上面的例子中，如果被訪者認(rèn)為孫軍比趙剛更健康，則與情境設(shè)計的順序相合，所以支持VE假設(shè)。一般而言，研究者會展示不同情境各類別的比例以判斷整體上的順序是否與設(shè)計預(yù)期相合(Grol-Prokopczyk et al.,2011;Salomon et al.,2004)。直到最近，仍然有不少研究采用這種檢驗方式(吳瓊,2014；Grol-Prokopczyk et al.,2015;Primi et al.,2016;Xu and Xie,2015)。這種方式的好處是簡單直觀，然而，即便平均值上達(dá)到次序相合，也仍然可能會出現(xiàn)某些個體給出的情境評分與設(shè)計期望不一致的狀況，所以就出現(xiàn)了另外兩類檢驗方式。

3.2.2 非系統(tǒng)的不相合

該方法檢查情境得分排序的不一致性與被訪者個體特征之間是否有顯著關(guān)系，若有，則說明次序的不相合是以非隨機的方式發(fā)生的，則代表VE被違反(Murray et al.，2003)。然而，即使對于情境的評分順序完全與預(yù)設(shè)的一致，也并不保證VE得到證實。兩個被訪者可能對每一個情境的理解完全不同，從而給出不同評分，卻仍然體現(xiàn)出一致的情境順序(Bago D’Uva et al.，2011b)。

3.2.3 情境評分無差異

迄今最系統(tǒng)也最接近VE本身定義的檢驗：以“任何兩個情境得分之間沒有顯著性差異”作為情境等價假設(shè)成立的必要條件。然而，使用該方法檢驗的少量研究均得出了VE被證偽的結(jié)論(Bago D’Uva et al.,2011b；Grol-Prokopczyk et al.,2015)。

當(dāng)VE假設(shè)被違反時，錨點情境法的運用就失去了前提條件。盡管仍未達(dá)到共識，但有學(xué)者建議，當(dāng)對情境評分的排序與期望排序不相合的比例超過20%，就不該再使用錨點情境法(Grol-Prokopczyk et al.,2015)。而在有少量評分不符合VE假設(shè)時，也有研究者只使用期望排序評分的個案，將錯序評分的個案刪除,不再進(jìn)入后續(xù)的分析中(Xu and Xie,2016；Mojtabai et al.,2016)。

提高VE水平的一個主要方法是在情境編寫時盡可能客觀，以降低不同群體對情境產(chǎn)生誤解的可能性。例如將“較少”，“有一些”等模糊的形容詞換為具體的頻率(Bago D’Uva et al.,2011b)。當(dāng)然，這個要求對于某些概念(如健康)比另一些(如幸福感)要更容易達(dá)到。

錨點情境法的第二個核心假設(shè)是回答一致性，指被訪者在評價自身狀況和錨點情境中主人公狀況時采取同樣的分界點(King et al.,2004;Gupta et al.,2010;Soest et al.,2011)。如果被訪者認(rèn)為自己和情境中主人公是不同的，因而在使用回答類別時采取完全不同的標(biāo)準(zhǔn)，或是在評判不同情境時采取不同的分界點標(biāo)準(zhǔn)，這時RC假設(shè)即被違反。此時，被訪者在情境得分上體現(xiàn)的回答異質(zhì)性就不能直接應(yīng)用于自評得分的糾正上，錨點情境法也失去其意義。

與情境一致性假設(shè)的境遇類似，盡管已有相關(guān)文獻(xiàn)也會強調(diào)RC假設(shè)，但很少對其進(jìn)行正式的檢驗(Dowd and Todd,2011;Peracchi and Rossetti,2012)。有的研究者甚至對RC的實現(xiàn)條件的持有錯誤的認(rèn)識(Mojtabai,2016)。與VE相比，檢驗RC更具挑戰(zhàn)性，因為額外需要對于核心概念的客觀測量，作為錨點情境和自評得分共同的比較基準(zhǔn)。在已有對于RC檢驗的方式中，按照嚴(yán)謹(jǐn)程度從低到高可以包括以下兩類：

3.2.4 客觀指標(biāo)輔助法

對于RC檢驗最早嘗試來自于King et al.(2004)。在該文中，作者列舉了視力的例子，主要關(guān)心的變量是自評視力[注]在過去三十天內(nèi)，您在20米以內(nèi)認(rèn)出熟人方面是否有困難，(A)沒有，(B)一些，(C)中等,(D)嚴(yán)重，(E)極端困難，使用的工具是8個描述不同程度視力的錨點情境。除此以外，作者還用國際標(biāo)準(zhǔn)視力檢測圖(Snellen Eye Chart)測量了被訪者的客觀視力水平。作者以客觀視力作為比較基準(zhǔn)，發(fā)現(xiàn)使用錨點情境調(diào)節(jié)后中國與斯洛伐克的平均視力相對水平更接近客觀狀況。這種比對可被視為一種對RC間接地檢驗。利用同樣的思路，Grol-Prokopczyk et al.(2011)使用了另一種改良檢驗法。作者在控制被訪者客觀的疾病狀況測量后，考察情境得分是否仍對自評得分有顯著的正向效應(yīng)。作者的邏輯是，如果RC成立，則兩個客觀健康狀況類似的個體，在情境評分上的差異應(yīng)該與自我評分差異上有正向相關(guān)，更樂觀的自我評分者同時也應(yīng)該是更樂觀的情境評分者。

3.2.5 客觀指標(biāo)擴(kuò)展模型

除了將客觀指標(biāo)作為簡單對比和作為控制外，也有研究嘗試不預(yù)設(shè)RC成立，允許自評得分方程中的分界點系數(shù)和情境模型中分界點系數(shù)不同，然后比較相對應(yīng)的系數(shù)是否有顯著差異。為了同時估計兩組不同的分界點系數(shù)，同樣需要客觀指標(biāo)作為額外信息。

為了提高回答一致性，學(xué)者們在題目設(shè)計上進(jìn)行了不同的嘗試。Hopkins and King(2010)將最開始設(shè)計的題目順序調(diào)換，先調(diào)查錨點情境，然后再讓被訪者進(jìn)行自我評價，并對比了原始順序和新順序?qū)τ诠烙嬒禂?shù)的影響，發(fā)現(xiàn)“先情境后自評“的順序下糾正過的概念測量與自變量之間的關(guān)系更強。因而，作者認(rèn)為這種對于前置效應(yīng)(priming effect)有意識地運用有助于被訪者了解研究者對某個概念的定義，有利于增強RC。

4 一個實例：使用錨點情境法糾正中國城鄉(xiāng)居民自評健康的回答偏誤

在兩個核心測量得到驗證的前提下，我們可以借用錨點情境得分糾正自評健康中的回答異質(zhì)性。通過多層定序probit模型(Hierarchical ordered probit model，HOPIT)實現(xiàn)。基于錨點情境的HOPIT模型估計包含兩部分：(1)使用錨點情境得分得到各分界點估計，在情境等價假設(shè)成立的前提下，所有個人特征對于情境評判的分界點變化的影響都可歸結(jié)為回答異質(zhì)性；(2)在回答一致性假設(shè)成立的情況下，我們認(rèn)為將由錨點情境得分估計所得的回答異質(zhì)等于被訪者在自評問題中所體現(xiàn)的異質(zhì)性，因而可以直接將(1)中的估計值納入自評模型中，從而得到不受回答異質(zhì)性影響的系數(shù)。

表1 樣本單變量統(tǒng)計值：CFPS2012(N=30,998)

4.1 樣本與測量

本文使用的數(shù)據(jù)來自于CFPS2012，該數(shù)據(jù)是涵括個體、家庭、社區(qū)三個層次，具有全國代表性的長期追蹤調(diào)查數(shù)據(jù)。CFPS于2010年采用多層次抽樣策略收集基線樣本，最終訪問了33,600個成人被訪者(謝宇等，2014)；2012年作為第一次追蹤調(diào)查，成功再訪了基線樣本的80.6%被訪者(Xu and Xie,2016)。本文使用的變量包括自評健康、兩個自評健康的錨點情境、若干客觀健康測量指標(biāo)以及相關(guān)的社會經(jīng)濟(jì)人口變量。對在任一個分析所涉及變量上有缺失的個案進(jìn)行整列刪除后，最終樣本量為30,998。

自評健康的具體問題為：“您認(rèn)為自己身體的健康狀況如何？”回答包括1”非常健康”，2“很健康”，3“比較健康”，4“一般”以及5“不健康”。為了便于解釋，我們對原始編碼進(jìn)行了翻轉(zhuǎn)編碼，得分越高代表越健康。

所使用的工具是在前文展示過的兩組錨點情境，設(shè)計的健康水平一高一低。錨點評分的回答類別與自評健康一致，同樣進(jìn)行了翻轉(zhuǎn)編碼，得分越高越健康。

協(xié)變量包括最高受教育年限、人均家庭年純收入類別，性別、年齡以及由戶口和現(xiàn)居地界定的城鄉(xiāng)遷移身份。

為了檢驗RC假設(shè)，我們也納入了一系列比自評健康更加“客觀”健康指標(biāo)：包括是否肥胖(BMI>=28)、過去兩周內(nèi)是否曾有身體不適、過去兩周內(nèi)是否曾有身體疼痛、過去半年內(nèi)是否曾患過經(jīng)醫(yī)生診斷的慢性病以及抑郁癥狀。[注]CFPS2012中的CES-D抑郁量表，共含有20項，每項得分為3，總分為60，取總分高于16的為抑郁(駱為祥、武玲蔚，2014)。表1展示了各變量的基本分布。

4.2 檢驗核心假設(shè)

第一步，檢驗情境等價假設(shè)。如表1右半部分所示，被訪者對于兩個情境的評分在各類的百分比有比較清晰的差異，對于健康水平更高的情境，回答為“非常健康”、“很健康”或“健康”的比例遠(yuǎn)高于回答“一般”或“不健康”的比例(89% 和11%)。相反，回答為“不健康”或“一般”的比例在對于低健康水平情境的評分更高(77%)。這說明整體上情境評分的順序與設(shè)計相合，即通過了最弱形式的VE檢驗。再進(jìn)一步檢視個人的評分順序，發(fā)現(xiàn)在所有被訪者中，給出的情境評分與期望順序相合的比例達(dá)到84.8%，處于較高水平。此外，有2.7%的評分順序是與設(shè)計順序完全相反的，而另外12.5%的被訪者則對于兩個情境給出了相等的評分。

表2 個人特征對錨點情境順序相合的影響： Logit估計(N=30998)

接下來，采用“非系統(tǒng)的不相合”的思路，對VE進(jìn)行較嚴(yán)格的檢驗。表2以情境評分順序是否與設(shè)計順序相合的二分變量為因變量，使用Logit模型來檢驗被訪者個人特征是否會顯著影響其對于不同程度情境的認(rèn)識差異。結(jié)果顯示更高教育水平群體更可能給出與期望一致的情境評分次序，男性相比于女性、城鎮(zhèn)居民相比于農(nóng)村居民都更可能給出期望情境評分次序；此外，被訪者年齡越大，越不可能“正確”認(rèn)知出兩個錨點情境的相對順序。這些發(fā)現(xiàn)說明情境等價性假設(shè)在一定程度上被違反。

綜上，盡管弱檢驗方法顯示，總體上被訪者都能以設(shè)計預(yù)期理解兩個情境。然而，仍然有15%的人有與期望順序相悖的評分，而這種評分上的差異很可能不是僅由測量誤差引起的。較強的檢驗方法顯示不同群體可能對于同一組情境有系統(tǒng)性的認(rèn)知差異。因而，為了更有效地使用錨點情境，按照已有文獻(xiàn)的做法(Xu and Xie,2016)，刪除情境評分順序與期望不相合的15%的個案，再進(jìn)行情境調(diào)整分析。

第二步，我們要檢驗回答一致性假設(shè)。因為CFPS 2012缺乏系統(tǒng)的客觀健康測量指標(biāo)，只有相對客觀的自評指標(biāo)，本文只按照客觀指標(biāo)輔助思路，對回答一致性假設(shè)進(jìn)行較弱的檢驗。具體地，我們對自評健康進(jìn)行序數(shù)Probit回歸，觀察在控制客觀健康指標(biāo)后，情境評分與自評健康得分之間是否有顯著的正向相關(guān)。如表3所示，情境評分對于自評得分有顯著的正向效應(yīng)。表明在實際身體條件相當(dāng)?shù)臈l件下，被訪者傾向于使用相似的標(biāo)準(zhǔn)來評價情境和自評健康(“情境評分”的系數(shù)為0.103，且在0.001水平上顯著)。這在一定程度上驗證了RC假設(shè)(Grol-Prokopczyk et al.,2011)。

4.3 測量及糾正回答異質(zhì)性

在驗證了兩個核心假設(shè)后，本文使用上述兩個錨點情境嘗試測量及糾正我國城鄉(xiāng)居民在自評健康上的回答類別異質(zhì)性。

表3 情境評分及客觀健康指標(biāo)對自評健康的影響：序數(shù)Probit估計(N=30998)

首先，在VE假設(shè)滿足的前提下，我們可將群體在情境評分上的所有差異歸結(jié)為回答異質(zhì)性(King et al.,2004)。如表4所示，在平行移動假設(shè)下，模型(1)顯示隨著教育年限的增加，被訪者傾向于采用更低的分界點；而被訪者年齡越大，越可能采用更高的分界點；相對于女性，男性的分界點整體上更低，也就是說即使?jié)撛诮】邓较喈?dāng)，男性比女性更可能給出更高的自評健康得分；此外，擁有城鎮(zhèn)戶口的城鎮(zhèn)居民比起農(nóng)村居民更可能采取更高的回答分界點。盡管有簡潔的優(yōu)勢，但平行移動假設(shè)并不總是能被滿足，表4最后一列展示了對于該假設(shè)的檢驗結(jié)果，顯示除了兩個收入類別外，其他協(xié)變量都不滿足平行移動假設(shè)。因而，模型(2)分別估計了對于不同分界點，各協(xié)變量的影響。結(jié)果揭示了同一變量在不同分界點上的影響，例如教育在更低的兩個分界點上有顯著的負(fù)向影響，而在相對高的兩個分界點上有顯著的正向影響。說明更高教育人群相比于其他群體，在評價不健康時更加樂觀，但在評價非常健康時更加謹(jǐn)慎。

表4 由錨點情境估計的分界點：序數(shù)Probit估計(N=26292)

圖3 非平行假設(shè)下的自評健康分界點差異

圖3以性別和城鄉(xiāng)遷移類別為例，總結(jié)了回答異質(zhì)性在不同回答類別上的分布。A部分顯示男性相對于女性，在較低的三個分界點上容易采取更高的標(biāo)準(zhǔn)，從而低估其實際健康水平。而在最高的分界點上，則與女性的分界點標(biāo)準(zhǔn)差異不顯著(見表4模型2)。B部分顯示，相對于農(nóng)村居民，擁有城鎮(zhèn)戶口的城鎮(zhèn)居民在潛在健康水平的低端更加“悲觀”，即當(dāng)潛在健康水平都較差且相似時，一個城鎮(zhèn)居民比農(nóng)村居民更可能評判自己為“不健康”而非“一般”，或是“一般”而非“比較健康”。而鄉(xiāng)城流動人口在潛在健康水平的高端也比未流動的農(nóng)村居民更“悲觀”，容易低估自身的健康狀況。

最后，我們通過擬合HOPIT模型，來探索在控制回答異質(zhì)性之后，各協(xié)變量系數(shù)與未調(diào)整以前相比的差異。在RC假設(shè)成立的前提下，可以將表4中估計所得的各分界點的異質(zhì)性直接應(yīng)用在對自評健康的估計上。如表5所示，第一列是未調(diào)整過回答異質(zhì)性的結(jié)果，也是學(xué)者們在未考慮回答異質(zhì)性時常常得到的結(jié)果。第二、第三列則展示了在兩種假設(shè)下的HOPIT模型結(jié)果。通過對比，我們發(fā)現(xiàn)，由于回答異質(zhì)性問題，無論是教育還是收入對于自評健康正向影響都顯著地被低估，同樣被低估的還有男性相對于女性的正向效應(yīng)，及城鎮(zhèn)居民相對于農(nóng)村居民的負(fù)向效應(yīng)。不同變量的健康效應(yīng)被影響的程度各有差異，年齡的負(fù)向效應(yīng)受回答異質(zhì)性影響最低，而城鎮(zhèn)居民相對于農(nóng)村居民的負(fù)向效應(yīng)則有約95%被低估。

由于人口學(xué)家常關(guān)注某一年齡群體的健康影響因素，而即使同樣變量在不同年齡段對于健康的效應(yīng)也有所不同。所以，我們進(jìn)一步將全樣本分為三個年齡群體：青年(18-35歲)，中年(36-64歲)以及老年(65歲及以上)，分別考察回答異質(zhì)性對于各因素健康效應(yīng)的影響在不同年齡群體間的差異，為了節(jié)省空間，我們只報告非平行移動假設(shè)下的HOPIT結(jié)果。如表6所示，通過比較普通的序數(shù)Probit估計和HOPIT估計結(jié)果，我們發(fā)現(xiàn)回答異質(zhì)性對各因素健康效應(yīng)的影響在不同年齡段是有所差異的。譬如年齡，對于青年群體，如果不考慮回答異質(zhì)性，年齡對自評健康的負(fù)向影響會被高估26%；而對于老年群體，不考慮回答異質(zhì)性情況下會得出年齡不影響健康的結(jié)論，從而掩蓋了年齡對于健康顯著的負(fù)向影響。另一個例子是鄉(xiāng)城移民地位，調(diào)整回答異質(zhì)性會糾正城鎮(zhèn)移民相對于農(nóng)村人口本身被高估(青年群體)或低估(中年群體)的健康效應(yīng)。當(dāng)然，在異質(zhì)性之上，三個年齡群體也體現(xiàn)出共性，譬如教育和男性對于自評健康的正向影響均被低估。分年齡的調(diào)整結(jié)果顯示回答異質(zhì)性的可能影響在不同社會人口群體中存在不同，需要區(qū)分看待。

表5 個人特征對自評健康的影響：序數(shù)Probit估計及HOPIT估計(N=30998)

5 總結(jié)與討論

人口學(xué)家在探索健康不平等問題時常使用諸如自評健康的主觀測量，回答異質(zhì)性的存在使得對主觀測量進(jìn)行跨群比較的可能威脅。錨點情境法是近十幾年提出的糾正回答異質(zhì)性的有效方法之一，被廣泛應(yīng)用于社會科學(xué)及公共衛(wèi)生等領(lǐng)域。認(rèn)識并恰當(dāng)使用該方法將對于提高我國健康研究成果的可信性有重要的價值。

本文介紹了回答異質(zhì)性的含義，并闡述了錨點情境法的原理。特別著重強調(diào)了該方法的兩個前提假設(shè)及相應(yīng)的檢驗方法。在此基礎(chǔ)上，使用CFPS2012數(shù)據(jù)中的自評健康相關(guān)測量，我們演示了錨點情境法的應(yīng)用，展示了回答異質(zhì)性如何影響個人特征與自評健康的關(guān)系。結(jié)果發(fā)現(xiàn)包括年齡、遷移地位以及社會經(jīng)濟(jì)地位在內(nèi)的諸多變量對于健康的效應(yīng)估計不同程度上受到回答異質(zhì)性的影響，例如考慮回答異質(zhì)性后，城鎮(zhèn)居民地位的健康負(fù)效應(yīng)增加了一倍，而男性相較于女性的健康優(yōu)勢增加了50%。此外，分年齡段分析揭示了回答異質(zhì)性對于各自變量的影響在各年齡群體中呈異質(zhì)性：例如在老年人群體中，若不考慮回答偏誤，年齡對于自評健康的負(fù)向影響被完全掩蓋，由于更老的老年人對于健康更樂觀，從而采取了更低的分界點，使得他們即使?jié)撛诮】邓奖绕渌先烁?，但仍然會報告相近的自評健康。這只是眾多回答偏誤扭曲實際健康差異的例子之一，在繼續(xù)使用主觀健康測量時，需要特別引起學(xué)者們關(guān)注。

必須承認(rèn)的是，迄今錨點情境法的運用與發(fā)展仍面臨許多挑戰(zhàn)：包括如何評價錨點情境的情境等價性和回答一致性？如何更多開發(fā)健康領(lǐng)域外的其他概念相關(guān)的錨點情境？如何建立篩選指標(biāo)，對于最有效的情境個數(shù)及訪問的樣本量進(jìn)行較準(zhǔn)確的估算？如何結(jié)合已有理論，對于錨點情境法揭示出來的回答異質(zhì)性的機制進(jìn)行解釋？然而，這些挑戰(zhàn)并非要削弱錨點情境作為有效地克服回答異質(zhì)性問題方法的重要性，而是提醒所有研究者不但認(rèn)識到回答異質(zhì)性問題對已有研究可能的影響，而且在使用錨點情境法時更加嚴(yán)謹(jǐn)。能否更好地應(yīng)對這些挑戰(zhàn)將是未來社會科學(xué)概念操作化進(jìn)程中重要的決定因素。

表6 個人特征對自評健康的影響：序數(shù)Probit估計及HOPIT分年齡段估計

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

如何用錨點情境法降低自評健康的回答偏誤？——一項基于CFPS2012數(shù)據(jù)的實證分析*