任國強,王于丹,周云波
(1.天津理工大學 管理學院,天津 300384;2. 南開大學 經濟學院,天津 300071)
健康不僅是人類的普遍愿望和基本需求,而且作為人力資本的重要組成部分,對個體、家庭和社會都會產生重要的影響。從個體角度來看,健康可以促進教育水平的提高和社會資本的形成,從而影響就業(yè)狀態(tài)、就業(yè)類型,進而影響就業(yè)收入和社會階層地位;從家庭角度來看,健康可以增加家庭的收入,減少醫(yī)療費用的支出,促進家庭幸福;從社會經濟角度來看,健康有利于促進勞動力供給,延長就業(yè)者的工作年限,促進勞動生產率,從而促進經濟增長。正是由于健康的重要性,對健康的研究一直是學術界研究的熱點,以“all in title: health”作為搜索條件,用谷歌學術進行搜索,搜索結果達到142萬余條,再加上以各種疾病研究為論文標題的文獻就更多。我們在Web of Science數據庫中,在標題、摘要、關鍵詞中搜索“causal & health”,然后再分別檢索各個因果推斷方法和健康(例如:“Propensity Score & health”),共得到了七萬余條檢索記錄,盡管其中可能有重復文獻,但即使剔除這些文獻仍有大量檢索記錄。不難看出,因果推斷方法在健康領域得到了廣泛的應用。該領域的研究早在20世紀90年代就進入大眾視野,2010年前后得到了更多的關注,如今更是蓬勃發(fā)展,研究范圍也逐步從公共環(huán)境衛(wèi)生、臨床醫(yī)學、生物學等領域,開始擴大至經濟學、社會學的范疇,而影響個體健康的相關因素除了作為控制異質性的個體人口學特征以外,還包括了教育、工作、收入和社會資本等個人因素,以及遷移、退休和保險等政策性因素。本文就是從經濟學、社會學、人口學等領域入手,從多角度考慮各領域因素對個體健康的影響。
盡管健康研究很重要,研究的成果又非常豐富,但是由于其內在復雜性,健康研究仍然存在很多問題,主要表現在以下幾個方面:一是被解釋變量——健康的測量誤差,很多研究采用自評健康作為研究對象,對健康狀態(tài)的回答主要根據個體主觀判斷,而個體由于認知能力的差別,往往做不到完全理性,因此回答的結果和自己真實的健康狀況通常有一定的差別;二是遺漏變量的存在會對結果造成干擾,使得解釋變量的估計結果不準確,例如在研究教育對健康的影響時,由于無法準確衡量身體稟賦這一不可觀測變量,回歸時往往遺漏該變量,從而過高估計了教育對健康的影響;三是解釋變量和被解釋變量之間可能互為因果,比如工作時間過長可能會導致健康狀況下降,反之良好的健康狀況又會讓勞動者有更多的精力投身于工作;四是存在同時影響解釋變量和結果的第三方變量,比如教育水平越高相應的收入水平也越高,健康狀況可能也越好,而收入對健康也有直接的影響,所以教育就是影響收入和健康的共同原因;五是樣本自選擇偏差,以遷移對健康的影響為例,遷移的個體往往比不遷移個體更健康,但是這個結果并不一定是遷移政策造成的,可能是遷移個體的健康狀況往往更好,因為個人健康狀況的好壞決定著其流動機會和流動決策。
為了解決上述健康研究中存在的問題,學者們采用了相應的因果推斷方法作為分析工具。例如在研究退休對健康的因果效應時,工具變量的方法可以最大限度地減少對測量誤差的擔憂;與之類似,庫魯克利斯(Kourouklis)等人在研究收入對健康的影響時,使用工具變量方法更好地處理了因為遺漏變量所帶來的潛在偏差;阿塔萊(Atalay)等人為解決雙向因果關系和測量誤差,使用固定效應模型研究了妻子退休對丈夫心理健康的影響;龍翠江等人利用傾向得分匹配與雙重差分相結合的方法對遷移和健康之間的因果關系展開了深入研究,解決了選擇性偏差和互為因果帶來的問題。這些方法已經被廣泛應用于個體健康研究,用來解決研究過程中產生的一系列問題。當然對同一類問題的研究根據數據特征和研究背景的不同,可以采用多種因果推斷的方法。
在個體健康研究文獻中,由于采用的研究方法存在缺陷,許多文獻所指出的影響因素與健康之間的關系是相關而非因果關系,而影響因素與健康之間的因果關系對政策的制定和實施至關重要。盡管很多學者采用了因果推斷的方法來研究影響因素和健康之間的因果關系,也有學者從公共健康的角度對相關研究進行歸納,但是鮮有研究從健康的社會經濟決定方面對個體健康研究中的因果推斷問題進行總結。本文的目的在于通過識別個體健康研究中的常見問題,評價常用的因果推斷方法及其在個體健康研究中的應用。由于現有個體健康研究的文獻過多,因此我們選擇近十年的文獻進行分析,盡可能涵蓋多個方面,但研究文獻中未包括臨床醫(yī)學方面的研究。
個體健康研究中常見的問題主要來源于被解釋變量、解釋變量、解釋變量和被解釋變量關系、混雜因素以及研究樣本的選擇性五個方面。
在進行健康研究時,作為被解釋變量的健康除了可以采用發(fā)病率指數、身體質量指數BMI和特定疾病診斷等客觀指標外,還會采用自評健康(Self-Reported Health,SRH)和心理健康等主觀指標。當使用像SRH這樣有序的主觀測量作為客觀健康的代理時,研究者必須假設SRH是對個體健康狀態(tài)的真實反映。無論我們是根據性別、種族、年齡還是社會經濟地位來定義群體,當不同的群體以不同的方式自我報告他們的健康狀況時,都有可能會造成較大的測度誤差。SRH的測度誤差可能會對研究結果產生不利的影響,一方面是影響結果的可靠性,另一方面對自評健康的過高評價可能導致風險健康行為。盡管對報告偏差和解釋存在擔憂,但是由于其易于收集的特點,SRH仍然是研究人員最常用的健康衡量標準,一些研究結果也表明SRH不僅與客觀健康指標具有較強的相關性,而且確實可以預測未來的客觀健康狀況。雖然學術界對SRH是不是可靠的健康指標并沒有達成一致,學者們還是希望SRH越可靠越好,一個可選擇的方案是對自我健康狀況進行多次評估。以中國健康與養(yǎng)老追蹤調查(CHARLS)數據為例,CHARLS問卷有兩次關于自評健康狀況的調查,第一次受訪者未經任何準備直接被詢問健康狀況,回答可能過于主觀,第二次則是在被詢問有關慢性病等客觀指標的相關問題之后,一部分受訪者的自評健康水平發(fā)生了變化,所以受訪者第二次的自評答案更加真實可靠。
個體健康研究中解釋變量方面存在的問題主要是由遺漏變量所造成的。遺漏變量使得殘差項與解釋變量相關,導致解釋變量的回歸系數是有偏的。但是在進行計量分析時,很難做到不遺漏變量,一方面很難判斷哪些變量要加入控制變量集,即使知道某個變量應該加入控制變量中,實際上也可能無法測度(如天賦和能力),另一方面是可能存在未知的控制變量。以保險和健康的關系為例,有學者指出,保險與健康之間存在一些不可觀察的變量,主要包括:①個人的健康意識。個人的健康意識越強,越可能擁有健康的生活方式,也越可能參加醫(yī)療保險以預防和治療疾病。②個人的風險偏好。風險規(guī)避者往往傾向于參加醫(yī)療保險,同時更注重采取預防保健措施和避免危害健康的行為,這些無法度量的變量使得研究者很難建立起醫(yī)療保險與健康狀況之間真正的因果關系。
被解釋變量與解釋變量之間可能會存在雙向因果關系。如果兩個變量互為因果,任何一方都可以作為對方的解釋變量,那么任何一個單方面的回歸都可能帶來內生性問題。許多健康的影響因素和健康之間存在雙向因果關系,例如收入與健康之間的關系、工作時長與健康之間的關系等。以收入與健康之間的關系為例,很多學者認為較高的收入會帶來較高的健康水平,較好的健康也會使得收入增加,但這并不能說明二者之間的因果關系,要分析收入對健康的因果影響,一定要保證收入變量是外生的,但在實證研究中卻很難做到:一方面,可以有力預測收入的因素往往也直接影響健康,如教育水平、失業(yè)和工作經驗;另一方面,存在不可觀測的因素,如遺傳、風險偏好和社會背景等,可能與收入和健康有關。為此諸多文獻已經轉向使用各種類型的收入沖擊來估計收入對健康變動的影響,例如有學者利用彩票中獎金額的隨機變化來估計家庭收入對自我報告健康狀況的因果影響,確實發(fā)現了收入和健康之間的因果關系。與收入對健康的影響類似,健康對收入的影響也可能由于存在諸如教育、能力、工作經驗等混雜因素而嚴重偏離。那么什么樣的變量既與健康密切相關,又是外生的呢?有些學者嘗試用和遺傳有關的變量作為工具變量來分析健康對收入的影響,采用孟德爾隨機化研究分析表明健康和收入之間確實存在因果關系。
個體健康研究中還有一個常見問題是存在混雜因素同時影響解釋變量(也叫處理或暴露)和結果,因此也被稱為處理和結果的共同原因?;祀s因素可能會導致解釋變量對健康的有偏估計。例如前面分析收入對健康的因果關系時,教育往往就是一個混雜因素。人力資本理論認為教育會對收入產生顯著的正向影響,受教育水平越高的個體相應的收入水平也越高;很多實證分析也表明教育和健康之間有顯著的因果關系,所以教育水平會同時影響收入和健康的變動。而減少混雜的策略是側重于打破混雜因素與結果的關聯(lián)(如回歸調整);打破混雜因素與處理的關聯(lián)(例如基于傾向分數的匹配、調整或加權);或者同時打破與處理和結果的關聯(lián)(例如雙重穩(wěn)健方法)。
樣本的自選擇偏差在個體健康研究中也頗為常見。在自選擇問題中,被解釋變量在每個子樣本中都可觀測,但此時個體的選擇行為存在非隨機性。例如是否選擇遷移,是否選擇購買醫(yī)療保險,或者是否繼續(xù)接受高等教育等行為都是內生的,因為不可觀測的因素(如個人意識偏好、天賦智力等)會影響人們的決定,這是自我選擇的結果。格拉夫娃(Grafova)等人重點關注了鄰里環(huán)境的自我選擇對健康影響的估計為何產生向下偏差的問題,具體來說,健康每況愈下的老人更有可能會選擇改變他們的生活方式,改善生活環(huán)境,以便為自己的健康投資,這就可能會導致鄰里環(huán)境對健康影響的結果偏差。
學者們采用了很多方法來解決個體健康研究中存在的上述問題,這些方法有些是因果推斷的方法,有些是常用的計量經濟學方法。我們歸納了個體健康研究中的諸多文獻,包括準自然實驗以及混雜控制等方面,還有一些雖然研究對象不是個體健康,但是涉及內生性問題處理的文獻,最終得到個體健康研究中常見問題及解決辦法的綜合圖,詳見圖1。
圖1 個體健康研究中的常見問題及解決方法注:由克雷格(Craig)等人[26]、馬泰(Matthay)等人[9]、希爾(Hill)等人[27]的研究內容綜合整理得到。
上述分析表明,個體健康研究中存在的問題往往并不是單一的,可能涉及上述問題中的多個,各類問題綜合作用的結果使得探究個體健康研究中的因果關系變得尤為困難。由圖1可知,對個體健康研究中出現的同一問題,可以采用不同的因果推斷方法,那么如何根據研究主題、背景和數據等條件選擇合適的因果推斷方法,也是研究者亟待解決的問題。因此有必要對個體健康研究中常用的因果推斷方法進行歸納、總結,對未來研究提供有益的幫助。
很多學者致力于探討變量之間的因果關系并估計因果效應,以期根據因果關系給出合理的政策建議。下面主要介紹潛在結果模型和因果效應,以便為后續(xù)分析個體健康研究中的因果推斷建立更好的理論基礎。
1. 潛在結果和因果效應
PO模型是因果推斷重要的理論模型之一,其有三個基本的要素:潛在結果、個體處理穩(wěn)定性假設(Stable Unit Treatment Value Assumption,SUTVA)以及分配機制(Assignment Mechanism)??紤]一個二值處理(treatment)變量,=1代表處理組,0代表控制組,那么對于接受處理的研究對象而言,不接受處理時的狀態(tài)就是一種“反事實”狀態(tài),反之亦然,所以PO框架又被一些研究者稱之為反事實框架(Counter Factual Framework)。我們用表示假如接受處理=后的結果,稱之為潛在結果;對于每一個值,潛在結果都是一個分布在總體的隨機變量,而且每個特定個體的實際結果僅取決于該個體的處理值,這樣就排除了個體之間的干擾,這種假設通常被稱為個體處理穩(wěn)定性假設(SUTVA);在滿足SUTVA 的前提條件下,分配機制就直接決定了個體被分配到處理組或控制組的狀態(tài),從而觀察到對應的潛在結果。
在實際應用中,因果推斷理論是基于因果效應來體現的,總體的平均因果效應(Average Causal Effect,ACE)指的是,假設該總體中所有個體都接受處理平均結果[=1]與假設該總體中所有個體都不接受處理的平均結果[=0]之差,即=[=1-=0]=[=1]-[=0]。
2. 隨機控制實驗
統(tǒng)計學家費舍爾(Fisher)提出在所有個體中將處理進行隨機分配,使得每個個體只接受處理或者只接受不處理有且僅有在對應處理下的一種結果。除了處理的隨機化分配外,還需設定隨機分配下的處理與潛在結果以及其他協(xié)變量的取值表現無關,即滿足(=1,=0)⊥,這就是著名的“隨機控制實驗(Randomized Controlled Trials,RCT)”。在RCT中,處理的隨機性為項目評估提供了最成功和最廣泛的科學研究設計基礎。在隨機化分配下,平均因果作用表示為觀測到的結果變量在處理組=1與對照組=0的期望之差,不再含有潛在結果變量=1和=0,這就極大地解決了因果推斷中的不可識別性。
伊本斯(Imbens)強調了隨機實驗證據的優(yōu)勢,從某種意義上講,隨機控制實驗是最可信的一種政策評估方法,通過隨機化,使得已知和未知的混雜因素在處理組和控制組都可以平衡分布,也就是說,隨機化所帶來的最大好處就在于,它消除了混雜偏倚,使研究者能夠量化不確定性。因此,隨機對照實驗通常被稱為臨床實驗的黃金標準,在自然科學以及美國、歐洲和其他地方的藥物批準過程中發(fā)揮著中心作用。
隨機控制實驗在健康干預對健康的影響研究方面也有廣泛的使用,主要包括工作場所的健康干預、收入轉移或現金激勵干預以及直接的健康干預。工作場所的健康干預措施包括管理人員的心理健康培訓、工作場所福利項目提供和心理健康意識培訓等,通常把研究對象隨機分配到干預組和對照組,干預實施一定階段后,再分析健康干預政策的效果,分析結果表明工作場所的健康干預有利于提高勞動者的健康。收入轉移或現金激勵分為三種情況:一種情況是對處理組給予現金激勵,對照組不給;另一種是分為多個組,每組給予的現金激勵不同;第三種是總的激勵數額相同,但是分發(fā)的頻率不同。實驗結果表明給予現金激勵對健康有積極的影響,給得多比給得少的健康結果要好,激勵金額支付頻率高比支付頻率低對健康的影響要大。直接的健康干預則是通過健康訪談和基于網絡的健康指導來提升干預組的心理健康。
雖然隨機實驗的說服力強,但是迪頓(Deaton)和卡特萊特(Cartwright)對隨機實驗在科學證據層次的突出地位提出了質疑,因為RCT有其自身的局限性:①實驗的樣本容量可能很小,而個體間又可能存在較大差異,所以估計量的精確度不足;②在理想隨機實驗中,可以隨機分配處理組和對照組的成員,但是在實際的研究中,人們往往可以自由選擇是否參加,存在自我選擇效應;③實驗要求控制組完全不受政策的影響,但實際中很難排除政策的溢出效應和替代效應;④可能存在實驗效應,當人們知道自己處于實驗中時,自我心理和行為就可能發(fā)生變化,從而影響實驗結果;⑤隨機實驗的系統(tǒng)誤差是無法完全避免的,比如處理組和控制組可能在不同的地點被觀察,在同一天的不同時間被觀察,或者由不同的觀察員所觀察,這些因素都有可能會造成實驗結果的偏差?;谝陨显颍m然隨機控制實驗在實證研究的各個領域都有廣泛應用,但是由于其過高的實驗成本且需花費大量時間,所以很多學者越來越熱衷于使用說服力類似且?guī)缀鯚o成本的準自然實驗來替代隨機實驗進行研究。
3. 準自然實驗
英國醫(yī)學研究委員會(Medical Research Council,MRC)將準自然實驗(Natural Experiment,NE)定義為:一項適用于利用處理變化來分析其影響的研究,其中引起處理的事件、干預措施或政策不受研究者控制。即在準自然實驗中,“干預不是為了研究目的而進行的”,而是“采用一種試圖得出因果關系的推斷方法來分析處理和結果的變化”。給定的準自然實驗對健康研究的價值取決于一系列因素,包括受影響人口的規(guī)模、可能影響的時間、產生處理差異的過程以及數據收集的實用性等。如果樣本數量足夠大,則可將樣本范圍內的處理人群和未處理人群(或處理水平不同的人群)進行比較,并可獲得關于處理、結果和潛在混雜因素的準確數據,從而利用準自然實驗進行分析研究。但是,如果缺乏充分的調查數據,或對處理和結果的評估不準確,那么就必須根據干預實施的背景謹慎選擇準自然實驗評估方法,還應該進行假設檢驗和公開透明的報告,提供對干預和分配過程的清晰描述,并且最大限度地減少偏差,提高外部有效性。
準自然實驗的方法已應用于許多領域的經驗研究,如公共衛(wèi)生、經濟學和社會科學等。評估方法包括傾向得分匹配法、工具變量法、雙重差分法、斷點回歸法、固定效應模型等,如何根據研究主題和數據背景選擇合適的評估方法,也就成為研究人員需要重視的問題。
近年來,準自然實驗在社會科學研究中占有越來越重要的地位。相較于隨機實驗而言,其在實驗倫理上具有極為重要的優(yōu)勢,如在研究吸煙對健康影響的過程中,實驗者明知吸煙行為具有成癮性與危害性,強行從樣本中選取個體要求其接受處理(即吸煙)是不道德的;但可以選取準自然實驗的方式,從社會中選取吸煙者群體與不吸煙者群體,研究其健康差異,但要考慮到兩個群體間是否具有樣本自選擇問題,如是否較低健康水平的群體更傾向于不吸煙以維護自身健康。準自然實驗的常用評估方法及其在健康領域的經典研究總結如下。
1. 傾向得分匹配
早在1983年羅森鮑姆(Rosenbaum)和魯賓(Rubin)就提出了傾向得分匹配(Propensity Score Methods,PSM)方法,作為一種近似實驗的方法,PSM常被用于克服橫截面樣本數據的非隨機問題,尤其是在臨床生物醫(yī)學領域應用更為廣泛。它的基本原理是,對于接受處理的個體,找到具有相同可觀測特征的未被處理的個體,通過逆概率加權、偏差矯正匹配等方法,比較他們觀測結果的差異,達到估計處理效應的目的。使用PSM有一個關鍵的前提限制,即“強可忽略性處理分配”,該方法假定控制協(xié)變量之后,具有相同特征的個體對政策具有相同的反應。換句話說,不可觀測因素不影響個體是否接受政策干預的決策,只有在估計傾向得分的回歸方程中包含的可觀測變量才能影響被暴露于政策的概率。
如果存在樣本選擇偏差,一般可以采用PSM方法來估計因果效應,該方法廣泛應用于研究遷移、退休、收入、低保參與、工作場所的健康促進措施等多方面因素對健康的影響。PSM估計因果效應分為三個步驟:首先用所有匹配的協(xié)變量估計處理變量的傾向得分,估計方法為二元或多元logit回歸;然后根據得分進行匹配;最后根據研究目的計算平均處理效應,或者對剔除未匹配樣本后的新數據集進行回歸分析。我們以遷移和低保參與對健康的影響為例加以說明。有學者以遷移作為處理變量,采用二元logit回歸計算傾向得分,然后利用局部線性回歸匹配方法進行傾向得分匹配,同時使用近鄰匹配和半徑匹配作為穩(wěn)健性檢驗,最終的平均處理效應表明遷移者的健康狀況要優(yōu)于未遷移者?;糨娴热瞬捎肞SM方法,研究了低保參與和青少年心理健康之間的因果關系,處理變量是享受低保的狀態(tài):進入、離開和保持。研究分為三個階段,首先使用青少年的個人和家庭等特征以及心理健康得分,采用多元logit模型來預測獲得相應福利狀態(tài)的概率,即傾向得分;然后使用半徑匹配方法將每一個在特定處理組的青少年與未接受低保但有相同傾向分數的人進行匹配;最后使用PSM過程中產生的權重回歸調整模型來估計各種低保參與狀態(tài)對心理健康的可能影響。這樣的處理過程很好地解決了選擇偏差問題。
但是由于PSM沒有處理未觀察到的混雜因素,該方法有可能導致有偏差的效果估計。與此同時,如果在使用匹配方法時把樣本局限在共同支撐域范圍,匹配方法得到的結論僅適用于共同支撐域范圍里的樣本,而不適用于所有樣本。如果共同支撐域樣本比較小,那么得到的結論普遍性就相對較差。
2. 工具變量估計
由此我們發(fā)現,工具變量法雖然是一個相對簡單的估計方法,但是只有當個體對政策反應的異質性不影響決策時,工具變量才是有效的,而且,如何選擇合適的工具變量也是研究者們急需解決的一大問題。
3. 雙重差分法
雙重差分(Difference In Difference,DID)方法是用來估計政策干預和事件處理效應的一個常用方法,被廣泛應用于公共衛(wèi)生政策研究。這些政策或事件的特點是,它們并不在同一時間影響所有個體,或者對個體的影響并不相同。DID方法評估政策效果的基本思想是通過比較受到影響的群體(處理組)和未受到影響的群體(對照組)的差異來評估政策效果。假設模型為=+++·+,設定表示結果變量,分組虛擬變量=1或0分別表示是否對該組樣本進行了“處理”;時間虛擬變量=1或0分別表示“政策實施后”和“政策實施前”;·為分組虛擬變量和時間虛擬變量的交互項,其系數反映了政策實施的凈效應。使用DID方法的前提條件主要有兩點,一是需要使用面板數據,二是需要滿足平行趨勢假設,即在政策未實施時,處理組和控制組的結果變量隨時間變化的路徑平行。
在遷移對健康影響的研究中,學者們通常把農村移民設置為處理組,非移民代表對照組,利用DID來估計內部遷移的健康影響,同時控制觀察到的特征和未觀察到不隨時間變化的因素,這兩個群體共有的因素可能與內部遷移和健康結果相關。當退休政策發(fā)生改變時,可以用雙重差分模型來分析退休政策變動對健康影響的因果效應,退休政策有兩種變化:一個是延長退休年限,一個是降低退休年限。對于前者,卡里諾(Carrino)等人把因最低養(yǎng)老金計劃改變而無法領取國家養(yǎng)老金的婦女作為處理組,把年齡和特征相似的婦女作為對照組,研究了女性領取國家養(yǎng)老金年齡增加6年的健康效應,結果表明提高領取國家養(yǎng)老金年齡會導致抑郁癥狀的概率增加12個百分點,同時在較低職業(yè)等級的女性中,自我報告的醫(yī)學診斷抑郁癥的概率也會增加。關于降低退休年限的研究,鮑爾(Bauer)和艾興伯格(Eichenberger)研究了瑞士建筑業(yè)養(yǎng)老金領取資格的政策變化對健康的影響,該變化將退休年齡從65歲降至60歲,實證分析時采用了兩種處理方法,一種是將建筑工人作為處理組,其他藍領工人作為對照組,另一種是令歲數大的建筑工人作為處理組,年輕的建筑工人作為對照組,研究結果表明降低退休年齡并沒有改善工人的健康;但是哈爾伯格(Hallberg)等人對于瑞典軍人退休年齡由60歲降低到55歲這一政策的研究卻得到了相反的結論,該研究以軍人為處理組,政府的其他雇員為對照組,研究結果表明提前退休有助于降低死亡率和住院護理比例;結論的差異可能源于行業(yè)特點的差異。養(yǎng)老金收入政策變化對健康的影響也可以采用雙重差分的方法進行分析。施納爾岑貝格(Schnalzenberger)研究了養(yǎng)老金降低對死亡率的影響,處理組為在公共養(yǎng)老金體系中繳費年限超過40年的退休人員,對照組由早期60歲的正常退休人員組成,他們不受這些改革的影響,研究結果表明養(yǎng)老金降低對死亡率沒有影響。工作時間政策的變化對健康的影響也適用雙重差分方法。法國1998年通過一個法案,規(guī)定從2002年1月起所有私人企業(yè)把每周工作時間由39小時降低為35小時,但保持收入不變,伯尼爾(Berniell)和比滕貝克(Bietenbeck)研究了該政策對個體健康的影響,處理變量是2002年雇主是否采用35小時工作制,是取值為1,否則為0,研究結果表明減少工作時間的政策可能會帶來重要的健康益處。除了降低工作時間外,保持收入不變的工作量降低制度,也會對就業(yè)者的健康帶來有益的影響。布拉特貝格(Bratberg)等人研究了減少55歲以上教師的工作量,但保持相同的工資這一政策對教師健康的影響,處理組為55歲以上的教師,對照組是年齡稍小的教師,不符合減少工作量的條件,研究結果表明工作量的減少會導致男性患病缺勤的減少和心理健康的改善。稅收抵免政策作為收入的外源性變化來源,可以消除或顯著減少因與收入相關的沖擊而導致的遺漏變量偏差,并可以用來估計接受收入增加對接受處理者的健康處理效果,為收入對健康的因果效應提供了證據。如倫哈特(Lenhart)研究了1996年美國的稅收抵免政策對個體健康的影響,該政策使有兩個或兩個以上子女家庭的最高福利增加了一倍多,而有一個合格子女家庭的福利僅略有增加,以兩孩以上家庭為處理組,其他家庭為對照組,采用雙重差分方法的分析結果表明收入使受影響的戶主報告健康狀況極佳或非常好的可能性提高了6.9至8.9個百分點。
不容忽視的是,DID 方法同樣有一定的局限性:①DID 方法以面板數據模型為基礎,對數據要求更加苛刻;②由于存在個體時點效應,所以平行趨勢假設很難滿足;③DID 方法假定環(huán)境因素沖擊對處于相同環(huán)境中的個體會產生相同的影響,但實際中,處理組和對照組個體可能因為某些不可觀測因素的影響,使得其在面臨相同的環(huán)境因素沖擊時做出不同的反應;④還有一點限制因素是溢出效應的風險,即處理組群體可能會影響到對照組群體。
4. 斷點回歸設計
斷點回歸設計(Regression Discontinuity Design,RDD)早在 1960 年就已被提出,主要應用于醫(yī)學領域,直到20世紀90年代末之后才被國外大量應用于經濟學研究。RDD是一種類似于隨機實驗的方法,李(Lee)認為在隨機實驗不可得的情況下,斷點回歸能夠避免參數估計的內生性問題,從而真實反映出變量之間的因果關系。通過RDD來估計因果效應主要分為兩部分:首先是圖形分析,這一步驟的完成需要滿足一些前提條件。①RDD的數據需要包含三個基本變量,分別為驅動變量、斷點和觀測結果。驅動變量是個體的一個連續(xù)特征變量,匹配變量的值是否大于斷點將決定個體是否接受處理;斷點用于決定個體是否接受處理的閾值;而觀測結果則是個體接受處理或未接受處理的觀測結果。②驅動變量的值在斷點附近無法被準確操作。③斷點的選擇不受驅動變量的影響。④除了處理狀態(tài)在斷點處發(fā)生跳躍式變化外,其他未處理的個體特征變量在斷點處沒有顯著差異。其次是估計因果效應。如果是精確斷點回歸,可以利用局部線性回歸來識別平均處理效應,如果是模糊斷點回歸,則可以結合工具變量,利用兩階段最小二乘法(2SLS)來估計因果效應。此外,在斷點回歸分析中進行全局高階多項式回歸往往會受到階數敏感性、置信區(qū)間覆蓋率等因素的影響,因此更建議研究人員基于局部多項式或二次多項式進行估計。作為RDD方法的擴展,回歸拐點設計(Regression Kink Design,RKD)同樣受到學者的關注,尤其適用于福利政策相關的因果效應研究。在RKD方法中,被干預可能性的斜率在拐點處發(fā)生了變化,從而導致賦值函數的一階導數不連續(xù)。該模型使用也具有一定的前提要求,即在拐點處不存在對驅動變量的操縱,而且其他協(xié)變量在拐點處的斜率不應該發(fā)生變化。
在個體健康研究領域采用斷點回歸分析方法最多的是退休對健康的影響,通常是以法定退休年齡作為斷點,研究內容包括退休對自己健康的影響和伴侶的健康溢出效應。大部分研究表明退休對健康有積極的影響,減輕與工作相關的壓力和緊張、增加睡眠時間、更頻繁的體育鍛煉和戶外運動似乎是退休影響健康的關鍵機制;但有些研究表明退休對健康有不利的影響,可能是由不良的健康行為所引起的,雷曉燕等則是認為正常年齡退休對男性有顯著的負面影響,對女性沒有明顯影響,可能是因為女性比男性更易于調整心態(tài)。伴侶間溢出效應表明男性配偶的退休改善了女性的心理健康,很可能是通過增加社交和鍛煉的頻率來實現的,但也有個別文獻認為主觀健康受到配偶退休的負面影響,原因是隨著伴侶退休,飲酒頻率和強度顯著增加,適度體育活動顯著減少。也有部分學者采用模糊斷點回歸設計,分析了義務教育法改革帶來的額外學校教育年限對心理健康的影響,如阿文達諾(Avendano)等人以改革后的義務教育年限作為斷點,研究結果表明改革并沒有直接改善心理健康,延長義務教育的持續(xù)時間會通過增加教育程度以外的渠道影響心理健康;揚克(Janke)等以最低離校年齡改革前后的出生年月作為驅動變量,以1957年9月該出生年份為斷點,研究結果表明額外的一年學校教育對大多數慢性健康狀況的患病率沒有統(tǒng)計上可識別的影響。還有學者研究了教育質量對健康的影響,如鐘海認為對教育質量產生重大沖擊的典型事件是“文化大革命”,對于1947年之前出生的人,在1966年“文化大革命”開始時普遍已經高中畢業(yè),不會受到“文化大革命”的巨大沖擊,1959年之后出生的人在1976年“文化大革命”結束時正處在初高中階段,教育制度已經恢復,同樣不會被“文化大革命”所影響,因此,鐘海以出生年份作為驅動變量,以1947和1960年作為斷點,分別對應“文化大革命”開始年份和結束年份,研究結果表明更好的教育會改善自我評估健康狀況,降低殘疾的可能性,但對身體功能不佳或身體不適沒有顯著影響。梅內塞斯-菲略(Menezes-Filho)和波利蒂(Politi)在研究私人健康保險的因果效應時,以所得稅收入上限作為扭結點,收入取對數作為驅動變量,因為收入高于扭結點的個人往往會增加私人保險購買金額,從而降低自己的稅收等級,所以私人保險持有率在扭結點附近有明顯的斜率變化,而這一變化會進一步影響個人的健康行為和健康結果,最終研究表明私人保險對預防服務的使用、健康結果、體育鍛煉和戒煙都有積極影響。另外有學者研究了健康保險在年輕人心理健康保健中的作用,由于健康保險狀況在26歲左右呈離散變化,因此作者以26歲作為斷點,26歲左右的月份作為驅動變量,研究結果表明健康保險增加了年輕人的心理健康保健。還有學者以貧困線作為斷點,研究了最低生活保障制度對健康的影響,發(fā)現該制度產生了顯著的福利污名化效應,對受助者的心理健康和福祉產生了負面影響。
雖然RDD是準實驗方法中最具有可信性的方法,但是RDD方法并不能完美地模擬隨機實驗的普遍性。之所以如此首先是閾值的選擇問題,閾值必須是一個真正的隨機因素,一個本身與結果無關的因素。其次,斷點回歸只使用了接近處理臨界值的個體數據,即估計了局部的平均處理效果,因此與隨機實驗相比,由于樣本量減少,RDD方法的作用是有限的。對于RKD方法而言,通常需要比RDD更大的樣本量才能保證估計值的準確,但是與RDD類似,RKD只能估計拐點附近的因果效應,無法簡單地推廣至總體。
5. 個體固定效應模型
個體固定效應模型(Fixed Effects Model)分析比較了某一時間段內同一個人或群體內的多個觀察結果,認為不可觀測且不隨時間變化的變量存在,且與其他可觀測的解釋變量通常是相關的。因此不能把這一變量當作干擾項的一部分,而必須將其等同于其他解釋變量進行處理。假設固定效應方程為=++++,其中,表示不隨時間變化的不可觀測個體特征,為時間效應,是處理變量,為控制變量,為殘差項,表示個體,表示時間。以=0和=1對上式做差就可以消除個人特征,得到1-0=-+(1-0)+(1-0)+1-0。從這一方程可以看出,個體固定效應控制住了所有個人層面不隨時間變化的異質性,這樣就解決了不隨時間而變但隨個體而異的遺漏變量問題。
個體固定效應模型在健康研究中得到了廣泛的應用。一些學者采用個體固定效應模型,通過控制未觀察到的和不隨時間變化的因素,研究遷移對個體健康的影響,研究結果揭示了農村人口向城市遷移對中年人而非老年人自評健康的積極影響。還有學者采用個體固定效用模型研究了退休對健康的影響,除了把年齡、年齡平方、受教育年限、婚姻狀況、家庭規(guī)模和波度作為控制變量外,未觀察到的不隨時間變化的異質性由個體固定效應控制,研究結果表明退休狀態(tài)對婦女自我報告的健康、身體和精神健康結果有積極和顯著的影響,較長的退休時間會帶來明顯的額外健康福利。沃森(Watson)和奧斯伯格(Osberg)在研究收入預期和收入焦慮對心理健康的沖擊時,使用個體固定效應和工具變量相結合的方法,以失業(yè)率作為工具變量,同時控制了教育、關系壓力、家庭規(guī)模、居住地區(qū)和年齡等可能與心理痛苦有關的因素,研究結果表明,經濟損失對心理痛苦的影響要大于同等規(guī)模的收益,而且隨著損失規(guī)模的增加對心理健康的邊際影響會逐漸遞減。哈洛寧(Halonen)等人使用瑞典縱向職業(yè)健康調查研究,在模型設計中加入了性別、遺傳特征和個性這些不隨時間變化的因素,利用條件Logistic回歸進行固定效應分析,研究結果表明,如果一個人每周工作時間超過正常時間,那么長時間的通勤會導致身體缺乏活動,增加睡眠問題的風險。通常我們認為受教育年限越長身體越健康,但是這種關聯(lián)很可能會被未觀察到的因素所混淆,為此,藤原(Fujiwara)和川內(Kawachi)使用雙固定效應模型來確定教育對健康和健康行為的因果影響,在這一模型中,因為樣本選擇全部為有共同生活環(huán)境的雙胞胎,就可以排除遺傳能力、性格或早期家庭環(huán)境等可能影響教育和健康的未知共同因素,研究結果表明,從個體層面考慮,教育與健康結果正向相關,但是在固定效應分析中,盡管二者仍然相關,結果卻并不顯著,這也就意味著,個體層面對教育和健康關系的研究確實存在著某些未知變量的干擾。
雖然個體固定效應模型優(yōu)于PSM,可以控制未觀察到的不隨時間變化的個體特征,但是仍然有一定的局限性。為了達到控制個體不可觀測且不隨時間變化的因素,個體固定效應模型使用了個體內變化的信息。如果變量有充分的個體內變化信息,固定效應模型能夠有效地處理缺失個體固定效應造成的缺失變量誤差;但如果變量個體內變化很少,其系數的估計方差就可能很大且不顯著。因此在使用面板數據前,對于每個變量,尤其是所關注的變量的信息來源要有充分的了解,如果變量的系數在加入固定效應后變得不顯著,不能簡單地推斷它沒有因果影響,而是要具體情況具體分析。
我們對以上各個典型方法的適用條件、優(yōu)缺點及應用于健康領域研究的典型文獻進行了總結,見表1。
6. 多方法的綜合使用
在前面的內容中,我們總結出了個體健康研究中針對不同問題的具體解決方法,但是,一些研究往往涉及個體健康研究中存在的多個問題,只使用某一種方法可能只能解決某一類問題,不能解決研究中存在的多個問題,存在一定的局限性,并不能給出可靠的因果結論,因此有必要把多種方法結合使用。
表1 個體健康研究中常用的因果推斷方法
另一種常用的結合方式是PSM與DID相結合,即PSM-DID,用DID進行因果推斷有一個基本假設:平行趨勢假設,即組間不同的混雜變量不隨時間改變,隨時間改變的混雜變量在各組之間完全相同。進行實證分析時“平行趨勢假設”檢驗并不一定能通過,如果不能通過則需要先進行PSM。PSM-DID模型的實現主要包括兩個步驟:第一步,使用PSM模型,依據傾向得分為處理組尋找相似度盡可能高的控制組個體,使得控制組與處理組滿足平行趨勢假設;第二步,使用DID模型,通過兩次差分處理個體效應和時間效應,從而識別政策沖擊帶來的凈效應。PSM-DID在個體健康研究中同樣應用廣泛,主要應用于遷移、醫(yī)保政策、就業(yè)對健康的因果效應研究中。例如一些學者認為遷移組和非遷移組的混雜變量并不滿足“平行趨勢假設”,因此首先采用傾向得分匹配來減輕選擇性偏差,并獲得更具可比性的處理組和對照組,然后通過比較遷移組和非遷移組之間的健康變化來估計遷移對健康的平均處理效果。醫(yī)保政策對健康的影響主要包括“流動人口基本公共衛(wèi)生和計劃生育服務均等化計劃”對遷移者健康的影響,城鄉(xiāng)居民醫(yī)療保險一體化對居民醫(yī)療服務利用的影響和政府健康干預政策對老年人健康影響。上述研究均采用PSM-DID方法研究了健康相關政策的影響;斯蒂芬(Stephan)等人則是利用PSM-DID對工作和健康之間的因果關系展開了深入研究,首先使用PSM來創(chuàng)建可比較的個體經營者和員工群體,然后采用雙重差分方法來估計個體就業(yè)者和員工群體間的健康差異。
根據以上總結不難發(fā)現,由于健康影響因素的多樣化和因果推斷方法的普及,基于不同的研究數據和背景,選擇合適的研究方法解決問題就顯得極為重要。
7. 基于主題的個體健康因果推斷方法概括
因果推斷在個體健康研究領域被廣泛應用,以評估政策干預和其他處理效應,而個體健康水平的變動通常是社會資本、收入、教育、保險、遷移、退休、工作等多重因素作用的結果,所以我們從影響健康的相關因素考慮,對各個不同因素的適用方法進行總結概括。表2展示了個體健康研究領域不同影響因素常用的因果推斷方法。
表2 各方法涉及的健康影響因素
收入作為影響健康的主要因素,同時涵蓋了所有的因果推斷方法。許多學者利用隨機控制實驗研究現金轉移/激勵對個體健康的影響;施納爾岑貝格使用PSM-DID方法研究了養(yǎng)老金收入降低對死亡率的影響;有學者以中國新農村養(yǎng)老金計劃(NRPS)的推出時間作為工具變量,避免了反向因果與遺漏變量偏差所帶來的內生性問題;也有學者使用RDD方法,研究了最低生活保障制度對健康的影響;沃森和奧斯伯格則是使用個體固定效應和工具變量相結合的方法分析了收入變動和健康之間的因果關系。
關于工作對健康的影響,主要涉及工作場所的健康干預和工作政策變化兩個方面。許多學者利用RCT或者PSM方法分析健康干預政策的效果;一些學者使用工具變量方法來解決工作時間對健康影響的內生性問題,伯尼爾和比滕貝克利用DID方法研究了法國工作時間政策變化對個體健康的影響,而哈洛寧等人使用固定效應模型證明了長時間通勤的消極作用。
研究退休對健康的影響時最常用的是RDD方法,通常是以法定退休年齡作為斷點,研究退休對自己健康的影響和伴侶溢出效應。還可以采用法定退休年齡或養(yǎng)老金領取資格年齡作為退休的工具變量或者采用個體固定效用模型進行分析。當退休政策發(fā)生改變時,則可以用雙重差分模型來分析退休政策變動對健康影響的因果效應。
此外,關于社會資本、教育、保險、遷移等因素對健康的影響研究也十分廣泛。在研究社會資本對健康的影響時,梁航等人采用工具變量解決了社會資本和健康之間可能存在的雙向因果關系,而格拉夫娃等人則是通過使用雙重差分方法分析了社區(qū)環(huán)境對健康的影響。在教育對健康的影響研究中,通常我們認為受教育年限越長身體越健康,但是藤原和川內使用雙固定效應模型研究發(fā)現,個體層面對教育和健康關系的研究確實存在著某些未知變量的混淆。為此,學者們大多采用義務教育法規(guī)定的義務教育年限作為教育的工具變量,并結合RDD進行研究。在保險對健康的影響方面,很多學者采用工具變量解決保險狀態(tài)的內生性問題,并結合斷點回歸設計研究保險對健康水平的影響,而程令國等則是采用固定效應模型控制了不可觀測的個人、家庭層面的異質性,并使用PSM-DID進一步減少估計偏差,證明了新農合政策對參保者健康水平的積極效應。在遷移對健康的影響研究中,學者們常采用遷移者的社會網絡作為遷移的工具變量,還有學者采用雙重差分模型,或者利用PSM方法分析遷移者的健康狀況,還可以采用個體固定效應模型控制未觀察到的不隨時間變化的因素,以此來研究遷移對個體健康的影響。
通過對以上基于主題的個體健康因果推斷方法的總結概括可以發(fā)現,對收入、退休、工作等因素的分析幾乎涵蓋了所有常用的因果推斷方法,而很少有因果推斷方法涉及對社會資本的研究。可能的原因主要在于因果推斷方法被廣泛用于評估政策干預和其他處理效應,有相當多關于收入、退休和工作變動的政策,卻很少有社會資本的相關政策,而且,社會資本是一個過于寬泛的概念,表現為個體在一定的社會關系網絡中獲取信息和資源的能力,包括了鄰里關系、社區(qū)參與等多個方面,很難判斷社會資本這一因素對個體健康的具體因果效應,但是這也為我們以后的研究提供了新的發(fā)展方向,或許可以進一步擴展個體健康因果推斷的研究領域。
自21世紀以來,以“實驗”思想為基礎的定量實證分析方法已經成為健康研究領域的前沿熱點。不管是建立有針對性設計的“隨機控制實驗”,還是對基于政策變動或外生事件所產生的“準自然實驗”進行的研究,其共同目標都是對健康相關政策的有效性和科學性作出準確的評估,這一類典型的因果推斷研究方法也進一步證實了諸多影響因素與個體健康之間的因果關系并非簡單的相關關系。從Web of Science的檢索結果和本文的研究分析中可以看出,因果推斷方法在現今及未來較長的時間內,仍然是主流的健康政策評估方法,這一點也得到了眾多學者的肯定。
盡管因果推斷方法在個體健康研究中得到了廣泛的應用,但是該方法在實際應用階段仍然存在一定的局限性,主要表現在兩個方面:一方面是由樣本數據的質量和數量帶來的可靠性和外部有效性問題。無論是隨機控制實驗,還是準自然實驗,都需要滿足一定的前提條件,例如樣本的隨機分配、平行趨勢假設、共同支撐假設等,但是現有的數據未必能滿足這些條件,即使變量之間存在因果關系,也未必能得到驗證,或者盡管可以在樣本范圍內得到明確的因果關系,也通過了異質性和穩(wěn)健性檢驗,由于樣本數量較小,估計結果的外部有效性也會令人質疑。另一方面是分析過程中存在的問題。在實證研究中,通常是假設某一因素和健康之間存在因果關系,然后使用因果推斷的方法進行驗證,這些因果關系可能源于學者們已有的研究經驗,然而可能還存在一些經驗之外的因果關系,也就是說,因果推斷方法更側重于驗證因果關系。因此,未來研究中首先要著重關注數據的質量和數量,為研究奠定堅實的數據基礎,然后采用機器學習與因果推斷相結合的方法,解決傳統(tǒng)因果推斷中存在的問題。
現有的研究一般基于調查數據,樣本量往往只有幾千或者幾萬,十幾萬的數據集都比較少見,但是一個政策可能會涉及幾千萬,甚至上億人,通過少量樣本推斷出的因果效應在整個受眾群體上未必是成立的,也就是說很難滿足外部有效性。隨著信息技術和大數據技術的發(fā)展,居民健康相關的信息正以前所未有的速度產生和儲存,這些信息可能來自醫(yī)療、社會保險、就業(yè)和收入、稅收、社交數據等,還有政府和機構組織的各種調查和普查數據,每類數據只包含健康及健康影響因素的某一局部方面,例如稅務局掌控著每個納稅人的納稅記錄,是研究個人所得稅改革對健康影響的理想解釋變量來源,但是納稅人的健康數據由醫(yī)療部門管理,這兩者沒有交集,因此不能合并為一個可供研究的數據集,只能通過問卷調查進行分析,使研究的可靠性大大降低。由于這些數據分別被不同的機構儲存,各機構之間的信息相互獨立,沒有形成有效的數據共享機制,使得不同的人只能看到健康及其影響因素的某個側面,難以對健康及健康相關因素進行全局把握。為此,政府應該在保障居民個人信息安全性、私密性的前提下,合理整合居民健康及影響因素的相關數據,形成健康大數據系統(tǒng),為科學研究提供數據支持,通過研究諸多影響因素和健康之間的因果效應,為政府出臺科學的健康政策提供依據。
如果有健康大數據作為支持,那么很多機器學習的分析方法就可以應用于個體健康研究中的因果推斷。不同于傳統(tǒng)因果推斷方法需要基于反事實的潛在結果來定義因果關系,機器學習以數據為基礎,通過精準的預測或干預,將“非隨機化”的觀測樣本盡可能向“隨機化”實驗靠攏,由此可以從傳統(tǒng)數據中發(fā)現不易察覺的因果關系。另外,機器學習還具有優(yōu)秀的樣本和變量選擇能力,例如:①在處理組和對照組之間建立平衡,包括三種方法:傾向得分匹配方法,平衡處理組和對照組之間的分布混雜;逆概率加權,即直接優(yōu)化觀察值的權重,從而使處理組和對照組的協(xié)變量平均值相同;直接生成處理組和對照組,并使其協(xié)變量自動平衡,其算法包括“遺傳匹配”算法、整數規(guī)劃優(yōu)化算法。②評估所謂的干擾模型(如傾向得分,或結果的條件期望),用機器學習方法可以分別估計傾向得分或潛在結果,還可以采用雙穩(wěn)健方法把條件結果期望的估計與傾向得分的估計相結合,以及將條件結果期望的估計與協(xié)變量平衡相結合。③在具有大量協(xié)變量的情況下使用機器學習進行變量選擇,貝洛尼(Belloni)等人提出了一種提供原則性變量選擇的解決方案——“雙重套索”,同時考慮了協(xié)變量結果和協(xié)變量處理分配關聯(lián)。除此之外,還可以利用機器學習交叉驗證的思想,將數據集分為訓練集和測試集,在訓練集中使用傳統(tǒng)因果推斷方法識別因果效應,然后在測試集中進行多次重復測試,進一步驗證識別結果的外部有效性。
雖然目前機器學習技術尚未成為經濟學研究的主流方法,對整個社會科學因果識別研究范式的沖擊有限,但隨著未來經濟研究領域的發(fā)展,可提供樣本量的增多,將機器學習方法引入因果關系推斷,不僅可以改進因果推斷的計量方法,其在分類、預測、驗證等方面的優(yōu)異表現也將會進一步豐富研究者的分析手段和研究范疇,使得機器學習和因果推斷互相補充,相互促進。
本文以個體健康研究為主題,通過對已有文獻的分析和總結,發(fā)現個體健康研究中存在著測量偏誤、遺漏變量、互為因果、共同原因和選擇偏差等諸多問題,隨機控制實驗、傾向得分匹配、工具變量、雙重差分、斷點回歸設計、固定效應模型等因果推斷方法,在社會資本、收入、教育、保險、遷移、退休、工作等因素對個體健康的因果效應研究中均得到了廣泛的應用,每一種方法都有其優(yōu)缺點,在實證研究中應根據研究主題和應用條件進行合理選擇,有時需要綜合應用多種因果推斷方法。本研究為健康政策制定者提供了更加科學合理的決策依據,對于提高居民健康水平具有十分重要的社會意義,還有助于研究者在個體健康研究領域中選擇合適的因果推斷方法,或綜合應用已有的方法。隨著大數據技術的發(fā)展,在未來的研究中,應加強機器學習和因果推斷方法的結合,豐富已有的因果推斷工具,以保障研究結果的穩(wěn)健性。