聶鵬 徐泊陽 周博 趙方
摘要:伴隨著我國老齡化進程的不斷加快,老年人健康不平等問題變得越發(fā)突出?;?011—2018年中國健康與養(yǎng)老追蹤調(diào)查數(shù)據(jù),使用線性回歸、條件推斷樹和條件森林三種估計方法,對我國45歲及以上中老年居民健康(適應(yīng)負荷和自評健康)的機會不平等進行測度,并對各變量在健康機會不平等的相對貢獻大小進行度量。結(jié)果表明,適應(yīng)負荷與自評健康的機會不平等相對值分別介于3-21%—7-76%與5-15%—10-44%之間,人口學(xué)特征(年齡和性別)和兒時社會經(jīng)濟條件均為造成適應(yīng)負荷和自評健康機會不平等的主要因素。與線性回歸結(jié)果中出生地區(qū)/省份是最重要的影響因素不同,兩種機器學(xué)習(xí)的估計結(jié)果表明,人口學(xué)特征與兒時社會經(jīng)濟條件是造成適應(yīng)負荷機會不平等的兩大誘因。研究證實基于條件森林的健康機會不平等測度效果優(yōu)于傳統(tǒng)的線性回歸,這一研究結(jié)果對于使用單個客觀健康指標、調(diào)整可觀測的環(huán)境變量之后依然是穩(wěn)健的。健康的機會不平等是隱藏于健康不平等背后的深層原因,而針對我國中老年人健康機會不平等的綜合評估對于幫助老年人有效減少健康不平等的公共政策的出臺具有重要的現(xiàn)實意義。
關(guān)鍵詞:健康機會不平等;Shapley值分解;條件推斷樹;條件森林
中圖分類號:C913-6文獻標識碼:A文章編號:1000-4149(2024)03-0043-14
DOI:10-3969/j-issn-1000-4149-2024-00-014
一、引言
同教育不平等一樣,健康不平等本質(zhì)上是社會成員在健康機會上的不平等[1]。根據(jù)羅默(Roemer)的機會平等理論,總體不平等可劃分為由個體努力水平、個體特征和外部環(huán)境造成的不平等[2]。由個體努力如工作時間和教育程度等導(dǎo)致的不平等是合理的不平等,而由個體特征(性別等)和外部環(huán)境(家庭背景等)導(dǎo)致的不平等是不合理的不平等[3]。
在機會不平等的測度研究中,由于努力程度為個體的主觀信息難以精確度量,事后方法的適用性較低,而且其結(jié)果的可靠性也備受爭議[4]。此外,雖然機會不平等測度方法常見的是參數(shù)法和非參數(shù)法,但是非參數(shù)法需要超大樣本數(shù)據(jù)用于測算不平等。值得注意的是,目前國內(nèi)所采用的參數(shù)法存在三個明顯的缺陷:首先,在健康水平的度量中往往僅使用主觀健康指標[5],如自評健康。其次,擁有豐富兒時環(huán)境變量的全國代表性數(shù)據(jù)比較匱乏,而有限的兒時環(huán)境變量的信息可能導(dǎo)致健康機會不平等水平的低估[6]。最后,參數(shù)法一般以線性函數(shù)形式引入環(huán)境變量,但存在影響個體健康水平的不可觀測的環(huán)境變量,最終導(dǎo)致健康機會不平等估計的不準確性[7]。有鑒于此,考慮到關(guān)于努力因素的界定標準尚不統(tǒng)一,本文采用2011—2018年中國健康與養(yǎng)老追蹤調(diào)查(CHARLS)數(shù)據(jù),除引入自評健康(selfreportedhealth,SRH)之外,基于多個生物標記物信息構(gòu)建綜合的客觀健康指標——適應(yīng)負荷(allostaticload)。在此基礎(chǔ)上運用傳統(tǒng)線性回歸以及條件推斷樹和條件森林三種估計方法,對我國中老年居民健康的機會不平等進行測度,并進一步識別造成健康機會不平等的重要根源。
二、文獻綜述
健康機會不平等研究一般包括三個部分:定義、測度和分解,本文將從這三個方面展開。
健康機會不平等的定義最早由羅爾斯(Rawls)提出,他認為由個體選擇差異所導(dǎo)致的結(jié)果不平等是可以接受的,但健康是自然的產(chǎn)物,并不受社會因素的控制,所以社會公正的核心變量和機會不平等的研究對象不應(yīng)包含健康[8]。
隨后,羅默等學(xué)者在其開創(chuàng)性研究中,構(gòu)建“環(huán)境—努力”二元理論框架,正式將機會不平等引入經(jīng)濟學(xué)研究中[2]?;谠摾碚摚用竦慕】邓接善洵h(huán)境因素和努力因素共同決定。環(huán)境因素指個人無法控制的外生因素,如兒時社會經(jīng)濟條件,努力因素指個人可控的因素,如生活習(xí)慣和受教育水平。其中,環(huán)境因素所導(dǎo)致的健康差距即為健康機會不平等,而努力因素所導(dǎo)致的健康差距為合理的差距[9]。在國內(nèi)研究中,史軍和趙海燕基于羅爾斯的“作為公平的正義”理念,從理論上討論了健康公平的內(nèi)涵,并強調(diào)羅爾斯的公平正義理論雖然不是為健康問題而設(shè)計的,但對健康公平研究極具價值[10]。李紅文和毛新志提出社會地位綜合征導(dǎo)致了健康等級的差別[11]。健康公平要求消除不同社會群體之間的系統(tǒng)性差異,即由社會經(jīng)濟制度等人為社會因素造成的健康不平等。
在健康指標的度量方面,現(xiàn)有研究多使用自評健康指標。在國外研究中,有學(xué)者運用1965—2004年英國國家兒童發(fā)展研究數(shù)據(jù),發(fā)現(xiàn)自評健康的機會不平等主要由父母的社會經(jīng)濟條件和兒時健康狀況等環(huán)境因素所決定[12]。特蘭諾伊(Trannoy)等基于歐洲健康與養(yǎng)老追蹤調(diào)查中的法國數(shù)據(jù),發(fā)現(xiàn)由環(huán)境因素包括父母社會經(jīng)濟條件和健康狀況所導(dǎo)致的健康機會不平等解釋了57%的健康總體不平等[13]。
唐尼(Donni)等運用2000—2005年英國家庭追蹤調(diào)查數(shù)據(jù),研究發(fā)現(xiàn)32%—41-2%的自評健康不平等來源于健康的機會不平等,而環(huán)境變量中父親的社會經(jīng)濟狀況是解釋自評健康機會不平等的重要因素之一[9]。
然而自評健康可能存在主觀認知的偏差從而產(chǎn)生健康機會不平等估計的偏誤[5],卡列里(Carrieri)和瓊斯(Jones)首次引入生物標記物作為客觀的健康指標,發(fā)現(xiàn)環(huán)境因素(包括出生隊列、性別、個人教育和出生地區(qū))是膽固醇、糖化血紅蛋白和綜合不良健康機會不平等的最主要解釋因子[14]。進一步地,卡列里等根據(jù)英國家庭縱向研究數(shù)據(jù),發(fā)現(xiàn)適應(yīng)負荷不平等的三分之二可歸因于環(huán)境因素[15]。在國內(nèi)研究中,劉波等運用中國家庭追蹤調(diào)查數(shù)據(jù),發(fā)現(xiàn)性別和3歲時所處的經(jīng)濟區(qū)域是導(dǎo)致自評健康機會不平等的主要因素[16]。丁蘭琳等使用2011—2015年CHARLS調(diào)查數(shù)據(jù),采用生物標記物和分位數(shù)回歸方法發(fā)現(xiàn)出生省份、家庭社會經(jīng)濟條件以及兒時健康和營養(yǎng)狀況是60歲及以上老年人健康機會不平等的重要誘因[6]。
在測度方法上,由于自評健康一般為有序或虛擬變量,一般運用非線性模型方法來估計健康決定方程[17]。另外,趙廣川將自評健康這一有序變量轉(zhuǎn)化為連續(xù)變量,運用線性回歸來估計健康機會不平等[18]。但目前國內(nèi)有關(guān)健康機會不平等的研究尚未綜合運用線性回歸和機器學(xué)習(xí)方法來測度健康機會不平等。
在健康機會不平等影響因素的分解上,現(xiàn)有研究一般采用Shapley值或Oaxaca分解方法來量化不同環(huán)境因素對健康機會不平等的相對貢獻大小。考慮到機器學(xué)習(xí)模型的計算復(fù)雜度較高,最近的研究如布魯諾里(Brunori)等運用置換變量重要性來計算環(huán)境變量的重要性[7]。此外,由于Shapley值分解在環(huán)境變量較多時可能會出現(xiàn)“維度詛咒”問題,因而現(xiàn)有分解方法一般基于單個變量或?qū)⒆兞窟M行分組[7]。而施特倫貝利(trumbelj)和科諾年科(Kononenko)提出基于敏感性分析的Shapley值分解技術(shù),能夠較好地在環(huán)境變量較多時對單個變量的Shapley值進行量化,目前該方法已廣泛應(yīng)用于機器學(xué)習(xí)的相關(guān)應(yīng)用研究中[19]。
值得強調(diào)的是,丁蘭琳等主要運用參數(shù)方法(分位數(shù)回歸方法)分析了我國60歲及以上老年人在2011與2015年生物標記物的機會不平等水平,并使用Shapley分解方法量化了各環(huán)境因素的貢獻度[6]。類似地,聶鵬等基于2011—2018年CHALRS調(diào)查數(shù)據(jù),分別在Barry、Roemer和Swift三種情境下,運用參數(shù)方法測度了我國老年人事后健康不平等水平,以及環(huán)境、努力、人口學(xué)特征因素的相對貢獻及其變化趨勢和成因[20]。
與上述研究不同,本文的創(chuàng)新之處在于:
第一,本文使用主觀(自評健康)與客觀(適應(yīng)負荷)兩種健康指標進行健康水平的度量。其中自評健康能夠更加全面地捕捉受訪者整體包括心理健康狀況,但可能存在主觀報告誤差。而適應(yīng)負荷是基于特定慢性健康狀況的診斷、監(jiān)測和臨床管理直接相關(guān)的生物標志物所構(gòu)建的指標[21]。它不僅是一個基于綜合的、多系統(tǒng)的測量方法的健康指標,而且能夠反映出由于個體慢性心理壓力暴露積累而導(dǎo)致的身體“磨損”[22]。
第二,本文充分利用2014年CHARLS生命歷程調(diào)查中有關(guān)環(huán)境因素的豐富信息,引入七大類(人口學(xué)特征、兒時的社會經(jīng)濟條件、父母健康及行為、健康及醫(yī)療可及性、人際關(guān)系、出生地區(qū)/省份和戰(zhàn)爭)共31個影響中老年人健康結(jié)局的環(huán)境變量,并使用置換變量與Shapley值分解兩種方法來量化單個環(huán)境變量以及不同環(huán)境變量類型的相對重要性,對影響我國中老年居民健康機會不平等的環(huán)境因素進行更加全面而細致的分析。
第三,在測度方法上,除線性回歸方法外,本文采用條件推斷樹與條件森林兩種機器學(xué)習(xí)方法進行健康機會不平等的測度和分解,并將線性回歸方法與兩種機器學(xué)習(xí)方法的估計結(jié)果進行比較,這增加了健康機會不平等估計的穩(wěn)健性,并為機器學(xué)習(xí)方法在該領(lǐng)域的應(yīng)用提供一定參考。
三、實證方法與數(shù)據(jù)
1.數(shù)據(jù)來源及變量選取
本文主要采用CHARLS數(shù)據(jù),該數(shù)據(jù)是一項具有全國代表性的中老年人縱向調(diào)查,包括對社區(qū)居民的社會、經(jīng)濟和健康狀況的評估。由于生物標記物信息僅在CHARLS2011和2015年中存在,因此本文主要基于這兩期數(shù)據(jù)對我國中老年人適應(yīng)負荷的機會不平等進行測度。此外,CHARLS2014年生命歷程調(diào)查數(shù)據(jù)提供了豐富的有關(guān)兒時的人口、社會和經(jīng)濟變量。本文進一步將2011年和2015年數(shù)據(jù)進行合并,并與2014年生命歷程調(diào)查數(shù)據(jù)相匹配,以便將受訪者的健康指標信息與兒時環(huán)境變量相聯(lián)系。類似地,本文運用CHARLS2011、2013、2015、2018年數(shù)據(jù)中的自評健康,并與2014年生命歷程調(diào)查數(shù)據(jù)進行合并,最終獲得受訪者自評健康與兒時環(huán)境變量的基礎(chǔ)數(shù)據(jù)庫。在此基礎(chǔ)上,剔除存在缺失值的個體,獲得適應(yīng)負荷和自評健康的樣本量分別為6940個和21831個。基于T檢驗結(jié)果,研究樣本中的絕大多數(shù)變量與其全樣本的均值不存在顯著差異,進而排除樣本選擇偏誤問題。
在健康的度量中,與丁蘭琳等和達維亞(Davillas)等的研究相似[6,21],本文構(gòu)建一種綜合的健康測度指標,即適應(yīng)負荷,它引入腰高比、收縮壓和六種生物標志物(糖化血紅蛋白、膽固醇比率、甘油三酯、C反應(yīng)蛋白、白細胞數(shù)和肌酐)。相較于自評健康,適應(yīng)負荷不僅基于臨床和血樣指標,有效地避免了自評健康的報告偏誤問題,而且能夠捕捉到與社會和環(huán)境壓力相關(guān)的慢性生理反應(yīng)[23]。借鑒達維亞和瓊斯的研究[21],本文將生物標志物指標轉(zhuǎn)化為標準差單位,并將其加總后獲得適應(yīng)負荷得分,其數(shù)值越高表明個體的健康狀況越差。同時,本文也引入自評健康作為健康的主觀測量指標。健康指標的詳細定義見表1。
如表2所示,在2011—2015年期間,本文所采用的生物標記物如糖化血紅蛋白、甘油三酯、C反應(yīng)蛋白和肌酐的均值都有明顯增加,這意味著我國中老年慢性病狀況在惡化。而自評健康的均值從2011年的3-7905上升至2015年的3-7945。由于自評健康數(shù)值越高表明健康狀況越差,因此,這反映出受訪者健康水平在2011—2015年期間在不斷惡化。但在2018年均值顯著下降至2-9479,這可能由自評健康的報告誤差所致。
遵循現(xiàn)有文獻的做法[6],同時考慮數(shù)據(jù)的可獲性,本文選取七大類影響健康的環(huán)境變量,具體包括人口學(xué)特征、兒時社會經(jīng)濟條件、父母健康及行為、兒時健康條件及醫(yī)療可及性、人際關(guān)系、出生地區(qū)和戰(zhàn)爭,共計31個環(huán)境變量受篇幅限制,具體環(huán)境變量分類、定義及操作化過程未展示,如感興趣可向作者索取。
2.健康機會不平等的測度
本文參照羅默的機會平等理論框架[2]對健康機會不平等進行測度,具體的健康決定方程設(shè)定如下:
yi=h(Ci,Ei(Ci,vi),ui)(1)
其中,個體i的健康水平受到兩大因素影響,即個體無法控制的環(huán)境因素Ci和個體可以控制的努力因素Ei。其中vi與ui為誤差項。在事前機會不平等中,我們假設(shè)環(huán)境不受努力影響,而努力受到環(huán)境的影響。當所有人取得的成果只與其付出的努力相關(guān),即付出相同努力就會取得相同的回報時,機會平等就完全得以實現(xiàn)。因而,我們只考察環(huán)境因素對健康的影響。故在機會不平等的估計中,上述公式(1)可以改寫為:
yi=h(Ci,ui)(2)
我們進一步假設(shè)健康決定方程為線性且可加的,則得到如下公式:
yi=αCi+εi(3)
使用OLS估計方法對上式進行估計得到y(tǒng)^i,由于所有的解釋變量均為環(huán)境變量,所以使用測度不平等的函數(shù)I(·)即可算出健康機會不平等絕對值。參照已有研究[26],本文使用平均對數(shù)偏差(meanlogarithmicdeviation,MLD)作為健康不平等的測度函數(shù)I(·),這主要是考慮到在度量健康機會不平等的過程中,平均對數(shù)偏差具有良好的路徑獨立性,而且考慮到本文所選取的基于生物標記物的健康指標多為定比變量,因此平均對數(shù)偏差更為適合。健康機會不平等的絕對水平可以用以下公式表示:
θa=I(y^i)(4)
類似地,對健康水平的實際值yi進行估計,并求得與θa的比值即為健康機會不平等的相對值,該值介于0到1之間,公式如下:
θr=I(y^i)I(yi)(5)
3.條件推斷樹與條件森林
(1)條件推斷樹。在機會不平等的測度中,通常使用條件推斷樹進行擬合。與一般的回歸樹和分類樹使用方差、準確率或交叉熵等作為分類標準不同,條件推斷樹采用置換檢驗的p值來對自變量進行分類。在使用條件推斷樹估計式(2)的過程中,自變量為Ci={C1i,C2i,…,Cpi},因變量為yi={y1i,y2i,…,yNi}。通過對Ci分類可以將樣本分成不相重疊的組G={g1,g2,…,gM},對同一組內(nèi)所有樣本條件推斷樹的估計值y^i即為每一個組所有樣本yi的均值[7]。具體包括四個主要步驟:第一步,設(shè)定假設(shè)檢驗的顯著性水平α。第二步,檢驗因變量的無條件分布與基于自變量的條件分布是否相同,H0:D(yi|cji)=D(yi),并對檢驗結(jié)果的p值進行Bonferroni修正。第三步,若p≤α,則選取第二步中p值最小的變量cki進行分類,從該變量所有可選的分類點中選取p值最小的分類點;若p>α,則退出算法。最后,重復(fù)第一至第三步,直至算法結(jié)束。
(2)條件森林。由于條件推斷樹對樣本根節(jié)點切分使用的變量相對敏感,因此,本文進一步引入條件森林,該方法通過選取部分變量生成一定數(shù)量的條件推斷樹,每棵樹的生成算法如上述第一步至第四步所示,預(yù)測時將所有樹的預(yù)測結(jié)果進行平均,并使用最小袋外誤差(outofbagerror)來進行參數(shù)迭代,從而在一定程度上優(yōu)化單個決策樹存在的問題[27]。
遵循既有研究的做法[27],本文使用適應(yīng)負荷樣本對條件推斷樹進行參數(shù)優(yōu)化,當分割標準的顯著性p值為0-05時,條件推斷樹的均方誤差最小。對于條件森林,本文參照布魯諾里等的模擬分析結(jié)果[7],使用參數(shù)、非參數(shù)以及參數(shù)和非參數(shù)混合三種數(shù)據(jù)生成規(guī)則,隨著條件森林中決策樹數(shù)量的增加,模型的均方誤差逐漸減小。而且,當在決策樹數(shù)量達到200后,均方誤差減小速度顯著下降并趨于平穩(wěn)。因而考慮到環(huán)境變量與未觀測到的努力變量可能存在相關(guān)性,以及條件森林模型可能導(dǎo)致過度擬合,本文選擇決策樹個數(shù)為200和顯著性p值為0-01的條件森林。
線性回歸方法、條件推斷樹與條件森林三種方法的擬合能力存在差異。相較于線性模型,后兩種方法實現(xiàn)了非線性回歸,其將變量間的交互作用考慮在內(nèi),進而提升了模型的擬合能力。三種方法的變量重要性結(jié)果也存在差異,線性回歸具有變量間的“對稱性”,即單個變量的取值變化不會影響其他變量對于模型預(yù)測結(jié)果的貢獻大小。而后兩種方法不具有變量間的“對稱性”,主要通過對樣本進行逐步切分來進行模型訓(xùn)練,因而越是優(yōu)先作為條件推斷樹分類標準的變量取值發(fā)生變化,其對模型預(yù)測結(jié)果的影響越大。與條件推斷樹相比,條件森林方法通過選取部分變量生成決策樹后取平均的方法,避免了單個條件推斷樹可能產(chǎn)生的過擬合問題,具有更好的穩(wěn)健性和可推廣性。
4.變量重要性的測量方法
本文采用置換變量重要性和Shapley值分解方法來對造成健康機會不平等的主要環(huán)境變量及其類型進行分解并計算其相對貢獻大小。置換變量重要性主要通過計算在一個變量隨機置換后,模型預(yù)測誤差的增加百分比來衡量變量對模型預(yù)測能力的重要程度。參照布瑞曼(Breiman)的方法,如果置換該變量的取值會增加模型誤差,則該變量是“重要的”,表明模型依賴于該變量進行預(yù)測[28]。置換變量重要性一般用于比較不同變量重要性的序數(shù)關(guān)系,同時由于這一方法可以適用于任何回歸模型,且計算復(fù)雜度較低,因而被廣泛應(yīng)用于機器學(xué)習(xí)方法的相關(guān)研究中。
已有關(guān)于機會不平等測度的文獻往往采用Shapley值分解作為計算環(huán)境變量對于機會不平等相對貢獻大小的方法[29]。為了對健康機會不平等進行全分解,文獻往往使用基于機會不平等絕對值的分解方法,即計算在所有變量排列組合中,是否包含某個或某組變量對機會不平等絕對值的貢獻值,從而計算出某個或某組變量的相對貢獻大小。然而,在使用Shapley值分解方法精確計算每個環(huán)境變量的重要性時,若有k個變量,需要精確計算2k種排列組合,每次計算都需要重新對模型進行訓(xùn)練。同時基于Shapley值分解方法本身的性質(zhì),若在計算某組變量相對重要性的情形下,該組變量的重要性與基于該組中每個變量計算出的重要性之和不完全相等,則主要歸因于未觀察到組內(nèi)每個環(huán)境變量與所有其他變量的交互作用,進而產(chǎn)生一定的估算誤差。此外,由于條件森林模型計算復(fù)雜度遠遠高于線性回歸,為了統(tǒng)一進行變量重要性的比較。
本文使用基于預(yù)測均值與敏感性分析的Shapley值分解方法計算出每個變量的相對重要性,并使用偏依賴圖方法量化各個環(huán)境變量對健康影響的平均邊際效應(yīng)。
四、實證結(jié)果與分析
本文使用線性回歸、條件推斷樹、條件森林三種方法,對適應(yīng)負荷和自評健康的機會不平等分別進行測度。對于適應(yīng)負荷,線性回歸、條件推斷樹與條件森林三種方法測度出的機會不平等的絕對值分別為0-0005、0-0006與0-0003,相對值分別為5-63%、7-76%與3-21%(見表3PanelA),這一結(jié)果與使用適應(yīng)負荷的已有研究結(jié)論一致[6]。從模型的擬合水平來看,條件森林的擬合優(yōu)度最高,R2為0-0421,其次為線性回歸(0-025),最后是條件推斷樹(0-0192)。對于自評健康,上述三種方法得出的機會不平等的絕對值分別為0-0005、0-0006與0-0003,相對值分別為6-82%、10-44%與5-15%
(見表3PanelB)。從模型的擬合水平來看,條件森林的擬合優(yōu)度最高(0-1160),其次為線性回歸(0-0808),最后是條件推斷樹(0-0514),這可能是由于相較于線性回歸方法,條件森林方法尚未對所估計的函數(shù)形式進行限定,進而能夠捕捉到環(huán)境變量與健康之間的非線性關(guān)系。表3的估計結(jié)果進一步表明,相較于適應(yīng)負荷,自評健康的機會不平等較高。這一研究結(jié)果與已有健康不平等的研究結(jié)論保持一致,即基于自評健康的不平等相較于客觀健康的不平等往往造成高估[30]。
2.不同環(huán)境變量類型的重要性
為了識別不同環(huán)境變量類型對于健康機會不平等的重要性,本文使用置換變量和Shapley值分解兩種方法來識別不同環(huán)境變量類型的重要性(見表4)。對于適應(yīng)負荷(見表4PanelA),基于置換變量方法的結(jié)果表明,線性回歸中最重要的三類環(huán)境變量分別為人口學(xué)特征(性別和年齡)、出生地區(qū)/省份和兒時社會經(jīng)濟條件。而條件推斷樹結(jié)果中處于前三的環(huán)境變量類型分別為人口學(xué)特征、兒時社會經(jīng)濟條件和戰(zhàn)爭。最后,對于條件森林結(jié)果,人口學(xué)特征、兒時社會經(jīng)濟條件和出生地區(qū)/省份為最重要的三類環(huán)境變量類型。由此可見,人口學(xué)特征和兒時社會經(jīng)濟條件始終是導(dǎo)致健康機會不平等的重要因素。這一研究發(fā)現(xiàn)與現(xiàn)有研究的結(jié)論保持一致[6]。針對單個條件推斷樹在適應(yīng)負荷的樣本中,僅依賴其最重要的三種環(huán)境變量類型中的變量進行預(yù)測,因而其他環(huán)境變量類型的置換變量重要性結(jié)果均為1。
Shapley值分解結(jié)果表明,線性回歸中前三位最重要的環(huán)境變量類型分別為出生地區(qū)/省份(36-39%)、人口學(xué)特征(25-18%)和兒時社會經(jīng)濟條件(16-20%)。對于條件推斷樹結(jié)果,人口學(xué)特征(71-85%)、兒時社會經(jīng)濟條件(16-38%)和戰(zhàn)爭(11-77%)為最重要的三種環(huán)境變量類型。針對條件森林的結(jié)果,人口學(xué)特征(30-77%)、兒時社會經(jīng)濟條件(26-89%)和出生地區(qū)/省份(16-51%)是影響健康機會不平等的三大重要誘因。
運用兩種變量重要性計算方法所得到的環(huán)境變量類型的相對重要性在三種健康機會不平等測度方法中結(jié)果基本一致,且主要環(huán)境變量在不同模型結(jié)構(gòu)中均具有相近的變量重要性,說明對于環(huán)境變量重要性的測度具有穩(wěn)健性。進一步地,與線性回歸結(jié)果中出生地區(qū)/省份是最重要的環(huán)境類型不同,兩種基于機器學(xué)習(xí)的估計結(jié)果表明,人口學(xué)特征與兒時社會經(jīng)濟條件是影響我國中老年人適應(yīng)負荷的兩大主要因素,而出生地區(qū)/省份次之。此外,與置換變量方法相比,Shapley值分解結(jié)果更為直觀,因為它不僅考慮到不同環(huán)境變量間的交互作用,而且能夠計算出變量重要性的相對貢獻大小。
表4PanelB展示了自評健康的環(huán)境變量類型重要性。當運用置換變量重要性方法時,線性回歸結(jié)果表明,前三位最重要的環(huán)境變量類型分別為人口學(xué)特征、戰(zhàn)爭和兒時社會經(jīng)濟條件。而對于條件推斷樹結(jié)果而言,兒時健康條件、出生地區(qū)/省份和兒時社會經(jīng)濟條件為影響自評健康機會不平等的三大重要因素。類似地,條件森林的結(jié)果顯示,兒時社會經(jīng)濟條件、出生地區(qū)/省份和兒時健康條件是最重要的三大誘因。
進一步地,使用Shapley分解方法,線性回歸中前三位最重要的環(huán)境變量類型分別為出生地區(qū)/省份(28-29%)、兒時社會經(jīng)濟條件(20-78%)和人口學(xué)特征(18-64%)。條件推斷樹結(jié)果顯示,兒時社會經(jīng)濟條件(29-02%)、兒時健康條件(26-79%)和出生地區(qū)/省份(19-73%)占據(jù)前三位。條件森林的結(jié)果表明,兒時社會經(jīng)濟條件(30-73%)、出生地區(qū)/省份(21-18%)和兒時健康條件(18-59%)為最重要的三大環(huán)境變量類型。
對適應(yīng)負荷和自評健康的結(jié)果進行比較,我們發(fā)現(xiàn),無論是置換變量重要性排序還是Shapley值分解,人口學(xué)特征和兒時社會經(jīng)濟條件均是造成健康機會不平等的兩大誘因。進一步地,對于適應(yīng)負荷的機會不平等而言,人口學(xué)特征是最重要的環(huán)境變量類型,而對于自評健康的機會不平等而言,兒時社會經(jīng)濟條件是最重要的。
3.單個變量重要性與平均邊際效應(yīng)
考慮到Shapley值分解的相對優(yōu)勢,后面將主要采用該方法對單個環(huán)境變量的相對重要性進行分析,如表5所示。為節(jié)省空間,這里主要展示重要性排名前十位的環(huán)境變量及平均邊際效應(yīng)。
對于適應(yīng)負荷(見表5PanelA),三種回歸結(jié)果均顯示,人口學(xué)特征中的年齡是造成適應(yīng)負荷機會不平等的最重要因素,且其平均邊際效應(yīng)為正。具體地,年齡每增加一歲使得適應(yīng)負荷平均增加約0-457(條件森林)至0-845(線性回歸)。由于適應(yīng)負荷的數(shù)值越大表明健康狀況越差,因此隨著年齡的增長,中老年人健康狀況逐漸惡化。此外,性別在條件推斷樹與條件森林中重要性位居第二。在上述三種方法中,除年齡之外,出生省份對于線性回歸方法重要性較高,這一結(jié)果與已有基于線性回歸方法計算健康機會不平等的研究結(jié)論保持一致[6]。
對于自評健康而言(見表5PanelB),基于三種健康機會不平等的測算方法,我們發(fā)現(xiàn),針對線性回歸結(jié)果,年齡是導(dǎo)致自評健康機會不平等的重要誘因,其次是兒時健康狀況。然而,相較于線性回歸結(jié)果,條件推斷樹和條件森林的結(jié)果均顯示兒時健康狀況是造成自評健康機會不平等的最重要因素。邊際效應(yīng)結(jié)果進一步表明,良好的兒時健康狀況對我國中老年人的健康具有一定的促進作用。另外,參照奧帕利娜(Oparina)等對于不同測度結(jié)果相似性的對比方法[31],本文計算三種測度方法在Shapley值分解重要性的Spearmanrank系數(shù)(見表6)。不同方法間變量重要性的相關(guān)系數(shù)均較高且在1%的水平上顯著(除針對適應(yīng)負荷的線性回歸與條件推斷樹在5%的水平上顯著外),這一結(jié)果表明三種健康機會不平等的測算方法所得到的變量重要性結(jié)果具有較高的一致性。
五、穩(wěn)健性檢驗
1.基于其他健康指標的機會不平等估計
(1)單個客觀健康指標。單個的客觀健康指標不僅有助于我們捕捉到不同維度的健康狀況(詳見表1),而且能夠檢驗主分析結(jié)果的穩(wěn)健性?;诖耍疚牟捎?個客觀臨床指標和6個生物標記物重新測算健康機會不平等。線性回歸結(jié)果表明,健康機會不平等的相對水平介于3-1%(C反應(yīng)蛋白)至31-1%(肌酐)之間。C反應(yīng)蛋白的機會不平等相對水平較小,該結(jié)果與現(xiàn)有研究保持一致,這主要是因為C反應(yīng)蛋白的取值在健康和不健康人群中變化較大,導(dǎo)致其絕對水平過高進而使得最終的相對水平較低[6]。而肌酐的機會不平等相對水平較高,這一結(jié)果可能是由于肌酐的正常值標準(男性0-7—1-3mg/dL,女性0-5—1-0mg/dL)存在性別差異。這一結(jié)果與已有研究結(jié)論是一致的。比如,丁蘭琳等也發(fā)現(xiàn)我國中老年人健康機會不平等的相對水平介于2%(C反應(yīng)蛋白)至24%(肌酐)之間[6]。此外,基于條件推斷樹和條件森林的健康機會不平等的相對水平分別介于2-2%至34-0%和2-1%至20-9%之間受篇幅限制,單個客觀健康指標的健康機會不平等檢驗結(jié)果備索。
更為重要的是,針對三種估計方法的解釋力大小,不論使用哪一個客觀臨床指標或者生物標記物指標,估計結(jié)果均一致地表明,條件森林的擬合水平最高,而線性回歸次之,最后是條件推斷樹方法,這與表3中的主要結(jié)論保持一致。相較于線性回歸和條件推斷樹,條件森林的擬合水平提高可能是基于以下兩個主要原因:首先,條件森林方法可以觀察到解釋變量與被解釋變量間的非線性關(guān)系,以及解釋變量間的交互作用;其次,條件森林在條件推斷樹的基礎(chǔ)上通過最小化袋外誤差生成,較單個條件推斷樹具有更好的穩(wěn)健性和可推廣性。
(2)慢性疾病和失能。由于生物標記物信息的樣本僅限于2011年和2015年,為進一步深入研究健康機會不平等以及各環(huán)境因素的相對貢獻,本文選取2011—2018年患慢性疾病情況和失能作為兩個健康指標進行分析。具體地,本文根據(jù)CHARLS問卷中針對受訪者被診斷出的慢性疾病個數(shù)的問題定義老年人慢性疾病的個數(shù),分為0、1和2種及以上的慢性疾病。此外,本文從日常生活自理能力和工具性日常生活自理能力測度我國老年人的失能狀態(tài)。其中,日常生活自理能力(ADL)包括6項指標,分別為穿衣、洗澡、吃飯、上下床、如廁和控制大小便。工具性日常生活自理能力(IADL)包括5項指標,分別為做家務(wù)、做飯、購物、吃藥、管理財務(wù)。因此,失能變量共包含11項指標。按照老年人在完成各指標所涉及的活動中存在困難的數(shù)量,將失能變量定義為一個三分類變量:各項活動均不存在困難、1種活動存在困難和2種及以上活動存在困難?;诼约膊『褪艿臏y度結(jié)果與主分析結(jié)果保持一致受篇幅限制,關(guān)于慢性疾病和失能的機會不平等的測度結(jié)果備索。
2.調(diào)整可觀測的環(huán)境變量
由于戰(zhàn)爭環(huán)境變量類型中的抗日戰(zhàn)爭變量與解放戰(zhàn)爭變量均與年齡具有較強的相關(guān)性,出生于抗日或解放戰(zhàn)爭時期的受訪者年齡均已超過60歲。因而,參照丁蘭琳等的做法[6],本文通過去除戰(zhàn)爭這一環(huán)境變量類型來檢驗主分析結(jié)果的穩(wěn)健性。與主分析結(jié)果相比,去除戰(zhàn)爭變量后,對于適應(yīng)負荷樣本,線性回歸、條件推斷樹、條件森林三種方法測度的相對不平等分別下降約0-1%、0-5%、0-2%,對于自評健康,三種方法測度的相對不平等分別下降0-7%、0-6%、0-1%受篇幅限制,三種方法測度的健康指標相對不平等水平未展示,結(jié)果備索。
這一結(jié)果與表5中的主要結(jié)論保持一致。此外,本文也計算了剔除戰(zhàn)爭后單個客觀臨床指標和生物標記物指標,估計結(jié)果也與主分析結(jié)果是一致的。剔除戰(zhàn)爭這一環(huán)境變量類型后,對于適應(yīng)負荷和自評健康,無論采用置換變量重要性還是Shapley值分解,各環(huán)境變量類型的重要性排序與主分析結(jié)果一致受篇幅限制,各環(huán)境變量類型重要性排序結(jié)果備索。
此外,不同方法中適應(yīng)負荷和自評健康的變量重要性結(jié)果的Spearmanrank系數(shù)大多較高且顯著。最后,參照已有研究[22],引入個體受教育水平作為成年后的環(huán)境因素進行健康機會不平等的測度,納入受訪者受教育水平的健康機會不平等分析結(jié)果與主分析結(jié)果保持一致。
六、結(jié)論與政策建議
本文采用2011—2018年CHARLS調(diào)查數(shù)據(jù),引入自評健康和適應(yīng)負荷,綜合運用線性回歸以及條件推斷樹和條件森林三種估計方法,對我國45歲及以上中老年人健康的機會不平等進行測度,并識別造成健康的機會不平等的關(guān)鍵環(huán)境因素。本文研究結(jié)果表明,適應(yīng)負荷和自評健康的機會不平等相對值分別介于3-21%—7-76%與5-15%—10-44%之間。對于適應(yīng)負荷,分解結(jié)果進一步表明,人口學(xué)特征、兒時社會經(jīng)濟條件和出生地區(qū)/省份是造成健康機會不平等的主要因素。與線性回歸結(jié)果中出生地區(qū)/省份是最重要因素不同,條件推斷樹和條件森林的估計結(jié)果表明,人口學(xué)特征與兒時社會經(jīng)濟條件是造成健康機會不平等的兩大主要因素。對于自評健康,分解結(jié)果表明兒時社會經(jīng)濟條件、出生地區(qū)/省份、兒時健康條件為造成健康機會不平等主要因素。這一結(jié)果證實了健康機會不平等研究中運用客觀健康指標的重要性。同時,基于條件森林的健康機會不平等測度效果優(yōu)于線性回歸與條件推斷樹。這意味著未來有關(guān)健康機會不平等的研究,除主觀健康指標之外,還需引入客觀的綜合健康指標,同時可以結(jié)合機器學(xué)習(xí)等手段對健康機會不平等進行更為精確的測度[7]。
總的來看,本文所使用的測度方法得到的變量重要性可能會受到方法性質(zhì)本身的影響。在機會不平等的測度上,有兩個方面值得強調(diào):首先,條件森林因其能夠捕捉健康不平等的非線性特征和諸多因素間的交互作用,展現(xiàn)出較強的擬合優(yōu)度。它通過劃分特征空間并集成多個推斷樹來避免選擇性偏差,從而能更準確地反映結(jié)果的變異性,并減少預(yù)測誤差。相比之下,線性回歸和條件推斷樹在解釋性和可視化呈現(xiàn)方面具有優(yōu)勢,前者能提供較為詳盡的統(tǒng)計信息,而后者則直觀地展現(xiàn)了健康不平等的結(jié)構(gòu)特征。其次,在健康機會不平等的分解方面,條件森林為我們提供了一種相對均衡和穩(wěn)健的環(huán)境因素重要性估計,而條件推斷樹強調(diào)了根節(jié)點變量的相對重要性,并基于較少的變量進行預(yù)測。線性回歸可能會因為引入大量的地區(qū)和省份虛擬變量而高估這些分類變量的重要性,而這在條件森林中得到了有效控制??偟膩砜?,三種方法的結(jié)果呈現(xiàn)出一定差異性,因而對三種方法變量重要性的解釋仍需要謹慎,但對于變量重要性的估計仍具有價值。
一般來說環(huán)境變量中重要性越高的變量,越可能與被解釋變量存在因果關(guān)系;對同一樣本,使用多種機會不平等測度方法與變量重要性測度方法得到的重要性較高的變量,更能說明其重要性。以上結(jié)論的政策含義在于,健康的機會不平等是隱藏于健康不平等背后的深層原因,而針對我國中老年人健康機會不平等的綜合評估對于幫助老年人減少健康不平等的公共政策的出臺具有重要的現(xiàn)實意義。本文提出以下對策建議:其一,加強老年人和女性的健康保障??紤]到年齡和性別是造成健康機會不平等的重要因素,未來的政策干預(yù)需更加關(guān)注老年人健康水平監(jiān)測,如提高老年群體多病共治能力,不斷完善老年健康服務(wù)體系,有效地滿足老年人家庭的養(yǎng)老需求。同時,為了促進健康的性別平等,需要建立完善女性全生命周期健康管理模式,如提升“兩癌”篩查的覆蓋面,將HPV疫苗納入醫(yī)?;蚪档徒臃N價格等。
其二,從生命早期階段開始實施健康干預(yù)。關(guān)注兒時社會經(jīng)濟條件和健康條件,如加強嬰幼兒養(yǎng)育照護指導(dǎo),特別是改善居住于經(jīng)濟欠發(fā)達地區(qū)和農(nóng)村地區(qū)兒童的營養(yǎng)狀況及醫(yī)療資源的可及性,促進全生命周期的健康教育等。此外,開展多渠道的健康宣傳,通過普及合理膳食、控制煙酒、加強體育鍛煉和積極參與社會活動等健康的生活方式,提高中老年人的健康意識和健康素養(yǎng),并制定針對特定脆弱性群體如女性及老年人等的健康干預(yù)措施。
其三,推動地區(qū)間的協(xié)調(diào)發(fā)展和醫(yī)療資源與服務(wù)在不同收入群體之間、城鄉(xiāng)之間和不同地區(qū)之間的均等化。由于出生地區(qū)/省份在中老年人健康機會不平等中扮演著重要角色,政策干預(yù)應(yīng)推動各省份及地區(qū)間的協(xié)調(diào)發(fā)展和醫(yī)療資源配置的均等化。
參考文獻:
[1]魯萬波,于翠婷,高宇璇.中老年人健康機會不平等的城鄉(xiāng)分解[J].財經(jīng)科學(xué),2018(3):42-54.
[2]ROEMERJE.Equalityofopportunity[M].Cambridge:HarvardUniversityPress,1998:5-12.
[3]ROEMERJE.Equalityofopportunity:aprogressreport[J].SocialChoiceandWelfare,2002,19(2):455-471.
[4]雷欣,賈亞麗,龔鋒.機會不平等的衡量:參數(shù)測度法的應(yīng)用與改進[J].統(tǒng)計研究,2018(4):73-85.
[5]DUVATB,ODONNELLO,VANDOORSLAERE.DifferentialhealthreportingbyeducationlevelanditsimpactonthemeasurementofhealthinequalitiesamongolderEuropeans[J].InternationalJournalofEpidemiology,2008,37(6):1375-1383.
[6]DINGL,JONESAM,NIEP.ExanteinequalityofopportunityinhealthamongtheelderlyinChina:adistributionaldecompositionanalysisofbiomarkers[J].ReviewofIncomeandWealth,2022,68(4):922-950.
[7]BRUNORIP,HUFEP,MAHLERD.Therootsofinequality:estimatinginequalityofopportunityfromregressiontreesandforests[J].TheScandinavianJournalofEconomics,2023,125:900-932.
[8]RAWLSJ.Atheoryofjustice[M].Cambridge:HarvardUniversityPress,1971:1-560.
[9]DONNIPL,PERAGINEV,PIGNATAROG.Exanteandexpostmeasurementofequalityofopportunityinhealth:anormativedecomposition[J].HealthEconomics,2014,23(2):182-198.
[10]史軍,趙海燕.公平與健康:羅爾斯正義原則的健康倫理意蘊[J].自然辯證法研究,2010(9):84-89.
[11]李紅文,毛新志.論健康公平[J].倫理學(xué)研究,2015(2):90-94.
[12]DIASPR.Inequalityofopportunityinhealth:evidencefromaUKcohortstudy[J].HealthEconomics,2009,18(9):1057-1074.
[13]TRANNOYA,TUBEUFS,JUSOTF,etal.InequalityofopportunitiesinhealthinFrance:afirstpass[J].HealthEconomics,2010,19(8):921-938.
[14]CARRIERIV,JONESAM.Inequalityofopportunityinhealth:adecompositionbasedapproach[J].HealthEconomics,2018,27(12):1981-1995.
[15]CARRIERIV,DAVILLASA,JONESAM.Alatentclassapproachtoinequityinhealthusingbiomarkerdata[J].HealthEconomics,2020,29(7):808-826.
[16]劉波,胡宗義,龔志民.農(nóng)村居民健康差距中的機會不平等——健康指標選擇、模型構(gòu)建與基于CHARLS的實證研究[J].科學(xué)決策,2021(4):39-70.
[17]白春玲,陳東.我國中老年群體健康不平等的早期根源追溯——基于機會不平等的測度與分解[J].人口與經(jīng)濟,2022(2):104-123.
[18]趙廣川.國民健康不平等及其內(nèi)在影響機制、演變過程[J].世界經(jīng)濟文匯,2017(5):55-74.
[19]TRUMBELJE,KONONENKOI.Explainingpredictionmodelsandindividualpredictionswithfeaturecontributions[J].KnowledgeandInformationSystems,2014,41(3):647-665.
[20]聶鵬,林夕力,丁蘭琳.我國老年人健康的事后機會不平等——來自三種機會平等理論的新證據(jù)[J].經(jīng)濟評論,2024(5):1-17.
[21]DAVILLASA,JONESAM.Exanteinequalityofopportunityinhealth,decompositionanddistributionalanalysisofbiomarkers[J].JournalofHealthEconomics,2020,69:e102251.
[22]DAVILLASA,PUDNEYS.Concordanceofhealthstatesincouples:analysisofselfreported,nurseadministeredandbloodbasedbiomarkerdataintheUKUnderstandingSocietyPanel[J].JournalofHealthEconomics,2019,56:87-102.
[23]MCEWENBS.Biomarkersforassessingpopulationandindividualhealthanddiseaserelatedtostressandadaptation[J].Metabolism,2015,64(3):2-10.
[24]CHENW,XIAC,ZHENGR,etal.Disparitiesbyprovince,age,andsexinsitespecificcancerburdenattributableto23potentiallymodifiableriskfactorsinChina:acomparativeriskassessment[J].TheLancetGlobalHealth,2019,7(2):e257-e269.
[25]FERREIRAFH,GIGNOUXJ.Themeasurementofinequalityofopportunity:theoryandanapplicationtoLatinAmerica[J].ReviewofIncomeandWealth,2011,57(4):622-657.
[26]李金葉,郝雄磊.機會不平等的測度:回歸樹模型的應(yīng)用與比較[J].統(tǒng)計與信息論壇,2019(10):3-13.
[27]BREIMANL.Randomforests[J].MachineLearning,2001,45(1):5-32.
[28]劉波,胡宗義,龔志民.中國居民健康差距中的機會不平等[J].經(jīng)濟評論,2020(2):68-85.
[29]NESSONET,ROBINSONJJ.Onthemeasurementofhealthanditseffectonthemeasurementofhealthinequality[J].Economics&HumanBiology,2019,35:207-21.
[30]OPARINAE,KAISERC,GENTILEN,etal.Machinelearninginthepredictionofhumanwellbeing[M].Oxford:UniversityofOxfordPress,2023:1-38.
InequalityofOpportunityinHealthamongtheMiddleagedandElderlyPeople
inChina:NewEvidencefromMachineLearningMethods
NIEPeng,XUBoyang,ZHOUBo,ZHAOFang
(SchoolofEconomicsandFinance,XianJiaotongUniversity,Xian710061,China)
Abstract:WiththecontinuousaccelerationofChinasageingprocess,theissueofhealthinequalityamongtheelderlyhasbecomeincreasinglyprominentandimportant.Drawingondatafrom2011-2018ChinaHealthandRetirementLongitudinalSurvey,thisstudyemploysthreeestimationmethods,namely,linearregression,conditionalinferencetreeandconditionalforest,tomeasuretheinequalityofopportunityinhealthadaptiveloadandselfratedhelth
amongmiddleagedandelderlyadultsaged45andaboveinChina.Italsomeasurestherelativecontributionofeachcircumstancevariabletotheinequalityofopportunityinhealth.Theresultsshowthattherelativevaluesofinequalityofopportunityforallostaticload(selfreportedhealth)rangesfrom3-21%(5-15%)to7-76%(10-44%)respectively.Thedecompositionresultsfurtherindicatethatdemographiccharacteristics(ageandgender)andchildhoodsocioeconomicstatusarethekeycontributorsforinequalityofopportunityinbothallostaticloadandselfreportedhealth.Unlikelinearregressionresultswhereregion/provinceofbirthisthemostimportantfactor,
thetwomachinelearningestimatesshowthatdemographiccharacteristics(ageandgender)andchildhoodsocioeconomicconditionsarethetwomainfactorsaccountingfortheopportunityinequalityofallostaticload.Thispaperprovesthatthehealthopportunityinequalitymeasurementbasedonconditionalforestisbetterthanthetraditionallinearregression.
Thisresultremainsrobustforindividualobjectivehealthindicatorsandtheadjustmentforobservableenvironmentalvariables.
Healthopportunityinequalityis
theunderlyingreasonsbehindhealthinequality,andacomprehensiveevaluationofhealthinequalityformiddleagedandelderlypeopleinChinaisofgreatpracticalsignificancefortheintroductionofeffectivepublicpoliciestoreducehealthinequalitiesfortheelderly.
Keywords:inequalityofopportunityinhealth;Shapleyvaluedecomposition;conditionalinferencetree;conditionalforest
[責(zé)任編輯武玉]