馮 彥 徐 璇 趙曉兵△
·方法介紹·
部分非線性指標(biāo)模型的降維及在醫(yī)療費(fèi)用評估中的應(yīng)用*
馮 彥1徐 璇2趙曉兵2△
分析和研究醫(yī)療費(fèi)用最重要的目的是尋找和確定與醫(yī)療費(fèi)用密切相關(guān)的重要變量,以達(dá)到通過控制這些變量減少醫(yī)療費(fèi)用支出的目的。然而,由于醫(yī)療費(fèi)用數(shù)據(jù)結(jié)構(gòu)復(fù)雜、附加信息(協(xié)變量)的高維、以及醫(yī)療費(fèi)用數(shù)據(jù)往往是嚴(yán)重偏斜、異方差、非正態(tài)等等,給醫(yī)療費(fèi)用的研究帶來了巨大的統(tǒng)計(jì)挑戰(zhàn)。因此,尋找一種創(chuàng)新的統(tǒng)計(jì)建模方法和統(tǒng)計(jì)分析技術(shù)來分析醫(yī)療費(fèi)用顯得非常必要。
就目前已有的文獻(xiàn)而言,對醫(yī)療費(fèi)用的建模主要可分為兩類,一類對于醫(yī)療總體費(fèi)用進(jìn)行建模,另一類是對于縱向醫(yī)療數(shù)據(jù)進(jìn)行建模。其中對于縱向醫(yī)療數(shù)據(jù)分析,很多學(xué)者提出了不少相關(guān)的模型[1],例如,邊際模型[2-3]、馬爾科夫轉(zhuǎn)換模型[4]以及隨機(jī)(固定)效應(yīng)模型[5]等等。近年來,廣義線性模型也引起了很多學(xué)者的廣泛討論[6]。但是,這種方法不能很好地考慮醫(yī)療費(fèi)用的相關(guān)性,并且對與時(shí)間有關(guān)的變量的作用不能夠很好地進(jìn)行解釋[7]。最近,Chen等拓展了經(jīng)典的廣義線性模型[2-3],將一些隨著時(shí)間變化的協(xié)變量通過非線性函數(shù)的形式加到廣義線性模型中,卻仍然假設(shè)該模型中的連接函數(shù)是已知的。
為了使得上述模型更加靈活,最大效率地利用收集到的醫(yī)療費(fèi)用的高維輔助信息,本文嘗試將Chen等的廣義線性模型中的連接函數(shù)放松為未知函數(shù)[3],進(jìn)而提出了“部分非線性指標(biāo)模型”(PNIM)如下:
(1)
對于給定的維數(shù)q,MAVE降維的思想就是通過局部線性光滑技術(shù)同時(shí)估計(jì)參數(shù)和非參數(shù)部分,再比較不同維數(shù)下的回歸函數(shù)的殘差,從而挑選出合適的維數(shù)。該方法極大地提高了對復(fù)雜數(shù)據(jù)的有效維空間的估計(jì)。下面介紹具體參數(shù)βj(j=1,2,…,p)以及非參數(shù)部分g(·)和f(·)的估計(jì)方法和子空間維數(shù)及窗寬的確定方法。
1.降維空間基方向和非參數(shù)部分的估計(jì)
(2)
(3)
文獻(xiàn)[7]指出wij的選擇對降維結(jié)果至關(guān)重要,通常選取
(4)
(5)
(6)
正如Zeger和Liang指出的那樣[7],權(quán)重wij會(huì)依賴于B。本文參照Xia給出兩種權(quán)重的選取[8]:
(1)初始權(quán)重
(7)
(2)精確權(quán)重
(8)
2.降維子空間的維數(shù)及窗寬
3.算法及修正
下面給出利用改進(jìn)的MAVE方法求解的算法:
Step1(基):對于任意q,1≤q≤p,則在q維子空間的基可由下面步驟求出:
(9)
Step2(維數(shù)):求得CV(d),0≤d≤p,找出最小的CV(d)所對應(yīng)的維數(shù)d,由此對應(yīng)的Step1-(3)求出的B即為估計(jì)的子空間的基。
我們采用MATLAB軟件考慮如下兩個(gè)模型的數(shù)值模擬。
情形一:考慮一維的情形q=1,我們利用下面模型來產(chǎn)生樣本
其中,Ti服從[0,1]均勻分布,Xi分兩種情況討論,εi獨(dú)立同分布服從N(0,1)。故此時(shí)模型滿足E[f(T)]=E[1.5sin(2πT)]=0,同時(shí)假設(shè)(X,T)與ε相互獨(dú)立。
下面根據(jù)Xi的兩種分布情況進(jìn)行討論:
情形二:考慮二維情形q=2,β1=(1,0,…,0)∈R10,β2=(0,0,…,1,0)∈R10,此時(shí),我們利用下面模型
表1 推廣的MAVE的數(shù)值模擬結(jié)果
由表1,可以發(fā)現(xiàn)β的估計(jì)值與真值有很高的相關(guān)性。同時(shí)可以發(fā)現(xiàn)本方法對于結(jié)構(gòu)維數(shù)有很好的估計(jì)。第四列顯示,維數(shù)選擇的正確率非常高。與此同時(shí),對非參數(shù)部分g(·)與f(·)的估計(jì)誤差也比較合理。
下面給出對非參數(shù)部分的估計(jì)圖像。圖1至圖6分別為情形一非參數(shù)部分g(·)、f(·)的估計(jì),以及情形二的非參數(shù)部分f(·)在γ=0.2在γ=0.8的估計(jì)。圖中實(shí)線為非參數(shù)部分的真實(shí)曲線,點(diǎn)畫線為其相應(yīng)的估計(jì)曲線,虛線為95%的置信曲線。從圖3~6可以發(fā)現(xiàn),本文提出的估計(jì)方法也能夠很好地估計(jì)出非參數(shù)部分。
圖1 情形一(1)的g(·)的擬合圖
下面針對收集得到的醫(yī)療費(fèi)用縱向數(shù)據(jù)進(jìn)行分析。醫(yī)療費(fèi)用數(shù)據(jù)是美國全國性醫(yī)療衛(wèi)生服務(wù)抽樣調(diào)查得到的,包括受訪者的健康狀況、基本信息、醫(yī)療衛(wèi)生服務(wù)、衛(wèi)生支出、醫(yī)療保險(xiǎn)等信息。通過對這些數(shù)據(jù)分析有助于保險(xiǎn)公司制定方案,也有助于政府制定醫(yī)療政策。
圖2 情形一(1)的f(·)的擬合圖
圖3 情形一(2)的g(·)的擬合圖
圖4 情形一(2)的f(·)的擬合圖
圖5 情形二γ=0.2的f(·)的擬合圖
圖6 情形二γ=0.8的f(·)的擬合圖
本文研究的MEPS(TheMedical Expenditure Panel Survey,MEPS)是2010年全年調(diào)查中老齡化家庭的醫(yī)療數(shù)據(jù),這些家庭的成員年齡都在65歲至84歲之間,總共收集到醫(yī)療數(shù)據(jù)樣本2139個(gè)。通過對醫(yī)療數(shù)據(jù)的簡單分析,醫(yī)療費(fèi)用數(shù)據(jù)往往是高度右偏的,均值很大(9235美元),但是中位數(shù)很小(3955美元)。Chen等在建立模型分析醫(yī)療費(fèi)用數(shù)據(jù)時(shí)[2],只選取了部分協(xié)變量分析,例如性別、種族、疾病等。但是我們發(fā)現(xiàn)收集到的醫(yī)療費(fèi)用數(shù)據(jù)含有大量的信息,擁有大量的協(xié)變量,選取部分協(xié)變量不能全面進(jìn)行醫(yī)療費(fèi)用的分析。因此,本文除了考慮年齡對醫(yī)療費(fèi)用的影響即模型中的f(·),還考慮了14個(gè)協(xié)變量對醫(yī)療費(fèi)用的影響,即種族、性別、死亡、住院情況、心血管疾病、呼吸道疾病、身體運(yùn)動(dòng)障礙、癌癥、糖尿病、家庭成員情況、附加保險(xiǎn)情況、家庭收入等級、醫(yī)療保險(xiǎn)報(bào)銷情況、教育程度。通過建立部分非線性多指標(biāo)模型,充分考慮14個(gè)協(xié)變量以及年齡對醫(yī)療費(fèi)用的影響。
利用本文提議的模型和方法對美國MPES-2010數(shù)據(jù)進(jìn)行分析,根據(jù)CV(q)最小,選出維數(shù)為q=2。從而得到降維子空間的基(即模型(1)中的β1,β2) 見表2。通過表2中列向量數(shù)值的大小和正負(fù),我們發(fā)現(xiàn),“是否住院”的情況對醫(yī)療費(fèi)用的影響最大。此外,死亡、心血管疾病、呼吸道疾病、癌癥、醫(yī)療保險(xiǎn)情況、醫(yī)療報(bào)銷情況都對醫(yī)療費(fèi)用有著較大的影響。
與此同時(shí),我們還得到年齡對醫(yī)療費(fèi)用的影響,如圖7,虛線為年齡對醫(yī)療費(fèi)用的影響估計(jì)曲線,點(diǎn)畫線為95%的置信曲線。
表2 降維子空間(降維結(jié)果)
從圖7可以發(fā)現(xiàn)一開始隨著年齡的增加,醫(yī)療費(fèi)用有所降低,而后在67歲到69歲,醫(yī)療費(fèi)用有著較大的上升;隨后在69到73之間,醫(yī)療費(fèi)用會(huì)隨著年齡的增長在一定的范圍內(nèi)波動(dòng),隨后到74附近達(dá)到一個(gè)小峰值;之后有所下降,在75歲到80歲附近,隨著年齡的增長波動(dòng)向上遞增;然后在81歲到82歲附近醫(yī)療費(fèi)用會(huì)有所下降,隨后醫(yī)療費(fèi)用又隨即快速上升。
圖7 實(shí)例的f(·)估計(jì)圖
[1] 曲藝,吳晶.骨質(zhì)疏松髖部骨折患者醫(yī)療資源使用與醫(yī)療費(fèi)用研究.中國衛(wèi)生統(tǒng)計(jì),2016,33:430-432.
[2] Chen JS,Liu L,Zhang D,et al.A flexible model for the mean and variable functions,with application to medical cost data.Statistics in Medicine,2013,32:4306-4318.
[3] Chen JS,Liu L,Shih,YCT,et al.A flexible model for correlated medical costs with application to medical expenditure panel survey data.Statistics in Medicine,2016,35:883-894.
[4] Castelli C,Combescure C,Foucher Y,et al.Cost-effectivenessanalysis in colorectal cancer using a semi-Markov model.Statistics in Medicine,2007,26:5557-5571.
[5] Liu L.Joint modeling longitudinal semi-continuous data and survival,with application to longitudinal medical cost data.Statistics in Medicine,2009,28:972-986.
[6] Carroll RJ,Fan JQ,Gijbels I,et al.Generalized partially linear single-index models.Journal of the American StatisticalAssociation,1997,92:47-489.
[7] Zeger SL,Liang KY.An overview of methods for the analysis of longitudinal.Statistics in medicine,1992,11:1825-1839.
[8] Xia YC.A multiple-index and dimension reduction.Journal of the American Statistical Association,2008,103:1631-1640.
[9] Xia YC.Hardle W.Semiparametric estimation of partially linear single-index models.Journal of Multivariate Analysis,2006,97:1162-1184.
[10] Kim W,Linton OB,Hengartner NW.A computationally efficient oracle estimator for additive nonparametric regression with bootstrap confidence intervals.Journal of Computational and Graphical Statistics,1999,8:278-297.
國家自然科學(xué)基金資助項(xiàng)目(11271317);浙江省自然科學(xué)基金資助項(xiàng)目(LY16A010007)
1.山西醫(yī)科大學(xué)第一臨床醫(yī)學(xué)院,公共衛(wèi)生學(xué)院,護(hù)理學(xué)院(030001) 2.浙江財(cái)經(jīng)大學(xué)數(shù)據(jù)科學(xué)學(xué)院
△通信作者:趙曉兵,Email:maxbzhao@126.com
張 悅)