趙曉兵,王偉偉
(浙江財(cái)經(jīng)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,浙江 杭州 310018)
商業(yè)醫(yī)療保險(xiǎn)是社會(huì)醫(yī)療保障體系最主要的補(bǔ)充支柱。在社會(huì)醫(yī)療保險(xiǎn)中,醫(yī)療費(fèi)用的評(píng)估非常重要,但是由于醫(yī)療費(fèi)用數(shù)據(jù)分布的特殊性[1],例如費(fèi)用數(shù)據(jù)往往呈偏態(tài)分布;醫(yī)療費(fèi)用和保險(xiǎn)者的生存時(shí)間有密切的聯(lián)系;由于有刪失和死亡事件的發(fā)生,導(dǎo)致患者的醫(yī)療費(fèi)用在這兩種情況下是不相互獨(dú)立的;還有部分投保者在一定時(shí)間內(nèi)沒有費(fèi)用的發(fā)生等等。這些都給醫(yī)療費(fèi)用的評(píng)估帶來了很大的挑戰(zhàn)。在國外,已經(jīng)有大量文獻(xiàn)定量研究醫(yī)療費(fèi)用,提出了許多精確刻畫醫(yī)療費(fèi)用的一些統(tǒng)計(jì)模型和方法。在醫(yī)療費(fèi)用中普遍使用的方法包括數(shù)據(jù)變換方法[2][3][4]、廣義線性模型方法[5][6]、混合參數(shù)分布模型方法[7][8][9]、混合效應(yīng)模型方法[10]等等。Mihaylova(2010)[11]針對此問題有過專門研究,在這些方法中尤其以數(shù)據(jù)變換方法和廣義線性模型最為常用。
廣義線性模型是目前醫(yī)療費(fèi)用分析中比較普遍的一種方法。然而,廣義線性模型總是假定聯(lián)系函數(shù)是一個(gè)已知函數(shù),而這個(gè)已知函數(shù)的選擇需要專業(yè)知識(shí)。另外,廣義線性模型總是基于低維附加信息進(jìn)行統(tǒng)計(jì)分析,當(dāng)含有所有高維協(xié)變量的時(shí)候,傳統(tǒng)的廣義線性模型不再適用。隨著生物技術(shù)的大力發(fā)展,基因表達(dá)(gene expression)和單核苷酸多態(tài)性(single nucleotide olymorphism-SNP)分析等的出現(xiàn),使得新類型的數(shù)據(jù)往往含有大范圍的附加信息,即所謂的“高維協(xié)變量”。
針對現(xiàn)有醫(yī)療費(fèi)用評(píng)估方法中存在的局限性,本文將Lin(2003)[6]的模型延伸到可以允許含有高維附加信息的醫(yī)療費(fèi)用評(píng)估模型,然后提出一個(gè)新的評(píng)估方法,從而更準(zhǔn)確地評(píng)估醫(yī)療費(fèi)用。該模型有兩個(gè)特點(diǎn):一是可以允許高維附加信息的存在,二是假設(shè)聯(lián)系函數(shù)總是未知的。最后通過模擬和實(shí)例分析來評(píng)價(jià)我們提議的模型和方法。
假設(shè)因變量Yi(i=1,2,…n)為醫(yī)療保險(xiǎn)賠付金額,解釋變量Xi1,Xi2,…,Xip為影響醫(yī)療保險(xiǎn)賠付的風(fēng)險(xiǎn)因子。對上述醫(yī)療費(fèi)用數(shù)據(jù),Lin(2003)[6]提出了如下模型:
其中Xi=(Xi1,Xi1,…Xip)T,β=(β1,β2…βp)T,并且假設(shè)聯(lián)系函數(shù)g是已知的。
然而此模型也存在如下的局限性:一是我們總是將協(xié)變量定義為低維協(xié)變量;二是在該模型中,聯(lián)系函數(shù)g總是被完全參數(shù)化,這樣就使模型缺乏一般性和靈活性。
基于該模型存在的不足,在本文中,我們將其做進(jìn)一步延伸:即我們允許聯(lián)系函數(shù)g完全非參數(shù)化,協(xié)變量Xi可以是高維協(xié)變量。具體地講,我們提議如下的多指標(biāo)模型:
其中的聯(lián)系函數(shù)g可以完全未知,附加信息Xi的維數(shù)可以是高維的,這種情況在醫(yī)療費(fèi)用中很常見,例如伴隨著費(fèi)用的信息有年齡、性別、病種、住院醫(yī)院的級(jí)別等等多達(dá)30個(gè)信息(見后面的實(shí)例分析),這些信息都會(huì)對醫(yī)療費(fèi)用的發(fā)生產(chǎn)生影響。就目前文獻(xiàn)中的方法而言,研究者往往根據(jù)自己的經(jīng)驗(yàn)挑選幾個(gè)變量作為附加信息,而這樣的做法很容易遺漏一些重要變量。因此,最近以來,充分降維方法被廣泛使用在該類數(shù)據(jù)分析中,其最大的優(yōu)點(diǎn)在于:一是不需要假設(shè)因變量和自變量的具體分布形式;二是不同于主成分分析等,在充分降維過程中考慮到了響應(yīng)變量的因素;三是不同于變量選擇方法去挑選某些變量,而是尋找變量的若干個(gè)線性組合。這些優(yōu)點(diǎn)使得充分降維成為目前處理高維數(shù)據(jù)的熱點(diǎn)和有力工具。
有鑒于此,我們把醫(yī)療保險(xiǎn)費(fèi)用賠付表示成為一個(gè)標(biāo)準(zhǔn)的回歸模型:
其中 E [εi] =0,εi與 Xi1,Xi2,…Xip相互獨(dú)立。
就上述模型而言,為了避免所謂的“維數(shù)禍根”,首要任務(wù)就是對高維協(xié)變量Xi進(jìn)行降維,本文中,我們將利用充分降維(sufficient dimension reduction)方法尋找協(xié)變量的d個(gè)線性組合XTiβ1,如果d?p,就達(dá)到我們對協(xié)變量降維的目的。此時(shí)我們的模型可以簡化為如下的多指標(biāo)模型:
注意到在模型(3)中g(shù)是p-元函數(shù),而在(4)中是d-元函數(shù),在不至于引起混淆的情況下,我們?nèi)詫⑵溆洖楹瘮?shù)g。
本文就是在模型(4)基礎(chǔ)上,首先獲得協(xié)變量的中心降維子空間的維數(shù)和基方向,然后再利用局部回歸方法對完全非參數(shù)化的聯(lián)系函數(shù)g進(jìn)行估計(jì)。
本文將利用充分降維方法對協(xié)變量進(jìn)行降維,充分降維方法的重要特點(diǎn)是通過尋找變量的線性組合從而達(dá)到降維的目的。這種降維方法不需要任何參數(shù)模型,且不損失任何分布的信息。從統(tǒng)計(jì)理論的角度講,其描述如下:
令Y表示響應(yīng)變量(可以是多維的),X為P×1維協(xié)變量向量。充分降維方法就是要在?P上尋找一個(gè)最小子空間S,S滿足:
其中,⊥表示Y和X條件獨(dú)立,PS表示關(guān)于內(nèi)積的投影算子。滿足這個(gè)條件的子空間我們稱之為降維子空間。在最小子空間的條件下,我們將該子空間稱為中心降維子空間(CDR)。以后我們將該CDR子空間記為SY|X。我們假定空間SY|X總是存在的,并且SY|X的維數(shù)d為Y關(guān)于X回歸時(shí)的結(jié)構(gòu)維數(shù)。
SY|X包括了Y|X所有的回歸信息。在充分降維方法中有很多估計(jì)SY|X的方法,其中切片逆回歸(SIR)[12]是目前較為常用與方便的使用方法。本文將使用修訂的切片逆回歸方法(MSIR)[13],我們將Y劃分成一定數(shù)目的相互不重疊的間隔,其中每一部分稱之為切片。取每一部分X的平均作為E(X|Y)的估計(jì)。下面我們利用MSIR求出SY|X。
首先要構(gòu)造一個(gè)p×h的矩陣B=(β1,β2,…,βh),
我們可以得到βk的如下估計(jì),即:
為了估計(jì)結(jié)構(gòu)維數(shù)d=dim(SX|Y),我們采用Zhu,Miao,and Peng(2000)[14]提出的BIC方法:我們令的特征值,κ表示中大于1的特征值的數(shù)目。則d的估計(jì)為使下式最大化時(shí)的m的值:
其中,m∈{0,1,…,p-1}。另外在上式中Cn是懲罰因子。通常我們將Cn=Op(na)。在本文實(shí)例分析中,我們將a=0.1。
在降維的基礎(chǔ)上,對聯(lián)系函數(shù)g應(yīng)用局部回歸方法對其進(jìn)行估計(jì)。本文考慮的回歸模型為:
假定其樣本數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn)為獨(dú)立同分布的隨機(jī)向量。其中Yi為響應(yīng)變量,Xi為d維協(xié)變量。首先將未知函數(shù)g(Xi)在點(diǎn)x處展開成q階Taylor展示如下(本文假設(shè)
將其帶入回歸模型(4),由下式可以得到我們需要的估計(jì):
其中β=(β1,…,βd)T,H為d×d維的實(shí)正定矩陣,K(·)是d維變量的核,其中∫K(u)du=1,KH(u)=|H|-1/2K(H-1/2u)。我們稱H-1/2為帶寬矩陣,它是我們常用的帶寬參數(shù)的多元擴(kuò)展。則上式的解為:
其中:
利用模型Y=sin(βTX)+(βTX+2)2+ε產(chǎn)生400個(gè)數(shù)據(jù)點(diǎn),其中X維數(shù)p=10,d=1,β=(1,1,1,1,0,…,0)T,X中的每一變量和ε獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布。在此模型中,任意和β成比例的向量均為其中心降維子空間。下表我們給出利用MSIR方法得到的^β的均值與方差,該模擬進(jìn)行了100次。
利用MSIR降維我們得到估計(jì)的結(jié)構(gòu)維數(shù)d=1,在下表中,我們可以看出利用SIR的估計(jì)效果是非常好的,且對切片數(shù)的選取不敏感,我們切片分別為5,10,15。其均值很接近標(biāo)準(zhǔn)化的β。
表1 的均值與方差
表1 的均值與方差
15 0.4624 0.1298 0.4469 0.1161 0.4784 0.1124 0.4706 0.1118 0.0145 0.1220-0.0182 0.1237-0.0005 0.1209 0.0016 0.1176 0.0043 0.1136-0.0232 0.1213
在降維的基礎(chǔ)上,我們利用局部回歸方法估計(jì)回歸函數(shù),其估計(jì)曲線連同散點(diǎn)圖列在圖1中。在上述估計(jì)中,我們把帶寬選為核函數(shù)由下面曲線可以看出,局部回歸對數(shù)據(jù)點(diǎn)進(jìn)行了很好的擬合。
圖1 估計(jì)曲線與散點(diǎn)圖
利用MSIR降維我們得到估計(jì)的d=2,利用估計(jì)的β^與真實(shí)的β的相關(guān)系數(shù)R2(β)來評(píng)級(jí)估計(jì)的貼近程度,R2越接近1我們的估計(jì)效果越好。由下表可以看出MSIR方法得到的結(jié)果非常好,我們切片分別選為5,10,15。
表2 降維得到^β與真實(shí)值β之間的相關(guān)系數(shù)
在降維的基礎(chǔ)上,我們也可以利用局部回歸方法給出回歸曲線的估計(jì)。同樣的,我們把帶寬選為h,核函數(shù)選為均勻核由圖形①如需要圖像,可向作者索要??梢钥闯鼍植炕貧w估計(jì)對該散點(diǎn)圖進(jìn)行了很好的擬合。
本文根據(jù)2008年某商業(yè)保險(xiǎn)公司在上海和四川兩地推廣的一個(gè)醫(yī)療保險(xiǎn)產(chǎn)品的理賠數(shù)據(jù),研究醫(yī)療損失對影響因素的響應(yīng)關(guān)系。仇春涓(2012)[15]挑選了若干設(shè)計(jì)變量,利用廣義線性模型分析了上述數(shù)據(jù)。正如前面敘述的一樣,本文利用模型(4)再次分析該組數(shù)據(jù),通過尋找變量的若干線性組合達(dá)到降維的目的。
這里簡單描述一下數(shù)據(jù)的結(jié)構(gòu),其中因變量是一份醫(yī)療保險(xiǎn)合同在一個(gè)固定保險(xiǎn)期內(nèi)的最終賠款額。影響因素為所有可能的變量,一共30個(gè)變量。我們主要介紹幾個(gè)比較重要的變量:
(1)被保險(xiǎn)人所在的地區(qū)(0表示四川地區(qū),1表示上海地區(qū));
(2)被保險(xiǎn)人性別(0表示男性,1表示女性);
(3)險(xiǎn)種保障檔次(1,2,3三個(gè)檔次,一檔的限額最低,三檔的限額最高);
(4)被保險(xiǎn)人年齡:以歲數(shù)為單位;
(5)醫(yī)院級(jí)別(1,2,3三級(jí)別,0表示未分級(jí));
(6)住院天數(shù);
(7)案件意外代碼(0表示案件非意外發(fā)生,1表示案件意外發(fā)生)。
為了消除變量量綱的差異,我們標(biāo)準(zhǔn)化了所有協(xié)變量。利用MSIR方法對協(xié)變量進(jìn)行降維,得到估計(jì)的結(jié)構(gòu)維數(shù)d=1和中心降維子空間的基方向^β,^β的值見下表。
表3 基方向^β的值
從而得到協(xié)變量的線性組合XTβ,在該線性組合中,對應(yīng)變量影響較大的變量主要有:被保險(xiǎn)人地區(qū)、險(xiǎn)種保障檔次、性別、醫(yī)院級(jí)別、案件是否意外發(fā)生。在降維的基礎(chǔ)上,我們利用局部回歸估計(jì)得到聯(lián)系函數(shù)g(x)的估計(jì)。在分析該組數(shù)據(jù)中,我們選取帶寬為h=2.34*,其中n為樣本數(shù)據(jù)個(gè)數(shù)。核函數(shù)選為K(u)=(1-u2),-1≤u≤1。g(x)的估計(jì)曲線列在圖2中,從圖2中,我們可以看出x與y之間近似單調(diào)遞減的關(guān)系。
圖2 估計(jì)曲線
通過基方向和回歸曲線的估計(jì),我們可以得出以下結(jié)論:
(1)地區(qū),0表示四川,1表示上海。在降維得到的線性組合中,地區(qū)的系數(shù)為-0.0655,由圖像我們可知,相同的險(xiǎn)種在上海的賠付要比在四川的賠付高。商業(yè)醫(yī)療保險(xiǎn)在賠付上的差異產(chǎn)生了地區(qū)的不公平性,這點(diǎn)和仇春涓(2012)[15]的分析相吻合。
(2)險(xiǎn)種的保障檔次,分為1,2,3級(jí)。在降維得到的線性組合中,其系數(shù)為-0.9363,說明險(xiǎn)種的保障檔次對保險(xiǎn)的賠付額的影響尤其明顯。保險(xiǎn)檔次越高,賠付額越高,這點(diǎn)和仇春涓(2012)[15]的分析是一致的。
(3)被保險(xiǎn)的性別,0表示男性,1表示女性。在降維得到的線性組合中,性別的系數(shù)為-0.1512,我們得出女性在保險(xiǎn)賠付中要比男性的賠付高。這一點(diǎn)與仇春涓(2012)[15]的結(jié)論不一致。仇春涓(2012)[15]得出的結(jié)論為性別對醫(yī)療保險(xiǎn)的賠付無顯著影響。
(4)年齡,年齡的系數(shù)為0.0001,其對保險(xiǎn)賠付的影響很小。這點(diǎn)和仇春涓(2012)[15]的結(jié)論相吻合。一般來說,我們都認(rèn)為年齡是影響醫(yī)療費(fèi)用的一個(gè)非常重要的因素,但由數(shù)據(jù)我們可以看出,我們研究的對象年齡都是60歲以下的,低齡兒童在投保人群中占很大比重沒有涉及到60歲以上的老年人群,所以年齡因素的影響不顯著。
(5)醫(yī)院級(jí)別,分為1,2,3級(jí)別,0表示未分級(jí)。醫(yī)院級(jí)別的系數(shù)為-0.3061,醫(yī)院級(jí)別越高,賠付的金額越高。醫(yī)院級(jí)別越高,醫(yī)院的功能、設(shè)施、技術(shù)力量等綜合水平越高,患者的住院費(fèi)用也就越高,從而醫(yī)療保險(xiǎn)的賠付額越高,這點(diǎn)和仇春涓(2012)[15]的結(jié)論相吻合。
(6)住院天數(shù)。住院天數(shù)的系數(shù)為-0.0092,住院天數(shù)越長,醫(yī)療保險(xiǎn)的賠付越高。然而住院天數(shù)對賠付額的影響并不十分顯著。這和仇春涓(2012)[15]的結(jié)論不一致。仇春涓(2012)[15]認(rèn)為住院天數(shù)是影響醫(yī)療保險(xiǎn)賠付非常重要的因素。理論上,住院天數(shù)越長,醫(yī)療費(fèi)用越高,保險(xiǎn)賠付越高。然而,醫(yī)院的級(jí)別,是否手術(shù),是否放射等因素對住院費(fèi)用也有很大的影響,使得住院天數(shù)對醫(yī)療保險(xiǎn)賠付的影響并不是那么顯著。
(7)案件意外代碼,0表示案件非意外發(fā)生,1表示案件意外發(fā)生。其系數(shù)為0.0492,表明案件意外發(fā)生時(shí),保險(xiǎn)賠付額小于案件非意外發(fā)生時(shí)的賠付額。該變量在文獻(xiàn) [15]中并未考慮。其他變量也可以依次分析,在此不再一一列出分析結(jié)果。
在本文中,我們對傳統(tǒng)模型進(jìn)行了改進(jìn),將Lin(2003)[6]醫(yī)療費(fèi)用模型中的聯(lián)系函數(shù)非參數(shù)化,這使得該模型更具一般性和更大的靈活性,該模型也允許有高維協(xié)變量的存在。我們采用兩步估計(jì)的方法來估計(jì)模型參數(shù),首先利用MSIR對高維的協(xié)變量進(jìn)行降維,在得到中心降維子空間的基方向和結(jié)構(gòu)維數(shù)后,利用局部回歸去估計(jì)完全未知的回歸函數(shù)。該模型和方法提供了一個(gè)處理含有高維協(xié)變量的醫(yī)療費(fèi)用數(shù)據(jù)的一種有效選擇。在本論文中,我們主要研究醫(yī)療費(fèi)用的具體金額,而沒有考慮醫(yī)療保險(xiǎn)索賠次數(shù)的分布等問題,這將是我們以后要繼續(xù)研究的問題。
感謝華東師范大學(xué)金融與統(tǒng)計(jì)學(xué)院仇春涓博士提供了第五節(jié)中的數(shù)據(jù)。
[1]Xiaobing Zhao,Xian Zhou.Estimation of Medical Costs by Copula Models with Dynamic Change of Health Status[J].Insurance:Mathematics and Economics,2012,Vol(51):480-491.
[2]Mullahy,J..Much Ado about Two:Reconsidering Retransformation and Two-part Model in Health Econometrics [J].Journal of Health Economics,1998,Vol(17):247-281.
[3]Manning,W.G.and Mullahy,J..Estimating Log Models:to Transform or Not to Transform? [J].Journal of Health Economics,2001,Vol(20):461-494.
[4]Ettner,S.L.,F(xiàn)rank,R.G.,McGuire,T.G.,Newhouse,J.P.and Notman,E.H.Risk Adjustment of Mental Health and Substance Abuse Payments[J].Inquiry,1998,Vol(35):223-239.
[5]D.Y.Lin.Linear Regression Analysis of Censored Medical Costs.Biostatistics[J].Biostatistics,2001,Vol(1):35-47.
[6]D.Y.Lin.Regression Analysis of Incomplete Medical Cost Data[J].Statistics in Medicine,2003,Vol(22):1181-1200.
[7]Nixon,R.M.,Thompson,S.G..Parametric Modeling of Cost Data in Medical Studies[J].Statistics in Medicine,2004,Vol(23):1311-1331.
[8]Zhou,X.H..Estimation of the Log-normal Mean [J].Statistics in Medicine,1998,Vol(17):2251-2264.
[9]Briggs,A.,Nixon,R.,Dixon,S..Parametric Modeling of Cost Data:Some Simulation Evidence [J].Health Economics,2005,Vol(14):421-428.
[10]Lin,D.Y.,F(xiàn)euer,E.J.,Etzioni,R.,Wax,Y..Estimating Medical Costs from Incomplete Follow-up Data [J].Biometrics,1997,Vol(53):419-434.
[11]Mihaylova,B.;Briggs,A.;O'Hagan,A.and Thompson S.G.Review of Statistical Methods for Analyzing Healthcare Resource and Costs[J].Health Economics.2011,Vol(20):897-916.
[12]K.C.Li.Sliced Inverse Regression for Dimension Reduction(with discussion)[J].Journal of the American Statistical Association,1991,Vol(86):316-327.
[13]Wenbin Lu,Lexin Li.Sufficient Dimension Reduction for Censored Regressions[J].Biometrics.2011,Vol(67):513-523.
[14]Zhu,L.X.,Miao,B.,and Peng,H.On Sliced Inverse Regression with Large Dimensional Covariates[J].Journal of the American Statistical Association,2006,Vol(101):630-643.
[15]仇春涓,陳滔.商業(yè)醫(yī)療保險(xiǎn)損失分析:基于廣義線性模型的實(shí)證研究[J].應(yīng)用概率統(tǒng)計(jì),2012,(28):389-399.