孫 榮,張?zhí)煊?/p>
作為壽險(xiǎn)精算基礎(chǔ)的壽命表是最早應(yīng)用處理壽命數(shù)據(jù)的一種統(tǒng)計(jì)分析工具,它的使用可追溯到300多年前。由于人口統(tǒng)計(jì)學(xué)的發(fā)展,特別是人壽保險(xiǎn)數(shù)學(xué)的發(fā)展,壽命數(shù)據(jù)的分析逐漸采用現(xiàn)代統(tǒng)計(jì)理論和方法,包括參數(shù)統(tǒng)計(jì)與非參數(shù)統(tǒng)計(jì)的方法。一般的壽命數(shù)據(jù)與統(tǒng)計(jì)中通常使用的隨機(jī)樣本有很大區(qū)別。壽命數(shù)據(jù)往往是不完全數(shù)據(jù),即并不是每一個(gè)觀測(cè)到的值都是確切的壽命值,某些數(shù)據(jù)可能只表示相應(yīng)個(gè)體的壽命不小于該數(shù)值,而并不知道其確切壽命的數(shù)值,這樣的數(shù)據(jù)稱為截尾數(shù)據(jù)。在保險(xiǎn)實(shí)務(wù)中,截尾數(shù)據(jù)的出現(xiàn)不可避免,比如:壽險(xiǎn)模型中投保人提前退保就會(huì)導(dǎo)致被保險(xiǎn)人的實(shí)際壽命出現(xiàn)截尾。截尾數(shù)據(jù)可分為三種類型,前兩種分別是定時(shí)截尾和定數(shù)截尾,這兩種截尾決定截尾發(fā)生的參數(shù)是確定的,而第三種截尾稱為隨機(jī)截尾,即截尾時(shí)間本身是一個(gè)隨機(jī)變量[5][6]。對(duì)隨機(jī)截尾數(shù)據(jù)回歸函數(shù)m(X)=E[Y|X]的估計(jì)方法主要有三種:線性回歸模型、非參數(shù)回歸模型、半?yún)?shù)部分線性回歸模型。在文獻(xiàn)[5]中闡述了局部線性回歸、加權(quán)局部線性回歸等非參數(shù)方法。
Fan and Gijbels(1994,1995,1996),胡舒合(1995),王啟華(1996),楊善朝(1999),Jangjiang ch eng、Chengbo and Wuxizhi(2002),Ghou ch Anouar EL and Keillegom,Ingrid Van(2008),Zohra Guessoum and Elias Ould Said(2010)等對(duì)隨機(jī)截尾數(shù)據(jù)回歸函數(shù)的核估計(jì)進(jìn)行了討論。廖靖宇、薛留根(2007)對(duì)隨機(jī)截尾下回歸函數(shù)最近鄰估計(jì)的強(qiáng)收斂速度進(jìn)行了分析,Zhou yong、Zhulixing(1998)提出了一種近鄰估計(jì),并對(duì)這種估計(jì)的強(qiáng)收斂性進(jìn)行了分析,由此可見,對(duì)于隨機(jī)截尾非參數(shù)回歸估計(jì),運(yùn)用核估計(jì)方法分析的多,運(yùn)用最近鄰估計(jì)分析的相對(duì)較少,對(duì)于核估計(jì)而言,需要考慮核函數(shù)的確定,窗寬的選擇等問題,而最近鄰估計(jì)不涉及這樣的問題,更加適用,故本文對(duì)保險(xiǎn)模型中的壽命數(shù)據(jù)在隨機(jī)右截尾假定下,運(yùn)用bagged最近鄰估計(jì)與kn-最近鄰估計(jì)方法進(jìn)行隨機(jī)設(shè)計(jì)的非參數(shù)回歸估計(jì),并對(duì)估計(jì)通過隨機(jī)模擬方法進(jìn)行精度檢驗(yàn)。
假定(Xn(1),…Xn(kn))代表x的第kn個(gè)最近鄰(本文‖·‖取 Euclid模,‖v‖s=(∑vsni)1s),其中 Xn(1)代表最接近x。YRi代表 Xn(i)對(duì)應(yīng)的Y,kn-最近鄰估計(jì)為:
bagged最近鄰估計(jì)是將Breinman 1996年提出的bagging(boots tr ap aggregating)原則與1-最近鄰估計(jì)相結(jié)合而產(chǎn)生的一種估計(jì)方法[1][2]。Friedman and Hall(2000)[1],Bu?hlmann and Yu(2002)[9],Hall
and Samwor th(2005),Buja and Stuetzle(2006),Biau and Deveroye(2008)[2]對(duì) bagging(boots tr ap aggregating)在估計(jì)與分類等方面的理論與相關(guān)方法進(jìn)行了論述。
k表示每次再抽樣的樣本容量,是n的函數(shù)。令:
在不重復(fù)抽樣條件下,vni=P(x的第i個(gè)最近鄰在一次隨機(jī)抽樣中成為x的第一個(gè)最近鄰),則bagged最近鄰估計(jì)應(yīng)為:
本文設(shè)Y1,Y2,…Yn表示非負(fù)獨(dú)立同分布的保險(xiǎn)模型中個(gè)體壽命隨機(jī)變量。其分布為F,C1,C2,…Cn表示非負(fù)獨(dú)立表示截尾的隨機(jī)變量,具有分布為G。,類似可定義TG,約定c為與n無關(guān)的常數(shù),且每次出現(xiàn)可能表示不同的常數(shù)。假定Ci與Yi相互獨(dú)立,在隨機(jī)右截尾模型中,Y1,Y2,…Yn不能夠被完全觀測(cè),而僅能夠觀測(cè)到:
當(dāng)G已知時(shí):令
則由[5]可知:E(Y?i|Xi)=E(Yi|Xi)=m(Xi)
故認(rèn)為:Y?i=m(Xi)+εi
其中:Xi是 p維協(xié)變量隨機(jī)向量,εi是相互獨(dú)立隨機(jī)誤差序列滿足E[εi|Xi]=0,
故:隨機(jī)右截尾的m(x)的bagged最近鄰估計(jì)為:
隨機(jī)右截尾的m(x)的kn-最近鄰估計(jì)為:
當(dāng)G未知時(shí):令
令:Y?i=δiZi/1-Gn(Zi)
隨機(jī)右截尾的m(x)的bagged最近鄰估計(jì)為:
隨機(jī)右截尾的m(x)的kn-最近鄰估計(jì)為:
式(5)(6)(7)(8)中Y?Ri與Y?Ri代表與 X(i)n排序相對(duì)應(yīng)。
文獻(xiàn)[1][2]中分別對(duì)完全數(shù)據(jù)的bagged最近鄰估計(jì)的2階收斂速度進(jìn)行了分析,本文主要運(yùn)用[3]中ε相對(duì)[4]寬松的矩條件得到了隨機(jī)右截尾的bagged最近鄰估計(jì)與kn-最近鄰估計(jì)的逐點(diǎn)收斂速度。
假定:(1)X、m有界,m滿足Lip sch itz條件,即?x∈U(x';δ) |m(x)-m(x')|≤M | x-x'|
(4)E‖ε‖r<∞ 當(dāng)Borel-Cantelli
引理1[4].設(shè)F、G連續(xù),TF<TG≤∞,則:
若Y 有界,且TF<TG≤∞ ,T≥a a.s.(a為某實(shí)數(shù))則對(duì):?n≥1
若Y 有界,則對(duì):?n≥1
基于模擬數(shù)據(jù)的考慮,在假設(shè)為一元模型條件下對(duì)隨機(jī)右截尾的bagged最近鄰估計(jì)與kn-最近鄰估計(jì)的擬和精度進(jìn)行分析。
假設(shè)某隨機(jī)右截尾的保險(xiǎn)模型個(gè)體壽命Yi=30+60X2i(1-Xi)+εi
其中:Xi~U[0,1] εi~N[0,1],Ci~U[30,50]
運(yùn)用MatlabR2009a進(jìn)行隨機(jī)模擬,步驟:
(1)生成樣本為 n=100,((2.1)kn=21,(2.2)k=80)滿足如下分布條件的三個(gè)隨機(jī)序列:
Xi~U[0,1]εi~N[0,1],Ci~U[30,50]
(2)分別計(jì)算與每個(gè)Xi最近的21個(gè)Xj(j≠i)
(3)生 成 kn( n-k+1)個(gè) Xj(j≠i)序 列=30+60(1-Xj)+εj
(4)根據(jù)(2.3)生成 Zj=min(Yj,Cj)
(5)根據(jù)(2.4)計(jì)算Y?j=δjZj/1-G(Zj)
(6)分別根據(jù)(2.5)(2.6)計(jì)算每個(gè)Xi的m(xi)的兩種最近鄰估計(jì)
(7)分別重復(fù)上述過程100、200次,計(jì)算兩種估計(jì)的相對(duì)誤差 Δ1i= | Yi-m?1(xi)|/| Yi| 、Δ2i= | Yi-m?2(xi)|/| Yi| )、平均相對(duì)誤差與總平均相對(duì)誤差
表1 重復(fù)100、200次的估計(jì)相對(duì)誤差表
圖1 bagged最近鄰估計(jì)擬合圖:n=100 c=10,k=80 Δˉ=6.984×10-4
[1]G.Biau,F.C'erou,A.Guyader.On the Rate of Convergence of the Bagged Nearest Neighbor Estimate[R].French,INRIA,2009.
[2]Biau,G.,Devroye,L.On the Layered Nearest Neighbour Estimate,the Bagged Nearest Neighbour Estimate and the Random Forest Method in Regression and Classification[R].French,Universit'e Pierre et Ma?rie Curie,2008.
[3]Heng Lian.Convergence of Functional K-nearest Neighbor Regres?sion Estimate with Functional Responses[J].Electronic Journal of Sta?tistics,2011,(5).
[4]Luc Deveroye.On the Almost Everywhere Convergenceof Nonparamet?ric Regression Function Estimates[J].The Annals of Statistics,1981,(9).
[5]王啟華.生存數(shù)據(jù)統(tǒng)計(jì)分析[M].北京:科學(xué)出版社,2006.
[6]劉力平.生存數(shù)據(jù)分析的統(tǒng)計(jì)方法[M].北京:中國(guó)統(tǒng)計(jì)出版社,1998.
[7]謝志剛,韓天雄.風(fēng)險(xiǎn)理論與非壽險(xiǎn)精算[M].天津:南開大學(xué)出版社,2000,(9)
[8]Sanjeev R.Kulkarni,Steven E.Posner.Rates of Convergence of Nearest Neighbor Estimation under Arbitrary Sampling[J].IEEE Tranaction on Information Theory,1995,(41).
[9]B¨uhlmann,P.,Yu,B.Analyzing Bagging[J].The Annals of Statistics,2002,(30).
[10]胡舒合.截尾數(shù)據(jù)的非參數(shù)回歸函數(shù)的核估計(jì)[J].數(shù)學(xué)物理學(xué)報(bào),1995,(15).
[11]J.Fan,I.Gijbels.Local Polynomial Modeling and its Application[M].London:St Edmundsbury Press,1996.