一、引言
商業(yè)健康保險(xiǎn)是我國(guó)建立和發(fā)展多層次醫(yī)療保障體系的重要內(nèi)容,而以報(bào)銷住院費(fèi)用為保險(xiǎn)標(biāo)的的保險(xiǎn)形式是商業(yè)健康保險(xiǎn)中最常見(jiàn)的形式之一。而在設(shè)計(jì)醫(yī)療保險(xiǎn)產(chǎn)品時(shí),風(fēng)險(xiǎn)分析和評(píng)估一直是必須考慮的問(wèn)題之一。在許多情況下,由于種種條件的限制,只能搜集到少量的樣本,即小樣本。如保險(xiǎn)中的豁免數(shù)據(jù),健康險(xiǎn)中的各種重大疾病患病情況數(shù)據(jù)等等。因此在數(shù)據(jù)缺乏的基礎(chǔ)之上,如何充分利用有限的樣本點(diǎn)來(lái)較精確的估計(jì)每次住院費(fèi)用的分布對(duì)于商業(yè)健康保險(xiǎn)產(chǎn)品的費(fèi)用厘定有著重要的意義。
概率密度的核估計(jì)方法自Rosenblatt(1955年)和Parsen(1962年)提出以來(lái),由于其優(yōu)良的統(tǒng)計(jì)特性和使用簡(jiǎn)便而迅速發(fā)展起來(lái)。核估計(jì)方法具有較參數(shù)估計(jì)方法適用范圍廣,較直方圖方法估計(jì)精確且光滑性好等特點(diǎn)。運(yùn)用核估計(jì)方法處理大樣本信息,是統(tǒng)計(jì)學(xué)中常用的一種手段。但核估計(jì)方法來(lái)處理、解決、分析保險(xiǎn)精算中小樣本信息,在國(guó)內(nèi)鮮見(jiàn)報(bào)道、登載。本文將核估計(jì)方法用于一個(gè)實(shí)際項(xiàng)目的研究,解決了一維小樣本問(wèn)題。
該項(xiàng)目的數(shù)據(jù)資料為某市參加基本醫(yī)療保險(xiǎn)的366363位20歲以上參保職工在2000年7月到2001年6月一年間共27365次住院的費(fèi)用記錄,其中男性14370人次,女性13265人次。本文通過(guò)利用核估計(jì)方法、信息擴(kuò)散方法、信息擴(kuò)散的參數(shù)優(yōu)化方法對(duì)每次住院費(fèi)用的年齡分布密度進(jìn)行了估計(jì)(由于篇幅有限,本文只以女性20-40歲的住院費(fèi)用為例),其具體做法是:1.利用核估計(jì)方法處理的大樣本結(jié)果作為檢驗(yàn)標(biāo)準(zhǔn)(以前是以直方圖方法處理的大樣本結(jié)果作為檢驗(yàn)標(biāo)準(zhǔn))2.利用核估計(jì)方法和信息擴(kuò)散方法同時(shí)處理小樣本問(wèn)題,并將結(jié)果加以比較,說(shuō)明信息擴(kuò)散方法處理小樣本問(wèn)題的有效性3、引入兩個(gè)準(zhǔn)則,建立優(yōu)化模型,結(jié)果比較理想。
二、數(shù)學(xué)模型
1.核估計(jì)的定義和窗寬的選擇
設(shè)Y1,Y2……Yn是隨機(jī)變量的簡(jiǎn)單隨機(jī)子樣,f(y)是Y的概率密度函數(shù),K(·)為上一個(gè)給定的概率密度函數(shù),hn>0是一個(gè)與n有關(guān)的常數(shù),記
fn(y)=fn(y;Y1,Y2,…Yn)=1nhn∑ni=1k(y-Yihn)
則稱fn為總體未知密度函數(shù)f的一個(gè)核估計(jì),稱K(·)為核函數(shù),稱hn為窗寬。
核估計(jì)方法得到的概率密度函數(shù)不僅和樣本有關(guān),還與核函數(shù)的選擇以及窗寬的選擇有關(guān)。本文選取標(biāo)準(zhǔn)正態(tài)密度函數(shù)為核函數(shù),選取窗寬hn=CQn15。
2.信息擴(kuò)散方法定義
在上述定義和選擇的基礎(chǔ)上,本文相關(guān)的信息擴(kuò)散方法定義為:
定義1 設(shè)V是知識(shí)樣本,W是基礎(chǔ)論域,所謂關(guān)于V的一種信息擴(kuò)散,就是V×W到[0,1]上的一個(gè)映射:μ:V×W→[0,1],且滿足下列三個(gè)條件:(1)vj∈V,如wj是vj的觀測(cè)值,則μ(vj,wj)=supw∈Wμ(v,wj);(2)vj∈V,μ(vj,wj)隨||wj-w||數(shù)值的增加而遞減;(3)v∈V,∫wμ(v,w)dw=1其中,如W為離散情形,∫W表示∑W。
定義2擴(kuò)散的范圍被定義為歐幾里得距離R。如果R是有限的(無(wú)限的),就稱為有限維(無(wú)限維)信息擴(kuò)散。
3.信息擴(kuò)散方法的參數(shù)優(yōu)化問(wèn)題
信息擴(kuò)散的性質(zhì)不僅依賴于給定的樣本,也與參數(shù)λ的選擇有密切的關(guān)系。隨著參數(shù)λ的變化,從幾何上講會(huì)引起曲線或曲面的波動(dòng)的增加或減小,因此通過(guò)優(yōu)化參數(shù)λ對(duì)擴(kuò)散函數(shù)進(jìn)行改進(jìn),這是本文一個(gè)重要工作之一。其原則是既要從一定程度上反映給定樣本的性質(zhì),
同時(shí)又希望曲線或曲面的波動(dòng)性盡量的小。為此,建立如下準(zhǔn)則:
準(zhǔn)則1:最小波動(dòng)準(zhǔn)則 信息擴(kuò)散函數(shù)參數(shù)的選擇應(yīng)該使患病率曲線(面)波動(dòng)最小。數(shù)學(xué)表達(dá)式為:F(λ)=∫ba2pλw22dw
準(zhǔn)則2:有限偏離度準(zhǔn)則 信息擴(kuò)散所得到的患病率偏離給定樣本不遠(yuǎn)。該準(zhǔn)則作為約束條件,衡量方法是借鑒圖形相似的判別方法,其數(shù)學(xué)表達(dá)式為:
C(λ)=∑i(fiO*fid(λ))(∑i(fiO)2∑i(fid(λ))2)12
其中f0i表示原始小樣本在給定子域Ωi上的住院費(fèi)用對(duì)數(shù)的頻數(shù),fdi(λ)表示經(jīng)過(guò)信息擴(kuò)散后得到的住院費(fèi)用對(duì)數(shù)的頻數(shù)。則信息擴(kuò)散的優(yōu)化參數(shù)模型為minF(λ);s.t.C(λ)≥ε,其中ε為相似指數(shù)。
三、項(xiàng)目研究
1.大樣本
將住院費(fèi)用數(shù)據(jù)按性別和年齡段分成12組,分別為20-29歲,30-39歲,40-49歲,50-59歲,60-69歲,70歲以上。對(duì)住院費(fèi)用取取核函數(shù)K(x)=12πe-x22,分性別和年齡用核估計(jì)方法對(duì)住院費(fèi)用進(jìn)行分析,其結(jié)果如下(僅以女性20-39歲的住院費(fèi)用為例):
圖1 女性20-29歲及30-39歲住院費(fèi)用對(duì)數(shù)的核密度函數(shù)曲線(大樣本)
圖2 女性20-29歲及30-39歲住院費(fèi)用對(duì)數(shù)的核密度函數(shù)曲線(不含生育)(大樣本)
從以上圖形可以看出,利用核估計(jì)方法得到的密度函數(shù)曲線較好的保持了其核函數(shù)的連續(xù)性、光滑性和對(duì)稱性。
對(duì)于女性20-29歲的情況,可以發(fā)現(xiàn)這個(gè)年齡段的密度曲線有著明顯的雙峰,而且費(fèi)用較小的那個(gè)峰特別的高。根據(jù)圖2,分析其原因可能有以下兩點(diǎn):(1)處于該年齡段的許多女性由于生育或生育相關(guān)原因而發(fā)生住院;(2)生育住院費(fèi)用的分布和非生育住院費(fèi)用的分布是有區(qū)別的。整體而言,生育住院的費(fèi)用比非生育住院的費(fèi)用要小得多。
而女性30-39歲年齡段也因?yàn)樯≡旱脑蚨袃蓚€(gè)峰,只不過(guò)這個(gè)年齡段的生育比例相對(duì)較小,故沒(méi)有20-29歲年齡段表現(xiàn)的那么明顯。
2.小樣本
(1)核估計(jì)方法
我們采用隨機(jī)抽樣的方法,根據(jù)性別和年齡段分別從不同的一維大樣本中抽取105條數(shù)據(jù),在每一個(gè)子區(qū)間,平均只有7個(gè)樣本點(diǎn),因此該數(shù)據(jù)可作為小樣本。對(duì)于該樣本,采用核估計(jì)方法計(jì)算分性別和年齡段的住院費(fèi)用對(duì)數(shù)的分布情況。取核函數(shù)K(x)=12πe-x22。
(2)信息擴(kuò)散方法
控制點(diǎn)集為w={wi=0.5+i,i=0.1,Λ,14},其中wi代表某個(gè)年齡段的住院費(fèi)用對(duì)數(shù),控制點(diǎn)間距為δ=1。取一維信息擴(kuò)散函數(shù)μ(w,v)=e-(w-v)22,將每個(gè)記錄的信息從樣本點(diǎn)擴(kuò)散到全空間,得到控制點(diǎn)wi處的某個(gè)年齡段住院費(fèi)用對(duì)數(shù)的密度函數(shù)f(wi)。
(3)信息擴(kuò)散方法的參數(shù)優(yōu)化
上面我們將參數(shù)λ設(shè)定為2,存在著一定的主觀性。信息擴(kuò)散的性質(zhì)不僅依賴于給定的樣本,也與參數(shù)λ的選擇有密切的關(guān)系。參數(shù)λ決定了信息擴(kuò)散函數(shù)的“胖”與“瘦”,即控制信息擴(kuò)散的程度。從另一個(gè)角度講,它體現(xiàn)了我們對(duì)信息點(diǎn)影響范圍及程度的度量。如前面所述,本文根據(jù)兩個(gè)準(zhǔn)則“有限波動(dòng)準(zhǔn)則”和“最小偏離度準(zhǔn)則”,得到了信息擴(kuò)散參數(shù)優(yōu)化的具體結(jié)果如下。
圖3 核估計(jì)方法、信息擴(kuò)散方法、優(yōu)化信息擴(kuò)散方法比較
(KER,ker:利用核估計(jì)方法處理大、小樣本,UIDM:利用信息擴(kuò)散方法處理小樣本;OIDM代表利用優(yōu)化信息擴(kuò)散方法處理小樣本)
圖4 核估計(jì)方法、信息擴(kuò)散方法、優(yōu)化信息擴(kuò)散方法比較(女性非生育)
從圖3、4可以看出利用核估計(jì)方法處理小樣本問(wèn)題,無(wú)論生育還是非生育情況,峰值和峰寬均小于大樣本的情況。且對(duì)于女性20-29歲(不含生育)年齡段,基本沒(méi)有反映出其雙峰的特征。這一切均是由于小樣本信息量不足,一些能夠體現(xiàn)曲線的細(xì)微特征的信息遺失的結(jié)果。但從整體來(lái)講,利用核估計(jì)方法處理該小樣本問(wèn)題是有效的,獲得的兩條住院費(fèi)用對(duì)數(shù)的分布曲線相當(dāng)接近,能夠反映出住院費(fèi)用對(duì)數(shù)的整體分布情況。而信息擴(kuò)散的效果類似于計(jì)算幾何中對(duì)曲線(曲面)的光順,上圖正說(shuō)明了這一點(diǎn),擴(kuò)散所得的峰值較核估計(jì)的低??梢哉f(shuō),信息擴(kuò)散的實(shí)質(zhì)是通過(guò)集值化的手段填補(bǔ)樣本點(diǎn)之間的空隙,從而達(dá)到充分利用信息的目的。即信息擴(kuò)散方法是利用信息的合成避免了信息的局部化,達(dá)到了平均化信息的效果。經(jīng)過(guò)參數(shù)優(yōu)化后,利用信息擴(kuò)散方法處理的小樣本問(wèn)題的住院費(fèi)用對(duì)數(shù)曲線的峰值和峰寬均有所改進(jìn),更加接近作為客觀近似標(biāo)準(zhǔn)的核估計(jì)大樣本情況。
四、結(jié)果分析
為了更加清晰地衡量不同處理方法的有效性,本文引入了“可減少誤差”的概念。若某種估計(jì)方法α的絕對(duì)誤差總和為Pa,另一種估計(jì)方法β的絕對(duì)誤差總和為Pβ(Pa>Pβ),則稱(Pa-Pβ)/Pa為β相對(duì)α的可減少誤差。以下就是以核估計(jì)方法處理大樣本的結(jié)果作為近似的客觀標(biāo)準(zhǔn),其它三種方法與之比較,得到的絕對(duì)誤差和可減少誤差。
表1 誤差結(jié)果比較表
性別女性女性非生育
年齡段20-2930-3920-2930-39
UIDM0.53880.27790.51060.2867
OIDM0.32670.11390.38030.1551
ker0.22700.11220.32370.1230
(UIDM)-137.36-147.68-57.74-133.09
(OIDM)-43.92-1.52-17.49-26.1
(前三行表示絕對(duì)誤差,后兩行表示可減少誤差,(UIDM)、(OIDM)單位為%。)
從上表的數(shù)字可知,對(duì)于該住院費(fèi)用分布問(wèn)題,利用核估計(jì)方法處理小樣本所得結(jié)果比較理想,與大樣本的平均絕對(duì)誤差為0.1539。經(jīng)過(guò)參數(shù)優(yōu)化后,利用信息擴(kuò)散方法處理小樣本問(wèn)題的結(jié)果與大樣本的平均絕對(duì)誤差為0.1694,比未經(jīng)過(guò)參數(shù)優(yōu)化時(shí)總體誤差減少了47.56%,達(dá)到了與核估計(jì)幾乎相同的效果。
(作者單位:華東政法大學(xué)商學(xué)院)
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文