孫維偉,張連增
(1.天津理工大學(xué)管理學(xué)院,天津300384;2.南開大學(xué) 金融學(xué)院,天津300350)
基于HLM2的算例分析及其在中國(guó)非壽險(xiǎn)精算中的思考
孫維偉1,張連增2
(1.天津理工大學(xué)管理學(xué)院,天津300384;2.南開大學(xué) 金融學(xué)院,天津300350)
隨著保險(xiǎn)業(yè)務(wù)的拓展和深化,財(cái)產(chǎn)保險(xiǎn)中越來越多地出現(xiàn)具有相關(guān)性和層次性的保險(xiǎn)數(shù)據(jù)。分層線性模型對(duì)此類數(shù)據(jù)的處理能充分地體現(xiàn)在數(shù)據(jù)的分析中,在國(guó)際精算領(lǐng)域中的應(yīng)用處于起步階段。文章分析了分層線性模型具有二層、三層結(jié)構(gòu)的數(shù)據(jù)特點(diǎn),采用線性混合模型和分層線性模型方法,完成了二層結(jié)構(gòu)數(shù)據(jù)的模型構(gòu)建、實(shí)現(xiàn)與比較。
相關(guān)數(shù)據(jù);分層數(shù)據(jù);非壽險(xiǎn)費(fèi)率厘定;線性混合模型;分層線性模型
廣義線性模型(GLM)在諸多國(guó)家的非壽險(xiǎn)定價(jià)實(shí)務(wù)中的長(zhǎng)足發(fā)展,引發(fā)國(guó)內(nèi)外學(xué)者對(duì)其拓展類的研究。Smyth(1989)對(duì)GLM的假設(shè)加以改進(jìn),假定廣義線性模型中的離散參數(shù)不再是常數(shù),其經(jīng)變換后可以表示為解釋變量的線性形式,從而提出了雙廣義線性模型(Double Generalized Linear Models,DGLM)。Hastie和Tibshirani(1990,1993)將非參數(shù)光滑技術(shù)應(yīng)用于指數(shù)散布族分布,并使用非參數(shù)、半?yún)?shù)結(jié)構(gòu)代替GLM中的線性預(yù)測(cè)量,將其擴(kuò)展為廣義可加模型(Generalized Additive Models,GAM)。在統(tǒng)計(jì)學(xué)中為處理有相關(guān)性和層次性的數(shù)據(jù),較早的模型是線性混合模型(Linear Mixed Models,LMM),繼而出現(xiàn)廣義線性混合模型(Generalized Linear Mixed Models,GLMM)、分層廣義線性模型(Hierarchical Linear Mixed Models,HGLM)。這些具有固定效應(yīng)和隨機(jī)效應(yīng)的模型已應(yīng)用于心理學(xué)、教育學(xué)、環(huán)境科學(xué)、生態(tài)學(xué)和社會(huì)學(xué)等多個(gè)領(lǐng)域,而其在保險(xiǎn)領(lǐng)域的應(yīng)用已是當(dāng)前國(guó)際精算理論研究的熱點(diǎn)。
1.1數(shù)據(jù)類型描述
1.1.1相關(guān)數(shù)據(jù)
相關(guān)是指兩個(gè)或兩個(gè)以上變量(兩組或者兩組以上數(shù)據(jù))之間相互關(guān)系的程度或強(qiáng)度[1],按照強(qiáng)度包括完全相關(guān)、高度相關(guān)(強(qiáng)相關(guān))、弱相關(guān)和零相關(guān)四種情況。此外,宏觀經(jīng)濟(jì)中的時(shí)間序列和經(jīng)濟(jì)計(jì)量模型中的隨機(jī)誤差序列常常存在著自相關(guān)。自相關(guān)是相關(guān)關(guān)系的一種,又稱序列相關(guān),原指隨機(jī)變量在時(shí)間上與其滯后項(xiàng)之間的相關(guān),也指回歸模型中隨機(jī)誤差項(xiàng)與其滯后項(xiàng)的相關(guān)。若隨機(jī)項(xiàng)ui存在自相關(guān),則有cov(ui,uj)≠0,(i,j∈T,i≠j)。在非壽險(xiǎn)精算學(xué)中,具有相關(guān)結(jié)構(gòu)的數(shù)據(jù)是很常見的,譬如,同一份保單在多個(gè)投保期內(nèi)的損失數(shù)據(jù)往往具有相關(guān)性。
縱向數(shù)據(jù)、空間聚類數(shù)據(jù)、甚至更一般的聚類數(shù)據(jù)都是存在相關(guān)性從而不滿足獨(dú)立性的數(shù)據(jù)結(jié)構(gòu)的例子??v向數(shù)據(jù)在計(jì)量經(jīng)濟(jì)學(xué)中常被稱為面板數(shù)據(jù),與時(shí)間序列數(shù)據(jù)、截面數(shù)據(jù)構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)三種主要數(shù)據(jù)類型??v向數(shù)據(jù)可以視為時(shí)間序列數(shù)據(jù)與截面數(shù)據(jù)的混合,包含截面和時(shí)間二維特征。例如,投保人往往是連續(xù)多年投保,損失數(shù)據(jù)具有時(shí)間序列特征;同時(shí),由于不同地區(qū)的地理?xiàng)l件等差異,導(dǎo)致各地區(qū)內(nèi)的投保人索賠行為具有地區(qū)差異。隨著大數(shù)據(jù)時(shí)代的發(fā)展,縱向數(shù)據(jù)在非壽險(xiǎn)精算學(xué)中日益增加。
1.1.2分層數(shù)據(jù)
分層數(shù)據(jù)(hierarchical data)最初常見于社會(huì)與行為學(xué)中。所謂分層,也稱階層,是由較低層次觀察數(shù)據(jù)嵌套在較高層次之內(nèi)的數(shù)據(jù)結(jié)構(gòu)所組成。其中,最低層次的測(cè)量稱為微觀層次,其他高層次的測(cè)量則屬于宏觀層次,宏觀層次通常由不同的組別構(gòu)成[2]。個(gè)體處于不同的組(團(tuán)體),有些變量與個(gè)體有關(guān),有些變量與團(tuán)體有關(guān)。例如,學(xué)校收集的學(xué)生資料包含性別、種族、學(xué)習(xí)態(tài)度與家庭環(huán)境等用于描述學(xué)生特征的變量,也可以包含反映學(xué)校特征的變量,如學(xué)校類型和地點(diǎn)等。針對(duì)上述數(shù)據(jù),學(xué)??梢宰鳛楹暧^分析單位,學(xué)生作為微觀分析單位,學(xué)生嵌套于學(xué)校范圍內(nèi),形成一個(gè)具有二層觀測(cè)數(shù)據(jù)的數(shù)據(jù)集。此類二層數(shù)據(jù)結(jié)構(gòu)還可以拓展到三層甚至更多的層級(jí),如學(xué)生嵌套于班級(jí)、學(xué)校、地區(qū)、國(guó)家等。
隨著保險(xiǎn)大數(shù)據(jù)的不斷出現(xiàn),多層次數(shù)據(jù)結(jié)構(gòu)在非壽險(xiǎn)業(yè)務(wù)中日益增多,如費(fèi)率厘定與準(zhǔn)備金評(píng)估中索賠或損失數(shù)據(jù)已經(jīng)出現(xiàn)分層結(jié)構(gòu),對(duì)這些分層數(shù)據(jù)的收集、整理與精準(zhǔn)分析對(duì)保險(xiǎn)市場(chǎng)發(fā)展具有重要的理論與現(xiàn)實(shí)意義。
1.2LMM和HLM的基本理論
1.2.1LMM的基本理論
LMM的發(fā)展歷史可以追溯到1861年,最早出現(xiàn)的形式是單因素隨機(jī)效應(yīng)模型,20世紀(jì)90年代以后成為醫(yī)學(xué)和社會(huì)科學(xué)中廣泛使用的統(tǒng)計(jì)模型,在這些學(xué)科中也被稱為多層次模型(multilevel models)或分層線性模型[3]。假設(shè)要分析的數(shù)據(jù)由N個(gè)對(duì)象的觀測(cè)值組成,第i個(gè)(1≤i≤N)對(duì)象(個(gè)體)的觀測(cè)次數(shù)是ni。Yi=(Yi1,Yi2,…,Yini)′表示第i個(gè)對(duì)象的ni×1維的觀測(cè)向量,LMM可表示為:
1.2.2HLM的基本理論HLM的概念最早由Lindley和Smith(1972)[4]提出,HLM的基本思想在于:在特定的數(shù)據(jù)結(jié)構(gòu)中,模型的某些參數(shù)本身需要建模,依據(jù)數(shù)據(jù)的不同層次設(shè)置不同水平,將回歸系數(shù)進(jìn)行相應(yīng)分解,可以視為“回歸的回歸”。HLM的特點(diǎn)是不需要假設(shè)觀測(cè)數(shù)據(jù)是否相互獨(dú)立,可以同時(shí)對(duì)個(gè)體水平(微觀層次)和組群水平(宏觀層次)的數(shù)據(jù)進(jìn)行分析,把復(fù)雜的問題分解為相互聯(lián)系的各個(gè)組成部分,為科學(xué)研究提供一種新的概念框架。HLM可以有二層、三層、四層甚至更一般結(jié)構(gòu)的發(fā)展模型,更可以拓展為HGLM(Lee和Nelder,1996[5])。本文僅以二層結(jié)構(gòu)的HLM(簡(jiǎn)記為HLM2)為例對(duì)其理論進(jìn)行簡(jiǎn)要分析。
最簡(jiǎn)單的二層結(jié)構(gòu)HLM等價(jià)于帶隨機(jī)效應(yīng)的單因素方差分析,基本形式為[6]:
將β0j的表達(dá)式代入Yij中,得到:
其中,Yij代表被解釋變量,β0j是第一層模型的截距,γ00是第二層模型的截距,隨機(jī)變量rij滿足 E(rij)=0,Var(rij)=σ2,u0j滿足Var(u0j)=τ00。方差σ2代表組內(nèi)變化,方差τ00代表組間變化。組內(nèi)相關(guān)系數(shù)(Intraclass Correlation Coefficient,ICC)定義為[7]:
ICC是指組間方差占總體方差的比例,可以測(cè)量總體變異中由于第二層的差異造成的變異比例。將式(2)進(jìn)行拓展,簡(jiǎn)單的HLM的基本形式包括三個(gè)表達(dá)式:
式(6)中包含以下三類參數(shù):
①固定效應(yīng)γ00和γ10,它們分別是 β0j和 β1j的平均值,在第二層的單位之間是固定的;
②隨機(jī)效應(yīng)u0j和u1j,它們分別是隨機(jī)的第一層系數(shù)β0j和β1j的隨機(jī)成分,代表第二層單位之間的變異;
③方差協(xié)方差成分:
進(jìn)一步地,在回歸系數(shù)中引入被解釋變量,更一般的二層HLM模型可以表示為:
將式(8)中β0j和β1j的表達(dá)式依次代入Yij的表達(dá)式,得到:
此時(shí),Xij表示第一層的解釋變量,rij是第一層的隨機(jī)變量,Wj表示第二層的解釋變量,γ00,…,γ11是第二層的系數(shù)稱為固定效應(yīng),u0j和u1j是第二層的隨機(jī)變量,這里假設(shè):
2.1數(shù)據(jù)來源及說明
非壽險(xiǎn)精算中已經(jīng)出現(xiàn)分層次結(jié)構(gòu)的數(shù)據(jù),然而,經(jīng)調(diào)研表明,中國(guó)保險(xiǎn)業(yè)公開數(shù)據(jù)源(如歷年《中國(guó)保險(xiǎn)年鑒》、保監(jiān)會(huì)官網(wǎng)、各大保險(xiǎn)公司年度報(bào)告)鮮有相關(guān)數(shù)據(jù)類型,中國(guó)各地區(qū)不同投保人多年的索賠數(shù)據(jù)尚未公開。局限于現(xiàn)階段保險(xiǎn)實(shí)務(wù)中的分層數(shù)據(jù)較難獲取,本文僅以R軟件WWGbook程序包中的一組ratpup數(shù)據(jù)為樣本進(jìn)行算例分析,該組數(shù)據(jù)也見于West等(2007)。雖然數(shù)據(jù)方面無法揭示非壽險(xiǎn)數(shù)據(jù)特征,但是模型對(duì)數(shù)據(jù)的分析過程及思想可以延展,期待國(guó)內(nèi)數(shù)據(jù)完善后推廣應(yīng)用到中國(guó)保險(xiǎn)業(yè)。ratpup數(shù)據(jù)以實(shí)驗(yàn)幼鼠為標(biāo)本,隨機(jī)分配一種特定的高、低或是標(biāo)準(zhǔn)水平的藥物劑量,通過比較接受高劑量和低劑量處理的雌性大鼠所生的每窩幼鼠與接受標(biāo)準(zhǔn)劑量處理的雌性大鼠所生的每窩幼鼠的出生體重來研究藥物的劑量水平、性別等因素如何影響幼鼠出生時(shí)的體重。該組數(shù)據(jù)屬于看作二層結(jié)構(gòu)的分層數(shù)據(jù),幼鼠和窩作為分析單位,幼鼠嵌套在窩內(nèi),各變量是在兩個(gè)層次分別進(jìn)行測(cè)量的,包含6個(gè)變量的322個(gè)觀測(cè)數(shù)據(jù)。各變量的定義及統(tǒng)計(jì)特征描述見表1。
表1 變量含義及統(tǒng)計(jì)特征描述
2.2算例分析
2.2.1HLM2模型的建立
針對(duì)該組數(shù)據(jù)的特點(diǎn)建立分層模型進(jìn)行算例分析,采用二層的分層線性模型來比較分配到三種不同劑量的窩幼鼠的平均出生體重,考慮了窩與窩之間的差異性,以及同一窩幼鼠之間的變異。在第一層模型中,對(duì)于大鼠的幼鼠這一分析單位而言,同一窩的劑量水平和幼鼠數(shù)是相同的,幼鼠的體重因性別而不同。以weight為被解釋變量,sex為解釋變量建立第一層模型(10);在第二層模型中,首先設(shè)定參數(shù) β0j和 β1j,進(jìn)而需要合理解釋使得 β0j和 β1j在所研究的特定問題背景中變得更有現(xiàn)實(shí)意義。
第一層模型:
β0j是截距項(xiàng),β1j是變量sexij的斜率,下標(biāo)i和 j代表的是第一層的個(gè)體i所隸屬的第二層單位 j。weightij表示在第 j窩的第i個(gè)幼鼠的出生體重,其與幼鼠的性別相關(guān)。sexij是指示變量,雌性時(shí)sexij取值為1,雄性時(shí)sexij取值為0。第一層模型中隨機(jī)變量rij是模型的殘差,滿足E(rij)=0,Var(rij)=σ2,體現(xiàn)同一個(gè)窩內(nèi)的幼鼠之間的相關(guān)性。
第二層模型:
在第二層分析數(shù)據(jù)中,β0j與每一窩的幼鼠數(shù)litsizej和劑量水平treatj相關(guān);β1j在第一層中用于描述在第 j窩的幼鼠i的出生體重weightij與其性別sexij之間的關(guān)系,在不同窩之間其與劑量水平treatj相關(guān)。γ00與γ10在第二層各單位之間是固定的,γ01、γ02、γ11分別是式(11)中回歸方程的斜率,u0j是第二層模型的殘差,第二層模型體現(xiàn)了不同窩內(nèi)的未觀測(cè)到的特征導(dǎo)致幼鼠的異質(zhì)性。值得一提的是,由于treat是分類變量,而數(shù)據(jù)集默認(rèn)中等劑量水平為基礎(chǔ)組,因此該變量對(duì)應(yīng)的待估參數(shù)事實(shí)上是兩個(gè),即γ02(高劑量水平)和γ02(高劑量水平);sex作為二分類變量,將雄性作為基礎(chǔ)組,因此該變量對(duì)應(yīng)的待估參數(shù)為一個(gè)。
將式(11)中的 β0j和 β1j的表達(dá)式代入式(10),得到混合模型如下:
式(12)在形式上符合LMM的標(biāo)準(zhǔn)形式。其中,固定效應(yīng)是截距項(xiàng)γ00、litsize所對(duì)應(yīng)的γ01、treatj所對(duì)應(yīng)的γ02、sexij所對(duì)應(yīng)的γ10、treatj與sexij的交互效應(yīng)所對(duì)應(yīng)的γ11,也包含γ11(高劑量水平)和γ11(高劑量水平),隨機(jī)效應(yīng)是第二層的隨機(jī)變量u0j和殘差rij。
2.2.2基于HLM軟件的實(shí)現(xiàn)
目前,分層線性模型的計(jì)算問題可以通過不同軟件來解決,其中由Scientific Software International公司出品的HLM軟件是一種較具針對(duì)性的軟件。如果分層數(shù)據(jù)可以用第一層數(shù)據(jù)和第二層數(shù)據(jù)分別單獨(dú)存儲(chǔ),使用該軟件進(jìn)行方便地分析,而R軟件只能分析第一層數(shù)據(jù)和第二層集成為一個(gè)數(shù)據(jù)集的分層數(shù)據(jù)。將HLM(版本7.0)與R軟件(版本3.13)進(jìn)行比較,有利于對(duì)數(shù)據(jù)分析過程與結(jié)果的理解。
基于HLM軟件,第一層和第二層模型的固定效應(yīng)的參數(shù)估計(jì)結(jié)果如表2所示。
表2 模型各層固定效應(yīng)的參數(shù)估計(jì)結(jié)果(基于HLM)
表3給出了隨機(jī)效應(yīng)方差成分的估計(jì)結(jié)果和檢驗(yàn)結(jié)果,表明了該模型的第一層和第二層模型的隨機(jī)變異情況。表示幼鼠出生體重總變異的37.1%是由第二層的影響因子,即產(chǎn)崽數(shù)(litsize)和實(shí)驗(yàn)劑量水平(treat)引起的。
表3 隨機(jī)效應(yīng)方差成分的估計(jì)結(jié)果
2.2.3基于R軟件(3.13版本)的實(shí)現(xiàn)
將上述HLM2轉(zhuǎn)化為等價(jià)的混合模型,在此視角下分別采用線性混合模型中的REML方法、GLMM中的懲罰擬似然(Penalized Quasi-Likelihood,PQL)算法與HGLM中的基于h似然的EQL(extended quasi-likelihood,EQL)算法,對(duì)式(12)對(duì)應(yīng)的模型分析,得到估計(jì)結(jié)果如表4所示。
表4 混合模型視角下固定效應(yīng)和隨機(jī)效應(yīng)的參數(shù)估計(jì)結(jié)果(基于R)
此外,圖1給出了基于REML方法的幼鼠出生體重?cái)M合值的標(biāo)準(zhǔn)化殘差圖,可以用于輔助診斷模型的擬合效果。在圖1中,大部分標(biāo)準(zhǔn)化殘差隨機(jī)分布在零線上下,且絕對(duì)值落在[-2,2]的區(qū)間范圍內(nèi),表明HLM2對(duì)應(yīng)的混合模型的模型假設(shè)尚且合理。
圖1 幼鼠出生體重?cái)M合值的標(biāo)準(zhǔn)化殘差圖
2.2.4結(jié)果比較分析
對(duì)比表2和表4的輸出結(jié)果,可以發(fā)現(xiàn):首先,HLM與R軟件對(duì)模型中固定效應(yīng)參數(shù)估計(jì)值、標(biāo)準(zhǔn)誤(SE)的估計(jì)結(jié)果基本相同,t檢驗(yàn)結(jié)果的統(tǒng)計(jì)顯著性大致相同。其次,HLM軟件可以給出HLM2的標(biāo)準(zhǔn)偏差、方差成分的估計(jì)值和σ2=0.0965,見表3),而R軟件不能直接給出相應(yīng)的結(jié)果,需要進(jìn)一步進(jìn)行計(jì)算。其中,隨機(jī)效應(yīng)的標(biāo)準(zhǔn)偏差為0.31072=0.0965、方差成分的估計(jì)值為σ2=0.40432=0.1635。再次,從LMM視角分析分層數(shù)據(jù),基于不同算法進(jìn)行估計(jì)的結(jié)果更方便比較;最后,關(guān)于反映和衡量模型總體擬合程度的統(tǒng)計(jì)指標(biāo),HLM2結(jié)果中偏差統(tǒng)計(jì)量(Deviance)的近似值是399.3,而由于算法不同,R結(jié)果中基于REML方法給出AIC統(tǒng)計(jì)量的值為419.1043,而基于PQL算法和EQL算法的結(jié)果尚未給出AIC統(tǒng)計(jì)量的值。
3.1分層模型在非壽險(xiǎn)精算中的已有應(yīng)用研究
國(guó)外精算理論界雖然對(duì)分層模型在非壽險(xiǎn)精算領(lǐng)域的應(yīng)用已有研究,但尚有深入研究的空間。Jewell(1975)[8]較早地提出分層信度(hierarchical credibility)的概念,由于在處理分層信度模型時(shí),希爾伯特空間技術(shù)(Hilbert space technique)通過使用更直觀的投影算子取代了繁瑣的計(jì)算而更勝一籌。Nelder和Verrall(1997)[9]首次將GLM拓展到HGLM,構(gòu)建分層對(duì)數(shù)似然函數(shù)(hierarchical log-likelihood)并應(yīng)用于傳統(tǒng)的信度理論分析。同時(shí),Nelder和Verrall(1997)在其研究中還提出將HGLM應(yīng)用于準(zhǔn)備金評(píng)估和費(fèi)率厘定的想法和思路。Bühlmann和Gisler(2005)[10]在闡明了實(shí)踐中很多保險(xiǎn)數(shù)據(jù)具有分層結(jié)構(gòu)的同時(shí),將分層模型理論嵌入到信度模型中,并著重利用該數(shù)學(xué)方法深入分析分層信度模型。Guszcza (2008)[11]介紹分層模型的概念及其在索賠準(zhǔn)備金評(píng)估中的應(yīng)用,并提出對(duì)損失流量三角形進(jìn)行建模的一種新的統(tǒng)計(jì)方法,即非線性分層模型(nonlinear hierarchical models),也稱為非線性混合模型(nonlinear mixed effects models,NLME)。Frees和Valdez(2008)[12]針對(duì)非壽險(xiǎn)定價(jià)中索賠損失數(shù)據(jù),以新加坡財(cái)險(xiǎn)公司協(xié)會(huì)(General Insurance Association,GIA)中1993年至2003年的一組汽車保險(xiǎn)數(shù)據(jù)為樣本,將其看作具有三層結(jié)構(gòu)的數(shù)據(jù)集提出了更一般的分層模型,為確定損失數(shù)據(jù)的聯(lián)合概率分布,依次分析索賠頻率、條件索賠類型與條件索賠強(qiáng)度數(shù)據(jù),并應(yīng)用貝葉斯方法,最終預(yù)測(cè)未來的總索賠損失。除了分析有層次性和相關(guān)性的保險(xiǎn)數(shù)據(jù)之外,HGLM提供一種新的方式,來處理“大規(guī)模分類”問題,即如果某個(gè)分類變量的水平數(shù)較多,而對(duì)應(yīng)于某個(gè)水平的數(shù)據(jù)量較少,那么可以應(yīng)用HGLM來處理。Ohlsson(2008)[13]把GLM和信度理論結(jié)合起來,使用瑞典某保險(xiǎn)公司的車險(xiǎn)數(shù)據(jù),對(duì)車型(car model)這一分類變量細(xì)分為2500個(gè)水平,進(jìn)行分層信度估計(jì)。這方面的文獻(xiàn)還有Klinker(2011)。這些研究對(duì)于將分層模型應(yīng)用于非壽險(xiǎn)精算實(shí)踐環(huán)節(jié)具有較強(qiáng)的借鑒與啟發(fā)意義。
3.2對(duì)中國(guó)非壽險(xiǎn)業(yè)的啟示與思考
分層模型的研究方法在社會(huì)科學(xué)、生物統(tǒng)計(jì)等多個(gè)領(lǐng)域已得到認(rèn)可和廣泛運(yùn)用,而越來越復(fù)雜的保險(xiǎn)大數(shù)據(jù)啟示精算師將其引入并推廣到我國(guó)的非壽險(xiǎn)業(yè)。
從宏觀角度考察,每一份保單嵌套于保險(xiǎn)公司,保險(xiǎn)公司嵌套于各省市,各省市嵌套于各個(gè)國(guó)家,把這些保險(xiǎn)數(shù)據(jù)匯集在一起,將變量進(jìn)行細(xì)化,即可用分層模型做二層、三層、四層甚至更多層次的數(shù)據(jù)分析。從微觀角度思考,對(duì)于同一個(gè)公司的保險(xiǎn)數(shù)據(jù),在發(fā)生索賠的條件下,索賠的損失分布可以根據(jù)索賠頻率和索賠額等細(xì)分出更多的層次來,費(fèi)率厘定要考慮每一層次的各種影響因素,每一個(gè)因素又可以劃分出不同的水平。索賠是否發(fā)生、索賠頻率、條件索賠類型和條件索賠強(qiáng)度是更一般的分層數(shù)據(jù)結(jié)構(gòu)。可以引入相應(yīng)的變量利用HLM統(tǒng)計(jì)技術(shù)在各個(gè)層次內(nèi)進(jìn)行費(fèi)率厘定的建模分析。在影響因素中,各保險(xiǎn)公司影響索賠頻率和索賠額的數(shù)據(jù)可以細(xì)致劃分為人的因素(如駕駛?cè)说哪挲g、性別、駕駛年齡、職業(yè)、是否固定駕駛?cè)藛T、駕駛?cè)说倪`章肇事記錄、影響駕駛?cè)说陌踩{駛因素和駕駛行為等)、車的因素(如車輛年平均行駛里程數(shù)、車輛的理賠記錄、車輛的使用性質(zhì)、車型、廠牌型號(hào)、核定載客人數(shù)、車身顏色、制造年月、事故記錄等)、路的因素(如干燥路面、潮濕路面、雪路、冰地、高速公路線形設(shè)計(jì)、道路結(jié)構(gòu)狀況等)和環(huán)境因素(如噪音、氣象因素等自然環(huán)境、地理環(huán)境、氣候環(huán)境、交通環(huán)境)等,這一思路見圖2。更進(jìn)一步地,類似于幼鼠實(shí)驗(yàn)中其出生體重與不同窩相關(guān)的情況,在車險(xiǎn)費(fèi)率厘定中,不同地區(qū)駕駛員的索賠可能受到自身風(fēng)險(xiǎn)狀況和地區(qū)差異的影響,建立類似的分層數(shù)據(jù),可以更準(zhǔn)確地分析駕駛員的索賠情況。
圖2 索賠聯(lián)合分布的分層描述
[1]張曉峒.應(yīng)用數(shù)量經(jīng)濟(jì)學(xué)[M].北京:機(jī)械工業(yè)出版社,2009.
[2]lta Kreft,Jan De Leeuw.多層次分析模型導(dǎo)論[M].邱皓政譯.重慶:重慶大學(xué)出版社,2007.
[3]West B T,Welch K B,Galecki A T.Linear Mixed Models:A Practical Guide Using Statistical Software[M].Boca Raton,FL:Taylor and fran?cis/CRC Press,2015.
[4]Lindley D V,Smith A F M.Bayes Estimates for the Linear Model[J]. Journal of the Royal Statistical Society B,1972,(34).
[5]Lee Y,Nelder J.Hierarchical Generalized Linear Models[J].Journal of the Royal Statistical Society B,1996,(58).
[6]Raudenbush S W,Bryk A S.Hierarchical Linear Models:Applica?tions and Data Analysis Methods[M].London:Sage Publications,Inc. 2002.
[7]Raudenbush S W,Bryk A S,Cheong Y F,et al.HLM6:Hierarchical Linear and Nonlinear Modeling[M].SSI:Scientific Software Interna?tional,Inc.2004.
[8]Jewell W S.The Use of Collateral Data in Credibility Theory:A Hier?archical Model[J].Giornale Dell’Instituto Italiano Degli Attuari,1975, (38).
[9]Nelder J A,Verrall R J.Credibility Theory and Generalized Linear Models[J].Astin Bulletin,1997,27(1).
[10]Bühlmann H,Gisler A.A Course in Credibility Theory and Its Appli?cations[M].Heidelberg:Springer-Verlag,2005.
[11]Guszcza J.Hierarchical Growth Curve Models for Loss Reserving[J]. Casualty Actuarial Society E-Forum,2008.
[12]Frees E W,Valdez E A.Hierarchical Insurance Claims Modeling[J]. Journal of the American Statistical Association,2008,103(484).
[13]Ohlsson E.Combining Generalized Linear Models and Credibility Models in Practice[J].Scandinavian Actuarial Journal,2008,(4).
(責(zé)任編輯/易永生)
O212
A
1002-6487(2016)22-0004-05
國(guó)家自然科學(xué)基金資助項(xiàng)目(71603180;71271121;71401041)
孫維偉(1982—),女,遼寧海城人,博士,講師,研究方向:風(fēng)險(xiǎn)管理、統(tǒng)計(jì)精算。張連增(1968—),男,山東萊蕪人,教授,博士生導(dǎo)師,研究方向:風(fēng)險(xiǎn)管理、統(tǒng)計(jì)精算。