李 強, 陳衍姣
(貴州財經(jīng)大學(xué) 大數(shù)據(jù)應(yīng)用與經(jīng)濟學(xué)院, 貴州省大數(shù)據(jù)統(tǒng)計分析重點實驗室, 貴陽 550025)
從狹義的視角來看,商業(yè)性養(yǎng)老保險是為了滿足個人和家庭養(yǎng)老風(fēng)險保障、投資理財?shù)刃枨蠖_發(fā)的產(chǎn)品。但是目前中國商業(yè)性養(yǎng)老保險的發(fā)展并不樂觀。首先保費收入較少。根據(jù)銀保監(jiān)會公布的數(shù)據(jù),2014年商業(yè)性養(yǎng)老保險收益約1.64萬億元,僅占全年GDP的比重2.6%。其次居民參保率低。調(diào)查發(fā)現(xiàn),在調(diào)查樣本中僅有5.6%的采訪者購買了商業(yè)性養(yǎng)老保險,同時中國商業(yè)性養(yǎng)老保險企業(yè)產(chǎn)品存在合同條款復(fù)雜、收益率低、缺乏創(chuàng)新性等問題,營銷手段存在詐騙、被迫等傾向[1]?;舭?、趙常興[2]認為,中國個稅遞延型商業(yè)保險存在著優(yōu)惠設(shè)計偏離初衷,難以滿足低收入人群的問題。
那么,如何解決商業(yè)性養(yǎng)老保險當前存在的問題,推動養(yǎng)老金制度體系的第三支柱發(fā)展呢?國外對于影響商業(yè)性養(yǎng)老保險購買行為因素研究較少,大多是針對壽險的研究,因為商業(yè)性養(yǎng)老保險是壽險的組成之一,因此本文在外文相關(guān)研究中主要借鑒對壽險的相關(guān)研究。西方的相關(guān)研究起源很早。Truett等[3]通過對美國和墨西哥的實證數(shù)據(jù)的分析,認為年齡、收入水平和教育水平是影響壽險購買的主要因素。Browne和Kim[4]通過對全球47個國家的數(shù)據(jù)分析,認為通貨膨脹、社會保障支出水平和國民收入等宏觀因素也會影響壽險購買行為。國內(nèi)相關(guān)研究成果也是基于社會數(shù)據(jù)分析的結(jié)論。陳其芳[5]運用probit模型實證證明,農(nóng)村居民的年齡、受教育程度、家庭收入、對保險的理解、撫養(yǎng)子女和預(yù)防老年的態(tài)度以及政府宣傳對農(nóng)村居民商業(yè)養(yǎng)老保險購買行為有顯著影響。張強、楊宜勇[6]通過構(gòu)建商業(yè)養(yǎng)老保險參與影響因素邏輯回歸模型,發(fā)現(xiàn)個人收入水平、教育程度、基本參保行為、家庭因素等都能夠?qū)⒈P袨楫a(chǎn)生顯著影響。
當前正處于“互聯(lián)網(wǎng)+”時代,對于保險公司來說,合理利用大數(shù)據(jù)是一個巨大的機遇和挑戰(zhàn)。而利用數(shù)據(jù)挖掘技術(shù)和機器學(xué)習(xí)算法,可以有效實現(xiàn)數(shù)據(jù)可視化,探索業(yè)務(wù)和數(shù)據(jù)的內(nèi)在關(guān)聯(lián),提高工作效率。國外學(xué)者對于機器學(xué)習(xí)在保險研究中的應(yīng)用較早。Yeo等[7]采用K-Means對不同投保人風(fēng)險分組后的理賠成本進行預(yù)測分析,提出了一個數(shù)據(jù)挖掘和非線性整數(shù)規(guī)劃相結(jié)合的方法,來確定最佳保費。Kaveh等[8]提出了一個兩階段聚類算法,用于預(yù)測客戶的最佳保險范圍。國內(nèi)學(xué)者對于大數(shù)據(jù)技術(shù)的應(yīng)用涉及的主要方法有邏輯回歸、決策樹、BP神經(jīng)網(wǎng)絡(luò)、支持向量機等。倪泉[9]利用決策樹和多元非線性回歸的方法建立續(xù)期客戶交費概率預(yù)測模型,對客戶質(zhì)量進行分類,運用聚類分析法,分析具有較高退保風(fēng)險的客戶。葛春燕[10]通過對國內(nèi)保險公司實際業(yè)務(wù)分析,構(gòu)建保險公司評估指標體系,運用BP神經(jīng)網(wǎng)絡(luò)模型對客戶進行分類預(yù)測,達到為保險公司規(guī)避風(fēng)險的目的。蔡桂全、陶建平[11]利用局部核函數(shù)和全局核函數(shù)的線性組合作為權(quán)重,構(gòu)造了多核支持向量機來預(yù)測農(nóng)業(yè)保險需求,實證結(jié)果表明,該方法比基準支持向量機和Logistic回歸更準確。
與現(xiàn)有文獻相比,本文的創(chuàng)新點為:①創(chuàng)新性地嘗試將隨機森林算法應(yīng)用于建立商業(yè)性養(yǎng)老保險購買行為預(yù)測模型;②能夠考慮到商業(yè)性養(yǎng)老保險購買數(shù)據(jù)是一個典型的不均衡的數(shù)據(jù),合理地應(yīng)用處理不均衡數(shù)據(jù)的過采樣方法,改進傳統(tǒng)機器學(xué)習(xí)算法,提高分類準確性;③引入多種算法的對比,增加實證說服性。
基于隨機森林模型的商業(yè)性養(yǎng)老保險行為預(yù)測模型如圖1所示。第1階段采用SMOTE算法處理不均衡樣本。第2階段網(wǎng)格搜索調(diào)節(jié)隨機森林模型重要的幾個輸入?yún)?shù)。第3階段運用第2階段改進后的隨機森林模型對第1階段處理過的數(shù)據(jù)進行分類。
圖1 基于隨機森林模型的商業(yè)性養(yǎng)老保險行為預(yù)測模型
SMOTE算法流程如下:
1)對于少數(shù)類中的每個樣本x,以歐幾里得距離為標準計算其到少數(shù)類樣本集中所有樣本的距離,并獲得其k最近鄰。
2)根據(jù)樣本不平衡率設(shè)置采樣率,以確定采樣率N,從每個樣本x的k近鄰中隨機選擇若干個樣本,假設(shè)記為xn。
3)對于每個xn,根據(jù)以下的公式構(gòu)建新的樣本。
xnew=x+rand(0,1)×|x-xn|
(1)
4)將合成的新樣本加入原數(shù)據(jù)集形成平衡數(shù)據(jù)集。
隨機森林(Random Forest,RF)是由Leo Breiman提出的包含多個決策樹的組合分類器算法。隨機森林在處理多維數(shù)據(jù)方面具有明顯的優(yōu)勢,是目前最好的分類算法之一。隨機森林分類(Random Forestforclassification)是采用bootstrap方法從原始訓(xùn)練樣本集N抽取k個樣本;其次,對k個抽取樣本建立相應(yīng)的決策樹模型;最后,對得到的k種樣本結(jié)果進行投票,根據(jù)少數(shù)服從多數(shù)的原則選擇最終的分類結(jié)果。分類決策為
(2)
式中:H(x)為組合分類模型;hi為決策分類模型;Y為輸出變量(目標變量);I[hi(x)=Y]為示性函數(shù)。
RF模型含有許多重要參數(shù),不同的參數(shù)組合可以產(chǎn)生不同的結(jié)果。為得到更好的預(yù)測精確度,采用網(wǎng)格搜索法對模型的重要參數(shù)進行調(diào)參操作。
實證主體是在Python3.7上配合一系列依賴庫完成的。用到的最主要的庫是SciKit-learn(簡稱Sklearn),是由數(shù)據(jù)學(xué)家David Cournapeau在2007年發(fā)起,專門為機器學(xué)習(xí)應(yīng)用而開發(fā)的一款開源框架。
選用的數(shù)據(jù)來自中國綜合社會調(diào)查(CGSS)2017年調(diào)查問卷(居民問卷)的調(diào)查結(jié)果。中國綜合社會調(diào)查涉及范圍廣、抽樣方法科學(xué)、涵蓋內(nèi)容全面,能很好地反映影響商業(yè)性養(yǎng)老保險購買行為的個人因素指標和家庭因素指標,因此選用該調(diào)查結(jié)果作為研究數(shù)據(jù)是客觀且具有代表性的。首先,利用stata將數(shù)據(jù)導(dǎo)為Excel格式,得到初始數(shù)據(jù)共12 582個。
根據(jù)閱讀文獻以及問卷的實際情況,共選取兩大類數(shù)據(jù),即個人因素和家庭因素。個人因素選取的指標包含年齡、性別、婚姻狀況、政治面貌、身體狀況、是否購買基本醫(yī)療保險、基本養(yǎng)老保險、個人去年總收入、工作性質(zhì)和單位性質(zhì);家庭因素選取的指標包含去年家庭總收入、子女個數(shù)、擁有幾處房產(chǎn)、是否有小汽車、是否從事投資活動。然后,對離散特征進行賦值處理,構(gòu)建的商業(yè)性養(yǎng)老保險購買行為預(yù)測指標體系見表1。
選擇是否購買商業(yè)性養(yǎng)老保險為響應(yīng)變量,商業(yè)性養(yǎng)老保險購買行為預(yù)測是一個典型二分類問題,購買記為1,否則為0。根據(jù)多次試驗結(jié)果,本文隨機從樣本中按比例選取30%為測試集,剩余70%為訓(xùn)練集,將回答不明確以及拒絕回答的樣本剔除,刪除有缺失值的樣本,最后保留3 859條數(shù)據(jù)。
表1 預(yù)測指標體系
基于隨機森林算法模型的商業(yè)性養(yǎng)老保險購買行為預(yù)測模型的實證計算主要在Python語言環(huán)境下完成。主要過程如下。
從數(shù)據(jù)樣本容量可以看出,討論商業(yè)性養(yǎng)老保險購買行為,不難發(fā)現(xiàn),與不購買商業(yè)性養(yǎng)老保險相比,選擇購買是一個明顯的小樣本事件。這也是金融數(shù)據(jù)常常會出現(xiàn)的問題,就是數(shù)據(jù)不均衡。數(shù)據(jù)不均衡為主流機器學(xué)習(xí)模型的分類效果帶來嚴峻挑戰(zhàn),稀有事件和噪聲發(fā)生混淆,少數(shù)特征被扭曲,使得模型學(xué)習(xí)力不足,導(dǎo)致模型預(yù)測效果不理想。因此,首先采用一個典型的過采樣方法SMOTE進行數(shù)據(jù)處理。
在模型訓(xùn)練過程中,模型的輸入?yún)?shù)的設(shè)置對于模型評估時的準確度有著決定性作用。采用網(wǎng)格優(yōu)化法對5個超參數(shù)——森林中樹的數(shù)目 n_estimators、單個決策樹使用特征的最大數(shù)量max_features、樹的最大深度max_depth、葉子節(jié)點最少樣本數(shù)min_samples_leaf、拆分內(nèi)部節(jié)點所需的最小樣本數(shù)min_samples_split進行尋優(yōu),其中選用十折交叉驗證法,最終得到輸出參數(shù)分別為70、12、15、10、40。
討論商業(yè)性養(yǎng)老保險購買行為預(yù)測問題,不難發(fā)現(xiàn),這是一個典型的二分類問題??紤]一個二分問題,會出現(xiàn)4種情況,即真正類(turepositive)、假正類(falsepositive)、真負類(truenegative)和假負類(falsenegative)。ROC曲線是通用的檢驗二分類模型性能的方法。
在用ROC曲線評價模型性能時,一般通過對比ROC曲線下的面積AUC來衡量,曲線下面積AUC的值越大,可認為效果越好。對SMOTE過采樣前的模型與采樣后的模型及采用默認參數(shù)的支持向量機(SVC)模型的性能進行ROC曲線分析,其ROC曲線及比較結(jié)果如圖2所示。
圖2 3種模型的ROC曲線及比較
將圖2(a)、(b)、(c)放在同一坐標軸進行比較,如圖2(d)所示,可以看出明顯的差別:3種模型的AUC從大到小排序為:過采樣前的RF 圖3 指標重要性排序 在大數(shù)據(jù)興起的時代,各個保險公司匯聚著大量的業(yè)務(wù)數(shù)據(jù)信息,若保險公司能夠有效利用已有數(shù)據(jù),對客戶實現(xiàn)精準營銷,不僅可以提高工作效率,還可以節(jié)省成本提高收益。那么哪些因素最能影響商業(yè)性養(yǎng)老保險購買行為成為重點關(guān)注的問題。隨機森林模型可以計算各變量對因變量的重要性程度。對數(shù)據(jù)進行過采樣和預(yù)處理以及對隨機森林參數(shù)進行選擇確認之后,得出各特征對商業(yè)性養(yǎng)老保險購買行為的重要程度排序,如圖3所示。 從指標的重要性程度可以看出,對商業(yè)性養(yǎng)老保險購買行為影響最大的是個人去年總收入(X9)和家庭去年總收入(X12),這與常識一致,收入越高,可支配資金也就越充分,也就更愿意消費和投資,更具有購買商業(yè)性養(yǎng)老保險的積極性。排名第3的是總共擁有幾處房產(chǎn)(包括與他人共同擁有)(X14),有研究表明房產(chǎn)總值對家庭消費的影響顯著為正,房產(chǎn)數(shù)量能在一定程度上反映房產(chǎn)總值,那么擁有房產(chǎn)越多的人更具有消費欲望,購買可能性也更大。排名第4的是受教育程度(X6),商業(yè)養(yǎng)老保險產(chǎn)品往往越來越復(fù)雜。過度專業(yè)化的保險條款可能會對教育程度較低的居民的理解造成一些障礙。因此,這些居民不太可能購買商業(yè)養(yǎng)老保險,教育程度越高,往往越傾向于購買商業(yè)性養(yǎng)老保險。其后的相對重要的特征按順序依次是單位性質(zhì)(X11)、身體狀況(X5)、性別(X2)、是否從事投資活動(X16)。 以2017年中國社會綜合調(diào)查問卷數(shù)據(jù)為研究對象,采用SMOTE過抽樣算法和隨機森林算法,建立了基于隨機森林的商業(yè)養(yǎng)老保險購買行為預(yù)測模型。得到以下結(jié)論: 1)大數(shù)據(jù)帶來了豐富的數(shù)據(jù)信息,智能時代機器學(xué)習(xí)的引入,提升了數(shù)據(jù)分析的可視化和智能化,為挖掘數(shù)據(jù)、運用數(shù)據(jù)提供了巨大的便利。實例證明隨機森林算法的評估模型與目前運用較為廣泛的支持向量機算法的評估模型相比,具有一定優(yōu)勢。由于金融數(shù)據(jù)往往是不均衡數(shù)據(jù),采用SMOTE過采樣法能較好地解決該問題,提升模型準確性。 2)通過隨機森林對指標重要性排序可以看出,對商業(yè)性養(yǎng)老保險購買行為影響最大的是收入因素,包括家庭和個人收入。其次是擁有的房產(chǎn)數(shù)量,再者是受教育程度。所以保險公司在選擇客戶群體時,要重點關(guān)注這幾個指標,依據(jù)指標進行客戶篩選,采用合理的營銷手段,進行針對性的推銷。2.4 指標重要性分析
3 結(jié)論