蔡述建 楊杉 四川大學(xué)錦城學(xué)院
保險行業(yè)的迅速發(fā)展,車險、人身意外險、壽險等等漸漸成為人們的另一消費對象,要保證該行業(yè)的持續(xù)發(fā)展,數(shù)據(jù)的充足性和數(shù)據(jù)分析的技術(shù)漸漸成為了關(guān)鍵因素。保險是一種保障機制,在大數(shù)據(jù)技術(shù)的幫助下,能利用保險公司收回的客戶數(shù)據(jù)來度量、預(yù)測未來應(yīng)該往哪個方向發(fā)展。通過數(shù)據(jù)分析,預(yù)測未來客戶購買保險險種的傾向,從而對險種中的項目進行調(diào)整,對價位進行調(diào)整。在互聯(lián)網(wǎng)還還沒到來之前,保險行業(yè)的數(shù)據(jù)僅僅來源于平時的經(jīng)驗數(shù)據(jù),局限性太大?;ヂ?lián)網(wǎng)的普及,帶來了大量數(shù)據(jù),這些數(shù)據(jù)為保險公司的相關(guān)產(chǎn)品提供了改進和發(fā)展的方向。例如通過分析投保的數(shù)據(jù),來分析客戶投保的方向轉(zhuǎn)向了哪,聚焦于客戶,實現(xiàn)定向營銷?;诖髷?shù)據(jù)分析技術(shù)實現(xiàn)對客戶精準(zhǔn)服務(wù),提供高質(zhì)量的售后服務(wù),留住老客戶。另外,保險公司可以分析歷史數(shù)據(jù),對保險欺詐的顯著特性及其取值區(qū)間進行分析, 以此建立預(yù)測模型,考察各類理賠案件的風(fēng)險程度, 對可能出現(xiàn)的欺詐行為進行實時的監(jiān)控與防范。
根據(jù)賠付的數(shù)據(jù)分析問題,其數(shù)據(jù)中主要包括客戶號、賠付金額、費用類型、保費、總保費、婚姻狀況、購買險種性別、年齡等等。分析這批數(shù)據(jù)中不同費用類型對于賠付金額是否有具有顯著性差異。使用SPSS Statistics 中的單因素方差分析,分析理賠數(shù)據(jù)中不同費用類型與賠付金額之間的關(guān)系,通過不同費用類型對賠付金額的顯著性差異比較,得出不同費用類型對賠付金額的影響進行排序,得到哪種類型對賠付金額的影響最大。
采用SPSS Modeler 中的決策樹建模,分析理賠數(shù)據(jù)中,設(shè)置自變量為險種,賠款金額,總保費,年齡,性別,因變量為費用類型,研究這五個字段的人群會分別因為哪些原因來進行理賠,得出結(jié)論后,根據(jù)此類型的人群的規(guī)則定義,向此類人群推銷其他類型的保險險種,實現(xiàn)保險公司利益最大化。
大部分?jǐn)?shù)據(jù)通常是不完整的、不一致的、極易受到噪聲(錯誤或異常值)的侵?jǐn)_的。因為數(shù)據(jù)庫太大,而且數(shù)據(jù)集經(jīng)常來自多個異種數(shù)據(jù)源,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。就像廚師要做美味的魚,如果不將魚進行去鱗等處理,一定做不成我們口中美味的魚。
處理一:由于原始的理賠數(shù)據(jù)集中顯示:賠款時間、職業(yè)、過去三年平均年收入三個類別數(shù)據(jù)各自的值都是脫敏數(shù)據(jù),所以通過分析得出這三類數(shù)據(jù)為無效數(shù)據(jù),將其刪除;
處理二:費用類型數(shù)據(jù)為了符合軟件分析變量要求,我組將其分為三大類數(shù)據(jù):分別將癌癥定義為數(shù)字1、疾病定義為數(shù)字2、意外定義為數(shù)字3;
處理三:在理賠數(shù)據(jù)中,賠付金額值為0 情況多種,并且未告知投保分?jǐn)?shù),所以將賠付金額數(shù)據(jù)列為0 的數(shù)據(jù)篩選出并刪除;其賠付金額大于保額數(shù)據(jù)同理未告知情況特殊性,所以通過IF 函數(shù)將其賠付金額大于保額的數(shù)據(jù)篩選出并將其刪除;
處理四:為了更好得用于決策樹模型的構(gòu)建,將所有年齡分為三類:分別將20 歲以下定義為數(shù)字1(青少年)、21-55 歲定義為數(shù)字2 即(成年人)、56 歲以上定義為數(shù)字3(老年人)。
清洗完數(shù)據(jù)后剩余數(shù)據(jù)為131656條
3.1.1 理賠原因的單因素方差分析
之所以我們使用方差分析的方法來對理賠金額和費用類型進行分析,是因為我發(fā)現(xiàn)客戶的費用類型有很多,而且賠付的金額更是大相徑庭,因此我將費用類型作為因子,將賠款金額作為因變量進行分析,從而得出二者之間是否存在顯著性關(guān)系。我們希望他們之間是存在顯著性關(guān)系的,所以可以根據(jù)不同費用類型的用戶來修改險種項目或是跟進客戶。
由上圖,顯著性為0.0 小于α=0.05,拒絕原假設(shè),證明不同費用類型對賠付金額有顯著性差異,方差不具有齊次性,所以觀察圖中Tamhane 方法。
方差分析結(jié)果圖(1-癌癥 2-疾病 3-意外)
由上圖我們可以發(fā)現(xiàn),三種不同費用類型之間的理賠金額的確存在著顯著性的差異。費用類型-1 明顯高于費用類型-2,平均約高11123.08 元,且明顯高于費用類型-3,約高9824.41 元;費用類型-3明顯高于費用類型-2,約高了1298.67 元。對此,可以將其排序為1>3>2(疾?。疽馔猓景┌Y)。
出于想找出不同費用類型人群的各個特征,我們采用了決策樹來進行建模。使用SPSS MODELER 建模,將險種,賠款金額,總保費,年齡,性別字段設(shè)置為輸入,費用類型設(shè)置為目標(biāo),從而形成規(guī)則集。
上圖是通過建模之后得到的決策樹結(jié)果圖,得出客戶購買的大部分險種的費用類型是意外險。少部分客戶購買的F01、F05、F06、FS1、S46、S51 是疾病類型的保險。F07 險種中,總保費不大于15.28元的,賠款金額大于466.85 的費用類型是意外保險,不大于466.85中的總保費不大于7.060 的費用類型是意外險,總保費在7.060 和8.980 之間的,并且是男性的客戶也是購買的意外類型,女性客戶中賠款金額不大于20.700 的人群購買的也是意外類型保險,賠款金額在20.700 到35.400 之間的是疾病類型,大于35.400 的是意外類型;總保費在15.28 到17.380 之間的是意外類型,大于17.380,且總保費小于18,年齡不大于37,總保費不大于17.800 的是疾病類型,大于17.380 中賠款金額不大于540.730 的也是疾病類型,賠款金額小于540.730 中年齡不大于33 的選擇的意外類型,小于33 的選擇的疾病類型。其他規(guī)則以此類推。
①1-癌癥平均賠款金額最高,但數(shù)量最少(0.7%)
②2-疾病平均賠款金額最低,數(shù)量最為龐大(81.3%)
③3-意外平均賠款金額高于2-疾病,數(shù)量較大(18%)
建議一:疾病類型的理賠人群最為龐大,價格也低,這類保險應(yīng)該不用分年齡性別等等,在平時的日常生活中都可以投一份這樣的保險,既是對自己保障也不會花費太多額外的金錢。
建議二:在賠付金額方面來看,3-意外類型不僅僅賠付金額高,而且占比也不少,由于意外事件是不確定性的,所以針對此類保險,也務(wù)必投保。
建議三:對于1-癌癥這一類來說,重大癥狀保險和壽險應(yīng)該是最好的兩個選擇,如果說身體狀態(tài)不是很好的話,建議為他/她投保。
① 對于第一種費用類型,如果險種是S50、賠款金額在25000到40000 之間、總保費大于2600 且年齡小于45 的費用類型就是癌癥類的。
② 若險種是S70、總保費大于30000,年齡大于58 切不大于62歲的也是癌癥類型。
③若總保費在42.220 到45.680 之間的女性,年齡不大于57 的就是疾病類型。
④若險種是F09,賠款金額大于43.350 且總保費不大于72.500的就是疾病類型。
⑤若險種是S51且賠款金額在25000 到94354.200 之間,總保費不大于134.630 的女性,是意外類型。
⑥若險種是F09,賠款金額小于54.530 且總保費不在240 到112.500 之間,年齡在47 到55 之間的人選擇的費用類型是意外型。
針對這些規(guī)則,我們可以通過使用捆綁險種形成套餐給投保人以更多的選擇,投保人也可以根據(jù)這些數(shù)據(jù)之間的關(guān)聯(lián)性,聯(lián)系到自身的角度進行投保。
大數(shù)據(jù)分析可以為企業(yè)提供諸多便利。以保險公司為例,不同的公司之間都存在競爭力,要增加公司的營業(yè)收入,則需要更多的客戶,了解他們的需求,以便于給予他們不同的險種。通過了解他們的客戶號,所購買的險種,理賠的方向,將其整合為一個個單獨的客戶ID,并且需要整合傳統(tǒng)數(shù)據(jù)源和數(shù)字?jǐn)?shù)據(jù)源來理解客戶的行為。二是提供個性化服務(wù):大數(shù)據(jù)分析的應(yīng)用給企業(yè)帶來了基于客戶個性進行互動的機會。海量數(shù)據(jù)中所包含的信息有很多,而對于企業(yè)來說最具價值的就是有關(guān)于消費者的相關(guān)信息。如果可以搜集到更精準(zhǔn)的消費者信息,就可以為他們進行個性化的定制服務(wù),從而做到比消費者本人還了解自己,使用戶感覺受到重視。
對于保險行業(yè)來說,并不是每個人都需要,對此以下是對實現(xiàn)精準(zhǔn)銷售保險的一些建議。減少中介環(huán)節(jié),保證客戶信息的真實性和有效性,既有利于保險數(shù)據(jù)的收集和分析,又有利于保險公司的精準(zhǔn)營銷;引進人才,優(yōu)化推薦算法,如此一來,將數(shù)據(jù)庫等等建立起來提高服務(wù)效率;加強各方面的監(jiān)督,防控安全隱患,隱私數(shù)據(jù)是不能作為廣告和任何其他用途的,應(yīng)該合理控制使用數(shù)據(jù)的底線;完善平臺的布局,保險公司應(yīng)該長期的與互聯(lián)網(wǎng)公司進行合作,實現(xiàn)人才互補的目的。