湯宏順 楊杉
隨著我國人民保險意識的逐步提升,國家加大了對保險市場的政策支持力度,保險公司迎來了更多的發(fā)展機遇,同時也面臨著全新的挑戰(zhàn)。如何在競爭激烈開放的環(huán)境中獲得競爭優(yōu)勢和持續(xù)成長能力成為保險公司經(jīng)營管理的核心問題。續(xù)保數(shù)據(jù)對于保險公司來說十分重要,續(xù)保率是決定財產(chǎn)保險公司經(jīng)營業(yè)績的一個重要指標。保險公司可通過續(xù)保數(shù)據(jù)對公司業(yè)務(wù)進行調(diào)整,以提高用戶對于公司業(yè)務(wù)的信賴以及粘性。本文主要利用SPSS軟件對某保險公司的續(xù)保數(shù)據(jù)進行分析,并根據(jù)分析結(jié)果給出建議。
分析工具
SPSS(Statistical Product and Service solutions),稱為統(tǒng)計產(chǎn)品與服務(wù)解決方案。2000年以前稱為“社會科學(xué)統(tǒng)計軟件包”(Statistical Package for the Social Science),是IBM公司推出的能夠提供統(tǒng)計學(xué)分析運算、數(shù)據(jù)挖掘、預(yù)測分析和決策支持任務(wù)的一種集成化計算機數(shù)據(jù)處理應(yīng)用軟件。EXCEL,在EXCEL中,數(shù)據(jù)的計算與處理都可以通過公式工具,實現(xiàn)自動化處理,在數(shù)據(jù)處理工作中呈現(xiàn)出極大的便捷性。本文首先使用excel對數(shù)據(jù)進行預(yù)處理,然后利用SPSS將處理后的數(shù)據(jù)導(dǎo)入,進行分析。
分析思路
以某保險公司的續(xù)保數(shù)據(jù)為研究對象,先利用EXCEL對這些數(shù)據(jù)進行預(yù)處理,主要是刪除掉一些臟數(shù)據(jù)。再用SPSS軟件對其21萬條數(shù)據(jù)做分析。針對性別,過去三年年年收入,總保費,保額等運用獨立樣本T檢驗、區(qū)間估計、單因素方差、散點圖等方法分析該數(shù)據(jù)得出結(jié)論,提出建議。
數(shù)據(jù)來源
數(shù)據(jù)來源于某保險公司。續(xù)保的這份數(shù)據(jù)共有21萬條,16個字段,分別記錄了機構(gòu)、險種、投保時間、繳費、繳費期限、投保份數(shù)、總保費、保額、客戶號、性別、年齡、婚姻、過去三年平均年收入、教育程度、職業(yè)、家庭人口。其中婚姻狀態(tài)中的D是離婚、S是單身、M是結(jié)婚、R是再婚、W是喪偶、X是缺失??偙YM是指投保人一共需要向保險公司繳納的總額,保額是指保險公司理賠的最高額度。對于過去三年的平均年收入做了脫敏處理,此數(shù)據(jù)并非真實,可能是*0.5或縮小了其他的倍數(shù)(一般為降低收入)但總體趨勢相同。
數(shù)據(jù)清洗
因為該數(shù)據(jù)集數(shù)據(jù)量比較大可能會有一定的臟數(shù)據(jù)會對我們的分析產(chǎn)生影響。因此我通過運用excel工具的定位條件判斷是否有空值并進行刪除。通過對年齡進行升序排序,運用高級篩選功能對每一列的數(shù)據(jù)進行查看查找出不合理的數(shù)據(jù)值做刪除處理,比如年齡為1,嬰幼兒,年收入?yún)s為30000元等等。通過簡單的數(shù)據(jù)清洗后可以從數(shù)據(jù)中提取出更有意義的信息。
性別與過去三年年收入的關(guān)系
通過獨立樣本T檢驗探究性別與于過去三年年收入關(guān)系分析。由組統(tǒng)計得: 男性的個案數(shù)為109361,平均值為14009.4023,標準偏差為47234.18995,標準誤差平均值為142.83191。女性的個案數(shù)為109117,平均值為13596.5685,標準偏差為58153.57646,標準誤差平均值為176.04765。由獨立樣本檢驗中可得顯著性為0.069,大于0.05,則方差齊。顯著性>0.05,則性別與過去三年年收入在0.05顯著水平下不呈現(xiàn)差異。研究采用獨立樣本t檢驗判斷性別與過去三年年收入的關(guān)系,結(jié)果顯示性別與過去三年年收入在0.05顯著性水平下不呈現(xiàn)差異,進一步比較均值發(fā)現(xiàn),男性過去三年年收入平均值是大于女性過去三年年收入的,不過相差不多。所以性別與過去三年年收入關(guān)系并不大。
婚姻狀況與總保費的關(guān)系
采用區(qū)間估計的數(shù)據(jù)方法分析婚姻狀況與總保費的關(guān)系。對于婚姻狀況的不同,是否會影響總保費。針對這一問題,采用區(qū)間估計方法分析,由于這是一個比較分散的數(shù)據(jù),所以剔除500000以上的極大值來重新分析該箱型圖。
D(離婚)的總保費整體是在一個偏低的水平集中,數(shù)據(jù)分布是在中位數(shù)以上分布的,中位數(shù)以上分布的較為密集,說明總保費較高的人差距是不大的。M(結(jié)婚)的總保費整體是在一個偏高的水平集中,數(shù)據(jù)分布是在中位數(shù)以上分布的,中位數(shù)以上分布的較為稀疏,說明總保費較高的人差距是較大的。S(單身)的總保費整體是在一個偏高的水平集中,數(shù)據(jù)分布是在中位數(shù)以上分布的,中位數(shù)以上分布的較為稀疏,說明總保費較高的人差距是較大的。W(喪偶)的總保費整體是在一個偏高的水平集中,數(shù)據(jù)分布是在中位數(shù)以上分布的,中位數(shù)以上分布的較為密集,說明總保費較高的人差距是不大的。X(缺失)的總保費整體是在一個偏高的水平集中,數(shù)據(jù)分布是在中位數(shù)以上分布的,中位數(shù)以上分布的較為稀疏,說明總保費較高的人差距是較大的。
通過區(qū)間估計的方法,說明了婚姻狀況與總保費之間有顯著差異。M(已婚)和X(缺失)的總體的總保費較高,而D(離婚)和R(再婚)以及W(喪偶)的總保費偏低。
年齡與保額的關(guān)系
利用單因素方差分析探究不同年齡段與保額之間的關(guān)系,首先對年齡、保額和進行描述統(tǒng)計,發(fā)現(xiàn)年齡跨度比較大,因而需對年齡進行分段。分段依據(jù)為,18歲以下為一組,18-34歲為一組,35-59歲為一組,60歲以上為一組。
在方差齊性檢驗下,發(fā)現(xiàn)顯著性值小于0.05(置信度為95%)。因而,方差不具有齊次性,所以要拒絕原假設(shè),在檢驗多重性比較中選擇塔姆黑尼T2作為判斷參考依據(jù)。同時在方差分析信息表中,對不同年齡段的保額水平是否有顯著性差異進行分析。發(fā)現(xiàn)顯著性值都小小于0.05。因而拒絕原假設(shè):不同年齡段的保額水平?jīng)]有顯著性差異,因此所以至少有兩種不同年齡段的保額水平是有顯著性差異的。