毛麒麟,楊杉
(四川大學(xué)錦城學(xué)院,計(jì)算機(jī)與軟件學(xué)院,成都611731)
其是借助一整套模塊化的分析系統(tǒng)完成對相關(guān)數(shù)據(jù)的處理,具有操作簡單、功能強(qiáng)大、簡潔明了的特點(diǎn)[1]。分析續(xù)保數(shù)據(jù)列發(fā)現(xiàn),總保費(fèi)、客戶性別、客戶年齡和客戶過去三年平均年收入之間存在可以挖掘的關(guān)系和價(jià)值,本文主要針對這幾列做出了獨(dú)立樣本T檢驗(yàn)、皮爾遜相關(guān)性分析、單因素方差分析和探索分析。
該續(xù)保數(shù)據(jù)集一共有218480行16列,包含機(jī)構(gòu)、險(xiǎn)種、投保時(shí)間、繳費(fèi)方式、繳費(fèi)期限、投保份數(shù)、總保費(fèi)、保額、客戶號、性別、年齡、婚姻狀況、教育程度、過去三年平均年收入、職業(yè)、家庭人口字段。
刪除投保時(shí)間、投保份數(shù)、教育程度、家庭人口無效列;
篩選保額為0的行并刪除;
篩選過去三年平均年收入除無職業(yè)、無兼職離退休、無兼職其他人員、無業(yè)家庭主婦、學(xué)生、嬰幼兒等職業(yè)外在1000元以下的行并刪除;
篩選婚姻狀況為X的行并刪除;
添加婚姻狀況代碼列,并通過IF函數(shù)嵌套將M(已婚)設(shè)置為1、S(未婚)設(shè)置為2,D(離異)設(shè)置為3、W(喪偶)設(shè)置為4;
添加年齡層次代碼列,并通過IF函數(shù)嵌套將18歲以下設(shè)置為1、18-30歲設(shè)置為2,30-50歲設(shè)置為3、50歲以上設(shè)置為4;
添加過去三年平均年收入層次代碼列,并通過IF函數(shù)嵌套將1w以下設(shè)置為1、1w-3w設(shè)置為2,3w-5w設(shè)置為3、5w-10w設(shè)置為4、10w-100w設(shè)置為5、100w以上設(shè)置為6;
原數(shù)據(jù)218480行16列,清洗數(shù)據(jù)103029行15列。
分析過程:選擇分析工具欄下的比較均值的獨(dú)立樣本T檢驗(yàn)工具,檢驗(yàn)變量設(shè)置為過去三年的平均年收入,分組變量設(shè)置為性別,選項(xiàng)中將置信區(qū)間百分比設(shè)置為95%。結(jié)果如圖1-圖2。
圖1 以性別為分組的過去三年平均年收入組統(tǒng)計(jì)描述
圖2 獨(dú)立樣本檢驗(yàn)
結(jié)論:觀察組統(tǒng)計(jì)表可以初步得出,不同性別的客戶過去三年平均年收入的平均值和標(biāo)準(zhǔn)誤差平均值相差不大,但標(biāo)準(zhǔn)差的差異比較明顯。觀察獨(dú)立樣本檢驗(yàn)表得出,方差齊次性檢驗(yàn)的顯著性sig=0.004<0.05說明應(yīng)該拒絕原假設(shè),即方差不具有齊次性,因此觀察不假定等方差的t檢驗(yàn)結(jié)果,其中顯著性(雙尾)sig=0.000<0.05說明應(yīng)該拒絕原假設(shè),即不同性別的客戶在過去三年平均年收入存在明顯差異[2]。
分析過程:依次點(diǎn)擊分析、相關(guān)、雙變量,將總保費(fèi)和年齡放入變量框中,因?yàn)榭偙YM(fèi)和年齡都為刻度級數(shù)據(jù),故相關(guān)系數(shù)勾選皮爾遜,點(diǎn)擊確定。結(jié)果如圖3所示。
圖3 總保費(fèi)與年齡的皮爾遜相關(guān)性描述
結(jié)論:因?yàn)橄嚓P(guān)系數(shù)|r|在0.8-1.0之間是極強(qiáng)相關(guān),0.6-0.8之間是強(qiáng)相關(guān),0.4-0.6之間是中等程度相關(guān),0.2-0.4之間是弱相關(guān),0.0-0.2則是極弱相關(guān)或無相關(guān)[3]。且在此相關(guān)性表格下方有注明“**”表示相關(guān)性在0.01上是顯著的[4]。所以根據(jù)Pearson相關(guān)性分析結(jié)果可以得到總保費(fèi)和年齡的相關(guān)系數(shù)是0.062,即|r|=0.062,且右上角有兩個(gè)星號,說明總保費(fèi)和年齡的相關(guān)性是顯著的,為極弱正相關(guān)。
分析過程:先在變量視圖中對婚姻狀況代碼設(shè)置值標(biāo)簽說明(如圖4),再依次點(diǎn)擊分析、比較平均值、單因素ANOVA檢驗(yàn)打開單因素檢驗(yàn)設(shè)置框,將總保費(fèi)放入因變量列表中、婚姻狀況代碼放入因子中,點(diǎn)擊選項(xiàng)并勾選方差齊性檢驗(yàn),點(diǎn)擊繼續(xù)[5],點(diǎn)擊事后比較并在假定等方差中勾選LSD、在不假定等方差中勾選T2,點(diǎn)擊繼續(xù),點(diǎn)擊對比并設(shè)置系數(shù)依次為3、-1、-1、-1(即將已婚類別與未婚、離異和喪偶類別進(jìn)行對比),點(diǎn)擊繼續(xù),點(diǎn)擊確定。
結(jié)果如圖4所示。
圖4 方差齊次性檢驗(yàn)
圖5 各類別多重比較不假定等方差
結(jié)論:根據(jù)方差齊性檢驗(yàn)表可以看出顯著性為0.015<0.05,所以應(yīng)該拒絕原假設(shè)假定方差相等,即方差不具有齊次性;再觀察對比檢驗(yàn)表的不假定等方差行的數(shù)據(jù),顯著性為0.014<0.05,說明應(yīng)該拒絕原假設(shè),表明各類婚姻狀況的客戶繳納的總保費(fèi)存在顯著差異,故應(yīng)該查看塔姆黑尼多重比較表[6]。表中第1列數(shù)據(jù)的右上角帶有*說明該分類的類別與對應(yīng)類別具有顯著差異。得出以下結(jié)論:各類婚姻狀況的客戶繳納的總保費(fèi)中已婚與離異之間有顯著差異,與未婚、喪偶之間沒有顯著差異;未婚與離異之間有顯著差異,與喪偶之間沒有顯著差異;離異與喪偶之間沒有顯著差異;喪偶與其余3種婚姻狀況都沒有顯著差異。
3.4.1 過去三年平均年收入與性別的探索分析
分析過程:點(diǎn)擊分析工具欄中描述統(tǒng)計(jì)選項(xiàng)卡下的探索選項(xiàng),將過去三年平均年收入放入因變量列表中、性別放入因子列表中,點(diǎn)擊確定,進(jìn)行探索分析[7]。
結(jié)果如圖6所示。
圖6 以性別為分類的過去三年平均年收入統(tǒng)計(jì)描述
圖7 以性別為分類的過去三年平均年收入直方圖
結(jié)論:
由描述性統(tǒng)計(jì)結(jié)果可看出男性的平均收入高于女性,但兩者的中位數(shù)都為10000,且男性、女性的峰度都大于零,說明男性近三年年收入中,相較于女性收入波動更大,范圍更廣。男性、女性的偏度也都大于零,表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布相比為右偏,數(shù)據(jù)右端有較多的極端值。男性偏度值大于女性說明男性近三年平均年收入中有更多的高收入人群。因數(shù)據(jù)梯度太大,離散程度太大,故通過分段將收入水平分為了6個(gè)層次進(jìn)行總體分析。不難看出大多數(shù)男性和女性的近三年平均年收入分布在17000-32000,且男性女性總體的收入差異不大,但男性收入會稍多一些。
3.4.2 保額、總保費(fèi)與年齡的探索分析
分析過程:利用函數(shù),現(xiàn)將年齡段分類:=IF(I2<=18,1,IF(I2<=30,2,IF(I2<=50,3,4))),再設(shè)置SPSS中的變量視圖中更改值字段:(0,18]=1,(18,30]=2,(30,50]=3,(50,50+)=4。點(diǎn)擊探索分析,將保額、總保費(fèi)設(shè)置為因變量,年齡設(shè)置為因子,進(jìn)行探索分析。結(jié)果如圖8所示。
圖8 18歲以下及18-30歲的保額統(tǒng)計(jì)描述
圖9 30-50歲及50歲以上的總保費(fèi)統(tǒng)計(jì)描述
結(jié)論:
由圖分析可知,保額和年齡有很大的關(guān)系。當(dāng)年齡范圍偏小時(shí),隨著年齡的增大保額增大,當(dāng)年齡到達(dá)30歲區(qū)間范圍后,隨著年齡的增大,保額開始逐步減少,年齡越大,保額越少。而總保費(fèi)隨著年齡的增長而增加,年齡越高,保障的成本也越高。同樣的保額,肯定是年齡大的買貴??偟膩碚f年紀(jì)越小買,保費(fèi)越便宜、性價(jià)比越高。
通過獨(dú)立樣本T檢驗(yàn)的結(jié)果、皮爾遜相關(guān)性分析結(jié)果、單因素方差分析結(jié)果、探索分析結(jié)果可得出以下結(jié)論:
(1)不同性別的客戶過去三年平均年收入的平均值相差不大,但總體存在顯著差異。
(2)保費(fèi)和年齡的相關(guān)性是顯著的,總保費(fèi)隨著年齡的增長而增加??偟膩碚f年紀(jì)越小買,保費(fèi)越便宜、性價(jià)比越高。同時(shí),隨著年齡的增大保額增大,當(dāng)年齡到達(dá)30歲以后,保額開始呈減少狀態(tài),年齡越大,保額越少。
(3)各類婚姻狀況的客戶繳納的總保費(fèi)中已婚與離異之間有顯著差異,與未婚、喪偶之間沒有顯著差異;未婚與離異之間有顯著差異,與喪偶之間沒有顯著差異;離異與喪偶之間沒有顯著差異;喪偶與其余3種婚姻狀況都沒有顯著差異。
(4)近三年年收入中,男性收入相較于女性收入的波動更大,范圍更廣。男性近三年平均年收入中有更多的高收入人群。男性女性總體的近三年平均年收入差異不大,但男性收入會稍多一些。
針對男性客戶過去三年平均年收入比較高的客戶,在客戶有意愿的情況下可以推薦多個(gè)險(xiǎn)種的保險(xiǎn),增加客戶的受保幾率和公司的保險(xiǎn)訂單;針對不同的年齡階段的客戶制定不同的購買保險(xiǎn)的計(jì)劃,盡可能將各個(gè)年齡階段的客戶都納入有保險(xiǎn)可購買的情況下,并且根據(jù)不同的年齡階段制定不同的保費(fèi)和保額[10];建議給已婚或者再婚的客戶推薦一種家庭保險(xiǎn)或者推薦家庭幾個(gè)人一起買某種保險(xiǎn),送出福利或者打折或者提升保額等優(yōu)惠操作;給未婚、離異或者喪偶的客戶推薦保費(fèi)較低的險(xiǎn)種;建議客戶可以在能力范圍之內(nèi)盡早的購買適合的保險(xiǎn)為自己或者家人的未來做一個(gè)規(guī)劃。