亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進K-Means算法的保險客戶細(xì)分研究

        2016-12-28 01:22:55張君韜何麗
        現(xiàn)代計算機 2016年33期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        張君韜,何麗

        (天津財經(jīng)大學(xué)理工學(xué)院,天津 300222)

        基于改進K-Means算法的保險客戶細(xì)分研究

        張君韜,何麗

        (天津財經(jīng)大學(xué)理工學(xué)院,天津 300222)

        通過聚類實現(xiàn)客戶細(xì)分,能夠從客戶的人口統(tǒng)計信息和歷史消費行為中發(fā)現(xiàn)客戶的購買偏好和購買行為,這將為保險行業(yè)的營銷決策制定提供重要依據(jù)。針對傳統(tǒng)K-Means算法對于客戶細(xì)分初始條件敏感的弱點,提出基于黃金分割的改進K-Means聚類方法,該方法能夠確定最佳聚類個數(shù),并通過實例驗證該算法在保險客戶細(xì)分中的有效性。

        客戶細(xì)分;保險;K-Means聚類;數(shù)據(jù)挖掘;主成分

        0 引言

        客戶細(xì)分最早由美國著名的市場學(xué)家溫德爾·史密斯(Wendell R·Smith)提出,指企業(yè)按照客戶屬性將客戶群體分為若干個子客戶群體,并實現(xiàn)細(xì)分后不同客戶群體之間的差異最大化,每個客戶群體盡可能的相似。隨著保險市場競爭的日趨激烈,各保險企業(yè)匯集了大量客戶信息和業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)背后隱藏客戶的行為偏好和消費潛力。應(yīng)用數(shù)據(jù)挖掘中的聚類方法可以有效地實現(xiàn)保險客戶的細(xì)分,從而發(fā)現(xiàn)不同客戶群的行為偏好和未來的購買偏好。

        本文針對保險行業(yè)客戶數(shù)據(jù)的特征和客戶分析目標(biāo),提出了基于主成分分析和改進K-Means算的客戶細(xì)分模型,并使用荷蘭數(shù)據(jù)挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的保險客戶數(shù)據(jù)對提出的模型的有效性進行了驗證。

        1 細(xì)分變量提取

        細(xì)分變量選擇是建立客戶細(xì)分模型首先要解決的問題??紤]到保險客戶數(shù)據(jù)一般包含很多屬性,且不同的屬性之間存在一定的相關(guān)性,本文將客戶細(xì)分變量的提取分成兩個主要階段:數(shù)據(jù)預(yù)處理階段和主成分分析階段。

        1.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的主要任務(wù)是對目標(biāo)數(shù)據(jù)集中的數(shù)據(jù)進行清洗、過濾和數(shù)據(jù)格式轉(zhuǎn)換等。保險客戶數(shù)據(jù)庫通常是由保險企業(yè)多個不同險種數(shù)據(jù)庫整合而來的,存在客戶信息的不完整和屬性值取值范圍不一致性等情況。為了實現(xiàn)客戶細(xì)分結(jié)果的準(zhǔn)確有效,需要對客戶數(shù)據(jù)庫中的相關(guān)屬性進行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換等。其中,數(shù)據(jù)清洗過程完成對缺省值、無效值和未知值的處理;數(shù)據(jù)轉(zhuǎn)換完成數(shù)據(jù)泛化過程。所謂泛化處理就是用更高層次的概念來取代低層次的對象。

        1.2 主成分分析

        經(jīng)過預(yù)處理后的客戶屬性少則幾十個,多則上百個,而且這些變量之間可能會存在較強的相關(guān)性而產(chǎn)生冗余。主成分分析是一種對高維數(shù)據(jù)進行降維處理的一種分析方法。通過主成分提取,不僅可以消除相關(guān)性變量所產(chǎn)生的信息冗余,還可以有效降低客戶細(xì)分聚類模型的輸入維度。主成分在代數(shù)學(xué)上是p個隨機變量X1,X2,…,Xp,的一些特殊的線性組合,每個線性組合利用原數(shù)據(jù)變量生成新變量,即主成分。設(shè)隨機向量X=[X1,X2,…,Xp],考慮隨機向量的線性組合如公式(1)。

        主成分是Y1,Y2,…,Yp中方差盡可能大的那些不相關(guān)的線性組合。Y1表示第一主成分,即Var(Y1)最大。一個變量的方差越大,表示其包含的信息越多。為了不丟失原始隨機變量中的有價值信息,一般需要選擇k個主成分(k≥2)。為了保證任意兩個主成分之間不存在信息重合,主成分Yi,Yj,之間的協(xié)方差需要滿足Cov(Yi,Yj)=0,1≤i,j≤k且≠j。

        本文通過主成分分析法來提取客戶數(shù)據(jù)集中的主成分變量和與任何變量都不相關(guān)的變量作為客戶細(xì)分模型的輸入變量。

        2 基于改進K-Means算法的客戶細(xì)分模型

        聚類分析是一種實用的多元統(tǒng)計分析方法,它將一批樣本按照它們在性質(zhì)上的親疏、相似程度進行分類。分類的目標(biāo)是使同一類中的樣本之間具有較大的相似性,不同類樣本之間的相似性盡可能小。K-Means聚類,也稱為動態(tài)聚類算法,是客戶細(xì)分中最常用的聚類算法之一。在傳統(tǒng)的K-Means聚類算法描述中,初始聚類個數(shù)k的取值和初始聚類中心的選擇將直接影響K-Means的聚類結(jié)果,并且K-Means的聚類結(jié)果也無法反映最優(yōu)聚類個數(shù)。本文借鑒“黃金分割”思想,在傳統(tǒng)K-Means算法中引入評價指標(biāo)validty(k),并通過該評價指標(biāo)來確定K-Means的最佳聚類個數(shù)。validty(k)評價指標(biāo)定義如公式(2):

        (1)確定最小、最大聚類個數(shù)k1,k2;

        (2)從k1到k2進行迭代,對每次迭代的k(k1≤k≤k2):

        ①利用傳統(tǒng)K-Means聚類算法算法產(chǎn)生聚類結(jié)果(k,U);

        ②計算聚類有效性的指標(biāo)函數(shù)validty(k);

        (3)從中選取kopt使得聚類有效函數(shù)validty(k)達(dá)到最大;

        (4)輸出最優(yōu)聚類結(jié)果(kopt,Uopt);

        (5)終止。

        3 模型驗證

        本文實證數(shù)據(jù)來源于荷蘭數(shù)據(jù)挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的數(shù)據(jù),共有5822條紀(jì)錄,每條記錄擁有86個屬性,其中載有社會人口信息(屬性1-43)和客戶行為與產(chǎn)品信息(屬性44-86)。社會人口信息來自郵政編碼,同一地區(qū)的客戶具有相同的社會人口屬性。

        3.1 細(xì)分變量選擇

        經(jīng)過檢查本數(shù)據(jù)集存在大量缺失值,但沒有未知值和無效值。為了簡化處理流程,本文對數(shù)據(jù)集中的缺失值全部用0代替。為了完成細(xì)分過程,還需要對年齡和客戶主要類型這兩個屬性進行泛化處理。10個主要客戶類型:Successful Hedonists,Driven Growers,Average Family,Career Loners等分別用數(shù)值1,2,…,10替代;對于年齡屬性,將其泛化成6個不同的區(qū)間:20-30 years,30-40 years,40-50 years,50-60 years,60-70 years,70-80 years,區(qū)間取值分別為1,2,3,4,5,6。

        為了在不丟失信息的前提下降低客戶細(xì)分模型的輸入維度,在數(shù)據(jù)集的屬性結(jié)合應(yīng)用主成分分析,并對相關(guān)性較高的屬性提取主成分,這些主成分和與任何屬性都不相關(guān)的屬性一起作為細(xì)分模型的輸入變量。

        本文調(diào)用SAS Proc Corr過程對數(shù)據(jù)集中86個屬性的相關(guān)性進行分析,其中Number of fire policies與Contribution of fire policies的偏相關(guān)系數(shù)為0.86554,P〈0.05,說明二者有顯著相關(guān)性,Contribution of car policies與Number of car policies的偏相關(guān)系數(shù)為0.91615,P〈0.0001,說明二者也具有顯著相關(guān)性,由此得出保險客戶各險種繳納的保費與各險種的購買數(shù)量顯著相關(guān)。數(shù)據(jù)集中屬性44-64是與保費相關(guān)的屬性,屬性65-85是與保險數(shù)量相關(guān)的屬性,為消除相關(guān)帶來的冗余,本文選取屬性44-64進行主成分分析。根據(jù)屬性之間的相關(guān)性分析結(jié)果,最終篩選出:Customer Subtype,Number of houses、Avg age、Living together、Singles等32個屬性進行主成分分析。

        為了進一步消除相關(guān)變量帶來的信息冗余,接下來應(yīng)用SAS的Proc Princomp過程對這32個屬性進行主成分分析,其中特征值大于0.93的主成分共有17個,這17個主成分分別是:Customer Subtype、Number of houses、Avg age、Medium level education、Home owners、1 car、Average income、Contribution private third party insurance、Contributioncarpolicies、Contribution moped policies、Contribution life insurances、Contribution familyaccidentsinsurancepolicies、Contributionfire policies、Contribution boat policies、Contribution property insurance policies、Contribution social security insurance policies和Number of mobile home policies。這17個屬性將作為客戶細(xì)分模型的最終輸入變量。

        3.3 模型驗證

        為了驗證客戶細(xì)分模型的穩(wěn)定性,本文從5822條數(shù)據(jù)里,選擇2500條作為測試集,并分成兩個測試組。

        第一組:首先把5822條數(shù)據(jù)分成15個類,再根據(jù)這15個類各自的類中心作為測試集進行聚類分析的初始聚類中心,然后調(diào)用SAS的PROC Fastclus過程,并把Replace設(shè)置成NONE,進行分組。

        第二組:直接對測試集2500條記錄進行聚類分析,分成15組。

        表1 客戶細(xì)分結(jié)果

        將測試集上兩次分組的結(jié)果與上述聚類的結(jié)果進行比較發(fā)現(xiàn):三次聚類的客戶比例基本相同,測試第一組的類中心和原始組相同,第二組類中心點與原始組也大致相同。表2中給出了customer subtype屬性在兩次聚類中各組的平均值。從該結(jié)果可以看出,兩組的聚類中心基本接近,說明聚類結(jié)果基本可以接受。

        3.2 細(xì)分結(jié)果

        4 結(jié)語

        本文使用SAS的PROC Fastclus過程實現(xiàn)了KMeans聚類。考慮到樣本數(shù)據(jù)的聚類數(shù)一般比較接近聚類輸入變量的個數(shù)。為了獲得最佳聚類個數(shù),選擇k從2到17,并對每個k值運行5次,計算每次聚類結(jié)果的max validity(k),然后計算每個k值對應(yīng)的max validity(k)平均值。根據(jù)max validity(k)平均值越大越好的原則,最終選擇初始聚類數(shù)k=15。最后獲得的客戶分布如表1所示。

        通過主成分分析方法可以有效消除客戶不同屬性之間的相關(guān)性,改善K-Means聚類結(jié)果的正確性和運行效率。引入validty(k)的K-Means聚類方法克服了傳統(tǒng)K-Means算法需要預(yù)先指定聚類數(shù)的弱點,能夠客觀地確定K-Means算法的最佳聚類個數(shù)。用改進的K-Means聚類分析模型對保險客戶進行細(xì)分研究,能夠獲得正確的客戶分布。根據(jù)客戶細(xì)分的結(jié)果及其特征,保險企業(yè)可以針對不同的客戶群設(shè)計不同的營銷計劃,捆綁多種不同的保險業(yè)務(wù),以增加客戶對企業(yè)產(chǎn)品的擁有率,爭取更多有價值的潛在客戶。

        表2 各簇中心點customer subtype的值

        [1]宋加升,陳琰.改進的K-Means聚類算法在保險客戶信用分析中的算法實現(xiàn).哈爾濱理工大學(xué)學(xué)報[J],2009(2):12-13.

        [2]馬子斌,楊鴻賓.客戶細(xì)分在電信營銷中的應(yīng)用研究[J].計算機系統(tǒng)應(yīng)用,2009(3):105-108.

        [3]趙珩君.客觀聚類在客戶價值細(xì)分中的研究.情報雜志[J],2009,28(3):151-153.

        [4]范英,張忠健,凌君邀.聚類方法在通信行業(yè)客戶細(xì)分中的應(yīng)用[J].計算機工程,2004(12):440-441.

        [5]KE WANG,SENQIANG ZHOU.Mining Customer Value:From Association Rules to Direct Marketing[J].Data Mining and Knowledge Discovery,2005(11),57-79.D

        Research on the Insurance Customer Segmentation Based on Improved K-Means Algorithm

        ZHANG Jun-tao,HE Li

        (School of Science and Technology,Tianjin University of Finance and Economics,Tianjin 300222)

        Customer segmentation by clustering can discover customer purchase preferences and potential buying behaviors from demographic information and the history of consuming behaviors,and these will be the important basis for insurance companies to make decisions.Considering the traditional K-Means algorithm is sensitive to initial conditions for the customer segmentation,proposes an improved K-Means clustering method based on golden section which can determine the optimum number of clusters.Empirical analysis proves that this algorithm is effective in insurance customer segmentation.

        Customer Segmentation;Insurance;K-Means Clustering;Data Mining;Principal Components

        2015年地方高校國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目

        1007-1423(2016)33-0014-04

        10.3969/j.issn.1007-1423.2016.33.003

        張君韜(1995-),男,北京人,本科,研究方向為數(shù)據(jù)挖掘

        2016-09-20

        2016-10-20

        何麗(1969-),女,博士,教授,研究方向為數(shù)據(jù)挖掘、云計算

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        夜夜高潮夜夜爽国产伦精品| 亚洲中文字幕永久网站| 国产亚洲精品在线播放| 国产成人精品免费视频大全软件| 久久久久久国产精品无码超碰动画 | 国产日产久久福利精品一区| 与最丰满美女老师爱爱视频 | 亚洲一区二区岛国高清| 色爱情人网站| 精品国产aⅴ无码一区二区| 自拍亚洲一区欧美另类| 女同性恋看女女av吗| 蜜桃视频一区二区在线观看| 欧洲极品少妇| 亚洲综合网站精品一区二区| 加勒比av在线一区二区| 免费无码不卡视频在线观看| 免费a级毛片无码a| 色优网久久国产精品| 日本午夜精品一区二区三区| 亚欧免费无码aⅴ在线观看| 中文字幕天堂网| 国产精品av网站在线| 亚洲精品无码av人在线观看国产| 天堂8中文在线最新版在线| 国产精品美女黄色av| 国产毛片视频一区二区三区在线| 国产成人精品999视频| 久久亚洲av永久无码精品| 国产高清精品在线二区| 日本av一区二区三区在线| 成人免费看片又大又黄| 国产在线一区二区三区av| 日韩精品人妻视频一区二区三区| 亚洲人成精品久久久久| 天天爱天天做天天爽| 免费观看在线视频一区| 亚洲在线视频免费视频| 无码国产午夜福利片在线观看| 亚洲片在线视频| 偷拍视频网址一区二区|