程汝嬌,徐鴻雁
(西南財經(jīng)大學(xué)天府學(xué)院,綿陽 621000)
基于RFM模型的半監(jiān)督聚類算法①
程汝嬌,徐鴻雁
(西南財經(jīng)大學(xué)天府學(xué)院,綿陽 621000)
客戶分類作為客戶關(guān)系管理(CRM)的重要管理方法,是企業(yè)進(jìn)行市場營銷的重要依據(jù).通過對客戶進(jìn)行分類,有利于對客戶價值進(jìn)行準(zhǔn)確評估,方便進(jìn)行精準(zhǔn)營銷.本文通過對RFM模型數(shù)據(jù)集本身潛藏的先驗結(jié)構(gòu)化信息進(jìn)行研究,標(biāo)記出兩組客戶數(shù)據(jù)作為先驗類別標(biāo)記,進(jìn)而得到兩個初始聚類中心.基于傳統(tǒng)K-means算法使用自適應(yīng)方法確定K值和初始聚類中心.引入Must-link和Cannot-link兩種約束將類別標(biāo)記轉(zhuǎn)換為成對約束信息,基于HMRF-KMeans成對約束,引入約束懲罰項和約束獎勵項,實(shí)現(xiàn)對聚類引導(dǎo)和聚類結(jié)果的調(diào)整.使用改進(jìn)的半監(jiān)督聚類算法(RFM-SS-means)對標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行了測試,同時使用Food mart數(shù)據(jù)集對比了RFM-SS-means算法與傳統(tǒng)K-means算法、two-steps算法的聚類效果.由實(shí)驗結(jié)果可知,RFM-SS-means的CH系數(shù)最大,無需事先確定K值和初始聚類中心,聚類效果良好.
客戶分類;半監(jiān)督聚類;K-means;RFM模型
隨著信息科技的不斷進(jìn)步,企業(yè)經(jīng)驗與管理的理念不停在發(fā)生變化,企業(yè)營銷經(jīng)歷了從“以產(chǎn)品為中心”到“以服務(wù)為中心”,再從“以服務(wù)為中心”到“以客戶為中心”不斷變遷[1,2].客戶關(guān)系管理(Customer Relationship Management,CRM)成為最主流的“以客戶為中心”的管理理念之一,適應(yīng)企業(yè)發(fā)展的需求,近年來備受關(guān)注.客戶分類作為CRM的重要管理工具,它是企業(yè)進(jìn)行市場營銷的重要依據(jù)[3-6].它對客戶群體進(jìn)行劃分,方便確定高價值顧客,從而幫助企業(yè)重點(diǎn)關(guān)注高價值顧客群體[5].在眾多的CRM的分析模式中,RFM模型備受矚目,被各個不同領(lǐng)域廣泛使用.RFM模型的參考變量是消費(fèi)者消費(fèi)行為的數(shù)據(jù),不涉及客戶私人隱私且容易得到,且此模型比較簡單便捷,實(shí)踐起來也比較有效.RFM模型是根據(jù)客戶購買行為進(jìn)行客戶價值評估的模型,其通過 R(recency)、F(frequency)、M(monetary)三個變量,即最后一次購物時間R、某期間內(nèi)的購買次數(shù)F以及某期間內(nèi)客戶花費(fèi)總金額M來描述客戶行為價值[7].傳統(tǒng)的基于RFM模型的分類具有劃分群組過多、消費(fèi)的次數(shù)(F)和總金額(M)二者間有著共線性以及不同簇之間差距不大等缺點(diǎn),近年來客戶分類方法主要有K-means、Two-step及Kohonen神經(jīng)網(wǎng)絡(luò)算法等[8-12],這些算法往往自身存在不足,例如對初始聚類中心以及聚類數(shù)目的選取比較敏感、對離群點(diǎn)敏感、不適用于大數(shù)據(jù)等[9].其中,K-means是基于劃分的算法,其運(yùn)行速率較快且具有很高的運(yùn)行效率,它的復(fù)雜程度為O(nkt),其中,n為數(shù)據(jù)庫中實(shí)體數(shù),t是迭代次數(shù),k為簇的數(shù)目,一般來說,klt;lt;n,tlt;lt;n.K-means算法對大量數(shù)據(jù)集的處理,依然有著較高的效率和伸縮性,但劃分?jǐn)?shù)目K是K-means算法必要的輸入的變量,它對運(yùn)算結(jié)果影響較大且很難確定,隨機(jī)確立的初始聚類中心也會導(dǎo)致大相徑庭的甚至錯誤的聚類結(jié)果[13].同時,傳統(tǒng)的聚類算法由于未考慮客戶數(shù)據(jù)結(jié)構(gòu)的特征,從而導(dǎo)致聚類過程存在盲目性.本文采用半監(jiān)督聚類算法對客戶分類展開研究,旨在減少或彌補(bǔ)上述客戶分類算法的不足.
半監(jiān)督聚類算法是在聚類算法的基礎(chǔ)上進(jìn)行的,它的核心在于標(biāo)記信息的處理以及標(biāo)記信息與聚類算法的結(jié)合,即如何利用標(biāo)記信息來控制或引導(dǎo)聚類的過程或者調(diào)整聚類結(jié)果,使得聚類結(jié)果最大程度上按照用戶的意愿進(jìn)行.
半監(jiān)督聚類算法在實(shí)際應(yīng)用中標(biāo)記樣本的方法主要有Wagstaff提出的Must-link和Cannot-link約束方法[14].假定給定數(shù)據(jù)集D,已知P、Q∈D,如果認(rèn)為P、Q應(yīng)當(dāng)在同一類中,則Must-link(P,Q)=True,如果認(rèn)為兩者不應(yīng)當(dāng)在同一類中,則Cannot-link(P,Q)=True.Must-link和Cannot-link具有如下性質(zhì).
性質(zhì)1.對稱性.設(shè)D為數(shù)據(jù)集,P、Q∈D,則如下兩式成立:
性質(zhì)2.有限的傳遞性.設(shè)D為數(shù)據(jù)集,P、Q、R∈D,則下式成立:
Kotler作為客戶營銷戰(zhàn)略的倡導(dǎo)者認(rèn)為關(guān)系營銷的重心要放在如何和最有價值的少部分顧客建立長期并為公司帶來利潤的關(guān)系[15],而Morgan和Hunt更明確指出顧客價值已經(jīng)成為顧客關(guān)系營銷的一個中心和重點(diǎn)[16],Wyner也指出企業(yè)80%的利潤是來自于20%的顧客,而其余20%的利潤,卻花了公司80%的營銷費(fèi)用[17].
在進(jìn)行RFM模型的客戶數(shù)據(jù)結(jié)構(gòu)分析時,我們可以發(fā)現(xiàn)該模型的三個評價R、F、M指標(biāo)存在多重共線性,例如一個消費(fèi)額大的客戶通常消費(fèi)頻率較高,同時近期內(nèi)有購買記錄的可能性也較大.我們參考傳統(tǒng)的RFM模型劃分方式,將F、M兩個影響因子從大到小排序,分別各選取前20%的兩組客戶數(shù)據(jù)集,然后再將R從近到遠(yuǎn)排序,選擇前20%的客戶數(shù)據(jù)集,這樣我們就得到三組客戶數(shù)據(jù),然后篩選出在三組客戶群組中都存在的客戶,組成一個客戶集D1.同理,將F、M兩個影響因子從小到大排序,各選取前20%的兩組客戶數(shù)據(jù),然后再將R從遠(yuǎn)到近排序,選擇前20%的客戶數(shù)據(jù),這樣我們就得到三組客戶數(shù)據(jù),然后篩選出在三組客戶群組中都存在的客戶,組成一個客戶集合D2.
假設(shè)P1和Q1是屬于D1中的任意兩個數(shù)據(jù),P2和Q2是屬于D2中的任意兩個數(shù)據(jù),即P1、Q1∈D1,P2、Q2∈D2,則 Must-link(P1,Q1)=True,Must-link(P2,Q2)=True,Cannot-link(P1,P2)=True,Cannot-link(P1,Q2)=True,Cannot-link(P2,Q1)=True,Cannot-link(Q1,Q2)=True.通過計算可以得出集合D1和D2的Mustlink集合M和Cannot-link集合C.
利用標(biāo)記信息來控制或引導(dǎo)聚類的過程或者調(diào)整聚類結(jié)果的半監(jiān)督聚類算法能使得聚類結(jié)果最大程度上按照用戶的意愿進(jìn)行,提高其效率和精度.HMRFKMeans[18]是近年來提出的一種半監(jiān)督聚類算法,它基于馬爾科夫隨機(jī)場(Hidden Markov Random Field,HMRF)成對約束,目標(biāo)函數(shù)為:
其中,M,C分別是給定的Must-link集合與Cannotlink集合;mc為聚類中心,wij,分別為違反Mustlink和Cannot-link約束規(guī)則的懲罰權(quán)重.在應(yīng)用成對約束的半監(jiān)督聚類方法中,滿足li=lj的約束集合被稱為Must-link集合.滿足li≠lj的約束集合為稱為Cannot-link集合.HMRF-KMeans算法使用歐式距離或余弦相似度計算權(quán)重.
基于傳統(tǒng)K-means算法自適應(yīng)確定K值的主要思想是:首先使用標(biāo)記出的兩組數(shù)據(jù)集,將該兩組數(shù)據(jù)集的中值作為兩個初始聚類中心;將剩余數(shù)據(jù)對象按照與這兩個初始聚類中心的距離來劃分類;然后將這些距離中距離聚類中心最遠(yuǎn)的點(diǎn)作為新的聚類中心,對所有的數(shù)據(jù)進(jìn)行二次劃分;如此循環(huán)反復(fù),直到滿足條件算法結(jié)束.基于傳統(tǒng)K-means算法自適應(yīng)生成K值的算法流程如圖1所示.
圖1 自適應(yīng)K值方法流程圖
通過對RFM模型客戶數(shù)據(jù)集先驗結(jié)構(gòu)化信息的處理,利用HMRF-KMeans成對約束思想和自適應(yīng)確定傳統(tǒng)K-means算法K值的方法,本文提出一種基于RFM模型的半監(jiān)督聚類算法(Based on RFM model semi supervised K-means,RFM-SS-means),圖2是改進(jìn)后的算法總體流程圖,其中虛線框內(nèi)標(biāo)明的是較傳統(tǒng)K-means算法改進(jìn)的地方.
圖2 改進(jìn)的半監(jiān)督聚類算法(RFM-SS-means)
RFM-SS-means算法挖掘了RFM數(shù)據(jù)集中本身潛藏的先驗信息,使得聚類算法能夠獲取更多的啟發(fā)式信息,從而減少了搜索過程的盲目性,使用標(biāo)記數(shù)據(jù)選取初始聚類中心,避免了隨機(jī)獲取初始聚類中心導(dǎo)致的聚類結(jié)果的不穩(wěn)定性,使用自適應(yīng)確定K值的方法確定聚類數(shù)目,解決了聚類之前必須事先確立K值的不足.基于HMRF-KMeans成對約束,在傳統(tǒng)的目標(biāo)函數(shù)上引入約束懲罰項和約束獎勵項,實(shí)現(xiàn)了對聚類引導(dǎo)和聚類結(jié)果的調(diào)整.
UCI數(shù)據(jù)庫(http://archive.ics.uci.edu/ml/)是一個國際上專業(yè)進(jìn)行機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘算法測試的標(biāo)準(zhǔn)數(shù)據(jù)庫.選擇UCI數(shù)據(jù)庫中的Iris和Wine這兩個標(biāo)準(zhǔn)數(shù)據(jù)集作為測試數(shù)據(jù)集,測試RFM-SS-means算法聚類的準(zhǔn)確性.
以數(shù)據(jù)集Iris為例,根據(jù)分類結(jié)果,選擇Iris每個樣本的三個屬性(花萼長度、花萼寬度和花瓣長度)畫出三維原始數(shù)據(jù)的分類效果圖,實(shí)現(xiàn)可視化的目的,聚類效果如圖3所示.
圖3 RFM-SS-means算法與標(biāo)準(zhǔn)Iris的聚類效果
為了更加準(zhǔn)確的檢驗聚類算法的性能,采用外部有效性評價指標(biāo)FMI指標(biāo)將聚類結(jié)果與“真實(shí)”聚類結(jié)果進(jìn)行比較.隨機(jī)選擇Iris和Wine數(shù)據(jù)集中的15、30、45、60、75、90、105、130、145 個數(shù)據(jù)對象共18組數(shù)據(jù),抽取數(shù)據(jù)對象時從每個類抽取同等數(shù)量的數(shù)據(jù)對象,進(jìn)行準(zhǔn)確性驗證,得到結(jié)果如表1所示.
表1 RFM-SS-means算法的外部有效性評價結(jié)果
FMI指標(biāo)結(jié)果區(qū)間為[0,1],值越大表示聚類效果越好,當(dāng)FMI指標(biāo)為1時,代表分類結(jié)果與“真實(shí)”分類情況完全一致.通過表1可以看出,RFM-SS-means算法在Iris數(shù)據(jù)集上的平均FMI指標(biāo)達(dá)到了0.917,在Wine數(shù)據(jù)集上的FMI指標(biāo)達(dá)到了0.719,具有較高的聚類準(zhǔn)確性.
考慮到UCI標(biāo)準(zhǔn)數(shù)據(jù)集并不具備RFM客戶數(shù)據(jù)集的結(jié)構(gòu)特征,難以發(fā)揮標(biāo)記數(shù)據(jù)的作用,因此使用Food Mart數(shù)據(jù)集對改進(jìn)算法進(jìn)行測試.Food Mart數(shù)據(jù)庫是根據(jù)某食品超市在1998年的售貨記錄得到的,該數(shù)據(jù)庫RFM模型的基本特征.該數(shù)據(jù)庫包含23張原始表,主要的數(shù)據(jù)表為sales_fact_1998(1998 年的商品交易數(shù)據(jù)),customer(顧客屬性信息表,time_data(商品銷售時間信息)等.顧客交易資料中關(guān)鍵字段解釋如表2所示.
表2 Food Mart數(shù)據(jù)庫字段字典
通過對Food Mart數(shù)據(jù)庫中321個客戶的相關(guān)客戶信息、商品銷售信息、商品銷售時間等數(shù)據(jù)表進(jìn)行處理,可以得到RFM模型的三個維度的輸入變量:客戶總消費(fèi)(M)、消費(fèi)次數(shù)(F)和最近消費(fèi)時間間隔(R).運(yùn)用本文前面提到的改進(jìn)方法,對Food Mart數(shù)據(jù)庫客戶數(shù)據(jù)的先驗結(jié)構(gòu)化信息進(jìn)行分析,可以得到兩組消費(fèi)行為迥異的用戶族群,將這兩組客戶數(shù)據(jù)作為先驗類別標(biāo)記,進(jìn)而可以得到RFM-SS-means算法的兩個初始聚類中心.
分別應(yīng)用K-means、two-step和RFM-SS-means算法對客戶群體進(jìn)行分類,根據(jù)三種聚類方法的分類結(jié)果,作出三維原始數(shù)據(jù)的客戶分類效果圖,如圖4所示.
圖4 三種聚類算法聚類效果圖
為了準(zhǔn)確的檢驗聚類算法的性能,采用內(nèi)部檢驗法對三種方法的聚類結(jié)果進(jìn)行效果評價,即分別計算出不同聚類結(jié)果的CH系數(shù),得到如表3所示結(jié)果.
CH系數(shù)是基于對觀測數(shù)據(jù)的組內(nèi)距離差矩陣與組間距離差矩陣的測度,CH系數(shù)的值越大,則表明分類效果就越好.從表3可以得到Two-step、K-means與RFM-SS-means算法的CH系數(shù)分別為8.52,9.14,9.31,可以看出本文提出的半監(jiān)督聚類算法聚類效果最優(yōu).
表3 不同聚類算法聚類效果的內(nèi)部檢驗法評價(CH系數(shù))
本文提出了一種基于RFM模型和K-means算法的半監(jiān)督聚類算法(RFM-SS-means).通過對客戶數(shù)據(jù)集中本身潛藏的先驗結(jié)構(gòu)化信息進(jìn)行研究,標(biāo)記出兩組客戶數(shù)據(jù)作為類別標(biāo)記,進(jìn)而計算出兩個初始聚類中心,同時采用自適應(yīng)方法自動確定K值和初始聚類中心,解決了傳統(tǒng)算法中K-means算法的K值和初始聚類中心難以確定的不足.引入Must-link和Cannotlink兩種約束將類別標(biāo)記轉(zhuǎn)換為成對約束信息,基于HMRF-KMeans成對約束,在傳統(tǒng)的目標(biāo)函數(shù)上引入約束懲罰項,從而實(shí)現(xiàn)對聚類引導(dǎo)和聚類結(jié)果的調(diào)整,提高了聚類實(shí)現(xiàn)的效率.本文提出的RFM-SS-means算法可用于企業(yè)對客戶群體的分類,有利于企業(yè)針對不同客戶群體開展精準(zhǔn)的營銷活動,提高企業(yè)的營業(yè)收入和利潤.
2 何榮勤.CRM原理·設(shè)計·實(shí)踐.北京:電子工業(yè)出版社,2003:3–12.
3 Gloy BA,Akridge JT,Preckel PV.Customer lifetime value:An application in the rural petroleum market.Agribusiness,1997,13(3):335–347.[doi:10.1002/(ISSN)1520-6297]
4 馬椿榮.消費(fèi)者價值研究理論綜述.商業(yè)時代,2014,(10):60–61.[doi:10.3969/j.issn.1002-5863.2014.10.025]
5 Hughes AM.Strategic database marketing:The masterplan for starting and managing a profitable,customer-based marketing program.Irwin Professional,1994.
6 Duboff RS.Marketing to maximize profitability.The Journal of Business Strategy,1992,13(6):10–13.[doi:10.1108/eb039521]
7 Cheng CH,Chen YS.Classifying the segmentation of customer value via RFM model and RS theory.Expert Systems with Application,2009,36(3):4176–4184.[doi:10.1016/j.eswa.2008.04.003]
8 徐翔斌,王佳強(qiáng),涂歡,等.基于改進(jìn)RFM模型的電子商務(wù)客戶細(xì)分.計算機(jī)應(yīng)用,2012,32(5):1439–1442.
9 閆相斌,李一軍,葉強(qiáng).基于購買行為的客戶分類方法研究.計算機(jī)集成制造系統(tǒng),2015,11(12):1769–1774.
10 鄭茜茜.基于數(shù)據(jù)挖掘的客戶細(xì)分研究[碩士學(xué)位論文].重慶:重慶交通大學(xué),2013:8–10.
11 劉芝怡,陳功.基于改進(jìn)K-means算法的RFAT客戶細(xì)分研究.北京理工大學(xué)學(xué)報,2014,38(4):531–536.
12 潘玲玲,張育平,徐濤.核DBSCAN算法在民航客戶細(xì)分中的應(yīng)用.計算機(jī)工程,2012,38(10):70–73.[doi:10.3969/j.issn.1000-3428.2012.10.020]
13 張建萍,劉希玉.基于聚類分析的K-means算法研究及應(yīng)用.計算機(jī)應(yīng)用研究,2007,24(5):166–168.
14 Wagstaff K,Cardie C.Clustering with instance-level constraints.Proc.of the 17th International Conference on Machine Learning.San Francisco,CA,USA.2000.1103–1110.
15 Kotler P.Marketing management.Upper Saddle River,NJ:Prentice Hall,2000.
16 Morgan RM,Hunt SD.The commitment-trust theory of relationship marketing.Journal of Marketing,1994,58(3):20–38.[doi:10.2307/1252308]
17 Wyner GA.Customer valuation:Linking behavior and economics.Marketing Research,1996,8(2):36–38.
18 Basu S,Bilenko M,Mooney RJ.A probabilistic framework for semi-supervised clustering.Proc.of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,NY,USA.2004.59–68.
Semi-Supervised Clustering Algorithm Based on RFM Model
CHENG Ru-Jiao,XU Hong-Yan
(Tianfu College of Southwest University of Finance and Economics,Mianyang 621000,China)
As an important management method of customer relationship management (CRM),the customer classification is the basis for enterprises to carry out marketing.The classification of customers is conducive to accurate assessment of customer value and facilitate the precise marketing.In this paper,we study the priori structured information hidden in the RFM model dataset,and mark two sets of customer data as a priori category mark,and then get two initial clustering centers.Based on the traditional K-means algorithm,the K value and the initial clustering center are determined with the adaptive method.Combining the two types of constraints of Must-link and Cannot-link,the category markers are transformed into pairs of constraint information.Based on HMRF-KMeans pairs,the constraints and constraint bonuses are introduced to improve the clustering guidance and clustering results.The improved semi-supervised clustering algorithm (RFM-SS-means)was used to test the standard data set,and the Food mart data set was also used to compare the RFM-SS-means algorithm with the traditional K-means algorithm and the two-steps algorithm Class effect.From the experimental results,it can be seen that the CH coefficient of RFM-SS-means is the largest,and the clustering effect is good without prior determination of K value and initial clustering center.
customer classification;semi-supervised clustering;K-means;RFM model
程汝嬌,徐鴻雁.基于RFM模型的半監(jiān)督聚類算法.計算機(jī)系統(tǒng)應(yīng)用,2017,26(11):170–175.http://www.c-s-a.org.cn/1003-3254/6078.html
四川省高等教育改革項目([2014]156551)
2017-02-21;修改時間:2017-03-23;采用時間:2017-03-29
10.3969/j.issn.1007-3361.2007.11.031]
?