[摘 要] 客戶分類是企業(yè)客戶關(guān)系管理的重要基礎(chǔ)。本文給出了一種提取客戶分類規(guī)則的方法,利用自組織映射神經(jīng)網(wǎng)絡(luò)對客戶購買屬性RFM(Recency Frequency Monetary)進(jìn)行聚類以確定客戶價(jià)值,并利用粗糙集理論完成規(guī)則提取,為客戶分類提供了一種新的思路。通過實(shí)例驗(yàn)證了這種方法能夠有效地對客戶進(jìn)行細(xì)分、提取分類規(guī)則,并提高了分類準(zhǔn)確性。
[關(guān)鍵詞] 客戶分類 RFM SOM神經(jīng)網(wǎng)絡(luò) 粗糙集 規(guī)則提取
客戶價(jià)值分類是企業(yè)制定有效營銷策略的基礎(chǔ)。企業(yè)根據(jù)客戶價(jià)值大小分配有限的營銷資源,實(shí)施相應(yīng)的客戶保持策略,提升客戶忠誠度,從而實(shí)現(xiàn)營銷效益最大化。RFM模型是Hughes于1994年提出的,它依據(jù)三個(gè)簡單的屬性表示客戶的價(jià)值,從而實(shí)現(xiàn)對客戶的分類。其基本思想是根據(jù)客戶以往的購買行為來判斷客戶對企業(yè)的價(jià)值,通過三個(gè)客戶行為指標(biāo),即最近購買時(shí)間R(Recency)、購買頻率F(Frequency)和購買總金額M(Monetary Value)來預(yù)測客戶對企業(yè)促銷活動(dòng)響應(yīng)的可能性,或確定客戶的價(jià)值。本文利用衡量客戶價(jià)值的RFM模型,在自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)獲得客戶價(jià)值判斷表的基礎(chǔ)上,利用粗糙集理論提取客戶價(jià)值判斷規(guī)則。
一、利用SOM確定客戶價(jià)值
1.SOM網(wǎng)絡(luò)確定客戶價(jià)值的原理
SOM網(wǎng)絡(luò)競爭層的神經(jīng)元是被組織成二維網(wǎng)格的信息映射單元,能實(shí)現(xiàn)樣本數(shù)據(jù)的無監(jiān)督聚類,在訓(xùn)練過程中反復(fù)地學(xué)習(xí)輸入的模式向量,對于每個(gè)輸入模式X=[x1,x2,…,xn]T,獲勝神經(jīng)元 j*及其領(lǐng)域內(nèi)的神經(jīng)元的權(quán)值都不同程度地被修改,使其在距離上趨近于該輸入模式。訓(xùn)練結(jié)束后,競爭層的每個(gè)神經(jīng)元的權(quán)值各自代表一類模式,從聚類的觀點(diǎn)看,樣本集就被分成了M類,每一類樣本在一定的距離測度上趨于最小。
基于上述原理,以競爭層每個(gè)神經(jīng)元的權(quán)值代表一類模式,根據(jù)客戶價(jià)值的劃分可確定模式的個(gè)數(shù)k。由于每個(gè)競爭層神經(jīng)元權(quán)值代表了一種客戶價(jià)值,由權(quán)值向量與原點(diǎn)的距離代表價(jià)值的大小,并據(jù)此確定所有客戶的價(jià)值。
2.確定客戶價(jià)值的算法
設(shè)客戶價(jià)值數(shù)據(jù)集有m個(gè)樣本,每個(gè)樣本由R-F-M三個(gè)屬性表示,即樣本集為(s1,s2,…sm)。用SOM神經(jīng)網(wǎng)絡(luò)算法將所有樣本數(shù)據(jù)分成k類,并確定每類對應(yīng)的價(jià)值大小,從而實(shí)現(xiàn)所有客戶的忠誠度?;赟OM網(wǎng)絡(luò)算法的客戶價(jià)值分類的過程可描述如下:
(1)根據(jù)SOM網(wǎng)絡(luò)算法對客戶價(jià)值數(shù)據(jù)進(jìn)行聚類,得到k個(gè)競爭層神經(jīng)元權(quán)值向量ci(i=1,2,…k)。
(2)分別計(jì)算競爭層神經(jīng)元權(quán)值向量與原點(diǎn)的距離di(i=i=1,2,…k),存入向量D中,并根據(jù)di的大小順序關(guān)系建立一個(gè)k維索引向量p,其元素pi等于即di在D中大小順序號。
(3)確定客戶的價(jià)值。利用訓(xùn)練好的SOM網(wǎng)絡(luò)計(jì)算客戶所屬類別,即得到與其最近的權(quán)值向量ci,再用i去檢索向量P,則向量P的第i個(gè)元素pi的值就是該客戶的價(jià)值。
(4)對每個(gè)客戶重復(fù)步驟(3),得到所有客戶樣本數(shù)據(jù)的價(jià)值,即客戶忠誠度。
二、基于粗糙集的規(guī)則提取
1.粗糙集的基本概念
粗糙集(Rough Set)理論是由波蘭數(shù)學(xué)家Z.Pawlak 在上世紀(jì)80年代初提出的一種處理不完整性和不確定性問題的新型數(shù)學(xué)工具,它的主要思想是利用已知的知識庫,將不精確或不確定的知識用已知的知識庫中的知識來(近似)刻畫。該理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,所以對問題的不確定性的描述或處理可以說是比較客觀的。
2.基于粗糙集的規(guī)則提取
根據(jù)粗糙集屬性約簡理論,可以得出下列規(guī)則提取算法:
(1)求條件屬性集相對于決策屬性的屬性核。
(2)根據(jù)屬性核刪除冗余屬性,求條件屬性集的最小簡化,并刪除重復(fù)實(shí)例。
(3)對于每個(gè)實(shí)例求其屬性值的值核。
(4)對于每個(gè)實(shí)例刪除多余的屬性值,求取其最小值簡化。
(5)刪除簡化信息表中的重復(fù)實(shí)例,總結(jié)出分類規(guī)則。
三、應(yīng)用實(shí)例
為了對客戶分類規(guī)則提取方法的可行性進(jìn)行驗(yàn)證,對SQL Server 2000示例數(shù)據(jù)庫Foodmart中1998年1月~6月共計(jì)18172條銷售記錄進(jìn)行實(shí)例研究。
1.客戶數(shù)據(jù)預(yù)處理
以客戶為單位,提取其所有購買日期的最近日期(Recency),匯總其購買頻度(Frequency)和購買總金額(Money)共三個(gè)屬性,得到了6291個(gè)客戶的匯總數(shù)據(jù)。將客戶R-F-M屬性分別量化成五個(gè)等級1、2、3、4和5,分別對應(yīng)客戶的忠誠度很低、低、中、高、很高,其中1為最低等級(對應(yīng)的忠誠度最低),5為最高(對應(yīng)忠誠度最高)。量化規(guī)則如表1所示,根據(jù)該忠誠度量化規(guī)則,對每個(gè)客戶R-F-M屬性進(jìn)行量化,部分量化結(jié)果如表2所示。
2.SOM網(wǎng)絡(luò)分類客戶價(jià)值
將6291個(gè)客戶聚成五類,分別對應(yīng)不同的忠誠度。根據(jù)客戶數(shù)據(jù)的特點(diǎn),設(shè)定SOM網(wǎng)絡(luò)的競爭層神經(jīng)元個(gè)數(shù)為5,訓(xùn)練步數(shù)為3,客戶忠誠度如表4所示。
3.客戶分類規(guī)則提取
通過對客戶R-F-M屬性的量化,并用SOM神經(jīng)網(wǎng)絡(luò)算法進(jìn)行聚類,確定了每個(gè)客戶的忠誠度,如表3所示,表中每個(gè)記錄可視為判斷客戶忠誠度的一條規(guī)則。由于每個(gè)條件屬性RFM都只有5個(gè)級別,因此理論上最多只有125個(gè)規(guī)則。屬性R、F、M是條件屬性,作為算法的輸入,忠誠度Royal是決策屬性,作為算法的輸出。通過上述基于粗糙集的規(guī)則提取算法可以得到42條規(guī)則,部分規(guī)則如表4所示。
其中,“*”表示對應(yīng)的屬性對該條規(guī)則不重要。對該數(shù)量化表示的規(guī)則進(jìn)行轉(zhuǎn)化,得到最終簡化了的規(guī)則,部分規(guī)則如表5所示。
4.結(jié)果分析
利用簡化后的42條規(guī)則對6291個(gè)客戶分別進(jìn)行忠誠度驗(yàn)證,其中,正確判斷的有6068個(gè)客戶,正確率為96.46%。針對同樣的數(shù)據(jù)集,利用BP神經(jīng)網(wǎng)絡(luò),則只可獲得90.65%的正確率,利用決策樹可以獲得91.34%的正確率。在計(jì)算速度方面,本方法大大高于BP神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明了該方法在精度和速度上都是可行的。本文利用RFM模型作為客戶分類的依據(jù),采用SOM神經(jīng)網(wǎng)絡(luò)完成客戶的細(xì)分,確定客戶的忠誠度,得到了客戶價(jià)值的判斷規(guī)則,利用粗糙集實(shí)現(xiàn)了規(guī)則的簡化和提取,為快速判定客戶價(jià)值或忠誠度提供了一種新的思路。
參考文獻(xiàn):
[1]HUGHES A. M. Strategic database marketing[M].Chicago:Probus Publishing Company.1994
[2]楊建剛:人工神經(jīng)網(wǎng)絡(luò)實(shí)用教程[M].杭州:浙江大學(xué)出版社,2001.1:122
[3]PAWLAK Z. Rough sets[M].Informational Journal of Computer and Information Sciences, 1982,11(5), 341~356