吳興蛟+吳晟+周海河+劉光榕
摘 要:為了解決數據高維、海量導致聚類算法處理效果不佳的問題,提出將流形學習理論引入客戶關系管理進行聚類研究。為了較好的分析客戶價值,在Kmeans聚類的基礎上引入流形學習理論。客戶價值分析一般包含數據的抽取、探索以及預處理、模型建立幾個步驟。在模型建立過程中一般采用Kmeans聚類實現。使用流形學習的譜聚類來替代Kmeans聚類。使用泰迪杯數據挖掘大賽中的數據進行試驗,通過實驗的雷達圖可以看出,譜聚類與Kmeans聚類具有相似的分類構成。同時對于分類后的數據進行規(guī)約并繪制散點圖,比較后發(fā)現,譜聚類后的數據類間相似度比Kmeans高,表明將流形學習方法引入客戶價值分析,對于聚類穩(wěn)定性有一定改善。
關鍵詞:客戶關系管理;流形學習;Kmeans聚類;雷達圖;客戶價值分析
DOIDOI:10.11907/rjdk.172314
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2018)002-0136-04
0 引言
客戶管理通常通過構建客戶關系管理系統(tǒng)進行維護[1]??蛻絷P系管理一般用來進行客戶與企業(yè)的關系維持,企業(yè)與客戶的供需推廣。使用客戶關系管理可以預防用戶流失,也是一種衡量用戶服務程度的科學有效方式。在大數據背景下,隨著數據挖掘技術的成熟,使用有效的挖掘手段,從有價值的客戶中尋找高價值客戶群成為一種降低企業(yè)成本,實現高效益的有效手段。數據挖掘關鍵技術是聚類算法,一般采用kmeans算法進行客戶群聚類,但現行的kmeans聚類對于高維、海量數據聚類有一定缺陷。
為了改善這一缺點,本文將流形學習引入,替代之前的Kmeans聚類,從而實現在高維海量數據下對客戶進行聚類。聚類算法研究有基于層次、基于分割、基于密度、基于網格和基于模型五個方面[2-4]。引入流形學習不僅解決了高維數據處理的難題,也極大簡化了非線性數據的處理。
引入流形學習對客戶關系進行分析與研究,是一種新的改善聚類算法的嘗試,也是一種運用流形學習算法的新方式。
1 相關理論
1.1 客戶群體聚類分析
企業(yè)用戶數據源或數據庫中存有的那些用戶消費數據是一種無形財富,按用戶的不同屬性(年齡、性別、收入、交易特點)細分為不同群體的過程就是所謂的客戶群體聚類。一般來說,對那些業(yè)務產品以及業(yè)務需求相似的一類群體,會分為同一個群組用戶。換言之,不同的群體之間具有不同的特點,通過客戶細分,企業(yè)就能將繁雜的人員進行匯總,將用戶群體分為固定的幾類。公司決策層就能制定不同的營銷策略以實現高回報的營銷推廣。相關研究如陳鳳潔[5]運用聚類技術建立了客戶細分模型,對電信行業(yè)客戶細分進行了實例驗證及研究。一種多因素分析(MFA)的多準則聚類技術被Abascal等[6]運用于某電信公司的客戶細分模型構建。
使用Clementine[7]、SPSS等數據挖掘軟件進行管理較多。根據產生的模型或數據建立合理的用戶細分預測模型[8],利用數據挖掘聚類技術進行應用推廣[9]。
1.2 流形學習
流形聚類是解決高維大數據問題的算法,近幾年不斷被優(yōu)化,已日漸完善,算法有ISOMAP、LLE[10]、拉普拉斯算子特征映射(Laplacian eigenmaps)[11]、最大方差展開(MVU)[12-14]、局部切空間分析(LTSA)[15-16]等。其中比較典型的是譜聚類算法,譜聚類就是使用樣本間的相似度進行樣本分組的一種方式。
譜聚類[17-18]步驟:①計算每個數據節(jié)點與其余數據節(jié)點的相關系數,構建相似度矩陣;②將相似度矩陣進行拉普拉斯矩陣構建,然后將構建的矩陣歸一化;③生成最大的k個特征值和對應的特征向量;④將特征向量使用Kmeans方法聚類。
2 模型建立
對客戶關系進行聚類分析的步驟如圖1所示。
2.1 數據抽取
抽取一定時間段內的數據作為分析觀測窗口。
2.2 數據探索及預處理
對抽取數據的缺失值分析與異常值分析,得出數據規(guī)律及數據異常值的過程稱為數據探索。數據清洗、數據規(guī)約、數據變換為其主要過程。
對不符合邏輯的值、空值或者異常值進行清除,是數據清洗的必須步驟。對于不相干數據、冗余數據乃至弱相關數據的篩選屬于屬性規(guī)約工作。不同的數據有不同的問題,使用數據變換將數據轉變?yōu)樾枰臄祿邮讲拍茏鳛橥诰蚰P偷臄祿?。一般采用的變換方式是在指標范圍內進行數據標準化,那些跨越數量級較大的數據容易出現峰值誤差,難以用圖示描述,為消除取值范圍內的數據差異則采用數據標準化。假設一組長度為N的數據x,其平均值為u,使用式(1)進行數據標準化:
2.3 模型建立
模型采用譜聚類算法替代kmeans算法對數據集進行聚類。
譜聚類算法必須先進行相似矩陣構建,將不同維數或不同構型的數據進行處理,得到新的n階方陣。在此一般采用矩陣的特征值或結合矩陣的使用特性構建新的方陣。
譜圖理論作為譜聚類方法的基礎方法[19],其基本思想是構建一個樣本作為定點,樣本間相似度作為帶權邊的圖,從而將樣本的聚類問題巧妙轉化為圖的分割問題,將問題變成尋找組成邊權重較低,同時組內邊權重較高的圖分割的一種方法。與傳統(tǒng)的聚類相比,該方法不受聚類形狀的約束,能在任何幾何形狀上進行聚類,同時能收斂于全局,得到全局最優(yōu)解[20]。可根據式(2)構造聚類相似矩陣。
(5)計算矩陣L的歸一化矩陣E的k個最大特征值及對應的特征向量,形成一個N×K的特征矩陣,記為Q。
(6)使用Kmeans聚類處理特征矩陣Q,處理后就會獲得一個N維向量C。這個向量對應的舉證W就是最終的聚類結果。endprint
3 實例驗證
采用泰迪杯數據挖掘大賽航空公司客戶數據,實驗數據量為6 000條。使用識別客戶價值的RFM模型[21],指標是最近消費時間間隔、消費頻率、消費金額。采用張良均MATLAB數據分析與挖掘實戰(zhàn)[22]一書中的LRFMC模型,并與書中的Kmeans聚類結果作對比。在原文基礎上增加日期差轉化為月份方法,以及繪制雷達圖方法。其中日期差轉化為月份得到:
3.1 數據抽取
抽取的數據包含會員卡號、入會時間、性別、年齡、會員卡等級、工作城市、工作省份、工作國家、觀測窗口結束時間、觀測窗口乘機積分、飛行公里數、飛行次數、飛行時間、乘機時間間隔、平均折扣等44個屬性。
3.2 數據探索分析
主要是數據缺失值及異常值的探索,分析數據的空值及個別數量為0的無效值。
3.3 數據預處理
探索后的數據主要出現兩個不合格記錄,一個是票價為空的記錄,另一個是飛行公里數大于0而票價為0的記錄。
根據LRFMC模型規(guī)定,使用會員入會時間距離觀測窗口結束月份L,客戶最后一次乘坐飛機距離觀測窗口月份R,在觀測窗口內乘坐飛機次數F,在觀測窗口內累計飛行里程M,在觀測窗口內對應折扣系數平均值C進行分析。由此取其中6列作為原始數據。其中除L為式(6)計算所得,其余均為數據給出。
得到的數據由于最大值與最小值相差甚遠,所以采用式(1)進行規(guī)約,得到ZL,ZR,ZF,ZM,ZC。
3.4 模型構建
基于規(guī)約后,對數據進行Kmeans聚類以及譜聚類。
3.5 模型對比
聚類中心結果見表1。
將以上聚類中心在雷達圖上描繪,得到如圖2的直觀圖例。
可以得到表2的Kmeans聚類雷達圖極值。
從圖3可以得到表3、表4。
4 實驗結果與分析
將聚類后的聚類標簽代入原數據,得到一組帶聚類標簽的數據。使用式(7)進行數據的歸一化,求和后得到一個表征數,根據表征數進行繪圖。
采用Excel繪圖,每次類別結束后插入一個固定值-12作為聚類區(qū)分值。分別繪制Kmeans聚類散點圖(見圖4)及譜聚類散點圖(見圖5),從繪制出的散點圖可以看出聚類的穩(wěn)定性。
Kmeans聚類結果第1類為1-1 808;第2類為1 810-2 496;第3類為2 498-3 669;第4類為3 671-3 980;第5類為3 982-6 000。
譜聚類結果第1類為1-1 638;第2類為1 640-2 299;第3類為2 301-4 967;第4類為4 969-5 755;第5類為5 757-6 000。
對比兩個聚類散點圖可以看出,譜聚類得出的聚類結果單獨的點比較少,類間關系較為緊密,類間間隔較為明顯。
5 結語
海量、高維數據的處理成為難點。海量數據的產生對傳統(tǒng)的處理算法提出了新要求。改進算法可從算法替換以及改進設備兩方面入手。
將流形學習理論引入客戶關系管理,從聚類的雷達圖得到評判依據,聚類效果無太大差別。從相同類別間的關系來看,譜聚類形成的聚類類別之間的差異性更低,這樣能得到較好結果,說明將流形學習運用到客戶關系管理可行。
參考文獻:
[1] 呂廷杰,尹濤,王琦.客戶關系管理與主題分析[M].北京:人民郵電出版社,2002.
[2] 張偉,劉勇國,彭軍,等.數據挖掘發(fā)展研究[J].計算機科學,2001(7):79-94.
[3] 張紅云,劉向東,段曉東,等.數據挖掘中聚類算法比較研究[J].計算機應用與軟件,2003(2):5-77.
[4] 楊小兵.聚類分析中若干關鍵技術的研究[D].杭州:浙江大學,2005.
[5] 陳鳳潔.電信客戶細分方法及應用[J].科技和產業(yè),2005,5(11):10-12.
[6] E ABASCAL, I GARCIA LAUTRE, F MANOR.Data mining in a bicriteria clustering problem[J]. European Journal of Operational Research,2005(3):1-12.
[7] XIANG M, SHI WR, JIANG CJ, et al. Energy efficient clustering algorithm for maximizing lifetime of wireless sensor networks[J]. AEU-Intl Journal of Electronic and Communication,2010,64(4):289-298.
[8] O YOUNIS, S FAHMY. HEED: a hybrid_id, energy-efficient distributed clustering approach for ad hoc sensor networks[J]. IEEE Transaction on Mobile Computing,2004,3(4):366-379.
[9] DUHAM M H. Data mining introductory and advanced topics[M].Pearson Education,2003.
[10] L K SAUL, S T ROWEIS.Think globally, fit locally: unsupervised learning of low dimensional manifold [J]. Journal of Machine Learning Research,2003(4):119-155.endprint
[11] M BELKIN, P NIYOGI. Laplacian eigenmaps for dimensionality reduction and data representation [J]. Neural Computation,2003,15(6):1373-1396.
[12] K Q WEINBERGER, L K SAUL. Unsupervised learning of image manifolds by semidefinite programming[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR-04), vol.2, Washington D.C.,2004:988-995.
[13] K Q WEINBERGER, L K SAUL. An introduction to nonlinear dimensionality reduction by maximum variance unfolding[C]. In Proceedings of the Twenty First National Conference on Artificial Intelligence (AAAI-06), Boston,MA,2006.
[14] K Q WEINBERGER, L K SAUL. Unsupervised learning of image manifolds by semidefinite programming [J]. International Journal of Computer Vision,2006,70(1):77-90.
[15] Z Y ZHANG, H Y ZHA.Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. SIAM Journal of Scientific Computing,2004,26(1):313-338.
[16] 張振躍,查宏遠.線性低秩逼近與非線性降維[J].中國科學:A輯數學,2005,35(3):372-285.
[17] R VIDAL. Subspace clustering[J]. IEEE Signal Processing Magazine,2011,28(2):52-68.
[18] J SHI, J MALIK.Normalized cuts and image segmentation[J]. IEEE Transactions Pattern Analysis Machine Intelligence,2000,22(8):888-905.
[19] 王勇.基于流形學習的聚類與聚類方法及其應用研究[D].長沙:國防科學技術大學,2011.
[20] Y WANG, Y JIANG, Y WU, et al. Spectral clustering on multiple manifolds[J]. IEEE Transactions on Neural Networks,2012,2(7):1149-1161.
[21] 羅亮生,張文欣.基于常旅客數據庫的航空公司客戶細分方法研究[J].現代商業(yè),2008(23):54-55.
[22] 張良均,楊坦,肖剛,等.MATLAB數據分析與挖掘實戰(zhàn)[M].北京:機械工業(yè)出版社,2015:167-168.endprint