亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于流形學習的客戶價值分析研究

2018-03-10 00:50:14吳興蛟吳晟周海河劉光榕

軟件導刊 2018年2期

吳興蛟+吳晟+周海河+劉光榕

摘要：為了解決數據高維、海量導致聚類算法處理效果不佳的問題，提出將流形學習理論引入客戶關系管理進行聚類研究。為了較好的分析客戶價值，在Kmeans聚類的基礎上引入流形學習理論。客戶價值分析一般包含數據的抽取、探索以及預處理、模型建立幾個步驟。在模型建立過程中一般采用Kmeans聚類實現。使用流形學習的譜聚類來替代Kmeans聚類。使用泰迪杯數據挖掘大賽中的數據進行試驗，通過實驗的雷達圖可以看出，譜聚類與Kmeans聚類具有相似的分類構成。同時對于分類后的數據進行規(guī)約并繪制散點圖，比較后發(fā)現，譜聚類后的數據類間相似度比Kmeans高，表明將流形學習方法引入客戶價值分析，對于聚類穩(wěn)定性有一定改善。

關鍵詞：客戶關系管理；流形學習；Kmeans聚類；雷達圖；客戶價值分析

DOIDOI：10.11907/rjdk.172314

中圖分類號：TP319

文獻標識碼：A 文章編號：1672-7800（2018）002-0136-04

0 引言

客戶管理通常通過構建客戶關系管理系統(tǒng)進行維護[1]?？蛻絷P系管理一般用來進行客戶與企業(yè)的關系維持，企業(yè)與客戶的供需推廣。使用客戶關系管理可以預防用戶流失，也是一種衡量用戶服務程度的科學有效方式。在大數據背景下，隨著數據挖掘技術的成熟，使用有效的挖掘手段，從有價值的客戶中尋找高價值客戶群成為一種降低企業(yè)成本，實現高效益的有效手段。數據挖掘關鍵技術是聚類算法，一般采用kmeans算法進行客戶群聚類，但現行的kmeans聚類對于高維、海量數據聚類有一定缺陷。

為了改善這一缺點，本文將流形學習引入，替代之前的Kmeans聚類，從而實現在高維海量數據下對客戶進行聚類。聚類算法研究有基于層次、基于分割、基于密度、基于網格和基于模型五個方面[2-4]。引入流形學習不僅解決了高維數據處理的難題，也極大簡化了非線性數據的處理。

引入流形學習對客戶關系進行分析與研究，是一種新的改善聚類算法的嘗試，也是一種運用流形學習算法的新方式。

1 相關理論

1.1 客戶群體聚類分析

企業(yè)用戶數據源或數據庫中存有的那些用戶消費數據是一種無形財富，按用戶的不同屬性（年齡、性別、收入、交易特點）細分為不同群體的過程就是所謂的客戶群體聚類。一般來說，對那些業(yè)務產品以及業(yè)務需求相似的一類群體，會分為同一個群組用戶。換言之，不同的群體之間具有不同的特點，通過客戶細分，企業(yè)就能將繁雜的人員進行匯總，將用戶群體分為固定的幾類。公司決策層就能制定不同的營銷策略以實現高回報的營銷推廣。相關研究如陳鳳潔[5]運用聚類技術建立了客戶細分模型，對電信行業(yè)客戶細分進行了實例驗證及研究。一種多因素分析（MFA）的多準則聚類技術被Abascal等[6]運用于某電信公司的客戶細分模型構建。

使用Clementine[7]、SPSS等數據挖掘軟件進行管理較多。根據產生的模型或數據建立合理的用戶細分預測模型[8]，利用數據挖掘聚類技術進行應用推廣[9]。

1.2 流形學習

流形聚類是解決高維大數據問題的算法，近幾年不斷被優(yōu)化，已日漸完善，算法有ISOMAP、LLE[10]、拉普拉斯算子特征映射（Laplacian eigenmaps）[11]、最大方差展開（MVU）[12-14]、局部切空間分析（LTSA）[15-16]等。其中比較典型的是譜聚類算法，譜聚類就是使用樣本間的相似度進行樣本分組的一種方式。

譜聚類[17-18]步驟：①計算每個數據節(jié)點與其余數據節(jié)點的相關系數，構建相似度矩陣；②將相似度矩陣進行拉普拉斯矩陣構建，然后將構建的矩陣歸一化；③生成最大的k個特征值和對應的特征向量；④將特征向量使用Kmeans方法聚類。

2 模型建立

對客戶關系進行聚類分析的步驟如圖1所示。

2.1 數據抽取

抽取一定時間段內的數據作為分析觀測窗口。

2.2 數據探索及預處理

對抽取數據的缺失值分析與異常值分析，得出數據規(guī)律及數據異常值的過程稱為數據探索。數據清洗、數據規(guī)約、數據變換為其主要過程。

對不符合邏輯的值、空值或者異常值進行清除，是數據清洗的必須步驟。對于不相干數據、冗余數據乃至弱相關數據的篩選屬于屬性規(guī)約工作。不同的數據有不同的問題，使用數據變換將數據轉變?yōu)樾枰臄祿邮讲拍茏鳛橥诰蚰Ｐ偷臄祿?。一般采用的變換方式是在指標范圍內進行數據標準化，那些跨越數量級較大的數據容易出現峰值誤差，難以用圖示描述，為消除取值范圍內的數據差異則采用數據標準化。假設一組長度為N的數據x，其平均值為u，使用式（1）進行數據標準化：

2.3 模型建立

模型采用譜聚類算法替代kmeans算法對數據集進行聚類。

譜聚類算法必須先進行相似矩陣構建，將不同維數或不同構型的數據進行處理，得到新的n階方陣。在此一般采用矩陣的特征值或結合矩陣的使用特性構建新的方陣。

譜圖理論作為譜聚類方法的基礎方法[19]，其基本思想是構建一個樣本作為定點，樣本間相似度作為帶權邊的圖，從而將樣本的聚類問題巧妙轉化為圖的分割問題，將問題變成尋找組成邊權重較低，同時組內邊權重較高的圖分割的一種方法。與傳統(tǒng)的聚類相比，該方法不受聚類形狀的約束，能在任何幾何形狀上進行聚類，同時能收斂于全局，得到全局最優(yōu)解[20]。可根據式（2）構造聚類相似矩陣。

（5）計算矩陣L的歸一化矩陣E的k個最大特征值及對應的特征向量，形成一個N×K的特征矩陣，記為Q。

（6）使用Kmeans聚類處理特征矩陣Q，處理后就會獲得一個N維向量C。這個向量對應的舉證W就是最終的聚類結果。endprint

3 實例驗證

采用泰迪杯數據挖掘大賽航空公司客戶數據，實驗數據量為6 000條。使用識別客戶價值的RFM模型[21]，指標是最近消費時間間隔、消費頻率、消費金額。采用張良均MATLAB數據分析與挖掘實戰(zhàn)[22]一書中的LRFMC模型，并與書中的Kmeans聚類結果作對比。在原文基礎上增加日期差轉化為月份方法，以及繪制雷達圖方法。其中日期差轉化為月份得到：

3.1 數據抽取

抽取的數據包含會員卡號、入會時間、性別、年齡、會員卡等級、工作城市、工作省份、工作國家、觀測窗口結束時間、觀測窗口乘機積分、飛行公里數、飛行次數、飛行時間、乘機時間間隔、平均折扣等44個屬性。

3.2 數據探索分析

主要是數據缺失值及異常值的探索，分析數據的空值及個別數量為0的無效值。

3.3 數據預處理

探索后的數據主要出現兩個不合格記錄，一個是票價為空的記錄，另一個是飛行公里數大于0而票價為0的記錄。

根據LRFMC模型規(guī)定，使用會員入會時間距離觀測窗口結束月份L，客戶最后一次乘坐飛機距離觀測窗口月份R，在觀測窗口內乘坐飛機次數F，在觀測窗口內累計飛行里程M，在觀測窗口內對應折扣系數平均值C進行分析。由此取其中6列作為原始數據。其中除L為式（6）計算所得，其余均為數據給出。

得到的數據由于最大值與最小值相差甚遠，所以采用式（1）進行規(guī)約，得到ZL，ZR，ZF，ZM，ZC。

3.4 模型構建

基于規(guī)約后，對數據進行Kmeans聚類以及譜聚類。

3.5 模型對比

聚類中心結果見表1。

將以上聚類中心在雷達圖上描繪，得到如圖2的直觀圖例。

可以得到表2的Kmeans聚類雷達圖極值。

從圖3可以得到表3、表4。

4 實驗結果與分析

將聚類后的聚類標簽代入原數據，得到一組帶聚類標簽的數據。使用式（7）進行數據的歸一化，求和后得到一個表征數，根據表征數進行繪圖。

采用Excel繪圖，每次類別結束后插入一個固定值-12作為聚類區(qū)分值。分別繪制Kmeans聚類散點圖（見圖4）及譜聚類散點圖（見圖5），從繪制出的散點圖可以看出聚類的穩(wěn)定性。

Kmeans聚類結果第1類為1-1 808；第2類為1 810-2 496；第3類為2 498-3 669；第4類為3 671-3 980；第5類為3 982-6 000。

譜聚類結果第1類為1-1 638；第2類為1 640-2 299；第3類為2 301-4 967；第4類為4 969-5 755；第5類為5 757-6 000。

對比兩個聚類散點圖可以看出，譜聚類得出的聚類結果單獨的點比較少，類間關系較為緊密，類間間隔較為明顯。

5 結語

海量、高維數據的處理成為難點。海量數據的產生對傳統(tǒng)的處理算法提出了新要求。改進算法可從算法替換以及改進設備兩方面入手。

將流形學習理論引入客戶關系管理，從聚類的雷達圖得到評判依據，聚類效果無太大差別。從相同類別間的關系來看，譜聚類形成的聚類類別之間的差異性更低，這樣能得到較好結果，說明將流形學習運用到客戶關系管理可行。

參考文獻：

[1] 呂廷杰，尹濤，王琦.客戶關系管理與主題分析[M].北京：人民郵電出版社，2002.

[2] 張偉，劉勇國，彭軍，等.數據挖掘發(fā)展研究[J].計算機科學，2001（7）：79-94.

[3] 張紅云，劉向東，段曉東，等.數據挖掘中聚類算法比較研究[J].計算機應用與軟件，2003（2）：5-77.

[4] 楊小兵.聚類分析中若干關鍵技術的研究[D].杭州：浙江大學，2005.

[5] 陳鳳潔.電信客戶細分方法及應用[J].科技和產業(yè)，2005，5（11）：10-12.

[6] E ABASCAL， I GARCIA LAUTRE， F MANOR.Data mining in a bicriteria clustering problem[J]. European Journal of Operational Research，2005（3）：1-12.

[7] XIANG M， SHI WR， JIANG CJ， et al. Energy efficient clustering algorithm for maximizing lifetime of wireless sensor networks[J]. AEU-Intl Journal of Electronic and Communication，2010，64（4）：289-298.

[8] O YOUNIS， S FAHMY. HEED： a hybrid_id， energy-efficient distributed clustering approach for ad hoc sensor networks[J]. IEEE Transaction on Mobile Computing，2004，3（4）：366-379.

[9] DUHAM M H. Data mining introductory and advanced topics[M].Pearson Education，2003.

[10] L K SAUL， S T ROWEIS.Think globally， fit locally： unsupervised learning of low dimensional manifold [J]. Journal of Machine Learning Research，2003（4）：119-155.endprint

[11] M BELKIN， P NIYOGI. Laplacian eigenmaps for dimensionality reduction and data representation [J]. Neural Computation，2003，15（6）：1373-1396.

[12] K Q WEINBERGER， L K SAUL. Unsupervised learning of image manifolds by semidefinite programming[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR-04）， vol.2， Washington D.C.，2004：988-995.

[13] K Q WEINBERGER， L K SAUL. An introduction to nonlinear dimensionality reduction by maximum variance unfolding[C]. In Proceedings of the Twenty First National Conference on Artificial Intelligence （AAAI-06）， Boston，MA，2006.

[14] K Q WEINBERGER， L K SAUL. Unsupervised learning of image manifolds by semidefinite programming [J]. International Journal of Computer Vision，2006，70（1）：77-90.

[15] Z Y ZHANG， H Y ZHA.Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. SIAM Journal of Scientific Computing，2004，26（1）：313-338.

[16] 張振躍，查宏遠.線性低秩逼近與非線性降維[J].中國科學：A輯數學，2005，35（3）：372-285.

[17] R VIDAL. Subspace clustering[J]. IEEE Signal Processing Magazine，2011，28（2）：52-68.

[18] J SHI， J MALIK.Normalized cuts and image segmentation[J]. IEEE Transactions Pattern Analysis Machine Intelligence，2000，22（8）：888-905.

[19] 王勇.基于流形學習的聚類與聚類方法及其應用研究[D].長沙：國防科學技術大學，2011.

[20] Y WANG， Y JIANG， Y WU， et al. Spectral clustering on multiple manifolds[J]. IEEE Transactions on Neural Networks，2012，2（7）：1149-1161.

[21] 羅亮生，張文欣.基于常旅客數據庫的航空公司客戶細分方法研究[J].現代商業(yè)，2008（23）：54-55.

[22] 張良均，楊坦，肖剛，等.MATLAB數據分析與挖掘實戰(zhàn)[M].北京：機械工業(yè)出版社，2015：167-168.endprint