黃亞萍,李垣江
(江蘇科技大學(xué) 電子信息學(xué)院,江蘇 鎮(zhèn)江212003)
基于K-means算法的電子商務(wù)客戶細分研究
黃亞萍,李垣江
(江蘇科技大學(xué) 電子信息學(xué)院,江蘇 鎮(zhèn)江212003)
文章將數(shù)據(jù)挖掘技術(shù)引入電子商務(wù)領(lǐng)域的客戶細分研究,為了從客戶信息中挖掘出潛在的信息,并對客戶進行分類管理,本文采用了聚類算法中基于半監(jiān)督近鄰傳播的K-means算法運用于某服裝電子商務(wù)網(wǎng)站進行客戶細分,并詳細介紹了新算法的改進過程、實現(xiàn)流程以及通過對某服裝電子商務(wù)網(wǎng)站數(shù)據(jù)信息的具體試驗,驗證其算法改進后的有效優(yōu)勢,具體表現(xiàn)在對數(shù)據(jù)集中的噪聲點能進行有效的排除,并能獲取較為精準的初始聚類中心,以提高聚類質(zhì)量,同時極大的提升了聚類的準確率和各聚類之間的緊密度。
聚類算法;K-means算法;AP算法;客戶細分
隨著網(wǎng)絡(luò)時代日趨激烈的競爭,電商企業(yè)逐漸感受到了產(chǎn)品的價格及功能已不再是企業(yè)間相互競爭的資本,為消費者帶來舒適的服務(wù)和高貴的品質(zhì)也扮演著無可取代的角色,企業(yè)競爭者不得不面臨綜合因素的較量。因此,現(xiàn)在企業(yè)的關(guān)鍵在于從客戶的需求分析入手,以客戶細分為手段,挖掘和分析系統(tǒng)中各類消費群體,從而為各類別的客戶提供具有其類別特色的營銷方式,來提升他們的滿意度和忠誠度來維持市場的競爭力。文中采用基于半監(jiān)督近鄰傳播的K-means的聚類算法來挖掘整體客戶內(nèi)部的需求及購買行為等的多樣性,企業(yè)能夠獲取更加充分的客戶信息資源,為取客戶潛在的知識,實現(xiàn)市場營銷中的有利地位以及改善客戶關(guān)系管理水平,最終達到了保持在商業(yè)戰(zhàn)場上保持領(lǐng)先的地位提供了有利的先決條件。
客戶細分是上個世紀中期由美國著名專家溫德爾·史密斯(Wendell R.Smith)提出的[1]。其理論依據(jù)在于,在明確的戰(zhàn)略業(yè)務(wù)模式和特定的市場中,對于投放于市場中的某種特定類別的產(chǎn)品,不同類型的市場群體會從自身的實際情況出發(fā),給出是否進行購買的意愿,或因為外觀的需求,或因為服務(wù)水平的重視,亦或者是產(chǎn)品實現(xiàn)價值方式的不一致,不同的消費群體會給出不同的消費意愿。因此企業(yè)需要實現(xiàn)進一步的客戶細分,選擇更為精準細致的細分變量,依據(jù)其細分結(jié)果分析出各類別客戶的具體特征,從而設(shè)計具備差異性且精準的產(chǎn)品服務(wù)和銷售模式,從而將企業(yè)有限的服務(wù)資源更加優(yōu)化的為目標客戶群服務(wù)[2]。
聚類作為數(shù)據(jù)挖掘技術(shù)中一項重要的技術(shù),是通過劃分相同特征數(shù)據(jù)為一聚類來發(fā)現(xiàn)海量數(shù)據(jù)信中潛在的有規(guī)律的信息和知識的過程。其聚類結(jié)果就是依據(jù)數(shù)據(jù)之間特征的相似程度,實現(xiàn)相同聚類內(nèi)部數(shù)據(jù)的特征信息具備最大的相似度,而聚類類別相互之間的數(shù)據(jù)特征差異度最大化,此為分析聚類算法有效性的一個重要指標,即密實性和分散性。
常見的聚類算法包含基于劃分、基于層次和基于密度的方法。其中,基于劃分方法包含K-means算法和K-中心點算法,基于層次方法包含凝聚層次聚類和分裂層次聚類,基于密度方法包含DBSCAN算法、OPTICS算法和DENCLUE算法[3]。文中即采用K-means聚類算法。
3.1 K-means算法的基本原理
K-means聚類算法又稱為K均值聚類算法,是基于劃分的聚類算法之一,采用一種啟發(fā)式的迭代過程,進行重新劃分數(shù)據(jù)對象和重新更新簇中心。其算法的基本思路是:假設(shè)一個具有個元素對象的集合以及所要生成的簇的數(shù)量值,第一輪中隨機選取個樣本元素當作初始聚類中心,以及分析出其他樣本元素與這個中心點的間距,依據(jù)距離的遠近,分別劃分為個簇,在接下來的每一輪中,不斷進行以上步驟的迭代運算,即將此次獲得的元素對象的平均值當作下一輪進行聚類的中心點,直到滿足迭代過程中聚類中心點不再改變的條件,則代表聚類成功[4]。
3.2 K-means算法的步驟
1)給定聚類數(shù)目k和初始聚類中心
已知一個數(shù)據(jù)集N,包含n個數(shù)據(jù)對象,從中任意選取或指定k個數(shù)據(jù)點作為初始聚類中心。
2)由距離最近原則確定聚類結(jié)果
依次計算每個數(shù)據(jù)點到這k個聚類中心的距離,并基于距離的長短,重新分配各個簇的對象,將與聚類中心最短距離的數(shù)據(jù)點歸納進相應(yīng)的簇中。
3)k個聚類中心的重新確定
4)聚類終止條件的判斷
循環(huán)第2步和第3步,至每個聚類不再發(fā)生變化,或直到目標函數(shù)取到最優(yōu)解,即最小值,停止算法。
3.3 K-means算法的改進
3.3.1 AP算法概述
Affinity Popagation算法(簡稱AP算法)是一種基于近鄰信息傳播的聚類方法。該算法的最終結(jié)果是基于N個數(shù)據(jù)樣本之間的相似度來得以進行聚類,如當分析出聚類中心點與全部的數(shù)據(jù)元素之間的特征相似度的總和以后,取其最大值所在的簇類便為最佳類結(jié)果[5]。其中,對于相似度而言,可以為對稱(即兩個數(shù)據(jù)樣本間的相似度互相相等),也可為非對稱(即兩個數(shù)據(jù)樣本間的相似度并不相等),并將這些相似度組成N×N的相似矩陣S。
AP算法中,并不需要考慮關(guān)于聚類中心和聚類個數(shù)值的問題,因為所有的數(shù)據(jù)樣本都可看作是潛在的聚類中心,并且將任意兩個數(shù)據(jù)樣本之間的相似度存儲在相似度矩陣S中。
3.3.2 SAPK算法的描述
AP算法和K-means算法皆為以k中心聚類為基礎(chǔ)進行實現(xiàn)的算法,經(jīng)典的K-means算法在運算過程中,簇的劃分數(shù)目以及初始中心點的選擇對于聚類效果的影響較大,也可能導(dǎo)致局部最小值[6]。所以,為了實現(xiàn)較為理想的聚類結(jié)果,應(yīng)當給出多個各異的初始值進行該算法的實現(xiàn),但若是數(shù)據(jù)集需要生成的簇的個數(shù)較多,所能起到的功效甚微。本文于是提出了把基于半監(jiān)督學(xué)習(xí)的近鄰傳播算法和kmeans算法結(jié)合,得到新的算法——SAPK-means算法。在實現(xiàn)過程中,改進后的算法不斷尋找最佳簇的中心值,并實現(xiàn)目標函數(shù)值的最大化,以便獲取最佳聚類效果;SAPK-means算法實現(xiàn)了K-means算法的初始化,所以它的平方誤差也比AP算法小。實際上,SAPK-means算法由于需要進行1/2×(N-1)×N對相似度的運算,若是提前未指定相似度矩陣S,那么就會比K-means算法消耗更大的成本。然而,換個角度來看,SAPK-means算法僅需要一次迭代就可以結(jié)束運算了,而K-means算法仍需進行多次迭代才能獲得令人滿意的效果。因此,SAPK-means算法對于元素個數(shù)適宜的集合能夠?qū)崿F(xiàn)較優(yōu)的聚類效果[7]。
3.3.3 SAPK-means算法的流程
SAPK-means算法包含以下運算流程:
1)輸入樣本元素集,并對參數(shù)進行初始化。
給出具有N個樣本元素的集合,偏向參數(shù)p= pm,下降步幅step=pm/10,技術(shù)標記H和監(jiān)督標記Hs均為零,收斂條件是聚類中心循環(huán)30次無變化,終止條件為聚類中心循環(huán)300次無變化。
2)進行迭代運算。
①進行迭代運算,獲得K個簇的個數(shù)。如果Hs= 1就進入③,否則繼續(xù)往下執(zhí)行。
②觀測聚類效果的收斂性,如果收斂,分析生成Sil(K)并記錄Hs=1,進入④;否則回到上一步。
③驗證簇的中心是否符合收斂要求,如果符合,獲得K個簇并分析生成Silmax,如果Sil(K)<Sil(K-1),那么H=H+1;當Sil(K)>Silmax,H=0。
④驗證是否是H>K1/2;K的值是否是2;并驗證循環(huán)次數(shù)是否符合結(jié)束要求,如果符合就進入⑤,否則轉(zhuǎn)到①。
⑤驗證Silmax所指定的最優(yōu)簇的數(shù)目,如果是2,分析生成Hartigan指標并進行比較。
⑥輸出簇的個數(shù)和簇的中心點。
3)將輸出的簇的數(shù)值K和簇的中心點對K-means算法進行初始化。
4)執(zhí)行K-means算法,獲得最后的聚類效果。
4.1 SAPK-means算法在客戶細分中的步驟
1)從電商企業(yè)獲取相關(guān)的數(shù)據(jù);
2)對所獲取的數(shù)據(jù)進行判斷其是否能夠得以分類,若是有明顯趨勢顯示可以聚類,則進行聚類,否則取消聚類;
3)將基于半監(jiān)督學(xué)習(xí)的近鄰傳播算法的K-means算法結(jié)合SPSS軟件應(yīng)用于所獲取的客戶數(shù)據(jù)集中,并將客戶分為C1、C2、C3.....等類;
4)依據(jù)分類的結(jié)果,總結(jié)出每一個類的區(qū)別;
5)對聚類結(jié)果進行評價。
4.1.1 數(shù)據(jù)獲取
為了驗證本算法改進后的應(yīng)用效果,文中通過某服裝電子商務(wù)網(wǎng)站獲取大量數(shù)據(jù)信息,包含客戶信息表、商品信息表、商品類別表和客戶訂單信息表[8]。
客戶信息表記錄了著客戶的相關(guān)數(shù)據(jù):客戶ID、性別、年齡、學(xué)歷、所在區(qū)域字段。
表1 客戶信息表
商品信息表中記錄了產(chǎn)品的相關(guān)數(shù)據(jù):產(chǎn)品ID、產(chǎn)品名、產(chǎn)品類型、價格。
表2 產(chǎn)品信息表
商品類別表記錄了產(chǎn)品所屬類型的基本數(shù)據(jù):產(chǎn)品類型ID、類型名稱、所屬父型號。
表3 產(chǎn)品類型表
客戶訂單信息表記錄了消費者的消費數(shù)據(jù):客戶 ID、產(chǎn)品ID、產(chǎn)品價格、消費量、本次消費總額、消費時間。
上述各表內(nèi)數(shù)據(jù)描述了消費者自身以及消費行為的詳細信息,出于通過各個劃分需求實現(xiàn)適宜的細分效果的目標,要求從上述表內(nèi)提取適合的字段,生成所需要的新表,以便實現(xiàn)接下來的客戶細分步驟[9]。 如表4~5所示。
4.1.2 數(shù)據(jù)處理
1)數(shù)據(jù)清理。數(shù)據(jù)清理主要包含空缺值處理、噪聲數(shù)據(jù)處理以及不一致數(shù)據(jù)處理等[10]。
2)數(shù)據(jù)轉(zhuǎn)換與集成。數(shù)據(jù)轉(zhuǎn)換指的是將樣本元素按照需求轉(zhuǎn)換為與算法匹配的形式。數(shù)據(jù)集成主要是用來解決數(shù)據(jù)的模糊性的不足,在實現(xiàn)過程中把運行在多個文件或數(shù)據(jù)庫中的異構(gòu)數(shù)據(jù)實現(xiàn)集成。
表4 客戶消費信息表
表5 客戶細分新表
4.1.3 運用K-means算法進行客戶細分
將基于半監(jiān)督學(xué)習(xí)的近鄰傳播算法的K-means算法應(yīng)用于電子商務(wù)網(wǎng)站的客戶細分過程中,本文獲取了某服裝網(wǎng)站上的客戶數(shù)據(jù)以及對應(yīng)的消費數(shù)據(jù)作為樣本數(shù)據(jù)信息,從中我們選取100條數(shù)據(jù),其中屬性變量選擇指定期間中消費者的消費次數(shù)及平均消費數(shù)額。通過對數(shù)據(jù)進行預(yù)處理之后,將算法運用于電子商務(wù)網(wǎng)站的數(shù)據(jù)信息之中。本文采用了基于半監(jiān)督學(xué)習(xí)的近鄰傳播算法的K-means算法,即SAPK-means算法對電子商務(wù)網(wǎng)站的客戶進行細分,并對細分結(jié)果進行詳細分析。
4.1.4 客戶細分結(jié)果分析
SAPK-means算法客戶細分結(jié)果如圖1所示。
圖1 SAPK-means算法客戶細分結(jié)果
依據(jù)上述表格數(shù)據(jù),從中可獲取以下信息:
第一類客戶人數(shù)較少,但購買次數(shù)較多,同時平均消費額度也很高,同時能夠得到,此類消費者多居住在一線城市,具有高學(xué)歷、高收入的特征,年齡多在35至45歲之間,通過客戶數(shù)量比和價值比表格可知,此類客戶來該網(wǎng)站消費頻率較高,且消費金額也不低,創(chuàng)造了該網(wǎng)站近一半的利潤,故我們把此類客戶稱為優(yōu)秀客戶,企業(yè)應(yīng)當重點維持這類客戶。
表6 SAPK-means算法客戶細分結(jié)果
第二類客戶人數(shù)較多,同時購買次數(shù)也是最多的,但平均消費額度偏少,同時能夠得到,此類消費者多居住在二三線城市,學(xué)歷、年齡以及收入都屬于中等水平,通過客戶數(shù)量比和價值比表格可知,此類客戶所占人數(shù)一般,但為網(wǎng)站創(chuàng)造的收益較少,故我們把此類客戶稱為基礎(chǔ)客戶。
第三類客戶人數(shù)最少,同時購買次數(shù)最少,但平均消費額卻度是最高,同時能夠得到,此類消費者多居住在一線城市,具有高學(xué)歷、高收入的特征,年齡多在25至35歲之間,通過客戶數(shù)量比和價值比表格可知,此類客戶來該網(wǎng)站消費頻率不高,但消費金額不低,為企業(yè)創(chuàng)造了不少的利潤,也仍有上升空間,企業(yè)可以采取相應(yīng)的措施鼓勵和推動此類客戶增加消費次數(shù),故我們把此類客戶稱為潛力客戶。
第四類客戶人數(shù)最多,但購買次數(shù)較少,同時平均消費額度也是最少,同時能夠得到,此類消費者多居住地分布不均,具有低學(xué)歷、低收入的特征,年齡分布也不均勻,通過客戶數(shù)量比和價值比表格可知,此類客戶來該網(wǎng)站消費頻率較高,但消費金額很低,只創(chuàng)造了該網(wǎng)站少部分的利潤,故我們把此類客戶稱為一般客戶。
隨著經(jīng)濟技術(shù)的不斷發(fā)展,在商業(yè)市場中,企業(yè)對市場利潤的追求越來越精細化、全面化,面對市場上客戶種類和需求的日益繁多,原有的客戶細分以無法滿足企業(yè)決策者的利益需求,從而追求更高技術(shù)含量的客戶細分技術(shù)。文中詳細介紹了聚類算法應(yīng)用于某服裝電子商務(wù)網(wǎng)站的客戶細分實例中的方法步驟,包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、實現(xiàn)聚類以及對聚類結(jié)果的分析。通過實例驗證,基于半監(jiān)督學(xué)習(xí)的近鄰傳播算法的K-means算法從噪音消除及聚類質(zhì)量的完善等角度來看,皆優(yōu)于簡單的K-means算法。
[1]賀靈,蔡易超.數(shù)據(jù)挖掘中的聚類算法綜述[J].計算機應(yīng)用研究,2013,24(1):10-13.
[2]潘有能,馮晴.基于數(shù)據(jù)挖掘的電信行業(yè)分析型CRM系列研究[J].中國管理信息化,2013,13(3): 83-84.
[3]陳慧,何靜,高維維.簡單有效的確定聚類數(shù)目算法[J].計算機工程與應(yīng)用,2009,45(15):166-168.
[4]章仲平,王愛杰,蔡旭光.一種改進的遺傳k-means聚類算法[J].數(shù)學(xué)的實踐與認識,2013,37(8):104-111.
[5]尹建軍,王悅.數(shù)據(jù)劃分優(yōu)化的并行k-means算法[J].計算機工程與應(yīng)用,2014,46(15):127-131.
[6]宋麗.基于k-means聚類的企業(yè)客戶價值分析研究[D].贛州:江西理工大學(xué),2012.
[7]胡運,王瑞芝.一種基于粗糙k均值的雙聚類算法[J].計算機科學(xué),2013,34(11):174-177.
[8]余祥.聚類分析中k-均值方法的研究[D].哈爾濱:哈爾濱工程大學(xué),2013.
[9]肖峰,鄭海鋒.基于聚類分析的銀行客戶關(guān)系管理策略研究[J].技術(shù)經(jīng)濟,2010,29(1):87-93.
[10]周娟,徐匯平.k-means算法最佳聚類數(shù)確定方法[J].計算機應(yīng)用,2013,18(9):195-218.
[11]盧丹丹.基于K-means算法的電子商務(wù)客戶細分研究[J].時代金融,2014,(8):226-227.
[12]張曉春,倪紅芳,李娜.基于數(shù)據(jù)挖掘的供電企業(yè)客戶細分方法及模型研究[J].科技與管理,2013,15(6):104-109.
[13]李鑫鑫.聚類算法在電子商務(wù)客戶細分中的應(yīng)用研究[D].青島:中國海洋大學(xué),2013.
[14]傅荷源.電子商務(wù)背景下的服務(wù)管理的研究[J].時代金融,2011(7):199.
[15]李麗萍,楊東紅.基于企業(yè)客戶管理的知識管理模型分析 [J].遼寧工程技術(shù)大學(xué)學(xué)報,2011,13(2):146-149.
[16]孫連才.商業(yè)生態(tài)系統(tǒng)視角下的企業(yè)動態(tài)能力與商業(yè)模式互動研究[D].武漢:華中科技大學(xué),2013.
Research on customer segmentation of electronic commerce based on application of K-means algorithm
HUANG Ya-ping,LI Yuan-jiang
(School of Electronics and Information,Jiangsu University of Science and Technology,Zhenjiang 212003,China)
In this paper,data mining technology is introduced into the customer segmentation of electronic commerce industry,in order to dig out the potential information from the customer information.,and to obtain the customer classification management,this paper adopts the K-means algorithm based on a semi-supervised neighbor spread from the clustering algorithm,applied to a clothing e-commerce site,and introduces the improvement process of new algorithm,the implementation process,and verifies the effective advantages about the improved algorithm,through the clothing ecommerce site's data information,embodied that the data set can effectively eliminate the noise of the point,and obtain more accurate initial clustering center,in order to improve the quality of clustering,at the same time,greatly improve the accuracy of clustering and tightness between each cluster.
clustering algorithm;K-means algorithm;AP algorithm;customer segmentation
TN91
:A
:1674-6236(2017)02-0063-04
2015-12-18稿件編號:201512194
黃亞萍(1991—),女,江蘇常州人,碩士研究生。研究方向:軟件應(yīng)用與設(shè)計。