崔曉云,王歡歡,錢慎一
(1.河南省煙草公司鄭州市公司卷煙配送中心,鄭州450000;2.鄭州輕工業(yè)學院計算機與通信工程學院,鄭州 450000)
改進的K-means算法在客戶分類中的應用
崔曉云1,王歡歡2,錢慎一2
(1.河南省煙草公司鄭州市公司卷煙配送中心,鄭州450000;2.鄭州輕工業(yè)學院計算機與通信工程學院,鄭州450000)
面對異常激烈的市場競爭,企業(yè)無論在生存還是在發(fā)展上均受到了嚴峻的考驗。目前,有許多著名的研究所表明,企業(yè)開發(fā)客戶雖然很難,但維持一個客戶會更難。此外,帕累托理論顯示,企業(yè)的絕大部分的利潤是由企業(yè)20%的客戶創(chuàng)造的,而這20%就是企業(yè)最重要客戶。說明雖然很少但很重要。此外,另外一些研究結果表明,高成本顧客抵消掉了企業(yè)一半的利潤[1]。因此,企業(yè)在進行客戶關系管理時挖掘出哪些是企業(yè)最重要的客戶、哪些是不重要的客戶是至關重要的。
數(shù)據(jù)挖掘技術一直是值得學習的一門知識。從大量數(shù)據(jù)中用數(shù)據(jù)挖掘的方法發(fā)現(xiàn)其中潛在的信息和人們感興趣的數(shù)據(jù)模式成為了人們的一種一般需求。隨著數(shù)據(jù)挖掘的不斷發(fā)展,挖掘的方法層出不窮,其中最基本的方法是聚簇。k-means算法在聚簇方法中,是最著名也是最常用的劃分法之一[2]。再許多實際的問題中,聚類分析在都有著很重要的應用,如:在股票市場,用此方法把具有相似價格浮動的股票進行分組;用于客戶關系管理中的客戶價值劃分等[3]。在生物學和醫(yī)學領域里,將有相似功能的蛋白質和基因分組;K-means聚類算法是目前最為傳統(tǒng)也最為經(jīng)典的聚類算法,通過不斷地調整更新,整合離中心點相鄰數(shù)據(jù)的均值,將數(shù)據(jù)聚類。該算法具有算法速度快,穩(wěn)定性好,原理簡單等優(yōu)點,被廣泛的應用于科學研究和工商業(yè)等領域[4]。
客戶的價值是指能為企業(yè)帶來的最大的效益,為了能獲得更大的利潤企業(yè)就需要對客戶進行分門別類的管理,利用合理的營銷策略激發(fā)客戶的購買熱情,使其更好地為企業(yè)服務,創(chuàng)造出更多的價值。
如果客戶對某種服務或者產(chǎn)品者生產(chǎn)不太滿意,他們會很快轉移把目標和興趣,重新發(fā)現(xiàn)或者關注其他的產(chǎn)品,甚至更換產(chǎn)品供應商,從而給企業(yè)帶來巨大損失。因此,企業(yè)要將客戶的滿意度提高,就不得不對客戶進行分門別類的管理[5]。
2.1K-means算法原理
K-means算法,也被稱之為K-均值。該算法首先人任意地抽取幾個對象作為初始的質心;然后將剩余的每個對象,根據(jù)其與各個質心的距離賦給最近的簇,然后對每個簇的質心進行重新計算;不斷重復這個過程,直到準則函數(shù)不再發(fā)生任何變化。通常采用的準則函數(shù)為,SSE(Sum of the Squared Error),其定義如下:
2.2初始中心的確定
對聚類結果產(chǎn)生較大影響的是對初始聚類中心的選擇,如果選擇的不好,將無法得到有效的聚類結果??梢酝ㄟ^多對一些不同初值的設置,將最后的運算結果進行對比,如果結果一直趨于穩(wěn)定,則說明選取恰當,但比較浪費資源且耗時比較大。本文通過建立MTA數(shù)據(jù)模型,通過V值對數(shù)據(jù)進行初始值處理,確定的初始質心,可以得到良好的聚類效果。
在《大數(shù)據(jù)》書中曾提到兩種方法對初始質心點的選?。?]:(1)選擇點時彼此盡可能遠(2)用Canopy算法或者層次聚類算法進行聚類,然后,從得到K個簇中選擇一個點,該點可以是距離類簇中心點最近的那個點或者是該類簇的中心點。
3.1數(shù)據(jù)清洗[7]
本文所使用的數(shù)據(jù)來源于鄭州市金水區(qū)煙草物流公司近一年的134萬訂單數(shù)據(jù),在數(shù)據(jù)庫中一共六張與顧客購買記錄相關的數(shù)據(jù)表。數(shù)據(jù)表中的記錄為主要研究對象包含了訂單代碼、客戶編碼、訂單日期、商品編號、商品數(shù)量、商品金額、購買次數(shù)、線路編號等50個字段。
數(shù)據(jù)清洗通過對數(shù)據(jù)進行一致性檢查,缺失值和無效值的處理,發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤。根據(jù)每個變量的相互關系和合理取值范圍進項一致性檢查,檢查此數(shù)據(jù)是否合乎要求。本文首先對數(shù)據(jù)進行了一致性檢查,發(fā)現(xiàn)本次數(shù)據(jù)并無超出正常范圍而且邏輯上合理或者不存在矛盾的數(shù)據(jù)。之后對數(shù)據(jù)進行了缺失值的檢查,將存在缺失值的數(shù)據(jù)刪除。
3.2數(shù)據(jù)整合
數(shù)據(jù)整合的目的就是將同一個客戶的不同記錄進行合并。本文針對客戶12個月的訂單數(shù)據(jù)進行了整合。首先,我們 從數(shù)據(jù)庫中抽取出客戶購買次數(shù)、購買數(shù)量、消費金額、訂單編碼客戶編碼五個字段。之后將提取出的客戶在12個月中的消費金額匯總得到購買總金額。將客戶的購買編號進行計數(shù),得到購買次數(shù)。其次,將每月 31號設置為截止日期,提取出每個客戶每個月最后一次購買時間,并將這個時間與截止日相減,得到最后總的購買數(shù)量。
3.3建立客戶價值細分模型
綜合前述客戶價值劃分理論,建立二維客戶價值細分矩陣。根據(jù)客戶價值評價指標體系矩陣,客戶價值評價指標體系具有三個象限,綜合客戶的當前價值和潛在價值,分別根據(jù)客戶當前價值和潛在價值的不同,得出客戶總價值。將公司客戶細分為三類,分別是:高價值客戶、低價值價值、潛在價值客戶。
3.4指標及其權重的確定
根據(jù)隨機抽取的21個客戶,選擇次數(shù)、金額和數(shù)量作為指標體系,三個指標的權重系數(shù)分別為:0.3,0.2 和0.5.采用下面的公式計算客戶價值,初步用V值進行分類,并對其排序。如表1所示:
v=0.5×(數(shù)量/數(shù)量平均值)+0.3×(次數(shù)/次數(shù)平均值)+0.2×(金額/金額平均值)
表1 客戶指標數(shù)據(jù)
3.5聚類迭代分析
對初步處理后的數(shù)據(jù)進行規(guī)格化處理后,設k=3,即將這21個客戶分成三個集團。抽取客戶編號為900536、926329和932746的值作為三個初始運算點,即初始化三個中心為:
A:{0.9285714,0.501555772,0.286658528}
B:{0.6870329 0.0638110870.654634025}
C:{0.909090909,0.014509259,0.014509259}
期間不斷調整三個中心點,利用K-means算法進行三次運算后,得到如圖1所示客戶價值分布圖:
圖1 客戶價值分布圖
3.6基于優(yōu)化K-means聚類的客戶細分效果
利用以上優(yōu)化的K-means算法,我們利用MATLAB軟件,將客戶分為三部分,其中紅色部分為最重要的客戶,藍色部分為次重要的客戶,黑色部分為隱含的客戶,從圖上不但可以直觀地看出客戶價值的分布情況,同時還可以得出處在每個價值區(qū)間的客戶數(shù)量,聚類效果清晰明了。聚類效果圖如圖2所示。
3.7決策的制定
具有較高價值的客戶,公司需要加大關注力度以防流失,穩(wěn)固為主提升為輔。提高他們的活躍程度,加長存留期。一般來說,低價值客戶,公司可以從客戶的愛好、習慣、生活背景等多角度進行分析。找出購買力度低的主要原因,制定針對性的策略提高他們的購買頻率。對于潛在客戶則要想法挖掘,同時不能流失,在關注的同時想法激發(fā)起活躍度,使其有潛在客戶轉型為高價值客戶。
圖2 基于K-means的聚類效果圖
通過對該系統(tǒng)數(shù)據(jù)的分析,可以得知該公司的發(fā)展規(guī)模和基本情況,可以進行有針對性的管理,該算法在其中發(fā)揮了良好的作用,具有很好的實用性。通過對比不同情況下的分布圖可知,結果比較穩(wěn)定,符合了實際情況。
[1]范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術——聚類分析[M].北京:機械工業(yè)出版社,2001.223-258.
[2]Andrea Vattani.k_means Requires Exponentially Many Iterations[J].Discrete Comput Geom,2011(45).
[3]Ching-Hsue Cheng.Classifying the Segmentation of Customer Value Via RFM Model and RS theory[J].Expert Systems with Applications,2009(36).
[4]于輝,廖小紅.客戶細分方法綜述[J].中小企業(yè)管理與科技(下旬刊),2014,11:17-18.
[5]Wishart D.K-meansClustering with Outlier Detection[C].Proc.of the 25th Annual Conf.of the German Classification Society.Munich,Germany:University of Munich Press,2001:14-16.
[6]詹海亮,薛惠鋒,蘇錦旗.基于人工免疫系統(tǒng)的克隆——K均值算法[J].計算機仿真,2008,25(11):191-195.
[7]張建萍,劉希亞.基于聚類分析的K-Meams算法研究與應用[J].計算機應用研究,2007,24(5):166-168.
[8]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的K-Means算法[J].計算機工程,2007,33(3):5-66.
Customer Value;K-means Algorithm;Customer Relationship Management
Application of Optimized K-means Algorithm in Customer Value Segmentation
CUI Xiao-yun1,WANG Huan-huan2,QIAN Shen-yi2
(1.Henan Tobacco Companies Zhengzhou Company Cigarette Distribution Center,2.School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450000)
1007-1423(2016)24-0025-04DOI:10.3969/j.issn.1007-1423.2016.24.006
崔曉云(1977-),女,河南鄭州人,本科,高級物流師,研究方向為物流管理
王歡歡(1989-),女,河南汝州人,碩士研究生,研究生,研究方向為數(shù)據(jù)挖掘
錢慎一(1975-),男,江蘇揚州人,碩士,副教授,碩士生導師,CCF會員,研究方向為數(shù)據(jù)庫與信息集成、計算機應用技術
2016-03-22
2016-08-15
對客戶價值的劃分,可以為企業(yè)進行準確的客戶定位,制定良好的市場營銷戰(zhàn)略。利用優(yōu)化K-means算法初始值的選取,建立客戶潛在價值和客戶當前價值表,并以某物流公司現(xiàn)有的實際數(shù)據(jù)為基礎進行實證分析。將所有客戶分為重要客戶、次重要客戶、隱含價客戶三類,分析各類客戶的消費特性,提出針對性的客戶營銷及管理方式。
客戶價值;K-means算法;客戶關系管理
河南省煙草公司科技研究項目,河南省科技攻關項目(No.122102210024)
Customer value for enterprise,can accurate positioning,establish a good marketing strategy.Selects K-means optimization algorithm of the initial value,builds customer potential value and customer current value table,and makes the actual data of a logistics company based on existing empirical analysis.All customers are divided into three types:high value customers,low value customers,potential value customers,analyzes the various types of customer consumption characteristics,and puts forward the targeted customer marketing and management.