楊慧慧 梁艷 蘇輝輝
[摘要]本文根據(jù)該公司數(shù)據(jù)庫中的客戶信息,利用數(shù)據(jù)挖掘中的Apfiofi算法對(duì)客戶購買服務(wù)進(jìn)行關(guān)聯(lián)性分析,發(fā)現(xiàn)企業(yè)客戶的購買行為。進(jìn)而幫助企業(yè)將自身的服務(wù)業(yè)務(wù)對(duì)客戶進(jìn)行相關(guān)的推薦或者對(duì)一些關(guān)聯(lián)性服務(wù)業(yè)務(wù)進(jìn)行精準(zhǔn)營銷,提高公司的銷售業(yè)績(jī),挖掘潛在客戶群。
[關(guān)鍵詞]關(guān)聯(lián)分析 spass clementine 客戶關(guān)系管理
客戶就上帝,客戶是企業(yè)盈利的源泉,在目前這個(gè)大數(shù)據(jù)時(shí)代,企業(yè)如何更好的管理客戶數(shù)據(jù)信息,如何更好地保持老客戶、不斷開發(fā)新客戶更成為其成功的關(guān)鍵所在。
越來越多的企業(yè)注意到客戶信息的管理與挖掘,并且大部分的企業(yè)管理者,已經(jīng)投入了不小的人力以及資金用于客戶信息的管理與客戶購買行為的建設(shè)與實(shí)施。很多企業(yè)項(xiàng)目實(shí)施也并未得到很好的預(yù)期效果。因此,本文將利用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的Apriori算法,以該公司數(shù)據(jù)庫中的客戶信息為基礎(chǔ),挖掘出客戶購買行為的關(guān)聯(lián)性,找出內(nèi)在的規(guī)律,從而幫助企業(yè)更好的了解客戶,開發(fā)客戶價(jià)值,進(jìn)而更好的進(jìn)行客戶服務(wù),提高企業(yè)收益。
一、Clemntine簡(jiǎn)介
Spass clementine軟件是在1999年被ISL公司收購后將clementine產(chǎn)品重新進(jìn)行整合和開發(fā),用來進(jìn)行數(shù)據(jù)挖掘的軟件產(chǎn)品。該軟件作為一個(gè)開放式的數(shù)據(jù)工具,它主要是應(yīng)用了多種圖形接口分析技術(shù),通過節(jié)點(diǎn)的鏈接來完成整個(gè)數(shù)據(jù)挖掘過程,使得整個(gè)過程變得直觀明了。
spass clementine具有對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和轉(zhuǎn)換的強(qiáng)大功能,使用該軟件時(shí)對(duì)使用者的要求簡(jiǎn)單,使用者不需要會(huì)大量的編程語言,并且該挖掘軟件提供了大量的數(shù)據(jù)挖掘模型,例如分類模型,決策樹模型等,以及靈活的算法例如神經(jīng)網(wǎng)絡(luò)算法,多元回歸算法等,所以在應(yīng)用的過程中受到了用戶的喜愛和追捧。
本文基于數(shù)據(jù)挖掘軟件spass clementine平臺(tái),利用數(shù)據(jù)挖掘算法中的Apriori算法,對(duì)某貨代公司購買服務(wù)的客戶信息進(jìn)行分析,從大量的客戶信息中發(fā)現(xiàn)有價(jià)值的規(guī)則和模式,進(jìn)而為物流企業(yè)管理者在客戶關(guān)系管理及營銷決策中提供理論依據(jù)。
二、基本原理
(一)關(guān)聯(lián)規(guī)則
R.Agrawal等人于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,對(duì)于該公司數(shù)據(jù)庫中的客戶信息挖掘的目的是找出客戶購買行為的關(guān)聯(lián)關(guān)系。
設(shè)I={i1,i2,i3,L,im}是由m個(gè)不同的項(xiàng)組成的,給定一個(gè)事務(wù)數(shù)據(jù)集D,則事務(wù)數(shù)據(jù)集D={t1,t2,t3,L,tk,L,tn},其中tk={k=1,2,3,L,n}稱之為事務(wù),事務(wù)數(shù)據(jù)集D中的每一個(gè)事務(wù)tk是I中一組項(xiàng)目的集合,設(shè)A與B是I的子集:
若Support(A)不小于用戶給定的最小支持度min sup,則稱A頻繁項(xiàng)集;反之,稱A為非頻繁項(xiàng)集。
一條關(guān)聯(lián)規(guī)則形如A→B的蘊(yùn)含式,其中A與B為項(xiàng)集,且AIB=?與,項(xiàng)集A∪B的支持度稱為關(guān)聯(lián)規(guī)則A→B的支持度,則Support(A∪B)Support(A→B)。
關(guān)聯(lián)規(guī)則A→B的置信度:
從上述可得出,關(guān)聯(lián)規(guī)則A→B成立的條件:①如果關(guān)聯(lián)規(guī)則的支持度為s,則事務(wù)數(shù)據(jù)集D中至少有集s%有的事務(wù)包含A∪B;②如果關(guān)聯(lián)規(guī)則的置信度為C,則事務(wù)數(shù)據(jù)集D中包含的事務(wù)數(shù)至少有c%也同時(shí)包含B。
關(guān)聯(lián)規(guī)則挖掘問題中就是在事務(wù)數(shù)據(jù)集D中找出具有用戶給定的最小支持度min sup和最小置信度min conf的關(guān)聯(lián)關(guān)系。若Support(A→B)≥min sup且confidence(A→B)≥min conf,則關(guān)聯(lián)規(guī)則A→B是強(qiáng)關(guān)聯(lián)規(guī)則。所以關(guān)聯(lián)規(guī)則挖掘問題可以分為以下2個(gè)子問題。
(1)根據(jù)最小支持度找出數(shù)據(jù)集D中的所有頻繁項(xiàng)集。
(2)根據(jù)頻繁項(xiàng)集和最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則。
(二)Apriori算法
Apriori算法的核心問題是頻繁項(xiàng)集的取得,首先由事務(wù)數(shù)據(jù)庫和給定的支持度閾值得到所有的頻繁項(xiàng)集,所有支持度不小于支持度閾值的項(xiàng)集稱為頻繁項(xiàng)集。然后由頻繁項(xiàng)集產(chǎn)生滿足置信度要求的關(guān)聯(lián)規(guī)則。
(1)遍歷計(jì)算每個(gè)項(xiàng)集的支持度,找出支持度大于或等于最小支持度閾值min sup的項(xiàng)集,丟棄小于最小支持度閾值min sup的項(xiàng)集,第一次掃描得出頻繁項(xiàng)集L1。
(2)利用第一次掃描出的頻繁項(xiàng)集L1,進(jìn)行自然連接產(chǎn)生新的候選集C1,并利用(1)步的方法,找出滿足最小支持度的頻繁項(xiàng)集L2,同理,第k(k>1)次掃描前先利用第k-1次的掃描結(jié)果(即頻繁項(xiàng)集Lk-1),以此類推,重復(fù)上述過程,直到?jīng)]有頻繁項(xiàng)集產(chǎn)生為止。
三、數(shù)據(jù)挖掘中的關(guān)聯(lián)算法在貨代企業(yè)中的實(shí)證分析
某國際貨運(yùn)代理有限公司自該公司自成立以來,與海關(guān),檢驗(yàn)檢疫,船代,港區(qū)及相關(guān)行業(yè)保持持久密切的聯(lián)系,和多家的船公司,國際性貨貨運(yùn)代理機(jī)構(gòu)建立了長期互為代理關(guān)系。該公司在同行業(yè)中名列前茅。該公司的主要服務(wù)內(nèi)容有承辦各種海運(yùn)、空運(yùn)進(jìn)出口貨物的國際運(yùn)輸代理業(yè)務(wù)。具體包括:各船公司貨運(yùn)訂艙業(yè)務(wù);世界各地拼箱、拆箱業(yè)務(wù);代理報(bào)關(guān)、報(bào)檢、保險(xiǎn)業(yè)務(wù),以及中轉(zhuǎn)、倉儲(chǔ)、運(yùn)輸服務(wù)。本文從該公司中獲取了30590位客戶信息,客戶屬性包括企業(yè)性質(zhì),企業(yè)ID號(hào),購買的服務(wù),其中包括,報(bào)關(guān),清關(guān),換單,國內(nèi)運(yùn)輸,倉儲(chǔ),包裝,保險(xiǎn)拼箱等業(yè)務(wù)。
(1)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是指在對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析之前對(duì)原始數(shù)據(jù)進(jìn)行的清洗,集約,轉(zhuǎn)換等一系列的處理工作,通過對(duì)這些數(shù)據(jù)的處理,能夠使數(shù)據(jù)集達(dá)到數(shù)據(jù)挖掘算法進(jìn)行分析所要求的規(guī)范和標(biāo)準(zhǔn)。由于從公司獲取的數(shù)據(jù)不符合數(shù)據(jù)挖掘的標(biāo)準(zhǔn)格式,因此首先對(duì)數(shù)據(jù)進(jìn)行處理,處理后的數(shù)據(jù)格式滿足了做關(guān)聯(lián)分析對(duì)格式的要求,數(shù)據(jù)預(yù)處理流程如下圖1所示: