汪歡文 陸海良 單宇翔
摘要:利用客戶關(guān)系圖可以很清晰地看出企業(yè)與客戶之間的各類關(guān)系,便于企業(yè)決策者采取針對性的措施來改善客戶關(guān)系。該文提出了一種基于改進(jìn)的FP-Growth算法進(jìn)行客戶關(guān)系圖提取的方法,通過最小支持度尋找到所有的頻繁項集,然后結(jié)合最小置信度,篩選出所需要的關(guān)聯(lián)規(guī)則來提高算法的效率。本方法已應(yīng)用于浙江中煙CRM系統(tǒng),結(jié)果證明該改進(jìn)算法有比較好的效果。
關(guān)鍵詞:客戶關(guān)系管理;數(shù)據(jù)挖掘;客戶關(guān)系圖;頻繁項集
中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)03-0106-04
A New Method to Extract Customer Relational Graph Based on Modified FP-Growth Algorithm
WANG Huan-wen, LU Hai-liang, SHAN Yu-xiang
(Information Center, China Tobacco Zhejiang Industrial Co., LTD, Hangzhou 310009, China)
Abstract: Customer relationships can be clearly seen in customer relationship graph, thus business decision-makers can take specific measures to facilitate customer relationships. This paper presents an improved algorithm based on FP-Growth algorithm to extract customer relationship graph. We find all frequent itemsets through minimum support, then filter out the desired association rules integrated with the minimum confidence, which can improve the efficiency of the algorithm considerably. This method has been applied to Zhejiang Tobacco CRM system, and the results show that the improved algorithm is very effective.
Key words: custom relationship management; data mining; customer relational graph; frequent etem set
1 客戶關(guān)系圖
客戶關(guān)系圖是企業(yè)用來描述與之相關(guān)客戶的關(guān)系以及企業(yè)能夠為客戶提供某些服務(wù)需求的圖示。通過對客戶關(guān)系圖的繪制與提取,可以很清晰的看出企業(yè)與客戶之間的各類關(guān)系,使企業(yè)決策者與服務(wù)人員很容易制定出相關(guān)措施來改善客戶關(guān)系,滿足客戶的需求,提高客戶的滿意度,為企業(yè)創(chuàng)造更多的利潤。
對于煙草工業(yè)企業(yè),客戶主要包括了各商業(yè)公司、渠道客戶、重點(diǎn)集團(tuán)客戶等企業(yè)客戶,同時還包括了零售戶、消費(fèi)者、購買決策人、意見領(lǐng)袖等個人客戶。針對不同的客戶,企業(yè)需要制定不同的措施,從而滿足客戶的需求。對于企業(yè)客戶,需要及時了解各企業(yè)的市場運(yùn)行情況、市場要點(diǎn)以及公司人員的信息,找出他們之間的關(guān)系,分析其優(yōu)勢和不足,使工業(yè)企業(yè)能夠更好的進(jìn)行決策分析,提高客戶的滿意度。工業(yè)企業(yè)還需要采集零售戶、消費(fèi)者等個人客戶反饋的信息,采集途徑包括呼叫中心、企業(yè)俱樂部、積分兌換禮品等方式,進(jìn)而分析出各個客戶的需求,對客戶進(jìn)行分類,找出與各類型客戶間的關(guān)聯(lián)信息,為采取有針對性的促銷方案提供支持。
當(dāng)前,通過數(shù)據(jù)挖掘技術(shù)來提取客戶關(guān)系圖一直是一個難點(diǎn),因為所提取的客戶關(guān)系圖包含的關(guān)系信息量非常有限,這使得企業(yè)很難通過客戶關(guān)系圖找出與客戶之間的問題所在,沒法針對性的對客戶進(jìn)行決策分析與服務(wù),從而使企業(yè)與客戶之間的關(guān)系變得很難維護(hù),長此以往,可能會造成客戶對企業(yè)的不信任或者企業(yè)對客戶的忽視,使得客戶忠誠度降低,最終導(dǎo)致客戶流失,降低企業(yè)利潤。作為本文課題來源的浙江中煙CRM(Customer Relation Management)系統(tǒng),其目標(biāo)就是要解決這一問題,對浙江中煙的客戶關(guān)系圖進(jìn)行提取,獲取有效的客戶信息,找出浙江中煙與客戶之間的關(guān)聯(lián)規(guī)則,改善企業(yè)與客戶的關(guān)系,提高企業(yè)的核心競爭力。
2 改進(jìn)的FP-Growth算法
眾所周知,Apriori是非常經(jīng)典的關(guān)聯(lián)分析頻繁模式挖掘算法,在產(chǎn)生頻繁模式完全集之前需要對數(shù)據(jù)庫進(jìn)行多次的掃描,使得其算法時間與空間復(fù)雜度較大。同時,在頻繁項集的長度很大時,對數(shù)據(jù)庫的打描次數(shù)也會增加,而且在數(shù)據(jù)庫容量很大的時候,所需掃描的時間也會變長,從而造成龐大的IO開銷。因此Han Jiawei教授提出根據(jù)事務(wù)數(shù)據(jù)庫構(gòu)建FP-Tree,然后基于FP-Tree生成頻繁模式集。然而傳統(tǒng)的FP-Growth算法還是存在著很多缺陷,如若涉及了龐大的事務(wù)數(shù)據(jù)庫,將需要很大的空間來存放FP-Tree,并且由于算法需要遞歸生成條件數(shù)據(jù)庫和條件FP-Tree,在挖掘時需要反復(fù)地搜索FP-Tree,這將需要更多的指針,所以內(nèi)存開銷很大。
本文結(jié)合浙江中煙實(shí)際情況以及煙草業(yè)務(wù)的數(shù)據(jù)特點(diǎn),提出了利用集合來進(jìn)行FP-Tree挖掘的算法,對FP-Growth算法進(jìn)行改進(jìn)。
2.1 算法描述
首先通過最小支持度尋找到所有的頻繁項集,然后結(jié)合最小置信度,篩選出所需要的關(guān)聯(lián)規(guī)則來提高算法的效率。
第一步為構(gòu)造FP-TREE:
1) 對事務(wù)數(shù)據(jù)庫D進(jìn)行掃描,獲取D中包含的所有頻繁項[Ck]以及它們各自的支持度([support])。如表1所示的事務(wù)數(shù)據(jù)庫,進(jìn)行掃描后得到表2。
2) 對[Ck]中的頻繁項按其支持度的降序排序,結(jié)果設(shè)為項頭表[L]。
3) 創(chuàng)建FP-Tree的根節(jié)點(diǎn),標(biāo)記為“null”。
4) 再次對事務(wù)數(shù)據(jù)庫進(jìn)行掃描,對[D]中的每個事務(wù),創(chuàng)建[T]的頻繁項,并按[Ck]中次序排序。結(jié)果如表3所示。
5) 設(shè)排序后的頻繁項表為[[m|M]],其中[m]是第一個頻繁項目,[M]為剩余的頻繁項目。
6) 調(diào)用[insert-tree([m|M],T)]。其中[insert-tree([m|M],T)]執(zhí)法行走過道程為:若[T]有可能兒子孫女[N],使[N.item-name=m.item-name],則將[N]的計算結(jié)果數(shù)學(xué)取值增量幅度加減乘除[1];否則可以繼續(xù)。創(chuàng)建設(shè)數(shù)據(jù)庫一個新鮮事的本節(jié)信息斷點(diǎn)[N],并設(shè)計算法其計數(shù)公式值將來成為[1],鏈接下來求得到達(dá)目的地它的父親一輩節(jié)日快樂斷點(diǎn),并且通??梢赃^于節(jié)日斷點(diǎn)鏈接結(jié)論構(gòu)造將其實(shí)以鏈接到具體有相反不同[item-name]的節(jié)日斷點(diǎn)。如下所示:若[M]非常好空中,遞歸調(diào)用[insert-tree(M,N)]。當(dāng)事情結(jié)束務(wù)數(shù)學(xué)信息依據(jù)庫存再次打掃地上描完成畢業(yè)后,一個完成整齊的[FP-TREE]就建設(shè)站立即了,如圖1所示。
圖1 FP-TREE
接下來為挖掘[FP-TREE]:
1) 從前可以架構(gòu)造[FP-TREE]中得出去的項目巨頭上帶有表L的最后一項目方案開始,根據(jù)節(jié)日氣息斷點(diǎn)鏈接得到達(dá)地點(diǎn)其分?jǐn)?shù)支援,若有多倍jio個分?jǐn)?shù)枝葉,逐漸一分?jǐn)?shù)開始考查過慮。
2) 對于每件事情個分?jǐn)?shù)枝,取得到該節(jié)日信息斷點(diǎn)到根本節(jié)日信息點(diǎn)[null]的路上直徑,對該路上直徑上的所以不行有節(jié)日信息斷點(diǎn)進(jìn)門行分組合(根本節(jié)日斷點(diǎn)除法以外),并對各分組成合并的計算量。數(shù)學(xué)取值([count])進(jìn)出行走設(shè)計步驟放置。
3) 將來所以有組成合并的派送入候車大選頻率繁索項目模型建立式集中處理組合[Sk],若[Sk]中國發(fā)展已經(jīng)過變化存在相會不同的組成合,則進(jìn)入行走階段合一個并列。
4) 合作并列操作中國信息保留原始持組合合成標(biāo)記識不應(yīng)該變,計算的數(shù)學(xué)值為二個王者之和。當(dāng)該馬路上直徑上所以有的分組合并進(jìn)行入口候車室選頻率繁索模型公式采集[Sk]后,對該路上直徑點(diǎn)上的節(jié)點(diǎn)進(jìn)入行走修改立正。
5) 使該路徑上的所有節(jié)點(diǎn)的[count]值減去當(dāng)前考慮節(jié)點(diǎn)的[count]值。
6) 上述步伐驟完全成立后再取表[L]頭現(xiàn)的上面六一項,重復(fù)上述過時行程直接到達(dá)表現(xiàn)中國信息所以有的項目都被考差過慮完畢業(yè)或相應(yīng)該考查過慮的節(jié)日斷點(diǎn)計算器數(shù)學(xué)值[count=0]為止,此時,對整齊劃一棵果樹的挖礦發(fā)掘處理科過道程結(jié)束。所得結(jié)果如表4所示:
最后面用給出去的最小支撐把持溫度計([min_sup])剔骨乘除[Sk]中計算數(shù)學(xué)等值小于[min_sup]的組成合并。這樣,留在[Sk]中國發(fā)展的就是所以以將要尋找到的頻率繁索模型情況公式,依然找到此可構(gòu)建造出門所以有的候車室選關(guān)門聯(lián)系規(guī)矩準(zhǔn)則,并可使用給予門的最小安置信任溫度([min_suf])篩選取出門所以需要求到位的開關(guān)系聯(lián)規(guī)矩準(zhǔn)則。
上述步驟中用到的一些概念公式如下:
支持度,用于度量一個項集出現(xiàn)的頻率,項集[{A,B}]的支持度是由同時包含[A]和[B]的事務(wù)總個數(shù)組成的,如公式1所示。
[support({A,B})=NumberOfTransaction(A,B)] (1)
其中最小支持度([min_sup])是一個閾值參數(shù),在處理關(guān)聯(lián)模型之前根據(jù)事務(wù)類型自行設(shè)置,其主要是對項集進(jìn)行限制。
置信度,是關(guān)聯(lián)規(guī)則的屬性,按公式2進(jìn)行計算。
[Confidence(A≥B)=Confidence(B|A)=Support({A,B})Support({A})] (2)
最小置上述步驟中用到的一些概念信任上述步驟中用到的一些概念度([min_suf])同樣是一個閾值參數(shù),必然須用上述步驟中用到的一些概念在運(yùn)算法之所以前指定該只參加上述步驟中用到的一些概念數(shù)。它表示用上述步驟中用到的一些概念戶只對某些規(guī)矩正則感嘆上述步驟中用到的一些概念興趣,這些規(guī)矩準(zhǔn)上述步驟中用到的一些概念則擁有同比較量高等的安置不信任溫度,對項目上述步驟中用到的一些概念集合沒有信任何種人影音響,但會影響關(guān)聯(lián)規(guī)則。
2.2算法應(yīng)用
對于浙江中煙的客戶關(guān)系,主要有企業(yè)客戶關(guān)系與個人客戶關(guān)系兩類,但只要我們選擇了正確的項目集,按照以上所提出的算法進(jìn)行分析,就能得到企業(yè)與客戶之間的關(guān)聯(lián)規(guī)則,從而構(gòu)建出相應(yīng)的客戶關(guān)系圖。
首先建立最外層的事務(wù)數(shù)據(jù)庫,按照上述算法對于該事務(wù)數(shù)據(jù)庫中的頻繁項集進(jìn)行分析,找出包含有下一層信息的頻繁項,再對其建立事務(wù)數(shù)據(jù)庫,依次向下尋找,直到最底層為止。然后企業(yè)決策人員再根據(jù)客戶關(guān)系圖從底層依次向上進(jìn)行分析,找出各頻繁項之間的關(guān)聯(lián)規(guī)則,挖掘出企業(yè)與客戶潛在的關(guān)系,制定相應(yīng)的決策行為。
對于企業(yè)客戶,主要是指各商業(yè)公司客戶,我們首先建立事務(wù)數(shù)據(jù)庫D,其中包含有項目集{市場分析情況、市場要點(diǎn)、建立業(yè)務(wù)時間、相關(guān)事件、公司相關(guān)人員等},依照企業(yè)給定的最小置信度和支持度,按照改進(jìn)的FP-Growth算法篩選出所需關(guān)聯(lián)規(guī)則,提取出客戶關(guān)系圖,如圖2所示。該客戶關(guān)系圖為杭州各商業(yè)公司之間的關(guān)系,決策者可以根據(jù)該圖為杭州各商業(yè)公司制定相應(yīng)的決策行為。
圖2 杭州各商業(yè)公司客戶關(guān)系圖
對上述事務(wù)數(shù)據(jù)庫D中的某個頻繁項,如市場要點(diǎn)等還可以進(jìn)行細(xì)分,所以可以提取出來再建立事務(wù)數(shù)據(jù)庫D2,其中包含的項集有(銷量、批發(fā)量、市場份額、同比、庫存)等項目。同樣可根據(jù)所提出的算法提取出此客戶關(guān)系圖,如圖3所示。
圖3 杭州市商業(yè)公司市場要點(diǎn)情況
上圖中可以看出對于D2中的頻繁項,如卷煙銷量等還可以再進(jìn)行提取,建立事務(wù)數(shù)據(jù)庫D3,包含的項集有利群一到五類煙以及一些特殊品牌卷煙銷量,通過上述算法,可以分析出各品牌煙之間的關(guān)系(圖4),如哪些品牌的煙一起售出的可能性更高等,哪些品牌所占市場份額更高,從而分析出消費(fèi)者的購買行為,為企業(yè)提供更多的信息,改善與客戶的關(guān)系,進(jìn)而提高企業(yè)的利潤。
圖4 杭州市利群品牌銷量情況
浙江中煙的個人客戶同樣可以采用該算法進(jìn)行篩選與提取。如個人的姓名、性別、籍貫、工作分管、家庭地址、個人愛好等,對這些屬性建立事務(wù)數(shù)據(jù)庫,提取出客戶關(guān)系圖,如圖5所示。
圖5 人員信息關(guān)系圖
對于每個客戶的來訪、拜訪記錄等信息還可以繼續(xù)建立事務(wù)數(shù)據(jù)庫,提取下一層的客戶關(guān)系圖,如圖6與圖7所示。
通常過去這些客人門戶關(guān)連系圖,可以更加直接遠(yuǎn)觀的看出企業(yè)與客戶之所以間的關(guān)系,分析出客戶的行為,使企業(yè)能更好的為客戶進(jìn)行服務(wù),提高客戶的忠誠度和滿意度,通過一個客戶帶來更多的客戶,使企業(yè)在未來的競爭中占有更大優(yōu)勢。
3 結(jié)論
本文介紹了客戶關(guān)系圖對于企業(yè)的重要性,并對基于關(guān)聯(lián)規(guī)則分析的FP-Growth算法進(jìn)行改進(jìn),解決了傳統(tǒng)FP-Growth算法的缺陷,能更有效的篩選出所需的關(guān)聯(lián)規(guī)則。最后利用此算法,對浙江中煙的客戶關(guān)系圖進(jìn)行提取。
參考文獻(xiàn):
[1] 盧德勇.重慶市農(nóng)業(yè)銀行客戶關(guān)系管理應(yīng)用初探[碩士學(xué)位論文][D].重慶:重慶大學(xué),2004:7-8.
[2] 張奎.面向煙草銷售行業(yè)CRM管理系統(tǒng)[碩士學(xué)位論文][D].濟(jì)南:山東大學(xué),2004:14.
[3] 魏爽. 基于Mobile Agent聚類挖掘算法研究[J].電腦知識與技術(shù), 2014,10(31):7249-7252.
[4] Huanhuan Chen, Qiang Wang, Yi Shen. Decision tree support vector machine based on genetic algorithm for multi-class classification[J].Journal of Systems Engineering and Electronics,2011(7):322-326.
[5] 楊光.淺析數(shù)據(jù)挖掘在CRM中的應(yīng)用[J].情報科學(xué),2005,23(2):278-280.
[6] 曾志勇,楊呈智,陶冶.負(fù)載均衡的FP-growth并行算法研究[J].計算機(jī)工程與應(yīng)用,2010,46(4):125-126.