莫 贊,樊 鵬,李燕飛
(廣東工業(yè)大學(xué) 管理學(xué)院,廣東 廣州510090)
互動(dòng)式語(yǔ)音應(yīng)答業(yè)務(wù)IVR(Interactive Voice Response)是企業(yè)客戶(hù)關(guān)系管理中一種有效的模式,它可以解決用戶(hù)的絕大部分問(wèn)題[1]。本文針對(duì)電信行業(yè)客戶(hù)細(xì)分要求,將數(shù)據(jù)挖掘中的聚類(lèi)分析、決策樹(shù)方法應(yīng)用于分析過(guò)程[2]。
隨著客戶(hù)關(guān)系管理實(shí)踐和理論的發(fā)展,在客戶(hù)細(xì)分方法研究方面,研究者正尋找將客戶(hù)聚類(lèi)為獨(dú)特的客戶(hù)群的方法[3-4]。在國(guó)際學(xué)術(shù)界,學(xué)者們主要利用數(shù)據(jù)挖掘技術(shù)建立基于細(xì)分市場(chǎng)水平的客戶(hù)分割模型。在國(guó)內(nèi),武漢大學(xué)郭蘊(yùn)華等人提出了基于模糊聚類(lèi)分析的客戶(hù)分類(lèi)算法。
數(shù)據(jù)挖掘用來(lái)根據(jù)客戶(hù)的預(yù)測(cè)行為定義客戶(hù)細(xì)分群[5]。例如,將決策樹(shù)的葉節(jié)點(diǎn)視為一個(gè)獨(dú)立的客戶(hù)細(xì)分群。
研究數(shù)據(jù)來(lái)自于中國(guó)移動(dòng)深圳分公司呼叫中心(10086)中的操作數(shù)據(jù),操作數(shù)據(jù)的原數(shù)據(jù)項(xiàng)以及含義如表1所示。
本文選取動(dòng)感地帶2月份的數(shù)據(jù)進(jìn)行分析研究,數(shù)據(jù)量為20多萬(wàn)條。進(jìn)行數(shù)據(jù)挖掘[6]之前,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理和數(shù)據(jù)整理,具體步驟如下。
表1 原始數(shù)據(jù)列表項(xiàng)
(1)合并具有相同變量的數(shù)據(jù)集。
(2)對(duì)呼入時(shí)間進(jìn)行升序排序,當(dāng)一個(gè)客戶(hù)連續(xù)撥打10086時(shí),可以更好地顯示數(shù)據(jù)。
(3)去除重復(fù)數(shù)據(jù)。根據(jù)呼入時(shí)間排序,在同一相鄰的時(shí)間段同時(shí)出現(xiàn)重復(fù)的呼叫號(hào)碼視為重復(fù)數(shù)據(jù)。
(4)去除異常數(shù)據(jù)。去除異常數(shù)據(jù)的條件為:ARPU值>1 000或入網(wǎng)時(shí)長(zhǎng)>80或ARPU值<0或入網(wǎng)時(shí)長(zhǎng)<0或地區(qū)="沉默"。
(5)平衡數(shù)據(jù)集。
(6)離散化處理。采取“分箱”的方法劃分區(qū)間,根據(jù)其取值情況分別對(duì)應(yīng)到相應(yīng)的區(qū)間,結(jié)果如圖1所示。
圖1 ARPU值離散化處理結(jié)果
入網(wǎng)時(shí)長(zhǎng)為整型屬性。對(duì)于整型屬性采取“分箱”的方法進(jìn)行區(qū)間劃分,根據(jù)取值情況對(duì)應(yīng)到相應(yīng)的區(qū)間,結(jié)果如圖2所示。
圖2 入網(wǎng)時(shí)長(zhǎng)離散化處理結(jié)果
以深圳移動(dòng)動(dòng)感地帶的客戶(hù)作為分析對(duì)象,對(duì)IVR客戶(hù)進(jìn)行聚類(lèi)分析[7]。
(1)地區(qū)分布與IVR客戶(hù)的關(guān)系分析
經(jīng)分析得到地區(qū)分布結(jié)果,95%以上撥打IVR的客戶(hù)來(lái)自寶安、龍崗、福田、南山和羅湖5個(gè)地區(qū)。寶安地區(qū)撥打IVR的客戶(hù)最多,占到總數(shù)據(jù)量的45.79%;鹽田地區(qū)的客戶(hù)撥打數(shù)最少,僅占總數(shù)據(jù)量的1.31%。
(2)ARPU值與IVR客戶(hù)的關(guān)系分析
經(jīng)分析得到ARPU值分布,99.9%的客戶(hù)ARPU值小于 600,而其余 0.1%的客戶(hù) ARPU值在600~1 608.690之間。因此可以看出,ARPU值越大的客戶(hù)撥打IVR的數(shù)量越少,ARPU值小于200的客戶(hù)撥打數(shù)量最多。撥打IVR的客戶(hù)主要是ARPU值小于350的客戶(hù),ARPU值為100~150之間的客戶(hù)撥打IVR的頻率最高。
移動(dòng)IVR客戶(hù)細(xì)分分析過(guò)程[5]如下:
(1)將客戶(hù)劃分為4類(lèi):
A類(lèi)客戶(hù):ARPU值及入網(wǎng)時(shí)長(zhǎng)都很高
B類(lèi)客戶(hù):ARPU值高,入網(wǎng)時(shí)長(zhǎng)較低
C類(lèi)客戶(hù):ARPU值較低,入網(wǎng)時(shí)長(zhǎng)高
D類(lèi)客戶(hù):ARPU值和入網(wǎng)時(shí)長(zhǎng)都較低
(2)選取“arpu”和“in_months”作為模型的輸入。
(3)數(shù)據(jù)準(zhǔn)備:
①將所有數(shù)據(jù)合并到一個(gè)記錄表;
②根據(jù)呼入時(shí)間對(duì)數(shù)據(jù)進(jìn)行排序;
③根據(jù)呼入號(hào)碼去除重復(fù)數(shù)據(jù);
④去除異常變量;
⑤選擇IVR客戶(hù)。
ARPU值、入網(wǎng)時(shí)長(zhǎng)的數(shù)據(jù)大小差別非常大,具體統(tǒng)計(jì)值如圖3所示。
圖3 ARPU值和入網(wǎng)時(shí)長(zhǎng)的統(tǒng)計(jì)值
(4)使用 Clementine 進(jìn)行建模,選取“arpu”、“in_months”作為模型的輸入。此處設(shè)定K=4。
(5)根據(jù)聚類(lèi)結(jié)果,分為 4類(lèi)是較為理想的,結(jié)果如圖4所示。
圖4 聚類(lèi)結(jié)果
相關(guān)統(tǒng)計(jì)量結(jié)果如表2所示。
表2 聚類(lèi)的各指標(biāo)統(tǒng)計(jì)值
從聚類(lèi)結(jié)果得到以下客戶(hù)劃分:
A 類(lèi):cluster-2,7 487條記錄,占 13%
B 類(lèi):cluster-3,5 190條記錄,占 9%
C 類(lèi):cluster-4,15 370條記錄,占 26%
D 類(lèi):cluster-1,30 797條記錄,占 52%
(1)進(jìn)行客戶(hù)行為預(yù)測(cè)的商業(yè)理解。用戶(hù)在撥打熱線電話時(shí),只會(huì)產(chǎn)生兩種情況:一種是轉(zhuǎn)入“人工接聽(tīng)”,另一種是進(jìn)入“自動(dòng)語(yǔ)音播放”。
(2)選 取“area”、“arpu”、“in_months”,作 為 模 型 的 輸入,將 “是否轉(zhuǎn)人工”作為輸出變量。
(3)評(píng)估客戶(hù)行為預(yù)測(cè)的模型。通過(guò)采用analysis節(jié)點(diǎn)對(duì)C5決策模型進(jìn)行評(píng)估,得到的評(píng)估結(jié)果如圖5所示,從圖中的可信矩陣可以看出模型的正確率達(dá)到60.42%。
結(jié)果分析如下:
(1)更可能撥打 IVR的客戶(hù)包括:ARPU值在 50~150,入網(wǎng)時(shí)長(zhǎng)為 5.5~8.5,居住在鹽田、羅湖地區(qū)的客戶(hù);入網(wǎng)時(shí)長(zhǎng)為 0~2.5和 59.5~62.5,居住在鹽田、龍崗地區(qū)的客戶(hù);ARPU 值在 50~150,入網(wǎng)時(shí)長(zhǎng)為 8.5~11.5,居住在南山、寶安、鹽田、羅湖的客戶(hù)。
圖5 C5.0決策樹(shù)模型評(píng)估圖
(2)更可能撥打人工座席的客戶(hù)包括:ARPU值在50~150,入網(wǎng)時(shí)長(zhǎng)為 5.5~8.5,居住在南山、寶安地區(qū)的客戶(hù);入網(wǎng)時(shí)長(zhǎng)為 11.5~20.5,居住在鹽田、龍崗地區(qū)的客戶(hù);入網(wǎng)時(shí)長(zhǎng)為 5.5~11.5,居住在鹽田、龍崗地區(qū)的客戶(hù)。
該領(lǐng)域的研究仍有許多待改進(jìn)之處,特別是在模型分析上,利用數(shù)據(jù)挖掘的方法較少,本文針對(duì)這些不足,通過(guò)數(shù)據(jù)挖掘技術(shù),達(dá)到提高客戶(hù)關(guān)系管理可用性、實(shí)時(shí)性、智能性等目標(biāo)。本文在國(guó)外已有研究的基礎(chǔ)上,結(jié)合電信企業(yè)的實(shí)際需要,提出了電信客戶(hù)細(xì)分?jǐn)?shù)據(jù)挖掘模型,并根據(jù)客戶(hù)細(xì)分結(jié)果為企業(yè)提供決策支持。在業(yè)務(wù)應(yīng)用上,建立了一個(gè)聚類(lèi)模型和一個(gè)定量化的決策樹(shù)數(shù)據(jù)挖掘模型,提出了相應(yīng)的改進(jìn)措施,可為相關(guān)的決策者提供一定的參考。
[1]王扶東,馬玉芳.基于數(shù)據(jù)挖掘的客戶(hù)細(xì)分方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4):215-218.
[2]易珺,路璐,曹東.改進(jìn)的 k-means算法在客戶(hù)細(xì)分中的應(yīng)用研究[J].微型機(jī)與應(yīng)用,2005,24(12):52-53.
[3]潘玲玲,張育平,徐濤.核 DBSCAN算法在民航客戶(hù)細(xì)分中的應(yīng)用[J].計(jì)算機(jī)工程,2012,38(10):71-73.
[4]徐翔斌,王佳強(qiáng),涂歡,等.基于改進(jìn)RFM模型的電子商務(wù)客戶(hù)細(xì)分[J].計(jì)算機(jī)應(yīng)用,2012,32(5):1440-1442.
[5]張煥國(guó),呂莎,李瑋.C均值算法的電信客戶(hù)細(xì)分研究[J].計(jì)算機(jī)仿真,2011,28(6):185-188.
[6]廖寶魁,孫雋楓.基于MapReduce的增量數(shù)據(jù)挖掘研究[J].微型機(jī)與應(yīng)用,2014,33(1):67-70.
[7]徐新國(guó),朱廷劭,康衛(wèi),等.基于數(shù)據(jù)挖掘的工業(yè)控制系統(tǒng)防危機(jī)制研究[J].電子技術(shù)應(yīng)用,2012,38(5):87-90.