師江波
(昆明理工大學(xué)信息與自動(dòng)化學(xué)院,云南昆明650051)
隨著4G時(shí)代的來(lái)臨,通信行業(yè)即將獲得更廣闊的發(fā)展空間和潛力,在實(shí)際的生產(chǎn)運(yùn)營(yíng)過程中,數(shù)據(jù)業(yè)務(wù)收入已經(jīng)逐漸躍居收入第二,僅次于語(yǔ)音收入,因此數(shù)據(jù)業(yè)務(wù)得到了運(yùn)營(yíng)商越來(lái)越多的關(guān)注,而數(shù)據(jù)業(yè)務(wù)的營(yíng)銷依然停留在傳統(tǒng)的營(yíng)銷方式,如通過調(diào)查資料、客服外呼營(yíng)銷等方式,屬于一種普遍撒網(wǎng)式的營(yíng)銷,這種營(yíng)銷方式成本高,周期長(zhǎng),客戶真正的響應(yīng)率低。
用戶對(duì)數(shù)據(jù)業(yè)務(wù)的使用都或多或少的與用戶消費(fèi)行為以及用戶背景信息有關(guān)聯(lián),而數(shù)據(jù)挖掘技術(shù)就可以找到這種聯(lián)系,發(fā)現(xiàn)其中的規(guī)律。由此本文以彩鈴為例,利用決策樹算法對(duì)該數(shù)據(jù)業(yè)務(wù)的精確營(yíng)銷進(jìn)行指導(dǎo),通過挖掘當(dāng)前彩鈴用戶特征,即具有什么行為特點(diǎn)的人可能會(huì)開通彩鈴,進(jìn)而鎖定彩鈴營(yíng)銷的潛在客戶群,再對(duì)預(yù)測(cè)名單內(nèi)的用戶進(jìn)行主動(dòng)營(yíng)銷,降低了營(yíng)銷成本,提高了營(yíng)銷的響應(yīng)率。
決策樹很擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),免去了很多數(shù)據(jù)預(yù)處理工作。常用的算法有CHAID、CART、Quest和C5.0,本文采用目前較成熟的C5.0算法。C5.0是經(jīng)典的決策樹算法,相比CART樹只能生成二叉樹來(lái)說(shuō),C5.0算法可生成多分支的決策樹,目標(biāo)變量即為分類變量,最后可以生成樹狀圖或者規(guī)則集。C5.0根據(jù)能夠帶來(lái)最大信息增益的字段拆分樣本,第一次拆分確定的樣本子集隨后再次拆分,通常是根據(jù)另一個(gè)字段進(jìn)行拆分,其中數(shù)值型字段被劃分成區(qū)間,字符型字段被組織成集合,這一過程重復(fù)進(jìn)行直到樣本子集不能再被拆分為止。最后,重新檢驗(yàn)最低層次的拆分,支持的事例數(shù)過少或者支持的概率較低的樣本子集(即決策樹葉子)將被剔除或者修剪。
決策樹用樣本的屬性作為節(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu),是利用信息論原理對(duì)大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。
信息論中的信息熵H(U):信息量的數(shù)學(xué)期望,是信源發(fā)出信息前的平均不確定性,也稱先驗(yàn)熵;
設(shè)S是一個(gè)樣本集合,目標(biāo)變量C有k個(gè)分類,freq(Ci,S)表示S中屬于Ci類的樣本數(shù),|S|表示樣本集合S的樣本數(shù)。則集合S的信息熵定義為:
利用決策樹算法,將彩鈴客戶消費(fèi)屬性和客戶背景屬性一起作為決策樹的輸入屬性,將彩鈴用戶和非彩鈴用戶按照某種比例組合作為預(yù)測(cè)的訓(xùn)練數(shù)據(jù)。決策樹算法是一種“有指導(dǎo)”的歸納學(xué)習(xí),通過大量數(shù)據(jù)的學(xué)習(xí)歸納出預(yù)測(cè)規(guī)則集,即我們要研究的問題是:什么樣的人可能是潛在的彩鈴客戶,而什么樣的人可能不是潛在的彩鈴客戶。
決策樹的輸入屬性由兩部分組成,一部分是對(duì)彩鈴消費(fèi)產(chǎn)生較大影響的客戶消費(fèi)行為屬性,如:區(qū)內(nèi)時(shí)長(zhǎng)、區(qū)間時(shí)長(zhǎng)、國(guó)內(nèi)普通長(zhǎng)途時(shí)長(zhǎng)、國(guó)內(nèi)IP長(zhǎng)途時(shí)長(zhǎng)等;另一部分是客戶基本信息,包括年齡、性別、套餐、是否市區(qū)等。將兩部分信息整合在一起作為彩鈴預(yù)測(cè)的輸入屬性,屬性列表如表1(表中簡(jiǎn)列出部分屬性)所示,其中“是否彩鈴用戶”,是輸出屬性,即預(yù)測(cè)的目標(biāo)屬性值。
表1 部分屬性值
從彩鈴目標(biāo)客戶中隨機(jī)抽取其中3 545名客戶進(jìn)行分析,再在非彩鈴用戶中隨機(jī)抽取9倍的數(shù)據(jù)共同組成數(shù)據(jù)訓(xùn)練集,總共有35 450個(gè)用戶。數(shù)據(jù)處理流程如圖1。
圖1 數(shù)據(jù)處理流程
圖中,數(shù)據(jù)預(yù)處理是指數(shù)據(jù)訓(xùn)練集通過匯總變換等方法處理成滿足屬性列表的所需信息;預(yù)處理后,計(jì)算所有屬性的條件熵、信息熵、信息增益,根據(jù)這些數(shù)值進(jìn)一步計(jì)算出屬性的信息增益率以便完成決策樹的構(gòu)造。決策樹的各部分是:
根:數(shù)據(jù)訓(xùn)練集;
枝:分類的判定條件;
葉:分好的各個(gè)類;
最后使用IF-THEN語(yǔ)句表達(dá)規(guī)則集。
A={B}
A:B的集合,為根;
B:包括所有的訓(xùn)練數(shù)據(jù)。
從根到葉子節(jié)點(diǎn)都有一條路徑,這條路徑就是一條“規(guī)則”:
IF A中的任一元素b同屬于同一個(gè)決策類則創(chuàng)建一個(gè)葉子 ;終止
ELSE 選擇特征C={C1,C2,C3,……Cn};判定節(jié)點(diǎn)
由此產(chǎn)生預(yù)測(cè)彩鈴開通的17條規(guī)則,(括號(hào)內(nèi)數(shù)字代表支持該規(guī)則的實(shí)例數(shù))。這里列舉前幾個(gè),其它類似。規(guī)則1開通彩鈴(329)if 區(qū)內(nèi)時(shí)長(zhǎng) <=12
and區(qū)間時(shí)長(zhǎng) <=57
and增值收入 >3.440
and增值收入 <=8.960
and客戶品牌in["個(gè)人客戶""家庭客戶"]
and客戶消費(fèi)額 >18.490 and客戶消費(fèi)額 <=26.290
and工作日時(shí)長(zhǎng) >4.600 and市區(qū)郊縣 =郊縣
and年齡 >22 and年齡 <=49
and開通短信 =是and聯(lián)系人數(shù) <=25
then開通彩鈴
規(guī)則2開通彩鈴(63)
if國(guó)內(nèi)IP長(zhǎng)途時(shí)長(zhǎng) >1 and市區(qū)郊縣 =郊縣
and年齡 <=37 and開通短信 =是and性別 =女a(chǎn)nd漫游次數(shù) <=1 and聯(lián)系人數(shù) <=10
then開通彩鈴
我們可以從各規(guī)則中出現(xiàn)的屬性來(lái)判斷哪些屬性對(duì)彩鈴的開通有顯著的影響。分析這17個(gè)規(guī)則發(fā)現(xiàn),頻繁出現(xiàn)的屬性有:年齡、性別、聯(lián)系人數(shù)、短信是否開通、點(diǎn)對(duì)點(diǎn)次數(shù)、漫游次數(shù)、區(qū)內(nèi)時(shí)長(zhǎng)、忙時(shí)時(shí)長(zhǎng)、增值收入、客戶消費(fèi)額等。
例如規(guī)則3,彩鈴開通的客戶包括這樣一類人:IP長(zhǎng)途時(shí)長(zhǎng)大于1,37歲以下,開通短信,性別是男性,聯(lián)系人數(shù)24個(gè)的郊縣人群,支持這條規(guī)則的客戶有316個(gè)。
從規(guī)則看,客戶的年齡、性別、聯(lián)系人數(shù)、短信功能在預(yù)測(cè)彩鈴規(guī)則中起著重要的作用;進(jìn)而可以分類出什么類型的人可能開通彩鈴,什么類型的人不可能開通。
評(píng)估環(huán)境:在Windows server 2003操作系統(tǒng)下,使用Microsoft SQL Server 2005作為數(shù)據(jù)庫(kù)平臺(tái);SPSS Clementine數(shù)據(jù)挖掘軟件作為分析工具。
我們從兩方面的指標(biāo)來(lái)評(píng)價(jià),一是預(yù)測(cè)覆蓋率,二是預(yù)測(cè)命中率,如表2所示。其中A代表實(shí)際不開通,預(yù)測(cè)也不開通的用戶,B代表實(shí)際不開通而預(yù)測(cè)開通的用戶,C代表實(shí)際開通而預(yù)測(cè)不開通的用戶,D代表實(shí)際開通預(yù)測(cè)也開通的用戶。
表2 預(yù)測(cè)數(shù)據(jù)的覆蓋率和命中率
覆蓋率F:實(shí)際開通預(yù)測(cè)也開通的用戶在所有實(shí)際開通用戶中的占比。
命中率M:實(shí)際開通、預(yù)測(cè)也開通的用戶在所有預(yù)測(cè)為開通的用戶中的占比。
利用SPSS Clementine的分析節(jié)點(diǎn)對(duì)預(yù)測(cè)效果進(jìn)行評(píng)估,輸入數(shù)據(jù)為未參與預(yù)測(cè)的70%樣本數(shù)據(jù)。跟蹤觀察結(jié)果如表3。
表3 預(yù)測(cè)結(jié)果跟蹤檢驗(yàn)
經(jīng)過規(guī)則集的判別后得到圖2的結(jié)果,總體正確率為89.57%,符合矩陣中行表示實(shí)際值,列表示預(yù)測(cè)值,0表示未開通彩鈴,1表示開通彩鈴,我們從符合矩陣中看到,預(yù)測(cè)開通彩鈴實(shí)際開通的用戶為606個(gè),實(shí)際開通但預(yù)測(cè)不開通的用戶有1885個(gè),實(shí)際不開通但預(yù)測(cè)開通彩鈴的用戶為699個(gè),實(shí)際不開通預(yù)測(cè)也不開通彩鈴的有21 585個(gè)。根據(jù)上文對(duì)預(yù)測(cè)命中率和預(yù)測(cè)覆蓋率的定義,計(jì)算出覆蓋率為24.3%,命中率為46.4%,通俗的理解這個(gè)結(jié)果就是,用一半的準(zhǔn)確率預(yù)測(cè)出四分之一的彩鈴用戶。預(yù)測(cè)效果基本滿意。
圖2 節(jié)點(diǎn)分析
我們跟蹤觀察預(yù)測(cè)名單內(nèi)的客戶在今后幾個(gè)月時(shí)間內(nèi)的彩鈴“自然開通率”(即非主動(dòng)營(yíng)銷開通率),通過判斷“自然開通率”來(lái)評(píng)價(jià)在實(shí)際環(huán)境中的應(yīng)用價(jià)值。
幾個(gè)月后累計(jì)開通數(shù)為5 366,達(dá)到全部開通數(shù)的50%,但預(yù)測(cè)名單數(shù)卻只有37 059,只占全部總數(shù)的25%,如果這個(gè)結(jié)果是主動(dòng)營(yíng)銷的結(jié)果,那么預(yù)測(cè)分類讓營(yíng)銷人員用25%的時(shí)間做了50%的工作。這就是精確營(yíng)銷的意義和實(shí)際價(jià)值所在。
通過對(duì)真實(shí)數(shù)據(jù)的追蹤觀察結(jié)果表明,在真實(shí)的預(yù)測(cè)環(huán)境中能將預(yù)測(cè)準(zhǔn)確率保持在較高的自然準(zhǔn)確率。今后的工作包括:引進(jìn)交叉銷售的理論,利用關(guān)聯(lián)規(guī)則等技術(shù)對(duì)彩鈴用戶進(jìn)行分析,在不同的產(chǎn)品間以及不同的業(yè)務(wù)間進(jìn)行交叉銷售模式的營(yíng)銷;使其能更有效地運(yùn)用于電信的其它業(yè)務(wù)領(lǐng)域,真正用于主動(dòng)營(yíng)銷指導(dǎo)中。
[1]Abdi Kerim,Chi ZX,Zhang CT.Data Warehouse Optimization Based on Multi-agents Jisuanji Jicheng Zhizao Xitong/Computer Integrated Manufacturing Systems[J].CIMS,2006,9(8):671 -673+697.
[2]曹忠升,薛梅艷.基于決策樹的軟件分類方法[J].計(jì)算機(jī)工程.2008(1):56-58.
[3]師江波,胡建華.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測(cè)分析[J].山西電子技術(shù),2009(1):50-52.
[4]師江波.客戶細(xì)分在電信彩鈴營(yíng)銷中的應(yīng)用[D].昆明:昆明理工大學(xué),2009.