陳 捷
(杭州師范大學(xué) 國(guó)際服務(wù)工程學(xué)院,浙江 杭州 310012)
基于決策樹(shù)的電信業(yè)客戶(hù)流失分析
陳 捷
(杭州師范大學(xué) 國(guó)際服務(wù)工程學(xué)院,浙江 杭州 310012)
隨著電信市場(chǎng)競(jìng)爭(zhēng)加劇,如何降低客戶(hù)流失率正成為國(guó)內(nèi)各大運(yùn)營(yíng)商關(guān)注的問(wèn)題.本文基于SPSS Clementine數(shù)據(jù)挖掘平臺(tái),詳細(xì)描述了數(shù)據(jù)挖掘的各個(gè)過(guò)程,對(duì)商業(yè)理解、數(shù)據(jù)準(zhǔn)備、建立模型等主要步驟進(jìn)行了分析,采用C4.5決策樹(shù)算法建立了客戶(hù)流失預(yù)測(cè)模型.模型給出了客戶(hù)的流失規(guī)則,并可預(yù)測(cè)在網(wǎng)客戶(hù)在一定時(shí)間內(nèi)流失的可能性,為市場(chǎng)人員制定挽留措施提供了決策依據(jù).
客戶(hù)流失;數(shù)據(jù)挖掘;決策樹(shù)
隨著中國(guó)3 G牌照的發(fā)放,通信行業(yè)的競(jìng)爭(zhēng)愈演愈烈,客戶(hù)流失現(xiàn)象也成為電信運(yùn)營(yíng)商重點(diǎn)關(guān)注的問(wèn)題.國(guó)外統(tǒng)計(jì)表明:發(fā)展一個(gè)新用戶(hù)的費(fèi)用是留住一個(gè)老客戶(hù)的成本的4~5倍[1].因此,企業(yè)需要盡可能地預(yù)測(cè)并成功挽留那些用戶(hù)價(jià)值和信用度較高的待流失客戶(hù).當(dāng)前最有效的方法是采用基于嚴(yán)格數(shù)學(xué)計(jì)算的數(shù)據(jù)挖掘技術(shù),其通過(guò)計(jì)算機(jī)對(duì)大量復(fù)雜的業(yè)務(wù)數(shù)據(jù)集進(jìn)行自動(dòng)探索性分析,可發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的業(yè)務(wù)規(guī)則.現(xiàn)今,數(shù)據(jù)挖掘已經(jīng)廣泛應(yīng)用于移動(dòng)通信企業(yè)的市場(chǎng)銷(xiāo)售工作中[2].
本文基于某電信公司數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),根據(jù)已流失用戶(hù)和在網(wǎng)用戶(hù)的基本資料、賬單、話(huà)務(wù)量等數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘中的決策樹(shù)方法建立流失分析模型,并對(duì)有流失傾向的客戶(hù)進(jìn)行分類(lèi)預(yù)測(cè),為市場(chǎng)經(jīng)營(yíng)人員制定相應(yīng)的挽留策略提供決策依據(jù).本文以SPSS 公司的Clementine 12.0 為建模工具,嚴(yán)格按照CRISP-DM (cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn))逐步以商業(yè)理解、數(shù)據(jù)收集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、模型評(píng)估、模型應(yīng)用等步驟來(lái)實(shí)施此挖掘工程.
電信行業(yè)中,客戶(hù)流失是C R M(客戶(hù)關(guān)系管理)中客戶(hù)生命周期的最后一個(gè)階段,一般可以分為兩類(lèi):一類(lèi)為自愿流失,指用戶(hù)從本電信運(yùn)營(yíng)商轉(zhuǎn)至它網(wǎng)運(yùn)營(yíng)商;另一類(lèi)為非自愿流失,指電信企業(yè)出于客戶(hù)欠費(fèi)或不履行責(zé)任等原因而主動(dòng)取消用戶(hù)的服務(wù)[5].大多數(shù)的客戶(hù)流失屬于第一類(lèi).流失往往受到一種或多種因素的影響,例如客戶(hù)心理偏好、住宅搬遷、競(jìng)爭(zhēng)對(duì)手的優(yōu)惠政策、電信企業(yè)的服務(wù)質(zhì)量等.
本文主要關(guān)注自愿流失客戶(hù),特別是其中用戶(hù)價(jià)值和信用度高的群體.結(jié)合業(yè)務(wù)現(xiàn)狀,將流失客戶(hù)定義為“欠費(fèi)停機(jī)3個(gè)月以上的在網(wǎng)客戶(hù),以及主動(dòng)退網(wǎng)客戶(hù)”.實(shí)例來(lái)源于某電信公司C網(wǎng)客戶(hù).
結(jié)合業(yè)務(wù)經(jīng)驗(yàn),本文使用的流失分析數(shù)據(jù)包括客戶(hù)的自然屬性、通信消費(fèi)、出賬、歷史投訴等信息.這些數(shù)據(jù)從賬務(wù)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、客戶(hù)關(guān)系管理系統(tǒng)、營(yíng)業(yè)系統(tǒng)、財(cái)務(wù)系統(tǒng)等多個(gè)生產(chǎn)系統(tǒng)中采集、清洗并加載到企業(yè)已建立的數(shù)據(jù)倉(cāng)庫(kù)中.因此數(shù)據(jù)收集對(duì)本文并不是難點(diǎn).從數(shù)據(jù)倉(cāng)庫(kù)中隨機(jī)抽取了2010年6月份的1000 0名流失客戶(hù)以及2000 0名非流失客戶(hù)作為本次研究的樣本.接著的數(shù)據(jù)準(zhǔn)備工作是本文進(jìn)行過(guò)程中的一個(gè)技術(shù)關(guān)鍵.
數(shù)據(jù)準(zhǔn)備包括對(duì)數(shù)據(jù)的選擇、缺失值處理、噪聲數(shù)據(jù)平滑、數(shù)據(jù)集成變換、衍生變量的生成、離散化、抽樣等,它需要對(duì)行業(yè)領(lǐng)域知識(shí)有較深的理解,是數(shù)據(jù)挖掘項(xiàng)目中花費(fèi)時(shí)間最長(zhǎng)的過(guò)程.本文采用Clementine直接對(duì)數(shù)據(jù)進(jìn)行清洗與轉(zhuǎn)換處理,抽象出與用戶(hù)流失相關(guān)的屬性.例如使用數(shù)據(jù)審核節(jié)點(diǎn)采用C&RT算法來(lái)歸因或替換字段的缺失值.使用導(dǎo)出節(jié)點(diǎn)通過(guò)用戶(hù)身份證號(hào)生成年齡字段和性別字段.原始的用戶(hù)行為數(shù)據(jù)并不能直接反應(yīng)用戶(hù)流失前的異常變化,這需要通過(guò)導(dǎo)出節(jié)點(diǎn)歸約出一些衍生指標(biāo),比如流失前3個(gè)月的月均各語(yǔ)音、短消息的消費(fèi)比例、網(wǎng)間通話(huà)比例等.
通過(guò)對(duì)分析數(shù)據(jù)的調(diào)整和歸約,將有助于提高其后的數(shù)據(jù)建模過(guò)程的精度和性能.經(jīng)過(guò)上述處理,形成的客戶(hù)流失屬性表包含以下信息:
客戶(hù)基本信息:年齡、性別、地區(qū)、職業(yè)、在網(wǎng)時(shí)長(zhǎng)、產(chǎn)品結(jié)構(gòu)、優(yōu)惠套餐、付費(fèi)方式等、流失狀態(tài);
流失前3個(gè)月的月均通話(huà)與消費(fèi)數(shù)據(jù):通話(huà)次數(shù)、長(zhǎng)話(huà)次數(shù)、出賬費(fèi)用、市話(huà)費(fèi)用比例、長(zhǎng)話(huà)費(fèi)用比例、短信費(fèi)用比例、功能費(fèi)用比例、通話(huà)次數(shù)、通話(huà)時(shí)長(zhǎng)、網(wǎng)間通話(huà)比例、呼叫轉(zhuǎn)移次數(shù)、投訴次數(shù)等.
經(jīng)過(guò)數(shù)據(jù)預(yù)處理后得到一個(gè)高質(zhì)量的數(shù)據(jù)集合,為避免出現(xiàn)模型的過(guò)適應(yīng)問(wèn)題,從中隨機(jī)選取2/3的數(shù)據(jù)作為訓(xùn)練集,2094 5條數(shù)據(jù)用于建立預(yù)測(cè)模型;剩余的9055條數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集,用于對(duì)模型性能進(jìn)行評(píng)估.
從訓(xùn)練集中選擇流失狀態(tài)字段chur_stat作為用戶(hù)流失預(yù)測(cè)模型中的目標(biāo)字段,它由1和0兩個(gè)值組成,1代表用戶(hù)現(xiàn)在是流失狀態(tài),0代表用戶(hù)現(xiàn)在非流失.在Clementine上運(yùn)行C 4.5分類(lèi)技術(shù),通過(guò)歸納分析它們的特征來(lái)預(yù)測(cè)用戶(hù)是否離網(wǎng).
不斷對(duì)預(yù)測(cè)模型進(jìn)行調(diào)優(yōu)(變換參數(shù)),選取最優(yōu)參數(shù)設(shè)置來(lái)訓(xùn)練模型.最終得到客戶(hù)流失決策樹(shù)節(jié)點(diǎn)flag_active.瀏覽該節(jié)點(diǎn)可查看用戶(hù)流失決策樹(shù),其中每一條路徑代表一條分類(lèi)規(guī)則,每條規(guī)則對(duì)應(yīng)了一個(gè)葉子節(jié)點(diǎn),給出該規(guī)則客戶(hù)流失的數(shù)量和流失的概率.如標(biāo)識(shí)為‘5’的葉子節(jié)點(diǎn)表示,在該客戶(hù)群中流失的概率為21%,主要包括以下特征:
AVg_call_dur>1:月通話(huà)時(shí)大于1小時(shí),
NET_dur>=2:在網(wǎng)時(shí)長(zhǎng)不小于2年,
AVg_call_dms_rate>=0.11:長(zhǎng)途通話(huà)比例不小于0.11.
標(biāo)識(shí)為‘12’的葉子節(jié)點(diǎn)表示該客戶(hù)群的流失概率為83%,它們的特征與表示為‘5’的群體的區(qū)別在于:
NET_dur<1:在網(wǎng)時(shí)長(zhǎng)小于1年,
call_wj_rate>0.6:網(wǎng)間通話(huà)比例大于0.6,
call_divert_cnt>12:呼叫轉(zhuǎn)移次數(shù)大于12次.
從決策樹(shù)分析,每月的通話(huà)時(shí)長(zhǎng)、在網(wǎng)時(shí)長(zhǎng)、網(wǎng)間通話(huà)比例這三個(gè)因素是與用戶(hù)流失相關(guān)的主要因素.通話(huà)時(shí)長(zhǎng)指標(biāo)反映用戶(hù)主動(dòng)使用手機(jī)通話(huà)意愿的強(qiáng)烈程度;在網(wǎng)越久的用戶(hù)的忠誠(chéng)度也越高;網(wǎng)間通話(huà)比例反映了中國(guó)電信與中國(guó)聯(lián)通、中國(guó)移動(dòng)用戶(hù)之間的聯(lián)系緊密程度,因?yàn)槁?lián)通與移動(dòng)都對(duì)網(wǎng)內(nèi)通話(huà)給與一定的優(yōu)惠,如果某客戶(hù)群與中國(guó)移動(dòng)用戶(hù)的通話(huà)比例較高,那么該客戶(hù)群的離網(wǎng)傾向也較高.
模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的準(zhǔn)確率,即“預(yù)測(cè)正確率=正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”.將在數(shù)據(jù)抽樣過(guò)程中分離出的測(cè)試數(shù)據(jù)集輸入客戶(hù)流失預(yù)測(cè)模型,借助分析節(jié)點(diǎn)得到該模型的準(zhǔn)確率為84.16%.
經(jīng)驗(yàn)證評(píng)估后,使用Clementine的發(fā)布節(jié)點(diǎn)將流嵌入到運(yùn)營(yíng)商自己外部的應(yīng)用軟件中,如CRM、營(yíng)銷(xiāo)支撐系統(tǒng)等,可進(jìn)行客戶(hù)流失趨勢(shì)的預(yù)測(cè),通過(guò)預(yù)測(cè)某個(gè)客戶(hù)流失的概率來(lái)評(píng)價(jià)發(fā)展用戶(hù)的質(zhì)量.
決策樹(shù)是一種重要的分類(lèi)預(yù)測(cè)模型,本文以電信業(yè)的客戶(hù)流失作為主題,依托某地電信公司的客戶(hù)數(shù)據(jù),基于C 4.5決策樹(shù)算法構(gòu)建了一個(gè)數(shù)據(jù)挖掘的模型,在遵循CRISP-DM標(biāo)準(zhǔn)的構(gòu)建過(guò)程中所用到的理論、方法與策略同樣也可適用于其它主題.在某電信公司中的應(yīng)用結(jié)果表明,該模型可提供較準(zhǔn)確的決策依據(jù),市場(chǎng)部門(mén)能對(duì)流失傾向較高的客戶(hù)群體采取針對(duì)性的挽留措施,并通過(guò)實(shí)際應(yīng)用,不斷地修正挖掘模型使其預(yù)測(cè)精度更高.
〔1〕周支立,劉斌.基于客戶(hù)信息的電信企業(yè)客戶(hù)流失問(wèn)題分析[J].情報(bào)雜志,2003(12):98-99.
〔2〕湯小文,蔡慶生.?dāng)?shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].計(jì)算機(jī)工程,2004,30(6):36-37.
〔3〕Salvatore Ruggieri.Efficient C4.5[J].IEEE Transaction on Knowledge and Data Engineering,2002,14(2):438-444.
〔4〕Quinlan,J.R..Induction of Decision Trees.Machine Learning.1986(11).
〔5〕薛薇,王益鋒,趙璋.基于客戶(hù)細(xì)分的電信客戶(hù)流失防范對(duì)策研究[J].經(jīng)理理論研究,2007(4):48-50.
TP 181
A
1673-260X(2010)12-0079-02