路美秀李鋒向仍濤
(1.廣東外語外貿(mào)大學(xué)信息學(xué)院,廣東廣州510006;2.廣東工業(yè)大學(xué)應(yīng)用數(shù)學(xué)學(xué)院,廣東廣州510006;3.廣東電信,廣東廣州510000)
目前在全球電信業(yè)發(fā)展處于低迷的情況下,我國不斷深化改革電信行業(yè),對電信運營企業(yè)進(jìn)行重組。各電信企業(yè)一方面投入大量時間、人力、財力去發(fā)展新客戶,另一方面因客戶流失管理的不完善導(dǎo)致現(xiàn)有客戶流失。如何保留住既有客戶,及如何從這些客戶獲得最大的收益,將成為國內(nèi)電信企業(yè)重要的課題。本文結(jié)合電信業(yè)務(wù)規(guī)則,對基于數(shù)據(jù)挖掘的流失預(yù)測模型進(jìn)行了合理的分析和應(yīng)用,使企業(yè)對流失客戶能夠采取更有效的營銷策略。
二十世紀(jì)末,一些軟件供應(yīng)商和用戶成立了行業(yè)協(xié)會,包括NCR Systems Engineering Copenhagen(丹麥)、Daimler-Benz AG(德國)、SPSS/Internal Solutions Ltd(英國)和OHRA Verzekeringen en Bank Grep B.V(荷蘭),這個組織建立了數(shù)據(jù)挖掘的過程模型CRISP–DM(Cross-Industry Standard Process-Data Mining)[1],CRISP-DM方法把數(shù)據(jù)挖掘看作一個商業(yè)過程,將一個數(shù)據(jù)挖掘項目的生存周期定義為六個過程,分別為:商業(yè)理解(Business Understanding)、數(shù)據(jù)理解(Data Understanding)、數(shù)據(jù)準(zhǔn)備(Data Preparation)、建立模型(Modeling)、模型評估(Evaluation)、結(jié)果發(fā)布(Deployment)。
本文以此模型為參考,選擇SPSS公司的Clementine工具進(jìn)行數(shù)據(jù)預(yù)測模型的建立,數(shù)據(jù)處理采用了Sybase公司的IQ數(shù)據(jù)倉庫。
電信行業(yè)的客戶流失可分為兩種:客戶被動流失與客戶主動流失??蛻舯粍恿魇П憩F(xiàn)為電信運營商由于客戶欺詐或惡意欠費等行為而主動終止客戶使用網(wǎng)絡(luò)和業(yè)務(wù)。而客戶主動流失分為如下幾種情況:客戶不再使用任何一家電信運營商的電信業(yè)務(wù);客戶選擇了另一家運營商;客戶轉(zhuǎn)移至本電信運營商的不同網(wǎng)絡(luò)、不同業(yè)務(wù)或不同品牌等。為了減少客戶流失,需整合用戶信息,對用戶進(jìn)行合理的分類和識別。本次客戶流失預(yù)測主要是針對電信行業(yè)的流失客戶。
為了建立客戶流失模型,必須收集所有的原始數(shù)據(jù),并將其轉(zhuǎn)換成數(shù)據(jù)模型所需的格式——數(shù)據(jù)挖掘目標(biāo)表,此階段稱為數(shù)據(jù)預(yù)處理階段或數(shù)據(jù)準(zhǔn)備階段。此項目采用某地市電信企業(yè)6個月的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。
針對被動流失客戶(即欠費銷戶)建立模型,對一般客戶而言,若因欠費停機,并且在3個月內(nèi)沒有還款,最后會被欠費銷戶。對于這類欠費銷戶的客戶,為了能考察到他們的行為變化,選定了在欠費銷戶月份之前的倒數(shù)第4~9個月這6個月作為觀察的時間窗口。
3.2.1 變量選擇和設(shè)計
根據(jù)電信客戶流失的業(yè)務(wù)特征,電信客戶流失的數(shù)據(jù)挖掘目標(biāo)表通常需要如下變量:客戶流失的狀態(tài)變量Y;個體鑒別變量X1;人口統(tǒng)計變量X2;客戶行為變量X3。將這些行為變量加以整理可歸納為以下幾類來描述[2](本地通話的行為變量;省內(nèi)、國內(nèi)漫游通話的行為變量;港澳臺、其它國家漫游通話及國際、港澳臺長途的行為變量;呼轉(zhuǎn)及呼叫。反映客戶呼轉(zhuǎn)到不同電信運營商的情況,客戶呼叫不同電信運營商的情況;數(shù)據(jù)業(yè)務(wù)的使用情況;通話號碼數(shù);客戶的總體主被叫行為等);進(jìn)一步的衍生變量X4。建模的目的就是要分析、確定這些向量變量與客戶流失狀態(tài)變量Y的關(guān)系,即:Y=F(X1,X2,X3,X4)。
3.2.2 數(shù)據(jù)挖掘過程
進(jìn)行知識挖掘時[3],先從原始數(shù)據(jù)集合(這里指數(shù)據(jù)挖掘目標(biāo)表)中取出一個與探索的問題相關(guān)的樣本數(shù)據(jù)集,經(jīng)過數(shù)據(jù)抽樣后,把樣本數(shù)據(jù)分成訓(xùn)練數(shù)據(jù)集(Train Data Set)和校驗數(shù)據(jù)集(Validation Data Set)。訓(xùn)練數(shù)據(jù)集實現(xiàn)初步的模型適應(yīng),可以由此找出較好的模型權(quán)重。校驗數(shù)據(jù)集用于評估模型是否適當(dāng)。數(shù)據(jù)探索階段的任務(wù)包括:數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)的必要整理、通過圖形化呈現(xiàn)工具和其它的統(tǒng)計方法理解數(shù)據(jù)、分析候選自變量和目標(biāo)變量之間的關(guān)系、數(shù)據(jù)轉(zhuǎn)換以輔助數(shù)據(jù)的分析、數(shù)據(jù)派生為建立模型做準(zhǔn)備、整理和呈現(xiàn)數(shù)據(jù)探索的發(fā)現(xiàn)。通過數(shù)據(jù)抽樣、數(shù)據(jù)探索兩個步驟對數(shù)據(jù)的狀態(tài)有了進(jìn)一步的了解后可以按照問題的具體要求對數(shù)據(jù)進(jìn)行修正,如增刪、組合或者生成一些新的變量等。例如由于客戶沒有使用某一業(yè)務(wù)而造成該變量值的缺失,可直接對缺失值進(jìn)行補零處理。根據(jù)對變量的觀察和實際的業(yè)務(wù)需求,去掉與變量均值相差大于或等于若干個標(biāo)準(zhǔn)偏差的觀測記錄,避免極端值影響后面的分類、預(yù)測模型的精度。
根據(jù)數(shù)據(jù)集的特征和要實現(xiàn)的目標(biāo),本文采用因子分析與回歸、決策樹等方法結(jié)合的建模策略。通過兩次因子分析(Factor Analysis),研究客戶變量的相關(guān)矩陣或協(xié)方差矩陣,將多個客戶變量綜合為少數(shù)幾個因子,進(jìn)而獲得代表主要因子的原始變量,利用這些原始變量建模,獲得最終的流失模型結(jié)果。在最后的流失建模中,對由因子分析篩選出來的原始變量再用決策樹模型挑選一次,然后把結(jié)果放到Logistic對數(shù)回歸模型里得到最終結(jié)果。這個過程是通過反復(fù)嘗試得到的。決策樹(Decision Tree)中的每個內(nèi)部節(jié)點(internal node)表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點(leaf)代表類(class)或類分布(classdistribution)。用決策樹表示客戶是否流失,而葉節(jié)點用橢圓表示,用它可以預(yù)測某條記錄(某個客戶)的流失意向。在確定輸入變量之后,運行模型建立流失預(yù)測模型(見圖1)。
圖1 模型結(jié)果
下面對模型的規(guī)則研究,試圖從中總結(jié)規(guī)則與實際業(yè)務(wù)的關(guān)系,決策樹流失模型的決策樹(見圖2):
圖2 決策樹
圖3 產(chǎn)生規(guī)則
我們發(fā)現(xiàn)在產(chǎn)生的規(guī)則中(見圖3),接入時長趨勢、竣工月份數(shù)(入網(wǎng)時間)、品牌等都是出現(xiàn)頻率高的字段,這些字段在預(yù)測模型中應(yīng)為重要變量。另外,品牌和欠費次數(shù)也是影響流失的重要因素。
此模型是對目標(biāo)問題多個側(cè)面的描述,但要形成最終的決策支持信息,還需要對這些結(jié)果和模型進(jìn)行綜合的解釋。如可以擴大樣本的范圍,檢驗?zāi)P褪欠袢匀粷M足。如果通過檢驗發(fā)現(xiàn)第一次構(gòu)建的樣本數(shù)據(jù)不具有充分的代表性,或模型本身不夠完善,就需要重新進(jìn)行數(shù)據(jù)挖掘,因此,數(shù)據(jù)挖掘是反復(fù)進(jìn)行的過程。
建模后要對各個模型進(jìn)行比較評估,得出最佳的模型。這里我們把客戶按照預(yù)測的流失概率P由高到低進(jìn)行排序,順序等數(shù)量分成N組客戶,對三種評價指標(biāo):提升率、查全率、命中率計算相應(yīng)的累計指標(biāo),我們主要使用累計提升率(Cumulative Lift)(即累計流失數(shù)量與每百分段值累計平均流失數(shù)量的比值)進(jìn)行模型評估。對決策樹模型、神經(jīng)網(wǎng)絡(luò)模型和沒有進(jìn)行建模的數(shù)據(jù)進(jìn)行評估比較,累計提升率的計算比較結(jié)果(見圖4、圖5):
圖4 神經(jīng)網(wǎng)絡(luò)模型
圖5 決策樹模型
在按照預(yù)測的流失概率由高到低進(jìn)行排序的全體客戶的前10%,20%,30%,40%,50%中,神經(jīng)網(wǎng)絡(luò)建模的累計提升率比決策樹建模要稍好。將客戶按照回歸模型預(yù)測的流失概率P由高到低進(jìn)行排序,等數(shù)量分成10組客戶,其前幾個百分段分組的客戶流失預(yù)測精度較高,由此可以選取此段的目標(biāo)用戶清單來進(jìn)行處理,當(dāng)然輔助決策人員和業(yè)務(wù)人員還需要根據(jù)業(yè)務(wù)處理能力以及工作成本來選定客戶范圍進(jìn)行客戶挽留工作。
由模型評估中也發(fā)現(xiàn),該客戶流失模型對未流失客戶的預(yù)測比較好,但對流失客戶的預(yù)測還不夠理想。這與客戶數(shù)據(jù)中流失客戶比較少以及現(xiàn)在取得的客戶數(shù)據(jù)資料還不夠完備有關(guān)。建議將來進(jìn)一步優(yōu)化客戶流失模型時,能夠獲得更多客戶的相關(guān)數(shù)據(jù)資料,并且可以把最近幾個月(例如:3個月)內(nèi)的所有流失客戶一塊進(jìn)行分析,這樣可以更好得到流失客戶的數(shù)字特征,改善模型的效果。在建模過程中,還可利用已經(jīng)得到的模型去預(yù)測下個月的主動流失的客戶,以便進(jìn)一步檢測模型的穩(wěn)定性。
這個階段主要任務(wù)是將模型的結(jié)果交付于管理者,為決策提供支持。一般情況下需要將模型結(jié)果可視化,而模型的業(yè)務(wù)分析需要由業(yè)務(wù)專家結(jié)合自己的經(jīng)驗完成,以提供更為可行的決策計劃。為了針對模型選定的客戶流失關(guān)鍵因素,有針對性地設(shè)計挽留營銷方案,可采用如下方式:將由客戶流失模型預(yù)測的流失傾向較高的客戶分為n-1個組,一個組是無行動組,只占總客戶的10%,這部分客戶不采用任何的挽留措施,純粹為了觀察流失模型的效果:將剩下的90%的客戶分為n個組,可對這n組客戶分別采用不同的挽留措施,保持一段時間之后觀察挽留效果。最后根據(jù)不同挽留措施的效果,進(jìn)一步完善營銷策略。在具體挽留工作中,可綜合考慮客戶的流失風(fēng)險和客戶價值兩個因素,優(yōu)先對高價值且高流失風(fēng)險的客戶進(jìn)行挽留。
在模型應(yīng)用過程中,可以先選擇一個試點,試點應(yīng)用期間隨時注意模型應(yīng)用的收益情況,一旦發(fā)生異常偏差則立即停止應(yīng)用并對模型進(jìn)行修正。試點結(jié)束后,若模型被證明應(yīng)用良好,可以考慮大范圍推廣。在模型應(yīng)用一段時期或經(jīng)濟環(huán)境發(fā)生重大變化后,模型的偏差可能會增大,這時應(yīng)該考慮重建適用性更強的模型。
數(shù)據(jù)挖掘工具作用的發(fā)揮依賴于商業(yè)數(shù)據(jù)采集的準(zhǔn)確性,本文主要以某地市電信企業(yè)的客戶為目標(biāo)用戶群,由于企業(yè)級的數(shù)據(jù)倉庫還在建設(shè)中,一些相關(guān)的原始數(shù)據(jù)還沒有采集到,此模型最后產(chǎn)生的數(shù)據(jù)作用還不是很準(zhǔn)確和全面。另在客戶流失模型的建立中,還需要考慮各個變量的交互作用對模型的影響,可使用邏輯回歸等其它算法進(jìn)行嘗試。
[1]郭亮.用CRISP-DM模型來規(guī)范企業(yè)數(shù)據(jù)中心建設(shè)[J].華北科技學(xué)院學(xué)報,2008,(10):69-72.
[2]耿慶鵬,盧子芳.利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)對電信行業(yè)用戶欺詐行為的預(yù)測[J].電信快報,2003,(10):40-42.
[3]李丙春,耿國華.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].新疆大學(xué)學(xué)報(自然科學(xué)版),2002,(8):46-47.