吉林大學(xué)軍需科技學(xué)院 王雪冰
基于決策樹技術(shù)的鐵路貨運(yùn)企業(yè)客戶流失問題研究
吉林大學(xué)軍需科技學(xué)院 王雪冰
隨著我國(guó)服務(wù)市場(chǎng)的開放、市場(chǎng)競(jìng)爭(zhēng)的發(fā)展,客戶選擇服務(wù)供應(yīng)商的余地越來越大,企業(yè)之間對(duì)客戶的爭(zhēng)奪越來越激烈。據(jù)市場(chǎng)調(diào)研顯示,在自然狀態(tài)下一家企業(yè)的年客戶流失率為10%~25%,即如果企業(yè)不做任何開發(fā)新客戶和保持老客戶的工作,企業(yè)的客戶群將在4~10年喪失殆盡。因此,分析客戶流失的原因,吸引潛在客戶,增加現(xiàn)有客戶滿意度,減少客戶流失率,充分占有市場(chǎng),已成為企業(yè)在激烈市場(chǎng)競(jìng)爭(zhēng)中制勝的關(guān)鍵。
鐵路的客戶流失,一般有五個(gè)方面的含義:一是指客戶為了較低的服務(wù)價(jià)格而轉(zhuǎn)移,二是指客戶因?qū)ζ髽I(yè)的服務(wù)不滿而轉(zhuǎn)移,三是指客戶因離開該地區(qū)而轉(zhuǎn)移,四是指客戶轉(zhuǎn)向更高的物流服務(wù)質(zhì)量而轉(zhuǎn)移,五是指客戶的平均消費(fèi)量降低,從高價(jià)值客戶轉(zhuǎn)移為低價(jià)值客戶。
鐵路客戶流失分析是指利用數(shù)據(jù)挖掘等分析方法,對(duì)已經(jīng)流失的客戶信息進(jìn)行分析,尋找出具有流失趨勢(shì)客戶的行為特征,再將這些特征的應(yīng)對(duì)措施應(yīng)用于現(xiàn)有的客戶服務(wù),采取相應(yīng)的營(yíng)銷手段保持客戶和發(fā)展客戶。客戶流失分析過程包括前期的數(shù)據(jù)準(zhǔn)備,建立流失分析模型、模型測(cè)試以及流失分析模型的應(yīng)用。
1. 業(yè)務(wù)問題定義??蛻袅魇Х治龅哪康氖峭炝艨蛻?,增加業(yè)務(wù)收入。因此進(jìn)行客戶流失分析和客戶zz挽留應(yīng)與客戶服務(wù)成本相結(jié)合??蛻粝M(fèi)帶來的收益可能大于或小于企業(yè)為其服務(wù)的成本,因此需要對(duì)流失的客戶進(jìn)一步分類,針對(duì)不同的分類,分別定義業(yè)務(wù)問題,進(jìn)而區(qū)別處理。例如,有完整聯(lián)系資料與沒有聯(lián)系資料的客戶,短期使用服務(wù)的客戶和長(zhǎng)期使用服務(wù)的客戶,集體客戶和個(gè)人客戶本地客戶和外來客戶。
根據(jù)上述的客戶分類,我們可以對(duì)各種類別的客戶流失情況進(jìn)行分析,找出流失群體特性,采取必要的挽留措施。
2. 數(shù)據(jù)選擇。數(shù)據(jù)選擇包括輸入變量、目標(biāo)變量和建模數(shù)據(jù)的選擇。
(1)輸入變量和目標(biāo)變量的選擇。輸入變量是模型中的自變量,在建模過程中需要尋找自變量和目標(biāo)變量的關(guān)系。對(duì)于輸入變量,我們選擇客戶交易屬性和客戶的基本屬性作為模型的輸入變量;客戶流失分析的目標(biāo)變量設(shè)置為客戶流失狀態(tài)。
(2)建模數(shù)據(jù)的選擇。根據(jù)前述的流失客戶的分類,選擇企業(yè)真正關(guān)心的、具有挽留價(jià)值的流失客戶數(shù)據(jù)建模。企業(yè)的客戶信息和交易信息分別存放在個(gè)人用戶表和訂單表等多個(gè)表內(nèi)。去除這些表中不需要的信息,如傳真、郵編等,將需要的信息抽取整理成為能被挖掘算法利用的數(shù)據(jù)表格。表1為流失模型數(shù)據(jù)輸入表,其中有些字段在業(yè)務(wù)系統(tǒng)中并不直接存在,需要計(jì)算轉(zhuǎn)換得到,如客戶使用物流服務(wù)的頻率、運(yùn)費(fèi)總額等。
表1 流失模型數(shù)據(jù)輸入
3. 數(shù)據(jù)清洗和預(yù)處理。數(shù)據(jù)清洗和預(yù)處理是建模前的數(shù)據(jù)準(zhǔn)備工作,一方面保證建模數(shù)據(jù)的正確性和有效性,另一方面通過對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合建模的需要。數(shù)據(jù)整理的工作主要包括數(shù)據(jù)整合、抽樣、缺失值處理等。包括按比例抽取已流失客戶和未流失客戶,將兩類數(shù)據(jù)合并,構(gòu)成建模的數(shù)據(jù)源。
4. 流失分析模型的選擇和建立。數(shù)據(jù)挖掘技術(shù)提供了決策樹、神經(jīng)網(wǎng)絡(luò)等多種用于流失分析的建模方法。人工神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)是對(duì)噪聲數(shù)據(jù)具有高承受能力,但其明顯的缺點(diǎn)是結(jié)果的可解釋性較差,即不能對(duì)分析結(jié)果做出比較明確的解釋,這一點(diǎn)是不符合解決客戶流失問題的要求的。由于決策樹方法具有在大數(shù)據(jù)量的前提下,分類效率和正確性較高,以及分類結(jié)果具有良好的可解釋性等優(yōu)點(diǎn),因此我們采用了決策樹的方法來解決流失問題。
(1)決策樹原理。決策樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性變量上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,每個(gè)樹的葉節(jié)點(diǎn)代表類,樹的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。對(duì)于未知的樣本分類,樣本的屬性變量在決策樹上的內(nèi)部節(jié)點(diǎn)測(cè)試,當(dāng)從判定樹中提取分類規(guī)則時(shí),對(duì)從根到樹葉的每條路徑創(chuàng)建一個(gè)規(guī)則,沿著給定路徑上的每個(gè)屬性變量值,形成規(guī)則前件(IF部分),葉節(jié)點(diǎn)包含分類,形成規(guī)則后件(THEN部分)。
問題的關(guān)鍵是建立一棵決策樹。這個(gè)過程通常分為兩個(gè)階段:建樹和剪枝。剪枝的目的是去掉噪聲或異常的數(shù)據(jù)。1948年,香農(nóng)提出了信息論,對(duì)信息量(Information)和熵進(jìn)行了定義,因此,使用信息增益(Information Gain)作為衡量節(jié)點(diǎn)分裂質(zhì)量的指標(biāo)。由于決策樹建樹算法是一個(gè)遞歸的過程,因此,下面我們僅討論某個(gè)特定節(jié)點(diǎn)N的分裂方法。
設(shè)指向N的訓(xùn)練集為S,其中包含m個(gè)不同的類,它們能夠區(qū)分不同的類Ci(i=1,…,m)。設(shè)Si是S中屬于類Ci的記錄的個(gè)數(shù)。那么分類之前,系統(tǒng)的總熵為:
其中,Pi是任意樣本屬于Ci的概率,用 估計(jì)。從式(1)中看出,總熵是屬于各個(gè)類的記錄的信息量的加權(quán)平均。
分割后。現(xiàn)在屬性A是帶有v個(gè)不同值的屬性,A可以把S分成v個(gè)子集。如果A被選為測(cè)試屬性,那么這些子集表示從代表集合S出發(fā)的所有樹枝。設(shè)sij表示在Sj中類為Ci的記錄個(gè)數(shù)。則按A的每個(gè)屬性值進(jìn)行分割后的信息量,即系統(tǒng)總熵為:
總熵E(A)是各個(gè)子集信息量的加權(quán)平均。對(duì)N用屬性A分類后的信息增益為:
信息增益由系統(tǒng)熵的減少值定量描述。熵是一個(gè)衡量系統(tǒng)混亂程度的統(tǒng)計(jì)量。熵越大,表示系統(tǒng)越混亂。分類的目的是使系統(tǒng)有序,因此,最佳的分裂方案是使熵減少量最大的分裂方案。
剪枝。我們采用同步剪枝法。在建樹的過程中,當(dāng)滿足一定條件時(shí),比如信息增益達(dá)到某個(gè)預(yù)先設(shè)定的閾值時(shí),節(jié)點(diǎn)不再繼續(xù)分裂,內(nèi)部節(jié)點(diǎn)成為一個(gè)葉子節(jié)點(diǎn)。葉子節(jié)點(diǎn)取子集中頻率最大的類作為子集的標(biāo)志,或者可能僅存儲(chǔ)這些實(shí)例的概率分布函數(shù)。
(2)客戶流失模型。客戶流失模型構(gòu)造過程如圖1所示。
在研究中,我們采用了Clementine8.0中的分析服務(wù)等工具,針對(duì)某鐵路貨運(yùn)公司某營(yíng)業(yè)部的生產(chǎn)數(shù)據(jù),進(jìn)行建模分析。由于該公司歷年來對(duì)客戶流失的數(shù)據(jù)重視不足,收集流失客戶數(shù)據(jù)的工作變得非常困難,因此我們針對(duì)公司2009年1—12月一年的數(shù)據(jù)進(jìn)行手工操作,收集了3 057位客戶的生產(chǎn)數(shù)據(jù)記錄。對(duì)這些客戶的使用服務(wù)頻率進(jìn)行了分析,用以判斷其流失風(fēng)險(xiǎn)性的大小。
1. 客戶使用服務(wù)頻率分析。主要采用統(tǒng)計(jì)學(xué)的直方圖和二維分布圖的方法,針對(duì)客戶的付款日期變量進(jìn)行分析,分析流程如圖2所示。圖3顯示了某位客戶的付款日期變量的分析結(jié)果示例。
從圖3中我們可以看到,自然美光學(xué)的付款日期直方圖和總費(fèi)用均近似于正態(tài)分布。我們從客戶資料了解到,該企業(yè)主要經(jīng)營(yíng)鏡片,不受季節(jié)限制,向全國(guó)各地均有發(fā)貨。因此我們認(rèn)為自然美光學(xué)為流失風(fēng)險(xiǎn)性較小的客戶,歸入穩(wěn)定客戶類。
而對(duì)于付款日期只有1~2次,客戶資料模糊或是地址為外地的客戶,我們認(rèn)為其為流失風(fēng)險(xiǎn)性較大的客戶,歸入不穩(wěn)定客戶類。
2. 客戶特性歸納分析。按照上面的客戶使用服務(wù)頻率分析方法,我們將3 057位客戶分別歸入穩(wěn)定客戶類和不穩(wěn)定客戶類。并采用Clementine8.0中的決策樹歸納算法,建立了數(shù)據(jù)挖掘流程,決策樹模型的輸入變量為客戶的總運(yùn)費(fèi)、客戶使用服務(wù)的頻次、貨物運(yùn)輸總距離;輸出變量為客戶的狀態(tài)。運(yùn)行數(shù)據(jù)挖掘流程,分別歸納出了兩類客戶的一般特性,歸納結(jié)果如圖4所示。
從圖4中我們看到,決策樹算法共挖掘出6條兩類客戶特性的規(guī)則。從這6條規(guī)則中,我們可以知道:穩(wěn)定客戶為252位,占總客戶數(shù)的8.24%,非穩(wěn)定客戶為2 054位,占總客戶數(shù)的91.76%。這個(gè)結(jié)果說明該營(yíng)業(yè)部的91.76%的客戶流失風(fēng)險(xiǎn)性較大,急需加強(qiáng)客戶流失預(yù)報(bào)和提高客戶服務(wù)方面的工作。
企業(yè)可以根據(jù)穩(wěn)定客戶和非穩(wěn)定客戶的特性判定現(xiàn)有客戶的流失情況,有針對(duì)性地制訂營(yíng)銷策略,改進(jìn)服務(wù)質(zhì)量,加強(qiáng)客戶流失方面的分析預(yù)報(bào)工作。
客戶流失的根源在于市場(chǎng)競(jìng)爭(zhēng)。通過應(yīng)用數(shù)據(jù)挖掘方法中的決策樹分析方法,分析客戶流失問題,目的在于改進(jìn)現(xiàn)有的服務(wù)工作。企業(yè)應(yīng)充分認(rèn)識(shí)到客戶流失分析的重要性和難點(diǎn),降低客戶流失率,提高企業(yè)的整體競(jìng)爭(zhēng)能力。