閆 賀 新
(吉林工程職業(yè)學院, 吉林 四平 136000)
客戶流失是通信行業(yè)面臨的重要問題,不僅會使企業(yè)市場占有份額縮小,還會出現(xiàn)客戶惡意離網(wǎng)產(chǎn)生欠費行為,從而增加了經(jīng)銷商的運營成本。為使企業(yè)利潤最大化,以獲得更大的生存空間,各運營商都把爭取更多的客戶作為經(jīng)營理念和目標。數(shù)據(jù)顯示:發(fā)展一位新客戶的成本是挽留一個老客戶的4~6倍,而客戶忠誠度下降比例則是企業(yè)利潤下降比例的4倍[1],可見做好客戶關(guān)系管理,防止客戶流失是通信行業(yè)提升企業(yè)核心競爭力的重要途徑。
針對上述問題,出現(xiàn)了很多有效的數(shù)據(jù)挖掘算法[2]。為了提高電信客戶流失預(yù)測精度, 提出一種基于主成份分析支持向量機的電信客戶流失預(yù)測方法,獲得較為理想的預(yù)測效果[3]。針對決策樹算法測試屬性選取上存在的缺點, 建立基于Weka的知識自動獲取的客戶流失預(yù)測模型,克服了決策樹算法取值偏置的問題[4]。為了避免現(xiàn)實中流失客戶與未流失客戶比例偏斜問題,采用多基決策樹聯(lián)合決策的方法進行建模,與單個分類器相比, 提高了預(yù)測模型的查準率和泛化能力[5]。提出了一種基于慢啟動的頻繁模式挖掘算法,用于電信企業(yè)客戶流失預(yù)警模型[6]??v觀以上文獻,都采用了單一的預(yù)測方法,但每種算法都存在一定的不足,從而使結(jié)果不能達到最佳?;诖耍狙芯恳蕴岣呖蛻袅魇ьA(yù)測命中精度為目標,結(jié)合決策樹、遺傳算法以及單神經(jīng)元3種模型特點,嘗試建立一種多算法組合預(yù)測模型,并對某電信企業(yè)進行客戶流失預(yù)測與評價。
數(shù)據(jù)挖掘是指在海量的、雜亂的數(shù)據(jù)中提取隱含在數(shù)據(jù)當中具有潛在利用價值的信息,通過分析能夠為人們提供決策作用的過程[7],廣泛應(yīng)用于地理、電信、銀行等領(lǐng)域?;贑RISP-DM標準的數(shù)據(jù)挖掘過程包括業(yè)務(wù)與數(shù)據(jù)理解、準備、建模、評估和部署等環(huán)節(jié),是一個不斷往復(fù)優(yōu)化過程,其中數(shù)據(jù)準備、建立模型、模型評估是數(shù)據(jù)挖掘重要的組成部分,見圖1。
圖1 CRISP-DM數(shù)據(jù)挖掘流程
(1) 數(shù)據(jù)準備。數(shù)據(jù)準備是數(shù)據(jù)挖掘結(jié)果準確與否的前提條件,是利用計算機技術(shù)對數(shù)據(jù)信息的預(yù)先處理,主要功能是將雜亂的、不符合規(guī)則的無效數(shù)據(jù)進行清洗和篩選,再根據(jù)業(yè)務(wù)分析的結(jié)果對數(shù)據(jù)進行整合與轉(zhuǎn)化,為建立模型奠定良好的數(shù)據(jù)基礎(chǔ)。
(2) 建立模型。模型的建立是數(shù)據(jù)挖掘的核心部分,不同的挖掘算法對數(shù)據(jù)的抽取和處理方式不盡相同,產(chǎn)生的結(jié)果也各有差異,可以根據(jù)不同的數(shù)據(jù)特點及業(yè)務(wù)需求選擇最合適、最有效的挖掘算法。
(3) 模型評估。為檢測經(jīng)過數(shù)據(jù)挖掘得到的結(jié)果是否達到預(yù)期要求,需要對模型進行評估。如果發(fā)現(xiàn)挖掘結(jié)果不符合業(yè)務(wù)需求,則需要重新選擇數(shù)據(jù)或采用其他挖掘算法。
隨著研究的不斷深入,各種挖掘算法不斷被完善和優(yōu)化。根據(jù)研究內(nèi)容,現(xiàn)只對決策樹、遺傳算法以及單神經(jīng)元3種典型的分類方法進行分析對比。
決策樹(DT)是一種類似流程圖的樹形結(jié)構(gòu),由若干分支和結(jié)點組成,節(jié)點表示某個屬性的測試,分支代表每個測試的結(jié)果,根節(jié)點與葉結(jié)點之間的路徑就是一條分類規(guī)則[8]。決策樹算法的預(yù)測過程一般分兩個階段:① 利用訓練集建立并進化一棵決策樹;② 測試各節(jié)點的屬性值,對決策樹進行檢驗、校正,例如圖2是預(yù)測客戶信用風險的流程框圖。
圖2 決策樹算法舉例
遺傳算法(GA)是根據(jù)達爾文優(yōu)勝劣汰法則產(chǎn)生的用于模擬生物進化過程的計算模型。遺傳算法具有很強的全局搜尋能力,不受函數(shù)本身連續(xù)性的影響,包括初始化種群、個體評估、執(zhí)行選擇運算、執(zhí)行交叉運算、變異運算等過程[9-10],其流程如圖3所示。
圖3 遺傳算法流程
人工神經(jīng)元(ANN)是通過模擬人腦功能而提出來的一種算法,具有很強的逼近功能,用于表示從多輸入到單輸出的映射關(guān)系,如圖4所示。
若把wji作為輸入量所對應(yīng)的權(quán)重值,神經(jīng)元的閾值為θj,則輸出Rj的表達式為:
(1)
神經(jīng)網(wǎng)絡(luò)的訓練學習指按一定的規(guī)則自動調(diào)整神經(jīng)元之間的連接闕值,尋找最佳的目標函數(shù),并可根據(jù)外部條件變化自動調(diào)整的過程[11-13],如圖5所示。
圖4 人工神經(jīng)元模型
圖5 神經(jīng)網(wǎng)絡(luò)的訓練過程
電信企業(yè)運營過程中的流失客戶可以分成兩種類型:一種是因為企業(yè)之間的競爭、套餐變更以及服務(wù)質(zhì)量等因素引起的主動客戶流失。另一種是由于話費欺詐、惡意停機等因素引起的被動客戶流失,前者的一般形式為主動解除或變更合同,后者的一般形式為欠費停機等形式的賬戶休眠[14]??蛻袅魇шP(guān)系到通信運營企業(yè)的利潤收入以及生活空間,如何建立有效客戶流失預(yù)測模型是判斷客戶是否有流失傾向的關(guān)鍵。
在數(shù)據(jù)挖掘軟件平臺Clementine 中建立基于決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)的預(yù)測模型。構(gòu)造Lagrange函數(shù)[15]:
α3zn-zn)2+ξ(α1xn+α2yn+α3zn-1)
(2)
式中:xn,yn,zn表示3種單一模型的的預(yù)測值(i=1,2,3);α1,α2,α3表示組合模型的權(quán)重系數(shù);λ為Lagrange 算子。
利用多組合模型進行數(shù)據(jù)挖掘的步驟:
(1) 預(yù)處理。將原始數(shù)據(jù)集進行分區(qū),數(shù)據(jù)樣本和測試樣本的劃分比例為6∶4;
(2) 構(gòu)建單一預(yù)測模型。分別用決策樹C5.0、遺傳算法和人工神經(jīng)網(wǎng)絡(luò)對訓練集進行建模;
(3) 預(yù)測。將測試集中的樣本數(shù)據(jù)帶入單一模型中進行預(yù)測,得到預(yù)測分析結(jié)果;
(4) 構(gòu)建組合預(yù)測模型。將單一模型的預(yù)測結(jié)果帶入Lagrange函數(shù),得到組合預(yù)測模型的權(quán)重系數(shù),并建立組合預(yù)測模型;
(5) 計算預(yù)測結(jié)果。對Lagrange函數(shù)求解,得到組合模型預(yù)測結(jié)果。
基于Lagrange 函數(shù)的組合模型預(yù)測流程見圖6。
分別采用單一算法模型與多算法組合模型對10 000個客戶信息進行預(yù)測分析,如表1所示,其中“0”代表客戶沒有流失,“1”代表客戶已流失或有流失傾向。
為進一步分析不同模型的預(yù)測結(jié)果,對表1結(jié)果進行統(tǒng)計分析,得到各模型算法的預(yù)測命中率。設(shè)每個客戶月均消費為人民幣35元,分別得到不同模型預(yù)測客戶流失的數(shù)量及誤判損失,結(jié)果如表2所示。
評價結(jié)果表明,本研究所設(shè)計的基于Lagrange的多算法組合預(yù)測模型集合了各單一模型的預(yù)測優(yōu)勢,大大提高了客戶流失的預(yù)測命中率,達到91%左右,比單一模型的預(yù)測命中率有了大幅提升,由組合模型所造成的誤判損失也將大大降低。由此可見,本研究所設(shè)計的多算法組合模型預(yù)測效果好,可有效預(yù)測客戶流失和流失傾向,滿足企業(yè)需求,達到預(yù)期目的。
表1 不同模型算法的客戶流失預(yù)測結(jié)果
表2 流失量預(yù)測及誤判率對比結(jié)果
針對電信行業(yè)無法準確預(yù)測客戶流失的問題,把數(shù)據(jù)挖掘技術(shù)應(yīng)用于客戶關(guān)系管理過程,根據(jù)單一預(yù)測模型的特點和缺陷,將決策樹、遺傳算法以及人工神經(jīng)網(wǎng)絡(luò)算法融于一體,建立基于Lagrange 函數(shù)的多算法組合預(yù)測模型。同時,用所建模型對某電信企業(yè)客戶流失情況進行預(yù)測,根據(jù)客戶信息、消費行為等歷史數(shù)據(jù)判斷客戶流失的可能性。結(jié)果表明,與單一預(yù)測模型相比,多算法組合預(yù)測模型對電信客戶流失預(yù)測命中率大幅提高,能有效獲取客戶流失傾向,為運營商采取相應(yīng)措施提供理論依據(jù),從而使電信企業(yè)營銷方案的制定更具針對性,避免因營銷手段的盲目性造成成本浪費。
[1] 張曉濱,高 峰,黃 慧.基于客戶細分的客戶流失預(yù)測研究[J]. 計算機工程與設(shè)計,2009,30 (24):5755-5758.
[2] 王夢雪. 數(shù)據(jù)挖掘綜述[J]. 軟件導刊,2013, 12 (10):135-137.
[3] 王觀玉, 郭 勇.支持向量機在電信客戶流失預(yù)測中的應(yīng)用研究[J]. 計算機仿真,2011, 28 (4):115-118.
[4] 尹 婷, 覃錫忠, 賈振紅,等. 基于WEKA 的客戶流失預(yù)測研究[J]. 激光雜志,2013,34(5):44-46.
[5] 郭俊芳, 周生寶. 基于聯(lián)合決策樹的客戶流失預(yù)測模型設(shè)計[J].計算機與現(xiàn)代化,2010 (5): 5-7.
[6] 劉志超,王 雷,谷 壘,等.基于數(shù)據(jù)挖掘技術(shù)的客戶流失預(yù)警模型[J]. 微計算機信息,2011, 27 (2):176-177.
[7] 潘大勝,屈遲文. 一種改進ID3型決策樹挖掘算法[J]. 華僑大學學報(自然科學版),2016,37 (1):71-73.
[8] 蔡中民.PSO 遺傳算法進行數(shù)據(jù)挖掘的策略構(gòu)建和分析[J].科技通報,2013, 29 (3):176-177.
[9] 余小雙.遺傳算法及其在數(shù)據(jù)挖掘中的應(yīng)用研究[D]. 武漢:武漢紡織大學, 2010.
[10] 童翔威.RBF神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用研究研究[D].長沙:中南林業(yè)科技大學,2009.
[11] 儲 兵,吳 陳,楊習貝. 基于RBF 神經(jīng)網(wǎng)絡(luò)與粗糙集的數(shù)據(jù)挖掘算法[J]. 計算機技術(shù)與發(fā)展,2013, 23( 7):87-91.
[12] 常 凱. 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘分類算法比較和分析研究[D]. 合肥:安徽大學,2014.
[13] HE Cong, REN Li-hong, DING Yong-sheng. Performance prediction of carbon fiber protofilament based on SAGA-SVR [J]. Journal of Donghua University, 2014,31(2):92-97.
[14] 王振環(huán).基于數(shù)據(jù)挖掘技術(shù)的電信領(lǐng)域客戶流失預(yù)測系統(tǒng)的研究與實現(xiàn)[D].長春:吉林大學,2006.
[15] 劉光遠, 苑森淼, 董立巖. 數(shù)據(jù)挖掘方法在用戶流失預(yù)測分析中的應(yīng)用[J]. 計算機工程與應(yīng)用,2007, 43( 9):154-156.