張小敏,伍小平,豐 婷,胡 景
(安徽財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,安徽 蚌埠 233030)
基于最優(yōu)加權(quán)組合的電信客戶流失預(yù)測模型設(shè)計研究
張小敏,伍小平,豐 婷,胡 景
(安徽財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,安徽 蚌埠 233030)
針對電信客戶流失問題,本文設(shè)計了一種基于決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)及SVM支持向量機三種分類器融合的組合預(yù)測模型,利用最優(yōu)加權(quán)組合預(yù)測方法來確定各模型的權(quán)重值.預(yù)測結(jié)果表明:組合預(yù)測模型的準確率高于傳統(tǒng)的單一分類預(yù)測模型,構(gòu)建此模型對解決電信客戶流失預(yù)測方面的問題具有應(yīng)用價值.
電信客戶流失;最優(yōu)加權(quán)組合預(yù)測;決策樹C5.0;神經(jīng)網(wǎng)絡(luò);支持向量機
電隨著電信業(yè)的競爭日趨激烈,市場日趨飽和,市場份額的擴大對電信業(yè)的影響也越來越大.而發(fā)展一個新客戶比挽留一個老客戶所耗費的成本要高很多倍[1],所以采取相應(yīng)的策略挽留老客戶,以避免客戶的流失就顯得至關(guān)重要.目前存在的解決客戶流失問題的有效方法,大多數(shù)采用數(shù)據(jù)挖掘技術(shù)來建立客戶消費特征等屬性與客戶流失可能性的關(guān)聯(lián)模型,從而對客戶狀態(tài)進行實時預(yù)測.數(shù)據(jù)挖掘中常用于客戶流失的分類模型有:Logistic回歸、決策樹[2]、神經(jīng)網(wǎng)絡(luò)[3]、支持向量機[4]、貝葉斯、KNN分類等,但傳統(tǒng)的基于參數(shù)模型或單一的基于人工智能的方法難以實現(xiàn)較高精度的預(yù)測,所以建立組合預(yù)測模型,提高預(yù)測精度,是解決電信客戶流失問題的必然趨勢[5].
針對傳統(tǒng)單一預(yù)測模型的局限性,本文設(shè)計了一種基于決策樹C5.0、神經(jīng)網(wǎng)絡(luò)及支持向量機3種模型融合的組合預(yù)測模型,在數(shù)據(jù)挖掘工具Clementine 12.0中對客戶數(shù)據(jù)進行分析,并利用最優(yōu)加權(quán)組合預(yù)測方法來確定各模型的權(quán)重值.通過比較這4種模型的預(yù)測準確率,驗證了組合預(yù)測模型的有效性.
組合預(yù)測方法是通過求個體預(yù)測值的加權(quán)算術(shù)平均而得到的組合預(yù)測值,能增加預(yù)測結(jié)果的可靠性和穩(wěn)定性.根據(jù)陳曄[5]對各種組合預(yù)測方法的結(jié)果及評價,發(fā)現(xiàn)最優(yōu)加權(quán)組合預(yù)測方法準確率最高,因此本文采用最優(yōu)加權(quán)組合預(yù)測方法對客戶流失進行預(yù)測.最優(yōu)加權(quán)法實際為依據(jù)某種最優(yōu)準則構(gòu)造目標函數(shù)Q,在約束條件下(如使權(quán)重之和為1)極小化Q,求得組合模型的加權(quán)系數(shù).其數(shù)學(xué)語言描述如下[6]:
設(shè)由實際觀察值構(gòu)造的m種預(yù)測方法,記為:φ1(x),φ2(x),…,φm(x).為討論方便將符號記為:
(1)y=(y1,y2,…,yn)T,y(l)=φ1(x);
(2)在x1,x2,…,xn點的擬合值為:yi(l)=φ1(xi),(i=1,2,…,n);
(3)與實際值的誤差為:
由式(1),可得:eij=ei(l)=(φj(xi)-yi).令
于是得到最優(yōu)非負權(quán)重系數(shù)的非線性規(guī)劃模型為:
對于(3)式實際上是一個線性約束的二次規(guī)劃問題,又由?W≠0總有ξ(W)>0,可知一定有最優(yōu)解存在.最后算得其最優(yōu)解:W*=(W1*,W2*,…,Wm*)T,由此得出最優(yōu)組合預(yù)測模型:
2.1 數(shù)據(jù)的準備與預(yù)處理
本文電信客戶流失的數(shù)據(jù)來源是Clementine 12.0中的數(shù)據(jù)telco.sav,該數(shù)據(jù)共有1000條記錄,每條記錄有42個字段,但不是每個字段都與目標屬性churn有關(guān),所以首先需要對數(shù)據(jù)進行預(yù)處理.預(yù)處理主要分為兩步:一、首先需要檢測數(shù)據(jù)的完整性,觀察數(shù)據(jù)中是否存在缺失數(shù)據(jù),如果有,則增加過濾節(jié)點將其去除;二、該數(shù)據(jù)字段很多,所以先要使用特征選擇節(jié)點,對于不能對預(yù)測結(jié)果產(chǎn)生有用信息的預(yù)測變量或數(shù)據(jù),可以將其刪除.最后選取了對輸出結(jié)果churn影響較大的28個字段,預(yù)處理后的數(shù)據(jù)如表1:
2.2 3種單一預(yù)測模型的建立
在數(shù)據(jù)準備與預(yù)處理后,就可以將數(shù)據(jù)輸入模型,對每種單一模型進行相關(guān)的預(yù)測.以決策樹C5.0為例構(gòu)建單一預(yù)測模型,在Clementine 12.0中構(gòu)建其模型流程圖.模型的輸出用$C-churn、$CP-churn表示,$C-churn代表電信客戶是否流失,1代表流失,0代表不流失;$CP-churn表示流失的概率大小.
然后分別用神經(jīng)網(wǎng)絡(luò)、支持向量機建立預(yù)測模型,得到3種單一模型的實驗結(jié)果.結(jié)果表明:決策樹C5.0模型的準確率最高,為91.1%,其誤差平方和MSE為89;神經(jīng)網(wǎng)絡(luò)模型為的準確率為87.1%,MSE為129;SVM模型的準確率為87.3%,MSE為127.
表1 預(yù)處理后的電信客戶屬性字段
2.3 組合預(yù)測模型的建立
然本實驗的總樣本為1000條,根據(jù)3種單一模型的預(yù)測結(jié)果,并由最優(yōu)加權(quán)法中的(2)式及測試集計算得:
根據(jù)(3)式,利用數(shù)學(xué)軟件Matlab求解二次規(guī)劃,求得權(quán)重向量:
即組合模型中決策樹C5.0的權(quán)重為0.5709,神經(jīng)網(wǎng)絡(luò)模型的權(quán)重為0.2324,SVM模型的權(quán)重為0.1967,于是由(4)式得到組合模型的形式:
根據(jù)求得的組合預(yù)測模型公式(5),可求出組合預(yù)測模型每個樣本的離網(wǎng)概率,從而求出預(yù)測的正確率,不同模型的預(yù)測結(jié)果比較如表2所示:
表2 不同模型的預(yù)測結(jié)果比較
從表2不難看出,4個模型預(yù)測的平均精度最高的是組合模型,驗證了組合預(yù)測模型的準確率高于傳統(tǒng)的單一分類預(yù)測模型,原因在于:決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)及SVM三種模型都是結(jié)合自身模型的特點進行預(yù)測,對預(yù)測對象的分析具有一定的局限性,而組合預(yù)測方法能利用更多的信息,是單一模型之間優(yōu)勢互補,提高了預(yù)測的精度.
本文針對電信客戶流失問題,考慮到傳統(tǒng)單一模型難以實現(xiàn)較高精度的預(yù)測,提出了一種基于多分類器融合的組合預(yù)測模型,在Clementine 12.0中對決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)及SVM三種模型分別進行預(yù)測,并利用最優(yōu)加權(quán)組合方法來確定各單一模型的權(quán)重值,這轉(zhuǎn)化為在Matlab中求解二次規(guī)劃問題.通過對比4種模型的預(yù)測結(jié)果得到:組合預(yù)測模型的準確率高于傳統(tǒng)的單一分類預(yù)測模型,更能直觀地顯示出流失客戶的基本特征,構(gòu)建此模型對解決電信客戶流失預(yù)測方面的問題具有應(yīng)用價值.
〔1〕肖仲東.數(shù)據(jù)挖掘在預(yù)測電信客戶流失中的研究與應(yīng)用[D].湖南師范大學(xué),2012.
〔2〕郭彥偉.電信行業(yè)客戶流失分析的決策樹技術(shù)[J].科技和產(chǎn)業(yè),2005,5(11):7-9.
〔3〕王志君.基于神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)警研究[D].吉林大學(xué),2013.
〔4〕仲繼.電信企業(yè)客戶流失預(yù)測模型研究[D].西安科技大學(xué),2014.
〔5〕陳曄.基于組合預(yù)測的電信客戶流失預(yù)測分析[D].湖南大學(xué),2011.
〔6〕耿悅敏.基于最優(yōu)加權(quán)的組合預(yù)測模型及應(yīng)用[J].五邑大學(xué)學(xué)報(自然科學(xué)版),2008,22(1):63-67.
O211.67;O29
A
1673-260X(2017)06-0003-02
2017-04-11
安徽財經(jīng)大學(xué)大學(xué)生科研創(chuàng)新基金項目 “基于多分類器融合的電信客戶流失預(yù)測模型”的階段性成果之一(XSKY1717ZD)