吳 濤
(安徽工業(yè)職業(yè)技術(shù)學(xué)院,安徽 銅陵 244000)
近年來(lái)電商市場(chǎng)競(jìng)爭(zhēng)異常激烈,電子商務(wù)的特殊性和競(jìng)爭(zhēng)的激烈性,導(dǎo)致其客戶流失率高達(dá)90%以上,客戶流失是電子商務(wù)應(yīng)用所面臨的棘手問(wèn)題。因此如何有效挽留客戶,成為企業(yè)急待解決的問(wèn)題。傳統(tǒng)的流失客戶挽留方法是在客戶流失之后才采取措施挽救,這是因?yàn)樵诳蛻袅魇捌跊](méi)有快速、準(zhǔn)確地捕捉客戶即將流失的“信號(hào)”,采取相應(yīng)地措施。在客戶流失之后再做挽留,其維護(hù)成本高并且成功率低。近些年,數(shù)據(jù)挖掘技術(shù)發(fā)展迅速,該技術(shù)可自動(dòng)從大量的數(shù)據(jù)樣本中尋找數(shù)據(jù)間隱藏的特殊關(guān)系。面對(duì)傳統(tǒng)客戶挽留方法的不足,數(shù)據(jù)挖掘技術(shù)提供了有效的解決方案,它可以對(duì)歷史海量數(shù)據(jù)進(jìn)行學(xué)習(xí),建立客戶流失預(yù)測(cè)模型,動(dòng)態(tài)地捕捉客戶即將流失的信號(hào),使得電商平臺(tái)在客戶流失之前提前介入,采取針對(duì)性、個(gè)性化的營(yíng)銷策略,從而有效地挽留客戶。本文運(yùn)用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)、支持向量機(jī)算法分別對(duì)電商客戶流失進(jìn)行建模預(yù)測(cè),旨在尋找預(yù)測(cè)精度高的模型。
決策樹(shù)算法原理簡(jiǎn)單、計(jì)算量小、泛化能力強(qiáng),可有效的找出變量間的相互關(guān)系,已被廣泛應(yīng)用于數(shù)據(jù)挖掘技術(shù)中。但是決策樹(shù)算法具有兩個(gè)缺點(diǎn)。一是對(duì)于各類別樣本數(shù)量不一致的數(shù)據(jù),其穩(wěn)定性與抗震蕩性較差,決策樹(shù)中的信息增益結(jié)果偏向于具有更多數(shù)值的特征。二是決策樹(shù)內(nèi)部節(jié)點(diǎn)的判別具有明確性,會(huì)帶來(lái)一定的誤差。
決策樹(shù)構(gòu)造分2步進(jìn)行:第1步,決策樹(shù)的生成,是由訓(xùn)練樣本集生成決策樹(shù)的過(guò)程;第2步,決策樹(shù)的剪枝,是對(duì)上一階段生成的決策樹(shù)進(jìn)行檢驗(yàn)、校正和修正的過(guò)程。
支持向量機(jī)(Support Vector Machine,SVM)是一種對(duì)數(shù)據(jù)進(jìn)行二分類的廣義線性分類器,它在解決小樣本、非線性、高維度問(wèn)題中具有絕對(duì)的優(yōu)勢(shì)。
在二分類問(wèn)題中,SVM通過(guò)在n維空間中找到一個(gè)能夠?qū)崿F(xiàn)二分類的最優(yōu)超平面H(滿足wT·x+b=0),并且能夠使得兩類中距離最近的點(diǎn)間隔盡量大。其中,H0(滿足wT·x+b=1)和H1(滿足wT·x+b=-1)與H平行,且分別經(jīng)過(guò)兩類樣本中距離H最近的樣本,則對(duì)于任意點(diǎn)xi滿足式(1)的條件
(1)
s.t.yi(wT·xi+b)≥1,i=1,2,…,n
(2)
將Lagrange乘子法引入公式(2)中,可得:
(3)
其中,ai為拉格朗日乘子。求得最優(yōu)w和b后,可得決策函數(shù)為:
(4)
若解決非線性分類問(wèn)題,可通過(guò)內(nèi)積核函數(shù),將數(shù)據(jù)映射到高維空間,進(jìn)而在高維空間中將非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題。
客戶流失的特征體現(xiàn)在如下3個(gè)方面:消費(fèi)總頻率低,消費(fèi)總金額少,最后購(gòu)買日期與當(dāng)前日期相距的天數(shù)長(zhǎng),故本文構(gòu)造的客戶流失特征分別為消費(fèi)總頻率F( Frequency),消費(fèi)總金額M( monetary) ,最后購(gòu)買日期與當(dāng)前日期相距的天數(shù)R( Recency)。本文電子商務(wù)客戶流失分析選用2018年某電商平臺(tái)客戶交易數(shù)據(jù)庫(kù)中的2000個(gè)訂單數(shù)據(jù),其中非流失客戶有580個(gè),流失客戶有1420個(gè),并將非流失客戶量化為0,流失客戶量化為1。
決策樹(shù)預(yù)測(cè)模型建立的具體步驟為:
(1)導(dǎo)入數(shù)據(jù)。數(shù)據(jù)文件每組數(shù)據(jù)分4個(gè)字段:前3個(gè)字段分別為電子商務(wù)客戶的消費(fèi)總頻率F( Frequency),消費(fèi)總金額M( monetary) ,最后購(gòu)買日期與當(dāng)前日期相距的天數(shù)R( Recency)變量,第4個(gè)字段為客戶流失狀態(tài)。共2000組數(shù)據(jù),為不失一般性,隨機(jī)選取1600組數(shù)據(jù)作為訓(xùn)練集,剩余400組數(shù)據(jù)作為測(cè)試集。
(2)創(chuàng)建決策樹(shù)分類器。利用MATLAB自帶函數(shù)ClassificationTree.fit,即可基于訓(xùn)練數(shù)據(jù)創(chuàng)建一個(gè)決策分類器。
(3)仿真測(cè)試。利用MATLAB自帶工具箱函數(shù)predict,即可對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)。
(4)找出葉子節(jié)點(diǎn)所含的最小樣本數(shù)。如圖1所示,本文將葉子節(jié)點(diǎn)所包含的最小樣本數(shù)(minleaf)設(shè)置為10,此時(shí)交叉驗(yàn)證誤差最小。
(5)剪枝。通過(guò)剪枝操作,使決策樹(shù)分類器更加簡(jiǎn)化,同時(shí)交叉驗(yàn)證誤差不變。根據(jù)訓(xùn)練數(shù)據(jù)創(chuàng)建剪枝后的決策樹(shù)分類器,如圖2所示。
圖1 葉子節(jié)點(diǎn)含有的最小樣本數(shù)對(duì)決策樹(shù)性能的影響
圖2 剪枝后的決策樹(shù)分類器
將電子商務(wù)客戶的消費(fèi)總頻率F(Frequency),消費(fèi)總金額M(monetary) ,最后購(gòu)買日期與當(dāng)前日期相距的天數(shù)R(Recency)3個(gè)變量作為輸入特征值,客戶流失狀態(tài)作為輸出特征值。隨機(jī)選擇1600組數(shù)據(jù)作為SVM模型的訓(xùn)練樣本,剩余400組數(shù)據(jù)作為測(cè)試樣本。具體步驟為:
(1)歸一化處理。用MATLAB中的mapminmax函數(shù)來(lái)對(duì)2000組樣本數(shù)據(jù)進(jìn)行歸一化處理,防止特征值范圍過(guò)大或過(guò)小,影響模型的精確度。其中歸一化的范圍為[0,1]。
(2)選擇SVM的類型選為C-SVC,核函數(shù)選取精度較高的RBF函數(shù)。
(3)懲罰參數(shù)C與核函數(shù)參數(shù)g的選取兩者。對(duì)預(yù)測(cè)精度的影響較大,本文采用K-fold交叉驗(yàn)證(K-fold Cross Validation,K-CV)的參數(shù)優(yōu)化方法選擇最優(yōu)參數(shù),如圖3、圖4所示。
(4)將最佳參數(shù)(C,g)和訓(xùn)練樣本代入SVC中,并得到精度較高的SVC模型。SVC模型預(yù)測(cè)結(jié)果,如圖5所示。
圖5 SVC模型預(yù)測(cè)結(jié)果
決策樹(shù)、支持向量機(jī)預(yù)測(cè)結(jié)果如表1所列。對(duì)表1預(yù)測(cè)結(jié)果進(jìn)行分析,得到的結(jié)論如下:①相較于決策樹(shù)分類模型,支持向量機(jī)模型分類準(zhǔn)確率更高。這主要是由于本文樣本數(shù)據(jù)量較少,支持向量機(jī)在解決小樣本問(wèn)題中具有絕對(duì)的優(yōu)勢(shì)。②決策樹(shù)分類精度較低,可能是因?yàn)楸疚臄?shù)據(jù)樣本中各類別樣本數(shù)量不均衡,非流失客戶數(shù)量遠(yuǎn)遠(yuǎn)少于流失客戶數(shù)量,決策樹(shù)中信息增益結(jié)果偏向于具有更多數(shù)值的特征,故決策樹(shù)用在電子商務(wù)客戶流失預(yù)測(cè)中還有待優(yōu)化。
表1 模型對(duì)預(yù)測(cè)樣本預(yù)測(cè)精度比較
本文的研究結(jié)果可為電商平臺(tái)提供決策支持,平臺(tái)可以根據(jù)預(yù)測(cè)結(jié)果采取相應(yīng)措施挽留客戶,有效減少客戶的流失,具有較強(qiáng)的實(shí)用性。隨著電商網(wǎng)絡(luò)的發(fā)展,電商行業(yè)產(chǎn)生的客戶信息數(shù)據(jù)進(jìn)一步增多,未來(lái)可考慮使用更深層次的數(shù)據(jù)挖掘技術(shù)處理海量數(shù)據(jù)。