吳永春
摘? 要: 針對(duì)當(dāng)前方法無法對(duì)電子商務(wù)客戶特點(diǎn)進(jìn)行描述,存在電子商務(wù)客戶流失量預(yù)測(cè)不準(zhǔn)確,且電子商務(wù)客戶預(yù)測(cè)效率低的缺陷,為了提高電子商務(wù)客戶流失量預(yù)測(cè)結(jié)果,設(shè)計(jì)了一種大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)模型。首先,分析電子商務(wù)客戶流失量的研究進(jìn)展,找到引起電子商務(wù)客戶流失量預(yù)測(cè)結(jié)果不理想的原因;然后,采用模糊聚類分析算法對(duì)電子商務(wù)客戶流失量數(shù)據(jù)進(jìn)行預(yù)處理,減少電子商務(wù)客戶流失量預(yù)測(cè)的訓(xùn)練樣本規(guī)模,并采用最小二乘支持向量機(jī)建立電子商務(wù)客戶流失量預(yù)測(cè)模型;最后,采用電子商務(wù)客戶流失量實(shí)際數(shù)據(jù)對(duì)預(yù)測(cè)性能進(jìn)行分析。實(shí)際數(shù)據(jù)測(cè)試結(jié)果表明,所提模型的電子商務(wù)客戶流失量預(yù)測(cè)精度均高于95%,減少了電子商務(wù)客戶流失量預(yù)測(cè)時(shí)間,為電子商務(wù)客戶流失分析提供了一種有效的研究方法。
關(guān)鍵詞: 客戶流失量預(yù)測(cè); 電子商務(wù)系統(tǒng); 大數(shù)據(jù); 模糊聚類分析; 預(yù)測(cè)模型; 數(shù)據(jù)預(yù)處理
中圖分類號(hào): TN911.1?34; TP391? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)11?0144?04
Prediction of churn rate of e?commerce customers in context of big data
WU Yongchun
(School of Business, Shandong Jianzhu University, Jinan 250101, China)
Abstract: In veiew that the e?commerce customers have the characteristics of massive and big data, and the characteristics of e?commerce customers can not be described with the current methods, the prediction of e?commerce customer churn rate is inaccurate, and the prediction efficiency of e?commerce customers is very low. In order to improve the prediction effect of e?commerce customer churn rate, a prediction model of e?commerce customer churn rate in the context of big data is designed. The research progress of e?commerce customer churn is analyzed to find out the reason why the prediction results of e?commerce customer churn are unsatisfactory. The data of e?commerce customer churn is preprocessed with the fuzzy clustering analysis algorithm, so as to reduce the training sample scale of e?commerce customer churn prediction. The least squares support vector machine (SVM) is used to establish the prediction model of e?commerce customer churn. The actual data of e?commerce customer churn are adopted to analyze the prediction performance of the prediction model. The actual data test shows tha the accuracy of prediction model for the e?commerce customer churn is higher than 95%, which reduces the prediction time of e?commerce customer churn and provides an effective research method for analysis of the e?commerce customer churn.
Keywords: customer churn prediction; e?commerce system; big data; fuzzy clustering analysis; prediction model; data pre?processing
0? 引? 言
隨著移動(dòng)支付、互聯(lián)網(wǎng)技術(shù)的不斷成熟,由于網(wǎng)絡(luò)購物透明性高、購買成本低,人們?cè)诰W(wǎng)上購買的次數(shù)不斷增加,這樣電子網(wǎng)站成為了人們經(jīng)常光顧的場(chǎng)所[1?2]。但是電子商務(wù)購物有一個(gè)最大的特點(diǎn),就是客戶極不穩(wěn)定,有的客戶只購一次,再也不會(huì)發(fā)生購買行為,再加上網(wǎng)絡(luò)市場(chǎng)的競(jìng)爭(zhēng)加劇,客戶流失量相當(dāng)高,因此如何留住客戶,最大程度地降低電子商務(wù)客戶流失率,是所有商家必須解決的一個(gè)問題[3?4]。電子商務(wù)客戶流失的預(yù)測(cè)可以幫助商家發(fā)現(xiàn)客戶流失趨勢(shì),有利于他們制定一個(gè)挽留措施,提高商家的利潤(rùn),因此,電子商務(wù)客戶流失量預(yù)測(cè)成為當(dāng)前電子商務(wù)領(lǐng)域的一個(gè)重要研究方向[5]。
最原始的電子商務(wù)客戶流失量預(yù)測(cè)通過經(jīng)驗(yàn)閾值法進(jìn)行,根據(jù)閾值對(duì)電子商務(wù)客戶是否活躍來判斷電子商務(wù)客戶是否處于一種流失狀態(tài),該方法十分簡(jiǎn)單,但是有一個(gè)致命的缺陷,就是電子商務(wù)客戶流失量預(yù)測(cè)誤差大,預(yù)測(cè)結(jié)果的實(shí)際參考價(jià)值比較低[6?8]。隨著大數(shù)據(jù)技術(shù)和人工智能技術(shù)的發(fā)展,人們將其引入到了電子商務(wù)客戶流失量預(yù)測(cè)的研究中,如基于決策樹的電子商務(wù)客戶流失量預(yù)測(cè)模型、基于關(guān)聯(lián)分析的電子商務(wù)客戶流失量預(yù)測(cè)模型、基于神經(jīng)網(wǎng)絡(luò)的電子商務(wù)客戶流失量預(yù)測(cè)模型、基于支持向量機(jī)的電子商務(wù)客戶流失量預(yù)測(cè)模型等,相對(duì)于經(jīng)驗(yàn)閾值法,這些大數(shù)據(jù)技術(shù)和人工智能技術(shù)的電子商務(wù)客戶流失量預(yù)測(cè)結(jié)果更加準(zhǔn)確[9?11]。隨著電子商務(wù)客戶流失量數(shù)據(jù)規(guī)模不斷增加和影響因素的增多,電子商務(wù)客戶流失量具有時(shí)變性、隨機(jī)性、規(guī)模性等變化特點(diǎn),這些模型的缺陷也慢慢體現(xiàn)出來,如決策樹、關(guān)聯(lián)分析只能對(duì)線性變化特點(diǎn)的電子商務(wù)客戶流失量進(jìn)行準(zhǔn)確預(yù)測(cè),使得電子商務(wù)客戶流失量預(yù)測(cè)誤差大,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的收斂速度慢、學(xué)習(xí)時(shí)間長(zhǎng),使得電子商務(wù)客戶流失量預(yù)測(cè)的效率低[12?13]。
結(jié)合電子商務(wù)客戶具有海量、大數(shù)據(jù)特點(diǎn),為了提高電子商務(wù)客戶流失量預(yù)測(cè)的準(zhǔn)確性,本文設(shè)計(jì)了一種大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)模型。實(shí)際數(shù)據(jù)測(cè)試實(shí)例結(jié)果表明,本文模型的電子商務(wù)客戶流失量預(yù)測(cè)精度均高于95%,減少了電子商務(wù)客戶流失量預(yù)測(cè)時(shí)間,具有比較明顯的優(yōu)越性。
1? 大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)模型
1.1? 模糊聚類分析算法
設(shè)有[n]個(gè)訓(xùn)練樣本:[X={x1,x2,…,xn}],每個(gè)樣本有[m]個(gè)特征,即[xj=(x1j,x2j,…,xmj)],那么訓(xùn)練樣本集合的特征屬性矩陣為:
[X=x11x12…x1nx21x22…x2n????xm1xm2…xmn] (1)
式中[xij]為第[i]個(gè)樣本、第[j]個(gè)特征值。
對(duì)式(1)進(jìn)行規(guī)范化操作,產(chǎn)生新的矩陣為:
[R=r11r12…r1nr21r22…r2n????rm1rm2…rmn] (2)
對(duì)所有樣本根據(jù)特征屬性進(jìn)行分類迭代,共有[c]類,建立模糊聚類矩陣如下:
[U=u11u12…u1nu21u22…u2n????uc1uc2…ucn] (3)
每一個(gè)類有一個(gè)聚類中心,那么可以建立如下的模糊聚類中心矩陣[S]:
[S=s11s12…s1cs21s22…s2c????sm1sm2…smc] (4)
以歐氏距離的平方和最小為目標(biāo),目標(biāo)函數(shù)可表示為:
[minF(uhj,sih)=j=1nh=1cuhjrij-sih2] (5)
1.2? 最小二乘支持向量機(jī)算法
樣本集合為[(xi,yi),i=1,2,…n],最小二乘支持向量機(jī)采用映射函數(shù)[φ(?)]對(duì)其進(jìn)行變換,然后進(jìn)行回歸,建立如下形式的方程:
[f(x)=wTφ(x)+b] (6)
采用式(7)對(duì)式(6)中的[w]和[b]進(jìn)行求解:
[minw2+12γi=1nζ2is.t.? ? yi-wTφ(x)+b=ei] (7)
式中:[γ]表示正則化參數(shù);[ζi]表示松弛因子;[ei]為回歸誤差[14?15]。
由于式(7)求解比較復(fù)雜,引入拉格朗日乘子[αi]建立拉格朗日乘函數(shù),即:
[L(w,b,ζ,α)=12wTw+12γi=1nζ2i+i=1nαi(wTφ(xi)-b+ζi-yi)]? ?(8)
對(duì)式(8)求偏導(dǎo)數(shù),并且設(shè)置條件[?L?w=0,?L?b=0,][?L?ξi=0,?L?αi=0],可以得到相應(yīng)的約束條件為:
[w=i=1nαiφ(xi)i=1nαi=0wφ(xi)+b+ξi-yi=0] (9)
定義[K(xi,xj)=φT(xi)φ(xj)],那么得到最小二乘支持向量機(jī)的回歸形式為:
[f(x)=i=1nαiK(xi,xj)+b] (10)
選擇徑向基核函數(shù)為[K(xi,xj)],具體為:
[K(xi,xj)=exp-xi-xj22σ2 ] (11)
式中[σ]為核寬度參數(shù)。
1.3? 大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)步驟
大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)步驟如下:
Step1:從電子商務(wù)網(wǎng)站上對(duì)客戶流失量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),建立電子商務(wù)客戶流失量建模的樣本集合,主要包括訓(xùn)練樣本集合和驗(yàn)證樣本集合。
Step2:采用模糊聚類分析算法對(duì)電子商務(wù)客戶流失量預(yù)測(cè)的訓(xùn)練樣本進(jìn)行處理,只選擇與選擇樣本相關(guān)的樣本作為新的訓(xùn)練樣本集合,將一些無關(guān)的樣本刪除,減少訓(xùn)練樣本集合的規(guī)模。
Step3:采用最小二乘支持向量機(jī)對(duì)模糊聚類分析算法處理后的訓(xùn)練樣本進(jìn)行學(xué)習(xí),通過10折交叉驗(yàn)證法計(jì)算電子商務(wù)客戶流失量預(yù)測(cè)精度,根據(jù)精度確定最優(yōu)的參數(shù),從而建立電子商務(wù)客戶流失量預(yù)測(cè)模型。
Step4:采用驗(yàn)證樣本集合對(duì)電子商務(wù)客戶流失量預(yù)測(cè)模型的有效性進(jìn)行測(cè)試,并分析電子商務(wù)客戶流失量預(yù)測(cè)精度。
綜上可知,基于大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)流程如圖1所示。
2? 電子商務(wù)客戶流失量的實(shí)證分析
2.1? 電子商務(wù)客戶流失量的歷史數(shù)據(jù)
為了分析本文提出的大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)模型的性能,采集一段時(shí)間的電子商務(wù)客戶流失量,如圖2所示。從圖2可以看出,電子商務(wù)客戶流失量的隨機(jī)波動(dòng)性比較大,為了使電子商務(wù)客戶流失量預(yù)測(cè)結(jié)果具有說服力,共進(jìn)行5次仿真實(shí)驗(yàn),每一次隨機(jī)選擇1 000個(gè)數(shù)據(jù)作為電子商務(wù)客戶流失量建模的訓(xùn)練樣本,其余為電子商務(wù)客戶流失量預(yù)測(cè)的驗(yàn)證樣本,這樣每一次仿真實(shí)驗(yàn)的具體樣本是不一樣的。在相同實(shí)驗(yàn)條件下,選擇決策樹的電子商務(wù)客戶流失量模型、BP神經(jīng)網(wǎng)絡(luò)的電子商務(wù)客戶流失量進(jìn)行對(duì)比測(cè)試。
每一次電子商務(wù)客戶流失量建模實(shí)驗(yàn)的最小二乘支持向量機(jī)參數(shù)設(shè)置如表1所示。
2.2? 電子商務(wù)客戶流失量的單步預(yù)測(cè)精度對(duì)比
統(tǒng)計(jì)三種模型的電子商務(wù)客戶流失量的單步預(yù)測(cè)精度,結(jié)果如圖3所示。從圖3可以看出,三種模型的電子商務(wù)客戶流失量單步預(yù)測(cè)精度均較高,可以對(duì)電子商務(wù)客戶流失量變化特點(diǎn)進(jìn)行描述,但是,相同實(shí)驗(yàn)編號(hào)下,本文的電子商務(wù)客戶流失量預(yù)測(cè)效果更優(yōu),預(yù)測(cè)精度均達(dá)到了95%以上。
2.3? 電子商務(wù)客戶流失量的多步預(yù)測(cè)精度對(duì)比
在實(shí)際應(yīng)用中,由于電子商務(wù)客戶流失量預(yù)測(cè)要把握將來一段時(shí)間的客戶流失變化趨勢(shì),單步預(yù)測(cè)的時(shí)間太短,沒有什么實(shí)際應(yīng)用價(jià)值,因此統(tǒng)計(jì)三種模型的電子商務(wù)客戶流失量的多步預(yù)測(cè)精度,結(jié)果如圖4所示。從圖4可以看出,電子商務(wù)客戶流失量多步預(yù)測(cè)精度明顯低于單步預(yù)測(cè)精度,電子商務(wù)客戶流失量預(yù)測(cè)誤差明顯增加,尤其是決策樹的電子商務(wù)客戶流失量預(yù)測(cè)精度下降的幅度相當(dāng)大,而本文模型的電子商務(wù)客戶流失量預(yù)測(cè)精度仍然很高,相對(duì)于對(duì)比模型,本文模型的電子商務(wù)客戶流失量預(yù)測(cè)結(jié)果的優(yōu)越性十分顯著。
2.4? 電子商務(wù)客戶流失量模型的工作效率對(duì)比
統(tǒng)計(jì)三種模型的電子商務(wù)客戶流失量建模時(shí)間,具體如表2所示。從表2可以看出,決策樹和BP神經(jīng)網(wǎng)絡(luò)的電子商務(wù)客戶流失量建模時(shí)間明顯多于本文模型,本文模型可獲得較高的電子商務(wù)客戶流失量建模效率。
3? 結(jié)? 語
電子商務(wù)客戶流失量預(yù)測(cè)是當(dāng)前的一個(gè)研究熱點(diǎn),為了減少電子商務(wù)客戶流失量預(yù)測(cè)誤差,設(shè)計(jì)了大數(shù)據(jù)背景下的電子商務(wù)客戶流失量預(yù)測(cè)模型。首先采用模糊聚類分析算法對(duì)電子商務(wù)客戶流失量數(shù)據(jù)進(jìn)行預(yù)處理,減少電子商務(wù)客戶流失量預(yù)測(cè)的訓(xùn)練樣本規(guī)模;然后采用最小二乘支持向量機(jī)建立電子商務(wù)客戶流失量預(yù)測(cè)模型。預(yù)測(cè)結(jié)果表明,本文提出的電子商務(wù)客戶流失量預(yù)測(cè)模型預(yù)測(cè)精度高、效率高。
參考文獻(xiàn)
[1] 于小兵,王旭明.影響電子商務(wù)客戶流失因素分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2014,44(21):1?5.
[2] 于小兵,曹杰,張夢(mèng)男.B2C電子商務(wù)客戶流失原因評(píng)估研究[J].模糊系統(tǒng)與數(shù)學(xué),2012,26(6):166?172.
[3] 代逸生,沈培蘭,孫紅霞.基于Pareto/NBD模型的電子商務(wù)網(wǎng)站客戶流失預(yù)測(cè)研究[J].科學(xué)技術(shù)與工程,2010,10(27):6792?6795.
[4] 李婷婷.影響B(tài)2C電子商務(wù)企業(yè)客戶流失因素的實(shí)證分析[J].對(duì)外經(jīng)貿(mào),2014(1):136?137.
[5] 任劍鋒,張新祥.電子商務(wù)客戶流失的建模與預(yù)測(cè)研究[J].計(jì)算機(jī)仿真,2012,29(5):363?366.
[6] 朱幫助,張秋菊,鄒昊飛,等.基于OSA算法和GMDH網(wǎng)絡(luò)集成的電子商務(wù)客戶流失預(yù)測(cè)[J].中國管理科學(xué),2011,19(5):64?70.
[7] 張秋菊,朱幫助.基于自組織數(shù)據(jù)挖掘的電子商務(wù)客戶流失預(yù)測(cè)模型[J].企業(yè)經(jīng)濟(jì),2011(1):95?99.
[8] 張秋菊,朱幫助.基于自組織模糊規(guī)則歸納的電子商務(wù)客戶流失預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(12):44?47.
[9] 許寧,高飛.無線網(wǎng)絡(luò)電子商務(wù)客戶流失預(yù)測(cè)仿真[J].計(jì)算機(jī)仿真,2018,35(9):475?479.
[10] 武小軍,孟蘇芳.基于客戶細(xì)分和AdaBoost的電子商務(wù)客戶流失預(yù)測(cè)研究[J].工業(yè)工程,2017,20(2):99?107.
[11] 于小兵,盧逸群.電子商務(wù)客戶流失預(yù)警與預(yù)測(cè)[J].系統(tǒng)工程,2016,34(9):37?43
[12] 琚春華,盧琦蓓,郭飛鵬.融入個(gè)體活躍度的電子商務(wù)客戶流失預(yù)測(cè)模型[J].系統(tǒng)工程理論與實(shí)踐,2013,33(1):141?150.
[13] 楊力.基于在線序列優(yōu)化極限學(xué)習(xí)機(jī)的電子商務(wù)客戶流失量預(yù)測(cè)模型[J].南京理工大學(xué)學(xué)報(bào),2019,43(1):108?114.
[14] 卓濤.基于粒子群優(yōu)化支持向量機(jī)的電子商務(wù)客戶流失預(yù)測(cè)模型[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2014(6):88?91.
[15] 朱幫助.基于SMC?RS?LSSVM的電子商務(wù)客戶流失預(yù)測(cè)模型[J].系統(tǒng)工程理論與實(shí)踐,2010,30(11):1960?1967.