摘要:客戶流失是互聯(lián)網(wǎng)電商企業(yè)面臨的重要問題之一,及時(shí)預(yù)測(cè)和挽留流失客戶對(duì)企業(yè)提高經(jīng)濟(jì)效益具有重要作用。本文基于決策樹、支持向量機(jī)和XGBoost三種機(jī)器學(xué)習(xí)算法,從客戶畫像特征、行為特征、情感特征和價(jià)值特征四個(gè)方面選取指標(biāo)構(gòu)建模型并評(píng)價(jià),以對(duì)比不同模型在同一個(gè)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果。結(jié)果表明,集成算法XGBoost模型表現(xiàn)最佳,客戶情感價(jià)值特征對(duì)流失客戶預(yù)測(cè)的貢獻(xiàn)度最大,并由此提出相應(yīng)的客戶挽留對(duì)策。
關(guān)鍵詞:機(jī)器學(xué)習(xí);直播電商;客戶流失;預(yù)測(cè)模型
引言
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,直播電商平臺(tái)如雨后春筍般涌現(xiàn),如淘寶、抖音、快手、小紅書等。客戶可選擇的直播平臺(tái)和直播內(nèi)容越來越多。流量大小對(duì)客戶訂單數(shù)量有直接影響,客戶流失在直播電商中屢見不鮮。提高客戶流失預(yù)測(cè)精度,建立客戶流失預(yù)警機(jī)制,及時(shí)維系和挽留客戶,有助于直播電商企業(yè)降低客戶維系成本,提高企業(yè)經(jīng)濟(jì)效益。
1. 國內(nèi)外研究現(xiàn)狀
機(jī)器學(xué)習(xí)方法作為人工智能的核心算法,在客戶流失問題的研究中被廣泛應(yīng)用。國外學(xué)者對(duì)于客戶流失(Customer Churn)的研究大多集中在電信領(lǐng)域,研究方法大多采用機(jī)器學(xué)習(xí)方法。Sudharsan等(2022)[1]提出了一種新的框架,發(fā)現(xiàn)S-RNN可以用來對(duì)客戶按流失和正??蛻暨M(jìn)行分類,并對(duì)流失客戶通過分析網(wǎng)絡(luò)利用率實(shí)施保留措施。Abdelrahim等(2019)[2]融合采用決策樹、隨機(jī)森林、梯度增強(qiáng)機(jī)器樹“GBM”和極端梯度增強(qiáng)“XGBOOST”四種算法構(gòu)建電信客戶流失預(yù)測(cè)模型,發(fā)現(xiàn)應(yīng)用XGBOOST算法獲得了最佳結(jié)果。Adnan等(2019)[3]重點(diǎn)關(guān)注跨公司客戶流失預(yù)測(cè)問題,采用機(jī)器學(xué)習(xí)算法構(gòu)建CCCP(Cross-Company Churn Prediction)模型,在電信行業(yè)公開數(shù)據(jù)集上驗(yàn)證,結(jié)果表明大多數(shù)數(shù)據(jù)轉(zhuǎn)換方法顯著提高了CCCP的性能,而Z-Score數(shù)據(jù)轉(zhuǎn)換方法不能獲得更好的結(jié)果。
國內(nèi)學(xué)者對(duì)客戶流失的研究方法大多數(shù)采用數(shù)據(jù)挖掘技術(shù)。劉松(2022)[4]分析了銀行客戶流失預(yù)測(cè)模型的可解釋性,發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確性更高。薛冰(2022)[5]運(yùn)用多模型融合的方法預(yù)測(cè)電信運(yùn)營商客戶流失,發(fā)現(xiàn)融合模型算法有利于提高模型的準(zhǔn)確性和可用性。鄭桂钖、徐寬(2022)[6]基于數(shù)據(jù)的高維時(shí)序特征構(gòu)建直播行業(yè)客戶流失預(yù)測(cè)模型,結(jié)果表明在補(bǔ)充了時(shí)序特征后的融合特征模型預(yù)測(cè)效果有顯著提升。黃栩(2019)[7]研究軟件APP的客戶流失問題,實(shí)驗(yàn)結(jié)果表明模型的結(jié)果預(yù)測(cè)準(zhǔn)確率都在90%以上,具有很好的預(yù)測(cè)效果。鐘文鑫(2018)[8]研究陌生人社交APP客戶流失預(yù)測(cè)問題,四種機(jī)器學(xué)習(xí)算法構(gòu)建對(duì)比模型,發(fā)現(xiàn)XGBoost模型的表現(xiàn)結(jié)果更佳。
綜上所述,客戶流失問題受到了國內(nèi)外學(xué)者的廣泛關(guān)注,數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法是研究此類問題最常用的方法。
2. 數(shù)據(jù)處理與特征工程
2.1 數(shù)據(jù)說明
本研究數(shù)據(jù)集來源于某電子商務(wù)平臺(tái)電子產(chǎn)品銷售直播的客戶特征數(shù)據(jù),共包含5630條數(shù)據(jù)記錄。因變量為流失標(biāo)志(Churn),1表示流失客戶,0表示未流失客戶,自變量為平臺(tái)使用期限、客戶首選登錄設(shè)備、城市級(jí)別等17個(gè)特征。
2.2 數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)存在缺失、樣本不均衡等問題,為了模型分析的準(zhǔn)確性,本研究運(yùn)用Python3.7工具在anaconda環(huán)境下填充缺失值、轉(zhuǎn)換數(shù)據(jù)類型、獨(dú)熱編碼和smote過采樣。
2.2.1 缺失值處理
經(jīng)檢測(cè)發(fā)現(xiàn),變量Tenure、Warehouse ToHome等6個(gè)變量存在200條以上的缺失數(shù)據(jù),考慮到樣本體量較小,本文所選部分模型對(duì)缺失數(shù)據(jù)依賴度較高,故采用中位數(shù)和眾數(shù)來填充缺失值。
2.2.2 數(shù)據(jù)轉(zhuǎn)換
通過觀察原始數(shù)據(jù)可以發(fā)現(xiàn),PreferredLoginDevice、MaritalStatus、Gender、PreferedOrderCat四個(gè)變量的值為字符串類型,為了建模和分析方便,本文將字符型變量轉(zhuǎn)換為數(shù)值型變量,轉(zhuǎn)換規(guī)則如表1所示。
轉(zhuǎn)換后的數(shù)據(jù)不具有有序性特征,例如性別變量中的0和1,僅表示男性和女性的客戶群劃分,本文選取獨(dú)熱編碼(One-Hot Encoding)技術(shù)、運(yùn)用scikit-learn庫中的OneHotEncoder模塊對(duì)這類數(shù)據(jù)進(jìn)行重新編碼,防止數(shù)據(jù)間的大小關(guān)系參與運(yùn)算,合理地計(jì)算特征之間的距離。獨(dú)熱編碼后,數(shù)據(jù)集由原來的17個(gè)變量擴(kuò)展到28個(gè)。
2.2.3 樣本不均衡處理
本研究選取的流失客戶樣本數(shù)量為948,非流失客戶樣本數(shù)量為4682,比例為1:4.9。一般來說,當(dāng)流失客戶與非流失客戶數(shù)據(jù)比例為1:2或1:3時(shí),模型效果較好[9]。侯俞安(2022)在研究個(gè)人信用風(fēng)險(xiǎn)評(píng)估時(shí)采用SMOTE算法訓(xùn)練不平衡樣本數(shù)據(jù)集,模型取得了更好的效果[10]。本文采用SMOTE方法,將流失客戶樣本擴(kuò)展到與非流失客戶大致相當(dāng)?shù)谋壤MOTE算法根據(jù)少數(shù)類樣本人工合成新樣本,對(duì)少數(shù)類樣本每個(gè)樣本x,從它的K近鄰中隨機(jī)選一個(gè)樣本y,然后在x,y連線上隨機(jī)選取一點(diǎn)作為新合成的樣本。這種合成新樣本的過采樣方法可以降低過擬合的風(fēng)險(xiǎn)。構(gòu)建新樣本的公式如下:
2.3 客戶特征模型
客戶畫像是了解客戶的關(guān)鍵步驟,平臺(tái)可以根據(jù)畫像特征實(shí)施精準(zhǔn)營銷策略,提升客戶滿意度,降低流失的可能性??蛻粜袨樘卣鞣从沉丝蛻舻氖褂昧?xí)慣,通過客戶行為數(shù)據(jù)可以挖掘內(nèi)容偏好、發(fā)掘客戶興趣點(diǎn)、預(yù)警客戶流失。客戶對(duì)商品服務(wù)的滿意度評(píng)分和投訴情況直接反映了客戶的情感狀態(tài)。張梅英(2022)認(rèn)為滿意度對(duì)忠誠度和購買意愿有正向影響,滿意度較高的客戶流失的可能性較小[11]。RFM模型是客戶價(jià)值衡量的理論基礎(chǔ),該模型由最近一次消費(fèi)R(Recency)、消費(fèi)頻率F(Frequency)和消費(fèi)金額M(Monetary)構(gòu)成,一般來說,消費(fèi)時(shí)間較遠(yuǎn)、消費(fèi)頻次較低、但消費(fèi)金額較高的客戶,很可能是已經(jīng)流失或者即將流失的客戶,應(yīng)當(dāng)實(shí)施挽留措施。本文篩選的客戶特征及含義如表2所示。
3. 模型選擇與實(shí)驗(yàn)結(jié)果
3.1 算法選擇與模型構(gòu)建
預(yù)測(cè)客戶流失屬于二分類問題,分類準(zhǔn)確性的關(guān)鍵在于算法的選取。本文采用Python3.7軟件進(jìn)行機(jī)器學(xué)習(xí)建模,在anaconda環(huán)境下運(yùn)行。首先使用留出法將數(shù)據(jù)集劃分為測(cè)試集(20%)和訓(xùn)練集(80%),然后使用sklearn工具包分別建立決策樹、支持向量機(jī)和XGBoost算法模型。
3.1.1 決策樹模型構(gòu)建
決策樹是一種、應(yīng)用廣泛的機(jī)器學(xué)習(xí)算法,可以用來解決分類和回歸問題。目前主流的決策樹算法有基于信息熵的ID3算法、C4.5算法和基于基尼系數(shù)的CART算法。信息熵表示隨機(jī)變量不確定性的度量,不確定性越大得到的熵值越大,假定當(dāng)前樣本集合D中第k個(gè)樣本所占的比例為(k=1,2,…,|y|),則D的信息熵定義為
本文運(yùn)用sklearn工具包中的Decision TreeClassifier分類器,在默認(rèn)參數(shù)下創(chuàng)建模型,模型最佳預(yù)測(cè)準(zhǔn)確率達(dá)88%,AUC得分為0.84。但是模型的可解釋性和分類精度之間是一種權(quán)衡[12],最佳預(yù)測(cè)效果下模型的可解釋性不高。為了提高樹模型的可解釋性,可以通過限制最大深度和最大葉子結(jié)點(diǎn)的數(shù)量簡化模型。
3.1.2 支持向量機(jī)模型構(gòu)建
支持向量機(jī)(Support Vector Machine,SVM)是通過尋找超平面對(duì)樣本進(jìn)行分割從而實(shí)現(xiàn)分類或預(yù)測(cè)的算法,分割樣本的原則是使間隔最大化,尋找最大間隔的支持向量。支持向量機(jī)的核決定了如何投影到更高維的空間,核函數(shù)的參數(shù)決定了邊界的形狀,正則化參數(shù)C表示單個(gè)數(shù)據(jù)點(diǎn)對(duì)模型的影響程度,C越小表示模型越簡單。本文運(yùn)用sklearn工具包中的SVC模塊創(chuàng)建支持向量機(jī)模型,所選擇的核函數(shù)為RBF徑向基核,懲罰系數(shù)為20,運(yùn)行多次以后模型的準(zhǔn)確率為86.9%,AUC得分為0.88。
3.1.3 XGBoost模型構(gòu)建
XGBoost(eXtreme Gradient Boosting)又叫極度梯度提升樹,是boosting算法的一種實(shí)現(xiàn)方式。其主要目標(biāo)是降低模型的誤差,因此采用多個(gè)基學(xué)習(xí)器,下一個(gè)學(xué)習(xí)器是學(xué)習(xí)前面基學(xué)習(xí)器的結(jié)果的差值,通過多個(gè)學(xué)習(xí)器的學(xué)習(xí),不斷降低模型值和實(shí)際值的差。本文采用XGBoost庫中的XGBClassifier分類器構(gòu)建模型,為了提升模型的效果,將子決策樹的最大深度限制為10,目標(biāo)函數(shù)參數(shù)設(shè)為binary:logistic,用于訓(xùn)練的子樣本占總樣本的比例設(shè)為0.8,特征隨機(jī)采樣的比例設(shè)為0.8,模型預(yù)測(cè)準(zhǔn)確率為90.5%,AUC得分為0.93。
3.2 模型評(píng)估指標(biāo)選擇
本文采用二分類問題的混淆矩陣對(duì)模型進(jìn)行綜合評(píng)價(jià)。對(duì)于二分類問題,可以將樣本根據(jù)真實(shí)情況和學(xué)習(xí)器的預(yù)測(cè)結(jié)果分為真正例(TP)、真反例(TN)、假正例(FP)、假反例(FN),分類結(jié)果的混淆矩陣如表3所示。
查準(zhǔn)率P(precision)與查全率R(recall)的定義分別為
F1評(píng)分法可以更便捷地綜合評(píng)價(jià)查準(zhǔn)率和查全率,F(xiàn)1的計(jì)算公式為
ROC曲線體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下“期望泛化性能”的好壞,ROC曲線與橫坐標(biāo)軸圍成的面積(AUC)也可以衡量學(xué)習(xí)器的性能。從查準(zhǔn)率、查全率和F1得分情況來看,三種模型對(duì)非流失客戶預(yù)測(cè)的效果比較好,均達(dá)90%以上,對(duì)流失客戶的預(yù)測(cè)效果略差,但也接近70%,平均得分在80%,具體數(shù)據(jù)如表4所示。
如圖1所示,從三個(gè)模型的ROC曲線可以直觀看出,XGBoost模型的擬合效果優(yōu)于支持向量機(jī)和決策樹;決策樹和支持向量機(jī)模型的ROC曲線有交叉,通過計(jì)算AUC值(決策樹AUC得分:0.84,支持向量機(jī)AUC得分:0.88)可知,支持向量機(jī)模型的擬合效果優(yōu)于決策樹;從預(yù)測(cè)準(zhǔn)確性來看,XGBoost模型預(yù)測(cè)準(zhǔn)確性最高,其次是決策樹模型,最后是支持向量機(jī)。
從上述分析可知,XGBoost模型的擬合效果和準(zhǔn)確性得分最高,利用此模型自帶的feature_importances_可以計(jì)算出各個(gè)變量對(duì)模型的貢獻(xiàn)度。根據(jù)特征重要性計(jì)算結(jié)果,客戶滿意度評(píng)分特征對(duì)流失的影響最大,其次為客戶年齡分組、城市等級(jí)和投訴情況,可見客戶情感特征對(duì)流失預(yù)測(cè)貢獻(xiàn)度最大,其次客戶畫像特征。各特征的具體貢獻(xiàn)度如圖2所示。
3.3 減少客戶流失策略
根據(jù)上述分析,可以從影響客戶流失的重要因素出發(fā),針對(duì)具體原因采取相應(yīng)的運(yùn)營措施:
(1)提升客服響應(yīng)速度與產(chǎn)品質(zhì)量水平,減少客戶投訴。一般來說,滿意度評(píng)分低和有投訴的客戶體驗(yàn)越差,越容易流失,所以直播電商企業(yè)在運(yùn)營過程中應(yīng)當(dāng)保證客戶質(zhì)量,提升客服水平。
(2)細(xì)化客戶畫像,實(shí)行精準(zhǔn)營銷。不同畫像特征的客戶有不同的偏好,直播電商企業(yè)在營銷時(shí)可以根據(jù)客戶特征推薦客戶感興趣的內(nèi)容。
結(jié)論
通過以上研究可得出兩個(gè)重要結(jié)論:(1)集成算法模型的預(yù)測(cè)精度比單一算法更高,XGBoost模型在直播電商客戶流失預(yù)測(cè)模型中表現(xiàn)最佳,預(yù)測(cè)準(zhǔn)確率達(dá)到90.5%;(2)客戶情感特征對(duì)流失預(yù)測(cè)模型影響最大,其次是客戶畫像特征。在今后的研究中,可在大規(guī)模數(shù)據(jù)集上對(duì)模型進(jìn)行優(yōu)化和完善,保留小規(guī)模數(shù)據(jù)集良好的訓(xùn)練效果的同時(shí),通過算法融合、邏輯模糊等其他的人工智能算法,構(gòu)建大規(guī)模數(shù)據(jù)集的預(yù)測(cè)模型。
參考文獻(xiàn):
[1]Sudharsan R,Ganesh EN.A Swish RNN based customer churn prediction for the telecom industry with a novel feature selection strategy[J].Connection Science,2022,34(1):1855-1876.
[2]Ahmad AK,Jafar A,Aljoumaa K.Customer churn prediction in telecom using machine learning in big data platform[J].Journal of Big Data, 2019,6(1).
[3]Amin A,Shah B,Khattak AM,et al.Cross-company customer churn prediction in telecommunication: A comparison of data transformation methods[J].International Journal of Information Management,2019,(46):304-319.
[4]劉松.基于深度學(xué)習(xí)的銀行客戶流失預(yù)測(cè)問題研究[D].貴陽:貴州大學(xué),2022.
[5]薛冰.基于多模型融合的電信運(yùn)營商客戶流失預(yù)測(cè)研究[D].大連:東北財(cái)經(jīng)大學(xué),2022.
[6]鄭桂钖,徐寬.基于高維時(shí)序特征補(bǔ)充的直播行業(yè)用戶流失預(yù)測(cè)模型[J].科技與創(chuàng)新,2022,(23):56-61.
[7]黃栩.基于機(jī)器學(xué)習(xí)算法建立用戶流失預(yù)警模型[J].電子制作,2019,(16):49-51.
[8]鐘文鑫.基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測(cè)模型研究[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué), 2018.
[9]邢紹艷,朱學(xué)芳.付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)實(shí)證研究[J].信息資源管理學(xué)報(bào),2022,12(4):121-130,140.
[10]侯俞安.基于SMOTE—貝葉斯網(wǎng)絡(luò)的商業(yè)銀行風(fēng)險(xiǎn)評(píng)估模型研究[D].上海:東華大學(xué),2022.
[11]張梅英.遷移理論視角下零售電商平臺(tái)消費(fèi)者重復(fù)購買意愿的影響機(jī)制研究[J].商業(yè)經(jīng)濟(jì)研究,2022,(4):85-88.
[12]Baryannis G,Dani S,Antoniou G.Predicting supply chain risks using machine learning:The trade-off between performance and interpretability[J].Future Generation Computer Systems,2019,101(C):993-1004.
作者簡介:李翠萍,碩士研究生,研究方向:數(shù)字經(jīng)濟(jì)。