亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的直播電商客戶流失風(fēng)險(xiǎn)預(yù)測(cè)

2023-06-06 16:19:48李翠萍

互聯(lián)網(wǎng)周刊 2023年10期

摘要：客戶流失是互聯(lián)網(wǎng)電商企業(yè)面臨的重要問題之一，及時(shí)預(yù)測(cè)和挽留流失客戶對(duì)企業(yè)提高經(jīng)濟(jì)效益具有重要作用。本文基于決策樹、支持向量機(jī)和XGBoost三種機(jī)器學(xué)習(xí)算法，從客戶畫像特征、行為特征、情感特征和價(jià)值特征四個(gè)方面選取指標(biāo)構(gòu)建模型并評(píng)價(jià)，以對(duì)比不同模型在同一個(gè)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果。結(jié)果表明，集成算法XGBoost模型表現(xiàn)最佳，客戶情感價(jià)值特征對(duì)流失客戶預(yù)測(cè)的貢獻(xiàn)度最大，并由此提出相應(yīng)的客戶挽留對(duì)策。

關(guān)鍵詞：機(jī)器學(xué)習(xí)；直播電商；客戶流失；預(yù)測(cè)模型

引言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，直播電商平臺(tái)如雨后春筍般涌現(xiàn)，如淘寶、抖音、快手、小紅書等。客戶可選擇的直播平臺(tái)和直播內(nèi)容越來越多。流量大小對(duì)客戶訂單數(shù)量有直接影響，客戶流失在直播電商中屢見不鮮。提高客戶流失預(yù)測(cè)精度，建立客戶流失預(yù)警機(jī)制，及時(shí)維系和挽留客戶，有助于直播電商企業(yè)降低客戶維系成本，提高企業(yè)經(jīng)濟(jì)效益。

1. 國內(nèi)外研究現(xiàn)狀

機(jī)器學(xué)習(xí)方法作為人工智能的核心算法，在客戶流失問題的研究中被廣泛應(yīng)用。國外學(xué)者對(duì)于客戶流失（Customer Churn）的研究大多集中在電信領(lǐng)域，研究方法大多采用機(jī)器學(xué)習(xí)方法。Sudharsan等（2022）[1]提出了一種新的框架，發(fā)現(xiàn)S-RNN可以用來對(duì)客戶按流失和正?？蛻暨M(jìn)行分類，并對(duì)流失客戶通過分析網(wǎng)絡(luò)利用率實(shí)施保留措施。Abdelrahim等（2019）[2]融合采用決策樹、隨機(jī)森林、梯度增強(qiáng)機(jī)器樹“GBM”和極端梯度增強(qiáng)“XGBOOST”四種算法構(gòu)建電信客戶流失預(yù)測(cè)模型，發(fā)現(xiàn)應(yīng)用XGBOOST算法獲得了最佳結(jié)果。Adnan等（2019）[3]重點(diǎn)關(guān)注跨公司客戶流失預(yù)測(cè)問題，采用機(jī)器學(xué)習(xí)算法構(gòu)建CCCP（Cross-Company Churn Prediction）模型，在電信行業(yè)公開數(shù)據(jù)集上驗(yàn)證，結(jié)果表明大多數(shù)數(shù)據(jù)轉(zhuǎn)換方法顯著提高了CCCP的性能，而Z-Score數(shù)據(jù)轉(zhuǎn)換方法不能獲得更好的結(jié)果。

國內(nèi)學(xué)者對(duì)客戶流失的研究方法大多數(shù)采用數(shù)據(jù)挖掘技術(shù)。劉松（2022）[4]分析了銀行客戶流失預(yù)測(cè)模型的可解釋性，發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確性更高。薛冰（2022）[5]運(yùn)用多模型融合的方法預(yù)測(cè)電信運(yùn)營商客戶流失，發(fā)現(xiàn)融合模型算法有利于提高模型的準(zhǔn)確性和可用性。鄭桂钖、徐寬（2022）[6]基于數(shù)據(jù)的高維時(shí)序特征構(gòu)建直播行業(yè)客戶流失預(yù)測(cè)模型，結(jié)果表明在補(bǔ)充了時(shí)序特征后的融合特征模型預(yù)測(cè)效果有顯著提升。黃栩（2019）[7]研究軟件APP的客戶流失問題，實(shí)驗(yàn)結(jié)果表明模型的結(jié)果預(yù)測(cè)準(zhǔn)確率都在90%以上，具有很好的預(yù)測(cè)效果。鐘文鑫（2018）[8]研究陌生人社交APP客戶流失預(yù)測(cè)問題，四種機(jī)器學(xué)習(xí)算法構(gòu)建對(duì)比模型，發(fā)現(xiàn)XGBoost模型的表現(xiàn)結(jié)果更佳。

綜上所述，客戶流失問題受到了國內(nèi)外學(xué)者的廣泛關(guān)注，數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法是研究此類問題最常用的方法。

2. 數(shù)據(jù)處理與特征工程

2.1 數(shù)據(jù)說明

本研究數(shù)據(jù)集來源于某電子商務(wù)平臺(tái)電子產(chǎn)品銷售直播的客戶特征數(shù)據(jù)，共包含5630條數(shù)據(jù)記錄。因變量為流失標(biāo)志（Churn），1表示流失客戶，0表示未流失客戶，自變量為平臺(tái)使用期限、客戶首選登錄設(shè)備、城市級(jí)別等17個(gè)特征。

2.2 數(shù)據(jù)預(yù)處理

由于原始數(shù)據(jù)存在缺失、樣本不均衡等問題，為了模型分析的準(zhǔn)確性，本研究運(yùn)用Python3.7工具在anaconda環(huán)境下填充缺失值、轉(zhuǎn)換數(shù)據(jù)類型、獨(dú)熱編碼和smote過采樣。

2.2.1 缺失值處理

經(jīng)檢測(cè)發(fā)現(xiàn)，變量Tenure、Warehouse ToHome等6個(gè)變量存在200條以上的缺失數(shù)據(jù)，考慮到樣本體量較小，本文所選部分模型對(duì)缺失數(shù)據(jù)依賴度較高，故采用中位數(shù)和眾數(shù)來填充缺失值。

2.2.2 數(shù)據(jù)轉(zhuǎn)換

通過觀察原始數(shù)據(jù)可以發(fā)現(xiàn)，PreferredLoginDevice、MaritalStatus、Gender、PreferedOrderCat四個(gè)變量的值為字符串類型，為了建模和分析方便，本文將字符型變量轉(zhuǎn)換為數(shù)值型變量，轉(zhuǎn)換規(guī)則如表1所示。

轉(zhuǎn)換后的數(shù)據(jù)不具有有序性特征，例如性別變量中的0和1，僅表示男性和女性的客戶群劃分，本文選取獨(dú)熱編碼（One-Hot Encoding）技術(shù)、運(yùn)用scikit-learn庫中的OneHotEncoder模塊對(duì)這類數(shù)據(jù)進(jìn)行重新編碼，防止數(shù)據(jù)間的大小關(guān)系參與運(yùn)算，合理地計(jì)算特征之間的距離。獨(dú)熱編碼后，數(shù)據(jù)集由原來的17個(gè)變量擴(kuò)展到28個(gè)。

2.2.3 樣本不均衡處理

本研究選取的流失客戶樣本數(shù)量為948，非流失客戶樣本數(shù)量為4682，比例為1：4.9。一般來說，當(dāng)流失客戶與非流失客戶數(shù)據(jù)比例為1：2或1：3時(shí)，模型效果較好[9]。侯俞安（2022）在研究個(gè)人信用風(fēng)險(xiǎn)評(píng)估時(shí)采用SMOTE算法訓(xùn)練不平衡樣本數(shù)據(jù)集，模型取得了更好的效果[10]。本文采用SMOTE方法，將流失客戶樣本擴(kuò)展到與非流失客戶大致相當(dāng)?shù)谋壤MOTE算法根據(jù)少數(shù)類樣本人工合成新樣本，對(duì)少數(shù)類樣本每個(gè)樣本x，從它的K近鄰中隨機(jī)選一個(gè)樣本y，然后在x，y連線上隨機(jī)選取一點(diǎn)作為新合成的樣本。這種合成新樣本的過采樣方法可以降低過擬合的風(fēng)險(xiǎn)。構(gòu)建新樣本的公式如下：

2.3 客戶特征模型

客戶畫像是了解客戶的關(guān)鍵步驟，平臺(tái)可以根據(jù)畫像特征實(shí)施精準(zhǔn)營銷策略，提升客戶滿意度，降低流失的可能性?？蛻粜袨樘卣鞣从沉丝蛻舻氖褂昧?xí)慣，通過客戶行為數(shù)據(jù)可以挖掘內(nèi)容偏好、發(fā)掘客戶興趣點(diǎn)、預(yù)警客戶流失。客戶對(duì)商品服務(wù)的滿意度評(píng)分和投訴情況直接反映了客戶的情感狀態(tài)。張梅英（2022）認(rèn)為滿意度對(duì)忠誠度和購買意愿有正向影響，滿意度較高的客戶流失的可能性較小[11]。RFM模型是客戶價(jià)值衡量的理論基礎(chǔ)，該模型由最近一次消費(fèi)R（Recency）、消費(fèi)頻率F（Frequency）和消費(fèi)金額M（Monetary）構(gòu)成，一般來說，消費(fèi)時(shí)間較遠(yuǎn)、消費(fèi)頻次較低、但消費(fèi)金額較高的客戶，很可能是已經(jīng)流失或者即將流失的客戶，應(yīng)當(dāng)實(shí)施挽留措施。本文篩選的客戶特征及含義如表2所示。

3. 模型選擇與實(shí)驗(yàn)結(jié)果

3.1 算法選擇與模型構(gòu)建

預(yù)測(cè)客戶流失屬于二分類問題，分類準(zhǔn)確性的關(guān)鍵在于算法的選取。本文采用Python3.7軟件進(jìn)行機(jī)器學(xué)習(xí)建模，在anaconda環(huán)境下運(yùn)行。首先使用留出法將數(shù)據(jù)集劃分為測(cè)試集（20%）和訓(xùn)練集（80%），然后使用sklearn工具包分別建立決策樹、支持向量機(jī)和XGBoost算法模型。

3.1.1 決策樹模型構(gòu)建

決策樹是一種、應(yīng)用廣泛的機(jī)器學(xué)習(xí)算法，可以用來解決分類和回歸問題。目前主流的決策樹算法有基于信息熵的ID3算法、C4.5算法和基于基尼系數(shù)的CART算法。信息熵表示隨機(jī)變量不確定性的度量，不確定性越大得到的熵值越大，假定當(dāng)前樣本集合D中第k個(gè)樣本所占的比例為（k=1，2，…，|y|），則D的信息熵定義為

本文運(yùn)用sklearn工具包中的Decision TreeClassifier分類器，在默認(rèn)參數(shù)下創(chuàng)建模型，模型最佳預(yù)測(cè)準(zhǔn)確率達(dá)88%，AUC得分為0.84。但是模型的可解釋性和分類精度之間是一種權(quán)衡[12]，最佳預(yù)測(cè)效果下模型的可解釋性不高。為了提高樹模型的可解釋性，可以通過限制最大深度和最大葉子結(jié)點(diǎn)的數(shù)量簡化模型。

3.1.2 支持向量機(jī)模型構(gòu)建

支持向量機(jī)（Support Vector Machine，SVM）是通過尋找超平面對(duì)樣本進(jìn)行分割從而實(shí)現(xiàn)分類或預(yù)測(cè)的算法，分割樣本的原則是使間隔最大化，尋找最大間隔的支持向量。支持向量機(jī)的核決定了如何投影到更高維的空間，核函數(shù)的參數(shù)決定了邊界的形狀，正則化參數(shù)C表示單個(gè)數(shù)據(jù)點(diǎn)對(duì)模型的影響程度，C越小表示模型越簡單。本文運(yùn)用sklearn工具包中的SVC模塊創(chuàng)建支持向量機(jī)模型，所選擇的核函數(shù)為RBF徑向基核，懲罰系數(shù)為20，運(yùn)行多次以后模型的準(zhǔn)確率為86.9%，AUC得分為0.88。

3.1.3 XGBoost模型構(gòu)建

XGBoost（eXtreme Gradient Boosting）又叫極度梯度提升樹，是boosting算法的一種實(shí)現(xiàn)方式。其主要目標(biāo)是降低模型的誤差，因此采用多個(gè)基學(xué)習(xí)器，下一個(gè)學(xué)習(xí)器是學(xué)習(xí)前面基學(xué)習(xí)器的結(jié)果的差值，通過多個(gè)學(xué)習(xí)器的學(xué)習(xí)，不斷降低模型值和實(shí)際值的差。本文采用XGBoost庫中的XGBClassifier分類器構(gòu)建模型，為了提升模型的效果，將子決策樹的最大深度限制為10，目標(biāo)函數(shù)參數(shù)設(shè)為binary：logistic，用于訓(xùn)練的子樣本占總樣本的比例設(shè)為0.8，特征隨機(jī)采樣的比例設(shè)為0.8，模型預(yù)測(cè)準(zhǔn)確率為90.5%，AUC得分為0.93。

3.2 模型評(píng)估指標(biāo)選擇

本文采用二分類問題的混淆矩陣對(duì)模型進(jìn)行綜合評(píng)價(jià)。對(duì)于二分類問題，可以將樣本根據(jù)真實(shí)情況和學(xué)習(xí)器的預(yù)測(cè)結(jié)果分為真正例（TP）、真反例（TN）、假正例（FP）、假反例（FN），分類結(jié)果的混淆矩陣如表3所示。

查準(zhǔn)率P（precision）與查全率R（recall）的定義分別為

F1評(píng)分法可以更便捷地綜合評(píng)價(jià)查準(zhǔn)率和查全率，F(xiàn)1的計(jì)算公式為

ROC曲線體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下“期望泛化性能”的好壞，ROC曲線與橫坐標(biāo)軸圍成的面積（AUC）也可以衡量學(xué)習(xí)器的性能。從查準(zhǔn)率、查全率和F1得分情況來看，三種模型對(duì)非流失客戶預(yù)測(cè)的效果比較好，均達(dá)90%以上，對(duì)流失客戶的預(yù)測(cè)效果略差，但也接近70%，平均得分在80%，具體數(shù)據(jù)如表4所示。

如圖1所示，從三個(gè)模型的ROC曲線可以直觀看出，XGBoost模型的擬合效果優(yōu)于支持向量機(jī)和決策樹；決策樹和支持向量機(jī)模型的ROC曲線有交叉，通過計(jì)算AUC值（決策樹AUC得分：0.84，支持向量機(jī)AUC得分：0.88）可知，支持向量機(jī)模型的擬合效果優(yōu)于決策樹；從預(yù)測(cè)準(zhǔn)確性來看，XGBoost模型預(yù)測(cè)準(zhǔn)確性最高，其次是決策樹模型，最后是支持向量機(jī)。

從上述分析可知，XGBoost模型的擬合效果和準(zhǔn)確性得分最高，利用此模型自帶的feature_importances_可以計(jì)算出各個(gè)變量對(duì)模型的貢獻(xiàn)度。根據(jù)特征重要性計(jì)算結(jié)果，客戶滿意度評(píng)分特征對(duì)流失的影響最大，其次為客戶年齡分組、城市等級(jí)和投訴情況，可見客戶情感特征對(duì)流失預(yù)測(cè)貢獻(xiàn)度最大，其次客戶畫像特征。各特征的具體貢獻(xiàn)度如圖2所示。

3.3 減少客戶流失策略

根據(jù)上述分析，可以從影響客戶流失的重要因素出發(fā)，針對(duì)具體原因采取相應(yīng)的運(yùn)營措施：

（1）提升客服響應(yīng)速度與產(chǎn)品質(zhì)量水平，減少客戶投訴。一般來說，滿意度評(píng)分低和有投訴的客戶體驗(yàn)越差，越容易流失，所以直播電商企業(yè)在運(yùn)營過程中應(yīng)當(dāng)保證客戶質(zhì)量，提升客服水平。

（2）細(xì)化客戶畫像，實(shí)行精準(zhǔn)營銷。不同畫像特征的客戶有不同的偏好，直播電商企業(yè)在營銷時(shí)可以根據(jù)客戶特征推薦客戶感興趣的內(nèi)容。

結(jié)論

通過以上研究可得出兩個(gè)重要結(jié)論：（1）集成算法模型的預(yù)測(cè)精度比單一算法更高，XGBoost模型在直播電商客戶流失預(yù)測(cè)模型中表現(xiàn)最佳，預(yù)測(cè)準(zhǔn)確率達(dá)到90.5%；（2）客戶情感特征對(duì)流失預(yù)測(cè)模型影響最大，其次是客戶畫像特征。在今后的研究中，可在大規(guī)模數(shù)據(jù)集上對(duì)模型進(jìn)行優(yōu)化和完善，保留小規(guī)模數(shù)據(jù)集良好的訓(xùn)練效果的同時(shí)，通過算法融合、邏輯模糊等其他的人工智能算法，構(gòu)建大規(guī)模數(shù)據(jù)集的預(yù)測(cè)模型。

參考文獻(xiàn)：

[1]Sudharsan R，Ganesh EN.A Swish RNN based customer churn prediction for the telecom industry with a novel feature selection strategy[J].Connection Science，2022，34（1）：1855-1876.

[2]Ahmad AK，Jafar A，Aljoumaa K.Customer churn prediction in telecom using machine learning in big data platform[J].Journal of Big Data， 2019，6（1）.

[3]Amin A，Shah B，Khattak AM，et al.Cross-company customer churn prediction in telecommunication： A comparison of data transformation methods[J].International Journal of Information Management，2019，（46）：304-319.

[4]劉松.基于深度學(xué)習(xí)的銀行客戶流失預(yù)測(cè)問題研究[D].貴陽：貴州大學(xué)，2022.

[5]薛冰.基于多模型融合的電信運(yùn)營商客戶流失預(yù)測(cè)研究[D].大連：東北財(cái)經(jīng)大學(xué)，2022.

[6]鄭桂钖，徐寬.基于高維時(shí)序特征補(bǔ)充的直播行業(yè)用戶流失預(yù)測(cè)模型[J].科技與創(chuàng)新，2022，（23）：56-61.

[7]黃栩.基于機(jī)器學(xué)習(xí)算法建立用戶流失預(yù)警模型[J].電子制作，2019，（16）：49-51.

[8]鐘文鑫.基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測(cè)模型研究[D].北京：首都經(jīng)濟(jì)貿(mào)易大學(xué)， 2018.

[9]邢紹艷，朱學(xué)芳.付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)實(shí)證研究[J].信息資源管理學(xué)報(bào)，2022，12（4）：121-130，140.

[10]侯俞安.基于SMOTE—貝葉斯網(wǎng)絡(luò)的商業(yè)銀行風(fēng)險(xiǎn)評(píng)估模型研究[D].上海：東華大學(xué)，2022.

[11]張梅英.遷移理論視角下零售電商平臺(tái)消費(fèi)者重復(fù)購買意愿的影響機(jī)制研究[J].商業(yè)經(jīng)濟(jì)研究，2022，（4）：85-88.

[12]Baryannis G，Dani S，Antoniou G.Predicting supply chain risks using machine learning：The trade-off between performance and interpretability[J].Future Generation Computer Systems，2019，101（C）：993-1004.

作者簡介：李翠萍，碩士研究生，研究方向：數(shù)字經(jīng)濟(jì)。