亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的直播電商客戶流失風(fēng)險(xiǎn)預(yù)測(cè)

        2023-06-06 16:19:48李翠萍
        互聯(lián)網(wǎng)周刊 2023年10期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        摘要:客戶流失是互聯(lián)網(wǎng)電商企業(yè)面臨的重要問題之一,及時(shí)預(yù)測(cè)和挽留流失客戶對(duì)企業(yè)提高經(jīng)濟(jì)效益具有重要作用。本文基于決策樹、支持向量機(jī)和XGBoost三種機(jī)器學(xué)習(xí)算法,從客戶畫像特征、行為特征、情感特征和價(jià)值特征四個(gè)方面選取指標(biāo)構(gòu)建模型并評(píng)價(jià),以對(duì)比不同模型在同一個(gè)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果。結(jié)果表明,集成算法XGBoost模型表現(xiàn)最佳,客戶情感價(jià)值特征對(duì)流失客戶預(yù)測(cè)的貢獻(xiàn)度最大,并由此提出相應(yīng)的客戶挽留對(duì)策。

        關(guān)鍵詞:機(jī)器學(xué)習(xí);直播電商;客戶流失;預(yù)測(cè)模型

        引言

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,直播電商平臺(tái)如雨后春筍般涌現(xiàn),如淘寶、抖音、快手、小紅書等。客戶可選擇的直播平臺(tái)和直播內(nèi)容越來越多。流量大小對(duì)客戶訂單數(shù)量有直接影響,客戶流失在直播電商中屢見不鮮。提高客戶流失預(yù)測(cè)精度,建立客戶流失預(yù)警機(jī)制,及時(shí)維系和挽留客戶,有助于直播電商企業(yè)降低客戶維系成本,提高企業(yè)經(jīng)濟(jì)效益。

        1. 國內(nèi)外研究現(xiàn)狀

        機(jī)器學(xué)習(xí)方法作為人工智能的核心算法,在客戶流失問題的研究中被廣泛應(yīng)用。國外學(xué)者對(duì)于客戶流失(Customer Churn)的研究大多集中在電信領(lǐng)域,研究方法大多采用機(jī)器學(xué)習(xí)方法。Sudharsan等(2022)[1]提出了一種新的框架,發(fā)現(xiàn)S-RNN可以用來對(duì)客戶按流失和正??蛻暨M(jìn)行分類,并對(duì)流失客戶通過分析網(wǎng)絡(luò)利用率實(shí)施保留措施。Abdelrahim等(2019)[2]融合采用決策樹、隨機(jī)森林、梯度增強(qiáng)機(jī)器樹“GBM”和極端梯度增強(qiáng)“XGBOOST”四種算法構(gòu)建電信客戶流失預(yù)測(cè)模型,發(fā)現(xiàn)應(yīng)用XGBOOST算法獲得了最佳結(jié)果。Adnan等(2019)[3]重點(diǎn)關(guān)注跨公司客戶流失預(yù)測(cè)問題,采用機(jī)器學(xué)習(xí)算法構(gòu)建CCCP(Cross-Company Churn Prediction)模型,在電信行業(yè)公開數(shù)據(jù)集上驗(yàn)證,結(jié)果表明大多數(shù)數(shù)據(jù)轉(zhuǎn)換方法顯著提高了CCCP的性能,而Z-Score數(shù)據(jù)轉(zhuǎn)換方法不能獲得更好的結(jié)果。

        國內(nèi)學(xué)者對(duì)客戶流失的研究方法大多數(shù)采用數(shù)據(jù)挖掘技術(shù)。劉松(2022)[4]分析了銀行客戶流失預(yù)測(cè)模型的可解釋性,發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確性更高。薛冰(2022)[5]運(yùn)用多模型融合的方法預(yù)測(cè)電信運(yùn)營商客戶流失,發(fā)現(xiàn)融合模型算法有利于提高模型的準(zhǔn)確性和可用性。鄭桂钖、徐寬(2022)[6]基于數(shù)據(jù)的高維時(shí)序特征構(gòu)建直播行業(yè)客戶流失預(yù)測(cè)模型,結(jié)果表明在補(bǔ)充了時(shí)序特征后的融合特征模型預(yù)測(cè)效果有顯著提升。黃栩(2019)[7]研究軟件APP的客戶流失問題,實(shí)驗(yàn)結(jié)果表明模型的結(jié)果預(yù)測(cè)準(zhǔn)確率都在90%以上,具有很好的預(yù)測(cè)效果。鐘文鑫(2018)[8]研究陌生人社交APP客戶流失預(yù)測(cè)問題,四種機(jī)器學(xué)習(xí)算法構(gòu)建對(duì)比模型,發(fā)現(xiàn)XGBoost模型的表現(xiàn)結(jié)果更佳。

        綜上所述,客戶流失問題受到了國內(nèi)外學(xué)者的廣泛關(guān)注,數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法是研究此類問題最常用的方法。

        2. 數(shù)據(jù)處理與特征工程

        2.1 數(shù)據(jù)說明

        本研究數(shù)據(jù)集來源于某電子商務(wù)平臺(tái)電子產(chǎn)品銷售直播的客戶特征數(shù)據(jù),共包含5630條數(shù)據(jù)記錄。因變量為流失標(biāo)志(Churn),1表示流失客戶,0表示未流失客戶,自變量為平臺(tái)使用期限、客戶首選登錄設(shè)備、城市級(jí)別等17個(gè)特征。

        2.2 數(shù)據(jù)預(yù)處理

        由于原始數(shù)據(jù)存在缺失、樣本不均衡等問題,為了模型分析的準(zhǔn)確性,本研究運(yùn)用Python3.7工具在anaconda環(huán)境下填充缺失值、轉(zhuǎn)換數(shù)據(jù)類型、獨(dú)熱編碼和smote過采樣。

        2.2.1 缺失值處理

        經(jīng)檢測(cè)發(fā)現(xiàn),變量Tenure、Warehouse ToHome等6個(gè)變量存在200條以上的缺失數(shù)據(jù),考慮到樣本體量較小,本文所選部分模型對(duì)缺失數(shù)據(jù)依賴度較高,故采用中位數(shù)和眾數(shù)來填充缺失值。

        2.2.2 數(shù)據(jù)轉(zhuǎn)換

        通過觀察原始數(shù)據(jù)可以發(fā)現(xiàn),PreferredLoginDevice、MaritalStatus、Gender、PreferedOrderCat四個(gè)變量的值為字符串類型,為了建模和分析方便,本文將字符型變量轉(zhuǎn)換為數(shù)值型變量,轉(zhuǎn)換規(guī)則如表1所示。

        轉(zhuǎn)換后的數(shù)據(jù)不具有有序性特征,例如性別變量中的0和1,僅表示男性和女性的客戶群劃分,本文選取獨(dú)熱編碼(One-Hot Encoding)技術(shù)、運(yùn)用scikit-learn庫中的OneHotEncoder模塊對(duì)這類數(shù)據(jù)進(jìn)行重新編碼,防止數(shù)據(jù)間的大小關(guān)系參與運(yùn)算,合理地計(jì)算特征之間的距離。獨(dú)熱編碼后,數(shù)據(jù)集由原來的17個(gè)變量擴(kuò)展到28個(gè)。

        2.2.3 樣本不均衡處理

        本研究選取的流失客戶樣本數(shù)量為948,非流失客戶樣本數(shù)量為4682,比例為1:4.9。一般來說,當(dāng)流失客戶與非流失客戶數(shù)據(jù)比例為1:2或1:3時(shí),模型效果較好[9]。侯俞安(2022)在研究個(gè)人信用風(fēng)險(xiǎn)評(píng)估時(shí)采用SMOTE算法訓(xùn)練不平衡樣本數(shù)據(jù)集,模型取得了更好的效果[10]。本文采用SMOTE方法,將流失客戶樣本擴(kuò)展到與非流失客戶大致相當(dāng)?shù)谋壤MOTE算法根據(jù)少數(shù)類樣本人工合成新樣本,對(duì)少數(shù)類樣本每個(gè)樣本x,從它的K近鄰中隨機(jī)選一個(gè)樣本y,然后在x,y連線上隨機(jī)選取一點(diǎn)作為新合成的樣本。這種合成新樣本的過采樣方法可以降低過擬合的風(fēng)險(xiǎn)。構(gòu)建新樣本的公式如下:

        2.3 客戶特征模型

        客戶畫像是了解客戶的關(guān)鍵步驟,平臺(tái)可以根據(jù)畫像特征實(shí)施精準(zhǔn)營銷策略,提升客戶滿意度,降低流失的可能性??蛻粜袨樘卣鞣从沉丝蛻舻氖褂昧?xí)慣,通過客戶行為數(shù)據(jù)可以挖掘內(nèi)容偏好、發(fā)掘客戶興趣點(diǎn)、預(yù)警客戶流失。客戶對(duì)商品服務(wù)的滿意度評(píng)分和投訴情況直接反映了客戶的情感狀態(tài)。張梅英(2022)認(rèn)為滿意度對(duì)忠誠度和購買意愿有正向影響,滿意度較高的客戶流失的可能性較小[11]。RFM模型是客戶價(jià)值衡量的理論基礎(chǔ),該模型由最近一次消費(fèi)R(Recency)、消費(fèi)頻率F(Frequency)和消費(fèi)金額M(Monetary)構(gòu)成,一般來說,消費(fèi)時(shí)間較遠(yuǎn)、消費(fèi)頻次較低、但消費(fèi)金額較高的客戶,很可能是已經(jīng)流失或者即將流失的客戶,應(yīng)當(dāng)實(shí)施挽留措施。本文篩選的客戶特征及含義如表2所示。

        3. 模型選擇與實(shí)驗(yàn)結(jié)果

        3.1 算法選擇與模型構(gòu)建

        預(yù)測(cè)客戶流失屬于二分類問題,分類準(zhǔn)確性的關(guān)鍵在于算法的選取。本文采用Python3.7軟件進(jìn)行機(jī)器學(xué)習(xí)建模,在anaconda環(huán)境下運(yùn)行。首先使用留出法將數(shù)據(jù)集劃分為測(cè)試集(20%)和訓(xùn)練集(80%),然后使用sklearn工具包分別建立決策樹、支持向量機(jī)和XGBoost算法模型。

        3.1.1 決策樹模型構(gòu)建

        決策樹是一種、應(yīng)用廣泛的機(jī)器學(xué)習(xí)算法,可以用來解決分類和回歸問題。目前主流的決策樹算法有基于信息熵的ID3算法、C4.5算法和基于基尼系數(shù)的CART算法。信息熵表示隨機(jī)變量不確定性的度量,不確定性越大得到的熵值越大,假定當(dāng)前樣本集合D中第k個(gè)樣本所占的比例為(k=1,2,…,|y|),則D的信息熵定義為

        本文運(yùn)用sklearn工具包中的Decision TreeClassifier分類器,在默認(rèn)參數(shù)下創(chuàng)建模型,模型最佳預(yù)測(cè)準(zhǔn)確率達(dá)88%,AUC得分為0.84。但是模型的可解釋性和分類精度之間是一種權(quán)衡[12],最佳預(yù)測(cè)效果下模型的可解釋性不高。為了提高樹模型的可解釋性,可以通過限制最大深度和最大葉子結(jié)點(diǎn)的數(shù)量簡化模型。

        3.1.2 支持向量機(jī)模型構(gòu)建

        支持向量機(jī)(Support Vector Machine,SVM)是通過尋找超平面對(duì)樣本進(jìn)行分割從而實(shí)現(xiàn)分類或預(yù)測(cè)的算法,分割樣本的原則是使間隔最大化,尋找最大間隔的支持向量。支持向量機(jī)的核決定了如何投影到更高維的空間,核函數(shù)的參數(shù)決定了邊界的形狀,正則化參數(shù)C表示單個(gè)數(shù)據(jù)點(diǎn)對(duì)模型的影響程度,C越小表示模型越簡單。本文運(yùn)用sklearn工具包中的SVC模塊創(chuàng)建支持向量機(jī)模型,所選擇的核函數(shù)為RBF徑向基核,懲罰系數(shù)為20,運(yùn)行多次以后模型的準(zhǔn)確率為86.9%,AUC得分為0.88。

        3.1.3 XGBoost模型構(gòu)建

        XGBoost(eXtreme Gradient Boosting)又叫極度梯度提升樹,是boosting算法的一種實(shí)現(xiàn)方式。其主要目標(biāo)是降低模型的誤差,因此采用多個(gè)基學(xué)習(xí)器,下一個(gè)學(xué)習(xí)器是學(xué)習(xí)前面基學(xué)習(xí)器的結(jié)果的差值,通過多個(gè)學(xué)習(xí)器的學(xué)習(xí),不斷降低模型值和實(shí)際值的差。本文采用XGBoost庫中的XGBClassifier分類器構(gòu)建模型,為了提升模型的效果,將子決策樹的最大深度限制為10,目標(biāo)函數(shù)參數(shù)設(shè)為binary:logistic,用于訓(xùn)練的子樣本占總樣本的比例設(shè)為0.8,特征隨機(jī)采樣的比例設(shè)為0.8,模型預(yù)測(cè)準(zhǔn)確率為90.5%,AUC得分為0.93。

        3.2 模型評(píng)估指標(biāo)選擇

        本文采用二分類問題的混淆矩陣對(duì)模型進(jìn)行綜合評(píng)價(jià)。對(duì)于二分類問題,可以將樣本根據(jù)真實(shí)情況和學(xué)習(xí)器的預(yù)測(cè)結(jié)果分為真正例(TP)、真反例(TN)、假正例(FP)、假反例(FN),分類結(jié)果的混淆矩陣如表3所示。

        查準(zhǔn)率P(precision)與查全率R(recall)的定義分別為

        F1評(píng)分法可以更便捷地綜合評(píng)價(jià)查準(zhǔn)率和查全率,F(xiàn)1的計(jì)算公式為

        ROC曲線體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下“期望泛化性能”的好壞,ROC曲線與橫坐標(biāo)軸圍成的面積(AUC)也可以衡量學(xué)習(xí)器的性能。從查準(zhǔn)率、查全率和F1得分情況來看,三種模型對(duì)非流失客戶預(yù)測(cè)的效果比較好,均達(dá)90%以上,對(duì)流失客戶的預(yù)測(cè)效果略差,但也接近70%,平均得分在80%,具體數(shù)據(jù)如表4所示。

        如圖1所示,從三個(gè)模型的ROC曲線可以直觀看出,XGBoost模型的擬合效果優(yōu)于支持向量機(jī)和決策樹;決策樹和支持向量機(jī)模型的ROC曲線有交叉,通過計(jì)算AUC值(決策樹AUC得分:0.84,支持向量機(jī)AUC得分:0.88)可知,支持向量機(jī)模型的擬合效果優(yōu)于決策樹;從預(yù)測(cè)準(zhǔn)確性來看,XGBoost模型預(yù)測(cè)準(zhǔn)確性最高,其次是決策樹模型,最后是支持向量機(jī)。

        從上述分析可知,XGBoost模型的擬合效果和準(zhǔn)確性得分最高,利用此模型自帶的feature_importances_可以計(jì)算出各個(gè)變量對(duì)模型的貢獻(xiàn)度。根據(jù)特征重要性計(jì)算結(jié)果,客戶滿意度評(píng)分特征對(duì)流失的影響最大,其次為客戶年齡分組、城市等級(jí)和投訴情況,可見客戶情感特征對(duì)流失預(yù)測(cè)貢獻(xiàn)度最大,其次客戶畫像特征。各特征的具體貢獻(xiàn)度如圖2所示。

        3.3 減少客戶流失策略

        根據(jù)上述分析,可以從影響客戶流失的重要因素出發(fā),針對(duì)具體原因采取相應(yīng)的運(yùn)營措施:

        (1)提升客服響應(yīng)速度與產(chǎn)品質(zhì)量水平,減少客戶投訴。一般來說,滿意度評(píng)分低和有投訴的客戶體驗(yàn)越差,越容易流失,所以直播電商企業(yè)在運(yùn)營過程中應(yīng)當(dāng)保證客戶質(zhì)量,提升客服水平。

        (2)細(xì)化客戶畫像,實(shí)行精準(zhǔn)營銷。不同畫像特征的客戶有不同的偏好,直播電商企業(yè)在營銷時(shí)可以根據(jù)客戶特征推薦客戶感興趣的內(nèi)容。

        結(jié)論

        通過以上研究可得出兩個(gè)重要結(jié)論:(1)集成算法模型的預(yù)測(cè)精度比單一算法更高,XGBoost模型在直播電商客戶流失預(yù)測(cè)模型中表現(xiàn)最佳,預(yù)測(cè)準(zhǔn)確率達(dá)到90.5%;(2)客戶情感特征對(duì)流失預(yù)測(cè)模型影響最大,其次是客戶畫像特征。在今后的研究中,可在大規(guī)模數(shù)據(jù)集上對(duì)模型進(jìn)行優(yōu)化和完善,保留小規(guī)模數(shù)據(jù)集良好的訓(xùn)練效果的同時(shí),通過算法融合、邏輯模糊等其他的人工智能算法,構(gòu)建大規(guī)模數(shù)據(jù)集的預(yù)測(cè)模型。

        參考文獻(xiàn):

        [1]Sudharsan R,Ganesh EN.A Swish RNN based customer churn prediction for the telecom industry with a novel feature selection strategy[J].Connection Science,2022,34(1):1855-1876.

        [2]Ahmad AK,Jafar A,Aljoumaa K.Customer churn prediction in telecom using machine learning in big data platform[J].Journal of Big Data, 2019,6(1).

        [3]Amin A,Shah B,Khattak AM,et al.Cross-company customer churn prediction in telecommunication: A comparison of data transformation methods[J].International Journal of Information Management,2019,(46):304-319.

        [4]劉松.基于深度學(xué)習(xí)的銀行客戶流失預(yù)測(cè)問題研究[D].貴陽:貴州大學(xué),2022.

        [5]薛冰.基于多模型融合的電信運(yùn)營商客戶流失預(yù)測(cè)研究[D].大連:東北財(cái)經(jīng)大學(xué),2022.

        [6]鄭桂钖,徐寬.基于高維時(shí)序特征補(bǔ)充的直播行業(yè)用戶流失預(yù)測(cè)模型[J].科技與創(chuàng)新,2022,(23):56-61.

        [7]黃栩.基于機(jī)器學(xué)習(xí)算法建立用戶流失預(yù)警模型[J].電子制作,2019,(16):49-51.

        [8]鐘文鑫.基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測(cè)模型研究[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué), 2018.

        [9]邢紹艷,朱學(xué)芳.付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)實(shí)證研究[J].信息資源管理學(xué)報(bào),2022,12(4):121-130,140.

        [10]侯俞安.基于SMOTE—貝葉斯網(wǎng)絡(luò)的商業(yè)銀行風(fēng)險(xiǎn)評(píng)估模型研究[D].上海:東華大學(xué),2022.

        [11]張梅英.遷移理論視角下零售電商平臺(tái)消費(fèi)者重復(fù)購買意愿的影響機(jī)制研究[J].商業(yè)經(jīng)濟(jì)研究,2022,(4):85-88.

        [12]Baryannis G,Dani S,Antoniou G.Predicting supply chain risks using machine learning:The trade-off between performance and interpretability[J].Future Generation Computer Systems,2019,101(C):993-1004.

        作者簡介:李翠萍,碩士研究生,研究方向:數(shù)字經(jīng)濟(jì)。

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        桃花影院理论片在线| 久草中文在线这里只有精品| 日韩av一区二区网址| 亚洲av永久无码精品网址| 丝袜足控一区二区三区 | 亚洲女同一区二区| 男女18禁啪啪无遮挡| 三级全黄的视频在线观看| 国产一区在线视频不卡| 亚洲线精品一区二区三区| 精品国模一区二区三区| 午夜国产一区二区三区精品不卡| 蜜桃一区二区三区在线视频| 亚洲av免费手机在线观看| 国产综合久久久久| 亚洲AV综合A∨一区二区| 国产成人亚洲综合二区| 日本伊人精品一区二区三区| 丰满人妻av无码一区二区三区| av一区二区三区亚洲| 深夜日韩在线观看视频| 日韩网红少妇无码视频香港| 久久99精品国产99久久6男男| 国产成人啪精品视频免费网| 国产丝袜美腿中文字幕| 欧美国产综合欧美视频| 熟妇人妻AV中文字幕老熟妇 | av黄页网国产精品大全| 欧美大成色www永久网站婷| 中国大陆一级毛片| 久久精品国产亚洲av蜜臀久久| 国产亚洲精品久久午夜玫瑰园| 白又丰满大屁股bbbbb| 北岛玲中文字幕人妻系列| 国产精品日韩亚洲一区二区| 亚洲欧美中文字幕5发布| 国产精品调教| 精品国产一区二区三区男人吃奶| 中文乱码字幕精品高清国产| 久久久久久久岛国免费观看| 精品一区二区三区久久久|