亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林模型在客戶流失預(yù)測(cè)中的缺陷

        2021-04-07 12:36:16賈承瑞
        全國流通經(jīng)濟(jì) 2021年4期
        關(guān)鍵詞:用戶模型

        賈承瑞

        (海南大學(xué)管理學(xué)院,海南 ???570228)

        一、引言

        隨著信息技術(shù)的高速發(fā)展,客戶對(duì)產(chǎn)品或服務(wù)的信息獲取越來越充分,顧客的需求也因此更加多樣化。尤其伴隨著“互聯(lián)網(wǎng)+”的興起,客戶對(duì)產(chǎn)品有了更多的選擇,激烈的市場(chǎng)競(jìng)爭(zhēng),使得客戶流失已經(jīng)成為許多企業(yè)不可避免的問題[1]。如何在眾多競(jìng)爭(zhēng)者中脫穎而出,盡可能降低客戶的流失率,成為各大企業(yè)經(jīng)營者必須思考的問題。

        本研究以某酒店平臺(tái)的用戶數(shù)據(jù)為基礎(chǔ),利用Python對(duì)數(shù)據(jù)進(jìn)行挖掘和分析,首先利用傳統(tǒng)機(jī)器學(xué)習(xí)算法中Accuracy值最高的隨機(jī)森林算法找出影響酒店客戶是否流失最重要的10個(gè)因素;隨后利用該組影響因素將用戶分為11個(gè)群體,采用機(jī)器學(xué)習(xí)中的交叉驗(yàn)證方法,每次抽取1組作為測(cè)試集,其余10組作為訓(xùn)練集,從而計(jì)算每個(gè)群體中的預(yù)測(cè)流失率(pred_prob)和實(shí)際流失率(true_prob),對(duì)比兩者的差異得出誤差率(err_rate)。從而發(fā)現(xiàn)隨機(jī)森林算法在true_prob為極值和中間值時(shí),預(yù)測(cè)效果較好;而在true_prob為10%~40%和60%~90%的群體中預(yù)測(cè)效果較差。使用Accuracy稍低的支持向量機(jī)算法重新計(jì)算該類中間群體后,卻有較好的預(yù)測(cè)效果。

        二、數(shù)據(jù)和變量

        1.數(shù)據(jù)收集和清洗

        本研究數(shù)據(jù)全部來自某酒店預(yù)定網(wǎng)站2016年5月15日~2016年5月21日一周內(nèi)的網(wǎng)絡(luò)訂單用戶數(shù)據(jù)。為保護(hù)用戶隱私,數(shù)據(jù)經(jīng)過脫敏處理,和實(shí)際商品的訂單量、瀏覽量、轉(zhuǎn)化率等有一些差距,但是不影響此研究的分析。影響因素包括酒店和用戶兩部分,主要有當(dāng)前酒店歷史用戶轉(zhuǎn)化率(cr)、當(dāng)前酒店可訂最低價(jià)格、24小時(shí)內(nèi)是否訪問訂單填寫頁、用戶決策習(xí)慣、近7天用戶歷史訂單數(shù)、24小時(shí)內(nèi)登陸時(shí)長、用戶消費(fèi)能力指數(shù)、價(jià)格敏感指數(shù)等共計(jì)51項(xiàng)相關(guān)變量。數(shù)據(jù)清理后,有效數(shù)據(jù)共計(jì)24286條。

        2.描述性分析

        在進(jìn)行數(shù)據(jù)建模前要對(duì)所有變量進(jìn)行描述性分析。表1給出主要變量的解釋說明。在后續(xù)的建模分析中,本研究以均值加減3倍標(biāo)準(zhǔn)差作為識(shí)別異常值的標(biāo)準(zhǔn),如果取值在這個(gè)范圍之外,被認(rèn)為是異常值,在建模分析中予以刪除。

        表1 流失用戶主要變量描述性分析結(jié)果

        本研究的因變量是客戶是否流失,是一個(gè)典型的0—1變量。流失定義為,用戶在瀏覽酒店網(wǎng)頁后未產(chǎn)生訂單。而客戶是否流失在源數(shù)據(jù)的churn列已經(jīng)給出了相應(yīng)的判別值,0為流失,1為非流失。經(jīng)過統(tǒng)計(jì)分析可知,該酒店平臺(tái)的流失率維持在50.06%左右,主要變量的描述性分析結(jié)果如表1。從表中可以初步得到,流失用戶在一年內(nèi)的訂單/取消訂單數(shù)的標(biāo)準(zhǔn)差較大,決策習(xí)慣較不穩(wěn)定。

        三、流失預(yù)測(cè)模型

        1.隨機(jī)森林模型建立

        隨機(jī)森林(Random Forest,RF)是一種基于Bagging的集成學(xué)習(xí)方法,可以用于分類和回歸問題。它由多個(gè)決策樹構(gòu)成,樹的構(gòu)建遵從CART 策略,并不進(jìn)行剪枝[2]。

        首先要將自變量中的字符串轉(zhuǎn)化成布爾邏輯值(0-1),并刪除掉一些無用的屬性。由于要將隨機(jī)森林算法與其他非概率型機(jī)器學(xué)習(xí)算法進(jìn)行比較,所以在Python中使用StandardScaler函數(shù)將每個(gè)特征標(biāo)準(zhǔn)化為大約1.0到-1.0的范圍,來實(shí)現(xiàn)歸一化。

        在構(gòu)建模型時(shí),調(diào)參是極為重要的一個(gè)步驟,只有選擇最佳的參數(shù)才能構(gòu)建一個(gè)最優(yōu)的模型。而參數(shù)的值可以通過交叉驗(yàn)證的方法,逐個(gè)來驗(yàn)證。我們將數(shù)據(jù)集隨機(jī)分為11組進(jìn)行交叉驗(yàn)證,將每一組都當(dāng)做一次測(cè)試集,其余10組當(dāng)做訓(xùn)練集,這樣循環(huán)11次。通過傳入的模型,訓(xùn)練11次,最后將11次結(jié)果求平均值。通過此種方法避免過擬合,同時(shí)為每個(gè)觀測(cè)數(shù)據(jù)集生成預(yù)測(cè)。

        根據(jù)隨機(jī)森林算法中各特征值的信息增益率高低,對(duì)自變量的重要程度進(jìn)行排序,可以得到排名前五的影響因素分別為commentnums、historyvisit_totalordernum、landhalfhours、hotelcr和iforderpv_24h。

        2.評(píng)價(jià)指標(biāo)

        準(zhǔn)確率的定義是,對(duì)于給定的測(cè)試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比。也就是損失函數(shù)是0-1損失時(shí)測(cè)試數(shù)據(jù)集上的準(zhǔn)確率。我們使用內(nèi)置的scikit-learn函數(shù)來構(gòu)建混淆矩陣?;煜仃囀且环N可視化分類器預(yù)測(cè)的方式,用一個(gè)表格來顯示特定類的預(yù)測(cè)分布。x軸表示每個(gè)觀察的真實(shí)類別,而y軸對(duì)應(yīng)于模型預(yù)測(cè)的類別。

        為了比較隨機(jī)森林在常用機(jī)器學(xué)習(xí)算法中的性能,引入LR、GB、SVM、KNN等模型進(jìn)行性能比較。可以得到各算法的總體準(zhǔn)確率分別為,LR 最低,為61.2%;GB、SVM和KNN算法的準(zhǔn)確率分別為 70.7%、72.4%、80.4%;RF最高,為88.2%。

        3.特征群體分析

        有時(shí)我們并不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率。隨機(jī)森林就是一種概率模型。一般來說,輸出概率要比輸出決策結(jié)果更有說服力。在Python中根據(jù)預(yù)測(cè)概率分布對(duì)源數(shù)據(jù)進(jìn)行切分,生成11個(gè)組群體,分別計(jì)算各群體的預(yù)測(cè)流失率(pred_prob)和實(shí)際流失率(true_prob),對(duì)比兩者的差異得出誤差率(err_rate)。得到的概率分布情況如表2所示,可以明顯看出true_prob為極值和中間值時(shí),預(yù)測(cè)效果較好,平均誤差率在1%以下;而在其余流失群體(true_prob為10%~40%或60%~90%)中預(yù)測(cè)效果較差,平均誤差率高達(dá)12.5%以上。由此說明,總體準(zhǔn)確率最高的隨機(jī)森林算法,在特征群體預(yù)測(cè)中存在缺陷,對(duì)某些特定群體的預(yù)測(cè)誤差率很低,而對(duì)另外一些群體的誤差率很高,存在改進(jìn)空間。

        表2 特征群體的概率分布

        四、模型修正

        從表2中可以明顯看出隨機(jī)森林模型的缺陷。為了對(duì)比不同機(jī)器學(xué)習(xí)模型的預(yù)測(cè)概率,在此部分引入一致性/標(biāo)定度(Calibration)和區(qū)分度(Descrimination)的概念。

        1.標(biāo)定度和區(qū)分度

        標(biāo)定度的意思是,評(píng)價(jià)模型預(yù)測(cè)值的數(shù)值大小和實(shí)際事件發(fā)生概率的大小是否一致。假設(shè)我們這個(gè)模型已經(jīng)能夠很好地區(qū)分開“酒店客戶流失”和“酒店客戶未流失”兩類,并且某名客戶恰好屬于“客戶流失”這一類,但是還想進(jìn)一步分析,在這一類里,是不是模型的預(yù)測(cè)值越大,該客戶就越容易流失呢?由此定義,如果模型的預(yù)測(cè)值越大,真實(shí)發(fā)生概率越大的話,就表明標(biāo)定度越好。即標(biāo)定度的值越低,說明模型的特征群體誤差率越小。常用的衡量標(biāo)準(zhǔn)為擬合優(yōu)度檢驗(yàn)。

        區(qū)分度的意思是,在模型的預(yù)測(cè)值上,能不能找到一個(gè)截點(diǎn),把酒店客戶流失和酒店客戶未流失,這兩類客戶區(qū)分開來,如果模型區(qū)分的兩類客戶和真實(shí)情況越吻合,說明模型的區(qū)分度越高,最理想的狀態(tài)就是通過模型區(qū)分的“客戶是/否流失”的這兩組人=真實(shí)情況中“客戶是/否流失”的這兩組人,那么這個(gè)模型的區(qū)分度就是1。常用的衡量指標(biāo)為ROC曲線下的面積(AUC值)。

        2.算法對(duì)比

        從表3中可以看出,采用兩項(xiàng)指標(biāo)進(jìn)行重新評(píng)價(jià)后,可得隨機(jī)森林雖然在區(qū)分度值中仍具有優(yōu)勢(shì),但標(biāo)定度卻為最低。而支持向量機(jī)模型(Support Vector Machine,SVM)在標(biāo)定度中表現(xiàn)優(yōu)異,僅有0.0016,說明將其用于某些特征群體中的預(yù)測(cè)可以取得較小的誤差率。

        表3 不同算法指標(biāo)得分

        3.混合模型

        由上述結(jié)論分析,進(jìn)一步嘗試使用RF-SVM混合模型。本文使用兩步預(yù)測(cè)法,先使用SVM算法進(jìn)行第一次預(yù)測(cè),然后使用RF算法進(jìn)行特征值的降維進(jìn)行第二次預(yù)測(cè),從而進(jìn)一步提升結(jié)果準(zhǔn)確性?;旌夏P偷腞OC曲線下與坐標(biāo)周圍成的面積(AUC值)得到進(jìn)一步提升,即區(qū)分度值變大;總體預(yù)測(cè)的準(zhǔn)確率也上升至92.3%。

        五、結(jié)論

        客戶流失作為客戶生命周期管理的重要階段,一直是學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。如何準(zhǔn)確地預(yù)測(cè)客戶的流失傾向,已成為客戶管理關(guān)系研究的重要問題。準(zhǔn)確率作為預(yù)測(cè)模型中最常用的評(píng)估度量指標(biāo)之一,常常用來評(píng)價(jià)預(yù)測(cè)模型分類能力的優(yōu)劣。而本研究發(fā)現(xiàn)單一的準(zhǔn)確率評(píng)價(jià)指標(biāo)不能準(zhǔn)確說明某些特征群體的客戶趨向。

        以某酒店平臺(tái)的用戶數(shù)據(jù)為基礎(chǔ),利用Python對(duì)數(shù)據(jù)進(jìn)行挖掘和分析,首先利用傳統(tǒng)機(jī)器學(xué)習(xí)算法中Accuracy值最高的隨機(jī)森林算法找出影響酒店客戶是否流失最重要的10個(gè)因素;隨后利用該組影響因素將用戶分為11個(gè)群體,采用機(jī)器學(xué)習(xí)中的交叉驗(yàn)證方法,每次抽取1組作為測(cè)試集,其余10組作為訓(xùn)練集,從而計(jì)算每個(gè)群體中的預(yù)測(cè)流失率(pred_prob)和實(shí)際流失率(true_prob),對(duì)比兩者的差異得出誤差率(err_rate)。從而發(fā)現(xiàn)隨機(jī)森林算法在true_prob為極值和中間值時(shí),預(yù)測(cè)效果較好;而在true_prob為10%~40%和60%~90%的群體中預(yù)測(cè)效果較差。而通過Calibration和Descrimination的兩項(xiàng)指標(biāo)進(jìn)行進(jìn)一步測(cè)評(píng),Accuracy稍低的支持向量機(jī)卻具有最高的Calibration值,說明中間群體使用SVM算法會(huì)具有更好地預(yù)測(cè)效果。最后,結(jié)合RF和SVM算法在Python中構(gòu)建出兩步綜合模型,將預(yù)測(cè)準(zhǔn)確率進(jìn)一步提升至92.3%。

        本研究仍存在繼續(xù)探討的空間:①本文僅基于某酒店平臺(tái)的用戶數(shù)據(jù)分析了RF算法的缺陷,而該缺陷是否具有普遍性,是否同樣存在于其他領(lǐng)域用戶流失的預(yù)測(cè)中,有待進(jìn)一步驗(yàn)證;②本次研究對(duì)用戶數(shù)據(jù)中的日期類特征值進(jìn)行了刪除,實(shí)際情況中,酒店的預(yù)訂率很大程度上會(huì)受到節(jié)假日、工作日等特定日期的影響,包含日期的酒店用戶數(shù)據(jù)流失分析有待進(jìn)一步探討;③用戶數(shù)據(jù)的特征值可以用主成分分析法進(jìn)行降維,能否構(gòu)建出特征值之間的線性表達(dá)式,從而進(jìn)一步解釋影響酒店客戶流失的原因;④RF和SVM算法是否存在其他的融合方法,從而進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確率。

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        Camera360:拍出5億用戶
        100萬用戶
        在线免费午夜视频一区二区| 理论片87福利理论电影| 精品免费福利视频| 亚洲视频一区二区三区免费| 开心久久综合婷婷九月| 伊人久久大香线蕉综合影院首页| 免费无码肉片在线观看| 中文字幕亚洲区第一页| 国产精品大片一区二区三区四区 | 成人无码午夜在线观看| 成人国产在线播放自拍| 国产传媒精品成人自拍| 女局长白白嫩嫩大屁股| 狠狠人妻久久久久久综合| 日韩精品首页在线观看| av在线免费观看大全| 色噜噜狠狠综曰曰曰| 含紧一点h边做边走动免费视频 | 黄色三级国产在线观看| 青青草成人在线免费视频| 精品乱码久久久久久久| 亚洲AV无码成人品爱| 国产一区二区三区av观看| 亚洲国产亚综合在线区| 老熟妻内射精品一区| 午夜无码熟熟妇丰满人妻| 亚洲天堂av在线免费观看| 久久天天躁狠狠躁夜夜躁2014| 国产福利午夜波多野结衣| 99久久免费中文字幕精品| 强d乱码中文字幕熟女免费| 熟女熟妇伦av网站| 国产在线视频h| 日本高级黄色一区二区三区| 北条麻妃国产九九九精品视频| 四虎永久在线精品免费观看地址| 超短裙老师在线观看一区二区| 性高朝久久久久久久3小时| 中文无码制服丝袜人妻av| 蜜桃av观看亚洲一区二区| 国产精品主播在线一区二区 |