亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        組合模型在電信客戶流失預(yù)測中的應(yīng)用*

        2020-07-19 14:29:22沈江明曾志勇
        通信技術(shù) 2020年6期
        關(guān)鍵詞:錯誤率類別神經(jīng)網(wǎng)絡(luò)

        沈江明,孫 凱,曾志勇

        (1.中國電信股份有限公司云南分公司,云南 昆明 650000;2.云南財經(jīng)大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院,云南 昆明 650000;3.云南財經(jīng)大學(xué)信息學(xué)院,云南 昆明 650000;4.云南省高校數(shù)據(jù)化運營管理工程研究中心,云南 昆明 650000)

        0 引言

        客戶流失一直都是很多行業(yè)需要關(guān)注的問題,在新客戶開發(fā)面臨瓶頸的時刻,如何對原有客戶采取措施保留,是一項非常重要的問題。在20 多年以來,出現(xiàn)了大量關(guān)于電信客戶流失的研究,主要包括對數(shù)據(jù)傾斜問題的處理和模型的構(gòu)建。這其中多為傳統(tǒng)算法或者是對算法改進的單一算法,而單一算法無法在復(fù)雜的客戶流失問題上持續(xù)保持好的結(jié)果。針對這一問題,本文嘗試將數(shù)據(jù)傾斜處理方法與模型構(gòu)建相結(jié)合的策略進行系統(tǒng)構(gòu)建,不僅可以有效解決數(shù)據(jù)傾斜的問題,而且模型分類效果要優(yōu)于傳統(tǒng)分類算法。

        1 相關(guān)工作

        通過對文獻的了解發(fā)現(xiàn),相關(guān)的研究多體現(xiàn)在兩個方面:數(shù)據(jù)不均衡問題處理和模型構(gòu)建。

        在不均衡數(shù)據(jù)處理方面。國外的Ha 等人首次利用了遺傳算法可以獲取最優(yōu)解的特點,利用該算法獲取最優(yōu)子數(shù)據(jù)集,來更好的反應(yīng)多數(shù)類樣本的信息[1]。國內(nèi)的郭娜娜基于差異度的角度對數(shù)據(jù)不均衡處理方法進行改進并提出了IDBC 算法,對于數(shù)據(jù)傾斜問題的處理很有效[2]。

        在分類算法改進方面。傳統(tǒng)的模型多為單一模型的改進。比如張宇等通過決策樹來構(gòu)建模型,并將該模型應(yīng)用到實際業(yè)務(wù)中,驗證了該模型的有效性,可以為企業(yè)進行客戶保留提供幫助[3]。馬文斌等在客戶流失模型構(gòu)建中運用了深度神經(jīng)網(wǎng)絡(luò),并將模型預(yù)測結(jié)果與邏輯回歸和決策樹等模型進行比較,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)具有更好的預(yù)測結(jié)果[4]。國外的Hung,xu,Chu 三位學(xué)者均利用BP 網(wǎng)絡(luò)構(gòu)建流失模型,并取得了非常好的預(yù)測效果[5-7]。隨著分類算法的技術(shù)和理論不斷改進,發(fā)現(xiàn)集成算法有更好的分類效果。比如國內(nèi)學(xué)者王純麟和何建敏就第一次應(yīng)用了集成算法,構(gòu)建了AdaBoost 模型,根據(jù)實際數(shù)據(jù)的驗證結(jié)果顯示,此模型較傳統(tǒng)的BP 模型、貝葉斯模型、C4.5 模型和邏輯回歸模型都有更好的預(yù)測結(jié)果[8]。

        雖然上述研究中對不均衡數(shù)據(jù)的處理有一定的貢獻,但是研究的焦點僅從單一維度進行處理,存在著很明顯的問題。除此之外,在分類模型的構(gòu)建中,由于優(yōu)秀的分類能力,集成模型得到了廣泛認(rèn)可,但是對于基模型的選擇僅為樹模型,基模型的差異度過低,使得效果提升不明顯。

        為解決上述問題,本文綜合了數(shù)據(jù)傾斜問題的處理以及組合模型的組合策略來構(gòu)建一個模型。針對不均衡數(shù)據(jù)的處理,本文從兩個方向進行數(shù)據(jù)采樣,即對多數(shù)類欠采樣,對少數(shù)類smote 過采樣。針對算法改進,本文依舊基于差異性的原則,選擇4 個差異性較大的基分類器進行線性組合,不同的是數(shù)據(jù)輸入。具體過程:按照數(shù)據(jù)傾斜問題的處理方式,重復(fù)進行4次,每一次都會形成一個子數(shù)據(jù)集,并且根據(jù)抽樣方法,每次得到的子數(shù)據(jù)集都不相同,而且這4 個子數(shù)據(jù)集幾乎涵蓋了原數(shù)據(jù)所有的多數(shù)類樣本信息,將每一個子數(shù)據(jù)集用于一個基分類器的構(gòu)建,然后對訓(xùn)練好的基模型進行融合,從而構(gòu)建本文的組合模型。

        本文構(gòu)建的模型一方面充分利用了數(shù)據(jù)樣本信息,有效解決了數(shù)據(jù)嚴(yán)重傾斜的問題;另一方面將數(shù)據(jù)處理方法與組合模型構(gòu)建進行了有效結(jié)合。最后將構(gòu)建的模型應(yīng)用于實際的企業(yè)數(shù)據(jù)來評估模型。

        2 數(shù)據(jù)挖掘理論

        2.1 數(shù)據(jù)挖掘算法

        2.1.1 邏輯回歸算法

        邏輯回歸的本質(zhì)是通過將線性回歸結(jié)果進行非線性的轉(zhuǎn)化來達到分類效果的。模型的返回值是處于0~1 之間的一個類別概率,通常以0.5 為分界點,概率值大于0.5 的歸為類別“1”,反之歸為類別“0”。

        假設(shè)數(shù)據(jù)中有m個特征,分別用X′=(x1,x2,…,xm)表示;根據(jù)類別發(fā)生的對應(yīng)概率為條件概率,用P(Y=1|x)=p表示,則邏輯回歸的模型如式(1)所示,其中g(shù)(x)可以看作線性回歸的預(yù)測函數(shù)。

        2.1.2 支持向量機算法

        支持向量機分類性能優(yōu)越,在企業(yè)中被廣泛應(yīng)用,模型原理是在眾多的分類面中尋找邊際最大的那一個,求解的方法是將問題轉(zhuǎn)化為凸二次規(guī)劃。若在二分類問題中,存在一條直線可以將數(shù)據(jù)點分成兩類,若是在三維空間,則存在一個平面使得這些數(shù)據(jù)被分成兩類,如果這些數(shù)據(jù)點屬于n維空間,那么在n維空間有一個超平面,將數(shù)據(jù)點分為兩類。

        支持向量機通過調(diào)節(jié)核函數(shù)起到非線性擬合的作用,不同的核函數(shù)起到不同的擬合機制。因為僅與支持向量有關(guān)系,所以支持向量機具有分類效果好,性能魯棒的特點。

        2.1.3 XGBOOST 算法

        XGBoost 算法是GBDT 的一種工程化實現(xiàn),GBDT 算法每一次訓(xùn)練都會生成一個基模型,并且基模型是根據(jù)模型殘差進行訓(xùn)練的,即一步步降低模型的分類誤差,如此不斷的迭代下去,形成若干個基分類器,并進行線性加權(quán)。通過這種訓(xùn)練方式來不斷的降低損失。XGBoost 算法的表達式如式(2):

        其中n表示樣本數(shù)量。模型的好壞一方面取決于模型的方差,一方面取決于模型的偏差。

        2.1.4 神經(jīng)網(wǎng)絡(luò)算法

        神經(jīng)網(wǎng)絡(luò)以海量數(shù)據(jù)并行計算為基礎(chǔ),一般包括三個層級結(jié)構(gòu):輸入層、隱藏層和輸出層。層與層之間都存在權(quán)重,且神經(jīng)元中都存在連接函數(shù),進行非線性轉(zhuǎn)化。圖1 為典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。

        圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        BP 神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)算法,其輸出表達式如式(3)所示:

        其中ωij為連接權(quán)系數(shù);fi為激活函數(shù);xi為神經(jīng)元輸入;θj為神經(jīng)元閾值。BP 網(wǎng)絡(luò)通過對維度的調(diào)整,實現(xiàn)將問題轉(zhuǎn)化為更高維度進行處理,并通過不斷的迭代來修正連接權(quán)重和閾值,使得輸出誤差達到最小。

        2.1.5 組合預(yù)測算法

        隨著技術(shù)的發(fā)展,越來越多的學(xué)者選擇將多種算法進行組合,充分發(fā)揮多種算法的優(yōu)勢。組合模型更加穩(wěn)健,可以充分利用樣本信息,預(yù)測結(jié)果也更加可靠。

        假設(shè)有K個子模型,則線性集成的數(shù)學(xué)表達式如式(4)所示:

        本文將重點研究線性集成和數(shù)據(jù)傾斜處理相結(jié)合的方式,來構(gòu)建流失模型,權(quán)重是通過拉格朗日函數(shù)求解的。

        2.2 評估方法

        本文選擇了多種評估方法進行模型比較,其中包括了F1 值、AUC 值、少數(shù)類樣本的預(yù)測精確率和犯兩類錯誤率:FNR 和FPR,其中FNR 表示錯分為不流失的樣本在總樣本的占比,F(xiàn)PR 表示錯分為流失的樣本在總樣本的占比。

        3 實驗分析

        3.1 實驗數(shù)據(jù)

        模型所用的訓(xùn)練以及測試數(shù)據(jù)均來自于某電信公司的寬帶客戶行為數(shù)據(jù),訓(xùn)練集和測試集的介紹如表1 所示。

        表1 電信寬帶數(shù)據(jù)集的數(shù)據(jù)描述

        3.2 組合預(yù)測模型的建立

        針對4 種單模型的特點,模型在輸出類別“0”和“1”時伴隨著類別概率,為了提高模型的分類準(zhǔn)確率,本文擬將類別概率作為各基模型的預(yù)測得分,用于線性組合。為了防止模型將少數(shù)類樣本過多的預(yù)測為少數(shù)類,引入了第I 類分類錯誤率,作為權(quán)重系數(shù)的懲罰項。構(gòu)造的損失函數(shù)[9]如式(5)所示。

        通過極小化損失函數(shù)來獲取組合模型的最優(yōu)權(quán)重。fi,gi,hi,ki分別為LR、SVM、BP 網(wǎng)絡(luò)和XGBOOST 模型的預(yù)測得分值,且預(yù)測得分表示的模型在輸出類別時對應(yīng)的類別概率;λ為拉格朗日算子;αk為單模型對應(yīng)的的權(quán)重,且k=1,2,3,4;ωi犯第I類錯誤率,且i=1,2,3,4;由于函數(shù)L(α1,α2,α3,α4)為二次凸函數(shù),故有唯一的極值,即最小值,并利用python 求出最優(yōu)權(quán)重,設(shè)為組合模型的類別預(yù)測概率,則結(jié)果如式(6)所示:

        本文組合模型的流程圖如圖2 所示。

        圖2 模型訓(xùn)練流程

        該方法的好處在于通過從兩個方向?qū)?shù)據(jù)進行抽樣,可以緩和抽樣本身的缺點。此外,四次抽樣的數(shù)據(jù)集均不一樣,尤其對多數(shù)類樣本的利用更加充分,丟失的信息也非常少。最后通過組合模型的構(gòu)建,對單模型進行整合,使得最終的組合模型具有很好的效果。

        3.3 模型評價

        分別對單模型、投票模型和本文模型進行結(jié)果比較,從模型的F1 值、AUC 值以及對少數(shù)類樣本的預(yù)測命中率三個指標(biāo)對模型的預(yù)測結(jié)果進行評價,結(jié)果如圖3 所示。

        圖3 各模型預(yù)測結(jié)果分析

        圖3 結(jié)果顯示:在所有指標(biāo)中,組合模型均表現(xiàn)出更好的結(jié)果,其中組合模型的F1 值提高了2.3%(相比較較其他最優(yōu)模型,下同),對少數(shù)類樣本的預(yù)測命中率提高了2.1%,AUC 值也提高了0.01。組合模型表現(xiàn)出更加穩(wěn)定優(yōu)越的性能,大大提升了客戶流失的預(yù)測能力,對少數(shù)類(流失類)客戶預(yù)測的命中率達到了78.7%,高于該企業(yè)之前模型達到的76.3%。

        為了更直觀的比較各模型的分類性能,本文引入了兩類分類錯誤率,從另一方面對模型進行評價,結(jié)果如圖4 所示。

        圖4 各模型的兩類分類錯誤率

        圖4 的結(jié)果顯示,組合預(yù)測模型犯第一類錯誤的錯誤率僅為0.62%,遠低于其他模型,犯第II 類錯誤的錯誤率為1.23%,也是優(yōu)于其他模型。綜合比較上述結(jié)果,可以發(fā)現(xiàn)本文的組合模型是合理有效的。

        4 結(jié)語

        現(xiàn)階段下,客戶流失已不僅僅存在于通信業(yè),在其他行業(yè)同樣是一個需要面臨的問題。利用數(shù)據(jù)挖掘技術(shù),通過對數(shù)據(jù)的認(rèn)識,來發(fā)現(xiàn)新的信息,通過對信息的利用,進而幫助企業(yè)制定一些決策,挽留客戶,達到盈利的目的。本文對模型的構(gòu)建綜合考慮了數(shù)據(jù)傾斜問題的處理和組合模型的構(gòu)建,基于差異性選擇了四種基分類器,在抽樣數(shù)據(jù)集的基礎(chǔ)上對基分類器一一進行訓(xùn)練,并將訓(xùn)練好的單模型進行加權(quán)求和,來構(gòu)建本文模型。將組合模型用于真實的企業(yè)數(shù)據(jù),實現(xiàn)隔月預(yù)測。并且結(jié)果顯示,本文構(gòu)建的模型表現(xiàn)出更加優(yōu)越的效果,大大挽回了企業(yè)的損失,具有很大的現(xiàn)實意義。

        猜你喜歡
        錯誤率類別神經(jīng)網(wǎng)絡(luò)
        限制性隨機試驗中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        正視錯誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯誤原因
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        降低學(xué)生計算錯誤率的有效策略
        五月婷网站| 狠狠色婷婷久久综合频道日韩| 97伦伦午夜电影理伦片| 亚洲人成人一区二区三区| 亚洲国内精品一区二区在线| 国产亚洲自拍日本亚洲| 久久99精品久久久久久秒播| 国产欧美精品一区二区三区–老狼 | 丰满熟妇人妻av无码区| 国产超碰人人做人人爱ⅴa| 天啦噜国产精品亚洲精品| 91快射视频在线观看| 天天夜碰日日摸日日澡性色av| 正在播放国产对白孕妇作爱| 国产在线观看免费一级| 国产情侣亚洲自拍第一页| 四川发廊丰满老熟妇| 欧美精品在线一区| 中文字幕久久人妻av| 水蜜桃在线观看一区二区| 久久夜色精品国产噜噜亚洲av | 玖玖色玖玖草玖玖爱在线精品视频| 日本三级欧美三级人妇视频黑白配 | 精品一区二区三区长筒靴| www.亚洲天堂.com| 丝袜美腿精品福利在线视频| 妺妺窝人体色www看人体| 久久精品国产亚洲av电影| 和少妇人妻邻居做爰完整版| 亚洲一区二区三区蜜桃| 国产av夜夜欢一区二区三区| 亚洲av成人精品日韩一区| 激情亚洲综合熟女婷婷| 午夜免费观看日韩一级视频| 亚洲午夜精品久久久久久人妖| 久久青青草原国产精品最新片| 日本美女中文字幕第一区| 任我爽精品视频在线播放| 国产午夜福利精品| 青青草手机在线免费视频| 五月天国产成人av免费观看|