亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于雙層融合結(jié)構(gòu)的客戶(hù)流失預(yù)測(cè)模型

        2020-09-07 01:49:44李為康楊小兵
        關(guān)鍵詞:分類(lèi)器準(zhǔn)確率客戶(hù)

        李為康,楊小兵

        (中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,杭州 310018)E-mail:ignatius.lee@foxmail.com

        1 引 言

        時(shí)至今日,各類(lèi)市場(chǎng)日益飽和且競(jìng)爭(zhēng)激烈,屬于行業(yè)巨頭的市場(chǎng)份額越來(lái)越大,各行業(yè)企業(yè)家們以往關(guān)注的重點(diǎn)在于推出新穎的定制服務(wù)來(lái)吸引新客戶(hù),并將已經(jīng)擁有的客戶(hù)轉(zhuǎn)換成忠誠(chéng)客戶(hù)[1].而研究表明發(fā)展一個(gè)新客戶(hù)的成本遠(yuǎn)高于維護(hù)一個(gè)老客戶(hù)的成本[2],所以預(yù)防老客戶(hù)的流失是各企業(yè)家們必須重視的問(wèn)題.

        因此,客戶(hù)流失預(yù)測(cè)技術(shù)對(duì)于企業(yè)挽留老客戶(hù)和推出各種定制服務(wù)來(lái)說(shuō)是十分重要的.比如電信企業(yè),一個(gè)流失的客戶(hù)如果不再使用運(yùn)營(yíng)商提供的服務(wù),那么他就再也無(wú)法產(chǎn)生任何利潤(rùn),這對(duì)于擁有千萬(wàn)級(jí)別數(shù)量客戶(hù)的運(yùn)營(yíng)商而言,如果能降低百分之一的客戶(hù)流失率,那將會(huì)帶來(lái)可觀(guān)的利潤(rùn)增長(zhǎng)[3].及時(shí)并準(zhǔn)確識(shí)別潛在的流失客戶(hù)漸漸成為了各大行業(yè)巨頭企業(yè)家們研究的重點(diǎn).

        客戶(hù)流失預(yù)測(cè)技術(shù)是從管理學(xué)中的CRM(Customer Relationship Management)發(fā)展而來(lái),是CRM中十分重要的組成部分,其流程包含了業(yè)務(wù)分析,數(shù)據(jù)分析,數(shù)據(jù)預(yù)處理,模型的構(gòu)建、評(píng)估和部署.

        目前,在客戶(hù)流失預(yù)測(cè)技術(shù)上的研究獲得了很多成果.Kaizhu等人[4]于2014年提出了可理解的支持向量機(jī),該模型不僅在精度方面表現(xiàn)優(yōu)異,而且通過(guò)構(gòu)建樸素貝葉斯樹(shù),可以精準(zhǔn)的分析客戶(hù)流失的原因.同年,Verbeke等人[5]通過(guò)分析社交網(wǎng)絡(luò)來(lái)劃分客戶(hù)群體,針對(duì)不同的客戶(hù)群體使用不同的分類(lèi)模型,既提高了預(yù)測(cè)表現(xiàn),又分析了不同社交群體的流失原因.文獻(xiàn)[6]使用遺傳算法來(lái)進(jìn)行模型的構(gòu)建并加入了Benefit maximization準(zhǔn)則,在提高模型預(yù)測(cè)表現(xiàn)的基礎(chǔ)上,還能為企業(yè)選擇利益最大化的方案.文獻(xiàn)[7]使用了Logistic回歸與決策樹(shù)的混合算法來(lái)構(gòu)建預(yù)測(cè)模型,該算法在預(yù)測(cè)表現(xiàn)與可解釋性上都較好.文獻(xiàn)[8]提出了兩種基于改進(jìn)的多層感知機(jī)的客戶(hù)流失預(yù)測(cè)模型,解決了獨(dú)熱編碼后數(shù)據(jù)維度過(guò)高及數(shù)據(jù)稀疏帶來(lái)的計(jì)算消耗等問(wèn)題.

        近些年,機(jī)器學(xué)習(xí)是人工智能及模式識(shí)別領(lǐng)域的共同研究熱點(diǎn),由于硬件條件的提升和大數(shù)據(jù)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)在圖形識(shí)別,語(yǔ)音識(shí)別和分類(lèi)預(yù)測(cè)等方面取得了巨大的進(jìn)步,并且準(zhǔn)確率遠(yuǎn)高于大部分傳統(tǒng)模型.在客戶(hù)流失預(yù)測(cè)領(lǐng)域,機(jī)器學(xué)習(xí)的算法如強(qiáng)化學(xué)習(xí)算法的應(yīng)用大幅提高了模型的準(zhǔn)確率,但是單個(gè)算法在預(yù)測(cè)準(zhǔn)確率上的提升還很有限.

        為了提升電信客戶(hù)流失預(yù)測(cè)的精確性,本文提出利用GBDT(Gradient Boosting Decision Tree),LightGBM(Light Gradient Boosting Machine),XGBoost(eXtreme Gradient Boosting),CatBoost(Categorical Boosting),AdaBoost(Adaptive Boosting)五種基于樹(shù)的算法構(gòu)建雙層融合模型運(yùn)用在客戶(hù)流失預(yù)測(cè)上.

        2 預(yù)備工作

        2.1 數(shù)據(jù)來(lái)源

        本文實(shí)驗(yàn)采用的數(shù)據(jù)集來(lái)自于Kaggle數(shù)據(jù)科學(xué)競(jìng)賽中公開(kāi)的數(shù)據(jù)集.該數(shù)據(jù)集包含了100000個(gè)電信企業(yè)客戶(hù)數(shù)據(jù)樣本,其中流失客戶(hù)標(biāo)簽數(shù)量為49562個(gè),非流失客戶(hù)標(biāo)簽數(shù)量為50436個(gè);特征數(shù)目為100,包含有79個(gè)數(shù)值型特征和21個(gè)離散型特征.由于該數(shù)據(jù)集樣本數(shù)量較多,且流失客戶(hù)數(shù)量與非流失客戶(hù)數(shù)量基本保持一致,可以判定屬于平衡型大樣本數(shù)據(jù)集.

        2.2 特征編碼

        在機(jī)器學(xué)習(xí)領(lǐng)域中的數(shù)據(jù)樣本有兩種特征類(lèi)別:連續(xù)型特征和離散型特征.然而,在客戶(hù)流失預(yù)測(cè)中,數(shù)據(jù)集中客戶(hù)數(shù)據(jù)的離散特征基本沒(méi)有連續(xù)性,這無(wú)法適應(yīng)大部分機(jī)器學(xué)習(xí)算法.為了解決上述問(wèn)題,通常情況下都會(huì)使用獨(dú)熱編碼來(lái)處理這些離散特征,比如特征{網(wǎng)絡(luò)模式:{GSM,CDMA,WCDMA}}經(jīng)過(guò)獨(dú)熱編碼后變?yōu)閧網(wǎng)絡(luò)模式:{GSM{100},CDMA{010},WCDMA{001}}},顯然,經(jīng)過(guò)獨(dú)熱編碼后會(huì)產(chǎn)生稀疏數(shù)據(jù),如果樣本量很大,那么獨(dú)熱編碼產(chǎn)生的大量稀疏數(shù)據(jù)會(huì)影響模型預(yù)測(cè)的準(zhǔn)確率.而且,如果數(shù)據(jù)集中離散特征數(shù)量過(guò)多,獨(dú)熱編碼很容易造成維度災(zāi)難,直接導(dǎo)致了模型的時(shí)間消耗成本.獨(dú)熱編碼的另外一個(gè)弊端就是轉(zhuǎn)換離散特征中不同的值時(shí)是完全獨(dú)立的,斷裂了不同值之間的內(nèi)在關(guān)系[9].

        為了避免獨(dú)熱編碼帶來(lái)的弊端,本文決定選用標(biāo)簽編碼來(lái)對(duì)數(shù)據(jù)集進(jìn)行特征編碼.標(biāo)簽編碼處理離散數(shù)據(jù)時(shí)會(huì)將特征如{網(wǎng)絡(luò)模式:{GSM,CDMA,WCDMA}}轉(zhuǎn)換為{網(wǎng)絡(luò)模式:{GSM{1},CDMA{2},WCDMA{3}}}.但是標(biāo)簽編碼也會(huì)帶來(lái)新的問(wèn)題,如一些基于距離的模型,在計(jì)算時(shí)會(huì)出現(xiàn)“GSM”加上“WCDMA”的平均值是“CDMA”這樣的情況,這顯然是不正確的.

        2.3 算法選擇

        由于特征編碼方式選擇了標(biāo)簽編碼方式,且客戶(hù)流失預(yù)測(cè)幾乎都是二分類(lèi)問(wèn)題,所以本文選擇基于樹(shù)的機(jī)器學(xué)習(xí)算法來(lái)搭建模型.基于樹(shù)的算法在處理變量時(shí),并不是基于向量空間度量,數(shù)值只是一種類(lèi)別符號(hào),即沒(méi)有偏序關(guān)系,很好地解決了上文中提到的標(biāo)簽編碼帶來(lái)的問(wèn)題,所以非常適合標(biāo)簽編碼后的數(shù)據(jù)處理.而如果用獨(dú)熱編碼處理數(shù)據(jù)本質(zhì)上只是增加樹(shù)的深度.

        本文實(shí)驗(yàn)選取了在Kaggle二分類(lèi)預(yù)測(cè)競(jìng)賽中運(yùn)用較多、效果較好的幾種基于樹(shù)的算法,在沒(méi)有對(duì)算法進(jìn)行調(diào)參的情況下,直接在完整的數(shù)據(jù)集上進(jìn)行訓(xùn)練預(yù)測(cè),最終將會(huì)選擇準(zhǔn)確率較高的算法進(jìn)行模型的搭建.選擇的算法在實(shí)驗(yàn)采用的數(shù)據(jù)集上準(zhǔn)確率對(duì)比如表1所示.

        表1 準(zhǔn)確率對(duì)比表

        2.4 算法介紹

        經(jīng)過(guò)對(duì)比實(shí)驗(yàn),本文最終選擇GBDT,LightGBM,XGBoost,CatBoost和AdaBoost這五種算法搭建模型.

        AdaBoost的核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器,即弱分類(lèi)器,然后把這些弱分類(lèi)器集合起來(lái),構(gòu)造一個(gè)更強(qiáng)的最終分類(lèi)器.一般來(lái)說(shuō),使用最廣泛的AdaBoost弱學(xué)習(xí)器是決策樹(shù)[10].AdaBoost的主要優(yōu)點(diǎn)有:作為簡(jiǎn)單的二元分類(lèi)器時(shí),構(gòu)造簡(jiǎn)單,結(jié)果可理解,不容易發(fā)生過(guò)擬合[11].

        GBDT算法利用到了梯度下降法的思想,且無(wú)論用于分類(lèi)還是回歸,基函數(shù)一直都使用的是CART回歸樹(shù)[12].GBDT二分類(lèi)算法的關(guān)鍵是利用當(dāng)前模型的損失函數(shù)負(fù)梯度的值作為分類(lèi)問(wèn)題算法中的殘差的近似值,擬合一個(gè)分類(lèi)模型.GBDT的優(yōu)點(diǎn)是在相對(duì)較少的調(diào)參步驟下,預(yù)測(cè)的準(zhǔn)確率也可以比較高.而且GBDT使用了一些健壯的損失函數(shù),對(duì)異常值的魯棒性非常強(qiáng).

        XGBoost是陳天奇博士在2014年提出的一個(gè)優(yōu)化的分布式梯度增強(qiáng)庫(kù)[13],它在Gradient Boosting框架下實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法.XGBoost本質(zhì)上是多個(gè)CART回歸樹(shù)的集成,和GBDT有些類(lèi)似,但是與之相比有很多創(chuàng)新和提高.比如提出了一種新穎的用于處理稀疏數(shù)據(jù)的基于樹(shù)的學(xué)習(xí)算法,是第一種處理各種稀疏模式的統(tǒng)一方法;在代價(jià)函數(shù)中加入了正則化項(xiàng),用于控制模型的復(fù)雜度,防止過(guò)擬合,等.XGBoost已經(jīng)在大量的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘競(jìng)賽中被廣泛地認(rèn)可[14].

        2017年1月微軟在業(yè)內(nèi)知名的開(kāi)源軟件項(xiàng)目托管平臺(tái)GitHub上開(kāi)源了LightGBM,它是一種高性能的基于決策樹(shù)算法的梯度提升框架.相比XGBoost,同樣的實(shí)驗(yàn)條件,LightGBM在不降低準(zhǔn)確率的前提下,預(yù)測(cè)所消耗的時(shí)間減少了十倍左右,占用系統(tǒng)內(nèi)存卻下降了三倍左右[15].它采用最優(yōu)Leaf-wise算法分裂葉子節(jié)點(diǎn),而不是Level-wise算法.當(dāng)擁有相同數(shù)量的葉子節(jié)點(diǎn)時(shí),Leaf-wise算法比Level-wise算法損失得更少,因此LightGBM擁有更高的精準(zhǔn)率.而其他的任何已存在的梯度提升算法都不能夠達(dá)到這樣的精準(zhǔn)率.而且LightGBM用到的直方圖做差帶來(lái)了一定的正則化的效果[16],能夠使擬合出來(lái)的模型避免過(guò)擬合且具有更好的推廣性.

        在微軟開(kāi)源LightGBM三個(gè)月后,俄羅斯頂尖技術(shù)公司Yandex也在GitHub上開(kāi)源了CatBoost算法.CatBoost的核心是對(duì)稱(chēng)完全二叉樹(shù)思想,即每一次只劃分出兩條路徑,劃分路徑的順序是隨機(jī)的.特征維數(shù)在劃分后不會(huì)減小,不過(guò)用來(lái)劃分的特征會(huì)與一個(gè)其他類(lèi)別特征通過(guò)貪婪算法[17]的方式相結(jié)合形成新特征.然后,在樣本的逐個(gè)添加的過(guò)程中,算法可以自動(dòng)檢測(cè)并剔除干擾樣本,隨著樣本數(shù)量的累積,預(yù)測(cè)結(jié)果會(huì)變得更為準(zhǔn)確.根據(jù)官方網(wǎng)站(1)https://catboost.ai/數(shù)據(jù)顯示,同樣的實(shí)驗(yàn)條件下,CatBoost性能要優(yōu)于XGBoost和LightGBM,文獻(xiàn)[18,19]中也證明了相比較于經(jīng)典算法CatBoost的表現(xiàn)十分優(yōu)異.而文獻(xiàn)[20]將CatBoost、XGBoost和LightGBM融合構(gòu)建出來(lái)的模型運(yùn)用在地質(zhì)探測(cè)研究上性能也很優(yōu)異.

        3 模型搭建

        本文提出的分類(lèi)預(yù)測(cè)模型由雙層結(jié)構(gòu)組成,分為Stacking層和Voting層,每層單獨(dú)搭建好后再進(jìn)行融合,構(gòu)成最終的客戶(hù)流失預(yù)測(cè)模型.

        3.1 Stacking層

        Stacking是一種運(yùn)用堆疊思想的集成學(xué)習(xí)算法,目前在分類(lèi)問(wèn)題上運(yùn)用的也比較廣泛[21].其核心思想是通過(guò)組合多個(gè)基礎(chǔ)分類(lèi)器構(gòu)建初級(jí)分類(lèi)模型,再基于訓(xùn)練集訓(xùn)練初級(jí)分類(lèi)模型;然后,初級(jí)分類(lèi)模型輸出的訓(xùn)練集預(yù)測(cè)結(jié)果和測(cè)試集預(yù)測(cè)結(jié)果用來(lái)訓(xùn)練次級(jí)分類(lèi)模型.圖1所示是Stacking初級(jí)分類(lèi)模型中單個(gè)基礎(chǔ)分類(lèi)器3折驗(yàn)證模型工作的過(guò)程示意圖.

        圖1 單個(gè)基礎(chǔ)分類(lèi)器3折驗(yàn)證模型工作過(guò)程示意圖

        首先將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集(假設(shè)訓(xùn)練集為999條數(shù)據(jù),測(cè)試集為210條數(shù)據(jù)),然后一級(jí)分類(lèi)模型中的單個(gè)基礎(chǔ)分類(lèi)器1進(jìn)行3折交叉驗(yàn)證,使用訓(xùn)練集中的666條作為喂養(yǎng)集,剩余333條作為驗(yàn)證集.每次驗(yàn)證使用666條數(shù)據(jù)訓(xùn)練出一個(gè)模型,再用訓(xùn)練出的模型對(duì)驗(yàn)證集進(jìn)行驗(yàn)證得到333條數(shù)據(jù),同時(shí)對(duì)測(cè)試集進(jìn)行預(yù)測(cè),得到210條數(shù)據(jù).這樣經(jīng)過(guò)3次交叉檢驗(yàn),可以得到新特征也就是3×333條預(yù)測(cè)結(jié)果和3×210條測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果.

        接下來(lái)會(huì)將3×333條預(yù)測(cè)結(jié)果拼接成999行1列的矩陣,標(biāo)記為訓(xùn)練數(shù)據(jù)集A1.而對(duì)于3×210行的測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均,得到一個(gè)210行1列的矩陣,測(cè)試數(shù)據(jù)集B1.這是單個(gè)基礎(chǔ)分類(lèi)器在數(shù)據(jù)集上的預(yù)測(cè)結(jié)果,如果再集成兩個(gè)基礎(chǔ)分類(lèi)器,比如基礎(chǔ)分類(lèi)器2、基礎(chǔ)分類(lèi)器3,那么最后會(huì)得到A1、A2、A3、B1、B2、B3一共六個(gè)矩陣.

        最后將A1、A2、A3并列在一起成999行3列的矩陣作為訓(xùn)練數(shù)據(jù)集,B1、B2、B3合并在一起成210行3列的矩陣作為測(cè)試數(shù)據(jù)集,讓次級(jí)分類(lèi)模型基于這樣的數(shù)據(jù)集再訓(xùn)練.

        為了避免基礎(chǔ)分類(lèi)器之間相關(guān)性過(guò)高,實(shí)驗(yàn)初期搭建了基礎(chǔ)分類(lèi)器分別是XGBoost,LightGBM,CatBoost的初級(jí)分類(lèi)模型和基礎(chǔ)分類(lèi)器為AdaBoost,GBDT的次級(jí)分類(lèi)模型來(lái)組成Stacking層.Stacking層的實(shí)驗(yàn)結(jié)果在訓(xùn)練集和測(cè)試集上的準(zhǔn)確率分別為99.35%和62.96%,ROC(Receiver Operating Characteristic)曲線(xiàn)[22]如圖2所示.

        圖2 Stacking層訓(xùn)練集和測(cè)試集ROC曲線(xiàn)

        根據(jù)圖2可以看出,Stacking層搭建好后在訓(xùn)練集上準(zhǔn)確率比較高,在測(cè)試集上的準(zhǔn)確率相比文章選取的5種算法也有提升,但是準(zhǔn)確率提升不到1%,不夠理想.

        3.2 Voting層

        由于Stacking層的效果不夠理想,所以本文又在實(shí)驗(yàn)中加入加權(quán)投票算法[23]的思想,融合了雙層結(jié)構(gòu)組成了最終的客戶(hù)流失預(yù)測(cè)模型,加權(quán)投票算法示意如圖3.加權(quán)投票算法的思想是每個(gè)基礎(chǔ)分類(lèi)器都對(duì)樣本做出自己的判斷,并對(duì)它判斷的類(lèi)進(jìn)行投票.如圖3所示,假設(shè)基礎(chǔ)分類(lèi)器有5個(gè),那么他們對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練并預(yù)測(cè)的結(jié)果最后會(huì)進(jìn)行加權(quán)平均.而且基礎(chǔ)分類(lèi)器在投票時(shí)的權(quán)重可以隨分類(lèi)器的準(zhǔn)確率而設(shè)定,準(zhǔn)確率較高的基礎(chǔ)分類(lèi)器可以具有較大的權(quán)重值.最終根據(jù)計(jì)算后概率最高的類(lèi)確定樣本的判定結(jié)果.因此,與單獨(dú)的基礎(chǔ)分類(lèi)器相比,加權(quán)投票算法的使用可以提高最終結(jié)果的準(zhǔn)確率.

        圖3 加權(quán)投票算法流程示意圖

        Voting層搭建好后,對(duì)比實(shí)驗(yàn)了文章選取的5個(gè)基礎(chǔ)分類(lèi)器不同權(quán)重下的準(zhǔn)確率,最終確定基礎(chǔ)分類(lèi)器權(quán)重設(shè)置為{{AdaBoost:1},{GBDT:1},{XGBoost:1},{LightGBM:2},{CatBoost:2}},在訓(xùn)練集和驗(yàn)證集準(zhǔn)確率分別為91.12%和63.67%,ROC曲線(xiàn)如圖4所示.

        圖4 Voting層訓(xùn)練集和測(cè)試集ROC曲線(xiàn)

        根據(jù)圖4可以看出,相較于Stacking層,Voting層雖然在訓(xùn)練集上的準(zhǔn)確率下降了,但在測(cè)試集上的準(zhǔn)確率卻有提升.

        3.3 雙層模型融合

        在進(jìn)行模型融合實(shí)驗(yàn)時(shí),發(fā)現(xiàn)如果按照第一層使用Voting層,第二層使用Stacking層的結(jié)構(gòu)搭建模型,那么預(yù)測(cè)結(jié)果和單獨(dú)使用Stacking層的預(yù)測(cè)結(jié)果幾乎一致.而如果是第一層使用Stacking層,第二層使用Voting層的結(jié)構(gòu)搭建模型,那么準(zhǔn)確率有明顯提升.且實(shí)驗(yàn)中將Stacking層訓(xùn)練好后作為一個(gè)基礎(chǔ)分類(lèi)器賦予高權(quán)重加入到Voting層會(huì)使模型的準(zhǔn)確率再次到提升.雙層模型融合好之后搭建的完整客戶(hù)流失預(yù)測(cè)模型的流程圖如圖5所示.

        圖5 客戶(hù)流失預(yù)測(cè)模型流程圖

        原始數(shù)據(jù)集被讀取后進(jìn)行標(biāo)簽編碼,隨后按照7∶3的比例劃分訓(xùn)練集和測(cè)試集.將劃分好的數(shù)據(jù)集輸送到Stacking層進(jìn)行訓(xùn)練預(yù)測(cè),經(jīng)過(guò)5折交叉驗(yàn)證將結(jié)果與劃分后的數(shù)據(jù)集合并再送入Voting層進(jìn)行訓(xùn)練預(yù)測(cè),同時(shí)將Stacking層賦予高權(quán)重作為一個(gè)基礎(chǔ)分類(lèi)器加入到Voting層參與預(yù)測(cè).

        3.4 算法時(shí)間復(fù)雜度分析

        文章采用了多個(gè)分類(lèi)器的融合模型,融合之后算法時(shí)間復(fù)雜度應(yīng)有較大的提升.假設(shè)樣本數(shù)量是N,特征數(shù)量是D,樹(shù)的深度是M,弱分類(lèi)器數(shù)量是T,直方圖寬度是K,隨機(jī)排序次數(shù)是S,那么各算法時(shí)間復(fù)雜度如表2所示.

        表2 算法時(shí)間復(fù)雜度

        根據(jù)表2可以估算出在相同條件下,時(shí)間復(fù)雜度優(yōu)越性理論上從高到低分別為CatBoost、LightGBM、XGBoost、GBDT、Adaboost.根據(jù)雙層模型的結(jié)構(gòu)特性,融合之后整個(gè)模型的間復(fù)雜度為應(yīng)為2*(O(M*S*N)+2*(O(T*M*N))).但實(shí)際各部分的時(shí)間消耗如表3所示.

        根據(jù)表3可以看出LightGBM比XGBoost花費(fèi)的時(shí)間還要多,且融合之后的雙層模型比單層相加的時(shí)間要少,不符合上文分析的結(jié)果.

        表3 實(shí)驗(yàn)中的消耗時(shí)間

        觀(guān)察分析后發(fā)現(xiàn),為了獲得高準(zhǔn)確率,調(diào)參之后模型消耗時(shí)間相比不調(diào)參有較大改變,且每次運(yùn)行程序時(shí)也會(huì)有略微不同.再由于進(jìn)入Stacking層和Voting層之前各分類(lèi)器就已經(jīng)訓(xùn)練好,相比單層分別訓(xùn)練再進(jìn)入要節(jié)省不少時(shí)間,故會(huì)出現(xiàn)表3中的結(jié)果.而本文是針對(duì)客戶(hù)流失預(yù)測(cè)精準(zhǔn)性的提升,融合之后的模型相比單個(gè)分類(lèi)模型的時(shí)間消耗提升在本文實(shí)驗(yàn)條件下處于接受范圍之內(nèi).

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)在Windows10操作系統(tǒng)環(huán)境下,工程軟件為Pycharm.使用深度學(xué)習(xí)框架TensorFlow構(gòu)建雙層模型,并利用機(jī)器學(xué)習(xí)庫(kù)Sklearn構(gòu)建對(duì)比實(shí)驗(yàn).硬件條件為4核4線(xiàn)程2.5GHzCPU(酷睿i5 7300),6Gb顯存的顯卡(GeForce 1050TI),電腦內(nèi)存是雙通道16G內(nèi)存.

        4.2 評(píng)判指標(biāo)及模型參數(shù)

        目前,分類(lèi)預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)一般使用準(zhǔn)確率(accuracy),精準(zhǔn)率(precision),召回率(recall)和F1值(F1)這三個(gè)指標(biāo).不過(guò),如果流失預(yù)測(cè)模型預(yù)測(cè)判定某一客戶(hù)會(huì)流失,但實(shí)際上沒(méi)有,這種錯(cuò)誤在客戶(hù)流失預(yù)測(cè)中是完全可以接受的.但如果流失預(yù)測(cè)模型預(yù)測(cè)判定某一客戶(hù)不會(huì)流失,而實(shí)際上該客戶(hù)卻屬于流失客戶(hù),那這種錯(cuò)誤是不可接受的.因此,對(duì)于均衡型數(shù)據(jù)集,以上三個(gè)指標(biāo)中最重要的是精準(zhǔn)率和召回率.公式如下:

        其中,TP為正確劃分為流失客戶(hù)的樣本數(shù);TN為正確劃分為非流失客戶(hù)的樣本數(shù);FP為錯(cuò)誤劃分為流失客戶(hù)的樣本數(shù);FN為錯(cuò)誤劃分為非流失客戶(hù)的樣本數(shù).

        實(shí)驗(yàn)中各模型參數(shù)的調(diào)參過(guò)程使用了Sklearn庫(kù)中的GridSearch函數(shù),GridSearch函數(shù)本質(zhì)上是窮舉搜索,循環(huán)遍歷候選的參數(shù),嘗試每一種可能,輸出表現(xiàn)最好的參數(shù)組合.尋找最適合的參數(shù)能提高算法的準(zhǔn)確率,實(shí)驗(yàn)所采用的各算法參數(shù)如表4,未設(shè)置的參數(shù)都采用默認(rèn)參數(shù).

        由表4可以看出,learning_rate與n_estimators參數(shù)是大部分模型都調(diào)整的參數(shù).

        learning_rate就是學(xué)習(xí)率,用來(lái)控制模型學(xué)習(xí)的進(jìn)度,在監(jiān)督學(xué)習(xí)中最常見(jiàn).學(xué)習(xí)率在機(jī)器學(xué)習(xí)中的作用可以表示為wi=wi-λ?F(wi)/?wi,其中wi是模型參數(shù),F(xiàn)是成本函數(shù),λ是學(xué)習(xí)率,?F(wi)/?wi是一階導(dǎo)數(shù).學(xué)習(xí)率越大模型學(xué)習(xí)速度越快,但會(huì)因容振蕩而錯(cuò)失最優(yōu)值;學(xué)習(xí)率越小模型學(xué)習(xí)速度越慢,會(huì)產(chǎn)生過(guò)擬合,收斂速度會(huì)很慢.所以學(xué)習(xí)率對(duì)于算法性能的表現(xiàn)至關(guān)重要.

        n_estimators參數(shù)在不同的模型中有不同的含義,在LightGBM、XGBoost、GBDT中它代表樹(shù)的棵數(shù),而在A(yíng)daBoost和Bagging中它代表最大弱分類(lèi)器個(gè)數(shù).理論上n_estimators數(shù)值越大,模型性能越好,預(yù)測(cè)也越穩(wěn)定,但這也會(huì)減慢計(jì)算速度.

        GBDT算法中調(diào)整了樹(shù)的最大深度(max_depth)、子節(jié)點(diǎn)最少樣本數(shù)(min_samples_leaf)、子樹(shù)劃分條件(min_samples_split)、子采樣比例(subsample)四個(gè)參數(shù).其中子采樣比例可以用來(lái)防止過(guò)擬合,由于GBDT模型可以表示為決策樹(shù)的加法模型,即fm(x)=fm-1(x)+T(x;Θm),T(x;Θm)為決策樹(shù),Θm為決策樹(shù)參數(shù),m為當(dāng)前步數(shù).所以樹(shù)的深度、子節(jié)點(diǎn)最少樣本數(shù)、子樹(shù)劃分條件作為Θm的重要成員成為GBDT較為重要的參數(shù).

        LightGBM和Logistic Regression的參數(shù)設(shè)定涉及到了lambda_l1和lambda_l2參數(shù),即L1正則化和L2正則化.正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一種策略.在優(yōu)化模型時(shí)對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度做一個(gè)權(quán)衡,同而時(shí)符合偏差和方差分析,通過(guò)降低模型復(fù)雜度,得到更好的泛化能力,降低模型對(duì)訓(xùn)練數(shù)據(jù)的擬合程度.L1正則化是在損失函數(shù)加上L1范數(shù),容易得到稀疏解而L2正則化是在損失函數(shù)后加上L2范數(shù),使得得出的解比較平滑.兩種參數(shù)的設(shè)定也要根據(jù)實(shí)際情況而定,比如在本次實(shí)驗(yàn)中XGBoost算法經(jīng)過(guò)窮舉調(diào)參得出最優(yōu)解中并沒(méi)有設(shè)定正則化參數(shù).

        KNN是基于距離度量找出訓(xùn)練集中與其最靠近的K個(gè)訓(xùn)練樣本,然后基于這K個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè).所以在進(jìn)行調(diào)參時(shí),對(duì)KNN影響較大的K值以及距離算法由n_neighbors和p兩個(gè)參數(shù)表示,P=2代表模型采用歐式距離.

        4.3 結(jié)果分析

        本文選擇Bagging,KNN,Logistic Regression三種經(jīng)典的客戶(hù)流失預(yù)測(cè)模型和MLP神經(jīng)網(wǎng)絡(luò)模塊作為實(shí)驗(yàn)的對(duì)比對(duì)象,由于數(shù)據(jù)集相同,與文獻(xiàn)[8]中提出的融合自編碼器的MLP、融合實(shí)體嵌入的MLP兩種模型進(jìn)行數(shù)據(jù)對(duì)比.對(duì)比實(shí)驗(yàn)的ROC曲線(xiàn)與P-R(Precision Recall)曲線(xiàn)[24]如圖6所示,在測(cè)試集上的實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表5所示.

        圖6 對(duì)比實(shí)驗(yàn)ROC曲線(xiàn)和P-R曲線(xiàn)

        相對(duì)于未改進(jìn)的MLP解決了獨(dú)熱編碼問(wèn)題,文獻(xiàn)[8]中改進(jìn)后的兩種算法將高維的數(shù)據(jù)映射到低維的空間,降低了網(wǎng)絡(luò)收斂于局部最優(yōu)解的可能性,增加了數(shù)據(jù)間的關(guān)聯(lián)性,改善了離散屬性的度量方式,所以獲得了較高的準(zhǔn)確度.

        KNN劃分客戶(hù)群體實(shí)質(zhì)上是通過(guò)計(jì)算歐氏距離來(lái)預(yù)測(cè)中心點(diǎn)周?chē)牟糠謽颖?,選擇多數(shù)類(lèi)別作為預(yù)測(cè)值輸出.但這樣就忽略了每個(gè)屬性的數(shù)據(jù)分布范圍,默認(rèn)各屬性屬于同一數(shù)據(jù)范圍,所以在屬性值較多的情況下模型精度不高.

        Logistic Regression由于通過(guò)最大判別函數(shù)學(xué)習(xí),對(duì)特征輸出線(xiàn)性表達(dá),且在訓(xùn)練時(shí),不管特征之間有沒(méi)有相關(guān)性,它都能找到最優(yōu)的參數(shù),所以在本次實(shí)驗(yàn)數(shù)據(jù)集上表現(xiàn)良好.雖然Logistic Regression輸出結(jié)果可解釋性較好,但對(duì)模型中自變量多重共線(xiàn)性較為敏感.且容易欠擬合,不能很好地處理大量多類(lèi)特征或變量.

        Bagging采用了均勻取樣,且訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而又因?yàn)榛P瓦x擇的是ExtraTrees,又為整體多加了一層隨機(jī)性,在對(duì)連續(xù)變量特征選取最優(yōu)分裂值時(shí),不會(huì)計(jì)算所有分裂值的效果來(lái)選擇分裂特征,而是對(duì)每一個(gè)特征在它的特征取值范圍內(nèi)隨機(jī)生成一個(gè)分割值,再通過(guò)選取一個(gè)特征來(lái)進(jìn)行分裂.所以對(duì)于平衡型數(shù)據(jù)集該模型表現(xiàn)良好.

        本文模型在實(shí)驗(yàn)采用的公開(kāi)數(shù)據(jù)集上有很好的表現(xiàn).融合了基于樹(shù)型模型的5種強(qiáng)模型,同時(shí)避免了維度災(zāi)難和數(shù)據(jù)稀疏問(wèn)題,保證了特征之間的關(guān)聯(lián)性,在可接受范圍內(nèi)的時(shí)間復(fù)雜度的提升下帶來(lái)了準(zhǔn)確率和精準(zhǔn)率的巨大提升,與選取的其他客戶(hù)流失預(yù)測(cè)模型相比準(zhǔn)確率平均高出8.81%,并且與基于MLP改進(jìn)后的兩種模型相比都高出1.7%以上.而在精準(zhǔn)率和召回率方面,本文模型雖然召回率表現(xiàn)一般,但是精準(zhǔn)率提高了23%左右.綜合對(duì)比下,本文提出的模型性能要優(yōu)于對(duì)比實(shí)驗(yàn)中的各類(lèi)模型.能夠在二分類(lèi)預(yù)測(cè)比如信用評(píng)估、災(zāi)難預(yù)測(cè)等運(yùn)用中有不錯(cuò)發(fā)揮.

        5 結(jié)束語(yǔ)

        由于采用了準(zhǔn)確率較高的基于樹(shù)的機(jī)器學(xué)習(xí)算法,同時(shí)融合了Stacking和Voting的方法搭建了雙層預(yù)測(cè)模型來(lái)提高精度,加上針對(duì)性的數(shù)據(jù)處理方式,本文提出的模型在選取的電信客戶(hù)數(shù)據(jù)集上進(jìn)行客戶(hù)流失預(yù)測(cè)的表現(xiàn)十分良好,在召回率差距不大的情況下,準(zhǔn)確率和精準(zhǔn)率比文中提到的經(jīng)典的客戶(hù)流失預(yù)測(cè)模型和改進(jìn)的客戶(hù)流失預(yù)測(cè)模型都要高.不過(guò),本文的研究仍舊存在些許不足,將來(lái)的研究工作將努力解決以下問(wèn)題:

        第一,本文提出的模型在大樣本的平衡型數(shù)據(jù)集上有著良好的表現(xiàn),但是對(duì)于非平衡型數(shù)據(jù)集和小樣本的數(shù)據(jù)集是否還能延續(xù)良好的性能還需要繼續(xù)研究;第二,在機(jī)器學(xué)習(xí)算法的調(diào)參過(guò)程中,由于使用了GridSearch函數(shù),調(diào)參的時(shí)間成本非常巨大,很多參數(shù)設(shè)定的跨度區(qū)間較大,最終選用的是默認(rèn)參數(shù),如何能在調(diào)參過(guò)程更加精細(xì)的前提下減短調(diào)參的耗時(shí)是十分重要的;第三,對(duì)于本文模型的召回率的提高是否能通過(guò)模型內(nèi)的不同層或不同級(jí)之間的算法調(diào)整來(lái)解決也是一個(gè)值得研究的問(wèn)題.

        猜你喜歡
        分類(lèi)器準(zhǔn)確率客戶(hù)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
        為什么你總是被客戶(hù)拒絕?
        如何有效跟進(jìn)客戶(hù)?
        加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
        結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
        做個(gè)不打擾客戶(hù)的保鏢
        山東青年(2016年2期)2016-02-28 14:25:41
        国产日韩欧美网站| 亚洲精品久久久久一区二区| 欧美牲交videossexeso欧美| 欧产日产国产精品精品| 国产亚洲AV无码一区二区二三区 | 精品久久人人爽天天玩人人妻 | 国产精品亚洲二区在线观看| 精品亚洲欧美高清不卡高清| 色妞一区二区三区免费视频| 亚洲中文字幕舔尻av网站| 人妻聚色窝窝人体www一区| 国模私拍福利一区二区| 青青草久热手机在线视频观看 | 丰满又紧又爽又丰满视频| 丰满少妇人妻无码专区| 中国亚洲女人69内射少妇| 女人被躁到高潮嗷嗷叫免费软| 亚洲不卡av一区二区三区四区 | 日韩av一区二区三区四区av| 99久久精品人妻一区二区三区| 免费又黄又爽又色的视频| 88国产精品视频一区二区三区| 国产精品亚洲ΑV天堂无码| 熟女人妻一区二区三区| 天堂网www资源在线| 久久成人成狠狠爱综合网| 无码av免费一区二区三区| 日韩无码电影| 91精品国产自拍视频| √天堂中文官网在线| 久久国产36精品色熟妇| 天堂女人av一区二区| 免费在线观看播放黄片视频| 久久久久久国产精品免费免费男同| 亚洲AV毛片无码成人区httP| 精品色老头老太国产精品| 色又黄又爽18禁免费网站现观看 | 在线va免费看成| 亚洲一级无码AV毛片久久| 亚洲国产中文字幕无线乱码 | 在线观看av永久免费|