亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹CART算法的Clementine與Python實現(xiàn)比較

        2018-03-25 07:36:02杜嬋
        大經(jīng)貿(mào) 2018年1期

        杜嬋

        【摘 要】 近年來,信息社會中豐富的數(shù)據(jù)對數(shù)據(jù)分析工具需求加大,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,決策樹方法以其速度快、精度高、生成的模式簡單等優(yōu)點受到許多研究者關(guān)注,已成功應(yīng)用于醫(yī)療診斷、金融分析、身份識別等許多應(yīng)用領(lǐng)域,一般情況下決策樹分類器具有良好的準確率。本問旨在使用銀行營銷數(shù)據(jù)通過Clementine與python兩種方法構(gòu)造決策樹CART算法下的模型,分別得出影響客戶辦理銀行定期存款業(yè)務(wù)的各因素的重要程度,以及通過模型對輸出變量y預(yù)測的精度,從而進行兩個結(jié)果的對比分析,找出兩種方法存在的差異。

        【關(guān)鍵詞】 決策樹CART算法 Clementine、Python 預(yù)測精度

        一、數(shù)據(jù)介紹

        本次報告中使用的Bank Marking(銀行營銷)數(shù)據(jù)是通過UCI數(shù)據(jù)庫下載獲得,該數(shù)據(jù)共涉及45211條客戶信息,包含17個變量,其中輸出變量為是否辦理了定期存款業(yè)務(wù),是本次研究的目標。

        二、方法執(zhí)行過程與結(jié)果

        1.spss下Clementine的實現(xiàn)

        (1)數(shù)據(jù)準備:將賦值好的SPSS數(shù)據(jù)導入Clementine;而后設(shè)置數(shù)據(jù)類型:將前16個自變量設(shè)為輸入變量,而將客戶是否辦理定期存款業(yè)務(wù)“y”設(shè)置為輸出變量;接著進行數(shù)據(jù)分區(qū),需要將數(shù)據(jù)集分為訓練集與測試集,數(shù)據(jù)比例設(shè)置為8:2,通過80%的數(shù)據(jù)進行訓練來構(gòu)造模型,剩余20%的數(shù)據(jù)將作用于該模型來進行預(yù)測。

        (2)建模:做好數(shù)據(jù)準備后執(zhí)行決策樹的CART算法,為了防止過度擬合進行先剪枝,將最大樹狀圖深度設(shè)置為5,并選用Gini系數(shù)作為分解屬性的標準,而后開始訓練模型。由模型輸出的變量重要性排序可得,對輸出變量影響較大的前四位依次為:與客戶最后一次聯(lián)系的時長、以前的營銷活動的結(jié)果、與客戶最后一次聯(lián)系的月份,以及通訊方式關(guān)系較大,可以重點關(guān)注這四方面。

        (3)評估與分析結(jié)果:①訓練與測試的預(yù)測精度:訓練集數(shù)據(jù)的預(yù)測正確率為89.81%,通過用訓練樣本所構(gòu)造的模型來驗證測試樣本,預(yù)測結(jié)果正確的有8115個,占總測試樣本9028中的89.89%,預(yù)測精確度較高,效果較好。②累計收益圖:該算法所得的累計收益曲線距離理想曲線非常近,表明預(yù)測效果良好。③重合矩陣:在測試集中,實際辦理而模型預(yù)測也辦理業(yè)務(wù)的客戶數(shù)有449個;實際辦理而預(yù)測未辦理的為590個;實際未辦理而預(yù)測已辦理的為323個;實際未辦理而預(yù)測未辦理的為7666個。準確度高達89.89%。

        2.Python的實現(xiàn)

        (1)模型建立:①分割數(shù)據(jù):在確定變量后就要建立模型,以便預(yù)測新樣本,需要把樣本分為訓練集和測試集。根據(jù)經(jīng)驗,訓練集樣本比例設(shè)為80%,測試集樣本比例為20%。②決策樹建模:防止出現(xiàn)過擬合,采用預(yù)剪枝方法,設(shè)置最大樹深為5,使用CART算法進行建模。

        (2)模型評估:一個模型建立后還需要根據(jù)模型在測試集上的表現(xiàn)來選擇預(yù)測效果好的模型和模型參數(shù)。使用準確度以及ROC曲線來作為該模型評估的方法。

        ①混淆矩陣:實際辦理而模型預(yù)測也辦理的有370個;實際辦理而預(yù)測未辦理的670個;實際未辦理而預(yù)測已辦理的為221個;實際未辦理而預(yù)測也為未辦理的有7773個。②預(yù)測準確度:模型預(yù)測的準確度為90.04%,準確度較高。③ROC曲線與AUC:ROC曲線是利用真正例率和假正例率兩指標對應(yīng)的數(shù)值組合描點繪制的圓滑曲線,當ROC曲線越接近理想曲線時,模型效果越好。AUC值是計算的ROC曲線下方的面積,約為0.88,較接近1,說明該預(yù)測效果較好。

        (3)變量重要性:

        重要性是第j個輸入變量在所有節(jié)點GINI系數(shù)的平均減少,該變量重要性反映每個變量在分類中的影響力。結(jié)果顯示對輸出變量影響較大的前四位依次為與客戶最后一次聯(lián)系的時長、以前的營銷活動的結(jié)果、通訊方式和是否有住房貸款關(guān)系較大。

        三、結(jié)論

        1.結(jié)論:通過以上分析,對于銀行營銷活動中客戶是否辦理定期存款業(yè)務(wù)的重要影響因素以及模型預(yù)測情況可以得出以下結(jié)論:

        (1)通過決策樹模型的輸出結(jié)果顯示,用80%訓練樣本所構(gòu)造的模型來驗證剩余20%測試樣本,預(yù)測精確度在90%左右,預(yù)測效果較好。(2)通過CART算法的決策樹模型對客戶是否辦理定期存款業(yè)務(wù)這一輸出變量進行分析,得到影響它的重要性因素和各因素重要性排序。通過以上分析,可以得出與客戶最后一次聯(lián)系時長和以前的營銷活動結(jié)果是主要的影響因素,在以后的營銷活動中可以重點關(guān)注這兩個變量情況,并通過模型來預(yù)測潛在重點客戶,增強銀行的營銷效果。

        2.差異比較:

        即便是分析同一個模型,在使用兩種不同方法的情況下還是存在一定的差異,通過以上分析,對兩種方法所得出的結(jié)果之間的差異進行總結(jié)如下:

        (1)預(yù)測效果矩陣:兩種方法進行預(yù)測的結(jié)果存在差異性,但其預(yù)測精度基本相近:對于實際辦理業(yè)務(wù)的客戶預(yù)測結(jié)果正確的相較預(yù)測錯誤的占比偏低,而對于實際未辦理的客戶預(yù)測正確的要遠多于預(yù)測錯誤的數(shù)量。(2)預(yù)測精度:兩種方法構(gòu)造的模型所預(yù)測的精度差距甚微,但相比較下,python仍然要比Clementine構(gòu)建出的模型的預(yù)測精度略高。(3)預(yù)測曲線:雖然兩種方法下所用到的描述預(yù)測情況的曲線不同,但二者都比較明確地展示了模型預(yù)測效果。二者都存在最優(yōu)曲線和基準曲線,分別代表的是預(yù)測效果最優(yōu)和最差的曲線,而預(yù)測得到的曲線越接近最有曲線則表明預(yù)測效果越好,兩者對比發(fā)現(xiàn),Python下的ROC曲線比累計收益曲線更接近理想曲線,預(yù)測效果較好。(4)變量重要性:兩種方法所得到的變量重要性排序結(jié)果差異較大,Python方法下的模型所得到的變量重要性可以就其變量特征細分來進行重要性分析,而Clementine方法只能對自變量進行重要性排序,不過二者分析結(jié)果中重要性排前兩位的都是與客戶最后一次聯(lián)系的時長、以前的營銷活動的結(jié)果,并且所占比重近似,對y的影響共能達到80%左右,是非常重要的變量需要去關(guān)注。

        成人精品一区二区三区中文字幕| 国产黑色丝袜在线观看网站91| 女人天堂av免费在线| 熟女中文字幕一区二区三区 | 国产乱人伦偷精品视频免观看| 国产精品亚洲αv天堂无码| 开心五月激情综合婷婷色| 亚欧国产女人天堂Av在线播放| 久久久精品人妻一区二区三区日本| 亚洲人成精品久久熟女| 少妇久久久久久被弄高潮| 久久夜色精品国产噜噜av| 久久精品视频91| 日韩女优在线一区二区| 国色天香社区视频在线| 欧美日韩国产一区二区三区不卡| 日韩精品网| 国产一区在线视频不卡| 国产情侣真实露脸在线| 精品人妻一区二区三区四区| 久久亚洲av成人无码软件| 国家一级内射高清视频| 亚洲亚洲人成综合丝袜图片| 亚洲av有码在线天堂| 国产精品人成在线观看| 中文字幕精品亚洲字幕| 亚洲一区二区三区无码久久| 伊人久久大香线蕉免费视频| av资源在线永久免费观看| 99国产精品久久99久久久| 全球av集中精品导航福利| 久久久久综合一本久道| av免费一区二区久久| 疯狂的欧美乱大交| 日韩久久一级毛片| 国产在线观看免费不卡视频| 体验区试看120秒啪啪免费| 成人做爰高潮尖叫声免费观看| 谁有在线观看av中文| 中文字幕漂亮人妻在线| 亚洲av永久无码天堂网毛片|