亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不平衡數(shù)據(jù)分類研究及在銀行營銷中的應(yīng)用

        2018-11-09 02:58:06季晨雨
        山西電子技術(shù) 2018年5期
        關(guān)鍵詞:查全率準(zhǔn)確率分類

        季晨雨

        (北京衛(wèi)星信息工程研究所,北京 100000)

        0 引言

        不平衡數(shù)據(jù)分類是分類問題中比較特殊的問題,主要特點是樣本類分布不平衡。在不平衡的二分類問題中,表現(xiàn)為其中一類的學(xué)習(xí)樣本遠多于另一類的樣本[1]。不平衡數(shù)據(jù)集分類會存在偏向多數(shù)類,對少數(shù)類誤分比率很高的問題。這是因為多數(shù)類的樣本數(shù)目明顯多于少數(shù)類,但有時候少數(shù)類恰恰是我們關(guān)注的重點。

        本文利用了銀行營銷人員以電話方式對其定期存款業(yè)務(wù)進行推銷的案例。隨著市場競爭的加劇,銀行需要識別目標(biāo)用戶并進行精準(zhǔn)營銷以擴大收益,提高工作效率。在本例中,需要根據(jù)以往營銷積累下的數(shù)據(jù)集構(gòu)建客戶是否會購買定期存款的預(yù)測模型,幫助銀行識別目標(biāo)客戶群體,進行精準(zhǔn)營銷,提高營銷的成功率,避免非目標(biāo)客戶因電話營銷對銀行產(chǎn)生負面印象。在該案例中,以客戶是否購買定期存款為目標(biāo)屬性,該屬性中“是”和“否”的數(shù)據(jù)集樣本數(shù)目比為4640∶36548,屬于典型的不平衡分類問題。如果在構(gòu)建分類模型時不考慮數(shù)據(jù)集的平衡性,模型會出現(xiàn)對少數(shù)類誤分率很高的問題,但少數(shù)類恰恰是我們關(guān)心的目標(biāo)客戶群體。因此,在構(gòu)建分類模型時需要解決不平衡數(shù)據(jù)分類的問題。

        1 不平衡數(shù)據(jù)分類問題解決辦法

        解決不平衡數(shù)據(jù)分類問題,可以從數(shù)據(jù)、算法、評價指標(biāo)三個層面著手[2]。

        1) 從數(shù)據(jù)的角度:通過改變原始數(shù)據(jù)集的分布,采用過采樣或欠采樣,即增加少數(shù)類樣本或減少多數(shù)類樣本,使不平衡數(shù)據(jù)集的正負類樣本數(shù)達到平衡[3]。

        2) 在算法上:修改已有的分類器,使之適應(yīng)不平衡數(shù)據(jù)的特征。主要包括代價敏感分類器,集成學(xué)習(xí)等方法。其中,代價敏感分類器對少數(shù)類樣本和多數(shù)類樣本分類錯誤的代價區(qū)別開來,將少數(shù)類錯誤地分到多數(shù)類將付出更大的代價。集成學(xué)習(xí)是在訓(xùn)練集上訓(xùn)練多個分類模型,預(yù)測時根據(jù)每個分類器的分類結(jié)果進行投票,得到最終的預(yù)測結(jié)果。常用的組合分類方法,包括Bagging,Boosting以及隨機森林Random Forest等[4]。

        3) 從評價指標(biāo)上:對于一般的分類模型通常使用模型的準(zhǔn)確率進行評估。分類模型的準(zhǔn)確率反映了分類模型對數(shù)據(jù)集整體的分類性能。但只使用準(zhǔn)確率來衡量對不平衡數(shù)據(jù)集的分類效果,并不能反映對少數(shù)類的分類性能。利用少數(shù)類的召回率(查全率)可以反映正確判別的少數(shù)類占所有少數(shù)類的比例。 F1分數(shù)同時考慮了分類模型的準(zhǔn)確率和召回率,是處理不平衡數(shù)據(jù)分類問題時的有效評價指標(biāo)[5]。

        F1分數(shù)可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均,F(xiàn)1分數(shù)的分布在0-1之間。

        還可以采用ROC曲線下的面積AUC作為評價指標(biāo)。因為ROC曲線有一個很好的性能,當(dāng)測試集中的正負樣本的分布變化時,ROC曲線能夠保持不變,因此適合作為不平衡數(shù)據(jù)集分類時的評價指標(biāo)[6]。

        2 銀行營銷中的不平衡數(shù)據(jù)分類

        2.1 數(shù)據(jù)集說明

        本文所研究的數(shù)據(jù)集來源為UCI所提供的Bank Marketing Data Set數(shù)據(jù)集,該數(shù)據(jù)與葡萄牙銀行機構(gòu)實施電話直銷向客戶推銷其定期存款業(yè)務(wù)有關(guān)。數(shù)據(jù)集收集的時間自2008年5月至2010年10月,共包括41188個樣本和21個屬性,其中目標(biāo)屬性為是否購買定期存款,分別用“yes”和“no”代表是和否。輸入變量在結(jié)構(gòu)上有數(shù)值型和類別型,還可以按屬性的含義分為客戶信息屬性、銀行營銷行為屬性、社會經(jīng)濟背景屬性和其他屬性。

        表1 數(shù)據(jù)集屬性列表

        2.2 數(shù)據(jù)預(yù)處理

        由于數(shù)據(jù)集中存在類別型屬性,需要對類別型屬性進行數(shù)值化操作,即編碼處理。對housing、loan等二分類屬性,進行0-1編碼,對education等有序分類屬性,按影響由小到大的順序編碼,對job,marital等無序分類屬性進行啞變量編碼。

        表2 marital屬性啞變量編碼

        對于數(shù)值型特征,需要進行連續(xù)型特征離散化處理,以便減小極端值和異常值對模型的影響。例如,duration屬性最大值為4918,平均數(shù)為258,中位數(shù)為259,75%分位數(shù)為319,均遠遠小于最大值,所以需要對duration變量進行離散化。為了應(yīng)對不同屬性度量單位不同的情況,減小對基于距離度量的分類模型的影響,進行數(shù)據(jù)規(guī)范化,將數(shù)據(jù)壓縮到一個范圍內(nèi)。

        由于數(shù)據(jù)集的某些類別型屬性存在取值為unknown的樣本,需要進行缺失值處理。在job和marital屬性上的缺失值較少,可以直接把含有缺失值的樣本刪除。對于education、loan等缺失值較多的屬性,利用各屬性值完整的樣本作為訓(xùn)練集,以缺失值所在的屬性作為目標(biāo)屬性進行分類,以此預(yù)測缺失值。

        2.3 實驗結(jié)果與分析

        原數(shù)據(jù)集樣本個數(shù)41188,其中包括4640個正類樣本,即購買定期存款的客戶樣本和36548個負類樣本,即沒有購買定期存款的客戶樣本。

        為了解決樣本的不平衡問題,我們需要對訓(xùn)練集進行SMOTE過采樣。對于SVM模型,需要設(shè)置class_weight參數(shù)為‘balanced’來進行樣本均衡。

        對訓(xùn)練集采取5-fold交叉驗證,并以準(zhǔn)確率最高的模型使用的超參數(shù)作為最終模型的超參數(shù)。將訓(xùn)練并驗證好的模型應(yīng)用在測試集上,以得到的分類結(jié)果作為分類模型性能的比較依據(jù)。

        考慮到數(shù)據(jù)集的不平衡性,單獨使用準(zhǔn)確率已經(jīng)不能正確評價分類模型的好壞,因此選擇召回率(查全率)、F1分數(shù)和ROC_AUC作為客戶購買預(yù)測模型的評價指標(biāo),三個評價指標(biāo)均是值越大,分類模型的性能越好。

        分別利用邏輯回歸模型、決策樹模型、SVM模型、隨機森林模型、GBDT模型得到的分類結(jié)果如表3所示。

        表3 各模型分類結(jié)果

        根據(jù)各模型的分類結(jié)果可知,經(jīng)過SMOTE重采樣后的決策樹模型、邏輯回歸模型、隨機森林模型和GBDT模型在召回率(查全率)、F1分數(shù)和ROC_AUC評價指標(biāo)上均有提升,說明SMOTE重采樣可以在一定程度上減少樣本的不平衡帶來的影響。設(shè)置‘balanced’后的SVM模型比不設(shè)置的SVM模型召回率(查全率)、F1分數(shù)和ROC_AUC評價指標(biāo)上有所改進,但付出了準(zhǔn)確率降低的代價。

        總的來說設(shè)置‘balanced’后的SVM模型在召回率(查全率)上表現(xiàn)最佳,基本可以識別大部分的目標(biāo)客戶,即選擇購買定期存款的客戶。而采用SMOTE重采樣后的GBDT模型在召回率(查全率)、F1分數(shù)和ROC_AUC評價指標(biāo)上的綜合表現(xiàn)最好。

        3 總結(jié)

        本文對不平衡數(shù)據(jù)分類問題進行了研究,從數(shù)據(jù)、算法、評價指標(biāo)三個層面介紹了不平衡數(shù)據(jù)分類的解決辦法,并將其應(yīng)用于銀行營銷中客戶購買定期存款的預(yù)測任務(wù)。對原始數(shù)據(jù)集進行了數(shù)據(jù)預(yù)處理,構(gòu)建了邏輯回歸、決策樹、SVM、隨機森林和GBDT預(yù)測模型,并對模型進行參數(shù)優(yōu)化和評估。其中,設(shè)置‘balanced’后的SVM模型在召回率(查全率)上表現(xiàn)最佳,基本可以識別大部分的目標(biāo)客戶,即選擇購買定期存款的客戶。而采用SMOTE重采樣后的GBDT模型在召回率(查全率)、F1分數(shù)和ROC_AUC評價指標(biāo)上的綜合表現(xiàn)最好。將訓(xùn)練好的預(yù)測模型應(yīng)用于銀行營銷中,可以幫助銀行識別目標(biāo)客戶群體,進行精準(zhǔn)營銷,提高營銷的成功率,提高工作效率,擴大收益。

        猜你喜歡
        查全率準(zhǔn)確率分類
        分類算一算
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        分類討論求坐標(biāo)
        海量圖書館檔案信息的快速檢索方法
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
        數(shù)據(jù)分析中的分類討論
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        教你一招:數(shù)的分類
        在线精品免费观看| 天天做天天爱夜夜夜爽毛片| 狠狠的干性视频| 蜜桃av噜噜一区二区三区| 国产超碰人人一区二区三区| 91国产精品自拍视频| 中国女人内谢69xxxxxa片| 大陆极品少妇内射aaaaa| 国产成人久久蜜一区二区| 少妇深夜吞精一区二区| 无码a级毛片免费视频内谢5j| 午夜成人理论无码电影在线播放| 欧美日韩一线| 亚洲精品大全中文字幕| 国产综合色在线精品| 特级毛片a级毛片免费播放| 国产亚洲精选美女久久久久| 91偷自国产一区二区三区| 成人国产精品一区二区网站公司 | 久久久久成人精品无码中文字幕 | 亚洲AV乱码毛片在线播放| 特级黄色大片性久久久| 人妻尝试又大又粗久久| 久久97精品久久久久久久不卡| 搡老女人老妇女老熟妇69| 丝袜美腿国产一区精品| 欧美极品少妇无套实战| 久久久国产精品免费无卡顿| 久久久精品少妇—二区| √天堂中文官网在线| 国产精品亚洲五月天高清| 少妇特殊按摩高潮不断| 日出白浆视频在线播放| 欧妇女乱妇女乱视频| 成人午夜免费福利| 中文字幕在线乱码亚洲| 我爱我色成人网| 亚洲国产99精品国自产拍| 99久久精品人妻一区二区三区| 门卫又粗又大又长好爽| 激情综合欧美|