亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非完備數(shù)據(jù)的寬帶客戶流失預測

        2021-09-08 02:25:35張蕓宋雙
        中國新通信 2021年14期
        關鍵詞:森林分類樣本

        張蕓 宋雙

        【摘要】? ? 在實際數(shù)據(jù)中,由于人為、設備等原因,不可避免的會出現(xiàn)數(shù)據(jù)缺失問題。針對缺失值的處理方法一是刪除,二是填充。若數(shù)據(jù)缺失較少,刪除存在缺失值的樣本不失為一個快速簡單的方法,但若缺失值較多,大量刪除樣本就會損失掉重要信息,不利于模型的建立,預測效果也會不理想。本文從非完備數(shù)據(jù)出發(fā),采用SimpleImputer、KNNImputer、IterativeImputer三種方法來填充缺失的數(shù)據(jù),建立寬帶客戶流失隨機森林分類模型,經(jīng)過對比分析得出IterativeImputer方法補充缺失值分類效果更好的結論。

        【關鍵詞】? ? 缺失值填充? ? 隨機森林

        引言:

        在大數(shù)據(jù)的時代,雖然有海量的數(shù)據(jù),但是數(shù)據(jù)也存在嚴重的缺失情況。缺失值(missing data)是指單元格中應有而未能記錄的數(shù)據(jù)。數(shù)據(jù)缺失通常分為三種:完全隨機缺失、隨機缺失、非隨機缺失。當我們所用數(shù)據(jù)的重要信息存在缺失情況時,就要對其進行填充。由于填充的數(shù)據(jù)非真實數(shù)據(jù),因此會對分析結果產(chǎn)生一定的影響。若能找到一種合適的數(shù)據(jù)填充方法,使得填充的數(shù)據(jù)與真實值更接近,就能大大提高數(shù)據(jù)分析的效果。

        本文首先介紹三種缺失值填充的方法,分別是SimpleImputer、KNNImputer、IterativeImputer。然后在電信寬帶客戶數(shù)據(jù)集上分別用三種缺失值填充的方法對缺失值進行填充,最后建立寬帶客戶流失的隨機森林分類模型。通過對比直接刪掉缺失值以及三種缺失值填充方法,分析得到填充缺失值是否對模型分類效果有提高,以及哪種缺失值補充方法最好。

        一、缺失值填充方法

        數(shù)據(jù)缺失已經(jīng)成為一種不可避免的現(xiàn)象。針對分類問題,如果某一特征對分類結果影響很小或無影響,那么該特征可以直接刪除;若某一特征對分類結果存在很大的影響,且缺失值占總樣本的比例適中,就可以進行數(shù)據(jù)填充?;诖?,許多學者研究該如何進行數(shù)據(jù)填充,才能使填充的數(shù)據(jù)更加接近真實值。

        國外學者對缺失值填補的研究要早于國內(nèi),最早關于缺失值的相關研究可以追溯到1976年Rubin[1]對數(shù)據(jù)缺失三大機制的定義。近期,Gerhard等[2]提出了基于KNN的插補方法,將KNN算法中的鄰居改為按照距離進行加權。Lei等人[3]利用多視圖矩陣完備的方法對缺失值進行插補,Zhang 等人[4]基于鏈式法則對缺失值進行填充,Verma 等人[5]利用 LSTM 對缺失值進行處理等。

        1.1 SimpleImputer

        SimpleImputer缺失值填充方法是除了刪掉缺失值以外最簡單的一種方法,包含了四種最常用的填充方式,分別是均值填充、中位數(shù)填充、眾數(shù)填充和常數(shù)填充。該方法可以在sklearn中直接調(diào)用。

        1.2 KNNImputer

        KNNImputer方法的思想是找到數(shù)據(jù)空間中距離最近的K個樣本,然后通過這K個樣本來估計缺失數(shù)據(jù)點的值。缺失值可以用K個相鄰樣本點的均值、中位數(shù)、眾數(shù)或者常數(shù)進行填充。KNNImputer預測的步驟是選擇其他不存在缺失值的列,同時去除需要預測缺失值的列、存在缺失值的行,然后計算歐氏距離找到K個近鄰點。如果是離散的缺失值,則使用KNN分類器,投票選出K個鄰居中最多的類別進行填補;如果是連續(xù)的變量,則用KNN回歸器,使用K個鄰居的平均值進行填補。

        1.3 IterativeImputer

        IterativeImputer采用的是回歸的思想通過無缺失的數(shù)據(jù)建立回歸模型,來預測缺失的數(shù)據(jù)。具體步驟為:將每個缺失值設為y,不含缺失值的特征設為x,構建x和y的函數(shù)。通過循環(huán)迭代方式,使用一個回歸模型在已知y(未缺失)的樣本上對(X,y)進行擬合。然后使用這個回歸模型來預測缺失的y值。以迭代的方式遍歷每個有缺失值的特征,然后重復n輪,最后一輪的計算結果被返回。

        二、實驗過程及結果

        基于以上介紹的三種缺失值填充方法,本文將這三種方法應用在電信寬帶客戶數(shù)據(jù)上,首先對客戶流失數(shù)據(jù)進行預處理,選出有重要影響的特征,然后對存在缺失值的特征用三種方法分別進行缺失值填充,建立隨機森林分類模型,最后通過評價指標得出結論。

        2.1 數(shù)據(jù)預處理

        本文選取云南省某公司某月的寬帶客戶數(shù)據(jù)作為研究數(shù)。因為并不是所有特征都對客戶是否流失都有顯著的影響,所以需要進行特征選擇。特征分為兩類,一類是分類特征,一類是數(shù)值型特征。

        針對分類特征,分別畫出特征在正負樣本上的餅圖,觀察其是否有顯著的差異,若某特征在正負樣本上的差異超過10%,則認為該特征對客戶是否流失有顯著的影響,否則認為無影響。針對數(shù)值型特征,分別畫出特征在正負樣本上的箱線圖,若箱線圖有明顯的差異,則認為該數(shù)值型特征對客戶是否流失有顯著的影響,否則認為無影響。

        2.2 建立缺失值補充模型

        數(shù)據(jù)預處理后,發(fā)現(xiàn)電信寬帶客戶數(shù)據(jù)中AVG_IPTV_ACTIVE_CNT(近3月月均IPTV活躍天數(shù))、FLUX_MAX_TIME_PROP(流量使用峰值時段占全天流量占比)這兩個特征對客戶流失有重要影響,且這兩個特征存在缺失值,通過SimpleImputer、KNNImputer、IterativeImputer這三種方法分別對缺失值進行填充,最后得到了完備的電信寬帶客戶數(shù)據(jù)。

        2.3 隨機森林

        本文選用隨機森林作為分類模型。隨機森林就是集成學習思想下的產(chǎn)物,將許多棵決策樹整合成森林,并合起來用來預測最終結果。首先,用bootstrap方法生成m個訓練集,然后,對于每個訓練集,構造一顆決策樹,在節(jié)點找特征進行分裂的時候,并不是對所有特征都能找到使得指標(如信息增益)最大的,而是在特征中隨機抽取一部分特征,在抽到的特征中間找到最優(yōu)解,應用于節(jié)點,進行分裂。隨機森林實際上對樣本和特征都進行了采樣(如果把訓練數(shù)據(jù)看成矩陣,那么就是一個行和列都進行采樣的過程),這樣可以避免過擬合。

        2.4 評價指標

        本文選用的指標為精確率(precision)、召回率(recall)、F1-score。

        2.5 實驗結果及分析

        此樣本為極度不平衡數(shù)據(jù),而基于現(xiàn)實問題,我們更關注模型對少數(shù)類樣本的預測能力,由于負樣本(多數(shù)類樣本)的效果都挺好,此處就不進行展示,表中數(shù)據(jù)為正樣本(少數(shù)類樣本)的結果。

        2.5.1 SimpleImputer

        從表1的實驗數(shù)據(jù)可以看出負樣本的各項指標均高于正樣本的各項指標。SimpleImputer的三種數(shù)據(jù)填充方法均比直接刪掉缺失值的效果好,召回率提高了0.8-0.9,雖然精度下降了0.13-0.14,但是綜合指標提高了0.5-0.6??偟膩碚fSimpleImputer數(shù)據(jù)填充方法是有效果的。

        從上表的數(shù)據(jù)可以看出KNNImputer數(shù)據(jù)填充方法和SimpleImputer的效果差不多,都比直接刪掉缺失值的效果好。

        2.5.3 IterativeImputer

        從上表的實驗數(shù)據(jù)可以看出IterativeImputer數(shù)據(jù)填充方法是三種方法中效果最好的,精確率值比直接刪掉缺失值只降低了0.01,比SimpleImputer和KNNImputer方法提高了0.03-0.05,召回率提高到了0.54,比直接刪掉缺失值提高了0.11,比其他兩種數(shù)據(jù)填充方法提高了0.02-0.03,綜合指標F1-score比直接刪掉缺失值提高了0.09,比其他兩種方法提高了0.03-0.04。

        三、結束語

        數(shù)據(jù)的質(zhì)量影響著模型的效果,既然數(shù)據(jù)缺失不可避免,我們可以力所能及的補充缺失的數(shù)據(jù)。上述實驗結果證明了補充缺失數(shù)據(jù)建立的模型要優(yōu)于直接刪掉缺失值的模型,其中IterativeImputer數(shù)據(jù)補充方法最好,綜合指標F1-score值達到了0.68,提高了隨機森林模型的預測效果。還有諸多從不同個角度研究補充缺失值的方法,后續(xù)可以繼續(xù)閱讀相關論文,嘗試其他補充缺失值的方法,看能否進一步的提高模型的效果。

        參? 考? 文? 獻

        [1] RUBIN D B. Inference and? Missing Data[J].Biometrika,1976,63(3):581-592.DOI:10.1093/biomet/63.3.581.

        [2] Tutz G,Ramzan S.Improved methods for the imputation of missing data by nearest neighbor method [J] . Computationl Statistics & Data Analysis, 2015,90(C):84-99.

        [3] ZHANG L, ZHAO Y, ZHU Z, et? al. Multi-View Missing Data Completion[J]. IEEE Transactions on Knowledge and? Data Engineering, 2018, 30(7):? 1296–1309.? DOI:10.1109/TKDE.2018.2791607.

        [4] ZHANG Z.Multiple? Imputation with Multivariate Imputation by Chained Equation (MICE) Package [J]. Annals of Translational Medicine,2016,4(2):1-5. Doi:10.3978/j.issn.2305-5839.2015.12.63

        [5] VERMA H, KUMAR S. An? Accurate Missing Data Prediction Method Using LSTM Based Deep Learning for? Health Care[C]//Proceedings of the 20th International Conference on Distributed? Computing and Networking. . DOI:10.1145/3288599.3295580.

        猜你喜歡
        森林分類樣本
        分類算一算
        用樣本估計總體復習點撥
        分類討論求坐標
        推動醫(yī)改的“直銷樣本”
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        隨機微分方程的樣本Lyapunov二次型估計
        哈Q森林
        哈Q森林
        哈Q森林
        中文字幕av无码免费一区| 男女视频一区二区三区在线观看| 亚洲免费一区二区三区四区| 80s国产成年女人毛片| 东京热人妻无码一区二区av| 亚洲av一宅男色影视| 99re6久精品国产首页| av天堂手机在线免费| 风韵人妻丰满熟妇老熟| 亚洲精品无码专区在线在线播放| 天天色影网| YW亚洲AV无码乱码在线观看| av永久天堂一区二区三区蜜桃| 日本二区三区在线免费| 亚洲av福利院在线观看| 无码一区二区三区亚洲人妻| 黄 色 人 成 网 站 免 费| 手机在线中文字幕国产| 久久精品人妻一区二三区| 无码av专区丝袜专区| 国内露脸少妇精品视频| 亚洲亚洲网站三级片在线| 精品国产亚洲av成人一区| 日本中文字幕精品久久| 十八禁视频网站在线观看| 日韩精品一区二区三区免费视频| 亚洲国产一区二区三区最新| 国产精品不卡免费版在线观看| 麻豆最新国产av原创| 亚洲加勒比久久88色综合| 人人妻人人澡av天堂香蕉| 自拍视频国产在线观看| 女优av一区二区在线观看| 日韩av午夜在线观看| 双乳被一左一右吃着动态图| 日韩少妇无码一区二区免费视频| 亚洲女人毛茸茸的视频| 亚洲av综合色区无码专区桃色| 国产tv不卡免费在线观看| 亚洲成熟丰满熟妇高潮xxxxx| 人妻少妇精品视频一区二区三区|