亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不平衡數(shù)據(jù)分類問題解決辦法

        2018-02-26 07:53:50季晨雨
        電子技術(shù)與軟件工程 2018年15期
        關(guān)鍵詞:分類

        季晨雨

        摘要

        不平衡數(shù)據(jù)分類是指數(shù)據(jù)集中某一類的樣本數(shù)量遠小于其他類的樣本數(shù)量。由于傳統(tǒng)分類算法在設(shè)計時,通常假定用于訓(xùn)練的數(shù)據(jù)集各類樣本數(shù)大致相等,所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時,會出現(xiàn)少數(shù)類的分類準確率較低的問題因此,如何解決不平衡數(shù)據(jù)分類問題是數(shù)據(jù)挖掘研究領(lǐng)域的一個熱點和難點。本文對不平衡數(shù)據(jù)分類問題進行了研究,從數(shù)據(jù)層面、算法層面、評價指標三個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較,最后指出了不平衡數(shù)據(jù)分類在未來研究中的值得關(guān)注的一些研究方向。

        【關(guān)鍵詞】分類 不平衡數(shù)據(jù) 采樣 集成學(xué)習(xí)

        1 引言

        不平衡數(shù)據(jù)分類問題,是指數(shù)據(jù)集中某類樣本的數(shù)目遠遠少于其他類的樣本數(shù)目,即樣本分布不平衡。由于傳統(tǒng)分類算法在設(shè)計時,通常假定用于訓(xùn)練的數(shù)據(jù)集各類樣本數(shù)大致相等,所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時,會出現(xiàn)少數(shù)類的分類準確率較低的情況。然而,在現(xiàn)實生活中,我們往往關(guān)注的是少數(shù)類樣本是否能被正確分類。例如在信用卡欺詐識別中,屬于欺詐行為的交易樣本的數(shù)量要遠遠小于正常交易的樣本數(shù)量,屬于不平衡分類問題,且關(guān)注的重點是欺詐行為的交易樣本能否被正確識別。

        在實際應(yīng)用中,還有許多分類問題,屬于不平衡分類問題,比如網(wǎng)絡(luò)入侵檢測,醫(yī)療疾病診斷、客戶流失預(yù)測、廣告點擊預(yù)測、衛(wèi)星圖像油井噴發(fā)檢測等等。

        2 不平衡數(shù)據(jù)分類問題解決辦法

        不平衡數(shù)據(jù)的分類器性能較差的原因主要包括絕對樣本缺失、相對樣本缺失,評價指標選取不當,噪聲數(shù)據(jù)影響,不恰當?shù)臍w納偏置以及分而治之的分類算法帶來的數(shù)據(jù)碎片問題。

        解決不平衡數(shù)據(jù)分類問題,可以從數(shù)據(jù)、算法、評價指標三個層面著手。

        2.1 從數(shù)據(jù)的角度

        通過改變原始數(shù)據(jù)集的樣本分布,采用過采樣方法或欠采樣方法,即對少數(shù)類樣本數(shù)目進行增加或?qū)Χ鄶?shù)類樣本數(shù)目進行減少,使不平衡數(shù)據(jù)集的正負類樣本數(shù)達到平衡。欠采樣包括隨機欠采樣,即隨機選擇部分多數(shù)類樣本作為訓(xùn)練集中的多數(shù)類樣本,但隨機選擇多數(shù)類樣本會使整個數(shù)據(jù)集多數(shù)類的信息不完整,可能丟失一些很重要的多數(shù)類樣本,比如一些恰好處于決策邊界的樣本,對決策邊界的確定有很大影響。因此又提出了根據(jù)少數(shù)類樣本相鄰的多數(shù)類樣本來訓(xùn)練決策邊界。隨機過采樣作為最簡單的過采樣方法,生成的樣本和原數(shù)據(jù)集的相似程度過大,可能會出現(xiàn)比較嚴重的過擬合問題,為了避免這一問題,提出了樣本生成技術(shù)SMOTE。但是由于SMOTE在生成新樣本時沒有參考多數(shù)類樣本,因此可能會出現(xiàn)新生成的樣本與原有的多數(shù)類樣本發(fā)生重疊的現(xiàn)象。Borderline-SMOTE方法通過區(qū)分邊界樣本、安全樣本和噪聲樣本,僅對邊界少數(shù)類樣本進行過采樣,有利于識別多數(shù)類和少數(shù)類的決策邊界。

        2.2 在算法上

        修改己有的分類器,使之適應(yīng)不平衡數(shù)據(jù)的特征。主要包括代價敏感分類器,集成學(xué)習(xí)等方法。代價敏感分類器區(qū)分少數(shù)類樣本和多數(shù)類樣本誤分代價,對少數(shù)類樣本誤分將付出更大代價。集成學(xué)習(xí)是在訓(xùn)練集上訓(xùn)練多個分類模型,預(yù)測時根據(jù)每個分類器的分類結(jié)果進行投票,得到最終的預(yù)測結(jié)果。常用的組合方法,包括Bagging,Boosting以及隨機森林等。

        SMOTEBoost算法是一種通過將SMOTE與Boosting技術(shù)融合來處理類不平衡問題的方法,相比于傳統(tǒng)的Boosting算法通過改變每一個樣本的權(quán)重調(diào)整訓(xùn)練集樣本的分布策略,SMOTEBoosting算法利用SMOTE過采樣來增加新的少數(shù)類樣本來改變樣本的分布。

        J.V.Hulse等人對EasyEnsemble、Partition和RUSBoost二種方法進行了對比和驗證,實驗證明這二種算法與RUS算法相比,在不平衡數(shù)據(jù)集分類問題上表現(xiàn)更好。P.Yao針對傳統(tǒng)的分類方法沒有區(qū)別對待多數(shù)類樣本與少數(shù)類樣本的不足之處,提出了對C4.5支持向量化模型進行加權(quán)的算法。X.Y.Liu等人基于欠抽樣法的不足,提出了兩種欠抽樣法的改進算法EasyEnsemble和BalancdCascadeoEasyEnsemble算法多次利用隨機欠抽樣生成多個訓(xùn)練子集來構(gòu)建分類子模型,再將構(gòu)建的分類子模型組成最終的分類模型;BalancedCascade算法依靠分類器反復(fù)預(yù)測訓(xùn)練集,將預(yù)測正確的多數(shù)類樣本去除生成新的訓(xùn)練集,再通過新訓(xùn)練集訓(xùn)練新分類器,經(jīng)過多次重復(fù)訓(xùn)練形成最終分類器。潘俊等人通過減少過擬合及控制少數(shù)類的F-measure值來改進Boosting算法,提出了一種改進算法RIFBoost。

        2.3 從評價指標上

        分類模型的評價指標包括:

        (1)正確率(Precision),TP/(TP+FP),給出的是預(yù)測為正類的樣本中實際為正樣本的比例。

        (2)召回率(Recall),又稱查全率,TP/(TP+FN),給出的是預(yù)測為正類的真實正樣本占所有真實正樣本的比例。

        (3)準確率(accuracy),(TP+TN)/(P+N),即模型預(yù)測正確的樣本占所有樣本的比例

        傳統(tǒng)的分類模型通常使用模型的準確率進行評估。分類模型的準確率反映了分類模型對數(shù)據(jù)集整體的分類性能。但只使用準確率來衡量對不平衡數(shù)據(jù)集的分類效果,并不能反映對少數(shù)類的分類性能。利用少數(shù)類的召回率(查全率)可以反映正確判別的少數(shù)類占所有少數(shù)類的比例。F1分數(shù)同時考慮了分類模型的準確率和召回率,是處理不平衡數(shù)據(jù)分類問題時的有效評價指標。

        F1分數(shù)可以看作是模型準確率和召回率的一種加權(quán)平均,F(xiàn)1分數(shù)的分布在0-1之間。

        還可以采用ROC曲線下的面積AUC作為評價指標。因為ROC曲線有一個很好的性能,當測試集中的正負樣本的分布變化時,ROC曲線能夠保持不變,因此適合作為不平衡數(shù)據(jù)集分類時的評價指標。

        ROC曲線是一系列threshold下的(FPR,TPR)數(shù)值點的連線。

        其中,

        AUC被定義為ROC曲線下的面積,使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應(yīng)AUC更大的分類器效果更好

        3 總結(jié)

        本文對不平衡數(shù)據(jù)分類問題進行了研究,從數(shù)據(jù)層面、算法層面、評價指標二個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較。對于不平衡數(shù)據(jù)集分類問題,以后的研究可以從以下幾個方面進行:

        (1)當前的研究大多著眼于采樣方法、決策樹、支持向量機算法以及Boosting等集成方法,很少從其他傳統(tǒng)分類算法的原理入手研究傳統(tǒng)分類算法如何處理不平衡數(shù)據(jù)分類問題,因此如何利用決策樹,支持向量機之外的傳統(tǒng)分類算法解決不平衡數(shù)據(jù)分類問題有待研究;

        (2)不平衡數(shù)據(jù)分類問題的研究大多是針一對類間樣本數(shù)目不平衡的問題而很少關(guān)注類內(nèi)樣本數(shù)目不平衡問題,因此可以圍繞類內(nèi)樣本的不平衡問題進行研究。

        參考文獻

        [1]李元菊.數(shù)據(jù)不平衡分類研究綜述[J].現(xiàn)代計算機,2016(04):30-33.

        [2]陳湘濤,高亞靜.不平衡數(shù)據(jù)分類研究綜述[J].邵陽學(xué)院學(xué)報(自然科學(xué)版),2017,14(02):1-11.

        [3]溫雪巖,陳家男,景維鵬等.面向不平衡數(shù)據(jù)集分類模型的優(yōu)化研究[J].計算機工程,2018,44(04).

        [4]易未,毛力,孫俊,改進Smote算法在不平衡數(shù)據(jù)集上的分類研究[J].計算機與現(xiàn)代化,2018(03).

        [5]徐麗麗.面向不平衡數(shù)據(jù)集的分類算法研究[D].遼寧師范大學(xué),2016.

        [6]葉楓,丁鋒.不平衡數(shù)據(jù)分類研究及其應(yīng)用[J].計算機應(yīng)用與軟件,2018(01):132-136.

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準備好了嗎
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        欧美第一黄网免费网站| 一区二区三区日本高清| 成熟人妻换xxxx| 中文字幕天天躁日日躁狠狠躁免费 | 日韩一区二区三区精品视频| 无码人妻一区二区三区兔费| 天堂√中文在线bt| 午夜精品久视频在线观看| 亚洲中文字幕一区高清在线| 国产人成视频免费在线观看| 日本一区二区三区经典视频| 久久99国产精品久久99果冻传媒| 三上悠亚av影院在线看| 亚洲精品综合色区二区| 亚洲一区二区三区在线最新| 精品九九人人做人人爱| 亚洲暴爽av天天爽日日碰| AV无码专区亚洲AVL在线观看| 人妻经典中文字幕av| 亚洲日韩国产一区二区三区| 狠狠爱无码一区二区三区| 中文字幕亚洲乱亚洲乱妇| 人妻中文字幕日韩av| 国产亚洲一本大道中文在线| 日韩在线精品国产成人| 国产亚洲午夜高清国产拍精品不卡 | 99精品视频在线观看免费| 免费国产调教视频在线观看| 国产亚洲av成人噜噜噜他| 天堂8在线天堂资源bt| 国产色噜噜| 精品国产3p一区二区三区| 人妻熟妇乱又伦精品hd| 又色又污又爽又黄的网站| 亚洲中文字幕日产喷水| 国产av在线观看一区二区三区| 久久精品黄aa片一区二区三区| 日日摸日日碰人妻无码老牲| 国产麻豆国精精品久久毛片| 国产区精品一区二区不卡中文 | 99久久99久久精品免费看蜜桃|