亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BL-SMOTE和隨機森林的不平衡數(shù)據(jù)分類

        2019-05-16 08:12:26張宸寧李國成
        關鍵詞:福特權(quán)值機器

        張宸寧,李國成

        (北京信息科技大學 理學院,北京市 100192)

        0 引言

        數(shù)據(jù)不平衡問題已經(jīng)成為訓練分類模型乃至數(shù)據(jù)挖掘的關鍵問題。類別不平衡數(shù)據(jù)會導致分類模型的準確率衰弱,從而導致實際效果受到影響。近年來,學者們提出了許多處理這類問題的方法。剖析這些方法可以將它們大致分為兩類:一類是從數(shù)據(jù)層面處理不平衡數(shù)據(jù);另一類是從算法層面處理不平衡數(shù)據(jù)。

        在數(shù)據(jù)層面,主要是對數(shù)據(jù)進行重采樣,重建其訓練集使樣本數(shù)據(jù)分布更加真實,主要包含欠采樣技術(shù)和過采樣技術(shù)。過采樣技術(shù)的基本思想是增加少數(shù)類樣本,使其原始分類信息能夠得到較好的保留。過采樣的算法主要有SMOTE算法[1]、LN-SMOTE算法[2]、SMOTE-RSB算法[3]等。欠采樣技術(shù)主要是刪除部分多數(shù)類樣本,但會造成分類信息不完整,數(shù)據(jù)丟失嚴重。在欠采樣技術(shù)中,有區(qū)分使用K-NN分類器識別多數(shù)類中相關實例的方法[4],還有遺傳算法中的一個分支演化的進化算法[5]以及Tomek鏈接的相互鄰近關系方法[6]等。在對某些類樣本分類準確率要求較高的領域,通常選擇過采樣技術(shù)。在算法層面,主要是修改在數(shù)據(jù)集上算法的偏置,使決策平面偏向于少數(shù)類,提高對少數(shù)類的識別率,并對現(xiàn)有問題通過重新設計算法來解決不平衡數(shù)據(jù)問題。通常情況下,使用過采樣技術(shù)來實現(xiàn)機器學習分類器的多樣化。其中使用過采樣技術(shù)的算法主要有SMOTEBoost算法[7]、SMOTEBagging 算法[8]以及RAMOBoost 算法[9]等。在提前執(zhí)行每一個欠采樣來調(diào)整集成方法中有Under-Bagging算法[10]、粗糙平衡Bagging算法[11]以及RUSBoost算法[12]。除了基于集成方法外,還有其他內(nèi)部平衡方法,例如主動學習策略[13]以及粒度計算等。這些方法在一定程度提高了SMOTE的性能。但SMOTE算法沒有對少數(shù)類樣本進行有區(qū)別的選擇,即使Borderline-SMOTE算法通過設置邊界點集來實現(xiàn)對少數(shù)類樣本的區(qū)別選擇,這種設置也存在著一定的不合理。

        本文針對類別不平衡本身的性質(zhì),在SMOTE算法基礎上,融合檢驗數(shù)據(jù)準確性的常用統(tǒng)計方法——本福特法則,提出一種新的數(shù)據(jù)處理方法,即BL-SMOTE算法。利用本福特法則對少數(shù)類樣本進行有區(qū)別的選擇,使用本福特法則對近鄰樣本進行合成,使其數(shù)據(jù)分布更真實。同時,用隨機森林進行分類,并采用3種最為常見的評價指標,對我國上市公司財務數(shù)據(jù)集進行實證研究。最后,與證監(jiān)會公布的造假公司信息進行對比,結(jié)果表明BL-SMOTE算法的分類效果優(yōu)于SMOTE算法,同時驗證了在數(shù)據(jù)分類方面,相比于邏輯回歸、決策樹、梯度提升樹,隨機森林的效果更優(yōu)。

        1 相關知識

        1.1 SMOTE算法

        SMOTE(synthetic minority over-sampling technique)算法[1,14]在2002年提出并得到認可,它的基本思想是通過人工合成新的少數(shù)類樣本來降低類別不平衡性。其中基本原理是在近鄰少數(shù)類樣本之間進行線性差值,合成新的少數(shù)類樣本。具體做法是:假設鄰近參數(shù)為k,首先從每個少數(shù)類樣本的x個同類最近鄰中隨機選擇k個樣本;然后將每個少數(shù)類樣本分別與選中的k個樣本按式(1)合成k少數(shù)類新樣本;最后,將新樣本添加至訓練樣本集中,形成新的訓練樣本集。

        xnew=x+δ(y[i]-x)

        (1)

        式中:xnew為合成的新樣本;x為少數(shù)類樣本;δ為0到1之間的隨機數(shù);y[i]為x的第i個近鄰樣本。

        值得注意的是,在SMOTE算法中鄰近參數(shù)k是否能夠合理設置將直接影響最終的分類性能。通常設置鄰近參數(shù)k=5。

        1.2 本福特法則

        在實際數(shù)據(jù)中,普遍認為所有數(shù)字應該隨機出現(xiàn)并且具有相同的概率。然而實驗表明并非所有數(shù)字出現(xiàn)的概率都是相等的,而是像{1,2,3}這樣的低位數(shù)比{7,8,9}這樣的高位數(shù)更頻繁地出現(xiàn)。這種數(shù)字現(xiàn)象被稱為本福特法則。在十進制中,本福特法則即為首位數(shù)字出現(xiàn)的概率,即

        (2)

        式中pd為通過數(shù)據(jù)樣本點首位第d個數(shù)字的概率。

        本福特定律廣泛運用于地質(zhì)學、化學、天文學、物理學和工程學有關數(shù)據(jù),以及會計、財務、計量經(jīng)濟學和人口統(tǒng)計學的集中數(shù)據(jù)。尤其在檢測欺詐行為中,可以檢查財務報告中的數(shù)據(jù)是否符合本福特法則,從而能夠規(guī)避逃稅、金融詐騙等風險。這是由于欺詐者通常不了解這種數(shù)字模式,并傾向于人為修改具有近似相等頻率的數(shù)字。同樣,由于SMOTE算法是人工合成新樣本數(shù)據(jù)的算法,在選取新樣本數(shù)據(jù)的權(quán)重時,采用0~1之間的隨機數(shù)作為選取新樣本數(shù)據(jù)的權(quán)重,卻未考慮到人工生成的數(shù)據(jù)是否違背自然界規(guī)律。因此,本文借助于本福特法則能夠檢測欺詐行為以及符合自然規(guī)律的特點,運用本福特法則的卡方值替換SMOTE算法中生成新樣本數(shù)據(jù)的權(quán)值,設計了一種新的算法——BL-SMOTE算法。相比SMOTE算法,該算法借助本福特法則本身特性,更精準地模擬出符合自然規(guī)律的新樣本數(shù)據(jù)。

        1.3 隨機森林

        隨機森林[15](random-forest)是由多個決策樹組成的集成分類器,它是用來解決預測問題的學習模型。采用{h(x,θk),k=1,2,…,m}表示m個決策樹,其中θk為獨立同分布的隨機向量。針對自變量,從m個決策樹中選出一個最優(yōu)分類結(jié)果:

        (3)

        式中:H(x)為隨機森林模型;I(*)為示性函數(shù);hi為單個分類模型;Y為輸出變量。

        從式(3)中可以看出類別對評估變數(shù)的重要性。另外,在創(chuàng)建隨機森林時,它可以在內(nèi)部對于一般化后的誤差產(chǎn)生不偏差的估計;對于不平衡分類,可以平衡誤差。以上特點使得隨機森林對處理樣本量級小的數(shù)據(jù)集具有優(yōu)勢。

        2 BL-SMOTE算法

        針對SMOTE算法的不足,本文結(jié)合本福特法則提出了一種改進型SMOTE算法,即BL-SMOTE算法。BL-SMOTE算法主要思想是給少數(shù)異常類樣本(即負樣本)有選擇地建立權(quán)值,樣本權(quán)值服從本福特法則的概率卡方值(即本福特選擇方法),并人工合成近鄰的負樣本。

        不同于SMOTE算法,在生成樣本數(shù)據(jù)時,選取的權(quán)重為隨機數(shù)??紤]到本福特法則的有效性在各個領域已得到證明和驗證,本文為改善權(quán)重的準確性,利用本福特法則的卡方值替代SMOTE算法中隨機數(shù)產(chǎn)生虛擬負樣本數(shù)據(jù)。

        2.1 本福特選擇方法

        效仿遺傳算法選擇算子,按照一定的規(guī)則從當前種群中選擇出一些符合要求的個體遺傳到下一代種群中,其原則是權(quán)值高的個體以較高的概率成為下一代個體。BL-SMOTE算法中的本福特選擇方法繼承了這一思想,它是從少數(shù)類樣本中以較高的概率選擇出權(quán)值較高的樣本,使得新合成的樣本聚集在該樣本附近。

        本福特選擇方法步驟如下:

        (4)

        (5)

        式中:pcd為數(shù)據(jù)樣本點首位第d個數(shù)字的實際概率,pnewd為數(shù)據(jù)新生成的樣本點首位第d個數(shù)字的實際概率。

        步驟2按照式(4)和式(5)計算少數(shù)類樣本的選擇概率:

        (6)

        步驟3按照本福特選擇方法,將δnew作為BL-SMOTE算法中的權(quán)值。

        2.2 BL-SMOTE算法流程

        通過本福特選擇方法計算出樣本權(quán)值,再通過以下步驟,形成BL-SMOTE算法。BL-SMOTE算法具體流程如下:

        輸入: 訓練集

        st={(xi,yi),i=1,2,…,n,yi∈{+,-}};正樣本為樣本數(shù)量級多的n+,負樣本為樣本量級少的n-,n++n-=n;不平衡比率rm=n+/n-;采樣率為rs;近鄰參數(shù)為k.

        輸出:過采樣后的訓練集

        算法步驟:

        1. 提取所有正負樣本到訓練集st中,組成st+與st-集合;

        fori=1∶n-×rs

        xnew=x-δnew(xnew-x)

        圖1進一步說明了BL-SMOTE算法的基本原理。圖中五邊形代表少數(shù)類負樣本,圓圈代表多數(shù)類正樣本。選中少數(shù)類樣本,其近鄰集合由最近的5個五邊形組成,按照本福特選擇方法作為新算法的權(quán)值,小五邊形表示合成更準確的新樣本。

        圖1 新樣本的生成圖示

        3 實驗結(jié)果與分析

        3.1 不平衡數(shù)據(jù)的評價指標

        通常采用分類準確性(xacc)來評估衡量分類模型的性能。分類準確性的數(shù)值越大數(shù)據(jù)準確率越高,算法效果越好。表1為分類結(jié)果的混淆矩陣。

        表1 分類結(jié)果的混淆矩陣

        在表1中,tp、tn分別表示原本就是正類、負類,并判斷正確的樣本數(shù)量;fp、fn分別表示樣本真實類為負、正樣本,卻標記錯誤的樣本個數(shù)。分類精度為

        (7)

        為了全面地對數(shù)據(jù)處理的效果進行評價,通常采用查準率:

        (8)

        查全率:

        (9)

        真負率:

        (10)

        為了平衡查準率、查全率的關系,采用信息檢索(IR)領域常用的一種評價指標fmeasure進行性能評價測度,它常用于評價分類模型的好壞,其計算公式如下:

        (11)

        另外,為平衡真正率xTPR以及真負率xTNR的關系,采用Gmean進行性能評價測度:

        (12)

        Gmean是僅有在正負樣本的分類精度同時都高的情況下,其值才會最大。本文使用fmeasure來衡量負樣本的分類性能,使用Gmean來衡量數(shù)據(jù)集整體的分類性能。

        3.2 實驗結(jié)果與分析

        為了驗證算法的有效性,本文數(shù)據(jù)集采用wind中2007年至2017年所有上市公司的各季度的財務報表。其中財務報表也稱為三張表,即利潤表、現(xiàn)金流量表以及資產(chǎn)負債表。由于財務三張報表指標相對較多,且有些指標相互之間關聯(lián),本文選取影響財務數(shù)據(jù)最重要的46種指標作為特征,其中選取利潤表10個特征,現(xiàn)金流量表20個特征,資產(chǎn)負債表15個特征以及日期。同時為了使正負樣本不平衡程度有所差別,本文對數(shù)據(jù)集進行不同數(shù)量的隨機劃分,用以確定訓練集和測試集。

        以下所有實驗結(jié)果均為循環(huán)200次所取得的平均值。本文采用Python 3.7實現(xiàn)了SMOTE算法、BL-SMOTE算法以及邏輯回歸(LR)、ID3算法、分類回歸樹(CART)、隨機森林(RF)、梯度提升樹(GBDT)。將SMOTE算法和BL-SMOTE算法的鄰近參數(shù)設置為同一樹數(shù)值,保證它們合成的樣本數(shù)目相同,然后使用以上5種機器學習方法進行分類。

        圖2至圖4分別為某家上市公司在未處理不平衡數(shù)據(jù)集、使用SMOTE算法處理不平衡數(shù)據(jù)集以及使用BL-SMOTE算法處理數(shù)據(jù)集的混淆矩陣的示意圖。

        圖2 某家上市公司未處理不平衡數(shù)據(jù)集的混淆矩陣

        圖3 某家上市公司使用SMOTE算法處理不平衡數(shù)據(jù)集的混淆矩陣

        圖4 某家上市公司使用BL-SMOTE算法處理不平衡數(shù)據(jù)集的混淆矩陣

        將圖2~4數(shù)據(jù)代入式(6)計算出某家上市公司未處理數(shù)據(jù)時xacc為0.192 0,在使用SMOTE算法處理數(shù)據(jù)時xacc=0.931 6,在使用BL-SMOTE算法處理數(shù)據(jù)時xacc=0.944 3??梢姡瑢τ谕慌鷶?shù)據(jù),采用BL-SMOTE算法處理時,分類準確性最高,即數(shù)據(jù)處理的效果最優(yōu)。然而在工程應用中,樣本真實類為負,錯誤標記成正類的樣本相比于樣本真實類為正,標記成負類的樣本代價會更高,但是這一點無法從分類準確性xacc取值作出判斷。

        因此,通過3種評價指標的計算結(jié)果,綜合判斷5種機器學習算法在3種不同的處理數(shù)據(jù)情況下(即在未進行生成新數(shù)據(jù)的處理的情況、以及使用SMOTE算法和BL-SMOTE算法進行生成新數(shù)據(jù)的處理的情況)數(shù)值,數(shù)值越接近于1,效果越好。通過計算3種指標驗證BL-SMOTE算法在處理不平衡數(shù)據(jù)的方面效果最優(yōu),并且驗證相比其他4種機器學習算法,隨機森林而分類方法最好。表2~4為3種不同情況下,5種機器學習的xacc、fmeasure、Gmean值:

        表2 五種機器學習算法在不同情況下的xacc值

        表3 五種機器學習算法在不同情況下的fmeasure值

        表4 五種機器學習算法在不同情況下的Gmean值

        從表2~4可以看出,在3種不同情況下,隨機森林算法較其他4種機器學習算法更接近于1,即效果最佳。因此選取隨機森林算法作為數(shù)據(jù)分類器效果更好。

        實驗結(jié)果表明在隨機森林機器學習分類器基礎上,使用BL-SMOTE算法處理的不平衡數(shù)據(jù)xacc=0.944 3、fmeasure=0.944 3、Gmean=0.754 2,各項評價指標均高于其他情況。使用BL-SMOTE算法處理不平衡數(shù)據(jù)集準確率最高,從而驗證了本文所提算法的有效性。

        4 結(jié)束語

        本文提出了一種新型的過采樣技術(shù),利用本福特法則在自然處理中的優(yōu)勢作為SMOTE算法的權(quán)值使數(shù)據(jù)更具真實性。在對所提出的解決方案進行更徹底的分析背景下,對所選數(shù)據(jù)集進行的初步實驗的結(jié)果很重要。不同于以往使用UCI的數(shù)據(jù)進行模擬實驗,本文運用更貼近于現(xiàn)代生活的真實數(shù)據(jù),即上市公司近幾年財務數(shù)據(jù)作為數(shù)據(jù)集,選取真實數(shù)據(jù)作為數(shù)據(jù)集的同時,數(shù)據(jù)的噪聲也隨之增大,清洗過程難度加大。通過比較BL-SMOTE和SMOTE以及機器學習算法本身的結(jié)果驗證了BL-SMOTE算法的優(yōu)勢。不僅如此我們還考慮機器學習算法本身特性,在驗證BL-SMOTE有效性和準確性,同時驗證了多種機器學習算法的組合即決策樹的集成算法,隨機森林比單個機器學習算法(決策樹)的效果更好。對于未來的工作,我們計劃運用單個神經(jīng)網(wǎng)絡或者集群神經(jīng)網(wǎng)絡算法繼續(xù)評估所提出的類別不平衡數(shù)據(jù)對來自各個領域的海量數(shù)據(jù)集的影響。另外,我們還希望將所提出的方法擴展到數(shù)字特征,使用高斯分布建模等。

        猜你喜歡
        福特權(quán)值機器
        一種融合時間權(quán)值和用戶行為序列的電影推薦模型
        機器狗
        探索未知——2022款福特BRONCO EVERGLADES
        世界汽車(2022年3期)2022-05-23 13:42:10
        機器狗
        福特領裕
        汽車觀察(2021年11期)2021-04-24 20:47:38
        福特EVOS
        汽車觀察(2021年11期)2021-04-24 20:47:38
        CONTENTS
        未來機器城
        電影(2018年8期)2018-09-21 08:00:06
        基于權(quán)值動量的RBM加速學習算法研究
        自動化學報(2017年7期)2017-04-18 13:41:02
        無敵機器蛛
        亚洲国产av玩弄放荡人妇系列| 亚洲中文无码久久精品1| 亚洲综合一区无码精品| 手机看片久久国产免费| 亚洲色四在线视频观看| 日本岛国一区二区三区| 日本一区二区免费在线看| 朝鲜女人大白屁股ass孕交| 玩50岁四川熟女大白屁股直播| 少妇太爽了在线观看免费视频| 精品久久久久久99人妻| av一区二区在线网站| 精品久久人妻av中文字幕| 久久久久久av无码免费看大片 | 中文字幕乱码亚洲无限码| 国产亚洲精品久久久久久国模美| a级毛片100部免费看| 国产精品麻豆综合在线| 国产粉嫩嫩00在线正在播放| 国产av熟女一区二区三区蜜臀 | 免费观看18禁无遮挡真人网站| 韩国三级中文字幕hd久久精品| 国产一区二区丁香婷婷| 91色区在线免费观看国产| 精品香蕉一区二区三区| 中文字幕欧美人妻精品一区| 国产日韩亚洲欧洲一区二区三区| 人妻熟女妇av北条麻记三级| 国产精品一区二区三区自拍| 亚洲男同gay在线观看| 亚洲人成网站77777在线观看| 亚洲一区二区三区在线| 中文日本强暴人妻另类视频| 97在线视频免费人妻| av大片在线无码免费| 女优av福利在线观看| 一本色道久久亚洲av红楼| 99久久精品免费看国产| 97无码人妻福利免费公开在线视频| 日本老年人精品久久中文字幕| 久久综合久久综合久久|