亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CPD-SMOTE的類不平衡數(shù)據(jù)分類算法研究

        2018-12-13 09:15:48彭如香孔華鋒姜國慶凡友榮
        關(guān)鍵詞:分類器分類矩陣

        彭如香 楊 濤 孔華鋒 姜國慶 凡友榮

        (公安部第三研究所 上海 201204) (信息網(wǎng)絡(luò)安全公安部重點(diǎn)實(shí)驗(yàn)室 上海 201204)

        0 引 言

        類不平衡是指屬于某一類別的觀測樣本的數(shù)量顯著少于其他類別,通常情況下把多數(shù)類樣本的比例為100∶1、1 000∶1,甚至是10 000∶1這種情況下為不平衡數(shù)據(jù)[1]。類不平衡現(xiàn)象普遍存在著不同應(yīng)用領(lǐng)域中,如金融欺詐、網(wǎng)絡(luò)入侵、垃圾郵件過濾、醫(yī)學(xué)檢測,直接采用傳統(tǒng)的學(xué)習(xí)分類算法,分類準(zhǔn)確率較低[1-3]。通常采用重采樣方法處理類不平衡問題,重采樣包括欠采用和過采樣兩種[1]。相比于傳統(tǒng)欠采樣方法,SMOTE算法克服傳統(tǒng)隨機(jī)欠采樣導(dǎo)致的數(shù)據(jù)丟失問題。但是,SMOTE容易出現(xiàn)過泛化和高方差的問題,進(jìn)而影響數(shù)據(jù)分布特征。為了解決這些問題,Borderline-SMOTE、ADASYN、LN-SMOTE等SMOTE改進(jìn)算法相繼被提出[4-6]。這些算法充分考慮小樣本的分布,新增的樣本不影響小樣本的分布。然而這些算法未考慮小樣本與大樣本的交叉區(qū)域,最終形成的數(shù)據(jù)集將改變原有數(shù)據(jù)集的分布,而影響分類算法的準(zhǔn)確性。

        1 相關(guān)工作

        1.1 SMOTE算法

        SMOTE,即合成少數(shù)類過采樣技術(shù)[1]。該算法由Chawla于2002年提出,是對(duì)隨機(jī)過采樣算法的一種改進(jìn)。SMOTE算法的基本思想是對(duì)少數(shù)類樣本進(jìn)行分析和人工模擬,同時(shí)將模擬得到的新樣本數(shù)據(jù)添加到原始數(shù)據(jù)集當(dāng)中,使得數(shù)據(jù)正負(fù)樣本比例均衡。

        SMOTE算法流程如下:

        (1) 對(duì)于少數(shù)類樣本中每一個(gè)樣本x,通過計(jì)算x到該類樣本集所有樣本的歐式距離,利用KNN算法,選出離樣本x最近的k個(gè)同類樣本點(diǎn),得到其K近鄰。

        (2) 根據(jù)正負(fù)樣本比例確定采樣倍率為N,對(duì)每一個(gè)樣本x分別隨機(jī)從K近鄰中選取N個(gè)樣本,假設(shè)選擇的近鄰為x1,x2,…,xN。

        SMOTE算法的出現(xiàn),改進(jìn)了處理非平衡數(shù)據(jù)中傳統(tǒng)的隨機(jī)過采樣算法,可以有效地對(duì)非平衡數(shù)據(jù)進(jìn)行糾偏,整體上提高了模型的精度,同時(shí)還很大程度上降低了模型的誤識(shí)率,這是SMOTE算法的優(yōu)點(diǎn)[9]。其缺陷是無法解決非平衡數(shù)據(jù)的分布問題,容易產(chǎn)生分布邊緣化問題,對(duì)于邊緣的少類樣本,對(duì)其進(jìn)行K近鄰生成樣本也位于邊緣且會(huì)越來越邊緣化,這會(huì)使得正負(fù)樣本的邊界越來越模糊,加大樣本分類的難度。

        1.2 類不平衡算法評(píng)價(jià)指標(biāo)

        根據(jù)不同的應(yīng)用場景,分類器考慮的評(píng)價(jià)指標(biāo)也不同,通?;诨煜仃囘M(jìn)行性能評(píng)價(jià)?;煜仃嚨亩x如表1所示[7]:

        表1 混淆矩陣定義

        使用混淆矩陣可以得到如下幾個(gè)評(píng)價(jià)指標(biāo):

        精確度Accuracy=(TP+TN)/(TP+FN+FP+TN)

        召回率R=TP/(TP+FN)

        準(zhǔn)確度P=TP/(TP+FP)

        召回率和準(zhǔn)確度通常會(huì)出現(xiàn)矛盾,這樣需要綜合考慮,最常見的方法就是F-Measure(又稱為F-Score)。 F-Measure是Precision和Recall加權(quán)調(diào)和平均,其定義如下:

        另外,可以通過ROC曲線評(píng)價(jià)一個(gè)分類器好壞。ROC曲線是基于樣本的真實(shí)類別和預(yù)測概率來畫的,具體來說,ROC曲線的x軸是偽陽性率(FP/(TN+FP)),y軸是真陽性率(TP/(TP+FN));AUC(Area Under Curve)被定義為ROC曲線下的面積。簡單地說,AUC值越大的分類器,正確率越高。

        2 CPD-SMOTE類不平衡數(shù)據(jù)處理算法

        通過上述介紹,SMOET算法充分考慮小樣本的分布,新增的樣本不影響小樣本的分布。然而該算法未考慮小樣本與大樣本的交叉區(qū)域,最終形成的數(shù)據(jù)集將改變原有數(shù)據(jù)集的分布,而影響分類算法的準(zhǔn)確性[5-6]。

        本文提出一種改進(jìn)型SMOET——CPD-SMOTE。CPD-SMOTE通過考慮訓(xùn)練集小樣本Si的特征、位置及其周圍樣本分布,來確定Si的強(qiáng)相關(guān)鄰居集SCNi。以SCNi作為SMOTE最近鄰居集,產(chǎn)生新的小樣本。這里強(qiáng)相關(guān)鄰居集SCNi滿足:

        1)SCNi每個(gè)元素都為小樣本特征向量;

        2) 對(duì)于SCNi每個(gè)元素Ck,Ck與Si組成的超矩陣中不包含大樣本特征向量。

        其算法如下:

        算法1強(qiáng)相關(guān)鄰居集確定算法

        輸出:所有小樣本的強(qiáng)相關(guān)鄰居集{SCN1,SCN2,…,SCNs}。

        4: i=1;

        5: For j in[2,s]

        6: 判斷zi與zj組成超矩陣中,是否包含Λ中的值;

        7: 若不包含,則將zj加入到SCNi集合中;

        8: Fori in[2,s-1]

        9: For j in[1,i-1]

        10: 判斷SCNj中是否包含zi

        11: 若包含,則將zi加入到SCNj集合中;

        12: For j in[i+1,s]

        13: 判斷zi與zj組成超矩陣中,是否包含Λ中的值;

        14: 若不包含,則將zj加入到SCNi集合中;

        15: i=s;

        16: For j in[1,s-1]

        17: 判斷SCNj中是否包含zi

        18: 若包含,則將zi加入到SCNj集合中;

        19: 若不包含,則將zj加入到SCNi集合中;

        20: 計(jì)算非空強(qiáng)相關(guān)鄰居集中元素?cái)?shù)量平均值k;

        21: 對(duì)于所有為空的強(qiáng)相關(guān)鄰居集SCNi

        22: 從大樣本集Λ中隨機(jī)挑選k個(gè)zi(小樣本)的最近鄰居Λ′

        23: 對(duì)于Λ′中的所有uj

        24: 取α為n維向量,元素取值為[0,0.5]之間的隨機(jī)值;

        25:znew=zi+(uj-zi)×α

        26: 將znew加入到SCNi中

        下面通過二維圖簡單說明強(qiáng)相關(guān)鄰居節(jié)點(diǎn)選擇方法,如圖1所示。

        圖1 小樣本x1的強(qiáng)相關(guān)鄰居節(jié)點(diǎn)選擇示意圖

        圖1中,實(shí)心圓表示小樣本節(jié)點(diǎn),空心圓表示大樣本節(jié)點(diǎn)。通過上述強(qiáng)相關(guān)鄰居集確定算法,判斷x2是否是x1的強(qiáng)相關(guān)節(jié)點(diǎn)的依據(jù)是由x2與x1組成的超矩陣中,是否包含大樣本節(jié)點(diǎn)確定的。從圖中看出x2滿足該條件,故可將x2加入x1的強(qiáng)相關(guān)鄰居集SCN1中。同理,x3也為SCN1的元素,而x4將不會(huì)被選到SCN1中。雖然x4到x1的距離小于x3,但是x4與x1之間存在大樣本節(jié)點(diǎn)。若不考慮大樣本節(jié)點(diǎn)的存在,采用傳統(tǒng)的SMOTE,在x4與x1連線上隨機(jī)產(chǎn)生新的節(jié)點(diǎn),將影響大樣本的分布,進(jìn)而影響整個(gè)樣本空間的分布。采用本文中的提出強(qiáng)相關(guān)鄰居集確定算法,x4將不會(huì)被納入到SCN1。然后,將SCN1作為SMOTE算法中鄰居集產(chǎn)生新的小樣本節(jié)點(diǎn)仍服從原來的分布。對(duì)于x5,根據(jù)上述判斷條件,將不存在符合條件的鄰居,所得到的強(qiáng)相關(guān)鄰居集為空??紤]到這種情況,本算法充分考慮節(jié)點(diǎn)鄰居數(shù)量均衡的特點(diǎn),首先計(jì)算非空強(qiáng)相關(guān)鄰居集中元素?cái)?shù)量平均值k,然后從大樣本集中隨機(jī)挑選k個(gè)x5最近鄰居,其次從x5與每個(gè)鄰居的連線不超過一半(x5為起點(diǎn))上隨機(jī)挑選一個(gè)點(diǎn)作為x5的強(qiáng)相關(guān)鄰居。至此,每個(gè)小樣本的強(qiáng)相關(guān)鄰居集都已確定。接下來將得到的強(qiáng)相關(guān)鄰居集作為SMOTE算法中鄰居集,完成新樣本的生成,其算法過程如下:

        算法2CPD-SMOTE算法

        1: 設(shè)α為n維向量,元素取值為[0,1]之間的隨機(jī)值;

        2: 使用上述強(qiáng)相關(guān)鄰居集確定算法,得出強(qiáng)相關(guān)鄰居集{SCN1,SCN2,…,SCNs}

        3: Fori從1到N

        4: 隨機(jī)挑選小樣本Φ中的點(diǎn)zj:

        5: 對(duì)于SCNi中元素zj

        6:znew=zi+(zj-zi)×α

        7: 將這些新的點(diǎn)加入S中

        3 實(shí)驗(yàn)設(shè)置與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)采用來自Kaggle上的兩個(gè)數(shù)據(jù)集,paySim和CreditCard Fraud Detection。

        數(shù)據(jù)集paySim一種移動(dòng)金融交易數(shù)據(jù)數(shù)據(jù)集,該數(shù)據(jù)集包括總樣本數(shù)6 362 620個(gè),其中正常交易樣本數(shù)為6 354 407,欺詐交易樣本數(shù)為8 237個(gè),比例為772∶1。paySim數(shù)據(jù)集字段表如表2所示。

        表2 字段含義表

        數(shù)據(jù)集CreditCard Fraud Detection為信用卡交易數(shù)據(jù)。該數(shù)據(jù)集包含兩天內(nèi)發(fā)生的交易,其中284 807筆交易中有492筆被盜刷。數(shù)據(jù)集為不平衡數(shù)據(jù)集,類(被盜刷)占所有交易的0.172%。它只包含作為PCA轉(zhuǎn)換結(jié)果的數(shù)字輸入變量。該數(shù)據(jù)集屬性除了時(shí)間和金額保留原始值,其他屬性采用PCA轉(zhuǎn)換進(jìn)行了變換,轉(zhuǎn)換特征V1,V2,…,V28,特征“Class”為響應(yīng)變量,如果發(fā)生被盜刷,則取值1,否則為0。

        通過上述分析,這兩類數(shù)據(jù)均為不平衡數(shù)據(jù)集。

        3.2 實(shí)驗(yàn)分析

        paySim數(shù)據(jù)集和CreditCard Fraud Detection數(shù)據(jù)集都給出了目標(biāo)列,為監(jiān)督學(xué)習(xí)的應(yīng)用場景。是否是欺詐交易或信用卡是否被盜刷是一個(gè)二元分類問題,本文選用基分類算法是支持向量機(jī)SVM算法作為基分類器[7-8]。

        為了驗(yàn)證CPD-SMOTE算法與其他幾種類不平衡處理算法SMOTE、Borderline-SMOTE、ADASYN、LN-SMOTE的性能,本文構(gòu)建的分類算法模型首先分別通過這些算法將數(shù)據(jù)進(jìn)行類平衡處理,使得數(shù)據(jù)正負(fù)樣本比例均衡。然后分別采用SVM算法對(duì)數(shù)據(jù)分類,并采用10倍交叉驗(yàn)證方法驗(yàn)證模型的性能。這里SVM算法采用skik-learn算法集中,表3-表5分別給出了不同算法在兩個(gè)數(shù)據(jù)集上評(píng)測指標(biāo)均值,包括召回率R、F-Measure與AUC均值。實(shí)驗(yàn)結(jié)果表明,相比其他類平衡處理算法,CPD-SMOTE算法效果明顯,學(xué)習(xí)性能更優(yōu)。

        表3 基分類器為SVM下的不同算法的召回率R均值

        表4 基分類器為SVM下的不同算法的F-Measure均值

        表5 基分類器為SVM下的不同算法的AUC均值

        4 結(jié) 語

        針對(duì)類不平衡情況對(duì)分類器的影響,本文在SMOTE算法的基礎(chǔ)上,提出了CPD-SMOTE算法。該算法通過考慮訓(xùn)練集小樣本的特征、位置及其周圍樣本分布,來確定小樣本的強(qiáng)相關(guān)鄰居集,以此作為SMOTE最近鄰居集,產(chǎn)生新的小樣本,實(shí)現(xiàn)數(shù)據(jù)正負(fù)樣本比例均衡,并采用SVM算法對(duì)數(shù)據(jù)進(jìn)行分類預(yù)測。在相同的基分類器SVM情況下,相比其他4種算法(SOMTE、Borderline-SMOTE、ADASYN、LN-SMOTE),CPD-SMOTE算法在處理不平衡問題時(shí)能提升分類性能。

        猜你喜歡
        分類器分類矩陣
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        教你一招:數(shù)的分類
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        初等行變換與初等列變換并用求逆矩陣
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        久久亚洲私人国产精品va| 91麻豆国产香蕉久久精品| 免费人成在线观看播放国产| 网友自拍人妻一区二区三区三州 | 国产精品毛片无码久久| 天堂av在线免费播放| 在线人妻va中文字幕| 亚洲 欧美 国产 制服 动漫 | 国产丝袜爆操在线观看| 国产69精品久久久久9999apgf | 搡女人真爽免费视频大全| 久久国内精品自在自线图片| 丰满岳乱妇在线观看中字无码 | 日韩乱码人妻无码中文字幕久久| 精品熟女少妇av免费观看| 亚洲精品国产老熟女久久| 日韩精品成人一区二区三区| 中文乱码字幕精品高清国产| 成人区人妻精品一区二区不卡网站| 色窝窝在线无码中文| 中文字幕日本韩国精品免费观看| 新中文字幕一区二区三区| 国产成人aaaaa级毛片| 成人午夜免费无码视频在线观看| 亚洲av男人免费久久| 毛茸茸的女性外淫小视频| 少妇高潮太爽了在线视频| 精品久久久久久中文字幕大豆网| АⅤ天堂中文在线网| 亚洲自拍偷拍一区二区三区| 无码人妻精品一区二区蜜桃网站| 欧美日韩精品乱国产538| 国产啪啪视频在线观看| 久久亚洲av无码精品色午夜| 国产精品美女一区二区三区 | 中国免费看的片| 色偷偷av亚洲男人的天堂| 国产精品nv在线观看| 国产嫩草av一区二区三区| 日韩av精品国产av精品| 啪啪网站免费观看|