亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類融合的不平衡數(shù)據(jù)分類方法

        2015-12-02 03:01:00祿鎧銑
        關(guān)鍵詞:識別率聚類數(shù)量

        祿鎧銑

        (澳門大學(xué))

        0 引言

        不平衡數(shù)據(jù)集的特征就是在數(shù)據(jù)集里有一種樣本的數(shù)量大大小于其他的樣本數(shù)量.對于不平衡數(shù)據(jù)級來說,使用比較傳統(tǒng)的分類手段對其進(jìn)行分類的話,其結(jié)果會十分的傾向多數(shù)類,一般來說,人們極為重視少數(shù)類,如果少數(shù)類被錯分,那么付出的代價十分的大,假如將入侵?jǐn)?shù)據(jù)看作是正常數(shù)據(jù)來對待,有極大幾率會導(dǎo)致不必要的損失.

        在數(shù)據(jù)挖掘與模式識別等等行業(yè)越來越喜歡用聚類算法了.如今聚類算法有很多種,可是,幾乎所有的聚類算法都有明顯的缺陷.因此,該文使用聚類融合技術(shù),用來讓算法更加穩(wěn)定.

        1 基于聚類融合的不平衡數(shù)據(jù)分類方法

        1.1 聚類融合

        最近幾年內(nèi),融合方法大量應(yīng)用在分類和回歸中,而且已經(jīng)進(jìn)入到了聚類行業(yè)中.Fred A L參考傳感器融合與分類器融合的成功經(jīng)驗(yàn),發(fā)現(xiàn)了新的方法.它的詳細(xì)定義就是:把一組數(shù)據(jù)進(jìn)行聚類的不一樣的結(jié)果相互融合,而不會使用該數(shù)據(jù)原來的自身特點(diǎn).

        主要在兩個方面進(jìn)行探究:(1)怎樣生成有效果的聚類成員;(2)怎么對共識函數(shù)進(jìn)行設(shè)計(jì),讓聚類成員能夠合并到一起.具體就是聚類成員之間的區(qū)別,究竟對聚類融合結(jié)果有何影響,是否會影響聚類融合的穩(wěn)定.聚類融合重點(diǎn):

        如果有包括n個對象的數(shù)據(jù)集X={x1,x2,…,xn},使用h次聚類的算法讓X數(shù)據(jù)集能夠得到 h 個結(jié)果,H={C1,C2,…,Ch},當(dāng)中 Ck(k=1,2,…,h)為了可以得出聚類結(jié)果重點(diǎn)在于對第k次算法.將h個聚類成員的不同的聚類結(jié)果加在一起,然后利用比較專業(yè)的共識函數(shù),得出有關(guān)結(jié)果.

        相比于單一算法,聚類融合算法可以得到更好地結(jié)果.

        (1)魯棒性:不論是何種領(lǐng)域與數(shù)據(jù)集,這種方法的平均性能無疑是最強(qiáng)的.

        (2)適用性:聚類結(jié)果是一般是單一聚類方法不能比擬的.

        (3)穩(wěn)定性與確定性評價:聚類結(jié)果有一定的不確定性,可以從融合布局方面來進(jìn)行評估噪聲、孤立點(diǎn)與抽樣,這對于聚類結(jié)果來說,沒有多大的影響.

        (4)并行與可擴(kuò)展性:可以讓數(shù)據(jù)子集并行合并或者是并行聚類,還可以合并分布式的數(shù)據(jù)源聚類結(jié)果或者是數(shù)據(jù)屬性的聚類結(jié)果.

        1.2 不平衡數(shù)據(jù)分類方法

        機(jī)器學(xué)習(xí)行業(yè)的重點(diǎn)探究對象就是分類問題,部分分類方法都日漸成熟,用這些分類方法來對平衡數(shù)據(jù)進(jìn)行分類,肯定可以有不錯的效果.但是,很多行業(yè)里還是有很多不均衡數(shù)據(jù)及存在的.以往傳統(tǒng)分類方法似乎偏向于對多數(shù)類有比較高的識別率,少數(shù)類識別率則相對比較低.所以,對不均衡數(shù)據(jù)集有關(guān)分類問題的探究,必須要找到一些新的手段與辨別準(zhǔn)則.

        不平衡數(shù)據(jù)的分類大致可以分為兩種:以數(shù)據(jù)層面作為基礎(chǔ)與將算法層面作為基礎(chǔ)的方法.

        1.2.1 數(shù)據(jù)層面的處理方法

        數(shù)據(jù)層面的處理方法就是將數(shù)據(jù)進(jìn)行重抽樣,包括兩種處理辦法,分別是過抽樣和欠抽樣.

        一致子集(consistent subset).

        編輯技術(shù)(常用的是W ilson.s editing)

        以及單邊選擇(one-sided selection)等[1-2].

        以上技術(shù)最重要的是啟發(fā)性的使用(加權(quán))歐氏距離和K-近鄰規(guī)則去辨別能夠科學(xué)刪除的樣本.Barandela 等人[3]和 Batista 等人[4]都對以上多種欠抽樣方法進(jìn)行了細(xì)致的試驗(yàn)與深入的探究.Dehmeshki等人[5]發(fā)現(xiàn)了以規(guī)則作為基礎(chǔ)的數(shù)據(jù)過濾技術(shù),實(shí)際上也屬于欠抽樣方法.

        和欠抽樣對立,過抽樣技術(shù)是想方設(shè)法的來讓少數(shù)類的學(xué)習(xí)樣本增多.最具代表的就是Chawla等人[6]發(fā)明的SMOTE 技術(shù).SMOTE 技術(shù)理論就是利用插值產(chǎn)生全新人工樣本,并不是對樣本進(jìn)行復(fù)制.Han等人[7]以此作為參考,發(fā)明了Borderline-SMOTE技術(shù).

        1.2.2 算法層面的處理方法

        根據(jù)有關(guān)記載,我們得知,如今重點(diǎn)集中在四個不一樣的方法,包括代價敏感與單類學(xué)習(xí)、組合方法和支持向量機(jī)方法.

        1.3 算法描述

        所提出分類算法是將聚類融合的不平衡數(shù)據(jù)作為基礎(chǔ),就是 CE-Under,CE-SMOTE與CE-SMOTE+CE-Under方法.

        2 實(shí)驗(yàn)與分析

        2.1不平衡數(shù)據(jù)分類的評價準(zhǔn)則

        精準(zhǔn)度accuracy=(TP+TN)/(TP+TN+FP+FN)是分類問題里經(jīng)常使用的評估標(biāo)準(zhǔn)(見表1).

        表1 混合矩陣

        從上可以得知分類器在數(shù)據(jù)集的整體分類方面的作用,可是不會發(fā)擰出不平衡數(shù)據(jù)集的分類作用.因此,在不平衡數(shù)據(jù)方面,必須要制定更為科學(xué)的評判標(biāo)準(zhǔn),經(jīng)常使用的標(biāo)準(zhǔn)包括:查全率 recall、F-value 值、查準(zhǔn)率 precision、G-mean值、AUC.屬于少數(shù)類 recall、precision、G-mean、F-value值的計(jì)算手段如下:

        F-value可以說是不平衡數(shù)據(jù)集學(xué)習(xí)里比較有效地評判標(biāo)準(zhǔn),它將Recall與Precision相互組合,當(dāng)中β是可調(diào)參數(shù),一般取值為1.只有在Recall與Precision的值比較大的時候,F(xiàn)-value才會更大,所以它可以準(zhǔn)確的反映出少數(shù)類的分類作用.另外,G-mean也如F-value一樣,是比較有效的評判標(biāo)準(zhǔn),它是少數(shù)類里TP/(TP+FN)和多數(shù)類里TN/(TN+FP)的乘積的平方根,當(dāng)這兩者的值都比較大的時候,G-mean才會變得更大,所以G-mean可以科學(xué)的評判不平衡數(shù)據(jù)集的整體分類作用.

        2.2 實(shí)驗(yàn)結(jié)果與分析

        在該文里,選擇十個少數(shù)類與多數(shù)類樣本比例不均衡的UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集做實(shí)驗(yàn),每個數(shù)據(jù)集的基本信息見表2.在表2里,N是樣本的數(shù)量總和,NMIN是少數(shù)類樣本的數(shù)量,NMAJ為多數(shù)類樣本的數(shù)量,CD是少數(shù)類與多數(shù)類的樣本比例,NA為屬性數(shù)量(包括類別屬性).

        表2 數(shù)據(jù)集的基本信息

        在試驗(yàn)里,與C4.5決策樹算法(直接對原數(shù)據(jù)集進(jìn)行分類學(xué)習(xí))和七類不均衡數(shù)據(jù)分類方法的作用作比較.上文所述不平衡數(shù)據(jù)分類方法全部利用C4.5決策樹算法,分類學(xué)習(xí)重抽樣后的數(shù)據(jù)集.

        為了能夠讓上述的不均衡數(shù)據(jù)分類方法的比較更具客觀性,下面全部的實(shí)驗(yàn)數(shù)據(jù)都是10折交叉驗(yàn)證之后得出的結(jié)論.

        使用weka軟件里的Simple Means聚類算法來多次聚類數(shù)據(jù).對一致性系數(shù)CI閾值α進(jìn)行聚類,之后取全部樣本的平均數(shù)值.依據(jù)過抽樣率與欠抽樣率的概念我們可以知道,SMOTE方法產(chǎn)生的合成樣本數(shù)量和原有少數(shù)類樣本數(shù)量一模一樣,就是全部少數(shù)類樣本數(shù)量多出了一倍,而Random Under方法剔除的多數(shù)類樣本數(shù)量則是原有多數(shù)類樣本的一半.為了能夠?qū)⑦^抽樣與欠抽樣后的數(shù)據(jù)集作比較,該論文對不平衡程度指標(biāo)I-degree做出定義,它的數(shù)值就是數(shù)據(jù)集里少數(shù)類與多數(shù)類樣本的比值,I-degree的值越高代表著數(shù)據(jù)集里少數(shù)類樣本數(shù)量越大,多數(shù)類樣本的數(shù)量越少.當(dāng)I-degree值幾乎等于1的時候,代表著數(shù)據(jù)集里面的多數(shù)類與少數(shù)類的樣本數(shù)量比較均衡.圖1顯示十個UCI的初始數(shù)據(jù)集OldDataSet和使用CE-SMOTE+CEUnder,CE-SMOTE與CE-Under方法進(jìn)行重抽樣之后數(shù)據(jù)集的I-degree值,而且每種I-degree值全部經(jīng)過10折交叉驗(yàn)證之后得出的結(jié)論.從圖1我們可以知道,該論文所提出的CESMOTE+CE-Under、CE-SMOTE 與 CE-Under方法都能夠讓數(shù)據(jù)集不平衡的程度有所降低.因?yàn)镃E-SMOTE+CE-Under方法可以對少數(shù)類與多數(shù)類同時做處理,所以進(jìn)行重抽樣之后數(shù)據(jù)集I-degree值是最高的,而CE-SMOTE方法的I-degree值稍微高于CE-Un-der方法的I-degree值.

        圖1 10個數(shù)據(jù)集的I-degree值

        表3 8種方法在10個UCI數(shù)據(jù)集的少數(shù)類F-value值對比

        表4 8種方法的G-mean值對比

        表3與表4分別列舉了8種方法在十個UCI數(shù)據(jù)集上的少數(shù)類F-value值與數(shù)據(jù)集總體的G-mean值.而表中最底部的一行則列舉出了每一個方法在全部數(shù)據(jù)集里的平均結(jié)果.對于每一個數(shù)據(jù)集來說,分別得來對結(jié)合法、過抽樣法與欠抽樣法里每一種方法的F-value與G-mean值做對比,同時用黑體字來代表這三種方法里最高的F-value與G-mean值.

        從表3與表4當(dāng)中可以知道,上文提到的七類不平衡數(shù)據(jù)分類方法的少數(shù)類F-value值與數(shù)據(jù)集總體的G-mean值比原始數(shù)據(jù)集進(jìn)行分類的C4.5算法都要高..

        三種方法經(jīng)過橫向?qū)Ρ瓤梢缘贸鋈缦陆Y(jié)果,結(jié)合法里面的CE-SMOTE+CE-Under方法很顯然要比SMOTE+RandomUnder方法更加優(yōu)秀,而欠抽樣法里面的CE-Under方法一般來說要比Random Under方法更具優(yōu)勢.把三種方法進(jìn)行縱向?qū)Ρ龋覀兊贸龅慕Y(jié)論是,過抽樣法與結(jié)合法作比較,欠抽樣法則更具優(yōu)勢,同時結(jié)合法與過抽樣法的少數(shù)類F-value值與G-mean值相對比較大,綜上所述,上文提出的這些方法都是極為優(yōu)秀的方法.

        總之,該論文提到的有關(guān)基于聚類融合的不平衡數(shù)據(jù)分類方法的識別率相對較高,特別是對于部分少數(shù)類和部分?jǐn)?shù)據(jù)集總體也有著不錯的識別率.通過一系列的實(shí)驗(yàn),并且對比各個實(shí)驗(yàn)數(shù)據(jù),我們可以得出以下的結(jié)論,CE-SMOTE+CE-Under方法與CE-SMOTE方法對不平衡數(shù)據(jù)集的分類作用比較強(qiáng),CE-Under方法則相對較弱,但是它的對比算法與其他的算法相比更具優(yōu)勢,這類方法的優(yōu)勢還是比較多的,不論在不一樣的過抽樣率、還是不一樣的欠抽樣率下乃至是聚類次數(shù)下,這種方法的少數(shù)類F-value值總是十分的穩(wěn)定.綜上所述,筆者提出的有關(guān)基于聚類融合的不平衡數(shù)據(jù)分類方法在不同條件下都可以良好降低數(shù)據(jù)集的不平衡程度,同理,在數(shù)據(jù)集整體G-mean值不下調(diào)的情況下,可以讓少數(shù)類的F-value值有所提升,這對多數(shù)類和少數(shù)類的均值都有不錯的識別率.

        [1] Batista G E A P A,Pratir C,MONARDM C.A study of the behavior of several methods for balancing machine learning training data[J].Slgkdd Explorations,2004,6(1):20-29.

        [2] KuBatm,Matwin S.Addressing the curse of imbalanced training sets:one-sided selection[C]//Proc of 14th International Conference on Machine Learning(ICML.97).Nashville:[s.n.],1997.179-186.

        [3] Barandela R,Valdovindos R M,Snchez J S,et al.The imbalanced training sample problem:under or over sampling[C]//Proc of International Workshops on Structura,l Syntactic,and Statisti cal Pattern ecognition(SSPR/SPR.04).Lisbon:[s.n.],2004,806-814.

        [4] Batista G E A P A,Pratir C,Monardm C.A study of the behavior of several methods for balancing machine learning training data[J].S IGKDD Explorations,2004,6(1):20-29.

        [5] Dehmeshki J,Karak Y M,Casique M V.A rule-based scheme for filtering examples from majority class in an imbalanced training set[C] //Proc of MLDM,2003.215-223.

        [6] Chawlanv,Halllo,Bowyer K W,et al.Smote:synthetic minority over sampling technique[J].Journal of Articial Intelligence Research,2002,16:321-357.

        [7] Han H,Wang Wenyuan,Mao Binghuan.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[C] //Proc of International Conference on Intelligent Computing(ICIC.05).Hefe:i[s.n.],2005.878-887.

        猜你喜歡
        識別率聚類數(shù)量
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        統(tǒng)一數(shù)量再比較
        提升高速公路MTC二次抓拍車牌識別率方案研究
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
        頭發(fā)的數(shù)量
        基于改進(jìn)的遺傳算法的模糊聚類算法
        我國博物館數(shù)量達(dá)4510家
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        亚洲加勒比无码一区二区在线播放| 亚洲国产天堂久久综合网| 欧美精品中文字幕亚洲专区| 亚洲人成网站色www| 久久久噜噜噜www成人网| 国产精品亚洲A∨天堂| 无码人妻专区一区二区三区| 中文字幕在线乱码日本| 激情五月婷婷一区二区| 亚洲精品白浆高清久久久久久| 中文字幕日本最新乱码视频| 9999毛片免费看| 亚洲精品日本久久久中文字幕| 蜜桃臀av一区二区三区| 成人性生交大片免费看96| 99精产国品一二三产品香蕉| 国产精品白浆无码流出| 国产精品三级1区2区3区 | 免费一区啪啪视频| 中文亚洲成a人片在线观看| 日本午夜艺术一区二区| 久久久久亚洲精品无码蜜桃| 五十路熟妇亲子交尾| 中出高潮了中文字幕| 蜜桃色av一区二区三区麻豆 | 日本一区二区三区在线视频观看| 亚洲男人天堂一区二区| 欧美大肥婆大肥bbbbb| 97在线视频免费| 亚洲国产精品日韩av专区| 欧美亚洲日本国产综合在线美利坚 | 色欲AV无码久久精品有码| 日本韩国一区二区高清| 亚洲 欧美 国产 制服 动漫| 欧美z0zo人禽交欧美人禽交| 黑丝美女喷水在线观看| 五月开心婷婷六月综合| 一本一道波多野结衣一区| 午夜亚洲国产理论片亚洲2020| 中文字幕在线人妻视频| 久久伊人最新网址视频|