亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向不平衡數(shù)據(jù)流的動態(tài)權(quán)重集成分類算法

        2020-09-03 08:38:28董明剛
        關(guān)鍵詞:小類數(shù)據(jù)流分類器

        董明剛,張 偉,敬 超

        1(桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,廣西 桂林 541004)

        2(嵌入式技術(shù)與智能系統(tǒng)重點實驗室,廣西 桂林 541004)E-mail:jingchao@glut.edu.cn

        1 引 言

        近年來隨著信息技術(shù)在交通管制、垃圾郵件檢測等領(lǐng)域的應(yīng)用,產(chǎn)生了大量具有動態(tài)變化的數(shù)據(jù)流[1].這些動態(tài)的數(shù)據(jù)流中存在著大量類分布不均衡問題.同時相比于靜態(tài)數(shù)據(jù)流的數(shù)據(jù)分布,該類型數(shù)據(jù)流中的數(shù)據(jù)分布會隨著真實環(huán)境實時發(fā)生變化,從而導(dǎo)致概念漂移問題[2-4].目前,國內(nèi)外很多研究者針對這類問題做了深入的研究,他們的研究重點主要是圍繞:數(shù)據(jù)預(yù)處理、分類算法以及采用集成分類器三個層面來進(jìn)行.

        對于數(shù)據(jù)的預(yù)處理方法,Gao[5]等人設(shè)計了一個估計后驗概率的采樣模型,以此來使小類樣本與大類樣本達(dá)到平衡.Wang[6]等人提出通過下采樣技術(shù),從大類樣本中按照Bootstrap方法隨機(jī)挑選相當(dāng)于正類樣本數(shù)量的樣本形成平衡的數(shù)據(jù)對,以此解決不平衡問題.Chen[7]等人提出SERA算法,通過選擇性的將先前的接收到的正類樣本放到當(dāng)前數(shù)據(jù)塊中,這樣可以較好的解決數(shù)據(jù)不平衡問題.對于分類器層面的改進(jìn)方法,Yu[8]等人提出一種層次假設(shè)檢驗框架-HHT去識別概念漂移類型,后又基于此框架提出HLFR算法.該算法使用自適應(yīng)訓(xùn)練策略代替常用的重訓(xùn)練策略在應(yīng)對不同的概念漂移類型的適應(yīng)性方面有良好的表現(xiàn).Wang[9]等人通過下采樣技術(shù)來處理不平衡數(shù)據(jù)流問題,通過動態(tài)修改分類器的權(quán)重使分類器具有良好的準(zhǔn)確性.使用下采樣技術(shù)能夠減少運行時間,提高效率,同時動態(tài)修改分類器的權(quán)重能夠很好的適應(yīng)新的數(shù)據(jù)概念,使得分類器具有很強(qiáng)的魯棒性.

        相比之下,集成分類算法由于集成多個基分類器共同決策,因此能很好地處理概念漂移問題[10]:Ditzler[11]等人提出Learn++.CDS和Learn++.NIE,他們采用將數(shù)據(jù)流中到達(dá)一定數(shù)量的數(shù)據(jù)封裝成數(shù)據(jù)塊的方法,并為每個數(shù)據(jù)塊單獨創(chuàng)建一個子分類器,通過基分類器的組合集成來預(yù)測新傳入的數(shù)據(jù)的標(biāo)簽.基分類的權(quán)重隨時間的增加和分類性能的降低而減少.Kolter[12]等人提出DWM算法,提出了一種基于基分類器加權(quán)求和算法的通用框架,DWM在分類過程中保持基分類器不變,其權(quán)重在不同的數(shù)據(jù)塊上不斷地修改,并通過權(quán)重與分類器的加權(quán)求和進(jìn)行樣本預(yù)測,通過使用動態(tài)訓(xùn)練分類器權(quán)重解決概念漂移問題.Wu[13]等人提出了DFGW-IS算法,該算法通過在基分類器中運用采樣技術(shù)來解決數(shù)據(jù)不平衡問題,然后對基分類器加權(quán)來解決數(shù)據(jù)概念動態(tài)變化的問題.Ghazikhani[14]等人通過使用遞歸最小二乘(RLS)誤差模型來處理數(shù)據(jù)流的概念漂移問題,通過調(diào)整基分類器的加權(quán)誤差解決類不平衡問題.當(dāng)前數(shù)據(jù)流分類算法主要聚焦在集成分類算法[15-18],該類型算法使用便捷,容易部署,且效果比單分類器更突出,能很好地解決概念漂移問題.

        綜上所述,在數(shù)據(jù)流的分類中,通常有兩方面的困難,第一數(shù)據(jù)流中類分布不平衡,需要一種機(jī)制來克服類不平衡,以提高總體性能,第二需要動態(tài)調(diào)整學(xué)習(xí)機(jī)制來適應(yīng)類概念的轉(zhuǎn)變,即概念漂移問題.為了能夠同時處理這兩類問題,Yang[19]等人提出了一種動態(tài)加權(quán)的集成分類算法(Dynamic Weighted Majority for Incremental Learning,簡稱DWMIL),該算法能同時較好地處理數(shù)據(jù)流分類中存在的概念漂移和數(shù)據(jù)不平衡問題,但該方法在處理數(shù)據(jù)流時每個樣本只處理一次,這樣做雖然節(jié)省了數(shù)據(jù)運算空間,但會丟失很多關(guān)于小類樣本的信息,影響了小類樣本的識別精度,Chen[20]等人提出REA算法,通過實驗驗證將小類樣本收集起來根據(jù)某種規(guī)則再次應(yīng)用能很好地提高分類器對小類樣本的識別度,因此采用某種機(jī)制犧牲一部分運算空間,將之前的小類樣本保存下來應(yīng)用于分類器的訓(xùn)練能提高對小類樣本的識別度.

        為了有效處理帶有概念漂移的不平衡數(shù)據(jù)流,基于DWMIL模型,提出了基于采樣技術(shù)的集成分類算法DWES(Dynamic Weight Ensemble Learning Method Based on Sampling Technology).本文的主要貢獻(xiàn)為:

        1)采用上采樣技術(shù)與下采樣技術(shù)結(jié)合的方式來平衡數(shù)據(jù)塊:假設(shè)數(shù)據(jù)流以數(shù)據(jù)塊的方式到達(dá),在對當(dāng)前數(shù)據(jù)訓(xùn)練分類器的時候,上采樣將之前的小類樣本收集起來,篩選滿足一定條件的樣本加上當(dāng)前小類樣本形成當(dāng)前數(shù)據(jù)塊的合成小類樣本,然后大類樣本采用下采樣技術(shù)每次抽取等同于當(dāng)前數(shù)據(jù)塊合成小類樣本數(shù)量的樣本,以此來形成一個平衡的數(shù)據(jù)對,用這個平衡的數(shù)據(jù)塊來訓(xùn)練分類器.

        2)調(diào)整了基分類器的權(quán)重計算方式,通過熵值計算能影響綜合性能的評價指標(biāo),使用這個評價指標(biāo)來計算該分類器的權(quán)重,這樣做能使分類效果好的分類器有更高的權(quán)重,淘汰效果差的分類器.

        3)通過馬氏距離計算先前小類樣本集與當(dāng)前小類樣本的相似性,挑選相似性高的樣本,樣本數(shù)量由計算得到的馬氏距離集合的均方差來確定.

        2 相關(guān)工作

        2.1 DWMIL集成分類器

        圖1 DWMIL集成分類器流程圖

        2.2 數(shù)據(jù)流的采樣方法

        采樣技術(shù)是處理不平衡數(shù)據(jù)流的有效方法,一般分為上采樣方法跟下采樣方法.上采樣方法SMOTE[22]或者DataBoost-IM[23]基于存在的實例樣本來合成新的實例樣本點.這種合成新樣本的方式有可能產(chǎn)生噪聲樣本,影響分類的精度.為了改善這個缺陷,REA算法不通過產(chǎn)生新樣本來平衡數(shù)據(jù),而是根據(jù)一定的規(guī)則選取歷史樣本中的點,以此達(dá)到樣本平衡的效果.REA這種方式減少了噪聲點的影響,加強(qiáng)了對小類樣本的識別能力,在實際應(yīng)用中取得了很好的效果.下采樣方法一般采用UOB或者OOB,其基本思想是從大類樣本中按照Bootstrap方法隨機(jī)挑選相當(dāng)于正類樣本數(shù)量的樣本形成平衡的數(shù)據(jù)對,以此解決不平衡問題.

        2.3 馬氏距離

        馬氏距離[24]是一種無量綱的計算兩個未知樣本之間相似度的度量,他考慮了樣本各個屬性之間的聯(lián)系,能很好地反映樣本的之間的關(guān)聯(lián)程度.設(shè)樣本集合u,其中μ是樣本總體的均值,Σ為樣本的協(xié)方差矩陣,則樣本x到u的馬氏距離計算公式如公式(1)所示:

        (1)

        綜上,采用上采樣技術(shù)增加小類樣本的數(shù)量,同時根據(jù)小類樣本的數(shù)量對大類樣本進(jìn)行下采樣,減少大類樣本的數(shù)量可以很好的解決不平衡數(shù)據(jù)問題.對生成的基分類器進(jìn)行動態(tài)權(quán)重調(diào)整能使最終的分類器很快的適應(yīng)新的數(shù)據(jù)流樣本,解決概念漂移問題.

        3 基于采樣技術(shù)的集成分類算法DWES設(shè)計與分析

        在對不帶標(biāo)簽的數(shù)據(jù)流進(jìn)行分類的時候,DWMIL集成分類器既能保持較高的分類精度,也能保證在數(shù)據(jù)流發(fā)生概念漂移的時候有較好的分類效果,但是在處理數(shù)據(jù)塊的時候DWMIL集成分類器將之前的用過的數(shù)據(jù)塊中小類樣本全部拋棄,這樣做雖然節(jié)省了計算的存儲空間但是會損失一部分小類樣本的數(shù)據(jù)特征,影響分類精度.并且在其進(jìn)行分類器篩選的時候僅用到一個評價指標(biāo)(G-mean/F-Value),其不能合理地決定分類器的權(quán)重.基于DWMIL集成分類器,充分利用之前用過的小類樣本,本文提出了一種集成分類算法--DWES算法.該算法上采樣歷史中存儲的小類樣本,下采樣該數(shù)據(jù)塊中的大類樣本形成平衡的樣本對,然后根據(jù)訓(xùn)練的分類器的表現(xiàn)不斷調(diào)整分類器權(quán)重以適應(yīng)新的樣本.

        3.1 DWES的采樣策略

        假設(shè)數(shù)據(jù)流以塊的方式到達(dá),將當(dāng)前整個數(shù)據(jù)塊看作是訓(xùn)練集,將下一個將要到達(dá)的數(shù)據(jù)塊整體看作是測試集,數(shù)據(jù)流中只有正類、負(fù)類兩種類標(biāo)識,正類樣本在每個數(shù)據(jù)塊中相較于負(fù)類樣本占比例較少,令t表示某一時間戳,D(t-1)表示在時間戳為t-1時到達(dá)的數(shù)據(jù)塊,下一時刻到達(dá)的數(shù)據(jù)塊為D(t),則數(shù)據(jù)流為{…,D(t-1),D(t),D(t+1),…}.DWES集成分類器的采樣過程如下(采樣框架如圖2所示).

        圖2 DWES的采樣流程

        1)上采樣:在上采樣的過程中我們將數(shù)據(jù)塊{D(1),D(2),…,D(t-1)}中正類樣本塊{DNp1,DNp2,…,DNp(t-1)}收集起來放入集合PA中,當(dāng)新的數(shù)據(jù)塊D(t)到達(dá)的時候?qū)⑶懊?至t-1時間段內(nèi)收集的正類樣本PA用于當(dāng)前數(shù)據(jù)塊D(t).當(dāng)數(shù)據(jù)塊D(t)(t>2)到達(dá)的時候,根據(jù)馬氏距離(公式1)計算當(dāng)前數(shù)據(jù)塊中正類樣本DNp與集合PA中所有樣本的馬氏距離,挑選出其馬氏距離小于馬氏距離均方差的樣本Pat加入到當(dāng)前數(shù)據(jù)塊的正類樣本中得到當(dāng)前數(shù)據(jù)塊合成的正類樣本Dp=Pat+DNpt.

        2)下采樣:根據(jù)當(dāng)前數(shù)據(jù)塊中合成的正類樣本數(shù)量選取當(dāng)前數(shù)據(jù)塊中等量的負(fù)類樣本組成平衡的樣本對進(jìn)行分類器的訓(xùn)練.

        DWES集成分類算法的基于上采樣與下采樣結(jié)合的分類器構(gòu)造過程偽代碼如算法1所示.

        算法 1.

        輸入:數(shù)據(jù)塊DataD={xi∈X,yi∈Y},i=1,…,N,數(shù)據(jù)塊D中正類樣本數(shù)量為NP;數(shù)據(jù)塊D中正類樣本為DNp,數(shù)據(jù)塊D中大類樣本數(shù)量為Nn,數(shù)據(jù)塊中D中大類樣本為DNn,數(shù)據(jù)塊D訓(xùn)練基分類器的大小為T.

        1.t=1;

        2.ifNP

        3.Ns←NP;PA=DNp;

        4.else

        5.Ns←Nn;PA=DNn;

        6.endif

        7.fort← 2toTdo

        8.ifNP

        9.Ns←NP;Dn=DNp;

        10.else

        11.Ns←Nn;Dn=DNn;

        12.endif

        13.di←計算當(dāng)前小類樣本Dn與之前記錄的所有小類樣本PA之間的馬氏距離;

        14.DCOV←計算{di}的協(xié)方差;

        15.(Ne,Dempty)←從之前記錄的小類樣本PA中挑選{di}小于DCOV的樣本,得到樣本集Dempty,樣本集的數(shù)量為Ne;

        16.PA={PA,Dn};

        17.Dp←從(DNp+Dempty)樣本中采用Bootstrap算法隨機(jī)挑選(Ns+Ne)個樣本;

        18.Dn←從DNn樣本中采用Bootstrap算法隨機(jī)挑選(Ns+Ne)個樣本;

        19.Ht←{Dp,Dn}組成最終需要訓(xùn)練的樣本集合,之后采用CART算法訓(xùn)練分類規(guī)則;

        20.endfor

        3.2 DWES的權(quán)重制定策略

        (a)數(shù)據(jù)歸一化公式如公式(2)所示:

        (2)

        其中i的取值范圍是[1,n],j的取值范圍是[1,m].i表示連續(xù)到達(dá)的第i個數(shù)據(jù)塊,j表示某種評價指標(biāo),在這里選取的評價指標(biāo)P={G-Mean、F-measure、Precision、Recall,NPcost[18]}.

        (b)計算評價標(biāo)準(zhǔn)中第j項評價指標(biāo)所占該類型評價指標(biāo)的比重,其公式計算如公式(3)所示:

        (3)

        (c)計算第j項評價指標(biāo)的熵值如公式(4)所示:

        (4)

        (d)計算第j項評價指標(biāo)的權(quán)值如公式(5)所示:

        (5)

        其中g(shù)j表示第j項評價標(biāo)準(zhǔn)的差異系數(shù)其計算方式為:gj=1-ej,當(dāng)指標(biāo)在不同數(shù)據(jù)塊中差異越大代表對評測的最終結(jié)果影響越大,熵值越小.

        (e)計算各評價標(biāo)準(zhǔn)的綜合評分值如公式(6)所示:

        (6)

        選取綜合評價值高的評價標(biāo)準(zhǔn)作為基分類器對樣本錯分類的代價其計算方式如公式(7)所示:

        ε(t)=1-Pj

        (7)

        權(quán)重的計算公式為如公式(8)所示:

        (8)

        (9)

        DWES的具體流程的偽代碼如算法2所示.

        算法 2.DWES算法

        1.fori←1 toNdo;

        2.通過基分類器預(yù)測Xi的標(biāo)簽:

        3.endfor

        4.forj←1 tomdo

        6.更新分類器的權(quán)重:

        7.endfor

        8.移除權(quán)值低于θ的基分類器:

        10.創(chuàng)建新的分類器,初始化分類器權(quán)重為1;

        11.m←m+1;

        12.H←將(D(t),T)傳給基于上采樣與下采樣的分類器;

        13.H(t)←H(t-1)∪H;

        3.3 DWES算法復(fù)雜度分析

        在上采樣過程中,由于計算當(dāng)前正類樣本與之前正類樣本集之間的馬氏距離是線性的,設(shè)其復(fù)雜度為O(f(np)),其下采樣的算法復(fù)雜度為O(f(nn))則DWES在采樣過程中時間復(fù)雜度為:O(f(np))+O(f(nn)),在訓(xùn)練分類器時計算權(quán)重的復(fù)雜度為O(n*f(n)),故其分類器計算的復(fù)雜度為:m*O(n*f(n)).DWES算法復(fù)雜性為:O((f(np)+f(nn))*n*f(n)*m),m為樣本中數(shù)據(jù)塊的總個數(shù).

        4 實驗分析

        4.1 實驗設(shè)置

        在本實驗中,我們使用了4個合成數(shù)據(jù)流跟兩個真實環(huán)境數(shù)據(jù)流,他們的詳細(xì)信息如表1所示,小類樣本在每個塊中所占的百分比固定在塊大小的 5%.

        表1 六種數(shù)據(jù)流信息表

        本文算法在開源平臺MOA[26](Massive Online Analysis)基礎(chǔ)下實現(xiàn),實驗程序由matlab編寫,實驗程序在CPU為2.4GHz,內(nèi)存為8GB,操作系統(tǒng)為WIN10的PC機(jī)上進(jìn)行實驗.為了驗證DWES的有效性,我們比較了5種權(quán)威的處理帶有概念漂移的不平衡數(shù)據(jù)流的算法:LPN[13]、DWM[14]、DFGW[15]、DWMIL[16]、REA[20],分析它們與DWES算法在6種不同類型數(shù)據(jù)流上的表現(xiàn)情況.DWM在使用時,采用Under-sampling Online Bagging(UOB)算法來進(jìn)行處理.

        DWMIL、DWM、LPN、DWES基分類器大小T設(shè)置為11.DWMIL、DWES分類器的閾值θ設(shè)置為0.001.LPN、DWMIL的誤差函數(shù)ε(t)=1-(GMean),所有算法都通過CART訓(xùn)練基分類器[19].所有的實驗跑10次取平均值.

        4.2 實驗比對與分析

        DWES中利用馬氏距離尋找正類樣本點時,為了找到合適的均方差的閾值上限值,我們分別對不同的均方差閾值上限(DCOV值)進(jìn)行實驗,實驗結(jié)果如圖3所示.

        圖3 DCOV值與AUC值的關(guān)系

        從實驗得出在DCOV值取為7的時候多數(shù)數(shù)據(jù)流達(dá)到AUC值最優(yōu)時刻,因此實驗中我們選取DCOV值為7.

        以AUC、G-Mean、F-measure、Precision為評價指標(biāo),采用先測試后訓(xùn)練的策略對各種算法在每個數(shù)據(jù)塊上進(jìn)行評價.每個數(shù)據(jù)塊的AUC值、G-Mean值、F-measure值如圖4-圖6所示,根據(jù)折線圖可以看出,由于是先測試再訓(xùn)練,因此所有的算法的評價指標(biāo)的初始值是相同的.在AUC評價標(biāo)準(zhǔn)上,DWES算法相較于其他算法,在Moving Gaussian、Hyper Plane、SEA、Electricity、Weather 5個數(shù)據(jù)流上有更好的性能,在Checkerboard數(shù)據(jù)流上與Electricity數(shù)據(jù)流上,跟DWMIL算法平均性能大致相同.相較于DWMIL外的其他算法有更高的精度.在F-Measure評價標(biāo)準(zhǔn)上,由于我們的算法對正類樣本有更好的識別度,因此DWES算法在F-Measure評價標(biāo)準(zhǔn)上性能在6個數(shù)據(jù)流上優(yōu)于其它所有算法.在G-Mean評價標(biāo)準(zhǔn)上,REA算法在Moving Gaussian數(shù)據(jù)流上逐漸減少到0,這是由于其在僅采用上采樣算法處理存儲的小類樣本集,對有些數(shù)據(jù)流的概念漂移問題無法很好地處理.DWES算法在上采樣的同時對大類樣本進(jìn)行下采樣,以此來解決這種問題,因此DWES在這種情況下發(fā)揮更好的性能,相較于其他算法DWES在G-Mean評價標(biāo)準(zhǔn)上表現(xiàn)優(yōu)異,在Checkerboard數(shù)據(jù)流上由于對大類樣本采用下采樣技術(shù),因此降低了對大類樣本的識別度,導(dǎo)致G-Mean值提升不明顯.

        圖4 每個數(shù)據(jù)塊的AUC值

        圖5 每個數(shù)據(jù)塊的F-Measure值

        圖6 每個數(shù)據(jù)塊的 G-Mean值

        各算法的綜合性能表現(xiàn)如表2-表6所示,在AUC評價標(biāo)準(zhǔn)上,DWES對比DWMIL算法在6個數(shù)據(jù)流上平均提升4.07%,其中最好表現(xiàn)在Hyper Plane數(shù)據(jù)流上,對比DWM算法提升了29.64%.在G-Mean評價標(biāo)準(zhǔn)上,DWES對比DWMIL算法在6個數(shù)據(jù)流上平均提升1.74%,總體來說,其中最好表現(xiàn)在Moving Gaussian數(shù)據(jù)流上,對比REA算法提升了44.59%.在F-Measure評價標(biāo)準(zhǔn)上,DWES對比DWMIL算法在6個數(shù)據(jù)流上平均提升20.85%.最好的表現(xiàn)在Checkerboard數(shù)據(jù)流上,對比DWM算法提高了58%.在Precision評價標(biāo)準(zhǔn)上,DWES對比DWMIL算法在6個數(shù)據(jù)流上平均提升29.01%,其中最好表現(xiàn)在Moving Gaussian數(shù)據(jù)流上,對比DFGW算法提升了58.2%.

        表2 AUC值

        DWES算法采用類似REA算法思想選取小部分之前存儲的正類樣本參與到當(dāng)前分類器的訓(xùn)練,并且根據(jù)正類樣本的數(shù)量取相同數(shù)量的負(fù)類樣本形成平衡的樣本對,利用多個平衡的樣本對訓(xùn)練分類規(guī)則組成當(dāng)前數(shù)據(jù)塊的分類器,這樣做相對于僅將部分正類樣本拿到當(dāng)前數(shù)據(jù)塊進(jìn)行訓(xùn)練的REA算法,或者利用自身樣本進(jìn)行上采樣的DFGW算法來講,能夠增加對正類樣本的識別度,并且避免產(chǎn)生噪聲樣本點,DWM、Learn++并沒有對不平衡數(shù)據(jù)進(jìn)行預(yù)處理,使得DWES算法在識別為正類樣本的數(shù)據(jù)中有更多的是真正的正類樣本,因此在Precision評價標(biāo)準(zhǔn)上相對于其他算法表現(xiàn)較好;在對新的數(shù)據(jù)塊做測評時,因為新的數(shù)據(jù)塊中有較多之前沒出現(xiàn)過的正類樣本,或者出現(xiàn)正類樣本與負(fù)類樣本概念互換(即發(fā)生概念漂移)的情況,DWES算法采用基于熵值的權(quán)重修改策略,動態(tài)尋找對綜合表現(xiàn)影響最高的評價指標(biāo),通過評價指標(biāo)值動態(tài)的更新分類器的權(quán)重,并不斷淘汰權(quán)重較低的分類器,相對于僅采用單一評價指標(biāo)來更新分類器的DWM算法和DWMIL算法或者通過時間的增加來減小分類器權(quán)重方法的Learn++算法能夠分別增加正類樣本跟負(fù)類樣本的識別度,使得全部正類樣本被識別為正類樣本的數(shù)量大于其他算法,即Recall值優(yōu)于其他算法;同時也會提高對負(fù)類樣本的識別度,全部負(fù)類樣本中識別為負(fù)類樣本的數(shù)量大于其他算法,又由于Recall值優(yōu)于其他算法,所以G-Mean值相對于其他算法表現(xiàn)較好;F-measure值與Precision值跟Recall值呈正相關(guān)性,由于Precision值跟Recall值均高于其他算法,因此F-measure值也會優(yōu)于其他算法.AUC值是ROC曲線與坐標(biāo)軸圍成的面積,DWES通過多種機(jī)制提高正類樣本的識別度,同時也會提升了負(fù)類樣本的識別度,使得模型的魯棒性更高,ROC去線下的面積相對于其他算法也會較大,最終使得AUC值優(yōu)于其他算法.總體來說,DWES算法對比其他算法在處理帶有概念漂移的不平衡數(shù)據(jù)流問題時有更好的性能.總體來說,DWES算法對比其他算法在處理帶有概念漂移的不平衡數(shù)據(jù)流問題時有更好的性能.

        表3 G-Mean值

        表4 F-Measure值

        表5 Precision值

        表6 時間(秒)

        4.3 算法效率分析

        時間復(fù)雜度對評價在線學(xué)習(xí)算法的性能方面發(fā)揮重要的作用.表6給出了6種算法在六種數(shù)據(jù)流中運行時間,綜合來看DWES算法在運行時間方面相比其他算法排在第三,這是因為DWMIL算法采用基于下采樣的Bagging算法,而DWES在此基礎(chǔ)上還增加了上采樣算法,因此時間花費要多于DWMIL算法,由于REA算法采用單一的決策樹算法,其在某些數(shù)據(jù)集上速度會更快.LNIE使用所有訓(xùn)練的分類器對每個數(shù)據(jù)塊進(jìn)行訓(xùn)練,因此預(yù)測成本會高一些,DWM是最慢的,這是由于它一對一的學(xué)習(xí)方法,而其他算法是基于數(shù)據(jù)塊的,處理時間會快于這種一對一的學(xué)習(xí)方法.

        5 總結(jié)與展望

        類不平衡與概念漂移是數(shù)據(jù)流處理的兩個難點問題.針對帶有概念漂移的不平衡數(shù)據(jù)流問題,本文提出了基于上采樣與下采樣結(jié)合的集成分類算法-DWES,該算法能同時解決數(shù)據(jù)流的不平衡和概念漂移問題,并能提高對小類樣本的辨識度.最后在六個帶有概念漂移的不平衡數(shù)據(jù)流上對比五種權(quán)威的算法,綜合結(jié)果表明DWES算法相比于其他算法在解決帶有概念漂移的不平衡數(shù)據(jù)流上有更高的精度.下一步將探索通過樣本的分布去計算數(shù)據(jù)集的不平衡率,將算法拓展到解決多類數(shù)據(jù)流不平衡問題上去.

        猜你喜歡
        小類數(shù)據(jù)流分類器
        汽車維修數(shù)據(jù)流基礎(chǔ)(下)
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        浙江配電網(wǎng)物資標(biāo)準(zhǔn)化研究與應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
        北醫(yī)三院 數(shù)據(jù)流疏通就診量
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        小類:年輕人要多努力
        大學(xué)(2008年10期)2008-10-31 12:51:10
        久草午夜视频| 人人鲁人人莫人人爱精品| 欧洲美女黑人粗性暴交| 亚洲爆乳无码专区| 免费人人av看| 国产人妖视频一区二区| 浪货趴办公桌~h揉秘书电影| 洗澡被公强奷30分钟视频| 一本大道久久a久久综合| 亚洲另类国产精品中文字幕| 久久午夜av一区二区三区| 亚洲日韩精品无码专区网站| 国产欧美日韩综合一区二区三区| 国产一区二区免费在线观看视频| 超级乱淫片国语对白免费视频| 毛片免费在线观看网址| 久久永久免费视频| 精品久久久久88久久久| 亚洲天堂一二三四区在线| 蜜桃成熟时在线观看免费视频| 国产成人无码免费视频在线 | 97久人人做人人妻人人玩精品| 欧美gv在线观看| 久久婷婷是五月综合色狠狠| 国产一区二区资源在线观看 | 日韩一区二区三区熟女| 3d动漫精品啪啪一区二区免费| 在教室伦流澡到高潮hnp视频| 亚洲最新中文字幕一区| 久久精品日本不卡91| 久久精品免费一区二区三区| 国产女高清在线看免费观看| 91青青草手机在线视频| 成人国产一区二区三区| 播放灌醉水嫩大学生国内精品 | 麻豆成人久久精品二区三区91| 免费a级毛片无码免费视频首页| 国产美女露脸口爆吞精| 99久久精品国产片| 丝袜美腿福利视频在线| 亚洲色国产欧美日韩|