亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向復(fù)雜數(shù)據(jù)流的集成分類綜述

        2022-08-08 05:36:52張喜龍陳志強(qiáng)武紅鑫李慕航
        關(guān)鍵詞:分類方法模型

        張喜龍,韓 萌,陳志強(qiáng),武紅鑫,李慕航

        (北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021)

        傳統(tǒng)的機(jī)器學(xué)習(xí)算法主要處理靜態(tài)數(shù)據(jù),但現(xiàn)有的數(shù)據(jù)多數(shù)以數(shù)據(jù)流的形式出現(xiàn),這改變了人們存儲(chǔ)、通信和處理數(shù)據(jù)的方式。在許多新的應(yīng)用中,人們面臨著不斷變化的數(shù)據(jù)流。例如Web點(diǎn)擊流分析、網(wǎng)絡(luò)日志、交通流量監(jiān)控與管理、電信數(shù)據(jù)管理等[1]。隨著研究人員對(duì)數(shù)據(jù)流的研究,展開(kāi)了對(duì)復(fù)雜數(shù)據(jù)流類型的鉆研。但是,在處理不平衡、高維、有噪聲數(shù)據(jù)時(shí)還是無(wú)法獲得令人滿意的性能。在這種背景下,如何有效地構(gòu)建一個(gè)高效的知識(shí)發(fā)現(xiàn)和挖掘模型成為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要課題。

        集成學(xué)習(xí)是目前的一個(gè)研究熱點(diǎn)內(nèi)容,旨在將數(shù)據(jù)融合、數(shù)據(jù)建模和數(shù)據(jù)挖掘整合到一個(gè)統(tǒng)一的框架。經(jīng)典的數(shù)據(jù)流集成分類算法有在線精度更新集成(online accuracy updated ensemble algorithm, OAUE)[2]、杠桿裝袋(leveraging bagging,LevBag)[3]等。其中有處理概念漂移的流集成算法(streaming ensemble algorithm,SEA)[4]、動(dòng)態(tài)加權(quán)多數(shù)算法(accuracy weighted ensemble,AWE)[5]等;處理不平衡數(shù)據(jù)集的SRE[6]、RE-DI[7]算法等;處理多標(biāo)簽流的分類器鏈集成模型(ensemble of classifier chains,ECC)[8]和處理多實(shí)例數(shù)據(jù)流的OMB(online MIL boosting)[9]算法等。這些都是一些經(jīng)典的復(fù)雜數(shù)據(jù)流集成算法。

        之前已有研究人員對(duì)數(shù)據(jù)流分類研究的綜述。如:Lemaire等[10]從數(shù)據(jù)流的學(xué)習(xí)方式入手,以單分類器處理數(shù)據(jù)流為主要方法,簡(jiǎn)要介紹了常見(jiàn)的數(shù)據(jù)集以及評(píng)估方法;Gomes等[11]對(duì)數(shù)據(jù)流集成分類進(jìn)行了全面綜述,涉及到分類多樣性以及動(dòng)態(tài)更新,主要是針對(duì)概念漂移數(shù)據(jù)流;Iwashita等[12]從穩(wěn)態(tài)到動(dòng)態(tài)數(shù)據(jù)流進(jìn)行展開(kāi),從分類到回歸進(jìn)行詳細(xì)介紹,還對(duì)數(shù)據(jù)流的一些高級(jí)問(wèn)題進(jìn)行了探討。以上數(shù)據(jù)流的綜述,雖然介紹了常見(jiàn)數(shù)據(jù)流的處理方法,但是沒(méi)有細(xì)分?jǐn)?shù)據(jù)流的種類,大多數(shù)還是以處理單類型數(shù)據(jù)流為主要研究對(duì)象,同時(shí)數(shù)據(jù)流的評(píng)估技術(shù)、指標(biāo)只是簡(jiǎn)要提及,沒(méi)有歸納總結(jié)。本文的綜述框架如圖1所示,主要貢獻(xiàn)如下:

        圖1 復(fù)雜數(shù)據(jù)流分類框架

        1)全面歸納近些年集成學(xué)習(xí)研究穩(wěn)態(tài)、概念漂移、不平衡、多標(biāo)簽、多實(shí)例數(shù)據(jù)流,并對(duì)提出的集成算法進(jìn)行對(duì)比。

        2)首次歸納近些年集成學(xué)習(xí)處理文本、圖、傳感器領(lǐng)域數(shù)據(jù)流的算法研究進(jìn)展。

        3)對(duì)復(fù)雜數(shù)據(jù)流用到的驗(yàn)證技術(shù)、評(píng)估指標(biāo)進(jìn)行全面總結(jié)。

        1 復(fù)雜數(shù)據(jù)流集成分類

        訓(xùn)練過(guò)程經(jīng)過(guò)基分類器的組合,然后使用組合策略(例如經(jīng)典的多數(shù)投票)得出最終的預(yù)測(cè)結(jié)果。單分類器在快速到來(lái)的數(shù)據(jù)流中無(wú)法很好適應(yīng)變化,但是集成結(jié)構(gòu)可以使分類模型更加高效[14]。集成學(xué)習(xí)對(duì)不同的復(fù)雜數(shù)據(jù)流會(huì)有不同的實(shí)施策略,使用在線學(xué)習(xí)、塊學(xué)習(xí)以及增量學(xué)習(xí)等關(guān)鍵技術(shù)使模型擬合效果更好。本章將在最后總結(jié)集成學(xué)習(xí)處理復(fù)雜數(shù)據(jù)流算法性能的對(duì)比,從集成方式以及優(yōu)劣勢(shì)等方面進(jìn)行概括。

        數(shù)據(jù)流類型中穩(wěn)態(tài)數(shù)據(jù)流最平穩(wěn),它不需要考慮復(fù)雜情況,逐漸淡出人們的研究熱點(diǎn)。但是一些經(jīng)典的算法值得大家去探討,它是人們?cè)缙谘芯繑?shù)據(jù)流的一種探索。在穩(wěn)態(tài)數(shù)據(jù)流中,使用塊的算法相對(duì)于在線學(xué)習(xí)研究得不多。早期經(jīng)典的Learn++[15]是一種神經(jīng)網(wǎng)絡(luò)分類器集成算法,在很多實(shí)驗(yàn)的對(duì)比算法中被提及。該算法對(duì)到來(lái)的數(shù)據(jù)塊構(gòu)建新的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增量訓(xùn)練,然后采用多數(shù)投票的決策機(jī)制進(jìn)行預(yù)測(cè)。研究人員在分析了Learn++優(yōu)缺點(diǎn)的基礎(chǔ)上,提出了異構(gòu)Bagging++算法[16],它使用Bagging為每個(gè)數(shù)據(jù)塊生成一個(gè)增量集成算法,該算法利用Bagging從傳入的數(shù)據(jù)塊中構(gòu)建新的模型。

        在線學(xué)習(xí)是集成學(xué)習(xí)中常用的技術(shù),在線學(xué)習(xí)算法對(duì)到達(dá)的實(shí)例進(jìn)行一次處理,可以對(duì)數(shù)據(jù)流分類做出更快速的反應(yīng)。OzaBag算法[17]要求整個(gè)訓(xùn)練集立即可用,它使每個(gè)基分類器都用新到達(dá)數(shù)據(jù)的k個(gè)副本進(jìn)行更新,其中k服從k~Possion(1)分布,在精度方面與批處理分類的版本相當(dāng)。而OzaBoost集成算法[17]維護(hù)一個(gè)固定大小的集成,這些分類器根據(jù)收到的實(shí)例進(jìn)行訓(xùn)練,每個(gè)新實(shí)例都按順序更新分類器。如果實(shí)例被前一個(gè)分類器誤分類則會(huì)更新其權(quán)重,以供后一個(gè)分類器更加重視錯(cuò)誤分類的實(shí)例。另外,Bifet等[3]提出了LevBag算法,該算法將Bagging技術(shù)的簡(jiǎn)單性與分類器輸入和輸出中添加更多隨機(jī)化相結(jié)合,通過(guò)對(duì)輸入實(shí)例的權(quán)值進(jìn)行隨機(jī)化來(lái)提高集成的精度。

        1.1 概念漂移數(shù)據(jù)流

        在動(dòng)態(tài)環(huán)境中處理數(shù)據(jù)流的一個(gè)最大挑戰(zhàn)就是概念漂移[18],當(dāng)被收集的數(shù)據(jù)所涉及的概念經(jīng)過(guò)一段時(shí)間的穩(wěn)定后發(fā)生變化,概念漂移就會(huì)發(fā)生。如今的概念漂移數(shù)據(jù)流主要采用主動(dòng)和被動(dòng)2種方式來(lái)進(jìn)行處理,圖2展示了概念漂移處理的常規(guī)過(guò)程。本節(jié)主要討論基于塊學(xué)習(xí)和基于在線學(xué)習(xí)的集成學(xué)習(xí)方法角度去處理概念漂移數(shù)據(jù)流。

        圖2 概念漂移處理過(guò)程

        1.1.1 基于塊學(xué)習(xí)的集成

        基于塊學(xué)習(xí)集成的思想是將到來(lái)的數(shù)據(jù)流劃分為數(shù)據(jù)塊去更新基分類器,如果分類器數(shù)目超過(guò)設(shè)定的集成大小,則用新構(gòu)建的分類器替換效果差的分類器,之后采用組合策略預(yù)測(cè)結(jié)果。動(dòng)態(tài)替換分類器的思想是適應(yīng)概念漂移常用的辦法。

        Wang等[5]提出一種精度加權(quán)集成分類(accuracy weighted ensemble, AWE)算法,它能適應(yīng)潛在的概念漂移,但在漸變漂移方面效果并不佳。為了改進(jìn)算法,Deckert等[19]提出一種新的概念漂移處理算法,即批處理加權(quán)集成分類算法(batch weighted ensemble, BWE),用于處理帶有突變性和漸變性漂移的數(shù)據(jù)。該算法將數(shù)據(jù)流實(shí)例處理成相同大小的塊,并將漂移檢測(cè)器引入集成框架,比AWE算法有著更好的精度。為了更好應(yīng)對(duì)各種漂移類型的數(shù)據(jù)流,Brzezinski等[20]提出一個(gè)基于塊的流集成分類模型AUE2(accuracy updated ensemble),旨在對(duì)不同類型的概念漂移做出反應(yīng)。該算法的主要新穎之處在于將集成加權(quán)機(jī)制與基分類器的增量訓(xùn)練相結(jié)合,與AWE中使用的線性函數(shù)不同,其加權(quán)函數(shù)采用非線性加權(quán)函數(shù),計(jì)算公式為:

        (1)

        (2)

        (3)

        目前一些方法認(rèn)為,在連續(xù)處理數(shù)據(jù)流的同時(shí)更新集成的方法是不合適的,會(huì)面臨一些問(wèn)題,例如無(wú)限增長(zhǎng)的集成大小或在處理概念漂移時(shí)刪除其所有的基分類器的情況。Bertini Junior等[21]提出迭代Boosting流集成(iterative boosting streaming ensemble, IBS)算法,它將集成算法Boosting應(yīng)用于數(shù)據(jù)塊,通過(guò)添加一定數(shù)量的基分類器來(lái)維持集成結(jié)構(gòu)。潘吳斌等[22]提出一種基于信息熵的自適應(yīng)網(wǎng)絡(luò)流概念漂移分類方法,根據(jù)特征屬性的信息熵變化檢測(cè)概念漂移,使用增量集成學(xué)習(xí)策略引入新樣本建立的分類器,這是一種新穎的訓(xùn)練分類器方式。

        傳統(tǒng)數(shù)據(jù)流挖掘階段中概念漂移的檢測(cè)需要標(biāo)記樣本的可用性,在實(shí)際情況中就時(shí)間和資源利用率而言,獲取帶標(biāo)簽的樣本成本比較高。Abdualrhman等[23]提出基于集成分類器的確定性概念漂移檢測(cè)(DCDD)方法,集成算法選用經(jīng)典的AdaBoost算法,該漂移檢測(cè)方法可以檢測(cè)概念漂移的存在,但它與分配給樣本的標(biāo)簽無(wú)關(guān)。該方法具有較高的漂移檢測(cè)率和較小的虛假警告率及漏失率,可以擴(kuò)展檢測(cè)概念漂移,然后通過(guò)集成分類器進(jìn)行預(yù)測(cè)。

        1.1.2 基于在線學(xué)習(xí)的集成

        在線學(xué)習(xí)集成算法采用一種實(shí)時(shí)處理數(shù)據(jù)的思路,它不是以存儲(chǔ)到一定量數(shù)據(jù)的塊方式學(xué)習(xí)。隨著類標(biāo)簽的在線到達(dá),在線算法可以比在處理數(shù)據(jù)塊的環(huán)境中更快地對(duì)概念漂移做出反應(yīng),是一種按照時(shí)間順序?qū)W習(xí)并不斷修正的模型,能更好地?cái)M合數(shù)據(jù)[24]。

        分類器或?qū)嵗訖?quán)的思想一直是大家研究的重點(diǎn)內(nèi)容,通過(guò)不斷創(chuàng)新加權(quán)方式來(lái)適應(yīng)概念漂移是一種常見(jiàn)的被動(dòng)式方法。OAUE[2]是一種經(jīng)典的算法,該方法將基于塊的集成優(yōu)點(diǎn)和在線集成優(yōu)點(diǎn)相結(jié)合,對(duì)存入的每個(gè)實(shí)例進(jìn)行訓(xùn)練以及對(duì)分類器進(jìn)行加權(quán),創(chuàng)新之處是提出高效的基分類器加權(quán)函數(shù)。Ancy等[25]提出一種基于自適應(yīng)在線學(xué)習(xí)規(guī)則(stream data mining on the fly using an adaptive online learning rule, SOAR)挖掘方法。SOAR綜合了基于塊和網(wǎng)絡(luò)集成的基本特征,并根據(jù)其分類效果更新每個(gè)基分類器的權(quán)重。它使用了自適應(yīng)窗口以處理漸進(jìn)和突然的概念漂移。Feitosa等[26]提出一種處理概念漂移的集成優(yōu)化分類算法(ensemble optimization approach for concept drift,EOCD)。它使用基于優(yōu)化技術(shù)的顯式自適應(yīng)機(jī)制來(lái)為檢測(cè)到的概念漂移定義最合適的集成結(jié)構(gòu),主要優(yōu)點(diǎn)是通過(guò)已構(gòu)建的集成結(jié)構(gòu)去處理反復(fù)出現(xiàn)的漂移。

        多樣性處理概念漂移是一種很新穎的技術(shù)。Liu等[27]提出一種多樣性實(shí)例加權(quán)集成算法(diverse instance weighting ensemble, DiwE),同時(shí)還提出一種新的多樣性度量方法。該方法對(duì)區(qū)域分布變化的評(píng)估概率被用作實(shí)例權(quán)值,通過(guò)不同的方案構(gòu)造不同的區(qū)域集,會(huì)導(dǎo)致不同的漂移估計(jì)結(jié)果,從而產(chǎn)生子集。該研究新穎之處在于根據(jù)集成之間區(qū)域漂移概率的不同來(lái)測(cè)量多樣性。Sidhu等[28]提出多樣化在線集成檢測(cè)(diversified online ensembles detection, DOED),該方法保留了2個(gè)加權(quán)分類器集成結(jié)構(gòu),一個(gè)是低多樣性的集成,另一個(gè)是高多樣性的集成,并根據(jù)其對(duì)新數(shù)據(jù)實(shí)例的分類精度進(jìn)行更新。近些年也有研究將動(dòng)態(tài)加權(quán)和多樣性相結(jié)合來(lái)提高精度。Sidhu等[29]提出多樣化動(dòng)態(tài)加權(quán)多數(shù)(diversity dynamic weighted majority,DDWM)算法,對(duì)具有不同概念分布的新實(shí)例進(jìn)行分類。該方法維持了2組在多樣性水平上不同的加權(quán)集成結(jié)構(gòu),根據(jù)分類精度更新或刪除一個(gè)集成中的基分類器,并根據(jù)算法的最終全局預(yù)測(cè)和任何實(shí)例集成的全局預(yù)測(cè)添加一個(gè)新的基分類器。

        1.2 不平衡數(shù)據(jù)流

        非平穩(wěn)數(shù)據(jù)流除了要考慮概念漂移問(wèn)題外,還受數(shù)據(jù)復(fù)雜性的影響。經(jīng)常遇到的類不平衡,主要特點(diǎn)是某一類別的樣本數(shù)量明顯多于其他類別的樣本數(shù)量。類不平衡甚至對(duì)靜態(tài)數(shù)據(jù)學(xué)習(xí)也是一個(gè)障礙,因?yàn)榉诸惼髌虻氖谴蠖鄶?shù)類,并傾向于對(duì)少數(shù)類實(shí)例進(jìn)行錯(cuò)誤分類[30]。使用集成學(xué)習(xí)處理不平衡問(wèn)題是一種有效的方法,本節(jié)將從數(shù)據(jù)預(yù)處理和代價(jià)敏感算法結(jié)合集成學(xué)習(xí)來(lái)處理不平衡數(shù)據(jù)流展開(kāi)討論。

        1.2.1 基于預(yù)處理的集成

        在不平衡數(shù)據(jù)中,研究人員希望能從數(shù)據(jù)層面降低少數(shù)類與多數(shù)類樣本的不平衡程度,其中數(shù)據(jù)的重采樣是代表性的方法,它可以獲得均勻的類分布?;谥夭蓸拥姆椒ㄖ饕星凡蓸印⑦^(guò)采樣以及兩者結(jié)合的混合采樣。欠采樣從多數(shù)類樣本中刪除一些實(shí)例,過(guò)采樣則增加少數(shù)類樣本的實(shí)例。集成學(xué)習(xí)與預(yù)處理的技術(shù)結(jié)合是目前處理不平衡問(wèn)題的主要研究方向之一,它可以極大地提高算法的預(yù)測(cè)性能。

        近些年隨著研究人員對(duì)不平衡數(shù)據(jù)的研究深入,集成學(xué)習(xí)與重采樣技術(shù)結(jié)合屢見(jiàn)不鮮。Wang等[31]改進(jìn)了基于在線Bagging的過(guò)采樣(oversampling based online bagging, OOB)和欠采樣(under-sampling based online bagging, UOB)技術(shù),利用重采樣和時(shí)間衰減度量對(duì)OOB和UOB集成學(xué)習(xí)方法進(jìn)行改進(jìn),以克服在線類不平衡問(wèn)題,最后結(jié)合各自優(yōu)點(diǎn)提出加權(quán)集成方法WEOB1和WEOB2,兩者的準(zhǔn)確性優(yōu)于OOB和UOB。肖梁等[32]采用Bagging集成框架,算法采用多集構(gòu)建和特征提取與多集融合模塊構(gòu)成,通過(guò)改進(jìn)重采樣構(gòu)建多個(gè)不平衡訓(xùn)練集,有效緩解數(shù)據(jù)分布不平衡、噪聲和樣本重疊問(wèn)題。最近,Zyblewski等[33]提出結(jié)合動(dòng)態(tài)集成和預(yù)處理技術(shù)的框架來(lái)處理高度不平衡的數(shù)據(jù)流,利用分層Bagging分類器對(duì)少數(shù)類和多數(shù)類分類進(jìn)行替換抽樣的方法。Ren等[6]提出一種選擇的重采樣集成(selection-based resampling ensemble, SRE)算法,用于學(xué)習(xí)復(fù)雜數(shù)據(jù)分布下的不平衡數(shù)據(jù)流中的概念漂移。SRE結(jié)合重采樣和定期更新的結(jié)構(gòu)來(lái)處理聯(lián)合問(wèn)題。在基于塊的集成框架中,首先采用基于選擇的重采樣機(jī)制來(lái)重新平衡最新塊的類分布,然后,使用最新的樣本定期更新先前的集成成員,并確定更新權(quán)值同時(shí)對(duì)錯(cuò)誤分類的分類器給予懲罰。段化娟等[34]采用Tomek link欠采樣技術(shù)和集成方法結(jié)合的策略來(lái)獲得多個(gè)平衡后的子集,每個(gè)子集使用決策樹(shù)訓(xùn)練,最后集成多個(gè)決策樹(shù)。

        在不平衡數(shù)據(jù)流中也面臨著概念漂移的問(wèn)題,是目前研究的一個(gè)新興內(nèi)容。Ancy等[35]提出動(dòng)態(tài)采樣和集成學(xué)習(xí)技術(shù)相結(jié)合處理帶有概念漂移的不平衡數(shù)據(jù)流分類算法(handling imbalanced data with concept drift, HIDC)。當(dāng)面臨類不平衡的情況則采用過(guò)采樣和欠采樣技術(shù),其中不平衡率θ的檢測(cè)使用公式(4),

        (4)

        式中Amaj和Amin分別代表多數(shù)類和少類數(shù)的初始分類精度。HIDC采樣模型訓(xùn)練候選分類器,并用候選分類器替換最差的集成成員。Zhang等[7]提出基于重采樣的處理概念漂移不平衡數(shù)據(jù)流的集成分類框架(resembling-based ensemble framework for drifting imbalanced stream, RE-DI)。該集成框架由處理漸變概念漂移的長(zhǎng)期靜態(tài)分類器和處理突變概念漂移的多個(gè)動(dòng)態(tài)分類器組成。集成分類器的權(quán)重從2個(gè)方面進(jìn)行調(diào)整:首先,時(shí)間衰減策略降低動(dòng)態(tài)分類器的權(quán)重,使集成分類器更加關(guān)注數(shù)據(jù)流的新概念;其次,提出一種新的強(qiáng)化機(jī)制來(lái)增加在少數(shù)類上表現(xiàn)更好的基分類器權(quán)重,并降低表現(xiàn)較差的分類器權(quán)重。

        1.2.2 基于代價(jià)敏感的集成

        除了通過(guò)改變數(shù)據(jù)的分布來(lái)降低類別不平衡對(duì)分類的影響,還可以從算法層面去考慮,設(shè)計(jì)適應(yīng)于不平衡數(shù)據(jù)特征的模型。代價(jià)敏感[30]考慮不同誤分類類型的代價(jià),代價(jià)矩陣將樣本從一個(gè)類別分類為另一個(gè)類別的懲罰進(jìn)行編碼。針對(duì)二分類定義一個(gè)代價(jià)矩陣,如表1,C(i,j)表示將類別i中的一個(gè)實(shí)例預(yù)測(cè)為類別j的代價(jià)。在處理類別不平衡問(wèn)題時(shí),辨別正實(shí)例的重要性高于負(fù)實(shí)例,因此,誤分類一個(gè)正實(shí)例的代價(jià)大于誤分類一個(gè)負(fù)實(shí)例的代價(jià),即C(+,-)>C(-,+)。做出正確的分類通常不會(huì)帶來(lái)任何懲罰,代價(jià)敏感學(xué)習(xí)過(guò)程尋求最大限度地減少高代價(jià)錯(cuò)誤的數(shù)量和總錯(cuò)誤分類代價(jià)。

        表1 代價(jià)矩陣

        Sun等[36]將代價(jià)敏感與集成算法Boosting進(jìn)行結(jié)合,綜合分析AdaBoost算法在解決類不平衡問(wèn)題上的優(yōu)勢(shì)和不足,探索了3種代價(jià)敏感的Boosting算法,即AdaC1、AdaC2、AdaC3,將代價(jià)項(xiàng)引入到AdaBoost學(xué)習(xí)框架中,進(jìn)一步分析所提出的算法符合統(tǒng)計(jì)中的階段性加法建模,以減少代價(jià)指數(shù)損失。Tao等[37]提出一種基于代價(jià)權(quán)重的支持向量機(jī)的代價(jià)敏感集成算法。該方法為了保證基分類器優(yōu)化目標(biāo)與Boosting方案的一致性,不僅將帶有代價(jià)敏感的支持向量機(jī)作為基分類器,同時(shí)將標(biāo)準(zhǔn)的Boosting方案修改為代價(jià)敏感。為了保證連續(xù)分類器有更多的訓(xùn)練實(shí)例,特別是分布在邊界的少數(shù)分類實(shí)例,其提出一種自適應(yīng)順序誤分類代價(jià)權(quán)重確定方法。

        神經(jīng)網(wǎng)絡(luò)的集成也被應(yīng)用到處理不平衡數(shù)據(jù)過(guò)程中。Wong等[38]提出2種新的代價(jià)敏感方法——代價(jià)敏感深度神經(jīng)網(wǎng)絡(luò)(CSDNN)和代價(jià)敏感深度神經(jīng)網(wǎng)絡(luò)集成(CSDE)來(lái)解決類不平衡問(wèn)題。其中CSDE是CSDNN的集成學(xué)習(xí)版本。為了提高CSDNN的泛化性能,在CSDE中采用隨機(jī)欠采樣和深度神經(jīng)網(wǎng)絡(luò)隱含層的分層特征提取。另外,Loezer等[39]提出代價(jià)敏感的自適應(yīng)隨機(jī)森林(cost-sensitive adaptive random forest, CSARF)算法,并與自適應(yīng)隨機(jī)森林(ARF)和帶重采樣的隨機(jī)森林(ARFRE)進(jìn)行比較,結(jié)果表明CSARF在平均召回率和平均F1值上均優(yōu)于ARF。

        1.3 多標(biāo)簽數(shù)據(jù)流

        在形式上,多標(biāo)簽流分類(multi-label classification, MLC)[40]問(wèn)題就是在高速數(shù)據(jù)流中對(duì)每個(gè)實(shí)例(帶有子標(biāo)簽Y?L,L是標(biāo)簽集)訓(xùn)練一個(gè)模型。雖然在傳統(tǒng)的數(shù)據(jù)挖掘場(chǎng)景中已經(jīng)對(duì)多標(biāo)簽分類進(jìn)行了研究,但多標(biāo)簽數(shù)據(jù)流分類是一個(gè)比較新的概念,還沒(méi)有得到充分解決。本節(jié)將從二元相關(guān)的集成和算法自適應(yīng)的集成分類展開(kāi)探討。

        1.3.1 基于二元相關(guān)的集成

        解決多標(biāo)簽分類最直接的方案就是將多標(biāo)簽轉(zhuǎn)換為熟知的單標(biāo)簽分類,其中二元相關(guān)(binary relevance, BR)[8]方法是這種問(wèn)題轉(zhuǎn)換中最常用的技術(shù),它將多標(biāo)簽問(wèn)題轉(zhuǎn)化為一些不同的二元單標(biāo)簽分類問(wèn)題。

        多標(biāo)簽分類器的層次結(jié)構(gòu)(hierarchy of multilabel classifiers, HOMER)[41]是一種為具有大量標(biāo)簽域設(shè)計(jì)的方法。它將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為更簡(jiǎn)單的樹(shù)形層次結(jié)構(gòu)。為了對(duì)新實(shí)例進(jìn)行分類,HOMER從根分類器開(kāi)始,并且僅當(dāng)父分類器預(yù)測(cè)其任何標(biāo)簽時(shí)才將實(shí)例傳遞給每個(gè)子分類器。葉子分類器的預(yù)測(cè)標(biāo)簽的聯(lián)合即為給定實(shí)例的輸出。Zhang等[42]也提出一種用于HMC(hierarchical multi-label classification)的局部層次集成分類框架,即全關(guān)聯(lián)集成學(xué)習(xí)。其在所有節(jié)點(diǎn)的全局預(yù)測(cè)和局部預(yù)測(cè)之間建立了一個(gè)多變量回歸模型,將基本模型擴(kuò)展為稀疏模型、核模型和二值約束模型。二元相關(guān)性為多標(biāo)簽數(shù)據(jù)的每個(gè)不同標(biāo)簽學(xué)習(xí)單個(gè)二元模型。它相對(duì)于標(biāo)簽數(shù)量具有線性復(fù)雜度,但沒(méi)有考慮標(biāo)簽相關(guān)性,可能無(wú)法準(zhǔn)確預(yù)測(cè)標(biāo)簽組合并根據(jù)與新實(shí)例的相關(guān)性對(duì)標(biāo)簽進(jìn)行排序。Tsoumakas等[43]使用集成Stacking結(jié)構(gòu)BR的模型,以學(xué)習(xí)將其輸出與每個(gè)標(biāo)簽的真實(shí)值相關(guān)聯(lián)的模型是緩解此問(wèn)題的一種方法。其通過(guò)使用phi系數(shù)顯式地測(cè)量標(biāo)簽相關(guān)程度,并對(duì)參與Stacking過(guò)程的模型進(jìn)行修剪。

        在分類器鏈方法中,每個(gè)二元分類器以有序鏈的方式排列和連接。Read等[8]提出分類器鏈集成分類模型(ensembles of classifier chains, ECC)來(lái)處理多標(biāo)簽分類。該方法是在二元相關(guān)方法的基礎(chǔ)上發(fā)展而來(lái),與目前使用的更復(fù)雜的方法相比降低了計(jì)算復(fù)雜度,通過(guò)將標(biāo)簽相關(guān)信息沿著分類器鏈傳遞,克服了二元關(guān)聯(lián)方法的缺點(diǎn),在保持較低計(jì)算復(fù)雜度的同時(shí)獲得了較好的預(yù)測(cè)性能。近年來(lái),文本分類、Web、社交媒體挖掘等應(yīng)用對(duì)多標(biāo)簽分類算法的要求越來(lái)越高。Nguyen等[44]提出一種可擴(kuò)展的基于在線可變推理的多標(biāo)簽數(shù)據(jù)集成分類方法(MVI),其使用隨機(jī)投影創(chuàng)建集成系統(tǒng)。作為一種二階生成方法,該分類器在學(xué)習(xí)過(guò)程中可以有效地利用數(shù)據(jù)的底層結(jié)構(gòu)。

        1.3.2 基于算法自適應(yīng)的集成

        多標(biāo)簽算法中自適應(yīng)方法通常是基于考慮相似性或目標(biāo)函數(shù),對(duì)某一子集的特征和學(xué)習(xí)其部分的聯(lián)合標(biāo)簽分布。Wang等[45]提出一種無(wú)縫融合多模態(tài)特征和多標(biāo)簽相關(guān)性的超圖學(xué)習(xí)算法。新的特征融合策略將多模態(tài)特征集成到一個(gè)統(tǒng)一的超圖中,構(gòu)造一種高效的多模態(tài)超圖,解決了該融合方案計(jì)算復(fù)雜度高的問(wèn)題。采用自適應(yīng)學(xué)習(xí)算法,結(jié)合兩超圖同時(shí)學(xué)習(xí)標(biāo)簽分?jǐn)?shù)和超邊權(quán)值,實(shí)驗(yàn)表明,與具有代表性的算法相比,該文提出的方法具有優(yōu)越性。Wang等[46]提出 SWMEC(streaming weighting ML-KNN based ensemble classifier)算法,該算法是基于ML-KNN的多標(biāo)簽數(shù)據(jù)流分類方法的集成模型。其提出的加權(quán)集成模型,利用多標(biāo)簽數(shù)據(jù)流對(duì)模型進(jìn)行有效更新?,F(xiàn)有的多標(biāo)簽分類方法很少采用Stacking集成結(jié)構(gòu),Xia等[47]提出一種新的多標(biāo)簽加權(quán)分類器選擇和Stacking集成算法(weighted classifier selection and stacked ensemble, MLWSE),利用稀疏性進(jìn)行正則化,促進(jìn)分類器選擇和集成構(gòu)建,同時(shí)利用分類器權(quán)值和標(biāo)簽相關(guān)性提高分類性能。另一方面,集成方法不僅提供一種標(biāo)簽元特定特征的選擇方法,而且可以兼容任何現(xiàn)有的多標(biāo)簽分類算法作為其基分類器。

        多數(shù)多標(biāo)簽分類方法側(cè)重于對(duì)現(xiàn)有的二值和多類學(xué)習(xí)方法的有效適應(yīng)或轉(zhuǎn)換,但未能對(duì)標(biāo)簽的聯(lián)合概率建模。為了解決這些問(wèn)題,Szymański等[48]提出一種新的多標(biāo)簽分類方案LNEMLC(label network embedding for multi-label classification)。該方案嵌入了標(biāo)簽網(wǎng)絡(luò),并將其用于擴(kuò)展任意多標(biāo)簽分類器的學(xué)習(xí)和推理的輸入空間。LNEMLC改進(jìn)了算法自適應(yīng)方法,為它們提供額外的輸入特征以供區(qū)分,增加了關(guān)于特征數(shù)量的復(fù)雜度。另外,多標(biāo)簽受到概念漂移挑戰(zhàn)驅(qū)使,Sun等[49]提出MLAW(multi-label ensemble with adaptive windowing)算法,為多標(biāo)簽數(shù)據(jù)流分類設(shè)計(jì)一種有效的集成范例。該算法基于Jensen-Shannon散度部署一種新穎的變化檢測(cè),以識(shí)別數(shù)據(jù)流中不同類型的概念漂移。Wang等[50]提出一種主動(dòng)k標(biāo)簽集集成范式(activek-labelsets ensemble for multi-label,ACKEL),借鑒主動(dòng)學(xué)習(xí)的思想,提出一個(gè)標(biāo)簽選擇標(biāo)準(zhǔn)來(lái)評(píng)估從標(biāo)簽子集轉(zhuǎn)換而來(lái)的類的可分離性和平衡水平。ACKEL可以在不相交和重疊2種模式下實(shí)現(xiàn),分別采用基于池和基于流的框架。

        1.4 多實(shí)例數(shù)據(jù)流

        在流挖掘任務(wù)中,多實(shí)例學(xué)習(xí)(multi instance learning, MIL)[51]是一個(gè)較少被研究的領(lǐng)域。在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,只有單一的實(shí)例,該實(shí)例只會(huì)被一個(gè)標(biāo)簽識(shí)別,如圖3(a)。然而在多實(shí)例學(xué)習(xí)中,數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,每個(gè)對(duì)象或者目標(biāo)變量都是被不確定數(shù)量特征向量所定義,如圖3(b)所示。MIL是一種對(duì)一組實(shí)例進(jìn)行分類的方法,每個(gè)實(shí)例組都表示為一個(gè)包。它的主要任務(wù)是根據(jù)實(shí)例的標(biāo)簽和特征來(lái)生成預(yù)測(cè)測(cè)試包標(biāo)簽的模型。使用集成學(xué)習(xí)的方法處理多實(shí)例數(shù)據(jù)流是研究的新興方向,本節(jié)將從神經(jīng)網(wǎng)絡(luò)的集成和在線學(xué)習(xí)的集成處理多實(shí)例數(shù)據(jù)進(jìn)行介紹。

        圖3 單實(shí)例學(xué)習(xí)和多實(shí)例學(xué)習(xí)

        1.4.1 基于在線的集成

        大多數(shù)傳統(tǒng)MIL算法由于需要進(jìn)行參數(shù)調(diào)整,需要花費(fèi)大量時(shí)間進(jìn)行訓(xùn)練。研究者針對(duì)學(xué)習(xí)時(shí)間問(wèn)題,提出基于極限學(xué)習(xí)機(jī)的多實(shí)例學(xué)習(xí)方法。Sastrawaha 等[52]提出一種基于集成多數(shù)投票方法的多實(shí)例學(xué)習(xí)集成極限學(xué)習(xí)機(jī)(E-ELM-MIL)方法來(lái)提高泛化性能,結(jié)合幾個(gè)單一的隱含層神經(jīng)網(wǎng)絡(luò),并使用多數(shù)投票機(jī)制預(yù)測(cè)最終的標(biāo)簽,性能優(yōu)于其他先進(jìn)的MIL算法。近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的多實(shí)例分類算法BP-MIP和多實(shí)例回歸算法BP-MIR相繼被提出。圖像可以獲得多個(gè)實(shí)例,這使得圖像分類成為一個(gè)MIL問(wèn)題。Kocyigit等[53]開(kāi)發(fā)一種利用稀疏特征表示和分類器集成技術(shù)的多實(shí)例主動(dòng)學(xué)習(xí)方法,即字典集成多實(shí)例主動(dòng)學(xué)習(xí)(dictionary ensembles multiple instance active learning, DEMIAL)。在提出的主動(dòng)學(xué)習(xí)框架中采用字典學(xué)習(xí),對(duì)比了基于不確定性和基于熵的實(shí)例選擇技術(shù),實(shí)驗(yàn)結(jié)果表明,分類器集成受益于主動(dòng)學(xué)習(xí),DEMIAL算法性能優(yōu)于基于核的多實(shí)例主動(dòng)學(xué)習(xí)框架。

        集成學(xué)習(xí)的主要目標(biāo)是將多個(gè)學(xué)習(xí)模型結(jié)合起來(lái),并從這些模型的所有輸出中獲得決策?;诖藙?dòng)機(jī),Taer等[54]提出一種基于集成的多實(shí)例學(xué)習(xí)方法,將標(biāo)準(zhǔn)算法MIWrapper、SimpleMI與集成學(xué)習(xí)方法Bagging、AdaBoost相結(jié)合,以提高分類能力。實(shí)驗(yàn)結(jié)果表明,基于集成的方法比傳統(tǒng)方法具有更高的分類能力。Tu等[55]提出一種新的基于端到端的圖神經(jīng)網(wǎng)絡(luò)(GNN)的包嵌入算法,將每個(gè)包作為一個(gè)圖,使用GNN學(xué)習(xí)包嵌入,以探索包實(shí)例之間有用的結(jié)構(gòu)信息,最終的圖表示被送入分類器用于標(biāo)簽預(yù)測(cè)。該算法是第一次嘗試將GNN用于MIL。

        1.4.2 基于神經(jīng)網(wǎng)絡(luò)的集成

        在圖像的目標(biāo)檢測(cè)中,Babenko等[9]提出一種在線Boosting改進(jìn)方案(online MILBoost,OMB)。該算法認(rèn)為一旦將一個(gè)包標(biāo)記為陽(yáng)性包,那么其中的所有實(shí)例也是陽(yáng)性的,因此可以用于訓(xùn)練,可使用與集成算法Boosting類似的訓(xùn)練過(guò)程,用新模型更新該集成結(jié)構(gòu)。同樣的目標(biāo)檢測(cè)任務(wù),Wang等[56]提出半監(jiān)督的在線加權(quán)多實(shí)例學(xué)習(xí)集成方法(semi-weighted multi instance learning,Semi-WMIL)。為了充分利用目標(biāo)及其周圍背景信息,結(jié)合半監(jiān)督學(xué)習(xí)、多實(shí)例學(xué)習(xí)和貝葉斯定理,其提出一種新的單目標(biāo)檢測(cè)跟蹤器,在每一幀的參數(shù)更新階段,跟蹤器在選擇最優(yōu)基分類器時(shí),使用基于塊的標(biāo)記和未標(biāo)記訓(xùn)練樣本的不一致性函數(shù)。多視圖學(xué)習(xí)結(jié)合了來(lái)自多個(gè)異構(gòu)源的數(shù)據(jù),由于不同的多實(shí)例視圖具有不同的基數(shù)和特征空間,因此不能將不同的多實(shí)例視圖數(shù)據(jù)融合簡(jiǎn)單地連接到一組特征中。Cano[57]提出一種結(jié)合視點(diǎn)學(xué)習(xí)器并尋求加權(quán)類預(yù)測(cè)一致性的集成方法,以利用多個(gè)視點(diǎn)的互補(bǔ)信息,重要的是集成必須處理來(lái)自每個(gè)視圖的不同特征空間,而包的數(shù)據(jù)可能在視圖中部分表示。

        一種稱為“檢測(cè)跟蹤”的跟蹤技術(shù)已經(jīng)被證明具有較好的跟蹤效果和實(shí)時(shí)速度,該方法以在線的方式訓(xùn)練一個(gè)分類器來(lái)從背景中分離物體。Babenko等[9]提出一種新的在線MIL目標(biāo)跟蹤算法,該算法使用多實(shí)例學(xué)習(xí)而不是傳統(tǒng)的監(jiān)督學(xué)習(xí),跟蹤器更具魯棒性且參數(shù)調(diào)整較少,具有較好的實(shí)時(shí)性。集合分類器的一種眾所周知的策略是隨機(jī)化,其中學(xué)習(xí)算法被隨機(jī)化,以便從同一數(shù)據(jù)集中獲得不同的分類模型。Bjerring等[58]提出一種隨機(jī)化集成方法MIRI(multi-instance rule induction)。該方法基于MITI算法進(jìn)行改進(jìn),是一個(gè)決策樹(shù)的單學(xué)習(xí)器,專門為多實(shí)例分類而設(shè)計(jì)。但是該算法的分裂準(zhǔn)則對(duì)精度有顯著影響,通過(guò)修改,將算法變?yōu)橐?guī)則的學(xué)習(xí)器,最終該隨機(jī)化方法生成隨機(jī)森林集成模型。

        1.5 算法復(fù)雜度分析

        驗(yàn)證一個(gè)算法性能的好壞,除了通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析其運(yùn)行時(shí)間、精度等指標(biāo)外,研究人員還應(yīng)該通過(guò)理論計(jì)算來(lái)分析算法的時(shí)空效率,時(shí)空效率分析可以直觀地了解算法性能,從而促使研究者通過(guò)各種優(yōu)化策略(例如剪枝、優(yōu)化算法等)來(lái)提高算法的效率,因此時(shí)空效率分析是必要的。本節(jié)將對(duì)以上經(jīng)典算法的時(shí)空效率進(jìn)行詳細(xì)分析來(lái)進(jìn)一步深入了解算法,表2羅列了一些代表性算法的復(fù)雜度數(shù)據(jù)分析。

        在概念漂移數(shù)據(jù)流算法中,算法的主要時(shí)間消耗來(lái)自處理概念漂移的情況,算法需要進(jìn)行加權(quán)來(lái)不斷更新分類器。AWE算法[5]使用精度加權(quán)集成來(lái)挖掘帶有概念漂移的數(shù)據(jù)流,該算法的復(fù)雜度為O(n×f(s/n)+Ks),其中s代表數(shù)據(jù)塊的大小,K是分類器的數(shù)目,它的復(fù)雜度主要在于訓(xùn)練每個(gè)基分類器。比較經(jīng)典的OAUE[2]算法是結(jié)合在線和塊訓(xùn)練技術(shù)的方法,它的復(fù)雜度是O(kpvl+k(d+c)),其中p代表數(shù)據(jù)的數(shù)目,v代表數(shù)值的數(shù)目。由于算法中K、d、c為常數(shù),因此與沒(méi)有加權(quán)的集成相比,該加權(quán)方案并沒(méi)有增加空間復(fù)雜度。EOCD[26]算法的復(fù)雜度為O(KCVP),其中C為類數(shù)目,K為分類器數(shù)量,采用了復(fù)雜度為O(1)的RDDM漂移檢測(cè)器,為了優(yōu)化模塊的復(fù)雜性,其使用了遺傳算法。

        在不平衡數(shù)據(jù)流算法中,算法的時(shí)間消耗主要來(lái)自處理不平衡數(shù)據(jù)和對(duì)不平衡數(shù)據(jù)進(jìn)行分類。DES[33]算法的復(fù)雜度主要由用于動(dòng)態(tài)選擇方法的分類器池中的模型數(shù)量,以及預(yù)處理技術(shù)中單個(gè)數(shù)據(jù)塊中的實(shí)例數(shù)量決定,其中動(dòng)態(tài)選擇方法的復(fù)雜度是O(n),預(yù)處理技術(shù)復(fù)雜度為O(nlogn)。SRE是基于重采樣的集成方法,復(fù)雜度為O(N|M|log(|M|+s)+sNlogs+3|M|N),其中M為塊數(shù)量,N為數(shù)據(jù)流實(shí)例的數(shù)量。SRE復(fù)雜度的一部分是為了處理不平衡狀態(tài)下的概念漂移,另一部分是使用重采樣技術(shù)來(lái)平衡數(shù)據(jù)流。

        多標(biāo)簽數(shù)據(jù)流目前在圖像和目標(biāo)檢測(cè)領(lǐng)域應(yīng)用較多,它的時(shí)空效率相對(duì)于其他數(shù)據(jù)流較復(fù)雜。這由它本身的復(fù)雜性決定,一個(gè)目標(biāo)具有多個(gè)標(biāo)簽,這時(shí)分類的范圍也增大。ACKEL[50]算法的復(fù)雜度為O(N2n),其中N為樣本數(shù)量,n為特征數(shù)量,主要計(jì)算代價(jià)來(lái)自算法中核函數(shù)的計(jì)算。LNEMLC算法[48]的復(fù)雜度是嵌入方法、分類器和回歸計(jì)算過(guò)程的總和,其復(fù)雜度不會(huì)高于O(ld+2n(m+d)+2mn+ln),算法的復(fù)雜度主要來(lái)自KNN分類器采樣的數(shù)目。經(jīng)典算法ECC[8]分類器鏈的復(fù)雜度為O(LV×f(1,N)),其中L為額外屬性的數(shù)目。

        近些年集成學(xué)習(xí)在各種場(chǎng)景下使用,雖然在評(píng)估指標(biāo)(如精度等)上有極大的提高,但是總體來(lái)說(shuō)其時(shí)空復(fù)雜度還是比較高,這是由于它不斷增加的集成大小以及集成結(jié)構(gòu)所致。為了提高效率,研究人員需要從它的剪枝策略進(jìn)行入手研究。表3列舉了集成學(xué)習(xí)處理復(fù)雜數(shù)據(jù)流算法性能的對(duì)比。

        表 2 代表性算法復(fù)雜度分析

        表3 復(fù)雜數(shù)據(jù)流集成分類算法性能比較

        2 領(lǐng)域數(shù)據(jù)流集成分類

        數(shù)據(jù)流分類已經(jīng)被研究人員拓展到很多領(lǐng)域進(jìn)行挖掘,提取有用的信息進(jìn)行該領(lǐng)域的研究。隨著現(xiàn)在互聯(lián)網(wǎng)不斷觸及各行各業(yè),人們對(duì)于分類任務(wù)的需求也在不斷擴(kuò)展。在流挖掘任務(wù)中,文本數(shù)據(jù)、圖數(shù)據(jù)以及傳感器數(shù)據(jù),這些領(lǐng)域是研究人員鉆研的數(shù)據(jù)流分類的高級(jí)問(wèn)題。由于數(shù)據(jù)的表示、結(jié)構(gòu)以及數(shù)據(jù)的量級(jí)發(fā)生了重大變化,分析起來(lái)需要更加復(fù)雜的算法來(lái)進(jìn)行處理,本章將對(duì)這些數(shù)據(jù)流近些年的研究成果進(jìn)行分析。

        2.1 文本數(shù)據(jù)流

        在自然語(yǔ)言處理(nature language processing, NLP)[59]領(lǐng)域,文本分類一直都是一個(gè)熱門的研究方向,像Twitter和微博這樣受歡迎的社交平臺(tái),會(huì)涉及到新聞內(nèi)容、社交、廣告等方面進(jìn)行分析。然而文本流分類還是目前文本分類的一個(gè)新興方向,涉及數(shù)據(jù)流的及時(shí)到達(dá)以及一次處理等特點(diǎn)都需要研究人員進(jìn)行考慮。目前文本數(shù)據(jù)流分類集成學(xué)習(xí)方法是應(yīng)用最廣泛的方法之一。

        基于概念漂移的文本流挖掘是一個(gè)非常具有挑戰(zhàn)性的研究課題。Song等[60]提出一種新的集成模型——?jiǎng)討B(tài)聚類森林(dynamic cluster forest, DCF),用于存在概念漂移的文本流分類。其提出的集成模型是基于多個(gè)聚類樹(shù)(CTs)構(gòu)建的。特別地,DCF模型有2種新穎的策略:1)根據(jù)數(shù)據(jù)流的固有特性動(dòng)態(tài)選擇判別性CTs的自適應(yīng)集成策略;2)同時(shí)考慮分類器可信度和準(zhǔn)確性的雙投票策略。由于短文本流的稀疏性、高維性和快速變異性,短文本流分類面臨著巨大的挑戰(zhàn)。Hu等[61]提出一種基于在線的短文本擴(kuò)展和概念漂移檢測(cè)的短文本流分類方法,首先從外部資源中擴(kuò)展短文本流,以彌補(bǔ)數(shù)據(jù)的稀疏性,并使用在線BTM(bitterm topic model)算法選擇具有代表性的主題,而不是用詞向量來(lái)表示短文本的特征。其次,作者利用多個(gè)數(shù)據(jù)塊建立集成模型,并利用最新的數(shù)據(jù)塊和概念漂移檢測(cè)結(jié)果進(jìn)行更新。實(shí)驗(yàn)表明,在分類和概念漂移檢測(cè)方面取得了更好的性能。

        文本分類通過(guò)將完成的任務(wù)劃分為不同的類別,降低了時(shí)空復(fù)雜度。文本分類的主要問(wèn)題是從文本數(shù)據(jù)中提取大量的特征。Khurana等[62]提出一種基于自然啟發(fā)算法和集成分類器的文本最優(yōu)分類方法,采用基于生物地理學(xué)的優(yōu)化算法BBO(biogeography based optimization)和集成分類器Bagging進(jìn)行特征選擇,與單獨(dú)的分類器相比,使用集成分類器進(jìn)行分類可以提供更好的文本分類性能,從而提高準(zhǔn)確率。Upadhyay等[63]提出一種加權(quán)分類器集成算法來(lái)解決文本分類問(wèn)題。該算法在組合分類器時(shí),將每個(gè)分類器的預(yù)測(cè)與不同的權(quán)重相關(guān)聯(lián),而不是使用多數(shù)投票作為組合方法,并利用粒子群優(yōu)化算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行損失函數(shù)最小化,得到最優(yōu)權(quán)重。Samami等[64]提出一種基于自然啟發(fā)算法和集成分類器的最優(yōu)文本分類方法,與單個(gè)分類器相比,使用集成分類器進(jìn)行特征選擇可以為最優(yōu)文本分類提供更好的性能。

        2.2 圖數(shù)據(jù)流

        圖分類的問(wèn)題出現(xiàn)在許多經(jīng)典領(lǐng)域,如化學(xué)和生物數(shù)據(jù)、高光通信網(wǎng)絡(luò)等。近年來(lái),隨著互聯(lián)網(wǎng)應(yīng)用的出現(xiàn),人們對(duì)動(dòng)態(tài)圖數(shù)據(jù)流應(yīng)用的興趣越來(lái)越大,這種網(wǎng)絡(luò)應(yīng)用程序是在大量節(jié)點(diǎn)的基礎(chǔ)上定義的。圖數(shù)據(jù)流分類最具挑戰(zhàn)性的情況,即數(shù)據(jù)僅以圖形流的形式存在。因此在圖數(shù)據(jù)流分類中要檢測(cè)到數(shù)據(jù)流中的變化來(lái)進(jìn)行實(shí)時(shí)分類,集成學(xué)習(xí)也逐漸在圖結(jié)構(gòu)領(lǐng)域中受到關(guān)注。

        標(biāo)簽的動(dòng)態(tài)變化可能表明重要事件或活動(dòng)模式,Aggarwal等[65]研究圖數(shù)據(jù)流中的差分分類問(wèn)題,其中預(yù)測(cè)重要的分類事件表現(xiàn)在節(jié)點(diǎn)分類標(biāo)簽的變化。與靜態(tài)的集成分類問(wèn)題不同,該方法側(cè)重于動(dòng)態(tài)、實(shí)時(shí)地檢測(cè)節(jié)點(diǎn)分類的變化,而不是對(duì)節(jié)點(diǎn)進(jìn)行實(shí)際的分類。在許多實(shí)際應(yīng)用中,圖可以在一個(gè)非常大的節(jié)點(diǎn)集合上定義。底層圖的許多域大小使得學(xué)習(xí)分類問(wèn)題的概要結(jié)構(gòu)信息變得困難,尤其是在數(shù)據(jù)流的情況下。Tuncer等[66]開(kāi)發(fā)一種新的基于集成局部圖結(jié)構(gòu)LGS(local graph structure)的輕量級(jí)和認(rèn)知特征提取框架,并通過(guò)使用該框架,提出一種新的腦電圖(Electroencephalogram, EEG)信號(hào)識(shí)別方法,包括預(yù)處理、使用基于集成LGS的方法進(jìn)行特征提取以及使用基準(zhǔn)分類器進(jìn)行分類。結(jié)果表明,其成功地利用LGS算法開(kāi)發(fā)了一種更準(zhǔn)確、更認(rèn)知的腦電信號(hào)識(shí)別方法。

        在圖數(shù)據(jù)流的分類任務(wù)中也存在不平衡的問(wèn)題,Pan等[67]提出一種分類模型來(lái)處理帶有噪聲的不平衡圖數(shù)據(jù)流即圖集成,使用集成框架來(lái)將圖數(shù)據(jù)流劃分成包含許多類分布不平衡的噪聲圖的塊。針對(duì)每個(gè)獨(dú)立的數(shù)據(jù)塊提出一種基于集成的Boosting算法,將判別子圖模式選擇和模型學(xué)習(xí)結(jié)合起來(lái)作為統(tǒng)一的圖分類框架?;ゎI(lǐng)域經(jīng)常存在故障分類,Liu等[68]提出一種基于流形保持稀疏圖的集成FDA(fisher discriminant analysis)模型。首先,在保持訓(xùn)練樣本基本流形結(jié)構(gòu)的前提下,利用保留流形的稀疏圖對(duì)一些錯(cuò)誤標(biāo)記的樣本進(jìn)行過(guò)濾。其次,為了提高模型對(duì)錯(cuò)誤樣本的魯棒性,利用基于FDA的Bagging算法構(gòu)建多個(gè)子分類器,并將這些子分類器組合形成魯棒的分類器。Su等[69]提出一種多標(biāo)簽分類的新方法,依賴于多標(biāo)簽上的隨機(jī)輸出圖集合的集成學(xué)習(xí)。對(duì)于集成學(xué)習(xí),輸出圖之間的差異提供了所需的基分類器的多樣性,并在集成規(guī)模不斷增加的情況下提高性能。

        2.3 傳感器數(shù)據(jù)流

        人們的生產(chǎn)生活中,有大量的數(shù)據(jù)來(lái)自智能設(shè)備,這些設(shè)備自帶的傳感器時(shí)刻傳遞不同的信息。傳感器數(shù)據(jù)流分析是當(dāng)前數(shù)據(jù)挖掘熱門的研究領(lǐng)域之一,目前集成學(xué)習(xí)是挖掘該領(lǐng)域數(shù)據(jù)流的主要方法。

        傳感器數(shù)據(jù)流挖掘方法最近引起了智能家居研究的廣泛關(guān)注。Shahi等[70]提出一種新的基于自適應(yīng)聚類的流傳感器數(shù)據(jù)集成學(xué)習(xí)事件分類方法,包含一些理想的特性,如基于窗口的自適應(yīng)傳感器事件,使用時(shí)間衰減函數(shù)檢測(cè)相關(guān)傳感器事件,在當(dāng)前窗口保存過(guò)去的傳感器信息,以及形成在線的流傳感器數(shù)據(jù)集群。該方法改進(jìn)了流傳感器事件的表示,可以使用在線方式學(xué)習(xí)和識(shí)別活動(dòng)。無(wú)線身體傳感器網(wǎng)絡(luò)(BSNs)是一種可穿戴傳感器,具有傳感、存儲(chǔ)、計(jì)算和傳輸能力。當(dāng)數(shù)據(jù)來(lái)自多個(gè)設(shè)備時(shí),需要進(jìn)行多傳感器融合,將潛在的錯(cuò)誤傳感器數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的融合數(shù)據(jù)。Muzammal等[71]提出一種數(shù)據(jù)融合的集成方法,用于在霧計(jì)算環(huán)境下處理BSNs獲得的醫(yī)療數(shù)據(jù)。在分類方面,該方法采用一種新的核隨機(jī)森林集成,其質(zhì)量顯著優(yōu)于隨機(jī)森林。

        由于數(shù)據(jù)的高維特性,分析生產(chǎn)環(huán)境中的傳感器數(shù)據(jù)相當(dāng)具有挑戰(zhàn)性。Iftikhar等[72]提出一種基于滑動(dòng)窗口的集成方法,以流的方式檢測(cè)異常值。該方法結(jié)合聚類算法構(gòu)造表示不同數(shù)據(jù)結(jié)構(gòu)的子集合,模型集成技術(shù)通過(guò)提供一種合適的聚合機(jī)制來(lái)有效地解決分類應(yīng)用。Alippi等[73]提出使用模型集成來(lái)在線重建傳感器網(wǎng)絡(luò)的缺失數(shù)據(jù)。重建缺失數(shù)據(jù)對(duì)于任何數(shù)據(jù)處理都是至關(guān)重要的,必須在線進(jìn)行以避免利用數(shù)據(jù)決策或控制行動(dòng)時(shí)引入不必要的延遲。集成的設(shè)計(jì)利用了構(gòu)成網(wǎng)絡(luò)的傳感器之間的時(shí)間和空間依賴性。Rodríguez等[74]介紹一類k均值隨機(jī)投影特征算法OCKRA(one-classk-means with randomly-projected features algorithm)。它是根據(jù)隨機(jī)特征子集在數(shù)據(jù)集的多個(gè)投影上構(gòu)建的一類分類器集成,實(shí)驗(yàn)數(shù)據(jù)通過(guò)嵌入在可穿戴手環(huán)上的一組傳感器獲取。

        3 數(shù)據(jù)流評(píng)估方法

        正確評(píng)估分類器或者回歸模型是機(jī)器學(xué)習(xí)的一個(gè)關(guān)鍵問(wèn)題。圖4為數(shù)據(jù)流完整的分類過(guò)程,其中包含評(píng)估的環(huán)節(jié)。采用正確、適合的評(píng)估措施也是實(shí)驗(yàn)驗(yàn)證的重要過(guò)程,但只有通過(guò)科學(xué)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)評(píng)估才能展現(xiàn)出算法優(yōu)勢(shì)。性能評(píng)估是分類的最后一個(gè)環(huán)節(jié),下面將詳細(xì)討論在數(shù)據(jù)流環(huán)境中,研究人員經(jīng)常使用的數(shù)據(jù)流分類的驗(yàn)證技術(shù),以及復(fù)雜數(shù)據(jù)流各自特有的性能評(píng)估方法。

        圖4 數(shù)據(jù)流評(píng)估過(guò)程

        3.1 驗(yàn)證技術(shù)

        在靜態(tài)和批處理學(xué)習(xí)的背景下,最常用的評(píng)估措施是交叉驗(yàn)證。由于傳統(tǒng)的數(shù)據(jù)量有限,根據(jù)交叉驗(yàn)證來(lái)提高數(shù)據(jù)使用率最大的缺點(diǎn)是耗費(fèi)時(shí)間。然而在具有嚴(yán)格計(jì)算要求和概念漂移的數(shù)據(jù)流環(huán)境中,它并不直接適用。盡管流學(xué)習(xí)算法的數(shù)量不斷增加,但評(píng)估學(xué)習(xí)模型質(zhì)量的指標(biāo)和實(shí)驗(yàn)設(shè)計(jì)仍然是一個(gè)開(kāi)放的問(wèn)題。評(píng)估技術(shù)決定哪些實(shí)例用于訓(xùn)練,哪些實(shí)例用于測(cè)試學(xué)習(xí)模型。本節(jié)將總結(jié)在數(shù)據(jù)流實(shí)驗(yàn)中廣泛使用的驗(yàn)證技術(shù)。

        Holdout:Holdout是一個(gè)獨(dú)立的測(cè)試集,使用這種評(píng)估方法需要2個(gè)數(shù)據(jù)子集:訓(xùn)練數(shù)據(jù)集和獨(dú)立測(cè)試集。在進(jìn)行模型評(píng)估的任何時(shí)刻,都有一個(gè)模型之前沒(méi)有使用過(guò)的測(cè)試集合,通過(guò)在不斷更新的集合上測(cè)試學(xué)習(xí)模型就得到了模型誤差的無(wú)偏估計(jì)。Gama等[75]在超快速森林樹(shù)系統(tǒng)UFFT(ultra fast forest tree system)使用該驗(yàn)證技術(shù),同時(shí)許多研究人員在綜述論文[11-12]中對(duì)Holdout評(píng)估方法進(jìn)行了詳細(xì)介紹,從傳統(tǒng)的批處理對(duì)Hold的應(yīng)用拓展到數(shù)據(jù)流場(chǎng)景。

        Prequential:該方法是數(shù)據(jù)流中最常用的評(píng)估技術(shù),其思想是先用實(shí)例測(cè)試模型,然后再訓(xùn)練模型。每當(dāng)一個(gè)實(shí)例經(jīng)過(guò)時(shí),當(dāng)前的模型就會(huì)做出預(yù)測(cè),同時(shí)會(huì)得出模型的損失。為了使誤差估計(jì)對(duì)這種情況更有魯棒性,必須實(shí)現(xiàn)適當(dāng)?shù)倪z忘機(jī)制,即結(jié)合滑動(dòng)窗口或衰減因子。Brzezinski等[2]在進(jìn)行OAUE算法的實(shí)驗(yàn)設(shè)置時(shí),其Prequential評(píng)估方法采用滑動(dòng)窗口和衰減因子作為遺忘條件,窗口大小d=1 000,衰減因子α=0.01,通過(guò)調(diào)整這2個(gè)變量來(lái)驗(yàn)證算法。Bertini Junior等[21]的IBS算法使用了同樣的窗口和衰減因子結(jié)合的評(píng)估方法進(jìn)行實(shí)驗(yàn)。

        Cross-validated prequential:當(dāng)前社會(huì)面臨的數(shù)據(jù)流具有來(lái)源多樣、實(shí)時(shí)性強(qiáng)、數(shù)據(jù)量大等特性。Bifet等[76]提出了新的對(duì)大數(shù)據(jù)流評(píng)估的分布式K折驗(yàn)證方法。在使用真實(shí)數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練時(shí),優(yōu)先評(píng)估方法相較于交叉驗(yàn)證只能運(yùn)行一次實(shí)驗(yàn),標(biāo)準(zhǔn)的交叉驗(yàn)證獨(dú)立地處理數(shù)據(jù)流的每個(gè)折疊,因此可能會(huì)錯(cuò)過(guò)數(shù)據(jù)流中發(fā)生的概念漂移。為了克服這個(gè)挑戰(zhàn),該文提出3種策略:1)交叉驗(yàn)證(cross-validation);2)分割驗(yàn)證(split-validation);3)采樣驗(yàn)證(bootstrap validation)。理論證明,使用K折方法的誤差比優(yōu)先方法低。在Gomes等[77]提出的自適應(yīng)隨機(jī)森林(ARF)算法實(shí)驗(yàn)驗(yàn)證中也用到了K折驗(yàn)證方法。

        Latency Verification:流式挖掘的很大一部分研究都是在做出預(yù)測(cè)后,立即對(duì)真實(shí)標(biāo)簽的可用性進(jìn)行分類。但是在許多實(shí)際情況下,給數(shù)據(jù)貼標(biāo)簽的延遲不可忽略,這就提出了在這種情況下如何評(píng)估分類器的問(wèn)題。Gomes等[77]在ARF算法的評(píng)估中進(jìn)行了及時(shí)設(shè)置和延遲設(shè)置來(lái)模擬實(shí)驗(yàn),提出一種評(píng)估分類性能的方法,其假設(shè)存在標(biāo)簽不易獲得的問(wèn)題,標(biāo)識(shí)為“延遲標(biāo)簽設(shè)置”,并且定義非常簡(jiǎn)單:根據(jù)其正確預(yù)測(cè)實(shí)例的能力來(lái)評(píng)估,只能在固定的時(shí)間單位后使用。Grzenda等[78]提出一種新的對(duì)數(shù)據(jù)流標(biāo)簽延遲的評(píng)估方法,即連續(xù)重新評(píng)估,它應(yīng)用于參考數(shù)據(jù)流,并基于新到達(dá)實(shí)例細(xì)化預(yù)測(cè)的能力來(lái)區(qū)分流挖掘技術(shù)。

        3.2 評(píng)估指標(biāo)

        隨著數(shù)據(jù)流挖掘不斷受到重視,各種復(fù)雜數(shù)據(jù)流的算法也被相繼提出。然而一個(gè)好的處理數(shù)據(jù)流分類算法,需要相應(yīng)的評(píng)估指標(biāo)去驗(yàn)證。本節(jié)對(duì)廣泛研究的復(fù)雜數(shù)據(jù)流的評(píng)估指標(biāo)進(jìn)行討論,同時(shí)對(duì)比總結(jié)各種常見(jiàn)數(shù)據(jù)流算法的評(píng)估指標(biāo)。表4列舉了數(shù)據(jù)流算法實(shí)驗(yàn)中各自適配的評(píng)估指標(biāo)。

        表4 復(fù)雜數(shù)據(jù)流算法的評(píng)估指標(biāo)

        3.2.1 傳統(tǒng)分類評(píng)估指標(biāo)

        在傳統(tǒng)穩(wěn)態(tài)數(shù)據(jù)流的機(jī)器學(xué)習(xí)分類中,算法的評(píng)估指標(biāo)多集中在準(zhǔn)確率(accuracy, Acc)、錯(cuò)誤率(error rate)、內(nèi)存(memory, M)和運(yùn)行時(shí)間(running time, RT)。無(wú)論是回歸還是分類任務(wù),這4個(gè)指標(biāo)是最優(yōu)先考慮的。然而,為了全方位評(píng)估算法的性能,更加復(fù)雜的評(píng)估指標(biāo),即精準(zhǔn)率(precision, P)和召回率(recall, R)被提出,它們能更好地評(píng)估傳統(tǒng)的分類或者回歸任務(wù)。Precision用于衡量分類器的查準(zhǔn)率,表示辨識(shí)為正的正樣本占所有辯識(shí)為正的樣本比重,而Recall用于衡量分類器的查全率,表示辨識(shí)為正的正樣本占所有正樣本的比重。

        3.2.2 復(fù)雜數(shù)據(jù)流分類評(píng)估指標(biāo)

        在數(shù)據(jù)流分類場(chǎng)景中會(huì)面臨各種復(fù)雜的情況,如前后分類的概念不一樣、標(biāo)簽數(shù)量不相同,等等。這些復(fù)雜情況的評(píng)估需要研究者分門別類研究,下面將總結(jié)在非靜態(tài)分類中,研究者在文獻(xiàn)中所使用到的分類評(píng)估指標(biāo),同時(shí)在非靜態(tài)環(huán)境中,傳統(tǒng)的分類評(píng)估指標(biāo)依然可以作為通用的評(píng)估指標(biāo)。Bifet等[79]提出在非靜態(tài)環(huán)境中對(duì)時(shí)間評(píng)估的新指標(biāo)RAM-Hours,它是一種基于云計(jì)算服務(wù)租賃成本的一維度量。

        概念漂移數(shù)據(jù)流:在含有概念漂移的數(shù)據(jù)流中,有時(shí)需要主動(dòng)檢測(cè)漂移是否發(fā)生,再根據(jù)設(shè)計(jì)的算法進(jìn)行處理,以便讓分類器更好地進(jìn)行學(xué)習(xí)而不用一直降低精度。Abdualrhman等[23]在DCDD算法中使用到漂移檢測(cè)率(drift detection rate,DDR)、漂移檢測(cè)錯(cuò)誤率(drift detection error rate, DDER)。DDR=正確檢測(cè)到飄移的數(shù)量/檢測(cè)漂移的總數(shù)量;DDER=錯(cuò)誤檢測(cè)漂移的數(shù)量/檢測(cè)漂移的總數(shù)量。

        不平衡數(shù)據(jù)流:在不平衡數(shù)據(jù)流中,傳統(tǒng)的指標(biāo)已經(jīng)不適用于不平衡的分類場(chǎng)景。分類器總傾向多數(shù)類別,因此針對(duì)不平衡分類性能評(píng)估,相關(guān)學(xué)者提出F-Measure(F)、G-Mean(G)。F-Measure與召回率(recall)和精確率(precision)相關(guān),它可以正確評(píng)價(jià)分類器對(duì)于多數(shù)類和少數(shù)類樣本的分類性能。G-mean是Kubat等[80]提出的幾何均值,它同時(shí)考慮了少數(shù)類和多數(shù)類的精度,常用于評(píng)估不平衡數(shù)據(jù)的分類。Sensitivity是對(duì)模型正確預(yù)測(cè)正例樣本的度量,它有時(shí)被稱為真陽(yáng)性率(TPR)。Specificity是模型正確預(yù)測(cè)負(fù)類樣本的度量,它有時(shí)被稱為真負(fù)率(TNR)。Kappa統(tǒng)計(jì)在不平衡數(shù)據(jù)流中是經(jīng)常使用的統(tǒng)計(jì)方法,其中標(biāo)準(zhǔn)的KappaK(K)也是常用的評(píng)估指標(biāo),而B(niǎo)ifet等[76]提出廣義的KappaM,它比標(biāo)準(zhǔn)的KappaK更適合不平衡數(shù)據(jù)流。另外,受試者工作特征(receiver operating characteristic, ROC)曲線和曲線下面積(area under ROC curve,AUC)也常用于評(píng)估分類器性能。為了表述以上指標(biāo),以二分類為主,采用混淆矩陣(見(jiàn)表5)來(lái)表示常用的不平衡數(shù)據(jù)評(píng)估的公式(見(jiàn)表6)。

        表5 混淆矩陣

        表6 評(píng)估指標(biāo)的公式

        多標(biāo)簽數(shù)據(jù)流:在流數(shù)據(jù)挖掘任務(wù)中,多標(biāo)簽數(shù)據(jù)流相關(guān)算法始終是研究較少的一個(gè)方向。由于它本身的復(fù)雜性對(duì)于實(shí)驗(yàn)設(shè)計(jì)有著不同的要求,但是仍然有它特有的分類性能評(píng)估方法,許多文獻(xiàn)提出相應(yīng)的評(píng)估指標(biāo),如漢明損失(hamming loss, HL)、子集精度(subset-accuracy)、排序損失(ranking loss, RL)等[81]。Hamming loss考慮了預(yù)測(cè)錯(cuò)誤和丟失錯(cuò)誤,評(píng)估的是一個(gè)實(shí)例標(biāo)簽對(duì)被錯(cuò)誤分類的頻率。Subset-accuracy是一個(gè)非常嚴(yán)格的精度度量標(biāo)準(zhǔn),如果分類器預(yù)測(cè)的所有標(biāo)簽都是正確的,就認(rèn)為分類是正確的。

        除了以上常用的評(píng)估指標(biāo)外,也有文獻(xiàn)提出更復(fù)雜的方法來(lái)評(píng)估算法特性。Shaker等[82]提出恢復(fù)分析(recovery analysis),它提供一個(gè)概念學(xué)習(xí)器快速發(fā)現(xiàn)概念漂移的能力,并采取適當(dāng)?shù)拇胧﹣?lái)保持模型的質(zhì)量和泛化性能。不僅考慮模型在新的決策空間中減少誤差的效果,而且還考慮所需的時(shí)間。

        4 展望

        雖然現(xiàn)在很多類型的數(shù)據(jù)流都有各自的解決方案,但是還有很多類型的數(shù)據(jù)流無(wú)論是在算法層面,還是評(píng)估方面都需要去探究。例如挖掘延遲的標(biāo)簽流、多種類型并存的數(shù)據(jù)流、不確定數(shù)據(jù)流以及數(shù)據(jù)流的評(píng)估方法等,下面將對(duì)這些問(wèn)題進(jìn)行仔細(xì)分析。

        4.1 不確定數(shù)據(jù)流集成分類的挑戰(zhàn)

        很少有學(xué)者進(jìn)行不確定數(shù)據(jù)流的挖掘研究,目前可用的數(shù)據(jù)流分類算法都致力于精確數(shù)據(jù)的挖掘,但不確定的數(shù)據(jù)在現(xiàn)實(shí)應(yīng)用中卻很常見(jiàn)。如在傳感器網(wǎng)絡(luò)采集和傳輸過(guò)程中,濕度、溫度等天氣信息含有大量的不確定性。Yu等[83]提出一種的混合增量回歸神經(jīng)網(wǎng)絡(luò),能夠從大量不確定數(shù)據(jù)中學(xué)習(xí)準(zhǔn)確的回歸模型。近幾年對(duì)不確定數(shù)據(jù)的其他研究較多,但對(duì)于它的分類研究,尤其是集成分類這個(gè)方向的研究仍然稀缺。

        4.2 多種數(shù)據(jù)流并存集成分類的挑戰(zhàn)

        現(xiàn)在大多數(shù)研究的流集成處理的是單個(gè)流,然而在一些應(yīng)用中,例如歷史事件分析中涉及數(shù)據(jù)的審查可能會(huì)存在多個(gè)流[84]。在這樣的多個(gè)流中,相同的數(shù)據(jù)事件可能出現(xiàn)在每個(gè)流中的不同時(shí)刻,并且可能具有不同的描述。這帶來(lái)了幾個(gè)有趣且新的挑戰(zhàn),例如,如何匯總不同流中可用的同一事件的信息,如何預(yù)測(cè)事件在其中一個(gè)流中出現(xiàn)的時(shí)刻,等等。在大數(shù)據(jù)分析中整合不同數(shù)據(jù)存儲(chǔ)庫(kù)的背景下,這些方面應(yīng)該特別重要。集成學(xué)習(xí)在多個(gè)數(shù)據(jù)流中的應(yīng)用將是一個(gè)新的研究和挑戰(zhàn)。

        4.3 延遲數(shù)據(jù)流集成分類的挑戰(zhàn)

        目前大多數(shù)框架都假定對(duì)目標(biāo)值的訪問(wèn)是實(shí)時(shí)的,或者沒(méi)有太大延遲的,然而現(xiàn)實(shí)生活中很多事件是延遲預(yù)測(cè)的。當(dāng)不能快速標(biāo)記所有的實(shí)例時(shí),仍然有可能以合理的代價(jià)為有限數(shù)量的實(shí)例獲得真正的標(biāo)簽。?liobaitē等[85]提出數(shù)據(jù)流中主動(dòng)學(xué)習(xí)的理論框架,給出主動(dòng)學(xué)習(xí)策略的3個(gè)條件:在無(wú)限長(zhǎng)的時(shí)間內(nèi)平衡標(biāo)簽預(yù)算;感知實(shí)例空間中的任何位置變化;保持傳入數(shù)據(jù)的分布以檢測(cè)變化。未來(lái)研究可以將主動(dòng)學(xué)習(xí)與集成框架相結(jié)合來(lái)處理延遲的樣本標(biāo)簽。

        4.4 數(shù)據(jù)流分類評(píng)估方法的挑戰(zhàn)

        目前各種復(fù)雜數(shù)據(jù)流的實(shí)驗(yàn)測(cè)量都有各自適配的評(píng)估指標(biāo),但是也存在相應(yīng)的問(wèn)題。在實(shí)際算法應(yīng)用中,研究人員需要根據(jù)需求來(lái)選擇合適的度量指標(biāo),有很多方面需要完善:第一,如何綜合各類性能度量指標(biāo),給出一個(gè)更加準(zhǔn)確、全面的算法性能評(píng)價(jià)結(jié)果,將是一個(gè)非常值得研究的問(wèn)題;第二,在延遲到來(lái)的數(shù)據(jù)流中應(yīng)該有延遲率的評(píng)估,這樣可以采取適當(dāng)方法提高分類性能;第三,不僅需要提供分類學(xué)習(xí)算法的AUC度量,還需要提供它的方差或置信區(qū)間,以給出更加準(zhǔn)確的算法性能度量結(jié)果。

        5 結(jié)語(yǔ)

        本文對(duì)現(xiàn)有的復(fù)雜數(shù)據(jù)流集成分類的算法進(jìn)行了綜述。首先,從研究背景的概述、復(fù)雜數(shù)據(jù)流集成分類算法、領(lǐng)域數(shù)據(jù)流、數(shù)據(jù)流的評(píng)估方法以及研究展望進(jìn)行了詳細(xì)分析,其中對(duì)復(fù)雜數(shù)據(jù)流集成算法和相關(guān)評(píng)估方法進(jìn)行了詳細(xì)討論,包括基分類器、集成技術(shù)和集成策略等。然后,從數(shù)據(jù)集、集成方式、優(yōu)缺點(diǎn)、復(fù)雜度方面對(duì)所提到的算法進(jìn)行對(duì)比,同時(shí)對(duì)現(xiàn)有數(shù)據(jù)流的應(yīng)用領(lǐng)域進(jìn)行總結(jié)。最后,對(duì)復(fù)雜數(shù)據(jù)流集成分類所面臨的挑戰(zhàn)提出未來(lái)的研究方向,以便這些問(wèn)題可以得到解決和研究。

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        无码国产一区二区三区四区| 色妞一区二区三区免费视频| 亚洲五月天中文字幕第一页| 在线观看麻豆精品视频| 邻居少妇张开腿让我爽了一夜| 国产综合在线观看| 久久人人玩人妻潮喷内射人人| 国产毛片视频网站| 久久国产精品免费一区六九堂| 最近中文字幕一区二区三区| 尤物国产一区二区三区在线观看| 狠狠色噜噜狠狠狠8888米奇| 男女做爰猛烈啪啪吃奶动| 亚洲中文字幕无码久久2020| 亚洲中文字幕在线爆乳| 99精品国产av一区二区| 国产一区二区三区不卡视频| 欧美大片va欧美在线播放| 九九热线有精品视频86| 少妇太爽了在线观看| 中文岛国精品亚洲一区| 一区二区免费国产a在亚洲| 日本一区二区视频高清| 人人做人人爽人人爱| 精品国产人成亚洲区| 亚洲综合久久久| 日本第一区二区三区视频| 熟女一区二区国产精品| 亚洲乱码无人区卡1卡2卡3| 色偷偷噜噜噜亚洲男人| 国产人成精品综合欧美成人| 国产亚洲美女精品久久久2020| 一区二区三区成人av| 人妻少妇不满足中文字幕 | 亚洲色欲色欲www在线观看| 久久久精品波多野结衣| 日韩在线观看网址| 国产精品老女人亚洲av无| 亚洲人不卡另类日韩精品| 亚洲成av人片在线观看www| 亚洲精品国产成人AV|