亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向動(dòng)態(tài)數(shù)據(jù)塊的非平衡數(shù)據(jù)流分類算法

        2021-07-14 16:21:44王俊紅郭亞慧
        關(guān)鍵詞:數(shù)據(jù)流分類器概念

        王俊紅,郭亞慧

        1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原030006

        2.計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原030006

        在計(jì)算機(jī)網(wǎng)絡(luò)中,控制監(jiān)控系統(tǒng)的故障診斷和入侵檢測(cè)等數(shù)據(jù)流往往呈現(xiàn)不均衡的類分布。在這些情況下,某些類別的數(shù)據(jù)比其他類別的數(shù)據(jù)更困難或更有意義,在文獻(xiàn)中稱為類別不平衡。在不平衡數(shù)據(jù)中,一般只含有兩類,其中樣本少的類稱為少數(shù)類,而樣本多的類則稱為多數(shù)類。目前傳統(tǒng)的針對(duì)平衡數(shù)據(jù)集的分類算法對(duì)于多數(shù)類和少數(shù)類的分類精度相差甚遠(yuǎn),導(dǎo)致整體上的分類準(zhǔn)確率比較好,但是少數(shù)類的分類效果比較差[1]。這可能會(huì)導(dǎo)致性能的大幅下降,因?yàn)榇罅康亩鄶?shù)類示例會(huì)超過模型的增量更新,而少數(shù)類示例很可能被忽略[2]。所以,非平衡數(shù)據(jù)分類算法任務(wù)的重點(diǎn)就在于如何提高少數(shù)類的精度,還要維持較高的整體分類精度。從這種不平衡的數(shù)據(jù)流中學(xué)習(xí)被稱為在線類不均衡(OCI)學(xué)習(xí)[3],這對(duì)現(xiàn)有的研究提出了挑戰(zhàn)。數(shù)據(jù)流中的概念漂移就是其中之一,即底層數(shù)據(jù)的分布隨時(shí)間發(fā)生不可預(yù)測(cè)的變化現(xiàn)象。這一點(diǎn)在數(shù)據(jù)流分類中是很重要,因?yàn)樵诂F(xiàn)實(shí)世界中,數(shù)據(jù)往往是非平穩(wěn)的。例如,在故障檢測(cè)過程中可能會(huì)出現(xiàn)新的故障類型。雖然存在檢測(cè)和處理概念漂移的方法,但是類不平衡加劇了需要解決的問題。

        近年來,不平衡數(shù)據(jù)分類問題已經(jīng)引起了國(guó)內(nèi)外眾多學(xué)者的廣泛關(guān)注,主要是從數(shù)據(jù)預(yù)處理層和分類算法層兩方面進(jìn)行[4]。數(shù)據(jù)處理的主要思想就是在分類之前對(duì)原數(shù)據(jù)進(jìn)行平衡調(diào)整,使不平衡數(shù)據(jù)達(dá)到一定程度的平衡狀態(tài)。常用的調(diào)整非平衡數(shù)據(jù)的方法為采樣技術(shù)、數(shù)據(jù)重組和單類學(xué)習(xí)方法;算法層面就是通過調(diào)整分類算法來適應(yīng)數(shù)據(jù)的不平衡,大致可以分為兩類方法:代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)。在不平衡數(shù)據(jù)分類算法中,通常將數(shù)據(jù)處理和算法改進(jìn)結(jié)合起來,例如將結(jié)合采樣方法、代價(jià)敏感和集成學(xué)習(xí)等,以提高分類效果。

        數(shù)據(jù)流中存在的概念漂移現(xiàn)象使得上述傳統(tǒng)的分類算法難以滿足其需求,固定的分類模型不再適用于動(dòng)態(tài)數(shù)據(jù)流的變化。所以,數(shù)據(jù)流分類方法成為很多國(guó)內(nèi)外學(xué)者的研究重點(diǎn)。文獻(xiàn)[5]提出了一類適用于在線代價(jià)敏感學(xué)習(xí)的算法方法,利用現(xiàn)有的在線集成算法方法與批處理模式方法相結(jié)合,用于代價(jià)敏感bagging和boosting 算法。文獻(xiàn)[6]改進(jìn)了Online Bagging 內(nèi)部重采樣策略,增加了類不平衡檢測(cè)機(jī)制,提出OOB和UOB算法。并且針對(duì)非平衡數(shù)據(jù)流中的概念漂移問題,提出了概念漂移檢測(cè)的一種改進(jìn)[7],通過監(jiān)控少數(shù)類的Recall值的下降來判斷產(chǎn)生漂移。為了解決重復(fù)出現(xiàn)的概念漂移對(duì)分類速度的影響,文獻(xiàn)[8]提出了存放分類模型的池機(jī)制,通過KL-distance判斷概念漂移,若重復(fù)出現(xiàn),則從池中直接獲取與之相對(duì)應(yīng)的分類模型,避免重復(fù)更新分類器,加快分類速度。文獻(xiàn)[9]提出了一種從增量數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的新方法,設(shè)計(jì)了一種新的增量評(píng)分函數(shù),即采用logP(D|B)/N和logP(D′|B′)/N′作為評(píng)分函數(shù),自適應(yīng)地調(diào)整增量學(xué)習(xí)過程中新舊數(shù)據(jù)匹配的趨勢(shì)。文獻(xiàn)[10]提出一種基于加權(quán)機(jī)制概念漂移策略,使用基于信息表的高斯樸素貝葉斯分類器,利用“Kappa 統(tǒng)計(jì)”方法建立基于加權(quán)機(jī)制的概念漂移檢測(cè)方法,根據(jù)輸入數(shù)據(jù)波動(dòng)性,分別采取線性函數(shù)和貝葉斯函數(shù)進(jìn)行檢測(cè),利用專家點(diǎn)刪除和信息表來處理經(jīng)常性的概念漂移,實(shí)現(xiàn)漂移檢測(cè)精度和效率的提升。為解決數(shù)據(jù)流分類過程中樣本標(biāo)注和概念漂移問題,文獻(xiàn)[11]提出了一種基于實(shí)例遷移的數(shù)據(jù)流分類挖掘模型。使用支持向量機(jī)作學(xué)習(xí)器,借助互近鄰思想在源域中挑選目標(biāo)域中樣本的真鄰居進(jìn)行實(shí)例遷移,避免發(fā)生負(fù)遷移,通過合并目標(biāo)域和遷移樣本形成訓(xùn)練集,提高標(biāo)注樣本數(shù)量,增強(qiáng)模型的泛化能力。文獻(xiàn)[12]基于OS-ELM,提出了一種動(dòng)態(tài)閾值的概念漂移檢測(cè)方法,通過新收集的數(shù)據(jù)量化更新模型的修改量,當(dāng)兩個(gè)OS-ELM模型的差異測(cè)量D(M?(t1),M?(t1+Δt))>Th時(shí),檢測(cè)到概念漂移。

        與以往僅僅解決數(shù)據(jù)流中的概念漂移不同,本文主要針對(duì)概念漂移和數(shù)據(jù)不平衡兩種問題,解決數(shù)據(jù)流分類算法在檢測(cè)概念漂移的同時(shí)對(duì)非平衡數(shù)據(jù)進(jìn)行處理,提出了一種面向動(dòng)態(tài)數(shù)據(jù)塊的非平衡數(shù)據(jù)流分類算法(Imbalanced data Stream classification algorithm based on dynamic Data Chunk,ISDC)。該算法在數(shù)據(jù)流分類過程中,通過設(shè)置Kappa系數(shù)檢測(cè)漂移的概念漂移檢測(cè)機(jī)制[13]來監(jiān)測(cè)數(shù)據(jù)塊的概念變化。當(dāng)檢測(cè)到概念漂移時(shí),預(yù)示著可能出現(xiàn)了數(shù)據(jù)的不平衡,系統(tǒng)依據(jù)已有的知識(shí),及時(shí)將所有不符合要求的分類器淘汰。然后,需要對(duì)數(shù)據(jù)中的不平衡進(jìn)行檢測(cè),采用經(jīng)典的過采樣SMOTE 方法平衡數(shù)據(jù)。保留當(dāng)前數(shù)據(jù)塊的少數(shù)類樣本,對(duì)其進(jìn)行SMOTE過采樣增加少數(shù)類數(shù)量,得到相對(duì)平衡的數(shù)據(jù)集,利用采樣后的數(shù)據(jù)訓(xùn)練新的分類器加入到分類器集成中。

        1 相關(guān)概念

        1.1 Kappa系數(shù)

        Kappa系數(shù)用于一致性檢驗(yàn),也是一種衡量分類精度的指標(biāo),其值的方法如下[14]:

        其中,p0表示觀測(cè)精確性或一致性單元的比例,pe表示偶然性一致或期望的偶然一致的單元的比例。

        在對(duì)數(shù)據(jù)流進(jìn)行分類時(shí),如果數(shù)據(jù)流中的概念在一定閾值內(nèi)沒有發(fā)生改變,即使有快速的不斷到來的數(shù)據(jù),分類器也會(huì)適應(yīng)當(dāng)前數(shù)據(jù)流的分布,使得分類效果慢變好,到達(dá)一定值后趨于穩(wěn)定。若分類器前后的分類效果呈現(xiàn)不一致性,則表示當(dāng)前數(shù)據(jù)塊發(fā)生了概念漂移。為了有效地利用Kappa系數(shù)檢測(cè)概念漂移,利用重新定義的Kappa系數(shù)公式和閾值:

        其中,pi為分類模型對(duì)最新數(shù)據(jù)塊Bi分類結(jié)果的準(zhǔn)確率,對(duì)應(yīng)相同的下標(biāo);為當(dāng)前與上次概念漂移之間的每個(gè)數(shù)據(jù)塊被所有子分類器進(jìn)行分類的結(jié)果準(zhǔn)確率的平均值。因此根據(jù)公式推導(dǎo),當(dāng)Kappa 系數(shù)不滿足下式(3)時(shí),可判斷概念漂移的發(fā)生。

        其中,ki為根據(jù)式(2)和數(shù)據(jù)塊Bi計(jì)算出的Kappa 系數(shù),α為顯著性水平,n為實(shí)驗(yàn)觀測(cè)的次數(shù)。

        由式(2)可以看出,Kappa 系數(shù)指的是上次概念穩(wěn)定時(shí)的分類模型與目前分類模型分類性能的差異性,它可以用來度量當(dāng)前分類器的性能。概念越有可能處于穩(wěn)定狀態(tài),當(dāng)前分類器的分類性能越好,差異性也越?。环粗?,差異性越大。在公式計(jì)算中,分類器在之前概念穩(wěn)定時(shí)的性能用來評(píng)價(jià),是由于對(duì)相鄰兩個(gè)數(shù)據(jù)塊的分類性能的對(duì)比存在一定得偶然性誤差,因此要對(duì)兩次概念漂移出現(xiàn)時(shí)的分類器的一致性進(jìn)行比較。

        1.2 不平衡問題

        數(shù)據(jù)中的類不平衡一直是分類問題中的重點(diǎn)和難點(diǎn),針對(duì)這一問題,學(xué)者們對(duì)于傳統(tǒng)的分類器(例如,貝葉斯、K近鄰、決策樹等)已經(jīng)進(jìn)行了深入的研究,得出了很多適應(yīng)類不均衡的分類算法。數(shù)據(jù)流中的類不均衡指的是:在數(shù)據(jù)流中,一個(gè)類別的樣本數(shù)遠(yuǎn)遠(yuǎn)少于其他類別。給定一個(gè)數(shù)據(jù)流{…,dt-1,dt,dt+1…},其中dt(xt,yt),xt表示t時(shí)刻到達(dá)的數(shù)據(jù)樣本的屬性變量,yt表示該數(shù)據(jù)樣本的類標(biāo)簽。設(shè)當(dāng)前訓(xùn)練數(shù)據(jù)集為S,其中,多數(shù)類樣本記為集合N,少數(shù)類樣本記為集合P,且S=P?N。因此,不平衡分類也可以看作是二類問題,樣本數(shù)少的為少數(shù)類或者正類,樣本數(shù)多的為多數(shù)類或者負(fù)類,在不平衡數(shù)據(jù)中,樣本數(shù)少的少數(shù)類往往具有更高的價(jià)值。在數(shù)據(jù)流分類過程中,如果少數(shù)類樣本數(shù)非常少且出現(xiàn)的頻率低,少數(shù)類與多數(shù)類的比例甚至為1∶999,這會(huì)導(dǎo)致分類模型預(yù)測(cè)不到少數(shù)類,但是分類準(zhǔn)確率卻高達(dá)99.9%,這對(duì)于具有重要價(jià)值的少數(shù)類來說是沒有意義的。例如,在疾病診斷中,患癌癥的人遠(yuǎn)遠(yuǎn)少于沒有患病的人,可以正確地檢測(cè)到癌癥對(duì)病人是非常重要的。

        在數(shù)據(jù)流中,通過少數(shù)類樣本在整個(gè)樣本中的所占數(shù)量,就可以得知整個(gè)數(shù)據(jù)集的不平衡率。當(dāng)P/S=0.5時(shí),數(shù)據(jù)是平衡的,當(dāng)?shù)闹敌∮谝欢ㄩ撝禃r(shí),當(dāng)前數(shù)據(jù)被看作是不平衡的。本文算法以數(shù)據(jù)塊的方式處理快速到達(dá)的數(shù)據(jù)流,因此需要對(duì)當(dāng)前處理的數(shù)據(jù)塊進(jìn)行非平衡檢測(cè),若數(shù)據(jù)塊不平衡,這時(shí)就要對(duì)非平衡數(shù)據(jù)流進(jìn)行處理。

        通過對(duì)數(shù)據(jù)處理來解決非平衡問題的常用方法就是對(duì)數(shù)據(jù)進(jìn)行抽樣,包括對(duì)多數(shù)類的欠采樣和對(duì)少數(shù)類的過采樣。本文采用過采樣中的經(jīng)典方法——SMOTE采樣方法,當(dāng)檢測(cè)到當(dāng)前數(shù)據(jù)塊不平衡時(shí),對(duì)數(shù)據(jù)塊中的少數(shù)類用SMOTE方法,使少數(shù)類樣本增加,達(dá)到一定程度的平衡,然后用采樣后的數(shù)據(jù)訓(xùn)練分類器。

        1.3 評(píng)價(jià)指標(biāo)

        整體分類準(zhǔn)確率指標(biāo)對(duì)于少數(shù)類而言是不科學(xué)的,因此針對(duì)二分類問題有其特有的評(píng)價(jià)指標(biāo),一般使用混淆矩陣來表示分類結(jié)果,TP(True Positive)表示預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽都為正類;FN(False Negative)表示預(yù)測(cè)標(biāo)簽為負(fù)類,真實(shí)標(biāo)簽為正類;FP(False Positive)表示預(yù)測(cè)標(biāo)簽為正類,真實(shí)標(biāo)簽為負(fù)類;TN(True Negative)表示真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽都為負(fù)類,如表1所示。

        表1 混淆矩陣

        根據(jù)表1 中的指標(biāo),常用的類不均衡評(píng)價(jià)指標(biāo)如下所示。

        (1)精度(Pression),也稱為查準(zhǔn)率:

        (2)召回率(Recall),也成為查全率,即正類的分類準(zhǔn)確率:

        (3)F1測(cè)度,可以正確衡量分類器對(duì)正負(fù)類的分類性能:

        (4)幾何平均G-mean值,用來衡量非平衡數(shù)據(jù)集的分類性能:

        (5)AUC 值,是值ROC 曲線下方的面積值,直觀的反應(yīng)了分類器的分類能力,其值越高,分類性能越好。

        為了更好地衡量本文算法對(duì)數(shù)據(jù)流中少數(shù)類以及整體的分類能力,因此分別使用了Recall、F1 以及AUC作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。

        2 面向動(dòng)態(tài)數(shù)據(jù)塊的非平衡數(shù)據(jù)流分類算法

        ISDC 算法通過計(jì)算每個(gè)數(shù)據(jù)塊分類結(jié)果的值,利用式(2)和式(3)來檢測(cè)數(shù)據(jù)流的概念是否處于穩(wěn)定狀態(tài)。當(dāng)不滿足式(3)時(shí),表示分類模型的性能有所下降,概念漂移出現(xiàn)。當(dāng)檢測(cè)到概念漂移后,當(dāng)前的分類模型已不再適用,必須根據(jù)一定的規(guī)則更新分類器。因此,本章要一次淘汰掉表現(xiàn)差的所有子分類器,使得算法能夠很快適應(yīng)數(shù)據(jù)流中的當(dāng)前概念。此時(shí),要計(jì)算數(shù)據(jù)塊在每一個(gè)子分類器訓(xùn)練下的Kappa值,需要用子分類器對(duì)數(shù)據(jù)塊的分類準(zhǔn)確率來代替式(2)中的,計(jì)算出代入式(3)來判斷當(dāng)前子分類器是否適應(yīng)當(dāng)前數(shù)據(jù),若不符合,則把該子分類器刪除。然后再進(jìn)行非平衡檢測(cè),根據(jù)平衡后的數(shù)據(jù)訓(xùn)練新的子分類器加入到分類模型中。

        2.1 ISDC算法框架

        基于上述思想,本文提出了針對(duì)存在概念漂移和不平衡的數(shù)據(jù)流分類算法ISDC。主要框架示意圖如圖1所示。

        圖1 ISDC算法框架示意圖

        2.2 算法執(zhí)行過程

        由以上知識(shí)可知,ISDC算法的執(zhí)行過程如下。

        3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證文中的算法與同類算法對(duì)數(shù)據(jù)流的分類性能,數(shù)據(jù)集選用MOA[15]環(huán)境產(chǎn)生Hyperplane(Hyp)包含概念漂移的平衡數(shù)據(jù)集,以及9個(gè)選自UCI的真實(shí)數(shù)據(jù)集,分別是Horse、Echocardiogram(Ech)、Germany(Germ)、Breast Card(BC)、Tic、votes、bankfull(bank)、Online shoppers intention(ONSI)和Dcredit card(DC),包含概念漂移的不平衡數(shù)據(jù)集。數(shù)據(jù)情況如表2所示,表中包含數(shù)據(jù)集名稱、數(shù)據(jù)集的大小、屬性個(gè)數(shù)以及非平衡率,其中非平衡率是少數(shù)類占數(shù)據(jù)樣本總數(shù)的比值。這些數(shù)據(jù)集的數(shù)據(jù)為兩類樣本數(shù)據(jù),大多為數(shù)值型,針對(duì)個(gè)別一些為字符的屬性,進(jìn)行人為修正,將字符用數(shù)值表示。

        表2 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)選用BWE[16]、AE[17]、AWE[18]以及DSCK[13]作為對(duì)比算法,在Recall值、AUC值和F1值等評(píng)價(jià)指標(biāo)上對(duì)算法進(jìn)行分析。實(shí)驗(yàn)環(huán)境為:Windows10 操作系統(tǒng),Intel Core2.94 GB 四核CPU,8 GB 內(nèi)存,算法程序由Matlab R2016a實(shí)現(xiàn)。進(jìn)行一些相關(guān)的實(shí)驗(yàn)設(shè)置,設(shè)定子分類器數(shù)目的上限k=4,顯著性水平α=0.05,σ=10?7。AE、AWE和BWE 算法的基分類器采用C4.5 算法實(shí)現(xiàn),DSCK和ISDC算法的基本分類器采用CART算法實(shí)現(xiàn)。每次訓(xùn)練過程中選取數(shù)據(jù)集的80%作為訓(xùn)練集,20%作為測(cè)試集。

        由于每個(gè)數(shù)據(jù)集的數(shù)量不同,因此劃分的數(shù)據(jù)塊大小不一致,在實(shí)驗(yàn)過程中對(duì)每個(gè)數(shù)據(jù)集選用的窗口大小也不盡相同,實(shí)驗(yàn)結(jié)果如表2~4 所示,表中黑色加粗的數(shù)值為每一行的最大值,最有一列分別為數(shù)據(jù)集所采用的數(shù)據(jù)塊大小。

        由表3 分析可得,除去hyperplane 數(shù)據(jù)集,ISDC 算法在其他數(shù)據(jù)集上的Recall 值都是最好的。尤其與DSCK 進(jìn)行對(duì)比,Recall 值的提高是由于在處理概念漂移的基礎(chǔ)上增加了對(duì)不平衡數(shù)據(jù)的處理,SMOTE 方法使少數(shù)類的分類能力得到提高。而對(duì)于hyperplane 數(shù)據(jù)集,由于它本身就是平衡數(shù)據(jù)集,所以并沒有用到本章算法中的SMOTE 采樣方法,分類結(jié)果與DSCK 是一樣的,因此,該算法在處理非平衡數(shù)據(jù)方面具有一定的優(yōu)勢(shì)。綜合來看,ISDC 算法在處理非平衡數(shù)據(jù)流優(yōu)于其他算法。

        表3 實(shí)驗(yàn)算法在不同數(shù)據(jù)集上的平均Recall值

        從表4和表5來看,ISDC算法比AE、AWE、BWE算法在大多數(shù)數(shù)據(jù)集上的效果好,主要與概念漂移的處理策略有關(guān)。在ISDC 算法分類過程中,當(dāng)檢測(cè)出概念漂移時(shí),分類性能較差的所有子分類器在算法中都將被刪除。對(duì)比AWE和BWE算法,采用逐步淘汰的策略對(duì)分類器做出調(diào)整,若想淘汰多個(gè)性能較差的子分類器則需要很長(zhǎng)的訓(xùn)練過程。在所有不符合要求的子分類器被完全淘汰之前,一部分性能較差的子分類器仍然會(huì)對(duì)新數(shù)據(jù)進(jìn)行分類,當(dāng)分類器的淘汰速度匹配不上概念漂移的變化速度時(shí),BWE和AWE算法的分類準(zhǔn)確率就會(huì)受分類器的影響,性能降低。ISDC 算法比DSCK 算法分類效果好的原因就在于對(duì)數(shù)據(jù)進(jìn)行了平衡處理。概念漂移和不平衡之間不是必然的,二者都是影響分類結(jié)果的因素,都應(yīng)該進(jìn)行檢測(cè)與處理。因此,當(dāng)出現(xiàn)數(shù)據(jù)不平衡時(shí),對(duì)少數(shù)類用SMOTE 算法平衡數(shù)據(jù),用平衡數(shù)據(jù)訓(xùn)練新的子分類器,使得分類器一直保持較好的分類效果。

        表4 實(shí)驗(yàn)算法在不同數(shù)據(jù)集上的AUC值

        表5 實(shí)驗(yàn)算法在不同數(shù)據(jù)集上的平均F1值

        數(shù)據(jù)集的內(nèi)部分布也是影響分類性能的因素,因此,為了進(jìn)一步研究數(shù)據(jù)塊大小對(duì)概念漂移檢測(cè)和非平衡數(shù)據(jù)處理的影響,選用Horse、Germany、BreastCancer、Tic和votes這5個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),ISDC算法選用不同Winsize大小,以Recall做為評(píng)價(jià)指標(biāo),最終獲得的實(shí)驗(yàn)結(jié)果如表6和圖2所示。

        由表6的數(shù)據(jù)和圖2中曲線的基本變化趨勢(shì)分析可得,隨著數(shù)據(jù)塊大小的增長(zhǎng),ISDC算法在絕大多數(shù)數(shù)據(jù)集下的Recall 值呈現(xiàn)先上升再下降的趨勢(shì)。當(dāng)取值較小時(shí),隨著窗口的增大,分類器獲得更多的訓(xùn)練數(shù)據(jù),使得數(shù)據(jù)塊有可能獲得較多的少數(shù)類,使得不平衡率降低,分類模型受非平衡問題的影響也會(huì)相應(yīng)變小,提升了準(zhǔn)確率,分類效果變好。針對(duì)不同的數(shù)據(jù)集結(jié)構(gòu),所能達(dá)到效果最佳的窗口大小并不相同。當(dāng)數(shù)據(jù)塊大小達(dá)到一定值后,再增加其大小會(huì)使得數(shù)據(jù)塊內(nèi)的數(shù)據(jù)包含不止一個(gè)概念,并且數(shù)據(jù)塊太大也會(huì)導(dǎo)致算法對(duì)數(shù)據(jù)流中概念變化的敏感性下降,也有過擬合的風(fēng)險(xiǎn),因此分類模型不再符合測(cè)試數(shù)據(jù),導(dǎo)致分類性能逐步降低。

        表6 ISDC算法在不同Winsize取值下的Recall值

        圖2 不同Winsize下的ISDC算法的Recall值

        圖2中針對(duì)不同的數(shù)據(jù)塊大小,數(shù)據(jù)集的分類效果有一定的波動(dòng),每個(gè)數(shù)據(jù)集產(chǎn)生波動(dòng)的數(shù)據(jù)塊大小不盡相同,說明大小不同的數(shù)據(jù)集的分類結(jié)果最優(yōu)的數(shù)據(jù)塊大小也不相同,內(nèi)部分布不同的數(shù)據(jù)集也會(huì)產(chǎn)生或提高或降低的波動(dòng)。因此對(duì)于不同的數(shù)據(jù)集,要使得算法分類效果最佳,就要采用不同的數(shù)據(jù)塊大小。

        根據(jù)本文算法原理可知,子分類器個(gè)數(shù)k的值越大,訓(xùn)練次數(shù)越多,造成的時(shí)間消耗也就越大。為了驗(yàn)證這一想法,在不同的k值下選用幾個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),如表7所示。

        表7 不同k 值下ISDC的時(shí)間花銷 s

        由表7可以很明確的看出,算法的時(shí)間復(fù)雜度與分類器的個(gè)數(shù)k有直接的關(guān)系,k的取值決定了數(shù)據(jù)的訓(xùn)練次數(shù),k較大時(shí),分類模型在訓(xùn)練分類器以及處理各個(gè)子分類器的結(jié)果上花的時(shí)間就要更多。

        4 結(jié)語

        本文提出了一種基于Kappa 系數(shù)的概念漂移檢測(cè)和針對(duì)類不平衡的SMOTE采樣方法相結(jié)合的動(dòng)態(tài)數(shù)據(jù)流分類算法ISDC,在該算法中使用了Kappa 系數(shù)檢測(cè)數(shù)據(jù)是否發(fā)生概念漂移,發(fā)生概念漂移后,再檢測(cè)數(shù)據(jù)是否平衡,如果數(shù)據(jù)不平衡,ISDC算法所采用的措施能夠保證算法以很快的速度適應(yīng)概念漂移和不平衡。實(shí)驗(yàn)結(jié)果表明,該算法在Recall值、AUC值和F1值上取得了較好的效果,說明了ISDC 算法的有效性。然而該算法也存在一定的不足之處,對(duì)數(shù)據(jù)集內(nèi)部分布對(duì)分類結(jié)果的研究不是很充分。因此,之后將對(duì)邊界數(shù)據(jù)、安全數(shù)據(jù)、噪聲等分布的數(shù)據(jù)的分類效果做進(jìn)一步的研究,并且從研究二分類問題轉(zhuǎn)向多分類問題,提高算法的實(shí)際可行性。

        猜你喜歡
        數(shù)據(jù)流分類器概念
        Birdie Cup Coffee豐盛里概念店
        汽車維修數(shù)據(jù)流基礎(chǔ)(下)
        幾樣概念店
        學(xué)習(xí)集合概念『四步走』
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        聚焦集合的概念及應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
        一边摸一边抽搐一进一出视频| 一区二区丝袜美腿视频| 手机在线观看成年人视频| 国产一区二区三区激情视频| 国产午夜福利在线观看红一片 | 国产精品白丝喷水在线观看| 国产精品偷伦免费观看的| 亚洲av第二区国产精品| 无码国产精成人午夜视频一区二区| 爽爽精品dvd蜜桃成熟时电影院| 精品一级毛片| 中文字幕中文字幕人妻黑丝| av影院在线免费观看不卡| 中国人妻被两个老外三p| 亚洲AV无码永久在线观看| 少妇特殊按摩高潮对白| 成人丝袜激情一区二区| 一本大道色婷婷在线| 午夜无码熟熟妇丰满人妻| 杨幂一区二区系列在线| 亚洲精品久久久久成人2007| 国产毛片网| 日本精品熟妇一区二区三区 | 国产精品成年人毛片毛片| 偷拍一区二区三区四区视频| 亚洲国产精品成人综合色| 中文字幕在线免费| 少妇激情一区二区三区久久大香香| 所有视频在线观看免费| 久久天天躁狠狠躁夜夜不卡| 天美麻花果冻视频大全英文版| 看黄色亚洲看黄色亚洲| 日韩亚洲无吗av一区二区| 看av免费毛片手机播放| 久久精品国产亚洲AV无码不| 亚洲精品美女中文字幕久久| 国产精品精品自在线拍| 四虎成人免费| 国产av精品一区二区三区不卡| 亚洲一区二区三区尿失禁| 久久国产精品久久精品国产|