亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于動(dòng)態(tài)異構(gòu)集成的多標(biāo)簽數(shù)據(jù)流分類算法

        2023-11-03 11:52:42武紅鑫
        關(guān)鍵詞:數(shù)據(jù)流異構(gòu)實(shí)例

        丁 劍,武紅鑫,韓 萌

        (北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021)

        0 引 言

        隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,生活中產(chǎn)生了大量的數(shù)據(jù),為了從這些數(shù)據(jù)中獲得人們所需要的信息,開(kāi)展了許多與數(shù)據(jù)挖掘有關(guān)的研究[1]。這些數(shù)據(jù)呈現(xiàn)出連續(xù)、大容量、高速和動(dòng)態(tài)變化的特點(diǎn),稱為數(shù)據(jù)流[2]。由于它們是海量的,同時(shí)包含多個(gè)標(biāo)簽數(shù)據(jù),尤其是標(biāo)簽會(huì)隨著數(shù)據(jù)分布的動(dòng)態(tài)變化而出現(xiàn),這就會(huì)導(dǎo)致發(fā)生概念漂移問(wèn)題。因此,現(xiàn)有的數(shù)據(jù)流分類算法在準(zhǔn)確性方面有很大的挑戰(zhàn)。

        許多研究者驗(yàn)證利用多種學(xué)習(xí)算法構(gòu)成的集成比同構(gòu)集成具有更高生成多樣化分類器的潛力[3]。在單標(biāo)簽分類算法中,文獻(xiàn)[3]利用異構(gòu)集成來(lái)進(jìn)行不平衡學(xué)習(xí)。文獻(xiàn)[4]提出一種基于基分類器多樣性的動(dòng)態(tài)加權(quán)異構(gòu)自適應(yīng)集成分類器,該算法在集成中利用不同類型的基分類器和使用Q統(tǒng)計(jì)量來(lái)度量集成分類器之間的多樣性。在處理概念隨時(shí)間變化的動(dòng)態(tài)數(shù)據(jù)流時(shí),動(dòng)態(tài)自適應(yīng)集成可以提供一種合適的方法,可以保留長(zhǎng)期存在的歷史概念并覆蓋新出現(xiàn)的概念[4]。同時(shí)在以往的研究中,異構(gòu)集成分類器中的基分類器數(shù)量是根據(jù)分類算法的數(shù)量來(lái)確定,即它使用H個(gè)不同算法生成H個(gè)基分類器并將其構(gòu)成集成模型進(jìn)行預(yù)測(cè),例如文獻(xiàn)[5]中的異構(gòu)分類模型。除此之外,文獻(xiàn)[6]采用多種文本特征提取的主流情感進(jìn)行分類集成方法。文獻(xiàn)[7]提出一種基于GSO優(yōu)化權(quán)值的異構(gòu)集成學(xué)習(xí)入侵檢測(cè)算法。自適應(yīng)調(diào)整基分類器的數(shù)量可以更符合數(shù)據(jù)流特性,獲得更高的分類結(jié)果。

        針對(duì)以上問(wèn)題,本文提出一種基于動(dòng)態(tài)異構(gòu)集成的多標(biāo)簽數(shù)據(jù)流分類算法(multi-label data stream classification algorithm based on dynamic heterogeneous ensemble,DHEML),主要貢獻(xiàn)如下:

        (1)提出動(dòng)態(tài)生成候選分類器組E的方法,使E中的候選基分類器始終可以很好處理新實(shí)例,為構(gòu)建異構(gòu)集成分類器HE做準(zhǔn)備。

        (2)提出自適應(yīng)選擇策略來(lái)動(dòng)態(tài)集成HE,提高集成分類器的泛化性。

        (3)在大量數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),DHEML在4個(gè)評(píng)估指標(biāo)中均獲得最好結(jié)果。

        1 提出的DHEML算法

        1.1 候選分類器組的動(dòng)態(tài)生成策略

        DHEML使用H個(gè)分類算法對(duì)固定大小的數(shù)據(jù)塊Dt訓(xùn)練生成候選分類器組E={E1,…,Eh,…,EH}, 其中Eh={Ch1,…,Chm,…,ChM}。E的生成過(guò)程中,共有兩種情況。為了限制E中候選基分類器的數(shù)目,設(shè)置上限值為K。第一種情況是當(dāng)數(shù)據(jù)塊個(gè)數(shù)T

        (1)

        (2)

        取w的偏導(dǎo)數(shù),并將梯度設(shè)置為零,得如式(3)所示

        (3)

        將式(3)化簡(jiǎn)為式(4)

        (4)

        為了更好適應(yīng)新傳入的實(shí)例,DHEML會(huì)使用式(4)計(jì)算E中每個(gè)候選基分類器的權(quán)重,選出具有最小權(quán)重的候選基分類器并進(jìn)行替換,實(shí)現(xiàn)Ei的組內(nèi)動(dòng)態(tài)更新。

        1.2 異構(gòu)集成分類器的自適應(yīng)選擇策略

        為了增加最終集成分類器中的泛化性,提出新的異構(gòu)集成分類器的自適應(yīng)選擇策略(adaptive selection strategies for heterogeneous ensemble classifiers,HEAS),它將整合1.1節(jié)動(dòng)態(tài)生成的E1,E2,…,EH中分類性能最佳的候選基分類器來(lái)構(gòu)成HE。在1.1節(jié)中,權(quán)重是以組為單位進(jìn)行計(jì)算的,不同組之間候選基分類器的性能不能進(jìn)行比較。為此,使用另一種方式計(jì)算候選基分類器的全局權(quán)重。

        (5)

        MSEr=∑yp(y)(1-p(y))2

        (6)

        將MSEm和MSEr結(jié)合,可以給出基分類器的準(zhǔn)確度信息和當(dāng)前類分布的情況。同時(shí)為了避免被零除法的問(wèn)題,添加一個(gè)非常小的正值θ。

        HEAS是選擇最佳的候選基分類器并將其進(jìn)行整合構(gòu)成HE的策略,使用式(7)計(jì)算組內(nèi)候選基分類器Chm的全局權(quán)重,并記為wg

        (7)

        HEAS的具體過(guò)程在算法1中進(jìn)行描述。第(1)~(5)行是為每組E中的候選基分類器計(jì)算wg的過(guò)程。第(7)行是選出wg最大的候選基分類器。它選擇的過(guò)程是按照組內(nèi)基分類器的順序進(jìn)行。首先,它將選出所有E中第一個(gè)候選基分類器 {C11,C21,…,CH1} 中具有最大wg的候選基分類器Cbest,并將其加入到HE中;之后,會(huì)選出E中的第二個(gè)候選基分類器 {C12,C22,…,CH2} 中具有最大的wg的候選基分類器Cbest,再將其加入到HE中。以此類推,直到HE中基分類器的數(shù)目與E中候選基分類器的數(shù)目相等。

        算法1:HEAS算法

        輸入:E:候選分類器組;C:E中的候選基分類器,M:當(dāng)前E中候選基分類器的數(shù)目,H:分類算法的數(shù)目。

        輸出:HE:高層異構(gòu)集成分類器。

        (1)For (h=0;h

        (2) For (m=0;m

        (4) End for

        (5)End for

        (6)For (m=0;m

        (8)HE←將Cbest添加入HE中

        (9)End for

        (10)輸出HE

        1.3 DHEML的實(shí)現(xiàn)過(guò)程

        圖1描述了DHEML算法的實(shí)現(xiàn)過(guò)程。它分為3個(gè)模塊,分別為E的動(dòng)態(tài)生成、候選基分類器的動(dòng)態(tài)更新和HE的自適應(yīng)生成。首先是對(duì)章節(jié)1.1中的E生成過(guò)程進(jìn)行描述。由H種分類算法訓(xùn)練數(shù)據(jù)塊Dt生成H個(gè)候選基分類器C1t,C2t,…,CHt。 將同種算法生成的基分類器 {C11,C12,… },{C21,C22,…},…,{CH1,CH2,… } 分別構(gòu)成E1,E2,…,EH。 其次是E的動(dòng)態(tài)更新過(guò)程,為了使其具有最佳的分類性能,需要進(jìn)行組內(nèi)候選基分類器的動(dòng)態(tài)更新。圖1以EH1為例進(jìn)行介紹候選基分類器動(dòng)態(tài)更新。當(dāng)當(dāng)前組內(nèi)候選基分類器數(shù)量t大于K時(shí),使用最新數(shù)據(jù)塊Dt+1生成候選基分類器CHt+1去替換舊的、過(guò)時(shí)的候選基分類器。使用1.1節(jié)中的式(4)計(jì)算E中每個(gè)候選基分類器的權(quán)重w,選擇權(quán)重最小的基分類器CH2進(jìn)行替換。最后是使用章節(jié)1.2的HEAS動(dòng)態(tài)生成HE。為了增加集成分類器的泛化性,算法將每個(gè)E中最優(yōu)的候選基分類器加入到HE中。DHEML使用章節(jié)1.2節(jié)中的式(7)計(jì)算每個(gè)E中候選基分類器的wg。 按圖中的列進(jìn)行比較,如C11,C21,…,CH1, 通過(guò)判斷選出wg最大的候選基分類器并將其加入到HE中。

        圖1 DHEML算法實(shí)現(xiàn)過(guò)程

        圖1生成的HE是一種極端的情況,即采用HEAS方法對(duì)不同算法生成的候選基分類器都有一個(gè)選中,但現(xiàn)實(shí)中并非如此,它會(huì)根據(jù)wg選擇出最合適、性能最好的候選基分類器將其加入到HE中,可能某個(gè)算法構(gòu)成的候選基分類器都沒(méi)有被選中,或者都被選中。該算法不再是根據(jù)構(gòu)建候選基分類器方法的類型來(lái)決定HE中基分類器的數(shù)量。

        DHEML的訓(xùn)練與預(yù)測(cè)具體細(xì)節(jié)如算法2所示。第(2)~(7)行描述了該算法的預(yù)測(cè)階段,其中第(3)行使用章節(jié)1.2節(jié)的HEAS算法構(gòu)建HE。第(5)~(21)行描述了訓(xùn)練階段。其中第(6)~(8)行使用H種分類算法訓(xùn)練Dt數(shù)據(jù)塊生成H種候選基分類器。第(10)~(16)行是為E中候選基分類器的動(dòng)態(tài)更新過(guò)程,即當(dāng)前組內(nèi)候選基分類器的數(shù)量大于上限數(shù)量K時(shí),需要使用1.1節(jié)的式(4)計(jì)算權(quán)重,將權(quán)重值最小的候選基分類器與最新生成的候選基分類器進(jìn)行替換。第(17)~(20)行為候選基分類器的添加和增量更新過(guò)程。

        算法2:DHEML訓(xùn)練與預(yù)測(cè)算法

        輸入:D:數(shù)據(jù)流,Dt:數(shù)據(jù)塊,C:候選基分類器,E:候選分類器組,K:E中基分類器的上限數(shù)量,H:分類算法的數(shù)目,HE:異構(gòu)集成分類器。

        (1)WhileD≠null //當(dāng)數(shù)據(jù)流中的實(shí)例不為空時(shí)

        (2)xi←當(dāng)前的數(shù)據(jù)實(shí)例

        (3)HE←使用HEAS構(gòu)建HE//使用1.2節(jié)的算法1

        (5)IfDtis full //當(dāng)數(shù)據(jù)塊中的實(shí)例達(dá)到固定數(shù)目時(shí)

        (6) For (h=0;h

        (7)Chin←分類算法h使用Dt構(gòu)建候選基分類器

        (8) End for

        (9)t++; //統(tǒng)計(jì)Eh組內(nèi)候選基分類器的數(shù)量

        (10) Ift>K//當(dāng)Eh中候選基分類器的數(shù)量大于上限數(shù)目時(shí)

        (11) For (h=0;h

        (12) 使用式(4)計(jì)算Eh中每個(gè)候選基分類器的權(quán)重w

        (13)Chout←選擇Eh中權(quán)重最小的候選基分類器

        (14)Eh←Eh-Chout//將Chout從Eh中移除

        (15) End for

        (16) End if

        (17) For (h=0;h

        (18)Eh←Eh∪Chin

        (19)Eh←使用Di訓(xùn)練Eh中的候選基分類器 //對(duì)除Chin之外的其余基分類器進(jìn)行增量學(xué)習(xí)

        (20) End for

        (21) End if

        (22)End While

        2 實(shí)驗(yàn)結(jié)果與分析

        本實(shí)驗(yàn)軟件環(huán)境是大規(guī)模在線分析開(kāi)源平臺(tái)(massive online analysis,MOA)[12],并結(jié)合MEKA[13]中的多標(biāo)簽方法。實(shí)驗(yàn)預(yù)測(cè)采用了交錯(cuò)式訓(xùn)練與測(cè)試(interleaved-test-then-train,ITTT)的評(píng)估方法[9]。

        本章將提出3個(gè)DHEML算法與10種分類算法(EBR[13]、ECC[13]、EPS[14]、GORT[9]、EBRT[15]、EaBR、EaCC、EaPS[16]、ASEKNN[17]、MLSL[18])進(jìn)行對(duì)比,其中,DHEML1采用PS和CC的分類算法構(gòu)建HE,DHEML2采用BR和CC的分類算法構(gòu)建HE,DHEML3采用BR和CC的分類算法構(gòu)建HE。

        2.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)從研究領(lǐng)域、實(shí)例數(shù)(n)、特征數(shù)(m)、標(biāo)簽數(shù)(L)、標(biāo)簽基數(shù)(LC(D))和標(biāo)簽密度(LD(D))對(duì)數(shù)據(jù)集進(jìn)行介紹,見(jiàn)表1。其中,標(biāo)簽基數(shù)和標(biāo)簽密度如式(8)、式(9)所示

        表1 數(shù)據(jù)集

        (8)

        (9)

        在多標(biāo)簽分類中,單一的使用某些評(píng)估指標(biāo)作為評(píng)估指標(biāo)是不合適的。針對(duì)多標(biāo)簽分類設(shè)計(jì)了許多評(píng)估指標(biāo)。本文使用準(zhǔn)確度、實(shí)例的F1值、微觀F1和宏觀F1來(lái)進(jìn)行評(píng)估。

        2.2 實(shí)驗(yàn)分析

        (1)固定與動(dòng)態(tài)調(diào)整基分類器對(duì)比實(shí)驗(yàn)

        傳統(tǒng)的異構(gòu)集成分類器是由不同分類算法訓(xùn)練的基分類器構(gòu)成,基分類器的數(shù)量由采用的不同分類算法的數(shù)量決定。為了驗(yàn)證動(dòng)態(tài)調(diào)整基分類器的數(shù)量可以提高分類性能的說(shuō)法,本節(jié)將固定基分類器數(shù)量的HEML與動(dòng)態(tài)調(diào)整基分類器數(shù)量的DHEML進(jìn)行實(shí)驗(yàn)。在HEML中,每次選擇E中wg值最大的候選基分類器加入到HE中。為了保證小數(shù)據(jù)集也可以生成多樣性的基分類器,塊的大小設(shè)置為500。實(shí)驗(yàn)結(jié)果如圖2所示,在大多數(shù)的情況下,DHEML算法比HEML算法具有更好的性能。DHEML2在Philosophy數(shù)據(jù)集上對(duì)比結(jié)果尤為明顯。由此得出自適應(yīng)調(diào)整異構(gòu)集成分類器中基分類器的數(shù)量可以提高分類的性能。

        圖2 異構(gòu)集成分類對(duì)比

        (2)與同構(gòu)/異構(gòu)集成的對(duì)比實(shí)驗(yàn)

        將DHEML1、DHEML2、DHEML3與EBR、ECC、EPS、GORT、ASEKNN、EBRT、EaBR、EaCC、EaPS算法在6個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比的結(jié)果見(jiàn)表2,詳細(xì)的實(shí)驗(yàn)結(jié)果包括每個(gè)算法的準(zhǔn)確度、實(shí)例的F1值、微觀F1和宏觀F1。最好的結(jié)果使用加粗表示。實(shí)驗(yàn)中設(shè)置基分類器的數(shù)量均為10。

        從表2中可以看出,DHEML1、DHEML2、DHEML3在4個(gè)評(píng)估指標(biāo)準(zhǔn)確度、實(shí)例的F1值、微觀F1和宏觀 F1上均獲得較好的結(jié)果,其中DHEML1算法獲得了最好排名。與EBR、ECC、EPS相比,在數(shù)據(jù)集Medical的準(zhǔn)確度中,DHEML1比EBR高9.3%,比ECC高9.7%,比EPS高8.1%。在數(shù)據(jù)集Ohsumed的準(zhǔn)確度中,DHEML3比EBR高12.5%,比ECC高13.6%,比EPS高18.1%。

        與增加窗口機(jī)制的EaBR、EaCC、EaPS算法相比,使用DHEML的算法也可以獲得不錯(cuò)的實(shí)驗(yàn)結(jié)果。而在數(shù)據(jù)集Ohsumed上的準(zhǔn)確度中,對(duì)比算法EaCC卻不是很樂(lè)觀。DHEML1、DHEML2、DHEML3 比EaCC有明顯的提升。其中,DHEML1算法比EaCC的Accuracy值高達(dá)22.1%,DHEML2的算法比EaCC的Accuracy值高達(dá)19%,DHEML3的算法比EaCC的Accuracy值高達(dá)31.2%??傮w來(lái)說(shuō),DHEML的算法比使用同構(gòu)集成的算法結(jié)果性能更好。因?yàn)樵撍惴ㄊ褂肏EAS來(lái)選擇可以獲得更好性能的基分類器構(gòu)成HE。由此得出,采用異構(gòu)集成的分類算法提高集成分類器的多樣性,從而有效提高分類結(jié)果。

        在時(shí)間效率方面,小型數(shù)據(jù)集時(shí)所有DHEML擁有較小的時(shí)間效率,但面對(duì)較大數(shù)據(jù)集時(shí),隨著實(shí)例的增加和特征關(guān)系的復(fù)雜性,幾何加權(quán)方法會(huì)消耗大量的時(shí)間,所有DHEML的運(yùn)行時(shí)間增加,比同構(gòu)集成算法花費(fèi)更多時(shí)間。EPS的運(yùn)行時(shí)間較短,這是因?yàn)樗梢孕藜舨唤?jīng)常出現(xiàn)的標(biāo)簽集來(lái)關(guān)注標(biāo)簽最重要的關(guān)系,從而節(jié)省時(shí)間。

        (3)數(shù)據(jù)流分析

        當(dāng)實(shí)例不斷增加,數(shù)據(jù)流算法的分類能力也會(huì)隨之改變。本節(jié)研究隨著實(shí)例的增加和實(shí)例分布變化引起概念漂移現(xiàn)象時(shí),DHEML算法是否具有較好的自適應(yīng)調(diào)節(jié)能力。當(dāng)數(shù)據(jù)集較小時(shí),如果分類算法選擇的數(shù)據(jù)塊太大,則不能很好應(yīng)對(duì)突變漂移,同時(shí)基分類器的數(shù)量也會(huì)減小,導(dǎo)致集成分類器的泛化性降低,使分類結(jié)果降低。當(dāng)數(shù)據(jù)集較大時(shí),如果分類算法選擇的數(shù)據(jù)塊較小,則運(yùn)行時(shí)間增多。針對(duì)以上兩種情況,本節(jié)選擇塊大小為500進(jìn)行實(shí)驗(yàn),并給出了10種算法分別在數(shù)據(jù)集Slashdot和Ohsumed上基于實(shí)例的F1的評(píng)估結(jié)果。結(jié)果如圖3所示。

        圖3 基于窗口的模型評(píng)估

        圖3可以看出,隨著實(shí)例的增加,集成分類器的分類性能也在不斷的變化。EPS、EaPS在兩個(gè)數(shù)據(jù)集中都位于圖片的中間位置,在圖3(a)中還呈現(xiàn)下降的趨勢(shì),這是因?yàn)樗募糁Σ呗钥赡苄藜舻袅擞杏玫男畔⑹狗诸惼鞑荒艹浞值膶W(xué)習(xí)。DHEML1的最終結(jié)果都處于較好的位置。在圖3(b)中,DHEML1算法在訓(xùn)練基分類器時(shí)需要較多的實(shí)例才可以獲得更好的結(jié)果。由此可知,DHEML在數(shù)據(jù)流環(huán)境中可以較好應(yīng)對(duì)概念漂移同時(shí)具有較高的評(píng)估值。

        3 結(jié)束語(yǔ)

        為了實(shí)現(xiàn)自適應(yīng)調(diào)整基分類器的數(shù)量從而得到更符合數(shù)據(jù)特性的HE,本文提出了DHEML算法。為了可以處理新傳入的數(shù)據(jù),使用幾何加權(quán)計(jì)算候選基分類器的權(quán)重,根據(jù)權(quán)重進(jìn)行更新替換;根據(jù)HEAS動(dòng)態(tài)選擇適當(dāng)?shù)暮蜻x基分類器來(lái)構(gòu)建HE。通過(guò)實(shí)驗(yàn)得知,自適應(yīng)調(diào)整基分類器的數(shù)量可以提高分類結(jié)果,同時(shí)與其它集成分類器的算法相比,DHEML算法可以在準(zhǔn)確度、實(shí)例的F1值、微觀F1和宏觀 F1上獲得較好的結(jié)果,綜合排名最好。但隨著數(shù)據(jù)集實(shí)例的增加,該算法的時(shí)間效率開(kāi)始增加。在未來(lái)的工作中,本課題組將關(guān)注算法時(shí)間效率,在保證評(píng)估指標(biāo)穩(wěn)定的情況下,使E的候選基分類器生成和更新階段可以并行運(yùn)行,提高算法的時(shí)間效率。

        猜你喜歡
        數(shù)據(jù)流異構(gòu)實(shí)例
        試論同課異構(gòu)之“同”與“異”
        汽車維修數(shù)據(jù)流基礎(chǔ)(下)
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
        在新興異構(gòu)SoCs上集成多種系統(tǒng)
        北醫(yī)三院 數(shù)據(jù)流疏通就診量
        完形填空Ⅱ
        完形填空Ⅰ
        成人免费看www网址入口| 蜜臀av在线一区二区尤物| 一区二区三区字幕中文| 亚洲精品无人区| 91国视频| 黄色网页在线观看一区二区三区| 日韩精品一区二区免费| 欧美猛少妇色xxxxx猛交| 国产熟妇搡bbbb搡bbbb搡| 国产亚洲视频在线观看播放| 最新69国产精品视频| 爱情岛论坛亚洲永久入口口| 国产乱子伦精品免费无码专区| 国语憿情少妇无码av| 亚洲成人一区二区av| 成人免费直播| 好爽…又高潮了毛片免费看| 亚洲一区二区高清在线| 婚外情长久的相处之道| 国产男女免费完整视频| 国产精品刺激好大好爽视频| 青青草视频在线你懂的 | 超薄丝袜足j好爽在线观看| 国产WW久久久久久久久久| 男女动态视频99精品| 欧美嫩交一区二区三区| 日日av拍夜夜添久久免费| 久久亚洲精彩无码天堂| 亚洲激情综合中文字幕| 亚洲av日韩av在线观看| 精品无码AV无码免费专区| 亚洲第一页在线免费观看| 亚洲精品久久激情国产片| 欧美极品少妇性运交| 亚洲精品国产精品av| 亚洲综合中文字幕综合| 久久国产劲暴∨内射| 女同中的p是什么意思| 亚洲国产最新免费av| 久久www免费人成精品| 精品第一页|