亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于偽標(biāo)簽一致度的不平衡數(shù)據(jù)特征選擇算法

        2022-03-01 12:34:16李懿恒杜晨曦楊燕燕李翔宇
        計(jì)算機(jī)應(yīng)用 2022年2期
        關(guān)鍵詞:特征選擇子集類(lèi)別

        李懿恒,杜晨曦,楊燕燕,李翔宇

        (北京交通大學(xué)軟件學(xué)院,北京 100044)

        0 引言

        隨著傳感器技術(shù)、計(jì)算機(jī)技術(shù)、通信技術(shù)和數(shù)據(jù)存儲(chǔ)等技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)、過(guò)程工業(yè)、電力系統(tǒng)、軌道交通等應(yīng)用領(lǐng)域產(chǎn)生并存儲(chǔ)了大量數(shù)據(jù)[1]。這些實(shí)際應(yīng)用中的數(shù)據(jù)往往具有類(lèi)別不平衡的特性,即數(shù)據(jù)集中某一類(lèi)樣本數(shù)量要小于其他類(lèi)別樣本數(shù)量,易引發(fā)學(xué)習(xí)過(guò)程中多數(shù)類(lèi)別樣本覆蓋少數(shù)類(lèi)別樣本的現(xiàn)象,而實(shí)際中小類(lèi)樣本往往是關(guān)鍵樣本[2]。如在故障診斷中,故障樣本通常少于正常運(yùn)行數(shù)據(jù),將“故障”誤診為“正?!笔构收舷到y(tǒng)繼續(xù)工作,會(huì)導(dǎo)致無(wú)法預(yù)計(jì)的后果和損失。因此,如何提高類(lèi)別不平衡數(shù)據(jù)中少數(shù)類(lèi)別樣本的分類(lèi)學(xué)習(xí)精度具有重要意義。

        為了提高類(lèi)別不平衡數(shù)據(jù)集中少數(shù)類(lèi)別樣本的準(zhǔn)確率,學(xué)者們研究了類(lèi)別不平衡數(shù)據(jù)的特征選擇問(wèn)題,其目的在于選擇能在多數(shù)類(lèi)別和少數(shù)類(lèi)別之間獲得最高區(qū)分能力的特征[3-5]。文獻(xiàn)[6]通過(guò)組合預(yù)先分別選擇的正特征和負(fù)特征,以期改善文本分類(lèi)中類(lèi)不平衡數(shù)據(jù)的分類(lèi)性能;文獻(xiàn)[7]對(duì)高維類(lèi)別不平衡數(shù)據(jù)中使用的6 個(gè)常用filter 方法和3 個(gè)使用分類(lèi)結(jié)果矩陣的filter 方法進(jìn)行了詳細(xì)比較,該文分析認(rèn)為特征選擇有利于處理大多數(shù)高度不平衡的數(shù)據(jù)集;文獻(xiàn)[8]首次對(duì)不平衡數(shù)據(jù)分類(lèi)問(wèn)題的重采樣法、分類(lèi)算法和特征選擇算法進(jìn)行了系統(tǒng)比較,并在來(lái)自于不同應(yīng)用的小樣本數(shù)據(jù)集上評(píng)估了7 個(gè)特征選擇度量方法,結(jié)果表明,在大多數(shù)不平衡應(yīng)用中,信噪相關(guān)系數(shù)和滑動(dòng)閾值特征評(píng)估特別適用于特征選擇;文獻(xiàn)[9]提出了一種基于連續(xù)支撐步驟的后向消除方法,其特征貢獻(xiàn)度量是基于一個(gè)在獨(dú)立子集上獲得的平衡損失函數(shù);文獻(xiàn)[10]使用K-means 聚類(lèi)算法將多數(shù)類(lèi)樣例平均分成同尺寸的子集,將其貼上偽標(biāo)簽,并在分割后的數(shù)據(jù)上執(zhí)行傳統(tǒng)特征選擇算法;文獻(xiàn)[11]極小化了多數(shù)類(lèi)別樣本和少數(shù)類(lèi)別樣本之間的重合度,并基于此提出了兩個(gè)類(lèi)別不平衡數(shù)據(jù)的特征選擇算法。然而,上述類(lèi)別不平衡數(shù)據(jù)特征選擇算法旨在改進(jìn)現(xiàn)有特征選擇算法,并未考慮類(lèi)別不平衡數(shù)據(jù)中的不一致性問(wèn)題。

        在處理數(shù)據(jù)不一致等不確定性數(shù)據(jù)的方法中,粒計(jì)算[12]在處理不同類(lèi)型數(shù)據(jù)的分析與挖掘方面顯示出了獨(dú)特優(yōu)勢(shì)。它通過(guò)相似關(guān)系對(duì)樣本空間進(jìn)行粒化聚類(lèi),并對(duì)樣本標(biāo)簽進(jìn)行近似,進(jìn)而刻畫(huà)了條件特征與標(biāo)簽之間的不一致性[13]。一些學(xué)者將粒計(jì)算與類(lèi)別不平衡數(shù)據(jù)的學(xué)習(xí)問(wèn)題結(jié)合起來(lái),構(gòu)建了幾個(gè)類(lèi)別不平衡數(shù)據(jù)的特征選擇算法。如,文獻(xiàn)[14]將樣本的權(quán)重引入經(jīng)典粗糙集模型中,平衡了數(shù)據(jù)集的類(lèi)別分布,并構(gòu)造了一個(gè)加權(quán)粗糙集模型來(lái)處理類(lèi)別不平衡數(shù)據(jù)集,進(jìn)而設(shè)計(jì)了加權(quán)粗糙集模型的特征選擇算法和分類(lèi)器算法;文獻(xiàn)[15]通過(guò)重構(gòu)鄰域粗糙集下近似算子,提出了基于特征和標(biāo)記之間依賴(lài)關(guān)系的在線(xiàn)特征選擇框架,旨在處理流特征環(huán)境下的類(lèi)不平衡問(wèn)題;文獻(xiàn)[16]提出了基于鄰域粗糙集的類(lèi)別不平衡數(shù)據(jù)特征選擇算法,該算法通過(guò)研究下、上邊界域的方式定義了類(lèi)別不平衡數(shù)據(jù)集的特征重要性。

        數(shù)值實(shí)驗(yàn)已經(jīng)表明,上述類(lèi)別不平衡數(shù)據(jù)特征選擇算法可有效提高少數(shù)類(lèi)別樣本的分類(lèi)精度。然而它們大多是從算法層面進(jìn)行研究的,并沒(méi)有對(duì)數(shù)據(jù)進(jìn)行再平衡化處理。文獻(xiàn)[17]指出類(lèi)別不平衡數(shù)據(jù)的再平衡化可有效提高判別分析算法的性能;文獻(xiàn)[18]也指出數(shù)據(jù)的再平衡化可有效改進(jìn)類(lèi)別不平衡學(xué)習(xí)問(wèn)題的性能。因此,將類(lèi)別不平衡數(shù)據(jù)再平衡化對(duì)于提高少數(shù)類(lèi)別樣本的性能具有重要意義,也是本文的一個(gè)重要思路。另外,偽標(biāo)簽策略常見(jiàn)于無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),可有效提高類(lèi)別標(biāo)簽的預(yù)測(cè)精度[19-20],因此,本文通過(guò)偽標(biāo)簽的策略將類(lèi)別不平衡數(shù)據(jù)進(jìn)行平衡化,進(jìn)而基于粒計(jì)算的思想構(gòu)建了一種新的類(lèi)別不平衡數(shù)據(jù)的特征選擇算法。

        本文主要工作如下:

        1)重新定義了樣本的一致度,研究了該一致度的單調(diào)性,從而設(shè)計(jì)了一種貪婪前向搜索的特征選擇算法。

        2)通過(guò)學(xué)習(xí)算法學(xué)習(xí)類(lèi)別不平衡數(shù)據(jù)集的偽標(biāo)簽,用以平衡類(lèi)別不平衡數(shù)據(jù)的樣本類(lèi)別分布。

        3)將所學(xué)樣本的偽標(biāo)簽融入一致性的測(cè)度中,構(gòu)造了偽標(biāo)簽一致度的概念,用于評(píng)估類(lèi)別不平衡數(shù)據(jù)集的特征,研究了偽標(biāo)簽一致度的單調(diào)特性。

        4)通過(guò)保持類(lèi)別不平衡數(shù)據(jù)的偽標(biāo)簽一致度,構(gòu)造了基于偽標(biāo)簽一致度的類(lèi)別不平衡數(shù)據(jù)的特征選擇算法PLCFS(Pseudo-Label Consistency based Feature Selection),數(shù)值實(shí)驗(yàn)也表明了該算法的有效性。

        1 基于一致性測(cè)度的特征選擇算法

        對(duì)于監(jiān)督分類(lèi)任務(wù)而言,每個(gè)數(shù)據(jù)集可表示為一個(gè)決策表(U,A∪D),其中:U為數(shù)據(jù)集中所有樣本的集合;A是數(shù)據(jù)集中描述樣本的所有特征構(gòu)成的集合;D=woysqw8用于確定數(shù)據(jù)中樣本的標(biāo)簽或者類(lèi)別。對(duì)于每個(gè)樣本x∈U,a(x)是樣本x關(guān)于特征a∈A的取值,d(x)是樣本x的標(biāo)簽。

        對(duì)于?B?A,定義特征子集B的等價(jià)關(guān)系RB={(x,y):a(x)=a(y),?a∈B}。RB可將樣本集合U劃分為等價(jià)類(lèi)的集合U/RB={[x]B:x∈U},其中[x]B={y∈U:(x,y)∈RB}是由RB確定的等價(jià)類(lèi)。

        樣本x∈U的廣義決策[21-22]定義為:

        d([x]B)={d(y):y∈[x]B}。

        若|d([x]B)|=1,則樣本x關(guān)于特征子集B是一致的,即[x]B中所有樣本具有相同標(biāo)簽;若|d([x]B)|>1,則樣本x關(guān)于B是不一致的,即[x]B中有樣本的標(biāo)簽不同。根據(jù)廣義決策,本文給出樣本一致度的概念。

        定義1設(shè)(U,A∪D)是決策表,樣本x∈U關(guān)于B?A的一致度定義為:

        一致度的概念刻畫(huà)了樣本關(guān)于特征子集的一致性。為了刻畫(huà)數(shù)據(jù)集中所有樣本關(guān)于特征子集的一致度,本文引入了數(shù)據(jù)集一致度的概念。

        定義2設(shè)(U,A∪D)是決策表,U關(guān)于特征子集B?A的一致度定義為:

        樣本集合U關(guān)于B的一致度consB(U)反映了特征子集與決策標(biāo)簽之間的一致性。

        定理1設(shè)(U,A∪D) 是決策表,B?C?A,則對(duì)于?x∈U,有consB(x)≤consC(x)。

        證明 由廣義決策的定義以及定義1,易證該定理成立。

        定理1 表明樣本關(guān)于特征子集的一致度是單調(diào)遞增的,即隨著特征的增加,數(shù)據(jù)中每個(gè)樣本的一致度增大。

        推 論1設(shè)(U,A∪D)是決策表,B?C?A,則consB(U)≤consC(U)。

        證明 有定理1 和定義2,可證該推論成立。

        推論1 表明數(shù)據(jù)集的一致度關(guān)于特征子集單調(diào)遞增,即隨著特征的增多,數(shù)據(jù)集的一致度增大。

        定理2設(shè)(U,A∪D)是決策表,若對(duì)于P?A,有consP(U)=consA(U),則對(duì)?B?P且B?A,有consB(U)=consA(U)。

        證明 由推理1 易證該定理成立。

        該定理表明若P能保持?jǐn)?shù)據(jù)集的一致度,則任意包含P的特征子集仍能保持?jǐn)?shù)據(jù)集的一致度,因此,本文總能找到一個(gè)極小特征子集,使其能保持?jǐn)?shù)據(jù)集的一致度,這一極小特征子集就是數(shù)據(jù)集的最優(yōu)特征子集,其具體定義如下。

        定義3設(shè)(U,A∪D)是決策表,特征子集P?A是一個(gè)最優(yōu)特征子集,如果它滿(mǎn)足下列條件:

        1)consP(U)=consA(U);

        2)?a∈P,consP-{a}(U)≠consA(U)。

        在定義3 中,條件1)表明P能保持?jǐn)?shù)據(jù)集的一致度;條件2)表明P是保持?jǐn)?shù)據(jù)集一致度不變的極小特征子集,即從P中去掉任何一個(gè)特征都不能保持?jǐn)?shù)據(jù)集的一致度。

        通過(guò)前向搜索的方式,在每次迭代時(shí)添加使一致度增加最大的特征,直至一致度保持不變,從而獲得數(shù)據(jù)集的最優(yōu)特征子集。該特征選擇算法的具體過(guò)程如下。

        算法1 的時(shí)間復(fù)雜度為O(|U|2|A|),空間復(fù)雜度為O(|U|2)。然而,該算法的前提假設(shè)是數(shù)據(jù)中樣本類(lèi)別分布是均衡的。當(dāng)處理類(lèi)別不平衡數(shù)據(jù)時(shí),盡管數(shù)據(jù)集的整體分類(lèi)精度有所改善,但卻忽略少數(shù)類(lèi)別樣本的分類(lèi)精度。鑒于此,本文提出了基于偽標(biāo)簽的類(lèi)別不平衡數(shù)據(jù)特征選擇算法。

        2 本文算法

        將偽標(biāo)簽策略融入一致性測(cè)度中,本文提出了融合偽標(biāo)簽策略的類(lèi)別不平衡數(shù)據(jù)特征選擇算法——PLCFS。首先,引入了偽標(biāo)簽策略用于平衡數(shù)據(jù)的類(lèi)別標(biāo)簽;接著,將偽標(biāo)簽引入一致性測(cè)度的計(jì)算公式中,構(gòu)造了一種新的一致性測(cè)度,用于度量不平衡數(shù)據(jù)集的一致性;最后,通過(guò)保持新的一致性測(cè)度不變,設(shè)計(jì)了類(lèi)別不平衡數(shù)據(jù)的特征選擇算法。

        假設(shè)通過(guò)學(xué)習(xí)算法,如聚類(lèi)算法、主動(dòng)學(xué)習(xí)、K最近鄰(K-Nearest Neighbor,KNN)算法,可學(xué)得類(lèi)別不平衡數(shù)據(jù)的新標(biāo)簽,該標(biāo)簽為一種偽標(biāo)簽,它使得不平衡數(shù)據(jù)集的樣本標(biāo)簽平衡化。對(duì)任意樣本x∈U,本文將通過(guò)某一學(xué)習(xí)算法所學(xué)的偽標(biāo)簽記作PL(x)。

        由于樣本的偽標(biāo)簽可使類(lèi)別不平衡數(shù)據(jù)達(dá)到平衡,故原有一致度的概念就不適用了。因此,本文需要給出新的一致度概念,在此之前,通過(guò)考慮類(lèi)別不平衡數(shù)據(jù)集中每個(gè)樣本的偽標(biāo)簽,本文引入了樣本的偽標(biāo)簽廣義決策的概念。

        定義4設(shè)(U,A∪D)是決策表,PL(x)是通過(guò)學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽。樣本x∈U的偽標(biāo)簽廣義決策定義為dPL([x]B)={d(y):y∈[x]B,PL(x)=PL(y)}。

        樣本的偽標(biāo)簽廣義決策同時(shí)考慮了具有相同特征描述和相同偽標(biāo)簽的樣本。利用偽標(biāo)簽廣義決策,本文給出了類(lèi)別不平衡數(shù)據(jù)集的偽標(biāo)簽一致度的概念,具體定義如下。

        定義5設(shè)(U,A∪D)是決策表,PL(x)是通過(guò)學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽。樣本x相較于特征子集B?A的偽標(biāo)簽一致度定義為:

        樣本的偽標(biāo)簽一致度度量了該樣本關(guān)于特征子集、真實(shí)標(biāo)簽和偽標(biāo)簽之間的一致性。

        定義6設(shè)(U,A∪D)是決策表,PL(x)是通過(guò)學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽。樣本x相較于特征子集B?A的偽標(biāo)簽一致度定義為:

        偽標(biāo)簽一致度反映了不平衡數(shù)據(jù)的特征所導(dǎo)出的樣本分布、真實(shí)標(biāo)簽的樣本分布和偽標(biāo)簽的樣本分布之間的一致性。

        定理3設(shè)(U,A∪D)是決策表,B?C?A,PL(x)是通過(guò)學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽,則對(duì)于?x∈U,有。

        定理3 表明,不平衡數(shù)據(jù)中每個(gè)樣本的偽標(biāo)簽一致度關(guān)于特征子集單調(diào)遞增。

        推論2設(shè)(U,A∪D)是決策表,B?C?A,則。

        證明 由定理3 和定義6,可證該推論成立。

        推論2 表明,類(lèi)別不平衡數(shù)據(jù)集的一致度隨特征子集單調(diào)遞增,即隨著特征的增多,其一致度單調(diào)增加。

        定理4設(shè)(U,A∪D)是決策表,B?C?A,PL(x)是通過(guò)學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽,若對(duì)于P?A,有,則對(duì)?B?P且B?A,有。

        證明 證明過(guò)程類(lèi)似與定理2。

        定理4 表明,對(duì)于類(lèi)別不平衡數(shù)據(jù)集而言,若P可保持樣本的偽標(biāo)簽一致度,則在后續(xù)增加特征的過(guò)程中,數(shù)據(jù)集的偽標(biāo)簽一致度仍能被保持,因此,本文總能找到類(lèi)別不平衡數(shù)據(jù)集的一個(gè)極小特征子集,使其能保持偽標(biāo)簽一致度。

        定理5 表明,若一個(gè)特征的加入不增加某一樣本的偽標(biāo)簽一致度,則后續(xù)增加特征的過(guò)程中,該特征依然不增加這一樣本的偽標(biāo)簽一致度。

        推論3設(shè)(U,A∪D)是決策表,PL(x)是通過(guò)學(xué)習(xí)算法學(xué)到的x∈U偽標(biāo)簽,B1?A,a?B1,若,則對(duì)于?B2?B1,有。

        證明 由定義6 和定理5,可證該定理成立。

        推論3 表明,在特征選擇的過(guò)程中,若一個(gè)特征的加入不增加數(shù)據(jù)集的偽標(biāo)簽一致度,則在后續(xù)特征選擇的過(guò)程中該特征依然不增加數(shù)據(jù)集的偽標(biāo)簽一致度?;诖硕ɡ?,本文可以在特征選擇的過(guò)程中,刪去這種特征,從而有效減少特征空間的搜索范圍,進(jìn)而提高特征選擇的計(jì)算效率。

        利用前向搜索的方式,本文設(shè)計(jì)了如下類(lèi)別不平衡數(shù)據(jù)集的特征選擇算法。

        算法2 的時(shí)間復(fù)雜度為O(|U|2|A|),空間復(fù)雜度為O(|U|2)。它通過(guò)保持類(lèi)別不平衡數(shù)據(jù)集的偽標(biāo)簽一致度不變的方式計(jì)算了一個(gè)最優(yōu)特征子集。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        為驗(yàn)證算法的有效性,本文選取了10 個(gè)公開(kāi)數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets.php)進(jìn)行實(shí)驗(yàn),詳細(xì)情況見(jiàn)表1,其中:高維數(shù)據(jù)集arrythmia 的特征個(gè)數(shù)高達(dá)279,數(shù)據(jù)集segmentation 具有2 308 個(gè)樣本,實(shí)驗(yàn)所使用的數(shù)據(jù)具有高維或大規(guī)模特征;數(shù)據(jù)集的不平衡率最小為1.25,最大為19.2;I是樣本數(shù),F(xiàn)是特征數(shù)量,IR(Imbalanced Ratio)是數(shù)據(jù)集的不平衡率,P是正類(lèi)樣本所占比例,N是負(fù)類(lèi)樣本所占比例。

        表1 實(shí)驗(yàn)數(shù)據(jù)集Tab.1 Experimental datasets

        3.2 評(píng)價(jià)指標(biāo)

        傳統(tǒng)的性能評(píng)價(jià)指標(biāo)有接受者操作特征曲線(xiàn)下方的面積(Area Under Curve,AUC)、查準(zhǔn)率、查全率等,但在高維不平衡數(shù)據(jù)的分類(lèi)學(xué)習(xí)中,若采用傳統(tǒng)性能評(píng)價(jià)指標(biāo),則會(huì)對(duì)小類(lèi)樣本的分類(lèi)造成誤判,但算法仍能保持較高的精度,這顯然是不合理的。因此,實(shí)驗(yàn)采用F1-Score 和G-mean 作為分類(lèi)器對(duì)類(lèi)別不平衡數(shù)據(jù)進(jìn)行分類(lèi)的性能度量指標(biāo)。

        在處理多分類(lèi)問(wèn)題時(shí),仍然需要對(duì)樣本進(jìn)行正反類(lèi)的劃分。通過(guò)對(duì)樣本的正反類(lèi)劃分,可以得到多個(gè)二分類(lèi)混淆矩陣。首先,對(duì)各個(gè)混淆矩陣的對(duì)應(yīng)元素進(jìn)行平均,得到真正例(True Positive,TP)、假正例(False Positive,F(xiàn)P)、真反例(True Negative,TN)和假反例(False Negative,F(xiàn)N)的平均值;然后基于平均值,求得查準(zhǔn)率P=,查全率R=和micro?F1=。

        另一個(gè)是先求出各混淆矩陣的查準(zhǔn)率P=和查全率R=,再計(jì)算平均值Pˉ和Rˉ,用平均值計(jì)算macro?F1=。

        3.3 實(shí)驗(yàn)設(shè)置

        為驗(yàn)證算法2 的性能,實(shí)驗(yàn)將算法應(yīng)用于10 個(gè)數(shù)據(jù)集進(jìn)行特征提取,然后用支持向量機(jī)(Support Vector Machine,SVM)、KNN、隨機(jī)森林(Random Forest,RF)、邏輯回歸(Logistic Regression,LR)、決策樹(shù)(Decision Tree,DT)共五個(gè)傳統(tǒng)分類(lèi)器,分別對(duì)原始數(shù)據(jù)和特征提取后的數(shù)據(jù)進(jìn)行分類(lèi),比較其F1-Score 和G-mean 值。本實(shí)驗(yàn)在操作系統(tǒng)為Windows 10,CPU 主頻為2.60 GHz,內(nèi)存為8 GB 的計(jì)算機(jī)上完成,編程語(yǔ)言為Python3.8。

        為了檢驗(yàn)算法2 的有效性,對(duì)所選數(shù)據(jù)集采用k折交叉驗(yàn)證。由于D3、D5 的不平衡度較大,因此采用2 折交叉驗(yàn)證,其他數(shù)據(jù)集采用5 折交叉驗(yàn)證。同時(shí),用最大相關(guān)最小冗余(max-Relevancy and Min-Redundancy,mRMR)算法[23]、特征權(quán)重算法Relief[24]以及本文算法1(CFS)作為對(duì)比算法,盡管mRMR 和Relief 提出時(shí)間較早,卻具有較好的性能,并已被學(xué)者們廣泛應(yīng)用和研究。在確定mRMR 參數(shù)時(shí),以SVM 為基分類(lèi)器,對(duì)數(shù)據(jù)集的樣本進(jìn)行遍歷,選取分類(lèi)性能最好的特征數(shù)作為mRMR 算法的參數(shù)。

        3.4 實(shí)驗(yàn)分析

        3.4.1 算法參數(shù)k分析

        本實(shí)驗(yàn)采用k-means 聚類(lèi)算法對(duì)類(lèi)別不平衡數(shù)據(jù)貼上偽標(biāo)簽,將樣本進(jìn)行了k個(gè)劃分,為了分析k對(duì)分類(lèi)結(jié)果的影響,選擇k分別為2、3、4、5、6、7、8、9,分析不同取值的k對(duì)micro-F1 值、macro-F1 值和G-mean 值的影響,結(jié)果如圖1~3所示。

        從圖1 可看出,隨著k值的變化,算法2 在不同分類(lèi)器上的micro-F1 值也是改變的。有些數(shù)據(jù)集上的micro-F1 值隨k值波動(dòng)較大,如數(shù)據(jù)集D1、D3、D10,這說(shuō)明k值的選取對(duì)算法2 的性能影響較大;而有些數(shù)據(jù)集上的micro-F1 值隨k值改變而平穩(wěn)變化,如數(shù)據(jù)集D5 和D9,這說(shuō)明在這些數(shù)據(jù)集上k值的選取對(duì)算法2 的性能影響較小。此外,從圖1 也可看出,不同類(lèi)別不平衡數(shù)據(jù)集有不同分類(lèi)器的micro-F1 值,如對(duì)于數(shù)據(jù)集D4,SVM 分類(lèi)器普遍有較好的分類(lèi)性能;對(duì)于數(shù)據(jù)集D6,KNN 分類(lèi)器具有較好的分類(lèi)性能;對(duì)于數(shù)據(jù)集D9,SVM 分類(lèi)器和邏輯回歸具有相當(dāng)?shù)姆诸?lèi)性能。

        圖1 不同k值下的micro-F1值Fig.1 micro-F1 values under different k values

        從圖2 可看出,隨著k值的變化,算法2 在不同分類(lèi)器上的macro-F1 值也是改變的。有些數(shù)據(jù)集上的macro-F1 值隨k值波動(dòng)較大,如數(shù)據(jù)集D1、D2、D3、D9、D10,這說(shuō)明k值的選取對(duì)算法2 的性能影響較大;而有些數(shù)據(jù)集上的macro-F1 值隨k值改變而平穩(wěn)變化,如數(shù)據(jù)集D5,D7 和D8,這說(shuō)明在這些數(shù)據(jù)集上k值的選取對(duì)算法2 的性能影響較小。此外,從圖2 也可看出,不同類(lèi)別不平衡數(shù)據(jù)集有不同分類(lèi)器的macro-F1 值,如對(duì)于D4 和D8,SVM 分類(lèi)器普遍有較好的分類(lèi)性能;對(duì)于D6 而言,KNN 分類(lèi)器具有較好的分類(lèi)性能;對(duì)于數(shù)據(jù)集D5,隨機(jī)森林具有較好的分類(lèi)性能。

        圖2 不同k值下的macro-F1值Fig.2 macro-F1 values under different k values

        從圖3 可以看出,隨著k值的變化,算法2 在不同分類(lèi)器上的G-mean 值也在改變。有些數(shù)據(jù)集上的G-mean 值隨k波動(dòng)較大,如數(shù)據(jù)集D1、D2、D3、D6、D10,這說(shuō)明k值的選取對(duì)算法2 的性能影響較大。而有些數(shù)據(jù)集上的G-mean 值隨k值的變化而平穩(wěn)改變,如數(shù)據(jù)集D5 和D9,這說(shuō)明在這些數(shù)據(jù)集上k值的選擇對(duì)算法2 的性能影響較小。此外,從圖3也可看出,不同類(lèi)別不平衡數(shù)據(jù)集有不同分類(lèi)器的G-mean值,如對(duì)于數(shù)據(jù)集D4,SVM 分類(lèi)器普遍有較好的分類(lèi)性能;對(duì)于數(shù)據(jù)集D6,KNN 分類(lèi)器具有較好的分類(lèi)性能。

        圖3 不同k值下的G-mean值Fig.3 G-mean values under different k values

        綜上所述,聚類(lèi)個(gè)數(shù)k影響著類(lèi)別不平衡數(shù)據(jù)集的分類(lèi)精度,并不能得出一個(gè)好的選擇或者取值范圍。

        3.4.2 與傳統(tǒng)特征選擇算法對(duì)比

        表2 給出了各算法在各數(shù)據(jù)集上選擇出的特征數(shù)。從表2 可以看出,算法mRMR 和Relief 均在4 個(gè)數(shù)據(jù)集上選擇最少特征,算法PLCFS 在3 個(gè)數(shù)據(jù)集上選擇最少特征,而算法CFS 僅在1 個(gè)數(shù)據(jù)集上選擇最少特征。算法mRMR 和Relief 在更多數(shù)據(jù)集上選擇最少特征,是因?yàn)樗惴╩RMR 的特征個(gè)數(shù)由分類(lèi)器決定,在預(yù)選的特征基礎(chǔ)上加入了相應(yīng)的分類(lèi)器,最終所選特征個(gè)數(shù)為最優(yōu)分類(lèi)精度對(duì)應(yīng)的特征子集;而算法Relief 的特征個(gè)數(shù)由迭代次數(shù)和分類(lèi)性能決定,它先根據(jù)迭代個(gè)數(shù)預(yù)選一些特征,再利用相應(yīng)的分類(lèi)器選擇最優(yōu)分類(lèi)精度所對(duì)應(yīng)的特征子集。算法PLCFS 通過(guò)保持偽標(biāo)簽一致度選擇特征,無(wú)需借助于分類(lèi)器,若借助分類(lèi)器選擇特征,PLCFS 也有望選擇較少的特征個(gè)數(shù),這將在后續(xù)研究中融合分類(lèi)器再設(shè)計(jì)一個(gè)新的不平衡數(shù)據(jù)特征選擇算法。與算法CFS 相比,PLCFS 所選特征個(gè)數(shù)明顯較少,這表明改進(jìn)CFS 來(lái)處理類(lèi)別不平衡數(shù)據(jù)集是有必要的??傮w來(lái)看,與先進(jìn)算法mRMR 和Relief 相比,所提算法PLCFS 在去除類(lèi)別不平衡數(shù)據(jù)集的冗余特征方面具有一定效果。

        表2 四種算法在10個(gè)數(shù)據(jù)集上選擇的特征數(shù)Tab.2 Numbers of features selected by four algorithms on 10 datasets

        表3~7 給出了不同分類(lèi)器在經(jīng)過(guò)特征選擇的數(shù)據(jù)集上的micro-F1 值、nacro-F1 值、G-mean 值。從表3~7 的整體結(jié)果來(lái)看:算法mRMR 具有最優(yōu)分類(lèi)性能,是由于其借助于分類(lèi)器,所選的特征具有最高的分類(lèi)精度;PLCFS 算法的性能僅次于mRMR 的性能,這說(shuō)明PLCFS 在不借助于任何分類(lèi)器的前提下,所選特征可在一定程度上改善類(lèi)別不平衡數(shù)據(jù)集的分類(lèi)性能;算法Relief 的性能較算法mRMR 和PLCFS 遜色,這說(shuō)明算法Relief 刪去的一些特征可能對(duì)提高分類(lèi)性能是有益的,盡管該算法所選特征的個(gè)數(shù)在一些數(shù)據(jù)集上比算法PLCFS 和mRMR 少;算法PLCFS 的性能明顯優(yōu)于CFS,這說(shuō)明CFS 不適合處理類(lèi)別不平衡數(shù)據(jù)集,CFS 的改進(jìn)算法PLCFS 在一定程度上提高了類(lèi)別不平衡數(shù)據(jù)集的分類(lèi)性能。

        表3 十個(gè)數(shù)據(jù)集在SVM分類(lèi)器上的指標(biāo)得分Tab.3 Index scores of 10 datasets under SVM classifier

        綜上所述,mRMR 通過(guò)借助于分類(lèi)器選擇具有較高分類(lèi)精度的特征,從而在幾個(gè)比較算法中具有最佳性能和最少所選特征個(gè)數(shù)。本文算法PLCFS 的性能僅次于mRMR,該算法無(wú)需借助任何分類(lèi)器,僅通過(guò)保持偽標(biāo)簽一致度來(lái)選擇特征,若在該算法基礎(chǔ)上加入分類(lèi)器,有望進(jìn)一步提高類(lèi)別不平衡數(shù)據(jù)的分類(lèi)性能。

        表4 十個(gè)數(shù)據(jù)集在KNN分類(lèi)器上的指標(biāo)得分Tab.4 Index scores of 10 datasets under KNN classifier

        3.4.3 統(tǒng)計(jì)性檢驗(yàn)

        為更好地比較各算法所選特征對(duì)分類(lèi)性能的影響,實(shí)驗(yàn)采用非參數(shù)統(tǒng)計(jì)Friedman 檢驗(yàn)對(duì)上述實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)性檢驗(yàn)。Friedman 檢驗(yàn)使用不同算法在數(shù)據(jù)集上的排序?qū)λ惴ㄐ阅苓M(jìn)行比較分析,定義如下:

        其中:N為實(shí)驗(yàn)所用數(shù)據(jù)集的個(gè)數(shù);k為所比較算法的個(gè)數(shù);rj表示第j個(gè)算法性能的平均序值。服從自由度為k-1 的χ2分布,τF服從自由度為k-1 和(k-1)(N-1)的F分布。若“所有算法性能相同”這個(gè)假設(shè)被拒絕,則說(shuō)明算法性能顯著不同,這時(shí)需要進(jìn)行后續(xù)檢驗(yàn)來(lái)進(jìn)一步區(qū)分各算法。實(shí)驗(yàn)采用Nemenyi 檢驗(yàn)。Nemenyi 檢驗(yàn)可計(jì)算出平均序值差別的臨界值域CD=,qα是Tukey 分布的臨界值。

        為更好地比較實(shí)驗(yàn)所對(duì)比的四個(gè)算法在不同分類(lèi)器上的測(cè)試性能,本實(shí)驗(yàn)獨(dú)立進(jìn)行了3 次Friedman 檢驗(yàn)。Friedman 檢驗(yàn)的空假設(shè)為所有特征選擇算法在不同分類(lèi)器上的性能相同。設(shè)置信水平為α=0.05,置信度為95%。實(shí)驗(yàn)部分比較了4 個(gè)算法在10 個(gè)數(shù)據(jù)集上的測(cè)試性能,因此τF的自由度為4 -1=3 和(4-1)(10-1)=27。當(dāng)α=0.05,F(xiàn)(3,27)=3.56。根據(jù)Friedman 檢驗(yàn),CFS、PLCFS、mRMR、Relief 對(duì)應(yīng)的τF值分別為0.46、0.87、0.56,均小于3.56,因此無(wú)法拒絕零假設(shè)。由Nemenyi 檢驗(yàn),得CD=1.48。

        統(tǒng)計(jì)檢驗(yàn)的實(shí)驗(yàn)結(jié)果如圖4 所示,其中,縱軸表示各個(gè)算法,橫軸表示平均序值,以原點(diǎn)為中心的橫線(xiàn)但表示臨界值域的大小。通過(guò)圖4 所示,本文算法PLCFS 的性能與當(dāng)下流行的幾個(gè)特征選擇算法Relief、mRMR 和CFS 相比,統(tǒng)計(jì)上并沒(méi)有太大差異。

        表5 十個(gè)數(shù)據(jù)集在RF分類(lèi)器上的指標(biāo)得分Tab.5 Index scores of 10 datasets under RF classifier

        表6 十個(gè)數(shù)據(jù)集在DT分類(lèi)器上的指標(biāo)得分Tab.6 Index scores of 10 datasets under DT classifier

        表7 十個(gè)數(shù)據(jù)集在LR分類(lèi)器上的指標(biāo)得分Tab.7 Index scores of 10 datasets under LR classifier

        圖4 不同分類(lèi)器上的Friedman檢驗(yàn)結(jié)果Fig.4 Friedman test results under different classifiers

        4 結(jié)語(yǔ)

        本文通過(guò)融合偽標(biāo)簽策略和一致性測(cè)度,提出了一種新的類(lèi)別不平衡數(shù)據(jù)集的特征選擇算法。首先,重新給出了樣本一致度的概念,研究了一致度的單調(diào)性,從而構(gòu)造了基于一致度的特征選擇算法;其次,通過(guò)學(xué)習(xí)算法學(xué)習(xí)了類(lèi)別不平衡數(shù)據(jù)集的偽標(biāo)簽,引入了偽標(biāo)簽策略,從而使得類(lèi)別不平衡數(shù)據(jù)集的樣本標(biāo)簽分布平衡化;接著,將偽標(biāo)簽策略融入一致度的概念中,構(gòu)造了偽標(biāo)簽一致度的概念,研究偽標(biāo)簽一致度的性質(zhì),構(gòu)造了基于偽標(biāo)簽一致度的類(lèi)別不平衡特征選擇算法;最后通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性。

        本文僅僅是在離散型數(shù)據(jù)集上進(jìn)行了研究,因此未來(lái)將拓展本文的研究范圍到更復(fù)雜的數(shù)據(jù)類(lèi)型,如數(shù)值型數(shù)據(jù)、文本數(shù)據(jù)、視頻數(shù)據(jù)、多模態(tài)數(shù)據(jù)等。本文的數(shù)值實(shí)驗(yàn)的規(guī)模不夠大,盡管維數(shù)最高達(dá)279 個(gè)特征,但缺乏上千上萬(wàn)的超高維特征,因此,在未來(lái)的研究工作中將致力于超高維類(lèi)別不平衡數(shù)據(jù)的處理問(wèn)題。進(jìn)一步,本文的兩個(gè)算法無(wú)需借助任何分類(lèi)器就能選擇一個(gè)最優(yōu)特征子集,在未來(lái)的研究工作中,可以借助分類(lèi)器設(shè)計(jì)一個(gè)新的偽標(biāo)簽一致度的類(lèi)別不平衡數(shù)據(jù)的處理算法。

        猜你喜歡
        特征選擇子集類(lèi)別
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        服務(wù)類(lèi)別
        每一次愛(ài)情都只是愛(ài)情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        論類(lèi)別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        人妻熟妇乱系列| 国产办公室秘书无码精品99| 天天做天天爱天天综合网2021| 国产精品视频一区国模私拍| 无码啪啪熟妇人妻区| 国产成人精品久久二区二区91| 中文字幕精品一区二区精品 | 国产高潮精品一区二区三区av| 色综合悠悠88久久久亚洲| 成人做受黄大片| 在教室伦流澡到高潮hnp视频| 亚洲在线一区二区三区四区| 免费国产一区二区视频| 国产农村熟妇videos| 亚洲国产毛片| 亚洲伊人成综合人影院| 亚洲av毛片在线免费观看| 日韩人妻无码精品久久| 久草国产视频| 国产美女冒白浆视频免费| 国产人妖乱国产精品人妖| 亚洲男人的天堂网站| 美女高潮流白浆视频在线观看| 久久久精品国产老熟女| 国产精品videossex久久发布| 成人做爰高潮尖叫声免费观看| 欧美高h视频| 中文av字幕一区二区三区| 久久久久久亚洲av无码蜜芽| 中日韩欧美在线观看| 国产精品一区二区黄色片| 久久久精品中文字幕麻豆发布 | 国产果冻豆传媒麻婆精东| 亚洲人成无码网www| 亚洲一道一本快点视频| 久久精品国产91精品亚洲| 亚洲小说区图片区另类春色| 亚洲乱码少妇中文字幕| 成人做爰黄片视频蘑菇视频| 任我爽精品视频在线播放| 亚洲免费观看网站|