林培榕,曾海亮,王晨曦,盧 舜,林耀進(jìn)
(閩南師范大學(xué) 計(jì)算機(jī)學(xué)院,福建 漳州 363000)
(數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高等學(xué)校重點(diǎn)實(shí)驗(yàn)室,福建 漳州 363000)
在語義分析[1]、人臉識(shí)別[2]、基因檢測[3]等應(yīng)用研究領(lǐng)域,產(chǎn)生了海量高維小樣本數(shù)據(jù).此類數(shù)據(jù)的特點(diǎn)主要表現(xiàn)為數(shù)據(jù)的樣本數(shù)比起特征維度數(shù)少了一個(gè)量級(jí)以上.當(dāng)前,面向高維小樣本數(shù)據(jù)的分類學(xué)習(xí)任務(wù)存在著樣本類別分布偏斜問題,即數(shù)據(jù)中至少一個(gè)類別代表了樣本很少的數(shù)量,而其它類別的樣本組成了大多數(shù).特征選擇是數(shù)據(jù)分類學(xué)習(xí)過程中重要的預(yù)處理技術(shù).傳統(tǒng)的特征選擇技術(shù)傾向于學(xué)習(xí)大類而忽略小類,而在實(shí)際應(yīng)用中,人們往往更關(guān)注小類樣本的分類正確與否[4].例如,醫(yī)療診斷中因漏診而判斷為假陰性的代價(jià)比誤診為假陽性的代價(jià)更高;安全檢測中漏檢掉一個(gè)攜帶炸彈上飛機(jī)的恐怖分子要比搜查一個(gè)無辜的人代價(jià)大得多.因此,針對類別不平衡問題設(shè)計(jì)能正確識(shí)別小類樣本的分類模型具有重要意義.此外,隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,數(shù)據(jù)的形態(tài)日新月異.在真實(shí)場景中,作為動(dòng)態(tài)數(shù)據(jù)的一種表現(xiàn)形態(tài),數(shù)據(jù)流廣泛存在于動(dòng)態(tài)監(jiān)測[5]、社交網(wǎng)絡(luò)[6]和標(biāo)簽推薦[7]等領(lǐng)域.例如,在火星隕石坑檢測中動(dòng)態(tài)提取紋理特征;新浪微博熱門話題的出現(xiàn)通常伴隨著新關(guān)鍵詞的產(chǎn)生.數(shù)據(jù)流蘊(yùn)含的知識(shí)是時(shí)間的函數(shù),由于數(shù)據(jù)的動(dòng)態(tài)性和演化性,必然導(dǎo)致已有的學(xué)習(xí)模型帶有滯后性.因此,設(shè)計(jì)具有實(shí)時(shí)性功能的學(xué)習(xí)模型已是迫在眉睫[8].
當(dāng)數(shù)據(jù)的特征空間動(dòng)態(tài)變化,傳統(tǒng)的特征選擇算法在流知識(shí)學(xué)習(xí)中顯得捉襟見肘[9,10].為此,研究人員提出了許多在線流特征選擇算法[11-16].文獻(xiàn)[11]提出了一種基于逐步回歸的在線特征選擇算法,但該算法需要根據(jù)預(yù)知的候選特征構(gòu)成來對初始特征進(jìn)行變換;為了彌補(bǔ)上述算法的不足,文獻(xiàn)[12]提出了流特征的概念,基于流特征設(shè)計(jì)了可以直接對初始特征進(jìn)行處理的在線特征選擇框架,并給出了兩個(gè)有效的在線算法;文獻(xiàn)[13]通過對特征之間兩兩相關(guān)的界限進(jìn)行理論分析,提出了一個(gè)隨時(shí)間變化的簡約模型;文獻(xiàn)[14]以特征組的方式對上述算法進(jìn)行擴(kuò)展,提出了在特征與特征組上稀疏的分組在線特征選擇算法.然而,面向高維小樣本數(shù)據(jù)的在線分類學(xué)習(xí)算法中依然存在著類別不平衡問題.于是,文獻(xiàn)[15]針對小類樣本重新定義鄰域粗糙集下近似公式和依賴度公式,提出了基于特征和標(biāo)記之間依賴關(guān)系的在線特征選擇算法,旨在處理流特征環(huán)境下的類不平衡問題;文獻(xiàn)[16]對上述算法進(jìn)一步改進(jìn)鄰域粗糙集的下近似算子,運(yùn)用了基于小類依賴度的在線特征選擇模型.
在很多實(shí)際場景中,數(shù)據(jù)的特征空間具有動(dòng)態(tài)性和演化性,主要表現(xiàn)為隨著時(shí)間的流逝新的特征不斷地流入數(shù)據(jù)的特征空間,導(dǎo)致傳統(tǒng)的特征選擇算法失效.在高維小樣本在線分類學(xué)習(xí)任務(wù)中,若數(shù)據(jù)中樣本的類別分布傾斜得十分厲害,那么無論在線分類學(xué)習(xí)算法選擇什么樣的特征,分類器只要簡單地將所有樣本都標(biāo)記為大類,依然可以獲得很高的預(yù)測精度.然而,卻忽略了至關(guān)重要的小類樣本,失去了實(shí)際意義[17].此外,有些在線分類學(xué)習(xí)算法[16]傾向于將數(shù)據(jù)中某一類別的樣本設(shè)置成小類樣本,而其余類別的樣本全部設(shè)置成大類樣本,人為地設(shè)置數(shù)據(jù)的大類樣本和小類樣本,該方法具有一定主觀性,無法準(zhǔn)確地體現(xiàn)出數(shù)據(jù)的復(fù)雜性與多樣性.
從認(rèn)知角度出發(fā),樣本在論域空間的分布是由特征決定的,分離性高的特征應(yīng)使樣本的分布在類內(nèi)分散度盡量小,類間分散度盡量大.基于此,選擇重要的特征更有利于分類.基于最近鄰思想,相同特征空間下越相近的樣本其類別往往越一致.于是,本文通過定義樣本一致性概念來設(shè)計(jì)高維小樣本類不平衡數(shù)據(jù)在線流特征選擇算法.首先,利用均值定義同類樣本的類中心,通過樣本在特征與標(biāo)記類別的信息定義類中心的近鄰.其次,針對類別不平衡問題構(gòu)建高維小樣本一致性分析度量模型.再次,設(shè)計(jì)流特征環(huán)境下的高維小樣本類不平衡數(shù)據(jù)在線特征選擇算法;最后,實(shí)驗(yàn)驗(yàn)證所提算法的有效性.
綜上,本文內(nèi)容安排如下:第2節(jié)構(gòu)建小樣本類不平衡數(shù)據(jù)的一致性分析度量模型;第3節(jié)設(shè)計(jì)流特征環(huán)境下的類不平衡一致性分析的在線特征選擇算法;第4節(jié)對算法進(jìn)行實(shí)驗(yàn)驗(yàn)證與結(jié)果分析;第5節(jié)總結(jié)全文.
在真實(shí)場景中,類不平衡數(shù)據(jù)的樣本類別呈現(xiàn)多類及類別分布偏斜等特點(diǎn),其中數(shù)量較少的小類樣本在眾多樣本中占據(jù)著舉足輕重的地位,準(zhǔn)確識(shí)別出類不平衡數(shù)據(jù)中的小類樣本面臨著嚴(yán)峻挑戰(zhàn).為此,本節(jié)簡單介紹由特定特征誘導(dǎo)出的樣本分布與標(biāo)記的一致性概念來進(jìn)行的特征選擇[18].首先,利用均值定義同類樣本的類中心;其次,基于特征空間的樣本距離定義類中心的近鄰,并根據(jù)類中心所在類別的樣本數(shù)量定義近鄰的大小;最后,定義近鄰空間內(nèi)樣本類別和類中心類別一致的近鄰樣本與論域中和類中心同類的樣本的數(shù)量比例為包含度.包含度反映特征對樣本的區(qū)分與標(biāo)記對樣本的區(qū)分的一致性,不存在無法判斷小類樣本的情況.
定義1.定義決策系統(tǒng)〈U,F(xiàn),L〉,樣本集合U={x1,x2,…,xn},特征空間F={f1,f2,…,fm},標(biāo)記L={X1,X2,…,Xc}將樣本集合U劃分成c個(gè)類別.對于?Xj?L,nj是第j類樣本的數(shù)量,?xi∈Xj,定義Xj在特定特征空間條件下的類中心為:
(1)
表1 小樣本類不平衡數(shù)據(jù)示例表
(2)
圖1 同類樣本類中心的近鄰
(3)
(4)
在很多實(shí)際應(yīng)用中,數(shù)據(jù)的特征空間具有動(dòng)態(tài)性和演化性,使需要提前獲取數(shù)據(jù)全部特征空間的分類算法面臨著功能滯后的風(fēng)險(xiǎn).為此,本節(jié)將構(gòu)建流特征環(huán)境下的小樣本類不平衡數(shù)據(jù)的一致性分析在線流特征選擇模型,并設(shè)計(jì)一種特征依次有序逐個(gè)流入決策系統(tǒng)的在線特征選擇算法.首先,定義流特征決策系統(tǒng)數(shù)據(jù)特征的在線相關(guān)性分析;其次,定義流特征決策系統(tǒng)數(shù)據(jù)特征的在線冗余性分析;最后,提出類不平衡一致性分析的在線特征選擇算法.
定義5.假設(shè)有流特征決策系統(tǒng),樣本集合U={x1,x2,…,xn},T表示時(shí)間序列,特征空間Ft為在t時(shí)刻決策系統(tǒng)的特征空間,標(biāo)記L={X1,X2,…,Xc}將樣本集合U劃分成c個(gè)類別.假定在t時(shí)刻,有新特征ft到達(dá),對于?f∈Ft,定義特征ft與標(biāo)記的相關(guān)性為:
CONf∪ft(L)>CONf(L)
(5)
CONf∪ft(L)表示t時(shí)刻決策系統(tǒng)特征空間中任意特征f與新特征ft聯(lián)合一致性值,CONf(L)表示t時(shí)刻決策系統(tǒng)特征空間中任意特征f的一致性值,若式(5)成立,說明在t時(shí)刻到達(dá)決策系統(tǒng)的新特征ft與標(biāo)記高度相關(guān).此時(shí),將新特征ft加入流特征決策系統(tǒng),啟動(dòng)冗余性分析,否則,丟棄新特征ft,相關(guān)性分析掛起,繼續(xù)等待新特征到達(dá)決策系統(tǒng).
定義6.假設(shè)有流特征決策系統(tǒng),樣本集合U={x1,x2,…,xn},T表示時(shí)間序列,特征空間Ft為在t時(shí)刻決策系統(tǒng)的特征空間,標(biāo)記L={X1,X2,…,Xc}將樣本集合U劃分成c個(gè)類別.假定在t時(shí)刻,有新特征ft流入決策系統(tǒng),對于?f∈Ft,定義特征f與ft的冗余性為:
CONf∪ft(L) (6) CONf∪ft(L)表示t時(shí)刻決策系統(tǒng)特征空間中任意特征f與ft聯(lián)合一致性值,CONft(L)表示在t時(shí)刻到達(dá)并流入決策系統(tǒng)的新特征ft的一致性值,若式(6)成立,說明t時(shí)刻決策系統(tǒng)中的特征f因新特征ft加入變成了冗余特征.此時(shí),將特征f從決策系統(tǒng)的特征空間中刪除.當(dāng)t時(shí)刻決策系統(tǒng)中不再有冗余特征時(shí),冗余性分析掛起,等待新特征流入決策系統(tǒng). 根據(jù)定義5和定義6對流特征決策系統(tǒng)中的特征空間進(jìn)行相關(guān)性分析和冗余性分析,可以有效丟棄冗余、噪聲,以及不相關(guān)特征,從而選擇出當(dāng)前時(shí)刻流特征決策系統(tǒng)中的最優(yōu)特征子集.基于此,本文將利用一致性度量模型構(gòu)建一種流特征環(huán)境下的在線相關(guān)性分析與在線冗余性分析算法.該算法假定流特征決策系統(tǒng)初始特征空間為空集,新特征依次有序逐個(gè)流入決策系統(tǒng).首先,當(dāng)t時(shí)刻有新特征到達(dá)決策系統(tǒng),觸發(fā)相關(guān)性分析,啟動(dòng)相關(guān)性分析過程;其次,若新到達(dá)的特征流入決策系統(tǒng),則觸發(fā)冗余性分析,啟動(dòng)冗余性分析過程;最后,算法掛起,繼續(xù)等待新特征到達(dá)系統(tǒng).由此可見,流特征決策系統(tǒng)實(shí)時(shí)保持著最優(yōu)特征子集. 根據(jù)以上分析,類不平衡一致性分析的在線特征選擇算法具體描述如算法1所示. 算法1.類不平衡一致性分析的在線特征選擇算法 (Online Feature Selection algorithm for Consistency analysis of class-imbalance,簡稱OFSC) 輸入:流特征決策系統(tǒng) 輸出:t時(shí)刻流特征決策系統(tǒng)的最優(yōu)特征子集Ft 1.?→Ft/*特征空間初始為空集*/ 2.while(true) /*算法掛起,等待新特征到達(dá)系統(tǒng)*/ 3. ifftarrive /*t時(shí)刻ft到達(dá),觸發(fā)相關(guān)性分析*/ 4. ifFt=? 5.Ft=Ft∪ft/*第一個(gè)特征直接加入系統(tǒng)*/ 6. else 7. ?f∈Ft/*t時(shí)刻系統(tǒng)Ft中的任意特征*/ 8. ifCONf∪ft(L)>CONf(L) /*相關(guān)性分析*/ 9.Ft=Ft∪ft/*ft流入,觸發(fā)冗余性分析*/ 10. ifCONf∪ft(L) 11.Ft=Ft-f/*刪除系統(tǒng)的冗余特征*/ 12. end if /*完成冗余性分析*/ 13. end if /*完成相關(guān)性分析*/ 14. end if 15. end if 16.end while 算法1中第1步表示初始特征空間為空集,新特征依次有序到達(dá)系統(tǒng);第2步和第16步表示系統(tǒng)等待新特征到達(dá);第3-15步表示當(dāng)新特征到達(dá)系統(tǒng)時(shí)啟動(dòng)在線相關(guān)性分析,完成相關(guān)性分析后,若新到達(dá)的特征符合條件流入決策系統(tǒng),則啟動(dòng)在線冗余性分析,其中,第一個(gè)特征到達(dá)時(shí)直接加入系統(tǒng),不作相關(guān)性分析與冗余性分析.假設(shè)流特征決策系統(tǒng)標(biāo)記有c個(gè)類別,在t時(shí)刻特征空間Ft有f個(gè)特征,則該算法的時(shí)間復(fù)雜度為O(c·f2). 為了驗(yàn)證OFSC算法的有效性,選取7個(gè)高維小樣本類不平衡數(shù)據(jù)進(jìn)行實(shí)驗(yàn),分別為漫大B細(xì)胞淋巴瘤(dlbcl)、淋巴瘤(lymphoma)、小圓藍(lán)細(xì)胞瘤(srbct)、膠質(zhì)瘤(glioma)、腦(brain)、肺二(lung2)、腫瘤(carcinomas),詳見表2[15]. 表2 小樣本類不平衡數(shù)據(jù)集 1)漫大B細(xì)胞淋巴瘤包含2個(gè)類別共77例樣本,分為19和58例,每例均由6285個(gè)基因組成. 2)淋巴瘤包含3個(gè)類別共62例樣本,分為9、11和42例,每例均由4026個(gè)基因組成. 3)膠質(zhì)瘤包含4個(gè)類別共50例樣本,分為7、14、14和15例,每例均由4434個(gè)基因組成. 4)小圓藍(lán)細(xì)胞瘤包含4個(gè)類別共83例樣本,分為11、18、25和29例,每例均由2308個(gè)基因組成. 5)腦包含5個(gè)類別共42例樣本,分為4、8、10、10和10例,每例均由5597個(gè)基因組成[19]. 6)肺二包含5個(gè)類別共203例樣本,分為6、17、20、21和139例,每例均由3312個(gè)基因組成. 7)腫瘤包含11個(gè)類別共174例樣本,分為6、7、8、11、12、14、14、23、26、26和27例,每例均由9182個(gè)基因組成. 如表2所示,數(shù)據(jù)集的特征空間是靜態(tài)的,為了仿真流特征,算法設(shè)定數(shù)據(jù)集的特征空間是未知的,并且特征從第一個(gè)開始依次有序逐個(gè)到達(dá)流特征決策系統(tǒng),當(dāng)最后一個(gè)特征到達(dá)流特征決策系統(tǒng)完成在線分析時(shí),算法掛起,表示當(dāng)前沒有新特征到達(dá). 分類精度是分類學(xué)習(xí)算法最常用的評價(jià)指標(biāo),然而,在類不平衡數(shù)據(jù)分類學(xué)習(xí)任務(wù)中,無法識(shí)別小類樣本的算法依然可以有很高的精度.因此,本文采用F-Score、G-Mean、分類精度和弗里德曼統(tǒng)計(jì)量綜合評價(jià)算法的分類性能,其中,F(xiàn)-Score和G-Mean是兩個(gè)評價(jià)算法對于類不平衡數(shù)據(jù)集分類性能的重要指標(biāo),弗里德曼檢驗(yàn)則統(tǒng)計(jì)分析所有算法的性能. 關(guān)于F-Score和G-Mean評價(jià)指標(biāo)的正負(fù)例樣本的劃分,本章算法采用依次遍歷數(shù)據(jù)的樣本類別.假設(shè)當(dāng)前遍歷到的類別為正類,則其余類別為負(fù)類,屬于正類的樣本為正例樣本,屬于負(fù)類的樣本為負(fù)例樣本.然后分別求各類別的F-Score值和G-Mean值,再求均值作為最終的F-Score值和G-Mean值. 設(shè)TP為真正例,TN為真負(fù)例,F(xiàn)P為假正例,F(xiàn)N為假負(fù)例,則查準(zhǔn)率為P=TP/(TP+FP),查全率為R=TP/(TP+FN),F(xiàn)-Score定義為: (7) G-Mean定義為: (8) 為了顯示算法的統(tǒng)計(jì)顯著性,使用基于算法排序的Friedman檢驗(yàn),假定在N個(gè)數(shù)據(jù)集上比較k個(gè)算法,令ri表示第i個(gè)算法的平均序值,定義Friedman統(tǒng)計(jì)量為: (9) 其中, (10) 若“所有算法的性能相同”的假設(shè)被拒絕,則表明算法的性能顯著不同,此時(shí)以Nemenyi后續(xù)檢驗(yàn)進(jìn)一步區(qū)分,Nemenyi檢驗(yàn)計(jì)算出平均序值差別的臨界值域?yàn)椋?/p> (11) 本文實(shí)驗(yàn)全部運(yùn)行在3.10GHz處理器,4.00GB內(nèi)存,windows7系統(tǒng)和Matlab2013的實(shí)驗(yàn)平臺(tái)上.為了避免數(shù)據(jù)特征因量綱不一致干擾實(shí)驗(yàn)過程,采用離差標(biāo)準(zhǔn)化將所有數(shù)據(jù)的特征值歸一化到數(shù)值[0,1]區(qū)間. 多分類數(shù)據(jù)的類別存在對立的關(guān)系,只要類別足夠多樣,某一類樣本對其余類全部樣本來說即可視為小類樣本,假設(shè)此類樣本為正類樣本,其余類樣本即可統(tǒng)一視為負(fù)類樣本.同理,遍歷其余類別樣本亦如此. 為了檢驗(yàn)在線算法OFSC的有效性,選用Alpha-investing[11]、OSFS[12]、Fast-OSFS[12]、SAOLA[13]、group-SAOLA[14]、K-OFSD[15]、OFS[16]在線特征選擇算法作為對比算法.其中,K-OFSD和OFS為面向高維小樣本類不平衡數(shù)據(jù)的在線特征選擇算法. 基分類器采用高斯核函數(shù)支持向量機(jī)RBF-SVM,驗(yàn)證方式采用5折交叉驗(yàn)證.因?yàn)閿?shù)據(jù)集均為數(shù)值型數(shù)據(jù),由文獻(xiàn)[20]可知,算法OSFS、Fast-OSFS、SAOLA、group-SAOLA采用Fisher′s Z test度量方法,顯著性水平的參數(shù)α=0.01,其中,算法group-SAOLA中的group=5.由文獻(xiàn)[15]可知,算法K-OFSD的近鄰參數(shù)k=7,特征與標(biāo)記的相關(guān)性閾值β=0.5,以類別包含數(shù)量最少的樣本為小類.由文獻(xiàn)[16]可知,算法OFS中的近鄰參數(shù)k=7,特征與標(biāo)記的相關(guān)性閾值β=0.5,n=4,以類別包含數(shù)量最少的樣本為小類. 4.4.1 預(yù)測精度分析 1)關(guān)于實(shí)驗(yàn)數(shù)據(jù)表的說明 實(shí)驗(yàn)數(shù)據(jù)表3-表5分別給出了各算法在各數(shù)據(jù)集上特征選擇子集的平均F-Score值與算法比較序值表、平均G-Mean值與算法比較序值表,以及平均分類精度和標(biāo)準(zhǔn)差與分類精度的算法比較序值表.其中,圓括弧內(nèi)的值為算法的比較序值,末行為算法在數(shù)據(jù)集上的平均序值,加粗部分的數(shù)據(jù)代表該算法在此數(shù)據(jù)集上的性能最優(yōu). 2)算法OFSC與對比算法的比較情況 由表3-表5可見,在數(shù)據(jù)集glioma、lung2、carcinomas上算法OFSC的分類性能均優(yōu)于對比算法.在數(shù)據(jù)集dlbcl、lymphoma上算法OFSC的分類性能遜于算法SAOLA、group-SAOLA.在數(shù)據(jù)集srbct上算法OFSC的分類性能遜于算法K-OFSD.在數(shù)據(jù)集brain上算法OFSC的分類性能遜于算法OFS. 表3 平均F-Score值與算法比較序值表 表4 平均G-Mean值與算法比較序值表 表5 平均分類精度和標(biāo)準(zhǔn)差與算法比較序值表 3)算法OFSC與類不平衡算法的比較情況 易知,作為旨在處理類別不平衡問題的在線特征選擇算法,OFSC只在數(shù)據(jù)集srbct上遜于對比算法K-OFSD,在數(shù)據(jù)集brain上遜于對比算法OFS,而在其它所選數(shù)據(jù)集上均優(yōu)于面向類別不平衡問題的算法K-OFSD、OFS. 4)關(guān)于小類樣本算法分類性能的結(jié)論 F-Score和G-Mean評價(jià)指標(biāo)對于評價(jià)算法的小類樣本分類性能的作用至關(guān)重要,OFSC算法在這兩個(gè)評價(jià)指標(biāo)上都獲得了很高的值,由此可見,類不平衡一致性分析的在線流特征選擇算法在處理高維小樣本數(shù)據(jù)分類學(xué)習(xí)任務(wù)中的類別不平衡問題具有高效的表現(xiàn)能力. 4.4.2 統(tǒng)計(jì)性分析 1)計(jì)算評價(jià)指標(biāo)的弗里德曼統(tǒng)計(jì)量 查找F檢驗(yàn)參數(shù)alpha=0.05的常用臨界值表可知,8個(gè)算法7個(gè)數(shù)據(jù)集的臨界值為2.237,如表3-表5末行中算法的平均序值所示,由Friedman統(tǒng)計(jì)量公式計(jì)算出F-Score、G-Mean、分類精度的τF值分別為5.356、5.215、4,均大于F檢驗(yàn)臨界值2.237,因此拒絕“所有算法性能相同”的假設(shè),進(jìn)行Nemenyi后續(xù)檢驗(yàn).查找Nemenyi檢驗(yàn)參數(shù)alpha=0.05的常用qα值表可知,8個(gè)比較算法的qα=3.031,由Nemenyi檢驗(yàn)的臨界值域公式得到臨界值域CD=3.969. 2)根據(jù)平均序值差距是否超出臨界值域比較算法的性能 由表3和表4末行中的平均序值可知,算法OFSC與算法Alpha-investing、OSFS的差距超過了臨界值域,說明算法OFSC顯著優(yōu)于算法Alpha-investing、OSFS.由表5末行中的平均序值可知,算法OFSC與算法Alpha-investing的差距超過了臨界值域,說明算法OFSC顯著優(yōu)于算法Alpha-investing.而算法OFSC與其它算法的差距沒有超過臨界值域,說明它們沒有顯著差別. 3)繪制弗里德曼檢驗(yàn)圖描述算法性能的差異 上述分析可以直觀地用Friedman檢驗(yàn)圖顯示,圖2(a)-圖2(c)的Friedman檢驗(yàn)圖分別由表3-表5中的算法比較序值導(dǎo)出,橫軸刻度表示平均序值,縱軸刻度表示算法,和表3表頭的算法一一對應(yīng).其中,第8號(hào)直線表示算法OFSC的平均序值和臨界值域.用圓點(diǎn)顯示算法的平均序值,以圓點(diǎn)為中心的橫線段表示算法臨界值域的大小,若兩個(gè)算法的橫線段有交疊,說明這兩個(gè)算法的分類性能沒有顯著差別,否則說明其性能有顯著差別.由圖2可見,圖2(a)、圖2(b)中直線8號(hào)算法OFSC與虛線1算法Alpha-investing、2號(hào)算法OSFS的橫線段沒有交疊區(qū)域,說明算法OFSC顯著優(yōu)于算法Alpha-investing、OSFS.子圖c中直線8號(hào)算法OFSC與虛線1號(hào)算法Alpha-investing的橫線段沒有交疊區(qū)域,說明算法OFSC顯著優(yōu)于算法Alpha-investing.而算法OFSC與其它點(diǎn)劃線算法的橫線段有交疊區(qū)域,說明它們沒有顯著差別.顯然,算法OFSC的平均序值均高于對比算法,說明OFSC的綜合分類性能均優(yōu)于對比算法. 圖2 OFSC算法與對比算法的弗里德曼檢驗(yàn)圖 4.4.3 穩(wěn)定性分析 為了驗(yàn)證算法的穩(wěn)定性,繪制雷達(dá)圖來表示多數(shù)據(jù)集多算法在評價(jià)指標(biāo)上的穩(wěn)定性指數(shù).圖3(a)-圖3(c)分別給出了算法在F-Score、G-Mean和分類精度評價(jià)指標(biāo)上的穩(wěn)定性指數(shù).其中,純黑直線代表算法OFSC的穩(wěn)定性值.由圖3可見,OFSC在4個(gè)數(shù)據(jù)集上接近穩(wěn)定解,在數(shù)據(jù)集brain、glioma上穩(wěn)定性較弱. 圖3 OFSC算法與對比算法的雷達(dá)圖 鑒于大數(shù)據(jù)本身的動(dòng)態(tài)特性,數(shù)據(jù)的初始特征集合可能是未知的,甚至可能是空的,隨著數(shù)據(jù)流的到達(dá)而引入新的特征.此外,高維小樣本中存在著類別不平衡問題在概念發(fā)生漂移情形下并沒有消失.因此,本文以高維小樣本類不平衡數(shù)據(jù)為研究內(nèi)容,圍繞數(shù)據(jù)分類學(xué)習(xí)過程中面臨著大類覆蓋小類的挑戰(zhàn),提出了在流特征環(huán)境下的小樣本類不平衡數(shù)據(jù)的一致性分析在線特征選擇算法.該算法利用均值定義了同類樣本的類中心,并通過融合類別信息來定義類中心的近鄰及其在特征空間的一致性,由此設(shè)計(jì)了流特征環(huán)境下的在線特征選擇算法.雖然類中心的定義有效地加速了算法的計(jì)算過程,但是,模型只訓(xùn)練了類中心,導(dǎo)致學(xué)習(xí)模型訓(xùn)練不充分,分類精度有所下降,下一步工作可考慮加強(qiáng)學(xué)習(xí)模型訓(xùn)練的充分性.4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)
4.2 評價(jià)指標(biāo)
4.3 實(shí)驗(yàn)設(shè)置
4.4 實(shí)驗(yàn)分析
5 結(jié)束語