王 進(jìn),孫萬(wàn)彤
(重慶郵電大學(xué) 數(shù)據(jù)工程與可視計(jì)算重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
近年來(lái),多標(biāo)簽學(xué)習(xí)[1]在文本分類[2]、蛋白質(zhì)功能預(yù)測(cè)[3]、圖像標(biāo)注[4]等領(lǐng)域得到了越來(lái)越多的應(yīng)用,在各種各樣的多標(biāo)簽應(yīng)用中,最主要且最重要的就是對(duì)每個(gè)樣本及其與之相對(duì)應(yīng)的標(biāo)簽進(jìn)行正確的分類;同傳統(tǒng)的分類方法一樣,多標(biāo)簽學(xué)習(xí)同樣也面臨著維度災(zāi)難的問(wèn)題,尤其對(duì)于文本多標(biāo)簽數(shù)據(jù),特征數(shù)量往往成千上萬(wàn),其中存在大量冗余或不相關(guān)的特征[5],極易引發(fā)“維數(shù)災(zāi)難”,使得模型復(fù)雜度和計(jì)算時(shí)間大大增加;而特征選擇是從原始特征集中,按照某一評(píng)價(jià)準(zhǔn)則[6-7]選擇出一組具有良好區(qū)分特性的特征子集,能剔除冗余或不相關(guān)的特征,從而達(dá)到降低特征維度,縮小特征空間,提高模型精確度,減少運(yùn)行時(shí)間的目的,同時(shí),選取出的特征更有利于模型理解與數(shù)據(jù)分析。
傳統(tǒng)的機(jī)器學(xué)習(xí)問(wèn)題中,特征選擇方法包括包裹式(嵌入式)、過(guò)濾式特征選擇方法,其中包裹式(嵌入式)特征選擇方法,采用分類器性能評(píng)價(jià)特征子集的優(yōu)劣,具有較高的計(jì)算復(fù)雜度、較大的內(nèi)存空間;過(guò)濾式特征選擇方法采用特定評(píng)價(jià)標(biāo)準(zhǔn)評(píng)價(jià)特征子集的優(yōu)劣,獨(dú)立于分類器,計(jì)算快且簡(jiǎn)單,所以一般常用過(guò)濾式特征選擇方法進(jìn)行特征選擇,常見(jiàn)單標(biāo)簽特征選擇[8-9]框架如圖1。
圖1 特征選擇框架Fig.1 Feature selection framework
在多標(biāo)簽特征選擇[10-11]中,同樣也存在以上幾種特征選擇方法,過(guò)濾式特征選擇也是被用得最多的,在過(guò)濾式特征選擇中,卡方檢驗(yàn)[12](Avg.CHI)是通過(guò)計(jì)算所有特征和標(biāo)簽之間的方差,綜合每個(gè)標(biāo)簽所選出來(lái)的特征的方差得出每個(gè)特征的重要性;在基于最大依賴和最小冗余的多標(biāo)簽特征選擇[13](multi-label feature selection based on max-dependency and min-redundancy, MDMR)中,通過(guò)最大化特征和標(biāo)簽之間的依賴性選擇出特征子集,同時(shí),對(duì)于選擇出的特征子集,最小化特征之間的相關(guān)性來(lái)選出最優(yōu)特征子集。最后對(duì)于評(píng)價(jià)函數(shù)計(jì)算出來(lái)的分?jǐn)?shù)進(jìn)行求和,從而取得最優(yōu)子集,與此同時(shí),由于在多標(biāo)簽學(xué)習(xí)中,標(biāo)簽之間是存在相關(guān)性的,但以上方法并沒(méi)有考慮到標(biāo)簽之間的相關(guān)性。在稀疏子特征發(fā)現(xiàn)[14](sub-feature uncovering with sparsity, SFUS)方法中,通過(guò)將特征空間和標(biāo)簽空間結(jié)合,考慮到了標(biāo)簽之間的相關(guān)性,但對(duì)于標(biāo)簽的差異性并沒(méi)有考慮,容易導(dǎo)致選擇出來(lái)的特征對(duì)于單個(gè)標(biāo)簽來(lái)說(shuō)相關(guān)性很小甚至是負(fù)相關(guān)的;基于統(tǒng)計(jì)的標(biāo)簽對(duì)轉(zhuǎn)換方法[15](label pairwise comparison transformation with chi-square statistics, PCT-CHI2)提出在原始標(biāo)簽空間的基礎(chǔ)上構(gòu)建新的標(biāo)簽空間;拉普拉斯流行學(xué)習(xí)[16](manifold-based constraint Laplacian score, MCLS)在此基礎(chǔ)上運(yùn)用基于拉普拉斯(Laplacian score)[17-20]的特征選擇,不僅考慮到了標(biāo)簽和特征之間的依賴性,同時(shí)還考慮到了特征之間的幾何信息,但對(duì)于特征之間的相關(guān)性并沒(méi)有加以分析,容易選擇出冗余特征,影響模型的準(zhǔn)確度。其他的非過(guò)濾式特征選擇方法,諸如半監(jiān)督優(yōu)化特征選擇[21](convex semi-supervised multi-label feature selection, CSFS)等方法,存在時(shí)間復(fù)雜度較大的問(wèn)題。
針對(duì)于現(xiàn)有多標(biāo)簽特征選擇算法針對(duì)于特征空間的相關(guān)性和冗余性未進(jìn)行較多的分析,僅僅考慮到特征和標(biāo)簽之間及其標(biāo)簽和標(biāo)簽之間的相關(guān)性,以及現(xiàn)有方法大多對(duì)于標(biāo)簽空間整體考慮(產(chǎn)生了每個(gè)標(biāo)簽的共享特征空間,對(duì)于標(biāo)簽空間中的每個(gè)標(biāo)簽來(lái)說(shuō),特征空間都是一樣的,所以稱為共享特征空間。而對(duì)于標(biāo)簽特定特征空間來(lái)說(shuō),標(biāo)簽空間中每個(gè)標(biāo)簽各自對(duì)應(yīng)不同的特征空間,所以稱為標(biāo)簽特定特征空間),從而忽略了標(biāo)簽特定特征空間的問(wèn)題,本文提出基于相關(guān)性分析的多標(biāo)簽特征選擇方法(multi-label feature selection method based on correlation analysis,MFCA),與現(xiàn)有的多標(biāo)簽特征選擇算法相比,本文的主要貢獻(xiàn)如下。
1)對(duì)于特征空間進(jìn)行相關(guān)性和冗余性分析, 去除了特征空間中的冗余特征。解決了特征之間的相關(guān)性問(wèn)題,從而達(dá)到提高分類效果的目的。后文(7)—(9)式為闡述本貢獻(xiàn)所使用,其中(8)式和(9)式為引用,(7)式為作者所定義。
2)將共享特征空間和標(biāo)簽特定特征空間融合,考慮到多個(gè)標(biāo)簽之間的個(gè)性和關(guān)聯(lián)性。解決了標(biāo)簽的差異性問(wèn)題,有效地提高了預(yù)測(cè)的性能。
目前為止,已經(jīng)提出了許多的多標(biāo)簽學(xué)習(xí)算法[22-24]。這些多標(biāo)簽學(xué)習(xí)算法可以被分為兩大類:①問(wèn)題轉(zhuǎn)換法;②算法適應(yīng)法。其中,問(wèn)題轉(zhuǎn)換法是將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為傳統(tǒng)的單標(biāo)簽學(xué)習(xí)[23,25],如二值相關(guān)[26](binary relevance, BR)、剪枝問(wèn)題轉(zhuǎn)化[27](pruned problem transformation, PPT)、標(biāo)簽冪集[28](label power, LP)等。BR將每個(gè)標(biāo)簽的預(yù)測(cè)看作一個(gè)獨(dú)立的單分類問(wèn)題,并為每個(gè)標(biāo)簽訓(xùn)練一個(gè)獨(dú)立的分類器,用全部的訓(xùn)練數(shù)據(jù)對(duì)每個(gè)分類器進(jìn)行訓(xùn)練。但是,這種方法忽略了標(biāo)簽之間的關(guān)系,容易產(chǎn)生不平衡的數(shù)據(jù)。PPT通過(guò)考慮具有預(yù)先定義的最小出現(xiàn)次數(shù)的標(biāo)簽集來(lái)刪除出現(xiàn)頻率太低的標(biāo)簽的模式,但這種不可逆的轉(zhuǎn)換可能會(huì)導(dǎo)致類信息的丟失。LP將多標(biāo)簽任務(wù)轉(zhuǎn)換為單標(biāo)簽任務(wù)。但是,由于新類的數(shù)量隨著標(biāo)簽的增加而迅速增加,這種方法容易導(dǎo)致計(jì)算量的增加和預(yù)測(cè)精度的降低。
和問(wèn)題轉(zhuǎn)換法不同,算法適應(yīng)法通過(guò)直接改進(jìn)某種現(xiàn)存的單標(biāo)簽數(shù)據(jù)學(xué)習(xí)算法,使之能夠適應(yīng)多標(biāo)簽數(shù)據(jù)的處理[22,24,29],如多標(biāo)簽通知潛在語(yǔ)義索[30](multi-label informed latent semantic indexing, MLSI)、依賴最大化減少多標(biāo)簽維度[31](multi-label dimensionality reduction via dependence maximization, MDDM); MLSI通過(guò)同時(shí)考慮標(biāo)簽空間和原始特征空間來(lái)獲取潛在特征子空間。MDDM利用希爾伯特-施密特獨(dú)立標(biāo)準(zhǔn)(Hilbert-schmidt independence criterion, HSIC)進(jìn)行衡量特征和標(biāo)簽之間的依賴關(guān)系。同傳統(tǒng)的分類方法一樣,多標(biāo)簽學(xué)習(xí)同樣也面臨著維度災(zāi)難的問(wèn)題,多標(biāo)簽特征選擇的過(guò)程可以分為2個(gè)步驟:①利用諸如依賴性[25],互信息[32]等相關(guān)評(píng)價(jià)指標(biāo)去衡量候選特征子集的重要性;②確定選取候選子集的搜索策略,例如啟發(fā)式搜索,貪心搜索等。
現(xiàn)有的多標(biāo)簽特征選擇方法中,有些方法并沒(méi)有保留原始的特征空間,而是將數(shù)據(jù)投影到新的空間,比如基于共享子空間的多標(biāo)簽分類方法[33](extracting shared subspace for multi-label classification, ESML),它是提取標(biāo)簽空間共有特征。MDDM是通過(guò)最大化原始特征與相關(guān)標(biāo)簽的依賴性從而將原始數(shù)據(jù)轉(zhuǎn)換為縮小的特征空間。ESML和MDDM方法考慮到了數(shù)據(jù)和標(biāo)簽之間的相關(guān)性,但是它們并沒(méi)有考慮到不同標(biāo)簽之間的相關(guān)性。其他的一些特征選擇方法,比如基于局部標(biāo)簽相關(guān)性的多標(biāo)簽學(xué)習(xí)[34](multi-label learning by exploiting label correlations locally, ML-LOC),考慮到了標(biāo)簽空間中不同標(biāo)簽之間的相關(guān)性。SFUS提出了共享特征子空間,但是并沒(méi)有明顯到考慮到標(biāo)簽空間中不同標(biāo)簽之間的相關(guān)性。
設(shè)X=[X1,X2,…XN]∈D×N用來(lái)表示訓(xùn)練集,其中,N表示樣本數(shù),Xi表示為第i個(gè)樣本,特征集合為F=[f1,f2,…,fD]T,fd=[fd1,fd2,…,fdN],其中,fdn表示第n個(gè)樣本Xn的第d個(gè)特征,也就是第d個(gè)特征在所有樣本中的值組成的向量;L=[l1,l2,…,ld]表示標(biāo)簽集合,其中有d個(gè)標(biāo)簽變量l1,l2,…,ld。
利用拉普拉斯特征評(píng)分方法[8]進(jìn)行特征選擇是傳統(tǒng)的單標(biāo)簽特征選擇算法,它既能考慮到樣本和類標(biāo)簽之間的關(guān)聯(lián)又保留了樣本和樣本之間的幾何分布信息。如果一個(gè)樣本點(diǎn)Xi是另一個(gè)樣本點(diǎn)Xj的最近鄰的k個(gè)樣本之一,或者Xj是另一個(gè)樣本點(diǎn)Xi的最近鄰的k個(gè)樣本之一,則Xi和Xj可以相連,可以通過(guò)這種方式對(duì)所有數(shù)據(jù)建立一個(gè)圖。通常情況下k=5 ,則樣本之間的相似性可以通過(guò)如下的公式來(lái)描述
(1)
令D=diag(Sl),l=(1,1,…,1)T,L=D-S,其中,D表示對(duì)角矩陣;S表示樣本之間的權(quán)重矩陣;t是常數(shù),一般取值為1。
對(duì)fd做變形,可以得到中間變量
(2)
則第d個(gè)特征的拉普拉斯特征評(píng)分為
(3)
拉普拉斯特征評(píng)分越小則代表特征越重要;同樣地,在多標(biāo)簽特征選擇中,也可以基于拉普拉斯評(píng)分進(jìn)行特征選擇,與拉普拉斯在單標(biāo)簽中的特征選擇不同的是,在多標(biāo)簽中,首先會(huì)對(duì)標(biāo)簽區(qū)間進(jìn)行轉(zhuǎn)換,然后利用流形學(xué)習(xí)將邏輯標(biāo)簽轉(zhuǎn)化為數(shù)字標(biāo)簽[21],這樣一來(lái)便可以基于特征空間的拓?fù)浣Y(jié)構(gòu)對(duì)標(biāo)簽空間進(jìn)行分析,以便于能夠?qū)Χ鄻?biāo)簽進(jìn)行拉普拉斯特征評(píng)分,具體步驟如下。
定義M={(Xi,Xj)|Xi,Xj屬于同一個(gè)類},表示屬于同一個(gè)類。
定義C={(Xi,Xj)|Xi,Xj不屬于同一個(gè)類},表示不屬于同一個(gè)類。則樣本之間的相似性可以通過(guò)如下的公式來(lái)描述
(4)
(5)
令DM=diag(SMl)
DC=diag(SCl),l=(1,1,…,1)T
l=(1,1,…,1)T,LM=DM-SM
LC=DC-SC
則第d個(gè)特征的拉普拉斯特征評(píng)分為
(6)
因?yàn)樘卣飨蛄考嫌胒d=[fd1,fd2,…,fdN]來(lái)表示,則特征之間的相關(guān)性可以用以下公式來(lái)描述
(7)
(7)式中,H(X)表示信息熵,公式描述如下
(8)
IG(X|Y)表示信息增益,公式描述如下
IG(fx|fy)=H(fx)-H(fx|fy)=
H(fx)+H(fy)-H(fx|fy)
(9)
SU(fx,fy)是用來(lái)衡量2個(gè)離散變量相關(guān)度的,取值為0~1,值越大表示fx和fy之間的相關(guān)性越大。當(dāng)取值為0時(shí),表示2個(gè)變量之間是完全不相關(guān)的,反之,取值為1時(shí),則表示2個(gè)變量之間有著較強(qiáng)的相關(guān)性。
對(duì)于特征空間中特征之間的相關(guān)性,設(shè)定一個(gè)閾值θ(0<θ<1, 取θ=0.8),如果特征p和q之間的相關(guān)性Rpq>θ大于某一個(gè)閾值,則將p和q分為一組,記為Spq,否則p和q各為一組,記為Sp和Sq,對(duì)于新的特征m,分別計(jì)算m和之前所有特征分組內(nèi)重要性為前e(取e=20%)的各個(gè)特征的相關(guān)性,特征評(píng)分由拉普拉斯計(jì)算得出。
算法1共享特征空間整體流程偽代碼
輸入:特征集合F=[f1,f2,…,fD]T,fd=[fd1,fd2,…,fdN]。
輸出:最終模型所需要的特征空間向量。
1:拉普拉斯算法計(jì)算出特征空間中每個(gè)特征的評(píng)分,生成新的特征向量F
2:ford=1:F
3: 利用公式7計(jì)算第d個(gè)特征fd和第d+1個(gè)特征fd+1之間的相關(guān)度Rd,d+1
4: 定義集合S表示特征組,用來(lái)存放特征,定義FG表示特征分組及其所放特征
5: 定義Sd={fd},Sd+1={fd+1},如果相關(guān)度Rd,d+1>θ,Sd∪Sd+1,反之Sd,Sd+1
6: forC=1:FG
7: 計(jì)算新的特征和特征分組內(nèi)特征重要性為前20%的特征的相關(guān)度
如果相關(guān)度Rd,ci>θ,C∪Sd,反之Sd為新特征分組
8: end for
9:FG表示最終的特征空間向量
10:end
對(duì)于其中某一個(gè)分組,如果新來(lái)的特征和該分組中特征的相關(guān)性都大于某個(gè)閾值,則加入該特征分組,反之,則不加入,對(duì)于所有的分組,都進(jìn)行這樣的計(jì)算;如果存在有2個(gè)或者多個(gè)特征分組都滿足以上情況,那么分別計(jì)算特征m和每個(gè)分組里的特征的相關(guān)度,然后求和,新來(lái)的特征m最終加入相關(guān)度和最大的分組內(nèi);如果都小于某個(gè)閾值θ,則該特征獨(dú)自成為一個(gè)新的組,記為Sm;對(duì)于特征空間中的每一個(gè)特征,都進(jìn)行這樣的操作;最終,特征空間中的特征將會(huì)分為很多個(gè)組,并且對(duì)于每個(gè)分組來(lái)說(shuō),組內(nèi)的特征都存在較強(qiáng)的相關(guān)性,組間則相關(guān)性較弱,這樣一來(lái),即完成了特征空間中的相關(guān)性和冗余性分析。其過(guò)程偽代碼如算法1,算法流程描述如圖2,其中,Rmn表示特征m和特征n之間的相關(guān)性;fn表示樣本特征空間的第n個(gè)特征。
對(duì)于標(biāo)簽特定特征空間來(lái)說(shuō),在多標(biāo)簽學(xué)習(xí)中,雖然存在一些標(biāo)簽,他們之間是有關(guān)聯(lián)性和相關(guān)性的,但是關(guān)聯(lián)性和相關(guān)性不代表它們之間是相等的,也就說(shuō)對(duì)于每一個(gè)標(biāo)簽來(lái)說(shuō),都存在每一個(gè)標(biāo)簽的特定特征,例如目前存在的一些標(biāo)簽特定特征空間轉(zhuǎn)換算法[20],它是首先對(duì)單個(gè)標(biāo)簽做一個(gè)特征轉(zhuǎn)換,使得每個(gè)標(biāo)簽的特定特征空間都存在差異性,這樣一來(lái)即把標(biāo)簽的差異性考慮進(jìn)去。具體方法如下,首先對(duì)訓(xùn)練集中的正負(fù)樣本分別聚類,聚類個(gè)數(shù)可以通過(guò)人為進(jìn)行指定;然后對(duì)于每一個(gè)樣本來(lái)說(shuō),分別計(jì)算該樣本到聚類中心的距離,將該距離作為特征,對(duì)測(cè)試集也進(jìn)行同樣的操作,這樣,即完成了多標(biāo)簽中標(biāo)簽特定特征空間的轉(zhuǎn)換,使得對(duì)于每一個(gè)標(biāo)簽來(lái)說(shuō),都存在不同的特征。
圖2 特征相關(guān)性分析流程圖Fig.2 Feature correlation analysis flow chart
在多標(biāo)簽特征選擇中,對(duì)于標(biāo)簽空間整體考慮,選擇出共享特征空間,并基于此對(duì)共享特征空間中的相關(guān)性和冗余性加以分析;而標(biāo)簽特定特征空間轉(zhuǎn)換是一種有效的對(duì)于標(biāo)簽進(jìn)行轉(zhuǎn)換的方法,對(duì)于每一個(gè)標(biāo)簽來(lái)說(shuō),可以選擇出該標(biāo)簽的特定特征空間。本文提供了一種方法,通過(guò)將共享特征空間和標(biāo)簽特定特征空間融合,有效地提升了分類性能,同時(shí)考慮到了多個(gè)標(biāo)簽之間的個(gè)性和關(guān)聯(lián)性,解決了標(biāo)簽的差異化存在,具體步驟:①對(duì)標(biāo)簽進(jìn)行特定特征空間轉(zhuǎn)換;②對(duì)于標(biāo)簽進(jìn)行共享特征空間轉(zhuǎn)換,在進(jìn)行共享特定特征空間轉(zhuǎn)換的時(shí)候,同時(shí)對(duì)于共享特征空間中的特征之間的相關(guān)性和冗余性進(jìn)行分析;③共享特征空間和標(biāo)簽特定特征空間進(jìn)行融合以提高分類器預(yù)測(cè)性能。具體描述過(guò)程如圖3,其過(guò)程偽代碼如算法2。
圖3 特征空間結(jié)合流程圖Fig.3 Feature space combined flow chart
算法2共享特征空間融合標(biāo)簽特定特征空間偽代碼
輸入:特征集合F=[f1,f2,…,fD]T,fd=[fd1,fd2,…,fdN]。
輸出:最終預(yù)測(cè)模型。
1:拉普拉斯算法計(jì)算出特征空間中每個(gè)特征的評(píng)分,生成新的特征向量F
2:ford=1:F
3: 利用公式7計(jì)算第d個(gè)特征fd和第d+1個(gè)特征fd+1之間的相關(guān)度Rd,d+1
4: 定義集合S表示特征組,用來(lái)存放特征,定義FG表示特征分組及其所放特征
5: 定義Sd={fd},Sd+1={fd+1},,如果相關(guān)度Rd,d+1>θ,Sd∪Sd+1,反之Sd,Sd+1
6: forC=1:FG
7: 計(jì)算新的特征和特征分組內(nèi)特征重要性為前20%的特征的相關(guān)度
如果相關(guān)度Rd,ci>θ,C∪Sd,反之Sd為新特征分組
8: end for
9:FG表示最終的特征空間向量
10:標(biāo)簽特定特征空間生成
11:g(x,yi)=c1fi(x,yi)+c2h(x,yi)
fi(x,yi)表示基于共享特征空間模型,h(x,yi)表示基于標(biāo)簽特定特征空間模型
g(x,yi)表示最終特征空間融合模型,c1和c2取值為0.5
12:end
為了驗(yàn)證本文算法的有效性,我們選取了Mulan(1)http://mulan.sourceforge.net/datasets-mlc.html中的9個(gè)多標(biāo)簽數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),這些數(shù)據(jù)集來(lái)自新增文本、圖像等領(lǐng)域,且已經(jīng)被劃分為訓(xùn)練集和測(cè)試集,其詳細(xì)信息如表1。本文選取的多標(biāo)簽特征選擇對(duì)比方法分別是PCT-CHI2,CSFS,SFUS,Avg.CHI,MCLS。
表1 數(shù)據(jù)集描述
在本節(jié)中,將介紹用于評(píng)估多標(biāo)簽分類模型預(yù)測(cè)性能的評(píng)價(jià)指標(biāo)。在2個(gè)方面考察,根據(jù)測(cè)試集每個(gè)實(shí)例的預(yù)測(cè)標(biāo)簽與其真實(shí)標(biāo)簽的比較來(lái)測(cè)量多標(biāo)簽分類的性能。①基于實(shí)例的分類精度的考察,包括:Micro-F1,Macro-F1;②基于標(biāo)簽排名的精度考察,包括:Coverage,Average Precision,Ranking loss。其中,Micro-F1、Macro-F1以及Average Precision值越大表示分類越準(zhǔn)確,而Ranking loss、Coverage都是越小表示分類越準(zhǔn)確。它們分別定義如下。
3.2.1 排序損失
(10)
3.2.2 覆蓋
表示所有樣本中排序最靠后的真實(shí)標(biāo)簽的排序均值,計(jì)算公式為
(11)
3.2.3 平均精度
平均精度(average precision)指標(biāo)反映了所有樣本的預(yù)測(cè)標(biāo)簽排序中,排在相關(guān)標(biāo)簽前面的也是相關(guān)標(biāo)簽的概率的平均,計(jì)算公式為
(12)
(12)式中,ri(λ)表示第i個(gè)樣本中標(biāo)簽λ的排位。
3.2.4 微觀F1值
真正例、假正例、真負(fù)例、假負(fù)例分別表示傳統(tǒng)機(jī)器學(xué)習(xí)中單標(biāo)簽下的4個(gè)數(shù)量特征,B∈(accuracy, precision, recall,Fβ)表示對(duì)4個(gè)數(shù)量特征進(jìn)行相關(guān)運(yùn)算得到常規(guī)的二分類指標(biāo)。
Micro表示對(duì)多個(gè)標(biāo)簽下的數(shù)量特征取平均,再根據(jù)數(shù)量特征計(jì)算得到常規(guī)指標(biāo)。
(13)
(14)
3.2.5 宏觀F1值
Macro表示對(duì)單個(gè)標(biāo)簽下的數(shù)量特征計(jì)算得到常規(guī)指標(biāo),然后對(duì)多個(gè)標(biāo)簽取平均。
(15)
(16)
對(duì)特征進(jìn)行分組以后,會(huì)存在多個(gè)組,且每個(gè)組內(nèi)有多個(gè)特征,為了降低本算法的時(shí)間復(fù)雜度,同時(shí)也為了能得到特征組內(nèi)較多特征重要性比較大的特征,所以取e為20%,以便于同時(shí)照顧到時(shí)間復(fù)雜度和準(zhǔn)確率,在兼顧二者的基礎(chǔ)上,盡可能地提高模型分類效果。若小于20%,分類效果不盡然好,若大于20%,時(shí)間復(fù)雜度會(huì)升高。選取依據(jù)如表2,在表2中,分別取e=10%,20%,30%,40%進(jìn)行試驗(yàn)對(duì)比,從實(shí)驗(yàn)結(jié)果可以看出,選擇20%時(shí),分類效果較為好;并且從算法1的流程可以很明顯看出來(lái),時(shí)間復(fù)雜度會(huì)隨著所選取比例的增大而變大。所以參數(shù)e取20%時(shí),可以在時(shí)間復(fù)雜度不大的情況下取到較好的分類效果。
從公式(7)及算法1中可以看出來(lái),閾值θ取0時(shí),特征之間完全不相關(guān),閾值θ取1時(shí),特征之間具有強(qiáng)相關(guān)性。當(dāng)θ越小時(shí),分配到同一組內(nèi)的特征的相關(guān)度也會(huì)比較小,導(dǎo)致最終選擇出的特征集合存在較多冗余特征,影響模型分類效果。若θ過(guò)大,選擇出的特征較少,也會(huì)影響模型分類效果。所以將閾值θ設(shè)置為0.8。選取依據(jù)如表3。在表3中,分別取θ=0.6,0.7,0.8,0.9進(jìn)行試驗(yàn)對(duì)比,從實(shí)驗(yàn)結(jié)果可以看出,θ=0.8時(shí),分類效果較好。
在實(shí)驗(yàn)中,對(duì)每個(gè)數(shù)據(jù)集采用5個(gè)評(píng)價(jià)指標(biāo),分別是Micro-F1,Macro-F1,Average Precision,Coverage,Ranking loss。其中,Micro-F1,Macro-F1,Average Precision表示值越大效果越好,性能越佳;Coverage、Ranking loss表示值越小,效果越好,性能越佳。本文將從預(yù)測(cè)性能、選取特征個(gè)數(shù)的不同來(lái)對(duì)算法進(jìn)行分析和評(píng)估。
表2 參數(shù)θ取不同數(shù)值時(shí)算法的對(duì)比實(shí)驗(yàn)結(jié)果
表3 參數(shù)e取不同數(shù)值時(shí)算法的對(duì)比實(shí)驗(yàn)結(jié)果
1)驗(yàn)證同一個(gè)數(shù)據(jù)集下在選用不同特征數(shù)的預(yù)測(cè)效果情況。數(shù)據(jù)集在不同特征下的5個(gè)評(píng)價(jià)指標(biāo)的對(duì)比分別如圖4到圖8;其中,↓表示指標(biāo)越小分類效果越好;↑表示指標(biāo)越大分類效果越好。由于在其余4個(gè)數(shù)據(jù)集上,MFCA所對(duì)比的一些算法未提供對(duì)比實(shí)驗(yàn)結(jié)果,所以我們?cè)谟袑?duì)比實(shí)驗(yàn)結(jié)果的5個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試。
通過(guò)對(duì)圖4—圖8的5組對(duì)比實(shí)驗(yàn)的分析,可以明顯看出來(lái),數(shù)據(jù)集在不同特征個(gè)數(shù)的情況下, MFCA算法和其余算法相比,在大多數(shù)評(píng)價(jià)指標(biāo)上性能超過(guò)其余算法。這也從側(cè)面證明了MFCA算法較好的分類效果。
2)驗(yàn)證不同數(shù)據(jù)集下的預(yù)測(cè)效果,其中包括最優(yōu)對(duì)比實(shí)驗(yàn)和平均對(duì)比實(shí)驗(yàn)。
最優(yōu)對(duì)比實(shí)驗(yàn):即比較一些數(shù)據(jù)集在某一個(gè)特征上取得各個(gè)指標(biāo)最優(yōu)值的對(duì)比實(shí)驗(yàn),在最優(yōu)對(duì)比實(shí)驗(yàn)中,MFCA算法在大多數(shù)評(píng)價(jià)指標(biāo)上顯著優(yōu)于其他算法。
平均對(duì)比實(shí)驗(yàn):即比較一些數(shù)據(jù)集在所選取的各個(gè)特征上取得各個(gè)指標(biāo)值的平均值的對(duì)比實(shí)驗(yàn)。
在平均對(duì)比實(shí)驗(yàn)中,MFCA算法在大多數(shù)評(píng)價(jià)指標(biāo)上顯著優(yōu)于其他算法。其中,表4—表8表示最優(yōu)對(duì)比實(shí)驗(yàn),表9—表13表示平均對(duì)比實(shí)驗(yàn),表14,表15表示MFCA算法在其余4個(gè)數(shù)據(jù)集上的最優(yōu)對(duì)比試驗(yàn)和平均對(duì)比試驗(yàn),最優(yōu)結(jié)果均加下劃線表示。由于在其余4個(gè)數(shù)據(jù)集上,MFCA所對(duì)比其余算法未提供對(duì)比實(shí)驗(yàn)結(jié)果,所以在表14和表15中,只能對(duì)比提供實(shí)驗(yàn)結(jié)果的算法。其中,↓表示指標(biāo)越小分類效果越好,↑表示指標(biāo)越大分類效果越好。
圖4 數(shù)據(jù)集flags在不同特征個(gè)數(shù)下的各個(gè)評(píng)價(jià)指標(biāo)的變化情況Fig.4 Change of each evaluation index of the data set flags under different feature numbers
圖5 數(shù)據(jù)集scene在不同特征個(gè)數(shù)下的各個(gè)評(píng)價(jià)指標(biāo)的變化情況Fig.5 Change of each evaluation index of the data set scene under different feature numbers
圖7 數(shù)據(jù)集yeast在不同特征個(gè)數(shù)下的各個(gè)評(píng)價(jià)指標(biāo)的變化情況Fig.7 Change of each evaluation index of the data set yeast under different feature numbers
圖8 數(shù)據(jù)集education在不同特征下的各個(gè)評(píng)價(jià)指標(biāo)的變化情況Fig.8 Change of each evaluation index of the data set education under different feature numbers
表4 算法在yeast上的最優(yōu)對(duì)比實(shí)驗(yàn)結(jié)果
表5 算法在flags上的最優(yōu)對(duì)比實(shí)驗(yàn)結(jié)果
表6 算法在scene上的最優(yōu)對(duì)比實(shí)驗(yàn)結(jié)果
表7 算法在recreation上的最優(yōu)對(duì)比實(shí)驗(yàn)結(jié)果
表8 算法在education上的最優(yōu)對(duì)比實(shí)驗(yàn)結(jié)果
表9 算法在yeast上的平均對(duì)比實(shí)驗(yàn)結(jié)果
表10 算法在flags上的平均對(duì)比實(shí)驗(yàn)結(jié)果
表11 算法在scene上的平均對(duì)比實(shí)驗(yàn)結(jié)果
表12 算法在recreation上的平均對(duì)比實(shí)驗(yàn)結(jié)果
表13 算法在education上的平均對(duì)比實(shí)驗(yàn)結(jié)果
表14 算法在其余4個(gè)數(shù)據(jù)集上的最優(yōu)對(duì)比實(shí)驗(yàn)結(jié)果
表15 算法在其余4個(gè)數(shù)據(jù)集上的平均對(duì)比實(shí)驗(yàn)結(jié)果
通過(guò)對(duì)以上一系列的最優(yōu)對(duì)比實(shí)驗(yàn)和平均對(duì)比實(shí)驗(yàn)進(jìn)行分析,可以明顯看出來(lái),MFCA算法在不同數(shù)據(jù)集下的對(duì)比結(jié)果也遠(yuǎn)優(yōu)于其余算法。在最優(yōu)對(duì)比實(shí)驗(yàn)中,MFCA在大部分評(píng)價(jià)指標(biāo)中超過(guò)其余算法,驗(yàn)證了MFCA算法較好的分類效果;在平均對(duì)比實(shí)驗(yàn)中,MFCA在大部分評(píng)價(jià)指標(biāo)中超過(guò)其余算法,驗(yàn)證了MFCA算法的穩(wěn)定性。
本文提出了一種基于相關(guān)性分析的多標(biāo)簽特征選擇方法MFCA,首先通過(guò)對(duì)共享特征空間進(jìn)行相關(guān)性和冗余性的分析,達(dá)到去除共享特征空間中冗余特征的目的,從而提高分類性能。同時(shí)對(duì)于共享特征空間來(lái)說(shuō),由于其未考慮到標(biāo)簽的個(gè)性和關(guān)聯(lián)性,所以提出針對(duì)單標(biāo)簽的標(biāo)簽特定特征空間,將其與共享特征空間進(jìn)行融合。通過(guò)在多個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,并進(jìn)行不同特征個(gè)數(shù)下的預(yù)測(cè)性能的分析,可以發(fā)現(xiàn)該算法有效提高了算法的預(yù)測(cè)性能并具有較強(qiáng)的穩(wěn)定性。