程玉勝,李志偉,龐淑芳
1.安慶師范大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 安慶246011
2.安徽省高校智能感知與計(jì)算重點(diǎn)實(shí)驗(yàn)室,安徽 安慶246011
隨著大數(shù)據(jù)時(shí)代的到來,人們能從各種渠道獲取大量的數(shù)據(jù),但同時(shí)也帶來了如何處理這些數(shù)據(jù)的問題,其中最常見的方法是對(duì)數(shù)據(jù)進(jìn)行降維,主要包括特征選擇和特征提取。目前特征選擇研究較多,但相對(duì)于特征選擇而言,特征提取可以通過原始數(shù)據(jù)集進(jìn)行適當(dāng)變換,得到更有效更有用的低維特征[1-5]。目前已經(jīng)有很多經(jīng)典的特征提取方法,如主成分分析(principal component analysis,PCA)[6]、方向梯度直方圖(histogram of oriented gradient,HOG)[7]、線性判別分析(linear discriminant analysis,LDA)[8]、潛在語義索引(latent semantic indexing,LSI)[9]等。
相比于傳統(tǒng)的單標(biāo)記問題,經(jīng)典的分類建模方法取得了不錯(cuò)的成果,而關(guān)于多標(biāo)記分類問題,往往可以利用標(biāo)記之間相關(guān)信息有效提高分類器的性能。但目前多標(biāo)記學(xué)習(xí)仍存在三大挑戰(zhàn)。其一,在單標(biāo)記學(xué)習(xí)中,各示例標(biāo)記分類相互排斥不存在共生關(guān)系,而對(duì)于多標(biāo)記學(xué)習(xí)則各標(biāo)記之間存在相關(guān)性,如何利用標(biāo)記之間的相關(guān)性對(duì)多標(biāo)記分類精度的提高尤為重要[10]。其二,在多標(biāo)記學(xué)習(xí)中,數(shù)據(jù)特征往往具有較高的維度,而高維特征可能導(dǎo)致“維度災(zāi)難”,嚴(yán)重影響分類器的分類性能。其三,在多標(biāo)記學(xué)習(xí)中各標(biāo)記與其特征具有關(guān)聯(lián)性[11-12],如何挖掘此類信息也是多標(biāo)記學(xué)習(xí)中難點(diǎn)之一。為此大量學(xué)者提出了各種多標(biāo)記分類學(xué)習(xí)方法,如類KNN(K-nearest neighbor)方法[13]、集合分類器和集成學(xué)習(xí)技術(shù)[14-16],大多數(shù)已被廣泛地應(yīng)用。
但是上述方法主要采用特征選擇的方法進(jìn)行分類建模,由于該方法通常具有指數(shù)級(jí)時(shí)間復(fù)雜度,一般不太適合高維數(shù)據(jù)分類建模。目前,多標(biāo)記學(xué)習(xí)中數(shù)據(jù)一般具有高維性特點(diǎn),因此如何處理這些高維數(shù)據(jù),相關(guān)研究成果相繼被提出。例如:MLSI(multi-label informed latent semantic indexing)[17]擴(kuò)展了單標(biāo)記無監(jiān)督潛在語義索引(LSI)來處理多標(biāo)記特征提取問題,通過引入權(quán)重來構(gòu)建一個(gè)新的特征-標(biāo)記信息的函數(shù);文獻(xiàn)[18]利用LDA 方法進(jìn)行多標(biāo)記特征降維處理,但是并沒有有效利用標(biāo)記與標(biāo)記之間的相關(guān)性;文獻(xiàn)[19]提出了多標(biāo)記線性判別分析(multi-label linear discriminant analysis,MLDA)方法,在LDA 的基礎(chǔ)上進(jìn)行了優(yōu)化,利用了標(biāo)記與標(biāo)記之間的關(guān)系,但是在實(shí)際中的性能受到了標(biāo)記數(shù)量的影響;文獻(xiàn)[20]基于希爾伯特-施密特獨(dú)立標(biāo)準(zhǔn)(Hilbert-Schmidt independence criterion,HSIC)提出了基于最大化依賴的多標(biāo)記維度約簡方法(multi-label dimensionality reduction via maximum dependence,MDDM)。MDDM
的主要目的是通過使特征-標(biāo)記之間的依賴度達(dá)到最大而得到最適合實(shí)驗(yàn)數(shù)據(jù)的投影矩陣,但是該方法并沒有充分獲取特征的信息,也沒有考慮特征-特征、標(biāo)記-標(biāo)記的內(nèi)在聯(lián)系。
基于此,本文提出了一種基于特征標(biāo)記依賴自編碼器的多標(biāo)記特征提取方法(multi-label feature extraction method relied on feature-label dependence autoencoder,MIMLFE)。主要包括:(1)使用核極限學(xué)習(xí)機(jī)自編碼器將標(biāo)記空間與原特征空間融合并產(chǎn)生重構(gòu)后特征空間;(2)結(jié)合主成分分析與希爾伯特-施密特獨(dú)立準(zhǔn)則分別提取“特征-特征”和“特征-標(biāo)記”信息;(3)使用多標(biāo)記K近鄰算法(multi-labelKnearest neighbor,ML-KNN)分類器進(jìn)行分類。通過Yahoo 數(shù)據(jù)集中的11個(gè)子數(shù)據(jù)集上的結(jié)果與相關(guān)對(duì)比算法比較表明,本文提出的算法在多個(gè)評(píng)價(jià)指標(biāo)上大部分優(yōu)于這些方法。在算法介紹結(jié)束后給出了本文的偽代碼。
極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[21-24]是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)。相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法需要較多的網(wǎng)絡(luò)參數(shù)設(shè)置可能出現(xiàn)局部最優(yōu)解而無法得到全局最優(yōu)的問題,極限學(xué)習(xí)機(jī)的主要特點(diǎn)在于學(xué)習(xí)速度快并且效果相較之前的神經(jīng)網(wǎng)絡(luò)也有著很大的提高。該網(wǎng)絡(luò)在求解時(shí)只需設(shè)置隱藏層節(jié)點(diǎn)數(shù)并隨機(jī)初始化權(quán)值和偏置就可以以較快的速度得到全局最優(yōu)解。ELM 求解單隱層前饋神經(jīng)網(wǎng)絡(luò)可分為兩個(gè)階段:隨機(jī)特征映射和線性參數(shù)求解。
在求解之前需要先做出以下定義:設(shè)有N個(gè)隨機(jī)樣本{(Xi,Yi)|i=1,2,…,N},其中特征空間與標(biāo)記空間可分別表示為Xi=[xi1,xi2,…,xin]Τ,Yi=[yi1,yi2,…,yim]Τ,對(duì)于具有L個(gè)隱藏節(jié)點(diǎn)的單隱藏層神經(jīng)網(wǎng)絡(luò)形式化定義為:
式(1)中,βi=[βi1,βi2,…,βim]Τ表示輸出權(quán)值,gi表示第i個(gè)隱藏節(jié)點(diǎn)的輸出,而gi實(shí)質(zhì)為激活函數(shù),并可表示為:
式(2)中,Wi=[wi1,wi2,…,wim]Τ為輸入權(quán)值,bi表示為第i個(gè)隱藏神經(jīng)元的偏置,?表示為點(diǎn)積。通常式(1)用來建?;貧w,而對(duì)于分類問題可使用sigmoid 函數(shù)來限制輸出值的范圍,從而達(dá)到分類效果。
以上為ELM 的第一階段即隨機(jī)特征映射,對(duì)于第二階段的線性參數(shù)求解,通過最小化平方誤差的近似誤差來求解出連接隱藏層和輸出層的權(quán)值β可表示為:
其中,H為隱藏層輸出矩陣:
Y為訓(xùn)練標(biāo)記矩陣:
通過式(1)和式(3),最小二乘解為:
其中,H?表示H的Moore-Penrose 廣義逆矩陣,表示為:
主成分分析是一種統(tǒng)計(jì)方法,是一種簡化數(shù)據(jù)集的技術(shù),是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。同時(shí)無監(jiān)督范式下最流行的線性特征提取方法之一,無監(jiān)督的方法是在不使用標(biāo)簽標(biāo)記信息的情況下提取少量特征來保留盡可能多的判別信息,基于最小化平方重構(gòu)誤差來尋找最優(yōu)投影矩陣。主成分分析可表示為以下最小二乘問題:
其中,F(xiàn) 表示矩陣的Frobenius 范數(shù),P∈RD×D是投影方向矩陣,A∈Rl×D表示投影系數(shù)矩陣。通過約束PΤP=I,限制投影方向(即P的列向量)是正交的。
其中,tr()是矩陣的軌跡,通過使用?tr(XA)/?A=XΤ和?tr(AΤA)/?A=2A,然后設(shè)定J(A,P)對(duì)A的導(dǎo)數(shù)為零,得到并插入J(A,P),目標(biāo)函數(shù)(10)就可以簡化為:
因?yàn)閠r(XΤX)是常數(shù)項(xiàng),最小化J(P)的問題就可以等價(jià)于最大化tr(PΤXΤXP),所以式(9)可以轉(zhuǎn)化為:
通過拉格朗日乘數(shù)技術(shù),將該問題轉(zhuǎn)化為如下特征值問題XΤXP=ΛP,其中Λ是一個(gè)對(duì)角矩陣的特征值(λ1,λ2,…,λD≥0)。
映射矩陣P是由相應(yīng)的特征向量組成,主成分分析投影系數(shù)矩陣A的協(xié)方差矩陣是ATA=PΤXΤXP=Λ。說明主成分分析投影系數(shù)是不相關(guān)的。然后可以將式(11)轉(zhuǎn)化為J(P)=tr(XΤX)-tr(Λ)。為了使J(P)最小化,選擇d( 其中,t∈(0,1)是一個(gè)合適的閾值,用于衡量保存原始數(shù)據(jù)的信息。 Hilbert-Schmidt 獨(dú)立性標(biāo)準(zhǔn)(HSIC)是一種非參數(shù)依賴性度量,它考慮所有變量之間的所有依賴關(guān)系模式。對(duì)于特征空間和標(biāo)記的線性核,HSIC 的經(jīng)驗(yàn)估計(jì)被描述為: 其中,tr()表示的是矩陣的軌跡,K和L分別是示例和標(biāo)記對(duì)應(yīng)的核矩陣。H用于除去均值IN表示大小為N×N的單位矩陣,eN表示所有的元素都是1,長度為N的列向量。如今通過MDDM 方法HSIC 已經(jīng)成功應(yīng)用在多標(biāo)記特征提取上,忽略常數(shù)項(xiàng)(N-1)-2得到目標(biāo)函數(shù): 其中,P是線性變換矩陣P∈Rd×t,MDDM 的主要目的是通過使特征-標(biāo)記之間的依賴度達(dá)到最大而得到最優(yōu)的映射矩陣P,此方法已經(jīng)在文獻(xiàn)[25-26]中得到驗(yàn)證。具有正交投影方向的MDDM 的原始優(yōu)化問題也被稱為MDDMp[25]: 在現(xiàn)實(shí)世界中,真實(shí)的對(duì)象并不能如理論中那樣簡單,傳統(tǒng)的單標(biāo)記學(xué)習(xí)算法由于算法簡單、對(duì)象單一而不能對(duì)現(xiàn)實(shí)中多語義復(fù)雜的對(duì)象進(jìn)行有效準(zhǔn)確的處理,也無法解決機(jī)器學(xué)習(xí)中的高難度問題,因此需要通過建立一個(gè)新的多標(biāo)記學(xué)習(xí)框架來解決這一問題。對(duì)于任意的一個(gè)對(duì)象,通過向量來對(duì)其一個(gè)特征進(jìn)行描述,再用這個(gè)特征向量對(duì)對(duì)象進(jìn)行分類和類別標(biāo)記。假定一個(gè)有N個(gè)樣本的多標(biāo)記數(shù)據(jù)集,X為n維的示例空間Rn,Y為m類標(biāo)記空間,則在多標(biāo)記學(xué)習(xí)中,給定數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈X是一個(gè)示例,yi∈Y是一組標(biāo)記集合且,可得到映射關(guān)系f:X→2Y。 自動(dòng)編碼器(auto encoder)最早是由Rumelhart在1986年提出的,并成功用于處理高維度復(fù)雜數(shù)據(jù),它的出現(xiàn)大大促進(jìn)了神經(jīng)網(wǎng)絡(luò)的發(fā)展。自動(dòng)編碼器是一個(gè)由大于或等于3 層的神經(jīng)網(wǎng)絡(luò)組成,主要是輸入層、隱藏層和輸出層。自動(dòng)編碼器主要分為編碼和解碼兩個(gè)過程。先將無標(biāo)記的特征a輸入到encoder 編碼器得到輸出b。這時(shí)候需要判別之前輸入的a和b是否表示一致。這時(shí)就在輸出后再加一個(gè)decoder 解碼器,此時(shí)b就成為了解碼器decoder 的輸入,現(xiàn)在只要判斷這個(gè)輸出信號(hào)與之前的輸入a的近似度就可以得到結(jié)論。如果這兩個(gè)近似度很高,那么就有理由可以相信這個(gè)b是可靠的。因此在自編碼器中需要不斷調(diào)整encoder 與decoder 的參數(shù)使得重構(gòu)的誤差最小,此時(shí)的b就是原輸入a的表示。 根據(jù)多標(biāo)記學(xué)習(xí)的目標(biāo),同時(shí)結(jié)合ELM 學(xué)習(xí)模型和自編碼器,多標(biāo)記ELM 的輸出函數(shù)H為: 為了使ELM 的輸出h(x)β取得更好的分類結(jié)果,RELM 算法(regularized ELM)就是添加L2 正則來提高原始ELM 算法的穩(wěn)定性和泛化性能,同時(shí)有效避免過擬合,目標(biāo)函數(shù)表示為: 其中,ξi=[ξi1,ξi2,…,ξim]Τ,是訓(xùn)練樣本Xi在m個(gè)輸出節(jié)點(diǎn)的訓(xùn)練誤差向量,C為正則化參數(shù),根據(jù)KKT(Karush-Kuhn-Tucker)理論,可得: 其中,βj是連接隱藏層節(jié)點(diǎn)到第j個(gè)輸出節(jié)點(diǎn)的權(quán)值向量,β=[β1,β2,…,βm],每個(gè)拉格朗日乘子αij對(duì)應(yīng)于第i個(gè)樣本的第j個(gè)輸出節(jié)點(diǎn),同時(shí)αi=[αi1,αi2,…,αim]Τ,α=[α1,α2,…,αm]Τ,可得到如下的KKT優(yōu)化條件: 訓(xùn)練樣本數(shù)N和隱藏層節(jié)點(diǎn)數(shù)L決定著隱藏層節(jié)點(diǎn)輸出H的大小,將等式(21)和等式(22)代入等式(23),可以得到: U=(xN,yN)表示原特征空間xN與標(biāo)記空間yN融合成的新的特征空間。此時(shí),從等式(23)和等式(24)可得出ELM 的表達(dá)式為: 當(dāng)N>L時(shí),即當(dāng)樣本數(shù)量N大于隱藏節(jié)點(diǎn)數(shù)L時(shí),可以從式(21)、式(22)和式(23)中得出ELM 另一種表達(dá)式為: 在ELM中,用戶通常知道特征映射,如果用戶不知道特征映射,則可以按如下方式定義ELM的內(nèi)核矩陣: 此時(shí),可得KELM 的輸出表達(dá)式為: 目前,PCA 已經(jīng)得到了廣泛的應(yīng)用。盡管現(xiàn)存的特征提取算法有很多,但是大部分不能有效利用“特征-特征”的信息,為此提出的方法希望既可以有效利用標(biāo)記信息,又可以充分利用特征信息。第一,結(jié)合2.3 節(jié)的相關(guān)知識(shí),采用了基于HSIC 與MDDM相同的目標(biāo)函數(shù),通過最大化XP與標(biāo)記U之間的依賴度以獲取“標(biāo)記-標(biāo)記”的信息;第二,利用PCA 的優(yōu)點(diǎn),降低維度約簡中信息的損失。然后將PCA 中的目標(biāo)函數(shù)與MDDMp 中的目標(biāo)函數(shù)線性組合,最大化特征方差并同時(shí)最大化“特征-標(biāo)記”依賴性。 其中,λ∈[0,1]是控制PCA 和MDDMp 兩個(gè)平方誤差項(xiàng)之間權(quán)衡的平衡因子,A和B表示兩個(gè)投影系數(shù)矩陣,P表示投影方向矩陣。當(dāng)λ=0 時(shí),該模型退化為原始PCA,而當(dāng)λ=1 時(shí),模型就相當(dāng)于MDDMp。然后對(duì)公式進(jìn)行擴(kuò)展: 在J(A,B,P)相對(duì)于A和B的導(dǎo)數(shù)為0之后,得到: 根據(jù)A和B上式可以化簡為: 然后定義了一個(gè)新的向量: 帶入得到J(P)=tr(G)-tr(PTGP),因?yàn)閠r(G)是不變的,所以將問題轉(zhuǎn)化為: 再利用拉格朗日定理轉(zhuǎn)化為GP=ΛP,現(xiàn)在的目標(biāo)函數(shù)為G(P)=tr(G)-tr(Λ)。意味著應(yīng)該選擇d維最大特征值及其特征向量來構(gòu)造映射矩陣P。 算法偽代碼如下: 算法1MIMLFE 算法 輸入:X,N×n維樣本特征空間;Y,N×m維樣本標(biāo)記空間;λ,平衡因子;t,特征值閾值;d,映射特征的維度。 (1)根據(jù)式(28)通過核極限學(xué)習(xí)機(jī)自編碼器重構(gòu)特征空間; (2)根據(jù)式(33)構(gòu)造出矩陣G; (3)構(gòu)造具有最大d特征值的n×d映射矩陣P; (4)ML-KNN 分類器分類。 為驗(yàn)證本文算法的有效性,從雅虎網(wǎng)站選取了不同的應(yīng)用領(lǐng)域中的11個(gè)數(shù)據(jù)集(“Arts”“Business”“Computers”等)進(jìn)行測(cè)試,各數(shù)據(jù)集的特征數(shù)目在400~1 100 之間,各數(shù)據(jù)集中包含2 000個(gè)訓(xùn)練樣本以及3 000個(gè)測(cè)試樣本,詳細(xì)信息如表1 所示。 對(duì)于多標(biāo)記學(xué)習(xí),為有效驗(yàn)證本文算法性能,本文采用海明損失(Hamming Loss,HL)、1-錯(cuò)誤率(One-Error,OE)、覆蓋率(Coverage,CV)、排序損失(Ranking Loss,RL)[27]和平均精度(Average Precision,AP)作為評(píng)價(jià)算法性能的指標(biāo)。 設(shè)多標(biāo)記分類器為h(?),預(yù)測(cè)函數(shù)f(?,?),排序函數(shù)rankf,多標(biāo)記數(shù)據(jù)集D={(xi,Yi)|1 ≤i≤n}。上述5種評(píng)價(jià)指標(biāo)HL、OE、CV、RL和AP具體定義如下: 海明損失用于估計(jì)樣本在單個(gè)標(biāo)記上被誤分類的情況。公式中Δ 用于計(jì)算h(xi)和Yi的對(duì)稱差。當(dāng)HLD(h)=0 時(shí)為最好的情況,HLD(h)越小,分類器h(?)的性能越高。 1-錯(cuò)誤率度量標(biāo)準(zhǔn)用于評(píng)估排名靠前的標(biāo)簽在對(duì)象的正確標(biāo)簽集中的次數(shù)。即OED(f)越小,f(?)的性能越高,當(dāng)OED(f)=0 時(shí)為最好的情況。 覆蓋率公式表示的意思就是所有文檔中排序最靠后的真實(shí)標(biāo)記的排序平均值,CVD(f)越小,f(?)的性能越高。 排序損失表示的是相關(guān)標(biāo)記與非相關(guān)標(biāo)記進(jìn)行兩兩對(duì)比,然后統(tǒng)計(jì)相關(guān)標(biāo)記比非相關(guān)標(biāo)記預(yù)測(cè)可能性小的次數(shù)。RLD(f)越小,f(?)的性能越高,當(dāng)RLD(f)=0 時(shí)為最好情況。 Table 1 Details of Yahoo data sets表1 雅虎數(shù)據(jù)集描述 平均精度用于考察在樣本的類別標(biāo)記排序序列中,排在給定樣本標(biāo)記之前的標(biāo)記仍屬于該樣本標(biāo)記概率的均值,APD(f)越大,f(?)的性能越高,最優(yōu)值為1。 對(duì)比實(shí)驗(yàn)代碼均在Matlab2016a 中運(yùn)行,硬件環(huán)境Intel?CoreTMi7-8700K 3.7 GHz CPU,16 GB 內(nèi)存;操作系統(tǒng)是Windows 10。在實(shí)驗(yàn)中,每個(gè)算法的性能將由5個(gè)評(píng)估指標(biāo)綜合測(cè)量,各評(píng)價(jià)指標(biāo)中↑表示指標(biāo)數(shù)值越高越好,↓表示指標(biāo)數(shù)值越低越好。實(shí)驗(yàn)采用OS(original set,表示原始ML-KNN 沒有使用任何的特征提取算法的結(jié)果)、MDDMp、MVMD(multi-label feature extraction algorithm via maximizing feature variance and feature-label dependence)[26]、PCA、MLSI 和wMLDA(weighted MLDA)等多標(biāo)記特征提取算法與本文算法MIMLFE 進(jìn)行各指標(biāo)對(duì)比。 在各對(duì)比算法的參數(shù)設(shè)置上,在MDDMp 中,設(shè)置為0.5。本文的實(shí)驗(yàn)使用ML-KNN 作為分類器,ML-KNN 值設(shè)置為默認(rèn)值,即平滑系數(shù)設(shè)置為1,最近鄰居數(shù)k設(shè)置為10。 為了更直觀展示本文算法的有效性,本文在選取的11個(gè)數(shù)據(jù)集中每個(gè)數(shù)據(jù)集選取的特征子集數(shù)目占總數(shù)的10%,與所有對(duì)比實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表2~表6 所示。同時(shí),隨著特征子集數(shù)目的改變,針對(duì)評(píng)價(jià)指標(biāo)AP,11個(gè)數(shù)據(jù)集在各個(gè)算法上的趨勢(shì)情況如圖1 所示,其他4個(gè)評(píng)價(jià)指標(biāo)也可同樣繪制此圖,由于篇幅有限,省去未提。表7 給出各算法在11個(gè)數(shù)據(jù)集中實(shí)驗(yàn)的時(shí)間消耗。 Table 2 Results of Hamming loss↓表2 海明損失測(cè)試結(jié)果 Table 3 Results of one-error↓表3 1-錯(cuò)誤率測(cè)試結(jié)果 Table 4 Results of coverage↓表4 覆蓋率測(cè)試結(jié)果 Table 5 Results of ranking loss↓表5 排序損失測(cè)試結(jié)果 Table 6 Results of average precision↑表6 平均精度測(cè)試結(jié)果 Table 7 Comparison of computation time for algorithms表7 各算法的時(shí)耗對(duì)比 s 實(shí)驗(yàn)結(jié)果分析: (1)對(duì) 于Hamming Loss、One-Error 和Ranking Loss,可以發(fā)現(xiàn)在11個(gè)數(shù)據(jù)集上,其中有10個(gè)數(shù)據(jù)集取得最優(yōu)值,即分類性能最佳。在數(shù)據(jù)集Computers上,MIMLFE 取得的Hamming Loss 值與最優(yōu)Hamming Loss 值僅相差0.000 2。在數(shù)據(jù)集Business 上,MDDMp 算法在所有對(duì)比算法中取得的One-Error 最優(yōu)值,MIMLFE 取得的One-Error 值比最優(yōu)值僅高0.002。在數(shù)據(jù)集Social 上,ML-KNN 取得了最優(yōu)Ranking Loss值。 (2)對(duì)于Coverage,MIMLFE 在9個(gè)數(shù)據(jù)集上取得最小Coverage 值。另外兩個(gè)數(shù)據(jù)集在MIMLFE 上取得Coverage 值與最優(yōu)Coverage 值最大僅相差0.083 0,最小僅相差0.020 7。實(shí)驗(yàn)結(jié)果進(jìn)一步表明本文算法在絕大部分?jǐn)?shù)據(jù)集上占優(yōu)。 (3)對(duì)于Average Precision,MIMLFE 在11個(gè)數(shù)據(jù)集上取得Average Precision 值都是最大,這充分表明本文所提出算法的有效性。 (4)圖1 為MIMLFE 算法在11個(gè)多標(biāo)記數(shù)據(jù)集上以Average Precision 為指標(biāo)的特征趨勢(shì)圖,可發(fā)現(xiàn)MIMLFE 選取的特征子集在特征總數(shù)的10%本文算法MIMLFE 比所有對(duì)比算法都占優(yōu)。隨著特征子集數(shù)量的增加,MIMLFE 在大部分?jǐn)?shù)據(jù)集上效果都占優(yōu)。進(jìn)一步說明該算法性能占優(yōu)。 各算法在多個(gè)數(shù)據(jù)集實(shí)驗(yàn)的時(shí)間消耗如表7 所示,本文提出的算法MIMLFE 運(yùn)行的時(shí)間消耗明顯比OS 和wMLDA 少,MIMLFE 和其他4個(gè)對(duì)比算法的運(yùn)行時(shí)間基本相差不大,但是性能明顯占優(yōu)。進(jìn)一步表明本文算法MIMLFE 的有效性。 為了進(jìn)一步驗(yàn)證本文算法的有效性,運(yùn)用統(tǒng)計(jì)學(xué)知識(shí),在11個(gè)數(shù)據(jù)集上采用顯著性水平為5%的Friedman test[28]檢驗(yàn)。對(duì)于每個(gè)評(píng)價(jià)指標(biāo),都拒絕零假設(shè),若兩個(gè)算法在所有數(shù)據(jù)集上的平均排序的差高于臨界差(critical difference,CD),則認(rèn)為它們有顯著性差異;反之則兩個(gè)算法沒有顯著性差異。圖2 給出了所有算法在不同評(píng)價(jià)指標(biāo)上的比較,坐標(biāo)軸畫出了各種算法的平均排序,并且坐標(biāo)軸上的數(shù)字越小則表示平均排序越低,相同顏色線段連接則表示兩種算法性能沒有顯著差異。根據(jù)式(35)可計(jì)算出CD值為2.205 2。 對(duì)某個(gè)任意算法,都有30個(gè)結(jié)果作為對(duì)比(在5個(gè)評(píng)價(jià)指標(biāo)上具有6個(gè)對(duì)比算法),通過圖2 可以得出:(1)MIMLFE 在5個(gè)評(píng)價(jià)指標(biāo)上與其他6個(gè)對(duì)比算法相比時(shí)排序均為第一。(2)在Hamming Loss、Coverage 和Ranking Loss 三個(gè)評(píng)價(jià)指標(biāo)上,MIMLFE與MDDMp 和MVMD 均無顯著性差異,但均優(yōu)于OS、MLSI、PCA、wMLDA。(3)在One-Error 評(píng)價(jià)指標(biāo)上,MIMLFE 優(yōu) 于OS、MLSI、PCA。(4)在Average Precision 指標(biāo)上,MIMLFE 與MDDMp 取得了相當(dāng)?shù)男阅?,但均?yōu)于其他所有對(duì)比算法。 Fig.1 AP trend chart圖1 AP 趨勢(shì)圖 Fig.2 Performance comparison of algorithms圖2 算法性能比較 特征提取是針對(duì)處理高維數(shù)據(jù)進(jìn)行降維的一種有效方法。主成分分析(PCA)和特征標(biāo)記依賴度(MDDM)是減少多標(biāo)記維度的兩種有效的多標(biāo)記特征提取技術(shù),前者已經(jīng)與最小二乘法相關(guān)聯(lián)。在本文中,利用核極限學(xué)習(xí)機(jī)自編碼器,將原始的特征空間與標(biāo)記空間融合重構(gòu),得到新的特征空間。然后推導(dǎo)出具有正交投影方向的MDDM 的最小二乘公式,利用線性組合方式組合這兩個(gè)最小二乘公式,從而構(gòu)建一種新穎的多標(biāo)記特征提取方法,分別提取“特征-特征”“標(biāo)記-特征”的信息以最大化特征方差和特征標(biāo)記依賴性。實(shí)驗(yàn)結(jié)果表明了本文提出的MIMLFE 算法具有不錯(cuò)的效果和較好的穩(wěn)定性。2.3 基于依賴最大化的多標(biāo)記維數(shù)約簡
3 特征重構(gòu)的多標(biāo)記特征提取
3.1 基于KELM(kernel ELM)自編碼器的多標(biāo)記特征重構(gòu)
3.2 結(jié)合PCA 與HSIC 的多標(biāo)記特征提取
4 實(shí)驗(yàn)方案及結(jié)果分析
4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)描述
4.2 實(shí)驗(yàn)方案及參數(shù)選取
4.3 實(shí)驗(yàn)結(jié)果及分析
5 總結(jié)