王一賓,裴根生,程玉勝
(1. 安慶師范大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 安慶 246011; 2. 安徽省高校智能感知與計(jì)算重點(diǎn)實(shí)驗(yàn)室,安徽 安慶 246011)
近年來,隨著人工智能的迅速發(fā)展,標(biāo)記學(xué)習(xí)成為其重點(diǎn)的研究領(lǐng)域之一。其中單標(biāo)記學(xué)習(xí)將每個(gè)示例由一個(gè)特征向量和一個(gè)標(biāo)記來描述;而多標(biāo)記學(xué)習(xí)[1]則將一個(gè)示例同時(shí)分配給多個(gè)標(biāo)記,即每個(gè)對象由一個(gè)特征向量和一個(gè)二元標(biāo)記向量來表示。多標(biāo)記學(xué)習(xí)的這種示例表達(dá)方式更加契合現(xiàn)實(shí)世界對象存在的多義性,因此多標(biāo)記學(xué)習(xí)成為模式識別與標(biāo)記學(xué)習(xí)的重點(diǎn)研究課題之一,并已成功應(yīng)用于文本分類[2-3]、圖像識別[4]、生物學(xué)習(xí)[5]和情感分析[6]等領(lǐng)域。
目前,在多標(biāo)記學(xué)習(xí)問題中,諸多學(xué)者已研究并提出多種多標(biāo)記學(xué)習(xí)算法,而這些方法大致可以分為2類,即問題轉(zhuǎn)換法和算法適應(yīng)法。其中問題轉(zhuǎn)換法是將多標(biāo)記學(xué)習(xí)任務(wù)轉(zhuǎn)換為一個(gè)或者多個(gè)相應(yīng)單標(biāo)記學(xué)習(xí)任務(wù),然后再通過傳統(tǒng)單標(biāo)記學(xué)習(xí)方法進(jìn)行處理,典型算法包括BR[4]、LP[7]、PPT[8]和RAKEL[9]等。而算法適應(yīng)法通過擴(kuò)展特定單標(biāo)記學(xué)習(xí)算法,修改其約束條件從而可以直接處理多標(biāo)記學(xué)習(xí)任務(wù),例如ML-KNN[10]、MLNB[11]、Rank-SVM[12]和 ML-RBF[13]等。而這些適應(yīng)型算法就是將最近鄰(k-nearest neighbors,KNN)、樸素貝葉斯 (naive bayes,NB)、支持向量機(jī)(support vector machine,SVM)和徑向基函數(shù)(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)等算法適應(yīng)于多標(biāo)記數(shù)據(jù)。這些改造的算法在多標(biāo)記學(xué)習(xí)中取得了不錯的效果。但其中BR、LP、ML-KNN、MLNB和Rank-SVM等算法因本身特點(diǎn)所限,導(dǎo)致其時(shí)間消耗較大。
為了解決分類算法時(shí)間消耗大的問題,近年間,部分學(xué)者提出了多種基于極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)的多標(biāo)記學(xué)習(xí)算法。ELM是由Huang等[14]提出的是一種單隱藏層前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feedforward neural networks,SLFNs)算法,該算法具有模型設(shè)計(jì)簡單、運(yùn)行速度快和泛化性能高等特點(diǎn),在多標(biāo)記學(xué)習(xí)中具有良好的性能表現(xiàn)。為提高ELM分類模型的穩(wěn)定性及魯棒性,鄧萬宇等[15]提出正則極限學(xué)習(xí)機(jī)算法(regularized extreme learning machine,RELM),對損失函數(shù)施加L2懲罰以避免分類模型出現(xiàn)過擬合現(xiàn)象。隨后,Miche等[16]提出TROP-ELM(tikhonov-regularized optimally pruned extreme learning machine,TROP-ELM)算法,將L1和L2懲罰級聯(lián)使用,對隱藏層神經(jīng)元施加L1懲罰,對回歸權(quán)重施加L2懲罰,以達(dá)到刪減神經(jīng)元個(gè)數(shù)和穩(wěn)定數(shù)值的作用。但這些算法都需要隨機(jī)初始化權(quán)值和偏置,使得算法對于隨機(jī)值敏感,導(dǎo)致算法穩(wěn)定性不高。為處理這一問題,Huang等[17]提出使用核函數(shù)映射特征空間以代替?zhèn)鹘y(tǒng)隱藏層隨機(jī)特征映射函數(shù),使得該算法可以直接處理回歸問題、單標(biāo)記和多標(biāo)記分類?;贓LM的多標(biāo)記分類算法,ER等[18]和Sun等[19]利用ELM提出一種高速多標(biāo)記分類器模型,將ELM適應(yīng)于多標(biāo)記數(shù)據(jù)集,分類效果較為理想。Zhang等[20]提出了一種多層ELM-RBF算法,改變傳統(tǒng)ELM算法的單隱藏層策略,使用多隱藏層來實(shí)現(xiàn)多標(biāo)記分類,在分類精度上也取得了不錯的效果。Luo等[21]首次采用核ELM來處理多標(biāo)記問題,以保證分類算法的穩(wěn)定性。對于多標(biāo)記學(xué)習(xí)與正則化理論結(jié)合部分。Han等[22]提出將多標(biāo)記學(xué)習(xí)作為彈性網(wǎng)絡(luò)懲罰的最小二乘優(yōu)化問題,并不使用L1懲罰進(jìn)行稀疏表示。本文創(chuàng)作的思想來源于此,且已有研究表明在多標(biāo)記數(shù)據(jù)集中特征之間存在著相關(guān)性和冗余性,此時(shí)將RELM原L2正則項(xiàng)用彈性網(wǎng)絡(luò)正則代替,既保證模型穩(wěn)定性也可對模型進(jìn)行稀疏性表示。
結(jié)合上述ELM算法和正則化理論,本文首次將彈性網(wǎng)絡(luò)正則結(jié)合核極限學(xué)習(xí)機(jī)(kernel extreme learning machine,KELM)應(yīng)用到多標(biāo)記分類中,使用彈性網(wǎng)絡(luò)正則約束核KELM,提出基于彈性網(wǎng)絡(luò)極限學(xué)習(xí)機(jī)的多標(biāo)記學(xué)習(xí)算法(multi-label learning algorithm of elastic net kernel extreme learning machine,ML-EKELM)。該算法通過KELM映射特征空間,然后對損失函數(shù)添加彈性網(wǎng)絡(luò)[23]正則項(xiàng),最后采用坐標(biāo)下降法[24]迭代求解多標(biāo)記目標(biāo)優(yōu)化問題。KELM與彈性網(wǎng)絡(luò)的結(jié)合提高了算法魯棒性,保證了模型稀疏性,提供了一種基于ELM解決多標(biāo)記問題的新途徑。通過對比現(xiàn)有基于ELM的先進(jìn)多標(biāo)記算法和經(jīng)典多標(biāo)記算法,驗(yàn)證了本文算法的有效性和可靠性。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法需要較多的網(wǎng)絡(luò)參數(shù)設(shè)置,在求解最優(yōu)解時(shí)很有可能出現(xiàn)局部最優(yōu)解,而無法得到全局最優(yōu)解。而極限學(xué)習(xí)機(jī)是一種高效且具有優(yōu)化學(xué)習(xí)算法的單隱層前饋神經(jīng)網(wǎng)絡(luò),求解時(shí)只需設(shè)置隱藏層節(jié)點(diǎn)數(shù),并隨機(jī)初始化權(quán)值和偏置就可求解出全局最優(yōu)解。ELM求解單隱層前饋神經(jīng)網(wǎng)絡(luò),可分為2個(gè)階段:隨機(jī)特征映射和線性參數(shù)求解。
在對ELM兩個(gè)階段進(jìn)行分析之前,需要做出以下形式化定義:設(shè)有N個(gè)隨機(jī)樣本其中特征空間與標(biāo)記空間可分別表示為則對于具有L個(gè)隱藏節(jié)點(diǎn)的單隱藏層神經(jīng)網(wǎng)絡(luò)形式化定
義為:
以上為ELM的第1階段即隨機(jī)特征映射,對于第2階段的線性參數(shù)求解,通過最小化平方誤差的近似誤差來求解連接隱藏層和輸出層的權(quán)值β??杀硎緸椋?/p>
式中H為隱藏層輸出矩陣,即
Y為訓(xùn)練標(biāo)記矩陣:
通過式(1)、式(3),最小二乘解為
式中H?表示H的Moore-Penrose廣義逆矩陣,表示為
在機(jī)器學(xué)習(xí)中,偏差(bias)與方差(variance)共同影響模型的準(zhǔn)確率。高偏差容易導(dǎo)致模型欠擬合(unfitting),高方差則會導(dǎo)致模型過擬合(overfitting)。通常,解決高偏差可選擇使用更為復(fù)雜的模型或增加模型參數(shù)來降低偏差值,但這就會導(dǎo)致模型過擬合情況發(fā)生。而正則化理論是解決高方差或避免訓(xùn)練模型過擬合的有效方法之一,在機(jī)器學(xué)習(xí)領(lǐng)域被廣泛使用。
通過正則化方式,可以降低模型的復(fù)雜度,避免可能的過度擬合。近年來,研究者提出了多種適合機(jī)器學(xué)習(xí)的正則化方法,其中L2正則化、L1正則化和彈性網(wǎng)絡(luò)正則化等使用較為普遍。這些正則化方法詳細(xì)描述如下:
1) L2正則(Ridge Regression)
L2正則化模型(也稱為嶺回歸)是在最小化損失函數(shù)后添加正則項(xiàng)其中參數(shù)起到降低權(quán)重的作用,最終得到目標(biāo)函數(shù):
2) L1正則(Lasso)
L1正則化模型(也稱為Lasso模型)則是在最小化損失函數(shù)添加正則項(xiàng)其中而Lasso最大的特點(diǎn)在于產(chǎn)生稀疏權(quán)值矩陣,構(gòu)造出稀疏模型已達(dá)到特征選擇的作用,最終目標(biāo)函數(shù)為
3) L2&L1正則(Elastic Net)
彈性網(wǎng)絡(luò)正則化是一種結(jié)合L1正則與L2正則的各自優(yōu)點(diǎn)的新型正則化方法,即在最小化損失函數(shù)添加正則項(xiàng)其中目標(biāo)函數(shù)定義為
通過式(11)可知:當(dāng)α=0時(shí),Elastic Net即為L2正則;當(dāng)α=1時(shí),Elastic Net即為L1正則;當(dāng)時(shí),Elastic Net將保留L2和L1正則各自特點(diǎn),達(dá)到彈性2種正則的作用。根據(jù)這一特點(diǎn)給出3種正則化的二維圖像描述,如圖1所示。
圖 1 3種正則化比較Fig. 1 The comparison of three regularizations
傳統(tǒng)單標(biāo)記學(xué)習(xí)無法對于真實(shí)世界對象多語義性、概念復(fù)雜性進(jìn)行有效處理,且無法滿足目前機(jī)器學(xué)習(xí)的高要求,由此建立了多標(biāo)記學(xué)習(xí)框架可以解決這一問題。該框架通過對任意一個(gè)對象,進(jìn)行一個(gè)特征向量的描述,根據(jù)特征向量盡可能將對象進(jìn)行合適的類別標(biāo)記和精準(zhǔn)分類[25]。假定含有N個(gè)樣本的多標(biāo)記數(shù)據(jù)集,X為n維的示例空間Rn,Y為m類標(biāo)記空間,則在多標(biāo)記學(xué)習(xí)中,給定數(shù)據(jù)集其中是一個(gè)示例,是一組標(biāo)記集合,且可得到映射關(guān)系。
根據(jù)多標(biāo)記學(xué)習(xí)的目標(biāo),同時(shí)結(jié)合ELM學(xué)習(xí)模型,ELM的隨機(jī)映射函數(shù)將xi從輸入空間映射到L維的特征空間,Yi∈Rm為輸出標(biāo)記集合。根據(jù)式(4)、(5)和(8),可得多標(biāo)記ELM的輸出函數(shù)fl(x)為:
將式(9)和(12)結(jié)合即為正則ELM,即RELM算法,該算法添加L2正則來提高原始ELM算法的穩(wěn)定性和泛化性能,同時(shí)有效避免過擬合,目標(biāo)函數(shù)表示為:
式中C為正則化系數(shù);由式(6)、(7)和(13)求解目標(biāo)函數(shù),可得輸出權(quán)值β:
式中I為L維單位矩陣。這樣最終多標(biāo)記學(xué)習(xí)目標(biāo)函數(shù)表示為:
通過式(14)得到訓(xùn)練集的輸出權(quán)值,再通過隨機(jī)映射函數(shù)h(x)將測試集的特征向量映射,最終多標(biāo)記預(yù)測結(jié)果可由式(15)得出。這種基于正則化ELM的多標(biāo)記學(xué)習(xí)算法,不僅在預(yù)測精度上取得了不錯的效果,并且求解速度也具有較大優(yōu)勢。
基于L2正則能夠有效控制訓(xùn)練模型過擬合到某個(gè)特征上,即假設(shè)參數(shù)分布服從高斯分布以達(dá)到穩(wěn)定模型的作用;而基于L1正則能夠約束目標(biāo)方程稀疏性進(jìn)而實(shí)現(xiàn)特征選擇,即假設(shè)參數(shù)分布服從拉普拉斯分布以保證稀疏化模型。簡單來說,即L2正則只能讓某些參數(shù)逼近于0,而L1正則可以使得某些參數(shù)等于0?;谝陨险齽t化特點(diǎn)分析,結(jié)合這2種正則的彈性網(wǎng)絡(luò)可以實(shí)現(xiàn)正則和稀疏雙重作用[23]。本節(jié)將使用Elastic Net替換原有RELM中的L2正則,首次運(yùn)用到多標(biāo)記學(xué)習(xí)中。
由于傳統(tǒng)ELM算法需設(shè)置隱藏層節(jié)點(diǎn)數(shù),并且需初始隨機(jī)權(quán)值和偏置,易受隨機(jī)值的影響導(dǎo)致計(jì)算結(jié)果不穩(wěn)定,采用核ELM則可以解決這一問題。根據(jù)式(4)和(12),當(dāng)映射函數(shù)h(x)未知時(shí),即引入核矩陣(本文采用RBF核):
式中γ一般取值為1。結(jié)合式(3)、(12)和(17),式(16)可進(jìn)一步改寫為帶有RBF核映射的目標(biāo)函數(shù):
由于Elastic Net本身結(jié)構(gòu)特點(diǎn),具有L1正則導(dǎo)致存在不可導(dǎo)點(diǎn),無法使用類似于BP神經(jīng)網(wǎng)絡(luò)(back propagation)的梯度下降法(gradient descent)或傳統(tǒng)ELM將神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為最小二乘法。坐標(biāo)下降法[26]則可以解決這一問題,因其是一種非梯度優(yōu)化算法,無需求導(dǎo)目標(biāo)函數(shù),只需通過坐標(biāo)方向搜尋最小值,符合彈性網(wǎng)絡(luò)求解的要求,因此本文采用坐標(biāo)下降法對于彈性網(wǎng)絡(luò)核極限學(xué)習(xí)機(jī)進(jìn)行目標(biāo)求解。根據(jù)式(18)求解最小化目標(biāo),即
通過坐標(biāo)下降法,式(19)的更新公式可表示為:
在訓(xùn)練集中通過坐標(biāo)下降法求出輸出權(quán)值矩陣β,設(shè)xj*為測試數(shù)據(jù)第j個(gè)示例的特征向量,則多標(biāo)記預(yù)測結(jié)果可以表示為
算法1基于彈性網(wǎng)絡(luò)核極限學(xué)習(xí)機(jī)的多標(biāo)記學(xué)習(xí)算法(ML-EKELM)。
輸入訓(xùn)練數(shù)據(jù)集,測試數(shù)據(jù)集,RBF核參數(shù) γ,正則化參數(shù) λ、α,最大迭代次數(shù)Q;
輸出測試數(shù)據(jù)集預(yù)測標(biāo)記Y*。
為驗(yàn)證本文算法的有效性,特選取了Yeast Gene[12]、Scene[4]、Yahoo Web Pages[10](包含 11 個(gè)子數(shù)據(jù)集)等13個(gè)數(shù)據(jù)集。其中Yeast Gene包含2 417個(gè)樣本,訓(xùn)練數(shù)據(jù)集有1 500個(gè)樣本,測試數(shù)據(jù)集有917個(gè)樣本,每個(gè)樣本包含103個(gè)屬性值,所有的樣本大致有14種類別屬性,每個(gè)樣本對應(yīng)的平均標(biāo)記數(shù)為4.24。Scene數(shù)據(jù)集由2 407張圖片組成,人工手動標(biāo)記圖片6類標(biāo)記,平均每張圖片有1.24±0.44個(gè)類標(biāo)記,特征向量維度為294維,其中1 211個(gè)訓(xùn)練集和1 196個(gè)測試集。雅虎網(wǎng)頁數(shù)據(jù)集是從雅虎網(wǎng)站收集,包括11 個(gè)版塊 (“Arts”、“Business”、“Computers”等),各數(shù)據(jù)子集特征數(shù)在400~1 100之間,各數(shù)據(jù)子集中包含2 000個(gè)訓(xùn)練集以及3 000個(gè)測試集,詳細(xì)信息如表1所示。
表 1 雅虎網(wǎng)頁數(shù)據(jù)集Table 1 Yahoo web pages data set
對于多標(biāo)記學(xué)習(xí),傳統(tǒng)單標(biāo)記評價(jià)指標(biāo)例如Accuracy、Precision和Recall都無法直接對多標(biāo)記學(xué)習(xí)算法進(jìn)行指標(biāo)評價(jià)。為有效驗(yàn)證算法綜合性能,本文將使用5種多標(biāo)記通用評價(jià)指標(biāo)進(jìn)行算法評價(jià),評價(jià)指標(biāo)包括:Hamming Loss、One-Error、Coverage、Ranking Loss和 Average Precision[1]。
1-錯誤率是評估對象最高排位標(biāo)記并未正確標(biāo)記的次數(shù)情況。當(dāng)OED(f )=0時(shí)為最好的情況,即OED(f )越小,f的性能越高。
覆蓋率是評估對象標(biāo)記序列中所需標(biāo)記數(shù)達(dá)到覆蓋全部標(biāo)記,即CVD(f )越小,f的性能越高。
排序損失是評估對象非屬標(biāo)記的排位高于所屬標(biāo)記的次數(shù)情況。當(dāng)RLD(f )=0時(shí)為最好情況,即RLD(f )越小,f的性能越高。
平均精度是評估在特定標(biāo)記y∈Yi排列的正確標(biāo)記的平均分?jǐn)?shù)。當(dāng)APD(f )=1時(shí)為最好情況,即APD(f )越大,f的性能越高。
對比實(shí)驗(yàn)代碼均在Matlab2016a中運(yùn)行,硬件環(huán)境 Intel? CoreTMi5-7500 3.4 GHz CPU,8 GB 內(nèi)存;操作系統(tǒng)為Windows 10。為了驗(yàn)證算法的可靠性和有效性,算法選擇多標(biāo)記的5種常用評價(jià)指標(biāo),分別是:Hamming Loss、One Error、Coverage、Ranking Loss和 Average Precision。通過評價(jià)指標(biāo)來綜合衡量各算法的性能,評估各算法的性能。實(shí)驗(yàn)中將5種評價(jià)指標(biāo)分別簡寫為:HL↓、OE↓、CV↓、RL↓和 AP↑。其中↑表示指標(biāo)數(shù)值越高越好,↓表示指標(biāo)數(shù)值越低越好。對比實(shí)驗(yàn)算法采用 ML-KELM[21]、RELM[15]、ELM[18]3 種基于ELM的多標(biāo)記算法,以此來驗(yàn)證本文提出的MLEKELM算法較目前已提出基于ELM的多標(biāo)記算法的優(yōu)勢,同時(shí)對比ML-RBF[13]、ML-KNN[10]2種經(jīng)典的多標(biāo)記算法。
考慮算法對比驗(yàn)證的可行性和準(zhǔn)確性,減少隨機(jī)誤差的產(chǎn)生,各測試算法在一個(gè)數(shù)據(jù)集中做10次實(shí)驗(yàn),最終將10次實(shí)驗(yàn)得到的5種評價(jià)指標(biāo)求出平均值(mean)和標(biāo)準(zhǔn)差(standard deviation)。在每個(gè)評價(jià)指標(biāo)數(shù)據(jù)下標(biāo)注排位情況,如MLEKELM(1)表示在某個(gè)數(shù)據(jù)集ML-EKELM算法最為優(yōu)秀,同時(shí)用黑體表示,并在雅虎網(wǎng)頁數(shù)據(jù)集給出了11個(gè)子集的平均評價(jià)指標(biāo)數(shù)據(jù)Average。
為了更直觀展示本文算法收斂速度,13個(gè)數(shù)據(jù)集迭代收斂情況如圖2所示。同時(shí),在13個(gè)數(shù)據(jù)集中對比實(shí)驗(yàn)結(jié)果如表2~9所示,其中表2是酵母菌基因數(shù)據(jù)集對比試驗(yàn)結(jié)果,表3為場景數(shù)據(jù)集對比實(shí)驗(yàn)實(shí)驗(yàn)結(jié)果,表4~8則是雅虎網(wǎng)頁數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,表9給出各算法在13個(gè)數(shù)據(jù)集中實(shí)驗(yàn)的時(shí)間消耗,并給出平均時(shí)間消耗。在此特別說明:因算法ML-EKELM、ML-KELM、MLKNN的分類器具有穩(wěn)定性,10次實(shí)驗(yàn)結(jié)果相同,其標(biāo)準(zhǔn)差均為0。
圖2為ML-EKELM算法在13個(gè)多標(biāo)記數(shù)據(jù)集中以Hamming Loss為指標(biāo)的迭代次數(shù)圖,最終收斂的Hamming Loss值用水平線表示。通過圖2可以看出,使用坐標(biāo)下降法求解彈性網(wǎng)絡(luò)正則的ML-EKELM算法,迭代次數(shù)均小于20次,在大部分?jǐn)?shù)據(jù)集中都在3次左右迭代達(dá)到收斂,在Arts和Business數(shù)據(jù)集中算法迭代收斂次數(shù)分別是10和16次。同時(shí)可以發(fā)現(xiàn)在13個(gè)數(shù)據(jù)集中只有Business數(shù)據(jù)集迭代收斂時(shí)出現(xiàn)波動,這一波動表明ML-EKELM算法在收斂過程中遇到局部最小值并成功尋找到全局最小值,這也進(jìn)一步說明該算法求解彈性網(wǎng)絡(luò)具有較強(qiáng)的魯棒性,并且效率較高。
表 2 酵母菌基因數(shù)據(jù)集測試結(jié)果Table 2 Test results of Yeast Gene data set
表 3 場景數(shù)據(jù)集測試結(jié)果Table 3 Test results of Scene data set
表 4 雅虎網(wǎng)頁數(shù)據(jù)集海明損失測試結(jié)果Table 4 Test results of hamming loss↓ on Yahoo Web Pages data set
表 5 雅虎網(wǎng)頁數(shù)據(jù)集1-錯誤率測試結(jié)果Table 5 Test results of one-error↓ on Yahoo Web Pages data set
表 6 雅虎網(wǎng)頁數(shù)據(jù)集覆蓋率測試結(jié)果Table 6 Test results of coverage↓ on Yahoo Web Pages data set
表 7 雅虎網(wǎng)頁數(shù)據(jù)集排序損失測試結(jié)果Table 7 Test results of ranking loss↓ on Yahoo Web Pages data set
表 8 雅虎網(wǎng)頁數(shù)據(jù)集平均精度測試結(jié)果Table 8 Test results of average precision ↑ on Yahoo Web Pages data set
表 9 時(shí)間測試結(jié)果Table 9 The results of testing time s
表2中,在Yeast Gene數(shù)據(jù)集上與其他算法對比,ML-EKELM算法在5種評價(jià)指標(biāo)中均為第1,在HL↓指標(biāo)中較第2位算法降低3.5%損失;如表3所示,在Scene數(shù)據(jù)集中,本文ML-EKELM算法同樣在5種評價(jià)指標(biāo)中最為優(yōu)秀,在OE↓指標(biāo)中比第2位算法降低11.8%錯誤率,同時(shí)在AP↑指標(biāo)中比第2位算法提高1.7%準(zhǔn)確率;雅虎網(wǎng)頁數(shù)據(jù)集包含11個(gè)子數(shù)據(jù)集,其中分別對每個(gè)評價(jià)指標(biāo)在各個(gè)子數(shù)據(jù)集中做出比較,如表4所示,在 HL↓指標(biāo)上,Arts、Business、Computers、Education、Entertainment、Health、Reference,Science 和Society等數(shù)據(jù)集中ML-EKELM性能最優(yōu),在Recreation數(shù)據(jù)集上,該算法位列第2,與第1位算法相差僅1.6%,在數(shù)據(jù)集Social上,ML-EKELM與ML-KELM性能并列第1,在HL↓的平均指標(biāo)中可以看出,ML-EKELM算法性能最優(yōu)。在表5中,對比了不同算法在各個(gè)數(shù)據(jù)集上的OE↓指標(biāo)數(shù)值,其中在Social數(shù)據(jù)集上,ML-EKELM較ML-KELM相差僅為0.3%,排位第2,在其他數(shù)據(jù)集中該指標(biāo)均為最優(yōu);11個(gè)子數(shù)據(jù)集在CV↓指標(biāo)上如表6所示,ML-EKELM算法在Computers、Entertainment和Recreation數(shù)據(jù)集中指標(biāo)上最優(yōu),其他數(shù)據(jù)均為第2,與平均指標(biāo)性能最優(yōu)的ML-KNN算法相差10.4%。
在RL↓指標(biāo)上如表7所示,該算法在Arts、Computers、Entertainment、Health和 Recreation等數(shù)據(jù)集上,指標(biāo)性能最優(yōu),在平均性能指標(biāo)位列第2位,與平均指標(biāo)性能最優(yōu)的ML-KNN算法僅相差1.9%;在AP↑指標(biāo)上如表8所示,ML-EKELM算法在各個(gè)數(shù)據(jù)集上的性能指標(biāo)均為最優(yōu)。在雅虎網(wǎng)頁數(shù)據(jù)集中,可以看出在CV↓和RL↓評價(jià)指標(biāo)上,ML-KNN具有一定優(yōu)勢,但HL↓、OE↓和AP↑則排名靠后。而本文提出的算法在HL↓、OE↓和 AP↑上都具有較大優(yōu)勢,在 CV↓和 RL↓上對比其他算法也處于優(yōu)勢地位。
各算法在多個(gè)數(shù)據(jù)集實(shí)驗(yàn)的時(shí)間消耗如表9所示,本文提出的算法ML-EKELM由于采用坐標(biāo)下降法求解彈性網(wǎng)絡(luò),是一種迭代算法,所以在平均時(shí)間消耗上高于直接求解矩陣解析解的3種ELM算法77.5%~91.4%,但該算法平均時(shí)間消耗低于ML-RBF算法24.9%,平均時(shí)間消耗低于ML-KNN算法196.9%。從時(shí)間消耗可以看出ML-EKELM算法對比傳統(tǒng)ELM算法有一定差距,但是對于其他多標(biāo)記學(xué)習(xí)算法具有一定優(yōu)勢,ML-EKELM兼具準(zhǔn)確率高與時(shí)間消耗較低的特點(diǎn)。
為了更清晰地展示各算法在13個(gè)數(shù)據(jù)集上的相對性能,采用顯著性水平為5%的 Nemenyi檢驗(yàn)[29]。當(dāng)兩個(gè)對比算法在各數(shù)據(jù)集中的平均排序差值小于或等于臨界差(critical difference,CD),則認(rèn)為這兩個(gè)算法沒有顯著性差異;反之則2個(gè)算法有顯著性差異。圖3給出了在5種評價(jià)指標(biāo)下各算法的性能,其CD值為2.0913,沒有顯著性差異的算法用實(shí)線相連,在圖3評價(jià)指標(biāo)子圖中各算法坐標(biāo)即平均排序位置,數(shù)值越小則算法性能越高。
圖 3 算法性能比較Fig. 3 The performance comparison of algorithms
對任意某個(gè)算法,都有25個(gè)結(jié)果作為對比(在5個(gè)評價(jià)指標(biāo)上具有5個(gè)對比算法),通過圖3可以得出:
1)對于ML-EKELM算法,在5個(gè)評價(jià)指標(biāo)上的性能均處于首位,除圖3(c)中Coverage指標(biāo)與第2位的ML-KNN相差不大,其余4個(gè)指標(biāo)與第2位具有較大優(yōu)勢。在64%的情況下,統(tǒng)計(jì)上優(yōu)于其它算法,如圖3(a)在Hamming Loss指標(biāo)上,ML-EKELM與RELM、ML-KNN和ELM有顯著性差異,且優(yōu)于這3種算法;如圖3(b)在One-Error指標(biāo)上,ML-EKELM與RELM、ELM和MLKNN有顯著性差異,且優(yōu)于這3 種算法;如圖3(c)在Coverage指標(biāo)上,ML-EKELM與RELM、MLRBF和ELM有顯著性差異,且優(yōu)于這3種算法;如圖3(d)在Ranking Loss指標(biāo)上,ML-EKELM與RELM、ML-RBF和ELM有顯著性差異,且優(yōu)于這3種算法;如圖3(e)在Average Precision指標(biāo)上,ML-EKELM與RELM、ML-RBF、ELM和MLKNN有顯著性差異,且優(yōu)于這4種算法。在36%情況下,與其它算法性能無顯著性差異。
2)對于ML-KELM算法,統(tǒng)計(jì)上優(yōu)于其它對比算法有36%;與其它對比算法無顯著性差異有64%。
3)對于ML-KNN算法,有20%的情況,在統(tǒng)計(jì)上優(yōu)于其它對比算法;有44%的情況,與其他對比算法無顯著性差異;在36%的情況性能弱于其他算法。
通過以上對于圖3的分析,ML-EKELM算法綜合性能最為優(yōu)秀,在統(tǒng)計(jì)上優(yōu)于其他對比算法有64%;第2位的是ML-KELM算法,在36%的情況下,在統(tǒng)計(jì)上優(yōu)于其它對比算法,第3則是MLKNN算法,有20%的情況優(yōu)于其他對比算法。
基于以上的實(shí)驗(yàn)結(jié)果和分析表明提出的基于彈性網(wǎng)絡(luò)核極限學(xué)習(xí)機(jī)的多標(biāo)記學(xué)習(xí)算法(MLEKELM)在綜合性能方面有較好的表現(xiàn),是對于ELM解決多標(biāo)記問題的一種補(bǔ)充。
本文首次提出基于彈性網(wǎng)絡(luò)核極限學(xué)習(xí)機(jī)的多標(biāo)記學(xué)習(xí)算法,通過彈性網(wǎng)絡(luò)正則防止數(shù)據(jù)訓(xùn)練時(shí)過擬合情況發(fā)生,并可對核映射后特征進(jìn)行稀疏化表示,即可對特征進(jìn)行選擇。對比傳統(tǒng)使用嶺回歸正則化ELM算法,彈性網(wǎng)絡(luò)正則式存在不可導(dǎo)點(diǎn),所以采用非梯度優(yōu)化的坐標(biāo)下降法,而無需對目標(biāo)函數(shù)求導(dǎo)。該算法對于多標(biāo)記學(xué)習(xí)任務(wù),在運(yùn)行速度和分類精度上都具有一定優(yōu)勢,對比試驗(yàn)進(jìn)一步說明算法的可靠性和穩(wěn)定性。
但目前本文只將彈性網(wǎng)絡(luò)和ELM結(jié)合運(yùn)用到多標(biāo)記學(xué)習(xí)中,對于彈性網(wǎng)絡(luò)如何稀疏化特征空間以及進(jìn)行特征選擇并未深入研究和實(shí)驗(yàn),這將是今后研究的一個(gè)重要方向和目標(biāo)。