摘要:針對現(xiàn)有嵌入式方法忽略實(shí)例相關(guān)性的潛在表示對偽標(biāo)記學(xué)習(xí)的影響以及固定的圖矩陣導(dǎo)致計算誤差隨迭代的加深而不斷增大的問題,提出一種具有潛在表示和動態(tài)圖約束的多標(biāo)簽特征選擇方法.該方法首先利用實(shí)例相關(guān)性的潛在表示構(gòu)造偽標(biāo)簽矩陣,并將其與線性映射和最小化偽標(biāo)簽與真實(shí)標(biāo)簽之間的Friedman范數(shù)距離相結(jié)合,從而保證偽標(biāo)簽與真實(shí)標(biāo)簽之間具有較高的相似性,其次,利用偽標(biāo)簽的低維流形結(jié)構(gòu)構(gòu)建動態(tài)圖,以緩解固定圖矩陣導(dǎo)致的隨迭代深度增加計算誤差的問題.在12個數(shù)據(jù)集上與7種先進(jìn)方法的對比實(shí)驗(yàn)結(jié)果表明,該方法的整體分類性能優(yōu)于現(xiàn)有先進(jìn)方法,能較好地處理多標(biāo)記特征選擇問題。
關(guān)鍵詞:多標(biāo)簽學(xué)習(xí);特征選擇;潛在表示;動態(tài)圖;流形學(xué)習(xí)
中圖分類號:TP181文獻(xiàn)標(biāo)志碼:A文章編號:1671-5489(2024)05-1188-15
Multi-label Feature Selection with Latent Representationand Dynamic Graph Constraints
LI Kun',LIUJing',QI He'
(1.ZX-YZ School of Network Science,Haikou University of Economics,Haikou 570203.China;2.Zhijiang Laboratory,Hangzhou 311000,China)
Abstract:Aiming at the problems that ignored by the existing embedded methods:the influence of the latent representation of instance correlation on pseudo-label learning,and the calculation error was caused by the fixed graph matrix,which increased with the deepening of iterations.We proposed a multi-label feature selection method with latent representation and dynamic graph constraints.Firstly,the proposed method used the latent representation of instance correlation to construct the pseudo-label matrix,and combined it with linear mapping and minimizing the Friedman norm distance between the pseudo-label and the ground-truth label to ensure a high similarity between pseudo-labels and the ground-truth labels.Secondly,the dynamic graph was constructed by using the low-dimensional manifold structure of pseudo-labels to alleviate the problem of increasing calculation error with iteration depth caused by a fixed graph matrix.The comparative experimental results with seven advance methods on 12 datasets show that the overall classification performance of the proposed method is superior to the existing advanced methods,and it can better deal with multi-label feature selection problems.
Keywords:multi-labellearning;featureselection;latentrepresentation;dynamicgraph;manifold learning
多標(biāo)簽分類在圖像分類[1]、文本分類[34]和生物信息學(xué)[5]等領(lǐng)域應(yīng)用廣泛,與傳統(tǒng)的單標(biāo)簽分類任務(wù)不同,多標(biāo)簽分類任務(wù)需考慮標(biāo)簽之間的相關(guān)性和復(fù)雜性,在多標(biāo)簽分類中,特征選擇可以幫助提高分類器的準(zhǔn)確性和效率,因此,多標(biāo)簽特征選擇作為多標(biāo)簽分類問題中的一個重要預(yù)處理步驟,已引起研究者們的廣泛關(guān)注,隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,特征選擇方法也在不斷改進(jìn),為多標(biāo)簽分類任務(wù)的應(yīng)用提供了更完善和有效的解決方案。目前,已有多種方法解決多標(biāo)簽特征選擇問題,這些方法主要分為三類:過濾式[8-10]、封裝式[11-12]和嵌入式[13-14]。過濾式是一種基于特征之間相關(guān)性進(jìn)行特征選擇的方法,常用的計算相關(guān)性方法包括互信息[15-16]、卡方檢驗(yàn)和Pearson相關(guān)系數(shù)[7]等,封裝式是一種基于模型性能進(jìn)行特征選擇的方法,它將特征選擇視為一個搜索問題,其中模型的性能用于評估函數(shù).嵌入式是將特征選擇嵌入到分類模型的訓(xùn)練中,使分類模型可以同時學(xué)習(xí)特征選擇和分類任務(wù).
本文主要研究嵌入式多標(biāo)簽特征選擇方法的一個重要分支.該分支基于線性映射,即假設(shè)特征空間和真實(shí)標(biāo)簽空間(或偽標(biāo)簽空間)之間是線性相關(guān)的,這類方法常利用特征和標(biāo)簽間線性映射的系數(shù)矩陣表示特征權(quán)重,并采用L1范數(shù)、L21范數(shù)等稀疏正則項(xiàng)約束模型的稀疏性,此外,由于流形學(xué)習(xí)[18]的快速發(fā)展,其在協(xié)同聚類算法[19]、特征選擇算法[20-21]、維數(shù)簡約[22-24]等多領(lǐng)域應(yīng)用廣泛.在特征選擇算法中,流形學(xué)習(xí)可為特征選擇提供合適的圖矩陣,并指導(dǎo)特征權(quán)重矩陣的學(xué)習(xí),以確保映射空間與特征空間拓?fù)浣Y(jié)構(gòu)的一致性.同時,由于流形學(xué)習(xí)的引入,利用Laplace變換探索特征流形結(jié)構(gòu)或標(biāo)簽流形結(jié)構(gòu)進(jìn)行特征選擇的方法得到了廣泛關(guān)注[25-26].例如,Hu等[27]使用特征流形和低維標(biāo)簽流形約束模型,提出了DRMFS(robust multi-label feature selection with dual-graph regularization),在DRMFS中雙圖正則化約束的是特征權(quán)重矩陣而不是偽標(biāo)簽矩陣,從而保證了特征權(quán)重矩陣的行和列分別擬合特征流形結(jié)構(gòu)和低維標(biāo)簽流形結(jié)構(gòu),Huang等[28]為進(jìn)一步挖掘偽標(biāo)簽與真實(shí)標(biāo)簽之間的相關(guān)性,在特征選擇模型中引入了Hilbert-Schmidt獨(dú)立性準(zhǔn)則[2],并結(jié)合特征流形和L2.1范數(shù)稀疏約束,提出了MRDM(multi-label feature selection via manifold regularization and dependence maximization).Li等[30]認(rèn)為現(xiàn)有方法中的稀疏約束無法保證特征間的可區(qū)分性,從而設(shè)計了一種魯棒靈活稀疏正則化范數(shù),并結(jié)合低維標(biāo)簽流形,提出了RFSFS(multi-label featureselection via robust flexible sparse regularization).
但上述方法均忽略了潛在表示[31]可以深度挖掘模型中的潛在監(jiān)督信息.因此,Gao等[32]在特征選擇模型中引入了潛在表示,并基于此構(gòu)建了原始特征空間和原始標(biāo)簽空間的潛在共享空間作為模型的監(jiān)督信息,此外,還利用特征流形保證潛在共享空間和原始特征空間流形結(jié)構(gòu)的一致性,再結(jié)合范數(shù)作為稀疏約束,提出了SSFS(multilabel feature selection with constrained latent structure shared term).雖然SSFS通過引入潛在表示挖掘模型中的潛在監(jiān)督信息,但忽略了更深層的潛在信息,即實(shí)例相關(guān)性的潛在表示對偽標(biāo)簽的影響.上述方法均忽略了影響特征選擇性能的一個因素,即在流行學(xué)習(xí)中,固定的圖矩陣可能會隨迭代的加深不斷放大模型的計算誤差.為解決該問題,研究者們相繼提出了通過構(gòu)建動態(tài)圖代替固定圖從而達(dá)到緩解模型誤差累加的問題.如Li等[33]通過同時考慮潛在表示和動態(tài)圖約束,提出了SLMDS(robust sparse and low-redundancy multi-label feature selection with dynamic local and global structure preservation).雖然SSFS[32]和SLMDS[3]都考慮了潛在表示在特征選擇中的應(yīng)用,但這些方法都僅考慮了特征或標(biāo)簽的潛在表示,而忽略了實(shí)例相關(guān)性的潛在表示對偽標(biāo)簽學(xué)習(xí)的影響.
此外,嵌入式多標(biāo)簽特征選擇方法的另一個分支是基于信息論的方法,這類方法常利用互信息量化特征重要性,從而實(shí)現(xiàn)特征選擇.在這類方法中,較經(jīng)典的模型有PMU(feature selection formulti-label classification using multivariate mutual information)[34],MDMR(multi-label feature selection based on max-dependency and min-redundancy)[as],F(xiàn)IMF(fast multi-label feature selection based on information-theoretic feature ranking)[36]和SCLS(multi-label feature selection based on scalable criterion for large label set)[37]等,PMU是利用多元互信息進(jìn)行多標(biāo)簽分類的特征選擇方法,由于該方法只考慮了特征與標(biāo)簽之間的三維交互,對高階標(biāo)簽數(shù)據(jù)可能會丟失重要信息,并且高階多元互信息的計算代價非常高.FIMF是一種快速的特征選擇方法,該模型根據(jù)特征的重要性對特征進(jìn)行排序,以達(dá)到特征選擇的目的,MDMR通過互信息量化特征相關(guān)性和特征冗余性,并約束特征相關(guān)性最大化和特征冗余性最小化.SCLS是一種基于大標(biāo)簽集可擴(kuò)展標(biāo)準(zhǔn)的特征選擇方法,但SCLS中的特性和標(biāo)簽的組合呈指數(shù)級增長,使特性選擇變得不切實(shí)際.
1模型構(gòu)建
特征選的目標(biāo)是利用給定的訓(xùn)數(shù)據(jù)集D={X.Y構(gòu)建函數(shù):(X.Y)→(X.Y)并通過函數(shù)去除不相關(guān)和冗余特征,選擇出最具代表性的特征子集X*,從而提高分類器的性能,其中X∈R為實(shí)例集,Y∈R\"Xm為真實(shí)標(biāo)簽集,n,d和m分別表示實(shí)例數(shù)、特征數(shù)和標(biāo)簽數(shù).
由于線性回歸具有較強(qiáng)的可解釋性,且其損失函數(shù)便于求解,因此本文用線性回歸作為特征選擇模型的基本框架:
其中1?!蔙“為元素全為1的n維行向量;b∈R”為m維行向量,表示線性映射的偏置向量;W∈Rm為權(quán)重矩陣,可以量化特征重要性;R(W)為關(guān)于W的懲罰函數(shù),用于約束W的學(xué)習(xí);y為關(guān)于R(W)的懲罰參數(shù).
考慮到真實(shí)標(biāo)簽的二值性與線性映射的平滑性不符,因此本文引入偽標(biāo)簽作為真實(shí)標(biāo)簽的過渡變量擬合線性映射。此外,為保證偽標(biāo)簽包含真實(shí)標(biāo)簽的重要信息,還需要約束偽標(biāo)簽和真實(shí)標(biāo)簽之間的相似性,從而式(1)可重新表述為
其中:V∈R\"Xm為偽標(biāo)簽矩陣;R(V)為關(guān)于V的懲罰函數(shù),用于約束V的學(xué)習(xí);β為關(guān)于R(V)的懲罰參數(shù).
近年來,由于潛在表示學(xué)習(xí)有利于許多數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)任務(wù),因此已引起研究者們的廣泛關(guān)注.特別是在多標(biāo)簽特征選擇任務(wù)中,實(shí)例通常具有高維的特征和大規(guī)模的標(biāo)簽.不同的實(shí)例具有不同的標(biāo)簽信息,不同實(shí)例之間的潛在表示相互作用,形成連接信息,可用作偽標(biāo)簽學(xué)習(xí)的監(jiān)督信息。例如,SSFS[32]和SLMDS[34]都傾向于使用實(shí)例和真實(shí)標(biāo)簽的潛在表示指導(dǎo)偽標(biāo)簽的學(xué)習(xí),但忽略了實(shí)例相關(guān)性的潛在表征對偽標(biāo)簽的影響.
如果兩個實(shí)例X.和X.之間較相似,則認(rèn)為它們之間的潛在表示也相似,從而存在一條連接路徑,反之則沒有連接路徑.一般地,連接信息的潛在表示可由一個對稱的非負(fù)矩陣分解模型形成,再結(jié)合特征選擇模型,可使用該模型將實(shí)例相似矩陣Sx分解為低維潛在空間中的非負(fù)偽標(biāo)簽矩陣V和VT的乘積,用公式表示為
其中Sx為實(shí)例相似矩陣,其元素表示對應(yīng)兩實(shí)例間的相似度.
令R(V)=‖Sx-VVT‖,則可將式(2)更新為
此外,W作為特征權(quán)值矩陣,在模型中起至關(guān)重要的作用,特別是在后續(xù)的特征選擇過程中,W的優(yōu)劣會直接影響模型的性能.由于特征流形可以保證W具有類似于原始特征空間的流形結(jié)構(gòu),因此近年來越來越多的模型使用特征流形約束W的學(xué)習(xí),但這些使用特征流形的方法卻忽略了一個關(guān)鍵問題,即使用固定的Laplace圖矩陣構(gòu)造特征流形模型,而忽略了圖矩陣在特征選擇中的動態(tài)變化.并且不同方式學(xué)習(xí)到的圖矩陣對后續(xù)的更新策略有不同的影響,從而導(dǎo)致模型的局限性.
為解決該問題,本文利用偽標(biāo)簽的低維流形結(jié)構(gòu)構(gòu)造一個動態(tài)Laplace圖矩陣,并利用該動態(tài)圖約束特征權(quán)值矩陣的學(xué)習(xí).根據(jù)問題假設(shè):若偽標(biāo)簽中V.,和V.,較相似,則權(quán)重矩陣中w.,和W.,也應(yīng)該較相似,從而有
其中:tr(·)表示矩陣的跡;W.;和W.;分別表示W(wǎng)的第i列和第j列向量;LrER“×”表示關(guān)于S,T的Laplace矩陣,L=P-S,T,P,ER“X”為對角矩陣,(P,T),=Z(ST),,S,rER“X”為偽標(biāo)簽矩陣V的低維相似矩陣,(Svr);為第i行、第j列元素,表示V.;和V.,的相似度.本文使用高斯核函數(shù)[38]計算SyT:
其中:oER表示高斯核函數(shù)的參數(shù);V.,和V.,分別表示v的第;列和第;列向量;Nk(.)表示矩陣的K近鄰,K是近鄰參數(shù).
令R(W)=tr(WL,rWT),則可將式(4)更新為
為保證V的非負(fù)性,需要約束W也是非負(fù)的,從而構(gòu)建LRLDG模型的最終目標(biāo)函數(shù)為
其中α為正則項(xiàng)參數(shù).
2優(yōu)化求解
本文設(shè)計一個簡單而有效的優(yōu)化方案求解目標(biāo)函數(shù)(8),考慮到目標(biāo)函數(shù)(8)中的兩個變量有非負(fù)約束,因此使用非負(fù)矩陣分解(nonnegative matrix factorization,NMF)[39]和交替迭代的方法求解目標(biāo)函數(shù)(8).
首先,固定W和V求解b.當(dāng)W和V固定時,式(8)是關(guān)于b的凸函數(shù),所以求出式(8)關(guān)于b的導(dǎo)函數(shù),并令導(dǎo)函數(shù)為0,則可得b的更新公式為
其次,固定b求解W和V.由于對任意矩陣M.,存在1 M11;=tr(MMT),所以可將式(9)代入目標(biāo)函數(shù)(8),并使用矩陣跡的形式重新表述目標(biāo)函數(shù)(8):
其中H=1——1.17是中心矩陣,IER\"\"是》維單位矩陣.
考慮到變量W和V都具有非負(fù)約束,因此在求解過程中,需要將變量w和v的非負(fù)約束整合到目標(biāo)函數(shù)中,然后才能繼續(xù)進(jìn)行NMF過程.構(gòu)造以下Lagrange公式:
其中L(W,V)表示關(guān)于W和V的Lagrange函數(shù),ФE R“X”和ΨERdX\"均為Lagrange乘子.
下面進(jìn)行NMF過程.首先,分別計算式(11)關(guān)于W和V的導(dǎo)函數(shù):
其中
Diag(·)和diag(·)分別表示向量對角矩陣化和矩陣對角向量化,E表示元素全為1的m維列向量.其次,通過KKT(Karush-Kuhn-Tucker)定理[0]的互補(bǔ)松弛條件可得:V=0,W=0.從而可得
其中。表示兩矩陣的Hadamard積.
最后,根據(jù)式(14)和NMF的計算規(guī)則可得W和V的更新公式:
其中
至此已完成了對目標(biāo)函數(shù)(8)的求解.此外,本文還設(shè)計了如下一種新的具有收斂性的交替迭代算法對模型進(jìn)行優(yōu)化求解.
算法1LRLDG算法.
輸入:訓(xùn)練數(shù)據(jù)集D={X,Y},特征選擇數(shù)量k,超參數(shù)a,β和y;
輸出:特征選擇結(jié)果F;
1)初始化中心矩陣H=1-2)隨機(jī)初始化W和V;
3)初始化迭代次數(shù)t=0;
重復(fù):
根據(jù)式(6)計算PT和ST;
更新U:U=ー-s·(diag(W)+dagw)-2W)
更新W和V:
更新b:b=(y-x
更新t:t=t+1;
直到收斂為止;
4)計算并排序‖W1.‖2,找出前k個最大值的索引賦給F5.
3算法收斂性證明
下面給出LRLDG算法的收斂性證明.
定義1[41]如果Z(W,W)和F(W)滿足以下條件:
則Z(W,W)是F(W)的一個輔助函數(shù),其中W是W在上一步迭代中的更新值.
引理1如果定理1成立,則F(W)基于以下形式單調(diào)遞減:
其中argminZ(W,W)表示第t次迭代的最優(yōu)解.
命題1[42]對任何矩陣A∈Rmxm,B∈Rdxd,W,W∈Rdxm.如果A∈Rmxm,B∈Rdxd都是對稱矩陣,則以下不等式成立:
根據(jù)命題1,易得如下引理.
引理2如果命題1中的A∈Rmxm是一個m維單位矩陣,則以下不等式成立:
考慮到LRLDG算法關(guān)于W和V的收斂性證明類似,所以本文僅給出關(guān)于W的收斂性證明.結(jié)合式(8),可將定義1中的F(W)改寫為
其中2=XTHX是對稱矩陣.根據(jù)式(21),可給出輔助函數(shù)Z(W,W)的具體形式為
由引理1可知,若Z(W,W)是F(W)的一個輔助函數(shù),則LRLDG算法關(guān)于W是收斂的.因此,只需證明Z(W,W)是F(W)的一個輔助函數(shù)即可.
首先,根據(jù)矩陣跡的計算規(guī)則可得
其次,根據(jù)引理2可得
結(jié)合式(23)和式(24),可知Z(W,W)≥F(W)成立.此外,當(dāng)W=W時,根據(jù)矩陣跡的計算規(guī)則,式(24)可重寫為
結(jié)合式(23)和式(25),可知當(dāng)W=W時,Z(W,W)=F(W)成立.
由定理1可知Z(w,W)是F(W)的一個輔助函數(shù),再由引理1可知,LRLDO算法關(guān)于W是收的.此外,滿足2(W.W)=0的W*是W的全局最優(yōu)解.綜上所述,LRLDG算法的收斂性得證.
4實(shí)驗(yàn)
下面將LRLDG算法與7個現(xiàn)有的先進(jìn)算法PMU[34],SCLS[37],F(xiàn)IMF[36],MDMR[35],SSFS[32],RFSFS30]和SLMDS33]進(jìn)行對比實(shí)驗(yàn),并利用統(tǒng)計檢驗(yàn)的方式對比所有特征選擇方法的整體性能.此外,為深度剖析本文方法的性能,還設(shè)計了針對LRLDG算法的一系列實(shí)驗(yàn),包括參數(shù)敏感性實(shí)驗(yàn)和收斂性實(shí)驗(yàn)等.
4.1數(shù)據(jù)集
對比實(shí)驗(yàn)中,采用從木蘭圖書館[3]獲取的12個來自5個不同領(lǐng)域的經(jīng)典多標(biāo)簽數(shù)據(jù)集,其中包括音樂數(shù)據(jù)集Emotion,生物數(shù)據(jù)集Yeast和Genbase,聲音數(shù)據(jù)集Birds和CAL500,圖像數(shù)據(jù)集Scene,Image和Flags,文本數(shù)據(jù)集Enron,Computer,Recreation和Social.表1列出了所有數(shù)據(jù)集的具體參數(shù).
4.2實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)選用ML-KNN]作為多標(biāo)簽分類算法的代表對各特征選擇算法的性能進(jìn)行評價,并將ML-KNN的參數(shù)設(shè)置為S=1,K=10.選用5個多標(biāo)簽評價指標(biāo)AP(average precision),MA(macro-F1),MI(micro-F1),HL(Hamming loss)和RL(ranking loss)量化并對比各特征選擇算法的性能.
為使數(shù)據(jù)集適用于FIMF和SCLS等算法,采用等寬區(qū)間對數(shù)據(jù)進(jìn)行離散化處理[6].對于SSFS,RFSFS和LRLDG算法,將其近鄰參數(shù)設(shè)為5.此外,由于SSFS,RFSFS,SLMDS和LRLDG算法存在隨機(jī)初始化變量的問題,為保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,因此本文選取各算法10次實(shí)驗(yàn)結(jié)果的均值作為最終實(shí)驗(yàn)結(jié)果.最后,采用網(wǎng)格搜索策略對各算法的正則化參數(shù)進(jìn)行調(diào)整,并將調(diào)整范圍設(shè)為[0.001,0.01,0.1,1,10,100,1000],將在各數(shù)據(jù)集上選擇的特征數(shù)量設(shè)為2%~20%,步長為2%,其中由于數(shù)據(jù)集Flags的原始特征數(shù)為19,所以在數(shù)據(jù)集Flags上選擇的特征數(shù)量設(shè)為2~18.
為保證實(shí)驗(yàn)環(huán)境的公平性,所有實(shí)驗(yàn)均在Windowsl1系統(tǒng),ADM銳龍495536006核處理器3.59GHz,內(nèi)存16.00GB環(huán)境中完成,并使用MATLABR2016a實(shí)現(xiàn).
4.3實(shí)驗(yàn)結(jié)果分析
下面給出并分析所有特征選擇方法在各評價指標(biāo)上的對比實(shí)驗(yàn)結(jié)果.
表2~表6列出了各特征選擇方法在其最優(yōu)參數(shù)下的最優(yōu)實(shí)驗(yàn)結(jié)果,其中SSFS,RFSFS,SLMDS和LRLDG算法給出的是10次重復(fù)實(shí)驗(yàn)結(jié)果的均值.為方便觀察,在表2~表6中,“()”中給出各實(shí)驗(yàn)結(jié)果的簡單排序結(jié)果,并在表中最后一行給出各特征選擇方法在同一指標(biāo)下所有實(shí)驗(yàn)結(jié)果的均值,用于觀察各特征選擇方法的整體性能.由表2~表6可見,LRLDG算法在所有指標(biāo)下的整體性能均為最優(yōu),表明與對比方法相比,LRLDG算法在處理多標(biāo)簽特征選擇問題上有一定的優(yōu)越性.
表2和表3分別列出了所有方法在HL和RL指標(biāo)上的實(shí)驗(yàn)結(jié)果,其值越小表示算法的性能越好.由表2可見,LRLDG算法在數(shù)據(jù)集Image上的性能相對于次優(yōu)算法SLMDS的性能提升了3.93%,在數(shù)據(jù)集Recreation上的性能相對于次優(yōu)算法SSFS的性能提升了4.03%.由表3可見,相對于性能次優(yōu)的MDMR算法,LRLDG算法在數(shù)據(jù)集Flags上的性能提升了4.3%.
表4~表6分別給出了各算法在AP,MA和MI指標(biāo)上的最優(yōu)結(jié)果,其值越大表示算法的性能越好.在表4~表6的36組對比實(shí)驗(yàn)中,LRLDG算法獲得了25個最優(yōu)和5個次優(yōu)的結(jié)果.表明LRLDG算法相對于其他對比算法有一定的優(yōu)越性.在數(shù)據(jù)集Recreation上,LRLDG算法在AP,MA和MI指標(biāo)上的性能相對次優(yōu)算法SSFS的性能分別提升了6.13%,26.01%和30.45%.由表5可見,LRLDG算法在數(shù)據(jù)集Computer上的性能比次優(yōu)算法RFSFS的性能提升了11.74%.
各特征選擇算法在不同數(shù)據(jù)集上取不同特征數(shù)量時的性能變化情況如圖1~圖5所示,其中橫軸表示選擇的特征數(shù)量,縱軸表示各算法在相應(yīng)指標(biāo)上的實(shí)驗(yàn)結(jié)果.由圖1~圖5可見,大多數(shù)情況下,LRLDG算法的性能曲線始終位于最優(yōu)或次優(yōu)的位置,進(jìn)一步證實(shí)了LRLDG算法的整體性能優(yōu)于其他算法.由圖1和圖2可見,LRLDG算法的性能曲線均在其他算法性能曲線的下方,說明在各實(shí)驗(yàn)數(shù)據(jù)集上,LRLDG算法在HL和RL指標(biāo)上的性能均優(yōu)于其他算法.尤其是在數(shù)據(jù)集Yeast,Computer,Recreation,Image和Flags上,LRLDG算法的性能優(yōu)勢更明顯.由圖3~圖5可見,多數(shù)情況下,LRLDG算法在AP,MA和MI指標(biāo)上的性能曲線先明顯上升再趨于穩(wěn)定.尤其是在圖5(G)中,由于數(shù)據(jù)集Flags的特征僅有19個,LRLDG算法在AP指標(biāo)的性能先持續(xù)上升,當(dāng)選擇的特征數(shù)為15時LRLDG算法的性能達(dá)到最優(yōu),然后再快速下降.表明LRLDG算法在處理特多標(biāo)簽征選擇問題上有效且有意義.雖然LRLDG算法在數(shù)據(jù)集Birds,CAL500和Genbase上的性能略不如SLMDS和RFSFS等算法,但在其他數(shù)據(jù)集上的性能和整體性能上都表明了LRLGD算法的有效性和優(yōu)越性.
4.4參數(shù)敏感性分析
下面通過參數(shù)敏感性實(shí)驗(yàn)觀察并分析LRLDG算法中各參數(shù)對其性能的影響,實(shí)驗(yàn)選用AP指標(biāo),并使用數(shù)據(jù)集Scene.實(shí)驗(yàn)中,將LRLDG算法中的一個正則化參數(shù)在[0.001,0.01,0.1,1,10,100,1000]內(nèi)調(diào)整,并固定另外兩個正則化參數(shù)為1,以便于觀察LRLDG算法的性能隨參數(shù)的變化情況.此外,本文還將實(shí)驗(yàn)數(shù)據(jù)集Scene的特征選擇范圍調(diào)整為[14,28,42,56,70,84,98],以便于觀察選取不同特征數(shù)量時各正則化參數(shù)對LRLDG算法的性能變化情況.實(shí)驗(yàn)結(jié)果如圖6所示.
由圖6可見,對于所有參數(shù),LRLDG算法在AP指標(biāo)上的性能會隨著特征數(shù)量的增加而上升,從而進(jìn)一步證實(shí)了LRLDG算法對解決特征選擇問題有效.在圖6(C)中,雖然當(dāng)參數(shù)y=102時,LRLDG算法的性能波動略大,但由圖6(A),(B)可見,隨著參數(shù)a和β的增大,LRLDG算法的性能也逐漸提升,且趨于穩(wěn)定.
4.5收斂性與時間復(fù)雜度分析
為進(jìn)一步證實(shí)LRLDG算法的收斂性,下面在數(shù)據(jù)集Birds,Emotion,F(xiàn)lags和Image上設(shè)計針對LRLDG算法的收斂性實(shí)驗(yàn),設(shè)LRLDG算法中各正則項(xiàng)參數(shù)的值為1,并將迭代次數(shù)設(shè)為50,觀察LRLDG算法的目標(biāo)函數(shù)值變化情況,實(shí)驗(yàn)結(jié)果如圖7所示,其中橫軸表示迭代次數(shù),縱軸表示目標(biāo)函數(shù)值.由圖7可見,LRLDG算法均能在10次迭代內(nèi)收斂.
一般情況下在多標(biāo)簽數(shù)據(jù)集中n≥m,d≥m.LRLDG算法主要更新W,V和U.其中在每次迭代中更新W的時間復(fù)雜度為O(d2n),更新V的時間復(fù)雜度為O(dn2),更新U的時間復(fù)雜度為O(m2),所以在t次迭代中LRLDG算法的總時間復(fù)雜度為O(tdn2+td2n+tm2).LRLDG算法可以在迭代次數(shù)t較小時達(dá)到收斂,所以LRLDG算法的總時間復(fù)雜度為O(dn2+d2n+m2).
綜上所述,針對現(xiàn)有嵌入式方法忽略實(shí)例相關(guān)性的潛在表示對偽標(biāo)記學(xué)習(xí)的影響以及固定的圖矩陣導(dǎo)致計算誤差隨迭代的加深而不斷增大的問題,本文設(shè)計了一種新的具有潛在表示學(xué)習(xí)和動態(tài)圖約束的多標(biāo)簽特征選擇方法LRLDG.該方法首先利用實(shí)例相關(guān)性的潛在表示學(xué)習(xí)指導(dǎo)偽標(biāo)簽的學(xué)習(xí),并利用偽標(biāo)簽的低維流形結(jié)構(gòu)構(gòu)造動態(tài)圖矩陣,以緩解由固定的圖矩陣導(dǎo)致的計算誤差隨迭代次數(shù)的增加不斷增大的問題.其次,LRLDG算法通過最小化偽標(biāo)簽和真實(shí)標(biāo)簽之間的Friedman范數(shù)距離,并結(jié)合標(biāo)簽流形學(xué)習(xí)保證偽標(biāo)簽和真實(shí)標(biāo)簽的高度相關(guān)性.最后,在12個基準(zhǔn)多標(biāo)簽數(shù)據(jù)集上將LRLDG算法與7種先進(jìn)的現(xiàn)有方法進(jìn)行了對比實(shí)驗(yàn),在7個常用評價指標(biāo)上的實(shí)驗(yàn)結(jié)果均驗(yàn)證了LRLDG算法良好的特征選擇性能.
參考文獻(xiàn)
[1]WU J,SHENG V S,ZHANG J,etal.Multi-label Active Learning Algorithms for Image Classification:Overview and Future Promise[J].ACM Computing Surveys(CSUR),2020,53(2):1-35.
[2]YU W J,CHEN Z D,LUO X,etal.Delta:A Deep Dual-Stream Network for Multi-label Image Classification[J].Pattern Recognition,2019,91:322-331.
[3]WANG B Y,HU X G,LI P P,etal.Cognitive Structure Learning Model for Hierarchical Multi-label Text Classification[J].Knowledge-Based Systems,2021,218:106876-1-106876-13.
[4] XIONG J,YU L,NIU X,etal.Xrr:Extreme Multi-label Text Classification with Candidate Retrieving and Deep1201 Ranking[J].Information Sciences,2023,622:115-132.
[5]GUO Y M.CHUNG F L,LI G Z,etal.Multi-label Bioinformatics Data Classification with Ensemble Embedded Feature Selection[J].IEEE Access,2019,7:103863-103875.
[6]KASHEF S.NEZAMABADI-POUR H.NIKPOUR B.Multilabel Feature Selection:A Comprehensive Review and Guiding Experiments[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2018,8(2):e1240-1-e1240-29.
[7]YIN H,YANG S Q,SONG X Y,etal.Deep Fusion of Multimodal Features for Social Media Retweet Time Prediction[J].World Wide Web,2021,24:1027-1044.
[8]DING CC,ZHAO M,LIN J,etal.Multi-objective Iterative Optimization Algorithm Based Optimal WaveletFilter Selection for Multi-fault Diagnosis of Rolling Element Bearings[J].ISA transactions,2019,88:199-215.
[9]LABANI M,MORADI P.AHMADIZAR F,etal.A Novel Multivariate Filter Method for Feature Selection in Text Classification Problems[J].Engineering Applications of Artificial Intelligence,2018,70:25-37.
[10]YAO C,LIU Y F,JIANG B,etal.LleScore:A New Filter-Based Unsupervised Feature Selection Method Based on Nonlinear Manifold Em bedding and Its Application to Image Recognition[J].IEEE Transactions on Image Processing,2017,26(11):5257-5269.
[11]GONZáLEZ J,ORTEGA J,DAMAS M,etal.A New Multi-objective Wrapper Method for Feature Selection-Accuracy and Stability Analysis for BCI[J].Neurocomputing,2019,333:407-418.
[12]JADHA V S,HE H M,JENKINS K.Information Gain Directed Genetic Algorithm Wrapper Feature Selection for Credit Rating[J].Applied Soft Computing,2018,69:541-553.
[13]MALDONADO S,LOPEZ J.Dealing with High-Dimensional Class-Imbalanced Datasets:Embedded Feature Selection for SVM Classification[J].Applied Soft Computing,2018,67:94-105.
[14]KONG Y C,YU T W.A Graph-Embedded Deep Feedforward Network for Disease Outcome Classification and Feature Selection Using Gene Expression Data[J].Bioinformatics,2018,34(21):3727-3737.
[15]DONG H B,SUN J,LI T,etal.A Multi-objective Algorithm for Multi-label Filter Feature Selection Problem[J].Applied Intelligence,2020,50:3748-3774.
[16]HU L,GAO L B,LI Y H,etal.Feature-Specific Mutual Information Variation for Multi-label Feature Selection[J].Information Sciences,2022,593:449-471.
[17]馬盈倉,張要,張寧,等。基于流形學(xué)習(xí)與L21范數(shù)的無監(jiān)督多標(biāo)簽特征選擇[J].紡織高?;A(chǔ)科學(xué)學(xué)報,2021,34(3):102-111.(MA Y C,ZHANG Y,ZHANG N,et al Unsupervised Multi-label Feature Selection Based on Manifold Learning and L2.1 Norm[J].Basic Sciences Journal of Textile Universities,2021,34(3):102-111.)
[18]CHEN J,ZHONG M,LI J X,etal.Effective Deep Attributed Network Representation Learning with Topology Adapted Smoothing[J].IEEE Transactions on Cybernetics,2021,52(7):5935-5946.
[19]HU X C,SHEN Y H,PEDRYCZ W,etal.Identification of Fuzzy Rule-Based Models with Collaborative Fuzzy Clustering[J].IEEE Transactions on Cybernetics,2021,52(7):6406-6419.
[20]張要,馬盈倉,楊小飛,等.結(jié)合流形結(jié)構(gòu)與柔性嵌入的多標(biāo)簽特征選擇[J].山東大學(xué)學(xué)報(理學(xué)版),2021,56(7):91-102.(ZHANG Y,MA Y C,YANG X F,etal.Multi-label Feature Selection Based on ManifoldStructure and Flexible Embedding[J].Journal of Shandong University(Natural Science),2021,56(7):91-102.)
[21]張要,馬盈倉,朱恒東,等.結(jié)合流形學(xué)習(xí)與邏輯回歸的多標(biāo)簽特征選擇[J].計算機(jī)工程,2022,48(3):90-99.(ZHANG Y,MA Y C,ZHU H D,etal.Multi-label Feature Selection Combining Manifold Learning and Logistic Regression[J].Computer Engineering,2022,48(3):90-99.)
[22]LIU K Y,YANG X B,F(xiàn)UJITA H,etal.An Efficient Selector for Multi-granularity Attribute Reduction[J].Information Sciences,2019,505:457-472.
[23]CHEN Y.LIU K Y,SONG J J,etal.Attribute Group for Attribute Reduction[J].Information Sciences,2020,535:64-80.
[24]JING Y G,LI T R,F(xiàn)UJITA H,etal.An Incremental Attribute Reduction Approach Based on Knowledge Granularity with a Multi-granulation View[J].Information Sciences,2017,411:23-38.
[25]KAWANOS.Semi-supervised Logistic Discrimination via Labeled Data and Unlabeled Data from Different SamplingDistributions[J].Statistical Analysis and Data Mining:The ASA Data Science Journal,2013.6:472-481.
[26]KAWANO S,MISUMI T,KONISHI S.Semi-supervised Logistic Discrimination via Graph-Based Regularization[J].Neural Processing Letters,2012,36:203-216.
[27]HU J C,LI Y H.GAO W F,etal.Robust Multi-label Feature Selection with Dual-Graph Regularization[J].Knowledge-Based Systems,2020,203:106-126.
[28]HUANG R,WU Z J.Multi-label Feature Selection via Manifold Regularization and Dependence Maximization[J].Pattern Recognition,2021,120:108149-1-108149-12.
[29]GRETTON A,BOUSQUET O,SMOLA A,etal.Measuring Statistical Dependence with Hilbert-Schmidt Norms[C]//Proceedings of the International Conference on Algorithmic Learning Theory.Berlin:Springer,2005:63-77.
[30]LI Y H,HU L,GAO W F.Multi-label Feature Selection via Robust Flexible Sparse Regularization[J].Pattern Recognition,2023,134:109074-1-109074-15.
[31]TANG C,BIAN M R,LIU X W,etal.Unsupervised Feature Selection via Latent Representation Learning and Manifold Regularization[J].Neural Networks,2019,117:163-178.
[32]GAO W F,LI Y H,HU L.Multilabel Feature Selection with Constrained Latent Structure Shared Term[J].IEEE Transactions on Neural Networks and Learning Systems,2023,34(3):1253-1262.
[33]LI Y H.HU L,GAO W F.Robust Sparse and Low-Redundancy Multi-label Feature Selection with Dynamic Local and Global Structure Preservation[J].Pattern Recognition,2023,134:109120-1-109120-16.
[34]LEE J,KIM D W.Feature Selection for Multi-label Classification Using Multivariate Mutual Information[J].Pattern Recognition Letters,2013,34(3):349-357.
[35]LIN Y J,HU Q H,LIU J H,etal.Multi-label Feature Selection Based on Max-Dependency and Min-Redundancy[J].Neurocomputing,2015,168:92-103.
[36]LEE J,KIM D W.Fast Multi-label Feature Selection Based on Information-Theoretic Feature Ranking[J].Pattern Recognition,2015,48(9):2761-2771.
[37]LEE J,KIM D W.Scls:Multi-label Feature Selection Based on Scalable Criterion for Large Label Set[J].Pattern Recognition,2017,66:342-352.
[38]CAI D,ZHANG C,HE X.Unsupervised Feature Selection for Multi-cluster Data[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2010:333-342.
[39]LEE DD.SEUNG H S.Learning the Parts of Objects by Non-negative Matrix Factorization[J].Nature,1999,401:788-791.
[40]HUANG J,NIE F,HUANG H.A New Simplex Sparse Learning Model to Measure Data Similarity forClustering[C]//Proceedings of the 24th International Joint Conference on Artificial Intelligence.New York:ACM,2015:3569-3575.
[41]LEE D D,SEUNG S H.Algorithms for Non-negative Matrix Factorization[J].Advances in Neural Information Processing Systems,2001,13:556-562.
[42]DING C H Q,LI T,JORDAN M I.Convex and Semi-nonnegative Matrix Factorizations[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,32(1):45-55.
[43]TSOUMAKAS G,SPYROMITROS-XIOUFIS E.VILCEK J,etal.Mulan:A Java Library for Multi-label Learning[J].The Journal of Machine Learning Research,2011,12:2411-2414.
[44]ZHANG M L,ZHOU Z H.ML-KNN:A Lazy Learning Approach to Multi-label Learning[J].Pattern Recognition,2007,40(7):2038-2048.
[45]ZHANG Y,MA Y C.Non-negative Multi-label Feature Selection with Dynamic Graph Constraints[J].Knowledge-Based Systems,2022,238:107924-1-107924-14.
[46]DOUGHERTY J,KOHAVI R.SAHAMI M.Supervised and Unsupervised Discretization of Continuous Features[M].San Mateo:Morgan Kaufmann,1995:194-202.
[47]XUE G T,ZHONG M,LI J X,etal.Dynamic Network Embedding Survey[J].Neurocomputing,2022,472:212-223.
(責(zé)任編輯:韓嘯)