馬盈倉(cāng),張 要,2,張 寧,朱恒東
(1.西安工程大學(xué) 理學(xué)院,陜西 西安 710600;2.山東華宇工學(xué)院 基礎(chǔ)教學(xué)部,山東 德州 253034)
嵌入式多標(biāo)簽特征選擇方法是目前性能良好并廣泛使用的一類特征選擇方法。多標(biāo)簽特征選擇又稱為多標(biāo)簽特征子集選擇,是指適用于多標(biāo)簽數(shù)據(jù)集的特征選擇算法,是從原始特征中選擇出一些最有效的特征以降低數(shù)據(jù)集維度的過(guò)程。在學(xué)習(xí)算法中,多標(biāo)簽特征選擇不僅能夠縮短訓(xùn)練時(shí)間、降低成本要求,還能減少過(guò)擬合、避免維數(shù)災(zāi)難等[1-3],是模式識(shí)別中關(guān)鍵的數(shù)據(jù)預(yù)處理步驟。與傳統(tǒng)的特征選擇相比,多標(biāo)簽特征選擇往往更為復(fù)雜,既要考慮數(shù)據(jù)與數(shù)據(jù)間的關(guān)系、數(shù)據(jù)與標(biāo)簽間的關(guān)系,還要考慮標(biāo)簽與標(biāo)簽間的關(guān)系。現(xiàn)有的特征選擇方法大致可分為過(guò)濾式[4-6]、封裝式[7-8]、嵌入式[9-11]等3類,其中嵌入式是過(guò)濾式與封裝式的折中體現(xiàn)。基于標(biāo)簽信息的有無(wú),也可將特征選擇方法分為有監(jiān)督[12-13]、半監(jiān)督[14-15]、無(wú)監(jiān)督[16-17]等。然而,現(xiàn)有的嵌入式多標(biāo)簽特征選擇方法,大多是基于最小二乘、邏輯回歸、信息熵等,且隸屬于有監(jiān)督或半監(jiān)督多標(biāo)簽特征選擇方法。
文獻(xiàn)[18]將傳統(tǒng)的邏輯模型擴(kuò)展到多標(biāo)簽分類中,使其能夠適用于多標(biāo)簽數(shù)據(jù)集,同時(shí)也能進(jìn)行多標(biāo)簽特征選擇;文獻(xiàn)[19]利用標(biāo)簽ω拖動(dòng)思想,提出了一種包含標(biāo)簽信息的最小二乘多標(biāo)簽特征選擇方法;文獻(xiàn)[20]針對(duì)標(biāo)簽不平衡分布問(wèn)題,提出了一種邊緣標(biāo)記弱化的多標(biāo)簽特征選擇算法;文獻(xiàn)[21]提出了一種新的擴(kuò)展自適應(yīng)最小絕對(duì)收縮選擇算子特征選擇方法(EALasso)。文獻(xiàn)[22]提出了一種具有多重正則化的多標(biāo)簽特征選擇方法(MDFS)。該方法不僅考慮了特征與標(biāo)簽的局部相關(guān)性,還通過(guò)L2,1范數(shù)約束目標(biāo)函數(shù)。文獻(xiàn)[23]將矩陣分解問(wèn)題、非負(fù)約束問(wèn)題和L2,1范數(shù)最小化問(wèn)題相結(jié)合,構(gòu)成了基于非負(fù)稀疏表示的多標(biāo)簽特征選擇方法;文獻(xiàn)[24]利用L2,1范數(shù)約束相關(guān)熵與流形學(xué)習(xí),構(gòu)造了一種基于相關(guān)熵和流形學(xué)習(xí)的多標(biāo)簽特征選擇模型;文獻(xiàn)[25]提出了一種基于光譜分析的半監(jiān)督特征選擇算法。然而,這些經(jīng)典算法僅針對(duì)帶標(biāo)簽數(shù)據(jù)集設(shè)計(jì)。文獻(xiàn)[26]為了解決多標(biāo)簽問(wèn)題,將多標(biāo)簽學(xué)習(xí)分解為多個(gè)獨(dú)立的單標(biāo)簽問(wèn)題,沒(méi)有考慮到不同標(biāo)簽之間的相關(guān)性;文獻(xiàn)[27]通過(guò)L1范數(shù)與標(biāo)簽流形學(xué)習(xí)共同約束邏輯回歸的系數(shù)矩陣,解決特征選擇問(wèn)題;文獻(xiàn)[28]提出了一種適用于大規(guī)模數(shù)據(jù)集的凸半監(jiān)督多標(biāo)簽特征選擇算法。
上述多標(biāo)簽特征選算法都是有監(jiān)督或半監(jiān)督的,或多或少都需要用到數(shù)據(jù)的標(biāo)簽,從而忽略了大量的廉價(jià)的無(wú)標(biāo)簽數(shù)據(jù)。此外,還有一些無(wú)監(jiān)督特征選擇算法。文獻(xiàn)[29]提出了一種基于自編碼器的無(wú)監(jiān)督特征選擇模型。該模型考慮了非負(fù)性、正交性和稀疏性,充分利用了其內(nèi)部特征。文獻(xiàn)[30]提出了無(wú)監(jiān)督稀疏圖嵌入特征選擇方法;文獻(xiàn)[31]利用酉不變性的深度隨機(jī)游走學(xué)習(xí)鑒別特征,提出了一種有效的數(shù)據(jù)表示方法來(lái)解決大規(guī)模的特征表示問(wèn)題。但這些無(wú)監(jiān)督模型大多適用于單標(biāo)簽數(shù)據(jù)。針對(duì)嵌入式無(wú)監(jiān)督多標(biāo)簽特征選擇的挑戰(zhàn),本文將L2,1范數(shù)回歸與流形學(xué)習(xí)結(jié)合,構(gòu)成了新的無(wú)監(jiān)督多標(biāo)簽特征選擇模型,設(shè)計(jì)了一種高效的收斂性算法(UMLFS),并通過(guò)在多個(gè)經(jīng)典數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)證明其可行性。
給定多標(biāo)簽數(shù)據(jù)集X,其特征矩陣記為X=[x1,x2,…,xn]T,X∈Rn×d,根據(jù)問(wèn)題特征作如下假設(shè):擬合偽標(biāo)簽為F∈Rn×m(未知),且在L2,1范數(shù)距離上有F=XW,其中W∈Rd×m是特征權(quán)重矩陣,能夠體現(xiàn)特征的重要性,并且L2,1范數(shù)可以有效地約束權(quán)重矩陣W的行間稀疏、行內(nèi)穩(wěn)定,更有利于特征選擇。從而有
(1)
式中:β為懲罰因子;R(W)為懲罰函數(shù),表示對(duì)W的相應(yīng)約束懲罰。
隨著學(xué)者們的不斷研究、擴(kuò)展,將流形學(xué)習(xí)推廣到維數(shù)簡(jiǎn)約[32]、協(xié)同聚類算法[33]、特征選擇算法等各領(lǐng)域。
對(duì)與UMLFS算法,由于是無(wú)監(jiān)督的,無(wú)法利用標(biāo)簽信息,所以就更應(yīng)該使用特征流形約束權(quán)重矩陣的學(xué)習(xí),同時(shí)數(shù)據(jù)特征的拉普拉斯圖矩陣,也能提供一個(gè)很好的參數(shù)調(diào)節(jié)過(guò)程,從而避免了所有特征的約束參數(shù)都一樣的可能。根據(jù)問(wèn)題特征再假設(shè):
令X=[f1,f2,…,fd],W=[W1,W2,…,Wd]T,其中fi是數(shù)據(jù)矩陣的第i列,表示數(shù)據(jù)的第i個(gè)特征向量,Wi是權(quán)重矩陣的第i行,表示第i個(gè)特征向量所對(duì)應(yīng)的權(quán)重。由于權(quán)重矩陣W可以體現(xiàn)特征的權(quán)重,所以,若fi與fj距離相近,那么Wi與Wj的距離也應(yīng)該相近。從而可以通過(guò)特征間相似性指導(dǎo)權(quán)重矩陣的學(xué)習(xí),構(gòu)建特征流形學(xué)習(xí)模型,其表達(dá)式如下:
tr(WTLW)
(2)
式中:L∈Rd×d為特征相似矩陣;Lij為L(zhǎng)的第i行、第j列元素,表示特征fi與fj的相似度。文中是通過(guò)帶平方約束的Pearson相關(guān)系數(shù)計(jì)算L的,其公式為
(3)
在多標(biāo)簽學(xué)習(xí)中,學(xué)者們普遍認(rèn)為標(biāo)簽矩陣是數(shù)據(jù)矩陣的一種映射,所以兩者的結(jié)構(gòu)極其相似。而在本文中,偽標(biāo)簽是真實(shí)標(biāo)簽的一種替換,理論上,其應(yīng)該具有真實(shí)標(biāo)簽的所有屬性。令偽標(biāo)簽矩陣F=[F1,F2,…,Fn]T,真實(shí)標(biāo)簽矩陣Y=[Y1,Y2,…,Yn]T,Y∈Rn×m,根據(jù)問(wèn)題再假設(shè):
1) 若樣本xi與xj的相似度較高,那么真實(shí)標(biāo)簽Yi與Yj的相似度也應(yīng)該較高;
2) 偽標(biāo)簽矩陣F基本與真實(shí)標(biāo)簽矩陣Y等價(jià)。
由于在本研究中只存在數(shù)據(jù)信息,所以可以用數(shù)據(jù)樣本的相似矩陣約束偽標(biāo)簽矩陣的學(xué)習(xí),從而提高偽標(biāo)簽矩陣的精確度。其公式為
tr(FTΛF)
(4)
式中:Λ∈Rn×n為數(shù)據(jù)樣本的相似矩陣;Λij為Λ的第i行、第j列元素,表示樣本xi與xj之間的相似度。與特征相似矩陣L類似,樣本相似矩陣Λ同樣是通過(guò)帶平方約束的Pearson相關(guān)系數(shù)計(jì)算的,即
(5)
(6)
式中:B(*)為關(guān)于變量*的目標(biāo)函數(shù);α與β是正則項(xiàng)參數(shù)。
由于L2,1范數(shù)的非光滑性,根據(jù)文獻(xiàn)[34],當(dāng)(XW-F)i≠0時(shí),其中i=1,2,…,n?!琗W-F‖2,1關(guān)于W或F的導(dǎo)函數(shù)也可以看作是tr((XW-F)TH(XW-F))關(guān)于W或F的導(dǎo)函數(shù)。其中H∈Rn×n是對(duì)角矩陣,H的第i個(gè)對(duì)角元素為
(7)
使用L2,1范數(shù)的優(yōu)化問(wèn)題求B(W,F)的近似解:
(8)
對(duì)于式(8),可以先給定W、H,計(jì)算出F;再利用F、H,更新W;最后通過(guò)W、F,更新H。
(9)
求出B(F)關(guān)于F的導(dǎo)函數(shù),并使導(dǎo)函數(shù)為0,即
(10)
從而可以計(jì)算出F,即
F=(H+βΛ)-1HXW
(11)
(12)
求出B(W)關(guān)于W的導(dǎo)函數(shù),并使導(dǎo)函數(shù)為0,即
(13)
從而可以計(jì)算出W,即
W=(XTHX+αL)-1XTHF
(14)
通過(guò)以上問(wèn)題優(yōu)化與求解,基于流形學(xué)習(xí)與L2,1范數(shù)的無(wú)監(jiān)督多標(biāo)簽特征選擇(unsupervised multi-label feature selection based on manifold learning andL2,1norm, UMLFS)算法如下:
算法1:UMLFS算法
輸入:數(shù)據(jù)矩陣X∈Rn×d,正則化參數(shù)α與β,選取特征個(gè)數(shù)k,迭代次數(shù)t。
1) 根據(jù)式(3)計(jì)算特征相似矩陣L;
2) 根據(jù)式(5)計(jì)算樣本相似矩陣Λ;
3) 令t=0,初始化對(duì)角矩陣Ht為單位矩陣;
4) 初系數(shù)矩陣Wt為元素全為1的矩陣。
重復(fù):
根據(jù)式(11)計(jì)算Ft,
t=t+1,
根據(jù)式(14)更新Wt,
根據(jù)式(7)更新Ht。
直到收斂為止。
5) 計(jì)算并排序‖Wi‖2(i=1,2,…,d),找出前k個(gè)最大的賦給I。
輸出:特征選擇結(jié)果I。
算法1主要更新W與F,每次迭代的時(shí)間復(fù)雜度是O(2d2n),一共迭代了t次,所以算法1的總時(shí)間復(fù)雜度為O(2td2n)。t的值一般較小,所以對(duì)算法1的時(shí)間復(fù)雜度影響不大。然而,算法1的時(shí)間復(fù)雜度受數(shù)據(jù)的維數(shù)d和數(shù)據(jù)集樣本個(gè)數(shù)n的影響較大。
證明算法1的收斂性。令Q=XW-F,則
(15)
由算法1的t次迭代可知,當(dāng)固定W時(shí),有
B(W,Ft+1)≤B(W,Ft)
(16)
當(dāng)固定F時(shí),有
B(Wt+1,F)≤B(Wt,F)
(17)
從而有
B(Qt+1)≤B(Qt)
(18)
由此,可以推出
(19)
所以可以轉(zhuǎn)換為
(20)
其中Qi表示Q的第i行向量。式(20)可以進(jìn)一步轉(zhuǎn)化為
(21)
(22)
對(duì)式(22)求和,可得到
(23)
從而推出
(24)
綜上所述,算法1的收斂性得到證明。
圖1為UMLFS算法在Yeast和Bibtex實(shí)驗(yàn)數(shù)據(jù)集上的收斂結(jié)果,其中參數(shù)設(shè)置為α=1,β=1。
(a) Yeast
(b) Bibtex圖 1 UMLFS算法對(duì)Yeast和Bibtex數(shù)據(jù)集的收斂性Fig.1 Convergence results of UMLFS algorithm for Yeast and Bibtex data set
選取5個(gè)經(jīng)典數(shù)據(jù)集,與4個(gè)經(jīng)典的有監(jiān)督多標(biāo)簽特征選擇算法SCLS[35]、MDMR[36]、PMU[37]、FIMF[38]共同進(jìn)行實(shí)驗(yàn),并選擇MLKNN[39]作為多標(biāo)簽分類算法的代表進(jìn)行評(píng)價(jià)。
實(shí)驗(yàn)中采用的5個(gè)經(jīng)典數(shù)據(jù)集,來(lái)自4個(gè)不同的領(lǐng)域,包括圖像數(shù)據(jù)集Image、Scene,音樂(lè)數(shù)據(jù)集Emotion,文本數(shù)據(jù)集Bibtex及生物數(shù)據(jù)集Yeast。這些數(shù)據(jù)均來(lái)自木蘭圖書(shū)館(http://mulan.sourceforge.net/datasets.html)。各數(shù)據(jù)集的具體參數(shù)如表1所示。
表 1 數(shù)據(jù)集信息Tab.1 Data set information
實(shí)驗(yàn)環(huán)境為:Microsoft Windows7系統(tǒng)處理器為Intel(R) Core(TM) i5-4210U CUP @ 1.70 GHz 2.40 GHz,內(nèi)存4.00 GB;采用Matlab R2016a編程軟件。
將MLKNN算法的平滑參數(shù)設(shè)置為S=1,近鄰參數(shù)設(shè)置為K=10。應(yīng)用等寬區(qū)間對(duì)數(shù)據(jù)集進(jìn)行離散化處理[40],使其適用于MDMR、FIMF等算法,并將FIMF算法的參數(shù)設(shè)置為Q=10,b=2。以上是算法的默認(rèn)參數(shù)。利用“網(wǎng)格搜索”策略,調(diào)整所有的多標(biāo)簽特征選擇算法的正則化參數(shù),設(shè)置為(0.001,0.01,0.1,1,10,100,1 000),將選擇的特征個(gè)數(shù)設(shè)置為(10,15,20,25,30,35,40,45,50)。
由于對(duì)比算法都是有監(jiān)督的多標(biāo)簽特征選擇算法,所以實(shí)驗(yàn)本身對(duì)UMLFS算法是嚴(yán)格的。
1) 漢明損失LH:分錯(cuò)標(biāo)簽的占比,值越小越好。
(25)
式中:h(ci)Δyi為h(ci)和yi的對(duì)稱差,LH(C)∈[0,1]。
2) 排序損失LR:反序標(biāo)簽對(duì)的占比,值越小越好。
(26)
3) 1-錯(cuò)誤率RE:在“真實(shí)標(biāo)簽”中不存在“預(yù)測(cè)到的最相關(guān)的標(biāo)簽”的樣本占比,值越小越好。
(27)
4) 覆蓋率CV:要想覆蓋真實(shí)的標(biāo)簽相關(guān)集,“排序后的標(biāo)簽”平均需要移動(dòng)多少步,值越小越好。
(28)
式中:CV(C)∈[0,m-1]。
5) 平均精度PA:相關(guān)性高于特定標(biāo)簽的標(biāo)簽,在排名中的占比,值越大越好。
(29)
在5個(gè)經(jīng)典數(shù)據(jù)集上,將UMLFS算法與4個(gè)對(duì)比算法進(jìn)行了對(duì)比實(shí)驗(yàn)。利用漢明損失、排序損失、1-錯(cuò)誤率、覆蓋率、平均精度等5個(gè)評(píng)價(jià)指標(biāo)評(píng)價(jià)各算法的性能;同時(shí),以最優(yōu)得1分、次優(yōu)得0.5分、其他為0分(共7.5分)計(jì)分,根據(jù)各算法在對(duì)應(yīng)指標(biāo)上的性能分配,給出了各算法的得分情況。實(shí)驗(yàn)結(jié)果如表2~6所示,表中分別用粗體和下劃線標(biāo)出最優(yōu)結(jié)果和次優(yōu)結(jié)果,并且表中展示的都是對(duì)應(yīng)算法在最優(yōu)參數(shù)下的最優(yōu)結(jié)果。
表 2 各數(shù)據(jù)集不同算法的漢明損失對(duì)比Tab.2 Hamming loss comparison of different algorithms under each data set
表 3 各數(shù)據(jù)集不同算法的排序損失對(duì)比Tab.3 Ranking loss comparison of different algorithms under each data set
表 4 各數(shù)據(jù)集不同算法的1-錯(cuò)誤率對(duì)比Tab.4 One-error comparison of different algorithms under each data set
表 5 各數(shù)據(jù)集不同算法的覆蓋率對(duì)比Tab.5 Coverage comparison of different algorithms under each data set
表 6 各數(shù)據(jù)集不同算法的平均精度對(duì)比Tab.6 Average precision comparison of different algorithms under each data set
從表2~6可以看出:UMLFS算法雖然在Yeast數(shù)據(jù)集上排序損失指標(biāo)的最優(yōu)結(jié)果略不如MDMR算法和PMU算法,在1-錯(cuò)誤率指標(biāo)的最優(yōu)結(jié)果僅次于SCLS算法,在平均精度指標(biāo)的最優(yōu)結(jié)果僅次于MDMR算法,但在其他各指標(biāo)的最優(yōu)結(jié)果仍優(yōu)于其他對(duì)比算法,并且在Emotion、Scene、Bibtex、Image數(shù)據(jù)集上的各指標(biāo)的最優(yōu)結(jié)果都明顯優(yōu)于所有對(duì)比算法。
(a) Yeast (b) Bibtex (c) Image圖 3 3種數(shù)據(jù)集不同算法間的排序損失比較Fig.3 Ranking loss comparison between different algorithms on three data set
(a) Yeast (b) Bibtex (c) Image圖 4 3種數(shù)據(jù)集不同算法間的1-錯(cuò)誤率比較Fig.4 One-error comparison between different algorithms on three data set
(a) Yeast (b) Bibtex (c) Image圖 5 3種數(shù)據(jù)集不同算法間的覆蓋率比較Fig.5 Coverage comparison between different algorithms on three data set
(a) Yeast (b) Bibtex (c) Image圖 6 3種數(shù)據(jù)集不同算法間的平均精度比較Fig.6 Average precision comparison between different algorithms on three data set
可見(jiàn),UMLFS算法除在Yeast數(shù)據(jù)集上的性能略不理想外,在其他理想數(shù)據(jù)集上各指標(biāo)的性能都是最優(yōu)的。從得分情況(表2~6)可以看出,UMLFS算法的分值最低為4,最高為5,始終優(yōu)于對(duì)比算法。所以,UMLFS算法在解決無(wú)監(jiān)督多標(biāo)簽特征選擇問(wèn)題上是有效的。
為了能更直觀地對(duì)比各算法的漢明損失、排序損失、1-錯(cuò)誤率、覆蓋率、平均精度等指標(biāo)的性能,以及選擇的特征個(gè)數(shù)對(duì)算法的影響,圖2~6以選擇的特征個(gè)數(shù)為橫坐標(biāo),以各指標(biāo)的結(jié)果值為縱坐標(biāo),展示了數(shù)據(jù)集Yeast、Bibtex和Image的實(shí)驗(yàn)結(jié)果。
從圖2~6可以看出,UMLFS算法在Bibtex數(shù)據(jù)集上的漢明損失、排序損失、1-錯(cuò)誤率、覆蓋率等指標(biāo)明顯低于對(duì)比算法的對(duì)應(yīng)指標(biāo),而平均精度明顯高于對(duì)比算法平均精度;UMLFS算法在Image數(shù)據(jù)集上各指標(biāo)相對(duì)于對(duì)比算法的結(jié)果,形成了一層包絡(luò),較優(yōu)于對(duì)比算法。雖然表2~6中UMLFS算法在Yeast數(shù)據(jù)集上的一些指標(biāo)的最優(yōu)結(jié)果不如MDMR算法和SCLS算法,但由圖2~6可以清楚地看出,UMLFS算法各指標(biāo)的整體結(jié)果還是較優(yōu)的??梢?jiàn),UMLFS算法整體上優(yōu)于各對(duì)比算法,說(shuō)明UMLFS算法能夠更好地利用數(shù)據(jù)信息進(jìn)行特征選擇,以及UMLFS算法在解決無(wú)監(jiān)督多標(biāo)簽特征選擇問(wèn)題上的可行性。
關(guān)于參數(shù)α、β的變化對(duì)UMLFS算法性能的影響,做了針對(duì)性的實(shí)驗(yàn)。固定選擇的特征個(gè)數(shù)為50,利用“網(wǎng)格搜索”的策略,對(duì)參數(shù)α與β進(jìn)行調(diào)整,其中搜索值分別設(shè)置為0.001、0.01、0.1、1、10、100、1 000。計(jì)算UMLFS算法平均精度評(píng)價(jià)指標(biāo)的性能變化,結(jié)果如圖7所示。
(a) Yeast (b) Bibtex (c) Image圖 7 不同參數(shù)α、β對(duì)于UMLFS算法平均精度的影響Fig.7 Effect of different parameters α and β on average precision of UMLFS algorithm
從圖7可以看出,對(duì)于不同的數(shù)據(jù)集,參數(shù)的敏感程度不同。如在Image數(shù)據(jù)集上,參數(shù)α與β的變化對(duì)UMLFS算法的影響程度較大;而在Yeast和Bibtex數(shù)據(jù)集上,UMLFS算法對(duì)參數(shù)的變化不敏感。這可能與特征相似矩陣和樣本相似矩陣的學(xué)習(xí)方法不能適用于所有數(shù)據(jù)集有關(guān)。
圖8展示了各算法間的顯著性差異和排名。在圖8中,以排名為橫坐標(biāo),從左到右,算法的性能依次變好。同時(shí),圖8還以平均秩圖的形式展示了Bonferroni-Dunn測(cè)試結(jié)果,并將無(wú)顯著差異(p<0.1)的算法組連接,如果平均排名達(dá)到差異的臨界值,則有顯著差異[41]。從圖8可以看出:UMLFS算法的漢明損失、平均精度等指標(biāo),雖然與SCLS算法和MDMR算法無(wú)顯著性差異,但與PMU算法和FIMF算法之間存在顯著差異;在覆蓋率指標(biāo)上雖然與SCLS算法、FIMF算法和MDMR算法無(wú)顯著差異,但與PMU算法存在顯著差異。而且UMLFS算法在各指標(biāo)的排名始終在最右側(cè)的第1位。因此,與對(duì)比算法相比,UMLFS算法的性能表現(xiàn)更好。
(a) 漢明損失
(b) 覆蓋率
(c) 平均精度圖 8 Bonferroni-Dunn檢驗(yàn)結(jié)果的平均秩圖的形式Fig.8 The form of average rank graph of Bonferroni-Dunn test results
使用帶平方約束的Pearson相關(guān)系數(shù)學(xué)習(xí)特征和樣本的基層流形結(jié)構(gòu);分別用特征流形和樣本流形約束特征權(quán)重矩陣和偽標(biāo)簽矩陣;結(jié)合L2,1范數(shù)構(gòu)建了無(wú)監(jiān)督多標(biāo)簽特征選擇模型(UMLFS)。該模型在多個(gè)數(shù)據(jù)集上與多個(gè)經(jīng)典的有監(jiān)督多標(biāo)簽特征選擇模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明UMLFS算法的有效性。學(xué)得一個(gè)精確的基層結(jié)構(gòu),才能更好地進(jìn)行特征選擇。所以,下一步將繼續(xù)研究相似矩陣的學(xué)習(xí),并對(duì)UMLFS算法進(jìn)行改進(jìn),使其能夠更好地適用于無(wú)監(jiān)督多標(biāo)簽特征選擇。