張 要,馬盈倉,朱恒東,李 恒,陳 程
(西安工程大學 理學院,西安 710600)
特征選擇作為處理高維數據分類的主要方法,在算法學習過程中不僅能夠減少訓練時間,而且能避免維度災難與過擬合等問題[1-3],同時是近年來機器學習領域的研究熱點之一。與單標簽數據一樣,多標簽數據存在多個特征[4],在分類問題中同樣面臨維度災難問題,但與傳統(tǒng)單標簽特征選擇不同,多標簽特征選擇不僅要考慮樣本與標簽間的關系,而且要考慮標簽與標簽間的關系。現有多標簽特征選擇方法大致可分為過濾式、封裝式、嵌入式[5]等3 類,其中嵌入式方法是將特征選擇過程嵌入學習過程中,綜合了過濾式與封裝式的優(yōu)勢。
由于多標簽分類數據的連續(xù)性與標簽的離散性,因此一些學者認為多標簽數據中,數據與標簽的關系可以用logistic 回歸模型來學習,并通過不同正則項的約束來改進算法的性能,從而進行多標簽特征選擇。文獻[6]提出一種用于多標簽圖像分類的相關logistic 回歸模型(CorrLog),將傳統(tǒng)的logistic回歸模型擴展到多標簽情況。文獻[7]提出混合整數優(yōu)化logistic 回歸的特征子集選擇算法,給出一個混合整數線性優(yōu)化問題,使用標準的整數優(yōu)化軟件求解,并對logistic 回歸的損失函數進行分段線性逼近。文獻[8]提出一種基于Lq(0 近年來,流形學習快速發(fā)展,并逐漸滲透到人們生活以及工業(yè)生產等各個領域。為了能夠學習到數據特征的基層流形結構,文獻[9-10]提出流形學習方法,發(fā)現在特征選擇的過程中,特征流形結構能夠促使特征選擇學習到更優(yōu)的回歸系數矩陣。文獻[11]提出一個圖形學習框架來保持數據的局部和全局結構,該方法利用樣本的自表達性來捕獲全局結構,使用自適應鄰域方法來保持局部結構。文獻[12]提出一種新的魯棒圖學習方法,該方法通過自適應地去除原始數據中的噪聲和錯誤,從真實的噪聲數據中學習出可靠的圖。文獻[13]通過數據的自表示性質構建相似矩陣,并運用流形結構和稀疏正則項來約束相似矩陣,從而構建無監(jiān)督特征選擇模型。文獻[14]通過將其定義的代價距離代入現有的特征選擇模型中,并使用流形結構約束得到一個新的代價敏感特征選擇方法。文獻[15]使用logistic回歸模型,并利用標簽流形結構與L1-范數約束回歸系數矩陣,構造半監(jiān)督多標簽特征選擇模型??梢?,流形學習不一定作為正則項來約束回歸系數,標簽流形學習也是一種學習數據與標簽間關系的方法。為找出數據與標簽間的關系,準確去除不相關的特征和冗余特征,本文融合logistic 回歸模型學習到的系數矩陣和標簽流形模型學習到的權重矩陣,基于L2,1-范數提出一種高效的柔性結合標簽流形結構與logistic 回歸模型的多標簽特征選擇算法(FSML)。 樣本xi不屬于第j類的后驗概率如下: 其中:wj是系數矩陣W∈Rd×m的第j列向量。 使用極大似然估計法對系數矩陣進行估計,則logistic 回歸關于多標簽數據集的似然函數(聯合概率分布)如下: 由于求解式(3)較為困難,因此可以將式(3)轉化為利用求解logistic 回歸的負對數似然函數式(4)的極小值來求解W。 又因為logistic 回歸模型可能會出現過擬合、多重共線性、無限解等不適定問題,所以導致系數矩陣估計不正確[16]。為了解決這一問題,一種廣泛使用的策略是在式(4)中引入稀疏懲罰項,因此帶有懲罰項的logistic 回歸模型的表達式如下: 其中:β是懲罰因子;R(*)是懲罰函數,表示對*的相應約束懲罰。 近年來,流形學習被廣泛應用于協(xié)同聚類[17]、特征選擇、維數約簡[18]等任務中。在特征選擇算法中,流形學習通常是被用作正則項來約束回歸系數矩陣,以便回歸系數矩陣擬合數據特征的基層流形結構,但流形學習在特征選擇算法中的使用方式并不局限于此。 在本文研究中,將使用流形學習來擬合數據特征的權重矩陣,為學習得到更好的特征權重矩陣并更有效地利用標簽信息,進行如下假設: 1)通過學習數據間的相似矩陣Z來探究數據基層結構。例如,標簽相似矩陣Z可以通過核函數學習,如式(6)所示: 其中:Zij是Z的第i行、第j列的元素,表示yi和yj之間的相似度。 2)通過學習得到標簽F。因為F需要擬合原始標簽Y的基層結構,所以 3)理論上認為:F=XU,其中U∈Rd×m是數據特征的權重矩陣。 根據以上假設構建標簽流形學習模型,其表達式如下: 同樣地,引入相應的懲罰項,以便在學習過程中約束特征權重矩陣,使其能夠很好地擬合標簽的基層流形結構。因此,標簽流形學習模型也可寫成以下形式: 通過式(5)和式(8)可以看出,針對特征選擇中的懲罰函數R(*),具有如下要求: 1)懲罰函數R(*)能夠約束稀疏矩陣W和權重矩陣U的稀疏性。 2)懲罰函數R(*)能夠根據特性結合稀疏矩陣W和權重矩陣U,且能使兩者相互促進,相輔相成。 3)在一般情況下,在特征選擇的過程中要能夠清晰地區(qū)分特征的好壞,通常要求能夠代表特征的矩陣要行內穩(wěn)定、行間稀疏。因此,懲罰函數R(*)也要有這種約束性。 選取L2,1-范數作為懲罰函數,即R(*)=‖ * ‖2,1,不僅可以滿足要求1和要求3,而且對奇異值比較敏感[19]。 根據要求2,考慮到稀疏矩陣W和權重矩陣U較為相似,且都能用于進行特征選擇,初步認為*=W-U,但*=W-U表示兩者幾乎完全相同,而實際上兩者還是有一定的差別,僅基于不同的模型,W與U就會出現差別。引入偏置矩陣1dbT∈Rn×m來使模型變得更為合理,其中,1d∈Rd為使元素全為1 的列向量,b∈Rm為偏置向量。進一步認為*=W+1dbTU,因此R(*)=‖W+1dbT-U‖2,1。 綜上,本文設計柔性結合標簽流形結構與logistic 回歸模型的多標簽特征選擇算法FSML,其目標優(yōu)化問題可以改寫如下: 其中:α為標簽流形參數。 針對L2,1-范數的求解,根據文獻[20],當(W+1dbTU)i≠0時,其中i=1,2,…,d。‖W+1dbT-U‖2,1對W或對U的求導也可以看作Tr((W+1dbT-U)TH(W+1dbTU))對W或對U的求導,其中H∈Rd×d是對角矩陣,H的第i個對角元素如下: 因此,可以利用上述優(yōu)化問題來求出式(9)的近似解,從而將目標函數轉變如下: 對于該問題,可給定一個H,將W、U與當前的H進行計算,然后根據當前計算出的W、U對H進行更新。 根據式(11),當固定H和W時,關于U和b的目標函數可改寫如下: 根據式(11),當固定H和U時,關于W的目標函數可改寫如下: 由于式(17)是可微的,因此可以通過Newton-Raphson 算法進行求解,式(17)對W的一階導如下: W更新公式如下: 通過以上問題的優(yōu)化與求解,柔性結合標簽流形結構與logistic 回歸模型的多標簽特征選擇算法FSML 具體描述如下: 算法1FSML 算法 FSML 算法的目的主要是計算并更新W與U,每次迭代的時間復雜度為O(2d2n),共迭代t次,因此總的時間復雜度為O(2td2n)。由于t值一般不大,因此FSML 算法處理數據的運行時間受數據維數d和數據集樣本個數n的影響較大。 FSML 算法的收斂性分析類似于L2,1-范數的收斂性分析,圖1 給出了參數α=1、β=1、K=5 時,FSML 算法在生物數據集Yeast、文本數據集Health和Computers、音樂數據集Emotion、圖像數據集Scene 等5 個經典數據集上的收斂性結果。 圖1 FSML 算法在不同數據集上的收斂性結果Fig.1 Convergence results of FSML algorithm on different datasets 采用5 個經典數據集進行FSML 算法有效性驗證,并將其與SCLS[21]、MDMR[22]、PMU[23]、FIMF[24]、CMLS[25]算法以及Baseline(選擇所有特征)進行性能比較,同時選擇ML-KNN[26]算法作為代表性的多標簽分類算法進行實驗。 實驗中采用的5 個經典數據集來自木蘭圖書館(http://mulan.sourceforge.net/datasets.html),具體信息如表1 所示。 表1 數據集信息Table 1 Dataset information 實驗操作系統(tǒng)環(huán)境為Microsoft Windows 7,處理器為I ntel?CoreTMi5-4210U CPU@1.70 GHz 2.40 GHz,內存為4.00 GB,編程軟件為Matlab R2016a。 實驗參數設置如下(設置1 和設置2 均為對應算法的默認設置): 1)在ML-KNN 算法中,設置平滑參數S=1,近鄰參數K=10。 2)在FIMF、MDMR 和PMU 算法中,利用等寬區(qū)間對數據集進行離散化處理[27],并且在FIMF 算法中,設置Q=10、b=2。 3)將所有特征選擇算法(除ML-KNN 算法以外)的最近鄰參數設為K=5,最大迭代次數設為50。 4)所有算法的正則化參數通過網格搜索策略進行調整,搜索范圍設置為[0.001,0.01,0.1,1,10,100,1 000 ],并將選擇的功能數量設置為[10,15,20,25,30,35,40,45,50 ]。 與單標簽學習系統(tǒng)的性能評價不同,多標簽學習系統(tǒng)的評價指標更為復雜。假設一個測試數據集,給定測試樣本di,多標簽分類器預測的二進制標簽向量記為h(di),第l個標簽預測的秩記為ranki(l)。 1)漢明損失(Hamming Loss)。度量的是錯分的標簽比例,即正確標簽沒有被預測以及錯誤標簽被預測的標簽占比。值越小,表現越好。Hamming Loss 計算公式如下: 其中:Δ 表示兩個集合的對稱差,返回只在其中一個集合中出現的那些值;HHammingLoss(D) ∈[0,1]。 2)排名損失(Ranking Loss)。度量的是反序標簽對的占比,即不相關標簽比相關標簽的相關性還要大的情況。值越小,表現越好。Ranking Loss 計算公式如下: 3)1-錯誤率(One-Error)。度量的是預測到的最相關的標簽不在真實標簽中的樣本占比。值越小,表現越好。One-Error 計算公式如下: 4)覆蓋率(Coverage)。度量的是排序好的標簽列表平均需要移動多少步才能覆蓋真實的相關標簽集。值越小,表現越好。Coverage 計算公式如下: 其中:CCoverage(D) ∈[0,m-1]。 5)平均精度(Average Precision)。度量的是比特定標簽更相關的那些標簽的排名占比。值越大,表現越好。平均精度計算公式如下: 本文提出的FSML 算法在5 個經典數據集上進行實驗,并考慮Hamming Loss、Ranking Loss、One-Error、Coverage、Average Precision 評價指標對FSML 算法與對比算法的性能進行比較。表2~表6 給出了所有特征選擇算法在最優(yōu)參數時的最優(yōu)結果,其中,最優(yōu)結果用粗體標出,次優(yōu)結果用下劃線標出。從表2~表6 可以看出:大多數的最優(yōu)結果出現在FSML 算法上,從而證明FSML 算法的可行性;具體而言,FSML 算法雖然在Scene數據集上的所有指標相對于Baseline均略有不足,但在Computers、Health、Scene 數據集上的所有指標,以及Yeast數據集上的Ranking Loss、One-Error、Coverage、Average Precision 均優(yōu)于對比算法,并且在Emotion、Computers、Health、Yeast 數據集上的所有指標甚至優(yōu)于Baseline。 表2 各數據集上不同算法的Hamming Loss 數據對比Table 2 Data comparison of Hamming Loss among different algorithms on various datasets 表3 各數據集上不同算法的Ranking Loss 數據對比Table 3 Data comparison of Ranking Loss among different algorithms on various datasets 表4 各數據集上不同算法的One-Error 數據對比Table 4 Data comparison of One-Error among different algorithms under various datasets 表5 各數據集上不同算法的Coverage 數據對比Table 5 Data comparison of Coverage among different algorithms on various datasets 表6 各數據集上不同算法的Average Precision 數據對比Table 6 Data comparison of Average Precision among different algorithms on various datasets 綜上,FSML 算法在各種實驗指標上的性能均明顯優(yōu)于FIMF 算法、PMU 算法、MDMR 算法和SCLS 算法,在Computers、Health、Scene 數據集上明顯優(yōu)于CMLS 算法,在Emotion 數據集上略優(yōu)于CMLS 算法,并在除Scene 數據集以外的其他實驗數據集上的指標均優(yōu)于Baseline。 為能更直觀地展示FSML 算法與對比算法以及Baseline 的性能對比,圖2~圖6 給出了所有算法在各種數據集上的性能評價指標。從圖2~圖6 可以看出:FSML 算法在Scene 數據集上的性能表現雖然略次于Baseline,但在其他數據集上的性能表現很好,尤其是在Health 數據集上的性能表現最好,明顯優(yōu)于對比算法和Baseline。通過FSML 算法與對比算法的比較結果可以看出,FSML 算法的實驗結果通常優(yōu)于對比算法,可見將logistic 回歸模型與流形結構柔性結合,能更準確地學習到數據與標簽間的關系;通過與Baseline 的比較結果可以看出,FSML 算法在大多數數據集上的實驗結果都優(yōu)于Baseline,能夠有效去除不相關的特征和冗余特征。 圖2 各數據集上不同算法的Hamming Loss 曲線對比Fig.2 Curve comparison of Hamming Loss among different algorithms on various datasets 圖3 各數據集上不同算法的Ranking Loss 曲線對比Fig.3 Curve comparison of Ranking Loss among different algorithms on various datasets 圖4 各數據集上不同算法的One-Error 曲線對比Fig.4 Curve comparison of One-Error among different algorithms on various datasets 圖5 各數據集上不同算法的Coverage 曲線對比Fig.5 Curve comparison of Coverage among different algorithms on various datasets 圖6 各數據集上不同算法的Average Precision 曲線對比Fig.6 Curve comparison of Average Precision among different algorithms on various datasets 為研究FSML 算法對參數的敏感程度:一方面,設置近鄰參數K=5,通過網格搜索策略來調整α與β的數值,探究FSML 算法在取不同參數時,Average Precision 評價指標的變化情況,如圖7 所示,可以看出在一定范圍內Average Precision 評價指標值會隨參數的變化而變化,并且不同的實驗數據對參數的敏感程度不同,當α<1、β<1 時FSML 算法性能對參數的變化不是很敏感;另一方面,設置參數α=10、β=100,在[5,6,7,8,9,10]內調整近鄰參數K的值,探究近鄰參數K的變化對FSML 算法性能的影響,如圖8 所示,可以看出在Yeast、Scene 數據集上FSML 算法對近鄰參數K的變化不太敏感,而在其他數據集上則較為敏感,可見FSML 算法對近鄰參數K的變化是否敏感與數據本身的基層結構特征有關。 圖7 參數α、β 對FSML 算法的影響Fig.7 Influence of parameters α and β on FSML algorithm 圖8 近鄰參數K 對FSML 算法的影響Fig.8 Influence of parameter K on FSML algorithm 如圖9 所示,橫坐標軸表示在各評價指標下各多標簽特征選擇算法的排序,從左到右,算法的性能越來越好,同時還給出了Bonferroni-Dunn 測試結果的平均秩圖,并將無顯著差異(p<0.1)的算法組連接,如果平均排名達到差異的臨界值(Critical Distance),則有顯著差異[28]。在One-Error 指標下,FSML 算法性能明顯優(yōu)于對比算法,并具有顯著性差異;在其他指標下,FSML 算法的性能明顯優(yōu)于SCLS、FIMF、MDMR 和PMU 算法,并具有顯著性差異,雖然與CMLS 算法之間沒有顯著性差異,但FSML 算法的排序始終在第一位。因此,與其他算法相比,FSML 算法具有更好的性能。 圖9 Bonferroni-Dunn 檢驗結果的平均秩圖Fig.9 Average rank graph of Bonferroni-Dunn test results 本文基于L2,1-范數將標簽流形結構與logistic 回歸模型柔性結合,構建多標簽特征選擇算法FSML,并在多個經典多標簽數據集上與現有多標簽特征選擇算法進行性能對比。實驗結果證明了FSML算法的有效性。但由于近鄰參數K不能自適應學習,導致同一個K值不一定能夠較好地學習到每個數據標簽的基層流形結構,從而限制了FSML 算法的應用范圍。下一步將對相似矩陣學習進行研究,使近鄰參數K能夠實現自適應學習,并擴展該自適應學習方法在半監(jiān)督多標簽特征選擇中的應用與研究。1 模型建立
1.1 logistic 回歸模型
1.2 流形學習
1.3 柔性嵌入
2 問題求解
2.1 問題優(yōu)化
2.2 給定H、W 的U 求解
2.3 給定H、U 的W 求解
3 實驗與結果分析
3.1 數據集與實驗設置
3.2 評價指標
3.3 實驗結果
4 結束語