陶新民,吳永康,包藝璇,祁 霖,陳 瑋,范芷汀,黃 珊
(東北林業(yè)大學(xué) 工程技術(shù)學(xué)院,黑龍江 哈爾濱 150040)
隨著各行各業(yè)信息化程度的不斷提升,數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于從內(nèi)部數(shù)據(jù)中提取有效信息來(lái)支持企業(yè)制定經(jīng)營(yíng)決策、工廠維修設(shè)備和醫(yī)院診斷疑難雜癥等過(guò)程[1]。而數(shù)據(jù)降維作為數(shù)據(jù)挖掘必不可少的前期工作,在提高模型精確度、縮短挖掘時(shí)間和降低數(shù)據(jù)存儲(chǔ)成本等方面具有重要作用[2]。其中,費(fèi)舍爾判別分析(Fisher Discriminant Analysis,FDA)作為一種經(jīng)典的降維算法,通過(guò)線性變換將高維樣本數(shù)據(jù)投影到低維向量空間,使投影后同類樣本之間的距離盡可能小,不同類別樣本之間的距離盡可能大,從而達(dá)到利于分類和降維的目的,目前已被廣泛應(yīng)用到醫(yī)學(xué)診斷、風(fēng)險(xiǎn)預(yù)警、系統(tǒng)監(jiān)測(cè)等領(lǐng)域[3-5]。在FDA基礎(chǔ)上,SUGIYAMA等[6]通過(guò)最大化局部類間散度和最小化局部類內(nèi)散度的方式提出一種局部FDA(Local FDA,LFDA)算法,該方法解決了FDA無(wú)法有效處理存在多模態(tài)分布和噪聲的數(shù)據(jù)集以及降維空間維數(shù)需小于類別數(shù)的問(wèn)題。
然而,由于FDA和LFDA都是有監(jiān)督降維算法,在進(jìn)行特征提取時(shí),需要大量有標(biāo)簽數(shù)據(jù)才能得到較好的泛化性能,但在現(xiàn)實(shí)應(yīng)用中,受各種條件所限,要獲取大量有標(biāo)簽樣本十分困難,多數(shù)情況下只有少數(shù)有標(biāo)簽樣本可用。當(dāng)FDA或LFDA利用少數(shù)有標(biāo)簽樣本進(jìn)行學(xué)習(xí)時(shí),容易出現(xiàn)過(guò)擬合現(xiàn)象,從而降低泛化性能。因此,如何利用少量有標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)指導(dǎo)FDA的學(xué)習(xí)成為了廣大學(xué)者們關(guān)注的重點(diǎn)。近年來(lái),半監(jiān)督學(xué)習(xí)的出現(xiàn)為解決該問(wèn)題帶來(lái)了新的啟示。半監(jiān)督學(xué)習(xí)是一種介于有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的學(xué)習(xí)方法[7],相比于單一的有監(jiān)督或無(wú)監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)可以綜合利用少量有標(biāo)簽樣本和大量無(wú)標(biāo)簽樣本中的信息進(jìn)行學(xué)習(xí),進(jìn)而提高預(yù)測(cè)模型性能[8]。因此,將FDA算法和半監(jiān)督學(xué)習(xí)有效結(jié)合可以充分利用少量有標(biāo)簽樣本指導(dǎo)無(wú)標(biāo)簽樣本的學(xué)習(xí),得到更好的降維效果[9]。
為保持無(wú)標(biāo)簽數(shù)據(jù)的內(nèi)在結(jié)構(gòu),半監(jiān)督學(xué)習(xí)通常基于兩種假設(shè),即基于流形假設(shè)和基于聚類假設(shè)?;诹餍渭僭O(shè)的半監(jiān)督FDA學(xué)習(xí)算法在實(shí)現(xiàn)類間間隔最大化的同時(shí),通過(guò)保持無(wú)標(biāo)簽數(shù)據(jù)間內(nèi)在流形結(jié)構(gòu)的方式提升降維性能,但基于流形假設(shè)的半監(jiān)督FDA方法在使用正則化項(xiàng)保持?jǐn)?shù)據(jù)內(nèi)在結(jié)構(gòu)時(shí),通常無(wú)法同時(shí)保證數(shù)據(jù)全局一致性和局部一致性假設(shè),容易導(dǎo)致判別信息丟失,進(jìn)而影響降維后的分類性能[10-11]。為避免此問(wèn)題,學(xué)者們開始研究基于聚類假設(shè)的半監(jiān)督FDA降維方法。該方法通常分為兩步:首先通過(guò)有標(biāo)簽數(shù)據(jù)與無(wú)標(biāo)簽數(shù)據(jù)的相對(duì)幾何關(guān)系獲得無(wú)標(biāo)簽數(shù)據(jù)的偽標(biāo)簽,然后利用有標(biāo)簽數(shù)據(jù)和具有偽標(biāo)簽的無(wú)標(biāo)簽數(shù)據(jù)共同求解降維子空間[12]?;诰垲惣僭O(shè)的半監(jiān)督FDA降維方法使用聚類算法獲得偽標(biāo)簽的方法可以產(chǎn)生較好的降維效果[13-14],但由于聚類算法本身受參數(shù)初始值以及噪聲影響,使其在數(shù)據(jù)呈現(xiàn)各種不同形狀和大小的聚類結(jié)構(gòu)時(shí)獲得的偽標(biāo)簽與真實(shí)標(biāo)簽相差甚遠(yuǎn),進(jìn)而影響其降維性能;其次,簡(jiǎn)單地將聚類偽標(biāo)簽作為類標(biāo)簽賦值給無(wú)標(biāo)簽樣本的方法也極易引起誤差傳遞,降低其魯棒性,從而導(dǎo)致算法的性能大大降低。
本文將FDA、LFDA、半監(jiān)督FDA及其改進(jìn)算法的原理及局限總結(jié)如表1所示。
表1 FDA、LFDA、半監(jiān)督LFDA及其改進(jìn)算法
為解決上述問(wèn)題,本文使用密度峰值聚類(Density Peak Clustering,DPC)算法[26]獲得聚類偽標(biāo)簽。相比于其他聚類算法,該算法不需要預(yù)先設(shè)定聚類個(gè)數(shù),對(duì)初始參數(shù)不敏感,且能識(shí)別出各種形狀和大小的聚類,因此可以避免聚類算法參數(shù)和數(shù)據(jù)分布形態(tài)對(duì)降維性能的影響,非常適合聚類個(gè)數(shù)未知情況下的高維復(fù)雜數(shù)據(jù)聚類偽標(biāo)簽求解問(wèn)題。
鑒于此,本文提出一種基于密度峰值聚類的正則化局部費(fèi)舍爾判別分析(Density Peak Clustering-based Regularized Local Fisher Discriminant Analysis,DPC-RLFDA)算法,該方法結(jié)合半監(jiān)督學(xué)習(xí)思想,可以充分利用無(wú)標(biāo)簽數(shù)據(jù)指導(dǎo)FDA的學(xué)習(xí)過(guò)程。本文主要工作如下:首先對(duì)正則化LFDA和DPC相關(guān)的算法原理進(jìn)行闡述,從而引出本文的DPC-RLFDA算法;其次采用密度峰值聚類算法獲得無(wú)標(biāo)簽和有標(biāo)簽樣本的聚類偽標(biāo)簽,分別構(gòu)建正則化項(xiàng)并整合到類內(nèi)散度矩陣和類間散度矩陣,有效地增強(qiáng)了提取特征的判別能力,降低了誤差傳遞并使所提算法適用于多模態(tài)和噪聲存在的數(shù)據(jù);同時(shí)結(jié)合核函數(shù)提出基于DPC的正則化KLFDA算法(Kernel Density Peak Clustering-based Regularized Local Fisher Discriminant Analysis-DPC-RLFDA,KDPC-RLFDA),使得該算法可以求解非線性非高斯數(shù)據(jù)的降維問(wèn)題;最后給出本文算法優(yōu)勢(shì)的理論分析、降維維度分析、算法流程和計(jì)算復(fù)雜度。通過(guò)在人工數(shù)據(jù)集和UCI數(shù)據(jù)集上的大量實(shí)驗(yàn),證明了本文算法降維性能較其他算法有較大提升。
費(fèi)舍爾判別分析(FDA)是一種有監(jiān)督降維方法,其主要工作原理是:對(duì)于給定訓(xùn)練樣本集,首先尋找使投影后同類樣本點(diǎn)盡可能近,異類樣本點(diǎn)盡可能遠(yuǎn)的最佳投影方向,然后根據(jù)未知類別樣本在該方向投影后的位置確定類別。
假設(shè)有標(biāo)簽樣本xi∈Rd及其對(duì)應(yīng)標(biāo)簽yi∈{0,1,…,c}(i=1,2,…,n),其中:n表示樣本的數(shù)量,c表示樣本的類別數(shù)。
令Sw和Sb分別代表類內(nèi)散度矩陣和類間散度矩陣:
(1)
(2)
其中:μl表示類l中樣本的平均值,μ表示整個(gè)樣本的平均值,Φl表示屬于類l中的樣本數(shù),即
(3)
(4)
(5)
假設(shè)類內(nèi)散度矩陣Sw滿秩,則FDA的目標(biāo)函數(shù)BFDA可定義為:
(6)
其中:BT為投影矩陣,tr(·)表示矩陣的跡。即FDA趨向于尋找實(shí)現(xiàn)類間散度最大化,同時(shí)類內(nèi)散度最小化的低維投影子空間BFDA來(lái)保證低維子空間中不同類別之間最大程度的分離性。但當(dāng)數(shù)據(jù)集不服從高斯分布時(shí),FDA通常不能獲得較好的算法性能;此外,FDA中類間散度矩陣的秩最多為c-1,這意味著它最多可以找到c-1個(gè)有意義的特征;而且,FDA在計(jì)算類間散度時(shí),沒有考慮同類樣本的多模態(tài)分布特征和異常值存在的情況。為了解決上述問(wèn)題,SUGIYAMA等[6]通過(guò)最大化類間散度可分離性和最小化局部類內(nèi)散度的方式提出一種局部FDA算法。
令Xn={x1,x2,…,xi,…,xn}∈Rd×n表示有標(biāo)簽數(shù)據(jù)集,Xm={Xn,Xu}={x1,x2,…,xi,…,xm}∈Rd×m表示整體數(shù)據(jù)集,其中xi∈Rd表示第i個(gè)數(shù)據(jù),yi∈{1,2,3,…,c}是xi的數(shù)據(jù)標(biāo)簽,c為類別數(shù),d為原始空間維度,n為有標(biāo)簽數(shù)據(jù)的總數(shù),m為訓(xùn)練樣本的總數(shù),m>n,則Xu為無(wú)標(biāo)簽數(shù)據(jù)集。若在r維低維子空間中通過(guò)投影矩陣H∈Rd×r變換得到xi的投影表示Ji∈Rr(1≤r≤d)為
Ji=HTxi,
(7)
則由文獻(xiàn)[6],LFDA的優(yōu)化函數(shù)可表示為:
(8)
顯然,LFDA的目的是為了尋找使HTSlbH和HTSlwH的比值最大的投影矩陣HLFDA。然而,當(dāng)LFDA沒有充足的有標(biāo)簽樣本用于訓(xùn)練時(shí),容易產(chǎn)生過(guò)擬合現(xiàn)象。阻止過(guò)擬合的一種常用方法就是引入一個(gè)有關(guān)無(wú)標(biāo)簽樣本的正則化項(xiàng)到目標(biāo)函數(shù)中。
正則化后的LFDA(RLFDA)的目標(biāo)函數(shù)表達(dá)如下:
Srlb=Slb+βSulb,
(9)
Srlw=Slw+βSulw,
(10)
(11)
其中:Sulb,Sulw為與無(wú)標(biāo)簽數(shù)據(jù)相關(guān)的兩個(gè)正則化項(xiàng),它們分別用于規(guī)范化類間散度矩陣和類內(nèi)散度矩陣;參數(shù)β∈[0,1]控制無(wú)標(biāo)簽數(shù)據(jù)的重要程度。正則化后的LFDA為將先驗(yàn)知識(shí)結(jié)合到目標(biāo)函數(shù)提供了便利。例如,若Sulb,Sulw可以通過(guò)主成分分析(Principal Components Analysis,PCA)保持無(wú)標(biāo)簽數(shù)據(jù)的全局結(jié)構(gòu)[27],則經(jīng)過(guò)PCA正則化后的類間散度和類內(nèi)散度矩陣的表達(dá)如下:
SrlbPCA=Slb+βS(t),
(12)
SrlwPCA=Slw+βId。
(13)
其中:Id為d×d的單位矩陣;S(t)為總的散度矩陣。
(14)
其中W(t)是m×m的矩陣,其元素為:
(15)
由此,可以進(jìn)一步得到S(t)的矩陣表達(dá)形式:
S(t)=XmL(t)XmT。
(16)
其中L(t)=D(t)-W(t)∈Rm×m,D(t)∈Rm×m為一個(gè)對(duì)角矩陣,其第i個(gè)對(duì)角元素是
(17)
因此,經(jīng)過(guò)PCA正則化后,LFDA的目標(biāo)函數(shù)矩陣表達(dá)形式為:
(18)
除了利用PCA保持全局結(jié)構(gòu),還可以通過(guò)引入局部保持投影(Locality Preserving Projections,LPP)正則化項(xiàng)實(shí)現(xiàn)局部空間一致性假設(shè)[28],即原始空間中具有高度一致性的樣本在降維空間中也應(yīng)該彼此靠近。經(jīng)過(guò)LPP正則化后的類間散度和類內(nèi)散度矩陣的表達(dá)如下:
SrlbLPP=Slb+βS(m);
(19)
SrlwLPP=Slw+βS(1)。
(20)
其中S(m)和S(1)是兩個(gè)正則化矩陣,其定義如下:
S(m)=XmD(m)XmT,
(21)
(22)
其中D(m)是m×m的對(duì)角矩陣,其第i個(gè)對(duì)角元素為
(23)
W(1)為m×m的矩陣,其元素為:
(24)
其中:Ai,j為xi和xj之間相似性的相似度矩陣[28],
(25)
參數(shù)σi為xi的局部化尺度參數(shù),
σi=‖xi-xi(k)‖。
(26)
其中xi(k)為xi的第k近鄰,‖·‖表示歐幾里得距離,通常,k=7。
S(1)可以進(jìn)一步表示成如下矩陣形式:
S(1)=XmL(1)XmT。
(27)
其中L(1)=D(1)-W(1)∈Rm×m,D(1)∈Rm×m是一個(gè)對(duì)角矩陣,它的第i個(gè)對(duì)角元素為:
(28)
因此,經(jīng)LPP正則化后,LFDA的目標(biāo)函數(shù)的矩陣表達(dá)形式為:
(29)
如上所述,經(jīng)PCA或LPP正則化后的半監(jiān)督FDA降維方法可以利用無(wú)標(biāo)簽樣本達(dá)到保持?jǐn)?shù)據(jù)全局或局部幾何結(jié)構(gòu)的目的。但這種方法沒有考慮樣本間的判別信息,從而使降維后的子空間無(wú)法有效提升分類性能。鑒于此,本文提出一種基于密度峰值聚類的正則化LFDA算法(DPC-RLFDA),該算法可有效提升降維特征的判別性能,進(jìn)而有利于后續(xù)的分類任務(wù)。
密度峰值聚類算法(DPC)是2014年發(fā)表于Science的快速聚類算法[26],該算法不需要預(yù)先設(shè)定聚類個(gè)數(shù),對(duì)初始參數(shù)不敏感,且能識(shí)別各種形狀和大小的聚類,非常適合聚類個(gè)數(shù)未知情況下的高維復(fù)雜數(shù)據(jù)聚類偽標(biāo)簽求解問(wèn)題。
(30)
ListQ={ρq1,ρq2,…ρqm};
(31)
(32)
(33)
其中:dij表示第i個(gè)樣本和第j個(gè)樣本之間的歐式距離,dc為截?cái)嗑嚯x,通常設(shè)置為升序排列后距離總數(shù)前1%~2%的距離值[26],ListQ為ρi按降序排列的集合,dqiqj為第qi個(gè)樣本和第qj個(gè)樣本之間的歐式距離。
為了快速確定聚類中心,DPC以ρi為橫坐標(biāo),以δqi為縱坐標(biāo)繪制決策圖[26],在實(shí)際操作中,可以用下式設(shè)置并選取參數(shù)θi數(shù)值相對(duì)較大的點(diǎn)來(lái)更快速準(zhǔn)確地確定聚類中心:
θi=ρi·δqi。
(34)
有關(guān)DPC算法的詳細(xì)描述,請(qǐng)參考文獻(xiàn)[26]。
為了提升降維特征判別性能,本文利用密度峰值聚類算法求解全體樣本集合Xm偽標(biāo)簽,并將這些偽標(biāo)簽以正則化項(xiàng)形式合并到LFDA目標(biāo)函數(shù)中,以保持?jǐn)?shù)據(jù)結(jié)構(gòu)的全局和局部一致性假設(shè),具體描述如下。
利用獲得的聚類標(biāo)簽集合和邊界點(diǎn)標(biāo)識(shí)集合構(gòu)造局部簇間散度Sulbpc和局部簇內(nèi)散度Sulwpc正則化項(xiàng),具體表達(dá)如下:
(35)
(36)
其中,Wulbpc,Wulwpc為兩個(gè)m×m的矩陣:
(37)
(38)
其中:mci表示聚類ci中樣本的數(shù)量,Ai,j表示xi和xj之間相似性的相似度矩陣,詳細(xì)定義如式(25)所示。
將以上兩個(gè)構(gòu)造好的正則化項(xiàng)分別合并到LFDA算法的類間散度和類內(nèi)散度矩陣中,具體表達(dá)如下:
Srlbpc=Slb+βSulbpc,
(39)
Srlwpc=Slw+βSulwpc。
(40)
其中Slb,Slw分別表示有標(biāo)簽樣本類間散度和類內(nèi)散度矩陣,如文獻(xiàn)[6]中式(9)所示,Sulbpc,Sulwpc為全體樣本簇間散度和簇內(nèi)散度矩陣,如式(35)和(36)所示,β∈[0,1]為折中參數(shù),用來(lái)控制無(wú)標(biāo)簽樣本的重要性,則本文算法的優(yōu)化目標(biāo)函數(shù)如下:
(41)
為方便說(shuō)明經(jīng)密度峰值聚類偽標(biāo)簽正則化后的類間散度矩陣的優(yōu)勢(shì),將矩陣Srlbpc表示為成對(duì)(pair-wise)形式:
(42)
其中Wrlbpc是m×m矩陣,
(43)
與文獻(xiàn)[6]中式(11)相比,對(duì)于同屬一類的兩個(gè)樣本,根據(jù)其所屬簇(偽標(biāo)簽)對(duì)其類間散度權(quán)重作了更加精確的區(qū)分,具體如下:
(44)
因?yàn)閙>mci,Aijβ>0,所以
(45)
對(duì)于不同類別的兩個(gè)樣本,根據(jù)所屬簇(偽標(biāo)簽)對(duì)類間散度權(quán)重也作了調(diào)整:
(46)
同樣,為方便說(shuō)明經(jīng)聚類偽標(biāo)簽正則化后的類內(nèi)散度矩陣的優(yōu)勢(shì),本文將矩陣Srlwpc表示為pair-wise形式:
(47)
其中,Wrlwpc是m×m矩陣,
(48)
與文獻(xiàn)[6]中式(10)相比,對(duì)于同屬一類和不同屬一類的兩個(gè)樣本,根據(jù)其所屬簇(偽標(biāo)簽)對(duì)其類內(nèi)散度權(quán)重也作了如下調(diào)整:
(49)
為實(shí)現(xiàn)非高斯數(shù)據(jù)的半監(jiān)督降維,通過(guò)核函數(shù)給出本文算法的核版本。為方便表達(dá),首先給出Sulbpc的矩陣表示:
Sulbpc=XmLulbpcXmT。
(50)
其中Lulbpc=Dulbpc-Wulbpc∈Rm×m,Dulbpc∈Rm×m是一個(gè)對(duì)角矩陣,其第i個(gè)對(duì)角元素為:
(51)
同理,Sulwpc的矩陣表示為:
Sulwpc=XmLulwpcXmT。
(52)
其中,Lulwpc=Dulwpc-Wulwpc∈Rm×m,Dulwpc∈Rm×m是一個(gè)對(duì)角矩陣,它的第i個(gè)對(duì)角元素為:
(53)
(54)
(55)
將式(54),式(55)代入式(41),本文算法的目標(biāo)函數(shù)可進(jìn)一步表示為如下矩陣形式:
(56)
相應(yīng)地,廣義特征值問(wèn)題可表示為:
(57)
φ(x),φ(z)〉=κ(x,z)。
(58)
其中κ(x,z)表示半正定核函數(shù),高斯核函數(shù)作為經(jīng)典的核函數(shù)表達(dá)如下:
(59)
式中σ為高斯核寬度。有關(guān)其他核函數(shù)的定義請(qǐng)參見文獻(xiàn)[18]。
進(jìn)一步,令K表示核矩陣,其元素為:
Kij=〈φ(xi),φ(xj)〉=φ(xi)T×φ(xj)=κ(xi,xj)。
(60)
根據(jù)核理論,假設(shè)在F空間進(jìn)行本文算法降維,則公式(57)可進(jìn)一步表達(dá)為:
(61)
式中φ由{φ(x1),φ(x2),…,φ(xm)}擴(kuò)展得到:
(62)
式中:ai代表φ(xi)對(duì)應(yīng)的系數(shù),a=(a1,a2,…am)T表示系數(shù)矩陣。將式(62)帶入式(61)中,同時(shí)公式兩邊左乘φ(Xm)T得到:
(63)
HKRLFDAPC=(φ1,φ2,…,φr)=
φ(Xm)(a1,a2,…,ar)。
(64)
結(jié)合式(1)和式(64),可以獲得未知樣本x∈Rd×1在降維子空間的特征表達(dá)J∈Rr×1,如下所示:
φ(Xm)Tφ(x)=(a1,a2,…,ar)TK(:,x)。
(65)
其中K(:,x)=[κ(x1,x),κ(x2,x),…,κ(xm,x)]T。
(66)
算法1基于密度峰值聚類的正則化LFDA算法。
輸入:整體樣本集Xm∈Rd×m,有標(biāo)簽樣本集Xn∈Rd×n及其相應(yīng)的標(biāo)簽集yi∈{1,2,…,c},低維子空間的維度r,DPC的截?cái)嗑嚯xdc,高斯核寬σ,其中c為類別數(shù),d是原始空間維度,n是有標(biāo)簽樣本的數(shù)量,m表示訓(xùn)練樣本的數(shù)量,m>n,d≥r≥1;
輸出:投影矩陣HKRLFDAPC。
4.構(gòu)造高斯核矩陣K,求解式(57)的廣義特征值問(wèn)題;
5.選擇r個(gè)最大特征值對(duì)應(yīng)的特征向量構(gòu)造HKRLFDAPC∈Rm×r。
由以上分析可知,本文算法的計(jì)算復(fù)雜度主要由生成全體樣本聚類偽標(biāo)簽的DPC聚類算法的復(fù)雜度O(m2),計(jì)算有標(biāo)簽樣本的局部類間散度和類內(nèi)散度矩陣的復(fù)雜度O(n2)以及計(jì)算全體樣本的局部類間散度和局部類內(nèi)散度矩陣的復(fù)雜度O(m2)組成,其中m為全體樣本的數(shù)量,n為有標(biāo)簽樣本的數(shù)量。因?yàn)閙>n,所以本文算法總的計(jì)算復(fù)雜度為O(m2),這和其他現(xiàn)有LFDA算法及其變體的計(jì)算復(fù)雜度相同。
為了證明DPC-RLFDA算法處理數(shù)據(jù)降維問(wèn)題時(shí)的有效性,本文采用人工數(shù)據(jù)集、部分UCI數(shù)據(jù)集以及實(shí)際軸承故障診斷數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),分別對(duì)提出的算法與FDA及其改進(jìn)算法進(jìn)行性能測(cè)試和對(duì)比。
為了直觀地驗(yàn)證數(shù)據(jù)降維后的判別性能,本文以兩類分類界面作為判別超平面,具體定義如下所示:
(67)
為了直觀地描述本文提出的DPC-RLFDA算法的線性判別性能,將本文算法與LPP,PCA,FDA,LFDA,LPPLFDA,PCALFDA和SDLFDA算法的性能進(jìn)行對(duì)比分析。實(shí)驗(yàn)數(shù)據(jù)采用改造后Twomoons數(shù)據(jù)集,其樣本數(shù)為144個(gè),有標(biāo)簽樣本20個(gè),無(wú)標(biāo)簽樣本124個(gè);對(duì)于本文算法,截?cái)嗑嚯x選取使每個(gè)數(shù)據(jù)點(diǎn)的平均距離個(gè)數(shù)為數(shù)據(jù)點(diǎn)總數(shù)2%的距離大小。實(shí)驗(yàn)中將規(guī)范化折中參數(shù)β統(tǒng)一設(shè)置為0.5,降維維度設(shè)置為r=1。不同算法在改造后Twomoons數(shù)據(jù)集上降維后的判別性能如圖1所示,其中紅色和藍(lán)色數(shù)據(jù)點(diǎn)分別表示屬于不同簇的有標(biāo)簽樣本,綠色數(shù)據(jù)點(diǎn)表示無(wú)標(biāo)簽樣本。
如圖1所示,LPP算法和PCA算法得到的投影向量能最大程度地保留數(shù)據(jù)局部空間一致性和全部空間一致性。而FDA算法以及LFDA算法得到的投影向量能較好地實(shí)現(xiàn)有標(biāo)簽樣本的判別,但卻無(wú)法實(shí)現(xiàn)無(wú)標(biāo)簽樣本的準(zhǔn)確分類。這是由于這兩種有監(jiān)督降維算法沒有利用無(wú)標(biāo)簽樣本指導(dǎo)降維學(xué)習(xí),從而導(dǎo)致算法得到的投影向量只適用于有標(biāo)簽樣本區(qū)分。相比有監(jiān)督降維算法,基于LPP和PCA的半監(jiān)督降維算法SLPPLFDA和SPCALFDA雖利用無(wú)標(biāo)簽樣本有效保留了數(shù)據(jù)的局部空間一致性和全部空間一致性,但得到的投影向量同樣不能實(shí)現(xiàn)無(wú)標(biāo)簽樣本的有效區(qū)分?;诰垲惖陌氡O(jiān)督LFDA降維算法(SDLFDA)因模型受非高斯分布影響未能準(zhǔn)確實(shí)現(xiàn)無(wú)標(biāo)簽樣本的聚類偽標(biāo)簽求解,從而導(dǎo)致得到的投影向量無(wú)法實(shí)現(xiàn)無(wú)標(biāo)簽樣本的有效區(qū)分。相比而言,本文算法得到的投影向量不僅能準(zhǔn)確區(qū)分兩類有標(biāo)簽樣本,還也能實(shí)現(xiàn)無(wú)標(biāo)簽樣本的有效區(qū)分。這是由于本文算法采用DPC聚類技術(shù)求解偽標(biāo)簽,并利用偽標(biāo)簽構(gòu)造兩個(gè)正則化項(xiàng)用以規(guī)范LFDA類間散度矩陣和類內(nèi)散度矩陣,從而有效提升降維特征的判別性能。
為了直觀地驗(yàn)證本文提出的KDPC-RLFDA算法的非線性判別性能,將本文算法與KLPP、KPCA、KFDA、KLFDA、KSLPPLFDA、KSPCALFDA和KSDLFDA算法的性能進(jìn)行對(duì)比分析。其中數(shù)據(jù)集采用的是Twocircles數(shù)據(jù)集,其樣本數(shù)為500個(gè),其中有標(biāo)簽樣本157個(gè),無(wú)標(biāo)簽樣本343個(gè)。核參數(shù)為高斯核,高斯核寬度采用5次交叉驗(yàn)證從σ={0.1,0.3,0.5,0.7,1,3,5,10}中擇優(yōu)選取。對(duì)于本文算法,所有參數(shù)設(shè)置同上。不同算法在Twocircles數(shù)據(jù)集上降維后的判別性能如圖2所示,其中紅色和藍(lán)色數(shù)據(jù)點(diǎn)分別表示屬于不同簇的有標(biāo)簽樣本,綠色數(shù)據(jù)點(diǎn)表示無(wú)標(biāo)簽樣本。
如圖2所示,當(dāng)數(shù)據(jù)呈現(xiàn)非線性可分分布特征時(shí),與LPP和PCA相同,KLPP和KPCA同樣無(wú)法實(shí)現(xiàn)不同類別的有效區(qū)分。相比而言,KFDA和KLFDA算法在核函數(shù)選擇適當(dāng)時(shí),所產(chǎn)生的判別邊界可以有效區(qū)分不同類別的大多數(shù)有標(biāo)簽樣本。但是,由于KFDA和KLFDA屬于有監(jiān)督學(xué)習(xí)算法,不能利用無(wú)標(biāo)簽樣本指導(dǎo)降維學(xué)習(xí),因此得到的判別邊界無(wú)法實(shí)現(xiàn)不同類別無(wú)標(biāo)簽樣本的有效區(qū)分。與有監(jiān)督降維方法相比,基于LPP和PCA半監(jiān)督學(xué)習(xí)的KLPPLFDA和KPCALFDA算法雖然利用無(wú)標(biāo)簽樣本保持局部結(jié)構(gòu)和全局結(jié)構(gòu)的一致性假設(shè),但得到的判決界面仍無(wú)法實(shí)現(xiàn)無(wú)標(biāo)簽樣本的有效區(qū)分。KSDLFDA算法由于受不精確偽標(biāo)簽的影響,得到的判別邊界同樣無(wú)法有效區(qū)分不同類別的無(wú)標(biāo)簽樣本。相比其他算法,本文提出的KDPC-RLFDA算法可以有效實(shí)現(xiàn)有標(biāo)簽樣本和無(wú)標(biāo)簽樣本數(shù)據(jù)的區(qū)分。
為驗(yàn)證本文提出的算法對(duì)不同結(jié)構(gòu)數(shù)據(jù)集的判別性能,進(jìn)行下列實(shí)驗(yàn)。其中實(shí)驗(yàn)數(shù)據(jù)來(lái)源于國(guó)際機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)UCI中的8組不同的數(shù)據(jù)集,分別為WINE、BREAST CANCER、HABERMAN、IONOSPHERE、GLASS、HEART、SONAR和CAR,數(shù)據(jù)的特征信息如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)集描述
將本文算法與目前流行的其他判別分析算法進(jìn)行對(duì)比實(shí)驗(yàn),包括FDA算法、LFDA算法、LPPLFDA算法、PCALFDA算法、基于標(biāo)簽傳播半監(jiān)督線性FDA算法(Semi-Supervised Dimensionality Reduction Model,SSDRM)[23]、半監(jiān)督廣義判別分析算法(Semi-Supervised Generalized Discriminant Analysis,SSGDA)[14]、迭代半監(jiān)督判別分析算法(Semi-Supervised Discriminant Analysis,SSDA)[24]、基于聚類的半監(jiān)督LFDA降維算法(Semi-supervised Dense-clustering Local Fisher Discriminant Analysis,SDLFDA)[25]。其中分類器為1-NN分類器并采用正確分類率(CCR)作為性能評(píng)價(jià)指標(biāo),實(shí)驗(yàn)采用5次交叉驗(yàn)證,半監(jiān)督算法的參數(shù)β=0.5,本文算法的截?cái)嗑嚯x設(shè)置同上,降維維度r=2。同時(shí),為了消除隨機(jī)因素的影響,本文對(duì)每個(gè)算法均獨(dú)立運(yùn)行31次,然后取CCR的平均值,每個(gè)數(shù)據(jù)集的統(tǒng)計(jì)分析結(jié)果通過(guò)盒線圖進(jìn)行對(duì)比分析,結(jié)果如圖3所示。
由圖3中可知,FDA和LFDA的分類精度最低。這是由于FDA和LFDA屬于有監(jiān)督學(xué)習(xí),只依賴有標(biāo)簽樣本進(jìn)行學(xué)習(xí),導(dǎo)致其降維后的特征只適合有標(biāo)簽樣本的判別,泛化性能較弱。相比而言,雖然LPPLFDA算法和PCALFDA算法的分類性能有所提升,但由于二者都沒有充分利用無(wú)標(biāo)簽樣本的判別信息指導(dǎo)降維學(xué)習(xí),導(dǎo)致其性能提升并不明顯。其他基于標(biāo)簽傳遞和聚類技術(shù)的半監(jiān)督學(xué)習(xí)算法如SSDRM、SSGDA、SSDA和SDLFDA,雖利用了未標(biāo)簽樣本的判別信息指導(dǎo)降維學(xué)習(xí),但受偽標(biāo)簽生成精度的影響,其分類性能的提升并不顯著。從統(tǒng)計(jì)結(jié)果可以看出,本文提出的算法分類性能最優(yōu)。這是由于本文算法采用半監(jiān)督學(xué)習(xí)方式,能夠合理利用無(wú)標(biāo)簽樣本所含判別信息指導(dǎo)LFDA降維學(xué)習(xí),同時(shí)利用偽標(biāo)簽構(gòu)造兩個(gè)正則化項(xiàng)用以規(guī)范化LFDA類間散度矩陣和類內(nèi)散度矩陣,使得降維后的特征區(qū)分性能更強(qiáng),有利于后期的分類器分類,因此得到的分類性能最優(yōu)。
為了驗(yàn)證本文算法在處理多模態(tài)含噪聲數(shù)據(jù)時(shí)的降維性能,將其應(yīng)用在含多種故障類型的軸承故障檢測(cè)數(shù)據(jù)中。本次試驗(yàn)采用的所有數(shù)據(jù)均來(lái)自于軸承故障監(jiān)測(cè)試驗(yàn)臺(tái),試驗(yàn)臺(tái)由驅(qū)動(dòng)電機(jī)、滾動(dòng)軸承、傳動(dòng)齒輪、模擬負(fù)載、加速度傳感器和數(shù)據(jù)采集系統(tǒng)組成。為獲取不同類型的軸承故障信號(hào),在6206球軸承上人工引入3種結(jié)構(gòu)缺陷,其中包括外圈約0.6 mm寬的裂紋、內(nèi)圈約0.6 mm寬的裂紋和滾珠約1 mm直徑2 mm深的凹痕。試驗(yàn)采用6206球軸承,內(nèi)圈直徑33 mm,外圈直徑62 mm,球徑9.5 mm,球數(shù)10個(gè)。采樣率為10.24 khz,每個(gè)采樣點(diǎn)1 024個(gè)。試驗(yàn)在轉(zhuǎn)速為1 500 rpm的情況下進(jìn)行。在1 500 rpm工況下,外圈、內(nèi)圈和滾珠對(duì)應(yīng)的故障特征頻率分別為89.27 Hz、135.73 Hz和57.95 Hz。眾所周知,當(dāng)軸承發(fā)生故障時(shí),摩擦力和沖擊力的增加往往會(huì)引起時(shí)頻域參數(shù)的變化,使得正常軸承和故障軸承的信號(hào)在時(shí)域和時(shí)頻域上呈現(xiàn)出不同的分布特征。因此,在本試驗(yàn)中,首先選取12個(gè)與時(shí)域信號(hào)相關(guān)的統(tǒng)計(jì)特征,包括均值、平均絕對(duì)值、均方根、方差、標(biāo)準(zhǔn)差、峰、峰-峰,偏度、峰度、峰值因子、間隙因子和形狀因子。這12個(gè)特征在時(shí)域上都能有效反映不同軸承工況下對(duì)應(yīng)的時(shí)間序列分布特征。此外,為了能充分表達(dá)能量在時(shí)頻域的分布,本文還采用了5層DB4小波分解系數(shù)相關(guān)的6對(duì)能量和能譜熵特征,它們分別對(duì)應(yīng)5個(gè)細(xì)節(jié)層和1個(gè)近似層。同樣,本文還采用經(jīng)驗(yàn)?zāi)P头纸?Empirical Mode Decomposition,EMD)的6對(duì)能量和能譜熵特征來(lái)區(qū)分不同類型的故障信號(hào),分別對(duì)應(yīng)5個(gè)本征模態(tài)函數(shù)(IMF)和1個(gè)殘差分量。36維特征的詳細(xì)定義請(qǐng)參考文獻(xiàn)[29]。數(shù)據(jù)集包括8種不同健康狀況組合:正常(NC)、內(nèi)圈故障(IF)、外圈故障(OF)、滾動(dòng)體故障(RF)、IF+OF、OF+RF、IF+RF和IF+OF+RF。此外,為了模擬實(shí)際應(yīng)用,本文在數(shù)據(jù)集中加入白噪聲,得到信噪比分別為10 dB、5 dB和2 dB的3種噪聲數(shù)據(jù)。對(duì)于每個(gè)數(shù)據(jù)集,每類都有1 000個(gè)樣本,每個(gè)樣本有1 024個(gè)采樣點(diǎn),其中50%實(shí)例作為訓(xùn)練集,剩余的實(shí)例用于測(cè)試。采用1NN作為基分類器,考慮到FDA方法得到的降維子空間維數(shù)小于類數(shù),本次試驗(yàn)將低維空間維數(shù)r統(tǒng)一設(shè)置為7。為避免隨機(jī)性,獨(dú)立執(zhí)行每個(gè)算法31次,然后計(jì)算其平均CCR和偏差。對(duì)于半監(jiān)督算法,每次運(yùn)行時(shí)隨機(jī)選擇200個(gè)實(shí)例作為標(biāo)簽樣本,其余實(shí)例作為未標(biāo)簽樣本,其他實(shí)驗(yàn)參數(shù)設(shè)置同上。統(tǒng)計(jì)結(jié)果見表3。
表3 不同降維方法對(duì)4種多模態(tài)含噪軸承故障數(shù)據(jù)集的分類性能
如表3所示,與其他同類算法相比,本文提出的DPC-RLFDA降維算法在所有多模態(tài)和含噪聲的軸承故障數(shù)據(jù)集上表現(xiàn)最優(yōu)。此外,隨著信噪比降低,各種算法的分類精度也隨之變差。這意味著噪聲的存在對(duì)這些降維算法的性能產(chǎn)生了負(fù)面影響。因此,降低噪聲對(duì)降維算法性能的影響顯得尤為重要。所幸本文提出的DPC-RLFDA降維算法通過(guò)引入基于DPC的偽標(biāo)簽生成技術(shù)正則化項(xiàng),能有效識(shí)別噪聲或異常值的未標(biāo)簽樣本以及弱化有標(biāo)簽噪聲的權(quán)重,從而有效避免了噪聲對(duì)算法性能的影響。由實(shí)驗(yàn)結(jié)果可以看出,雖然隨著信噪比的降低,DPC-RLFDA算法的分類精度略有下降,但與其他同類降維算法相比,其在不同信噪比下仍能取得令人滿意的分類結(jié)果。綜上所述,將基于DPC的偽標(biāo)簽生成技術(shù)正則化項(xiàng)引入LFDA,不僅可以提高低維特征的識(shí)別能力,還可以有效避免噪聲對(duì)降維性能的影響。
為了比較本文提出的DPC-RLFDA降維算法在不同降維維度下的分類性能,分析了不同降維維度r在2~25范圍內(nèi)的分類結(jié)果,其中數(shù)據(jù)集仍采用上述的多模態(tài)軸承故障診斷數(shù)據(jù),每類含1 000個(gè)樣本,其中500個(gè)為訓(xùn)練樣本,剩余500個(gè)為測(cè)試樣本。本實(shí)驗(yàn)同樣采用最近鄰分類器作為基分類器,評(píng)價(jià)指標(biāo)為正確分類率(CCR),其他參數(shù)設(shè)置同上。
由于FDA算法降維維度需小于類別個(gè)數(shù),本實(shí)驗(yàn)只選取LPP,PCA,LFDA,LPPLFDA,PCALFDA,SSDRM,SSGDA,SSDA,SDLFDA算法與本文算法進(jìn)行對(duì)比。為消除隨機(jī)影響,每個(gè)算法獨(dú)立運(yùn)行31次,實(shí)驗(yàn)參數(shù)設(shè)置同上,對(duì)于半監(jiān)督算法,選取200個(gè)有標(biāo)簽樣本,300個(gè)作為無(wú)標(biāo)簽樣本,取平均分類正確率作為性能評(píng)價(jià)指標(biāo),其他實(shí)驗(yàn)結(jié)果如圖4所示。實(shí)驗(yàn)結(jié)果表明,在不同降維維度下,本文提出的DPC-RLFDA降維算法的平均分類正確率明顯優(yōu)于其他算法。
同理,為研究本文DPC-RLFDA算法同其他半監(jiān)督降維算法在不同數(shù)目有標(biāo)簽樣本訓(xùn)練下的分類性能,實(shí)驗(yàn)通過(guò)從50到450等間隔改變有標(biāo)簽樣本數(shù)目的方式進(jìn)行訓(xùn)練學(xué)習(xí),利用最近鄰分類器實(shí)現(xiàn)分類,并以正確分類率(CCR)作為性能評(píng)價(jià)指標(biāo)??紤]到FDA算法降維維度的限制,本次實(shí)驗(yàn)將降維維度r設(shè)置為7,其他參數(shù)設(shè)置同上。選取SSDRM,SSGDA,SSDA和SDLFDA4個(gè)半監(jiān)督偽標(biāo)簽降維算法進(jìn)行性能對(duì)比。得到的實(shí)驗(yàn)結(jié)果如圖5所示。
實(shí)驗(yàn)結(jié)果表明,同其他降維算法相比,本文算法在不同數(shù)目有標(biāo)簽訓(xùn)練樣本下的分類性能都優(yōu)于其他算法。此外,如圖5所示,隨著有標(biāo)簽樣本數(shù)目的增加,所有半監(jiān)督降維算法的分類性能都呈上升趨勢(shì),這主要是由于隨著有標(biāo)簽樣本數(shù)的增加,半監(jiān)督降維算法中FDA部分的學(xué)習(xí)更加充分,得到的降維子空間泛化性能更強(qiáng)。此外,隨著有標(biāo)簽樣本數(shù)的增加,本文算法同半監(jiān)督降維算法間分類性能的差異也隨著無(wú)標(biāo)簽樣本作用的降低而逐漸縮小。
由于本文采用了密度峰值聚類算法構(gòu)造偽標(biāo)簽,截?cái)嗑嚯xdc又是DPC的關(guān)鍵參數(shù),本實(shí)驗(yàn)部分研究了截?cái)嗑嚯xdc參數(shù)對(duì)DPC-RLFDA算法性能的影響。根據(jù)DPC算法經(jīng)驗(yàn),dc通常被設(shè)置成使得每個(gè)數(shù)據(jù)點(diǎn)的平均近鄰個(gè)數(shù)為數(shù)據(jù)點(diǎn)總數(shù)的1%~2%,因此假設(shè)這個(gè)比例為t,本文通過(guò)改變t從0.5%~10%的方式考察該參數(shù)對(duì)DPC-RLFDA算法降維性能的影響。實(shí)驗(yàn)數(shù)據(jù)同上,選取8個(gè)類別的樣本數(shù)據(jù),其中每個(gè)類別中500個(gè)樣本作為訓(xùn)練樣本,剩余500個(gè)樣本作為測(cè)試樣本。為了避免隨機(jī)影響,每次實(shí)驗(yàn)隨機(jī)選擇200個(gè)樣本作為有標(biāo)簽樣本,余下的300個(gè)作為無(wú)標(biāo)簽樣本,重復(fù)運(yùn)行31次并計(jì)算平均分類正確率,其他參數(shù)設(shè)置如上。其中降維維度設(shè)置為r=7,分類器采用最近鄰分類器進(jìn)行分類,實(shí)驗(yàn)結(jié)果如圖6所示。
由圖6可知,DPC-RLFDA算法的分類性能初期隨著t值的增加呈上升趨勢(shì),而后趨于平穩(wěn),后期出現(xiàn)下降趨勢(shì)。這是由于當(dāng)t值設(shè)置過(guò)小時(shí),每個(gè)樣本在計(jì)算局部密度時(shí)參考的近鄰樣本點(diǎn)較少,容易出現(xiàn)大量局部最優(yōu)解,極端情況,每個(gè)樣本點(diǎn)都是一個(gè)聚類中心,喪失了聚類的意義,如t=0.5%,每個(gè)樣本的參考近鄰點(diǎn)個(gè)數(shù)平均為500×0.5%=2.5。相反,當(dāng)t值設(shè)置過(guò)大時(shí),每個(gè)樣本在計(jì)算局部密度時(shí)參考的近鄰樣本點(diǎn)較多,極端情況,所有樣本點(diǎn)都成為了每個(gè)樣本點(diǎn)的參考近鄰點(diǎn),甚至出現(xiàn)只有一個(gè)聚類的情況。另外t的增大也會(huì)導(dǎo)致計(jì)算量增加。因此,通常需要將t設(shè)置為適中值,本文建議t=2%即可。
最后,為了驗(yàn)證提出的DPC-RLFDA算法與不同分類器相結(jié)合后的分類性能,將本文和其他算法同不同分類器結(jié)合后的性能進(jìn)行對(duì)比分析,所使用的分類器有多層感知機(jī)(Multi-Layer Perceptron,MLP)神經(jīng)網(wǎng),徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng),支持向量機(jī)(Support Vector Machine,SVM)和極限學(xué)習(xí)機(jī)(Extreme Learning Machines,ELM)等。支持向量機(jī)算法參數(shù)采用高斯核,懲罰因子和核寬度經(jīng)5次交叉驗(yàn)證利用網(wǎng)格搜索方法從σ={0.1,0.5,0.7,1,1.2,1.5,2,2.5,3}和C={2-2,2-1,1,21,22,23,26,28,210}中選取C=4和σ=1.2,RBF神經(jīng)網(wǎng),多層感知機(jī)神經(jīng)網(wǎng)和極限學(xué)習(xí)機(jī)的降維維度為7,隱層單元的個(gè)數(shù)為30,其他參數(shù)設(shè)置同上,每個(gè)算法獨(dú)立運(yùn)行31次,計(jì)算分類正確率平均值,實(shí)驗(yàn)結(jié)果如表4所示。結(jié)果表明,與其他降維方法的組合相比,DPC-RLFDA組合的分類器性能最優(yōu)。這說(shuō)明DPC-RLFDA算法能夠有效利用未標(biāo)記樣本來(lái)保持原始數(shù)據(jù)集中的局部聚類信息,從而使降維后的特征在不同類別間更具有區(qū)分性,進(jìn)而有利于提高后續(xù)分類器的分類性能,特別是在多模態(tài)數(shù)據(jù)集上。為測(cè)試本文DPC-RLFDA算法的抗噪性能,本文還對(duì)3個(gè)有噪聲的多模態(tài)軸承故障數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn)。表5~表7結(jié)果表明,本文DPC-RLFDA算法通過(guò)引入基于DPC偽標(biāo)簽生成技術(shù)的正則化項(xiàng),可以有效地緩解噪聲的影響,進(jìn)而具有較好的魯棒性。
表4 不同分類和降維方法組合對(duì)多模態(tài)軸承故障數(shù)據(jù)集的分類正確率平均值
表5 不同分類和降維方法組合對(duì)多模態(tài)含噪聲軸承故障數(shù)據(jù)集(DB0)的分類正確率平均值
表6 不同分類和降維方法組合對(duì)多模態(tài)含噪聲軸承故障數(shù)據(jù)集(DB5)的分類正確率平均值
表7 不同分類和降維方法組合對(duì)多模態(tài)含噪聲軸承故障數(shù)據(jù)集(DB2)的分類正確率平均值
本文提出一種基于密度峰值聚類的正則化LFDA算法,結(jié)合實(shí)驗(yàn)得到以下結(jié)論:
(1)本文采用半監(jiān)督學(xué)習(xí)方式,在考慮結(jié)構(gòu)一致性假設(shè)的前提下,通過(guò)密度峰值聚類算法合理利用無(wú)標(biāo)簽樣本信息指導(dǎo)有監(jiān)督FDA算法的學(xué)習(xí),使得到的投影向量更加具有鑒別能力。此外,本文算法的核版本也適合處理非線性數(shù)據(jù)集降維。人工數(shù)據(jù)集以及UCI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文算法得到的判決界面更符合數(shù)據(jù)的真實(shí)分布情況,進(jìn)而提升了降維特征的判別性能。
(2)利用聚類偽標(biāo)簽構(gòu)造兩個(gè)正則化項(xiàng)用以規(guī)范局部Fisher判別分析的類間散度矩陣和類內(nèi)散度矩陣;該正則化項(xiàng)不僅能有效提升降維特征的判別性能還能適用于處理多模態(tài)及含噪聲的數(shù)據(jù)集。多模態(tài)含噪聲的軸承故障診斷數(shù)據(jù)實(shí)驗(yàn)結(jié)果表明,與其他降維算法相比,本文算法因通過(guò)引入兩個(gè)正則化項(xiàng)指導(dǎo)LFDA算法降維學(xué)習(xí),使得降維后的特征區(qū)分性能更強(qiáng),更有利于處理多模態(tài)及噪聲數(shù)據(jù)集。
(3)本文算法與其他算法在不同降維維度,參數(shù)以及與不同分類器相結(jié)合后的性能對(duì)比實(shí)驗(yàn)結(jié)果表明,相比于其他算法,本文算法均獲得了較高的判別性能及魯棒性。
需要說(shuō)明的是,本文提出的算法仍是基于聚類偽標(biāo)簽構(gòu)造的正則化項(xiàng)實(shí)現(xiàn)半監(jiān)督降維,其性能無(wú)法避免受聚類結(jié)果的影響,未來(lái)能否通過(guò)構(gòu)造滿足全局和局部分布特征的相似度矩陣直接規(guī)范類間和類內(nèi)散度矩陣是課題組下一步研究的重點(diǎn)。
計(jì)算機(jī)集成制造系統(tǒng)2023年11期