陳曉云 廖夢真
隨著大數(shù)據(jù)時代的到來,人們對數(shù)據(jù)的處理正面臨巨大挑戰(zhàn).在大數(shù)據(jù)應(yīng)用研究中,高維數(shù)據(jù)分析與研究是其主要內(nèi)容之一.在現(xiàn)代機器學(xué)習(xí)與統(tǒng)計學(xué)的研究背景下,高維數(shù)據(jù)所引發(fā)的維數(shù)災(zāi)難主要表現(xiàn)為:眾多低維空間中表現(xiàn)良好的算法在面對高維數(shù)據(jù)時性能急劇下降.其主要原因有:1)維數(shù)增加導(dǎo)致數(shù)據(jù)空間體積急劇膨脹、同等數(shù)量樣本分布非常稀疏,難以形成有效的簇;2)高維空間中存在測度“集中現(xiàn)象”,使樣本點間距離度量的類區(qū)分性隨著維數(shù)增加而減弱;3)樣本數(shù)據(jù)包含大量冗余信息對聚類或分類無用,甚至?xí)档退惴ǖ男阅?基于上述原因,對降維方法進行研究是十分有必要的.
總體上說,面向聚類的降維方法均為無監(jiān)督降維方法,可分為線性降維和非線性降維.當前,多數(shù)無監(jiān)督線性降維方法假設(shè)觀測數(shù)據(jù)落在一個低維流形子空間中,通過尋找高維空間到低維子空間的線性投影實降維,如主成分分析(Principal component analysis,PCA)[1]、局部保持投影 (Locality preserving projections,LPP)[2]、近鄰保持嵌入(Neighborhood preserving embedding,NPE)[3]和稀疏保持投影(Sparsity preserving projections,SPP)[4].PCA是最經(jīng)典的線性降維方法,以最大化投影散度為目標,但未考慮樣本間的近鄰結(jié)構(gòu)關(guān)系,不適合分布于流形上的非線性數(shù)據(jù);LPP和NPE則考慮了樣本間的近鄰結(jié)構(gòu),LPP以保持降維前后樣本間的近鄰關(guān)系不變?yōu)槟繕?而NPE旨在保持降維前后樣本間的局部近鄰結(jié)構(gòu);SPP的優(yōu)化目標是使降維前后樣本間的稀疏表示結(jié)構(gòu)得以保持.但當數(shù)據(jù)非線性分布時,上述線性降維算法就會失效.為彌補線性降維算法的不足,各種非線性擴展方法被提出,如核主成分分析(Kernel principal component analysis,KPCA)[5]和局部線性嵌入(Locally linear embedding,LLE)[6].KPCA是PCA基于核技巧的非線性推廣,用于對非線性分布數(shù)據(jù)降維;LLE以保持投影前后局部線性關(guān)系不變?yōu)槟康臉?gòu)造目標函數(shù).然而這些非線性降維方法無法求出顯式的映射函數(shù),當有新樣本加入時,需要重新學(xué)習(xí)優(yōu)化模型.
極限學(xué)習(xí)機(Extremelearningmachine,ELM)[7?8]最早被用于訓(xùn)練單隱層前饋神經(jīng)網(wǎng)絡(luò),具有學(xué)習(xí)速度快、泛化能力強等特點,為有監(jiān)督學(xué)習(xí)如分類和回歸提供了簡單有效的方法[9?10].2014年,Huang等基于流形正則的思想將ELM推廣到無監(jiān)督學(xué)習(xí)任務(wù),提出了一種新的非線性降維方法無監(jiān)督極限學(xué)習(xí)機(Unsupervised extreme learning machine,US-ELM)[11].該方法很好地利用了ELM的逼近能力,通過非線性映射將原數(shù)據(jù)投影到低維空間中,并能夠得到顯式的非線性映射函數(shù).但該方法利用高斯函數(shù)描述近鄰樣本間的相似度,由于高斯函數(shù)用到距離測度,難以避免地也存在高維空間中測度“集中現(xiàn)象”,即樣本點間高斯相似性度量的類區(qū)分性隨著維數(shù)增加而減弱,進而影響降維算法性能.此外,US-ELM 直接利用給定高斯函數(shù)計算樣本近鄰表示系數(shù),不具有數(shù)據(jù)自適應(yīng)性.
針對上述問題,本文對US-ELM進行改進,同時考慮非線性數(shù)據(jù)的局部線性表示和全局稀疏表示.其中,局部線性表示用于解決非線性流形數(shù)據(jù)的刻畫問題,以獲取數(shù)據(jù)的局部結(jié)構(gòu)[12];全局稀疏表示用于描述數(shù)據(jù)的全局結(jié)構(gòu)[13];并通過加權(quán)參數(shù)融合近鄰線性表示信息和稀疏表示信息.由此,我們提出基于稀疏和近鄰保持的極限學(xué)習(xí)機降維方法(SNP-ELM),使得降維前后樣本間的局部近鄰表示關(guān)系和全局稀疏性保持不變.SNP-ELM通過學(xué)習(xí)得到近鄰表示系數(shù),較之US-ELM具有更好的數(shù)據(jù)自適應(yīng)性.
極限學(xué)習(xí)機本質(zhì)上是一種單隱含層前饋神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示[14].ELM 網(wǎng)絡(luò)的訓(xùn)練主要分為兩個階段.第一個階段是ELM網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建,隱含層將輸入數(shù)據(jù)映射到n維的特征空間中,nh為隱節(jié)點個數(shù).定義隱含層關(guān)于xi的輸出向量為h(x)=[h1(x),h2(x),···,hnh(x)]∈R1×nh。其中,x∈Rm,hi(x)是第i個隱節(jié)點的輸出,其輸出函數(shù)可以表示為:
其中,g(ai,bi,x)為非線性激勵函數(shù),常用的函數(shù)有Sigmoid函數(shù)和Gaussian函數(shù).本文采用Sigmoid函數(shù),其表達式為:
式中,ai為第i個隱節(jié)點的輸入權(quán)值,bi為第i個隱節(jié)點的偏差,在ELM網(wǎng)絡(luò)中輸入權(quán)向量ai和隱節(jié)點偏差bi是隨機產(chǎn)生的.
圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 ELM network structure
對于數(shù)據(jù)集X,ELM隱藏層輸出為:
若隱藏層到輸出層的權(quán)重矩陣為β=[β1,β2,···,βm],則 ELM 網(wǎng)絡(luò)的輸出為
第二階段是基于ELM網(wǎng)絡(luò)結(jié)構(gòu)求解輸出權(quán)重矩陣β,通常根據(jù)ELM網(wǎng)絡(luò)學(xué)習(xí)任務(wù)的不同構(gòu)建不同的模型來求解輸出權(quán)重矩陣β.經(jīng)典的ELM模型用于解決有監(jiān)督學(xué)習(xí)問題,如:分類和回歸.對于含n個樣本的訓(xùn)練集S={(xi,yi)|xi∈X?Rm,yi∈Y?Rd,i=1,···,n},xi為輸入變量,yi為輸出變量,則其模型表示:
其中,目標函數(shù)的第一項為正則項,用來控制模型的復(fù)雜度;第二項為表示誤差,ei∈Rd是第i個樣本的誤差向量,C為懲罰系數(shù).
近年來,Huang等將ELM推廣到無監(jiān)督學(xué)習(xí),提出基于流形無監(jiān)督極限學(xué)習(xí)機,其模型為:
第二項為流形正則項,目的是使網(wǎng)絡(luò)結(jié)構(gòu)輸出Y保持原輸入數(shù)據(jù)X的流形結(jié)構(gòu)不變,其中,tr(·)表示矩陣的跡,L為數(shù)據(jù)X的拉普拉斯矩陣,I為單位陣,H(X)∈Rn×nh為隱含層輸出矩陣.USELM將輸入數(shù)據(jù)投影到d維空間中,當d US-ELM算法引入流形正則化的思想,使得原始數(shù)據(jù)的流形結(jié)構(gòu)經(jīng)過US-ELM投影后得以保持,即若在原空間近鄰的兩個樣本在投影空間中仍然保持近鄰[2].US-ELM算法的流形結(jié)構(gòu)直接用Gaussian距離刻畫,隨著數(shù)據(jù)維數(shù)的增加,該距離度量的類分類性會隨之減弱.針對這一問題,本文采用近鄰表示來自適應(yīng)地獲取數(shù)據(jù)的低流形結(jié)構(gòu),同時用稀疏表示來挖掘數(shù)據(jù)的全局結(jié)構(gòu).在此基礎(chǔ)上提出SNP-ELM 算法,使得數(shù)據(jù)在新的投影空間中保持其在原空間的近鄰和稀疏表示結(jié)構(gòu). 近鄰表示[4]:在樣本集X=[x1,x2,···,xn]∈Rm×n中用xi的k近鄰進行線性表示xi,其表達式為: 其中,Nk(xi)表示xi的k近鄰,wij為近鄰表示系數(shù),當xi∈Nk(xi)時,wij=0. 稀疏表示[5]:樣本xi可大致由該樣本集中的少量樣本線性表示.而當xi由整個樣本空間X進行線性表示時,其表示系數(shù)是稀疏的.其數(shù)學(xué)模型表示為: 其中,si∈Rn為稀疏表示系數(shù),||s||0是s非零元素個數(shù).由于l0范數(shù)非凸且NP難,因此用凸的l1范數(shù)代替.同時為了確保稀疏表示的平移不變性,我們引入表示系數(shù)和為1的約束,則式(8)變?yōu)? 其中,I1為所有元素均為1的n維向量.式(9)是凸的,可以利用線性規(guī)劃方法求解,如基追蹤算法(Basis pursuit,BP)[15]. SNP-ELM模型為: 第二項的目的是使得投影后的數(shù)據(jù)保持原數(shù)據(jù)的近鄰和稀疏表示結(jié)構(gòu),其中W=[w1,w2,···,wn]為近鄰表示系數(shù)矩陣,wi表示xi的近鄰表示系數(shù),可以用模型(7)求解:S=[s1,s2,···,sn]為稀疏表示系數(shù)矩陣,si表示xi的稀疏表示系數(shù),可以用模型(9)求解.δ∈R和η∈R是權(quán)重系數(shù),分別反映W和S的重要性.映射函數(shù)為y=f(x)=(h(x)β)T. 令Z=δW+ηS,則式(10)可寫成: 通過簡單的代數(shù)運算,可以得到: 令ei為n維單位向量,則式(12)等價于: 式(11)可變形為: 為避免平凡解,在此引入約束(H(X)β)TH(X)β=I,則模型變?yōu)? 為求解模型(15),利用拉格朗日乘子法,得到以下拉格朗日函數(shù): 求解廣義特征值問題(17)得到最小的d個特征值及對應(yīng)的特征向量構(gòu)成最優(yōu)的輸出權(quán)重矩陣β?. 當nh>n時,HT(X)H(X)的維數(shù)比較高,直接求解式(17)廣義特征值問題,需要消耗較大的內(nèi)存.為解決這個問題,令β=HT(X)α,式(17)兩邊同時左乘(H(X)HT(X))?1H(X).得到: 易知模型(17)與模型(18)具有相同特征值.特征向量具有以下關(guān)系 因此解得廣義特征值問題(18)的最小的d個特征值及對應(yīng)的特征向量構(gòu)成矩陣α?.進而可獲得模型(17)的解矩陣β?=HT(X)α?. 基于上述分析,基于稀疏和近鄰保持的極限學(xué)習(xí)機降維算法歸納如下: 算法1.SNP-ELM算法 輸入:數(shù)據(jù)矩陣X,參數(shù)λ,δ,η. 輸出:降維后樣本矩陣Y. 1)計算k近鄰圖. 2)通過式(8)計算近鄰重構(gòu)矩陣W. 3)通過式(10)計算稀疏重構(gòu)矩陣S,計算Z=δW+ηS,A=I?Z?ZT+ZTZ. 4)初始化ELM 網(wǎng)絡(luò),nh為隱藏層節(jié)點個數(shù),隨機初始化輸入權(quán)重a∈Rn×nh,偏置b∈Rnh根據(jù)式(3)計算隱藏層輸出矩陣H(X)∈Rn×nh. 5)當n>nh時,利用式(17)計算得到輸出權(quán)重矩陣β;否則,利用式(18)計算得到α,再計算輸出權(quán)重矩陣β=HT(X)α. 6)計算降維后樣本矩陣Y=H(X)β SNP-ELM算法中計算k近鄰圖的時間復(fù)雜度是O(mnlogn);計算近鄰重構(gòu)矩陣W是求解了n次式(8),其時間復(fù)雜度為O(nk3);用BP算法求解式(10)的時間復(fù)雜度為O(n3),因此計算稀疏重構(gòu)矩陣S的時間復(fù)雜度為O(n4);計算廣義特征值式(18)的時間復(fù)雜度為O(n3h),求解廣義特征值式(20)的時間復(fù)雜度為O(n3).因此SNP-ELM算法的時間復(fù)雜度為O(mnlogn+n4+nk3). 本文提出的SNP-ELM降維算法有兩個重要目的,其一是便于高維數(shù)據(jù)的可視化分析,其二是面向聚類分析的降維可有效地提高聚類準確性,故進行數(shù)據(jù)可視化及高維基因數(shù)據(jù)降維聚類實驗,兩個實驗的實驗環(huán)境均為Win7系統(tǒng),內(nèi)存4GB,所有方法均用Matlab2012b編程實現(xiàn).兩個實驗均采用相同的參數(shù)設(shè)置,LPP、NPE、US-ELM和SNP-ELM的近鄰數(shù)k均設(shè)為5;US-ELM和SNP-ELM的隱藏層節(jié)點個數(shù)均設(shè)為1000;US-ELM的參數(shù)λ及SNP-ELM 的參數(shù)λ統(tǒng)一取{10?4,10?3,···,104},SNP-ELM 的參數(shù)δ和η的搜索范圍為[?1,1],變化步長為0.2. 本文實驗所對比的降維方法主要有以下幾種:1)線性降維方法:PCA、LPP、NPE和SPP;2)非線性降維方法:LLE和US-ELM.其中LPP、NPE、LEE和US-ELM都使得降維后的數(shù)據(jù)保持原數(shù)據(jù)的近鄰結(jié)構(gòu),SPP保持數(shù)據(jù)的稀疏表示結(jié)構(gòu),PCA的目標是使得降維后數(shù)據(jù)方差最大. 本實驗中,我們分別用PCA、LPP、NPE、SPP、LEE、US-ELM和SNP-ELM 7種方法將一個人造數(shù)據(jù)和一個真實的UCI數(shù)據(jù)Wine分別投影到一維和二維空間,直觀地展示SNP-ELM算法的性能,并選取每個降維方法的最優(yōu)結(jié)果進展示. 1)一維可視化 本實驗使用的三維人造數(shù)據(jù)如圖2所示,該數(shù)據(jù)包含3類,每類有50個樣本,該實驗分別將數(shù)據(jù)降到一維,實驗結(jié)果如圖3所示. 圖2 人造數(shù)據(jù)集Fig.2 The toy dataset 圖3 人造數(shù)據(jù)一維可視化結(jié)果Fig.3 The 1D visualization results of toy dataset 從圖3可以看出PCA以投影后的樣本方差最大為目標,其降維結(jié)果近似于把該數(shù)據(jù)投影到Z軸方向,但其將該數(shù)據(jù)投影到一維時三類數(shù)據(jù)的可分性較差.LPP、NPE、LLE和US-ELM 均以降維后樣本保持原樣本的近鄰結(jié)構(gòu)為目的,因此其降維效果略有改善.其中LLE和US-ELM是非線性降維方法,其降維后不同類樣本的分離程度較LPP和NPE高些.稀疏保持投影方法SPP以降維后樣本保持原樣本的稀疏結(jié)構(gòu)為目的,該方法將數(shù)據(jù)投影到一維后不同類樣本的分離程度與US-ELM相當.SNP-ELM 是一種非線性降維方法,它使降維后樣本同時保持數(shù)據(jù)的近鄰結(jié)構(gòu)和稀疏結(jié)構(gòu)不變.SNP-ELM雖然無法使得該數(shù)據(jù)投影到一維后三類樣本完全分離,但其降維后不同類樣本可分性是7種降維方法中最優(yōu)的,只有少數(shù)第三類樣本與第二類樣本相互重疊. 2)二維可視化 本實驗使用UCI數(shù)據(jù)集Wine數(shù)據(jù),Wine數(shù)據(jù)包含來自3個類的178個樣本,每個樣本有14個特征.實驗結(jié)果如圖4所示. 由圖4可以看出,經(jīng)7種降維方法將Wine數(shù)據(jù)投影到2維時仍無法完全分離3類樣本.但從不同類樣本的重疊程度上可以看出,SPP將數(shù)據(jù)降到二維后3類數(shù)據(jù)完全重疊在一起,降維效果最差.用PCA、LPP、NPE、LLE和US-ELM 這5種方法降維后第一類數(shù)據(jù)能較好地分離,而第二類和第三類數(shù)據(jù)完全重疊在一起.本文方法將Wine數(shù)據(jù)降到二維后,不同類數(shù)據(jù)的重疊程度最低,不同類樣本的可分性最好. 本實驗采用高維基因表達數(shù)據(jù)測試本文方法與對比方法面向聚類任務(wù)時的降維效果.為了觀察本文降維方法將數(shù)據(jù)投影到不同維數(shù),特別是投影到較低維時基因表達數(shù)據(jù)聚類效果,將數(shù)據(jù)分別投影到21,22,23,24,···,2n維.該實驗以降維后樣本的k-means聚類準確率衡量降維質(zhì)量,實驗中的聚類準確類采用文獻[13]的計算方法.計算公式如下: 其中,n為樣本數(shù),δ(x,y)表示當x=y時,δ=1,否則δ=0;si和ri分別為樣本原始類標簽和經(jīng)聚類算法聚類后得到的類標簽:map(ri)將聚類得到的類標簽映射成與樣本數(shù)據(jù)自帶的類標簽等價的類標簽. 1)實驗數(shù)據(jù)集 實驗所選用的6個公開的基因數(shù)據(jù)集:SBCRT、DLBCL、Leukemia2、Prostate[16]、Prostate0和Colon[17],這些數(shù)據(jù)的詳細描述見表1. 2)聚類準確率比較 圖4 Wine數(shù)據(jù)二維可視化結(jié)果Fig.4 The 2D visualization results of Wine 表1 基因表達數(shù)據(jù)集描述Table 1 Summary of gene expression data sets 為減少k-means初始中心隨機選取以及USELM和SNP-ELM 方法隨機權(quán)重產(chǎn)生的隨機誤差.為便于比較,減少實驗結(jié)果隨機性的影響,實驗中US-ELM和SNP-ELM分別運行10次,再將每次降維后數(shù)據(jù)集執(zhí)行10次k-means聚類,取100次聚類準確率的平均值作為各自方法的最終準確率,而其他降維方法的聚類準確率是10次k-means聚類準確率的平均值.最終實驗結(jié)果如表2所示,表中給出聚類準確率的均值 (方差、維數(shù)),其中維數(shù)為每個數(shù)據(jù)最優(yōu)聚類結(jié)果所對應(yīng)的維數(shù).對兩種極限學(xué)習(xí)機降維方法US-ELM 和SNP-ELM 分別給出最優(yōu)聚類結(jié)果所對應(yīng)的參數(shù).LPP、NPE、LLE、US-ELM 和SNP-ELM 這5種方法都在降維時保持了原始數(shù)據(jù)的近鄰結(jié)構(gòu),SPP和SNP-ELM都保持了原始數(shù)據(jù)的稀疏結(jié)構(gòu),其中LLE、US-ELM 和SNP-ELM 是非線性降維方法,SNP-ELM同時保持原始數(shù)據(jù)的近鄰結(jié)構(gòu)和稀疏結(jié)構(gòu).將這5種方法降維后的聚類準確率進行對比可以發(fā)現(xiàn):1)將NPE和LPP分別與LLE和USELM的準確率進行對比,可以發(fā)現(xiàn)后者的準確率比前者高,這是因為LEE和US-ELM分別是NPE和LPP的非線性推廣,非線性降維方法更適用于非線性分布的基因表達數(shù)據(jù).2)SPP與LPP、NPE進行比較其聚類結(jié)果各有千秋,在DLBCL、Prostate0和Colon這3個數(shù)據(jù)集上SPP的結(jié)果較好,而在其他數(shù)據(jù)集上LPP和NPE的結(jié)果較好,這說明稀疏保持和近鄰保持各有優(yōu)勢.3)SNP-ELM的聚類準確率是最高的,其主要原因是SNP-ELM既是非線性降維方法,又同時保持了原始數(shù)據(jù)的近鄰表示結(jié)構(gòu)和稀疏表示結(jié)構(gòu)使得降維后低維空間的數(shù)據(jù)保持了更多的判別信息.將表2中的所有方法進行對比,可以發(fā)現(xiàn)基于ELM的2種降維方法的準確率普遍優(yōu)于其他降維方法.特別是SNP-ELM算法考慮到降維后樣本局部近鄰關(guān)系和全局稀疏性保持不變,從而使其在全部6個基因數(shù)據(jù)降維后的聚類準確率最高,且高于其他方法及US-ELM方法10%以上.這說明SNP-ELM是一種有效的高維非線性降維方法. 為進一步對比幾種降維方法在不同維數(shù)下的聚類準確率,分別選取目標維數(shù)2,4,8,16,32,···執(zhí)行各種降維算法,各種降維算法在不同維數(shù)下的聚類準確率如圖5所示.從圖5可以看出SNPELM及其余6種降維算法將6個數(shù)據(jù)集投影到相同維數(shù)的特征空間時,SNP-ELM的聚類準確率都是最高的.而對于SNP-ELM算法,除Prostate和Prostate0兩個數(shù)據(jù)集,在其他4個基因數(shù)據(jù)集上都在8維處得到最高的聚類準確率. 表2 基因數(shù)據(jù)集上聚類準確率(%)Table 2 Clustering accuracy comparison(variance)on gene expression data sets(%) 圖5 將6個數(shù)據(jù)集映射到不同維度特征空間時的聚類準確率Fig.5 Clustering accuracy on six gene expression data in different dimensions 3)參數(shù)分析 SNP-ELM 模型有3個參數(shù)λ,δ和η,其中λ為正則參數(shù).δ和η為權(quán)重系數(shù),分別表示近鄰重構(gòu)系數(shù)和稀疏重構(gòu)系數(shù)的重要性.本節(jié)討論不同參數(shù)對實驗結(jié)果的影響,由前面的實驗結(jié)果可知將基因表達數(shù)據(jù)降到8維時能夠得到較高的聚類準確率,因此在進行參數(shù)分析時我們固定維數(shù)為8.根據(jù)3個參數(shù)在SNP-ELM 中的不同作用,將其分為兩組分別進行分析,正則參數(shù)λ單獨分析,權(quán)重系數(shù)δ和η一起分析.其中,λ的取值范圍為{10?4,10?3,···,104},δ和η的取值范圍為[?1,1],取值步長為0.2. 圖6給出δ=η=?0.2時,SNP-ELM降維的聚類準確率隨參數(shù)λ不同取值的變化情況.從圖6可以看出,除了Leukema2在λ=10?4時聚類準確率達到最高,其余5個基因表達數(shù)據(jù)均在λ=10?3時聚類準確率達到最高.這說明對高維基因數(shù)據(jù)而言,λ取較小值時本文方法能達到較好效果. 圖6 聚類準確率隨參數(shù)λ的變化情況(δ=η=?0.2)Fig.6 Variation of accuracy with respect of parametersλ(δ= η= ?0.2)) 圖7給出λ=0.001時,不同δ和η取值下的聚類準確率.從圖7可以看出當δ取值自[?0.6,?0.2],η取值自[?0.2,0.2]時,對高維基因表達數(shù)據(jù)而言SNP-ELM算法可以取得較高的聚類準確率. 圖7 不同δ和η取值下的聚類準確率(λ=0.001)Fig.7 ariation of accuracy with respect of parametersδandη(λ=0.001) 目前,ELM模型主要用于有監(jiān)督分類或回歸問題,本文則對ELM模型推廣到無監(jiān)督降維問題進行了進一步研究,提出基于稀疏和近鄰結(jié)構(gòu)保持的極限學(xué)習(xí)機降維算法SNP-ELM.SNP-ELM通過模型優(yōu)化求解計算近鄰表示系數(shù),具有一定的數(shù)據(jù)自適應(yīng)性,實驗結(jié)果表明SNP-ELM算法在Wine數(shù)據(jù)和基因表達數(shù)據(jù)集上性能優(yōu)于其他對比方法.從研究中我們可以得到以下2個結(jié)論:1)對Wine數(shù)據(jù)、高維基因表示數(shù)據(jù)降維時,同時考慮稀疏結(jié)構(gòu)和近鄰結(jié)構(gòu)比只考慮單一結(jié)構(gòu)更有效;2)基于ELM的非線性降維方法在Wine數(shù)據(jù)和基因表達數(shù)據(jù)上優(yōu)于線性降維方法.2 基于稀疏和近鄰保持的極限學(xué)習(xí)機降維
2.1 近鄰表示和稀疏表示
2.2 基于稀疏和近鄰保持的極限學(xué)習(xí)機降維算法
2.3 模型求解
2.4 算法分析
3 實驗
3.1 數(shù)據(jù)可視化實驗
3.2 基因表達數(shù)據(jù)實驗
4 結(jié)論