張文盛, 劉忠寶
(1. 山西大學商務(wù)學院 信息中心, 山西 太原 030031;2. 中北大學 計算機與控制工程學院, 山西 太原 030051)
?
基于Matlab仿真的數(shù)據(jù)降維實驗設(shè)計
張文盛1, 劉忠寶2
(1. 山西大學商務(wù)學院 信息中心, 山西 太原030031;2. 中北大學 計算機與控制工程學院, 山西 太原030051)
在Matlab的基礎(chǔ)上,以3種經(jīng)典的數(shù)據(jù)降維方法——主成分分析(PCA)、線性判別分析(LDA)和保局投影算法(LPP)為例,給出3種降維方法的最優(yōu)化比較結(jié)果,對數(shù)據(jù)降維實驗方法進行了探討和設(shè)計。通過UCI標準數(shù)據(jù)集和ORL、Yale人臉數(shù)據(jù)集的比較實驗表明:3種降維方法均能較好地完成降維任務(wù),其中LPP和LDA數(shù)據(jù)降維方法效率較優(yōu),但在不同的實驗條件下,表現(xiàn)略有不同。
數(shù)據(jù)降維; Matlab仿真; 主成分分析; 線性判別分析; 保局投影算法
隨著互聯(lián)網(wǎng)的飛速發(fā)展,產(chǎn)生了海量數(shù)據(jù),如何從海量數(shù)據(jù)中挖掘有用知識成為一個熱點問題。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取知識的處理過程,研究數(shù)據(jù)挖掘技術(shù)具有重要的現(xiàn)實意義。數(shù)據(jù)降維是數(shù)據(jù)挖掘的重點問題之一。數(shù)據(jù)降維指從高維數(shù)據(jù)獲取一個能真實反映原始數(shù)據(jù)固有特性的低維表示[1]。本文以3種經(jīng)典的數(shù)據(jù)降維方法——主成分分析(principal component analysis,PCA)[2]、線性判別分析(linear discriminant analysis,LDA)[3]和保局投影算法(locally preserving projections,LPP)[4]為例,對數(shù)據(jù)降維實驗方法進行深入探討。鑒于Matlab優(yōu)良的數(shù)據(jù)處理能力及其在分析統(tǒng)計和圖形繪制方面具的優(yōu)勢,筆者提出基于Matlab仿真的數(shù)據(jù)降維實驗設(shè)計方法。學生在學習數(shù)據(jù)降維的基本理論后,利用Matlab實現(xiàn)上述3種降維算法,通過對標準UCI數(shù)據(jù)集和人臉數(shù)據(jù)集實驗的深入分析,加深對數(shù)據(jù)降維知識的理解。
假設(shè)x=(x1,x2,…,xN)T為由N個d維樣本xi(i=1,2,…,N)組成的數(shù)據(jù)集,Ni(i=1,2,…,c)為各類樣本數(shù),其中c為類別數(shù)。
1.1主成分分析(PCA)
主成分分析的基本思想是通過對高維數(shù)據(jù)進行壓縮,從而獲得一組具有代表性的統(tǒng)計特征。主成分分析能夠用較少的特征來描述原始數(shù)據(jù),并且保證在降維的同時盡量保持數(shù)據(jù)的原始特征。本質(zhì)上,主成分分析可以轉(zhuǎn)化為計算數(shù)據(jù)矩陣x協(xié)方差的特征值和特征向量問題[5]。對數(shù)據(jù)矩陣x中的各行向量進行零均值處理后可得x的協(xié)方差矩陣:
(1)
對上式中C進行正交分解有
(2)
其中λ=diag(λ1,λ2,…,λN),λi(i=1,2,…,N)為C的特征值且按降序排列;V=[V1,V2,…,VN],Vi(i=1,2,…,N)為與特征值λi對應(yīng)的特征向量,將其稱為第i個主成分方向。
數(shù)據(jù)集x在前n個主成分方向上降維后的信息保留率θ為
(3)
在實際應(yīng)用中,一般取θ>0.85。
1.2線性判別分析(LDA)
線性判別分析保證樣本在其找到的降維方向上具有較好的可分度,即同類樣本盡可能緊密,而異類樣本盡可能遠離[6]。上述思想可由如下優(yōu)化問題表示:
(4)
其中,WLDA為線性判別分析找到的降維方向,SB是類間離散度,表示異類樣本之間的距離;SW是類內(nèi)離散度,表示同類樣本之間的距離。SB和SW的定義如下:
(5)
(6)
1.3保局投影算法(LPP)
保局投影算法的基本思想是保持高維數(shù)據(jù)在降維過程中相對關(guān)系不變,該思想可由如下最優(yōu)化問題表示:
(7)
(8)
其中WLPP為降維方向,Dii=∑jSij,權(quán)重函數(shù)Sij用來表征樣本之間的相似度,其定義如下:
(9)
其中t為常數(shù)。
上述最優(yōu)化問題經(jīng)代數(shù)變換可得如下形式:
(10)
(11)
其中L=D-S。
保局投影算法的降維方向WLPP可由方程XLXTWLPP=λXDXTWLPP的特征向量得到。
實驗的軟硬件環(huán)境是IntelCorei3CPU,4GRAM,Windows7和Matlab7.0。實驗的基本步驟如下:
(1) 將實驗數(shù)據(jù)集按照一定比例劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集;
(2) 在訓練數(shù)據(jù)集上分別運行PCA、LPP、LDA等降維方法,得到相應(yīng)的降維方向WPCA、WLPP、WLDA;
(3) 將測試數(shù)據(jù)集中的樣本依次投影到降維方向WPCA、WLPP、WLDA上;
(4) 將降維后的測試樣本通過支持向量機(supportvectormachine,SVM)與訓練樣本進行比較,得到識別結(jié)果。
2.1UCI數(shù)據(jù)集上的實驗
選取UCI標準數(shù)據(jù)集中的Wine數(shù)據(jù)集[9],該數(shù)據(jù)集中樣本數(shù)為178,類別數(shù)為3,維度為13。在上述數(shù)據(jù)集上分別運行PCA、LPP、LDA等降維方法,降維數(shù)為2,支持向量機算法的參數(shù)為
實驗結(jié)果如圖1所示,其中class1、class2、class3分別表示3類樣本。
由圖1可以看出:通過PCA降維后的3類樣本重疊率較高,而且數(shù)據(jù)分布很不規(guī)律,降維效率較低;LPP和LDA均能較好地完成降維,但兩者表現(xiàn)略有不同。通過LPP降維后的樣本分布較為松散,并在各類邊界有一定的重疊,但基本上能將3類樣本分開;通過LDA降維后的樣本分布緊湊,特別是3類樣本沒有重疊,與PCA和LPP相比,LDA降維能力較優(yōu)。這是因為LDA在降維時保證同類樣本距離盡可能近,而異類樣本盡可能遠,因此,通過LDA降維后的樣本具有良好的可分性。
圖1 UCI數(shù)據(jù)集上的實驗結(jié)果
2.2人臉數(shù)據(jù)集上的實驗
實驗選取ORL人臉數(shù)據(jù)集和Yale人臉數(shù)據(jù)集,其中ORL人臉數(shù)據(jù)集包括40個人、每人10幅圖像、共400幅圖像,Yale人臉數(shù)據(jù)集包括15個人的165幅圖像。上述人臉數(shù)據(jù)集的部分人臉圖像如圖2所示。實驗分別選取ORL人臉數(shù)據(jù)集每人前m(m=4,5,6,7)幅圖像以及Yale人臉數(shù)據(jù)集每人前n(n=5,6,7,8)幅圖像為訓練數(shù)據(jù)集,剩余樣本用作測試。支持向量機的實驗參數(shù)和在ORL、Yale數(shù)據(jù)集上分別運行PCA、LPP、LDA等降維方法,得到的實驗結(jié)果如表1所示。
圖2 人臉數(shù)據(jù)集部分人臉圖像
數(shù)據(jù)集參數(shù)kPCALPPLDAORLδ2=x-2,C=0.540.8167(30)0.8458(28)0.8875(30)50.8550(20)0.8950(24)0.9150(28)60.8563(18)0.9563(28)0.9188(28)70.8917(22)0.9167(20)0.9333(28)Yaleδ2=4x-2,C=0.150.6778(12)0.7556(14)0.7889(14)60.6533(14)0.6933(14)0.7467(12)70.7667(12)0.8500(12)0.9000(14)80.8222(10)0.8889(12)0.8667(12)
注:括號外的值表示算法的識別率,括號內(nèi)的值表示取得相應(yīng)識別率時的維數(shù)。
由表1可以看出:與PCA和LPP相比,LDA在大多數(shù)情況下均能得到最優(yōu)的降維效率。當訓練樣本選取ORL人臉數(shù)據(jù)集每人前m(m=4,5,7)幅圖像以及Yale人臉數(shù)據(jù)集每人前n(n=5,6,7)幅圖像為訓練數(shù)據(jù)集時,LDA具有最優(yōu)的降維效率;當訓練樣本選取ORL人臉數(shù)據(jù)集每人前6幅圖像以及Yale人臉數(shù)據(jù)集每人前8幅圖像為訓練數(shù)據(jù)集時,LPP的降維效率最優(yōu),LDA次之,但兩者相差不大。PCA在上述ORL和Yale人臉數(shù)據(jù)集上基本能完成降維,但降維效率較LPP和LDA低。
2.3進一步的實驗
另外,LDA和LPP分別基于樣本的全局特征和局部特征進行降維。需要研究一種兼顧樣本的全局特征和局部特征的新的降維方法,以進一步提高降維效率。
本文在Matlab的基礎(chǔ)上,對PCA、LDA、LPP數(shù)據(jù)降維方法進行了實驗研究。通過UCI標準數(shù)據(jù)集以及人臉數(shù)據(jù)集的降維實驗表明,LPP和LDA數(shù)據(jù)降維方法效率較優(yōu),但在不同的實驗條件下表現(xiàn)略有不同。該實驗有助于學生深入理解數(shù)據(jù)降維的基本理論,為后續(xù)分類和聚類方法的學習奠定基礎(chǔ)。
References)
[1] 劉忠寶.基于核的降維和分類方法及其應(yīng)用研究[D].無錫:江南大學,2012.
[2] Du M J,Ding S F,Jia H J. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J].Knowledge-Based Systems,2016,99:135-145.
[3] Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. Fisherfaces:recognition Using Class Specific Linear Projection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1997,19(7):711-720.
[4] He X F,Niyogi P. Locality Preserving Projections[C]//Advances in Neural Information Processing Systems (NIPS).Vancouver,2003:153-160.
[5] Nobi A,Lee J W. State and group dynamics of world stock market by principal component analysis[J].Physica A:Statistical Mechanics and its Applications,2016,450:85-94.
[6] 王明合,張二華,唐振民,等.基于Fisher線性判別分析的語音信號端點檢測方法[J].電子與信息學報,2015,37(6):1343-1349.
[7] Zhao Y,Wang K. Fast cross validation for regularized extreme learning machine[J].Journal of Systems Engineering and Electronics,2014,25(5):895-900.
[8] 郭美麗,覃錫忠,賈振紅,等.基于改進的網(wǎng)格搜索SVR的話務(wù)預測模型[J].計算機工程與科學,2014,36(4):707-712.
[9] University of California Irvine. UCI Machine Learning Repository[EB/OL].http://archive. ics.uci.edu/ml/datasets/Wine.
[10] Alibeigi M,Hashemi S,Hamzeh A. DBFS:an effective density based feature selection scheme for small sample size and high dimensional imbalanced data sets[J].Data & Knowledge Engineering,2012,81/82(4):67-103.
Design of dimension reduction experiments based on Matlab simulation
Zhang Wensheng1, Liu Zhongbao2
(1. Information Center,Business College of Shanxi University,Taiyuan 030031,China;2. School of Computer and Control Engineering,North University of China,Taiyuan 030051,China)
The dimension reduction experiments based on Matlab simulation are designed. The performances of several traditional dimension reduction methods such as the principal component analysis (PCA), the linear discriminant analysis (LDA), the locally preserving projection (LPP) algorithm are compared in the standard datasets,and it can be concluded that the above methods can complete the dimension reduction task while their performances are slightly different from each other in different cases.
dimension reduction; Matlab simulation; principal component analysis (PCA); linear discriminant analysis (LDA); locally preserving projection(LPP)algorithm
10.16791/j.cnki.sjg.2016.09.030
2016-03-31
山西省高等學??萍紕?chuàng)新項目(2014142)
張文盛(1974—),男,山西曲沃,碩士,實驗師,主要研究領(lǐng)域為實驗室信息化建設(shè)
E-mail:hello811120@sina.com
劉忠寶(1981—),男,山西太谷,博士,副教授,主要研究領(lǐng)域為智能信息處理.
E-mail:liu_zhongbao@hotmail.com
TP391
A
1002-4956(2016)9-0119-03