馬馮艷
(重慶師范大學涉外商貿(mào)學院數(shù)學與計算機學院,中國 重慶401520)
在生產(chǎn)﹑科研和日常生活中我們經(jīng)常會遇到判別分類問題,在這些問題中,已經(jīng)知道研究對象可以分為幾個類,而且對這些類別也已經(jīng)作了一些觀測,取得了一批樣本數(shù)據(jù).我們需要對這些數(shù)據(jù)進行處理,找到不同類別之間的顯著性區(qū)別和判別方法.
主分量分析和線性判別分析是我們最常用的兩種方法[1].主分量分析又稱主成分分析,也有稱經(jīng)驗正交函數(shù)分解或特征向量分析.判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值,判別其類型歸屬問題的一種多變量統(tǒng)計分析方法.線性判別分析是判別分析的一種,它是運用線性方程進行判別.Fisher線性判別為線性判別中最重要的判別方法之一[2].
主分量分析的基本原理:把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,是一降維處理技術.主分量分析的基本思想:主分量分析是設法將原來眾多具有一定相關性的指標(比如p個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標.通常數(shù)學上的處理就是將原來p個指標作線性組合,作為新的綜合指標[3].
Fisher線性判別分析的基本原理:將高維空間中的類映射到低維空間,并且要求在低維空間類與類之間較好區(qū)分,是一降維處理技術.Fisher線性判別分析的基本思想:對于多個類來講,我們希望類內(nèi)離散度越小越好,類間離散度越大越好.對于原始的類,我們想通過將其投影到低維空間,并且要求經(jīng)過投影后達到類內(nèi)離散度最小,類間離散度最大.在投影的過程中,如果投影到一維空間效果不是很好,我們可以將其維數(shù)增多[4].
現(xiàn)對三類品種的鳶尾屬(Iris)植物進行研究,希望通過研究鳶尾屬植物的幾個主要指標,可以將一個未知樣本進行歸類.對鳶尾屬植物的四個指標進行了統(tǒng)計.對統(tǒng)計數(shù)據(jù)作如下變換:
①對所有樣本數(shù)據(jù)X進行中心化標準化.
②對處理后的數(shù)據(jù)求解相關系數(shù)矩陣R得
③求解R的特征值λi和特征向量ei.
表1 特征值,及其貢獻率﹑累計貢獻率表
由上表可以看出,前三個特征值的累積貢獻率已達到99.485%,所以我們選取前三個特征值所對應的特征向量為主成分,這樣我們就將四維空間降到三維空間.原始數(shù)據(jù)經(jīng)過主分量分析,位數(shù)降低,得到變換Y=X*E.
經(jīng)過主分量分析,原始數(shù)據(jù)已經(jīng)降到三維,我們將對得到的三維空間里的數(shù)據(jù)再次進行降維處理.我們選取各類中的前40個樣本代表該類進行研究.
④分別計算出各類的樣本均值mk和所有樣本的均值m
⑤計算類內(nèi)離散度矩陣Sw和類間離散度矩陣Sb
⑥計算Sb和Sw的廣義特征值和特征向量
由于η2比η1小很多,并且η2接近于0,所以我們只選取特征值η1所對應的特征向量組成最優(yōu)投影矩陣
⑦對Y進行Fisher線性判別,得到變換Z=Y*W.
⑧計算經(jīng)過變換后所得到的類的均值
通過主分量分析和Fisher線性判別,我們將樣本由四維空間降到一維空間.由上面的計算,我們可以得到公式Z=X*E*W.
隨機選取45個樣本得到樣本組x,在選取樣本時,前15個樣本是從第一類中抽取的,中間15個樣本是從第二類中抽取的,最后15個樣本是從第三類中抽取的.我們首先對需要判別的樣本進行變換,然后分別計算這45個樣本到三類均值的距離
dij表示第i個樣本到第j類的距離.
表2 樣本到各類的距離表
表2中加粗的數(shù)字表示該樣本距離某類均值距離最小,也就是樣本屬于這個類.判別結(jié)果為前15個樣本判為第一類,中間16個樣本判為第二類,最后14個樣本判為第三類.其中第31個樣本通過距離判別判為第二類,而這個樣本是從第三類中抽取的;其他樣本判別均正確.在這次判別中,錯誤率為1/45,我們認為判別是比較合理的.對所有的樣本都進行分類判別,其錯誤率為4/150,我們認為對數(shù)據(jù)的處理以及距離判別的方法是比較合理的.
我們在研究鳶尾屬植物的三個品種時,首先運用主分量分析,在這個過程中維數(shù)降低了一維,但我們保留了99.485%的原有信息,可以說這一數(shù)據(jù)變換很有意義.在主分量分析之后,我們再運用Fisher線性判別分析,將數(shù)據(jù)進行投影,投影到一維空間.然后我們選取了45個樣本進行分類判別時,判別結(jié)果比較理想,從而驗證了兩次降維處理的有效性和距離判別的可行性.
[1]陸元鴻.數(shù)理統(tǒng)計方法[M].上海:華東理工大學出版社,2005,8.
[2]吳翊,李永樂,胡慶軍,等.應用數(shù)理統(tǒng)計[M].長沙:國防科技大學出版社,2005.
[3]朱永生.實驗數(shù)據(jù)多元統(tǒng)計分析[M].北京:科學出版社,2009.
[4]楊淑瑩.模式識別與智能計算Matlab技術實現(xiàn)[M].北京:電子工業(yè)出版社,2008.
[5]李弼程,邵美珍,黃潔.模式識原理與應用[M].西安:西安電子科技大學出版社,2008.