曹 靜,胡海波,宋丁全
(南京林業(yè)大學森林資源與環(huán)境學院,江蘇南京 210037)
Fisher線性判別方法(Fisher Linear Discriminant Analysis,FLD)是1936年Fisher提出的[1]。它的目標是在原始樣本空間里找到某(幾)個方向,把樣本投影到該方向上后分開的效果最好,即根據實際情況找到最易于分類的投影線[2]。Fisher線性判別是運用方差分析的思想來導出判別函數(shù)[3],即在已知研究對象分成若干類型,并已取得各種類型的一批已知樣品的觀測數(shù)據的基礎上,用多元函數(shù)極值思想,通過使類間方差達到最大而類內方差達到最小,建立判別式,然后對未知類型的樣品進行判別分析[4-5]。
近年來,Fisher線性鑒別分析在模式識別領域得到了廣泛的應用和擴展[6]。游華等[7]運用Fisher判別法對于三類鳶尾花進行判別,取得了較為滿意的結果。張焱等[8]基于Fisher判別分析對川金絲猴亞種進行鑒定,同樣取得了良好的結果。鐘紹軍等[9]將Fisher判別法應用于乳房癌的診斷中,對未知乳房腫瘤性質的病例進行了成功的診斷。近年來,基于Fisher鑒別準則的線性鑒別分析方法在人臉識別、漢字識別等模式識別領域,均取得了較好的效果。如苑瑋琦[10]、桑海峰[11]等基于二維 Fisher線性判別對人耳的識別;高全華等[12]基于Fisher準則特征融合策略對PNN車牌漢字識別的研究。
在植物識別的問題上,由于各植物之間的界線往往不一定很清晰,在許多情況下都帶有模糊性。例如:描述一朵花是紅色的,這個紅色的概念有淺紅色的、深紅色的、紫紅色的、桔紅色的等,這是一個不明確的概念。而數(shù)值分類則是按一定數(shù)學方法,建立數(shù)學模型,對樣本進行識別,相對而言比較客觀。從植物分類學的角度來看,葉片是植物最為直觀的外觀特征之一,并且非常易于采集與攜帶。本文旨在通過建立Fisher判別模型對相似的兩種葉片進行判別。選取苦櫧(Castanopsis sclerophylla)和青岡櫟(Cyclobalanopsisglauca)的葉片為研究對象,主要是由于兩種植物葉型相似性較大,一般地,以葉鋸齒及葉背面顏色區(qū)分,本文收集兩種植物的葉片長度及葉片 1/2處寬度作為定量指標,從定量分析的角度對兩種葉片的判別進行嘗試。
Fisher判別法的基本思想是將高維數(shù)據點投影到低維空間(如一維直線)上,數(shù)據點比較密集,從而可以克服由于維數(shù)高而引起的“維數(shù)禍根”[1]。本文主要考慮兩類(k=2)的情況,多類的情況可以依此類推。從兩個總體中抽取具有 n個指標的樣本觀測數(shù)據,借助方差分析的思想構造一個判別函數(shù)或稱為判別式:y=C1x1+C2x2+…+Cnxn,確定系數(shù)的原則是使兩組間方差達到最大,而使每個組內部的方差達到最小,得出判別式之后,對于一個新的樣本,將它的 n指標代入該判別式求出 y值,然后與判別臨界值 C進行比較,依據判別準則就可以判別它屬于哪一個總體。
設有兩個類群(Ⅰ,Ⅱ),從兩個類群中分別獨立地抽取p和q個 n維樣本,數(shù)據按類群分別排列如表1所示。
則兩個類群的分類均值可以分別表示為:
表1 樣本數(shù)據分列表
現(xiàn)假設判別函數(shù)為:
為了使判別函數(shù)能夠很好地區(qū)分來自不同類群的樣品,構造函數(shù):
由此可確定判別函數(shù)的系數(shù)C1,C2,…,Cn,從而得出新的判別函數(shù):
有了判別函數(shù)后,要進行判別還需確定判別值 C,在兩兩總體先驗概率相等的條件假設下,一般取C為-y(1)和-y(2)加權平均值,即:
判別值
代入判別函數(shù)y=C1x1+C2x2+…+Cnxn,則判別規(guī)則為:對于新樣品x,將其代入判別函數(shù)求得y值,如果y>C,則x屬于第Ⅰ類;如果y<C,則x屬于第Ⅱ類。
②將樣本數(shù)據回代至判別函數(shù),計算兩類重心,依式(6)計算判別值 C,再按判別規(guī)則判別。
③回判檢驗,計算誤判率及判別準確度。
采集苦櫧、青岡櫟葉片各 50片。收集葉片長度和葉片 1/2處寬度的度量數(shù)據。取葉片長 l為橫坐標,葉片1/2處寬度 d為縱坐標,將這些度量數(shù)據作出散點圖,如圖1所示。
從圖1中可以看到:雖然長度l和寬度d的大量數(shù)據有隨機性,但從總體上看,點的分布具有一定的規(guī)律性,苦櫧和青岡櫟在平面中各占據一定的區(qū)域。在圖中尋找分界線,假如另有一個待鑒定的標本,度量了相應的葉長l和葉寬d,在坐標圖中描點P(l,d),若P在分界線之上為青岡櫟,在下為苦櫧。于是獲得一個利用作圖進行判別鑒定的方法,在此基礎上,把作圖法定量化,用Fisher判別分析法進行判別分析。
圖1 苦櫧與青岡櫟長度與寬度散點圖
類群Ⅰ:苦櫧,指標n=2,原始數(shù)據p=50;
類群Ⅱ:青岡櫟,指標n=2,原始數(shù)據q=50。
根據Fisher判別函數(shù)的運算步驟得出:
(2)d1=0.856;d2=-0.78。
(3)S11=532.851 6;S12=192.623;S22=81.851 4。
(4)判別系數(shù)C1=220;C2=-581;判別函數(shù)為y=220x1-581x2。
(5)判別值C=-4.914。
(6)回判檢驗,將建立模型的 100組樣本數(shù)據逐一回判,結果顯示判別準確率為 94%。
(1)為了準確考察苦櫧與青岡櫟葉片F(xiàn)isher判別模型的有效性與正確性,筆者另采集苦櫧與青岡櫟的樣本數(shù)據各25枚,回判率為92%。50個擴大樣本數(shù)據的Fisher判別結果如表2所示。
表2 50個擴大樣本數(shù)據的Fisher法測定值判別結果
(2)筆者就葉形相似的浙江楠、紫楠葉片同樣進行了Fisher判別函數(shù)的建立及判別,結果顯示判別回歸率為92%,此判別結果比較穩(wěn)定,也表明Fisher判別分析對于同類問題的研究具有一定的實際意義。
(3)本文旨在為同類問題的研究提供一些基礎。對于同類研究問題,如特征相似的多種植物的分類,可以根據需要選取各種特征作為參數(shù)進一步研究,若能客觀地獲得多組分類屬性,同時進行最優(yōu)組合因子的選取,將能有效地提高預測的準確度。
(4)本研究還有需進一步完善的地方:本文考慮取樣的客觀性及方便性,選取顯示植物最直觀特征之一的葉片為研究對象,有些難以準確量化的指標沒有選取,指標體系有待完善;另外,由于文中選取的樣本數(shù)據有限,在實際應用中需進一步積累數(shù)據。
[1] Fisher R A.The Use of Multiple Measurements in Taxonomic Problems[J].Annals of Eugenics,1936(7):179-188.
[2] 周德龍,高文,趙德斌.基于奇異值分解和判別式KL投影的人臉識別[J].軟件學報,2003,14(4):783-789.
[3] 張露露.基于Fisher判別法的企業(yè)財務危機預警研究[J].企業(yè)導報,2010(2):47-48.
[4] 周靜芋,宋世德,郭滿才.常用費歇判別準則的比較[J].西北農林科技大學學報:自然科學版,2002,30(5):121-123.
[5] 顏可珍.基于Fisher判別分析法巖質邊坡穩(wěn)定性評價[J].公路,2010,1(1):1-4.
[6] Ahonen T,Hadid A,Pietikainen M.Face Description with Local Binary Patterns:Application to Face Recognition[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.
[7] 游華,郭福星.最優(yōu)組合因子Fisher判別法[J].福州大學學報:自然科學版,2001,29(3):1-4.
[8] 張焱,湯強.Fisher判別分析法在川金絲猴亞種鑒定中的應用[J].生物數(shù)學學報,2003,18(2):238-242.
[9] 鐘紹軍,葉小青.費歇判別法在乳房癌診斷中的應用[J].黃岡師范學院學報,2004,24(3):27-31.
[10] 苑瑋琦,郭偉芳,柯麗.基于二維Fisher線性判別的人耳識別[J].光電工程,2009,2(36):132-136.
[11] 桑海峰,金云平,苑瑋琦.基于二維Fisher線性判別的人臉耳組合識別[J].光電子激光,2010,4(21):588-592.
[12] 高全華,張士勇,孫鋒利.基于Fisher準則特征融合策略的PNN車牌漢字識別[J].現(xiàn)代電子技術,2010,8(319): 106-110.