陳敏瓊
(中山大學(xué)新華學(xué)院,廣州 510520)
利用SPSS進行判別分析的幾個問題的說明
陳敏瓊
(中山大學(xué)新華學(xué)院,廣州 510520)
判別分析是多元統(tǒng)計分析中最常用的方法之一,但由于其原理的復(fù)雜性與方法的多樣性,使其成為《多元統(tǒng)計分析》課程學(xué)習(xí)特別是SPSS軟件操作學(xué)習(xí)的難點之一。為此,對判別分析的幾種方法的原理進行總結(jié),針對利用SPSS進行判別分析過程中常見的若干疑點,先從理論上做推導(dǎo)說明,結(jié)合例子對SPSS判別分析的步驟和輸出結(jié)果作詳細解釋和說明。
判別分析;SPSS判別分析;步驟;解釋說明
判別分析是根據(jù)觀測到的樣品的若干數(shù)量特征(稱為因子或判別變量)對樣品進行歸類、識別,判斷其屬性的預(yù)報(預(yù)測)的一種多元統(tǒng)計分析方法。其基本原理大致為:建立判別函數(shù),給出判別準(zhǔn)則,最后將待判樣品代入判別函數(shù)進行判別。根據(jù)建立判別函數(shù)的方法的不同,具體可分為距離判別與Bayes判別,Bayes判別法又可分兩種:最大后驗概率法與最小誤判損失法。還有一種先對樣品進行投影后再采用距離判別的方法,即Fisher判別法,這三種方法是判別分析最常采用的方法。在SPSS操作中只能實現(xiàn)Bayes判別法與Fisher判別法兩種,并且這兩種方法的操作是合在一起進行的,輸出結(jié)果也比較混亂,據(jù)經(jīng)驗歸納,對于初學(xué)者來說常會提出以下幾點疑問:
①如何利用SPSS完成距離判別?
②SPSS菜單中哪些選項是針對Bayes判別設(shè)置的,哪些選項是針對設(shè)置的?
③SPSS輸出結(jié)果哪些部分是Bayes判別結(jié)果,哪些部分是Fisher判別結(jié)果?
④SPSS輸出判別函數(shù)或投影函數(shù)對應(yīng)的理論表達是什么?
⑤利用SPSS進行Fisher判別時,為何將樣品投影后按距離判別,此處距離只要計算歐氏距離而非統(tǒng)計學(xué)意義的馬氏距離?
針對上述種種疑點下文將逐步給出詳細解釋說明。
1.1 距離判別
設(shè)有k個總體,已知總體Gr的均值向量與協(xié)方差陣分別為μr,Σr>O,r=1,2,…,k,對于任意待判樣品X,可建立判別函數(shù)為:
特別地,若Σ1=Σ2=…=Σk=Σ,則判別函數(shù)可簡化為線性函數(shù):
距離判別法思想很簡單,適用條件也很寬松,只須知道各類的均值和協(xié)方差陣即可,實際應(yīng)用中常用樣本均值與樣本協(xié)方差陣來估計。
1.2 Bayes判別
此處僅介紹SPSS能操作完成的最大后驗概率法:設(shè)有k個總體G1,G2,…,Gk,已知這k個總體各自出現(xiàn)的概率(驗前概率)為q1,q2,…,qk,各總體有概率密度函數(shù)f1(x),f2(x),…,fk(x),則可建立判別函數(shù)為樣品X=x已知時,它屬于Gr的后驗概率P(X∈Gr|X=x),即:
簡化后為:
判別準(zhǔn)則為:
若G1,G2,…,Gk分別為p維正態(tài)總體,均值與協(xié)方差陣分別為μr,Σr>O,r=1,2,…,k,此時判別函數(shù)為:
進一步可簡化為:
特別地,若Σ1=Σ2=…=Σk=Σ,則判別函數(shù)可再簡化為線性函數(shù):
對比式(2)和式(5)可知,距離判別為Bayes判別法在各類總體為同方差的多維正態(tài)總體且先驗概率相同時有特殊情況。
1.3 Fisher判別
假設(shè)有k個p維的總體G1,G2,…,Gk,各總體的期望與協(xié)方差陣分別為μr,Σr>O,r=1,2,…,k,且已知若Σ1=Σ2=…=Σk=Σ,F(xiàn)isher判別法的思想是先對樣品進行投影再采用距離判別法判別,尋找的投影函數(shù)F(X)= a'X,a∈Rp必須使得投影后的各總體間差異能盡可能大地拉開,若記:
B,A分別稱為k個總體組間離差陣與組內(nèi)離差陣,則有結(jié)論[1~2]:
設(shè)Σ-1B的非零特征根為λ1≥λ2≥…λp>0,對應(yīng)的單位特征向量分別為l1,l2,…,lp,令:
注:由于投影函數(shù)的不唯一性,有時為了計算上方便可對投影函數(shù)做一些線性變換,如為了將k個總體的總的中心投至原點,投影函數(shù)可進一步變換為:
對于(7)式給出的投影表達式易知有以下兩點性質(zhì):
性質(zhì)一:
性質(zhì)二:
故對于待判樣品X,只須計算其投影后的點到各類總體投影后中心的歐氏距離再作判別,即投影后可建立判別函數(shù):
判別準(zhǔn)則為:
當(dāng)然,實際中只須取前一兩個投影函數(shù)即可將投影后各類樣品明顯分開。
2.1 判別分析的SPSS操作的幾點說明
(1)SPSS只能完成Bayes判別與Fisher判別,無法直接完成距離判別;
(2)SPSS中Bayes判別與Fisher判別的操作沒有分開進行;
(3)SPSS中給出的判別表達式(投影函數(shù))都是針對協(xié)方差陣相等的情形下給出的,對于協(xié)方差陣不相等的情況須手動計算。
(4)SPSS判別以Bayes判別為主,主要菜單與選項都是針對Bayes判別分析設(shè)置,并且最終保存的判別結(jié)果也是以Bayes判別為依據(jù);Fisher判別操作僅給出投影表達式、各類投影中心坐標(biāo)及投影分界圖,最終判別結(jié)果須我們自己根據(jù)各類投影中心坐標(biāo)或投影分界圖去做判別[5]。
2.2 例子說明
某地市場上銷售的收錄機有多種牌號,該地某商場從市場上隨機抽取了13種牌號的收錄機,其中有4種暢銷,有5種銷售一般,有4種滯銷。所調(diào)查的各種收錄機的質(zhì)量評分、功能評分和銷售價格資料如下表所示:
表1 某地各種收錄機的銷售狀況
其中變量x1指“質(zhì)量評分”,x2指“功能評分”,x3指“銷售價格”,g指“銷售狀態(tài)”:g=1指代“暢銷”狀態(tài),g= 2指代“平銷”狀態(tài),g=3指代“滯銷”狀態(tài),14號樣品為待判樣品。
假設(shè)有一新廠商來推銷其產(chǎn)品,其產(chǎn)品的質(zhì)量評分為7.0,功能評分為7.0,銷售價格為660元,現(xiàn)須將該產(chǎn)品的銷售前景進行預(yù)測(歸類)。
對本例采用SPSS進行判別分析的具體步驟如下:
①單擊Ana1yze→C1assify→Discriminant,從對話框左側(cè)的變量列表中選中進行判別分析的有關(guān)變量x1~x3進入Independents框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。從對話框左側(cè)的變量列表中選分組變量g進入Grouping Variab1e框,并點擊Define Range...按鈕,在Define Range對話框中,定義判別原始數(shù)據(jù)的類別數(shù),在Minimum(最小值)處輸入1,在Maximum(最大值)處輸入3。
②打開Statistics對話框,在Descriptives菜單下選擇:
Univariate ANOVAs,對各類中同一自變量均值都相等的假設(shè)進行檢驗,輸出單變量的方差分析結(jié)果。
Box's M,對各類的協(xié)方差矩陣相等的假設(shè)進行檢驗。
在Function Coefficients菜單下選擇:
Fisherh's:給出Bayes判別函數(shù)系數(shù)
Unstandardized:給出未標(biāo)準(zhǔn)化的典型判別系數(shù)(Fisher投影函數(shù))。
③打開C1assify對話框:
在Prior Probabi1ities菜單下,選擇先驗概率賦值方式(此項為Bayes判別選項):
A11 groups equa1:各類先驗概率相等(若選此項,得出結(jié)果便為距離判別法結(jié)果);
Compute from groups sizes:各類的先驗概率與其樣本量成正比(本例選擇)。
在Use Covariance Matrix菜單下,選擇計算中使用的共同協(xié)方差矩陣的估計方式:
Within-groups:使用合并類內(nèi)協(xié)方差矩陣進行分類(系統(tǒng)默認(rèn))(本例選擇);
Separate-groups:使用各類協(xié)方差矩陣進行分類。
在Disp1ay菜單下,選擇生成到輸出窗口中的分類結(jié)果(此項為Bayes判別選項)。
Casewise resu1ts:輸出每個觀測量包括判別分?jǐn)?shù)實際類預(yù)測類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗概率等;
Summary tab1e:輸出分類的小結(jié)給出正確分類觀測量數(shù)(原始類和根據(jù)判別函數(shù)計算的預(yù)測類相同)和錯分觀測量數(shù)和錯分率(本例選擇)。
Leave-one-out c1assification:輸出交互驗證結(jié)果。
在P1ots菜單下,選擇要求輸出的樣品投影圖(此項為Fisher判別選項)。
Combined-groups:生成一張包括各類的散點圖(本例選擇);
Separate-groups:每類生成一個散點圖;
Territoria1 map:根據(jù)生成的函數(shù)值把各觀測值分到各組的區(qū)域圖(本例選擇)。
④打開Save對話框,將以下三項全勾上:
Predicted group membership:建立一個新變量,系統(tǒng)根據(jù)判別分?jǐn)?shù)把觀測量按后驗概率最大指派所屬的類;
Discriminant score:保存各樣品的判別的分值,該得分是由未標(biāo)準(zhǔn)化的Fisher判別投影函數(shù)計算所得。
Probabi1ities of group membership:建立新變量表明觀測量屬于各類的后驗概率。
全部選擇完成后,點擊OK,輸出主要結(jié)果如下:
表2 Tests of Equality of Group Means每個變量各類均值相等的檢驗
此結(jié)果說明,x1,x2,x3三個指標(biāo)每個指標(biāo)均值在三類間都是有差異的,此檢驗通過說明判別有意義。
表3 Box's Test of Equality of Covariance Matrices協(xié)方差矩陣相等的檢驗
注意,sig值=0.483>0.05,說明檢驗通過,即各類的協(xié)方差相等的假設(shè)在0.05的顯著性水平下成立。
Summary of Canonica1 Discriminant典型判別函數(shù)綜述(此部分輸出Fisher判別相關(guān)結(jié)果)。
只有兩個判別(投影)函數(shù),所以特征值只有兩個。判別函數(shù)的特征值越大,說明函數(shù)越具有區(qū)別判斷力。最后一列表示是典則相關(guān)系數(shù),是組間平方和與總平方和之比的平方根,表示判別函數(shù)分?jǐn)?shù)與組別間的關(guān)聯(lián)程度。
表5 Wilks'Lambda判別函數(shù)檢驗
上表中“1through 2”表示兩個判別函數(shù)的平均數(shù)在三個類間的差異情況,P值為0.004表示差異達到顯著水平,即兩個投影函數(shù)能將各組樣品分開?!?”表示在排除了第一個判別函數(shù)后,第二個判別函數(shù)在三個組別間的差異情況,P值=0.049表示判別函數(shù)2也達到顯著水平,即第二個投影函數(shù)亦能將各組樣品分開。
表6 Canonical Discriminant Function Coefficients(非標(biāo)準(zhǔn)化典型判別函數(shù)系數(shù)矩陣)
由非標(biāo)準(zhǔn)化典型判別函數(shù)系數(shù)矩陣可寫出兩個判別函數(shù)即Fisher投影函數(shù)的表達式:
其中l(wèi)i為E-1H的第i大特征根對應(yīng)的單位特征向量(E,H分別為樣品組內(nèi)離差陣與組間離差陣)。
表7 Functions at Group Centroids類中心坐標(biāo)(非標(biāo)準(zhǔn)化典型判別下的類中心)
表7為各類樣品在上述F1,F(xiàn)2兩個投影函數(shù)下投影后的中心坐標(biāo)。
圖1 投影分界圖
圖1為各類樣品投影后的分界圖,其中“1”代表“暢銷”,“2”代表“平銷”,“3”代表“滯銷”,“*”代表各類投影中心,“32”分界線表明是第3類與第2類的投影后的界線,其余兩條意義類似。
由圖2可知待判樣品x0=(7.0,7,660),投影后的點離“平銷”類樣品投影后中心最近,故可判定X0來自第2類,即“平銷”一類。
C1assification Statistics分類分析(此部分輸出Bayes判別相關(guān)結(jié)果)。
圖2 各樣品投影后的散點圖
表8 先驗概率
表9 貝葉斯判別函數(shù)的系數(shù)
上表為貝葉斯判別函數(shù)的系數(shù)矩陣,可以用數(shù)學(xué)表達式表示為:
它對應(yīng)的表達式為(5)式中各總體均值μi與協(xié)方差陣Σ分別用樣本均值與樣本聯(lián)合方差陣Sp估計后所得表達:
圖3 增加了新變量后的數(shù)據(jù)窗口
返回數(shù)據(jù)窗口,可發(fā)現(xiàn)原數(shù)據(jù)窗口多了5列(如圖3)。
其中:Dis_1列顯示為各樣品按Bayes判別法判別所屬類別,可知待判別樣品x0=(7.0,7,660)屬于第2類,即“平銷”狀,此分類結(jié)果與前面Fisher判別法結(jié)果一致;Dis1_2,Dis2_2,Dis3_2列為樣品分別屬于第1類,第2類與第3類的后驗概率大??;Dis1_1,Dis2_1列為樣品在兩個Fisher投影函數(shù)下投影后的坐標(biāo);
最后結(jié)果匯總了將所有樣品包括各類訓(xùn)練樣品和待判樣品采用Bayes判別法判別后所屬類別與原始類別相比較,由匯總結(jié)果可知采用Bayes判別法判別正判率為92.3%。
本文總結(jié)了距離判別、Bayes判別與Fisher判別三種判別法的原理,并借助例子對這三種判別法的SPSS操作及輸出結(jié)果作了詳細說明,要特別說明的是:SPSS中判別分析操作輸出結(jié)果都是針對協(xié)方差陣相等的情形下給出的,故在做判別分析前,一定要對各類的協(xié)方差陣是否相等進行Box's M檢驗,只有檢驗通過了,本文給出的操作及輸出結(jié)果才可信,否則只能依照公式(1)或公式(4)手動計算后再做判別[3~4]。
表10 分類結(jié)果矩陣
[1] 何曉群.多元統(tǒng)計分析[M].北京:中國人民大學(xué)出版社,2008(9):105~112
[2] 高惠璇.應(yīng)用多元統(tǒng)計分析[M}.北京:北京大學(xué)出版社,2008(7):192~198
[3] 陳希傎,曹慧珍.判別分析與SPSS的使用[J].科學(xué)技術(shù)與工程,2008(7):3567~3574
[4] 任志娟.SPSS中判別分析法的正確使用[J].統(tǒng)計與決策,2006(2):157~157
[5] 張文彤.SPSS統(tǒng)計分析高級教程[M}.北京:高等教育出版社,2006(12):261~277
Instructions for Several Problems about the Discriminant Analysis Using SPSS
CHEN Min-qiong
(Xinhua Co11ege,Sun Yat-Sen University,Guangzhou 510520)
Discriminant ana1ysis is one of the most common1y used methods in mu1tivariate statistica1 ana1ysis,but because of the comp1exity of its princip1e and methods of diversity,making it one of the difficu1ties in 1earning the course of Mu1tivariate Statistica1 Ana1ysis,in particu1ar the 1earning of SPSS software operating.To do this,summaries the princip1e of severa1 methods of discriminant ana1ysis,according to the common prob1ems of SPSS in the process,does the first theoretica1 derivation,combined with examp1es,exp1ains the steps and output resu1ts of SPSS discriminant ana1ysis in detai1s.
Discriminant Ana1ysis;SPSS Discriminant;Procedure;Exp1ain
1007-1423(2015)05-0034-07
10.3969/j.issn.1007-1423.2015.05.007
陳敏瓊(1983-),女,江西吉安人,碩士,講師,研究方向為統(tǒng)計軟件分析與應(yīng)用
2014-12-30修改日期:2015-01-25
中山大學(xué)新華學(xué)院2014年院級教改項目(No.2014J001)