張國儉
(晉中學院數(shù)學學院,山西晉中030619)
判別分析是一種應用十分廣泛的統(tǒng)計分析方法,在經(jīng)濟學、地質(zhì)學、醫(yī)學、氣象學等學科中均有廣泛的應用.判別分析的方法主要有距離判別、貝葉斯判別、費歇判別、逐步判別、非參數(shù)判別等[1~3],對判別準則的評價方法有回代估計法、交叉確認估計法[1](刀切法[4])、前瞻性考核[4]等.總體而言,它們只研究了判別方法及對判別準則的評價,而沒有對一個固定的樣品其判別優(yōu)劣評價的研究,而現(xiàn)實中這樣的評價又具有重要的意義.有鑒于此,本文首先對兩個正態(tài)總體的樣品判別優(yōu)劣的評價進行了研究,然后又推廣到多個正態(tài)總體,提出了待判域的概念,用以鑒別距離差沒有統(tǒng)計學意義的樣品,在此基礎上,提出了判別系數(shù)的概念,用以對樣品判別的優(yōu)劣進行評價.最后,指出了本文的不足之處以及需要進一步研究的方面.
定理1.1[1]設G1和G2是兩個不同的p維已知總體,其均值向量分別為μ1和μ2,協(xié)方差矩陣相等且都為Σ,x0為一樣品值,記W(ix0)=+bi,ai=Σ-1μi,bi=Σ-1μi,i=1,2.則判別準則為:
定理 1.2[1]設 G1,G2,…,Gk是 k 個不同的 p 維已知總體,其均值向量分別為 μ1,μ2,…,μk,協(xié)方差矩陣相等且都為Σ,x0為一樣品值,記W(ix0)=+bi,ai=Σ-1μi,bi=μi,i=1,2,…,k.則判別準則為:
對于x是p維隨機向量,有如下的結論:
定理1.3[1]設x~Np(μ,Σ),又Y=ATx+b,其中b為p維常向量,AT是l×p矩陣,rank(AT)=l,則Y~Nl(ATμ+b,ATΣA).
定理1.4若x~N(μ,Σ),則Wi(x)~N(+bi,Σai),i=1,2,…,k.
證明:x是來自p維正態(tài)總體的任一樣品,由定理1.3知,隨機變量Wi(x)服從正態(tài)分布.下面求Wi(x)的數(shù)學期望與方差:
證畢.
注:這里為了整篇文章的符號統(tǒng)一,上面有些定理中的符號做了適當?shù)男薷?,只是所用的符號不同,不會影響整個定理的正確性.
大家只對判別準則的評價進行了研究,對于一個固定的樣品,并沒有對其判別評價的研究,而現(xiàn)實中后者又有重要的意義.比如,有某種疾病,樣本分為患病和不患病兩類.在馬氏距離判別準則下,如果某樣品的數(shù)據(jù)指標離兩個總體的距離相等,就無法對其進行判別,即使把其歸為其中的一類,其實際意義也不大.同理,如果其數(shù)據(jù)指標雖然不等,但很接近,其實際意義也不大.如果此樣品為患者,說明此樣品剛患病,其數(shù)據(jù)指標不明顯.如果此樣品不是患者,說明此樣品患病的趨勢已經(jīng)很明顯,稍不加注意就可能患病,應該進行藥物控制或多加強鍛煉.所以,患病和不患病中間還有一個比較模糊的區(qū)域.下面對樣品的判別函數(shù)的差異進行顯著性檢驗,提出了待判域的概念,用以對數(shù)據(jù)指標沒有明顯所屬的樣品進行鑒別,同時提出了判別系數(shù)的概念,用以對樣品的判別優(yōu)劣進行評價.
對一個固定的樣品來說,不同的觀測有不同的觀測向量,所以可以把它看作一個隨機向量.設樣品x=(x1,x2,…,xp)T是p維空間中的一個隨機向量,由于它取自協(xié)方差陣皆為Σ的正態(tài)總體中的一個,故可設x~Np(μ,Σ)(μ未知).而具體的數(shù)據(jù)向量x0=(x10,x20,…,xp0)T看成x的一個觀測向量,下面對判別函數(shù)的差異做顯著性假設檢驗.
設G1和G2是兩個不同的p維正態(tài)總體,其均值向量分別為μ1和μ2,協(xié)方差矩陣相等且都為Σ.由定理1.1可以確定判別函數(shù)Wi(x),i=1,2.
由定理1.4知,Wi(x)~N(+bi,Σai),i=1,2.不妨設W1(x0)>W(wǎng)2(x0),下面對E(W1(x))>E(W2(x))做顯著性檢驗:
拒絕域 {u≥u1-α}[5],其中 u1-α為標準正態(tài)分布的 1-α 分位數(shù).
定義2.1把上面的保留域{u<u1-α}稱為判別分析中樣品x0的待判域.
由定義2.1知道,如果x0落入待判域,說明樣品x0離兩個總體的馬氏平方距離差沒有統(tǒng)計學意義.可以把x作為待觀察的對象.
檢驗的p值為:p=1-Φ(u0),其中u0是由x0算出的u值.
由p值的意思可知,p值越小,越拒絕原假設,判別越好.
定義2.2把R=1-p=Φ(u0)稱為樣品x0的判別系數(shù).
由定義2.2知道,0<R<1,且R越接近1,判別越好.而R越接近0,判別越差.一般情況下,判別可以接受時,應有R≥0.9.
設 G1,G2,…,Gk是 k 個不同的 p 維正態(tài)總體,其均值向量分別為 μ1,μ2,…μk,協(xié)方差矩陣相等且都為Σ,由定理1.2知,判別準則為x0∈,若x0)=W(ix0).
拒絕域 {u'≥u1-α}.
若{u'<u1-α}成立,則E(W(1)(x))>(W(2)(x))沒有統(tǒng)計學意義,說明x到總體(1)和到總體(2)的馬氏平方距離差沒有統(tǒng)計學差別,x可以被判屬于總體(1),也可以被判屬于總體(2),甚至還可以被判屬于其他總體.這時,我們說x是待判的.即待判域為{u'<uα}.
否則,E(W(1)(x))>E(W(2)(x))有統(tǒng)計學意義.就可以說,x到(1)這個總體的距離最?。衳屬于總體(1).
判別系數(shù)為:R=Φ(u0'),其中,u0'是由x0算出的u'值.
1)本文只研究了總體為正態(tài)總體的情形,對于非正態(tài)總體的情況沒有研究;
2)本文只研究了協(xié)方差陣相等的情形,對于協(xié)方差陣不等的情形沒有研究;
3)文章只研究了正態(tài)總體參數(shù)已知的情形,總體的參數(shù)未知時沒有研究;
4)對樣品的評價除了待判域和判別系數(shù)外還應該考慮判別函數(shù)整體的評價,最好做個綜合指標;
5)本文沒有做實證研究,還需要做實證以檢驗判別的誤判率的改進程度.