摘 要:判別分析是統(tǒng)計(jì)學(xué)中的一種重要的數(shù)據(jù)處理方法,也是數(shù)據(jù)挖掘的重要技術(shù)之一。該文主要研究多元統(tǒng)計(jì)分析中的距離判別分析方法。第一,介紹了判別分析的基本思想。第二,主要圍繞距離判別分析具體方法展開論述。首先,論述了距離的定義,主要介紹了閔可夫斯基距離和馬氏距離的定義。其次,重點(diǎn)介紹了兩總體的距離判別分析和多總體的距離判別分析的方法。分別從方差相等和方差不相等的兩種不同情形進(jìn)行展開論述。第三,闡述了判別準(zhǔn)的評(píng)價(jià),給出了誤判率的估計(jì)值。
關(guān)鍵詞:數(shù)據(jù)挖掘 距離判別分析 兩總體的距離判別分析 多總體的距離判別分析
中圖分類號(hào):O21 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)09(c)-0155-02
隨著大數(shù)據(jù)時(shí)代的來臨,人們?cè)絹碓街匾晹?shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì),并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過程[1]。統(tǒng)計(jì)學(xué)中的很多分析方法都能夠很好的處理和分析數(shù)據(jù),主要包括:數(shù)據(jù)描述性分析、回歸分析、判別分析、聚類分析、主成分分析、典型相關(guān)分析和數(shù)值模擬分析等方法。本文著重介紹判別分析中的距離判別分析方法,希望能夠應(yīng)用該方法在數(shù)據(jù)中挖掘出有用的信息。
1 判別分析的基本思想
判別分析是多元統(tǒng)計(jì)分析中用于判別樣本所屬類型的一種統(tǒng)計(jì)分析方法。判別分析是指事物的分類是清楚的,目的是通過已知分類建立判別函數(shù),預(yù)測(cè)新的觀察對(duì)象所屬類別。判別分析適用于被解釋變量是非度量的屬性變量,而影響被解釋變量的解釋變量是度量變量。判別分析按判別的組數(shù)來分,有兩組判別分析和多組判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別; 按判別對(duì)所處理的變量方法不同,有逐步判別、序貫判別等; 按判別準(zhǔn)則不同,有距離判別、貝葉斯判別(Bayes)、費(fèi)歇(Fisher)判別等。該文著重介紹其中的距離判別分析。
2 距離判別分析
2.1 距離的定義
2.1.1 閔可夫斯基距離
設(shè)有維向量,則稱為維向量、之間的閔可夫斯基距,其中為常數(shù)。當(dāng)時(shí)閔可夫斯基距離就是常見的歐氏距離。
2.1.2 馬氏距離
馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(PC Mahalanobis)提出的,由于馬氏距離具有統(tǒng)計(jì)意義,在距離判別分析時(shí)經(jīng)常應(yīng)用馬氏距離:
(1)同一總體的兩個(gè)向量之間的馬氏距離。
設(shè)總體G的兩個(gè)維觀測(cè)向量,稱為維向量、之間的馬氏距離。其中為總體協(xié)方差矩陣,通常取為實(shí)對(duì)稱正定矩陣,當(dāng)Σ為單位矩陣時(shí)馬氏距離就是歐氏距離。
(2)一個(gè)向量到一個(gè)總體的馬氏距離。
總體G的均值向量為μ,協(xié)方差矩陣為Σ。則稱為n維向量x與總體G的馬氏距離。
(3)兩個(gè)總體之間的馬氏距離。
設(shè)有兩個(gè)總體G1,G2,兩個(gè)總體的均值向量分別為,協(xié)方差矩陣相等,皆為,則兩個(gè)總體之間的馬氏距離為。
2.2 兩總體的距離判別分析
距離判別分析思想是:根據(jù)已知分類的數(shù)據(jù),分別計(jì)算各類的重心即分組的均值,對(duì)任給的一次觀測(cè),計(jì)算其與每一類中心的距離,最后依據(jù)最小距離進(jìn)行判別。若它與第類的距離最小,就判定其歸屬于第類。
2.2.1 兩總體的協(xié)方差矩陣相等的情況
設(shè)兩個(gè)總體、協(xié)方差陣均為,考慮維樣品到總體、的馬氏距離的平方差為:
,其中,、為兩個(gè)總體的均值。于是判別準(zhǔn)則為:。 在實(shí)際問題中、、為樣本的估計(jì)值。
2.2.2 兩總體的協(xié)方差矩陣不相等的情況
設(shè)兩個(gè)總體、協(xié)方差陣分別為與不相等,均值分別為、。則樣品到總體、的馬氏距離的平方差為:,判別準(zhǔn)則仍為:。兩種情況的區(qū)別是判別函數(shù)不同。
2.3 多總體的距離判別分析
設(shè)有多個(gè)總體,均指向量分別為,協(xié)方差矩陣的分別為。對(duì)于待判樣品,計(jì)算其到個(gè)總體的馬氏距離,若存在第個(gè)總體使得則判定樣品屬于第個(gè)總體。
2.3.1 總體協(xié)方差矩陣相等時(shí)的判別
當(dāng)每個(gè)總體的協(xié)方差矩陣都相等時(shí),判別函數(shù)為:,則到的距離最小等價(jià)于對(duì)所有的,有。其中總體均值向量與協(xié)方差矩陣用樣本的均值和樣本協(xié)方差矩陣代替。
2.3.2 總體協(xié)方差矩陣不全相等時(shí)的判別
假設(shè)有個(gè)總體,則樣品到各個(gè)總體的馬氏距離的平方分別為:。若,則判定。
3 判別準(zhǔn)則的評(píng)價(jià)
誤判率是考察一個(gè)判別準(zhǔn)則的優(yōu)良性的一個(gè)指標(biāo)。誤判率的估計(jì)思想是:屬于樣品被誤判為屬于樣品的個(gè)數(shù)為個(gè)個(gè),屬于樣品被誤判為屬于樣品的個(gè)數(shù)為個(gè)個(gè),兩總體樣品總數(shù)為個(gè),則誤判率的估計(jì)為:。
4 結(jié)語
首先,該文系統(tǒng)的闡述了距離判別分析的基本思想和具體方法。按照統(tǒng)計(jì)學(xué)中的馬氏距離的定義給出了判別函數(shù)。進(jìn)行兩組判別分析和多組判別分析,對(duì)應(yīng)的構(gòu)造了線性判別函數(shù)和二次判別函數(shù)。在今后的研究過程中也可以考慮使用閔可夫斯基距離構(gòu)造判別函數(shù),并和馬氏距離構(gòu)造的判別函數(shù)的判別效果進(jìn)行對(duì)比分析,以考察哪種判別函數(shù)更合理,以及考察相互之間的聯(lián)系和區(qū)別,從而能夠從更多的角度去研究同一個(gè)問題,得到更好的分析結(jié)果。其次,該文只是研究了距離判別分析,但是判別分析的方法有很多種,還有貝葉斯判別(Bayes)分析、費(fèi)歇(Fisher)判別分析等。在今后的研究和學(xué)習(xí)中要加強(qiáng)這些方法的比較研究,從而靈活應(yīng)用每種方法分析數(shù)據(jù),最后得出精確的分析結(jié)果。
參考文獻(xiàn)
[1] 張良均,陳俊德,劉名軍,等.數(shù)據(jù)挖掘?qū)嵱冒咐諿M].北京:機(jī)械工業(yè)出版社,2013:5-10.
[2] 李柏年,吳禮斌.MATLAB數(shù)據(jù)分析方法[M].北京:機(jī)械工業(yè)出版社,2012:81-89.
[3] 姜喜春,高軍,王永娟.基于MATLAB軟件的回歸分析[J].黑河學(xué)院學(xué)報(bào),2014,5(6):126-128.
[4] 何曉群.多元統(tǒng)計(jì)分析[M].北京:中國人民大學(xué)出版社,2012:88-89.