楊海麗 鄭治波
(保山學院數(shù)學學院 云南·保山 678000)
在實際生活中,會遇到基于事物的某種屬性將其分類到已知的類別中的問題,例如,根據(jù)已獲得的癥狀數(shù)據(jù),判別一位新的病人是否具有某種疾??;根據(jù)已有的氣象資料來預報明天的天氣;多元統(tǒng)計分析的判別分析就是解決這類問題的一種方法。綜合已有的文獻寫關(guān)于三種方法的比較多,[1]但是關(guān)于貝葉斯判別法的兩種規(guī)則的詳細討論方面較少,為了便于學習全面學習貝葉斯判別法,本文將貝葉斯判別法的特點、規(guī)則、應用結(jié)合起來研究。
貝葉斯判別的思想是:基于樣品的先驗概率分布,從總體中抽取樣本,用樣本來修正已有的認識,得到后驗概率分布,由后驗概率分布來做判別分析。[2]
最大后驗概率判別法的基本思想是:[3]通過計算出樣品屬于各個組的后驗概率,將樣品歸類到后驗概率最大的組。
最大后驗概率法采用如下的判別規(guī)則:
最大后驗概率法,未考慮誤判的概率,在實際分析中有些情況不得不考慮誤判概率,如,誤將不合格藥品判別成合格藥品可能會危及生命。
最小期望誤判代價法采用的是使得ECM達到最小的判別規(guī)則。即:
兩組的一般情形:
密度函數(shù)與先驗概率同前,現(xiàn)假設(shè)誤判代價矩陣為:
實際應用中,如果先驗概率難以給出,則通常把它們?nèi)〕上嗟龋瑧么伺袆e規(guī)則。
表1 某地區(qū)人口死亡數(shù)據(jù)表
當誤判代價c(2|1)=c(2|1)時,上述簡化為:
從以上的分析可以看出最大后驗概率法其實是在默認誤判損失相等情況下的最小期望誤判代價法。
例1設(shè)有π1π2π3三個組,欲判別某樣品x0屬于何組,已知
解:分別計算出三個后驗概率
所以應將x0判為組π3。
例2設(shè)有π1π2π3三個組,已知某樣品x0屬于這三個組的先驗概率,以及概率密度如下:
判別樣品屬于何組?
解:按照最小期望誤判代價法則,具體計算過程如下:
由于時I=2為最小值,故x0屬于π2。
圖1 預測結(jié)果圖
以上的兩個判別規(guī)則的實現(xiàn)基于同一組基礎(chǔ)數(shù)據(jù),分別根據(jù)最大后驗概率法和最小期望誤判代價法的判別規(guī)則來進行判別分析。在實際應用中當數(shù)據(jù)較多時,這兩種方法的理論分析較為繁瑣,考慮可以借助于計算機軟件實現(xiàn)做判別分析。本文以最簡單直觀的數(shù)據(jù)分析軟件SPSS給讀者呈現(xiàn)。
借助于SPSS軟件可以快捷地實現(xiàn)判別分析,以例題的方式展示數(shù)據(jù)分析的過程。
例3為研究某第地區(qū)人口死亡狀況,按某種方法將15個已知樣品分為3類,指標及原始數(shù)據(jù)如表1所示。
表1中指標說明如下:x1:0歲組死亡概率;x2:1歲組死亡概率;x3:10歲組死亡概率;x4:55歲組死亡概率;x5:80歲組死亡概率;x6:平均預期壽命。
為了對四個待判樣品做出判別。借助于SPSS25軟件,所得結(jié)果如圖1。
圖1是返回已知數(shù)據(jù)表得出的結(jié)果,可以看出已知數(shù)據(jù)的預測結(jié)果與實際結(jié)果安全吻合,第一、第四個樣品屬于第3組;第二個樣品屬于第1組;第三個樣品屬于第2組。
從合并圖中不難看出,第一組和第二組,第三組和第二組能夠和好地區(qū)分開,但是第一組和第三組存在重合的區(qū)域(圖2)。
圖2 判別分析結(jié)果圖
表2交叉驗證采用了留一個在外的原則,正確地對86.7%個進行了交叉驗證,并對分組個案進行了分類。
表2 交叉驗證
一般的決策方法所得結(jié)論三對結(jié)果完全接受或者反對,而貝葉斯判別方法給出的是決策概率,可以判斷所獲得信息的價值決定是否需要獲取更多新的信息。貝葉斯判別方法則是對調(diào)查結(jié)果的可能性作出數(shù)量化的評價。貝葉斯判別方法根據(jù)具體的問題進行重復使用,進而使所作出的決策更加完善和科學。
貝葉斯判別方法的缺點是:需要采集的數(shù)據(jù)信息較多;分析計算相對復雜;數(shù)據(jù)采集帶有主觀概率;推廣使用困難。