陳發(fā)展
摘要:貝葉斯線性判別是判別分析中流行的一種判別法,該方法在實(shí)現(xiàn)過(guò)程需要涉及高維樣本協(xié)方差矩陣逆的復(fù)雜運(yùn)算。本文利用近似貝葉斯方法對(duì)貝葉斯線性判別進(jìn)行了算法設(shè)計(jì)和研究。該方法簡(jiǎn)單明了,易于實(shí)現(xiàn)并且規(guī)避了高維樣本協(xié)方差矩陣逆的計(jì)算。本文還結(jié)合R軟件對(duì)常見的分類案例給出近似貝葉斯計(jì)算和估計(jì),從而說(shuō)明了近似貝葉斯計(jì)算的簡(jiǎn)單有效性。
關(guān)鍵詞:貝葉斯判別分析;近似貝葉斯計(jì)算;R軟件
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)29-0203-02
Abstract:Bayesian linear discrimination is a popular method in discriminant analysis, which involves complex operation of the inverse of high dimensional sample covariance matrix in the realization process.In this paper, an approximate bayesian method is used to design and study bayesian linear discriminant.The method is simple and easy to implement and avoids the inverse calculation of high - dimensional sample covariance matrix.In this paper, the approximate bayesian computation and estimation of common classification cases with R software are presented, which indicates the simple validity of approximate bayesian computation.
Key words: Bayes discriminant analysis ;Approximate Bayesian computation;R software
1 引言
貝葉斯判別分析是多元統(tǒng)計(jì)分析中一種重要的線性判別分析方法。該方法假定各個(gè)類的總體服從多元正態(tài)分布、各組協(xié)方差矩陣必須相等、各組變量均值均有顯著性差異。該模型假定對(duì)待判對(duì)象有了初步的認(rèn)識(shí),給出屬于各類別的先驗(yàn)概率,利用貝葉斯公式對(duì)先驗(yàn)認(rèn)識(shí)進(jìn)行修正從而得到屬于各類別的后驗(yàn)概率,然后基于后驗(yàn)概率對(duì)待判對(duì)象進(jìn)行分類的一種統(tǒng)計(jì)推斷分析方法。貝葉斯判別分析通過(guò)構(gòu)建貝葉斯線性判別函數(shù)來(lái)實(shí)現(xiàn)對(duì)待判對(duì)象進(jìn)行判別,但是構(gòu)建貝葉斯判別函數(shù)中需要涉及高維樣本的協(xié)方差矩陣逆的計(jì)算。眾所周知,高階矩陣逆的計(jì)算非常耗時(shí)和麻煩。本文利用近似貝葉斯方法試圖避開矩陣逆的計(jì)算問(wèn)題。
近似貝葉斯計(jì)算,簡(jiǎn)稱ABC,是貝葉斯統(tǒng)計(jì)中近似參數(shù)估計(jì)的一種計(jì)算方法,近十多年來(lái)十分流行。它最初是在人口遺傳學(xué)中引入的,廣泛應(yīng)用于材料科學(xué)[1],寄生蟲學(xué)[2],遺傳進(jìn)化人口遷移[3]。該方法最顯著的特點(diǎn)就是容易實(shí)現(xiàn),不需要計(jì)算似然函數(shù),對(duì)模型的理論要求相對(duì)較少。一般來(lái)說(shuō)后驗(yàn)分布很難進(jìn)行計(jì)算或者不會(huì)有一個(gè)具體的表達(dá)式或者即使有明確的表達(dá)式,也很難用拒絕接受算法、MCMC等傳統(tǒng)的隨機(jī)模擬算法進(jìn)行模擬。該算法主要根據(jù)統(tǒng)計(jì)模型進(jìn)行模擬樣本,用這些模擬樣本替代似然函數(shù)的計(jì)算。本文利用近似貝葉斯方法對(duì)貝葉斯線性判別進(jìn)行了實(shí)現(xiàn),該方法簡(jiǎn)單明了,易于實(shí)現(xiàn)并且規(guī)避了矩陣逆的計(jì)算。
本文在接下來(lái)的章節(jié)中首先介紹了貝葉斯判別分析及實(shí)現(xiàn)算法,然后結(jié)合近似貝葉斯計(jì)算給出了貝葉斯判別分析的實(shí)現(xiàn)算法,最后結(jié)合常見的分類實(shí)例說(shuō)明近似貝葉斯判別算法的有效性。
2 貝葉斯判別分析[4-5]
2.1 貝葉斯線性判別函數(shù)
4 應(yīng)用
4.1 鳶尾花卉數(shù)據(jù)集
我們以鳶尾花卉數(shù)據(jù)集(iris)為例來(lái)說(shuō)明ABC算法在貝葉斯判別分析中的應(yīng)用。鳶尾花卉數(shù)據(jù)集為R軟件自帶數(shù)據(jù)集,該數(shù)據(jù)是共有五個(gè)變量,其中四個(gè)分別為花萼長(zhǎng)度,花萼寬度,花瓣長(zhǎng)度,花瓣寬度4個(gè)特征屬性變量,一個(gè)為類別變量(Setosa,Versicolour,Virginica三個(gè)種類)。該數(shù)據(jù)集包含有150個(gè)案例,每個(gè)種類分別有50個(gè)案例。
我們假設(shè)三個(gè)種類(Setosa,Versicolour,Virginica)的花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度4個(gè)特征變量服從正態(tài)分布,協(xié)方差矩陣相同。假設(shè)類別的先驗(yàn)分布為均勻分布,即一個(gè)鳶尾花屬于每個(gè)類別的先驗(yàn)概率為[13]。我們下面根據(jù)每個(gè)種類花萼花瓣的前40個(gè)案例的花萼花瓣四個(gè)變量,計(jì)算每個(gè)種類的樣本均值向量以及樣本協(xié)方差矩陣,然后利用ABC算法對(duì)每個(gè)種類的后5個(gè)案例進(jìn)行判別。
4.2 ABC算法實(shí)現(xiàn)步驟:
參考文獻(xiàn):
[1] David M. Walker, David Allingham, Heung Wing Joseph Lee, and Michael Small.Parameter inference in small world network disease models with approximate Bayesian computational methods. Physica A, 389(3):540–548, 2010.
[2] Nelson J. R. Fagundes, Nicolas Ray, Mark Beaumont, Samuel Neuenschwander,F(xiàn)rancisco M. Salzano, Sandro L. Bonatto, and Laurent Excoffier. Statistical evaluation of alternative models of human evolution. Proceedings of the National Academy of Sciences, 104(45):17614–17619, 2007.
[3] Daniel Wegmann and Laurent Excoffier. Bayesian inference of the demographic
history of chimpanzees. Molecular Biology and Evolution, 27(6):1425–1435,2010. doi: 10.1093/molbev/msq028.
[4] 譚杰.基于Bayes判別分析的配電網(wǎng)故障選線方法[J].電力學(xué)報(bào),2016,31(03):217-223.
[5] 李健 Bayes 統(tǒng)計(jì)中兩種抽樣法的比較分析[J].洛陽(yáng)師范學(xué)院學(xué)報(bào),2012(8).
[6] An introduction to statistical computing : a simulation-based approach / Jochen Voss. First edition.pages cm.–(Wiley series in computational statistics)
【通聯(lián)編輯:梁書】