亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于EM算法的混合模型參數(shù)估計(jì)

2018-06-06 09:30:08樊菊蘭

科教導(dǎo)刊·電子版 2018年6期

樊菊蘭

摘要有限混合模型是用于分析復(fù)雜問(wèn)題的一個(gè)有效的建模工具。在諸多的混合模型中，混合高斯模型的應(yīng)用更為廣泛，尤其是在圖像處理、人臉識(shí)別、通信和信號(hào)處理等。理論及數(shù)值試驗(yàn)充分證明：混合高斯分布模型能夠逼近任何一個(gè)光滑分布，而對(duì)該模型參數(shù)的有效估計(jì)是準(zhǔn)確分析、模擬復(fù)雜問(wèn)題的必要前提。EM算法自從提出，就已成為一種非常流行地處理不完全數(shù)據(jù)的極大似然估計(jì)的方法。恰好我們經(jīng)常處理的樣本數(shù)據(jù)集通?？煽醋魇遣煌耆珨?shù)據(jù)，進(jìn)而EM算法就為混合高斯模型的參數(shù)估計(jì)提供了一種標(biāo)準(zhǔn)框架。

關(guān)鍵詞 EM算法 R軟件混合模型高斯混合參數(shù)估計(jì)

中圖分類號(hào)：O212 文獻(xiàn)標(biāo)識(shí)碼：A

0引言

EM 算法就是一種一般的從“不完全數(shù)據(jù)”中求解模型參數(shù)的極大似然估計(jì)的方法，它是在觀察數(shù)據(jù)的基礎(chǔ)上添加一些“潛在數(shù)據(jù)”，從而簡(jiǎn)化計(jì)算并完成一系列簡(jiǎn)單的極大化或模擬。EM 算法的每一步迭代中包括一個(gè) E 步――期望步（Expectation Step）和一個(gè)M 步——極大似然步（Maximum Likelihood Step）。算法的優(yōu)勢(shì)在于它在一定意義下可靠地收斂到局部極大，也就是說(shuō)在一般條件下每次迭代都增加似然函數(shù)值，當(dāng)似然函數(shù)值是有界的時(shí)候，迭代序列收斂到一個(gè)穩(wěn)定值的上確界。缺點(diǎn)是當(dāng)缺失數(shù)據(jù)比例較大時(shí)候，它的收斂比率比較緩慢。混合分布是有限個(gè)分布的組合，它綜合了各個(gè)分支的性質(zhì)和特點(diǎn)，它具有許多優(yōu)勢(shì)：

（1）可以用來(lái)模擬復(fù)雜的數(shù)據(jù)或問(wèn)題。由于混合模型擁有許多不同類型的混合形式，有相同總體的混合，也有各種不同總體的混合。因此，可以根據(jù)數(shù)據(jù)的不同情況，來(lái)選擇與之相符的混合模型來(lái)進(jìn)行模擬。

（2）為同性質(zhì)和異性質(zhì)的模擬提供了一個(gè)方法。當(dāng)m= l時(shí)，該模型就是一個(gè)單一分布。當(dāng)m〉l時(shí)，它就是分布的線性組合。在現(xiàn)實(shí)生活中，許多現(xiàn)象都非常復(fù)雜，不同元素往往具有各不相同的性質(zhì)，這時(shí)，混合模型是一個(gè)最合適的工具，因?yàn)樗梢园言厮鶟M足的分布都綜合起來(lái)，組合成一個(gè)新的分布，在這個(gè)新的混合分布的基礎(chǔ)上，再進(jìn)行下一步的分析。它具比單一分布有更多的益處。

綜上所述，混合分布可以對(duì)大量的數(shù)據(jù)進(jìn)行有效的模擬，尤其是在對(duì)數(shù)據(jù)先驗(yàn)知識(shí)了解較少的情況下，混合分布是一個(gè)很好的選擇，它更加靈活、有效。

1同分布同類型的混合分布

一種類型的混合分布有：二項(xiàng)分布，指數(shù)分布，泊松分布，正態(tài)分布等等。下面我們以二項(xiàng)分布和正態(tài)分布為例研究混合分布的EM算法的過(guò)程。

1.1 L階混合二項(xiàng)分布參數(shù)估計(jì)的EM算法

L階混合二項(xiàng)分布的概率密度函數(shù)為

其中，且為未知參數(shù)。

現(xiàn)在設(shè)是來(lái)自于混合二項(xiàng)分布的樣本。我們的目的是求未知參數(shù)的極大似然估計(jì)。為此先考査其對(duì)數(shù)似然函數(shù)

不難看化直接求它的最大值點(diǎn)很難，我們下面將推導(dǎo)該問(wèn)題的EM算法：

引入潛在變量，其中，且相互獨(dú)立，是取值為0或1的指示變量，表示來(lái)自于第j個(gè)分支密度，且

1.2 M階混合正態(tài)分布（高斯分布）的EM算法估計(jì)

隨著社會(huì)、科學(xué)的不斷發(fā)展，混合模型已經(jīng)越來(lái)越被大家熟悉和認(rèn)識(shí)。有限混合高斯分布的以其獨(dú)有的特性更是被大家熟知，并被用于實(shí)際生活中的各個(gè)領(lǐng)域。根據(jù)混合模型的介紹我們可以知道，有限混合正態(tài)分布就是有限個(gè)（2個(gè)或2個(gè)以上）正態(tài)分布的加權(quán)組合。它們的組合具有比單一高斯分布更豐富的性質(zhì)和特點(diǎn)，并且當(dāng)混合正態(tài)分布的階數(shù)不斷增加時(shí)，它可以逼近任何連續(xù)的概率分布。正因?yàn)槿绱?，它的?yīng)用非常廣泛，如在股票、金融、證券、醫(yī)藥、農(nóng)業(yè)等領(lǐng)域都可以用到它。如今，利用它對(duì)數(shù)據(jù)進(jìn)行擬合，即對(duì)其參數(shù)的估計(jì)已經(jīng)成為人們非常關(guān)心的問(wèn)題。每個(gè)分支都有兩個(gè)參數(shù)需要估計(jì)，并且待估計(jì)參數(shù)的先驗(yàn)分布也比較復(fù)雜。

1.2.1當(dāng)M己知時(shí)，用EM算法估計(jì)參數(shù)

1.2.2當(dāng)M未知時(shí)，基于聚類的EM算法

以上的EM算法是設(shè)定混合元個(gè)數(shù)在計(jì)算過(guò)程中是不變的，而在實(shí)際應(yīng)用中，混合高斯模型中的混合元個(gè)數(shù)M一般未知。下面就M未知時(shí)給出一種參數(shù)估計(jì)方法，該方法是建立在聚類算法和EM算法基礎(chǔ)上的一種方法，即初始狀態(tài)的混合元數(shù)比最終得到的混合元數(shù)要大（通常情況下將初始混合數(shù)設(shè)定為最終混合數(shù)的兩倍以上能得到比較好的結(jié)果）。這樣，在建模過(guò)程中可以將相近的兩個(gè)高斯分量并為一個(gè)聚類，然后在重新有EM算法進(jìn)行建模，以此往復(fù)，最終得到想要的混合數(shù)，具體步驟如下

（1）設(shè)置初始混合數(shù)（一般將初始混合數(shù)設(shè)置為目標(biāo)混合數(shù)的兩倍以上）。

（2）用以上方法算得到元混合高斯分布參數(shù)估計(jì)為。

（3）尋找相近（指均值和方差接近）的兩個(gè)高斯分量，將它們合并成一個(gè)新的高斯分量，并且將混合數(shù)減1。合并規(guī)則如下：設(shè)兩個(gè)相近高斯分量的參數(shù)分別為和，合并后新的高斯分量的參數(shù)為，則

（4）這時(shí)混合個(gè)數(shù)減小一個(gè)，返回步驟（2）進(jìn)行EM算法估計(jì)，依次下去直到混合數(shù)達(dá)到需要的混合數(shù)M即可。

基于聚類的EM算法在識(shí)別率上有所提高，而且其實(shí)際運(yùn)算速度也加快了。這是因?yàn)樵趯⒕垲愃惴ㄈ诤线M(jìn)來(lái)以后，相似的高斯分量合并在一起，因而提高了識(shí)別率；并且通過(guò)不斷地合并相似的高斯分量，使EM算法的收斂速度加快，迭代次數(shù)降低，從而提高了運(yùn)算效率.聚類方法的選取和聚類數(shù)目的判定是聚類分析中經(jīng)常遇到的兩大問(wèn)題一般說(shuō)來(lái)，混合元個(gè)數(shù)越大，用樣本對(duì)總體擬合度越高，但是計(jì)算越復(fù)雜，如何選取合適的混合元個(gè)數(shù)很關(guān)鍵，混合模型聚類常通過(guò)貝葉斯信息準(zhǔn)則（BIC）選擇模型。計(jì)算不同模型的BIC值，一般情況下模型的BIC值越大，該模型就越符合實(shí)際。BIC值的計(jì)算依賴于模型的參數(shù)估計(jì)，因此EM算法直接影響B(tài)IC值的計(jì)算。

1.2.3基于EM算法的實(shí)例

以3—分支混合高斯分布模型為例做模擬試驗(yàn)來(lái)說(shuō)明EM算法估計(jì)混合高斯模型參數(shù)的具體過(guò)程并且驗(yàn)證該算法的可行性，實(shí)驗(yàn)步驟如下：

（1）按照上述產(chǎn)生隨機(jī)樣本點(diǎn)的方法隨機(jī)產(chǎn)生2000個(gè)三分支二維混合高斯分布模型的樣本點(diǎn)。

（2）設(shè)定EM算法迭代計(jì)算過(guò)程中所涉及到的各參數(shù)的初始值，在本試驗(yàn)中初始值的選擇為：先對(duì)混合比例執(zhí)行平均分配原則，各分支的均值從各樣本的最大值與最小值之間隨機(jī)產(chǎn)生，各分支參數(shù)的初始值及估計(jì)結(jié)果如下：

從上表可以看出，通過(guò)大樣本的數(shù)值模擬試驗(yàn)，證實(shí)了用EM算法對(duì)混合高斯分布模型的概率密度函數(shù)做參數(shù)估計(jì)時(shí)，其收斂速度比較快。尤其是在大樣本的情況下，其估計(jì)結(jié)果更加接近參數(shù)的真值。

2結(jié)語(yǔ)

EM算法可通過(guò)對(duì)不完全數(shù)據(jù)進(jìn)行擴(kuò)充之后成為完全數(shù)據(jù)，再對(duì)參數(shù)進(jìn)行極大似然估升，使得分析的結(jié)果更加有效。

參考文獻(xiàn)

[1] 肖枝洪，朱強(qiáng).統(tǒng)計(jì)模擬及其R實(shí)現(xiàn)[M].武漢：武漢大學(xué)出版社，2010.

[2] 連軍艷. EM算法及其改進(jìn)在混合模型參數(shù)估計(jì)中的應(yīng)用研究[D].西安：長(zhǎng)安大學(xué)， 2006.

[3] 王愛(ài)平，張功營(yíng)，劉方. EM算法研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展， 2009，19（09）：108-110.

[4] 楊基棟.EM算法理論及其應(yīng)用[J].安慶師范學(xué)院學(xué)報(bào)（自然科學(xué)版），2009，15（04）： 30-35.

[5] 張士峰，混合正態(tài)分布參數(shù)極大似然估計(jì)的EM算法[J].飛行器測(cè)控學(xué)報(bào)，2004，23（04）：47-52.

[6] Dempster，A.P.&D.B.Rubin; . Maximum likelihood estimation from incomplete data via the EM algorithm （with discussion[C].Journal of the Royal Statistical Society Series B，1977：1-3.

科教導(dǎo)刊·電子版2018年6期

科教導(dǎo)刊·電子版的其它文章: 關(guān)于核心素養(yǎng)的研究現(xiàn)狀述評(píng); 我國(guó)民主法制建設(shè)法律措施; 恐怖活動(dòng)犯罪的特征及立法前景; 化療藥物外滲的預(yù)防和護(hù)理; 我國(guó)傳統(tǒng)手法對(duì)痙攣型腦癱兒童康復(fù)效果的研究; 博物館社會(huì)公共服務(wù)的探索與實(shí)踐