亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于EM算法的離散-連續(xù)型混合分布參數(shù)估計(jì)

        2019-03-13 05:54:12王勝兵
        統(tǒng)計(jì)與決策 2019年3期
        關(guān)鍵詞:模型

        馮 杭,王勝兵

        (海軍工程大學(xué) 理學(xué)院,武漢 430033)

        0 引言

        隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的不斷提高,如何從大量復(fù)雜多變的數(shù)據(jù)中提取有用的信息、模式和知識(shí)成為亟待解決的問題。在實(shí)際問題中,傳統(tǒng)的單一模型已經(jīng)無法滿足正確性和準(zhǔn)確性的要求,有限混合分布[1]的提出為大量隨機(jī)現(xiàn)象建立統(tǒng)計(jì)模型提供了數(shù)學(xué)基礎(chǔ)。混合模型可以定義極其復(fù)雜的概率密度函數(shù),是分析復(fù)雜現(xiàn)象的一個(gè)極其重要的工具,從圖像分割技術(shù)到股票市場的數(shù)據(jù)分析,它幾乎涵蓋了金融、經(jīng)濟(jì)、生物、醫(yī)學(xué)、計(jì)算機(jī)科學(xué)及工程領(lǐng)域等的各個(gè)學(xué)科[2]。

        實(shí)際中常用數(shù)據(jù)擬合方法對(duì)混合模型的參數(shù)進(jìn)行估計(jì),由于混合模型的密度函數(shù)較復(fù)雜,待估計(jì)參數(shù)較多,一般的數(shù)據(jù)擬合方法無法準(zhǔn)確估計(jì)出混合模型的參數(shù)值。EM算法是一種被廣泛用于最大似然估計(jì)的迭代算法[3],可以對(duì)混合模型進(jìn)行參數(shù)估計(jì),還可以用于混合模型的聚類分析。近年來,國內(nèi)外研究者對(duì)EM算法作了大量的研究。Gelffrey[4]利用EM算法討論了有限正態(tài)分布的混合模型;孟俊才[5]推導(dǎo)出一些離散型混合分布模型中的參數(shù)迭代公式;陳文強(qiáng)[6]利用矩估計(jì)法和聚類法研究了處于不同形式下的混合泊松分布的參數(shù)估計(jì)。

        本文針對(duì)離散-連續(xù)型混合分布參數(shù)估計(jì)的問題,利用EM算法和極大似然估計(jì)原理,給出未知參數(shù)的似然函數(shù),推導(dǎo)出參數(shù)估計(jì)時(shí)需要用到的Q函數(shù)以及各未知參數(shù)的更新公式,并給出了EM算法的流程圖。利用EM算法進(jìn)行數(shù)值模擬仿真實(shí)驗(yàn),檢驗(yàn)EM算法在解決這類問題時(shí)的有效性。

        1 連續(xù)型與離散型分布混合模型

        以正態(tài)分布和泊松分布混合為例。假設(shè)有觀測數(shù)據(jù)y1,y2,…,yn,這些觀測數(shù)據(jù)來自一個(gè)由g1個(gè)正態(tài)分布和g2個(gè)泊松分布混合而成的混合分布,該混合分布的分量的權(quán)重記為 π1,π2,…,πg(shù)1+g2,其和為1。則觀測數(shù)據(jù)yi的混合密度可以表示為:

        其中分量密度:

        至此,有限混合模型的估計(jì)歸結(jié)為對(duì)參數(shù)向量Ψ的估計(jì)。借助于極大似然(ML)估計(jì)方法,可以將該問題轉(zhuǎn)化為一個(gè)最優(yōu)化問題,其優(yōu)化的目標(biāo)函數(shù)是似然度L(Ψ)或者等價(jià)對(duì)數(shù)似然度logL(Ψ),其定義域是整個(gè)參數(shù)取值空間。

        未知參數(shù)的似然函數(shù)為:

        對(duì)數(shù)似然函數(shù)為:

        2 EM算法框架下的參數(shù)估計(jì)

        對(duì)于混合分布而言,僅從數(shù)據(jù)本身難以分辨每一個(gè)樣本值yj來自哪個(gè)分布,從這個(gè)意義上看,觀測值中并不包含數(shù)據(jù)的全部信息,是“不完整數(shù)據(jù)”。在EM框架下,每個(gè)yj被認(rèn)為來自混合模型的其中一個(gè)分量。用z1,z2,…,zn表示不可觀測的分量指示向量,其中:

        用y=(y1,y2,…,yn)T表示觀測數(shù)據(jù)向量,用z表示缺失數(shù)據(jù)向量,則x=(yT,zT)T表示完整數(shù)據(jù)向量。

        在有限混合分布模型中,基于參數(shù)Ψ的完整數(shù)據(jù)對(duì)數(shù)似然度為:

        EM算法的每次迭代包含兩個(gè)步驟:期望步驟(E-Step)和最大化步驟(M-Step)。算法通過對(duì)“含完整數(shù)據(jù)”的對(duì)數(shù)似然函數(shù)值logLc(Ψ)的逐步迭代計(jì)算來求解“含不完整數(shù)據(jù)”的式(3)。由于logLc(Ψ)依賴于不可觀測的缺失數(shù)據(jù)z,所以在期望步驟中將logLc(Ψ)用所謂的Q函數(shù)來代替。

        期望步驟:計(jì)算Q函數(shù)Q(Ψ;Ψ(k))。

        在EM算法的第k+1次迭代中:

        這是在給定y和當(dāng)前Ψ(k)時(shí)完整數(shù)據(jù)對(duì)數(shù)似然度的條件期望。

        記對(duì)應(yīng)zij的隨機(jī)變量為Zij,由于完整對(duì)數(shù)似然度關(guān)于缺失數(shù)據(jù)Zij是線性的,所以,借助可觀測數(shù)據(jù)y,就能簡單地計(jì)算出隨機(jī)變量Zij當(dāng)前的條件期望,即:

        其中τi(yj;Ψ(k))是第j個(gè)可觀測數(shù)據(jù)yj屬于有限混合分布的第i個(gè)分量的后驗(yàn)概率。從式(5)和式(6)可得:

        最大化步驟的任務(wù)則是更新Ψ的估計(jì)值Ψ(k+1),從而使得Ψ的整個(gè)參數(shù)空間上Q(Ψ;Ψ(k))函數(shù)取最大值。

        最大化步驟:更新Ψ的估計(jì)值Ψ(k+1)。

        由公式(7)分別對(duì) πi、μi、σi2和λi求導(dǎo),可得最大化步驟中需要用到的參數(shù)迭代公式:

        利用EM算法進(jìn)行參數(shù)估計(jì)的流程如下頁圖1所示。

        3 數(shù)值模擬實(shí)驗(yàn)

        本文以正態(tài)分布和泊松分布的混合模型為例,利用matlab軟件,按照以下步驟進(jìn)行混合分布參數(shù)估計(jì)的數(shù)值模擬實(shí)驗(yàn):

        步驟1:設(shè)計(jì)并生成實(shí)驗(yàn)數(shù)據(jù),生成n個(gè)服從相應(yīng)混合分布的隨機(jī)數(shù);

        步驟2:給定初值Ψ(0);

        圖1 EM算法流程圖

        步驟4:畫圖驗(yàn)證并進(jìn)行誤差分析。

        建立二階正態(tài)分布和二階泊松分布混合分布模型0.15N(5,12)+0.35Π(8,1.22)+0.15E(5)+0.35E(8),產(chǎn)生1000個(gè)來自該模型的隨機(jī)數(shù),并選取以下四組不同的初值(第一組初值為原混合模型各參數(shù)理論值)。

        Ψ(0)=(0.15,0.35,0.15,5,12,8,1.22,5,8)

        Ψ(0)=(0.1,0.2,0.3,1,12,2,12,0.1,0.2)

        Ψ(0)=(0.3,0.2,0.3,3,12,6,12,0.3,0.4)

        Ψ(0)=(0.25,0.25,0.25,5,12,10,12,0.5,0.6)

        進(jìn)行數(shù)值模擬,并設(shè)定閾值為10-3。

        參數(shù)估計(jì)的結(jié)果如表1所示。

        表1 混合正態(tài)分布和泊松分布參數(shù)估計(jì)結(jié)果

        3.1 有效性驗(yàn)證

        由表1可知,實(shí)驗(yàn)1選取的初值為原混合模型各參數(shù)的理論值,通過對(duì)此結(jié)果進(jìn)行驗(yàn)證,可以直觀的看出EM算法對(duì)于多種分布混合的參數(shù)估計(jì)的有效性。

        將由EM算法得到的混合分布各個(gè)分量的參數(shù)的估計(jì)值與理論值進(jìn)行比較,結(jié)果如圖2所示。

        圖2 實(shí)驗(yàn)1各個(gè)分量的參數(shù)估計(jì)結(jié)果

        由圖2可以直觀的看出,各個(gè)分量的參數(shù)的理論值曲線與估計(jì)值曲線的貼合程度很高,說明EM算法能夠在很大程度上還原混合正態(tài)分布和泊松分布的各個(gè)分量的參數(shù),從而證明該算法的有效性。

        將由EM算法得到的混合分布即估計(jì)值與理論值進(jìn)行比較,結(jié)果如圖3所示。

        圖3 實(shí)驗(yàn)1整體估計(jì)結(jié)果

        由圖3可以直觀的看出,EM算法能夠在很大程度上還原混合多種連續(xù)型與離散型分布的參數(shù),從而證明該算法的有效性。同時(shí)由圖3可以看到,估計(jì)出的結(jié)果與最初選取的理論值之間存在一定的差異,究其原因有以下兩點(diǎn):

        (1)利用EM算法進(jìn)行迭代計(jì)算過程中,涉及到小數(shù)有效數(shù)字位數(shù)的選取問題,因此存在一定的誤差;

        (2)matlab生成的隨機(jī)數(shù)據(jù)是離散的,在數(shù)據(jù)個(gè)數(shù)有限的情況下進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)還原時(shí),無法得到和理論值完全相同的分布函數(shù)。

        但正是由于以上原因?qū)е碌恼`差存在,實(shí)驗(yàn)數(shù)據(jù)在一定程度上說明了,初始參數(shù)在某些范圍變化的時(shí)候,參數(shù)估計(jì)值幾乎是相同的,說明此時(shí)得到的估計(jì)值是對(duì)數(shù)似然度函數(shù)的一個(gè)穩(wěn)定點(diǎn),進(jìn)一步證明了EM算法的有效性。

        3.2 敏感性分析

        由表1中實(shí)驗(yàn)2、3、4對(duì)比可知,各個(gè)參數(shù)初值的不同會(huì)影響估計(jì)值的準(zhǔn)確程度,因此對(duì)于3組實(shí)驗(yàn)分別進(jìn)行驗(yàn)證。

        以實(shí)驗(yàn)4為例,將由EM算法得到的混合分布各個(gè)分量的估計(jì)值與理論值進(jìn)行比較,結(jié)果如圖4所示。

        圖4 實(shí)驗(yàn)4各個(gè)分量的參數(shù)估計(jì)結(jié)果

        由圖4可以看出,各個(gè)分量的參數(shù)估計(jì)值曲線與理論值曲線貼合程度較差,說明當(dāng)超過某一范圍時(shí),初值的改變會(huì)使得迭代結(jié)果發(fā)生較大改變,從另一方面說明了計(jì)算結(jié)果對(duì)于初值的選取是敏感的。

        3.3 結(jié)果分析

        根據(jù)上述實(shí)驗(yàn)結(jié)果可知:

        (1)利用EM算法估計(jì)出的參數(shù)值能夠較好地還原多種分布混合中各分量分布的參數(shù),證明了該算法的有效性。

        (2)初始參數(shù)在某一范圍變化時(shí),參數(shù)的估計(jì)值幾乎是不變的,說明此時(shí)得到的估計(jì)值是對(duì)數(shù)似然度函數(shù)的一個(gè)穩(wěn)定點(diǎn)。

        (3)超出某一變化范圍之后,某些初始值會(huì)使得迭代結(jié)果發(fā)生較大改變,說明計(jì)算結(jié)果對(duì)于初值的選取具有敏感性。

        4 結(jié)束語

        本文利用EM算法,針對(duì)離散-連續(xù)型混合分布參數(shù)估計(jì)的問題,以正態(tài)分布和泊松分布混合為例,進(jìn)行了數(shù)值模擬實(shí)驗(yàn),并驗(yàn)證了EM算法可以有效解決這類問題。但同時(shí)發(fā)現(xiàn)了EM算法的估計(jì)精度受初始值的影響很大這一缺陷,下一步將引入常見的智能優(yōu)化算法對(duì)初始值敏感問題進(jìn)行改善。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        国产特黄a三级三级三中国| 国产婷婷色综合av蜜臀av| 伊人久久大香线蕉av网禁呦| 久久综合久久鬼色| 国产精品成人va在线观看| 国精产品推荐视频| 亚洲午夜精品久久久久久人妖| 亚洲熟妇乱子伦在线| 久久久久AV成人无码网站| 国产伦精品一区二区三区在线| 亚洲天码一区二区三区| 色婷婷久久亚洲综合看片| 亚洲国产一二三精品无码| 精品淑女少妇av久久免费| 97午夜理论片在线影院| 免费人成在线观看播放国产| 国产又爽又黄又不遮挡视频| 最新日本免费一区二区三区| 在线免费观看蜜桃视频| 国产欧美在线观看不卡| 少妇激情一区二区三区视频| 成人区人妻精品一熟女| 天天干成人网| 超级碰碰人妻中文字幕| 我的极品小姨在线观看| 日本不卡的一区二区三区中文字幕| 国产老熟妇精品观看| 天堂无码人妻精品av一区| 国产极品久久久久极品| 女的把腿张开男的猛戳出浆| 日本中文字幕一区二区视频| 久久久亚洲av成人乱码| 曰批免费视频播放免费| 手机看片久久国产免费| 少妇极品熟妇人妻无码| 99久久亚洲国产高清观看| 午夜国产在线精彩自拍视频| 日本a级免费大片网站| 中文字幕人妻熟女人妻| 日韩精品无码视频一区二区蜜桃| 久久综合五月天|