亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于獨(dú)立的Gaussian與Beta有限維混合模型的聚類算法

        2012-09-25 04:20:40
        關(guān)鍵詞:分類標(biāo)準(zhǔn)模型

        劉 洋

        (大慶師范學(xué)院 數(shù)學(xué)科學(xué)學(xué)院,黑龍江 大慶 163712)

        基于模型的聚類算法受到生物醫(yī)藥學(xué)界,統(tǒng)計(jì)學(xué)界,金融界,計(jì)算機(jī)等領(lǐng)域的高度重視。本文針對(duì)獨(dú)立的Gaussian與Beta有限維混合模型建立一種新的聚類方法,BGMMn聚類算法。此算法更適合獨(dú)立的Gaussian與Beta有限維混合數(shù)據(jù),特別是Gaussian分布數(shù)據(jù)容易聚類的有限維混合數(shù)據(jù),有較高的聚類數(shù)目估計(jì)的準(zhǔn)確度。

        1 混合模型

        觀測(cè)指標(biāo)或樣本數(shù)據(jù)集X={X1,X2,X3,…Xn}分為G個(gè)類,假設(shè)數(shù)據(jù)以權(quán)重πk(k=1,2,…G)來(lái)自每一個(gè)類。 令X=(YT,ZT)T,其中Y為Beta分布有限維觀測(cè)數(shù)據(jù),Z為Gaussian分布有限維觀測(cè)數(shù)據(jù),并且假設(shè)Y與Z有相同的類的結(jié)構(gòu)形式,Yi與Zi相互獨(dú)立,i=1,2,…n。 則

        θ1k=(αk1,αk2,…αkp1;βk1,βk2,…βkp1)為參數(shù)。

        記θk=(θ1k,θ2k),θ=(θ1,θ2…θG),則觀測(cè)數(shù)據(jù)的聯(lián)合概率模型為

        引入數(shù)據(jù)集X的分類標(biāo)簽Hi=(hi1,hi2,…h(huán)iG)T, 若數(shù)據(jù)Xi來(lái)自第k個(gè)類,則hik=1;否則hik=0,其中k=1,2,…G,i=1,2,…n。 于是觀測(cè)數(shù)據(jù)聯(lián)合概率模型的log-似然函數(shù)為

        把分類標(biāo)簽H看成缺失向量,可以利用EM算法[1]的E步得到完全數(shù)據(jù)集的log-似然函數(shù)。

        2 BGMMn聚類算法

        2.1 BGMMn算法流程

        1)給出分布中參數(shù)π,μ,σ的初值:

        2)利用EM算法[1]估計(jì)Gaussian分布參數(shù)μ,Σ,得到

        其中v=1,2,…p2;k=1,2,…G。

        3)更新分類指標(biāo)τik

        4)重復(fù)2)與3)直到收斂為止。

        5)利用第3)步收斂時(shí)τik的取值,根據(jù)分類準(zhǔn)則:若{w|τiw=maxw{τiw}},則數(shù)據(jù)Xi屬于第w類,得出有限維混合數(shù)據(jù)X的初始分類。

        9)循環(huán)6),7),8)步驟,直到算法收斂為止。

        2.2 模型選擇

        利用模型選擇標(biāo)準(zhǔn)AIC[2],BIC[3],AIC3[2],ICL[4]各自確定的聚類數(shù)目選擇最優(yōu)的模型選擇標(biāo)準(zhǔn)。在相同的背景框架下,對(duì)BGMMn聚類算法分別應(yīng)用上述四種模型選擇標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)模擬,比較得到的正確聚類個(gè)數(shù)的次數(shù),選擇最優(yōu)的模型選擇標(biāo)準(zhǔn)。模擬結(jié)果AIC,BIC,AIC3, ICL得到的正確聚類個(gè)數(shù)的次數(shù)分別為22,6,19,6。于是BGMMn聚類算法應(yīng)用AIC作為給出最優(yōu)聚類個(gè)數(shù)的模型選擇標(biāo)準(zhǔn)。

        2.3 算法評(píng)價(jià)的優(yōu)良標(biāo)準(zhǔn)

        為了客觀的評(píng)價(jià)算法的優(yōu)良,研究有限維混合數(shù)據(jù)的真實(shí)聚類與算法得到的聚類二者之間的所有可能的聯(lián)系[5]。為了估計(jì)BGMMn聚類算法估計(jì)的準(zhǔn)確度,對(duì)隨機(jī)產(chǎn)生的數(shù)據(jù)集進(jìn)行模擬,比較有限維混合數(shù)據(jù)的真實(shí)的聚類數(shù)目與算法得到的聚類數(shù)目,若二者的聚類數(shù)目一致,則記為1,否則記為0,模擬結(jié)束后,對(duì)記錄結(jié)果進(jìn)行累加,其和記為N,于是算法聚類數(shù)目估計(jì)的準(zhǔn)確度可以通過(guò)式子“N×模擬次數(shù)的倒數(shù)”進(jìn)行計(jì)算。

        3 模擬結(jié)果

        為檢驗(yàn)BGMMn聚類算法的優(yōu)勢(shì),比較了BGMMn聚類算法與BGMMs聚類算法[5],BGMMa聚類算法[5],BGMMh聚類算法[5]對(duì)聚類數(shù)目估計(jì)的準(zhǔn)確度。模擬數(shù)據(jù)集見(jiàn)表1,對(duì)數(shù)據(jù)集模擬10000次后4種聚類算法對(duì)聚類數(shù)目估計(jì)的準(zhǔn)確度見(jiàn)表2。

        表1 模擬的數(shù)據(jù)集

        注:GB為容易聚類的Beta分布數(shù)據(jù),BB為不容易聚類的Beta分布數(shù)據(jù),GG為容易聚類的Gaussian分布數(shù)據(jù),BGm為均值接近時(shí)不容易聚類的Gaussian分布數(shù)據(jù),BGv表示方差很大時(shí)不容易聚類的Gaussian分布數(shù)據(jù)。

        表2 聚類數(shù)目預(yù)測(cè)的準(zhǔn)確度

        注:GB為容易聚類的Beta分布數(shù)據(jù),BB為不容易聚類的Beta分布數(shù)據(jù),GG為容易聚類的Gaussian分布數(shù)據(jù),BGm為均值接近時(shí)不容易聚類的Gaussian分布數(shù)據(jù),BGv表示方差很大時(shí)不容易聚類的Gaussian分布數(shù)據(jù)。

        4 結(jié)語(yǔ)

        通過(guò)對(duì)獨(dú)立的Gaussian與Beta有限維混合模型的聚類算法的研究,提出BGMMn聚類算法。在相同的背景下,通過(guò)模擬4種聚類算法的聚類數(shù)目估計(jì)的準(zhǔn)確度,表明該算法的優(yōu)勢(shì),也指出Gaussian分布數(shù)據(jù)容易聚類時(shí)該聚類算法較其他三種聚類算法更為有效。

        [參考文獻(xiàn)]

        [1] Little R J A, Rubin D B.缺失數(shù)據(jù)統(tǒng)計(jì)分析[M].孫山澤,譯.北京:中國(guó)統(tǒng)計(jì)出版社,2004:143-152.

        [2] Biernacki C, Govaert G.Choosing models in model-based cluslering and discriminant analysis[J].Journal of statcstical Computarion and simulation,1999,64: 49-71.

        [3] Pan W.Incorproating gene functions as priors in model-based clustering of microarray geneexpression data[J].Bioinformatics, 2006,22 (7): 795-801.

        [4] Ji Y, Wu C, Liu P, et al. Applications of beta-mixture models in bioinformatics[J].Bioinformatics,2005,21 (9): 2118-2122.

        [5] Xiao Feng D, Timo E, Olli Y H, et al. A joint finite mixture model for clustering genes from independent Gaussian and beta distributed data[J].BMC Bioinformatics, 2009,10 :165.

        猜你喜歡
        分類標(biāo)準(zhǔn)模型
        一半模型
        2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        忠誠(chéng)的標(biāo)準(zhǔn)
        美還是丑?
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        无码av免费一区二区三区| 99久久精品人妻少妇一| 国产av无码专区亚洲av麻豆| 无码少妇一区二区性色av| 五月天综合在线| 日韩av在线不卡一区二区三区| 日本视频在线播放一区二区| 中文字幕av中文字无码亚| 一区二区三区国产亚洲网站| 乱人伦中文字幕在线不卡网站| 国产又色又爽的视频在线观看91| 亚洲精品在线国产精品| 免费a级毛片永久免费| 国产亚洲午夜精品| 一区二区三区一片黄理论片| 中文亚洲av片不卡在线观看| 欧美黑人粗暴多交高潮水最多| 日韩精品视频在线观看免费| 成人爽a毛片在线播放| 色爱av综合网站| 久久无码人妻一区二区三区午夜 | 91精品久久久中文字幕| 日本真人做人试看60分钟| 极品尤物高潮潮喷在线视频| 亚洲福利第一页在线观看| 一区二区三区人妻av| 亚洲精品久久久久中文字幕一福利 | 又粗又黄又猛又爽大片app| 天美麻花果冻视频大全英文版| 日本一区二区三本视频在线观看| 亚洲av专区国产一区| 日本japanese丰满多毛| 成人无码h真人在线网站| 亚洲第一页在线观看视频网站| 中文无码人妻有码人妻中文字幕| 成人欧美一区二区三区a片| 天天摸天天做天天爽天天舒服| 亚洲女同同性一区二区| 琪琪的色原网站| 国产在线视欧美亚综合| 午夜精品男人天堂av|