亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于E-MS 算法的含缺失數(shù)據(jù)圖模型選擇的模擬研究①

        2015-04-14 08:06:14孫聚波徐平峰
        關(guān)鍵詞:邊數(shù)比率個(gè)數(shù)

        孫聚波,徐平峰

        (長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院,吉林 長春130012)

        0 引 言

        在統(tǒng)計(jì)分析中,列聯(lián)表是分類數(shù)據(jù)的一種常用、直觀的表示方法[1].很多高維分類數(shù)據(jù)都具有某種特殊結(jié)構(gòu),通??梢杂脠D模型表示[2].其中,模型選擇是統(tǒng)計(jì)推斷的重要方面,許多學(xué)者提出了各種各樣的方法,例如,Akaike 提出了基于似然的AIC 準(zhǔn)則[3],Schwarz 提出了BIC 準(zhǔn)則[4],Edwards和Havranek[5]提出了從大規(guī)模模型族中選擇出可接受的一組模型等等.當(dāng)數(shù)據(jù)有些值缺失時(shí),模型選擇的最新成果是,Jiang,Nauyen 和Rao 于2014年提出的E-MS 算法[6].本文對(duì)于含有缺失值的列聯(lián)表數(shù)據(jù),在E-MS 算法的框架下,進(jìn)行圖模型的模型選擇,其中廣義信息準(zhǔn)則采用BIC 準(zhǔn)則.對(duì)于含3、4 和5 個(gè)分類變量的情形進(jìn)行了模擬實(shí)驗(yàn).

        1 列聯(lián)表及圖模型

        1.1 列聯(lián)表的概率結(jié)構(gòu)

        一般來說,觀測數(shù)據(jù)按兩個(gè)或多個(gè)屬性分類時(shí)所列出的頻數(shù)表稱為列聯(lián)表.本文中,令V 表示分類變量的集合.對(duì)分類變量γ ∈V,Yγ表示γ 的有限的水平集,YV=×γ∈VYγ表示分類集V 的水平集,則列聯(lián)表中的一個(gè)格子對(duì)應(yīng)集合YV中的一個(gè)元素y=(yγ)γ∈V.把n 個(gè)觀測個(gè)體按V 進(jìn)行分類,令計(jì)數(shù)xy為落入格子y 的觀測頻數(shù),則這些計(jì)數(shù)xy的集合便構(gòu)成了一個(gè)列聯(lián)表,記作X={xy|y ∈YV},且設(shè)一個(gè)個(gè)體落入格子y 的概率為p(y),滿足p(y)3≥0,且于是整個(gè)表的聯(lián)合概率分布是一個(gè)多項(xiàng)分布:

        在高維列聯(lián)表中,飽和模型的參數(shù)個(gè)數(shù)一般大于樣本量,不僅統(tǒng)計(jì)上無法處理,計(jì)算上也不可行.但事實(shí)上,很多高維數(shù)據(jù)都具有某種特殊結(jié)構(gòu),可用圖模型表示,以減少參數(shù)個(gè)數(shù).

        1.2 圖模型及其概率分解

        在圖模型中,隨機(jī)變量由圖的頂點(diǎn)表示,有直接關(guān)聯(lián)隨機(jī)變量,對(duì)應(yīng)的頂點(diǎn)用邊相連,這樣構(gòu)成一個(gè)圖G(V,E),這里V 為頂點(diǎn)集,E 為邊集.相對(duì)于圖G 滿足馬爾科夫性的概率分布族,即為圖模型[3].在圖模型中,可利用圖的語言表示概率統(tǒng)計(jì)相關(guān)問題,并依據(jù)圖論的理論和算法幫助進(jìn)行概率統(tǒng)計(jì)推斷[2].

        在圖G 中,如果子集c ?V 中任意兩個(gè)頂點(diǎn)都是相連的,則稱c 是完全的.如果完全子集c 相對(duì)于包含運(yùn)算而言是最大的,稱它為團(tuán),K(G)為圖G的所有團(tuán)的集合.對(duì)于團(tuán)c,稱yc=(yγ)γ∈C為邊緣格子,相應(yīng)的邊緣計(jì)數(shù)為,邊緣概率為許多學(xué)者指出,馬爾科夫性與概率的基于團(tuán)的對(duì)數(shù)展開形式之間存在等價(jià)關(guān)系.其中,Lauritzen[2]給出了嚴(yán)格的數(shù)學(xué)敘述:概率p 相對(duì)于圖G 滿足馬爾科夫性當(dāng)且僅當(dāng)存在函數(shù)φc(yc)滿足將該式變形得p(y)=于是p 的參數(shù)為θG={φc(yc),c ∈K(G)}.分解后參數(shù)個(gè)數(shù)大大減少.例如,每個(gè)變量取2 個(gè)值,則p(y)分解后需要個(gè)參數(shù)來描述,遠(yuǎn)遠(yuǎn)小于飽和模型下的參數(shù)個(gè)數(shù)2|v|.

        1.3 圖模型的極大似然估計(jì)

        圖模型的統(tǒng)計(jì)推斷中,求參數(shù)的極大似然估計(jì)是非常重要的一個(gè)方面.對(duì)于列聯(lián)表X,對(duì)數(shù)似然為:

        Lauritzen[3]證明了上式中極大似然估計(jì)^p 的唯一性,給出了相應(yīng)的似然方程組:

        上述似然方程組往往可采用迭代比例擬合(IPS)算法[3,4]來求解.在投往CSDA 的論文中給出了基于團(tuán)分劃改進(jìn)的IPS 算法[7].

        當(dāng)數(shù)據(jù)含缺失值時(shí),記觀測數(shù)據(jù)為Xobs,此時(shí)可用EM 算法求極大似然估計(jì).設(shè)qtG 為當(dāng)前參數(shù)值,則E 步為求,M步對(duì)Q 函數(shù)關(guān)于團(tuán)求導(dǎo)得,對(duì)所有的yc∈Yc,c ∈K(G),

        2 基于E-MS 算法的缺失數(shù)據(jù)的圖

        運(yùn)用E-MS 算法進(jìn)行缺失數(shù)據(jù)的圖模型選擇.首先規(guī)定圖模型選擇空間為所有可能的圖模型的集合G.在E-MS 算法的E 步中,當(dāng)前圖模型Gc以及Gc的當(dāng)前參數(shù)估計(jì),令θG為候選圖模型G 的參數(shù).定義Q(G,θG)為給定觀測數(shù)據(jù)Xobs下,完全數(shù)據(jù)X 的對(duì)數(shù)似然的條件期望,即:

        圖模型G 的改變對(duì)BICG值的影響遠(yuǎn)大于θG的變化對(duì)BICG值的影響,所以在模擬中,若連續(xù)5 次迭代的最優(yōu)圖模型^Gopt都為同一個(gè)模型,就停止迭代.

        3 模擬研究

        表1 E-MS 算法選擇的模型與真模型相同的比率

        在表1 中,隨著變量個(gè)數(shù)增加,經(jīng)E-MS 算法選擇的模型與真模型相同的比率有所下降,這是因?yàn)楹蜻x模型個(gè)數(shù)成指數(shù)型增長.實(shí)際工作中,可根據(jù)其他先驗(yàn)知識(shí)或方法縮小候選模型的空間,提高準(zhǔn)確率.另外,表2 給出了多邊比率和少邊比率.其中多邊比率為選擇的多余的邊數(shù)除以真模型的邊數(shù),再求平均值;少邊比率為沒有找的真模型中的邊數(shù)除以真模型的邊數(shù),再求平均值.由表2 可分析出,數(shù)據(jù)缺失概率越大,經(jīng)E-MS 算法選擇的模型與真模型不同的邊數(shù)越大;其次隨著樣本量的增加,相同缺失概率下,E-MS 算法選擇的模型與真模型邊數(shù)不同的比率在減小.總的來說,無論在哪種情形,多邊比率與少邊比率之和不大于0.4,也就是說我們可以至少0.6 的概率正確的判斷邊是否存在.

        表2 E-MS 算法選擇的模型與真模型的比較

        4 結(jié) 語

        通過對(duì)模擬研究的分析可知,E-MS 算法在候選模型個(gè)數(shù)較少時(shí)具有良好的性能,當(dāng)候選模型個(gè)數(shù)非常多時(shí),E-MS 算法的性能下降較多,這也是現(xiàn)在大多模型選擇方法的共同不足之處.對(duì)此,可結(jié)合其它方法或先驗(yàn)知識(shí)縮小候選模型集合,然后再利用E-MS 算法進(jìn)行模型選擇.

        [1] Agresti,A 著,張淑梅,王睿,曾莉譯.屬性數(shù)據(jù)分析引論[M],第二版.北京:高等教育出版社,2008.

        [2] Lauritzen,S L.Graphical Models[M].Oxford:Clarendon Press,1996.

        [3] Akaike,H.An Information Criterion[J].Math Sci,1976.

        [4] Schwarz,G.Estimating the Dimension of a Model[J].Annals of Statistics,1978,6(2):461-464.

        [5] Edwards,D,Havranek,T.A Fast Model Selection Procedure for Large Families of Models[J].Journal of the American Statistical Association,1987,82(397):205-213.

        [6] Jiang,J,Nauyen,T,Rao,J S.The E-MS Algorithm:Model Selection with Incomplete Data[J].To appear in Journal of the American Statistical Association,2014.

        [7] Xu,P F,Sun,J,Shan,N.Local Computations of the Iterative Proportional Scaling procedure for Hierarchical Models[J].Revised in Computational Statistics and Data Analysis,2015.

        猜你喜歡
        邊數(shù)比率個(gè)數(shù)
        多邊形內(nèi)角和、外角和定理專練
        一類具有時(shí)滯及反饋控制的非自治非線性比率依賴食物鏈模型
        怎樣數(shù)出小正方體的個(gè)數(shù)
        等腰三角形個(gè)數(shù)探索
        怎樣數(shù)出小木塊的個(gè)數(shù)
        怎樣數(shù)出小正方體的個(gè)數(shù)
        西江邊數(shù)大船
        歌海(2016年3期)2016-08-25 09:07:22
        一種適用于微弱信號(hào)的新穎雙峰值比率捕獲策略
        最大度為10的邊染色臨界圖邊數(shù)的新下界
        比率和比例的區(qū)別
        在线视频一区色| 国产老熟妇精品观看| 亚洲精品www久久久| 国产福利午夜波多野结衣| 一区二区三区不卡免费av | 无码一区久久久久久久绯色AV| 亚洲av成人久久精品| 音影先锋中文字幕在线| 亚洲精品乱码久久久久久蜜桃不卡 | 亚洲精品视频在线一区二区| 国产福利精品一区二区| 国产91成人精品亚洲精品| 激情视频在线观看国产中文| 性感女教师在线免费观看| 免费无码一区二区三区蜜桃| 久久精品亚洲牛牛影视| 男女干逼视频免费网站| 国产不卡在线视频观看| 中文字幕乱码熟女人妻水蜜桃| 亚洲久无码中文字幕热| 手机在线观看亚洲av| 天堂资源中文网| 国产自偷自偷免费一区| 国产精品98视频全部国产| 成人国产高清av一区二区三区| 又粗又黄又猛又爽大片app| 中文字幕av日韩精品一区二区| 亚洲伊人久久综合精品| 福利视频一区二区三区| 天天综合网天天综合色| 欧美成人精品三级在线观看| 视频一区二区三区国产| 日本在线 | 中文| 国产精品一区二区 尿失禁| 青青草久热手机在线视频观看| 一本一道久久精品综合| 大肉大捧一进一出视频出来呀| 亚洲熟妇大图综合色区| 亚洲精品一区二区三区四区久久| 亚洲一区二区三区香蕉| 国产色噜噜|