亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Alpha穩(wěn)定分布的二元響應(yīng)變量回歸模型

        2017-03-08 04:01:09錢(qián)夕元
        關(guān)鍵詞:偏度高斯分布估計(jì)值

        許 哲, 錢(qián)夕元

        (華東理工大學(xué)理學(xué)院,上海 200237)

        基于Alpha穩(wěn)定分布的二元響應(yīng)變量回歸模型

        許 哲, 錢(qián)夕元

        (華東理工大學(xué)理學(xué)院,上海 200237)

        Logit模型是常用的針對(duì)二元響應(yīng)變量的回歸模型,當(dāng)0-1響應(yīng)變量不平衡時(shí),Logit模型將會(huì)帶來(lái)連接函數(shù)設(shè)定錯(cuò)誤。為了更靈活地捕捉帶偏和厚尾特征,提出了以Alpha穩(wěn)定分布作為連接函數(shù)的二元響應(yīng)變量回歸模型,稱(chēng)之為穩(wěn)定分布模型。借助期望傳播-近似貝葉斯計(jì)算(EP-ABC)方法,克服了Alpha穩(wěn)定分布由于沒(méi)有概率密度函數(shù)解析表達(dá)式所帶來(lái)的困難,同時(shí)也解決了高維運(yùn)算所導(dǎo)致的低接收率的問(wèn)題。結(jié)果表明該模型對(duì)平衡或不平衡二元響應(yīng)變量數(shù)據(jù)擬合和預(yù)測(cè)的效果均明顯優(yōu)于Logit、Probit、Cloglog和GEV模型。

        Alpha穩(wěn)定分布模型; EP-ABC方法; 廣義線(xiàn)性回歸模型; 不平衡數(shù)據(jù)

        在針對(duì)二元響應(yīng)變量建立回歸模型時(shí),由于Logit模型潛在變量的概率響應(yīng)曲線(xiàn)是對(duì)稱(chēng)的,一般性假設(shè)響應(yīng)變量中的各類(lèi)樣本數(shù)目基本均衡,而當(dāng)0-1響應(yīng)變量樣本數(shù)差異明顯時(shí),繼續(xù)使用Logit模型,將會(huì)產(chǎn)生連接函數(shù)設(shè)定錯(cuò)誤(Link misspecification),為參數(shù)的估計(jì)帶來(lái)較大的偏差和均方誤差[1]。同時(shí),Cloglog模型只有固定的偏度,GEV模型的形狀參數(shù)同時(shí)控制偏度和尾部厚度,偏度特征與尾部特征相互制約,使得模型擬合的靈活性并沒(méi)有完全放松[2]。

        因此,針對(duì)不平衡的二元響應(yīng)變量,應(yīng)當(dāng)選擇更加靈活的連接函數(shù)來(lái)捕捉數(shù)據(jù)的偏度特征,用以達(dá)到更好的擬合效果。鑒于Alpha穩(wěn)定分布可以很好地刻畫(huà)數(shù)據(jù)偏度和尾部特征,本文采用Alpha穩(wěn)定分布作為連接函數(shù)構(gòu)建了二元響應(yīng)變量回歸模型,稱(chēng)為穩(wěn)定分布模型。

        1 穩(wěn)定分布模型

        假定二元響應(yīng)變量yi是取值為0、1的隨機(jī)變量,yi=1表示事件在第i個(gè)樣本下發(fā)生,而yi=0表示事件在第i個(gè)樣本下不發(fā)生。因此,判斷事件在第i個(gè)樣本下發(fā)生概率的表達(dá)式為

        (1)

        其中:xi為k維自變量向量;βc為k維回歸系數(shù);F為累積分布函數(shù),而F-1稱(chēng)為連接函數(shù)。Logit模型中F-1(pi)=lg(pi/(1-pi));在Probit模型中F-1(pi)=Φ-1(pi),Φ表示標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù);Cloglog模型中F-1(pi)=lg(-lg(1-pi));GEV模型中F-1(pi)=G-1(pi),G表示標(biāo)準(zhǔn)GEV分布的累積分布函數(shù)。

        除了高斯分布(α=2)、柯西分布(α=1,β=0)和Lévy分布(α=1/2,β=1)等少數(shù)幾種情況外,Alpha穩(wěn)定分布的概率密度函數(shù)和累積分布函數(shù)沒(méi)有解析表達(dá)式,通??梢杂萌缦碌奶卣骱瘮?shù)來(lái)表示:

        (2)

        依據(jù)特征函數(shù)的性質(zhì),穩(wěn)定分布擁有連續(xù)且單調(diào)的概率密度函數(shù)和累積分布函數(shù)[3],因此,根據(jù)式(1),穩(wěn)定分布模型可以表示為

        (3)

        2 EP-ABC方法

        EP-ABC方法是綜合了ABC方法和EP方法而形成的一種貝葉斯推斷方法[4]。

        ABC方法的提出是為了解決在似然函數(shù)難以計(jì)算或表達(dá)情況下貝葉斯估計(jì)的困難[5]。它主要通過(guò)對(duì)模型的模擬產(chǎn)生人工數(shù)據(jù)集,以選定的概要統(tǒng)計(jì)量s(·)(Summary statistics)作為度量,比較人工數(shù)據(jù)集與實(shí)際觀測(cè)數(shù)據(jù)在這個(gè)度量上的距離,如果它們足夠接近(小于設(shè)定的誤差ε),則認(rèn)為用于模擬人工數(shù)據(jù)集的參數(shù)來(lái)自與真實(shí)后驗(yàn)分布相同的分布,這樣后驗(yàn)分布就可以直接通過(guò)數(shù)值模擬進(jìn)行估計(jì),從而省去了似然函數(shù)的計(jì)算。ABC方法成功的關(guān)鍵取決于概要統(tǒng)計(jì)量s(·)和誤差ε的選取,這對(duì)穩(wěn)定分布模型參數(shù)估計(jì)構(gòu)成了一定的挑戰(zhàn);另外,標(biāo)準(zhǔn)ABC方法計(jì)算還存在效率不高的缺點(diǎn)。

        對(duì)于穩(wěn)定分布模型,似然函數(shù)沒(méi)有解析的表達(dá)式,這會(huì)使混合分布也同樣不能被解析表達(dá),最小化KL散度的運(yùn)算是十分困難的。EP-ABC方法就是利用ABC方法替代最小化KL散度的過(guò)程來(lái)估計(jì)混合分布的矩。令概要統(tǒng)計(jì)量取s(yi)=yi,則在EP-ABC方法下,參數(shù)為θ=(βc,α,β)的穩(wěn)定分布模型聯(lián)合后驗(yàn)分布表示為

        (4)

        3 數(shù)值模擬實(shí)驗(yàn)

        3.1 模擬數(shù)據(jù)集

        在二元響應(yīng)變量回歸模型中,線(xiàn)性回歸部分模擬產(chǎn)生1個(gè)截距項(xiàng)X1和4個(gè)解釋變量(X2,X3,X4,X5),對(duì)應(yīng)的回歸系數(shù)設(shè)為βc=(β1,β2,β3,β4,β5),其中,設(shè)定X2為服從標(biāo)準(zhǔn)正態(tài)分布的連續(xù)變量,X3為服從伯努利分布的二元0-1虛擬變量,X4和X5為三分類(lèi)的類(lèi)別變量,且令樣本容量為n=200。分別模擬產(chǎn)生兩組服從n維伯努利分布的二元響應(yīng)變量:一組為基于Cloglog模型產(chǎn)生的不平衡數(shù)據(jù)集,回歸系數(shù)設(shè)為βc=(0.5,1,1,0.5,-2),稱(chēng)為模擬數(shù)據(jù)集1;另一組為基于Probit模型產(chǎn)生的平衡數(shù)據(jù)集,回歸系數(shù)設(shè)為βc=(0.5,2,-1,1.5,-2),稱(chēng)為模擬數(shù)據(jù)集2。

        為了驗(yàn)證穩(wěn)定分布模型對(duì)不平衡的模擬數(shù)據(jù)1和平衡的模擬數(shù)據(jù)集2都能進(jìn)行很好的估計(jì),從而進(jìn)一步展示Alpha穩(wěn)定分布連接函數(shù)的靈活性,將穩(wěn)定分布模型的估計(jì)結(jié)果與Logit、Probit、Cloglog和GEV模型進(jìn)行比較。這里所有的模型均采用EP-ABC算法估計(jì),并且每個(gè)待估參數(shù)都選取標(biāo)準(zhǔn)正態(tài)分布作為先驗(yàn)分布。對(duì)于穩(wěn)定分布模型,待估參數(shù)為θ=(βc,α,β),即先驗(yàn)分布βc~N(05,diag(1,1,1,1,1)),Φ-1(α/2)~N(0,1),Φ-1(β+1/2)~N(0,1)。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        圖1 回歸系數(shù)參數(shù)βc的估計(jì)誤差分布箱線(xiàn)圖

        穩(wěn)定分布模型在擬合Cloglog模型模擬產(chǎn)生的不平衡數(shù)據(jù)集1時(shí),模型連接函數(shù)中的特征參數(shù)α和對(duì)稱(chēng)參數(shù)β的估計(jì)值和95%置信區(qū)間(HPDI)分別為α=1.635(1.435,1.834),β=-0.129(-0.559,0.301),由于Cloglog函數(shù)和Alpha穩(wěn)定分布并不來(lái)自相同分布族,在Alpha穩(wěn)定分布中與Cloglog函數(shù)同等的分布的真實(shí)參數(shù)未知,因此這里只通過(guò)構(gòu)建Cloglog函數(shù)分位數(shù)和Alpha穩(wěn)定分布分位數(shù)的Q-Q圖來(lái)評(píng)價(jià)穩(wěn)定分布模型的參數(shù)估計(jì)效果。從圖2(a)中可見(jiàn),數(shù)據(jù)點(diǎn)在[-2,4]的區(qū)間內(nèi)均落在一條直線(xiàn)上,可以認(rèn)為以估計(jì)值α=1.635和β=-0.129為形狀參數(shù)的穩(wěn)定分布模型對(duì)Cloglog連接函數(shù)已經(jīng)提供了較好的擬合效果。

        穩(wěn)定分布模型在擬合Probit模型模擬產(chǎn)生的平衡數(shù)據(jù)集2時(shí),模型連接函數(shù)中的特征參數(shù)α和對(duì)稱(chēng)參數(shù)β的估計(jì)值和95%置信區(qū)間(HPDI)分別為α=1.879(1.838,1.920),β=-0.057(-0.304,0.190)。當(dāng)n=200時(shí),真實(shí)值β=0已經(jīng)包含在95%的HPDI置信區(qū)間中,而對(duì)于α而言,真實(shí)值α=2是α取值范圍(0,2]的邊界,因此α的估計(jì)取不到真實(shí)值,α=2也不可能包含在95%的HPDI置信區(qū)間中,盡管如此,估計(jì)值α=1.879已經(jīng)相當(dāng)接近真實(shí)值α=2,可以認(rèn)為α的估計(jì)是比較精確的。與此同時(shí),還可以通過(guò)構(gòu)建高斯分布分位數(shù)和Alpha穩(wěn)定分布分位數(shù)的Q-Q圖來(lái)評(píng)價(jià)穩(wěn)定分布模型對(duì)高斯分布連接函數(shù)的擬合效果,從圖2(b)中可見(jiàn),數(shù)據(jù)點(diǎn)幾乎都落在一條直線(xiàn)上,說(shuō)明以估計(jì)值α=1.879和β=-0.057為形狀參數(shù)的穩(wěn)定分布模型對(duì)高斯分布的連接函數(shù)擬合效果較好,α和β的估計(jì)是精確的。

        圖2 穩(wěn)定分布模型對(duì)Cloglog模型(a)和Probit模型(b)近似效果的Q-Q圖

        綜上所述,穩(wěn)定分布模型的連接函數(shù)可以靈活捕捉和描述數(shù)據(jù)峰度、尾部及偏度的特征,對(duì)平衡或不平衡的數(shù)據(jù)集都能做到較為精確的估計(jì)。

        3.3 模型比較與預(yù)測(cè)

        參數(shù)估計(jì)以外,本文還將穩(wěn)定分布模型的估計(jì)能力與Logit、Probit、Cloglog和GEV模型進(jìn)行對(duì)比。依據(jù)表1的模型比較結(jié)果,在DIC準(zhǔn)則方面,穩(wěn)定分布模型的DIC值都明顯小于Probit,Cloglog和GEV模型,說(shuō)明穩(wěn)定分布模型的復(fù)雜度優(yōu)于其他3個(gè)模型。

        表1 模型比較結(jié)果

        為了比較不同模型對(duì)于不平衡數(shù)據(jù)集的預(yù)測(cè)能力,計(jì)算各模型5折交叉驗(yàn)證的均方根誤差(RMSE)并繪制其接收者操作特性曲線(xiàn)(ROC),由表1可知穩(wěn)定分布模型的均方根誤差最小,圖3顯示穩(wěn)定分布模型ROC曲線(xiàn)下的面積(AUC值)最大,說(shuō)明穩(wěn)定分布模型具有最佳的預(yù)測(cè)能力。

        由此可見(jiàn),穩(wěn)定分布模型的擬合和預(yù)測(cè)效果都優(yōu)于其他3個(gè)模型,是二元響應(yīng)變量回歸模型在GEV模型基礎(chǔ)上的合理改進(jìn)。

        圖3 模擬數(shù)據(jù)集1中各模型ROC曲線(xiàn)和AUC值

        4 結(jié) 論

        本文對(duì)廣義線(xiàn)性模型進(jìn)行推廣,給出了穩(wěn)定分布模型,針對(duì)不平衡二元響應(yīng)變量回歸分析時(shí),擁有更多偏度和拖尾厚度上的靈活性。針對(duì)穩(wěn)定分布概率密度和累積分布函數(shù)沒(méi)有解析表達(dá)式的特點(diǎn),還給出了EP-ABC的估計(jì)方法。最后通過(guò)數(shù)值模擬實(shí)驗(yàn),驗(yàn)證了穩(wěn)定分布模型對(duì)二分類(lèi)不平衡數(shù)據(jù)的估計(jì)效果與預(yù)測(cè)能力優(yōu)于Logit,Probit,Cloglog以及GEV模型,該模型可以廣泛地應(yīng)用于經(jīng)濟(jì)、金融、信號(hào)處理等領(lǐng)域。

        [1]CZADO C,SANTNER T J.The effect of link misspecification on binary regression inference[J].Journal of Statistical Planning and Inference,1992,33(2):213-231.

        [2]WANG X,DEY D K.Generalized extreme value regression for binary response data:An application to B2B electronic payments system adoption[J].The Annals of Applied Statistics,2010,4(4):2000-2023.

        [3]NOPAN J P.Stable Distribution:Models for Heavy Tailed Data[M].Washington D C:Birkhauser,2010.

        [4]BARTHELME S,CHOPIN N.Expectation-propagation for likelihood-free inference[J].Journal of the American Statistical Association,2014,109(505):315-333.

        [5]TURNER B M,ZANDT T V.A tutorial on approximate Bayesian computation[J].Journal of Mathematical Psychology,2012,56(2):69-85.

        [6]SKAR C.The expectation propagation algorithm for use in approximate Bayesian analysis of latent gaussian models[D].Norway:Institutt for Matematiske Fag,2010.

        Alpha-Stable Distribution Based Regression for Binary Response Data

        XU Zhe, QIAN Xi-yuan

        (School of Science,East China University of Science and Technology,Shanghai 200237,China)

        Logit model is the most popular binary regression models for modelling binary response data.When dealing with unbalanced data,Logit model will cause link misspecification.A more flexible model of alpha-stable model,is introduced to fit unbalanced data by setting alpha-stable distribution as the link function.For model estimation,since alpha-stable distribution admits no closed-form expression for the density,we employ expectation propagation with approximate Bayesian computation (EP-ABC) algorithm.It overcomes the difficulties that high dimensionality results in low acceptance rate through data partitioning.According to the simulation results,alpha-stable model performs better than Logit,Probit,Cloglog or GEV model in fitting both balanced and unbalanced data.

        Alpha-stable model; EP-ABC algorithm; generalized regression model; unbalanced data

        1006-3080(2017)01-0129-04

        10.14135/j.cnki.1006-3080.2017.01.020

        2016-04-19

        國(guó)家高技術(shù)發(fā)展研究“863”計(jì)劃項(xiàng)目(2015AA20107);上海市經(jīng)信委“軟件和集成電路產(chǎn)業(yè)發(fā)展專(zhuān)項(xiàng)資金”(140304)

        許 哲(1991-),女,江蘇南京人,碩士生,研究方向?yàn)榻y(tǒng)計(jì)計(jì)算。E-mail:belle_910803@163.com

        錢(qián)夕元,E-mail:xyqian@ecust.edu.cn

        O212.1

        A

        猜你喜歡
        偏度高斯分布估計(jì)值
        對(duì)稱(chēng)分布的矩刻畫(huà)
        利用Box-Cox變換對(duì)移動(dòng)通信中小區(qū)級(jí)業(yè)務(wù)流量分布的研究
        2種非對(duì)稱(chēng)廣義高斯分布模型的構(gòu)造
        一道樣本的數(shù)字特征與頻率分布直方圖的交匯問(wèn)題
        統(tǒng)計(jì)信息
        2018年4月世界粗鋼產(chǎn)量表(續(xù))萬(wàn)噸
        一種基于改進(jìn)混合高斯模型的前景檢測(cè)
        基于偏度的滾動(dòng)軸承聲信號(hào)故障分析方法
        考慮偏度特征的動(dòng)態(tài)多響應(yīng)穩(wěn)健參數(shù)設(shè)計(jì)與優(yōu)化
        基于偏度、峰度特征的BPSK信號(hào)盲處理結(jié)果可信性評(píng)估
        電子器件(2015年5期)2015-12-29 08:42:56
        国产白丝无码视频在线观看| 草逼视频免费观看网站| 高黄暴h日本在线观看| 熟女少妇在线视频播放| 久久er国产精品免费观看8| 青青草国内视频在线观看| 日本一区二区视频在线| 国产香蕉国产精品偷在线| 国产区精品| 亚洲乱码中文字幕综合| 日韩亚洲无吗av一区二区| 午夜福利试看120秒体验区| 欧美色五月| av免费观看在线网站| 人妻少妇偷人精品久久性色av| 一区二区三区在线 | 欧| 欧洲亚洲第一区久久久| 国产一区二区三区免费在线播放| 欧美熟妇另类久久久久久多毛| 国产97在线 | 免费| 亚洲三区二区一区视频| 女同在线网站免费观看| 99999久久久久久亚洲| 欧美日韩中文国产一区| 69堂在线无码视频2020| 男女性行为免费视频网站| 午夜性色一区二区三区不卡视频| 韩国三级中文字幕hd久久精品| 国产伦精品一区二区三区免费| 国产精品每日更新在线观看| 国产丝袜美腿嫩模视频诱惑| 人妻激情偷乱视频一区二区三区| 日韩欧美在线综合网| 亚洲乱色视频在线观看| 澳门蜜桃av成人av| 国产美女在线精品免费观看| av无码精品一区二区乱子| 精品精品国产一区二区性色av| 久久久免费精品re6| 久久国产自偷自免费一区100| 免费看男女啪啪的视频网站|