亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

偏斜正態(tài)分布下的ZIP層次回歸模型的貝葉斯方法

2018-10-30 03:43:50呂敏紅閆奕榮

統(tǒng)計(jì)與決策 2018年19期

呂敏紅，閆奕榮

（1.西安航空學(xué)院理學(xué)院，西安 710077；2.西北大學(xué) 數(shù)學(xué)學(xué)院，西安 710069；3.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院，西安 710049）

0 引言

技術(shù)數(shù)據(jù)廣泛存在于醫(yī)療、生物學(xué)、金融保險(xiǎn)以及風(fēng)險(xiǎn)控制，擬合計(jì)數(shù)數(shù)據(jù)的單用分布主要有泊松分布，二項(xiàng)分布等。但是在實(shí)際問題中零觀測的比例遠(yuǎn)超過了擬合分布的允許范圍，即存在零膨脹，故零膨脹模型的研究已成為當(dāng)今國內(nèi)外的一個(gè)熱點(diǎn)問題。

自從Lambert提出了零點(diǎn)膨脹Psisson回歸模型[1]以來，關(guān)于具有零膨脹特征的計(jì)數(shù)數(shù)據(jù)已經(jīng)有了多方面的研究，Greene（1994）[2]在Lambert的思想下提出了零膨脹的可加性負(fù)二項(xiàng)回歸模型。Fahrmeir和Echavarria（2006）[3]研究了一類零膨脹的可加模型，Xie（2009）[4]系統(tǒng)研究了廣義的Poisson混合效應(yīng)模型的統(tǒng)計(jì)診斷問題，Ghosh（2006）[5]研究了零膨脹回歸的貝葉斯方法，傳統(tǒng)的零膨脹回歸模型是對隨機(jī)效應(yīng)和隨機(jī)誤差作正態(tài)的假設(shè)，但是在實(shí)際中正態(tài)假設(shè)可能會(huì)導(dǎo)致無效的統(tǒng)計(jì)結(jié)論。本文考慮了隨機(jī)誤差和隨機(jī)效應(yīng)服從偏斜正態(tài)分布的ZIP層次回歸模型的貝葉斯分析問題，最后用一個(gè)實(shí)例說明該方法的有效性。

1 零膨脹Poisson回歸模型（ZIP）

ZIP分布的基本思想是取值為零的部分和取值為Poisson的部分各占一定的比例構(gòu)成ZIP混合分布，即：

其中0＜?＜1為零膨脹系數(shù)。顯然當(dāng)?=0時(shí)，ZIP分布變?yōu)镻oisson分布，λ為泊松分布的均值。（1）式的均值和方差分別為：

2 零膨脹Pission層次回歸模型

在實(shí)際問題中，數(shù)據(jù)可能呈現(xiàn)內(nèi)在關(guān)聯(lián)或?qū)哟谓Y(jié)構(gòu)，為了刻畫數(shù)據(jù)的這些關(guān)系，本文進(jìn)一步定義層次回歸模型[6]，層次回歸模型綜合了線性回歸和隨機(jī)效應(yīng)模型的優(yōu)勢。

假設(shè)Yij為本文感興趣的響應(yīng)變量，yij表示第i個(gè)群第 j個(gè)樣本的觀察數(shù)值。i=1，2，…，m， j=1，2，…，n 相對于傳統(tǒng)模型，層次模型可將傳統(tǒng)模型的誤差項(xiàng)分解到與數(shù)據(jù)相對應(yīng)水平上。若Yij~ZIP(φij，λij),針對膨脹參數(shù) ?ij與均值參數(shù)λij建立如下混合效應(yīng)模型：

其中，βij與rij分別是協(xié)變量xij與zij的回歸系數(shù)，

進(jìn)一步對上層模型考慮線性回歸，并引入隨機(jī)效應(yīng)：

其中，Wij為協(xié)矩陣，β與γ為參數(shù)向量，ui與vi為隨機(jī)效應(yīng)。（2）式與（3）式合稱為零膨脹Poisson層次回歸模型。

3 偏斜正態(tài)分布下零膨脹Poisson層次回歸模型的貝葉斯方法

經(jīng)典的零膨脹Poisson回歸模型一般都假設(shè)隨機(jī)誤差及隨機(jī)效應(yīng)都服從正態(tài)分布，但是這種假設(shè)過于理想化，現(xiàn)實(shí)中很多情況下并不滿足，或者說有些數(shù)據(jù)按照這種假設(shè)建立的模型缺乏穩(wěn)健性。接下來，本文考慮SN-ZIP層次回歸模型。

3.1 SN-ZIP層次回歸模型

n維隨機(jī)變量Y服從n元偏斜正態(tài)分布，記作Y～SNn(μ，Σ，Δ)，其概率密度函數(shù)為：

其中，μ 為均值，Σ 為尺度矩陣，Δ=diag(δ1，δ2，…，δn)為偏度矩陣，?n和Φn分別為標(biāo)準(zhǔn)正態(tài)分布下的概率密度和分布函數(shù)。特別當(dāng) δ=(δ1，δ2，…，δn)=0 時(shí)，分布退化成為多元正態(tài)分布。為使用方便，進(jìn)一步寫出（4）式的層次表示[7]：

假設(shè)ZIP層次回歸模型中的隨機(jī)誤差和隨機(jī)效應(yīng)都服從SN分布，則ZIP層次回歸模型便成為SN-ZIP層次回歸模型。

首先，ZIP層次回歸模型中的隨機(jī)誤差服從SN分布，即（2）式中的：

其中 Δk=diag(δ1(k)，δ2(k)，…，δn(k))，k=1，2 。

其次，ZIP層次回歸模型中的隨機(jī)效應(yīng)也服從SN分布，即（3）式中的：

其中 Δu=diag(δu1，δu2，…，δun)，Δv=diag(δv1，δv2，…，δvn)。

式（2）、式（3）、式（6）、式（7）合稱為SN-ZIP層次回歸模型。

3.2 貝葉斯推斷

與似然方法相比，貝葉斯方法綜合了樣本中的先驗(yàn)信息，對于某些復(fù)雜的模型具有特別的靈活性，下面具體研究SN-ZIP層次回歸模型的貝葉斯推斷。

3.2.1 潛變量的數(shù)據(jù)添加

零膨脹回歸模型中的響應(yīng)變量Yij可以表示為Yij=Cij(1 -Bij)[5]，其中Bij是具有參數(shù)φij的伯努利分布隨機(jī)變量，Cij服從參數(shù)為λij的Poisson分布，那么給定：

Yij=yij時(shí)(Cij，Bij)的聯(lián)合條件分布為：

當(dāng) yij＞0時(shí)，Bij=0，Cij=yij，即：

P(Bij=0，Cij=yij|Yij=yij)=1

當(dāng) yij=0時(shí),有兩種情況 Bij=0，Cij=0或 Bij=1，Cij=cij，此時(shí)：

3.2.2 先驗(yàn)分布和參數(shù)設(shè)定

若 θ=(β，γ，δ(1)，δ(2)，δu，δvσ2(1)，σ2(2)，Σu，Σv)為本文涉及的全體參數(shù)，其中 β、γ是本文感興趣的參數(shù)，δ(k)=(δ(k)，

δ2

(k)，…，δn(k))T，k=1，2。假設(shè) f(θ)為 θ 的先驗(yàn)密度函數(shù)，在后面的貝葉斯推斷中選擇如下的獨(dú)立先驗(yàn)分布，即：

其中Ωk=diag(σ2(k)), β0、γ0δu0、δv0為層次回歸分析的截距項(xiàng)。σ2(k)、Γ(k)、Γu、Γv、ω1(k)、ω2(k)、ψu(yù)、ψv，Ru、Rv為超參數(shù)，超參數(shù)的選取一般通過給定的先驗(yàn)信息來確定。

3.2.3 模型建立

本文考慮隨機(jī)誤差和隨機(jī)效應(yīng)服從偏斜正態(tài)分布的ZIP層次回歸模型,利用偏斜正態(tài)分布的層次表示方法，即式（5），本文建立如下模型。

第一步：潛變量建模

第二步：回歸系數(shù)建模

用貝葉斯的方法，參數(shù)θ的后驗(yàn)分布基于觀測數(shù)據(jù)是很難直接計(jì)算出來的，可以采用Gibbs抽樣和M-H算法[7]，并且借助計(jì)算機(jī)可以較為簡單的解決上述問題。在抽樣過程中，由于Gibbs抽樣的順序不會(huì)影響貝葉斯估計(jì)的結(jié)果，當(dāng)樣本收斂后，就會(huì)得到感興趣參數(shù)的估計(jì)值。然后，可以采用Johnson給出的貝葉斯擬合統(tǒng)計(jì)量[8]來計(jì)算模型對數(shù)據(jù)的擬合程度。

貝葉斯模型選擇的方法有很多，比如貝葉斯因子，后驗(yàn)?zāi)Ｐ透怕屎秃篁?yàn)預(yù)測檢驗(yàn)等，本文選用BIC作為模型選擇的準(zhǔn)則：

4 實(shí)例分析

數(shù)據(jù)來源于Lloyd社記錄的34條船只的5年內(nèi)發(fā)生事故受損的情況。本文對數(shù)據(jù)進(jìn)行分析后發(fā)現(xiàn)其具有零膨脹特征。為了分析船只種類、建造時(shí)間及服務(wù)年限對受損情況的影響，本文建立了偏斜正態(tài)分布下的ZIP層次回歸模型，計(jì)算出參數(shù)的后驗(yàn)均值及MC誤差，具體見表1，其中A1，A2，…,A5表示船舶類型，B1，B2，…,B4表示建造年代，T1、T2表示服務(wù)年限。除使用上述模型外，本文還利用一般ZIP回歸模型及ZIP混合效應(yīng)模型對該數(shù)據(jù)進(jìn)行了擬合，通過BIC準(zhǔn)則比較了模型的優(yōu)劣，計(jì)算結(jié)果見表2。

表1 參數(shù)的貝葉斯估計(jì)

表2 不同模型的BIC值

由表2可以看出，層次SN-ZIP的BIC值最小，表明用層次SN-ZIP模型對數(shù)據(jù)進(jìn)行擬合，擬合程度最高。也是就說對于這組數(shù)據(jù)，偏態(tài)的作用是顯著的，考慮對隨機(jī)誤差及隨機(jī)效應(yīng)服從偏斜正態(tài)分布比假設(shè)兩者服從正態(tài)分布要合理。

5 結(jié)論

傳統(tǒng)的ZIP層次回歸模型的基本假設(shè)是隨機(jī)效應(yīng)和隨機(jī)誤差正態(tài)分布，然而在實(shí)際中，正態(tài)假設(shè)缺乏穩(wěn)健性，也可能會(huì)導(dǎo)致無效的統(tǒng)計(jì)結(jié)論。為了精確處理參數(shù)估計(jì)的問題，本文考慮了隨機(jī)誤差和隨機(jī)效應(yīng)服從偏斜正態(tài)分布的情況，最后通過實(shí)例說明了該方法的有效性。但是缺失數(shù)據(jù)下的偏斜正態(tài)分布還有待進(jìn)一步研究。