呂敏紅,閆奕榮
(1.西安航空學(xué)院 理學(xué)院,西安 710077;2.西北大學(xué) 數(shù)學(xué)學(xué)院,西安 710069;3.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,西安 710049)
技術(shù)數(shù)據(jù)廣泛存在于醫(yī)療、生物學(xué)、金融保險(xiǎn)以及風(fēng)險(xiǎn)控制,擬合計(jì)數(shù)數(shù)據(jù)的單用分布主要有泊松分布,二項(xiàng)分布等。但是在實(shí)際問題中零觀測的比例遠(yuǎn)超過了擬合分布的允許范圍,即存在零膨脹,故零膨脹模型的研究已成為當(dāng)今國內(nèi)外的一個(gè)熱點(diǎn)問題。
自從Lambert提出了零點(diǎn)膨脹Psisson回歸模型[1]以來,關(guān)于具有零膨脹特征的計(jì)數(shù)數(shù)據(jù)已經(jīng)有了多方面的研究,Greene(1994)[2]在Lambert的思想下提出了零膨脹的可加性負(fù)二項(xiàng)回歸模型。Fahrmeir和Echavarria(2006)[3]研究了一類零膨脹的可加模型,Xie(2009)[4]系統(tǒng)研究了廣義的Poisson混合效應(yīng)模型的統(tǒng)計(jì)診斷問題,Ghosh(2006)[5]研究了零膨脹回歸的貝葉斯方法,傳統(tǒng)的零膨脹回歸模型是對隨機(jī)效應(yīng)和隨機(jī)誤差作正態(tài)的假設(shè),但是在實(shí)際中正態(tài)假設(shè)可能會(huì)導(dǎo)致無效的統(tǒng)計(jì)結(jié)論。本文考慮了隨機(jī)誤差和隨機(jī)效應(yīng)服從偏斜正態(tài)分布的ZIP層次回歸模型的貝葉斯分析問題,最后用一個(gè)實(shí)例說明該方法的有效性。
ZIP分布的基本思想是取值為零的部分和取值為Poisson的部分各占一定的比例構(gòu)成ZIP混合分布,即:
其中0<?<1為零膨脹系數(shù)。顯然當(dāng)?=0時(shí),ZIP分布變?yōu)镻oisson分布,λ為泊松分布的均值。(1)式的均值和方差分別為:
在實(shí)際問題中,數(shù)據(jù)可能呈現(xiàn)內(nèi)在關(guān)聯(lián)或?qū)哟谓Y(jié)構(gòu),為了刻畫數(shù)據(jù)的這些關(guān)系,本文進(jìn)一步定義層次回歸模型[6],層次回歸模型綜合了線性回歸和隨機(jī)效應(yīng)模型的優(yōu)勢。
假設(shè)Yij為本文感興趣的響應(yīng)變量,yij表示第i個(gè)群第 j個(gè)樣本的觀察數(shù)值。i=1,2,…,m, j=1,2,…,n 相對于傳統(tǒng)模型,層次模型可將傳統(tǒng)模型的誤差項(xiàng)分解到與數(shù)據(jù)相對應(yīng)水平上。若Yij~ZIP(φij,λij),針對膨脹參數(shù) ?ij與均值參數(shù)λij建立如下混合效應(yīng)模型:
其中,βij與rij分別是協(xié)變量xij與zij的回歸系數(shù),
進(jìn)一步對上層模型考慮線性回歸,并引入隨機(jī)效應(yīng):
其中,Wij為協(xié)矩陣,β與γ為參數(shù)向量,ui與vi為隨機(jī)效應(yīng)。(2)式與(3)式合稱為零膨脹Poisson層次回歸模型。
經(jīng)典的零膨脹Poisson回歸模型一般都假設(shè)隨機(jī)誤差及隨機(jī)效應(yīng)都服從正態(tài)分布,但是這種假設(shè)過于理想化,現(xiàn)實(shí)中很多情況下并不滿足,或者說有些數(shù)據(jù)按照這種假設(shè)建立的模型缺乏穩(wěn)健性。接下來,本文考慮SN-ZIP層次回歸模型。
n維隨機(jī)變量Y服從n元偏斜正態(tài)分布,記作Y~SNn(μ,Σ,Δ),其概率密度函數(shù)為:
其中,μ 為均值,Σ 為尺度矩陣,Δ=diag(δ1,δ2,…,δn)為偏度矩陣,?n和Φn分別為標(biāo)準(zhǔn)正態(tài)分布下的概率密度和分布函數(shù)。特別當(dāng) δ=(δ1,δ2,…,δn)=0 時(shí),分布退化成為多元正態(tài)分布。為使用方便,進(jìn)一步寫出(4)式的層次表示[7]:
假設(shè)ZIP層次回歸模型中的隨機(jī)誤差和隨機(jī)效應(yīng)都服從SN分布,則ZIP層次回歸模型便成為SN-ZIP層次回歸模型。
首先,ZIP層次回歸模型中的隨機(jī)誤差服從SN分布,即(2)式中的:
其中 Δk=diag(δ1(k),δ2(k),…,δn(k)),k=1,2 。
其次,ZIP層次回歸模型中的隨機(jī)效應(yīng)也服從SN分布,即(3)式中的:
其中 Δu=diag(δu1,δu2,…,δun),Δv=diag(δv1,δv2,…,δvn)。
式(2)、式(3)、式(6)、式(7)合稱為SN-ZIP層次回歸模型。
與似然方法相比,貝葉斯方法綜合了樣本中的先驗(yàn)信息,對于某些復(fù)雜的模型具有特別的靈活性,下面具體研究SN-ZIP層次回歸模型的貝葉斯推斷。
3.2.1 潛變量的數(shù)據(jù)添加
零膨脹回歸模型中的響應(yīng)變量Yij可以表示為Yij=Cij(1 -Bij)[5],其中Bij是具有參數(shù)φij的伯努利分布隨機(jī)變量,Cij服從參數(shù)為λij的Poisson分布,那么給定:
Yij=yij時(shí)(Cij,Bij)的聯(lián)合條件分布為:
當(dāng) yij>0時(shí),Bij=0,Cij=yij,即:
P(Bij=0,Cij=yij|Yij=yij)=1
當(dāng) yij=0時(shí),有兩種情況 Bij=0,Cij=0或 Bij=1,Cij=cij,此時(shí):
3.2.2 先驗(yàn)分布和參數(shù)設(shè)定
若 θ=(β,γ,δ(1),δ(2),δu,δvσ2(1),σ2(2),Σu,Σv)為本文涉及的全體參數(shù),其中 β、γ是本文感興趣的參數(shù),δ(k)=(δ(k),
1
δ2
(k),…,δn(k))T,k=1,2。假設(shè) f(θ)為 θ 的先驗(yàn)密度函數(shù),在后面的貝葉斯推斷中選擇如下的獨(dú)立先驗(yàn)分布,即:
其中Ωk=diag(σ2(k)), β0、γ0δu0、δv0為層次回歸分析的截距項(xiàng)。σ2(k)、Γ(k)、Γu、Γv、ω1(k)、ω2(k)、ψu(yù)、ψv,Ru、Rv為超參數(shù),超參數(shù)的選取一般通過給定的先驗(yàn)信息來確定。
3.2.3 模型建立
本文考慮隨機(jī)誤差和隨機(jī)效應(yīng)服從偏斜正態(tài)分布的ZIP層次回歸模型,利用偏斜正態(tài)分布的層次表示方法,即式(5),本文建立如下模型。
第一步:潛變量建模
第二步:回歸系數(shù)建模
用貝葉斯的方法,參數(shù)θ的后驗(yàn)分布基于觀測數(shù)據(jù)是很難直接計(jì)算出來的,可以采用Gibbs抽樣和M-H算法[7],并且借助計(jì)算機(jī)可以較為簡單的解決上述問題。在抽樣過程中,由于Gibbs抽樣的順序不會(huì)影響貝葉斯估計(jì)的結(jié)果,當(dāng)樣本收斂后,就會(huì)得到感興趣參數(shù)的估計(jì)值。然后,可以采用Johnson給出的貝葉斯擬合統(tǒng)計(jì)量[8]來計(jì)算模型對數(shù)據(jù)的擬合程度。
貝葉斯模型選擇的方法有很多,比如貝葉斯因子,后驗(yàn)?zāi)P透怕屎秃篁?yàn)預(yù)測檢驗(yàn)等,本文選用BIC作為模型選擇的準(zhǔn)則:
數(shù)據(jù)來源于Lloyd社記錄的34條船只的5年內(nèi)發(fā)生事故受損的情況。本文對數(shù)據(jù)進(jìn)行分析后發(fā)現(xiàn)其具有零膨脹特征。為了分析船只種類、建造時(shí)間及服務(wù)年限對受損情況的影響,本文建立了偏斜正態(tài)分布下的ZIP層次回歸模型,計(jì)算出參數(shù)的后驗(yàn)均值及MC誤差,具體見表1,其中A1,A2,…,A5表示船舶類型,B1,B2,…,B4表示建造年代,T1、T2表示服務(wù)年限。除使用上述模型外,本文還利用一般ZIP回歸模型及ZIP混合效應(yīng)模型對該數(shù)據(jù)進(jìn)行了擬合,通過BIC準(zhǔn)則比較了模型的優(yōu)劣,計(jì)算結(jié)果見表2。
表1 參數(shù)的貝葉斯估計(jì)
表2 不同模型的BIC值
由表2可以看出,層次SN-ZIP的BIC值最小,表明用層次SN-ZIP模型對數(shù)據(jù)進(jìn)行擬合,擬合程度最高。也是就說對于這組數(shù)據(jù),偏態(tài)的作用是顯著的,考慮對隨機(jī)誤差及隨機(jī)效應(yīng)服從偏斜正態(tài)分布比假設(shè)兩者服從正態(tài)分布要合理。
傳統(tǒng)的ZIP層次回歸模型的基本假設(shè)是隨機(jī)效應(yīng)和隨機(jī)誤差正態(tài)分布,然而在實(shí)際中,正態(tài)假設(shè)缺乏穩(wěn)健性,也可能會(huì)導(dǎo)致無效的統(tǒng)計(jì)結(jié)論。為了精確處理參數(shù)估計(jì)的問題,本文考慮了隨機(jī)誤差和隨機(jī)效應(yīng)服從偏斜正態(tài)分布的情況,最后通過實(shí)例說明了該方法的有效性。但是缺失數(shù)據(jù)下的偏斜正態(tài)分布還有待進(jìn)一步研究。