趙宸稷,張慶春,曹曉涵
(1.吉林化工學(xué)院 信息與控制工程學(xué)院,吉林 吉林;2 吉林化工學(xué)院 理學(xué)院,吉林 吉林)
近幾十年來,整數(shù)值時間序列的建模問題受到學(xué)者廣泛關(guān)注,基于稀疏算子構(gòu)建整數(shù)值模型是研究整數(shù)值時間序列的主要方法。其中基于二項(xiàng)稀疏算子的整值INAR(1)模型[1]是最為經(jīng)典的模型。例如近年來,基于二項(xiàng)稀疏算子利用預(yù)設(shè)邊際分布法,Nasti'c 等2016 年基于二項(xiàng)稀疏算子建立的一元一階整數(shù)值自回歸模型[2],Popovi'c 等2016 年建立了具有相同幾何邊際分布的二元INAR(1)模型[3]等。為了刻畫傳染病過程、繁殖過程和犯罪過程等具有活躍的數(shù)據(jù)生成機(jī)制,Risti'c 提出了負(fù)二項(xiàng)稀疏算子[4],很多學(xué)者基于負(fù)二項(xiàng)稀疏算子建立了INAR(1)模型,例如利用預(yù)設(shè)邊際分布法,Barreto-Souza 和Bourguignon 在2015 年基于修正的負(fù)二項(xiàng)稀疏算子考慮了以Laplace 分布為邊際分布的INAR(1)過程[5]。但由于自身定義的原因,負(fù)二項(xiàng)稀疏算子不適合利用預(yù)設(shè)新息過程的分布法構(gòu)建INAR(1)模型,張等(2020)提出了一個推廣的負(fù)二項(xiàng)稀疏算子并基于該稀疏算子利用預(yù)設(shè)新息過程的分布法建立了二元INAR(1)模型[6]?;谕茝V的負(fù)二項(xiàng)稀疏算子利用預(yù)設(shè)邊際分布法,Aleksi'c MS 和Risti'c MM 在2020 年提出了一個幾何修正整數(shù)值自回歸模型[7]。這表明推廣的負(fù)二項(xiàng)稀疏算子在利用預(yù)設(shè)新息過程分布的方法構(gòu)建INAR(1)模型是非常重要的。文獻(xiàn)[6]中已經(jīng)指出利用預(yù)設(shè)新息分布法基于負(fù)二項(xiàng)稀疏算子的INAR(1)模型(NBINAR(1))在x=0 點(diǎn)時概率質(zhì)量不存在從而其所有邊際分布不存在,從而NBINAR(1)模型不存在。本文將從數(shù)值模擬的角度,通過假定該模型的一步轉(zhuǎn)移概率是存在的,利用條件極大似然方法對該模型的參數(shù)進(jìn)行廣泛地模擬研究,并將該模型的估計(jì)結(jié)果與利用預(yù)設(shè)新息分布法基于推廣的負(fù)二項(xiàng)稀疏算子構(gòu)建的INAR(1)模型(ENBINAR(1))的結(jié)果相對比,來進(jìn)一步說明NBINAR(1)模型不存在的原因。進(jìn)而表明推廣的負(fù)二項(xiàng)稀疏算子在利用預(yù)設(shè)新息項(xiàng)分布法構(gòu)建INAR(1)模型時的必要性。
把滿足迭代方程(1)的過程稱為基于推廣的負(fù)二項(xiàng)稀疏算子的INAR(1)過程:
記作ENBINAR(1)過程。其中“*E”表示推廣的負(fù)二項(xiàng)稀疏算子,其定義如下:
在(2)式中X 表示非負(fù)整數(shù)值隨機(jī)變量,參數(shù)α 滿足α∈(0,1),Wj相互獨(dú)立且服從參數(shù)為α 的幾何分布,其分布律為εt為新息項(xiàng)。
把滿足迭代方程(3)的過程稱為基于負(fù)二項(xiàng)稀疏算子的INAR(1)過程記作NBINAR(1)過程。
其中“*”表示負(fù)二項(xiàng)稀疏算子,其定義如下:
同樣的,在式(4)中X 表示非負(fù)整數(shù)值隨機(jī)變量;參數(shù)α 滿足α∈(0,1),Yi相互獨(dú)立且服從參數(shù)為α的幾何分布,其分布律為εt為新息項(xiàng)。
注意到,ENBINAR(1)模型和NBINAR(1)模型區(qū)別在于:ENBINAR(1)模型中Wj是從1 取到x+1,而在NBINAR(1)模型中Wj是從1 取到x。
ENBINAR(1)模型和NBINAR(1)模型的一步轉(zhuǎn)移概率形式上都可以表示為:
其中,f2(k)為新息過程的密度函數(shù),在ENBINAR(1)模型中在NBINAR(1)模型中
因此兩個模型的條件似然函數(shù)形式都表示為
其中θ 是未知參數(shù)向量,θ 的條件極大似然估計(jì)可通過最大化下面的條件對數(shù)似然函數(shù)得到
本節(jié)中,我們通過一系列的數(shù)值模擬來比較極大似然估計(jì)(CML)在評估兩個模型NBINAR(1)模型和ENBINAR(1)模型中的效果。將兩個模型的新息項(xiàng)分布分別取作泊松分布和幾何分布。
(1) 當(dāng)新息項(xiàng)取泊松分布時,式(5)中的f2(k)形式為:
(2) 當(dāng)新息項(xiàng)取幾何分布時,式(5)中的f2(k)形式為:
模擬研究的樣本量分別取100,300 和500,所有的模擬研究都是在R 軟件環(huán)境下基于1 000 次的重復(fù)計(jì)算的結(jié)果,以下是兩個模型NBINAR(1)模型和ENBINAR(1)模型基于CML 估計(jì)的均值(Mean)和均方誤差(MSE) 以及標(biāo)準(zhǔn)誤差(SE) 的對比。注意到,在NBINAR(1)模型中,為了估計(jì)的順利進(jìn)行,原本當(dāng)xt-1為0 時,其一步轉(zhuǎn)移概率中f1(xt-k)的前半部分,即沒有定義,但為了模型的運(yùn)行,本文將其設(shè)定為1。
從表1、表2 兩個模型模擬的數(shù)據(jù)結(jié)果對比可以看出,隨著樣本量的增大,兩個模型的Mean 值會越來越趨近于真值,但ENBINAR(1)模型趨近于真值的速度更快;對于兩個模型的MSE 和SE 也越來越小,注意到,當(dāng)λ 很小,靠近于1 時,ENBINAR(1)模型的MSE 和SE 更小,說明兩個模型當(dāng)λ 大于1 時,兩個極大似然估計(jì)量都具有漸近性。但當(dāng)λ 逐漸靠近1時,ENBINAR (1) 模型極大似然估計(jì)量的估計(jì)效果更好。值得注意的是,當(dāng)λ 大于0 小于1 時,NBINAR(1)模型的估計(jì)值和真值差距非常大,尤其是λ,其估計(jì)值比真值小好多數(shù)量級,經(jīng)四舍五入后均為0。但ENBINAR(1)模型的估計(jì)效果很好,且估計(jì)量具有漸近性。分析NBINAR(1)模型在λ 大于0 小于1 估計(jì)的效果很差的原因?yàn)閿?shù)據(jù)中0 出現(xiàn)的次數(shù)過多,例如當(dāng)α=0.1,λ=0.3,樣本量為100 時,數(shù)據(jù)中里面為0 的個數(shù)為87 個,數(shù)據(jù)里面為0 的概率達(dá)到了87%。當(dāng)λ 大于1 時,隨著λ 增大,數(shù)據(jù)里面0 出現(xiàn)的個數(shù)越來越少,兩個模型的Mean,MSE 和SE 的差距越來越小。因此,從模擬結(jié)果可以清晰看出NBINAR(1)模型中當(dāng)出現(xiàn)0 的個數(shù)過多時,會影響其參數(shù)估計(jì)的結(jié)果和效果。更進(jìn)一步的說明不能忽視x=0 的邊際分布不存在進(jìn)而整個NBINAR(1)模型的邊際分布不存在的事實(shí),因此,模擬結(jié)果更直觀地說明了基于利用預(yù)設(shè)新息分布法基于負(fù)二項(xiàng)稀疏算子構(gòu)建的INAR(1)模型是不存在的。
表1 新息項(xiàng)為泊松分布時,兩個模型的Mean,MSE,SE 的對比
表2 新息項(xiàng)為幾何分布時,兩個模型的Mean,MSE,SE 的對比
本文通過對利用預(yù)設(shè)新息分布法分別基于負(fù)二項(xiàng)稀疏算子和推廣的負(fù)二項(xiàng)稀疏算子建立的INAR(1)模型進(jìn)行極大似然估計(jì)并進(jìn)行數(shù)值模擬研究,模擬結(jié)果表明:當(dāng)兩個模型的新息項(xiàng)分別取泊松分布或者幾何分布時,λ 大于1 時,兩個模型的Mean 隨著樣本量的增加而趨近于真值,且MSE 越來越小,而基于推廣的負(fù)二項(xiàng)稀疏算子的INAR(1)模型的Mean 趨近于真值的速度更快,且SE 和MSE 要比基于負(fù)二項(xiàng)稀疏算子的INAR(1)模型的要更小。值得注意的是,當(dāng)λ大于0 小于1 時,NBINAR(1)模型中由于零出現(xiàn)的次數(shù)偏高,導(dǎo)致其估計(jì)值和真值差距很大,但ENBINAR(1)模型的估計(jì)效果很好。這再次驗(yàn)證了不能忽視基于負(fù)二項(xiàng)稀疏算子的INAR(1)模型在x=0 點(diǎn)時概率質(zhì)量不存在的事實(shí),直觀地說明基于負(fù)二項(xiàng)稀疏算子的INAR(1)模型不存在,也進(jìn)一步闡明了推廣的負(fù)二項(xiàng)稀疏算子對于構(gòu)建INAR(1)模型的重要性和必要性。