范曉東,張 持,張慶春*,趙宸稷,曹曉涵
(1.吉林化工學(xué)院 理學(xué)院,吉林 吉林 132022;2.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;3.吉林化工學(xué)院 信息與控制工程學(xué)院,吉林 吉林 132022)
整數(shù)值時(shí)間序列在金融、交通、醫(yī)療、預(yù)防犯罪等很多領(lǐng)域都廣泛存在.基于稀疏算子構(gòu)建整數(shù)值模型是擬合整數(shù)值時(shí)間序列的主要方法.最早的稀疏算子模型是McKenzie(1985)[1]基于二項(xiàng)稀疏算子構(gòu)建的整數(shù)值一階自回歸(INAR(1))模型.統(tǒng)計(jì)學(xué)者們針對(duì)INAR(1)模型進(jìn)行了廣泛研究[2-4].由于稀疏參數(shù)會(huì)受到外部環(huán)境的影響而隨時(shí)間變化,Zheng等(2007)[5]提出了帶有隨機(jī)系數(shù)的一階整數(shù)值自回歸(RCINAR(1))模型,拓廣了INAR(1)模型的應(yīng)用范圍,但該模型不適用于擬合非線性的整數(shù)值數(shù)據(jù).在傳統(tǒng)的時(shí)間序列分析中,為了擬合地震和疾病暴發(fā)等帶有偶然爆發(fā)特征的時(shí)間序列,Mohler(1973)[6]提出了雙線性模型(Bilinear model).Granger和Anderson(1978)[7]將雙線性模型應(yīng)用到時(shí)間序列建模中.雙線性模型是類似線性ARMA模型的一種非線性模型,它保留了大部分ARMA模型結(jié)構(gòu)的特性,它的另一種常見(jiàn)形式是僅具有AR結(jié)構(gòu)的模型.它比線性模型能更好地?cái)M合現(xiàn)實(shí)生活中的非線性時(shí)間序列數(shù)據(jù),同時(shí)它也是時(shí)間序列非線性模型中形式最簡(jiǎn)單的一類模型.Tong (1989)[8]將雙線性模型引入到整數(shù)值時(shí)間序列建模中.Doukhan等 (2006)[9]和 Drost等(2008)[10]先后對(duì)帶有獨(dú)立新息過(guò)程和生存過(guò)程的雙線性整數(shù)值時(shí)間序列模型進(jìn)行了研究.由于該模型的自回歸系數(shù)是固定的,所以無(wú)法刻畫受環(huán)境等因素影響隨時(shí)間變化的動(dòng)態(tài)整數(shù)值時(shí)間序列.因此,為刻畫隨時(shí)間變化的整數(shù)值時(shí)間序列,本文基于帶有隨機(jī)系數(shù)的二項(xiàng)稀疏算子建立一階自回歸雙線性模型,稱為帶有隨機(jī)系數(shù)的雙線性非負(fù)整數(shù)值一階自回歸(RBLINAR(1))模型,并用修正的矩估計(jì)法估計(jì)模型參數(shù),具有一定的創(chuàng)新性和實(shí)用價(jià)值.
稱滿足迭代方程(1)的過(guò)程為基于帶有隨機(jī)系數(shù)的二項(xiàng)稀疏算子的雙線性INAR(1)過(guò)程,記作RBLINAR(1)過(guò)程.
(1)
其中“°”表示隨機(jī)系數(shù)的二項(xiàng)稀疏算子,其定義如下:
(2)
注意到,當(dāng){εt}已知, {Xt}未知時(shí),RBLINAR(1)模型對(duì)于{Xt}而言是線性的,反之若已知{Xt},{εt}未知時(shí),RBLINAR(1)模型對(duì)于{εt}而言是線性的,因此該模型是雙線性模型.
設(shè){Xt}是由(1)式定義的一個(gè)RBLINAR(1)過(guò)程,其條件矩和矩分別為:
(3)
(4)
(5)
(6)
(7)
(8)
E(εt|Ft)=max{0,Xt-αpXt-1λ},
(9)
E(Xt+1|Ft)=αpXtmax{0,Xt-αpXt-1λ}+λ,
(10)
下面給出統(tǒng)計(jì)性質(zhì)(4)和(6)的證明,其他性質(zhì)推導(dǎo)過(guò)程類似.
證明(4):
得證.
(6):
由稀疏算子性質(zhì)有:
E(α°X)2=α(1-α)E(X)+α2E(X2),
帶入E(Xtεt)2中得到:
由{Xtεt}嚴(yán)平穩(wěn),E(Xtεt)2=E(Xt-1εt-1)2進(jìn)而可以推出:
得證.
(11)
(12)
(13)
針對(duì)模型(1),對(duì)模型參數(shù)的修正矩估計(jì)量進(jìn)行數(shù)值模擬,選取下面4組參數(shù):
(A)p=0.2,α=0.5,λ=1,(B)p=0.2,α=0.5,λ=2,(C)p=0.2,α=0.5,λ=3,(D)p=0.3,α=0.4,λ=1, 分別在樣本長(zhǎng)度為100,500,1 000,5 000時(shí)借助R 軟件重復(fù)模擬1 000次取估計(jì)的經(jīng)驗(yàn)偏差(Bias),均方誤差(MSE)進(jìn)行分析,結(jié)果見(jiàn)表1.例如表中(0.1136,13.762 9),表示經(jīng)驗(yàn)偏差(Bias)為0.113 6,均方誤差(MSE)為13.762 9.
表1 RBLINAR(1)模型參數(shù)估計(jì)的經(jīng)驗(yàn)偏差和均方誤差
通過(guò)分析表1的模擬結(jié)果得到:模型參數(shù)的估計(jì)值隨樣本長(zhǎng)度n的增加逐漸收斂到真實(shí)值,均方誤差MSE和偏差Bias會(huì)逐漸減小.當(dāng)α、P取值不變時(shí)參數(shù)樣本長(zhǎng)度為100時(shí),參數(shù)λ取值越大,估計(jì)的偏差及均方誤差越大.但當(dāng)樣本長(zhǎng)度超過(guò)500時(shí)對(duì)任一組參數(shù),估計(jì)效果良好.說(shuō)明本文提出的修正的矩估計(jì)量具有漸近性,估計(jì)方法可行.
為闡明模型的應(yīng)用,選用曼哈頓地區(qū)2008年至2018年的月度偷竊記錄數(shù)據(jù),共132個(gè)觀測(cè)值.圖1~2分別給出了該序列的樣本路徑、ACF圖和PACF圖.從圖1可以看出:序列沒(méi)有明顯的趨勢(shì),大致是平穩(wěn)的.圖2中,從自相關(guān)(ACF)圖可以看出,自相關(guān)圖是拖尾的,從偏自相關(guān)圖中可以看出:序列存在很重要的一階相關(guān)關(guān)系,所以可以建立INAR(1)模型來(lái)擬合該序列.
下面考慮本文提出的RBLINAR(1)模型和其他的3個(gè)模型: (1)基于二項(xiàng)稀疏算子的新息過(guò)程為泊松分布的INAR(1)模型;(2)基于負(fù)二項(xiàng)稀疏算子的邊際分布為幾何分布NGINAR(1)[8];(3)帶有隨機(jī)系數(shù)的基于二項(xiàng)稀疏算子邊際為泊松分布的RINAR(1)模型.
基于條件期望下向前一步預(yù)測(cè)的均方根誤差,將4個(gè)模型比較,結(jié)果見(jiàn)表2,表中Na表示該參數(shù)在模型中不存在.
表2結(jié)果顯示RBLINAR(1)模型的均方誤差最小,所以RBLINAR(1)模型是更適合該數(shù)據(jù)集的模型.
表2 月度偷竊數(shù)據(jù)的模型及估計(jì)結(jié)果
基于帶有隨機(jī)系數(shù)的二項(xiàng)稀疏算子構(gòu)建了雙線性非負(fù)整值一階自回歸(RBLINAR(1))模型,推導(dǎo)出了模型的統(tǒng)計(jì)性質(zhì)并利用修正的矩估計(jì)法估計(jì)模型中的未知參數(shù).通過(guò)數(shù)值模擬對(duì)模型的估計(jì)方法進(jìn)行了評(píng)估,數(shù)值模擬結(jié)果顯示,模型參數(shù)的估計(jì)值隨樣本長(zhǎng)度增加逐漸收斂到真實(shí)值,均方誤差和偏差會(huì)逐漸減小,說(shuō)明修正的矩估計(jì)量具有漸近性,估計(jì)方法可行.通過(guò)給出實(shí)際數(shù)據(jù)說(shuō)明了模型的應(yīng)用,通過(guò)對(duì)比4個(gè)模型的均方誤差,得出RBLINAR(1)是更適合數(shù)據(jù)的模型.