毛惠玉,李 琦
(1.空軍航空大學(xué) 基礎(chǔ)部,長春 130022;2.吉林大學(xué) 數(shù)學(xué)學(xué)院,長春 130012;3.長春師范大學(xué) 數(shù)學(xué)學(xué)院,長春 130032)
非負整數(shù)值時間序列數(shù)據(jù)在社會科學(xué)、工業(yè)、醫(yī)學(xué)、經(jīng)濟金融等領(lǐng)域應(yīng)用廣泛.目前,關(guān)于整數(shù)值時間序列模型的研究已有很多結(jié)果.基于Steutel等[1]提出的二項稀疏算子,Al-Osh等[2]建立了一階非負整數(shù)值時間序列模型INAR(1)(first-order integer-valued autoregressive process);Du等[3]將INAR(1)模型推廣到了p階.除利用稀疏算子外,還有另一類非負整數(shù)值時間序列的建模方法[4-7].但上述模型都只適用于自然數(shù)集上的平穩(wěn)時間序列,當(dāng)時間序列數(shù)據(jù)不平穩(wěn)或有明顯的季節(jié)性與周期性波動時,模型便不再適用.對于非平穩(wěn)時間序列,通常的方法是采取類似于實數(shù)值A(chǔ)RMA(autoregressive moving average)模型的差分方法,差分后的時間序列將消去趨勢項與季節(jié)項,但差分后得到的是整數(shù)值上的時間序列數(shù)據(jù).Kim等[8]建立了一個整數(shù)值上的p階符號稀疏算子模型;Liu等[9]通過引入兩個隨機算子(稱為一階和二階隨機舍入算子),將條件均值和條件方差分別建模,其模型也可以處理整數(shù)值上的時間序列.其他符號稀疏算子模型的推廣可參見文獻[10-11].Alzaid等[12]基于擴展的二項稀疏算子建立了以兩個Poisson分布之差為邊際分布的模型;Freeland[13]和等[14]以兩個獨立的INAR(1)時間序列做差建立了上的模型.由于二項稀疏算子與負二項稀疏算子的概率混合下建立的INAR模型具有較大的靈活性[15-16],因此本文基于符號二項與符號負二項稀疏算子的概率混合,以擴展的冪級數(shù)分布為信息量,建立一個更具靈活性的整數(shù)值上的一階模型,即MINARS(1)(first-order integer-valued autoregressive process with mixed signed thinning operator).
定義1X是整數(shù)值上擴展的冪級數(shù)隨機變量,即X具有如下分布列:
P(X=x)=pP(Y=x)I{x≥0}+(1-p)P(Y=|x|)I{x≤0},x∈,
(1)
符號函數(shù)sgn(·)定義為: 當(dāng)x≥0時,sgn(x)=1;當(dāng)x<0時,sgn(x)=-1.符號二項稀疏算子“⊙”和符號負二項稀疏算子“?”分別定義為:
定義2按照下列遞歸等式定義MINARS(1)過程
(2)
記St=(S1,t,S2,t)(t=1,2,…)是一個隨機向量,P(St=(1,0)T)=φ,P(St=(0,1)T)=1-φ.St與所有的計數(shù)序列{Yi},{Wi}及εt,Xt-i都獨立.則式(2)可等價表示為
Xt=S1,tα⊙Xt-1+S2,tβ?Xt-1+εt.
(3)
當(dāng)φ=1或φ=0 時,定義2中的過程分別為一階符號二項稀疏算子與一階符號負二項稀疏算子模型.
定理1滿足式(2)的嚴(yán)平穩(wěn)整數(shù)值序列唯一存在,當(dāng)s E(α⊙X)2=|α|(1-|α|)E|X|+α2E(X2), E(β?X)2=|β|(1+|β|)E|X|+β2E(X2), 得 因為計數(shù)序列和信息量相互獨立,由{Xt}的構(gòu)造知,σ-域σ(Xt,Xt+1,…)包含在一個獨立隨機變量序列產(chǎn)生的σ-域中,由Kolmogorov 0-1律可知{Xt}是遍歷的.證畢. 性質(zhì)1對于t≥1,有: 1)E(Xt|Xt-1)=c1Xt-1+με; 3)E(Xt)=με/(1-c1). 其中:c1=φα+(1-φ)β;c2=φα2+(1-φ)β2;c3=φ|α|(1-|α|)+(1-φ)|β|(1+|β|). 證明: 注意到 k步自相關(guān)函數(shù)為ρ(k)=(φα+(1-φ)β)k. 性質(zhì)2MINARS(1)過程是一階Markov過程,轉(zhuǎn)移概率為 其中fε是εt的概率分布. 下面采用條件最大似然方法估計MINARS(1)模型的未知參數(shù).假設(shè)(X1,X2,…,Xn)是來自模型的一組觀測數(shù)據(jù),條件似然函數(shù)為 其中P(Xt=xt|Xt-1=xt-1)是性質(zhì)2中的轉(zhuǎn)移概率. 下面考慮3個不同信息量的MINARS(1)模型: 模型Ⅰ {εt}是獨立同分布的擴展Poisson分布隨機變量,模型參數(shù)為(α,β,φ,p,λ); 模型Ⅱ {εt}是獨立同分布的擴展負二項分布隨機變量,模型參數(shù)為(α,β,φ,p,λ,ν); 模型Ⅲ {εt}是獨立同分布的擴展對數(shù)分布隨機變量,模型參數(shù)為(α,β,φ,p,θ). 圖1 模型Ⅰ,Ⅱ,Ⅲ模擬數(shù)據(jù)的樣本路徑Fig.1 Sample paths of simulated data in models Ⅰ,Ⅱ,Ⅲ 圖1(A),(B),(C)分別是模型Ⅰ,Ⅱ,Ⅲ在給定一組模型參數(shù)情形下得到的觀測樣本時間序列.其中:(A)的參數(shù)為(α,β,φ,p,λ)=(-0.3,-0.4,0.5,0.2,1);(B)的參數(shù)為(α,β,φ,p,λ,ν)=(-0.3,0.6,0.5,0.8,4,2);(C)的參數(shù)為(α,β,φ,p,θ)=(-0.6,-0.3,0.5,0.5,0.2).對于模型Ⅰ與模型Ⅱ,分別模擬了AIC(Akaike信息準(zhǔn)則)和BIC(Bayes信息準(zhǔn)則)在選擇混合與非混合符號算子模型時的效率,模擬結(jié)果列于表1,表1中模型Ⅰ(1)與模型Ⅰ(2)分別表示模型Ⅰ中φ=1與φ=0時的非混合模型,模型Ⅱ(1)與模型Ⅱ(2)分別表示模型Ⅱ中φ=1與φ=0時的非混合模型.模擬中設(shè)置的樣本容量為200,500,兩個樣本量下均重復(fù)100次.表1中數(shù)值表示在100次模擬中根據(jù)AIC或BIC準(zhǔn)則選擇該模型的次數(shù).由表1可見,AIC,BIC準(zhǔn)則對模型Ⅱ的選擇效率稍優(yōu),并且隨著樣本量的增加,兩個模型選擇準(zhǔn)則的效率均有提高. 表1 AIC和BIC的模型選擇效率 下面將本文模型應(yīng)用于實際數(shù)據(jù)時間序列,將一階混合符號稀疏算子模型與非混合符號稀疏算子模型進行對比.考慮一組毒品犯罪數(shù)據(jù)(http://www.forecastingprinciples.com/Crime/crime20data.html),該數(shù)據(jù)是120月的藥物數(shù)量觀測數(shù)據(jù),數(shù)據(jù)標(biāo)記為y1,y2,…,y120.從樣本路徑上易見數(shù)據(jù)呈季節(jié)性和遞減趨勢性,因此數(shù)據(jù)是非平穩(wěn)的,用差分方法消除季節(jié)性和趨勢性后得到的數(shù)據(jù)為Xt=yt-yt-1.圖2為差分后數(shù)據(jù)的樣本序列圖、自相關(guān)及偏自相關(guān)函數(shù)圖.由圖2可見,數(shù)據(jù)Xt適合于一階自回歸模型.在取信息量為不同的冪級數(shù)分布類型下,用混合符號稀疏算子模型和非混合符號稀疏算子模型擬合數(shù)據(jù),結(jié)果列于表2,其中非混合模型的擬合只列出3個AIC和BIC值較低的結(jié)果,這3個模型是: 以擴展的Poisson分布為信息量的一階符號二項稀疏算子模型(模型A);以擴展的負二項分布為信息量的一階符號二項稀疏算子模型(模型B);以擴展的負二項分布為信息量的一階符號負二項稀疏算子模型(模型C). 圖2 犯罪數(shù)據(jù)差分后的序列(A)及樣本自相關(guān)函數(shù)(B)和偏自相關(guān)函數(shù)圖像(C)Fig.2 Series image (A),sample autocorrelation function image (B) and partial autocorrelation function miage (C) after difference of crime data 模型^α^β^?^p^λ^ν^θAICBICⅠ-0.321 50.465 70.211 30.224 92.807 6411.182 2421.708 6Ⅱ-0.421 60.100 70.634 70.891 76.013 01.810 0409.855 7421.332 0Ⅲ0.633 2-0.301 20.491 60.365 80.190 6420.414 0433.342 1A-0.522 00.604 91.567 1413.200 2423.139 5B-0.201 30.891 76.007 63.009 0412.766 0421.666 0C-0.407 10.698 04.887 21.002 0410.003 6425.550 1 由表2可見,混合的符號稀疏算子模型Ⅱ更適用于數(shù)據(jù).將文獻[9]的RRINARCH(1,0),RRINARCH(1,1)模型應(yīng)用于實例數(shù)據(jù),模型的參數(shù)估計值列于表3.根據(jù)所給的模型定階原則,計算了基于擬似然建立的AIC與BIC值(需注意到文獻[9]中AIC和BIC的定義與本文的定義不同,從而無可比性),RRINARCH(1,0)模型的AIC與BIC值分別為-61.576 7,-59.328 0,RRINARCH(1,1)模型的AIC與BIC值分別為-61.211 0,-54.022 0,所以RRINARCH(1,0)模型更適用于數(shù)據(jù).最后,計算了混合符號算子模型Ⅱ與RRINARCH(1,0)模型下的RMS(觀測值與預(yù)測值之間的均方誤差)值分別為4.143 0,4.257 1,其中預(yù)測值由條件期望的估計值代替.混合符號算子模型Ⅱ稍小于RRINARCH(1,0)模型的RMS值. 表3 犯罪數(shù)據(jù)的參數(shù)估計2 隨機性質(zhì)
3 模擬及實例分析