姜愛平郝慧娟李西寧
(1.寧夏大學(xué) 數(shù)學(xué)計(jì)算機(jī)學(xué)院;2.寧夏大學(xué) 民族預(yù)科學(xué)院,寧夏 銀川 750021)
非等間距單峰數(shù)據(jù)的非線性時(shí)間序列模型及其應(yīng)用①
姜愛平1郝慧娟2李西寧1
(1.寧夏大學(xué) 數(shù)學(xué)計(jì)算機(jī)學(xué)院;2.寧夏大學(xué) 民族預(yù)科學(xué)院,寧夏 銀川 750021)
非等間距;系數(shù)函數(shù);時(shí)間序列
針對(duì)具有非等間距、單峰等特點(diǎn)的數(shù)據(jù)序列,采用時(shí)間序列分析方法,建立函數(shù)系數(shù)自回歸模型.對(duì)模型系數(shù)函數(shù)采用兩步局部線性估計(jì)法進(jìn)行估計(jì),根據(jù)Multifold Cross-Validation原則,選擇最優(yōu)帶寬.運(yùn)用該模型描述某傳染病的傳播規(guī)律,其所得結(jié)論與已有的醫(yī)學(xué)認(rèn)識(shí)相符,與線性自回歸模型相比,該模型的精度有明顯提高.
現(xiàn)實(shí)生活中,常常存在一些具有非等間距、單峰等特點(diǎn)的時(shí)間序列,針對(duì)該類數(shù)據(jù)序列,現(xiàn)有文獻(xiàn)通過建立Verhulst模型或者灰色非等間距模型來描述其發(fā)展規(guī)律,并取得了理想效果.然而,工程、自然及社科等領(lǐng)域所采集到的數(shù)據(jù)大多具有時(shí)序等特點(diǎn),因此,針對(duì)該類數(shù)據(jù)序列,建立時(shí)間序列模型具有一定的可行性.
SARS(嚴(yán)重急性呼吸道綜合癥)是21世紀(jì)第一個(gè)在世界范圍內(nèi)傳播的傳染病,其數(shù)據(jù)具有明顯的時(shí)序特點(diǎn),且其傳播規(guī)律呈現(xiàn)“灰”等非線性特點(diǎn).由葉殿秀等的研究結(jié)果知,SARS的傳播還跟當(dāng)日氣溫等氣象條件有密切的關(guān)系[1].因此,本文將考慮當(dāng)日最高溫度對(duì)SARS傳播的影響,并將其作為門限變量,建立非線性時(shí)間序列模型.結(jié)果表明,該模型在描述數(shù)據(jù)之間的內(nèi)在結(jié)構(gòu)時(shí),與線性自回歸模型,如高世澤的研究結(jié)果相比[2],非線性時(shí)間序列模型的精度有明顯提高.
函數(shù)系數(shù)模型(function-coefficient model)[3]最早由Hastie and Tibshirani(1993)提出,其形式為:其中,系數(shù)函數(shù)ai(·),(j=1,2,…,p)是Rk→R的未知可測(cè)函數(shù),U為k-維門限變量.對(duì)于給定的協(xié)變量(U,X1,X2,…,Xp)T和響應(yīng)變量Y,有E(ε|U,X1,X2,…,Xp)=0及var(ε|U,X1,X2,…,Xp)=σ2(U).該模型包括許多已有的非線性AR模型,如TAR模型和EXPAR模型[4~5].Chen and Tsay(1993b)將變系數(shù)模型引入時(shí)間序列領(lǐng)域,提出FAR模型[6].該模型能夠較好地描述數(shù)據(jù)的潛在動(dòng)態(tài)性結(jié)構(gòu),且有良好的樣本外預(yù)測(cè)功能.
對(duì)于模型中系數(shù)函數(shù)的估計(jì),目前主要采用局部線性光滑法,如Cai,Fan and Yao(2000)[7],Xia& Li(1999a)[8],Fan&Zhang(1999)[9]和全局光滑法,如Huang&Shen(2004)[10].文中采用兩步局部線性估計(jì)方法來估計(jì)系數(shù)函數(shù)aj(·),(j=1,2,…,p),具體如下:
第一步,假定ap(·)比其他函數(shù)更光滑且存在四階可導(dǎo),故可用一個(gè)三次多項(xiàng)式來近似,即系數(shù)函數(shù)的局部線性估計(jì)使得(2)式達(dá)到最小值.
第二步,運(yùn)用局部線性回歸得到一個(gè)初步估計(jì),即最小化下式(3):
3.1 數(shù)據(jù)來源、處理及平穩(wěn)性檢驗(yàn)
圖2 日最高溫度平穩(wěn)化后的時(shí)序圖
圖1 SARS日增量數(shù)據(jù)平穩(wěn)化后的時(shí)序圖
運(yùn)用非參數(shù)檢驗(yàn)法[4],在顯著水平α=0.05下,對(duì)于序列{Yt},|Z|=0.002 0≤1.96,故序列{Yt}為平穩(wěn)序列.類似可知,序列{Ut}也為平穩(wěn)序列.
3.2 選擇光滑變量、滯后階數(shù)p和帶寬h
由于前期病人數(shù)直接影響后期患病人數(shù),根據(jù)經(jīng)驗(yàn)將Ut作為所建函數(shù)系數(shù)模型的門限變量,故建立具有外生變量的函數(shù)系數(shù)模型:
對(duì)于本例,取m=[0.1n]=8,Q=4.
運(yùn)用Matlab編程[15],運(yùn)行結(jié)果如下:當(dāng)p=7,h∧=0.628 1時(shí),AMS(h)達(dá)到其最小.這跟醫(yī)學(xué)上認(rèn)為SARS的潛伏期為3~7天、一般為一周左右的結(jié)論相符.
3.3 模型的建立
根據(jù)以上分析,本例所建模型形式如下:
這里Yt表示處理后的第t個(gè)日增SARS數(shù)據(jù),Ut表示處理后的第t個(gè)日最高溫度.t=1,2,…,84,εt是隨機(jī)誤差,E(εt)=0且Var(εt)=σ2<∞.
3.4 模型的擬合及預(yù)測(cè)情況
圖3、圖4分別為本文所建模型的擬合圖,為進(jìn)一步做比較,這里將文獻(xiàn)[2]的結(jié)果一并列入附表中.
從附表可以看出,本文建立的具有外生變量的函數(shù)系數(shù)模型與現(xiàn)有文獻(xiàn)[2]所建立的線性自回歸模型相比,其預(yù)測(cè)誤差相對(duì)減少了許多.但是,SARS的傳播受多種外界因素(如人口總數(shù),交通環(huán)境,人口密度,交叉感染的程度,天氣情況,醫(yī)療水平以及政府重視程度等)的影響和制約,故本文所建模型僅為某種特定情況下SARS傳播規(guī)律的近似描述,為單峰數(shù)據(jù)研究提供一種方法,因此,該模型不能簡(jiǎn)單地用來做預(yù)測(cè).
圖3 變換數(shù)據(jù)擬合圖
圖4 原始數(shù)據(jù)擬合圖
附表 函數(shù)系數(shù)模型和文獻(xiàn)[2]預(yù)測(cè)結(jié)果比較
針對(duì)具有時(shí)序特點(diǎn)的“灰”“數(shù)據(jù)序列,除了建立經(jīng)典的灰色預(yù)測(cè)模型之外,本文還通過研究數(shù)據(jù)的時(shí)序性和灰等特點(diǎn),嘗試對(duì)其建立了非線性時(shí)間序列模型,并對(duì)所建立的模型進(jìn)行了實(shí)證分析.分析結(jié)果表明,與現(xiàn)有文獻(xiàn)[2]的結(jié)果相比,本文所建模型在精度方面有明顯提高,說明其具有一定的科學(xué)性,同時(shí)也拓寬了灰色預(yù)測(cè)模型的應(yīng)用范圍.
[1]葉殿秀,張強(qiáng),董文杰,陳正洪,趙宗群.氣象條件與SARS發(fā)生的關(guān)系分析[J].氣候與環(huán)境研究,2004,9(4):670-679.
[2]高世澤.SARS傳播的自回歸模型[J].數(shù)理醫(yī)藥雜志,2005,18(2):97-100.
[3]盧一強(qiáng).函數(shù)系數(shù)和部分線性模型中的估計(jì)問題[D].武漢:華中師范大學(xué),2003.
[4]何書元.應(yīng)用時(shí)間序列分析[M].北京:北京大學(xué)出版社,2003:54-87.
[5]范劍青,姚琦偉.非線性時(shí)間序列——建模、預(yù)測(cè)及應(yīng)用[M].北京:高等教育出版社.2005:95-141.
[6]Chen,R.and Tsay,R.S.Functional-coefficient-autoregressive models[J].Journal of the American Statistical Associa-tion,1993b(88):298-308.
[7]Cai Z.,Fan J.and Yao Q.Functional-coefficient regression models for nonlinear time series[J].Journal of the A-merican Statistical Association,2000(95):941-956.
[8]Xia Y.and Li W.K.On the estimation and testing of functional-coefficient linear models[J].Statistica Sinica,1999 (9):735-758.
[9]Fan J.q and Zhang W.y.Statistical estimation in varying-coefficient models[J].The Annals of Statistics,1999,27 (5):1491-1518.
[10]Huang J.Z and Shen H.P.Functional coefficient regression models for nonlinear time series:A polynomial spline approach[J].Amer.Statist.Assoc,2004(95):941-956.
[11]陳家鼎,孫山澤.數(shù)理統(tǒng)計(jì)學(xué)講義[M].北京:高等教育出版社,2003:154-231.
[12]殷伯明.草履蟲與高中教育質(zhì)量[J].教師教育,2003,15(3):38-39.
[13]薛付忠,王潔貞,馬希蘭.疾病暴發(fā)流行過程的數(shù)學(xué)模擬及其應(yīng)用研究[J].數(shù)理醫(yī)藥學(xué)雜志,1999,12(1):4-6.
[14]Zhu L.X.and An H.Z.A note on the strong consistency of estimates in partially linear models[J].Acta Mathematica Scientia,1994,14(2):146-152.
[15]王巖,隋思蓮,王愛青.數(shù)理統(tǒng)計(jì)與MATLAB工程數(shù)據(jù)分析[M]北京:清華大學(xué)出版社,2007:60-71.
The Application Of Non-linear Time Series Model
Of Non-equidistant One Peak Data
JIANG Aiping1HAO Huijuan2LI Xining1
(1.School of Mathematics and Computer Science, 2.School of Ethnic Preparatory Education Ningxia University,Yinchuan,Ningxia 750021,China)
non-equidistant;function-coefficient;time series
In this paper,a function-coefficient autoregressive Model is constructed for non-equidistant,one-peak series by time series analysis method.Then,the coefficient-function is estimated with two-steps local linear method,choosing the optimal bandwidth in the basis of the multifold cross-validation rule.In the end,this model is used for describing the spread of infectious disease.The result of the conclusion in this paper agrees with the medical knowledge.And so,the accuracy of the non-linear time model can be raised.
C924.2
A
1009-9506(2014)08-0013-05
2014年5月23日
姜愛平,講師,研究方向:應(yīng)用概率統(tǒng)計(jì)及灰色理論.
國(guó)家自然科學(xué)基金,編號(hào):11461053;寧夏大學(xué)科學(xué)研究基金,編號(hào):ZR1332.