陳傳鐘,汪文俊,繆光美
(海南師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,海南 ???571158)
隨著旅游業(yè)在世界各地的迅猛發(fā)展,有關(guān)旅游業(yè)可持續(xù)發(fā)展的研究越來越受到人們的重視,近年來,定量分析及統(tǒng)計(jì)方法被廣泛應(yīng)用到旅游發(fā)展研究中,本文擬采用時(shí)間序列的方法對(duì)含缺失值的海南旅游總收入數(shù)據(jù),統(tǒng)計(jì)建模,并對(duì)海南旅游收入的具體情況進(jìn)行分析討論.
時(shí)間序列分析是一種對(duì)動(dòng)態(tài)數(shù)據(jù)處理的時(shí)域參數(shù)方法,目的是研究所給的動(dòng)態(tài)數(shù)據(jù)序列的統(tǒng)計(jì)規(guī)律,以用于解決實(shí)際問題.海南旅游收入變化趨勢(shì)受到季節(jié)影響,每年7月-9月,10-12月、1月都是高峰期,然而并沒有文獻(xiàn)對(duì)變化的趨勢(shì)具體研究,本文考慮利用“海南省旅游政務(wù)網(wǎng)”[1]提供的可靠數(shù)據(jù),對(duì)海南省旅游總收入進(jìn)行處理和預(yù)測(cè).
由于2011年1月和2011年2月數(shù)據(jù)缺失,首先考慮序列均值、臨近點(diǎn)的均值、臨近點(diǎn)的中位數(shù)、線性插值法、點(diǎn)處的線性趨勢(shì)五種不同方法對(duì)缺失值進(jìn)行處理.通過先期的計(jì)算比較,最終選定臨近點(diǎn)的中位數(shù)、線性插值法兩種方法[2].
臨近點(diǎn)的中位數(shù)表示缺失值鄰近的幾個(gè)點(diǎn)的中位數(shù),具體幾個(gè)點(diǎn)由附近點(diǎn)的跨度來決定.臨近點(diǎn)中值彌補(bǔ)缺失值前后對(duì)比見圖1、圖2.
線性插值法表示應(yīng)用線性插值法填補(bǔ)缺失值,即缺失值前一個(gè)數(shù)據(jù)和后一個(gè)數(shù)據(jù)建立插值直線,然后找到缺失點(diǎn)在線性插值函數(shù)的函數(shù)值作為該缺失值,線性插值法彌補(bǔ)缺失值前后對(duì)比見圖3、圖4.
從以上對(duì)比圖可以看到,臨近點(diǎn)的中位數(shù)插值法和線性插值法都能很好的擬合原始數(shù)據(jù)的變化趨勢(shì).下節(jié)我們將利用此兩種方法獲得的完整數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模.
圖1 彌補(bǔ)缺失值前的序列圖Fig.1 Graph of time series without imputation for missing values
圖2 彌補(bǔ)缺失值后的序列圖Fig.2 Graph of time series with imputation for missing values
圖3 彌補(bǔ)前的序列圖Fig.3 Graph of time series without imputation for missing values
圖4 彌補(bǔ)后的序列圖Fig.4 Graph of time series with imputation for missing values
從圖2和圖4中觀察到數(shù)據(jù)具有明顯的周期性(以12個(gè)月為一周期),和趨勢(shì)性,因此可以嘗試時(shí)間序列的季節(jié)ARIMA(p,d,q)(P,D,Q)s(可乘季節(jié)ARIMA)[3-4]進(jìn)行擬合.
一個(gè)一般的具有非平穩(wěn)(通常的)階數(shù)p,d,q,季節(jié)階數(shù)P,D,Q及周期s可乘季節(jié)ARIMA(SARIMA)模型為
具體結(jié)構(gòu)如下:
1、根據(jù)圖2的趨勢(shì)性和周期性,對(duì)數(shù)據(jù)做一次季節(jié)性差分和一階逐期差分,觀察自相關(guān)圖和偏自相關(guān)圖,確定ARIMA模型的相關(guān)系數(shù)(見圖5、圖6).
圖5 自相關(guān)圖Fig.5 ACP
圖6 偏自相關(guān)圖Fig.6 PACP
從自相關(guān)圖(ACP)中,看到自第二個(gè)延遲數(shù)目開始,自相關(guān)落在虛線內(nèi),一階以后函數(shù)值明顯趨于0,呈拖尾性,因此取q=2.同時(shí),第13階顯著不為0,因此取Q=2.
偏自相關(guān)圖中,前兩階函數(shù)顯著不為0,之后趨于0并呈拖尾性,因此取p=3,而第12階顯著不為0,取P=1.
因?yàn)橐陨嫌懻摰氖且浑A季節(jié)性差分和一階逐期差分,所以取D=1,d=1.又從圖7中可以看到,序列圖穩(wěn)定,所以可以構(gòu)建模型ARIMA(3,1,2)(1,1,2),S是季節(jié)周期,它的取值為4式12.
圖7 一次逐期差分和一次季節(jié)性差分后的序列圖Fig.7 Graph of time series with first order successive and first order seasonal difference
圖8 模型擬合圖Fig.8 Model fitting diagram
2)按照所求參數(shù)進(jìn)行建模,得到圖形見圖8.
明顯看到ARIMA(3,1,2)(1,1,2)擬合的效果尚佳.
線性差值法的數(shù)據(jù)處理步驟同上,相關(guān)圖形數(shù)據(jù)見圖9、圖10、圖11.
以上的圖表中得到的線性插值法的模型為ARIMA(3,1,2)(1,1,2).
從表1、表2,觀察到,線性插值法的平穩(wěn)R方0.651>0.519(臨近點(diǎn)中值法),p值0.582>臨近點(diǎn)中值的0.286,而正態(tài)化的BIC模型值小于臨近點(diǎn)中值,因此判斷線性插值法所得的模型更佳,其模型為ARIMA(3,1,2)(1,1,2).
圖9 自相關(guān)圖Fig.9 ACP
圖10 偏自相關(guān)圖Fig.10 PACP
圖11 模型擬合圖Fig.11 Model fitting diagram
表1 臨近點(diǎn)中值的模型統(tǒng)計(jì)量Tab.1 Model statistics with near median value
表2 線性插值法的模型統(tǒng)計(jì)量Tab.2 Model statistics with linear interpolation
從表中可以看到預(yù)測(cè)較實(shí)際值誤差較小,但是從2012年10月到2012年12月預(yù)測(cè)值偏高,根據(jù)2011年同期數(shù)據(jù)的比較,在表5中發(fā)現(xiàn),2012年整體數(shù)據(jù)上升趨勢(shì)并沒有2011年那么明顯,說明目前國(guó)內(nèi)海南游人數(shù)出現(xiàn)一定的疲軟狀況.因此該模型按照趨勢(shì)擬合具有一定的誤差,但是在允許的范圍內(nèi).
表3 實(shí)際值與預(yù)測(cè)值的對(duì)比Tab.3 Comparison of actual and predicted values
表4 海南入境游人數(shù)表Tab.4 The number of inbound in Hainan
表5 入境游人數(shù)對(duì)比Tab.5 Contrast of the number of inbound
表6 文章所用的數(shù)據(jù)Tab.6 The data
海南旅游總收入受到季節(jié)的影響,本文基于線性插值法處理缺失值的數(shù)據(jù),建立的季節(jié)ARIMA(3,1,2)(1,1,2)模型,較為準(zhǔn)確的擬合海南省旅游總收入的變化趨勢(shì),其預(yù)測(cè)值亦可以為研究海南旅游變化動(dòng)態(tài)提供參考意見.
[1]海南省旅游發(fā)展委員會(huì)[EB/OL].[2013-10-04]http://tourism.hainan.gov.cn/goverment/govPrePic/govBelow -Pic1/.
[2]薛薇.spss統(tǒng)計(jì)分析方法及應(yīng)用[M].2版.北京:電子工業(yè)出版社,2011:454-462.
[3]王燕.應(yīng)用時(shí)間序列[M].3版.北京:中國(guó)人民大學(xué)出版社,147-148.
[4]吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法-基于R的應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,2012:176-181.