郭榮榮,閔素芹,郭曉航
(中國傳媒大學 數據科學與智能媒體學院,北京 100024)
隨著社會的發(fā)展和人民收入水平的不斷提高,人們對于旅游的需求也在逐步變大,使得我國旅游業(yè)呈現出一片欣欣向榮的景象。旅游的熱門選擇大部分集中在知名度高、自然風景秀麗的地點,同時旅游產業(yè)具有周期性的特點,季節(jié)的替換將直接影響旅游人數的數量。為了保持我國旅游業(yè)持續(xù)健康的發(fā)展,合理規(guī)劃旅游產業(yè)就顯得及其重要,而在這里發(fā)揮重要作用的就是對旅游需求的預測。及時準確地預測旅游需求,不僅有助于旅游部門能夠及時預防景區(qū)容納與游客人數需求不匹配的現象,而且有利于旅游從業(yè)者調整旅游服務的供給,避免出現供求失衡的現象,從而提高旅游的經濟效益[1]。
對旅游需求的預測最早使用的方法是自回歸移動平均(ARMA)模型和它的拓展形式、加入誤差修正項的自回歸分布滯后(ARDL)模型、選取多個預測模型進行對比等[2]。在上面這些模型的基礎上進行預測雖然具有合理性,實際上卻忽略了對旅游需求有指示性的相關變量,隨著網絡的飛速發(fā)展,旅游前游客會通過電子設備搜索目的地的相關信息。因此,國內外學者對互聯網搜索量的加入是否能夠提高傳統模型預測精度這一問題,展開了很多研究。例如:秦夢和劉漢[2]、劉漢和王永蓮[3]利用旅游需求的混頻預測研究,并且將它與傳統的同頻預測模型作比較,研究結果證實基于網絡搜索數據的混頻預測模型的預測精度要比傳統的同頻模型預測精度更高。Park等[4]、任樂和崔東佳[5]通過對不同地區(qū)旅游人數的預測,研究結果表明加入谷歌搜索數據或百度指數的模型能夠有效的提高模型預測精度,并且使得樣本外預測更加具有有效性,同時也可提高擬合優(yōu)度。Ghysels等提出混頻數據抽樣(MIDAS)模型,能夠將各個頻率不同的數據加入到同一模型里,從而不需要對原始數據進行分析處理[6]。以上觀點表明了混頻數據模型具有很好的預測效果。
因此,本文將高頻百度指數數據應用到低頻旅游需求的預測中,并構建基于百度指數的混頻數據模型,對北京旅游需求進行短期的預測研究,為北京游客量的短期預測提供方法支持[3]。利用月度數據預測季度數據時,當季度數據中第一個月的數據發(fā)布之后,就可以使用MIDAS模型來預測季度北京旅游需求。利用網絡的及時性對游客量的進行預測,不僅有利于旅游行業(yè)制定和調整旅游的發(fā)展規(guī)劃,而且能夠提高旅游需求預測的精確性。相對于已有的研究來看,本文主要研究基于混頻數據模型對北京旅游人數進行短期預測,利用北京美食百度指數的月度數據來預測北京旅游人數的季度數據。具體方法步驟是,首先簡單的介紹了北京旅游人數的MIDAS模型,以及四種不同的權重形式和估計方法;其次,構建加入百度指數數據的混頻數據模型,得到了北京旅游人數的預測結果;最后,結合分析得到了本文的結論。
北京旅游需求選用北京季度接待國內旅游區(qū)(點)游客人數來反應,下面簡稱為北京旅游人數,數據來源于北京市統計局官方網站,時間范圍為2015年第一季度至 2019年第四季度。百度指數能夠提供免費的分析數據功能,可以反映出基于不同關鍵詞的用戶關注度[7]。在百度指數中以“北京美食”為關鍵詞,并將時間范圍設為2015年1月至 2019年12月,即可得到北京美食所對應的百度指數日數據。每月百度指數日數據所對應的平均值,即為本文所使用的百度指數月度數據。
由圖1可以看出,北京季度旅游人數與北京美食百度指數月度數據波動趨勢大體相仿,但波動幅度有所差異,且北京旅游人數總體呈上升趨勢,這反映了我國人民生活水平的提高,對旅游的需求也在不斷增加。同時也可以看出無論是來北京的旅游人數還是北京美食的搜索量都表現出了顯著的季節(jié)性,其中北京旅游人數在每年的6到8月以及10月較高,北京美食搜索量的關注度集中體現在每年的6月到8月。此外,它們的基本走勢表現出來了一定的趨同性,變化幅度大致相同。這說明百度指數在一定程度上能夠表現出人們喜歡來北京旅游的意愿,對預測來北京的旅游人數能夠起到作用,也為后文的建模提供了參考。
圖1 北京季度旅游人數與北京美食百度指數月度數據的走勢圖
混頻數據抽樣模型(MIDAS)是Ghysels基于分布滯后模型的基礎上提出來的,它最大的優(yōu)勢是可以提取高頻數據中隱藏的重要且有效的信息,進而可以把提取出來的信息進行分析和預測。本文將比較分析指數Almon權重函數、Almon權重函數、Beta權重函數、UMIDAS權重函數這4種權重函數形式下混頻數據抽樣模型的預測精度,并在其中選擇出預測精度最高的多項式權重函數形式。
單變量MIDAS(m,k)模型是指單獨考慮一個解釋變量對被解釋變量產生的影響,研究兩者之間的動態(tài)關系[8]。因此,北京旅游人數預測的MIDAS模型可以表示為:
(1)
自回歸單變量混頻數據抽樣模型MIDAS(m,k)—AR(ρ)的原理:它是在混頻數據抽樣模型的基礎上,思考前期的北京旅游人數對當期北京旅游人數的影響。換言之就是考慮了北京旅游人數自身之間的動態(tài)效應。模型的表達式寫為如下的形式[9]:
(2)
其中,j表示北京旅游人數的滯后階數,p是它的最大滯后階數,λj表示北京旅游人數各個滯后期對當前的影響反應。
(3)淬火溫度 當材料和原始組織一定時,相變溫度隨加熱速度增大而提高,為得到合格的淬火組織,相應的淬火溫度也應隨之提高。通常加熱速度越大,淬火溫度的上下限越高,允許的淬火溫度范圍越大。
MIDAS模型估計中的重要問題是有關權重函數W(k;θ)中的滯后階數K和參數向量θ的選擇,這與權重函數的選擇有關系,因為多項式權重對減少模型的待估計參數很有效果[10]。本文共討論了4種多項式權重對混頻數據抽樣模型預測精度的影響,并在其中選擇出了最優(yōu)的多項式權重形式。
Almon多項式函數,其基本形式為:
(3)
指數Almon多項式函數,使用范圍最廣,可以構造出各種不同的權重函數。它能夠保證權重數為正數,同時能夠使方程得到零逼近誤差的性質,基本形式為:
(4)
Beta多項式函數可以構造各種形式的權重函數,同時它是只帶有兩個參數的多項式函數,具體形式為:
(5)
UMIDAS多項式函數是指沒有基礎模型里對多項式權重的限制,具體形式為:
(6)
對2015年第一季度至 2019年第四季度的北京旅游人數進行建模,并加入百度指數的月度數據,然后分別利用不同形式權重函數的混頻數據模型對2015年第一季度至2018年第四季度的基于百度指數的旅游需求混頻數據模型進行估計,根據該模型可以預測出2019年第一季度至 2019年第四季度的北京旅游人數。
本文首先根據MIDAS模型的樣本預測精度確定出北京旅游人數和北京美食百度指數的最優(yōu)滯后階數和最優(yōu)參數估計。以2015年第一季度至 2018年第四季度的北京旅游人數和相應時間內的月度北京美食百度指數為模型的估計樣本,在此基礎上對2019年第一季度至 2019年第四季度的北京旅游人數進行樣本外預測。在研究的過程中,以均方根誤差(RMSE:Root Mean Square Error)指標作為判斷模型好壞的根據,因為RMSE指標對于反映模型的預測精度有較好的效果?;祛l數據模型的預測精度越高RMSE的值越小。
在下面的分析過程中,為了展示RMSE隨變量滯后階數的變化而產生的變動,經過多次試驗的反復修改,最后確定北京美食百度指數月度數據的滯后階數從1階到12階,低頻北京旅游人數的滯后階數從0階到5階,以確定月度北京美食百度指數與季度北京旅游人數的最優(yōu)滯后階數。利用4種參數權重形式和不同滯后階數的北京美食百度指數與北京旅游人數來構造不同的混頻數據模型。在參數估計的時候,用均方根誤差RMSE最小的原則來確定高頻北京美食百度指數和低頻北京旅游人數的最優(yōu)滯后階數和最優(yōu)權重函數形式[11]。各混頻數據模型的樣本外預測精度如表1所示。
表1 不同混頻模型RMSE值
在表1中本文只寫出了具有代表性的北京旅游人數滯后階數的MIDAS模型的預測精度。北京旅游人數滯后階數的MIDAS模型預測精度隨著高頻數據北京美食百度指數滯后階數的變動,其樣本外預測精度也在發(fā)生變化。由表1可以看出,當北京旅游人數的滯后階數是1階時,北京美食的百度指數的最優(yōu)滯后階數是3階,同時最優(yōu)多項式權重形式是Beta,它的預測精度是627.8102;當北京旅游人數的滯后階數是2階時,北京美食的百度指數最優(yōu)滯后階數是3階,同時最優(yōu)多項式權重形式是Exp-Almon,它的預測精度是578.7345;當北京旅游人數的滯后階數是3階時,北京美食的百度指數最優(yōu)滯后階數是5階,同時最優(yōu)多項式權重形式是Exp-Almon,它的預測精度是492.2571。通過對比可知,當北京旅游人數的滯后階數是3階、北京美食的百度指數最優(yōu)滯后階數是5階時,指數Almon混頻數據模型(AR(3)-Exp-Almon(3,5))的模型預測具有較高的精度。
由上面的分析可以看出當北京旅游人數的滯后階數是3階、北京美食的百度指數最優(yōu)滯后階數是5階時,指數Almon權重混頻預測精度較高。為了充分比較預測結果,下面列出了在滯后階數相同時,指數Almon權重、Almon權重、Beta權重、UMIDAS權重的混頻預測結果的具體數值。
由表2可以看出這四種權重的混頻預測人數與2019第一季度至2019年第四季的北京實際旅游人數誤差較小,與實際結果接近程度很高。同時也可以看出不同形式的權重函數預測出來的結果是不同的,會對預測來北京旅游的人數是有影響的。
表2 不同混頻模型預測2019年北京旅游人數值(萬人次)
因此當北京旅游人數的滯后階數是3階、北京美食的百度指數最優(yōu)滯后階數是5階時,分別采用指數Almon、Almon、Beta、UMIDAS權重函數的MIDAS-AR模型對 2015年第一季度至 2018年第四季度的北京旅游人數和相應時間內的月度北京美食百度指數數據的混頻模型進行估計,并根據該模型對2019年第一季度至 2019年第四季度的北京旅游人數進行預測,其預測結果如圖2所示。
圖2 MIDAS模型預測結果
由圖2可以看出,指數Almon權重函數的MIDAS預測模型預測精度較高,主要是由于高頻北京美食百度指數數據作用于低頻北京旅游人數的方式上,同時也可以看出加入月度數據的MIDAS模型預測結果與實際大致符合
因此,旅游需求預測需要考慮到加入具有預測效果的百度指數搜索數據,它可以體現游客在旅游之前做的準備工作、游玩時所參與的活動以及旅游后在網絡上留下的反饋痕跡,這些都隱含著非常多豐富的信息[12]?;祛l數據模型能夠把這類數據合理應用,同時也對旅游需求預測模型起到了良好的補充作用。
準確的旅游需求模型預測,不僅對旅游業(yè)的從業(yè)者來說具有非常重要的參考價值,同樣也對于游客的行為產生了重要的影響。本文以北京旅游人數作為旅游需求的代替變量,利用了加入百度指數數據的混頻數據模型對旅游需求進行預測分析。實證結果表明:加入百度指數月度數據的混頻數據模型預測結果與實際情況非常接近,這主要是因為百度指數可以表現游客的在線行為,即表現了游客對旅游目的地的關注行為,而這種關注行為在百度指數中得到了體現。由于百度指數是傳統意義上影響旅游需求以外的因素,所以能夠對旅游需求預測結果加以改進。而指數Almon權重的MIDAS模型比其它不同權重形式的MIDAS模型預測精度高,這表明了混頻數據模型所采用的權重形式不同,旅游需求預測的結果也不相同。因此我們在分析預測時,需要進行優(yōu)化處理去找到最合適的預測模型,從而將它用于旅游需求的預測中。
基于百度指數的混頻數據模型對北京旅游需求的預測具有有效性,同時百度指數與混頻數據模型相結合也使得旅游需求的預測兼具時效性和準確性的特點。本文的結論為其它地區(qū)或景點旅游需求的預測提供了新思路,游客及旅游業(yè)相關部門可據此及時準確地預測旅游人數,以實現該地區(qū)旅游產業(yè)的蓬勃發(fā)展,具有指導、實踐意義。
百度指數所蘊含的信息十分豐富,本文用“北京美食”這個關鍵詞作為百度指數月度數據的代表還具有一些不足。具體的可以將游客旅行前后的行為,例如游客在出行之前會從衣、食、住、行、游、購等方面來選取相關關鍵詞,若把這些關鍵詞都包括進行研究,這樣研究得到的結果會加大可信度。