靳鑫元+羅珊
【摘要】本文基于百度指數(shù)進行旅游關(guān)鍵詞的挖掘,運用決策樹、bagging、隨機森林和支持向量機四種算法模型對旅游關(guān)鍵詞與平遙古城游客流量關(guān)系進行分析,并比較了各模型的擬合度、穩(wěn)定性及預(yù)測效果。實證研究發(fā)現(xiàn),隨機森林模型穩(wěn)定性最好,SVM模型擬合和預(yù)測效果最好,因此SVM模型可以作為最終的平遙古城客流量預(yù)測模型。
【關(guān)鍵詞】平遙古城 百度指數(shù) 機器學(xué)習(xí) 預(yù)測
一、引言
近年來,我國旅游產(chǎn)業(yè)規(guī)模不斷擴大,平遙古城作為中國境內(nèi)保存最完整的古代縣城與票號文化發(fā)源地,游客量快速增長,逐年增加的游客對古城承載力及景區(qū)建設(shè)提出了更高要求。與此同時,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及大數(shù)據(jù)時代的到來,旅游信息傳播形式、游客信息搜索方式、旅游消費行為等均發(fā)生了巨大改變。許多旅游經(jīng)營者、旅游企業(yè)及政府機構(gòu)都通過互聯(lián)網(wǎng)平臺發(fā)布旅游信息,隨之互聯(lián)網(wǎng)平臺也成為廣大游客出游的重要信息來源,相應(yīng)產(chǎn)生的網(wǎng)絡(luò)搜索數(shù)據(jù)則逐漸成為高質(zhì)量的游客旅游搜索行為數(shù)據(jù)庫。2011年百度推出的百度指數(shù)可以直接、客觀地反映某特定時間段內(nèi)的社會熱點、用戶興趣和需求,并且實證表明利用百度指數(shù)這一網(wǎng)絡(luò)搜索指數(shù)進行預(yù)測克服了傳統(tǒng)預(yù)測中存在的數(shù)據(jù)滯后以及數(shù)據(jù)量不足的缺陷,結(jié)果更為準(zhǔn)確、更具時效性。因此,本文依托百度指數(shù)的時效性,挖掘旅游網(wǎng)絡(luò)關(guān)注度和實際旅游需求的關(guān)系,預(yù)測景區(qū)客流量,對指導(dǎo)旅游管理部門做出科學(xué)、合理的決策安排,促進旅游可持續(xù)發(fā)展具有重要意義。
二、指標(biāo)選取與數(shù)據(jù)
(一)指標(biāo)選取
根據(jù)指標(biāo)選取理論的分析可知,用戶搜索行為反映了用戶近期行為,但由于搜索用戶的異質(zhì)性,不同用戶對某一事物的關(guān)注度有所不同,從而使得搜索關(guān)鍵詞也具有多樣性,且關(guān)鍵詞應(yīng)包含與目標(biāo)事物相關(guān)的各個方面。因此,本文在已有文獻基礎(chǔ)上,根據(jù)相關(guān)旅游經(jīng)驗及人們外出旅行時的主要考慮因素,即衣、食、住、行、游5個方面,通過百度指數(shù)“趨勢研究”和“需求圖譜”兩個模塊來進行關(guān)鍵詞的提取,這5個方面涵蓋了平遙天氣、平遙牛肉、平遙古城住宿、平遙古城門票、平遙古城旅游攻略等多方面信息。本文將這5個方面的相關(guān)詞作為初始關(guān)鍵詞,運用百度關(guān)鍵詞挖掘進行關(guān)鍵詞搜索,從而得到最終的關(guān)鍵詞指標(biāo)。
(二)數(shù)據(jù)說明
本文的關(guān)鍵詞數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲技術(shù)從百度指數(shù)網(wǎng)頁源代碼中提取得到的。在利用初始詞進行關(guān)鍵詞搜索過程中,剔除沒有數(shù)據(jù)對應(yīng)和數(shù)據(jù)量很少的關(guān)鍵詞,最終得到57個關(guān)鍵詞從2011年12月到2014年12月共162周的數(shù)據(jù)。平遙古城旅游客流量數(shù)據(jù)來自山西省旅游局,選取的時間區(qū)間為2011年12月至2014年12月,共37個數(shù)據(jù)。由于我們得到的關(guān)鍵詞數(shù)據(jù)為周度數(shù)據(jù),而本文研究的是月度數(shù)據(jù),所以要對關(guān)鍵詞數(shù)據(jù)進行處理,將周度數(shù)據(jù)轉(zhuǎn)化為月度數(shù)據(jù),即按照日歷中各月周數(shù)進行加總,將每月最后幾天數(shù)據(jù)按所在周的天數(shù)作為權(quán)重,將該周的數(shù)據(jù)按權(quán)重分配到相鄰月中,最終得到37個月的搜索指數(shù)數(shù)據(jù)。
三、實證分析
首先對模型擬合和預(yù)測有兩點說明:一是擬合樣本區(qū)間為2011年12月到2014年10月,共35個數(shù)據(jù),用于預(yù)測檢驗的樣本區(qū)間為2014年的11月到12月2個月的數(shù)據(jù)。二是在模型擬合效果的比較上,本文引入MSE和NMSE兩個指標(biāo),分別代表模型的穩(wěn)定性和擬合度。
(一)搜索關(guān)鍵詞確定
首先,利用簡單手動篩選,觀察所有關(guān)鍵詞數(shù)據(jù),將趨勢變化不明顯或幾乎無變化趨勢的剔除;然后,利用Pearson相關(guān)系數(shù)篩選,分別計算各關(guān)鍵詞與因變量的Pearson相關(guān)系數(shù),將相關(guān)系數(shù)小于0.6的剔除;最后,利用線性回歸篩選,并診斷回歸的多重共線性和自相關(guān),利用逐步回歸及AIC準(zhǔn)則選出最終的4個關(guān)鍵詞:平遙古城旅游攻略、平遙古城地圖、山西旅游景點大全、平遙住宿。
(二)模型估計
在篩選關(guān)鍵詞過程中,我們構(gòu)建了一個線性回歸方程,回歸估計如下:
從回歸結(jié)果看,總體擬合效果較好,變量系數(shù)均通過顯著性檢驗,因此該線性模型似乎具有較好預(yù)測效果。但為進一步考察模型假設(shè)是否成立,我們進行殘差的Shapiro-Wilk正態(tài)性檢驗,并且刻畫了因變量直方圖及對應(yīng)的線性分布圖,檢驗結(jié)果均表明因變量不服從正態(tài)分布,因此本文利用線性回歸進行模型模擬時并不能滿足其對因變量分布的假定,從而會產(chǎn)生較大誤差,影響擬合和預(yù)測效果。
故本文采用了對數(shù)據(jù)分布沒有任何假定且結(jié)果可用交叉驗證方法來評判的四種機器學(xué)習(xí)方法進行模型擬合及預(yù)測,并比較了決策樹、bgging、隨機森林、支持向量機這四種算法模型的擬合度、穩(wěn)定性與預(yù)測效果。
(三)模型結(jié)果分析
使用以上四種算法估計模型,計算出各模型的MSE和NMSE,結(jié)果見表1。
從模型的擬合度和穩(wěn)定性來看,回歸樹和Bagging都存在明顯不足,其MSE和NMSE 值均大于另外兩個模型,回歸樹模型在所有模型中擬合效果最差。而隨機森林和支持向量機(SVM)這兩種模型的效果較好,其中隨機森林的擬合度和穩(wěn)定性最佳,SVM模型的擬合度較好,但模型穩(wěn)定性不佳。最后分別用以上算法模型對樣本期外兩個月的客流量進行預(yù)測,并將其與真實值對比,計算其平均誤差率,結(jié)果見表2。
如表2所示,模型擬合效果較差的回歸樹和bagging的預(yù)測效果仍不理想,平均誤差率分別達到了11.55%和7.18%,與真實客流量數(shù)據(jù)相比存在較大偏差。同時,擬合效果最佳的隨機森林預(yù)測效果并不理想,其平均誤差率達8.54%,甚至差于bagging。而SVM模型的平均誤差率僅有1.46%,具有較好的預(yù)測效果。分析原因,筆者認為可能是由于bagging、回歸樹、隨機森林三種算法模型的分類原理本質(zhì)上源于歸納算法,這類模型在結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集上學(xué)習(xí)能力和適應(yīng)性不夠強,有效性和伸縮性不足,而SVM則采取了與傳統(tǒng)模型不同的思想,具有較強的泛化能力,所以預(yù)測結(jié)果與實際較為接近。
四、結(jié)論
本文在分析旅游客流量和百度搜索指數(shù)關(guān)系的基礎(chǔ)上,運用一系列方法篩選出與旅游客流量相關(guān)性最高的四個關(guān)鍵詞,并運用回歸樹、bagging、隨機森林和SVM四種機器學(xué)習(xí)算法模型對客流量數(shù)據(jù)進行了擬合和預(yù)測。研究具體結(jié)論主要有三點,一是主要或潛在游客主要通過對“平遙古城旅游攻略”、“平遙古城地圖”、“山西旅游景點大全”、“平遙住宿”等關(guān)鍵詞的搜索來獲取平遙古城旅游信息。二是回歸樹、bagging、隨機森林和SVM模型中,擬合效果最好的是隨機森林和SVM模型,穩(wěn)定性最好的為隨機森林模型,回歸樹、bagging的擬合度和穩(wěn)定性都較差;預(yù)測效果最好的為SVM。因此,綜合擬合度、穩(wěn)定性和預(yù)測效果可知,SVM模型的整體效果最好,可以作為最終的平遙古城旅游客流量預(yù)測模型。三是利用關(guān)鍵詞的百度指數(shù)來對平遙古城旅游客流量進行預(yù)測,可以在每月月底得到較為準(zhǔn)確的數(shù)據(jù),這比相關(guān)部門公布的數(shù)據(jù)提前了15天左右,具有較高的時效性。
參考文獻
[1]Choi H,Varian H.Predicting the Present with Google Trends[J].Economic Record,2009,88(s1):2-9.
[2]黃先開,張麗峰.百度指數(shù)與旅游景區(qū)游客量的關(guān)系及預(yù)測研究——以北京故宮為例[J].旅游學(xué)刊,2013,28(11):93-100.
[3]殷杰,鄭向敏.基于VECM模型的景區(qū)網(wǎng)絡(luò)關(guān)注度與旅游人數(shù)的關(guān)系研究——以鼓浪嶼為例[J].福建農(nóng)林大學(xué)學(xué)報,2015,18(5):68-75.
作者簡介:靳鑫元(1991-),女,漢族,河北保定人,碩士,山西財經(jīng)大學(xué)統(tǒng)計學(xué)院研究生,研究方向:應(yīng)用統(tǒng)計、數(shù)據(jù)挖掘;羅珊(1992-),女,漢族,貴州遵義人,碩士,貴州大學(xué)經(jīng)濟學(xué)院研究生,研究方向:商業(yè)銀行經(jīng)營與管理。