亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析

        2016-11-25 17:51:36靳鑫元羅珊
        時代金融 2016年27期
        關(guān)鍵詞:機器學(xué)習(xí)預(yù)測

        靳鑫元+羅珊

        【摘要】本文基于百度指數(shù)進行旅游關(guān)鍵詞的挖掘,運用決策樹、bagging、隨機森林和支持向量機四種算法模型對旅游關(guān)鍵詞與平遙古城游客流量關(guān)系進行分析,并比較了各模型的擬合度、穩(wěn)定性及預(yù)測效果。實證研究發(fā)現(xiàn),隨機森林模型穩(wěn)定性最好,SVM模型擬合和預(yù)測效果最好,因此SVM模型可以作為最終的平遙古城客流量預(yù)測模型。

        【關(guān)鍵詞】平遙古城 百度指數(shù) 機器學(xué)習(xí) 預(yù)測

        一、引言

        近年來,我國旅游產(chǎn)業(yè)規(guī)模不斷擴大,平遙古城作為中國境內(nèi)保存最完整的古代縣城與票號文化發(fā)源地,游客量快速增長,逐年增加的游客對古城承載力及景區(qū)建設(shè)提出了更高要求。與此同時,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及大數(shù)據(jù)時代的到來,旅游信息傳播形式、游客信息搜索方式、旅游消費行為等均發(fā)生了巨大改變。許多旅游經(jīng)營者、旅游企業(yè)及政府機構(gòu)都通過互聯(lián)網(wǎng)平臺發(fā)布旅游信息,隨之互聯(lián)網(wǎng)平臺也成為廣大游客出游的重要信息來源,相應(yīng)產(chǎn)生的網(wǎng)絡(luò)搜索數(shù)據(jù)則逐漸成為高質(zhì)量的游客旅游搜索行為數(shù)據(jù)庫。2011年百度推出的百度指數(shù)可以直接、客觀地反映某特定時間段內(nèi)的社會熱點、用戶興趣和需求,并且實證表明利用百度指數(shù)這一網(wǎng)絡(luò)搜索指數(shù)進行預(yù)測克服了傳統(tǒng)預(yù)測中存在的數(shù)據(jù)滯后以及數(shù)據(jù)量不足的缺陷,結(jié)果更為準(zhǔn)確、更具時效性。因此,本文依托百度指數(shù)的時效性,挖掘旅游網(wǎng)絡(luò)關(guān)注度和實際旅游需求的關(guān)系,預(yù)測景區(qū)客流量,對指導(dǎo)旅游管理部門做出科學(xué)、合理的決策安排,促進旅游可持續(xù)發(fā)展具有重要意義。

        二、指標(biāo)選取與數(shù)據(jù)

        (一)指標(biāo)選取

        根據(jù)指標(biāo)選取理論的分析可知,用戶搜索行為反映了用戶近期行為,但由于搜索用戶的異質(zhì)性,不同用戶對某一事物的關(guān)注度有所不同,從而使得搜索關(guān)鍵詞也具有多樣性,且關(guān)鍵詞應(yīng)包含與目標(biāo)事物相關(guān)的各個方面。因此,本文在已有文獻基礎(chǔ)上,根據(jù)相關(guān)旅游經(jīng)驗及人們外出旅行時的主要考慮因素,即衣、食、住、行、游5個方面,通過百度指數(shù)“趨勢研究”和“需求圖譜”兩個模塊來進行關(guān)鍵詞的提取,這5個方面涵蓋了平遙天氣、平遙牛肉、平遙古城住宿、平遙古城門票、平遙古城旅游攻略等多方面信息。本文將這5個方面的相關(guān)詞作為初始關(guān)鍵詞,運用百度關(guān)鍵詞挖掘進行關(guān)鍵詞搜索,從而得到最終的關(guān)鍵詞指標(biāo)。

        (二)數(shù)據(jù)說明

        本文的關(guān)鍵詞數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲技術(shù)從百度指數(shù)網(wǎng)頁源代碼中提取得到的。在利用初始詞進行關(guān)鍵詞搜索過程中,剔除沒有數(shù)據(jù)對應(yīng)和數(shù)據(jù)量很少的關(guān)鍵詞,最終得到57個關(guān)鍵詞從2011年12月到2014年12月共162周的數(shù)據(jù)。平遙古城旅游客流量數(shù)據(jù)來自山西省旅游局,選取的時間區(qū)間為2011年12月至2014年12月,共37個數(shù)據(jù)。由于我們得到的關(guān)鍵詞數(shù)據(jù)為周度數(shù)據(jù),而本文研究的是月度數(shù)據(jù),所以要對關(guān)鍵詞數(shù)據(jù)進行處理,將周度數(shù)據(jù)轉(zhuǎn)化為月度數(shù)據(jù),即按照日歷中各月周數(shù)進行加總,將每月最后幾天數(shù)據(jù)按所在周的天數(shù)作為權(quán)重,將該周的數(shù)據(jù)按權(quán)重分配到相鄰月中,最終得到37個月的搜索指數(shù)數(shù)據(jù)。

        三、實證分析

        首先對模型擬合和預(yù)測有兩點說明:一是擬合樣本區(qū)間為2011年12月到2014年10月,共35個數(shù)據(jù),用于預(yù)測檢驗的樣本區(qū)間為2014年的11月到12月2個月的數(shù)據(jù)。二是在模型擬合效果的比較上,本文引入MSE和NMSE兩個指標(biāo),分別代表模型的穩(wěn)定性和擬合度。

        (一)搜索關(guān)鍵詞確定

        首先,利用簡單手動篩選,觀察所有關(guān)鍵詞數(shù)據(jù),將趨勢變化不明顯或幾乎無變化趨勢的剔除;然后,利用Pearson相關(guān)系數(shù)篩選,分別計算各關(guān)鍵詞與因變量的Pearson相關(guān)系數(shù),將相關(guān)系數(shù)小于0.6的剔除;最后,利用線性回歸篩選,并診斷回歸的多重共線性和自相關(guān),利用逐步回歸及AIC準(zhǔn)則選出最終的4個關(guān)鍵詞:平遙古城旅游攻略、平遙古城地圖、山西旅游景點大全、平遙住宿。

        (二)模型估計

        在篩選關(guān)鍵詞過程中,我們構(gòu)建了一個線性回歸方程,回歸估計如下:

        從回歸結(jié)果看,總體擬合效果較好,變量系數(shù)均通過顯著性檢驗,因此該線性模型似乎具有較好預(yù)測效果。但為進一步考察模型假設(shè)是否成立,我們進行殘差的Shapiro-Wilk正態(tài)性檢驗,并且刻畫了因變量直方圖及對應(yīng)的線性分布圖,檢驗結(jié)果均表明因變量不服從正態(tài)分布,因此本文利用線性回歸進行模型模擬時并不能滿足其對因變量分布的假定,從而會產(chǎn)生較大誤差,影響擬合和預(yù)測效果。

        故本文采用了對數(shù)據(jù)分布沒有任何假定且結(jié)果可用交叉驗證方法來評判的四種機器學(xué)習(xí)方法進行模型擬合及預(yù)測,并比較了決策樹、bgging、隨機森林、支持向量機這四種算法模型的擬合度、穩(wěn)定性與預(yù)測效果。

        (三)模型結(jié)果分析

        使用以上四種算法估計模型,計算出各模型的MSE和NMSE,結(jié)果見表1。

        從模型的擬合度和穩(wěn)定性來看,回歸樹和Bagging都存在明顯不足,其MSE和NMSE 值均大于另外兩個模型,回歸樹模型在所有模型中擬合效果最差。而隨機森林和支持向量機(SVM)這兩種模型的效果較好,其中隨機森林的擬合度和穩(wěn)定性最佳,SVM模型的擬合度較好,但模型穩(wěn)定性不佳。最后分別用以上算法模型對樣本期外兩個月的客流量進行預(yù)測,并將其與真實值對比,計算其平均誤差率,結(jié)果見表2。

        如表2所示,模型擬合效果較差的回歸樹和bagging的預(yù)測效果仍不理想,平均誤差率分別達到了11.55%和7.18%,與真實客流量數(shù)據(jù)相比存在較大偏差。同時,擬合效果最佳的隨機森林預(yù)測效果并不理想,其平均誤差率達8.54%,甚至差于bagging。而SVM模型的平均誤差率僅有1.46%,具有較好的預(yù)測效果。分析原因,筆者認為可能是由于bagging、回歸樹、隨機森林三種算法模型的分類原理本質(zhì)上源于歸納算法,這類模型在結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集上學(xué)習(xí)能力和適應(yīng)性不夠強,有效性和伸縮性不足,而SVM則采取了與傳統(tǒng)模型不同的思想,具有較強的泛化能力,所以預(yù)測結(jié)果與實際較為接近。

        四、結(jié)論

        本文在分析旅游客流量和百度搜索指數(shù)關(guān)系的基礎(chǔ)上,運用一系列方法篩選出與旅游客流量相關(guān)性最高的四個關(guān)鍵詞,并運用回歸樹、bagging、隨機森林和SVM四種機器學(xué)習(xí)算法模型對客流量數(shù)據(jù)進行了擬合和預(yù)測。研究具體結(jié)論主要有三點,一是主要或潛在游客主要通過對“平遙古城旅游攻略”、“平遙古城地圖”、“山西旅游景點大全”、“平遙住宿”等關(guān)鍵詞的搜索來獲取平遙古城旅游信息。二是回歸樹、bagging、隨機森林和SVM模型中,擬合效果最好的是隨機森林和SVM模型,穩(wěn)定性最好的為隨機森林模型,回歸樹、bagging的擬合度和穩(wěn)定性都較差;預(yù)測效果最好的為SVM。因此,綜合擬合度、穩(wěn)定性和預(yù)測效果可知,SVM模型的整體效果最好,可以作為最終的平遙古城旅游客流量預(yù)測模型。三是利用關(guān)鍵詞的百度指數(shù)來對平遙古城旅游客流量進行預(yù)測,可以在每月月底得到較為準(zhǔn)確的數(shù)據(jù),這比相關(guān)部門公布的數(shù)據(jù)提前了15天左右,具有較高的時效性。

        參考文獻

        [1]Choi H,Varian H.Predicting the Present with Google Trends[J].Economic Record,2009,88(s1):2-9.

        [2]黃先開,張麗峰.百度指數(shù)與旅游景區(qū)游客量的關(guān)系及預(yù)測研究——以北京故宮為例[J].旅游學(xué)刊,2013,28(11):93-100.

        [3]殷杰,鄭向敏.基于VECM模型的景區(qū)網(wǎng)絡(luò)關(guān)注度與旅游人數(shù)的關(guān)系研究——以鼓浪嶼為例[J].福建農(nóng)林大學(xué)學(xué)報,2015,18(5):68-75.

        作者簡介:靳鑫元(1991-),女,漢族,河北保定人,碩士,山西財經(jīng)大學(xué)統(tǒng)計學(xué)院研究生,研究方向:應(yīng)用統(tǒng)計、數(shù)據(jù)挖掘;羅珊(1992-),女,漢族,貴州遵義人,碩士,貴州大學(xué)經(jīng)濟學(xué)院研究生,研究方向:商業(yè)銀行經(jīng)營與管理。

        猜你喜歡
        機器學(xué)習(xí)預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        選修2—2期中考試預(yù)測卷(A卷)
        不可預(yù)測
        不必預(yù)測未來,只需把握現(xiàn)在
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機的金融數(shù)據(jù)分析研究
        女人被狂躁c到高潮视频| 免费国产自拍视频在线观看| 成人精品综合免费视频| 中国丰满熟妇av| 欧美老妇与zozoz0交| 毛茸茸性xxxx毛茸茸毛茸茸| 亚洲级αv无码毛片久久精品| 豆国产95在线 | 亚洲| 精品视频入口| 国精品无码一区二区三区在线看| 久久狠色噜噜狠狠狠狠97| 九九99久久精品午夜剧场免费 | 久久老熟女一区二区三区福利| 91久久国产香蕉熟女线看| 小雪好紧好滑好湿好爽视频| 日韩av午夜在线观看| 成人午夜特黄aaaaa片男男| 中文字幕丰满伦子无码| 四川老熟妇乱子xx性bbw| 亚洲av无码之日韩精品| 亚洲自拍另类制服在线| 中文亚洲爆乳av无码专区| 无码国产精品色午夜| 国产高清亚洲精品视频| 日韩女同一区二区三区久久| 国产一区二区三区尤物| 精品人妻av一区二区三区麻豆| 女优一区二区三区在线观看| 国产69精品久久久久9999apgf| 欧洲freexxxx性少妇播放| 特级毛片a级毛片免费播放| 国产成人精选在线不卡| 亚洲性码不卡视频在线| 亚洲成人av在线播放不卡| 国产性虐视频在线观看| 无码孕妇孕交在线观看| a级毛片成人网站免费看| 老太脱裤让老头玩ⅹxxxx| 亚洲AV成人无码国产一区二区| 亚欧视频无码在线观看| 中文字幕精品乱码一区|