梁旭楷 周尚武 楊 曦
(黔東南民族職業(yè)技術(shù)學(xué)院,貴州凱里 556000)
近年來(lái),貴州省作為全國(guó)首個(gè)大數(shù)據(jù)綜合試驗(yàn)區(qū),省政府頻頻出招,持續(xù)推動(dòng)大數(shù)據(jù)領(lǐng)域交流合作。貴州省黔東南州具有豐富的旅游資源,伴隨著當(dāng)前旅游業(yè)網(wǎng)絡(luò)化、散客化、大眾化的趨勢(shì),以“億萬(wàn)”計(jì)數(shù)的游客旅游活動(dòng)過(guò)程就是大數(shù)據(jù)的產(chǎn)生過(guò)程,在移動(dòng)互聯(lián)網(wǎng)、5G 時(shí)代借助數(shù)據(jù)資產(chǎn)發(fā)展旅游產(chǎn)業(yè)化,能夠提升產(chǎn)業(yè)收益、提高管理效率、滿足個(gè)性化服務(wù)等方面的價(jià)值空間。通過(guò)利用互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù),可以實(shí)現(xiàn)旅游信息獲取與分享、數(shù)據(jù)分析與決策支持、旅游信息輿情分析等方面的應(yīng)用和提升,重構(gòu)旅游產(chǎn)業(yè)的發(fā)展。隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)大規(guī)模旅游數(shù)據(jù)進(jìn)行有效地分析、處理和可視化是一項(xiàng)挑戰(zhàn)[1]。
黔東南州全稱(chēng)為黔東南苗族侗族自治州,地處貴州省東南部,是全國(guó)苗族侗族人口最集中的地區(qū),被稱(chēng)為“歌舞之州”“森林之州”“神奇之州”“百節(jié)之鄉(xiāng)”“民間文化藝術(shù)之鄉(xiāng)”“苗族侗族文化遺產(chǎn)保留核心地”“民族文化生態(tài)博物館”等。截至2023年3 月2 日,黔東南州擁有國(guó)家A 級(jí)旅游景區(qū)81 個(gè),其中5A 級(jí)景區(qū)1 個(gè),4A 級(jí)景區(qū)18 個(gè),3A 級(jí)景區(qū)55個(gè),2A 級(jí)景區(qū)7 個(gè)[2]。黔東南州旅游總收入同比呈現(xiàn)上升趨勢(shì),游客數(shù)量明顯回升,旅游市場(chǎng)復(fù)蘇提速。
目前,黔東南州積極地實(shí)施大數(shù)據(jù)旅游云平臺(tái)開(kāi)發(fā)、涉旅數(shù)據(jù)采集、智慧旅游服務(wù)中心和信息化基礎(chǔ)設(shè)施建設(shè),圍繞“吃、住、行、游、購(gòu)、娛”六大要素,依托“一碼游貴州”平臺(tái)建設(shè)黔東南州文旅產(chǎn)品消費(fèi)專(zhuān)區(qū),實(shí)現(xiàn)門(mén)票預(yù)訂、商品購(gòu)買(mǎi)、導(dǎo)游導(dǎo)覽、VR 體驗(yàn)、語(yǔ)音講解、安全預(yù)警等功能體驗(yàn)。數(shù)據(jù)中心運(yùn)用騰訊公司大數(shù)據(jù),通過(guò)QQ、微信等定位信息確定游客是否到達(dá)黔東南州內(nèi)、停留時(shí)長(zhǎng)等數(shù)據(jù),為游客線路定制、健康飲食、交通出行、購(gòu)物消費(fèi)等提供個(gè)性化的推薦服務(wù)等。在此基礎(chǔ)上,通過(guò)對(duì)旅游數(shù)據(jù)的采集、分析和可視化的方式,可以幫助旅游企業(yè)和政府更好地了解市場(chǎng)需求、競(jìng)爭(zhēng)情況以及消費(fèi)者行為,找出游客需求和不足之處,從而進(jìn)行有針對(duì)性的優(yōu)化和改進(jìn),提高旅游體驗(yàn)和滿意度[3]。
本文介紹的平臺(tái)功能模塊如圖1 所示。首先,利用Python 爬蟲(chóng)框架實(shí)現(xiàn)對(duì)旅游目標(biāo)網(wǎng)頁(yè)的爬取。通過(guò)發(fā)送URL 請(qǐng)求并解析返回結(jié)果,使用Python 基于Scrapy 爬蟲(chóng)框架所需數(shù)據(jù)進(jìn)行解析,主要提取旅游線路、旅游景區(qū)、旅游評(píng)論、旅游酒店、旅游搜索等相關(guān)信息。其次,重復(fù)數(shù)據(jù)和空值行數(shù)據(jù)等進(jìn)行數(shù)據(jù)預(yù)處理,讀取導(dǎo)入系統(tǒng)的數(shù)據(jù)文件,連接MySQL 數(shù)據(jù)庫(kù)并進(jìn)行增刪改查操作。最后,采用阿里云DataV 數(shù)據(jù)可視化平臺(tái)實(shí)現(xiàn)結(jié)果的表達(dá),連接對(duì)應(yīng)的數(shù)據(jù)庫(kù)信息,將采集的結(jié)果數(shù)據(jù)動(dòng)態(tài)地添加到曲線圖、詞云等圖表中。
圖1 平臺(tái)模塊劃分
為了快速地獲取目標(biāo)網(wǎng)頁(yè)的數(shù)據(jù)信息并實(shí)現(xiàn)數(shù)據(jù)分析和可視化,本文系統(tǒng)采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)來(lái)進(jìn)行數(shù)據(jù)采集??紤]到本文系統(tǒng)需要處理大量數(shù)據(jù),并且普通爬取技術(shù)效率低下且容易受到反爬蟲(chóng)機(jī)制的影響,因此選擇了Scrapy 分布式爬蟲(chóng)框架。筆者選擇了攜程網(wǎng)、馬蜂窩、去哪兒等網(wǎng)站作為數(shù)據(jù)獲取的目標(biāo)[4]。數(shù)據(jù)爬蟲(chóng)的基本流程包括發(fā)起請(qǐng)求、解析內(nèi)容、獲取響應(yīng)內(nèi)容和數(shù)據(jù)保存。整個(gè)數(shù)據(jù)采集過(guò)程類(lèi)似于用戶在網(wǎng)頁(yè)上收集所需數(shù)據(jù)的過(guò)程。
筆者的目標(biāo)是爬取攜程網(wǎng)、馬蜂窩等旅游網(wǎng)站的相關(guān)數(shù)據(jù),包括旅游線路、旅游景區(qū)、旅游評(píng)論、旅游酒店、旅游搜索等信息[5]。筆者使用瀏覽器自帶的開(kāi)發(fā)者工具查看網(wǎng)頁(yè)的HTML 代碼并對(duì)所需數(shù)據(jù)進(jìn)行核查,將對(duì)爬取的數(shù)據(jù)進(jìn)行預(yù)處理并進(jìn)行數(shù)據(jù)分析。
編寫(xiě)Scrapy爬蟲(chóng)程序的基本流程包括發(fā)起請(qǐng)求、解析信息、獲取響應(yīng)內(nèi)容和存儲(chǔ)數(shù)據(jù)。首先,程序發(fā)送HTTP 請(qǐng)求到目標(biāo)網(wǎng)站,并等待服務(wù)器的響應(yīng)。如果得到正常的響應(yīng),就會(huì)獲得一個(gè)包含網(wǎng)頁(yè)數(shù)據(jù)的響應(yīng)的JSON字符串。然后,筆者將對(duì)響應(yīng)進(jìn)行解析,提取出所需信息。
在平臺(tái)的搭建過(guò)程中,使用正則表達(dá)式或BeautifulSoup 庫(kù)去除HTML 標(biāo)簽,只保留文本內(nèi)容,使用strip()方法去除字符串的前后空白字符,使用正則表達(dá)式或字符串方法去除特殊字符,識(shí)別并清除錯(cuò)誤無(wú)效的數(shù)據(jù)。通過(guò)對(duì)獲取的數(shù)據(jù)進(jìn)行預(yù)處理操作,便在接下來(lái)的統(tǒng)計(jì)和分析過(guò)程中使用。
將預(yù)處理后的旅游數(shù)據(jù)標(biāo)準(zhǔn)化、格式化存入MySQL 數(shù)據(jù)庫(kù),在Scrapy 項(xiàng)目中配置MySQL 數(shù)據(jù)庫(kù)連接,在項(xiàng)目的settings.py文件設(shè)置數(shù)據(jù)庫(kù)地址、端口號(hào)、用戶名等數(shù)據(jù)庫(kù)相關(guān)配置,通過(guò)pipelines.py文件中創(chuàng)建一個(gè)MySQL 連接池,配置pipelines.py 文件中創(chuàng)建一個(gè)新的Pipeline,并存儲(chǔ)到MySQL 數(shù)據(jù)庫(kù)中具體的數(shù)據(jù)庫(kù)表名。
數(shù)據(jù)展示層部分通過(guò)DataV 技術(shù)的使用涵蓋了模塊設(shè)計(jì)、文字和顏色設(shè)計(jì)以及圖表選擇等三個(gè)方面。
1.模塊設(shè)計(jì)
根據(jù)旅游數(shù)據(jù)信息等爬取,本平臺(tái)采用了單頁(yè)在大屏上展示數(shù)據(jù),展示內(nèi)容涵蓋了旅游數(shù)據(jù)概覽、旅游搜索指數(shù)、熱點(diǎn)旅游景區(qū)排名、旅游評(píng)價(jià)關(guān)鍵詞、旅游實(shí)時(shí)輿情評(píng)價(jià)等方面。
2.文字和顏色設(shè)計(jì)
在可視化中,色彩和文字是非常重要的元素。色彩可以幫助人們快速區(qū)分不同的信息,而文字則可以用來(lái)簡(jiǎn)要說(shuō)明內(nèi)容,避免用戶產(chǎn)生閱讀疲勞。
3.圖表選擇
圖表是圖形化展示數(shù)據(jù)的主要方式。在本平臺(tái)中,采用了曲線圖、滾動(dòng)圖和詞云圖等不同的圖表形式。曲線圖用于展示黔東南旅游搜索指數(shù)并反映搜索的趨勢(shì),滾動(dòng)圖直觀地展示熱點(diǎn)旅游景點(diǎn)、旅游線路排名,詞云圖則用于表示游客對(duì)黔東南旅游的高頻率和重要性評(píng)價(jià),將數(shù)據(jù)轉(zhuǎn)化為各種動(dòng)態(tài)的可視化圖表實(shí)時(shí)展示給用戶。
該平臺(tái)系統(tǒng)采用Python 語(yǔ)言進(jìn)行開(kāi)發(fā),展示層使用DataV 數(shù)據(jù)可視化控件進(jìn)行頁(yè)面布局,并使用連接數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)調(diào)取。數(shù)據(jù)采集和存儲(chǔ)部分采用Scrapy 爬蟲(chóng)框架和MySQL 數(shù)據(jù)庫(kù)同步編程。黔東南州旅游大數(shù)據(jù)可視化平臺(tái)包含“黔東南州搜索趨勢(shì)”“旅游評(píng)價(jià)關(guān)鍵詞”“熱門(mén)景區(qū)排名”“旅游實(shí)時(shí)輿情評(píng)價(jià)”等模塊,根據(jù)實(shí)際運(yùn)行,旅游數(shù)據(jù)可視化展示效果良好,大屏首頁(yè)如圖2所示。
圖2 可視化大屏首頁(yè)
該可視化平臺(tái)可在黔東南州旅游在旅游搜索趨勢(shì)分析、旅游輿情預(yù)警監(jiān)測(cè)、旅游高頻評(píng)價(jià)詞云等領(lǐng)域進(jìn)行應(yīng)用,為政府、行業(yè)和企業(yè)提供了基于大數(shù)據(jù)視角的決策依據(jù),促進(jìn)了旅游的精細(xì)化、智慧化管理。
基于可視化框架來(lái)分析旅游搜索趨勢(shì)可以幫助筆者了解公眾對(duì)旅游目的地、景點(diǎn)或旅行主題的興趣和需求變化??梢酝ㄟ^(guò)API 接口獲取搜索引擎(如百度、360 搜索、搜狗搜索)和旅游相關(guān)網(wǎng)站的搜索數(shù)據(jù)收集旅游搜索數(shù)據(jù),包括搜索關(guān)鍵詞、搜索量等。從近30天的可視化搜索趨勢(shì)來(lái)看,元旦假期后黔東南旅游搜索熱度上漲23.5%,圍繞熱門(mén)景區(qū)“西江千戶苗寨”“肇興侗寨”“鎮(zhèn)遠(yuǎn)古城”和“村超”等旅游數(shù)據(jù)持續(xù)上升,搜索地域排名前三的為“廣東”“浙江”“北京”,搜索人群以20 歲至29 歲人群為主,占比達(dá)到35%。通過(guò)這些可視化展示旅游搜索趨勢(shì)的變化,可以更好地幫助旅游行業(yè)進(jìn)行目標(biāo)定位、產(chǎn)品開(kāi)發(fā)和市場(chǎng)推廣策略的制定。
基于可視化平臺(tái),利用旅游大數(shù)據(jù)通過(guò)對(duì)包括攜程、馬蜂窩、微博等旅游網(wǎng)站、社區(qū)論壇、社會(huì)媒體等渠道的實(shí)時(shí)監(jiān)測(cè)和分析,及時(shí)發(fā)現(xiàn)和預(yù)警與旅游相關(guān)的負(fù)面輿情。通過(guò)數(shù)據(jù)可視化分析,游客對(duì)黔東南旅游景點(diǎn)評(píng)價(jià)良好,例如“西江夜景美妙”“侗寨景色迷人”“民族文化質(zhì)樸”等滿意的評(píng)價(jià),在住宿、餐飲、購(gòu)物等方面整體評(píng)價(jià)是積極的,但也存在如“服務(wù)不到位”“酒店設(shè)施不滿意”等負(fù)面反饋。旅游輿情預(yù)警的建立和合理運(yùn)用可以幫助旅游行業(yè)更好地應(yīng)對(duì),提升公眾對(duì)旅游目的地、旅游產(chǎn)品或服務(wù)的滿意度,保持黔東南旅游良好的聲譽(yù)和持續(xù)的發(fā)展。
當(dāng)前,對(duì)黔東南旅游數(shù)據(jù)的可視化應(yīng)用研究仍然存在旅游數(shù)據(jù)本身的內(nèi)涵價(jià)值挖掘不夠、可視化結(jié)果簡(jiǎn)單、旅游數(shù)據(jù)之間缺乏關(guān)聯(lián)性分析等不足。接下來(lái)將進(jìn)一步地研究和探索,深化對(duì)黔東南旅游數(shù)據(jù)的挖掘,整合多維度數(shù)據(jù),深入地挖掘數(shù)據(jù)中隱藏的相關(guān)關(guān)系,豐富可視化結(jié)果的表達(dá)方式,讓用戶能夠更好地理解地?cái)?shù)據(jù)。