亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)爬蟲的旅游用戶數(shù)據(jù)分析

        2020-01-07 04:00:16何彩娟于碧鵬李榮華
        關(guān)鍵詞:馬蜂窩爬蟲解析

        何彩娟 于碧鵬 李榮華

        【摘?要】步入“互聯(lián)網(wǎng)+”與大數(shù)據(jù)時代,網(wǎng)絡(luò)爬蟲與用戶數(shù)據(jù)分析已經(jīng)成為技術(shù)輿論新格局的重要組成部分,各個行業(yè)都在積極的朝著互聯(lián)網(wǎng)轉(zhuǎn)型,旅游行業(yè)也在不斷的在嘗試智能化轉(zhuǎn)型,其中用戶數(shù)據(jù)的分析也是最為熱門的話題之一。本文以馬蜂窩網(wǎng)旅行網(wǎng)的用戶在網(wǎng)站發(fā)表的行為數(shù)據(jù),基Python這一時下流行的人工智能編程語言,做詳細(xì)的數(shù)據(jù)爬取、數(shù)據(jù)分析,為旅游組織方在旅游產(chǎn)品追求個性化、差異化的市場提供一個有效的優(yōu)化方向。

        1.分析背景

        伴隨著經(jīng)濟(jì)蓬勃發(fā)展及人們對生活品質(zhì)的高要求,外加各國政府不約而同的采取優(yōu)惠政策促進(jìn)旅游服務(wù)產(chǎn)業(yè)發(fā)展,使得全球旅游產(chǎn)業(yè)保持快速、穩(wěn)定的發(fā)展。近年來,中國旅游業(yè)競爭力呈現(xiàn)快速上升趨勢。據(jù)統(tǒng)計數(shù)據(jù)得出,2018年全國旅游出行人數(shù)超55億,總收入超5萬億元,與2017相比分別增長11.09%和11.98%;全國境外旅行人數(shù)約為1.5億人次,同比增長11.5%。消費(fèi)升級的社會,全民旅游意愿、支出節(jié)節(jié)攀升,未來旅游產(chǎn)業(yè)市場仍是塊大蛋糕。

        2.國內(nèi)外研究現(xiàn)狀

        用戶在選擇具體的旅游景點(diǎn)和規(guī)劃旅游路線時,國內(nèi)大多數(shù)都是基于基本的旅游咨詢,根據(jù)用戶的旅游需求,結(jié)合景點(diǎn)一些對外開放的信息進(jìn)行數(shù)據(jù)采集、分析,最后推薦給用戶。馬蜂窩旅游分享社區(qū)目共有 1.25億用戶,每月在線活躍的人數(shù)超過 1 億,用戶量廣,月產(chǎn)優(yōu)質(zhì)游記超過 13 萬篇。其中涉及國內(nèi)外目的地攻略、游記、問答、點(diǎn)評等用戶真實(shí)分享的UGC信息,對服務(wù)企業(yè)規(guī)劃旅游路線有重要意義。

        3.本文實(shí)現(xiàn)思路

        本文研究主要由通過網(wǎng)絡(luò)爬蟲技術(shù)獲取馬蜂窩城市數(shù)據(jù)及用戶足跡數(shù)據(jù),并將獲取到的用戶數(shù)據(jù)存儲至數(shù)據(jù)庫中。具體實(shí)現(xiàn)思路如下。

        (1)以Python為編程語言,通過Scrapy分布式爬蟲框架獲取城市數(shù)據(jù)和用戶足跡數(shù)據(jù),將獲取到的用戶數(shù)據(jù)以文檔的形式存儲到MongoDB數(shù)據(jù)庫中,數(shù)據(jù)存儲之后完成網(wǎng)絡(luò)爬蟲部分。

        (2)統(tǒng)計數(shù)據(jù)中每個城市累積旅游人數(shù)和用戶游記中累積出現(xiàn)的詞語。將所有城市的出游情況通過熱力圖的形式附著至中國地圖上,以觀察國內(nèi)整體旅游城市持有趨勢。另外根據(jù)Python提供的中文詞庫,對爬取的游記進(jìn)行分詞統(tǒng)計,獲得出現(xiàn)次數(shù)較多的關(guān)鍵詞并可視化分析,通過這兩點(diǎn)對國內(nèi)的旅游特點(diǎn)進(jìn)行總體概括。

        (3)從總體可視化方向?qū)τ脩艟唧w的旅游行為進(jìn)行分析,主要通過出行伴侶、出行天數(shù)、出行季節(jié)、人均花費(fèi)四個特征對用戶的個人旅游特征概括,以達(dá)對用戶之間的區(qū)分。

        (4)根據(jù)以上分析結(jié)果,將其結(jié)合至實(shí)際的旅游行業(yè)情況,得出一些優(yōu)化旅游服務(wù)行業(yè)的方向以及個人旅游未來的趨勢。

        互聯(lián)網(wǎng)時代的到來,網(wǎng)絡(luò)所容納的信息數(shù)量級已無法確切統(tǒng)計,對傳統(tǒng)的紙質(zhì)記錄、電腦錄入、系統(tǒng)管理,如何將如此海量的數(shù)據(jù)收集到文本或者數(shù)據(jù)庫中,是個巨大的難題。面對如此龐大,錯綜復(fù)雜的網(wǎng)絡(luò)信息,一套自動獲取信息的網(wǎng)絡(luò)爬蟲系統(tǒng)孕育而生,以減少數(shù)據(jù)檢索,機(jī)器維護(hù),網(wǎng)絡(luò)技術(shù)學(xué)習(xí)等各方成本。本論文以Python作為編程語言來完成相關(guān)數(shù)據(jù)的收集。

        4.網(wǎng)頁爬蟲流程

        網(wǎng)絡(luò)爬蟲的是給定一個需要訪問的URL,通過HTTP協(xié)議與服務(wù)器建立連接,得到對應(yīng)頁面的數(shù)據(jù),然后根據(jù)一定規(guī)則進(jìn)行數(shù)據(jù)爬取,本文單個網(wǎng)頁爬取流程如圖1-1所示。

        基本流程如下:

        步驟1發(fā)送請求:給定需要訪問的URL,通過HTTP協(xié)議向站點(diǎn)發(fā)起連接請求(Request),等待響應(yīng)與服務(wù)器響建立連接。

        步驟2獲取響應(yīng)內(nèi)容:正常響應(yīng)后建立連接,服務(wù)器返回一個攜帶網(wǎng)頁內(nèi)容的Response,類型為HTM。

        步驟3解析內(nèi)容:通過Python提供的Beautifulsoup和Json庫對獲取內(nèi)容進(jìn)行解析,解析方式主要為Beautifulsoup提供的DOM文檔節(jié)點(diǎn)提取。

        步驟4存儲數(shù)據(jù):將所需的數(shù)據(jù)從對應(yīng)節(jié)點(diǎn)中提取出來,并存儲到數(shù)據(jù)庫。

        整體爬取過程:

        (1)爬蟲引擎與起始URL建立站點(diǎn)連接。

        (2)爬蟲引擎將URL封裝為請求,并通過下載中間器將其傳遞給下載程序。

        (3)下載器把訪問服務(wù)器并下載返回內(nèi)容,封裝成應(yīng)答包,并發(fā)送給爬蟲。

        (4)爬蟲解析Response,從網(wǎng)頁中抓取需要的信息,并將解析出信息傳送給實(shí)體管道

        (5)若爬蟲解析出的是鏈接,則將鏈接返回存放給調(diào)度器。

        (6)重復(fù)以上步驟直到調(diào)度器中沒有請求,結(jié)束對站點(diǎn)的爬取。

        5. 總結(jié)

        基于網(wǎng)絡(luò)爬蟲的旅游用戶數(shù)據(jù)分析模型是挑選馬蜂窩旅游社區(qū)用戶數(shù)據(jù)設(shè)計的分析模型,實(shí)現(xiàn)了從龐大的數(shù)據(jù)中從兩方面提取用戶的指定數(shù)據(jù),一方面從馬蜂窩社區(qū)用戶的某個個人主頁進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)獲取后通過其關(guān)注的用戶和訪客深究整個社區(qū)的其他用戶,直至窮盡所有。另一方面由旅游目的地為切入點(diǎn),提取社區(qū)網(wǎng)站中的國內(nèi)熱門旅游城市數(shù)據(jù),其參考重點(diǎn)主要是所有城市的數(shù)據(jù)均有旅游用戶在網(wǎng)站發(fā)布的行為活動組成。

        旅游的體驗(yàn)聯(lián)系到生活的方方面面,希望旅游服務(wù)商以跨界為新思路。社交為例,有旅游+社交的模式,相同目的地且體驗(yàn)心理一點(diǎn)的用戶可以有拼單的自駕游需求,從而推廣當(dāng)?shù)匚幕?。希望未來中國旅游能出現(xiàn)新靈感方式。

        參考文獻(xiàn):

        [1]邢琦. 旅游信息服務(wù)視閾下的智慧旅游概念[J]. 旅游縱覽,2019.

        [2]米也塞·艾尼玩. 基于Python的維吾爾文文本聚類系統(tǒng)設(shè)計與實(shí)現(xiàn). 新疆大學(xué),2012.

        [3]耿大偉. 基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實(shí)現(xiàn)[D]. 燕山大學(xué),2015.

        作者簡介:

        何彩娟,1983年8月8日。

        于碧鵬,1978年2月,漢,教師,研究方向:人工智能、計算機(jī)、物理學(xué)教育。

        (作者單位:廣州大學(xué)華軟軟件學(xué)院;2廣州石化中學(xué))

        猜你喜歡
        馬蜂窩爬蟲解析
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        三角函數(shù)解析式中ω的幾種求法
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        馬蜂窩之戰(zhàn)
        幽默大師(2020年11期)2020-11-26 06:11:56
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        睡夢解析儀
        電競初解析
        商周刊(2017年12期)2017-06-22 12:02:01
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        相機(jī)解析
        “強(qiáng)項(xiàng)令”董宣
        亚洲av日韩av高潮潮喷无码 | 欧美成人在线A免费观看| 亚洲国产日韩av一区二区| 亚洲成人一区二区三区不卡| 欧美村妇激情内射| 亚洲日韩国产精品第一页一区| 久久与欧美视频| 亚洲韩日av中文字幕| 亚洲爆乳精品无码一区二区三区| 国产精品成人免费视频网站京东| 国产在线视频h| 国产熟女自拍av网站| 久久精品国产亚洲av麻豆图片| 蜜桃精品免费久久久久影院| 无码av永久免费大全| 亚洲av日韩专区在线观看| 欧美亚洲国产一区二区三区| 色吧综合网| 日本大胆人体亚裔一区二区| 丝袜美腿av在线观看| 亚洲熟女乱色综合亚洲图片| 无码国产精品第100页| 在线观看高清视频一区二区三区| 刺激一区仑乱| 后入内射欧美99二区视频| 亚洲大尺度动作在线观看一区| 日韩精品一区二区免费| 男ji大巴进入女人的视频小说| 91在线在线啪永久地址| 亚洲中文字幕乱码在线视频| 国产欧美日韩一区二区加勒比| 欧美粗大无套gay| 中文字幕日本熟妇少妇| 一区二区黄色在线观看| 国产成人一区二区三区影院动漫| 99久久国内精品成人免费| 亚洲成在人线天堂网站| 欧美大屁股xxxx高跟欧美黑人| 成人爽a毛片一区二区免费| 日产精品毛片av一区二区三区| 日日摸日日碰人妻无码 |