劉娟 廖慕婷
摘 要:為了更全面的了解在線旅游行業(yè)的現(xiàn)狀,本文從產(chǎn)品入手,通過Python爬蟲技術(shù),爬取了在線平臺途牛網(wǎng)八條代表性境內(nèi)外旅游產(chǎn)品線路的六個指標:出游人數(shù)、評價人數(shù)、價格、滿意度、景點個數(shù)、景點。據(jù)此從產(chǎn)品角度分析:產(chǎn)品出游行為結(jié)構(gòu);從用戶偏好角度分析:用戶出行偏好、用戶對各類產(chǎn)品的滿意情況。
關(guān)鍵詞:爬蟲;在線旅游產(chǎn)品;境內(nèi)外游;消費偏好
中圖分類號:F27 ? ? 文獻標識碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.26.039
0 引言
在當今社會,如何利用互聯(lián)網(wǎng)和大數(shù)據(jù),實現(xiàn)數(shù)據(jù)與實體經(jīng)濟的有效結(jié)合成為了重要的課題。通過大數(shù)據(jù)捕捉消費者對產(chǎn)品的偏好、態(tài)度以及影響因素,商家能夠更好的抓住機會,在行業(yè)中起到表率和領(lǐng)頭作用。另外,今年新冠肺炎的爆發(fā),全球的旅游行業(yè)都遭受到了嚴重打擊。本文針對今年上架的五月份產(chǎn)品的數(shù)據(jù)研究也可以作為疫情過后的旅游業(yè)的參考。
據(jù)此,將利用Python爬蟲技術(shù),爬取上架的途牛網(wǎng)2020年五月于廣州出行前往國內(nèi)外熱門地點的旅游產(chǎn)品數(shù)據(jù),通過細化出行方式分別得到評價人數(shù)、滿意度、價格等指標并進行對比分析。
1 數(shù)據(jù)來源及獲取
1.1 數(shù)據(jù)來源
一線城市旅游行業(yè)更加發(fā)達,五月因為有小長假成了旅游旺季。由于網(wǎng)站只顯示當前及以后的產(chǎn)品數(shù)據(jù)且商家一般會提前上架產(chǎn)品。因此本文將出發(fā)時間定位2020年,將選取的熱門線路出發(fā)地設(shè)置為一線城市廣州、時間設(shè)定為五月出行,并將目的地分別設(shè)置為途牛網(wǎng)搜索欄顯示的國內(nèi)熱門出行城市:云南、三亞,以及國外熱門出行城市:日本、泰國。同時將出行方式分別設(shè)定為自由行、跟團出游兩種。根據(jù)以上設(shè)定爬取共752條旅游產(chǎn)品數(shù)據(jù)。
1.2 數(shù)據(jù)獲取
下面將以廣州——三亞跟團為例,描述如何基于Python對途牛網(wǎng)數(shù)據(jù)爬蟲的設(shè)計與實現(xiàn)。
1.2.1 尋找爬蟲入口
打開途牛網(wǎng),按照上文描述對路線進行篩,該頁顯示的網(wǎng)址(URL)就是爬蟲的處理對象。URL如下:
https://s.tuniu.com/search_complex/tours-gz-0-三亞/list-u202005/1
此網(wǎng)址就是廣州——三亞跟團旅游產(chǎn)品的第一頁信息。觀察URL可得通過對URL最后的數(shù)字進行循環(huán)便可實現(xiàn)網(wǎng)頁翻頁,進而爬取該線路的所有產(chǎn)品信息。
獲取處理對象后,需要做的就是利用Python的Re庫構(gòu)造一個請求來獲取處理對象即HTML的頁面信息。由于很多平臺為了阻止外界批量獲取自己網(wǎng)站的信息,所以會設(shè)置反爬蟲機制。因此本文在獲取網(wǎng)頁信息的代碼中增加一個請求頭,模擬瀏覽器的訪問來解決這個問題。
1.2.2 解析并提取旅游線路中所需數(shù)據(jù)
通過瀏覽器->更多工具->開發(fā)者工具->Elements,分析本文所需的6個指標對應的標簽,之后開始使用BeautifulSoup庫進行標簽分析,并返回所有匹配到的結(jié)果。
1.2.3 爬取結(jié)果,本地保存
利用爬蟲按上述方式從網(wǎng)頁中提取8條旅游路線產(chǎn)品的所有數(shù)據(jù)后,將其以xlsx文件的形式進行保存。
2 產(chǎn)品差異及消費者偏好的實證分析
2.1 在線旅游度假產(chǎn)品出游行為結(jié)構(gòu)分析
由上面數(shù)據(jù)整理得到,所有產(chǎn)品線路出游方式中,在線旅游數(shù)有32%游客選擇自由行,68%游客選擇跟團旅行??梢缘玫交ヂ?lián)網(wǎng)平臺在線路的規(guī)劃上更側(cè)重于跟團出行。一方面是因為跟團出行,旅行社負責協(xié)調(diào)安排所有的酒店、餐廳、景區(qū)門票、導游、機場接送等,旅行社能夠輻射到所有涉及的商業(yè)板塊,獲取的收益更加客觀,也能充分調(diào)動到所有的人力資源。另一方面,作為消費者,跟團出行節(jié)約了很多行稱安排的時間,由于出發(fā)前對旅游的整體預算已經(jīng)了然于胸,行程的費用也更加可控,也避免了對當?shù)厍闆r不熟悉而帶來的麻煩與失誤,安全性上更有保障。
以國內(nèi)游產(chǎn)品線路來看,上述現(xiàn)象更為明顯。跟團出行的產(chǎn)品占了所有產(chǎn)品的76%,自由行占比24%??梢姡瑖鴥?nèi)旅游市場里傳統(tǒng)的跟團出行還是占據(jù)了主要市場。個性化的自由出行產(chǎn)品還有很大的開發(fā)空間。
以出境游產(chǎn)品線路來看,則是另外一幅景象。境外游產(chǎn)品中48%為自由行,52%為跟團游,跟團和自由行兩種產(chǎn)品占比十分相近。這是因為如果消費者選擇自由行,旅行社只需負責安排住宿與交通,不用安排導游隨行等額外服務(wù)。對于境外目的地,旅行社對境外景區(qū)、導游等溝通交流成本更高更不方便,因此自由行的安排更利于平臺。另一方面,部分選擇出國旅游的消費者對國家較為了解,會更傾向于通過自由行的出游方式來節(jié)約成本。
2.2 在線旅游度假產(chǎn)品景點分析
利用Python的Jieba庫、Wordcloud對八條代表性旅游線路景點進行詞頻分析并將結(jié)果可視化。根據(jù)Python整理八條代表性旅游線路出現(xiàn)最多的五個景點如表1所示,八條路線的TOP50總景點詞云如圖1。
通過表格及最直接的詞云圖可以看到,無論境內(nèi)外游,出游方式的不同也大大影響了景點的選擇。跟團、自由行兩種產(chǎn)品在景點的安排上非常不同。跟團游的產(chǎn)品對目的地景點的輻射更廣,能夠盡可能的去往更多的地區(qū)而不是局限于目的地的某個片區(qū)。相反自由行的產(chǎn)品在目的地的選擇上更趨向于某個較具的片區(qū),而且對具體景點的指向性更強。
兩者的不同在于,跟團游由旅行社統(tǒng)一安排,在時間、交通工具安排上更加合理及節(jié)約時間,在不同景點之間的調(diào)度也更全面,能夠盡可能讓消費者把目的地的不同面瀏覽到,盡管不可避免會存在景點瀏覽過于匆忙的情況。而另一邊,自由行更集中于某一地區(qū),并就特定地區(qū)的幾個著名景點進行深度游玩,雖然瀏覽的景點不夠,卻能盡情沉浸在自己喜愛的觀光點中,對當?shù)氐奈幕?、景點的了解會更加深刻。
2.3 在線旅游度假用戶偏好研究
2.3.1 在線旅游度假用戶出行偏好
從出游目的地來看,國內(nèi)游出游的人數(shù)遠大于境外游。一是因為我國地幅遼闊,歷史源遠流長,包含的名勝古跡數(shù)不勝數(shù),單國內(nèi)的旅游資源就十分之多;二是境外游價格較高,語言溝通不便,很大人文習俗也讓國內(nèi)消費者不大習慣。
從出游人數(shù)來看,跟團游依然是旅游市場的中堅力量。在所有產(chǎn)品中,接近60%的消費者更愿意選擇跟團出游?;ㄙM時間精力少,更安全的跟團方式在如今更追求個性化定制的市場中仍能占據(jù)大半江山。當然,自由行的發(fā)展不可小覷,隨著產(chǎn)品的改善,選擇自由行的人數(shù)有望能夠在明年突破50%。
不同于國內(nèi)游,在出境游上游超過60%的人選擇跟團。在上文中可以看到旅游平臺產(chǎn)品數(shù)據(jù)中自由行產(chǎn)品與跟團產(chǎn)品數(shù)量上并無差異,產(chǎn)品投入市場后,卻是自由行在市場上更受到歡迎,具體見圖2。
2.3.2 在線旅游度假用戶滿意情況
從數(shù)據(jù)來看,途牛網(wǎng)的消費者對于總體的旅游產(chǎn)品滿意度較高。而且境內(nèi)外出游在跟團、自由行兩種方式上的滿意度傾向十分一致。對比起自由行,消費者在跟團上的滿意度還是更高。經(jīng)過多年發(fā)展,跟團游也在逐漸擺脫“低品質(zhì)、不合理低價、強迫游客購物”的市場形象,高性價比、省心的優(yōu)勢也變得更加突出。
2.4 在線旅游度假產(chǎn)品指標相關(guān)性分析
出游人數(shù),評價人數(shù)、價格、滿意度、景點個數(shù)這五個指標提供了最直觀的產(chǎn)品特征,而探究指標之間是否存在相關(guān)性也是進一步了解產(chǎn)品的途徑。對于兩變量之間的相關(guān)性,一看相關(guān)系數(shù),二看相關(guān)系數(shù)的顯著性。下文以樣本量最多的廣州——云南跟團產(chǎn)品為例來展示如何探究指標間的相關(guān)性。
(1)目標:檢驗五個指標之間相關(guān)性是否顯著。
(2)假設(shè):H0:ρ=0;H1:ρ≠0。
(3)利用Python的Pandas庫,進行相關(guān)性分析,結(jié)果如表2和表3。
(4)利用Python的Scipy庫,在顯著性水平0.05和自由度n-2=270-2=268下,求得t分布臨界值為1.97。
(5)從表2可以看到出游人數(shù)與價格、滿意度存在著弱負相關(guān)性,通過比對表3的檢驗統(tǒng)計量可以看到結(jié)果均大于t分布臨界值1.97,所以拒絕原假設(shè),說明出游人數(shù)與價格、出游人數(shù)與滿意度之間存在顯著的線性相關(guān)關(guān)系。
其余旅游線路指標的相關(guān)性分析也可以用類似的方法來分析。從這八條代表性線路來看,出游人數(shù),評價人數(shù)、價格、滿意度、景點個數(shù)這五個指標間關(guān)聯(lián)性不強。但值得注意的是,出游人數(shù)和滿意度、價格之間存在著顯著的弱負相關(guān)性。這說明,同行出游的人數(shù)過高會降低消費者的滿意度。人多意味著團隊規(guī)模大,導游及其他服務(wù)體驗感就會下降,游客之間意見不同更多,很多摩擦和不滿也隨之發(fā)生。另外一點,同一個產(chǎn)品中出游人數(shù)多意味著旅途中一些安排的人均費用低,所以人數(shù)多的大團一般價格也會偏低。
3 結(jié)論與建議
本文結(jié)合目前國內(nèi)關(guān)于“互聯(lián)網(wǎng)+”旅游產(chǎn)品的相關(guān)文獻,爬取途牛網(wǎng)八條具有代表性的境內(nèi)外不同出行方式的旅游產(chǎn)品。通過出游人數(shù)、評價人數(shù)、價格、滿意度、景點個數(shù)、景點六個指標,從產(chǎn)品本身、消費者角度做出了多維度的分析從而對“互聯(lián)網(wǎng)+”旅游發(fā)展提出如下建議。
(1)對于國內(nèi)游,跟團出行的產(chǎn)品在市場的產(chǎn)品占比過大,目的地景點的安排比較散。隨著國民經(jīng)濟的發(fā)展,大家對旅游產(chǎn)品的要求更高,精準面對不同受眾的私人化產(chǎn)品——自由行有著更大的上升空間。以整合傳統(tǒng)優(yōu)質(zhì)資源為基礎(chǔ),通過對不同消費者需求來合理定制產(chǎn)品路線,避免跟團游里人員過多導致服務(wù)不到等情況。打造一體化、更精華、細節(jié)化的旅途服務(wù),以新的面貌向國內(nèi)旅游市場注入活力。
(2)對于境外游,自由行的熱度與跟團不相上下。跟團游在行程規(guī)劃后,應該對用戶的行程、線路等進行安全檢測,提供境外風俗、相關(guān)法律信息,提醒消費者境外旅游風險,提供相關(guān)安全防范措;擴大與境外景點、酒店、導游的深度合作,為消費者提供更具保障境外旅游體驗。而自由行方面,從景點的分析來看,游客對于境外目的地的消費需求越來越碎片化、多樣化,整合目的地碎片化元素的服務(wù)應該得到加強。沉浸式的旅游體驗也可以加入其中。
參考文獻
[1]范瓏.旅游者網(wǎng)絡(luò)消費行為特征研究[J].旅游縱覽(下半月),2016,(03):22.
[2]艾瑞咨詢.2018年在線旅游平臺用戶洞察研究報告[Z].
[3]黃永祥.實戰(zhàn)python網(wǎng)絡(luò)爬蟲[M].北京:清華大學出版社,2019.
[4]郭麗蓉.基于Python的網(wǎng)絡(luò)爬蟲程序設(shè)計[J].電子技術(shù)與軟件工程,2017,(23):248-249.
[5]鄭聰.爬蟲在旅游滿意度網(wǎng)絡(luò)輿情調(diào)查中的應用研究[J].無線互聯(lián)科技,2017,(24):110-112+127.