馬桂真 彭霞
[摘 要] 摘要分析酒店評論數(shù)據(jù)可以挖掘游客的關注點、意見、建議、情感傾向等有價值的信息。結合對酒店評論數(shù)據(jù)進行主題挖掘和情感分析的交叉研究,提出一個包含數(shù)據(jù)采集、數(shù)據(jù)預處理、主題挖掘、情感傾向研究及可視化分析的集成框架。以Tripadvisor網(wǎng)站上北京地區(qū)50家五星級酒店的5萬余條中文評論數(shù)據(jù)為研究對象,進行LDA主題挖掘,同時基于酒店領域擴充情感詞典,判定評論文本三元情感極性,并在此基礎上實現(xiàn)主題和情感的交叉分析。研究結果可降低潛在游客購買決策的風險,也為酒店管理者制定針對性的管理和營銷策略提供重要參考依據(jù)。研究方法同樣適用于景區(qū)及餐飲領域的在線評論數(shù)據(jù)分析,拓展評論大數(shù)據(jù)與自然語言處理技術在旅游業(yè)的應用范疇。
[關鍵詞] 關鍵詞酒店評論大數(shù)據(jù);主題挖掘;情感分析
[中圖分類號] 中圖分類號F 724.6[文獻標志碼] A[文章編號] 1005-0310(2021)02-0058-11
Topic Mining and Sentiment Analysis of Tourist Reviews Based on the Big Data of Hotel Reviews: A Case Study of Beijing Fivestar Hotels
Ma Guizhen, Peng Xia
(Tourism College,Beijing Union University, Beijing 100101, China)
Abstract: 摘要By analyzing hotel review data, it is very possible for one to mine valuable information such as tourists ?concerns, opinions, suggestions, and emotional tendencies. Based on the cross research of topic mining and sentiment analysis of hotel review data, this paper proposes an integrated framework including data collection, data preprocessing, topic mining, sentiment tendency research and visual analysis. LDA topic mining is carried out by taking more than 50 000 reviews written in Chinese from 50 fivestar hotels in Beijing on Tripadvisor as the research object. Meanwhile, on the basis of the hotel domain, the emotion dictionary is expanded to determine the ternary emotion polarity of the review text, and on this basis, the cross analysis of theme and emotion is realized. The results of this study can reduce the risk of potential tourists ?purchase decision and provide important reference for hotel managers to formulate targeted management and marketing strategies. The research method is also applicable to online review data analysis in scenic spots and catering fields, and conducive to expanding the application of review big data and natural language processing technology in tourism industry.
Keywords: 關鍵詞Hotel review big data; Text topic mining; Sentiment analysis
0 引言
在線評論數(shù)據(jù)對消費者的態(tài)度、購買行為以及企業(yè)的商業(yè)成果都具有深遠影響[1]。消費者對酒店企業(yè)提供的產(chǎn)品和服務質量在體驗之前無法輕易判斷[2],而其他消費者在線發(fā)表的意見,則是比酒店信息更獨立、更可信賴的信息來源[3]。因此,越來越多的旅行者在出行前瀏覽在線評論數(shù)據(jù),據(jù)此安排行程并做出購買決定[4]。評級(或評分)和文字評論是在線評論的兩種形式[5],但是潛在游客通過評級很難獲得更加直觀、詳細的信息,而文字評論則可以直觀傳達有關酒店質量、其他游客態(tài)度、酒店預訂意圖等游客關注的核心信息[6]。游客可以在文字評論的幫助下?lián)碛懈嗟倪x擇,最大限度地降低購買風險;對于酒店管理者來說,在嚴峻的競爭挑戰(zhàn)下,及時分析在線評論數(shù)據(jù),把握游客的滿意度和偏好,對提高酒店服務質量、改善管理和營銷策略具有非常重要的意義。
互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)技術的快速發(fā)展及其與旅游業(yè)的深度融合,催生了大量具有重要價值的游客數(shù)據(jù)。大體量的數(shù)據(jù)給人工分析帶來嚴峻挑戰(zhàn),也阻礙了我們全面掌握數(shù)據(jù)中包含的觀點。大數(shù)據(jù)、自然語言處理、人工智能等技術的發(fā)展,使得智能挖掘分析在線評論數(shù)據(jù)成為可能。近幾年,將酒店評論數(shù)據(jù)與新技術結合開展研究引起國內外學者的關注,但是在研究的深度、細粒度及交叉度方面,還需要不斷的探索。
本研究運用潛在狄利克雷分布(LDA)模型及文本情感分析技術,對從Tripadvisor網(wǎng)站提取的北京五星級酒店評論大數(shù)據(jù)進行分析。一方面,交叉挖掘分析高端酒店游客關注的主題及情感傾向;另一方面,從細粒度上分析不同類型的游客的關注點、情感傾向及其演變過程,以此為游客和酒店管理者提供更實用的決策支持。
1 相關研究
1.1 酒店在線評論數(shù)據(jù)的相關研究
隨著互聯(lián)網(wǎng)的迅速普及,在線評論數(shù)據(jù)成為消費者決策過程中非常重要的信息來源[7],也得到研究者的普遍關注[8]。目前,針對旅游在線評論數(shù)據(jù)的研究主要包括3個方面:評論數(shù)據(jù)產(chǎn)生的驅動因素、在線評論的影響以及在線評論大數(shù)據(jù)與自然語言處理、人工智能等新技術結合而展開的諸如主題挖掘、情感分析等相關研究。
在研究初期,針對酒店在線評論數(shù)據(jù)的研究很大一部分集中于探究評論數(shù)據(jù)產(chǎn)生的驅動因素。Casalo等整合了計劃行為理論、技術接受模型和社會認同模型,研究旅游者參與在線旅游社區(qū)意愿的決定因素[9]。Stringam等通過評估消費者的評分和在線評論數(shù)據(jù),探討哪些因素會提高酒店消費者的評分[10]。Cantallops等通過分析關于酒店業(yè)電子口碑營銷(eWOM)的文章,梳理影響用戶撰寫在線評論的關鍵因素[11]。Yen研究了酒店屬性對消費者發(fā)表在線評論行為的影響,認為游客發(fā)表在線評論的驅動因素是酒店屬性的性能、游客發(fā)表在線評論的經(jīng)驗及平臺的便利性,酒店的核心屬性與發(fā)表評論的意圖、頻率和好評率成正比[12]。
在線評論數(shù)據(jù)對消費者購買意愿具有重大影響。Ladhari等研究了Facebook上發(fā)表的評論對消費者預訂酒店的意圖、對酒店的信任度、對酒店的態(tài)度以及對酒店網(wǎng)站的感知的影響,并通過對800名大學生的調查證實研究中的假設[13]。NietoGarcía等研究了在線評論信息與內部參考價格對消費者付費意愿的影響[14]。Akhtar等研究了矛盾的酒店評論數(shù)據(jù)對消費者購買意愿的影響[15]。卓四清等通過建立在線評論有用性影響因素模型,研究在線評論內容和評論者對在線評論有用性的影響,并針對Tripadvisor的酒店評論數(shù)據(jù)進行了實證研究[16]。
酒店在線評論大數(shù)據(jù)與新技術的融合為國內外研究者開辟了新的研究方向。秦海菲等以酒店在線評論數(shù)據(jù)為研究對象,對酒店在線評論數(shù)據(jù)的特征挖掘進行研究[17]。孫長偉等對酒店評論數(shù)據(jù)進行細粒度分類,通過基于詞典的情感分析方法對評論文本極性進行判斷,從而獲得用戶對酒店服務的細粒度情感評價[18]。Chatterjee使用文本挖掘技術研究酒店在線評論文本的情感內容、極性和情感趨向,同時使用計量經(jīng)濟學和機器學習技術解釋和預測評論數(shù)據(jù)的有用性[19]。Chang等提出一個集成框架,包括數(shù)據(jù)爬取、處理、情感樹構建、卷積樹核分類、特征提取和類別檢測,并通過可視化分析深入了解酒店的評級和評論[20]。隨后,Chang的課題組又提出一種基于可視化分析、深度學習的自然語言處理模型,研究酒店對在線評論的響應對業(yè)務產(chǎn)生的影響[21]。Hu等使用結構性主題模型文本分析方法STM,針對27 864條酒店評論數(shù)據(jù),挖掘評論文本主題,并研究這些主題的情感傾向[22]。
1.2 LDA主題挖掘的相關研究
目前,文本主題挖掘中最具代表性的模型是潛在狄利克雷分布(LDA)模型[23],又稱為三層貝葉斯概率模型,其基本思想是將文檔-主題、主題-詞都表示為服從先驗概率為狄利克雷(Dirichlet)分布的多項分布,通過無監(jiān)督學習算法,發(fā)掘語料中隱含的主題信息,并將語料中每篇文本的主題按照概率分布的形式給出。根據(jù)不同的需求,研究者基于LDA做了大量的研究[24]。Williams等將潛在語義分析(LSA)和LDA用于識別鐵路設備事故文本數(shù)據(jù)庫中的主題[25]。Yong等對LDA和其他主題模型進行了對比研究,并在具有代表性的語料庫中進行試驗[26]。Bastani等提出了一種基于LDA的智能方法來分析消費者的投訴,旨在提取投訴文本中的潛在主題[27]。LDA模型在各行業(yè)都得到了廣泛的關注和深入的研究,因此,本文選取LDA模型進行酒店評論大數(shù)據(jù)的主題挖掘。
1.3 文本情感分析的相關研究
文本情感分析是指利用自然語言處理和文本分類技術,從文本數(shù)據(jù)中識別出用戶主觀情感、觀點和態(tài)度的過程[28]。文本情感分析方法主要分為基于情感詞典的方法[29]和基于機器學習的方法[30]?;谇楦性~典的分析方法首先從待測文本中找到情感詞、程度詞、否定詞等特征詞,然后在情感詞典中查找每個特征詞的情感值,根據(jù)累加的情感值進行情感分類。構建情感詞典是基于情感詞典分析方法的基礎和前提,在實際應用中,情感詞典的選擇一般有兩種:一是直接使用現(xiàn)有的情感詞典,比如HowNet、SentiWordNet等[31];二是在已有通用情感詞典的基礎上,通過增加或篩選情感詞,構建適合自己研究的情感詞典[32]?;跈C器學習的情感分析方法利用機器學習算法訓練文本得到文本情感分類器,然后利用該分類器對文本進行情感分類[33]。Mukhtar等使用基于詞典和有監(jiān)督的機器學習方法,對來自多個領域的烏爾都語博客進行情感分析,實驗結果表明,基于詞典的方法在準確性、召回率、F-測度和時間效率上都優(yōu)于有監(jiān)督的機器學習方法[34]。
基于機器學習的文本情感分析方法需要依賴大量人工標記的語料庫,非常耗時耗力。同時,在實際研究中發(fā)現(xiàn),對于評論數(shù)據(jù)這種非結構化文本,基于機器學習的方法的分類效果并不理想,因此本文對酒店評論大數(shù)據(jù)的處理選擇基于情感詞典的情感分析方法。
整體而言,評論大數(shù)據(jù)與人工智能、文本分析等技術的結合是當前酒店評論數(shù)據(jù)研究中一個新的方向。有部分的探索研究集中于文本的情感分類或文本特征的挖掘,還有部分研究注重技術實現(xiàn),少部分研究基于酒店業(yè)務進行評論大數(shù)據(jù)分析并給出策略性建議。因此,將酒店業(yè)務與數(shù)據(jù)和技術相結合,從細粒度實現(xiàn)主題和情感的交叉分析,對于更好地了解酒店評論數(shù)據(jù),為游客和酒店企業(yè)提供更全面、更實用的決策支持具有重要意義。
2 研究過程、數(shù)據(jù)與方法
本研究提出一種對酒店評論大數(shù)據(jù)進行主題挖掘和情感分析的集成框架(圖1),框架主要包括數(shù)據(jù)獲取與預處理、主題挖掘、情感分析以及與酒店業(yè)務結合的結論與建議模塊,它們分別對應本研究的幾個部分。
2.1 數(shù)據(jù)的獲取與預處理
Tripadvisor是目前全球發(fā)展最快的旅游網(wǎng)站之一,2020年11月,該網(wǎng)站提供約8.78億條評論,平均每月有4.63億獨立訪問者[35]。本研究選取Tripadvisor中文網(wǎng)站上北京地區(qū)評論數(shù)靠前的50家五星級酒店(分布如圖2所示),基于Python+ Selenium開發(fā)爬蟲程序,抓取評論頁面數(shù)據(jù),評論頁面的截圖如圖3所示。收集的數(shù)據(jù)主要包括酒店名稱、游客來源地、評論內容、入住日期及游客類型等。
收集的原始數(shù)據(jù)是半結構化的,且包含噪聲信息。我們使用Python+Pandas對數(shù)據(jù)進行預處理,獲取包含54 155條中文評論數(shù)據(jù)的數(shù)據(jù)集。
2.2 基于LDA模型的主題挖掘
LDA主題建模的目標是找到每篇文檔的主題分布和每一個主題中詞的分布。LDA模型生成過程如圖4所示,每個符號代表的含義如表1所示。對于語料庫中每篇文檔di對應1條文本評論,LDA模型生成過程為:從α取樣生成文檔di的主題分布θd,從θd取樣生成文檔di中第n個詞的主題 Zd,n,從β中取樣生成主題Zd,n對應的詞語分布φ,從φ中采樣最終生成詞語 Wd,n。
LDA主題抽取的效果與潛在主題個數(shù)有直接關系,研究者提出了多個確定最優(yōu)主題數(shù)量的方法,比如Coherence方法、最小困惑度算法及HDP算法等。經(jīng)過比較分析,本研究選取Coherence方法作為評價模型好壞的標準, 選取Coherence值最大的模型的主題數(shù)目作為最佳主題數(shù)。
本文選用Python的Gensim工具包訓練生成LDA模型。首先,對預處理完成的評論文本使用jieba分詞工具分詞,去停用詞及特殊符號,得到詞組序列;其次,為列表中每個詞分配ID,生成字典,統(tǒng)計詞頻,生成詞頻稀疏矩陣;最后,進行LDA模型訓練,選出Coherence值最大的主題抽取結果作為最終結果。基于Gensim工具包進行評論數(shù)據(jù)主題挖掘流程如圖5所示。
Tripadvisor將游客分為家庭、情侶、商務、獨自、結伴出游等多個類型。本文除了針對全部評論數(shù)據(jù)挖掘所有游客關注的主題,還嘗試挖掘不同類型游客的關注點,以便更深入全面地了解評論數(shù)據(jù),從而幫助酒店管理者更好地識別不同的細分市場,推進更有效的營銷策略;而游客可以基于此研究成果,根據(jù)自己的出游類型選擇酒店,以更有效地安排自己的行程。
2.3 情感傾向分析
情感傾向分析主要是指對用戶發(fā)表的每條帶有情感的評論文本進行情感極性判定,從而得到用戶的情感趨向。本文考慮的情感極性包括積極、中立和消極3種情感。
2.3.1 情感詞典的構建
本研究首先基于知網(wǎng)情感詞典(HowNet)和臺灣大學中文情感極性詞典(NTUSD)構建基本情感詞典;然后,基于酒店評論數(shù)據(jù)的特點,針對房間、服務、餐飲、設施、體驗等幾個類別增加情感詞;最后,共整理正負情感詞189個,通過對比將基本詞典中不存在的12個正向情感詞、13個負向情感詞分別加入基本詞典的正向和負向情感詞典,新增的情感詞示例如表2所示。同時,將收費很高、過高等詞加入本文所用的jieba分詞詞典。
2.3.2 情感詞組合模式
在中文句式中,情感詞、程度副詞和否定詞之間的組合模式可以產(chǎn)生不同的表達效果,而且否定詞出現(xiàn)的次數(shù)及其位置也會影響整體的情感值。本文基于知網(wǎng)提供的程度副詞構建程度副詞詞典,共分為6個等級,分別為這6個等級的程度副詞賦不同的權重wi(i∈1,2,3,4,5,6)。本文使用的情感詞、程度副詞和否定詞組合模式如表3所示。
2.3.3 情感極性計算
本研究根據(jù)評論文本中積極、消極情感詞及其組合模式計算評論文本的情感極性。某條評論文本的積極和消極情感值分別通過公式(1)和(2)計算得到。其中,Sentip指文本的積極情感值,senti(pwi)指第i個積極情感詞的情感分,cwi指第i個積極情感詞與否定詞及程度副詞的組合權重。公式(2)中各變量對應的是消極情感詞的情感得分和組合權重。評論文本的最終情感值通過公式(3)計算得到,若評論文本的情感值為1,則該文本的情感極性為積極,0為中性,-1為消極。
Sentip=ni=1senti(pwi)×cwi。
(1)
Sentin=mj=1senti(nwj)×cwi。(2)
Sentireview=1,Sentip>Sentin0,Sentip=Sentin-1,Sentip 3 研究結果 3.1 樣本數(shù)據(jù)特征 本研究采集的54 155條數(shù)據(jù)樣本中,有42 666條數(shù)據(jù)包含游客來源地,經(jīng)統(tǒng)計這些游客來自119個國家或地區(qū),其中77%為中國游客,美國游客占7%,英國、澳大利亞游客分別占2%,新加坡、加拿大、日本游客各占1%,見圖 6(a)。樣本中有標注游客類型的數(shù)據(jù)共40 424條,其中商務型游客最多,占39.49%,全家游類型的游客占18.68%,結伴游占17.87%,情侶游占12.24%,獨自出游占11.72%,見圖6(b)。在包含游客類型的樣本中,2014—2019年的6年間,商務、全家、結伴和單獨出行的游客人數(shù)呈上升趨勢,商務型圖游客人數(shù)歷年都處于領先地位,情侶型游客人數(shù)變化整體相對平穩(wěn);另外,因為新冠疫情的原因,2020年各類型游客人數(shù)相較2019年都急劇下降,見圖6(c)。我們同時又對各種類型的游客按照月份進行統(tǒng)計,見圖6(d),結果顯示商務型游客人數(shù)在各月份同樣處于領先,但是2月份商務型游客數(shù)量明顯下降,3月份和11月份進入高點,這也與2月份春節(jié)休假以及年初和年底出差業(yè)務繁忙相吻合。7、8月份全家游人數(shù)達到高點,3月份和9月份達到低點,這與國內學生假期和開學的時間相吻合。 以上為本研究所采用的數(shù)據(jù)樣本中游客及評論文本的數(shù)據(jù)特征,經(jīng)分析,樣本數(shù)據(jù)反映的數(shù)據(jù)特征符合一般規(guī)律,為下一步的主題挖掘和情感分析奠定良好的數(shù)據(jù)基礎。 3.2 評論數(shù)據(jù)的主題挖掘結果 在實證研究中,要分別計算全部評論文本數(shù)據(jù)以及各類型游客的評論文本數(shù)據(jù)在2~8個主題下的Coherence值。研究結果表明,對于整體游客評論數(shù)據(jù)、全家游和商務型游客評論數(shù)據(jù),當主題數(shù)是5時,Coherence值最大,分別達到0.58、0.51和0.53;對于單獨出行和情侶游客評論數(shù)據(jù),當主題數(shù)為3時,Coherence達到最大值,分別為0.43和0.46;對于結伴出游的評論數(shù)據(jù),當主題數(shù)為7時,Coherence達到最大值,為0.50。 表4展示的是全部游客評論數(shù)據(jù)的主題挖掘結果,共提取5個主題,前 4個主題的首要關鍵詞貢獻值均達到0.03以上。由主題挖掘結果可知,高端酒店游客普遍關注的是酒店服務、房間、餐飲、設施情況,此外,酒店的地理位置也很重要,交通、購物是否方便也是游客的關注點。 除了對整體樣本數(shù)據(jù)的主題挖掘,本研究還針對各種類型游客的評論數(shù)據(jù)進行LDA主題挖掘,表5和表6分別展示了全家游和商務型游客評論文本的主題挖掘結果。由表5可以看出,全家游類型的評論文本中,貢獻值最大的關鍵詞是孩子,說 明全家游類型的游客最為關注的是與孩子相關的主題,兒童樂園、兒童設施等是他們評論數(shù)據(jù)中出現(xiàn)的高頻詞。由表6可以看出,對于商務型游客來說,前4個主題關于服務前臺、服務環(huán)境、酒店位置等,基本與全體游客的關注點一致,特殊的是,商務型游客會更關注酒店的行政酒廊、會議相關服務和設施及所屬樓層。同時,通過主題5可以看出,商務型游客作為回頭客的概率很高,因為可能出差地相對固定,他們對于心儀的酒店很有可能注冊會員,這類游客是需要維護的長期客戶。 對結伴、情侶和單獨出游游客的評論數(shù)據(jù)挖掘結果 表明,除了服務和房間相關主題外,游客會注重個人體驗相關的主題,比如情侶會關注節(jié)日、婚慶相關服務,但是其他主題的關鍵詞的貢獻值都很小,挖掘結果不再展示。 3.3 情感分析結果 本研究根據(jù)情感極性判斷評論文本中游客的積極、中立和消極的三元情感態(tài)度,分析不同類型游客的三元情感占比情況及各類情感占比隨不同年份和月份的演變過程。 圖7(a)展示的是2014—2020年間樣本數(shù)據(jù)中游客三元情感極性占比隨年份的變化情況。可以看出,積極情感占絕對優(yōu)勢,最低占比為85%,最高為96%;消極情感占比最高為12%,最低為2%。從變化趨勢看,游客積極情感占比在2014—2019年間處于上升趨勢,由2014年的85%上升到96%,2020年略有下降;2014—2019年,消極情感占比逐年降低,由2014年的12%下降到2019年的2%, 2020年消極情感稍有回升,達到2.3%。這在一定程度上反映了北京市高端酒店在面臨激烈競爭的情況下,更加注重提高服務質量,重視在線評論,特別是對負面評論中反映的問題能夠及時處理。2020年消極情感占比的稍許回升,與疫情期間酒店的管理策略調整對游客體驗的影響及游客的特定要求有關,這也要求酒店在面對突發(fā)公共事件時,能夠及時妥當調整管理策略。 圖7(b)展示的是樣本數(shù)據(jù)中游客三元情感極性占比隨月份的變化情況??梢钥闯?,積極情感占比在1月、7月、8月和11月達到高點,將近 92%,而在5月份達到最低點,不到90%;消極情感占比在4、5月份最高,達到7.3%,11月份最低,為5.6%。這一定程度上反映了游客是否休假及北京氣候對游客情感有一定的影響,這也要求酒店管理者著重關注消極情感占比多的月份的評論數(shù)據(jù),關注游客對哪些方面提出負向評價。 圖7(c)展示的是不同類型游客的三元情感極性占比情況??梢钥闯觯虅招陀慰秃颓閭H游客對酒店的服務質量有更高的要求,相比其他類型的游客,消極情感占比較高,達到6.2%;結伴出游的游客消極情感占比最低,為3.1%;全家游類型的游客消極情感占比為4%;獨自出行的游客消極情感占比為4.3%。這也要求酒店管理者關注入住游客的類型,根據(jù)不同類型游客提供個性化服務。 3.4 文本主題與情感交叉分析 本研究通過對文本主題和情感進行交叉分析,獲取在不同主題下游客的情感極性占比;同時針對不同類型的游客,分析各自關注主題下三元情感占比情況(如圖8所示)。 圖8(a)展示的是全部樣本數(shù)據(jù)中5個主題下的游客三元情感極性占比情況??梢钥闯?,游客對“工作人員”相關主題的消極情感占比最高,達到16.1%,說明游客對高端酒店工作人員的服務質量、態(tài)度有更高的要求;其次是“房間服務設施”主題的負面情感占比也較高,達到11%,要求酒店關注房間服務設施,比如隔音狀況、衛(wèi)生間情況等; 對于“服務前臺”相關主題的消極情感占比最低,為2%,一定程度上反映了酒店對前臺服務的規(guī)范管理。 圖8(b)展示的是全家游類型的游客在5個主題下的三元情感極性占比情況??梢钥闯?,游客對“預訂入住”相關的主題下消極情感占比最高,達到20%,一定程度上反映了對全家游類型的游客,需要盡量簡化預訂和入住流程,酒店也需要提供相應的幫助。 圖8(c)展示的是商務型游客在5個主題下的三元情感極性占比情況??梢钥闯?,商務型游客對酒店的整體服務質量要求較高,其中,“行政酒廊”“位置”的消極情感占比分別達到15%和11%,而對酒店的“服務環(huán)境”“服務前臺”的消極情感占比較低。 通過以上對樣本數(shù)據(jù)的主題挖掘、情感分析及主題與情感交叉分析,能夠深入了解游客對五星級酒店的關注點、整體的情感傾向及情感演變過程,同時更進一步地了解不同類型的游客在其關注的不同主題下的情感傾向。 4 建議 本研究以北京五星級酒店游客評論數(shù)據(jù)作為研究對象,對高端酒店游客關注的主題及情感傾向進行交叉挖掘分析?;谘芯拷Y果,本文提出以下幾個方面的建議,為酒店行業(yè)的管理和經(jīng)營提供借鑒。 第一,重視在線評論數(shù)據(jù)中游客的關注主題,提高酒店服務質量。研究結果表明,高端酒店游客最為關注的是酒店的服務,關注點主要集中于房間、工作人員、大堂、前臺、早餐、設施、位置、交通等;同時,對于不同類型的游客,其關注點各有特點,比如,家庭型游客會更關注與孩子相關的主題,商務型游客會更關注會議、酒廊等相關主題,結伴、情侶和單獨出游的游客會更注重個人體驗相關的主題等。這是因為隨著收入水平的提高及消費觀念的改變,消費者越來越注重出行的舒適度,追求優(yōu)質的服務、優(yōu)雅的環(huán)境、完善的配套設施及獨立空間的享受,酒店的作用從臨時的住宿點升級為享受旅游的一個重要環(huán)節(jié)。因此,酒店管理者在經(jīng)營管理中應該高度重視游客的關注點及個性化的需求,基于游客的關注點改進和提高服務質量。除了通常的提高酒店服務質量的措施,比如,加強服務人員的專業(yè)培訓,定時排查基礎設施,盡量做到自己發(fā)現(xiàn)問題而避免游客發(fā)現(xiàn)問題,提供接送機服務等,建議酒店管理者還應做到以下幾點:充分利用游客評論數(shù)據(jù),分析挖掘游客關注點;對評論主題的挖掘分析應該保持長期持續(xù)性,研究游客關注主題的變化規(guī)律以及是否有新的關注點出現(xiàn),并及時調整運營管理策略;注重游客個性化需求,針對不同類型、不同地域、不同文化的游客,分析其關注主題,推出相應服務套餐,為游客提供個性化服務;針對具有特殊要求的顧客或長期客戶,建立客戶檔案,以便提前預知其需求,從而有針對性地提供服務。 第二,重視游客評論文本中情感傾向的產(chǎn)生及發(fā)展規(guī)律,積極應對消極評論。一方面,消極評論能夠直接指出酒店的問題所在,是酒店調整管理和營銷策略的切入點;另一方面,消極評論嚴重打擊潛在游客的購買意愿。所以,酒店管理者應該高度重視并積極應對消極評論數(shù)據(jù)。由研究結果可知,消極評論的產(chǎn)生隨著月份的不同以及游客類型的不同有一定的規(guī)律,不同類型的游客針對不同的評論主題,其負向情感的出現(xiàn)也有一定的規(guī)律,比如,游客的消極情感在每年的4、5月份達到高點,11月份達到最低點,這在一定程度上反映了北京的氣候對游客的情感傾向具有一定的影響。另外,研究結果還表明,商務型游客對酒店的服務質量有更高的要求,相比其他類型的游客,消極情感占比較高,達到6.2%。這可能是因為這類游客具有消費能力強、消費傾向明顯的特點,他們更注重消費帶來的舒適性、安全性和便利性,更注重服務的效率、品質、個性化以及完善程度。同時,這類用戶屬于網(wǎng)絡活躍用戶,一旦酒店提供的服務低于自己的預期,很容易在網(wǎng)上發(fā)布消極評論。酒店管理者可以從以下兩個方面采取措施,降低消極評論占比,減少消極評論的影響。一方面,持續(xù)分析在線評論數(shù)據(jù),掌握游客消極情感產(chǎn)生及發(fā)展的規(guī)律,提前采取應對措施。比如,酒店管理者應該重點關注游客在消極情感占比大的月份發(fā)表的評論文本,找到改進的切入點,提供更優(yōu)質的服務;對不同類型游客提供具有針對性的服務,可為家庭型的游客提供孩子游樂場所和適合兒童的餐飲服務,密切關注社會熱點,適時推出符合家庭、孩子的主題活動;服務人員應與游客積極溝通,了解游客需求,提供個性化服務。另一方面,對于已經(jīng)產(chǎn)生的消極評論,酒店應該積極應對,及時與游客溝通,核實游客負面情感的來源并給出改進措施,對游客提出的問題,應客觀、有針對性地在線給出答復,避免機械的、復制粘貼式的回復。 第三,酒店管理者不僅要重視、更要用好游客在線評論數(shù)據(jù)。游客評論數(shù)據(jù)可以較為真實地反映出酒店產(chǎn)品及服務在游客眼中的價值。分析游客評論數(shù)據(jù),酒店管理者能夠全面了解消費者的期望,并據(jù)此進行服務質量改進以及新產(chǎn)品的開發(fā)和運營策略的調整。酒店只有擁有并且用好數(shù)據(jù),才能發(fā)揮其最大的價值。目前,大部分酒店不缺乏評論大數(shù)據(jù),但是缺乏分析這些數(shù)據(jù)的專業(yè)人才。酒店管理者應該高度重視評論大數(shù)據(jù)在當前數(shù)字時代的重要價值,安排專業(yè)的人才或團隊管理和分析數(shù)據(jù),基于分析結果及時調整運營策略,提高自身的市場競爭力。 5 結束語 本研究提出一種對酒店評論大數(shù)據(jù)進行主題挖掘和情感分析的集成框架,以期為酒店管理者分析和管理評論大數(shù)據(jù)、制定管理和營銷策略提供參考。存在的不足之處在于數(shù)據(jù)源相對單一,未來的研究擬結合不同城市、不同語言、不同級別酒店的評論數(shù)據(jù),縱深挖掘不同城市的酒店在游客眼中的差異、不同國家的游客對不同級別的酒店關注的主題及情感傾向差異,以便為酒店管理者識別不同的細分市場提供更多合理化的建議。 [參考文獻] 參考文獻內容 [1] DE PELSMACKER P, VAN TILBURG S, HOLTHOF C. Digital marketing strategies, online reviews and hotel performance[J]. International Journal of Hospitality Management, 2018, 72:47-55. [2] CASAL L V, FLAVIN C, GUINALU M, et al. Do online hotel rating schemes influence booking behaviors?[J]. International Journal of Hospitality Management, 2015, 49:28-36. [3] ZHAO X, WANG L, GUO X, et al. The influence of online reviews to online hotel booking intentions[J]. International Journal of Contemporary Hospitality Management, 2015, 27(6):1343-1364. [4] HERNNDEZ J M, KIRILENKO A P, STEPCHENKOVA S. Network approach to tourist segmentation via user generated content[J]. Annals of Tourism Research, 2018, 73(11):35-47. [5] WANG L, WANG X K, PENG J J, et al. The differences in hotel selection among various types of travellers: A comparative analysis with a useful bounded rationality behavioural decision support model[J]. Tourism management, 2020, 76(2): 1-16. [6] BEREZINA K, BILGIHAN A, COBANOGLU C, et al. Understanding satisfied and dissatisfied hotel customers: Text mining of online hotel reviews[J]. Journal of Hospitality Marketing & Management, 2016, 25(1):1-24. [7] GAVILAN D, AVELLO M, MARTINEZNAVARRO G. The influence of online ratings and reviews on hotel booking consideration[J]. Tourism Management, 2018, 66:53-61. [8] 張補宏,周旋,廣新菊. 國內外旅游在線評論研究綜述[J]. 地理與地理信息科學,2017,33(5):119-126. [9] CASALO L V, FLAVIAN C, GUINALIU M. Determinants of the intention to participate in firmhosted online travel communities and effects on consumer behavioral intentions[J]. Tourism Management, 2010, 31(6):898-911. [10] STRINGAM B B, GERDES J. An analysis of wordofmouse ratings and guest comments of online hotel distribution sites[J]. Journal of Hospitality Marketing & Management, 2010, 19(7):773-796. [11] CANTALLOPS A S, SALVI F. New consumer behavior: A review of research on eWOM and hotels[J]. International Journal of Hospitality Management, 2014, 36:41-51. [12] YEN CLA, TANG CHH. The effects of hotel attribute performance on electronic wordofmouth (eWOM) behaviors[J]. International Journal of Hospitality Management, 2018, 76:9-18. [13] LADHARI R, MICHAUD M. eWOM effects on hotel booking intentions, attitudes, trust, and website perceptions[J]. International Journal of Hospitality Management, 2015, 46:36-45. [14] NIETOGARCA M, MUOZGALLEGO P A, GONZLEZBENITO . Tourists ?willingness to pay for an accommodation: The effect of eWOM and internal reference price[J]. International Journal of Hospitality Management, 2017,62:67-77. [15] AKHTAR N, SUN J, AKHTAR M N, et al. How attitude ambivalence from conflicting online hotel reviews affects consumers ?behavioural responses: The moderating role of dialecticism[J]. Journal of Hospitality and Tourism Management, 2019, 41:28-40. [16] 卓四清, 馮永洲. 在線評論有用性影響因素實證研究:基于Tripadvisor.com酒店評論數(shù)據(jù)[J]. 現(xiàn)代情報, 2015(4):52-56+74. [17] 秦海菲,杜軍平.酒店在線評論數(shù)據(jù)的特征挖掘[J].智能系統(tǒng)學報,2018,13(6):1006-1014. [18] 孫長偉,任宗來,楊俊杰,等.基于評論數(shù)據(jù)的酒店服務質量的細粒度分析[J].計算機應用與軟件, 2019,36(7):32-38. [19] CHATTERJEE S. Drivers of helpfulness of online hotel reviews: A sentiment and emotion mining approach[J]. International Journal of Hospitality Management,2020,85. [20] CHANG Y C, KU C H, CHEN C H. Social media analytics: Extracting and visualizing Hilton hotel ratings and reviews from TripAdvisor[J]. International Journal of Information Management, 2019, 48:263-279. [21] CHANG Y C, KU C H, CHEN C H. Using deep learning and visual analytics to explore hotel reviews and responses[J]. Tourism Management,2020,80. [22] HU N, ZHANG T, GAO B J, et al. What do hotel customers complain about? Text analysis using structural topic model[J]. Tourism Management, 2019, 72(6):417-426. [23] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3:993-1022. [24] 譚春輝,熊夢媛.基于LDA模型的國內外數(shù)據(jù)挖掘研究熱點主題演化對比分析[J].情報科學,2021,39(4):174-185. [25] WILLIAMS T, BETAK J. A comparison of LSA and LDA for the analysis of railroad accident text[J]. Procedia Computer Science, 2018, 130:98-102. [26] YONG C, HUI Z, RUI L, et al. Experimental explorations on short text topic mining between LDA and NMF based schemes[J]. KnowledgeBased Systems, 2019,163(1):1-13. [27] BASTANI K, NAMAVARI H, SHAFFER J. Latent Dirichlet allocation (LDA) for topic modeling of the CFPB consumer complaints[J]. Expert Systems with Applications, 2019, 127:256-271. [28] MIKOLOV T, SUTSKEVER I, KAI C, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013: 3111-3119. [29] ALTHUBAITY A, ALQAHTANI Q, ALJANDAL A. Sentiment lexicon for sentiment analysis of Saudi dialect tweets[J]. Procedia Computer Science, 2018, 142:301-307. [30] ABDI A, SHAMSUDDIN S M, HASAN S, et al. Machine learningbased multidocuments sentimentoriented summarization using linguistic treatment[J]. Expert Systems with Applications, 2018, 109(11):66-85. [31] 李鈍,喬保軍,曹元大,等. 基于語義分析的詞匯傾向識別研究[J].模式識別與人工智能, 2008,21(4):482-487. [32] 趙常煜,吳亞平,王繼民.“一帶一路”倡議下的Twitter文本主題挖掘和情感分析[J]. 圖書情報工作, 2019, 63(19): 119-127. [33] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of Emnlp, 2002:79-86. [34] MUKHTAR N, KHAN M A, CHIRAGH N. Lexiconbased approach outperforms supervised machine learning approach for Urdu sentiment analysis in multiple domains[J]. Telematics and Informatics, 2018, 35(8):2173-2183. [35] TripAdvisor. Tripadvisor, Inc. earnings press release available on company s investor relations site[EB/OL].(2020-11-05)[2021-02-21].https://tripadvisor.mediaroom.com/2020-11-05TripadvisorIncEarningsPressReleaseAvailableonCompanysInvestorRelationsSite. (責任編輯 責任編輯白麗媛)