陳 盈,鄭艷艷
(臺州學院 電子與信息工程學院,浙江 臺州 318000)
近年來,我國旅游業(yè)發(fā)展十分迅速,已逐漸成為推動經(jīng)濟發(fā)展的重要產(chǎn)業(yè)之一。習近平同志提出了“和衷共濟、和合共生是中華民族的歷史基因,也是東方文明的精髓”[1]的全球治理之道,作為千年臺州府城,臨海傳承的人文精神中天然蘊涵和合因子,是臺州和合文化的重要發(fā)源地。江南長城和紫陽古街保存完好,臺州府城依山就勢,俯視大江,獨具江南古城風貌,已成功取得創(chuàng)建國家5A級旅游景區(qū)的“入場券”。
旅游目的地是旅游活動的應用場景,它一般遠離游客來源地,其形象是旅游營銷的核心。良好的旅游目的地形象能吸引更多的潛在游客,也能使游客在實地感受后留下深刻的感知印象。隨著旅游市場的發(fā)展和游客經(jīng)歷的增長,旅游目的地的情感需求已越來越多元化。若游客的實際旅游體驗符合其行前的期望或者超過期望,則會對旅游目的地的感知形象產(chǎn)生正向情感傾向;反之,游客可能產(chǎn)生負向情感傾向。如何提高游客的正向情感傾向,最大限度地滿足其旅游情感需求,使之產(chǎn)生良好的旅游目的地形象感知,是旅游景區(qū)或旅游城市獲得最大化效益的關鍵問題,也是旅游業(yè)發(fā)展研究中急需解決的問題[2]。為此,本文嘗試對帶有情感信息的游客評論文本進行主題建模和情感分析,以游客視角感知臺州府城的旅游形象,以便發(fā)現(xiàn)問題并給出解決方法。
在傳統(tǒng)的旅游形象研究中,大多采用問卷調(diào)查的方法。雖然數(shù)據(jù)回收效率高,但結果的主觀因素較高,也容易受到問卷設計的科學性和問卷發(fā)放對象差異性的影響。隨著4G的廣泛應用,通過分析網(wǎng)絡數(shù)據(jù)對旅游形象進行研究變得可能。張珍珍等人以西安旅游形象感知為例,論證了網(wǎng)絡文本數(shù)據(jù)在研究城市感知形象方面具有可靠性與代表性[3]。李春萍等人借助軟件分析網(wǎng)絡文本,面向國內(nèi)外游客對西安回民街的評論進行詞頻、情感分析,并基于情感形象感知打造差異化的回民街形象和營銷策略[4]。趙劉等人提取了無錫官方的宣傳形象數(shù)據(jù)與游客實地感知的形象數(shù)據(jù),對比了宣傳與感知形象的共詞分析、差異分析和情感分析,并提出實踐對策[5]。高李想等人通過抓取網(wǎng)絡文本,以桂林漓江景區(qū)為分析對象,獲取景區(qū)在游客心中的感知度,為提升和完善旅游形象提供參考[6]。徐錦雅等人以攜程網(wǎng)游客對漓江景區(qū)網(wǎng)絡點評為文本素材,對漓江景區(qū)影響游客滿意度的11個主要范疇展開了評價,并提出相應對策[7]。張學明等人基于LDA主題模型和游客評論數(shù)據(jù),對西塘古鎮(zhèn)的旅游形象進行了研究[8]。此外,重慶洪崖洞[9]、山西平遙古城[10]、福建武夷山[11]、浙江烏鎮(zhèn)[12]等地也都做了旅游目的地形象感知方面的工作?;诖?,本文通過情感計算方法,對在線抓取的游客評論文本進行分析,以游客感知為視角分析臺州府城的旅游形象,并針對影響旅游感知形象的負面因素給出針對性提升策略,優(yōu)化臺州府城旅游形象。
具體過程如圖1所示,包括數(shù)據(jù)采集并進行文本挖掘、識別評論主題并抽取相關的觀點要素和分析情感傾向性并進行結果策略探討。
圖1 基于評論文本的情感計算方法
游客通過旅游電商平臺預訂門票、住宿,并在結束后發(fā)表點評進行分享,已經(jīng)變得越來越普遍。每一條點評都是一位或一組游客對旅游地的評價,這些評論是游客的直觀感受和切身經(jīng)歷,具有強烈的個人意愿和極高的真實性、可靠性。
2.2.1 數(shù)據(jù)采集
首先,在相關旅游電商平臺以“臺州府城”為關鍵詞進行旅游景點搜索,利用網(wǎng)絡爬蟲進行用戶評論抓取以獲得相應數(shù)據(jù)。具體數(shù)據(jù)構成如表1所示。
表1 用戶評論數(shù)據(jù)構成
從官方平臺的好評度情況看,臺州府城的平均旅游好評度達到了95.44%(不含馬蜂窩)。實際上,游客的評論數(shù)據(jù)一般是多維度的,往往不只包含一個層面。有時候打分比較高,但實際評論文字中的情感卻是負面的。因此,并不能直接依照好評度來判斷旅游形象。另外,由于評論文本是非結構化數(shù)據(jù),并不能直接抽取評論主題及觀點,還需要對采集到的數(shù)據(jù)進行預處理。
2.2.2 數(shù)據(jù)預處理
從平臺抓取到的數(shù)據(jù)并不全部都是可用文本,也會包含一些對研究無實際意義的表情符號、特殊符號以及不必要的停用詞、英文等。因此,需要對獲取到的評論數(shù)據(jù)進行預處理,包括清洗、分詞和去重。
(1)數(shù)據(jù)清洗
利用正則表達式對原始數(shù)據(jù)進行去噪,如統(tǒng)一對同一事物的不同表達方式、設置專有名詞、錯別字處理等,過濾掉會影響文本挖掘的噪聲信息,保留真正需要的文本數(shù)據(jù)。清洗后的部分數(shù)據(jù)如表2所示(考慮到個人隱私,此處隱去用戶名)。
表2 部分游客評論數(shù)據(jù)
(2)中文分詞
因為中文的詞匯之間不存在分隔,為了將數(shù)據(jù)結構化,還需要對獲得的初始文本數(shù)據(jù)進行中文分詞處理。本文使用Python中的jieba庫進行分詞。jieba分詞使用簡單且分詞精度高,此外還可構建自定義詞典,對諸如“身份證免票”、“梅園小路”、“后山逃票”等特殊詞匯進行準確切分,以保證分詞準確度。
(3)去重
經(jīng)過分詞后,中文文本數(shù)據(jù)中依然存在大量詞頻極高、但又無實際含義的詞,如“啊”“那么”“的”等,統(tǒng)稱為停止詞。停止詞并不能對特征提取和情感分析提供幫助,需對其進行去除。
本文在后續(xù)的實際應用中,采用了兩種停止詞去除策略。第一種是針對評論主題:將網(wǎng)絡上容易獲取到的常用中文停止詞導入jieba分詞,改進jieba分詞的停止詞詞庫;第二種則是針對情感分析:在基于第一種策略構建的新的停止詞詞庫中,刪去情感詞、否定詞和程度副詞,以便降低因為評論數(shù)據(jù)的信息損失而導致的對情感分析結果的負面影響。
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡新詞不斷涌現(xiàn)。在旅游形象評論中,網(wǎng)絡新詞雖然出現(xiàn)比較少,但往往更吸引眼球,讓人記憶深刻,比如“大蝦”“驢友”“木油”“稀飯”等。本文采用基于網(wǎng)絡新詞改進的文本分類TFIDF(Term Frequency and Inverse Document Frequency,詞頻-逆文檔頻率)算法來計算游客網(wǎng)絡評論的特征詞權重[13],這種把網(wǎng)絡新詞發(fā)現(xiàn)加入文本預處理的算法,可以顯著優(yōu)化文本分類的結果。
TF-IDF表示的是TF×IDF,其歸一化的表達式為wdt=(mdt/Mt)× lg(N/nt+0.01)。其中,mdt表示特征項t在文本d中出現(xiàn)的次數(shù),Mt表示文本d中的詞語總數(shù),N為文本語料庫中的文本總數(shù),nt則是包含特征項t的文本數(shù)。
基于該表達式對預處理后的文本數(shù)據(jù)進行特征詞權重計算,得到游客評論文本的詞頻權重排名結果。其中,排名前30的詞條如表3所示。對評論文本數(shù)據(jù)進行詞云分析,結果如圖2所示。
表3 游客的評論文本詞頻權重統(tǒng)計
圖2 臺州府城游客評論詞云圖
對經(jīng)過數(shù)據(jù)預處理的評論文本進行評論主題及評論觀點的抽取,采用LDA(Latent Dirichlet Allocation)模型生成文檔主題,以確定主題的個數(shù)。LDA模型的分類結果顯示,游客對臺州府城旅游形象的感知因素包括旅游入口、商業(yè)化程度、公共服務、小吃飲食、自然風光和府城人文等6個方面。
從分類結果看,“戚繼光”、“抗倭”、“倭寇”、“明長城”等詞的頻繁出現(xiàn)是游客對臺州府城人文歷史方面的感知,府城可以抓住該特色開發(fā)相應產(chǎn)品,營造歷史文化氛圍。
在游客的評論文本詞頻權重統(tǒng)計結果中提取高頻詞匯,對它們進行共詞分析、差異分析和詞性分析,再將具有情感傾向性的詞匯分為積極、中性和消極3類。對處理后的數(shù)據(jù)進行情感分析和情感傾向值統(tǒng)計,得到結果如表4所示。
表4 游客評論文本情感傾向性統(tǒng)計
由表4可知,在游客的總體評論中,情感傾向為積極的游客評論最多,占到評論總數(shù)的83.80%。積極情感傾向評論的均值為0.86,方差為0.27。中性和消極情感傾向評論占比較小。
游客評論中各主題積極情感傾向性比例如圖3所示。其中,旅游入口、商業(yè)化程度和公共服務三方面的滿意度分別為66.70%、65.10%和68.80%,與小吃飲食、自然風光和府城人文三個主題相比差距明顯,可知臺州府城當前在該三個主題方面還明顯不足。
圖3 游客評論主題中的積極情感傾向性比例
通過計算得到的臺州府城游客評論主題的積極情感傾向性比例可知,游客對各個主題的積極情感傾向性評論的占比均超過60%,說明臺州府城在游客心中的總體旅游形象是正面的,但需對三個存在差距的主題進行相應的改進。
從消極評論中的具體文本看,有“票價65”“太貴了”“票價有點偏貴”“收費這么高”等旅游入口緊密相關的詞匯??梢娋皡^(qū)應設置合理的價格策略,如實行差別定價,旺季全價,淡季則適當下浮;對不同購票渠道分別定價,給予提前預訂折扣等。此外,還可將票價與旅游服務結合,如提供表演、講解、特色小吃等。
另一個和旅游入口服務緊密相關的消極詞匯集的關鍵詞是“停車”。臺州府城管理方應對停車問題進行整體優(yōu)化設計,最大限度地為外地游客提供出行便捷。一是增加停車場,在景區(qū)周邊劃出專門停車場地,做好醒目的引導標識,安排擺渡車,緩解景區(qū)道路擁堵;二是加大對電瓶車、三輪車等非機動車出行規(guī)范的管理力度和對亂停車現(xiàn)象的整治力度,做到真正還路于民;三是適當調(diào)整停車收費額度,同樣嘗試淡旺季差異化收費制度,提升自駕游游客的旅游體驗。
數(shù)據(jù)分析結果表明,游客對臺州府城商業(yè)化程度的正向情感傾向比重明顯低于其他主題。相對于其他商業(yè)化程度泛濫的景區(qū),臺州府城則顯得異?!肮艠恪?,甚至于難以滿足游客的正常商業(yè)需求。過度商業(yè)化固然會使游客無法真正深入體驗景區(qū)的原始風貌,但商業(yè)化不足卻會導致無法吸引更多的游客。
從游客評論主題中的積極情感傾向性比例來看,小吃飲食和府城人文兩個主題占比最高,都有九成滿意度。臺州府城應繼續(xù)加強和完善這兩個優(yōu)勢主題,進一步突出特色,打造商業(yè)化小吃街,把景區(qū)的人文情懷作為亮點。因此可以嘗試將“廣文三絕”和“戚家軍”開發(fā)為特色旅游產(chǎn)品,進行適度的商業(yè)化,打造有淵源、有典故的特色商業(yè)化產(chǎn)品,使商業(yè)化旅游有深度和厚重感,從而營造商業(yè)化背景下的特色旅游文化,擴大市場。
在開發(fā)特色商業(yè)產(chǎn)品的同時,需要關注和提升景區(qū)的公共服務水平。在“創(chuàng)5A”行動的引領下,臺州府城進行了大面積的基礎設施改造,但相應的公共服務水平顯然未能及時跟上。
從游客評論看,景區(qū)存在破損或缺失標識牌、指示標志脫落、建筑垃圾散落及公共衛(wèi)生差的問題。需要健全景區(qū)管理人員巡視制度,針對景區(qū)常住人口和商業(yè)從業(yè)人員進行宣講和培訓,提高工作人員服務素養(yǎng),加強細節(jié)服務的水平。
此外,還需加大宣傳力度。臺州府城有極其深厚的歷史文化底蘊和得天獨厚的自然風光,可以利用社交媒體打造網(wǎng)紅景區(qū),塑造和優(yōu)化府城優(yōu)秀旅游形象,吸引游客感受別樣的古城風景和文化。
本文提出了一種針對游客評論的情感文本信息進行建模和分析的方法,從而獲取影響臺州府城旅游形象的感知因素。通過對排名靠前的旅游電商平臺上臺州府城相關的游客評論數(shù)據(jù)的抓取和預處理,對其進行評論主題及觀點的抽取和情感分析。實驗分析表明,游客對旅游入口、特色商業(yè)以及基礎服務三方面滿意度不足,好評率較低。但從整體積極情感傾向性評論占比看,游客對臺州府城的旅游形象感知呈現(xiàn)積極態(tài)度。一方面,臺州府城的小吃飲食、自然風光和府城人文三個主題的好評率均在80%以上,說明臺州府城的飲食、景觀和歷史人文深受游客喜愛。府城應繼續(xù)深化優(yōu)勢主題,進一步結合自身資源突出打造特色。另一方面,府城應盡力修補短板,通過實施合理策略,樹立優(yōu)秀的旅游感知形象。
通過對指定景區(qū)游客評論文本的挖掘進行情感分析,文中數(shù)據(jù)量有一定的局限性,后續(xù)將嘗試機器學習的方法進行模型訓練,在更大數(shù)據(jù)量的支持下,進一步提高情感計算的精度和可靠性。并通過探索游客歸屬地、時間維度等不同視角下的旅游形象感知,深入探討更具針對性的旅游形象提升策略。