張亞平,彭武良
(煙臺(tái)大學(xué) 經(jīng)濟(jì)管理學(xué)院,山東 煙臺(tái) 264000)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,在線旅游平臺(tái)得到了廣泛應(yīng)用。人們利用在線旅游平臺(tái)進(jìn)行旅游目的地信息查詢、查看門票價(jià)格以及瀏覽在線評(píng)論等已逐漸成為旅游出行的習(xí)慣。去過(guò)旅游目的地的游客根據(jù)自己的感受和旅行經(jīng)歷在平臺(tái)上發(fā)布評(píng)論,其他潛在游客分析這些在線評(píng)論信息確定旅游意向。來(lái)自在線旅游平臺(tái)的旅游信息最終促成了游客的旅程安排。隨著中國(guó)文旅產(chǎn)業(yè)線上化進(jìn)程的加快,構(gòu)建線上內(nèi)容資產(chǎn),已經(jīng)成為文旅產(chǎn)業(yè)為消費(fèi)者和產(chǎn)業(yè)鏈上下游提供優(yōu)質(zhì)服務(wù)的重要方式,網(wǎng)絡(luò)評(píng)論成為研究熱點(diǎn)。分析旅游網(wǎng)絡(luò)數(shù)據(jù)對(duì)于深入了解旅游地的發(fā)展?fàn)顩r和促進(jìn)旅游健康發(fā)展具有重要意義。文章對(duì)國(guó)內(nèi)外有關(guān)在線評(píng)論在旅游行業(yè)應(yīng)用的相關(guān)論文做了整理,以更清晰系統(tǒng)地認(rèn)識(shí)當(dāng)前旅游行業(yè)在線評(píng)論的研究現(xiàn)狀、研究方法。
當(dāng)前,國(guó)內(nèi)外學(xué)者對(duì)旅游行業(yè)在線評(píng)論的研究都有了一定成果。學(xué)者對(duì)在線評(píng)論的瀏覽和了解來(lái)自在線旅游平臺(tái)。當(dāng)前國(guó)外常用的OTA 平臺(tái)有Book.com、Trivago.com、TripAdvisor等,國(guó)內(nèi)研究主要圍繞攜程、去哪兒網(wǎng)、馬蜂窩等網(wǎng)站展開(kāi)。Fazzolari 指出,在線評(píng)論中蘊(yùn)含著潛在的可利用信息,旅游平臺(tái)可以通過(guò)挖掘這些信息找到促進(jìn)自身發(fā)展的突破口[1]。對(duì)于當(dāng)前在線評(píng)論在旅游行業(yè)中的應(yīng)用來(lái)說(shuō),學(xué)者研究的角度多圍繞游客滿意度、酒店銷售、民宿居住、旅游目的地形象以及旅游服務(wù)質(zhì)量等[2-5]。在研究角度中,當(dāng)前對(duì)旅游影響因素和酒店銷售的研究較多,相比之下,對(duì)旅游目的地的研究較少。
對(duì)于在線評(píng)論文本的獲取,多數(shù)學(xué)者是運(yùn)用八爪魚或者Python 爬取評(píng)論,也有少數(shù)學(xué)者選擇直接復(fù)制文本的方式。獲取數(shù)據(jù)后,對(duì)所獲取的文本首先要進(jìn)行文本預(yù)處理,文本預(yù)處理的工作完成后就是通過(guò)文本分析探究學(xué)者所要研究的主題。學(xué)者對(duì)文本的處理所采用的方法多種多樣,總結(jié)起來(lái)大致分為以下幾種情況。首先是對(duì)文本基本特征的分析,文本基本特征分析主要包括高頻詞分析和語(yǔ)義網(wǎng)絡(luò)分析,劉佳林等以桂林興安靈渠景區(qū)為例,通過(guò)詞頻分析、語(yǔ)義網(wǎng)絡(luò)分析和情感分析來(lái)探究游客滿意度[6]。對(duì)于文本主題的提取,學(xué)者多采用LDA主題模型,也有學(xué)者利用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)或者聚類分析進(jìn)行特征提?。?-8]。學(xué)者利用構(gòu)建情感詞典或機(jī)器學(xué)習(xí)的方式分析游客情感傾向。除了文本分析法,也有學(xué)者采用線上評(píng)論和線下調(diào)查問(wèn)卷結(jié)合的方式來(lái)獲取數(shù)據(jù),并利用實(shí)證分析驗(yàn)證。也有少數(shù)學(xué)者基于扎根理論進(jìn)行研究,如鄔超等以磧口古鎮(zhèn)為例,利用扎根理論和因子分析等方法對(duì)磧口古鎮(zhèn)旅游形象進(jìn)行了探究[9]。
文章對(duì)國(guó)內(nèi)外文獻(xiàn)整理總結(jié),將現(xiàn)有研究的思路和角度等多方面內(nèi)容進(jìn)行匯總,如圖1 所示。
由圖1 可知,在線評(píng)論在旅游管理中的研究路線主要包括以下幾個(gè)步驟。
圖1 在線評(píng)論研究路線
(1)理論研究。理論研究是展開(kāi)研究的基礎(chǔ),理論研究可以明確已有的研究角度,發(fā)現(xiàn)研究中的不足,有利于更好地開(kāi)展研究工作。
(2)在線評(píng)論文本信息的獲取。多通過(guò)數(shù)據(jù)爬蟲(chóng)的方式獲得評(píng)論,網(wǎng)絡(luò)爬蟲(chóng)借助Python 或者八爪魚采集器完成,也有少數(shù)學(xué)者選擇人工復(fù)制評(píng)論。有些研究以線下問(wèn)卷或訪談的形式收集游客對(duì)旅游地的評(píng)價(jià),再與線上評(píng)論相結(jié)合,以獲得更加全面的數(shù)據(jù)。
(3)文本預(yù)處理。文本預(yù)處理為下一步文本挖掘奠定基礎(chǔ)。文本的預(yù)處理主要包括以下方面:刪除無(wú)意義或者重復(fù)的評(píng)論、中文分詞和去除停用詞等。所謂無(wú)意義評(píng)論,指一些與旅游無(wú)關(guān)的評(píng)論。中文分詞多采用Jieba 分詞。關(guān)于去除停用詞,可借鑒哈爾濱工業(yè)大學(xué)停用詞庫(kù)、百度停用表等停用詞詞庫(kù),結(jié)合研究文本信息的實(shí)際情況構(gòu)建停用詞庫(kù)。
(4)文本分析。通過(guò)文本分析挖掘評(píng)論文本中的有效信息,探究研究主題。文本分析主要包括以下幾種情況:文本基本特征的認(rèn)識(shí)、主題提取、情感傾向分析、實(shí)證分析驗(yàn)證變量之間的關(guān)系、基于扎根理論的研究等。文本基本特征的認(rèn)識(shí)多借助于Rost Content Mining 軟件做高頻詞分析和語(yǔ)義網(wǎng)絡(luò)分析,提取文本中高頻出現(xiàn)的詞語(yǔ),這些高頻詞語(yǔ)反映了游客的關(guān)注度,通過(guò)制作詞云形象明了地展示高頻詞的做法也不在少數(shù)。語(yǔ)義網(wǎng)絡(luò)分析可以構(gòu)建詞語(yǔ)之間的聯(lián)系,此軟件也可以做情感傾向分析,也有學(xué)者利用Python 的SnowNLP 第三方庫(kù)計(jì)算評(píng)論文本的情感得分,把評(píng)論分為積極、消極和中性評(píng)論。多數(shù)學(xué)者采用構(gòu)建情感詞典的方式計(jì)算情感得分,把文本型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)以進(jìn)行更深層次的分析。除此之外,也有基于機(jī)器學(xué)習(xí)探究文本情感傾向的研究,比如,利用樸素貝葉斯和支持向量機(jī)的方法。當(dāng)然,構(gòu)建情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法也未嘗不可。文本主題的提取是為了快速了解評(píng)論的主題,三層貝葉斯概率模型(Latent Dirichlet Allocation,LDA)通過(guò)詞與詞之間的共現(xiàn)率提取語(yǔ)料庫(kù)的主題,是最常用的文本主題提取模型之一。實(shí)證分析的運(yùn)用主要是通過(guò)相關(guān)分析和回歸分析等驗(yàn)證變量之間的關(guān)系。
雖然每個(gè)研究都有所不同,但是現(xiàn)有文獻(xiàn)的研究技術(shù)路線圖大都包括理論研究、數(shù)據(jù)獲取、文本預(yù)處理、文本分析4 個(gè)階段。
文章通過(guò)梳理總結(jié)國(guó)內(nèi)外旅游行業(yè)在線評(píng)論的研究成果,介紹了當(dāng)前學(xué)者主要的研究角度和研究思路。隨著當(dāng)前在線旅游平臺(tái)的逐漸完善,在線評(píng)論數(shù)據(jù)不斷增多,對(duì)在線評(píng)論進(jìn)行深度挖掘,可以了解游客的偏好和態(tài)度傾向,對(duì)旅游目的地的形象改善、快速發(fā)展以及酒店銷售等方面起著重要作用,對(duì)旅游行業(yè)的在線評(píng)論進(jìn)行研究具有重要價(jià)值。