重慶工商大學(xué)派斯學(xué)院 楊婷婷
近十幾年來,我國旅游行業(yè)一直保持持續(xù)穩(wěn)步的發(fā)展。根據(jù)2020年國家統(tǒng)計(jì)局的年度統(tǒng)計(jì)數(shù)據(jù),2011-2019年,我國游客人數(shù)和旅游總收入都保持著持續(xù)增長的發(fā)展趨勢(shì)。在2019年,我國全年國內(nèi)游客總?cè)舜芜_(dá)到60億人次,比上年增長8.4%[1]。隨著互聯(lián)網(wǎng)的便捷使用和高速發(fā)展,以及大數(shù)據(jù)時(shí)代的悄然而至,各種在線旅游平臺(tái)應(yīng)運(yùn)而生,為旅游行業(yè)帶來了更加明顯且持續(xù)的經(jīng)濟(jì)效益。游客通過在線旅游網(wǎng)站和旅游App將旅游過程中的所看所感事物,以及情感感知體驗(yàn)通過在線點(diǎn)評(píng)、網(wǎng)絡(luò)游記這些用戶生成內(nèi)容等方式分享給一些還未去該旅游景點(diǎn)觀光游覽的潛在游客,隨著到旅游景點(diǎn)的游客逐漸增多,在線評(píng)論數(shù)據(jù)也在海量增加,這些短評(píng)論文本數(shù)據(jù)將會(huì)直接影響潛在的顧客做出是否去該旅游景點(diǎn)旅游的決策,而這也正在成為旅游景點(diǎn)形象的直接傳播渠道。但是在在線旅游評(píng)論網(wǎng)站上,用戶生成的內(nèi)容中不僅包含評(píng)級(jí)量表,還有文本評(píng)論,可以從這兩種數(shù)據(jù)源中評(píng)價(jià)用戶滿意度。然而,在通常的實(shí)踐中,缺乏能夠結(jié)合文本評(píng)論和總體評(píng)價(jià)這兩種不同結(jié)構(gòu)、不同類型的數(shù)據(jù)源進(jìn)行判斷的算法[2]。隨著境外游客到境內(nèi)旅游的數(shù)量不斷增加,分別對(duì)英文文本和中文文本兩種不同文本格式的數(shù)據(jù)源進(jìn)行分析研究,可以對(duì)比分析出國內(nèi)外游客對(duì)旅游景點(diǎn)的不同的觀點(diǎn)和態(tài)度[3-4]。因此,本文在現(xiàn)有文本情感分析、在線旅游體驗(yàn)評(píng)論挖掘和游客滿意度評(píng)價(jià)的相關(guān)研究基礎(chǔ)上,基于情感分析理論和游客滿意度理論,提出基于多源大數(shù)據(jù)的旅游景點(diǎn)游客滿意度評(píng)價(jià)模型,通過從國內(nèi)外游客的在線評(píng)論和評(píng)級(jí)信息中快速準(zhǔn)確地挖掘用戶需求以及旅游產(chǎn)品和服務(wù)反饋,從而準(zhǔn)確把握用戶的心理,為旅游管理公司和政府部門提供參考意見,并用以制定差異化和個(gè)性化的營銷策略,為優(yōu)化產(chǎn)品和服務(wù)等方面提供參考[5-7]。
情感分析,是指從文本數(shù)據(jù)中挖掘出人們對(duì)評(píng)論實(shí)體或者屬性所表達(dá)的情感、態(tài)度、情緒和評(píng)價(jià)。這些實(shí)體通常是評(píng)論主題、相關(guān)服務(wù)、一些機(jī)構(gòu)、個(gè)人、主題等。情感分析主要研究語句中表達(dá)或者暗示的有一些褒義或者貶義情感傾向的觀點(diǎn)信息。這些觀點(diǎn)信息里有情感、評(píng)價(jià)內(nèi)容,通常包括觀點(diǎn)持有者(游客、消費(fèi)者等)、觀點(diǎn)評(píng)價(jià)對(duì)象或目標(biāo)(基礎(chǔ)交通設(shè)施、美食、住宿、產(chǎn)品或服務(wù))。第一步:從數(shù)據(jù)庫內(nèi)的大量樣本文本評(píng)論數(shù)據(jù)中按照存儲(chǔ)順序讀取每條短文本評(píng)論數(shù)據(jù),以某個(gè)評(píng)論為例,先將長句子中的評(píng)論按照停止詞進(jìn)行切割分句,對(duì)分出來的句子中的屬性實(shí)體、否定詞、情感詞進(jìn)行分類提??;第二步:將每個(gè)短分句中的屬性實(shí)體所對(duì)應(yīng)的情感詞和數(shù)據(jù)庫中的情感詞典中的已有的情感詞進(jìn)行匹配迭代查詢,并依次標(biāo)記情感詞的情感傾向(積極、消極、中性);第三步:查找匹配前面一步找到的情感詞前是否出現(xiàn)了數(shù)據(jù)庫中程度詞詞典中的程度詞,如果上一步中找到的情感詞前發(fā)現(xiàn)了程度詞(具有依存關(guān)系),則找出情感詞典中這個(gè)程度詞的權(quán)重大小,將上一步步中的情感詞所對(duì)應(yīng)的情感值乘以該程度詞的權(quán)重大?。坏谒牟剑汉蛿?shù)據(jù)庫中的否定詞詞典去查找匹配第二步中的情感詞前是否出現(xiàn)了一些否定詞,如果出現(xiàn)了否定詞,就去數(shù)據(jù)庫中查找情感詞典里面這個(gè)否定詞的權(quán)重大小,將上一步中情感詞的情感值再乘上權(quán)重(-1),如果出現(xiàn)多個(gè)否定詞,就重復(fù)著乘以該權(quán)重大小(-1);第五步:將一條評(píng)論中切割出來的所有短評(píng)分句的積極、消極和中性情感值,用數(shù)組依次進(jìn)行記錄下來;第六步:對(duì)評(píng)論逐條計(jì)算并記下總的情感值。
本文通過梳理文獻(xiàn)后提出了基于多源大數(shù)據(jù)的旅游景點(diǎn)游客滿意度評(píng)價(jià)模型,首先通過采集獲取在線旅游平臺(tái)的用戶評(píng)論和網(wǎng)絡(luò)游記口碑信息作為數(shù)據(jù)源,然后再將評(píng)論數(shù)據(jù)進(jìn)行清理,根據(jù)詞和詞性進(jìn)行標(biāo)注,然后通過內(nèi)容分析法獲取景點(diǎn)高頻特征詞分析旅游形象特征,再通過情感分析方法獲取游客對(duì)景點(diǎn)的觀點(diǎn),最后分析出總體評(píng)價(jià)和各維度特征的評(píng)價(jià),進(jìn)而得出游客對(duì)旅游景點(diǎn)的偏好,并針對(duì)不足的地方進(jìn)行改善后以實(shí)現(xiàn)量上吸引更多的游客,質(zhì)上口碑有所提升。
通過對(duì)攜程網(wǎng)、貓途鷹、去哪兒網(wǎng)和馬蜂窩這4個(gè)國內(nèi)外知名的在線旅游網(wǎng)站以“洪崖洞”作為關(guān)鍵搜索詞對(duì)游客評(píng)論文本、網(wǎng)絡(luò)游記等內(nèi)容進(jìn)行檢索,然后對(duì)搜集到的總體評(píng)級(jí)、評(píng)論時(shí)間、評(píng)論地點(diǎn)等內(nèi)容進(jìn)行數(shù)據(jù)處理。為保證評(píng)論數(shù)據(jù)樣本的時(shí)效性,獲得評(píng)論和游記發(fā)表時(shí)間為2010年1月至2020年12月這10年間的在線評(píng)論及網(wǎng)絡(luò)游記內(nèi)容;其次,為保證評(píng)論數(shù)據(jù)樣本的質(zhì)量,剔除與景點(diǎn)主題無關(guān)、或者純粹的景點(diǎn)介紹以及同一游客重復(fù)評(píng)論的內(nèi)容。通過數(shù)據(jù)處理后,得到了6210條在線評(píng)論和10篇網(wǎng)絡(luò)游記作為本文的研究樣本數(shù)據(jù)。
通過文本挖掘和內(nèi)容分析法,對(duì)評(píng)論文本數(shù)據(jù)進(jìn)行特征詞詞頻分析,得到如表1所示的排名前20的高頻詞語。從排名前10的屬性詞如“夜景”和“晚上”可以分析出,觀光游覽的最佳時(shí)間是晚上,也可以得出游客們對(duì)洪崖洞的獨(dú)特夜景風(fēng)光的認(rèn)知強(qiáng)度是比較高的;而“建筑”和“吊腳樓”這兩個(gè)特征詞則反映出游客們對(duì)洪崖洞的深刻印象包括重慶特有的依山而建、富有本土特色的吊腳樓建筑景觀;“特色”一詞則是游客評(píng)論內(nèi)容中位于建筑、夜景、小吃等特征詞前的情感修飾詞,反映出了洪崖洞帶給游客們對(duì)比于其他旅游景點(diǎn)旅游體驗(yàn)上的差異性。
表1 洪崖洞景區(qū)游客評(píng)價(jià)高頻特征詞
通過按照五個(gè)主題對(duì)洪崖洞景點(diǎn)的評(píng)論進(jìn)行五個(gè)形象維度的滿意度評(píng)價(jià)分析得出,游客對(duì)依托環(huán)境的認(rèn)知量為2464,平均情感值為4.9,這是由于洪崖洞依托于山城和吊腳樓的這些特征,形成“3D”魔幻城市,并且依托于嘉陵江以及旁邊的輕軌穿樓而過,形成的這一獨(dú)特的環(huán)境。游客對(duì)建筑風(fēng)貌的認(rèn)知量為1856,平均情感值為4.98,游客們很欣賞重慶特有的吊腳樓建筑,依山而建,一樓進(jìn)去,十一樓出來,仍是一條馬路。夜景風(fēng)情的認(rèn)知量為3105,滿意度評(píng)價(jià)為3.98,晚上是洪崖洞的最受游客們喜愛的時(shí)刻,具有千與千尋場景的燈火將這11層的建筑賦予點(diǎn)亮的盛景。而游客對(duì)美食購物感到略微滿意,有的游客認(rèn)為洪崖洞內(nèi)消費(fèi)高,有的伴手禮并不值得購買,有的游客覺得火鍋也一般。游客對(duì)休閑氛圍的認(rèn)知量為2329,感到比較滿意,游客們?cè)u(píng)價(jià)中提到洪崖洞內(nèi)的道路比較狹窄擁擠,電梯比較慢,需要等很久,燈光比較暗等(見表2)。
表2 洪崖洞滿意度評(píng)價(jià)分析
研究表明,通過本文提出的基于多源大數(shù)據(jù)的旅游景點(diǎn)游客滿意度評(píng)價(jià)模型,能夠?qū)β糜文康牡氐脑诰€評(píng)論文本數(shù)據(jù)進(jìn)行有效的觀點(diǎn)意見挖掘,獲取游客對(duì)旅游景點(diǎn)多維度、多方面屬性和實(shí)體或者旅游景點(diǎn)形象特征的意見。本文的創(chuàng)新性在于構(gòu)建了旅游領(lǐng)域特征詞典及情感詞典,并結(jié)合多種數(shù)據(jù)源提取旅游景點(diǎn)的旅游形象特征,也為以后旅游行業(yè)領(lǐng)域的游客在線文本評(píng)論和網(wǎng)絡(luò)游記文本的滿意度評(píng)價(jià)方面提供了研究基礎(chǔ),并在情感分類的過程中,使用了基于依存句法分析的各屬性特征的情感值,提高了分類的準(zhǔn)確性。