摘要:在旅游經(jīng)濟(jì)時(shí)代下,游客更加關(guān)注旅游體驗(yàn),如何準(zhǔn)確挖掘游客的情感和觀(guān)點(diǎn)成為研究熱點(diǎn)。然而,傳統(tǒng)的景區(qū)評(píng)論情感分析模型中,情感特征提取不全面,且評(píng)論主題挖掘不充分。文章以龍門(mén)石窟景點(diǎn)評(píng)論為對(duì)象,構(gòu)建基于BERT-BiLSTM-Attention模型的情感分析模型,并利用LDA模型挖掘評(píng)論主題。實(shí)驗(yàn)表明模型的有效性,并將結(jié)果進(jìn)行可視化呈現(xiàn),為景區(qū)優(yōu)質(zhì)服務(wù)和決策提供數(shù)據(jù)支持和理論支撐。
關(guān)鍵詞:景區(qū)評(píng)論;情感分析;BERT;BiLSTM
中圖分類(lèi)號(hào):TP391" " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)18-0116-03
開(kāi)放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
隨著國(guó)民生活品質(zhì)的穩(wěn)步提升,旅游逐漸成為人們?nèi)粘I钪兄匾膴蕵?lè)方式。隨著社交網(wǎng)站的蓬勃發(fā)展,越來(lái)越多的游客傾向于在攜程旅行等旅游網(wǎng)站上查詢(xún)景點(diǎn)信息、規(guī)劃旅游路線(xiàn),并發(fā)表景點(diǎn)評(píng)價(jià)和分享旅游體驗(yàn)。因此,如何準(zhǔn)確挖掘游客的情感,輔助游客的旅游決策和管理者改進(jìn)服務(wù),成為重要的研究話(huà)題[1]。
近年來(lái),國(guó)內(nèi)外學(xué)者十分關(guān)注游客體驗(yàn)研究,并取得了初步進(jìn)展。郭栩東等[2]利用ROST CM6和情感詞典對(duì)肇慶市七星巖景區(qū)的游客評(píng)論進(jìn)行情感分析。賈博婷等[3]利用SnowNLP對(duì)長(zhǎng)白山評(píng)論進(jìn)行情感分析,并基于LDA模型挖掘游客的主題。楊鑫等[4]通過(guò)情感詞典與SnowNLP對(duì)河南熱門(mén)景點(diǎn)進(jìn)行游客細(xì)粒度情感分析,同時(shí)結(jié)合LDA模型分析了游客評(píng)論中的主題。楊秀璋等[5]提出一種融合領(lǐng)域詞典的LDA模型對(duì)貴州景點(diǎn)進(jìn)行主題挖掘。陳玉姣等[6]提出一種融合注意力機(jī)制和BiLSTM的旅游評(píng)論情感分析模型。蔡汶興等[7]提出基于BERT模型對(duì)拙政園評(píng)論進(jìn)行情感分析,同時(shí)對(duì)負(fù)面評(píng)論建立社會(huì)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)。
然而,國(guó)內(nèi)對(duì)石窟寺旅游體驗(yàn)的情感分析仍不足,現(xiàn)有研究對(duì)評(píng)論細(xì)粒度情感特征與主題挖掘關(guān)注有限。石窟寺在我國(guó)分布廣泛且規(guī)模龐大,是我國(guó)文化遺產(chǎn)的重要組成部分。龍門(mén)石窟位居中國(guó)各大石窟之首,是全國(guó)首批5A級(jí)旅游景區(qū),也是世界上造像最多、規(guī)模最大的石刻藝術(shù)寶庫(kù),被聯(lián)合國(guó)教科文組織評(píng)為“中國(guó)石刻藝術(shù)的最高峰”。作為典型的石窟寺景區(qū),如何提高游客體驗(yàn)已成為龍門(mén)石窟景區(qū)發(fā)展的重要一環(huán)[8]。劉燕楠[9]使用Selenium爬取云岡石窟評(píng)論,并利用SnowNLP進(jìn)行情感分析。邱亞鵬等[10]利用ROST CM6對(duì)龍門(mén)石窟評(píng)論進(jìn)行情感分析和社交網(wǎng)絡(luò)分析。然而,上述相關(guān)工作[9-10]采用SnowNLP和ROST CM6進(jìn)行淺層分析,尚未進(jìn)行深層次特征挖掘,且缺乏對(duì)評(píng)論情感主題的深入挖掘。故本文爬取龍門(mén)石窟景點(diǎn)評(píng)論,預(yù)處理后進(jìn)行情感分類(lèi),并進(jìn)一步挖掘主題,得出研究建議。
本文以龍門(mén)石窟景區(qū)為研究對(duì)象,首先利用爬蟲(chóng)采集知名旅游網(wǎng)站上的景區(qū)評(píng)論,并對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、中文分析和去停用詞等預(yù)處理操作;其次,構(gòu)建BERT-LSTM-Attention模型對(duì)評(píng)論數(shù)據(jù)進(jìn)行有效情感分析;最后,運(yùn)用關(guān)鍵詞分析和LDA主題分析進(jìn)一步挖掘評(píng)論的主題,得出相關(guān)的結(jié)論和建議。研究框架如圖1所示。研究結(jié)果可為景區(qū)管理者提供多維度的信息支撐,有助于優(yōu)化景區(qū)服務(wù)質(zhì)量并提升游客滿(mǎn)意度。
1 數(shù)據(jù)采集與預(yù)處理
本文選取攜程網(wǎng)和同程旅行作為數(shù)據(jù)來(lái)源,使用requests庫(kù)采集旅游網(wǎng)站關(guān)于龍門(mén)石窟景區(qū)的游客評(píng)論,經(jīng)過(guò)去重操作后,共獲得評(píng)論數(shù)據(jù)10 571條,其中攜程網(wǎng)8 374條,時(shí)間范圍為2016年3月至2025年4月,同程旅行2 197條,時(shí)間范圍為2014年9月至2025年4月。
為保證數(shù)據(jù)質(zhì)量,首先將繁體評(píng)論轉(zhuǎn)為簡(jiǎn)體,去除景點(diǎn)無(wú)關(guān)和長(zhǎng)度過(guò)短的評(píng)論,移除標(biāo)點(diǎn)符號(hào)和特殊符號(hào);然后,結(jié)合自定義詞典進(jìn)行jieba分詞,利用哈工大停用詞表去除停用詞;最后,將評(píng)論數(shù)據(jù)的評(píng)分轉(zhuǎn)換為情感分類(lèi)標(biāo)簽。將攜程網(wǎng)中評(píng)分≥4的評(píng)論數(shù)據(jù)標(biāo)記為正面,評(píng)分≤3的評(píng)論數(shù)據(jù)標(biāo)記為負(fù)面,將同程網(wǎng)中的好評(píng)數(shù)據(jù)標(biāo)記為正面,中評(píng)數(shù)據(jù)和差評(píng)數(shù)據(jù)標(biāo)記為負(fù)面。經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,最終共得到有效評(píng)論9 939條。
2 情感分析
2.1 模型構(gòu)建
本文提出情感分析模型BERT-BiLSTM-Attention,利用BERT預(yù)訓(xùn)練模型獲取文本的向量表示,再使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BiLSTM結(jié)合注意力機(jī)制進(jìn)行特征提取,最后將特征向量輸入全連接層,通過(guò)Softmax分類(lèi)進(jìn)行情感分析。該模型綜合了BERT的上下文語(yǔ)義捕捉能力、BiLSTM的雙向序列學(xué)習(xí)能力與注意力機(jī)制的重點(diǎn)捕捉特征,提升了情感分析效果。模型結(jié)構(gòu)如圖2所示。
本文首先將預(yù)處理后的文本輸入BERT模型得到語(yǔ)句向量表示[xt]。BERT是Jacob D等[11]于2018年提出的一種基于自注意力的預(yù)訓(xùn)練語(yǔ)言模型,BERT僅使用Transformer的編碼器作為基礎(chǔ)模型實(shí)現(xiàn)雙向編碼,能提取語(yǔ)句的上下文特征,同時(shí)實(shí)現(xiàn)并行處理,在文本分類(lèi)、問(wèn)答系統(tǒng)、命名實(shí)體識(shí)別等絕大多數(shù)自然語(yǔ)言處理任務(wù)中均取得顯著效果。本研究采用哈工大發(fā)布的BERT-wwm-ext版本模型,BERT-wwm-ext采用全詞掩蔽策略(Whole Word Masking,WWM) 將詞的每個(gè)字全部掩蓋,增強(qiáng)BERT在中文自然語(yǔ)言處理任務(wù)中的性能。
然后,使用BiLSTM對(duì)文本向量進(jìn)行深度特征提取。BiLSTM由前向和后向兩個(gè)方向相反的LSTM組成,分別學(xué)習(xí)文本的上文表示和下文表示,并將上文表示和下文表示進(jìn)行拼接得到輸出。計(jì)算公式如下:
[ht=LSTM(xt,ht-1)]" " " " " "(1)
[ht=LSTM(xt,ht-1)]" " " " "(2)
[ht=Wtht+Vtht+bt]" " " "(3)
式中:[ht-1]和[ht-1]分別表示t時(shí)刻前向隱狀態(tài)表示和后向隱狀態(tài)表示,[ht]和[ht]分別表示t時(shí)刻前向LSTM和后向LSTM的輸出狀態(tài)表示,[Wt]和[Vt]表示權(quán)重矩陣,[bt]表示偏置向量。
為突出評(píng)論文本的情感信息,將BiLSTM模型的輸出輸入注意力機(jī)制,使模型關(guān)注重要信息,忽略不重要信息,進(jìn)一步提高情感分析的準(zhǔn)確率。為BiLSTM的輸出[ht]分配權(quán)重矩陣[Wa]和偏置向量[ba],得到注意力權(quán)重[uit]:
[uit=tanh(Waht+ba)]" " " " " (4)
通過(guò)Softmax函數(shù)對(duì)[uit]進(jìn)行歸一化,得到注意力得分[ait]:
[ait=softmax(uit)]" " " " "(5)
然后將[ht]和[ait]加權(quán)求和,得到情感突出的特征表示[st]:
[st=i=1Taitht]" " " " "(6)
通過(guò)Softmax函數(shù)得到情感極性[y]的預(yù)測(cè)結(jié)果:
[y=softmax(Wsst+bs)]" " " " (7)
式中:[st]表示特征向量,[Ws]表示權(quán)重矩陣,[bs]表示偏置向量。
2.2 參數(shù)設(shè)置
為提高訓(xùn)練效率,同時(shí)避免過(guò)擬合,本文將訓(xùn)練次數(shù)(epoch) 設(shè)置為20次,學(xué)習(xí)率(learning_rate) 為0.000 02,dropout為0.3,批大?。╞atch_size) 為32,序列最大長(zhǎng)度(max_length) 為128,隱藏層尺寸(hidden_size) 為128,具體參數(shù)如表1所示。
2.3 評(píng)價(jià)指標(biāo)
為評(píng)估模型的綜合性能,本文選取準(zhǔn)確率(Accuracy) 、精確率(Precision) 、 召回率(Recall) 和F1值(F1_score) 作為評(píng)價(jià)指標(biāo)。準(zhǔn)確率是評(píng)估模型在所有樣本中預(yù)測(cè)正確的比例,衡量模型的整體分類(lèi)能力,是最常用的評(píng)估指標(biāo)。精確率是評(píng)估模型預(yù)測(cè)為正類(lèi)別的樣本中實(shí)際為正類(lèi)別的比例,關(guān)注模型在正類(lèi)別預(yù)測(cè)中的準(zhǔn)確性。召回率(又稱(chēng)查全率) 是評(píng)估實(shí)際為正類(lèi)別中模型預(yù)測(cè)為正類(lèi)別的比例。F1值是精確率與召回率的調(diào)和平均數(shù),綜合考慮精確率和召回率來(lái)評(píng)估模型性能。
具體計(jì)算公式如下:
[Accuracy=TP+TNTP+TN+FP+FN]" " " (8)
[Precision=TPTP+FP]" " " " "(9)
[Recall=TPTP+FN]" " "(10)
[F1_score=2×Precision×RecallPrecision+Recall]" " "(11)
式中:TP(True Positive) 表示模型正確預(yù)測(cè)正類(lèi)別的樣本數(shù)量;TN(True Negatives) 表示模型正確預(yù)測(cè)負(fù)類(lèi)別的樣本數(shù)量;FP(False Positive) 表示模型錯(cuò)誤將負(fù)類(lèi)別預(yù)測(cè)為正類(lèi)別的樣本數(shù)量;FN(False Negatives) 表示模型錯(cuò)誤將正類(lèi)別預(yù)測(cè)為負(fù)類(lèi)別的樣本數(shù)量。
2.4 實(shí)驗(yàn)結(jié)果分析
為全面驗(yàn)證模型的性能,本研究選擇將傳統(tǒng)機(jī)器學(xué)習(xí)模型(SVM、NB、KNN) 與深度學(xué)習(xí)模型(LSTM、BiLSTM、BERT等) 進(jìn)行對(duì)比實(shí)驗(yàn),情感分析結(jié)果如表2所示。
由表2可知,BERT-BiLSTM-Attention在各個(gè)指標(biāo)上均超過(guò)了其他模型,準(zhǔn)確率達(dá)到0.928,精確率達(dá)到0.924,召回率達(dá)到0.926,F(xiàn)1值達(dá)到0.925,表明本文提出的模型在景區(qū)評(píng)論情感分析上展現(xiàn)出較好的性能,驗(yàn)證了模型的有效性。與基礎(chǔ)BERT相比,本文提出模型準(zhǔn)確率提升了4.98%,精確率提升了4.88%,召回率提升了4.99%,F(xiàn)1值提升了4.88%,說(shuō)明Attention機(jī)制在評(píng)論情感特征提取方面有效提升了模型表現(xiàn)。
3 主題挖掘
3.1 關(guān)鍵詞提取
基于TF-IDF對(duì)消極評(píng)論提取前20個(gè)關(guān)鍵詞,結(jié)果如表3所示,提取前5 000個(gè)關(guān)鍵詞后,并使用WordCloud生成詞云圖,結(jié)果如圖3所示。由表3和圖3可看出,“講解”“導(dǎo)游”出現(xiàn)的頻率較高,反映游客對(duì)景區(qū)講解質(zhì)量或?qū)в畏?wù)的不滿(mǎn);“佛像”“大佛”“盧舍那”表明大佛破壞嚴(yán)重,游客在景區(qū)體驗(yàn)未達(dá)到預(yù)期;“很多”“人很多”“電瓶車(chē)”“停車(chē)場(chǎng)”等表明游客在游客疏散和交通管理等方面存在不滿(mǎn)。
3.2 主題分析
本文通過(guò)LDA模型對(duì)消極評(píng)論進(jìn)行主題分析,迭代次數(shù)設(shè)置為200,選用困惑度較低且一致性較高的主題值作為主題數(shù)候選,結(jié)合PyLDAvis可視化效果,確定消極評(píng)論的最佳主題數(shù)為3,提取每個(gè)主題的前10個(gè)特征詞,主題分析結(jié)果如表4所示。
由表4可知,景區(qū)消極評(píng)論的主題體現(xiàn)在交通環(huán)境、大佛破壞和服務(wù)管理三個(gè)方面。交通環(huán)境包含“沒(méi)有”“電瓶車(chē)”“西山”“停車(chē)場(chǎng)”“東山”等主要特征詞;大佛破壞包含“佛像”“石刻”“大佛”“盧舍那”“破壞”等主要特征詞;服務(wù)管理包含“講解”“導(dǎo)游”“人太多”“門(mén)票”“取票”等主要特征詞。
通過(guò)對(duì)龍門(mén)石窟景區(qū)消極情感的主題挖掘研究,建議景區(qū)管理者結(jié)合交通環(huán)境、大佛破壞、服務(wù)管理等問(wèn)題進(jìn)行改善。在節(jié)假日限流方面,可借鑒故宮博物院實(shí)施的預(yù)約系統(tǒng)策略,提高游客分流效果;在講解服務(wù)方面,可提供AR增強(qiáng)現(xiàn)實(shí)和知識(shí)圖譜導(dǎo)覽,打造沉浸式服務(wù)。
4 結(jié)論
針對(duì)當(dāng)前旅游分析模型沒(méi)有充分挖掘情感特征的問(wèn)題,本文以龍門(mén)石窟景區(qū)評(píng)論為研究對(duì)象展開(kāi)深入研究。本文使用網(wǎng)絡(luò)爬蟲(chóng)獲取旅游網(wǎng)站的評(píng)論數(shù)據(jù)并進(jìn)行預(yù)處理,構(gòu)建BERT-BiLSTM-Attention模型進(jìn)行情感分析,性能最優(yōu)。然后對(duì)消極評(píng)論進(jìn)行關(guān)鍵詞提取及主題挖掘,并對(duì)景區(qū)存在的問(wèn)題提供建設(shè)性建議。下一步,本研究將嘗試融合多模態(tài)數(shù)據(jù),以深入挖掘旅游評(píng)論背后的意圖、態(tài)度和需求,為更全面的景區(qū)決策提供參考。
參考文獻(xiàn):
[1] 王新宇.基于情感分析技術(shù)的景區(qū)游客網(wǎng)絡(luò)評(píng)價(jià)研究[J].科技風(fēng),2024,26:154-156.
[2] 郭栩東,胡綠,李茂強(qiáng),王怡.在線(xiàn)評(píng)論數(shù)據(jù)挖掘視角下游客情感分析模式構(gòu)建:以肇慶市七星巖景區(qū)為調(diào)研對(duì)象[J].科技創(chuàng)新與應(yīng)用,2024,14(13):9-13.
[3] 賈博婷,馬鋮.基于情感分析的旅游體驗(yàn)研究:以長(zhǎng)白山風(fēng)景區(qū)為例[J].旅游縱覽,2022(2):87-91,96.
[4] 楊鑫,楊典,蘇慧慧,等.基于情感分析的景點(diǎn)評(píng)論主題挖掘[J].圖書(shū)情報(bào)導(dǎo)刊,2020,5(8):59-65.
[5] 楊秀璋,宋卓遠(yuǎn),趙凱,等.基于LDA模型和情感分析的貴州景點(diǎn)輿情分析研究[J].現(xiàn)代計(jì)算機(jī),2021,27(25):36-43.
[6] 陳玉嬌,陳崇成,呂貴杰,等.融合注意力機(jī)制和Bi-LSTM的旅游評(píng)價(jià)情感分析模型[J].軟件導(dǎo)刊,2022,21(2):43-47.
[7] 蔡汶興,李興東.基于BERT模型的景區(qū)評(píng)論情感分析[J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,38(2):57-60.
[8] 徐子涵,肖雨馨.龍門(mén)石窟數(shù)字化保護(hù)現(xiàn)狀與實(shí)踐路徑研究[J].貴州大學(xué)學(xué)報(bào)(藝術(shù)版),2024,38(6):78-89.
[9] 劉燕楠.基于爬蟲(chóng)技術(shù)對(duì)云岡石窟景區(qū)評(píng)論的情感分析與可視化展示[J].電腦知識(shí)與技術(shù),2024,20(21):74-76.
[10] 邱亞鵬,梁留科,蘇小燕,等.文旅融合背景下石窟寺景區(qū)的游客情感分析:以洛陽(yáng)龍門(mén)石窟為例[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,52(1):34-42.
[11] JACOB D,MING-WEI C,KENTON L,KRISTINA T.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C].Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies,2019:4171-4186.
【通聯(lián)編輯:謝媛媛】