摘 要:隨著旅游經(jīng)濟(jì)的到來,游客們更加關(guān)注旅游體驗(yàn),本文采用BERT文本情感分析模型以及網(wǎng)絡(luò)文本分析方法,以蘇州拙政園景區(qū)為研究對象,爬取并整理攜程網(wǎng)中游客對景區(qū)的評論信息。利用Python軟件建立改進(jìn)的BERT情感分析模型,訓(xùn)練集與測試集M值達(dá)0.94,同時針對負(fù)面評論信息使用社會和語義網(wǎng)絡(luò),分析游客的旅游體驗(yàn)特征,對景區(qū)存在的問題提供一定建議。
關(guān)鍵詞:拙政園;文本情感分析;BERT;社會和語義網(wǎng)絡(luò)
中圖分類號:TP391.1;TP183 "文獻(xiàn)標(biāo)志碼:A
隨著國民經(jīng)濟(jì)的日益提升,人們的收入以及消費(fèi)水平也在不斷提高,越來越多的國人開始注重精神上的滿足,旅游業(yè)在國民經(jīng)濟(jì)發(fā)展中的地位愈發(fā)重要。據(jù)文化和旅游部發(fā)布的《2019年旅游市場基本情況》,國內(nèi)旅游人數(shù)超過60億人次,全年旅游總收入6.63萬億元,同比增長11%,占我國GDP總量的11.05%。伴隨著旅游業(yè)逐步進(jìn)入新時代,游客們也更加注重旅行體驗(yàn),社交網(wǎng)站的蓬勃發(fā)展,使廣大游客更加傾向于采納他人在旅游網(wǎng)站中對景點(diǎn)的意見,以確定自己的旅行計劃。因此,借助網(wǎng)絡(luò)提取游客對景區(qū)的情感傾向和改進(jìn)建議,對其他游客的出行以及景點(diǎn)日后的發(fā)展方向都具有重要意義。
目前,國內(nèi)外學(xué)者對景點(diǎn)評論的研究興趣主要在情感傾向、旅游滿意度等方面,COHEN[1]研究了旅游體驗(yàn)的幾種類型;RYAN[2]對影響旅游過程中的感知因素進(jìn)行分析;PANG等[3]使用樸素貝葉斯分類和最大熵方法分析句子中的文本情感傾向;王煜涵等[4]針對Twitter文本建立基于卷積神經(jīng)網(wǎng)絡(luò)的情感分類模型,分類效果對比傳統(tǒng)分類方法有顯著提升;HOCHREITER[5]提出循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,通過獲取句子之間的長期依賴關(guān)系,了解語義信息,從而分析文本情感;LI等[6]研究長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型在情感分析任務(wù)中比標(biāo)準(zhǔn)RNN模型效果更優(yōu);ZHAI等[7]將BiGRU結(jié)合注意力機(jī)制,應(yīng)用于在不同的數(shù)據(jù)集上訓(xùn)練情感分析模型,效果較好。
國內(nèi)學(xué)者主要對整體旅游市場傾向研究較多,但關(guān)于游客對景點(diǎn)的具體體會感受分析較少,故本文基于BERT模型對蘇州著名景點(diǎn)拙政園的相關(guān)評論進(jìn)行情感分析,同時針對評論中的負(fù)面情感數(shù)據(jù),建立網(wǎng)絡(luò)文本法進(jìn)行研究。以期建立泛化能力較強(qiáng)的景區(qū)評論模型,對其他游客的旅行期待、拙政園景區(qū)未來的發(fā)展方向提供一定改進(jìn)建議。
1 研究區(qū)域概括
拙政園[8]位于江蘇省蘇州市,作為我國四大名園之一,是江南古典園林的代表,同時也是我國首批5A級景區(qū)。整個園區(qū)以水為中心,處處體現(xiàn)著江南水鄉(xiāng)的韻味,以其布局的山島、竹塢、松崗、曲水之趣,被勝譽(yù)為“天下園林之典范”。拙政園景區(qū)分為東、中、西三部,把有限的空間進(jìn)行分割,充分采用了借景和對景的造園藝術(shù),建筑小巧玲瓏,整個園區(qū)顯得十分秀麗、雅致、幽靜,被稱為蘇州必去景點(diǎn)之一。
2 研究方法
目前基于中文文本情感分析的方法主要分為3類:第一是建立情感詞典的方法,此方法主要需要依賴人工構(gòu)建情感詞典,方法較為簡單方便,但對前期建立的詞典的完整性要求較高,同時是基于詞復(fù)現(xiàn)的程度進(jìn)行分析;第二是利用傳統(tǒng)機(jī)器學(xué)習(xí)的方法,主要有基于貝葉斯統(tǒng)計、支持向量機(jī)等模型,此類方法對人工標(biāo)注的標(biāo)簽依賴性較強(qiáng),分類效果一般;第三是常規(guī)的深度學(xué)習(xí)模型方法,比如基于傳統(tǒng)RNN、LSTM等模型[9],此類方法通過搭建神經(jīng)網(wǎng)絡(luò)模型,分析文本內(nèi)部信息,但作為串行運(yùn)行模型,處理效率低,同時只關(guān)注局部評論信息,對文本整體情感理解程度較差。
因此,本文提出基于變換網(wǎng)絡(luò)的雙向編碼(bidirectional encoder representations from transformers,BERT)模型的情感分析模型,在調(diào)整后的BERT預(yù)訓(xùn)練模型基礎(chǔ)上,進(jìn)行微調(diào),構(gòu)建文本情感分類模型,從而更好地掌握文本整體信息,提高模型準(zhǔn)確性。
2.1 BERT模型
BERT是Google的Devlin J等在2018年提出的一種自然語言處理(natural language processing,NLP)領(lǐng)域的預(yù)訓(xùn)練模型[10],是基于Transformer模型的改進(jìn)。采用雙向Transformer中的Encoder模塊進(jìn)行模型的搭建,由該層對輸入的文本信息進(jìn)行特征提取[11],舍棄了傳統(tǒng)的NLP領(lǐng)域的本文處理方法,比如RNN、LSTM等此類模型的循環(huán)結(jié)構(gòu),有效地解決了模型無法并行處理以及文本的長期依賴問題。
BERT模型的核心思想與Transformer模型一致[12],通過結(jié)合文本中的每個單詞與其他單詞之間的聯(lián)系,去除距離的限制,將當(dāng)前詞與句子中其余詞之間的依賴關(guān)系顯性的表示出來,充分的結(jié)合句子的上下文信息,更好的識別句子的語義信息,同時也可以達(dá)到并行處理的目的,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
模型輸入的編碼過程為3個向量的求和,其輸入形式如圖2所示,分別是針對輸入文本中,每個詞對應(yīng)詞向量表示、位置信息編碼、段落信息標(biāo)記。同時,添加兩個特殊符號[CLS]和[SEP],其中一般在文本首部添加[CLS],該特征可提取用于分類模型,[SEP]表示分句符號,用于斷開輸入文本中的兩個句子。
BERT模型的雙向網(wǎng)絡(luò)結(jié)構(gòu)會使模型中的每個詞都包含該句中其他詞的含義,因此會使預(yù)測任務(wù)失去意義,為了解決這個問題,模型從輸入序列入手,創(chuàng)新性地提出了兩種解決方法:(1)建立Masked方式訓(xùn)練模型,即針對輸入的訓(xùn)練集數(shù)據(jù),隨機(jī)的選取15%的詞進(jìn)行轉(zhuǎn)化,其中對于該部分詞,80%的概念替換成[Mask]符號,10%的概念替換成其他任意詞,10%的概率保持當(dāng)前詞。通過這種方式,讓預(yù)訓(xùn)練模型對選取的詞進(jìn)行預(yù)測。(2)通過上下文預(yù)測方式,隨機(jī)替換一些句子,利用BERT模型預(yù)測兩段文本是否為連續(xù)的文本,從而學(xué)習(xí)句子之間的關(guān)系。通過同時運(yùn)行兩種任務(wù),計算總體的損失值,使損失值降低完成模型的訓(xùn)練過程。
在本文中,因?yàn)橛?xùn)練文本數(shù)量較小,為了提高訓(xùn)練效率,同時避免可能出現(xiàn)的過擬合現(xiàn)象,舍棄常規(guī)的BERT模型結(jié)構(gòu),而采用6層的Transformer架構(gòu)搭建,編碼維度設(shè)置為384維,同時Multi-head設(shè)置為12,使用中文維基百科的語料庫重新訓(xùn)練。使用該模型獲取后續(xù)輸入的詞向量,同時作為預(yù)訓(xùn)練模型為后續(xù)網(wǎng)絡(luò)的輸入,微調(diào)后完成情感分類任務(wù)。
2.2 社會網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析
通過ROSTCM6軟件對評論文本進(jìn)行社會網(wǎng)絡(luò)和語義網(wǎng)絡(luò)進(jìn)行分析,對文本內(nèi)容深層次挖掘,可以探索文本網(wǎng)絡(luò)中各個關(guān)鍵詞之間的關(guān)聯(lián)性[13],進(jìn)而提取到文本中的關(guān)鍵詞重要性,借此可以研究游客在景區(qū)體驗(yàn)中的主要關(guān)注點(diǎn)[14]。
2.3 數(shù)據(jù)來源
本文選取攜程網(wǎng)作為評論數(shù)據(jù)來源,使用八爪魚軟件,采集游客在2016年至2020年9月期間對拙政園景區(qū)的評論情況,同時刪除部分無效和重復(fù)等評論,共獲得2 600條評論,其中正面評價數(shù)據(jù)1 600條,負(fù)面評價數(shù)據(jù)1 000條。
2.4 相關(guān)評價指標(biāo)
本文采用的模型評價指標(biāo)為準(zhǔn)確率以及模型M值,數(shù)值越大說明模型的分類效果越好。其中,準(zhǔn)確率由模型分類正確的數(shù)據(jù)數(shù)量與數(shù)據(jù)集總數(shù)量比值獲得,M值常用來對二分類模型的效果進(jìn)行評價,更好的驗(yàn)證分類準(zhǔn)確性,通過對比兩類樣本的分類概率與閾值之間的關(guān)系而求得,表示預(yù)測的正例排在負(fù)例前面的概率。
3 模型建立與結(jié)論
3.1 情感分析
基于上述訓(xùn)練出的BERT預(yù)訓(xùn)練模型,將80%的數(shù)據(jù)作為訓(xùn)練集,對預(yù)訓(xùn)練模型做微調(diào),訓(xùn)練本文最終需要的情感分類模型。
本文將訓(xùn)練次數(shù)設(shè)置為300次,初始學(xué)習(xí)率設(shè)置為1e-6,為了防止過擬合,dropout設(shè)置為0.4,將每句中[CLS]對應(yīng)的向量連接一層全連接層,利用sigmoid函數(shù)作為激活函數(shù),對目標(biāo)分類進(jìn)行預(yù)測[15]。將模型在測試集和訓(xùn)練集上的損失值作為模型損失值,模型在迭代次數(shù)267次時,損失值在前50次迭代期間未有明顯變動,模型已經(jīng)達(dá)到穩(wěn)定,提前結(jié)束訓(xùn)練,此時訓(xùn)練集和測試集損失值下降至0.3。
初始模型將0.5設(shè)為分類閾值,計算模型準(zhǔn)確率,變動情況如圖3所示,最終測試集和訓(xùn)練集準(zhǔn)確率均接近0.9,模型訓(xùn)練效果較好。
考慮到在實(shí)際情況中,閾值為0.5無法很好的對評論情感傾向進(jìn)行預(yù)測,本文設(shè)計閾值計算方法,通過重新定義閾值大小,使模型的分類效果達(dá)到最優(yōu),最終可以得到模型的較優(yōu)閾值為0.46。
得到模型在訓(xùn)練集和測試集M值變動圖,如圖4所示。最終得到訓(xùn)練集數(shù)據(jù)模型損失值為0.310,M值為0.937,測試集數(shù)據(jù)損失值為0.304,M值為0.944,故模型分類效果較好。
3.2 負(fù)面文本分析
為了對景區(qū)后續(xù)的改進(jìn)方向提供一定建議,本文將負(fù)面評論進(jìn)行單獨(dú)分析。利用ROSTCM6軟件,建立社會網(wǎng)絡(luò)與語義網(wǎng)絡(luò),可以探究文本中關(guān)鍵詞之間的關(guān)系,詞匯連線越多,關(guān)鍵詞之間聯(lián)系越密切,得到圖5所示。
由圖5可以發(fā)現(xiàn),蘇州、景點(diǎn)處于第一核心位置,門票、性價比、園林處于第二核心位置,失望、管理、不值、人多、服務(wù)等詞匯處于外圍。
通過語義網(wǎng)絡(luò)圖可以大致地了解到,對拙政園給與差評的游客主要體現(xiàn)在:對游園的觀感體驗(yàn)較差,因?yàn)閳@林獨(dú)特的意境,需要靜靜觀賞,而景區(qū)常年游客眾多,人流擁擠,致使部分游客無法體會到園林之美;對景區(qū)門票的價格表示不滿,認(rèn)為性價比不高,如同普通公園一般,部分游客更加傾向于頤和園的景色;景區(qū)還存在一定的管理混亂等情況。
通過對游客們提出的部分負(fù)面評價信息,園林可以考慮對園區(qū)人流進(jìn)行一定控制,減少人流密度,同時也可以考慮延時閉園,分散游客入園時間等措施,從而提高景點(diǎn)舒適度;衡量景區(qū)觀感程度,調(diào)節(jié)門票價格,或者開發(fā)提高景區(qū)互動性的方法,提升園林魅力。
4 結(jié)語
本文利用BERT模型,基于中文維基百科語料訓(xùn)練預(yù)訓(xùn)練模型,同時針對拙政園景區(qū)的文本評論進(jìn)行模型微調(diào),作為本文的情感分析模型。模型的預(yù)測準(zhǔn)確率較高,對長文本情感語料分析時,也可以更好的獲取情感傾向,得到更好的預(yù)測效果。模型改變了傳統(tǒng)的RNN網(wǎng)絡(luò)的串行方法,提取上下文關(guān)聯(lián)信息,建立并行訓(xùn)練模型,對文本進(jìn)行情感極性分析。同時,分析游客們提出景區(qū)存在的不足之處,對景區(qū)后續(xù)管理提供方向和建議。參考文獻(xiàn):
[1] COHEN E. A Phenomenology of tourist experiences[J]. The Journal of the British Sociological Association, 1979, 13(2): 179-201.
[2] RYAN C.Ways of conceptualizing the tourist experience:a review of literature[J].Tourism Recreation Research,2010,35(1):37- 46.
[3] PANG B, LILLIAN L, SHIVAKUMAR V. Thumbs up: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Lan-guage Processing. Stroudsburg, PA: Association for Computational Linguistics, 2002: 79-86.
[4] 王煜涵,張春云,趙寶林,等.卷積神經(jīng)網(wǎng)絡(luò)下的Twitter文本情感分析[J].數(shù)據(jù)采集與處理,2018,33(5):921-927.
[5] HOCHREITER S,SCHMIDHUBER J.Longs hort-termmemory[J].Neuralcomputation,1997,9(8):1735-1780.
[6] LI D,JIANG Q.Text sentiment analysis based on long short-term memory[C]//In Proceedings of IEEE International Conference on Computer Communication and the Internet.WuHan,China:IEEE,2016:471- 475.
[7] ZHAI P H, ZHANG D Y. Bidirectional-GRU based on attention mechanism for aspect-level sentiment analysis[C] //Proceedings of the 2019 11th International Conference on Machine Learning and Computing. New York, USA: ACM, 2019: 86-90.
[8] 黃發(fā)良,連亞飛.Senti-LSTM:一個基于遞歸神經(jīng)網(wǎng)絡(luò)的情感分析模型[J].福建師范大學(xué)學(xué)報(自然科學(xué)版),2020,36(1):12-18.
[9] 周云鶴,楊瑩瑩,陳己任.明代私家園林理水藝術(shù)探析:以蘇州拙政園為例[J].綠色科技,2020(1):63-64,67.
[10]劉思琴,馮胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227.
[11]趙曉錚.基于Attention機(jī)制的短文本情感分類方法研究[D].北京:北京工業(yè)大學(xué),2019.
[12]方英蘭,孫吉祥,韓兵.基于BERT的文本情感分析方法的研究[J].信息技術(shù)與信息化,2020(2):108-111.
[13]王少兵,吳升.基于景點(diǎn)在線評論文本的游客關(guān)注度和情感分析[J].貴州大學(xué)學(xué)報(自然科學(xué)版),2017,34(6):69-73.
[14]韓百川,潘輝,魏文靜,等.基于網(wǎng)絡(luò)文本分析的鼓山風(fēng)景名勝區(qū)游客旅游體驗(yàn)研究[J].河南科技學(xué)院學(xué)報(自然科學(xué)版),2020,48(1):35- 41.
[15]謝潤忠,李燁.基于BERT和雙通道注意力的文本情感分類模型[J].數(shù)據(jù)采集與處理,2020,35(4):642-652.
(責(zé)任編輯:于慧梅)
Abstract: With the development of the tourism economy, tourists pay more attention to the tourism experience. This paper uses the text sentiment analysis model based on BERT and the web text analysis method, taking the Humble Administrator Garden as the research object, crawling and sorts out the tourist’s comments on the scenic spot in Ctrip. Python is used to build an improved BERT model, the M value of the training set and the test set is about 0.94, at the same time, in response to the negative comments of tourists, a social and semantic network was was used to analyze the characteristics of tourists’ travel experience and provide certain suggestions for problems in the scenic spot.
Key words: Zhuozhengyuan; text sentiment analysis; BERT; social and semantic network