楊嘉雯 石媛媛 閆安
摘要:目的:基于五家旅游平臺上北京地區(qū)18家一級博物館評論的數(shù)據(jù)分析,挖掘影響游客滿意度因素,了解游客差評原因,對提升北京地區(qū)博物館服務(wù)具有重大意義。方法:通過詞云圖、語義網(wǎng)絡(luò)特征關(guān)聯(lián)分析、LDA主題模型特征分析,并建立語義情感詞典進(jìn)行情感傾向分析。結(jié)論:根據(jù)文本挖掘與情感傾向分析結(jié)果,提出北京地區(qū)博物館服務(wù)建議。創(chuàng)新基于現(xiàn)實(shí)數(shù)據(jù),采用數(shù)據(jù)挖掘方法分析北京地區(qū)博物館游客情感傾向,為游客情感影響因素識別提供科學(xué)研究范式。
關(guān)鍵詞:文本挖掘;語義網(wǎng)絡(luò);文本情感分析;北京地區(qū)博物館
引言
游客平臺網(wǎng)站評價是游客對體驗(yàn)的真實(shí)表達(dá)。通過挖掘網(wǎng)絡(luò)文本,了解游客看法,對完善博物館體系,提升游客體驗(yàn)具有重要意義。對于挖掘網(wǎng)絡(luò)文本和分析情感傾向方法,已有眾多學(xué)者深入研究。莫紀(jì)燦等(2021)[1]使用ROSTCM6軟件對網(wǎng)師園網(wǎng)絡(luò)評論進(jìn)行網(wǎng)絡(luò)語義分析,歸納游客感情特征;孫明慧等(2021)[2]構(gòu)建語義網(wǎng)絡(luò),提取高頻詞,對消極情緒進(jìn)行扎根理論編碼分析,建立鄉(xiāng)村書店游客負(fù)面情緒影響因素模型;鄭凇尹等(2022)[3]使用方面級情感分析方法,使用模型情感分類,歸納影響用戶滿意度的因素。
梳理文獻(xiàn)得出,國內(nèi)外在研究博物館游客體驗(yàn)方面缺少對網(wǎng)絡(luò)文本的利用。因此本研究創(chuàng)新基于從去哪兒網(wǎng)、大眾點(diǎn)評等點(diǎn)評類網(wǎng)站抓取網(wǎng)絡(luò)評價,運(yùn)用詞頻統(tǒng)計(jì)、語義網(wǎng)絡(luò)特征關(guān)聯(lián)分析、LDA主題模型分析、建立詞典情感分析等方法分析北京地區(qū)博物館游客體驗(yàn)的影響因素,提出可持續(xù)發(fā)展的相關(guān)建議。
1. 北京地區(qū)博物館游客評論的特征分析
1.1 數(shù)據(jù)的來源與預(yù)處理
1.1.1 數(shù)據(jù)來源
本研究的評論數(shù)據(jù)選取大眾點(diǎn)評、驢媽媽、去哪兒網(wǎng)、攜程網(wǎng)、途牛網(wǎng)5家網(wǎng)站從2019年1月至2022年12月對北京地區(qū)18家國家一級博物館的評論。博物館分為8家文物博物館:中國國家博物館、恭王府博物館、清華大學(xué)藝術(shù)博物館、故宮博物院、中國人民抗日戰(zhàn)爭紀(jì)念館、首都博物館、周口店北京人遺址博物館、北京魯迅博物館;8家行業(yè)博物館:中國農(nóng)業(yè)博物館、北京天文館、北京汽車博物館、中國印刷博物館、中國電影博物館、中國科學(xué)技術(shù)館、北京自然博物館、中國人民革命軍事博物館、中國航空博物館、中國地質(zhì)博物館。
1.1.2 數(shù)據(jù)預(yù)處理
運(yùn)用軟件收集網(wǎng)站一級評論,內(nèi)容包括評論內(nèi)容、評論日期及用戶名,共83264條評論,由于存在無關(guān)數(shù)據(jù),如重復(fù)評論、無效無關(guān)數(shù)據(jù)等,無法直接分析,所以進(jìn)行初步處理,去除2020年1月前全部評論、重復(fù)評論、顏表情、無用符號,最終獲得53319條有效評價數(shù)據(jù)。使用Jieba分詞,Jieba詞典庫不夠完整,本研究根據(jù)實(shí)際情況對停用詞添加刪除,建立適合的停用詞表,分詞結(jié)果更加顯著。
1.2 文本特征提取
TF-IDF方法在分詞后對分詞結(jié)果進(jìn)行遍歷[4],挖掘文檔中關(guān)鍵詞,評估某詞組對文檔的重要程度,TF-IDF值越高表明該內(nèi)容的重要性越強(qiáng)[5-6]。根據(jù)TF-IDF結(jié)果,得到詞頻統(tǒng)計(jì)前20個詞及TF-IDF排名前20個特征詞,如表1所示。詞頻統(tǒng)計(jì)和TF-IDF中“電影”均占榜首,可見游客對數(shù)字化技術(shù)的關(guān)注。詞頻統(tǒng)計(jì)與TF-IDF結(jié)果基本相同,說明詞頻數(shù)和TF-IDF值間存在一定正向關(guān)系。但詞頻統(tǒng)計(jì)中“小朋友”位于靠前位置,但TF-IDF中為靠后位置,表明詞頻數(shù)越高不能表示重要性一定高。
1.3 基于詞云圖的特征可視化分析
基于分詞結(jié)果,在Jupyter Notebook環(huán)境內(nèi)生成詞云圖,通過可視化轉(zhuǎn)化數(shù)字表格,直觀展現(xiàn)評價高頻詞與游客體驗(yàn)重點(diǎn),利于建議提出,為結(jié)果展現(xiàn)的重要方法之一[7],如圖1所示。
出現(xiàn)頻率較高的高頻詞,即圖中字體更大的詞組,如“電影”“歷史”“展廳”“門票”“小朋友”等,突出游客關(guān)注內(nèi)容。
根據(jù)圖1,結(jié)合整段評價分析:
(1)游客選擇博物館時考慮預(yù)約模式及開放時間,如是否有預(yù)約網(wǎng)站、是否需提前關(guān)注搶票進(jìn)展、博物館預(yù)約開放時間,增加體驗(yàn)滿意度。
(2)游客偏向更具新奇體驗(yàn)的博物館,更多年輕人選擇主題豐富博物館出行;博物館可在展覽建設(shè)中注入創(chuàng)新力量,例如數(shù)字化劇場覆蓋率,提高回頭率。
(3)游客看重展館受眾及主題內(nèi)容,家長會優(yōu)先小朋友選擇有教育意義的博物館;年輕人為充實(shí)自身文化底蘊(yùn),會選擇有文化氣息的博物館。
(4)游客會被建筑外觀吸引,如故宮保留中國歷史的建筑物群、魯迅博物館特色的館內(nèi)環(huán)境和風(fēng)格;博物館可在展覽風(fēng)格及館內(nèi)環(huán)境投入精力,提高好評率。
1.4 基于語義網(wǎng)絡(luò)的特征關(guān)聯(lián)分析
詞頻統(tǒng)計(jì)對影響游客體驗(yàn)因素初步分析,但對影響因素間的關(guān)系仍無法說明。語義網(wǎng)絡(luò)分析可直觀分析主要特征詞間的關(guān)聯(lián)關(guān)系以及語義網(wǎng)絡(luò)的中心節(jié)點(diǎn),找尋文本特征[8]。運(yùn)用ROSTCM6軟件對已處理數(shù)據(jù)進(jìn)行社會網(wǎng)絡(luò)與語義分析[9]。生成共現(xiàn)矩陣,如表2所示,網(wǎng)絡(luò)語義分析圖如圖2所示。
圖2看出影響體驗(yàn)因素間的關(guān)系具有包圍結(jié)構(gòu),分為三個層面。交通、門票、展廳等高頻詞與其他高頻詞聯(lián)系最緊密,構(gòu)成第一層核心圈,也是影響游客體驗(yàn)重要因素。第二層主要由小朋友、電影、停車場、展品等高頻詞組成,為次要因素,反映博物館提供的項(xiàng)目服務(wù),如停車場、電影等。最外層主要由科技、文化、樂園等組成,反映游客對博物館文化內(nèi)涵的關(guān)注,對博物館的整體印象等。結(jié)合共現(xiàn)矩陣及網(wǎng)絡(luò)語義分析,影響博物館游客情感因素總結(jié)出以下方面:交通、門票、展廳、服務(wù)、文化、展覽。
1.5 基于LDA主題模型的特征分析
語義網(wǎng)絡(luò)已找到影響游客情感傾向的因素關(guān)系,繼以通過LDA[10]三層貝葉斯主題模型,通過無監(jiān)督學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息[11-12]。本研究利用比較困惑度[13]進(jìn)行主題識別。經(jīng)python算出主題數(shù)目為5時,LDA模型困惑度最小。自然語言處理導(dǎo)出主題—關(guān)鍵詞分布后,得到游客評論的5個研究主題并每個主題提取20個特征詞。LDA主題分析生成主題、特征詞及權(quán)重如表3所示,展示每個主題及其關(guān)鍵詞和重要性。
分析表3中特征詞,各主題含義如下:主題一,游客關(guān)注博物館概況,如門票性價比、環(huán)境等;主題二,游客在疫情時代注重博物館的整體服務(wù)水平;主題三,游客重視博物館逐漸提高的數(shù)字化發(fā)展;主題四,游客更注重博物館的內(nèi)在文化知識,博物館為公共教育場合,可在此感受到在其他場合無法了解到的知識文化;主題五,強(qiáng)調(diào)多以親子出游為主。綜合以上五個主題,游客比較關(guān)心博物館周邊環(huán)境、整體服務(wù)、數(shù)字化建設(shè)及北京地區(qū)獨(dú)有內(nèi)在文化建設(shè)等。
2. 游客情感傾向分析
2.1 詞典的建立
本文分析游客情感傾向時,采用基于語義的情感詞典方法[14]。構(gòu)建程度副詞詞典、情感詞詞典和否定詞詞典。分析文本計(jì)算情感分?jǐn)?shù)值,將情感傾向分類。
參考文獻(xiàn),情感詞典及其賦值如表4所示。
情感詞詞典只可表明情感傾向,無法體現(xiàn)程度區(qū)別,因此建立程度副詞詞典,參考知網(wǎng)研究及前人研究,最終以周知等[15]研究為參考,劃分出6個等級并賦予權(quán)值,如表5所示。
當(dāng)否定詞存在時,情感傾向會改變,因此附加否定詞詞典。目前研究對此設(shè)置無固定模板,據(jù)相關(guān)文獻(xiàn)建立否定詞詞典,如表6所示。
2.2 情感值計(jì)算算法設(shè)計(jì)
結(jié)合具體情況及參考文獻(xiàn),本研究算法邏輯如下:
(1)對網(wǎng)絡(luò)評價文本數(shù)據(jù)進(jìn)行預(yù)處理;
(2)建立好詞典,即程度副詞詞典、情感詞詞典和否定詞詞典,導(dǎo)入數(shù)據(jù)集;
(3)程序運(yùn)行中遍歷尋找評論中情感詞,確定基礎(chǔ)情感分?jǐn)?shù)值;
(4)以確定情感詞為查找中心,查找前面一個詞,判斷是否存在程度副詞,若有,在詞典中確定程度級別,根據(jù)權(quán)重賦值運(yùn)算;
(5)再次以(3)中情感詞為查找中心查找,判斷是否存在修飾中心情感詞的否定詞,若有,分?jǐn)?shù)置反;
(6)計(jì)算原始每條評論的情感分?jǐn)?shù)值。對確定的情感詞計(jì)算所有權(quán)重后加和;
(7)最后統(tǒng)計(jì)游客評論的情感傾向占比。
2.3 結(jié)果分析
根據(jù)算法結(jié)果將評價情感傾向分為好評4509條評論、中性4398條評論、差評3872條評論,共53319條評論。
分析圖3,極高的好評率說明北京市地區(qū)博物館建設(shè)可觀;中性評價表明建設(shè)不夠吸引游客、跟進(jìn)時代;差評存在,說明博物館有急需整改之處,可能是影響北京地區(qū)文化發(fā)展的障礙。
分析表7、圖4,好評中高度好評最多,中度其次,說明游客認(rèn)可程度極高,博物館建設(shè)可觀;差評中輕度差評最多,中度其次,可見博物館雖存不足,反饋并不強(qiáng)烈。高度差評占比不高,可知發(fā)展中所存問題尚不嚴(yán)重,但仍須加強(qiáng)對其部分改進(jìn)。
結(jié)語
本研究以9家旅游網(wǎng)站中北京地區(qū)18家一級博物館游客評論文本數(shù)據(jù)為例,使用語義網(wǎng)絡(luò)關(guān)聯(lián)分析、詞云圖分析、LDA主題模型特征分析對評論文本進(jìn)行特征分析,采用建立情感詞典并賦予其相關(guān)分值,python計(jì)算每條評論情感得分。根據(jù)研究結(jié)果為北京地區(qū)博物館的游客體驗(yàn)發(fā)展提出以下建議:
(1)數(shù)字化發(fā)展。北京地區(qū)博物館大多普及了數(shù)字化系統(tǒng),但部分博物館維護(hù)不足,如評論中頻繁出現(xiàn)的熒屏熄滅等,因此維修與防護(hù)工作應(yīng)加強(qiáng)。博物館具有文化傳播的社會功能,應(yīng)強(qiáng)化網(wǎng)絡(luò)上知識教育,實(shí)現(xiàn)文化遺產(chǎn)的網(wǎng)絡(luò)化展示,應(yīng)用科技使更多游客了解其內(nèi)涵。
(2)文創(chuàng)服務(wù)。博物館衍生文創(chuàng)產(chǎn)品,如故宮冰淇淋、汽車博物館同款汽車掛墜等。文創(chuàng)產(chǎn)品應(yīng)貼合游客興趣點(diǎn),關(guān)聯(lián)游客生活,體現(xiàn)創(chuàng)新性與經(jīng)濟(jì)價值,使文創(chuàng)產(chǎn)品更實(shí)用。
(3)文化傳播。博物館為重要文化陣地,應(yīng)加強(qiáng)推廣,增添咨詢渠道,擴(kuò)大影響力,進(jìn)一步增加游客選擇博物館出行的可能性。統(tǒng)計(jì)游客流量數(shù)據(jù),為后續(xù)宣傳工作提供支撐。
(4)整體服務(wù)。博物館具有極強(qiáng)社會屬性,是全民旅游陣地,但研究表明,游客主要群體為親子及青少年,缺少老年游客。應(yīng)加強(qiáng)員工培訓(xùn),提高服務(wù)質(zhì)量,貼近老年思想,使博物館旅游全年齡發(fā)展。優(yōu)化內(nèi)在設(shè)計(jì),突出本館特色,側(cè)重文化內(nèi)涵展示,傳播好所代表的歷史文化;優(yōu)化館內(nèi)服務(wù),清晰門票購買細(xì)則,避免出現(xiàn)游客無法及時購票的情況;盡量設(shè)置停車場,或標(biāo)記附近停車場的位置,提供便捷交通。
參考文獻(xiàn):
[1]莫紀(jì)燦,張青萍.基于網(wǎng)絡(luò)文本分析的蘇州古典園林活化策略研究——以網(wǎng)師園為例[J].資源開發(fā)與市場,2021,37(5): 629-635.
[2]孫明慧,陳少華.文化旅游視角下基于網(wǎng)絡(luò)評論的鄉(xiāng)村書店形象感知分析——以先鋒書店(鄉(xiāng)村店)為例[J].出版科學(xué),2021,29(02):66-78.
[3]鄭淞尹,王萍,丁恒,等.基于方面級情感分析的博物館數(shù)字化服務(wù)用戶體驗(yàn)研究[J].情報(bào)科學(xué),2022,40(4):171-178.
[4]林振榮,黃虹霞,舒?zhèn)ゼt,等.基于TF-IDF與用戶聚類的推薦算法[J].計(jì)算機(jī)仿真,2022,39(6):341-345.
[5]邵欣欣.TI-FastText自動商品分類算法[J].計(jì)算機(jī)科學(xué),2022,49(S1):206-210.
[6]曾金,張耀峰,黃新杰,等.面向用戶評論的主題挖掘研究——以美團(tuán)為例[J].情報(bào)科學(xué),2022,40(11):78-84.
[7]師榮蓉,張教萌.中國經(jīng)濟(jì)高質(zhì)量發(fā)展的社會評價:基于微博情感分析的視角[J].統(tǒng)計(jì)與決策,2021,37(24):180-184.
[8]張公讓,鮑超,王曉玉,等.基于評論數(shù)據(jù)的文本語義挖掘與情感分析[J].情報(bào)科學(xué),2021,39(5):53-61.
[9]葉佳鑫,熊回香,楊滋榮,等.關(guān)鍵詞詞頻及語義特征對科技文獻(xiàn)聚類的影響研究[J].情報(bào)科學(xué),2021,39(8):156-163.
[10]孫瑞英,陳宜泓.基于LDA主題模型的國內(nèi)智慧閱讀研究熱點(diǎn)及發(fā)展導(dǎo)向研判[J/OL].圖書館建設(shè):1-21[2023-04-20].http://kns.cnki.net/kcms/detail/23.1331.G2.20221221.1311.002.html.
[11]陳芳,沈芮宇.基于文本挖掘的空中危險接近事件致因研究[J].安全與環(huán)境學(xué)報(bào),2022,22(6):3280-3287.
[12]李倩,王帥.LDA模型下我國公共圖書館微信平臺閱讀推廣內(nèi)容主題研究[J].圖書情報(bào)工作,2022,66(8):72-83.
[13]李雅倩,孫玉玲,趙婉雨.基于主題模型和時間序列分析的新興主題識別與特征關(guān)聯(lián)研究[J].知識管理論壇,2022,7(3):229-247.
[14]林振宇,解吉波,楊騰飛,等.旅游多主題情感詞典的構(gòu)建方法[J].地理與地理信息科學(xué),2021,37(4):22-27.
[15]周知,王春迎,朱佳麗.基于超短評論的圖書領(lǐng)域情感詞典構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2021,44(9):183-189.
作者簡介:楊嘉雯,本科,研究方向:物流管理;閆安,本科,研究方向:計(jì)算機(jī)與科學(xué)技術(shù);石媛媛,本科,研究方向:經(jīng)濟(jì)學(xué)。
項(xiàng)目基金:數(shù)字賦能文旅融合高質(zhì)量發(fā)展研究(編號:202310004145)。