廣州軟件學(xué)院 李慧斯 黃金鈺 吳培超 江陳發(fā)
在疫情防控期間,我國游客的旅游消費方式已經(jīng)發(fā)生明顯的轉(zhuǎn)變,越來越多游客選擇短程旅游。大量旅游評論信息對旅游的發(fā)展產(chǎn)生重要的影響,然而,游客撰寫相關(guān)評論信息時,存在極強(qiáng)主觀臆斷性且評論內(nèi)容的價值良莠不齊,大量冗余信息使得旅游企業(yè)無法分析游客旅游消費需求行為的變化。因此,周邊游需求圖譜分析對開拓旅游市場具有重要的意義。首先基于TextRank模型提取產(chǎn)品名稱,然后通過使用情感詞典、高頻詞,從高頻詞、情感、服務(wù)、位置、設(shè)施、衛(wèi)生、價格7 個維度進(jìn)行周邊游產(chǎn)品熱度分析,并且使用One-Hot 編碼技術(shù)對旅游產(chǎn)品進(jìn)行關(guān)聯(lián)分析,最后用Neo4j 知識圖譜進(jìn)行可視化分析。
旅游業(yè)在疫情防控期間受到嚴(yán)重影響,同時使得游客的消費方式也發(fā)生了明顯的轉(zhuǎn)變。在此背景下研究分析游客消費需求行為的變化,對于旅游企業(yè)產(chǎn)品供給、資源優(yōu)化配置以及市場持續(xù)開拓具有長遠(yuǎn)而積極的作用。隨著互聯(lián)網(wǎng)的不斷發(fā)展,文本形式的在線旅游(Online Travel Agency,OTA)和游客的用戶生成內(nèi)容(User Generated Content,UGC)數(shù)據(jù)成為了解旅游市場現(xiàn)狀的重要信息來源[1]。OTA 和UGC 數(shù)據(jù)的內(nèi)容較為分散和碎片化,要使用它們對某一特定旅游目的地進(jìn)行研究時,迫切需要一種能夠從文本中抽取相關(guān)的旅游要素,并挖掘要素之間的相關(guān)性和隱含的高層概念的可視化分析工具。因此,本文將通過建立本地旅游圖譜的方式來分析疫情防控期間茂名市的周邊游發(fā)展。
近年來,隨著旅游經(jīng)濟(jì)的快速發(fā)展,游客評論成為一個待挖掘的寶藏,而大量冗余信息使得旅游企業(yè)難以分析游客旅游消費需求行為的變化,及時做出適當(dāng)?shù)恼{(diào)整。而知識圖譜可視化分析在旅游領(lǐng)域上,已經(jīng)有了一定的應(yīng)用。張宇飛在2020年實現(xiàn)了基于構(gòu)建的知識圖譜,設(shè)計了一個集景點信息管理、景點信息搜索和搜索結(jié)果可視化為一體的應(yīng)用系統(tǒng)[2]。2021年吳杰針對既有傳統(tǒng)旅游知識圖譜的不足,有針對性的提出了以事件為中心的旅游知識圖譜[3]。原越于2022年時進(jìn)行針對現(xiàn)有搜索引擎提供的旅游景點信息缺乏關(guān)聯(lián)度和完整性,通過設(shè)計旅游景點本體、針對爬取語料的處理構(gòu)建旅游景點知識圖譜。在此基礎(chǔ)上設(shè)計并實現(xiàn)了一個B/S 架構(gòu)的旅游景點應(yīng)用系統(tǒng)[1]。而徐春、李勝楠也在同年進(jìn)行針對旅游信息呈現(xiàn)出散亂、無序和關(guān)聯(lián)性不強(qiáng)的問題,提出一種融合BERT-WWM 和指針網(wǎng)絡(luò)的實體關(guān)系聯(lián)合抽取模型構(gòu)建旅游知識圖譜[4]。目前比較少的知識圖譜分析針對周邊游領(lǐng)域,而本文的研究將為其他地區(qū)使用基于知識圖譜的周邊游熱點分析提供參考。
本文收集了兩個數(shù)據(jù)集,分別為2018-2019 茂名(含自媒體)數(shù)據(jù)集和2020-2021(含自媒體)數(shù)據(jù)集,數(shù)據(jù)集中包含酒店評論、景區(qū)評論、游記攻略、餐飲評論和微信公眾號新聞數(shù)據(jù)集。其中酒店評論1093 條、景區(qū)評論1203 條、游記攻略294 條、餐飲評論6984 條和微信公眾號新聞6286 條。其中主要使用微信公眾號新聞數(shù)據(jù),該數(shù)據(jù)集中共有6286 條數(shù)據(jù),涉及的4 個指標(biāo)分別為“文章ID”“公眾號標(biāo)題”“發(fā)布時間”和“正文”。
由于原始數(shù)據(jù)集中缺乏“相關(guān)性”分類標(biāo)簽,因此本章在無標(biāo)注的數(shù)據(jù)中隨機(jī)抽取部分?jǐn)?shù)據(jù)進(jìn)行人工標(biāo)注。人工標(biāo)注時0 代表不相關(guān)、1 代表相關(guān)。最終共得到帶有人工標(biāo)注的數(shù)據(jù)4400 條。最后將數(shù)據(jù)以7∶3 的比例分為訓(xùn)練集和測試集,訓(xùn)練集包含4400 條數(shù)據(jù),測試集為2286 條。
在TextRank 模型[5]中將采用酒店評論、景區(qū)評論、游記攻略、餐飲評論和微信公眾號新聞數(shù)據(jù)集,具體實驗步驟如下。
(1)繁簡體轉(zhuǎn)化。通過預(yù)覽原始數(shù)據(jù),可觀察到正文中存在“繁體字”數(shù)據(jù),由于繁體字字符對后續(xù)分類會產(chǎn)生一定的影響,因此我們需要首先對評論進(jìn)行繁簡體轉(zhuǎn)換。
(2)提取旅游產(chǎn)品。由于酒店評論、景區(qū)評論和餐飲評論數(shù)據(jù)集中有對應(yīng)的旅游產(chǎn)品,本文只需抽取其語料ID 號及對應(yīng)的旅游產(chǎn)品名稱,再按旅游產(chǎn)品名稱附加產(chǎn)品ID 號即可。因此,語料ID 號及產(chǎn)品名稱是一一對應(yīng)的關(guān)系。
然而,游記攻略和微信公眾號新聞數(shù)據(jù)集中沒有對應(yīng)的旅游產(chǎn)品,因此本文將通過TextRank 算法進(jìn)行抽取。具體流程為首先對無效評論進(jìn)行去除,通過使用TextRank 算法抽取每條評論的關(guān)鍵詞,每條評論可通過其內(nèi)部詞語間的共現(xiàn)信息抽取其中的關(guān)鍵詞,最后輸出每條評論出現(xiàn)次數(shù)前五的關(guān)鍵詞。由于抽取的產(chǎn)品名稱中出現(xiàn)部分停用詞及不符合旅游產(chǎn)品的旅游名稱,因此本文根據(jù)輸出結(jié)果,自定義停用詞表,從而篩選出不規(guī)范的旅游名稱,篩選后的部分?jǐn)?shù)據(jù)如表1所示。
表1 旅游產(chǎn)品提取部分?jǐn)?shù)據(jù)集Tab.1 Part of tourism product dataset
其次將基于情感詞典擴(kuò)充進(jìn)行熱度分析,將采用經(jīng)過預(yù)處理后的酒店評論、景區(qū)評論和餐飲評論新聞數(shù)據(jù)集,具體實驗步驟如下。
(1)根據(jù)情感詞停用詞表去除數(shù)據(jù)集中每個句子的停用詞,然后進(jìn)行相應(yīng)的分詞,并對句子進(jìn)行切分。
(2)讀取情感詞典和程度副詞,將程度副詞乘以不同的權(quán)值,并處理情感得分防止出現(xiàn)負(fù)數(shù),最終計算出單條評論語句的情感傾向總得分。
(3)產(chǎn)品名稱計算熱度的公式如下所示。
熱度=單條評論語句的情感傾向總得分/全部評論語句的情感總得分中的最高得分
2.2.1 關(guān)聯(lián)度的計算和量化
在前階段的數(shù)據(jù)準(zhǔn)備和實體抽取后進(jìn)行關(guān)聯(lián)模式的定義,從根據(jù)當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展程度、地理位置等其他諸多客觀及衍生的主觀因素定義以下5 種關(guān)聯(lián)模式。從量化方法(如表2所示)中可以得知:
表2 關(guān)聯(lián)模式的量化方法Tab.2 Quantification method of correlation patterns
(1)互利關(guān)系是由產(chǎn)品A 對產(chǎn)品B、產(chǎn)品B 對產(chǎn)品A 的相對共現(xiàn)度加和得到,其計算的共現(xiàn)度可以反映當(dāng)?shù)貎蓛陕糜萎a(chǎn)品間聯(lián)系的緊密程度。
(2)近鄰關(guān)系是根據(jù)地理位置來計算的,而地理位置計算是根據(jù)經(jīng)緯度坐標(biāo)計算兩點球面距離,其中距離較近(<500m)的產(chǎn)品統(tǒng)一記作500m。
(3)散射關(guān)系是根據(jù)景區(qū)熱度、周圍同類產(chǎn)品密度及地理位置距離決定的,通過計算可進(jìn)一步分析產(chǎn)品間的競爭力和變化趨勢等。
(3)競爭關(guān)系主要建立在餐飲和酒店相似度較高基礎(chǔ)上的研究,主要影響因素包括經(jīng)濟(jì)距離和地理距離。經(jīng)濟(jì)距離及地理距離越小競爭越大,經(jīng)濟(jì)距離是指餐飲間的熱度差。
(5)導(dǎo)流關(guān)系是主要利用影響因素中的景區(qū)熱度和景區(qū)距離,即為AB 熱度之和/AB 距離。
在對5 種關(guān)聯(lián)模式進(jìn)行定義和相關(guān)量化計算后,需要進(jìn)行進(jìn)一步的標(biāo)準(zhǔn)化,利用Z-Score 標(biāo)準(zhǔn)化方法[6]和Min-Max[7]標(biāo)準(zhǔn)化方法將指標(biāo)數(shù)值局限至[0,1],其中對部分集中在較小區(qū)間的數(shù)據(jù)取立方根,最終效果的部分展示如表3所示。
表3 部分關(guān)聯(lián)度計算結(jié)果Tab.3 Partial correlation degree calculation results
2.2.2 基于Neo4j 的圖譜可視化及分析
目前知識圖譜的存儲方式主要有關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫和基于RDF 結(jié)構(gòu)的存儲方式[3]。Neo4j 圖數(shù)據(jù)庫以圖形結(jié)構(gòu)的形式存儲信息,關(guān)聯(lián)的數(shù)據(jù)本身就是它所包含的數(shù)據(jù),因此它可以直接顯示關(guān)聯(lián)數(shù)據(jù)特征以及數(shù)據(jù)之間的關(guān)系。首先,將旅游產(chǎn)品實體作為節(jié)點“Products”,并配置產(chǎn)品ID 和產(chǎn)品名稱屬性,生成旅游產(chǎn)品圖譜中的所有節(jié)點,再將節(jié)點創(chuàng)建關(guān)聯(lián)類型屬性,得到旅游圖譜,局部旅游圖譜如圖1所示。
圖1 局部旅游圖譜Fig.1 Partial knowledge map of tourism
在關(guān)聯(lián)圖譜中,導(dǎo)流、輻射、互利關(guān)系出現(xiàn)頻率較高。餐飲風(fēng)格相似這一模式較為集中,其中酒店的競爭關(guān)系較為明顯,例如在匯豐酒店同時與高州順得商務(wù)酒店和如家店·Neo(茂名人民路步行街中心店)存在競爭關(guān)系,較少存在其他關(guān)系。
散射關(guān)系會跨領(lǐng)域出現(xiàn)在餐飲和景區(qū)中,例如金沙灣海濱浴場和茂名浪漫海岸溫德姆酒店望海餐廳存在散射關(guān)系;或者可以跨領(lǐng)域出現(xiàn)在酒店和景區(qū)中,例如金沙灣海濱浴場和喜來登酒店存在散射關(guān)系。通過對產(chǎn)品關(guān)聯(lián)模式、目的地?zé)岫冗M(jìn)行分析,發(fā)現(xiàn)了餐飲業(yè)迎來了較好的發(fā)展趨勢與旅游產(chǎn)品的互利關(guān)系越來越明顯。
目前,領(lǐng)域知識圖譜已經(jīng)應(yīng)用在許多領(lǐng)域,但是旅游領(lǐng)域的知識圖譜應(yīng)用仍然相對匱乏,這無疑抑制了智慧旅游的發(fā)展。為了進(jìn)一步應(yīng)用互聯(lián)網(wǎng)旅游數(shù)據(jù)資源為政府提供本地周邊游發(fā)展建議,通過對本地旅游相關(guān)的評價文本進(jìn)行分類挖掘,計算出關(guān)鍵詞的熱度,建立了關(guān)聯(lián)模型并進(jìn)行了量化,計算出關(guān)聯(lián)度并將其輸入Neo4j 進(jìn)行知識圖譜的可視化分析,完成了對周邊游熱點的分析。