楊 佟,孟 斌
(北京聯(lián)合大學(xué) 應(yīng)用文理學(xué)院,北京 100101)
情緒地理學(xué)是基于傳統(tǒng)人文地理學(xué)分支學(xué)科對(duì)情緒與空間關(guān)系關(guān)注的基礎(chǔ)上[1],逐漸發(fā)展而來的一門新興的跨學(xué)科研究領(lǐng)域。國(guó)外對(duì)于情感地理問題的研究主要在以下方面:人類心理和生理健康[2]、地方感知[3]、地方依戀[4]、游客情感的時(shí)空特征及規(guī)律[5]、情感背景下的城市規(guī)劃[6]等。情感計(jì)算是針對(duì)具體的文本內(nèi)容進(jìn)行處理、分析,將其分為正面、負(fù)面、中性等情感類型的過程[7]。進(jìn)入21世紀(jì)之后,游客情感研究在方法論和機(jī)制探索上日漸成熟,而文本內(nèi)容挖掘是情感分析的主要研究方向。早期的情感分析主要是基于文本數(shù)據(jù),對(duì)詞語(yǔ)語(yǔ)義的情感傾向進(jìn)行計(jì)算和分析。之后有學(xué)者在情感詞典的基礎(chǔ)上,通過設(shè)計(jì)情感計(jì)算規(guī)則計(jì)算游客情感[8]。
近年來,越來越多的旅游者利用網(wǎng)絡(luò)媒介獲取旅游信息。同時(shí),用戶將自己的原創(chuàng)內(nèi)容通過網(wǎng)絡(luò)平臺(tái)發(fā)布,“由用戶產(chǎn)生的內(nèi)容(user-generated content,UGC)”的概念逐漸興起[9],一般指旅游者在社交媒體平臺(tái)上通過發(fā)布旅游文字和照片、撰寫攻略、分享旅游視頻等方式留下的游覽足跡。社交媒體數(shù)據(jù)因其獲取省時(shí)省力、真實(shí)可靠,逐漸被應(yīng)用于科學(xué)研究中。學(xué)者可以通過分析用戶原創(chuàng)內(nèi)容,從游客自身的角度研究游客的行為和情感特征,這為旅游研究拓展了新的方法和視角。在此背景下,許多國(guó)內(nèi)外學(xué)者借助社交媒體數(shù)據(jù)率先開展了大數(shù)據(jù)時(shí)代下的旅游研究:利用地理標(biāo)記照片分析中國(guó)入境旅游流時(shí)空分布特征[10,11];以旅游門戶網(wǎng)站爬取的游記、評(píng)論為研究數(shù)據(jù),分析游客對(duì)旅游目的地形象的感知[12,13];利用游客簽到數(shù)據(jù)對(duì)文保單位的關(guān)聯(lián)度進(jìn)行定量測(cè)度[14];以UGC圖片元數(shù)據(jù)研究旅游目的形象[15];融合氣象數(shù)據(jù)和UGC文本數(shù)據(jù)分析游客情感與氣候之間的相關(guān)關(guān)系[16];利用機(jī)器學(xué)習(xí)方法對(duì)文化資源密集區(qū)進(jìn)行感知研究[17]。
綜上,本文以北京市的16個(gè)市轄區(qū)作為案例地,借助新浪微博文本數(shù)據(jù),研究北京游客的正負(fù)面情感特點(diǎn)和時(shí)空特征,以豐富地理學(xué)在情感研究的視角和方法,并為提升城市旅游服務(wù)和改善基礎(chǔ)設(shè)施建設(shè)提供理論依據(jù),并進(jìn)一步拓寬社交媒體數(shù)據(jù)的應(yīng)用領(lǐng)域。
北京是我國(guó)政治中心、文化中心、國(guó)際交流中心、科技創(chuàng)新中心。此外,北京擁有豐富旅游資源,其中對(duì)外開放的旅游景點(diǎn)達(dá)200多處,擁有文物古跡7309項(xiàng),國(guó)家重點(diǎn)文物保護(hù)單位99處,市級(jí)文物保護(hù)單位326處。2019年,北京市接待游客總?cè)藬?shù)3.22億人次,比2018年增長(zhǎng)3.6%。其中,接待國(guó)內(nèi)游客3.18億人次,增長(zhǎng)3.7%。這座城市作為中國(guó)形象和象征,一直受到國(guó)內(nèi)外的高度關(guān)注。
新浪微博平臺(tái)是當(dāng)下中國(guó)最熱門的社交媒體平臺(tái)之一,依據(jù)新浪微博官方發(fā)布2020年微博用戶發(fā)展報(bào)告顯示,截至2020年9月份微博月活躍用戶達(dá)5.11億個(gè),日活躍用戶達(dá)到2.24億個(gè)。利用新浪微博官方API,抓取時(shí)間為2019年的全北京市域內(nèi)的微博數(shù)據(jù),其中每條數(shù)據(jù)均包含文本內(nèi)容、用戶編號(hào)、經(jīng)緯度、發(fā)布時(shí)間等字段,獲取北京市2019年微博用戶數(shù)據(jù)1175余萬條,數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 微博數(shù)據(jù)結(jié)構(gòu)示例
BERT(Bidirectional Encoder Representation from Transformers)是由Google公司在自然語(yǔ)言處理(NLP)中的一項(xiàng)重大突破[18],該模型能夠大幅提升文本識(shí)別的準(zhǔn)確度。本文采用BERT模型,利用Python語(yǔ)言進(jìn)行編譯,對(duì)微博文本內(nèi)容進(jìn)行機(jī)器學(xué)習(xí),提取與旅游相關(guān)微博文本。本研究中具體文本處理方法如下:首先,篩選出北京非本地用戶微博數(shù)據(jù)共4206915條,隨機(jī)選擇20000條數(shù)據(jù)作為訓(xùn)練樣本。針對(duì)每條文本,如果它與旅游活動(dòng)有關(guān),則手動(dòng)標(biāo)記為1,反之,則標(biāo)記為0。第二,利用機(jī)器學(xué)習(xí)和BERT模型對(duì)20000條訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,并驗(yàn)證分類精度,通過多次調(diào)整相應(yīng)參數(shù)和迭代次數(shù),得到訓(xùn)練好的文本分類模型,精度達(dá)到93%。第三,基于該分類模型,將所有的微博數(shù)據(jù)進(jìn)行分類,最終識(shí)別出2019年北京游客旅游活動(dòng)數(shù)據(jù)共247469條。最后,從旅游活動(dòng)數(shù)據(jù)中隨機(jī)挑選5000條進(jìn)行了人工驗(yàn)證,平均準(zhǔn)確率達(dá)到98.3%,驗(yàn)證了該模型具有良好的分類效果。
ROST Content Mining軟件是武漢大學(xué)沈陽(yáng)教授發(fā)明,用于挖掘文本內(nèi)容的系統(tǒng)軟件,該方法主要專門針對(duì)網(wǎng)絡(luò)媒體上的信息內(nèi)容,對(duì)文本資料進(jìn)行分詞處理、高頻詞統(tǒng)計(jì),以及聚類、相關(guān)性、情感趨向、時(shí)序等分析,構(gòu)建出社會(huì)網(wǎng)絡(luò)、語(yǔ)義網(wǎng)絡(luò)等[19]。本文主要利用ROST CM6軟件,針對(duì)文本內(nèi)容首先進(jìn)行分詞處理和高頻詞統(tǒng)計(jì),并計(jì)算游客情感值,同時(shí)針對(duì)正負(fù)面情感的高頻詞構(gòu)建語(yǔ)義網(wǎng)絡(luò)。
Getis-Ord Gi*統(tǒng)計(jì)是一個(gè)熱點(diǎn)分析模型,通過z得分和p值可以看出高值或低值要素在空間上發(fā)生聚類的位置[20]。熱點(diǎn)分析工具的目標(biāo)就是識(shí)別出具有統(tǒng)計(jì)顯著性的聚類區(qū)域?;镜倪壿嬍牵凑找欢ㄠ徲?,重新抽樣數(shù)據(jù),根據(jù)本地?cái)?shù)據(jù)均值相對(duì)于總體均值的偏離度,來判斷空間分布的隨機(jī)性是否成立。假設(shè)條件就是要素在空間分布上是隨機(jī)獨(dú)立分布的,那按照空間加權(quán)計(jì)算后的結(jié)果勢(shì)必呈現(xiàn)出正態(tài)分布[21]。
詞頻統(tǒng)計(jì)結(jié)果如表2所示,“打卡”一詞的頻率最高,反映出打卡行為是游客的主要旅游行為之一?!肮蕦m”“故宮博物院”“頤和園”“天安門廣場(chǎng)”和“圓明園”等高頻詞反映出游客在北京旅游的主要目的地,多位于具有豐富文化和歷史的5A景區(qū)?!俺浴薄白摺薄芭摹焙汀肮洹钡雀哳l動(dòng)詞說明游客旅游的主要旅游活動(dòng)?!疤鞖狻薄昂脽帷钡雀哳l詞可以看出游客對(duì)于天氣的關(guān)注以及游客對(duì)天氣炎熱的抱怨。“烤鴨”“吃”等高頻詞可以看出游客對(duì)北京特色美食的關(guān)注。
表2 旅游行為相關(guān)微博高頻詞
本文對(duì)北京游客發(fā)送的網(wǎng)絡(luò)文本進(jìn)行情感分析,得到積極、中性、消極3種情感類型,并對(duì)積極情緒和消極情緒按程度劃分為一般、中度、高度,結(jié)果如表3所示。積極情感微博數(shù)量為118035條,占比47.70%;中性情感微博數(shù)量為91371條,占比36.92%;消極情感微博數(shù)量38063條,占比15.38%??傮w上看,積極情感的微博數(shù)量多,占比最高,消極情感的微博數(shù)量少,占比最低。在積極情感中,一般積極的情感占比最高,可見游客對(duì)北京的積極情感主要以輕度的積極情緒為主,高度積極的情感占比相對(duì)較少;在消極情感中,一般消極的情感占比最高,高度消極的情感占比最低,極少有極端的負(fù)面情緒。這表明絕大部分游客在北京旅游體驗(yàn)的滿意度較高,大多為正面體驗(yàn)。
表3 游客情感分布情況
通過ROST CM6軟件分別對(duì)積極情緒和消極情緒的高頻詞進(jìn)行語(yǔ)義網(wǎng)絡(luò)分析,不同節(jié)點(diǎn)之間用直線和箭頭表示連接關(guān)系。從積極情感語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)圖(圖1)可以看出,“故宮”“博物院”“天安門”“風(fēng)景”是圖的核心節(jié)點(diǎn),表明游客來京旅游的主要目的地?!皻v史”“文化”“街區(qū)”“天氣”等節(jié)點(diǎn)屬于次核心節(jié)點(diǎn),表明游客在意旅游景區(qū)的歷史文化,同時(shí)天氣也是影響游客旅游體驗(yàn)好壞的因素之一。最外圍的節(jié)點(diǎn)中“地鐵”節(jié)點(diǎn)相對(duì)獨(dú)立,可知游客對(duì)于交通設(shè)施配置的關(guān)注。此外,從“好看”“開心”“快樂”“美麗”“好吃”等節(jié)點(diǎn)反映了多數(shù)游客對(duì)于景點(diǎn)及地方美食的滿意。由此可以得出游客的積極情感多表現(xiàn)為贊美、良好體驗(yàn)、文化豐富等。
圖1 積極情感語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)
從消極情感語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)圖(圖2)可以看出,“小吃”“步行街”“地方”“公園”是圖的核心節(jié)點(diǎn),表面景區(qū)的屬性和優(yōu)勢(shì)?!斑z憾”“可惜”“下次”“再見”等節(jié)點(diǎn)反映出了游客消極情緒。從次核心節(jié)點(diǎn)“排隊(duì)”“時(shí)間”
圖2 消極情感語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)
“小時(shí)”反映出游客對(duì)于景區(qū)排隊(duì)時(shí)長(zhǎng)問題的關(guān)注。然而,通過分析原始評(píng)論發(fā)現(xiàn),人流量大、景區(qū)服務(wù)質(zhì)量欠佳、較差的天氣狀況會(huì)讓游客產(chǎn)生負(fù)面情感,例如:“人多的漫天遍野,火車站更是個(gè)大雜貨鋪令人窒息”“今天的景點(diǎn)總結(jié),又貴又不好玩”“首站長(zhǎng)城,鳥巢水立方,實(shí)在是太冷了”,由此可以得出游客的消極情感多表現(xiàn)為遺憾、疲憊、失望等。
本文利用在上述情感值計(jì)算結(jié)果的基礎(chǔ)上,利用Getis-Ord Gi*方法對(duì)游客情感值進(jìn)行時(shí)空熱點(diǎn)分析,得到游客情感冷、熱點(diǎn)空間分布,如表4所示。情感熱點(diǎn)區(qū)域主要分布在主城區(qū),在五環(huán)內(nèi)以及六環(huán)邊緣均有分布,情感冷點(diǎn)區(qū)域主要分布六環(huán)以外以及郊區(qū)。這表明游客在北京旅游主要選擇在主城區(qū)游覽,少部分人選擇到郊區(qū)旅游。造成這一現(xiàn)象的原因可能與旅游資源分布有關(guān),因?yàn)楸本┐蟛糠种皡^(qū)主要分布于主城區(qū)。
表4 情感時(shí)空熱點(diǎn)分布區(qū)域
本文以北京市的16個(gè)市轄區(qū)作為案例地,借助新浪微博數(shù)據(jù),通過文本分析和空間分析等方法,分析北京游客旅游活動(dòng)中情感變化的特點(diǎn)和時(shí)空規(guī)律,體現(xiàn)出以下特點(diǎn):
高頻詞反映出游客在北京旅游的主要目的地,具有文化和歷史的5A級(jí)景區(qū)成為游客來京的首選?!按蚩ā薄俺浴薄白摺薄芭摹焙汀肮洹钡雀哳l詞體現(xiàn)游客旅游的主要旅游活動(dòng)?!疤鞖狻薄昂脽帷钡雀哳l詞可以看出游客對(duì)于天氣的關(guān)注以及游客對(duì)炎熱天氣的抱怨。“烤鴨”“好吃”等高頻詞可以看出游客對(duì)北京特色美食的關(guān)注。游客情感表達(dá)中存在明顯的正面傾向,正面情感微博數(shù)量比負(fù)面情感微博數(shù)量多。游客的積極情感多表現(xiàn)為贊美、良好體驗(yàn)、文化豐富等。消極情感主要與人流量大、景區(qū)服務(wù)質(zhì)量欠佳、較差的天氣狀況等因素有關(guān)。在游客情感值空間分布上,情感熱點(diǎn)區(qū)域主要分布在主城區(qū),在五環(huán)內(nèi)以及六環(huán)邊緣均有分布,情感冷點(diǎn)區(qū)域主要分布六環(huán)以外以及郊區(qū)。
5.2.1 完善景區(qū)規(guī)劃與管理
為進(jìn)一步促進(jìn)北京游客的積極情緒,在景區(qū)開發(fā)與管理中應(yīng)當(dāng)加強(qiáng)客流管理,以減少游客排隊(duì)等候時(shí)間,以確保游客旅游體驗(yàn)質(zhì)量。加強(qiáng)市場(chǎng)監(jiān)管,嚴(yán)厲打擊宰客行為,及時(shí)處理游客投訴。此外,加大景區(qū)基礎(chǔ)設(shè)施建設(shè),提高景區(qū)從業(yè)人員素質(zhì),為游客提供優(yōu)質(zhì)旅游服務(wù)。
5.2.2 強(qiáng)化景區(qū)特色優(yōu)勢(shì)
從語(yǔ)義網(wǎng)絡(luò)分析中可以看出,游客對(duì)于北京許多景區(qū)展現(xiàn)的歷史、文化內(nèi)涵的滿意。北京擁有大量傳統(tǒng)文化,應(yīng)該以文旅融合為突破口,充分挖掘北京中軸線文化、長(zhǎng)城文化、紅色文化等資源優(yōu)勢(shì),豐富游客體驗(yàn)。此外,培育具有北京特色的旅游產(chǎn)品、旅游線路,打造北京城市旅游名片,不斷豐富旅游產(chǎn)品和服務(wù)內(nèi)容。
5.2.3 引入創(chuàng)新技術(shù)應(yīng)用
景區(qū)可以利用數(shù)字化智慧平臺(tái)、票務(wù)系統(tǒng)等,通過智能監(jiān)控、分流管控、人員疏導(dǎo)等措施,實(shí)行限時(shí)限量、分流入園接待服務(wù)。新技術(shù)對(duì)可能出現(xiàn)的大客流能夠采取遠(yuǎn)端分流限流、近端疏導(dǎo)等防聚舉措,為游客提供放心舒適的游覽環(huán)境。將大數(shù)據(jù)技術(shù)應(yīng)用于旅游投訴的受理、處理,提高服務(wù)效率和服務(wù)水平,推動(dòng)旅游景區(qū)高質(zhì)量發(fā)展。