陳京雷 杜姍姍 黃曉東 邱 茜
[內(nèi)容提要]旅游是首都“四個(gè)中心”定位中的核心功能之一,旅游業(yè)是北京建設(shè)“國際一流的和諧宜居之都”的支柱產(chǎn)業(yè)和京津冀協(xié)同發(fā)展的紐帶產(chǎn)業(yè)。本文通過對北京市2017年帶位置簽到的新浪微博數(shù)據(jù)為例,在時(shí)間、空間聚類發(fā)現(xiàn)熱點(diǎn)區(qū)域的基礎(chǔ)上,采用詞頻—逆文件頻率(TF-IDF)模型、文檔主題生成模型(LDA)兩類典型的文本分析的方法,對北京市不同時(shí)空熱點(diǎn)區(qū)域的旅游主題進(jìn)行挖掘,將北京市旅游空間熱點(diǎn)分為兩組團(tuán)一聚集區(qū)及重要交通節(jié)點(diǎn),依據(jù)主體劃分為皇家園林主題、徒步旅行主題以及舊城風(fēng)貌主題。
旅游能夠帶給人主觀感受,使人產(chǎn)生對旅游地的情感,良好的旅游體驗(yàn)感受和旅游地感知形象成為旅游地市場以及相同地區(qū)不同景區(qū)競爭的關(guān)鍵。隨著智能手機(jī)和網(wǎng)絡(luò)媒體的興起,游客在社交媒體上發(fā)表的游記產(chǎn)生了內(nèi)容眾多、具有空間坐標(biāo)的旅游用戶原創(chuàng)內(nèi)容數(shù)據(jù)。利用社交媒體數(shù)據(jù)分析旅游關(guān)注度與空間熱度的研究在國外率先起步。Stepchenkova S對旅游文本進(jìn)行分析,發(fā)現(xiàn)游客在旅游時(shí)的關(guān)注熱點(diǎn)及熱度空間;Tan等使用Python代碼獲取推特用戶的數(shù)據(jù),使用核密度估計(jì)、熱點(diǎn)分析和空間滯后模型驗(yàn)證城市空間與居民教育、娛樂、出行和生活等之間的關(guān)系。
國內(nèi)城市旅游熱點(diǎn)區(qū)研究于21世紀(jì)開始進(jìn)入黃金期。目前,國內(nèi)的研究主要是利用旅游網(wǎng)站、百度指數(shù)和新浪微博等網(wǎng)站的相關(guān)數(shù)據(jù),對旅游地的關(guān)注度、空間格局和演變因子進(jìn)行了研究。熱點(diǎn)區(qū)域識(shí)別上基本利用POI點(diǎn)聚類及Voronoi圖等空間統(tǒng)計(jì)分析方法統(tǒng)計(jì)景點(diǎn)集聚熱度以及游客數(shù)量熱度。從社交媒體的內(nèi)容屬性方面出發(fā),自下而上式的旅游熱點(diǎn)區(qū)域的識(shí)別是重要的研究方向,仍有很大的研究空間,由此,本研究采用典型社交媒體微博數(shù)據(jù),著重從文本內(nèi)容角度對北京市旅游熱點(diǎn)區(qū)進(jìn)行空間與時(shí)間的綜合感知,將為城市旅游熱點(diǎn)與空間關(guān)聯(lián)做出更深入的探索。
本文利用網(wǎng)絡(luò)爬蟲工具,獲取到2017年北京市的微博用戶數(shù)據(jù)八萬多條。數(shù)據(jù)中分別有微博文本、使用手機(jī)、發(fā)表時(shí)間、評(píng)論數(shù)、點(diǎn)贊數(shù)和位置坐標(biāo)等內(nèi)容,通過人工與機(jī)器學(xué)習(xí)清洗后得到數(shù)據(jù)31571條與北京市旅游相關(guān),底圖數(shù)據(jù)來自ArcGISOnline。
①LDA主題模型
LDA主題模型由Blei等在2003年提出,是一個(gè)三層貝葉斯產(chǎn)生式概率模型,適合對大規(guī)模文檔集合進(jìn)行建模。該模型假設(shè)文檔是由一系列潛在主題混合而成,主題是由詞項(xiàng)表中的詞匯組成,不同文檔的主要區(qū)別在于它們的主題組成及其比例不同。
②TF-IDF
TF-IDF,即詞頻-逆文檔頻率,詞頻(TF)是詞語在文本中出現(xiàn)的頻率,逆文檔頻率(IDF)是文檔頻率的倒數(shù)。計(jì)算公式如下:
其中,ni,j是詞語ti在j類所有文本中出現(xiàn)的次數(shù),是j類所有文本詞語出現(xiàn)的次數(shù)總和,N是數(shù)據(jù)集中的文本總數(shù),ni為包含詞語ti的文本數(shù)。
③核密度分析
采用核密度估計(jì)點(diǎn)要素在區(qū)域內(nèi)分布密度來反映其空間聚集狀況,它能直觀地反映出數(shù)據(jù)的空間聚集程度。核密度計(jì)算公式為:
式中X點(diǎn)是該處的核密度估計(jì)值,n是觀測數(shù)值,K括號(hào)里的為核函數(shù),其中x是柵格中心核密度,xi是核密度,h(h>0)為光滑參數(shù)。
1 熱點(diǎn)區(qū)域識(shí)別分析
對與北京旅游相關(guān)的31571條微博進(jìn)行核密度分析,得出以下旅游空間熱點(diǎn)(見圖1),可將其分為兩個(gè)組團(tuán),包括北四環(huán)帶狀組團(tuán)(見圖2)、內(nèi)城組團(tuán)(見圖3),一個(gè)集聚區(qū)即長城集聚區(qū)和首都機(jī)場、北京南站、北京西站三個(gè)重要交通節(jié)點(diǎn)。
圖1 北京市旅游相關(guān)微博數(shù)據(jù)核密度圖
圖2 北四環(huán)組團(tuán)核密度圖
其中北四環(huán)帶狀組團(tuán)分布的景點(diǎn)包括頤和園、圓明園、北京大學(xué)、清華大學(xué)、奧林匹克森林公園。這幾個(gè)景點(diǎn)在地圖上呈東西向橫向分布。內(nèi)城組團(tuán)分布的景點(diǎn)包括天安門廣場、故宮、天壇地壇、雍和宮、南鑼鼓巷、什剎海、前門、大柵欄、王府井等。這些景點(diǎn)都以故宮博物院為中心,向四周擴(kuò)散,距離較近。
2 Gephi關(guān)聯(lián)矩陣分析
將清洗后的數(shù)據(jù)放入Pycharm軟件中進(jìn)行關(guān)聯(lián)矩陣分析,詞頻最小值設(shè)置為300,輸出30×30的矩陣(見表1),并將矩陣導(dǎo)入Gephi中生成關(guān)聯(lián)組團(tuán)(見圖4)。
表1 基于高頻詞的旅游熱點(diǎn)關(guān)聯(lián)矩陣
圖4 旅游熱點(diǎn)關(guān)聯(lián)組團(tuán)分析
與北京最相關(guān)的(即連接線最寬的)旅游景點(diǎn)有長城、天安門、前門大柵欄、圓明園、王府井、南鑼鼓巷、頤和園和恭王府等,與Arcgis中核密度得出的結(jié)果非常相近。
3 主題分析結(jié)果
將清洗后的微博數(shù)據(jù)利用Pycharm軟件進(jìn)行主題分析。經(jīng)過多次試驗(yàn),總結(jié)出最優(yōu)主題分布:特征關(guān)鍵詞為50個(gè),每個(gè)主題輸出前5個(gè)關(guān)鍵詞,在此條件下主題詞間相似度、重合度最低??煞譃槿愔黝},分別包含5個(gè)關(guān)鍵詞(見表2)。
表2 各主題排名前五位主題詞
主題一:關(guān)鍵詞為頤和園、圓明園、什剎海公園以及天安門。其中,頤和園為中國清朝時(shí)期皇家園林,前身為清漪園,是清代大型皇家園林;什剎海公園內(nèi)也有清代規(guī)模最大的一座王府——恭王府;天安門則為現(xiàn)在人們進(jìn)入故宮的最前門。其中的景點(diǎn)都與古代的皇家園林息息相關(guān),將此主題概括為皇家園林主題。
主題二:關(guān)鍵詞為故宮、長城、鳥巢、水立方和王府井。在這些建筑之中,故宮是中國歷史上最早的一座皇宮,也被稱為“紫禁城”,坐落在北京的中軸線上;八達(dá)嶺長城、居庸關(guān)長城等長城連綿數(shù)萬公里;水立方、鳥巢坐落在奧林匹克風(fēng)景區(qū),兩個(gè)景點(diǎn)互相輝映;王府井大道東單三條到燈市口大街是北京著名的“金街”,是北京市著名的商業(yè)區(qū)。其中景點(diǎn)的瀏覽方式都以步行為主,將此主題概括為徒步旅行主題。
主題三:關(guān)鍵詞為南鑼鼓巷、前門、大柵欄、恭王府和胡同。南鑼鼓巷是740多年前建成的北京著名街道。前門是“京師九門”之一;大柵欄位于北京城的核心地帶,歷經(jīng)500余年的變遷,已經(jīng)形成了一條商鋪密集的商業(yè)街區(qū);恭親王府邸作為清代的見證,有著豐厚的歷史和人文內(nèi)涵;北京的胡同,是京城悠久的文化積淀,歷史底蘊(yùn)深厚。此主題的關(guān)鍵詞大多是舊時(shí)的街區(qū)、建筑或商業(yè)街,具有強(qiáng)烈的回憶感和歷史感,將此主題歸納為舊城風(fēng)貌主題。
研究發(fā)現(xiàn)北京城市旅游空間熱點(diǎn)可分為兩組團(tuán)、一聚集區(qū)和重要的交通節(jié)點(diǎn);在熱點(diǎn)區(qū)域中,歷史悠久、極具北京地域文化內(nèi)涵的景點(diǎn)集聚程度較高,對于游客具有較強(qiáng)的吸引力,如故宮、天安門、王府井、前門、大柵欄等。經(jīng)過LDA模型構(gòu)建,將北京市旅游空間熱點(diǎn)分為三大主題:皇家園林主題;徒步旅行主題;舊城風(fēng)貌主題。每個(gè)主題在空間分布差異較為明顯,皇家園林主題分布相對較為分散,空間距離較遠(yuǎn);徒步旅行主題主要位于北京市中軸線上;舊城風(fēng)貌主題主要集中于內(nèi)城附近,空間距離較近。
同時(shí),本研究也存在一些不足,由于微博數(shù)據(jù)的局限性,無法非常準(zhǔn)確地概括所有赴京旅游的人群,研究的對象多是使用微博的中青年群體用戶。在篩選標(biāo)注微博文本中與旅游相關(guān)的內(nèi)容時(shí)易受研究者個(gè)人主觀因素影響,需要進(jìn)一步優(yōu)化更準(zhǔn)確客觀的機(jī)器學(xué)習(xí)模型。在將來的研究中需要加強(qiáng)對微博數(shù)據(jù)本身特點(diǎn)的分析,發(fā)散研究思維,如選擇特定節(jié)假日查看熱點(diǎn),探尋京內(nèi)京外游客愛去的不同熱點(diǎn)等,為城市空間資源的良好分配與旅游開發(fā)提供針對性的對策。