屈 樹 學(xué),董 琪,秦 嘉 徽,劉 雨 思,張 晶
(首都師范大學(xué)地球空間信息科學(xué)與技術(shù)國際化示范學(xué)院,首都師范大學(xué)三維信息獲取與應(yīng)用教育部重點實驗室/城市環(huán)境過程與數(shù)字模擬國家重點實驗室培育基地/水資源安全北京實驗室,北京 100048)
北京市“十四五”規(guī)劃綱要提出要將北京市建設(shè)成弘揚中華優(yōu)秀傳統(tǒng)文化和高品質(zhì)宜居之城[1],兩個目標(biāo)的受眾群體分別為游客和居民兩類人群。城市游客和居民的主客關(guān)系影響城市的經(jīng)濟(jì)和文化發(fā)展,明晰二者的耦合關(guān)系有助于實現(xiàn)游客與居民的互利互惠[2]?;谖恢梅?wù)(Location Based Service,LBS)的海量地理大數(shù)據(jù)(如社交媒體、手機(jī)信令、共享單車等)為探究城市空間分異格局提供了新方式[3-5],其在城市空間分異的應(yīng)用研究主要有“人”和“地”兩種途徑[6]。學(xué)者們往往從“地”的角度探討固定場所的屬性趨同與分異(如功能分區(qū)[7]、空間交互作用[8]等),而把人產(chǎn)生的海量地理大數(shù)據(jù)看作一個整體,分配到研究單元中,但這種方式會忽略人作為城市主體其異質(zhì)性造成的城市分異現(xiàn)象。從“人”的角度出發(fā),識別相對均質(zhì)的人群并分析、比較特定人群的活動特征,正作為研究城市空間分異的新方式受到越來越多的關(guān)注。近年來,旅游地理研究者嘗試通過社交媒體等地理大數(shù)據(jù)提取游客和居民的活動特征進(jìn)行人群識別,并進(jìn)行目的地挖掘[9,10]、文本主題挖掘[11]等探索。例如:Hasnat等基于用戶簽到坐標(biāo)提取5個特征進(jìn)行游客與居民分類訓(xùn)練[12];Yang等基于用戶簽到坐標(biāo)、簽到時間間隔等特征利用K-means聚類算法識別游客[13]。但與調(diào)查問卷等傳統(tǒng)數(shù)據(jù)相比,社交媒體數(shù)據(jù)提供的信息更“薄”[14],從中難以提取到滿足人群識別差異的適量特征,從而影響識別精度;同時,多數(shù)研究僅對單一人群進(jìn)行識別與分析[15-18],或從簽到空間分布和簽到主題方面分析游客與居民的差異[13,19],較少考慮這兩種人群簽到地空間差異和類型分異。
“微博”+“旅游”正成為當(dāng)代年輕人的主流出行模式[20],微博用戶在簽到地的真實態(tài)度與情感能反映用戶對簽到地的關(guān)注度。因此,本文基于微博簽到數(shù)據(jù),通過擴(kuò)充數(shù)據(jù)源獲取用戶更多的簽到信息,以此提取人群差異特征進(jìn)行游客和居民識別;通過局部莫蘭指數(shù)方法提取并比較游客和居民的顯著性簽到聚集區(qū)域,通過層次聚類等方法對簽到聚集區(qū)進(jìn)行類型劃分和差異比較,以期從宏觀角度挖掘游客與居民的空間分異格局,為旅游資源配置優(yōu)化、北京特色文化宣傳、游客與居民出行推薦等提供服務(wù),以及為建設(shè)高品質(zhì)宜居城市和打造中華優(yōu)秀傳統(tǒng)文化典范之城提供決策支持。
本文研究區(qū)為北京市主城區(qū)(東城區(qū)、西城區(qū)、海淀區(qū)、朝陽區(qū)、豐臺區(qū)和石景山區(qū)),面積1 384.34 km2,為保證研究區(qū)域的連續(xù)性,未包含朝陽區(qū)首都機(jī)場區(qū)域。城六區(qū)是首都“四個中心”功能的主承載區(qū)、國際一流和諧宜居之都建設(shè)的重要區(qū)域,也是疏解非首都功能的關(guān)鍵區(qū)域[21],探究城六區(qū)的城市空間分異對北京市的規(guī)劃與建設(shè)有重要意義。
本文以2016年4月15日至10月20日北京市六環(huán)內(nèi)1 577 273條微博簽到數(shù)據(jù)(無簽到地址和POI類型屬性)為基礎(chǔ),提取研究范圍內(nèi)的用戶ID,借助微博開放平臺API接口,獲取每位用戶2016年全年的個人簽到數(shù)據(jù)作為擴(kuò)充數(shù)據(jù)集(有簽到地址屬性),依托高德API接口,基于簽到地址進(jìn)行地理編碼和POI類型編碼(采用高德一級分類,共23類)。最終,將基礎(chǔ)數(shù)據(jù)與擴(kuò)充數(shù)據(jù)依據(jù)用戶ID匹配,作為本研究數(shù)據(jù)源(表1),共獲取到26 205位用戶1 416 666條有效微博數(shù)據(jù),其中含經(jīng)緯度屬性數(shù)據(jù)555 638條,含簽到地址和POI類型屬性數(shù)據(jù)235 717條。
表1 數(shù)據(jù)源示例Table 1 Samples of data sources
本研究技術(shù)流程(圖1)為:1)對原微博簽到數(shù)據(jù)進(jìn)行擴(kuò)充、清洗與融合等預(yù)處理,之后基于分類算法對游客與居民進(jìn)行識別;2)基于局部莫蘭指數(shù)方法提取簽到聚集區(qū);3)基于簽到點的POI類型對簽到聚集區(qū)進(jìn)行聚類;4)比較游客與居民兩類人群簽到聚集區(qū)的差異及相似性。
圖1 研究框架Fig.1 Research framework
本研究中,游客為到某地短期游玩的人,對當(dāng)?shù)亓私獠簧睿痪用駷殚L期居住在某地的常駐者,對當(dāng)?shù)剌^為了解。本文借助機(jī)器學(xué)習(xí)[22]中的特征工程[23]及分類算法對游客與居民進(jìn)行識別,流程(圖2)包括:1)特征選擇。游客和居民在研究區(qū)內(nèi)外的停留時長、簽到次數(shù)、簽到頻率及訪問次數(shù)均有差異,本文借助擴(kuò)充后的微博簽到數(shù)據(jù)源,將用戶的簽到行為特征分為時間特征、空間特征和簽到比率特征3類(表2),然后根據(jù)穩(wěn)定性選擇方法選取合適特征并帶入分類器進(jìn)行訓(xùn)練。穩(wěn)定性選擇[24]方法將二次抽樣和選擇算法相結(jié)合,通過循環(huán)選擇不同的數(shù)據(jù)子集和特征子集并計算得分以尋找最佳特征,重要特征得分接近1,無用特征得分接近0。2)特征訓(xùn)練與建模。經(jīng)過特征選擇選出合適特征后,選取分類效果最好的集成分類器進(jìn)行特征訓(xùn)練并建立分類模型,據(jù)此將數(shù)據(jù)分為游客簽到數(shù)據(jù)和居民簽到數(shù)據(jù)兩類。
圖2 游客與居民識別技術(shù)路線Fig.2 Technical route for identifying tourists and residents
表2 微博簽到特征Table 2 Features of microblogging check-in
局部莫蘭指數(shù)(Anselin Local Moran′sI)(式(1))常用于識別具有統(tǒng)計顯著性低值、高值以及異常值的空間聚集區(qū)域[25,26]。本文通過規(guī)則格網(wǎng)劃分研究區(qū),將每個格網(wǎng)內(nèi)用戶簽到點數(shù)量作為統(tǒng)計值,利用該方法分別提取游客和居民的簽到聚集區(qū)域。
(1)
2.3.1 詞頻—逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF) TF-IDF是一種文本詞匯重要性統(tǒng)計方法[27],其考慮到某些重要且特殊的詞在文檔中出現(xiàn)的頻次不高,通過加權(quán)處理提高該詞匯權(quán)重,以更好地表征此文檔的特征,計算公式見式(2)。本文利用該方法提取研究單元特征,研究單元內(nèi)每個簽到點的POI類型構(gòu)成一條詞匯,一個研究單元構(gòu)成一篇文檔,經(jīng)過TF-IDF處理后可得每個研究單元的特征向量。
(2)
2.3.2 層次聚類及聚類指標(biāo)評價 層次聚類依據(jù)各聚類要素間的距離(相似度)創(chuàng)建一棵有層次的嵌套聚類樹。本文利用層次聚類法進(jìn)行研究單元聚類,在獲取研究單元的簽到POI類型特征后,通過自下向上的凝聚方法構(gòu)建聚類樹進(jìn)行類別劃分[28,29]。首先將每個聚類要素當(dāng)作一個簇,然后計算任意兩簇間距離,距離指標(biāo)采用余弦相似度度量[29],為克服離群點,簇間距離采用(類)平均距離;將最近的兩個簇合并、迭代處理,直到合并完所有簇。在聚類完成后,應(yīng)用輪廓系數(shù)(SC)[30]、戴維森堡丁指數(shù)(DBI)[31]、Calinski-Harabasz(CH)[32]值3個指標(biāo)進(jìn)行聚類結(jié)果評價。SC值越大,說明聚類效果越好;DBI越小,表明簇內(nèi)距離越小、簇間距離越大,聚類效果越好;CH值越大,代表簇自身越緊密,簇間越分散,聚類效果更優(yōu)。
在進(jìn)行人群分類前,首先依據(jù)用戶簽到特征將2 000名用戶類型的人工標(biāo)注數(shù)據(jù)構(gòu)成數(shù)據(jù)集,并選取75%樣本作為訓(xùn)練集,剩余25%作為測試集,隨后進(jìn)行特征選擇并采用10次10折交叉驗證法進(jìn)行分類訓(xùn)練與評估。由穩(wěn)定性特征選擇結(jié)果(圖3)可知,多數(shù)特征得分接近1,說明依據(jù)經(jīng)驗提取的游客與居民差異特征較合理。剔除較低得分特征(“京外簽到頻率”),最終選取“注冊地(是否為北京)”“京內(nèi)最大停留時長”“京外最大停留時長”“京內(nèi)重訪次數(shù)”“京外最大停留時長地區(qū)重訪次數(shù)”“京外簽到數(shù)量”“京內(nèi)簽到數(shù)量”“京內(nèi)簽到頻率”“京外簽到數(shù)量/京內(nèi)簽到數(shù)量”9個特征帶入分類器進(jìn)行訓(xùn)練。
圖3 特征重要性評估Fig.3 Assessment of feature importance
為獲取較好的分類結(jié)果,選取準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)和F1值4個指標(biāo)對分類結(jié)果進(jìn)行評估;同時選取K鄰近(KNN)、決策樹(DT)、支持向量機(jī)(SVM)、隨機(jī)森林(RF)、AdaBoost 5個分類器對分類結(jié)果進(jìn)行橫向比較(圖4),發(fā)現(xiàn)AdaBoost集成分類器綜合分類效果最佳,故將其作為最終分類器對游客與居民進(jìn)行分類。如圖5所示,總計識別出游客4 187名,居民22 018名,帶有經(jīng)緯度的簽到數(shù)據(jù)中游客18 803條,居民232 492條。將本文的分類方法與前人方法進(jìn)行比較(表3),結(jié)果顯示本文方法各個評價指標(biāo)的數(shù)值均有提升。
圖4 不同分類器分類結(jié)果比較Fig.4 Comparison of classification results for different classifiers
圖5 2016年北京市城六區(qū)游客與居民簽到分布Fig.5 Check-in distribution of tourists and residents in six core districts of Beijing in 2016
表3 不同分類方法結(jié)果比較Table 3 Comparison of classification results of different methods
利用規(guī)則格網(wǎng)進(jìn)行研究區(qū)劃分并提取簽到聚集區(qū),分別選取100 m、250 m、500 m及1 000 m格網(wǎng)進(jìn)行試驗。提取結(jié)果顯示,1 000 m格網(wǎng)下的聚集區(qū)分布較寬泛,而100 m和250 m格網(wǎng)下結(jié)果較離散,500 m格網(wǎng)下結(jié)果理想,且研究表明,500 m是人類日常活動較頻繁的范圍[33],因此本文選用500 m格網(wǎng)作為局部莫蘭指數(shù)的計算單元,空間關(guān)系則采用適合面狀要素的一階鄰接面進(jìn)行簽到聚集區(qū)提取(圖6)。
圖6 游客與居民簽到聚集區(qū)識別結(jié)果Fig.6 Identification results of check-in gathering areas for tourists and residents
總體看,游客和居民的簽到多集中在五環(huán)以內(nèi),以故宮為中心,整體呈現(xiàn)出中心高、外圍低的空間格局。東、西城區(qū)更靠近中心,簽到量高;石景山區(qū)遠(yuǎn)離中心,關(guān)注度較少;海淀區(qū)和朝陽區(qū)的簽到環(huán)東、西城區(qū)分布,離中心越遠(yuǎn)簽到量越低。豐臺區(qū)盡管在地理位置上鄰接?xùn)|、西城區(qū),但并未獲得微博用戶的高關(guān)注。游客在天安門、后海、三里屯周圍形成3個明顯的高密集簽到區(qū),簽到密度由中心向外圍逐漸降低;居民除以上高密集簽到區(qū)外,簽到聚集區(qū)更加分散,在海淀區(qū)各大高校范圍內(nèi)存在顯著的聚集區(qū)。
得到游客與居民簽到聚集區(qū)后,利用簽到點的POI類型劃分簽到聚集區(qū)類型,以挖掘游客與居民簽到聚集區(qū)的類型差異。將每個研究單元的簽到POI類型經(jīng)過TF-IDF向量化與L1正則化處理后進(jìn)行層次聚類(圖7),可以看出游客與居民均在11類時聚類效果最佳,故將最終聚類數(shù)設(shè)為11。
圖7 游客與居民聚類結(jié)果評價Fig.7 Evaluation of clustering results of tourists and residents
完成聚類后,統(tǒng)計游客和居民簽到聚集區(qū)類型內(nèi)各POI類型的占比情況,兩類人群只在18種POI類型上存在簽到行為(圖8),進(jìn)而對各聚集區(qū)類型相似度進(jìn)行比較(圖9)??傮w看,游客與居民在1-8類型上相似性很高,均由單一類型主導(dǎo);9-11類型為混合類型,在9、10類型游客偏向住宿服務(wù),居民偏向商務(wù)住宅,第11類型主要為政府機(jī)構(gòu)及社會團(tuán)體,游客地名地址信息簽到較多,居民則為商務(wù)住宅。進(jìn)一步對比兩類人群聚集區(qū)各類型占比(圖10),發(fā)現(xiàn)二者均在類型4簽到較多,該類型以地名地址信息為主,且以“三里屯”“王府井”“五道口”等熱點地名為代表;二者在1、2、3、5、7、10類型上簽到量差異明顯,在餐飲服務(wù)、風(fēng)景名勝及體育休閑服務(wù)主導(dǎo)的聚集區(qū)類型上游客明顯多于居民,在科教文化服務(wù)及商務(wù)住宅主導(dǎo)的聚集區(qū)類型上居民顯著多于游客。
圖8 游客與居民簽到聚集區(qū)類型內(nèi)各POI類型占比Fig.8 Proportion of POI types in the different types of check-in gathering areas for tourists and residents
圖9 游客與居民簽到聚集區(qū)類型相似度評價Fig.9 Similarity evaluation of types of check-in gathering areas between tourists and residents
圖10 游客與居民簽到聚集區(qū)各類型占比Fig.10 Proportion of different types of check-in gathering areas for tourists and residents
由游客與居民簽到聚集區(qū)各類型的空間分布(圖11)并結(jié)合圖8可以看出,人群異質(zhì)性造成簽到聚集區(qū)的空間差異及簽到類型分異。游客簽到聚集區(qū)類型特征及分布較明顯,環(huán)故宮簽到類型豐富且密集,外圍簽到聚集區(qū)類型單一且離散。其中,以餐飲服務(wù)為主導(dǎo)的類型區(qū)相對集中在三環(huán)內(nèi),周圍多為購物服務(wù)類型;圓明園、奧林匹克森林公園、798藝術(shù)區(qū)、法華寺等風(fēng)景名勝區(qū)分布離散且多與科教文化服務(wù)類型相鄰;此外,還有以北京西站、北京南站、北京站等為代表的交通設(shè)施服務(wù)類型和以中國傳媒大學(xué)為代表的科教文化服務(wù)類型等離散性聚集區(qū)類型。居民簽到聚集區(qū)類型呈顯著的地區(qū)特征,其中,海淀區(qū)以科教文化服務(wù)類型為主,朝陽區(qū)以商務(wù)住宅類型為主,東、西城區(qū)主要是餐飲、購物及風(fēng)景名勝等服務(wù)類型。同時發(fā)現(xiàn),對于游客與居民,北京西站與北京南站均為相對獨立的聚集區(qū),用戶熱衷簽到的地區(qū)與這兩個火車站都有一定的距離,火車站孤立現(xiàn)象也從側(cè)面反映了其周邊服務(wù)不均衡問題。
圖11 游客與居民簽到聚集區(qū)類型分布Fig.11 Distribution of different types of check-in gathering areas for tourists and residents
對游客與居民簽到聚集區(qū)的POI類型利用TF-IDF向量化并計算余弦距離,得到游客與居民共同簽到聚集區(qū)的相似性計算結(jié)果(圖12),取值范圍為[0,1],采用自然斷裂法將其分為7個等級,值越大表明該地區(qū)兩類人群的簽到類型越相似。從圖12可知,兩類人群在具有特定類型的場所簽到相似性很高,如北京西站、北京南站等火車站,北京大學(xué)、中國傳媒大學(xué)等科教文化服務(wù)場所,國家體育場、798藝術(shù)區(qū)、五棵松等風(fēng)景名勝區(qū)。
圖12 游客與居民簽到聚集區(qū)內(nèi)POI類型相似性度量Fig.12 Similarity measurement of POI types in check-in gathering areas for tourists and residents
本文以“三里屯”“中關(guān)村”“水立方”“亮馬橋”“天安門東”5類典型地區(qū)為例,通過簽到類型云圖(圖略)說明游客與居民兩類人群在相同聚集區(qū)內(nèi)簽到類型差異。其中,三里屯地區(qū)游客主要集中于購物、體育休閑、餐飲及住宿服務(wù),簽到類型具體且與旅游關(guān)系密切;居民則在購物及地名地址信息類型簽到較多,“三里屯”這一地名地址信息類型代表較寬泛,且多為用戶自主選擇,這也代表了居民對該地區(qū)較為熟悉。中關(guān)村地區(qū)游客與居民簽到類型差異顯著,對游客主要提供科教文化與商務(wù)住宅類型的服務(wù),對居民則主要為生活與購物類型的服務(wù)。水立方附近地區(qū)對游客主要提供體育休閑、生活及住宿類型的服務(wù),但該地區(qū)的“盤古大觀”“IBM”等商務(wù)住宅類型吸引了較多的居民簽到。亮馬橋地區(qū)附近眾多酒店為游客提供了住宿服務(wù),周邊大使館為其工作人員提供了商務(wù)及住宅服務(wù),盡管該地區(qū)簽到差異顯著,但其服務(wù)功能具有互補性。中關(guān)村和水立方兩地在旅游旺季是否會產(chǎn)生游客和居民的簽到“沖突”值得關(guān)注。此外,在天安門以東區(qū)域,游客多為餐飲及住宿活動,不太關(guān)注居民常去的“菖蒲河公園”,而這可以為旅游推薦提供參考。
由此可見,人群異質(zhì)性導(dǎo)致相同地區(qū)提供的服務(wù)類型也會產(chǎn)生差異,利用大數(shù)據(jù)進(jìn)行人群異質(zhì)性研究不僅可以挖掘地區(qū)間的類型相似性,還可探索地區(qū)內(nèi)部提供的不同服務(wù)類型,從而為找尋游客和居民這兩類人群的“平衡點”提供幫助。
本文應(yīng)用社交媒體數(shù)據(jù),篩選出具有代表性的人群差異特征進(jìn)行游客與居民識別,其準(zhǔn)確性、召回率等分類結(jié)果評價指標(biāo)較前人方法均有顯著提升,為人群分類研究提供了參考。將簽到數(shù)據(jù)與簽到地的POI類型結(jié)合,以用戶的簽到數(shù)量作為研究單元內(nèi)各個POI類型的權(quán)重進(jìn)行聚類,為小尺度、細(xì)粒度研究單元的類型劃分提供借鑒,并從簽到地類型角度定量分析對比了北京市游客與居民的簽到差異,主要表現(xiàn)在以下方面:1)從簽到聚集區(qū)的空間分布看,游客比居民簽到更集中,但二者的簽到聚集區(qū)都呈現(xiàn)出以故宮為中心,北高南低、東高西低的分布格局。2)從簽到類型看,游客簽到聚集區(qū)集中在故宮周邊以及圓明園、奧體中心等知名景點;居民簽到較分散,但高校簽到量突出,體現(xiàn)了社交媒體使用偏向年輕化的特點。3)游客和居民在火車站、高校等單一的土地利用類型區(qū)域簽到相似度較高,同時存在“三里屯”“中關(guān)村”等相似度較低的地區(qū),一方面體現(xiàn)這些地區(qū)為混合土地利用類型,另一方面揭示了由人群異質(zhì)性產(chǎn)生的地區(qū)類型偏好差異。通過研究這些差異不僅可以發(fā)掘一些潛在的景區(qū)進(jìn)行旅游推薦,而且可以為游客與居民之間的“主客關(guān)系”研究提供參考。
微博這一社交媒體數(shù)據(jù)提供了空間分異研究的宏觀視野,但代表的人群存在有偏性,所揭示的空間分異代表人群多為青年,且學(xué)生占比較大。今后可以考慮專門針對學(xué)生群體并結(jié)合感興趣區(qū)等數(shù)據(jù)進(jìn)行區(qū)域研究,此外,社交媒體數(shù)據(jù)蘊涵的豐富文本內(nèi)容也是以后研究的重點。