夏 宇,楊舒波,張忠海
(1.江西師范大學地理與環(huán)境學院,330022,南昌;2.江西師范大學鄱陽湖濕地與流域研究教育部重點實驗室,330022,南昌)
興趣點(Point of Interest POI)數(shù)據(jù)是一種包含了空間信息和屬性信息的空間數(shù)據(jù)源。POI數(shù)據(jù)由于與生活密切相關(guān),通過研究POI的分布特征可以反映出城市人口、商業(yè)等的布局特征。吳康敏[1]等利用廣州市核心區(qū)域不同類型的POI數(shù)據(jù),利用核密度分析、統(tǒng)計分析、最近鄰距離分析方法來識別不同類型的商業(yè)中心的邊界,并探索商業(yè)空間結(jié)構(gòu)和模式。許澤寧[2]利用電子地圖興趣點來提取城市建成區(qū),高曉路[3]等利用POI的核密度等值線來提取城市群邊界。段亞明[4]等利用POI數(shù)據(jù)來識別重慶城區(qū)的多個中心。這些研究表明POI數(shù)據(jù)對研究城市空間特征有重要意義。外賣店鋪作為一類重要的POI數(shù)據(jù),伴隨著移動互聯(lián)網(wǎng)的發(fā)展而成長。目前,我國在線餐飲外賣用戶規(guī)模突破3億。其中21-35歲年齡段的人最多,占了73.04%,年輕人是網(wǎng)絡訂餐的主力消費人群。文獻[5]指出研究餐飲業(yè)店鋪分布可以發(fā)現(xiàn)城市人口的分布特征與經(jīng)濟重心,餐飲業(yè)的合理化布局對發(fā)展城市經(jīng)濟、滿足居民需求發(fā)揮著重要作用。研究外賣行業(yè)的布局特征有重要研究意義。
POI數(shù)據(jù)的獲取方式分為3類,第1類是利用地圖服務商提供的接口獲取指定區(qū)域的POI數(shù)據(jù),如曾璇[6]等利用高德地圖開放的API爬取并篩選2015年海珠區(qū)POI數(shù)據(jù),戚榮昊[7]等通過百度地圖獲取POI數(shù)據(jù)。第2類是使用社交媒體的位置簽到數(shù)據(jù)來獲取POI數(shù)據(jù),丁娟[8]等利用照片中的地理位置坐標信息,采用DBScan聚類分析方法,計算中國入境游客地理興趣點(POI),胡慶武[9]等通過微博簽到數(shù)據(jù)來探索城市熱點與商圈,并指出眾源地理數(shù)據(jù)為空間數(shù)據(jù)挖掘提供了一個新的研究方向。第3類是O2O上的POI數(shù)據(jù),文獻[10]利用爬蟲采集了北京大上地區(qū)大眾點評數(shù)據(jù)來研究城市商業(yè)服務設(shè)施的發(fā)展規(guī)律。并指出傳統(tǒng)由工商部門或商業(yè)采集的POI數(shù)據(jù)受采集周期的影響,存在樣本量不足的、實效性差等缺點。第2、第3類作為眾包地理數(shù)據(jù)源,具有更新快、數(shù)據(jù)量大、實效性高的優(yōu)點。
美團外賣的店鋪數(shù)據(jù)相對于大眾點評的POI數(shù)據(jù)具有銷量、價格等經(jīng)濟屬性,由于使用量大,店鋪POI信息更新速度相對更快,對研究餐飲行業(yè)的布局特征和發(fā)展狀況有重要意義,本文利用網(wǎng)絡爬蟲獲取美團外賣在南昌市的店鋪POI數(shù)據(jù),并利用核密度方法和統(tǒng)計方法來研究外賣店鋪POI的布局特征。可以為餐飲行業(yè)的商業(yè)選址提供指導意義,同時為從業(yè)人員提供銷量分布特征,為相關(guān)決策提供參考。
南昌市是長江中游城市群中心城市之一、環(huán)鄱陽湖城市群核心城市,經(jīng)濟發(fā)展處在全國前列,有較強的代表性。2018年常住人口541.74萬,城市建成區(qū)358.90 km2。本文將南昌市繞城高速所包圍的區(qū)域作為主要的研究區(qū)域,主要包含東湖、西湖、青云譜、灣里、青山湖、新建區(qū)等部分區(qū)域,涵蓋南昌市主要建成區(qū)范圍(圖1)。
圖1 南昌市繞城高速行政區(qū)劃
網(wǎng)絡爬蟲是一種自動抓取網(wǎng)頁內(nèi)容的程序,傳統(tǒng)的網(wǎng)絡爬蟲通過解析html文檔[11],將有用的數(shù)據(jù)提取出來。隨著移動互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了一些超級應用,這些應用成了一個個信息孤島,這些應用的數(shù)據(jù)無法通過搜索引擎來獲取,也無法通過解析html的方式爬取數(shù)據(jù),但這些應用也是通過http和后臺交互,通過獲取關(guān)鍵接口,構(gòu)造請求參數(shù),模擬應用請求,也可以持續(xù)不斷地將特定的數(shù)據(jù)抓取下來[12-13]。當前的數(shù)據(jù)格式主要為JSON,JSON(JavaScript Object Notation)是一種輕量級的數(shù)據(jù)交換格式。它基于ECMAScript的一個子集,采用完全獨立于編程語言的文本格式來存儲和表示數(shù)據(jù)。在JS語言中,一切都是對象。因此,任何支持的類型都可以通過JSON來表示,例如字符串、數(shù)字、對象、數(shù)組等。但是對象和數(shù)組是比較特殊且常用的2種類型:對象表示為鍵值對、數(shù)據(jù)由逗號分隔、花括號保存對象、方括號保存數(shù)組。
本文爬蟲的過程如圖2所示,通過瀏覽器訪問美團外賣(http://h5.waimai.meituan.com/waimai/min dex/home),并打開調(diào)試工具,通過加載數(shù)據(jù)來獲取店鋪列表的接口(http://i.waimai.meituan.com/openh5/homepag e/poilist),并讀取cookie和header數(shù)據(jù)記錄下來,通過模擬請求的方式來獲取接口的數(shù)據(jù)。本文將南昌市0.1度×0.1度的格網(wǎng),在每個節(jié)點最多請求10次接口,每次間隔20 s,以防止ip地址被封閉,將請求到的json數(shù)據(jù)(圖3)解析并存放到數(shù)據(jù)庫中,由于美團對數(shù)字進行了加密,且同一個數(shù)字對應的字符串相同,通過目視解密,在存進數(shù)據(jù)庫前,將加密字符替換成對應的值。
圖2 爬蟲處理流程圖
圖3 接口返回數(shù)據(jù)
由于這個接口沒用帶經(jīng)緯度數(shù)據(jù),本文通過高德地圖web服務和百度地圖web服務將文字地址轉(zhuǎn)換成經(jīng)緯度,再將坐標系統(tǒng)一轉(zhuǎn)換成wgs84坐標系,并分別制作核密度圖(圖4),從圖4中可以看出百度地圖文字轉(zhuǎn)經(jīng)緯度的核密度圖存在2個密度值非常高的點,導致這2個點的周圍的密度呈圓圈分別,造成這種現(xiàn)象的原因是百度地圖將多個不同的地址解析在一個經(jīng)緯度上,而高德地圖解析出來的經(jīng)緯度則不存在這個規(guī)矩的形狀,通過以上判斷可以說明高德地圖的地址解析更好,所以最終本文采用高德web服務。
圖4 不同地址解析結(jié)果核密度估計值圖
核密度估計方法是一種適合于連續(xù)性現(xiàn)象的密度估計方法,如城市設(shè)施服務影響,交通路段風險評估等[14]。核密度的計算公式如下:
式中:f(s)為位置s處的核密度計算函數(shù);h為距離閾值;n為到位置s的距離小于或等于h的店鋪數(shù)量;k函數(shù)則表示權(quán)重函數(shù)。這一公式表明密度值在每個店鋪ci處最大,與ci相距h時密度值為零。核密度函數(shù)存在權(quán)重函數(shù)k與距離閾值h 2個關(guān)鍵參量。常用的權(quán)重計算函數(shù)有高斯方程、四次方程、副指數(shù)方程、最小方差方程等。研究表明權(quán)重函數(shù)的選擇對結(jié)果的影響不大,距離閾值的選擇對結(jié)果的影響較大。根據(jù)實際經(jīng)驗,h值越大,密度表面越光滑,熱點區(qū)域越容易被覆蓋;h值越小,得到的密度表面變化越突兀,局部的特征會更明顯,而整體關(guān)聯(lián)性減弱,使得熱點區(qū)域過于分散。本文選擇500 m、1 000 m、1 500 m、2 000 m為搜索帶寬進行實驗,結(jié)果如圖5所示??梢钥闯觯S著帶寬的增加熱點區(qū)域的個數(shù)在減小,熱點區(qū)域越來越集中,且密度表面越來越趨向于光滑,在4種帶寬中h=1 000效果比較理想,在反映餐飲分布的整體趨勢的同時,也能夠較好地呈現(xiàn)局部的熱點區(qū)域信息。因此本文選用帶寬為1 000 m為核密度估計的搜索帶寬。
圖5 不同帶寬下的核密度估計結(jié)果
本文通過爬蟲爬取到4 363條數(shù)據(jù),這些店鋪分布如圖6所示。這些店鋪整體分布還是比較均勻,適合用來分析南昌市外賣POI布局特征,其核密度如圖7所示。從圖7中可以看出,外賣餐飲的分布特征在整體上呈現(xiàn)由中心向外圍密度逐漸減小的趨勢;從局部熱點來看,其熱點區(qū)域主要分布在老福山、八一廣場、西湖區(qū)、孺子路、萬達廣場、紅谷灘、瑤湖等,其中老福山、八一廣場、孺子路、萬達廣場、紅谷灘等作為城市的商業(yè)中心,人流量大,年輕人多,年輕人作為外賣的主力軍,導致這些區(qū)域的店鋪密度特別高,而瑤湖周邊有若干所大學分布,大量的學生對外賣的需求也比較大,所以瑤湖的店鋪密度也特別高,這說明餐飲行業(yè)作為基礎(chǔ)服務設(shè)施,它的熱點區(qū)域分布與人口分布有很大的重合性,人口越密集的地方對食品的需求越大,同時年輕人多的地方,店鋪的分布也比較密集。
圖6 外賣店鋪分布范圍
圖7 外賣店鋪的核密度估計結(jié)果
本文按照月銷量0~199、200~999、1 000~3 999、4 000~9 999分為低、較低、較高、高4類,其分布如圖8所示,數(shù)量如圖9所示,月銷量小于200份的店鋪占了一半以上,這可以說明對大部分店鋪而言,外賣只是增加了一種他們的銷售方式,無法依靠外賣獨立經(jīng)營,他們更多的還是依賴傳統(tǒng)的銷售方式生存。從不同銷量的店鋪分布圖來看,外賣銷量的分布特征為銷量從低到高的店鋪分布越來越集中,銷量大于4 000的店鋪大部分都分布在核密度為深色的區(qū)域,在這些區(qū)域周邊存在著大量的店鋪,競爭大,同時這些區(qū)域人流密集,需求旺盛,回報也大。外賣店鋪的分布密度對店鋪選址等有著重要的指導意義。
圖8 不同銷量類別的店鋪分布結(jié)果
利用arcgis的空間分析值提取到點工具將核密度估計值提取到店鋪上,本文按銷量每個1 000將銷量分為9種類型,并計算平均核密度值,結(jié)果如圖10所示。從圖10中可以看出,不同銷量的核密度平均值呈現(xiàn)出先升后降再上升的趨勢,當銷量低于4 000時,店鋪的銷量越高,店鋪所在的地方核密度值越高,銷量在4 000~8 000,隨著銷量的增加,店鋪所在地方的核密度值先持平后稍微下降一段,當銷量高于8 000核密度值又變大了。這表明當銷量較低時周圍店鋪越多越有利于店鋪的銷售,這個時候這里的競爭還不充分,當銷量達到中等銷量的時候周圍店鋪的存在反而會降低自己的銷量,此時這個地方存在過度競爭的趨勢。而對于銷量最好的商家而言,周圍店鋪越多自身的銷量越好,表明這些店鋪對周圍店鋪具有競爭優(yōu)勢。
圖9 店鋪類別數(shù)量和占比
圖10 不同銷量的店鋪平均核密度值
本文通過爬蟲爬取美團外賣在南昌市的店鋪POI數(shù)據(jù)4 363條數(shù)據(jù),外賣店鋪數(shù)據(jù)具有實時更新,具有經(jīng)濟屬性等特點,利用核密度方法研究了南昌市外賣店鋪POI在南昌市的集聚特征,得到如下主要結(jié)論。
1)外賣店鋪在南昌市的分布呈現(xiàn)出由市中心向周邊逐漸減小的趨勢,外賣店鋪分布熱點主要分布在老福山、八一廣場、西湖區(qū)、孺子路、萬達廣場、紅谷灘、瑤湖等商業(yè)中心或大學城附近。這對餐飲行業(yè)的商業(yè)選址具有指導意義。
2)南昌市外賣店鋪60%店鋪月銷量低于200,大部分店鋪無法依賴外賣平臺生存下來,銷量高于4 000的店鋪大部分都分布在店鋪密集區(qū)域。這表明南昌市的外賣行業(yè)還有很大的發(fā)展?jié)撡|(zhì)。
3)對低銷量和高銷量的店鋪而言周圍的店鋪越多,越有利于提高銷量;而對于中等銷量的店鋪而言,周圍店鋪的增多對銷量起著抑制的作用。這對外賣從業(yè)人員提高銷量提供了一個選擇的思路。