周天綺
(浙江醫(yī)藥高等專科學校醫(yī)療器械學院,浙江 寧波 315100)
國外使用GIS技術對人口空間分布的應用研究始于20世紀70年代,其中以美國最為典型。美國于1970-1980年人口普查率先采用了自動化技術,發(fā)展了一套地理基礎文件,獨立坐標地圖編碼系統(tǒng)[1]。Lanscan基于土地覆蓋、坡度、道路、夜間燈光和城市密度等地理因子計算回歸方程系數(shù),把人口統(tǒng)計數(shù)據(jù)空間化到1 km×1 km的格網(wǎng)上[2]。柵格模擬技術在連續(xù)的規(guī)則格網(wǎng)上描述人口的分布,它的優(yōu)點是數(shù)據(jù)被記錄在高分辨率的規(guī)則柵格上,提供了相對更加詳細和精確的人口分布數(shù)據(jù)[3]。
我國的人口空間分布統(tǒng)計研究始于1957年。2003年廖順寶等選擇一系列影響人口分布的因子,應用多源數(shù)據(jù)融合技術,生成模擬青藏高原人口分布的1 km×1 km柵格表面[3]。
已有研究中存在的主要不足:1)用自然和社會經(jīng)濟特征綜合估計法來間接統(tǒng)計人口密度分布,數(shù)據(jù)來源不能客觀直接地反映人口數(shù)據(jù),人口統(tǒng)計數(shù)據(jù)不夠精確,無法提供城市規(guī)劃、交通、環(huán)保等部門需要的更加精確的人口分布數(shù)據(jù);2)GIS分析沒有充分利用大數(shù)據(jù)處理技術,統(tǒng)計方法、手段和技術沒有及時更新,人口統(tǒng)計既耗時成本又高。
用戶用手機發(fā)送短信、通話、上網(wǎng)等行為時,可獲取用戶的時空信息。根據(jù)移動通信原理,網(wǎng)絡需進行小區(qū)切換和周期性位置更新,這種定期產(chǎn)生的大量位置更新信息就形成了位置和軌跡數(shù)據(jù)[4]。通過對長期不規(guī)則采樣的手機通話位置數(shù)據(jù)進行分析和挖掘,采用大數(shù)據(jù)處理架構,結合ArcGIS強大的地圖制作、空間分析能力,可高效開展城市人口的空間分布統(tǒng)計。
利用手機大數(shù)據(jù)資源,在ArcGIS中建立一套城市人口空間分布統(tǒng)計模型:地圖信息模型、人口密度模型、職住地分布模型和報警電話分布模型等?;贏rcGIS和Hadoop集成環(huán)境構建城市人口統(tǒng)計平臺,實現(xiàn)大數(shù)據(jù)的空間相關性分析及其數(shù)據(jù)的可視化表達,分析城市人口的數(shù)量密度分布、職住地分布、報警電話熱點分布等,為城市人口服務管理、公共安全和經(jīng)濟發(fā)展提供決策支持。
手機定位技術是一種不依賴于GPS、具有廣闊應用前景的技術,主要包括初始蜂窩小區(qū)(Cell of Origin,COO)定位技術、TOA(Time of Arrival,TOA)定位技術、七號信令定位技術等[5]。本文實驗采用COO定位技術獲取手機用戶通話時的位置數(shù)據(jù)。
COO定位是一種單基站定位技術,它將移動設備所屬基站的坐標視為移動設備的坐標,這種定位方法的精度直接取決于基站覆蓋的范圍。在基站密集的城市中心區(qū)域,小區(qū)劃分得很小,定位精度可以達到50 m以內(nèi);越靠近城市邊緣,基站分布越分散,小區(qū)半徑越大,定位精度也會擴大到幾公里。
基于COO定位技術的手機通話位置數(shù)據(jù)記錄了手機用戶主被叫時連接的基站的位置信息,包括用戶唯一識別號、通話時間、基站經(jīng)緯度等數(shù)據(jù)。為保護用戶隱私,剔除手機號碼信息,用戶ID用加密后的IMSI號表示。移動用戶位置數(shù)據(jù)格式如表1所示。
表1 移動用戶位置數(shù)據(jù)格式
字段名稱字段含義用戶ID加密后的IMSI號時間通話發(fā)生的時間時長通話時長經(jīng)度X基站經(jīng)度X緯度Y基站緯度Y主被叫主叫或被叫區(qū)號手機歸屬地所在區(qū)號
利用手機通信過程中產(chǎn)生的用戶位置信息開展城市人口空間分布統(tǒng)計,在城市地圖網(wǎng)格化的基礎上,以相關算法或模型為基礎,建立地圖信息模型、人口密度模型、職住地分布模型、報警電話分布模型。
根據(jù)手機通信時的基站地理坐標,使用ArcGIS軟件將其轉換為點圖層Station[5]。根據(jù)這些基站點數(shù)據(jù)構建Voronoi圖(泰森多邊形)來表示手機基站的覆蓋范圍,Voronoi圖是由一組兩相鄰的基站點連線的垂直平分線連接組成的[5]。
先構建Delaunay三角形,Delaunay三角形外接圓的圓心是Voronoi多邊形的頂點;然后依次連接Delaunay三角形的外接圓圓心即可得到Voronoi圖[5]。Voronoi圖具有以下3個特征:1)每個Voronoi圖中僅有一個基站點;2)Voronoi圖內(nèi)的點到相應基站點的距離最近;3)位于Voronoi圖邊上的點到其兩邊的基站點的距離相等。以上這些特征適合于表示基站信號的覆蓋范圍,也能反應基站之間的拓撲關系[5]。所以,可用Voronoi多邊形替代蜂窩小區(qū),作為實際基站的覆蓋小區(qū)。
對杭州市地圖矢量數(shù)據(jù)進行地圖匹配及幾何校正。包括:1)杭州市行政區(qū)劃圖;2)杭州分街道地圖;3)杭州市交通小區(qū)數(shù)據(jù);4)杭州市居民小區(qū)分布圖等。對GIS矢量數(shù)據(jù)圖層進行坐標轉換,使得手機定位數(shù)據(jù)坐標系與地圖矢量數(shù)據(jù)一致[5]。
按上述方法將城市所轄區(qū)域劃分成諸多泰森多邊形網(wǎng)格,如圖1所示。再根據(jù)實際情況,將數(shù)個、甚至是數(shù)十個網(wǎng)格合并成一個工作網(wǎng)格。按行政區(qū)域統(tǒng)計人口時,可合并成社區(qū)-街道-區(qū)三級網(wǎng)格,也可按火車站、大型商場、風景區(qū)等人口聚集地來合并網(wǎng)格,以滿足不同人口統(tǒng)計的需要。
圖1 基站相對應的泰森多邊形圖層
針對手機通話時的位置數(shù)據(jù),按照用戶ID進行分組,對樣本中的所有用戶數(shù)據(jù)按照用戶ID以及時間進行排序[5]。合并每個用戶ID連續(xù)1小時內(nèi)的通話記錄,將數(shù)據(jù)整理為每個手機用戶一小時一次的基站位置記錄[5]。在此基礎上根據(jù)統(tǒng)計時段內(nèi)手機連接頻率最高的基站位置所屬的Voronoi網(wǎng)格進行人口數(shù)量統(tǒng)計。
依據(jù)圈層結構理論通過圈層人口密度的計算來分析人口密度與城市中心距離之間的關系,反映城市人口的空間分布特征。
首先,選擇城市中心,武林廣場位于杭州市區(qū)幾何中心,是杭州市最繁華的商業(yè)貿(mào)易地段,人口密度最高,所以選擇武林廣場為圈層密度中心。
其次,將城市劃分為內(nèi)圈層(0~5 km)、中圈層(5~20 km)及外圈層(>20 km)。對應的圈層半徑分別為:0.5 km、1 km、2 km,則第i個圈層距密度中心的距離ri可按公式(1)計算:
ri=(ri-1-ri-2)+ri-1
(1)
如果第i個圈層穿越n個街道或鄉(xiāng)鎮(zhèn),則該圈層的人口密度可按公式(2)計算:
(2)
式(2)中,ρi為第i個圈層的人口密度;Sn為穿越街道或鄉(xiāng)鎮(zhèn)的面積;ρn為該街道或鄉(xiāng)鎮(zhèn)的人口密度[7]。
職住地分析的關鍵是根據(jù)居家和工作不同的時段內(nèi)用戶不同的通話特征通過聚類分析識別出工作地和居住地??臻g聚類分析由經(jīng)緯度組成的二維向量,是多維空間的一個“點”。聚類分析的結果是將這些“點”分成不同“簇”,并且盡可能地將相似性較大的“點”歸為一簇[6],形成職住地通話用戶的集聚區(qū)域。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的聚類算法。在整個樣本空間點中,各類目標簇是由一群稠密樣本點組成的,這些稠密樣本點被稱為噪聲的低密度區(qū)域分割,過濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本點。與其他聚類算法相比,DBSCAN不受聚類數(shù)目的限制,更適合聚類計算中有多個居住地或工作地的情況[6]。
DBSCAN算法有2個主要參數(shù):
1)E鄰域。給定對象半徑Eps內(nèi)的鄰域稱為該對象的Eps鄰域[6]。對象半徑Eps值取移動基站的覆蓋半徑,則半徑為E的范圍內(nèi)定位點可視為一簇。
2)核心對象。如果對象的Eps鄰域至少包含最小數(shù)目MinPts的對象,則稱該對象為核心對象。MinPts代表用戶最少出現(xiàn)的次數(shù)(或閾值),工作地或居住地用戶出現(xiàn)的天數(shù)至少要達到整個統(tǒng)計時段的1/2。如果用戶出現(xiàn)天數(shù)超過該閾值,則該用戶為核心對象。
某用戶夜間睡眠時段定位點與工作時段定位點如圖2所示。
圖2 某用戶夜間睡眠時段定位點與工作時段定位點
采用核密度法分析報警電話在空間分布的總體態(tài)勢,即報警電話點集數(shù)據(jù)在幾何分布上的特點。核密度估算是在每個報警電話的基站位置上設定相應的核密度函數(shù),然后用該區(qū)域內(nèi)所有報警電話的密度函數(shù)來體現(xiàn)報警電話的空間分布規(guī)律。假設空間上分布的報警電話X1,X2,…,Xn為單元變量X的獨立同分布的一個樣本,則X所服從分布的密度函數(shù)f(X)的核密度估計為:
(3)
其中,K(u)為核函數(shù),用高斯核函數(shù)表示;h為窗口寬度,對估計結果有較大影響。目前對h的取值還沒有明確的定義,需要進行多次試驗合理進行選擇。
通過挖掘110、119、122等報警電話的空間分布,分析公安、消防、交通等安全事故的高發(fā)區(qū)域和時段,可按月、季度、年度生成各類安全事故的統(tǒng)計報表,以餅圖、直方圖等多種形式在地圖上表現(xiàn)。
ArcGIS通過Geometry API實現(xiàn)與Hadoop交互,通過Geometry API將數(shù)據(jù)傳送到Hadoop上之后,大量的分析工作就交給Hadoop來完成。在ArcGIS中通過Model Builder構建任務模型以便于自動化地執(zhí)行工作流。
為滿足對海量異構移動通信數(shù)據(jù)的處理要求,構建5層處理架構,自底往上分別是:數(shù)據(jù)源、計算層、存儲層、模型層和應用層,如圖3所示。
圖3 基于ArcGIS和Hadoop集成環(huán)境的處理架構
數(shù)據(jù)源:電信運營商的各類異構原始通信數(shù)據(jù),包括語音信息、用戶信息、基站參數(shù)等,需要進行數(shù)據(jù)清洗和轉換。首先要屏蔽用戶隱私信息,剔除手機號碼信息,用戶ID用加密后的IMSI號表示。其次要篩選出關鍵字段[11]。
計算層:開發(fā)高速數(shù)據(jù)交換組件、數(shù)據(jù)同步組件等,完成高效ETL處理,并能準確匹配到上層定義好的各類計算模型,進行不同的Map/Reduce計算。
存儲層:ArcGIS支持PostgreSQL開源數(shù)據(jù)庫。構建基于PostgreSQL的分布式關系型數(shù)據(jù)庫集群和NoSQL存儲集群,滿足結構化和非結構化數(shù)據(jù)存儲[12]。
模型層:在該層ArcGIS通過Geometry API實現(xiàn)與Hadoop交互,ArcGIS可以從Hadoop的hdfs文件系統(tǒng)中獲取數(shù)據(jù),并將數(shù)據(jù)轉化為Esri中的幾何對象、要素等空間數(shù)據(jù)進行空間分析。在ArcGIS的建模工具中構建各類模型,并屏蔽存儲層的異構模塊,向前段應用提供統(tǒng)一的接口。
應用層:通過ArcGIS中的Cluster and Outlier Analysis、Kernel Density、Hot Spot Analysis等工具進行分析,并以可視化方式呈現(xiàn)城市人口的數(shù)量密度分布、職住地分布、報警電話熱點分布等。
本文實驗選取中國移動杭州分公司2017-04至2017-06之間的移動通話數(shù)據(jù),根據(jù)2017年8月10日公布的《中國移動2017年中期業(yè)績報告》,中國移動用戶8.35億,市場份額占比61.53%,通過該比例可推算出總的人口數(shù)量。
ArcGIS中的聚類和異常分析工具(Cluster and Outlier Analysis)計算全局或局部Moran’s I,它可以評估人口的分布是聚集分布、離散分布還是隨機分布。Moran’s I的值在[-1,1]之間,Moran’s I接近于1,表示空間正相關,即高高相鄰或低低相鄰;Moran’s I接近于-1,表示空間負相關,即高低相鄰或低高相鄰;Moran’s I接近于0,表示空間無相關性,即隨機分布。
該工具可使用輸入要素類中每個要素的以下屬性創(chuàng)建一個新的輸出要素類:Local Moran’s I index、z-score、p-value和cluster/outlier type (COType)。如果要素具有較高的z-score,表示和相鄰要素有相似值,如果屬性值高于平均值,則COType字段是HH,代表具有統(tǒng)計顯著性的高值聚類;如果屬性值小于平均值,則COType字段是LL,代表具有統(tǒng)計顯著性的低值聚類。如果一個要素具有較低的z-score(如<-1.96),則表示空間異常,如果屬性值高于周圍對象的屬性值,則COType字段值為HL,反之COType字段值為LH。
根據(jù)移動通話數(shù)據(jù)分析得到的杭州市人口密度空間分布如圖4所示。市區(qū)人口密度Moran’s I值為0.46724,z-score得分為9.450127,人口分布的總體特征表現(xiàn)為集聚。杭州人口密度的高值集聚涵蓋濱江、上城、下城全境和江干、拱墅、西湖的部分區(qū)域;余杭、蕭山區(qū)的人口分布呈現(xiàn)離散特征,僅在臨浦、瓜瀝、義蓬、臨平、倉前、塘棲等表現(xiàn)為集聚。
圖4 杭州市人口密度空間分布圖
圖5 杭州市人口密度圈層分布圖
杭州市人口密度圈層分布如圖5所示?!皟?nèi)圈層”人口分布高度集聚,密度極值為17946人/km2,并伴隨距密度中心距離的增加遞減至174人/km2,比值為103,空間規(guī)律符合Smeed模型,體現(xiàn)“核心-邊緣”的空間特征。
為了數(shù)據(jù)的準確性,以3個月(2017-04至2017-06)為一個數(shù)據(jù)統(tǒng)計周期,居住地用戶出現(xiàn)時間設為23點至次日6點,工作地用戶出現(xiàn)時間設為9點至17點。這3個月共91天,工作日61天,DBSCAN密度聚類算法中居住地、工作地時間閾值分別取46天、31天。
杭州市居住地分布如圖6所示。由圖6可知,杭州現(xiàn)已形成3大居住圈:中心居住圈,以老城區(qū)為主;次中心居住圈,包括江南城、臨平城和下沙城;郊區(qū)居住圈,包括塘棲、余杭、良渚、臨浦、瓜瀝、義蓬等外圍組團。
圖6 杭州市居住地分布圖
杭州市工作地分布如圖7所示。工作地主要分布在杭州經(jīng)濟技術開發(fā)區(qū)、蕭山經(jīng)濟技術開發(fā)區(qū)、余杭經(jīng)濟技術開發(fā)區(qū)、高新開發(fā)區(qū)、未來科技城等開發(fā)區(qū)以及武林湖濱、錢江新城、城北運河等大型商圈。
圖7 杭州市工作地分布圖
核密度估算是在每個報警電話所在基站的空間位置上設定一個核密度函數(shù),然后用該區(qū)域內(nèi)所有報警電話的密度函數(shù)來體現(xiàn)報警電話的空間分布規(guī)律。此方法分析報警電話的熱點分布不僅可以識別罪案高發(fā)區(qū)域,還可以形成一個罪案發(fā)生密度由高到低連續(xù)變化的區(qū)域。核密度估算關鍵是窗口寬度h值的選擇。經(jīng)多次試驗將窗寬h設為1 km。
以2017-04至2017-06這3個月中撥打的110報警電話為樣本,采用核密度函數(shù)對110報警電話數(shù)量及分布進行分析,結果如圖8所示。
圖8 110報警電話核密度估算
3個月共接到報警電話17296起,從報警地點來看,蕭山區(qū)報警電話次數(shù)最多,其次是拱墅區(qū),報警電話次數(shù)最少的是下城區(qū)和西湖區(qū)。拱墅上塘、江干閘弄口、下城東新、江干城東是3個月里報警次數(shù)最多的區(qū)域。
通過報警電話的熱點分布分析可以反映罪案發(fā)生的聚集狀況,有助于警力資源的合理配置,也可提高公眾在相關區(qū)域活動時的警覺性。
通過與杭州市2010年第6次全國人口普查和杭州市2015年全國1%人口抽樣調(diào)查數(shù)據(jù)分別進行分析對比,上述關于杭州市人口密度分布、居住地和工作地分布情況與普查數(shù)據(jù)分析結果基本一致;報警電話分布情況與杭州市公安部門發(fā)布的治安通報結果相符。說明上述模型可用于移動通信大數(shù)據(jù)下的城市人口空間分布統(tǒng)計,可應用于城市規(guī)劃、交通疏導、公共安全等眾多領域,應用前景廣泛。下一步將通過分析職住比、內(nèi)部通勤比、內(nèi)向通勤比等指標對杭州市的職住平衡狀態(tài)進行評估,為杭州市城市發(fā)展規(guī)劃提供空間大數(shù)據(jù)服務。
參考文獻:
[1] 許亮. GIS支持下的武漢城市圈人口空間分布與預測研究[EB/OL]. http://www.docin.com/p-72961833.html, 2010-08-22.
[2] 王雪梅,李新,馬明國. 基于遙感和GIS的人口數(shù)據(jù)空間化研究進展及案例分析[J]. 遙感技術與應用, 2004,19(5):320-327.
[3] 陳學剛,楊兆萍. 基于GIS的烏魯木齊市人口空間分布模擬與變化規(guī)律研究[J]. 干旱區(qū)資源與環(huán)境, 2008,22(4):12-16.
[4] 王峰,唐美華. 基于移動通信大數(shù)據(jù)的城市人口管理解決方案[J]. 移動通信, 2014,23(13):38-41.
[5] 許寧. 基于手機定位數(shù)據(jù)的居民職住地分布特征研究[D]. 長沙:中南大學, 2014.
[6] 高碩,王銘楊,魯旭,等. 基于大數(shù)據(jù)的城市居民職住錨點計算方法研究[J]. 西部人居環(huán)境學刊, 2017,32(1):31-37.
[7] 馬淇蔚,李詠華. 2000-2010年杭州市人口分布格局時空演變[J]. 經(jīng)濟地理, 2016,36(8):87-92.
[8] 國家統(tǒng)計局. 2016年行政區(qū)劃代碼[EB/OL]. http://www.docin.com/p-72961833.html, 2017-05-16.
[9] CSDN. 基站定位LAC,CID轉經(jīng)緯度[EB/OL]. http://blog.csdn.net/zqrhzyj/article/details/63301690, 2017-03-18.
[10] OneMap. ArcGIS的大數(shù)據(jù)挖掘和并行處理[EB/OL]. http://blog.sina.com.cn/s/blog_ba3ace5f0101oqla.html, 2013-11-07.
[11] 周天綺,嚴奧霞. 基于移動通信大數(shù)據(jù)的流動人口統(tǒng)計中Hadoop的應用研究[J]. 軟件導刊, 2015,14(3):36-38.
[12] 周天綺. 基于移動通信數(shù)據(jù)的流動人口統(tǒng)計中的Hive優(yōu)化[J]. 軟件工程師, 2015,18(7):58-60.
[13] 水真香. ArcGIS統(tǒng)計工具介紹[EB/OL]. http://www.360doc.com/content/14/0721/09/3046928_395863623.shtml, 2014-07-21.
[14] 一凡. 空間自相關分析[EB/OL]. http://blog.sina.com.cn/s/blog_6c6780330101e2ad.html,2014-04-15.
[15] CSDN. 空間點數(shù)據(jù)分析與ArcGIS[EB/OL]. http://blog.csdn.net/allenlu2008/article/details/46273425, 2015-05-30.
[16] 蹦噠. ArcGIS空間統(tǒng)計分析[EB/OL]. http://blog.sina.com.cn/s/blog_8db49f0e0102wwpc.html, 2016-07-17.
[17] whwyy21c. ArcGIS10中有關空間統(tǒng)計分析的數(shù)學公式原理及工具操作匯總資料[EB/OL]. http://wenku.baidu.com/view/ea8d3d55ad02de80d4d840c8.html, 2012-04-10.