徐仲之,曲迎春,孫 黎,王 璞
?
基于手機數據的城市人口分布感知
徐仲之,曲迎春,孫 黎,王 璞
(中南大學交通運輸工程學院 長沙 410075)
提出了一種基于手機數據、考慮手機市場占有率的城市人口分布感知方法,并將該方法應用于美國舊金山灣區(qū);介紹了使用手機數據動態(tài)感知城市人口分布的潛在可能,并計算了灣區(qū)各個小區(qū)白天與夜間的人口數量差。研究結果表明,基于手機數據的城市人口分布感知,對城市突發(fā)事件預警、城市交通管控、城市公共資源配置等方面都有著重大意義。
人類動力學; 手機數據分析; 人口分布感知; 城市交通
區(qū)域人口數量和區(qū)域人口分布對于國家政策的制定[1-2]、區(qū)域經營決策的制定[3]、人類行為的定量化分析[4]等方面都具有著重要作用[5-7]。在過去的數十年間,人口分布的相關研究進展迅速,出現了很多新模型、新方法。從最初的依靠人力進行人口普查的方式,發(fā)展到依靠遙感衛(wèi)星進行感知的方法、使用地理信息系統(tǒng)進行建模的方法等[8]。部分發(fā)達國家亦開展了一些國家層級的人口分布測量項目,取得了相關成果。然而,多數人口分布測量方法較復雜,實施難度較高,數據獲取較困難,導致世界許多地區(qū)的人口分布信息時效性差,更新較慢,甚至缺乏。
20世紀90年代,人口分布感知的相關研究逐漸興起,文獻[9]回顧了20世紀主要的人口分布感知技術,重點回顧了地理信息系統(tǒng)(geographic information system, GIS)技術的進步對人口分布感知技術發(fā)展所起到的推動作用。文獻[10]介紹了一種人口分布信息柵格化方法,人口分布信息的柵格化雖然提高了人口分布數據的精度,但削弱了同地理語義的結合。文獻[11]介紹了全球人口分布感知項目LandScan,該項目在提升人口分布感知精度的同時,保留了地理語義,能夠更精確地應用于地質災害預測、疾病管控等相關研究。文獻[12]提出一種采用了數據融合技術的人口分布感知方法,融合了人口普查數據和衛(wèi)星數據,提高了非洲人口分布測量的分辨率,并且基于此測量結果,分析了人口空間分布中心性和偏遠地區(qū)對于人口稠密區(qū)的可達性。研究發(fā)現絕大部分人分布在極少的地方(21%的土地含蓋了90%的人口),這為通訊設備的建立,生活服務設施的建立提供了相關指導。覆蓋整個東南亞地區(qū)的人口分布數據主要來自2000年的人口普查數據,空間分辨率不足。文獻[13]結合人口普查數據、衛(wèi)星數據和土地使用率數據,將分辨率提高至100 m左右。以上相關研究雖然從不同方面改進了人口分布感知技術,但是由于其采用的數據(遙感數據或普查數據)獲取困難,導致時效性較差。
如上文所述,人口分布在空間分辨率上的研究非常豐富,但在時間分辨率上并未得到足夠的重視。文獻[14]提出了一種動態(tài)測量人口分布的方法,以舊金山為例動態(tài)測量了舊金山的夜間和白天人口。為了達到動態(tài)測量的目的,該方法結合了衛(wèi)星數據、土地使用率數據、用地類型數據、路網數據等。文獻[15]以土地利用類型作為建模的媒介,融合人口普查數據、土地利用空間數據和建筑物空間數據,建立了“人口-晝夜-土地利用”關系模型,動態(tài)感知北京市晝夜人口分布變化。文獻[14-15]提出的方法雖然能夠動態(tài)測量城市人口分布,但使用數據多樣且難以獲取,建模方法復雜。
手機是一種良好的信息采集器。隨著全球范圍內手機普及率的提高,有大量手機信令數據可以被采集和利用[16-17]。手機數據海量、實時、易獲取的特性,使其越來越廣泛地應用于交通工程[18-19]、城市規(guī)劃[17,20]等研究領域,也為城市人口分布感知提供了新的方向,使動態(tài)感知人口分布成為可能。文獻[21]利用葡萄牙和法國某通訊公司數個月的手機數據,動態(tài)感知了葡萄牙和法國人口分布情況。文獻[22]簡要介紹了基于移動基站的人口分布動態(tài)監(jiān)測系統(tǒng),該系統(tǒng)可提供較精細時間分辨率的人口分布信息。然而,文獻[21-22]所使用的數據量龐大,在手機信令數據不十分豐富的區(qū)域難以展開,且當應用于全網實時信令分析時,交換機和相關信令鏈路的負荷過高,并需要巨量的成本投入;小樣本數據問題和數據分布不均勻性問題未得到解決。
本文使用灣區(qū)手機數據感知灣區(qū)人口分布信息。數據來自美國某通信公司,記錄了2010年中連續(xù)的21天,共429 595個手機用戶的通話詳單(call detail records, CDR)數據信息,平均每天約有1 200 000條手機CDR數據,如圖1a所示。當手機使用者進行通話或發(fā)送短信時,其通信時刻及通信基站會被記錄下來。如圖1b所示,根據泰森多邊形算法[23],將灣區(qū)按基站位置劃分為若干多邊形(即基站小區(qū)),使得基站和小區(qū)一一對應。通過每個小區(qū)包含的基站信息,可以確定一條手機CDR信息的發(fā)生小區(qū)。本文把手機用戶在20:00到第二天7:00間手機CDR記錄次數最多的小區(qū)定義為其住址小區(qū)[24]。被選取的手機用戶在所有21天的20:00到第二天7:00時間段中需至少有一條CDR信息,用于確定其住址小區(qū)。據此從中選取了360 612個手機用戶的CDR信息來進行人口分布感知研究。
a. 手機CDR數據量
b. 灣區(qū)手機基站及基站小區(qū)示意圖
圖1 手機數據量信息及基站分布示意圖
圖2a展示了灣區(qū)夜間人口密度分布情況,數據為人口普查數據,舊金山、奧克蘭、圣荷西和尤寧城等大城市人口密度較大。郊區(qū)多為山林,人口密度較小。灣區(qū)各小區(qū)面積分布如圖2b所示,可以看出,絕大部分的小區(qū)面積都較小,人口分布感知結果的精度將會較高。
a. 灣區(qū)夜間人口分布
b. 基站小區(qū)面積大小分布
圖2 灣區(qū)夜間人口分布
文獻[25-28]的結果表明,人口密度與人口活躍程度存在超線性關系。文獻[21]使用非線性方程表征人口密度與手機用戶活躍度的關系。其中,表示小區(qū)夜間手機用戶密度,表示小區(qū)的夜間人口密度。研究表明,非線性方程有著很好的擬合效果。
在灣區(qū),當手機用戶使用手機進行通信(通話/短信/上網)時,距離其最近的基站會被選擇使用。其通信的起始時間和所用基站會被記錄下來。因此,對于灣區(qū)中的小區(qū),可以計算出其夜間手機用戶數,夜間手機用戶數密度即為(為小區(qū)的面積)。根據文獻[21]中人口密度與手機用戶活躍度的關系表達式,小區(qū)夜間人口密度與夜間手機用戶密度的關系可表示為:
手機市場占有率表征一個區(qū)域作為研究對象的手機用戶的占比,受手機在該區(qū)域的普及度和所使用數據通訊商的市場份額等影響。在城市的不同區(qū)域,手機市場占有率是不同的。國家級別的人口分布感知,由于研究區(qū)域較大,精度需求較低,手機市場占有率因素影響較小[21];城市級別的人口分布感知要求更高的精度,需要考慮手機市場占有率因素。本文使用公式計算小區(qū)的手機市場占有率[29],其中,表示小區(qū)的人口普查數據,表示整個研究時間段(即21天)中所偵測到的以小區(qū)為住址小區(qū)的手機用戶數量。小區(qū)手機市場占有率和擴樣系數之間的關系為。式(1)修改為:
a. 未考慮手機市場占有率因素的的夜間人口密度與手機用戶密度¢的關系
圖3a展示了未考慮手機市場占有率因素時夜間人口密度與手機用戶密度的關系,圖3b展示了考慮手機市場占有率的情況下夜間人口密度與手機用戶密度的關系,可見考慮手機市場占有率因素在本研究中是必要的。本文將建立多元回歸分析模型,求解參數和。
回歸式(2)中,其回歸參數是非線性的。但將回歸式(2)改寫為的形式,便可將非線性回歸方程轉變?yōu)榫€性回歸方程,進而求解回歸參數為:
根據灣區(qū)手機CDR數據信息,可以得到任一小區(qū)夜間手機用戶數,由式(3)便可以計算出任一小區(qū)夜間人口密度,進而完成灣區(qū)夜間人口分布感知。如圖4所示。圖4a展示了根據灣區(qū)人口普查數據繪制的灣區(qū)人口密度分布圖,用以表征灣區(qū)夜間人口分布,用作基礎數據。圖4b為基于手機數據的灣區(qū)夜間人口密度分布感知結果。本文以各小區(qū)感知人口數量為橫坐標,普查人口數量為縱坐標進行線性擬合,擬合結果如圖4c所示,可以看出,基于本文提出的城市人口分布感知方法所得到的灣區(qū)夜間人口密度感知結果和人口普查結果一致性很高。
a. 灣區(qū)人口普查結果
b. 灣區(qū)夜間人口分布模型估計結果
一個手機用戶的擴樣系數取決于其所在住址小區(qū)的擴樣系數。夜間,在同一個小區(qū)偵測到的手機用戶,自然具有相同的擴樣系數;然而在白天,由于人口移動行為,在同一個小區(qū)偵測到的手機用戶,其住址小區(qū)可能屬于不同的小區(qū),其擴樣系數亦不相同。如圖5所示,小區(qū)的擴樣系數,住址小區(qū)為小區(qū)的手機用戶,若偵測到其白天產生了小區(qū)至小區(qū)的出行,應將其等效為一次4人次出行,以消除手機市場占有率的影響。因此,本文使用式(4)求取白天某時段的灣區(qū)人口分布感知情況:
式中,是此時段內小區(qū)的手機用戶數量;是用戶的擴樣系數。
圖5 考慮手機市場占有率的等效出行人次示意圖
手機數據數量大,獲取速度快,采集途徑簡單,具有即時性、高效性等優(yōu)點。這些特征為動態(tài)感知城市人口分布提供了可能。本研究使用的灣區(qū)手機數據,當CDR信息被記錄時,其觸發(fā)時間戳亦被記錄下來,這是時序動態(tài)研究的基礎。不同于傳統(tǒng)的人口普查方式等所獲取的人口分布數據,基于包含時間戳的手機數據,可以研究白天和夜間,周末與周中,夏季與秋季等不同時間段城市人口分布的差異,動態(tài)地了解和認識城市人口分布和流動規(guī)律。由于所研究數據限制(時間戳未記錄日期),本文僅探究白天與夜間灣區(qū)人口密度分布的相對差,以展示基于手機數據的城市人口分布感知方法在動態(tài)感知上的可行性。
本文將21天的手機CDR數據劃分為白天部分(7:00~20:00)和夜間部分(20:00~7:00),以此展開白天與夜間灣區(qū)動態(tài)人口分布研究。式(4)作為兩個時段的人口密度計算式,和均采用上文中的線性回歸最優(yōu)擬合值(即:3.848,0.929)。
計算了白天與夜間灣區(qū)人口分布密度相對差,如圖6所示??梢钥闯雒黠@的空間分布特征差異,白天人口密度較大的小區(qū)基本沿高速路分布,和文獻[21]的研究結果相一致。研究時間變化對城市人口空間分布的影響,對城市管控、交通規(guī)劃等具有重要意義;同時,城市動態(tài)人口分布感知方法也可能對城市動態(tài)人口分布的預測以及城市人口聚集區(qū)域管控等相關熱點領域的研究提供幫助和啟發(fā)。
近年來,手機在全球范圍,尤其是偏遠地區(qū)的迅速普及,移動通信覆蓋范圍的迅速增長,帶來了海量的手機數據信息。當手機用戶使用手機進行通訊時,通過手機和基站之間的信息交換,其通信發(fā)生時間、所使用基站編號等均被記錄下來,這些信息使得人們能夠使用手機數據,探究手機用戶活躍度與區(qū)域人口密度的關系。同時,計算機技術發(fā)展迅速,存儲和計算成本大幅下降,快速處理大量數據信息成為可能。這些均為城市人口分布感知提供了新方向和新思路。不同于傳統(tǒng)的人口分布感知方法,基于手機數據的人口分布感知方法,實施簡單、成本低,更利于在其他數據信息相對匱乏的偏遠地區(qū)展開;且手機數據時效性強,相較于傳統(tǒng)的人口分布感知方法,基于手機數據的人口分布感知方法能夠動態(tài)感知城市人口分布,這為城市管控、城市人口流動預測等相關方向的研究提供了基礎。
本文的研究結果表明,在舊金山灣區(qū),區(qū)域人口密度和區(qū)域手機用戶數存在超線性關系;在小區(qū)級別的人口分布感知中,考慮手機市場占有率因素是必要的,考慮手機市場占有率的區(qū)域人口密度和區(qū)域手機用戶數,其關系可用表達式表示。
本文提出的城市人口分布感知方法,無論在城市靜態(tài)人口分布感知中,還是在城市動態(tài)人口分布感知中,都取得了很好的結果,為該領域和相關領域的后續(xù)研究提供了一定的基礎。
[1] BONGAARTS J, SINDING S. Population policy in transition in the developing world[J]. Science, 2011, 333(6042): 574-576.
[2] TATEM A J, GARCIA A J, SNOW R W, et al. Millennium development health metrics: Where do Africa’s children and women of childbearing age live?[J]. Population Health Metrics, 2013, 11(1): 1-11.
[3] CHECCHI F, STEWART B T, PALMER J J, et al. Validity and feasibility of a satellite imagery-based method for rapid estimation of displaced populations[J]. International Journal of Health Geographics, 2013, 12(1): 347-360.
[4] 周濤, 韓筱璞, 閆小勇, 等. 人類行為時空特性的統(tǒng)計力學[J]. 電子科技大學學報, 2013, 42(4): 481-540.
ZHOU Tao, HAN Xiao-pu, YAN Xiao-yong, et al. Statistical mechanics on temporal and spatial activities of human[J].Journal of University of Electronic Science and Technology of China, 2013, 42(4): 481-540.
[5] LINARD C, TATEM A J. Large-scale spatial population databases in infectious disease research[J]. International Journal of Health Geographics, 2012, 11(1): 1-13.
[6] O'NEILL B C, DALTON M, FUCHS R, et al. Global demographic trends and future carbon emissions[J]. Proceedings of the National Academy of Sciences, 2010, 107(41): 17521-17526.
[7] O’LOUGHLIN J, WITMER F D W, LINKE A M, et al. Climate variability and conflict risk in East Africa, 1990-2009[J]. Proceedings of the National Academy of Sciences, 2012, 109(45): 18344-18349.
[8] 卓莉, 黃信銳, 陶海燕, 等. 基于多智能體模型與建筑物信息的高空間分辨率人口分布模擬[J]. 地理研究, 2014, 33(3): 520-531.
ZHUO Li, HUANG Xin-rui, TAO Hai-yan, et al. The simulation of high spatial resolution population distribution based on multi-agent model and construction information[J]. Geographical Research, 2014, 33(3): 520-531.
[9] DEICHMANN U. A review of spatial population database design and modeling[M]. California, USA: National Center for Geographic Information and Analysis, 1996.
[10] TOBLER W, DEICHMANN U, GOTTSEGEN J, et al. World population in a grid of spherical quadrilaterals[J]. International Journal of Population Geography, 1997, 3(3): 203-225.
[11] DOBSON J E, BRIGHT E A, COLEMAN P R, et al. LandScan: a global population database for estimating populations at risk[J]. Photogrammetric Engineering and Remote Sensing, 2000, 66(7): 849-857.
[12] LINARD C, GILBERT M, SNOW R W, et al. Population distribution, settlement patterns and accessibility across Africa in 2010[J]. PloS One, 2012, 7(2): e31743.
[13] GAUGHAN A E, STEVENS F R, LINARD C, et al. High resolution population distribution maps for Southeast Asia in 2010 and 2015[J]. PloS One, 2013, 8(2): e55882.
[14] BHADURI B, BRIGHT E, COLEMAN P, et al. LandScan USA: a high-resolution geospatial and temporal modeling approach for population distribution and dynamics[J]. GeoJournal, 2007, 69(1-2): 103-117.
[15] 戚偉, 李穎, 劉盛和, 等. 城市晝夜人口空間分布的估算及其特征——以北京市海淀區(qū)為例[J]. 地理學報, 2013, 68(10): 1344-1356.
QI Wei, LI Ying, LIU Sheng-he, et al. The estimation and characteristics of urban population distribution in daytime and nighttime—an example of Haidian, Beijing[J]. Actr Geographica Sinia, 2013, 68(10): 1344-1356.
[16] 唐小勇, 周濤. 手機信令數據在交通規(guī)劃中的應用及思考[C]//協(xié)同發(fā)展與交通實踐——2015年中國城市交通規(guī)劃年會暨第28次學術研討會論文集. 杭州: [s.n.]. 2015: 25-30.
TANG Xiao-yong, ZHOU Tao. The implication and muse of mobile phone data in traffic design[C]//Coordinate Development and Traffic Practice—Proceeding of Chinese Urban Traffic Design. Hangzhou: [s.n.]. 2015: 25- 30.
[17] 郭璨, 甄峰, 朱壽佳. 智能手機定位數據應用于城市研究的進展與展望[J]. 人文地理, 2014, 29(6): 18-23.
GUO Can, ZHEN Feng, ZHU Shou-jia. The progress and anticipation of the smart phone location data in urban research[J]. Human Geography, 2014, 29(6): 18-23.
[18] 王璞, 黃智仁, 龔航. 大數據時代的交通工程[J]. 電子科技大學學報, 2013, 42(6): 806-816.
WANG Pu, HUANG Zhi-ren, GONG Hang. Transportation engineering in the big data era[J]. Journal of University of Electronic Science and Technology of China, 2013, 42(6): 806-816.
[19] 冉斌. 手機數據在交通調查和交通規(guī)劃中的應用[J]. 城市交通, 2013(1): 72-81.
RAN Bin. Use of cellphone data in travel survey and transportation planning[J]. Urban Transport of China, 2013 (1): 72-81.
[20] 丁亮, 鈕心毅, 宋小冬. 利用手機數據識別上海中心城的通勤區(qū)[J]. 城市規(guī)劃, 2015(9): 100-106.
DING Liang, NIU Xin-yi, SONG Xiao-dong. Identifying the commuting area of Shanghai central city using mobile phone data[J]. City Planning Review, 2015(9): 100-106.
[21] DEVILLE P, LINARD C, MARTIN S, et al. Dynamic population mapping using mobile phone data[J]. Proceedings of the National Academy of Sciences, 2014, 111(45): 15888-15893.
[22] 毛夏, 徐蓉蓉, 李新碩, 等. 深圳市人口分布的細網格動態(tài)特征[J]. 地理學報, 2010, 65(4): 443-453.
MAO Xia, XU Rong-rong, LI Xin-shuo, et al. The dynamic network characteristics of Shenzhen population distribution[J].Acta Geographica Sinica, 2010, 65(4): 443-453.
[23] FU T, YIN X, ZHANG Y. Voronoi algorithm model and the realization of its program[J]. Computer Simulation, 2006, 23: 89-91.
[24] WANG P, HUNTER T, BAYEN A M, et al. Understanding road usage patterns in urban areas[J]. Scientific Reports, 2012, 2: 1001.
[25] TATEM A J, HUANG Z, NARIB C, et al. Integrating rapid risk mapping and mobile phone call record data for strategic malaria elimination planning[J]. Malaria Journal, 2014, 13(1): 1-16.
[26] SCHLAPFER M, BETTENCOURT L M A, GRAUWIN S, et al. The scaling of human interactions with city size[J]. Journal of the Royal Society Interface, 2014, 11(98): 20130789.
[27] GOMEZ-LIEVANO A, YOUN H J, BETTENCOURT L M A. The statistics of urban scaling and their connection to Zipf’s law[J]. PLoS One, 2012, 7(7): e40393.
[28] KRINGS G, KARSAI M, BERNHARDSSON S, et al. Effects of time window size and placement on the structure of an aggregated communication network[J]. EPJ Data Science, 2012, 1(4): 1-16.
[29] WANG P, GONZáLEZ M C, HIDALGO C A, et al. Understanding the spreading patterns of mobile phone viruses[J]. Science, 2009, 324(5930): 1071-1076.
編 輯 蔣 曉
Urban Population Sensing via Mobile Phone Data
XU Zhong-zhi, QU Ying-chun, SUN Li, and WANG Pu
(School of Traffic and Transportation Engineering, Central South University Changsha 410075)
This paper presents anurban population sensing method based on mobile phone dataset and applies it to San Francisco Bay Area. The difference of mobile phone market shares in different tracts is considered. We introduce the potential application of dynamic population sensing using mobile phone data and calculate the relative difference of daytime population and nighttime population in different tracts in Bay Area. The knowledge of urban population distribution has great importance of the early-warning of city emergency, urban traffic control, and the allocation of city public resources.
human dynamics; mobile phone data; population sensing; urban transportation
N94
A
10.3969/j.issn.1001-0548.2017.01.018
2016-01-06;
2016-08-23
國家自然科學基金面上項目(61473320);霍英東青年教師基金基礎研究課題(141075);湖南省科技計劃項目(2015RS4011)
徐仲之(1991-),男,主要從事數據挖掘、人類動力學和復雜網絡方面的研究.