許洪波 許金輝
(北京億陽信通科技有限公司,北京 100093)
基于手機信令的空間位置數(shù)據(jù)計算職住地
許洪波 許金輝
(北京億陽信通科技有限公司,北京 100093)
通過手機信令數(shù)據(jù)提取人們在使用手機時記錄下來的基站位置和服務(wù)時間,用以識別居民出行的職業(yè)地和居住地。在分析提取到的手機信令數(shù)據(jù)時,由于數(shù)據(jù)采集、整合的質(zhì)量問題,需要對手機信令數(shù)據(jù)進行提取、清洗、關(guān)聯(lián)等預(yù)處理,在預(yù)處理后的標準化數(shù)據(jù)的基礎(chǔ)上,通過搭建數(shù)學(xué)算法、模型來識別職業(yè)地和居住地,用以輔助城市交通調(diào)查、規(guī)劃。
手機信令 職業(yè)地 居住地 交通調(diào)查 交通規(guī)劃
近年來,隨著定位技術(shù)、互聯(lián)網(wǎng)技術(shù)和移動通訊技術(shù)的不斷發(fā)展以及政府在數(shù)據(jù)開放、共享上的政策推動,人們迎來了“大數(shù)據(jù)時代”[1]。至2015年10月,中國移動電話用戶規(guī)模突破13億[2],手機已經(jīng)成為了人們?nèi)粘I畹谋匦杵贰T诔鲂腥后w中的手機擁有率和使用率已達到較高比例。在人們使用手機接打電話、收發(fā)短信、上網(wǎng)瀏覽網(wǎng)頁等行為時,就會記錄下來手機所在的基站位置和服務(wù)時間。手機大數(shù)據(jù)使得我們獲取大量動態(tài)的、帶有精準時空信息的個人數(shù)據(jù)成為可能,為關(guān)注個人的時空間行為提供了重要的契機和數(shù)據(jù)基礎(chǔ),同時深刻影響著居民的生活方式和學(xué)者的研究范式,在交通規(guī)劃領(lǐng)域掀起了手機信令數(shù)據(jù)研究的一次熱潮。
通過海量手機信令數(shù)據(jù)分析,構(gòu)建數(shù)學(xué)模型、算法,可掌握城市居民的職住地出行的往返特征,為城市交通規(guī)劃研究提供了一種全新的數(shù)據(jù)獲取技術(shù)方法。本文結(jié)合廈門市手機信令數(shù)據(jù)與城市交通規(guī)劃的大數(shù)據(jù)研究,闡述了手機信令數(shù)據(jù)的基本處理流程和職業(yè)地與居住地的識別算法。
2.1 信令數(shù)據(jù)
研究采用的手機信令數(shù)據(jù)是一種典型的手機大數(shù)據(jù),它通過數(shù)量龐大的基站連續(xù)不斷地追蹤手機用戶的位置、狀態(tài)等信息,實現(xiàn)對居民活動比較全面完整的記錄。與傳統(tǒng)數(shù)據(jù)和其它大數(shù)據(jù)相比,手機信令數(shù)據(jù)的突出價值在于近似全面樣本性、全時性,以及借助定位基站而附帶的時空間信息,因此在研究城市交通規(guī)劃上最切合需求。
手機信令數(shù)據(jù)主要包括四個信息:
(1)匿名用戶編號MSS:可以理解為手機用戶的ID;
(2)時問戳:記錄了信令事件的發(fā)生時問;
(3)基站小區(qū)編號:信令事件發(fā)生時所在的基站小區(qū);
(4)信令事件類型:記錄了用戶手機行為屬性,如掛機、發(fā)短信、接短信、主叫、被叫、正常位置更新、小區(qū)切換等。
2.2 數(shù)據(jù)預(yù)處理
對手機信令數(shù)據(jù)進行清洗,剔除異常數(shù)據(jù),主要的數(shù)據(jù)處理過程:
(1)數(shù)據(jù)表的整理主要是將信令的原始txt文件的幾個表數(shù)據(jù),經(jīng)過關(guān)聯(lián)處理,整理成如下結(jié)構(gòu)的規(guī)則如表1:
表1 數(shù)據(jù)整理規(guī)則表
續(xù)表1
(2)刪除重復(fù)數(shù)據(jù)的方法是基于表1:
1)以IMSI分組,按ODATE及OTIME升序排序;
2)遍歷數(shù)據(jù),以IMSI分組,找出經(jīng)緯度坐標相同的連續(xù)記錄塊;
3)對于相同IMSI的一組連續(xù)的記錄塊,將第一條記錄的DDATE和DTIME替換為最后一條記錄的DDATE和DTIME,保留第一條記錄,刪除其余記錄;
4)處理完所有連續(xù)記錄塊后,根據(jù)每條記錄離開時間與進入時間之差,計算停留時長STAY;
5)全月數(shù)據(jù)整體處理,不按日期分割,需要注意不同日期交接處的數(shù)據(jù)處理,以及停留時間的計算。
(3)剔除無效切換的數(shù)據(jù)過程如下:
1)針對同一IMSI編號,順次選取三條記錄(第n-1條、第n條、第n+1條),如果第n-1條記錄與第n+1條記錄坐標相同,且與第n條記錄不同,則標記第n條記錄為一條乒乓記錄;例如:CABABABAD標黃的部分為重復(fù)組,紅字表示乒乓記錄,這個情況屬于具有5條乒乓記錄的重復(fù)組。
2)對于只有一條乒乓記錄的重復(fù)組(CABAD),考慮兩點間的距離和事件發(fā)生的時間。首先,計算第n條記錄的穿越速度(Dn/TSn),當?shù)趎條記錄與第n+1條記錄距離小于1km時,穿越速度如果大于步行平均速度(6km/h),則第n條記錄坐標修改為第n-1條記錄的坐標;否則不作修改。其次,以記錄時刻為依據(jù),將凌晨02:00:00-06:00:00來回切換的數(shù)據(jù)(指其中的B記錄的time1或time2落在該時段內(nèi)),直接替換為相鄰坐標。
3)對于大于等于兩條乒乓記錄的重復(fù)組(CABABD以及CABABAD),將第一個乒乓記錄坐標替換為其相鄰的記錄坐標,一個重復(fù)組內(nèi)沿用相同規(guī)則進行替換,不再依次進行判斷。
4)遍歷結(jié)束后重復(fù)步驟2。
(4)標識停留點
完成前三步驟的數(shù)據(jù)處理后,根據(jù)每條記錄的STAY字段,篩選出大于等于30min的記錄,為所有用戶的停留點,標識為1
職住出行是指從家(居住地)中往返工作地點的出行過程,職住出行是城市居民最基本和最重要的出行,相對于其他出行,職住出行在時間和空間上具有更大的規(guī)律性,其時間安排直接影響城市居民其他活動和出行的選擇。特別是隨著城市進程加快,城市擴張迅速,導(dǎo)致居民就業(yè)范圍的擴大,職住出行的距離、時間不斷增加,使得職住出行日益復(fù)雜。因此,有必要對居民的職住出行特征進行全面的分析研究,掌握職住出行的規(guī)律,改善出行的交通環(huán)境,為城市交通規(guī)劃研究提供數(shù)據(jù)支撐。
(1)居住地識別的主要算法過程:
1)根據(jù)居民的生活及休息時間的特征判定絕大多數(shù)居民,在所觀測時間段內(nèi)(22:00-6:00),都處于休息、睡眠狀態(tài)。在這段時間,居民應(yīng)該主要停留在居住地,因此,我們可以計算居民在每個停留點的相對停留時間,作為識別居民居住地的指標。樣本i在停留點j的相對停留時間為:
3)針對每一個居民,我們選取使得P取值最大的j作為居民的居住地,即:
4)表2給出了7個樣本的前5個P的取值(按照由大到小排列),我們可以發(fā)現(xiàn),通常每個用戶的最大相對停留時間要遠大于其他相對停留時間。
表2 相對停留時間表
按照這種方法,我們能夠?qū)⑺杏脩舻木幼〉刈R別出來。但是,這種方法忽視了上夜班或者作息不規(guī)律的一部分人,可能將其工作地錯誤地識別為居住地。但考慮到此類情況在居民中所占比例不大,利用大數(shù)據(jù)大樣本的優(yōu)勢,這種方法在一定誤差范圍內(nèi)也能夠被接受。以廈門市的移動運營商的數(shù)據(jù)為數(shù)據(jù)源,識別出來的居住地可視化圖(圖1)。
(2)職業(yè)地的識別:
根據(jù)居民的生活及上班的時間特征,從預(yù)處理的數(shù)據(jù)中提取平均停留時間和平均信令條數(shù)大于一定的閾值的數(shù)據(jù),識別某地是工作地或是非工作地,計算過程分為以下3步:
1)根據(jù)時間截取數(shù)據(jù):提取原始數(shù)據(jù)中工作日(周一到周五)每天上午9點到下午5點之間的數(shù)據(jù)work_data;
2)根據(jù)步驟(1)得到work_data,計算每個經(jīng)緯度點的累計停留時間,累計信令天數(shù)及該經(jīng)緯度點出現(xiàn)的天數(shù);
3)根據(jù)步驟(2)結(jié)果計算每個經(jīng)緯度點的特征值:
a)平均停留時間=累計停留時間/出現(xiàn)天數(shù)
b)平均信令條數(shù)=累計信令條數(shù)/出現(xiàn)天數(shù)
通過設(shè)置平均停留時間和平均信令條數(shù)的閾值,識別為工作地,以廈門市移動運營商的數(shù)據(jù)為數(shù)據(jù)源,識別出來的職業(yè)地熱力圖,見圖2。
本文通過手機信令數(shù)據(jù),構(gòu)建數(shù)學(xué)模型計算職住地,所得結(jié)果經(jīng)與城市交通調(diào)查的數(shù)據(jù)成果對比,一致率達到90%,所得結(jié)果與實際調(diào)查結(jié)果極為接近,成果可信度高。
本文的研究成果可用于交通規(guī)劃的通勤特征分析,如通勤距離、通勤時間、職住特征等研究,這是本文后續(xù)的研究方向。
[1] 柴彥威.大數(shù)據(jù)研究需“以人為本”[J].城市規(guī)劃學(xué)刊,2015,(3):4-4.
[2] 中華人民共和國工業(yè)和信息化部.2015年通信運營業(yè)統(tǒng)計公報[EB/OL].2016[2016-01-21]. http://www.miit.gov.cn/n1146290/n1146402/n1146455/c4611243/content.html.
[3] 張?zhí)烊?,基于手機信令數(shù)據(jù)的上海市域職住空間分析 [J].城市交通,2016,(1):15-22.
[4] 楊超,張玉梁,張帆,基于手機話單數(shù)據(jù)的通勤出行特征分析-以深圳市為例 [J].城市交通.(1):30-36.
[5] 王德,王燦,謝棟燦等,基于手機信令數(shù)據(jù)的上海市不同等級商業(yè)中心商圈的比較-以南京市東路、五角場、鞍山路為例 [J].城市規(guī)劃學(xué)刊,2015,(3):50.
[6] 汪光燾,大數(shù)據(jù)時代城市交通學(xué)發(fā)展的機遇 [J].城市交通,2016,(1):01-07.
Calculation of Spatial Position Data Based on Mobile Phone Signaling Work and Live
XU Hong-bo,XU Jin-hui
(Beijing Boco Inter-Telecom, Beijing 100093, China)
Using the mobile phone signaling data to extract the location of the base station and the service time recorded when the mobile phone is used to identify the occupation and residence of the residents. In analysis to extract the cellular signaling data, due to the data acquisition, the integration of quality problems and need of cellular signaling data extracting, cleaning and relatedpre processing, in the standardization data preprocessing based, through building the mathematical model and algorithm, to identify occupation and residence, to assist urban traffic survey and planning.
mobile phone signaling; work place; place to live; traffic investigation; traffic planning
2016-05-13
P208
B
1007-3000(2016)06-4