張 惠,沈 亮,李寶磊,戴鵬程
(中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司 北京100080)
近年來(lái),移動(dòng)互聯(lián)網(wǎng)用戶(hù)連續(xù)呈現(xiàn)爆發(fā)式增長(zhǎng),一方面得益于移動(dòng)網(wǎng)絡(luò)的發(fā)展、智能終端價(jià)格及流量資費(fèi)下降等外部因素;另一方面,移動(dòng)互聯(lián)網(wǎng)應(yīng)用在用戶(hù)中的快速普及,成為用戶(hù)規(guī)??焖侔l(fā)展的內(nèi)在推動(dòng)力,而作為業(yè)務(wù)承載管道的運(yùn)營(yíng)商則擁有了最優(yōu)質(zhì)的數(shù)據(jù)資源。
隨著當(dāng)下數(shù)據(jù)采集、存儲(chǔ)與數(shù)據(jù)挖掘分析技術(shù)的日益成熟,如何利用大數(shù)據(jù)技術(shù),盡可能多地收集數(shù)據(jù),整理關(guān)聯(lián)數(shù)據(jù),保存數(shù)據(jù),充分發(fā)揮大數(shù)據(jù)的價(jià)值,盡可能地發(fā)掘數(shù)據(jù)的行業(yè)應(yīng)用,轉(zhuǎn)化大數(shù)據(jù)資產(chǎn)的價(jià)值,為用戶(hù)提供更加優(yōu)質(zhì)、個(gè)性化的服務(wù),增加用戶(hù)粘性,是運(yùn)營(yíng)商未來(lái)業(yè)務(wù)發(fā)展的趨勢(shì)和目標(biāo)。
中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司網(wǎng)優(yōu)所借助長(zhǎng)期對(duì)移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的測(cè)試、優(yōu)化與運(yùn)營(yíng),積極探索移動(dòng)大數(shù)據(jù)的行業(yè)應(yīng)用,近期使用自主開(kāi)發(fā)的大數(shù)據(jù)挖掘分析平臺(tái)(DMAP)完成了手機(jī)數(shù)據(jù)在交通規(guī)劃中的咨詢(xún)分析,本文對(duì)這一應(yīng)用進(jìn)行詳細(xì)介紹。
交通數(shù)據(jù)傳統(tǒng)的采集手段包括交通燈、感應(yīng)線圈探測(cè)器、視頻圖像處理裝置以及基于GPS的車(chē)體等,這種采集手段的優(yōu)點(diǎn)是大量的設(shè)備已經(jīng)投入應(yīng)用,應(yīng)用基礎(chǔ)好;缺點(diǎn)是建設(shè)成本和運(yùn)營(yíng)維護(hù)成本較高,且提供信息的范圍有限。
相比其他數(shù)據(jù)源,手機(jī)數(shù)據(jù)的優(yōu)勢(shì)在于以下4個(gè)方面。
①手機(jī)數(shù)據(jù)的采集對(duì)象為手機(jī)終端,交通出行的人群主體是手機(jī)的主要使用群體,因此,基于手機(jī)數(shù)據(jù)分析得到的交通信息能夠反映主體人群的交通特征及規(guī)律。
②手機(jī)數(shù)據(jù)包含的信息具有樣本量高、實(shí)時(shí)性強(qiáng)的特點(diǎn),可以對(duì)移動(dòng)用戶(hù)進(jìn)行連續(xù)追蹤,再現(xiàn)手機(jī)用戶(hù)的出行鏈,可以按照規(guī)劃需求進(jìn)行出行鏈的分割。
③手機(jī)數(shù)據(jù)信息可以濾除用戶(hù)屬性信息,將用戶(hù)手機(jī)號(hào)碼進(jìn)行加密處理,不涉及用戶(hù)隱私。
④手機(jī)作為交通信息采集設(shè)備,具有投資少、見(jiàn)效快的優(yōu)點(diǎn),有廣泛的覆蓋范圍和低廉的建設(shè)成本,且包括全天全量信息,采集不受氣候干擾,具有高度的靈活性。
目前,基于手機(jī)數(shù)據(jù)的人員出行信息分析技術(shù)主要采用兩類(lèi)手機(jī)數(shù)據(jù):手機(jī)話單數(shù)據(jù)和手機(jī)信令數(shù)據(jù)。兩類(lèi)數(shù)據(jù)源的數(shù)據(jù)內(nèi)容及特點(diǎn)見(jiàn)表1。
兩者的差別在于手機(jī)信令數(shù)據(jù)定位信息更完整,但采集依賴(lài)于運(yùn)營(yíng)商采集設(shè)備是否完善;手機(jī)話單數(shù)據(jù)是手機(jī)信令數(shù)據(jù)的子集,其獲取難度較低。
(1)數(shù)據(jù)的獲取
通過(guò)部署在省公司端口的數(shù)據(jù)采集設(shè)備,進(jìn)行原始數(shù)據(jù)的格式封裝、采集存儲(chǔ)。
(2)數(shù)據(jù)的預(yù)處理
采集的數(shù)據(jù)均為原始二進(jìn)制碼流,需要通過(guò)DMAP 工具進(jìn)行內(nèi)容解析及格式轉(zhuǎn)換,并且進(jìn)行信息的清洗和過(guò)濾,在提取出來(lái)的多個(gè)字段信息中,依據(jù)分析需求保留需要的字段,同時(shí)實(shí)現(xiàn)手機(jī)號(hào)碼的加密處理。
(3)信息匹配
依據(jù)提取數(shù)據(jù)中的LAC/CI 字段,與小區(qū)基礎(chǔ)數(shù)據(jù)進(jìn)行信息匹配,從而實(shí)現(xiàn)經(jīng)緯度信息的關(guān)聯(lián),通過(guò)IMSI 字段區(qū)分出本地和漫游用戶(hù)信息。
(4)輸出結(jié)果
按照相關(guān)統(tǒng)計(jì)算法,獲得手機(jī)用戶(hù)出行信息并以圖表方式進(jìn)行輸出呈現(xiàn)。
數(shù)據(jù)處理流程如圖1 所示。
以某地為例,采集連續(xù)7天的手機(jī)信令數(shù)據(jù),采集有效數(shù)據(jù)樣本4.7 億條,涵蓋該交通分析區(qū)域本地手機(jī)用戶(hù)547 萬(wàn)人(該區(qū)域人口數(shù)量為845 萬(wàn),分析人口滲透率為64%),漫游用戶(hù)259 萬(wàn)人。
表1 數(shù)據(jù)源內(nèi)容及特點(diǎn)
圖1 數(shù)據(jù)處理流程
在規(guī)劃區(qū)內(nèi)識(shí)別手機(jī)用戶(hù)的出行時(shí)間、出行次數(shù)、出行速度等信息,用于評(píng)估城市的總體交通出行和服務(wù)水平。
(1)出行時(shí)間
每小時(shí)內(nèi)同一用戶(hù)的經(jīng)緯度有變更,計(jì)為移動(dòng)用戶(hù),統(tǒng)計(jì)全網(wǎng)每小時(shí)移動(dòng)用戶(hù)數(shù),同一用戶(hù)不累計(jì),如圖2 所示。人流出行主要分布于8:00~11:00、17:00~19:00,通過(guò)這項(xiàng)分析確定用戶(hù)出行的早晚高峰時(shí)段,后續(xù)重點(diǎn)進(jìn)行公交數(shù)據(jù)、出租車(chē)數(shù)據(jù)等其他路網(wǎng)數(shù)據(jù)在該時(shí)段的分析。
(2)出行次數(shù)
按照時(shí)間序列,同一用戶(hù)的下一條信令記錄位置信息與上一條信令記錄不一致時(shí),則該用戶(hù)移動(dòng)次數(shù)累加,從而統(tǒng)計(jì)全域中所有用戶(hù)每天出行次數(shù),如圖3 所示。案例區(qū)域中,周平均出行次數(shù)為13 人次,工作日(周一~周五)為14 人次,周末為12 人次,一周內(nèi)55%的手機(jī)用戶(hù)每天的位置移動(dòng)在10 次以下,周末兩天該占比為57%;一周內(nèi)移動(dòng)次數(shù)在50 次以上的用戶(hù)占比為0.08%,周末該占比為0.06%,周末人們的出行強(qiáng)度比工作日低。
(3)出行速度
速度=距離/時(shí)長(zhǎng)(距離=用戶(hù)位置變遷前后經(jīng)緯度距離,時(shí)長(zhǎng)=變遷后第一條記錄時(shí)間點(diǎn)-變遷前第一條記錄時(shí)間點(diǎn)),按照距離區(qū)間統(tǒng)計(jì)移動(dòng)人次,案例區(qū)域中,在30 km/h 以上的高速用戶(hù)人次占比在20%以上,交通需求較高。手機(jī)用戶(hù)出行速度分布如圖4 所示。
圖2 手機(jī)用戶(hù)出行時(shí)間分布
圖3 手機(jī)用戶(hù)出行次數(shù)分布
圖4 手機(jī)用戶(hù)出行速度分布
(4)人口分布
可通過(guò)手機(jī)用戶(hù)信息實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)人口的空間分布情況,分析不同時(shí)刻每個(gè)交通分析區(qū)域內(nèi)的人口數(shù)量或人口密度。
同一位置點(diǎn)的用戶(hù)篩重,統(tǒng)計(jì)時(shí)段內(nèi)用戶(hù)數(shù)量。案例區(qū)域內(nèi),白天用戶(hù)熱點(diǎn)主要分布于主城區(qū),夜間用戶(hù)熱點(diǎn)分布會(huì)向郊區(qū)擴(kuò)散,周末的用戶(hù)熱點(diǎn)分布向郊區(qū)擴(kuò)散的情況更為明顯,漫游用戶(hù)則主要分布在景點(diǎn)較多的幾個(gè)行政區(qū)。用戶(hù)熱點(diǎn)分布如圖5 所示。
(5)大區(qū)間OD 分布
根據(jù)時(shí)間序列,每一用戶(hù)信令記錄的第一個(gè)區(qū)域是出發(fā)點(diǎn)O 區(qū)域,區(qū)域位置變更一次記為到達(dá)點(diǎn)D 區(qū)域,以此分析區(qū)域間客流交換情況。
以某地為例,從全交通規(guī)劃區(qū)OD 分布來(lái)看,區(qū)域1 到區(qū)域2、區(qū)域2 到區(qū)域3、區(qū)域3 到區(qū)域4的人流交換最多,人流交換高峰出現(xiàn)在17:00 左右。區(qū)域OD 分布如圖6 所示。
依據(jù)上述手機(jī)數(shù)據(jù)輸出信息,再結(jié)合公交車(chē)數(shù)據(jù)、出租車(chē)行駛數(shù)據(jù)以及其他路網(wǎng)數(shù)據(jù)為后續(xù)的交通規(guī)劃提供依據(jù)。
圖5 用戶(hù)熱點(diǎn)分布
圖6 區(qū)域OD 分布
手機(jī)數(shù)據(jù)是交通規(guī)劃的重要數(shù)據(jù)源之一,依據(jù)該數(shù)據(jù)可充分把握交通情況現(xiàn)狀,包括全網(wǎng)用戶(hù)及漫游用戶(hù)分布,各區(qū)域的人口產(chǎn)生量與吸引量,人口出行時(shí)段、出行距離、出行強(qiáng)度現(xiàn)狀等。此外,手機(jī)數(shù)據(jù)應(yīng)用于交通規(guī)劃可改善交通需求預(yù)測(cè)分析的可靠性,利用歷史與目前交通數(shù)據(jù),結(jié)合未來(lái)人口、經(jīng)濟(jì)水平等,預(yù)測(cè)規(guī)劃年度出行需求,或用于交通規(guī)劃后評(píng)估、模型參數(shù)校正等,從而真正實(shí)現(xiàn)交通規(guī)劃的模型化、定量化與科學(xué)化。