侯笑宇,司連法,王梅紅,賀 風(fēng)
(中國地圖出版社,北京 100054)
大數(shù)據(jù)是繼物聯(lián)網(wǎng)、云計算之后最為熱門的信息技術(shù),適用于各行各業(yè)的數(shù)據(jù)融合、處理和挖掘。近年來由于手機(jī)大量普及,城市人口的手機(jī)覆蓋率接近百分之百。手機(jī)用戶頻繁的通話、短信,以及主被動的上網(wǎng)行為使得手機(jī)信令數(shù)據(jù)激增。手機(jī)大數(shù)據(jù)使得獲取大量動態(tài)的、帶有精準(zhǔn)時空信息的群體行為數(shù)據(jù)成為可能,為分析群體行為提供了重要的契機(jī)和數(shù)據(jù)基礎(chǔ)。因此,通過海量的手機(jī)信令數(shù)據(jù),分析研究城市居民的職住信息成了大數(shù)據(jù)時代下的研究熱點[1-6]。
目前,國內(nèi)外已有一些基于手機(jī)信令數(shù)據(jù)分析居民職住空間的研究。文獻(xiàn)[7]通過對手機(jī)信令數(shù)據(jù)進(jìn)行分析,抽取了居住、就業(yè)信令數(shù)據(jù)的通信特征,如時間分布特征等,并通過模式識別的方法,運用權(quán)重的思想提出了一種改進(jìn)判別方法,從而實現(xiàn)了對就業(yè)停留點和居住停留點的識別;文獻(xiàn)[8]根據(jù)手機(jī)通話的位置分布,通過空間聚類等分析識別個體的重要活動地點,結(jié)合活動時間判別居住地和工作地。文獻(xiàn)[9]在自定義的居住和工作時間段內(nèi),通過判斷手機(jī)用戶通話頻繁程度識別居住地和工作地。但由于手機(jī)信令數(shù)據(jù)定位精度的不準(zhǔn)確性,且判斷職住地時只使用了用戶軌跡的地理特征,而忽略了用戶軌跡的背景地理信息,使得基于手機(jī)信令數(shù)據(jù)職住地的識別仍然具有較大的完善空間。
本文結(jié)合成都市基站位置信息和脫敏用戶手機(jī)信令數(shù)據(jù),融合地理信息空間運算能力,通過將手機(jī)信令數(shù)據(jù)與地理信息區(qū)塊綁定,根據(jù)時間特征和地理信息區(qū)塊的標(biāo)簽屬性(如城市住宅小區(qū)、大型商場等)識別用戶職住信息,對數(shù)據(jù)處理流程和實現(xiàn)方法進(jìn)行詳細(xì)的闡述,并對職住地識別結(jié)果的可靠性和適用性進(jìn)行深入的結(jié)果驗證,旨在為商業(yè)選址、客群管理、城市規(guī)劃等應(yīng)用提供豐富的數(shù)據(jù)支撐。
手機(jī)信令數(shù)據(jù)是典型的大數(shù)據(jù)[10]。手機(jī)在開機(jī)狀態(tài)下,會定期或不定期、主動或被動地與附近基站進(jìn)行通信,平均每個用戶每天會發(fā)送10余萬條信號,這些信號連續(xù)地記錄了用戶的移動軌跡。與傳統(tǒng)數(shù)據(jù)和其他大數(shù)據(jù)相比,手機(jī)信令數(shù)據(jù)具有網(wǎng)絡(luò)覆蓋面積廣、采樣及時、更新及時、數(shù)據(jù)穩(wěn)定可靠、樣本量大等優(yōu)勢,能夠細(xì)粒度地記錄用戶每一時刻的位置信息,因此在識別居民職住信息上最符合需求。同時,手機(jī)信令數(shù)據(jù)也有其自身的不足[11],主要體現(xiàn)在:
(1) 定位數(shù)據(jù)的不準(zhǔn)確。手機(jī)信令數(shù)據(jù)通過基站所處的位置來表征用戶的實際位置,因此該位置是在基站的覆蓋范圍內(nèi),并不是用戶的真實位置,與實際存在一定偏差。定位精度的高低通常由信號覆蓋范圍的大小來決定。在城市內(nèi),基站密度較高,宏蜂窩覆蓋范圍為100~300 m,微蜂窩的覆蓋范圍則通常為幾十米;在郊區(qū),覆蓋范圍多為500~1000 m。
(2) 存在無效的切換數(shù)據(jù)。用戶位于基站交界處時,會導(dǎo)致移動設(shè)備所連接的基站反復(fù)在相鄰基站之間快速跳變;同時地形因素導(dǎo)致手機(jī)無法連接就近基站時,會出現(xiàn)異常定位數(shù)據(jù),這些無效數(shù)據(jù)成為數(shù)據(jù)應(yīng)用面臨的難題。
本文使用了中國地圖出版社自有的地圖數(shù)據(jù)和地理信息區(qū)塊數(shù)據(jù)資源,該數(shù)據(jù)內(nèi)容豐富,要素齊全、準(zhǔn)確、時效性強(qiáng),內(nèi)容主要包括地理信息區(qū)塊、行政區(qū)劃、居民地、路網(wǎng)、河流、POI數(shù)據(jù)等。其中地理信息區(qū)塊是矢量地圖數(shù)據(jù),表現(xiàn)形式為不規(guī)則多邊形,包括居民樓區(qū),辦公樓區(qū)、工業(yè)園區(qū)、學(xué)校園區(qū)、醫(yī)院區(qū)域、旅游景點區(qū)域等類型。
區(qū)塊數(shù)據(jù)的具體表現(xiàn)形式為:
(1) 居民樓區(qū)為居住區(qū)域,以小區(qū)的范圍線成塊表示。
(2) 工業(yè)園區(qū)、學(xué)校園區(qū)、醫(yī)院區(qū)域等屬于工作區(qū)域,以其范圍線成塊表示。
(3) 大型商場、大廈、寫字樓、機(jī)關(guān)單位等單體建筑單獨成塊表示。
每個地理區(qū)塊具有精細(xì)和多樣化的屬性數(shù)據(jù),包括地理區(qū)塊的自然屬性、商業(yè)屬性、用戶屬性,多標(biāo)簽的地理區(qū)塊數(shù)據(jù)提高了職住信息的獲取準(zhǔn)確性。地理信息區(qū)塊數(shù)據(jù)如圖1所示。
數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)缺失處理、地理空間匹配、刪除無效切換數(shù)據(jù)及數(shù)據(jù)壓縮等[12]。針對手機(jī)信令數(shù)據(jù)量大的特點,本文選擇Spark集群作為數(shù)據(jù)處理的平臺。具體過程如下:
(1) 將信令數(shù)據(jù)以天為單位存儲到Spark集群。
(2) 將地理信息區(qū)塊數(shù)據(jù)通過解析算法存儲到Spark集群[13]。
(3) 將手機(jī)信令數(shù)據(jù)與基站進(jìn)行關(guān)聯(lián),同時去除其中時間信息與空間信息殘缺的記錄條目。
(4) 運用空間匹配算法,通過判斷基站小區(qū)與地理信息區(qū)塊多邊形的拓?fù)潢P(guān)系,并結(jié)合相交面積等因素,將手機(jī)信令數(shù)據(jù)映射至地理實體[14-15],解決了傳統(tǒng)基站定位數(shù)據(jù)不準(zhǔn)確的問題。手機(jī)信令數(shù)據(jù)綁定地理實體后,定位點精度收斂穩(wěn)定,數(shù)據(jù)可用性高。未綁定地理實體與綁定地理實體的定位點精度對比如圖2、圖3所示。
(5) 刪除無效切換數(shù)據(jù),具體算法如下。
輸入:綁定地理區(qū)塊的手機(jī)信令數(shù)據(jù)。
輸出:刪除無效切換數(shù)據(jù)后的手機(jī)信令數(shù)據(jù)。
步驟1:將手機(jī)信令數(shù)據(jù)按照用戶編號分組,按照時間升序排序。
步驟2:針對同一用戶,計算每個時刻相對于上一時刻的距離和速度。
步驟3:依次取信令數(shù)據(jù)的第n-1條、第n條、第n+1條數(shù)據(jù),根據(jù)速度和區(qū)塊編號、區(qū)塊標(biāo)簽屬性,建立用戶當(dāng)前的行為模型,當(dāng)?shù)趎條數(shù)據(jù)的速度和位置與第n-1條、n+1條數(shù)據(jù)的速度和位置不滿足連續(xù)性行為狀態(tài)時,轉(zhuǎn)到步驟4。
步驟4:將第n條數(shù)據(jù)修正或刪除,轉(zhuǎn)到步驟3。
(6) 基于地理信息區(qū)塊,對上述算法處理后的數(shù)據(jù)進(jìn)行壓縮處理,清除大量重復(fù)數(shù)據(jù)。這里的重復(fù)數(shù)據(jù)是指單個用戶連續(xù)時間位于同一地理區(qū)塊內(nèi),如在9:00—17:00這段工作時間內(nèi),同一個人有可能持續(xù)位于同一棟辦公樓內(nèi)。清除重復(fù)數(shù)據(jù)的算法如下。
輸入:清除無效切換數(shù)據(jù)后的手機(jī)信令數(shù)據(jù),按照用戶分組、按照時間排序。
輸出:清除重復(fù)數(shù)據(jù)后的手機(jī)信令數(shù)據(jù)。
步驟1:遍歷數(shù)據(jù),按照用戶編號分組,以天為單位,找出區(qū)塊編號相同的連續(xù)記錄。
步驟2:對于連續(xù)相同的記錄,進(jìn)行合并,將第一條數(shù)據(jù)的時間作為起始時間,最后一條數(shù)據(jù)的時間作為終止時間。
步驟3:處理完所有連續(xù)記錄之后,根據(jù)每條數(shù)據(jù)的起始時間和終止時間,計算停留的時間。
職住信息的獲取是用戶行為分析的關(guān)鍵環(huán)節(jié),對出行方式、出行目的、行為預(yù)測等行為分析會產(chǎn)生重要影響。本文使用職住停留點的時間分布特征對居民職住地進(jìn)行判別,同時選取該時間范圍內(nèi)綁定的區(qū)塊屬性作為描述職住屬性的另一個特征變量。以成都市上下班時間為參考,結(jié)合成都市居民的作息時間,選定判斷就業(yè)時段和居住時段的時間閾值,見表1。
表1 居住與工作判別時間范圍
居民的居住場所一般相對固定,本文認(rèn)為一個手機(jī)用戶在一天之中,只有一個居住地。本文以識別居民居住地為例,具體算法如下。
輸入:經(jīng)數(shù)據(jù)預(yù)處理之后的手機(jī)信令數(shù)據(jù)。
輸出:標(biāo)有居民居住信息的數(shù)據(jù)。
步驟1:將手機(jī)信令數(shù)據(jù)以用戶和時間分組,按照在區(qū)塊的駐留時長排序。
步驟2:篩選同一用戶駐留時間均位于居住時段,且駐留時長大于預(yù)設(shè)的閾值T,標(biāo)注為居住點。
步驟3:通過綁定的區(qū)塊和區(qū)塊屬性,篩選出有效的居住點。
步驟4:觀察重復(fù)7 d(工作日)以上信令數(shù)據(jù)中居住點出現(xiàn)的次數(shù),次數(shù)大于預(yù)設(shè)閾值的居住點標(biāo)注為用戶的居住地。
上述算法忽略了夜間工作、白天休息的部分人群,但考慮了大數(shù)據(jù)樣本的優(yōu)勢,誤差在可接受范圍內(nèi),因此該算法具有較高的實用性。工作地的識別方法與居住地的識別方法相同。
最后,筆者選取了成都市特定人群連續(xù)兩周的信令數(shù)據(jù),通過該算法計算用戶的職住地,并與用戶實際的職住地進(jìn)行比較,定位精度高于70%。
本文的研究成果可為客戶提供商業(yè)選址、客群管理、廣告監(jiān)測、精準(zhǔn)營銷、城市規(guī)劃等決策分析服務(wù),涉及通信、電力、零售、政府等多個行業(yè)?,F(xiàn)階段,該成果已應(yīng)用于運營商的渠道選址規(guī)劃中,實現(xiàn)的功能主要包括職住分布分析、渠道評估、渠道規(guī)劃,以及對基礎(chǔ)渠道數(shù)據(jù)的管理。圖4為居民職住分布圖;圖5為渠道規(guī)劃圖,通過對現(xiàn)有渠道的分析,實現(xiàn)選點咨詢。
本文通過搭建Spark集群,利用地理信息空間分析服務(wù),對手機(jī)信令數(shù)據(jù)進(jìn)行與地理實體的綁定計算和用戶行為分析。這種基于“區(qū)塊定位”判斷用戶位置信息的方法彌補(bǔ)了傳統(tǒng)基站定位精度的局限性。依據(jù)時間特征,構(gòu)建了數(shù)學(xué)模型和算法識別用戶的工作地和居住地,并選取特定人群數(shù)據(jù)進(jìn)行了精度比較分析,驗證結(jié)果表明該方法準(zhǔn)確性較高,具有較強(qiáng)的實用性。