戴順勇,蔡 欣,郭 濤
(中國聯(lián)合網(wǎng)絡(luò)通信有限公司貴州省分公司,貴州 貴陽 550001)
(1)人群篩選設(shè)置??梢愿鶕?jù)需要進行監(jiān)測人群篩選設(shè)置,篩選條件包括:來源城市、觀測時間范圍、人群性別、人群年齡段、來源城市駐留時間(如低于3天、3天以上、一周等)等維度。(2)人口駐留分析。通過對群體用戶行為的OD分析,能夠進行區(qū)域人群的來源地和去向地分析。(3)人口分布分析。按照月、天、小時,以網(wǎng)格為空間粒度統(tǒng)計分析,以3D柱圖、蜂窩圖、3D熱力等形式,展現(xiàn)區(qū)域的人口數(shù)量分布情況。(4)人口屬性分析。能夠呈現(xiàn)人群人口年齡段、性別及年齡段性別交叉等人口結(jié)構(gòu)情況。(5)人流預(yù)測分析。依據(jù)某個區(qū)域的歷史數(shù)據(jù),預(yù)測半小時后的人口數(shù)量[1]。
(1)人流變化實時熱力分析。通過對手機信令的實時處理,可以實現(xiàn)對設(shè)定重點區(qū)域的人流熱力監(jiān)測,功能包括:區(qū)域瞬時總?cè)藬?shù)(區(qū)域內(nèi)某個時間點的總?cè)藬?shù))、區(qū)域累積總?cè)藬?shù)(按照分鐘/小時/天統(tǒng)計區(qū)域內(nèi)人口數(shù))、區(qū)域瞬時游客人數(shù)(區(qū)域內(nèi)某個時間點的游客人數(shù))、區(qū)域人口熱力(可以顯示區(qū)域范圍內(nèi)的人口熱力情況)。(2)重點場所人流預(yù)警。在區(qū)域人口超過既定閾值時候,能夠及時預(yù)警。(3)接觸人群分析??梢院Y選與疑似病患在一定空間范圍下(如250×250 m)共處時間最長,或軌跡類似的其他人群,其中,共處時間和空間范圍可以設(shè)置[2]。
(1)短信觸達預(yù)警,可以實現(xiàn)對指定區(qū)域人群、重點個體的短信觸達通知預(yù)警。(2)大屏可視化展示,新型肺炎疫情防控的主要需求在于人群范圍廣、變化快、無法快速鎖定,中國聯(lián)通提供的“基于手機信令大數(shù)據(jù)的人員流動分析平臺”可以為疫情防控部門提供人群流動、特定人群軌跡分析等功能。以應(yīng)急指揮中心為紐帶,建設(shè)大數(shù)據(jù)可視化系統(tǒng)、視頻協(xié)商系統(tǒng),實現(xiàn)可視化指揮、應(yīng)急處置功能。以應(yīng)急指揮中心為手段,有效降低事件發(fā)生概率,提升事件處置效率,提供事件考核評估、人群流動分析存檔依據(jù)。以應(yīng)急指揮中心為載體,實現(xiàn)群眾和執(zhí)法人員問題上報,遠程調(diào)解等實際應(yīng)用,提高工作效率,加強疫情防控。
(1)先進性。系統(tǒng)涉及的各類應(yīng)用系統(tǒng)采用先進、成熟的技術(shù),性能和質(zhì)量指標應(yīng)達到國際領(lǐng)先水平,以保證現(xiàn)有投資的有效性和延續(xù)性;同時,系統(tǒng)的安裝調(diào)試、操作使用應(yīng)簡便易行,容易掌握。(2)實用性。項目建設(shè)的規(guī)劃要高起點,功能要更切合實際,重在應(yīng)用,堅持以需求為主導(dǎo),落腳于滿足需求,從實際需求出發(fā),深入開展業(yè)務(wù)調(diào)研,保證系統(tǒng)順暢使用,易于維護。(3)安全性。由于本系統(tǒng)匯集了關(guān)鍵、敏感資料以及對數(shù)據(jù)分析的結(jié)果,系統(tǒng)安全性尤其重要。在系統(tǒng)中,對外來侵入的控制應(yīng)由路由器配合操作系統(tǒng)及數(shù)據(jù)庫來完成,采用多級用戶權(quán)限管理。(4)擴展性。系統(tǒng)要有良好的擴展性和升級前景,充分考慮其擴展性能,包括:系統(tǒng)總體框架的確定、系統(tǒng)功能的設(shè)計、數(shù)據(jù)格式的定義和系統(tǒng)間的數(shù)據(jù)接口,以為將來的發(fā)展提供擴展能力[3]。
(1)數(shù)據(jù)要求:人口位置數(shù)據(jù)需要在空間上具備極強的拓展性;在時間上具有連續(xù)性,來源合法合規(guī),需要基于人口擴樣算法擴樣后的數(shù)據(jù)。(2)技術(shù)要求:延時及刷新頻率要求(實時監(jiān)測部分)要延時1 h,瞬時數(shù)據(jù)為最快10 min刷新一次,累積數(shù)據(jù)可按每10 min、每30 min、每小時、每天更新。數(shù)據(jù)處理技術(shù)要求:需要采用實時流式計算,集成Kafka,redis,RabbitMQ等分布式大數(shù)據(jù)處理組件,實現(xiàn)毫秒級響應(yīng),實時批量處理數(shù)據(jù)達500 000條/秒,每天可處理1 000億條數(shù)據(jù)。(3)核心算法要求:需要有自研知識產(chǎn)權(quán)的實時手機信令處理平臺相關(guān)算法專利,能夠進行多基站加權(quán)運算,自動降噪較準定位。能夠建立基站小區(qū)間的flicker關(guān)系,動態(tài)觀察分析信令,基于時長判斷用戶是駐留還是出行經(jīng)過。(4)服務(wù)方式:支持云端服務(wù)和客戶端本地化平臺建設(shè)兩部分。云端服務(wù)包含硬件資源服務(wù)和數(shù)據(jù)處理服務(wù),由聯(lián)通提供云端硬件資源,支撐云端數(shù)據(jù)處理服務(wù)。(5)客戶端本地化平臺建設(shè):將建設(shè)大數(shù)據(jù)人流量監(jiān)控系統(tǒng),并部署在客戶本地機房。監(jiān)控中心的建設(shè)結(jié)構(gòu)如圖1所示。
圖1 監(jiān)控中心的建設(shè)結(jié)構(gòu)
數(shù)據(jù)采集層主要進行原始數(shù)據(jù)的采集,包括手機用戶的信令數(shù)據(jù)(切換信令、位置更新信令、呼叫信令、短消息信令等)。信令數(shù)據(jù)主要用來處理分析得到用戶的位置和軌跡相關(guān)的信息。
從數(shù)據(jù)采集層傳入的原始數(shù)據(jù)存在缺失、錯誤等問題,不具有可用性,而且格式不統(tǒng)一,因此,在建模計算之前需要進行數(shù)據(jù)預(yù)處理,主要包括:數(shù)據(jù)篩選、數(shù)據(jù)整理、數(shù)據(jù)匯聚。
數(shù)據(jù)存儲層主要負責(zé)對整個平臺的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行存儲,采用分布式文件系統(tǒng)HDFS對匯聚后的文件進行存儲,使用行式存儲MySQL和列式存儲Hbase對計算處理結(jié)果數(shù)據(jù)進行存儲,以滿足不同業(yè)務(wù)功能對數(shù)據(jù)查詢操作性能方面要求。中間數(shù)據(jù)緩存相關(guān)功能則由Kafka消息隊列方式提供,尤其對實時處理部分數(shù)據(jù)不經(jīng)過HDFS而是直接通過消息隊列傳送到Storm計算模塊,以保證最少時延。
數(shù)據(jù)計算層包括實時數(shù)據(jù)計算和歷史數(shù)據(jù)計算兩部分,實時計算主要采用Storm流計算進行人員實時軌跡的分析,歷史計算采用Spark內(nèi)存計算對人員的歷史軌跡進一步細分,得出如居住地、工作地、常去地之類的信息,還包括對歷史上網(wǎng)數(shù)據(jù)等信息的計算處理。
對計算處理后的結(jié)果數(shù)據(jù)進行分析挖掘,以供應(yīng)用層功能使用,主要采用SQL語言對MySQL內(nèi)存儲的數(shù)據(jù)進行分析,采用Hive語言提供對HDFS的文件的查詢分析,結(jié)合數(shù)據(jù)挖掘算法、實時分析等功能對數(shù)據(jù)進一步精化細分,為各種業(yè)務(wù)場景提供數(shù)據(jù)。
手機信令是人口大數(shù)據(jù)的天然采集器,通信基站能夠主動采集每個蜂窩站用戶行為變化以及記錄覆蓋區(qū)域用戶位置變化。本文以中國聯(lián)合網(wǎng)絡(luò)通信有限公司貴州省分公司為例,進行貴陽市開展基于手機信令數(shù)據(jù)的人群流動活動規(guī)律分析、城市特定人群監(jiān)測優(yōu)化的應(yīng)用研究,以建立基于手機信令大數(shù)據(jù)的人流監(jiān)測防控平臺。