□ 文 董昭 李娟 張海峰 張?zhí)祢?/p>
大數(shù)據(jù)位置類應用實現(xiàn)方式研究
□ 文 董昭 李娟 張海峰 張?zhí)祢?/p>
大數(shù)據(jù)技術日益發(fā)展成熟,已經(jīng)在互聯(lián)網(wǎng)尤其是電商、社交、搜索等領域取得了較為成熟的應用。電信運營商擁有多年的數(shù)據(jù)積累,數(shù)據(jù)已成為一種商業(yè)資本和一項重要的經(jīng)濟投入,而如何應用和挖掘海量數(shù)據(jù),則成為運營商贏得市場的關鍵因素。
為滿足政府、商業(yè)機構(gòu)及公司內(nèi)部市場部分的需求,電信運營商需洞察一定區(qū)域范圍內(nèi)的人群位置信息,推出基于位置信令等數(shù)據(jù)的統(tǒng)計、分析和挖掘服務。交通運輸、城市安全、智慧旅游、商業(yè)經(jīng)營等均是規(guī)模龐大、潛力巨大的市場。
大數(shù)據(jù)位置類應用是基于位置信令等數(shù)據(jù)的統(tǒng)計、分析和挖掘的服務,為機構(gòu)選址、城市規(guī)劃、智慧旅游等場景提供解決方案。主要的產(chǎn)品形態(tài)和服務形態(tài)為結(jié)合地理信息的GIS數(shù)據(jù)產(chǎn)品及服務,面向用戶的實時位置查詢API服務。具體如下:
(一) 機構(gòu)選址
基于大數(shù)據(jù)位置類信息,結(jié)合用戶特征信息,對特定區(qū)域進行人口流動性分析,面向零售、餐飲、娛樂服務等商家在輔助選址和顧客分析方面提供高效的信息獲取、全面的信息匯聚和深度的客戶洞察等數(shù)據(jù)應用服務,尋求提升商家在某個區(qū)域競爭力的機會。
(二) 城市規(guī)劃
區(qū)域商圈規(guī)劃:根據(jù)城市特點和人群分布結(jié)構(gòu),合理規(guī)劃區(qū)域和商圈,分攤核心區(qū)域壓力。
交通規(guī)劃設計:根據(jù)人群分布和通勤特點,科學合理制定交通路線、站臺位置等,提高城市交通效率。
建設項目選址:根據(jù)建設項目和人群特點,合理規(guī)劃項目位置。
(三) 公共區(qū)域安全監(jiān)測
特定區(qū)域監(jiān)控:在特定區(qū)域內(nèi)全方位常態(tài)監(jiān)控人群流量、密度、駐留時間等,以及在特定區(qū)域內(nèi)人群流量或密度突增時觸發(fā)預警。
區(qū)域智能預警:監(jiān)控、預警未知區(qū)域的人群突增,即根據(jù)區(qū)域歷史數(shù)據(jù)建模輸出區(qū)域內(nèi)人群突增三個級別的預警參考值,依據(jù)參考值設置預警指標值,滿足未知區(qū)域人群突增智能預警。
(四) 城市交通
高速公路監(jiān)控:交通樞紐、事故多發(fā)地段車流量監(jiān)控、高速分路段通暢情況監(jiān)控。監(jiān)控情況和交通部門現(xiàn)有攝像監(jiān)控、車速監(jiān)控雷達結(jié)合,形成對外消息發(fā)布和預警及處理信息。
(五) 智慧旅游
通過對景點的游客來源、駐留時長、組成特征進行多維度分析,為景區(qū)精細化營銷、景點路線規(guī)劃與服務提升提供數(shù)據(jù)支撐。還可進行游客來源分析,逗留時長分析,旅游路線分析,景區(qū)熱度分析,優(yōu)化最佳旅游路線,科學調(diào)配旅游資源。
通過上面的分析我們看到,如果運營商要發(fā)展位置類自有產(chǎn)品,具有四點優(yōu)勢:
第一,使用壁壘低。用戶可隨時隨地無需受到硬件限制即可獲得位置服務,而GPS定位需要硬件支持,成本高、普及難度大;
第二,適用人群廣。只要有手機,都可以使用,而“簽到”定位及GPS定位適用于年輕群體及偏好高新技術群體;
第三,實時性高。具有地圖數(shù)據(jù)、交通路況等實時更新的優(yōu)勢;
第四,體系內(nèi)產(chǎn)品的支持力度大??梢酝ㄟ^短信、彩信、增值業(yè)務平臺等多種方式推送定位結(jié)果。
另一方面,如果運營商要發(fā)展嵌入式第三方產(chǎn)品,其位置輸出能力也具有一定優(yōu)勢,運營商向第三方輸出位置能力,通常作為第三方產(chǎn)品定位的必要補充手段,其優(yōu)勢在于龐大的用戶規(guī)模和真實準確的基站信息庫。與手機號碼的捆綁使運營商可同時為第三方在業(yè)務支撐與控制、業(yè)務分析與運營上提供支持。
在移動互聯(lián)網(wǎng)業(yè)務蓬勃發(fā)展的今天,用戶密度決定市場寬度,如果運營商能夠?qū)⑽恢媚芰εc大數(shù)據(jù)平臺分析能力結(jié)合起來,將可大幅度的提高位置服務的價值,為增值服務市場迎來爆發(fā)式增長。
目前對大數(shù)據(jù)處理主要采用兩種核心技術:一種是基于磁盤處理任務調(diào)度的批處理技術,另一種是基于內(nèi)存計算的實時流處理技術。本文主要研究實現(xiàn)位置類應用的流處理技術。流處理的特點主要包括:
? 可以可靠的處理無界持續(xù)的流數(shù)據(jù),保證每個消息至少能得到一次完整處理;
? 分布式的集群架構(gòu),伸縮性良好,易擴展且容錯性高;
? 可實時處理海量數(shù)據(jù),高性能即處理速度快。
這里面主要介紹實現(xiàn)大數(shù)據(jù)平臺位置類應用采用到的Kafka、Storm、Flume及Streaming等關鍵技術:
Storm:分布式實時計算系統(tǒng),可用來處理源源不斷流進來的消息,處理之后將結(jié)果寫入到存儲中。Storm集群主要由一個主節(jié)點(master node)和一群工作節(jié)點(worker nodes)組成,通過Zookeeper集群進行協(xié)調(diào)。主節(jié)點運行Nimbus進程,負責資源分配和任務調(diào)度,通知監(jiān)控工作節(jié)點的運營狀態(tài)。工作節(jié)點運行Supervisor進程,負責接受nimbus分配的任務,啟動和停止屬于自己管理的工作進程。Storm通常被廣泛用來進行實時日志處理,從kafka中讀取實時日志消息,經(jīng)過一系列處理,最終將處理結(jié)果寫入到一個分布式存儲中,提供給應用程序訪問。每天處理幾十億的用戶日志信息,從用戶行為發(fā)生到完成分析延遲在秒級。
S4:S4是一個通用的、分布式的、可擴展的、分區(qū)容錯的流式系統(tǒng),其計算平臺具有可伸縮、易擴展、分區(qū)容錯的特點,通常處理實時性要求高的業(yè)務。通過部署廉價的服務器集群,S4進行分布式處理,處理模型參照MapReduce模式。S4是同類平臺中為數(shù)不多采用對等架構(gòu)的系統(tǒng),集群中的所有工作節(jié)點都是對等的,不存在主節(jié)點。使得系統(tǒng)具有很強的伸縮性,并且不存在單點故障,系統(tǒng)的部署和運維也得以簡化。但無法保障數(shù)據(jù)傳輸過程中的可靠性,某節(jié)點故障后將導致該節(jié)點數(shù)據(jù)丟失。因此,S4更適合對數(shù)據(jù)處理精確性要求不高的場景。
Streaming:實時數(shù)據(jù)流處理組件,是spark體系中的一個流式處理框架,建立在Spark上的實時計算框架,可以實現(xiàn)高吞吐量的、具備容錯機制的實時流數(shù)據(jù)的處理。通過它提供的豐富的API、基于內(nèi)存的高速執(zhí)行引擎,用戶可以結(jié)合流式、批處理和交互試查詢應用。支持從多種數(shù)據(jù)源獲取數(shù)據(jù),從數(shù)據(jù)源獲取數(shù)據(jù)之后,可以使用諸如map、reduce等高級函數(shù)進行復雜算法的處理。最后還可以將處理結(jié)果輸出到多種不同的數(shù)據(jù)平臺中,包括文件系統(tǒng)和數(shù)據(jù)庫等。
Kafka:分布式消息隊列,是一種分布式的,基于發(fā)布/訂閱的消息系統(tǒng),同時支持離線和在線日志處理。以時間復雜度為O(1)的方式提供消息持久化能力,即使對TB級以上數(shù)據(jù)也能保證常數(shù)時間的訪問性能,具有高吞吐率,即使在非常廉價的商用機器上也能做到單機支持每秒100K條消息的傳輸。Kafka中可以將Topic從物理上劃分成一個或多個分區(qū)(Partition),每個分區(qū)在物理上對應一個文件夾,該文件夾下存儲這個分區(qū)的所有消息和索引文件,這使得Kafka的吞吐率可以水平擴展。
圖1 位置應用平臺架構(gòu)圖
Flume:Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方的能力。Flume以agent為最小的獨立運行單位,單agent由Source、Sink和Channel構(gòu)成。
位置類應用以位置信令處理為核心服務內(nèi)容,實現(xiàn)對位置信令進行加密、過濾以及關聯(lián)回填。本文主要采用實時計算實現(xiàn)位置類應用平臺,實時計算過程一般劃分為以下三個節(jié)點:數(shù)據(jù)的產(chǎn)生于收集、傳輸與分析處理、儲存并對外提供服務。參考實時計算的框架位置應用平臺主要包括數(shù)據(jù)源、數(shù)據(jù)接入、數(shù)據(jù)處理及存儲、數(shù)據(jù)服務及數(shù)據(jù)應用等內(nèi)容。如圖1所示。
數(shù)據(jù)源:將MC口數(shù)據(jù)、S1-MME數(shù)據(jù)、基站基礎信息數(shù)據(jù)等作為數(shù)據(jù)源傳輸至大數(shù)據(jù)平臺。
數(shù)據(jù)接入:數(shù)據(jù)接入層完成數(shù)據(jù)的采集和預處理工作,實時從數(shù)據(jù)源采集S1-MME等信令數(shù)據(jù)。數(shù)據(jù)采集分為兩種方式:一對于實時性要求較強的信令數(shù)據(jù),由接收服務層實現(xiàn)實時位置信令的采集,通過flume解析實時上報的位置信令;二對于實時性要求不高的數(shù)據(jù),采用周期性文件采集方式匯聚到平臺。同時,大數(shù)據(jù)平臺按照數(shù)據(jù)處理規(guī)則完成數(shù)據(jù)的初步清洗、合并等工作,以提供后繼對位置業(yè)務處理工作。
數(shù)據(jù)存儲處理:數(shù)據(jù)存儲處理層負責數(shù)據(jù)存儲與計算工作。對于經(jīng)過預處理的實時信令數(shù)據(jù),部分落地至數(shù)據(jù)存儲介質(zhì)中(如分布式文件系統(tǒng)HDFS,MPP等),另一份經(jīng)過實時流計算處理引擎進行數(shù)據(jù)脫敏處理和數(shù)據(jù)過濾處理,在數(shù)據(jù)脫敏處理中,主要是對用戶隱私字段進行脫敏處理,如將用戶號碼信息通過哈希等加密方式進行加密。在數(shù)據(jù)過濾處理中,主要是依據(jù)應用的需求,過濾出所需字段。
數(shù)據(jù)服務:通過API和文件接口兩種方式,對外提供服務,供應用調(diào)用。
數(shù)據(jù)應用:提供基于位置信令數(shù)據(jù)的對外服務,如機構(gòu)選址、位置營銷、智慧旅游、城市規(guī)劃等。
(一)建設原則
大數(shù)據(jù)平臺位置類應用規(guī)劃和建設遵循以下基本原則:
1、先進性原則
位置類應用的建設必須實現(xiàn)“高起點、高標準、高要求”,要本著“低成本高效”原則,充分引入云計算、大數(shù)據(jù)、智能展示等新技術。
表1 方案對比分析
2、標準化原則
位置類應用需遵循標準化原則,逐步深化平臺系統(tǒng)建設的標準化工作,包括標準化信息模型、標準化數(shù)據(jù)接口、標準化開發(fā)管理、標準化對外服務等系統(tǒng)建設模式。
3、開放性原則
系統(tǒng)中的各種網(wǎng)絡協(xié)議、硬件接口和數(shù)據(jù)接口等應符合業(yè)界開放式標準。應逐步通過數(shù)據(jù)封裝開放系統(tǒng)數(shù)據(jù)內(nèi)容和應用功能,全面支持市場經(jīng)營工作以及其它IT系統(tǒng)的數(shù)據(jù)和應用需求,實現(xiàn)應用百花齊放,充分滿足個性化需求,提升大數(shù)據(jù)平臺分析系統(tǒng)的廣度和深度。
(二)建設方式
如表1,大數(shù)據(jù)位置類應用平臺可采用如下兩種方式進行建設:
方案一:全網(wǎng)集中建設一套一級位置類應用平臺
全國統(tǒng)一建設一套位置類應用平臺,統(tǒng)一采集全網(wǎng)數(shù)據(jù),統(tǒng)一負責位置數(shù)據(jù)的匯總及加工,并以API的形式開放給外部應用使用。
方案二:分散各地建設多套二級位置類應用平臺
按區(qū)域劃分建設多套二級位置類應用平臺,數(shù)據(jù)和產(chǎn)品能力全部在各區(qū)域大數(shù)據(jù)平臺。將數(shù)據(jù)上傳給一級位置類應用平臺,由一級平臺通過服務調(diào)用或查詢服務,滿足對全網(wǎng)服務的需求。
圖2 分工及數(shù)據(jù)處理流程
方案比較:
方案一工程進度較快,且便于對數(shù)據(jù)源進行追溯,對技術與運營團隊技術要求較高,可滿足互聯(lián)網(wǎng)全網(wǎng)服務。方案二各地進度不統(tǒng)一,且面向全網(wǎng)服務較為困難,但可成分調(diào)動各區(qū)域公司的建設熱情,滿足本區(qū)域內(nèi)的服務需求。
本文以方案一為例舉例說明位置類應用平臺的各部分工作分工及數(shù)據(jù)處理流程。如圖2。
由各數(shù)據(jù)源將將位置信令數(shù)據(jù)透傳至大數(shù)據(jù)平臺,由大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)的格式統(tǒng)一、敏感信息脫敏、關聯(lián)處理等操作,并將結(jié)果提供給各位置類應用使用。
1、由各數(shù)據(jù)源將Mc口、S1-MME口等位置信息數(shù)據(jù)透傳至大數(shù)據(jù)平臺;
2、大數(shù)據(jù)平臺實時采集數(shù)據(jù)后對數(shù)據(jù)進行過濾、加密并輸出到緩存;
3、大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)的格式統(tǒng)一、敏感信息脫敏、數(shù)據(jù)過濾、數(shù)據(jù)匹配、關聯(lián)處理等操作;
4、數(shù)據(jù)存儲需對所有數(shù)據(jù)進行持久化存儲,為位置類平臺提供數(shù)據(jù)支持;
5、大數(shù)據(jù)平臺負責位置數(shù)據(jù)的匯總及加工,并以API的形式開放給外部應用使用。
隨著大數(shù)據(jù)平臺的實時處理能力相關技術的發(fā)展,基于用戶位置的位置類便民信息服務已成為重要亮點。今后隨著用戶可隨時隨地查詢身邊的地鐵口、加油站、銀行ATM、電力/水力營業(yè)廳、移動營業(yè)廳以及WLAN熱點等公共設施的分布情況,“掌上公交”、“商戶聯(lián)盟”、“實時交通”等一系列位置類應用服務將廣受好評,大數(shù)據(jù)平臺位置類應用的建設必將更加受到廣泛關注。■
中國移動通信集團設計院有限公司網(wǎng)絡所)
[1]吳京潤,黃經(jīng)業(yè)譯.顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術的實時應用.電子工業(yè)出版社,2015.
[2]泰德.敦寧,流式架構(gòu)Kafka與MapR Streams數(shù)據(jù)流處理.電子工業(yè)出版社,2017.
[3](美)吉奧茲,(美)奧尼爾 著,董昭 譯. Storm分布式實時計算模式.機械工業(yè)出版社,2015.
[4]丁維龍,Storm:大數(shù)據(jù)流式計算及應用實踐,電子工業(yè)出版社,2015.
[5]張毅,大數(shù)據(jù)環(huán)境下的實時流式數(shù)據(jù)處理技術,東南大學 , 2014.