孫苑苑
中國移動通信集團江蘇有限公司
通信運營商的大數(shù)據(jù)優(yōu)勢在于數(shù)據(jù)種類多樣、用戶群體覆蓋范圍廣、數(shù)據(jù)周期連續(xù)性好、數(shù)據(jù)準確性高等?;诤A慷S富的運營商數(shù)據(jù)資產(chǎn),綜合運用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、云計算等新興技術,結(jié)合行業(yè)場景需求,打造行業(yè)大數(shù)據(jù)產(chǎn)品體系,面向文化旅游、城市管理、金融商貿(mào)等行業(yè)和政府客戶提供量身定制的信息化解決方案,能夠?qū)崿F(xiàn)大數(shù)據(jù)價值變現(xiàn)。
基于位置數(shù)據(jù)分析與挖掘的大數(shù)據(jù)產(chǎn)品與服務是運營商行業(yè)大數(shù)據(jù)產(chǎn)品的重要組成部分,在文化旅游、城市管理、公共服務等行業(yè)廣泛應用。位置區(qū)域是位置類服務中最常見的位置計算形態(tài),隨著客戶需求的涌現(xiàn),為支撐大量行業(yè)應用需求,運營商在大數(shù)據(jù)平臺位置中心配置了大量區(qū)域場景,存在區(qū)域面積大、關聯(lián)基站數(shù)量多等問題,造成區(qū)域客流計算效率低,同時,在旅游景區(qū)、交通樞紐、行政區(qū)域等類型區(qū)域出現(xiàn)較多區(qū)域重疊、基站重復計算等情況,再次降低了區(qū)域計算效率。
針對上述問題,以下研究方法將融合大數(shù)據(jù)及AI 技術提出區(qū)域網(wǎng)格融合計算模型,通過實現(xiàn)區(qū)域網(wǎng)格化,并以此為基礎進行網(wǎng)格融合計算,達到提升大數(shù)據(jù)位置區(qū)域分析能力和計算效率的目的。
位置區(qū)域是運營商對外大數(shù)據(jù)服務中位置類服務的常見位置計算形態(tài),在文化旅游等行業(yè)的業(yè)務場景中有大量應用。傳統(tǒng)的位置客流分析存在區(qū)域數(shù)據(jù)統(tǒng)計分析不準確、區(qū)域數(shù)據(jù)計算耗時久、區(qū)域數(shù)據(jù)預測能力不足等問題,為改變粗放、割裂的位置區(qū)域管理模式,本研究方法將按照常見業(yè)務管理模式,基于政府行政城市管轄區(qū)域或規(guī)則形狀的網(wǎng)格劃分,進行區(qū)域網(wǎng)格融合后的實時和離線分析,能夠有效降低區(qū)域計算復雜度,提升區(qū)域客流計算效率,提高區(qū)域數(shù)據(jù)實時性,擴展和增強區(qū)域客流預測能力。
本研究建設統(tǒng)一的大數(shù)據(jù)位置區(qū)域分析和應用架構,總體研究架構詳見圖1?;趨^(qū)域網(wǎng)格融合計算模型,提供網(wǎng)格化管理、區(qū)域數(shù)據(jù)分析、區(qū)域客流預測等應用,以精準高效為建設目標來提升大數(shù)據(jù)位置區(qū)域分析計算效率。
圖1 大數(shù)據(jù)位置區(qū)域分析和應用架構圖
在數(shù)據(jù)層,主要融合包括位置信令數(shù)據(jù)、基站工參數(shù)據(jù)、區(qū)域網(wǎng)格數(shù)據(jù)、客戶畫像數(shù)據(jù)等在內(nèi)的多源數(shù)據(jù),借助ETL能力,對數(shù)據(jù)進行加工清洗和處理,形成基礎的位置資產(chǎn)能力。
在模型層,構建區(qū)域網(wǎng)格融合計算模型、網(wǎng)格自動劃分模型、區(qū)域網(wǎng)格客流分析模型等,通過借助AI 算法,完成模型的選擇、訓練、調(diào)優(yōu)和部署,實現(xiàn)了高效、自動化的區(qū)域劃分及區(qū)域網(wǎng)格客流分析計算。
在應用層,實現(xiàn)網(wǎng)格化管理、區(qū)域客流分析、區(qū)域客流預測、基站數(shù)據(jù)統(tǒng)計等功能,并通過Web 和API 的方式面向行業(yè)產(chǎn)品提供服務。
在產(chǎn)品層,支撐智慧旅游、智慧城市、智商貿(mào)、智慧社區(qū)、重大活動保障等行業(yè)大數(shù)據(jù)產(chǎn)品。
在服務行業(yè)上,主要覆蓋交通、旅游、政府、公安、醫(yī)療、城市管理等行業(yè)的業(yè)務場景。
本研究中的關鍵設計主要包括:通過區(qū)域網(wǎng)格劃分模型的建設,實現(xiàn)網(wǎng)格劃分解耦和區(qū)域計算拆分,提升區(qū)域配置效率,降低區(qū)域計算對平臺的資源需求;借助區(qū)域管理工具,構建區(qū)域網(wǎng)格融合計算模型,降低區(qū)域計算復雜度,提升區(qū)域分析服務效率;結(jié)合改進的多元線性回歸方法,提供區(qū)域客流預測分析,提升位置區(qū)域數(shù)據(jù)分析能力。
主要基于兩種方法對網(wǎng)格進行劃分:(1)基于政府行政城市管轄范圍的行政網(wǎng)格劃分;(2)基于500*500 的規(guī)則形狀網(wǎng)格劃分。支持基于網(wǎng)格的人口統(tǒng)計、客群洞察、來源特征等方面的分析。
對于區(qū)域網(wǎng)格劃分,其關鍵點在于:
(1)網(wǎng)格劃分范圍:在獲取的覆蓋國土最小外接矩形區(qū)域內(nèi),輸出該矩形區(qū)域內(nèi)可以歸屬到行政區(qū)域的所有網(wǎng)格。
(2)網(wǎng)格行政區(qū)劃歸屬:若網(wǎng)格中心點經(jīng)緯度落在行政區(qū)劃邊界上則可將此網(wǎng)格分配給城市編碼較小的行政區(qū)劃。在國界上,若網(wǎng)格中心點不在國界內(nèi),且存在一個或多個邊界點在國界內(nèi),則按符合國界內(nèi)的邊界點順序,取第一個符合國界內(nèi)的邊界點歸屬區(qū)劃。
(3)網(wǎng)格劃分坐標系:按火星坐標獲取網(wǎng)格經(jīng)緯度。對于基站信息中缺失方向角(缺失用圓)、覆蓋距離信息(500-1000m)無法實現(xiàn)交叉面積計算的內(nèi)容,后續(xù)根據(jù)用戶信令中實際基站切換序列進行調(diào)整完善,網(wǎng)格劃分熱力展示如圖2 所示。
圖2 網(wǎng)格劃分熱力圖
在網(wǎng)格化的基礎上建設區(qū)域管理工具,改變目前粗放、割裂的區(qū)域管理模式,能夠提升區(qū)域配置效率和區(qū)域標準化程度。工具對區(qū)劃區(qū)域、標準區(qū)域、自定義區(qū)域三種類型區(qū)域進行融合管理,用戶可以通過區(qū)域進行訂閱,區(qū)域用戶訂閱分布方式詳見圖3。
圖3 區(qū)域用戶訂閱分布圖
在區(qū)域融合管理工具中,針對不同用戶訂閱,可對其訂閱區(qū)域及訂閱參數(shù)作出智能分析,對同區(qū)域不同參數(shù)的規(guī)則進行融合,通過僅執(zhí)行一次數(shù)據(jù)查詢、多次訂閱運算的方式,提升訂閱運行時的效率。同時對參數(shù)類似訂閱提供訂閱建議,協(xié)助提升規(guī)則制定的業(yè)務有效性。
區(qū)域網(wǎng)格客流計算方法如下:
(1)將需要計算的區(qū)域進行網(wǎng)格劃分,形成區(qū)域與網(wǎng)格的對應關系。
(2)當用戶生成一條新的信令時,就對該用戶信息進行處理,匹配到指定區(qū)域中,位置信令處理流程詳見圖4。對同一用戶連續(xù)在一個區(qū)域出現(xiàn)的多條信令數(shù)據(jù)進行合并處理,合并處理時,按時間順序,取第一條信令的發(fā)生時間作為合并后的開始時間,取最后一條信令的發(fā)生時間作為合并后的最后活躍時間。
(3)統(tǒng)計區(qū)域客流,直接拉取區(qū)域中已分類歸納完成的數(shù)據(jù)。
圖4位置信令處理流程圖
(1)24 小時分時段多元線性回歸模型
將3 個月按全天的小時段客流拆分成24 個分段重新組合,消除影響因子后,構造凈客流矩陣:
式中:Xij′為每個時段的凈客流數(shù)據(jù),i 為24 個時段(1~24),j 為3 個月天數(shù)(1~90)。
每個時段的凈客流數(shù)據(jù)作為因變量依次帶入模型,構建24 個多元回歸方程式,通過模型參數(shù)的計算及誤差修正的方式對預測日對應時段客流數(shù)據(jù)進行預測,將連續(xù)時間序列上多點預測轉(zhuǎn)化為單點預測,將復雜問題簡單化,此處預測的為當日凈客流值,并未加上影響因子部分。
設yt為因變量,x1,x2,…xk為自變量,分時段構建24個小時回歸模型:
1 點回歸方程:yt=1=b1x1+b1x2+…+bkxk+et
2 點回歸方程:yt=2=b1x1+b2x2+…+bkxk+et
……
24 點回歸方程:yt=24=b1x1+b2x2+…+bkxk+et
式中:xk為近三個月全天24 個時段的凈客流,yt為預測日對應24 個時段的凈客流,b1,b2,…bk為回歸系數(shù),是24個時間段參數(shù),et為常數(shù)項,t 為24 個時段(1~24)。
通過回歸分析,得到常數(shù)項及各時段的參數(shù)估計值為e 和B 的矩陣:
將參數(shù)帶入回歸方程中,即可得到預測日對應24 個時段的凈客流值。
(2)客流影響綜合因子分析模型
設影響客流的月份因子為Mi,星期因子為Wj,節(jié)假日因子為H0,天氣因子為S0,使用如下模型:
式中:Ft為ft客流綜合影響因子數(shù),mi為影響客流月份因子回歸參數(shù)估計值,wj為影響客流星期因子回歸參數(shù)估計值,h0為影響客流節(jié)假日因子回歸參數(shù)估計值,s0為影響客流天氣因子回歸參數(shù)估計值。
(3)綜合影響因子修正分段線性回歸模型表示如下:
組合24 個分時段多元線性回歸方程,形成24 小時區(qū)域綜合凈客流預測模型,加入天氣、節(jié)假日、季節(jié)等綜合因子來預測區(qū)域?qū)嶋H客流。
借助Istio 架構技術,將位置服務解耦成一系列輕量、敏捷的微服務,將服務開發(fā)和服務發(fā)布進行分離,極大降低了平臺管理的復雜度,減少上層行業(yè)大數(shù)據(jù)應用對服務技術的關注范圍,滿足對外大數(shù)據(jù)行業(yè)多、規(guī)模大、復雜性高的服務場景需求,提高支撐效能,為相關行業(yè)客戶提供區(qū)域指導和管理工作。
通過智能代理(Envoy),將位置區(qū)域微服務組成服務網(wǎng)格,承載服務間以及服務與外部的通信。通過流量管理(Pilot)機制,將流量和基礎設施擴展解耦,智能化控制服務間以及外部調(diào)用的流向,并可以針對不同網(wǎng)絡質(zhì)量進行調(diào)整,提高服務可用性。
根據(jù)業(yè)務特點和數(shù)據(jù)能力,已規(guī)劃建設的位置區(qū)域微服務主要包括:區(qū)域流量實時查詢、區(qū)域用戶分析、區(qū)域用戶流量、區(qū)域流量預測、區(qū)域用戶明細、區(qū)域用戶進入等。
本研究基于區(qū)域網(wǎng)格融合計算模型,通過網(wǎng)格劃分解耦和區(qū)域計算拆分,提升區(qū)域配置效率,降低區(qū)域計算對平臺的資源需求。通過區(qū)域配置,調(diào)整計算優(yōu)先級,決定區(qū)域計算任務調(diào)度權值,在資源上合理分配計算任務,有目的性的選擇資源,使系統(tǒng)在最短的執(zhí)行時間內(nèi)實現(xiàn)整個網(wǎng)格系統(tǒng)資源利用的最大化,提升了區(qū)域配置效率和區(qū)域標準化程度。結(jié)合改進的多元線性回歸方法,引入“近重遠輕”的賦權原則構造自變量,解決全天24 小時時段的位置區(qū)域時間序列數(shù)據(jù)預測準確性問題,拓展了位置區(qū)域分析業(yè)務場景。
通過區(qū)域網(wǎng)格融合后,相同區(qū)域的計算由多次減至一次。以區(qū)域客流量實時查詢服務為例,平臺目前訂閱該服務的區(qū)域有1671 個,其中有424 個區(qū)域存在重疊,應用本研究后,實時區(qū)域數(shù)據(jù)計算效率提升50%,區(qū)域數(shù)據(jù)實時更新周期從15 分鐘縮短到5 分鐘,顯著提高了實時計算的效率及準確性,CPU 消耗減少4%-8%,內(nèi)存資源占用減少5%-8%,硬件資源利用率也得到提升。
此研究已廣泛服務于旅游、政府、金融等行業(yè)大數(shù)據(jù)產(chǎn)品中,為景區(qū)、政府、交通樞紐等研究區(qū)域客流規(guī)律提供有力支撐。
案例1:某街道在疫情防控中的“網(wǎng)格化管理”。
疫情期間為加強街道人員流動管理,南京某街道依據(jù)此研究成果構建網(wǎng)格化管理系統(tǒng)。以可視化大屏界面實施監(jiān)控管理,劃分8 個網(wǎng)格,街道全天24 小時監(jiān)控網(wǎng)格內(nèi)實時客流情況。通過客流網(wǎng)格化管理,加強數(shù)據(jù)分析效率,掌握高風險地區(qū)人員流入情況,強化了街道疫情風險防范能力,有力保障街道居民的衛(wèi)生安全。
案例2:某馬拉松活動交通要塞口客流預測。
此研究應用于某馬拉松活動中,通過搭建交通要塞客流預測系統(tǒng),全方位全流程實施客流預測。在通往大型活動的入口、活動區(qū)域、出口等關鍵路徑上設置網(wǎng)格區(qū)域,根據(jù)網(wǎng)格區(qū)域歷史客流數(shù)據(jù)及區(qū)域網(wǎng)格融合計算模型,預測各區(qū)域活動人群流量,協(xié)助相關部門對客流進行控制及疏散。
以上提出了一種融合大數(shù)據(jù)和AI 技術的客流位置區(qū)域網(wǎng)格融合模型算法。在運營商大數(shù)據(jù)行業(yè)應用領域,通過區(qū)域網(wǎng)格融合計算模型和應用的建設,提升大數(shù)據(jù)位置區(qū)域分析計算效率,對于行業(yè)位置區(qū)域類分析需求能提供更加科學、高效和精準的支撐;通過高效的區(qū)域數(shù)據(jù)分析能力,為行業(yè)客戶提供更精準、實時、豐富的大數(shù)據(jù)產(chǎn)品服務,提升行業(yè)客戶的滿意度。在此研究基礎上,客流位置分析精確度方面還需繼續(xù)深入挖掘研究,不斷提高客流數(shù)據(jù)統(tǒng)計、洞察、分析的質(zhì)量。