孫苑苑
中國(guó)移動(dòng)通信集團(tuán)江蘇有限公司
通信運(yùn)營(yíng)商的大數(shù)據(jù)優(yōu)勢(shì)在于數(shù)據(jù)種類多樣、用戶群體覆蓋范圍廣、數(shù)據(jù)周期連續(xù)性好、數(shù)據(jù)準(zhǔn)確性高等。基于海量而豐富的運(yùn)營(yíng)商數(shù)據(jù)資產(chǎn),綜合運(yùn)用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、云計(jì)算等新興技術(shù),結(jié)合行業(yè)場(chǎng)景需求,打造行業(yè)大數(shù)據(jù)產(chǎn)品體系,面向文化旅游、城市管理、金融商貿(mào)等行業(yè)和政府客戶提供量身定制的信息化解決方案,能夠?qū)崿F(xiàn)大數(shù)據(jù)價(jià)值變現(xiàn)。
基于位置數(shù)據(jù)分析與挖掘的大數(shù)據(jù)產(chǎn)品與服務(wù)是運(yùn)營(yíng)商行業(yè)大數(shù)據(jù)產(chǎn)品的重要組成部分,在文化旅游、城市管理、公共服務(wù)等行業(yè)廣泛應(yīng)用。位置區(qū)域是位置類服務(wù)中最常見(jiàn)的位置計(jì)算形態(tài),隨著客戶需求的涌現(xiàn),為支撐大量行業(yè)應(yīng)用需求,運(yùn)營(yíng)商在大數(shù)據(jù)平臺(tái)位置中心配置了大量區(qū)域場(chǎng)景,存在區(qū)域面積大、關(guān)聯(lián)基站數(shù)量多等問(wèn)題,造成區(qū)域客流計(jì)算效率低,同時(shí),在旅游景區(qū)、交通樞紐、行政區(qū)域等類型區(qū)域出現(xiàn)較多區(qū)域重疊、基站重復(fù)計(jì)算等情況,再次降低了區(qū)域計(jì)算效率。
針對(duì)上述問(wèn)題,以下研究方法將融合大數(shù)據(jù)及AI 技術(shù)提出區(qū)域網(wǎng)格融合計(jì)算模型,通過(guò)實(shí)現(xiàn)區(qū)域網(wǎng)格化,并以此為基礎(chǔ)進(jìn)行網(wǎng)格融合計(jì)算,達(dá)到提升大數(shù)據(jù)位置區(qū)域分析能力和計(jì)算效率的目的。
位置區(qū)域是運(yùn)營(yíng)商對(duì)外大數(shù)據(jù)服務(wù)中位置類服務(wù)的常見(jiàn)位置計(jì)算形態(tài),在文化旅游等行業(yè)的業(yè)務(wù)場(chǎng)景中有大量應(yīng)用。傳統(tǒng)的位置客流分析存在區(qū)域數(shù)據(jù)統(tǒng)計(jì)分析不準(zhǔn)確、區(qū)域數(shù)據(jù)計(jì)算耗時(shí)久、區(qū)域數(shù)據(jù)預(yù)測(cè)能力不足等問(wèn)題,為改變粗放、割裂的位置區(qū)域管理模式,本研究方法將按照常見(jiàn)業(yè)務(wù)管理模式,基于政府行政城市管轄區(qū)域或規(guī)則形狀的網(wǎng)格劃分,進(jìn)行區(qū)域網(wǎng)格融合后的實(shí)時(shí)和離線分析,能夠有效降低區(qū)域計(jì)算復(fù)雜度,提升區(qū)域客流計(jì)算效率,提高區(qū)域數(shù)據(jù)實(shí)時(shí)性,擴(kuò)展和增強(qiáng)區(qū)域客流預(yù)測(cè)能力。
本研究建設(shè)統(tǒng)一的大數(shù)據(jù)位置區(qū)域分析和應(yīng)用架構(gòu),總體研究架構(gòu)詳見(jiàn)圖1?;趨^(qū)域網(wǎng)格融合計(jì)算模型,提供網(wǎng)格化管理、區(qū)域數(shù)據(jù)分析、區(qū)域客流預(yù)測(cè)等應(yīng)用,以精準(zhǔn)高效為建設(shè)目標(biāo)來(lái)提升大數(shù)據(jù)位置區(qū)域分析計(jì)算效率。
圖1 大數(shù)據(jù)位置區(qū)域分析和應(yīng)用架構(gòu)圖
在數(shù)據(jù)層,主要融合包括位置信令數(shù)據(jù)、基站工參數(shù)據(jù)、區(qū)域網(wǎng)格數(shù)據(jù)、客戶畫(huà)像數(shù)據(jù)等在內(nèi)的多源數(shù)據(jù),借助ETL能力,對(duì)數(shù)據(jù)進(jìn)行加工清洗和處理,形成基礎(chǔ)的位置資產(chǎn)能力。
在模型層,構(gòu)建區(qū)域網(wǎng)格融合計(jì)算模型、網(wǎng)格自動(dòng)劃分模型、區(qū)域網(wǎng)格客流分析模型等,通過(guò)借助AI 算法,完成模型的選擇、訓(xùn)練、調(diào)優(yōu)和部署,實(shí)現(xiàn)了高效、自動(dòng)化的區(qū)域劃分及區(qū)域網(wǎng)格客流分析計(jì)算。
在應(yīng)用層,實(shí)現(xiàn)網(wǎng)格化管理、區(qū)域客流分析、區(qū)域客流預(yù)測(cè)、基站數(shù)據(jù)統(tǒng)計(jì)等功能,并通過(guò)Web 和API 的方式面向行業(yè)產(chǎn)品提供服務(wù)。
在產(chǎn)品層,支撐智慧旅游、智慧城市、智商貿(mào)、智慧社區(qū)、重大活動(dòng)保障等行業(yè)大數(shù)據(jù)產(chǎn)品。
在服務(wù)行業(yè)上,主要覆蓋交通、旅游、政府、公安、醫(yī)療、城市管理等行業(yè)的業(yè)務(wù)場(chǎng)景。
本研究中的關(guān)鍵設(shè)計(jì)主要包括:通過(guò)區(qū)域網(wǎng)格劃分模型的建設(shè),實(shí)現(xiàn)網(wǎng)格劃分解耦和區(qū)域計(jì)算拆分,提升區(qū)域配置效率,降低區(qū)域計(jì)算對(duì)平臺(tái)的資源需求;借助區(qū)域管理工具,構(gòu)建區(qū)域網(wǎng)格融合計(jì)算模型,降低區(qū)域計(jì)算復(fù)雜度,提升區(qū)域分析服務(wù)效率;結(jié)合改進(jìn)的多元線性回歸方法,提供區(qū)域客流預(yù)測(cè)分析,提升位置區(qū)域數(shù)據(jù)分析能力。
主要基于兩種方法對(duì)網(wǎng)格進(jìn)行劃分:(1)基于政府行政城市管轄范圍的行政網(wǎng)格劃分;(2)基于500*500 的規(guī)則形狀網(wǎng)格劃分。支持基于網(wǎng)格的人口統(tǒng)計(jì)、客群洞察、來(lái)源特征等方面的分析。
對(duì)于區(qū)域網(wǎng)格劃分,其關(guān)鍵點(diǎn)在于:
(1)網(wǎng)格劃分范圍:在獲取的覆蓋國(guó)土最小外接矩形區(qū)域內(nèi),輸出該矩形區(qū)域內(nèi)可以歸屬到行政區(qū)域的所有網(wǎng)格。
(2)網(wǎng)格行政區(qū)劃歸屬:若網(wǎng)格中心點(diǎn)經(jīng)緯度落在行政區(qū)劃邊界上則可將此網(wǎng)格分配給城市編碼較小的行政區(qū)劃。在國(guó)界上,若網(wǎng)格中心點(diǎn)不在國(guó)界內(nèi),且存在一個(gè)或多個(gè)邊界點(diǎn)在國(guó)界內(nèi),則按符合國(guó)界內(nèi)的邊界點(diǎn)順序,取第一個(gè)符合國(guó)界內(nèi)的邊界點(diǎn)歸屬區(qū)劃。
(3)網(wǎng)格劃分坐標(biāo)系:按火星坐標(biāo)獲取網(wǎng)格經(jīng)緯度。對(duì)于基站信息中缺失方向角(缺失用圓)、覆蓋距離信息(500-1000m)無(wú)法實(shí)現(xiàn)交叉面積計(jì)算的內(nèi)容,后續(xù)根據(jù)用戶信令中實(shí)際基站切換序列進(jìn)行調(diào)整完善,網(wǎng)格劃分熱力展示如圖2 所示。
圖2 網(wǎng)格劃分熱力圖
在網(wǎng)格化的基礎(chǔ)上建設(shè)區(qū)域管理工具,改變目前粗放、割裂的區(qū)域管理模式,能夠提升區(qū)域配置效率和區(qū)域標(biāo)準(zhǔn)化程度。工具對(duì)區(qū)劃區(qū)域、標(biāo)準(zhǔn)區(qū)域、自定義區(qū)域三種類型區(qū)域進(jìn)行融合管理,用戶可以通過(guò)區(qū)域進(jìn)行訂閱,區(qū)域用戶訂閱分布方式詳見(jiàn)圖3。
圖3 區(qū)域用戶訂閱分布圖
在區(qū)域融合管理工具中,針對(duì)不同用戶訂閱,可對(duì)其訂閱區(qū)域及訂閱參數(shù)作出智能分析,對(duì)同區(qū)域不同參數(shù)的規(guī)則進(jìn)行融合,通過(guò)僅執(zhí)行一次數(shù)據(jù)查詢、多次訂閱運(yùn)算的方式,提升訂閱運(yùn)行時(shí)的效率。同時(shí)對(duì)參數(shù)類似訂閱提供訂閱建議,協(xié)助提升規(guī)則制定的業(yè)務(wù)有效性。
區(qū)域網(wǎng)格客流計(jì)算方法如下:
(1)將需要計(jì)算的區(qū)域進(jìn)行網(wǎng)格劃分,形成區(qū)域與網(wǎng)格的對(duì)應(yīng)關(guān)系。
(2)當(dāng)用戶生成一條新的信令時(shí),就對(duì)該用戶信息進(jìn)行處理,匹配到指定區(qū)域中,位置信令處理流程詳見(jiàn)圖4。對(duì)同一用戶連續(xù)在一個(gè)區(qū)域出現(xiàn)的多條信令數(shù)據(jù)進(jìn)行合并處理,合并處理時(shí),按時(shí)間順序,取第一條信令的發(fā)生時(shí)間作為合并后的開(kāi)始時(shí)間,取最后一條信令的發(fā)生時(shí)間作為合并后的最后活躍時(shí)間。
(3)統(tǒng)計(jì)區(qū)域客流,直接拉取區(qū)域中已分類歸納完成的數(shù)據(jù)。
圖4位置信令處理流程圖
(1)24 小時(shí)分時(shí)段多元線性回歸模型
將3 個(gè)月按全天的小時(shí)段客流拆分成24 個(gè)分段重新組合,消除影響因子后,構(gòu)造凈客流矩陣:
式中:Xij′為每個(gè)時(shí)段的凈客流數(shù)據(jù),i 為24 個(gè)時(shí)段(1~24),j 為3 個(gè)月天數(shù)(1~90)。
每個(gè)時(shí)段的凈客流數(shù)據(jù)作為因變量依次帶入模型,構(gòu)建24 個(gè)多元回歸方程式,通過(guò)模型參數(shù)的計(jì)算及誤差修正的方式對(duì)預(yù)測(cè)日對(duì)應(yīng)時(shí)段客流數(shù)據(jù)進(jìn)行預(yù)測(cè),將連續(xù)時(shí)間序列上多點(diǎn)預(yù)測(cè)轉(zhuǎn)化為單點(diǎn)預(yù)測(cè),將復(fù)雜問(wèn)題簡(jiǎn)單化,此處預(yù)測(cè)的為當(dāng)日凈客流值,并未加上影響因子部分。
設(shè)yt為因變量,x1,x2,…xk為自變量,分時(shí)段構(gòu)建24個(gè)小時(shí)回歸模型:
1 點(diǎn)回歸方程:yt=1=b1x1+b1x2+…+bkxk+et
2 點(diǎn)回歸方程:yt=2=b1x1+b2x2+…+bkxk+et
……
24 點(diǎn)回歸方程:yt=24=b1x1+b2x2+…+bkxk+et
式中:xk為近三個(gè)月全天24 個(gè)時(shí)段的凈客流,yt為預(yù)測(cè)日對(duì)應(yīng)24 個(gè)時(shí)段的凈客流,b1,b2,…bk為回歸系數(shù),是24個(gè)時(shí)間段參數(shù),et為常數(shù)項(xiàng),t 為24 個(gè)時(shí)段(1~24)。
通過(guò)回歸分析,得到常數(shù)項(xiàng)及各時(shí)段的參數(shù)估計(jì)值為e 和B 的矩陣:
將參數(shù)帶入回歸方程中,即可得到預(yù)測(cè)日對(duì)應(yīng)24 個(gè)時(shí)段的凈客流值。
(2)客流影響綜合因子分析模型
設(shè)影響客流的月份因子為Mi,星期因子為Wj,節(jié)假日因子為H0,天氣因子為S0,使用如下模型:
式中:Ft為ft客流綜合影響因子數(shù),mi為影響客流月份因子回歸參數(shù)估計(jì)值,wj為影響客流星期因子回歸參數(shù)估計(jì)值,h0為影響客流節(jié)假日因子回歸參數(shù)估計(jì)值,s0為影響客流天氣因子回歸參數(shù)估計(jì)值。
(3)綜合影響因子修正分段線性回歸模型表示如下:
組合24 個(gè)分時(shí)段多元線性回歸方程,形成24 小時(shí)區(qū)域綜合凈客流預(yù)測(cè)模型,加入天氣、節(jié)假日、季節(jié)等綜合因子來(lái)預(yù)測(cè)區(qū)域?qū)嶋H客流。
借助Istio 架構(gòu)技術(shù),將位置服務(wù)解耦成一系列輕量、敏捷的微服務(wù),將服務(wù)開(kāi)發(fā)和服務(wù)發(fā)布進(jìn)行分離,極大降低了平臺(tái)管理的復(fù)雜度,減少上層行業(yè)大數(shù)據(jù)應(yīng)用對(duì)服務(wù)技術(shù)的關(guān)注范圍,滿足對(duì)外大數(shù)據(jù)行業(yè)多、規(guī)模大、復(fù)雜性高的服務(wù)場(chǎng)景需求,提高支撐效能,為相關(guān)行業(yè)客戶提供區(qū)域指導(dǎo)和管理工作。
通過(guò)智能代理(Envoy),將位置區(qū)域微服務(wù)組成服務(wù)網(wǎng)格,承載服務(wù)間以及服務(wù)與外部的通信。通過(guò)流量管理(Pilot)機(jī)制,將流量和基礎(chǔ)設(shè)施擴(kuò)展解耦,智能化控制服務(wù)間以及外部調(diào)用的流向,并可以針對(duì)不同網(wǎng)絡(luò)質(zhì)量進(jìn)行調(diào)整,提高服務(wù)可用性。
根據(jù)業(yè)務(wù)特點(diǎn)和數(shù)據(jù)能力,已規(guī)劃建設(shè)的位置區(qū)域微服務(wù)主要包括:區(qū)域流量實(shí)時(shí)查詢、區(qū)域用戶分析、區(qū)域用戶流量、區(qū)域流量預(yù)測(cè)、區(qū)域用戶明細(xì)、區(qū)域用戶進(jìn)入等。
本研究基于區(qū)域網(wǎng)格融合計(jì)算模型,通過(guò)網(wǎng)格劃分解耦和區(qū)域計(jì)算拆分,提升區(qū)域配置效率,降低區(qū)域計(jì)算對(duì)平臺(tái)的資源需求。通過(guò)區(qū)域配置,調(diào)整計(jì)算優(yōu)先級(jí),決定區(qū)域計(jì)算任務(wù)調(diào)度權(quán)值,在資源上合理分配計(jì)算任務(wù),有目的性的選擇資源,使系統(tǒng)在最短的執(zhí)行時(shí)間內(nèi)實(shí)現(xiàn)整個(gè)網(wǎng)格系統(tǒng)資源利用的最大化,提升了區(qū)域配置效率和區(qū)域標(biāo)準(zhǔn)化程度。結(jié)合改進(jìn)的多元線性回歸方法,引入“近重遠(yuǎn)輕”的賦權(quán)原則構(gòu)造自變量,解決全天24 小時(shí)時(shí)段的位置區(qū)域時(shí)間序列數(shù)據(jù)預(yù)測(cè)準(zhǔn)確性問(wèn)題,拓展了位置區(qū)域分析業(yè)務(wù)場(chǎng)景。
通過(guò)區(qū)域網(wǎng)格融合后,相同區(qū)域的計(jì)算由多次減至一次。以區(qū)域客流量實(shí)時(shí)查詢服務(wù)為例,平臺(tái)目前訂閱該服務(wù)的區(qū)域有1671 個(gè),其中有424 個(gè)區(qū)域存在重疊,應(yīng)用本研究后,實(shí)時(shí)區(qū)域數(shù)據(jù)計(jì)算效率提升50%,區(qū)域數(shù)據(jù)實(shí)時(shí)更新周期從15 分鐘縮短到5 分鐘,顯著提高了實(shí)時(shí)計(jì)算的效率及準(zhǔn)確性,CPU 消耗減少4%-8%,內(nèi)存資源占用減少5%-8%,硬件資源利用率也得到提升。
此研究已廣泛服務(wù)于旅游、政府、金融等行業(yè)大數(shù)據(jù)產(chǎn)品中,為景區(qū)、政府、交通樞紐等研究區(qū)域客流規(guī)律提供有力支撐。
案例1:某街道在疫情防控中的“網(wǎng)格化管理”。
疫情期間為加強(qiáng)街道人員流動(dòng)管理,南京某街道依據(jù)此研究成果構(gòu)建網(wǎng)格化管理系統(tǒng)。以可視化大屏界面實(shí)施監(jiān)控管理,劃分8 個(gè)網(wǎng)格,街道全天24 小時(shí)監(jiān)控網(wǎng)格內(nèi)實(shí)時(shí)客流情況。通過(guò)客流網(wǎng)格化管理,加強(qiáng)數(shù)據(jù)分析效率,掌握高風(fēng)險(xiǎn)地區(qū)人員流入情況,強(qiáng)化了街道疫情風(fēng)險(xiǎn)防范能力,有力保障街道居民的衛(wèi)生安全。
案例2:某馬拉松活動(dòng)交通要塞口客流預(yù)測(cè)。
此研究應(yīng)用于某馬拉松活動(dòng)中,通過(guò)搭建交通要塞客流預(yù)測(cè)系統(tǒng),全方位全流程實(shí)施客流預(yù)測(cè)。在通往大型活動(dòng)的入口、活動(dòng)區(qū)域、出口等關(guān)鍵路徑上設(shè)置網(wǎng)格區(qū)域,根據(jù)網(wǎng)格區(qū)域歷史客流數(shù)據(jù)及區(qū)域網(wǎng)格融合計(jì)算模型,預(yù)測(cè)各區(qū)域活動(dòng)人群流量,協(xié)助相關(guān)部門對(duì)客流進(jìn)行控制及疏散。
以上提出了一種融合大數(shù)據(jù)和AI 技術(shù)的客流位置區(qū)域網(wǎng)格融合模型算法。在運(yùn)營(yíng)商大數(shù)據(jù)行業(yè)應(yīng)用領(lǐng)域,通過(guò)區(qū)域網(wǎng)格融合計(jì)算模型和應(yīng)用的建設(shè),提升大數(shù)據(jù)位置區(qū)域分析計(jì)算效率,對(duì)于行業(yè)位置區(qū)域類分析需求能提供更加科學(xué)、高效和精準(zhǔn)的支撐;通過(guò)高效的區(qū)域數(shù)據(jù)分析能力,為行業(yè)客戶提供更精準(zhǔn)、實(shí)時(shí)、豐富的大數(shù)據(jù)產(chǎn)品服務(wù),提升行業(yè)客戶的滿意度。在此研究基礎(chǔ)上,客流位置分析精確度方面還需繼續(xù)深入挖掘研究,不斷提高客流數(shù)據(jù)統(tǒng)計(jì)、洞察、分析的質(zhì)量。