趙越 王瑜 孫宏 劉芳琦 鮑麗娜 蘭婷
中國聯(lián)合網(wǎng)絡(luò)通信股份有限公司江蘇省分公司
隨著我國社會(huì)經(jīng)濟(jì)快速發(fā)展和人民生活水平不斷提高,我國城市化發(fā)展進(jìn)程加快,城市人口的增長、機(jī)動(dòng)車擁有量的增加、城市形態(tài)的變化以及社會(huì)活動(dòng)數(shù)量和規(guī)模的增加給國內(nèi)的大、中城市的交通狀況及其管理系統(tǒng)增加了越來越重的負(fù)荷,交通需求與供給之間的矛盾也變得越來越突出,因此需要大力推進(jìn)城市交通信息化的發(fā)展。
另外一方面,隨著智能移動(dòng)終端的普及,運(yùn)營商手中實(shí)時(shí)采集海量用戶信令數(shù)據(jù),通過這些用戶信令信息可以對(duì)用戶進(jìn)行精準(zhǔn)定位,從而實(shí)現(xiàn)對(duì)OD矩陣、居住地就業(yè)崗位分布、客流集散地人流數(shù)據(jù)的分析。
終端與小區(qū)間距離的計(jì)算是定位算法準(zhǔn)確與否的關(guān)鍵因素。Tadv(時(shí)間提前量)是網(wǎng)管直接統(tǒng)計(jì)的由于終端與基站間距離導(dǎo)致的時(shí)間差,不受陰影衰落與穿透損耗等因素影響,精度更高。因此在LTE MR數(shù)據(jù)中,主服務(wù)小區(qū)Tadv,盡量都用Tadv計(jì)算得到距離;在主服務(wù)小區(qū)沒有Tadv的情況下,才用RSRP測算距離。
MR中Tadv取值0~1282,1個(gè)Tadv等于78米,因此距離= Tadv值×78米
MR中的鄰區(qū)由于沒有Tadv,因此只能用RSRP計(jì)算距離。采用RSRP計(jì)算距離的方法分為2類,如下所述:
(1)FDD:參考信號(hào)功率(dBm)= dlRsBoost + pMax/10 -Round(10 × Log(dlChBw/10 × 5 × 12) / Log(10), 2)
(2)TDD:參考信號(hào)功率(dBm)= dlRsBoost + pMax/10- Round(10 × Log(ChBw/10 × 5 × 12) / Log(10), 2)
根據(jù)鏈路預(yù)算公式,可通過路徑損耗計(jì)算得到接入距離:
S=10^((路 徑 損 耗 (dB)-161.04+7.1×LOG10(20)-7.5×LOG10(20)+(24.37-3.7×(20/天 線 掛 高 (m))^2)×LOG10(天線 掛 高 (m))-20×LOG10(頻 點(diǎn) (GHz))+(3.2×(LOG10(11.75×UE 高度 (m)))^2-4.97)+3×(43.42-3.1×LOG10(天線掛高 (m))))/(43.42-3.1×LOG10(天線掛高(m))))
其中,路徑損耗計(jì)算如下:
路徑損耗(dB)= 參考信號(hào)發(fā)射功率(dBm) -參考信號(hào)接收電平RSRP(dBm) -穿透損耗(dB) -陰影衰落(dB))-基站饋線損耗(dB) +基站天線發(fā)射增益(dBi)+終端天線接收增益(dBi)-終端接收線纜與人體損耗(dB)。
(1)判斷采樣點(diǎn)的各導(dǎo)頻中(包含服務(wù)小區(qū)和鄰小區(qū))RSRP最強(qiáng)的導(dǎo)頻是否為室內(nèi)小區(qū):若是,則直接將采樣點(diǎn)定位在室內(nèi)小區(qū)所在的位置半徑50米內(nèi)隨機(jī)撒點(diǎn);若否,則采樣下述定位算法進(jìn)行定位。
(2)對(duì)于室外定位,是一個(gè)平面幾何問題,關(guān)鍵點(diǎn)在于在平面上確定一點(diǎn)的信息量是否充足。
(3)對(duì)于不重合點(diǎn)小于3個(gè)的情況,在平面上確定一點(diǎn)的位置是“信息不充分的”,因此需要結(jié)合小區(qū)天線方位角作最大可能性判定,本算法中用算法擬合選取的規(guī)則,以可能的位置點(diǎn)來作為定位點(diǎn)。
(4)對(duì)于不重合點(diǎn)大于等于3個(gè)的情況,信息量是冗余的,可以充分的利用信息的冗余量,求出趨近于真實(shí)點(diǎn)的位置。不同算法的關(guān)鍵在于用冗余數(shù)據(jù)修正數(shù)據(jù)準(zhǔn)確性方式的不同。其中,最小二乘法是數(shù)學(xué)上比較好的逼近方法。
(5)已知n個(gè)節(jié)點(diǎn)的坐標(biāo),及它們到未知節(jié)點(diǎn)D的距離,確定節(jié)點(diǎn)D的坐標(biāo)。
(1)關(guān)鍵字匹配算法
不同APP的HTTP表頭中URI包含的經(jīng)緯度信息表達(dá)方式不盡相同,傳統(tǒng)處理方式是對(duì)關(guān)鍵字逐項(xiàng)迭代匹配,找到表頭經(jīng)緯度字段提取,單條記錄多次匹配,如圖1所示。
圖1 關(guān)鍵字匹配算法圖
(2)特征數(shù)據(jù)匹配算法
考慮關(guān)鍵字匹配算法的局限性,進(jìn)行改進(jìn)研究,引入特征數(shù)據(jù)匹配算法,根據(jù)URI數(shù)據(jù)結(jié)構(gòu)進(jìn)行經(jīng)緯度特征數(shù)據(jù)值匹配(例如長春市邊界為:(127.05~124.6,45.2~43.29)數(shù)據(jù)只需進(jìn)行N次特征匹配就能定位到經(jīng)緯度信息,如圖2所示。
圖2 特征數(shù)據(jù)匹配算法圖
在用戶位置數(shù)據(jù)挖掘前,首先需要對(duì)城市進(jìn)行網(wǎng)格化分,將城市按照相應(yīng)算法切割成足夠小的網(wǎng)格,對(duì)應(yīng)可以將用戶位置規(guī)整地劃分到分解的網(wǎng)格中。Geohash算法其實(shí)就是將整個(gè)地圖或者某個(gè)分割所得的區(qū)域進(jìn)行一次劃分,由于采用的是base32編碼方式,即Geohash中的每一個(gè)字母或者數(shù)字(如wx4g0e中的w)都是由5bits組成(2^5 = 32,base32),這5bits可以有32種不同的組合(0~31),這樣我們可以將整個(gè)地圖區(qū)域分為32個(gè)區(qū)域,通過00000 ~ 11111來標(biāo)識(shí)這32個(gè)區(qū)域,可以根據(jù)需要進(jìn)行多次劃分,根據(jù)GEOHASH編碼不同精度,計(jì)算出來的網(wǎng)格大小不同。
本文采用將用戶經(jīng)緯度數(shù)據(jù)進(jìn)行GEOHASH編碼,然后按七位歸類劃分網(wǎng)格。有一個(gè)重大缺點(diǎn)就是GEOHASH不能實(shí)現(xiàn)所有最近位置編碼前輟越接近的規(guī)律,而出現(xiàn)相離幾米的用戶出現(xiàn)在兩個(gè)網(wǎng)格中。我們系統(tǒng)的實(shí)現(xiàn)時(shí),采用地圖系統(tǒng)對(duì)小區(qū)進(jìn)行PIO、AIO取樣分析,然后通過磁力聚合原理,將相同屬性,相近距離的小區(qū)劃成一組網(wǎng)格,最近通過中心點(diǎn)計(jì)算,最后形成網(wǎng)格,這樣在位置分析時(shí),網(wǎng)格更有意義,路徑計(jì)算也更加合理。
城市規(guī)劃中,按目標(biāo)人群分為工作地和居住地。工作地、居住地可以根據(jù)時(shí)間維度、駐留維度進(jìn)行劃分。工作地居住地的提取是位置分析里一個(gè)比較基礎(chǔ)與重要的功能,算法上可以采用簡單的方式通過上下班時(shí)間歸類提取數(shù)據(jù)滿足一些需求。職住數(shù)據(jù)也是很多其他位置分析的基礎(chǔ)數(shù)據(jù),如果質(zhì)量不好,直接影響其他業(yè)務(wù)的分析結(jié)果,不管其他業(yè)務(wù)的算法有多好。在較高數(shù)據(jù)精度需求中,就需求改進(jìn)、優(yōu)化職住地址提取算法,并加入機(jī)器學(xué)習(xí)算法。上下班時(shí)間段停留數(shù)據(jù)作為基本的數(shù)據(jù),系統(tǒng)在以下幾個(gè)方面做了算法優(yōu)化處理:家庭地址變化識(shí)別及快速切換,公司地址變化識(shí)別及快速切換,中長期出差人員識(shí)別及歷史數(shù)據(jù)保留,無職人員識(shí)別,辦公及生產(chǎn)區(qū)域識(shí)別,居住小區(qū)識(shí)別,在職人員活躍度識(shí)別,加班人員識(shí)別。
以上所有算法都比較復(fù)雜,并需要很大的計(jì)算資源,所有識(shí)別過程采用機(jī)器學(xué)習(xí),數(shù)據(jù)逐步修正與完善,后期的準(zhǔn)確性都建立在前期的學(xué)習(xí)模型上。由于通信業(yè)務(wù)白天是高峰期,晚上數(shù)據(jù)量比較少,系統(tǒng)在資源分配及編排上,晚間啟動(dòng)更多的學(xué)習(xí)進(jìn)程,保證不影響每10min粒度的報(bào)表數(shù)據(jù)輸出。
(1)人員工作地分布情況
工作地計(jì)算口徑:最近30天內(nèi),在工作日(周一~周五)的工作時(shí)間段內(nèi)(10:00~16:00),在網(wǎng)格內(nèi)停留時(shí)長大于3小時(shí)的天數(shù)〉=15天的目標(biāo),且工作日(周一~周五)的休息時(shí)間段內(nèi)(22:00~05:00),在網(wǎng)格內(nèi)的停留時(shí)長大于3小時(shí)的天數(shù)<=8天,則判斷目標(biāo)的工作地在該網(wǎng)格。
(2)人員居住地分布情況
居住地計(jì)算口徑:最近30天內(nèi),在工作日(周一~周五)的工作時(shí)間段內(nèi)(10:00~16:00),在網(wǎng)格內(nèi)停留時(shí)長大于3小時(shí)的天數(shù)<=8天的目標(biāo),且工作日(周一~周五)的休息時(shí)間段內(nèi)(22:00~05:00),在網(wǎng)格內(nèi)的停留時(shí)長大于3小時(shí)的天數(shù)>=15天,則判斷目標(biāo)人員的居住地在該網(wǎng)格。
(3)居住地工作地人員遷移情況
出發(fā)時(shí)間:早晚高峰時(shí),最后一次離開O的時(shí)間
到達(dá)時(shí)間:早晚高峰時(shí),第一次到達(dá)D的時(shí)間,若無則默認(rèn)為凌晨0時(shí)起每5min作為一個(gè)時(shí)間間隔,統(tǒng)計(jì)在這5min內(nèi)從O出發(fā)的用戶,最終到達(dá)D,每條軌跡的人數(shù),所用時(shí)間分布等信息;
早高峰:6:30~9:30
晚高峰:17:00~19:30
加班時(shí)段:21:30~24:00
(4)網(wǎng)格內(nèi)人員遷移情況
統(tǒng)計(jì)每個(gè)網(wǎng)格當(dāng)前的用戶,10min后的分布情況,以及到達(dá)用時(shí),在當(dāng)前網(wǎng)格逗留時(shí)長。
(5)區(qū)域?qū)崟r(shí)人數(shù)
統(tǒng)計(jì)每10min內(nèi),當(dāng)前區(qū)域下用戶數(shù)。
(6)人員遷移路徑
統(tǒng)計(jì)口徑:6∶30~21∶30 之間{網(wǎng)格 ID1,…,網(wǎng)格IDn}:到達(dá)時(shí)間:離開時(shí)間。
位置數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達(dá)的數(shù)據(jù)序列,一般情況下,數(shù)據(jù)流可被視為一個(gè)隨時(shí)間延續(xù)而無限增長的動(dòng)態(tài)數(shù)據(jù)集合。
普通流數(shù)據(jù)具有四個(gè)特點(diǎn):
(1)數(shù)據(jù)實(shí)時(shí)到達(dá);
(2)數(shù)據(jù)到達(dá)次序獨(dú)立,不受應(yīng)用系統(tǒng)所控制;
(3)數(shù)據(jù)規(guī)模宏大且不能預(yù)知其最大值;
(4)數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能被再次取出處理,或者再次提取數(shù)據(jù)代價(jià)昂貴。
用戶信令數(shù)據(jù)流的獨(dú)特性主要有:
(1)數(shù)據(jù)相對(duì)實(shí)時(shí)性;
(2)數(shù)據(jù)到達(dá)次序在短周期內(nèi)無順序性;
(3)數(shù)據(jù)規(guī)模宏大,但由于用戶數(shù)與每天的使用頻率有一定規(guī)律,數(shù)據(jù)能夠進(jìn)行估算。
(4)在進(jìn)行位置分析時(shí),由于算法復(fù)雜,并且要求較快的處理速度,中間數(shù)據(jù)不能采用
普通方式進(jìn)行存儲(chǔ)。
流式大數(shù)據(jù)處理框架:
(1)Apache Storm,在Storm中,先要設(shè)計(jì)一個(gè)用于實(shí)時(shí)計(jì)算的圖狀結(jié)構(gòu),我們稱之為拓?fù)?。這個(gè)拓?fù)鋵?huì)被提交給集群,由集群中的主控節(jié)點(diǎn)分發(fā)代碼,將任務(wù)分配給工作節(jié)點(diǎn)執(zhí)行。
(2)Apache Spark Streaming,核心是Spark API的一個(gè)擴(kuò)展,在處理前按時(shí)間間隔預(yù)先將其切分為一段一段的批處理作業(yè)。
通過對(duì)當(dāng)前業(yè)務(wù)系統(tǒng)的分析,都不太適合需求,原因如下:
(1)系統(tǒng)結(jié)構(gòu)復(fù)雜;
(2)部分不太完善,實(shí)際使用中有不少BUG;
(3)不適合進(jìn)行位置路徑處理;
(4)當(dāng)前業(yè)務(wù)分析時(shí)帶有龐大的內(nèi)存數(shù)據(jù),不適合分布方式高速處理,能發(fā)低下;
(5)完成本業(yè)務(wù)需求中的數(shù)據(jù)需要龐大的計(jì)算機(jī)硬件資源;
結(jié)合位置信令特點(diǎn),此次數(shù)據(jù)模型挖掘采用基于容器技術(shù)的微服務(wù)系統(tǒng),平臺(tái)采用Golang開發(fā)的微服務(wù)系統(tǒng)再運(yùn)行于基于Kubernetes加框的容器系統(tǒng)中完成流數(shù)據(jù)處理及其本業(yè)務(wù)系統(tǒng)中的所有服務(wù)。
由于位置信令流的獨(dú)特性,在流式處理前,需要進(jìn)行一次基于內(nèi)存計(jì)算的預(yù)處理。信令信息數(shù)據(jù)收集過程中,在5-10min內(nèi)的數(shù)據(jù),上無序數(shù)據(jù),在進(jìn)行流式處理前,需要對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確性排序處理,由于數(shù)據(jù)量非常大,系統(tǒng)采用10min延遲入庫,按分鐘切片排序,然后再匯合成正確時(shí)序的數(shù)據(jù)流。
何為抖動(dòng),指某用戶在兩個(gè)或多個(gè)小區(qū)基站中間時(shí),可能由于無線信令原因,或者其在一個(gè)小小范圍的距離之間移動(dòng)時(shí),會(huì)頻繁的產(chǎn)生不同的位置信令,我們?cè)趯?duì)網(wǎng)格進(jìn)行磁力聚合處理后,會(huì)自動(dòng)處理部分?jǐn)?shù)據(jù),但不能完全達(dá)到合理,我們通過對(duì)該用戶的持續(xù)位置采樣,能夠分析出該用戶的信令特征,如果數(shù)據(jù)抖動(dòng)注冊(cè)時(shí),能夠?qū)⒍秳?dòng)產(chǎn)生的信令數(shù)據(jù)進(jìn)行過濾,保證用戶路徑的穩(wěn)定性與合理性。
抖動(dòng)數(shù)據(jù)處理學(xué)習(xí)服務(wù)。在抖動(dòng)處理中,利用了機(jī)器學(xué)習(xí)技術(shù),系統(tǒng)能夠完成該區(qū)域多用戶持續(xù)性采樣學(xué)習(xí),從而進(jìn)行更準(zhǔn)確的數(shù)據(jù)處理。
數(shù)據(jù)處理的過程就也是學(xué)習(xí)的過程,隨著系統(tǒng)不停運(yùn)行,數(shù)據(jù)處理能夠得到持續(xù)優(yōu)化。
當(dāng)然這個(gè)學(xué)習(xí)過程也是非常耗費(fèi)計(jì)算資源的,這里也充分地展示了基于彈性微服務(wù)架構(gòu)的一個(gè)優(yōu)勢,在流處理時(shí),將初步判斷有抖動(dòng)嫌疑的數(shù)據(jù)送到一個(gè)學(xué)習(xí)微服務(wù),這個(gè)微服務(wù)可能在云計(jì)算中的其他節(jié)點(diǎn),學(xué)習(xí)后的結(jié)果再階段性加入到流處理過程中。當(dāng)學(xué)習(xí)負(fù)荷比較大時(shí),可以按預(yù)先進(jìn)行的容器編排設(shè)置啟動(dòng)多個(gè)學(xué)習(xí)服務(wù),學(xué)習(xí)服務(wù)負(fù)荷小的時(shí)間,再把資源釋放出來。還有一個(gè)重要的容錯(cuò)特征,系統(tǒng)始終會(huì)保持一個(gè)或多個(gè)學(xué)習(xí)服務(wù),即使其中一臺(tái)主機(jī)崩潰時(shí),也會(huì)在短時(shí)間不到1min內(nèi)在其他主機(jī)自動(dòng)部署新的學(xué)習(xí)服務(wù)。
通過將挖掘后數(shù)據(jù)進(jìn)行整合呈現(xiàn),實(shí)現(xiàn)了交通OD的全局實(shí)時(shí)感知,可以細(xì)化到每個(gè)OD每條道路,每個(gè)交通小區(qū),實(shí)現(xiàn)對(duì)交通治理的數(shù)據(jù)決策支撐。通過數(shù)據(jù)挖掘,某地市出行距離在5-10km的人群最多,達(dá)到32%,私家車出行的比例達(dá)到48%。
圖3 城市數(shù)據(jù)大腦—交通態(tài)勢實(shí)時(shí)感知圖
通過一個(gè)月內(nèi)人員出行軌跡的分析計(jì)算,可得出公交快7線路的運(yùn)力配置與客流高峰分布有差異???沿線職住分布及客流覆蓋率如下圖:
圖4 快7沿線職住分布及客流覆蓋率圖
快7沿線客流總需求及公交運(yùn)力時(shí)間分布(早高峰)如下圖:
圖5 快7沿線客流總需求及公交運(yùn)力時(shí)間分布(早高峰)圖