趙松嶧,姚勁松,柏青,劉繼民,呂平寶
移動基站研發(fā)中的大數據運用
趙松嶧,姚勁松,柏青,劉繼民,呂平寶
(上海諾基亞貝爾股份有限公司,上海 201206)
移動基站產品(如4G LTE/5G移動基站、物聯(lián)網基站)的研發(fā)過程非常復雜,基站的各個軟件模塊彼此依賴,而系統(tǒng)性能分析和故障定位依賴于對各軟件模塊產生的海量日志數據的挖掘。將物理層、MAC層、RRC層等層間數據相互關聯(lián)變得非常必要,這能明顯提高產品開發(fā)過程的效率和研發(fā)產品質量。首先介紹了無線大數據的特點,并分析了其面臨的問題;然后研究了如何處理數據,包括數據采集,特別是聯(lián)合跨層數據采集、提取、非結構化數據格式在分布式數據庫中的轉換以及各域數據之間的同步方法,詳細闡述了結果數據和過程數據兩類數據的分析方法;最后展望無線網絡數據規(guī)模進一步擴大后對平臺的需求和相關的應用前景。
日志分析 時間序列分析 過程數據分析
移動網絡產品研發(fā)(如基站)是一個巨大而復雜的軟件工程,需要組織數千名來自不同領域,具有不同技術背景的工程師一同工作。例如基站的研發(fā)通常按移動網絡的控制面、用戶面及管理面的需求進行分解并協(xié)同開發(fā)。在這種跨層跨域的環(huán)境中,每個軟件模塊的開發(fā)和測試都會產生海量數據,比如日志數據及調試過程信息等,因此迫切需要數據整合工具來幫助工程師跟蹤和檢查產品各模塊的開發(fā)進程,盡早整合各模塊,以提高產品開發(fā)的效率。本文將討論如何幫助工程師面對大數據的挑戰(zhàn),處理和分析各模塊產生的海量數據,加快產品的開發(fā)過程。
本文以4G無線基站(eNB)產品開發(fā)過程為例,介紹與總結大規(guī)模采集、預處理并分析大數據的實踐經驗以及研發(fā)過程中行之有效的一些方法。
產品工程師眼中的無線大數據常常是指:從所有連接的無線網元設備(包括LTE基站、5G基站、物聯(lián)網基站等)收集到的數據,包含性能計數器、告警事件、3GPP規(guī)范定義的信令類呼叫日志,運營商自定義測量報告、網關深度包檢測數據以及設備用于調試的日志數據等。工程師希望借助這些數據了解產品設計是否滿足要求、產品工作流程是否達到預期或者是否需要改進。
移動網絡產品研發(fā)是項復雜的系統(tǒng)工程,每個領域和層面(如控制面、用戶面和管理面)都有其專有的日志抓取工具和分析工具,定位與同步各領域的日志數據十分困難。由于采集數據量大,當設備負載增高時會引起日志數據溢出丟失,進一步影響設備性能,這種入侵式調試方法使產品運行時的實際性能受到明顯影響。
對于已獲取的數據日志的分析,工程師習慣于基于單個事件、單個用戶進行行為分析,許多有用信息并未完全利用。如果需要在多個層面,從全局綜合性地分析,或者從某個連續(xù)覆蓋的區(qū)域同時抓取海量數據,對這樣跨層跨域的數據,需要一個數據分析的方法和統(tǒng)一分析框架。
一個成功的開發(fā)工具需要對不同知識背景的工程師提供兩個層面的幫助:一種是降低數據處理能力的學習門檻,由工具提供常見的情景化的分析模板,可直接將由專家定義的大量相關且同步的數據圖形化一次性地展示出來,這能夠讓工程師快速地把精力專注于熟悉的領域;另外一種是提供輸出控制模板或腳本,讓工程師對元數據進行輸出定制,而后進行深度挖掘。
從實際運用無線大數據的狀態(tài)來看,數據分析方法是對兩種截然不同的數據類型分別在兩個層面進行討論。無線數據可以分為結果類數據(即平時說的KPI(Key Performance Indication,關鍵性能指標))和過程類數據(即事件型的數據日志)。兩個層面的數據分析是指數據的基本分析和深度分析?;痉治?,即探索性數據分析[3-4],是對所收集的數據用描述性統(tǒng)計語言對其進行多維的圖形展示,以便發(fā)現其內在聯(lián)系并為進一步的系統(tǒng)優(yōu)化提供指導。數據的深度分析則一般根據解決問題的方向,使用各種機器學習算法進行數據挖掘。
在設備高處理負荷情況下,日志數據可能產生緩存溢出和掉包。通過對日志數據進行二進制編碼存儲可實現在基站中等負載情況下,即每扇區(qū)200個活動用戶情況下,L2調度層產生的日志數據大約是300 kb?s-1?cell-1,能夠滿足數據采集的需求。
LTE基站eNB的日志采集系統(tǒng)(ETC),能支持實驗室和外場兩種環(huán)境。ETC訪問網管設備下達各種采集命令,外場使用現場的日志收集網元TCE(Trace Collection Element)存儲獲取的數據。系統(tǒng)實現架構如圖1所示。單eNB及多eNB的數據采集均可采用該結構來實現。
圖1 eNB日志采集系統(tǒng)
原始日志數據往往是非結構化的,有不同的數據結構和格式,每條數據內容也千差萬別,采集的數據也可能會有遺漏或錯誤。再一個原因是數據量太大,一個小區(qū)10分鐘約產生3 GB~4 GB的數據量。因此需要將非結構化的數據導入數據庫,并提取結構化的數據,為后續(xù)計算機進行自動化處理和統(tǒng)計性機器學習[2]提供可能。比較合適的數據庫是支持非結構化的NoSQL數據庫,因此適合選用MongoDB作為一級數據庫,預處理后的數據一般根據工程師的控制腳本會生成結構化的數據格式,
日志數據因為是二進制編碼且數量龐大,需要使用分布式數據庫服務器進行快速入庫。針對日志數據處理,設計了一個MARS(MongoDB-Based Analysis and Research System),它提供了日志數據的跨層跨域數據的分離,能夠快速入庫,對數據進行同步合并、排序并格式化輸出。
MARS系統(tǒng)架構設計如圖2所示,ETC訪問MARS-C(PC端的控制模塊),MARS-C訪問遠端MARS-M(資源管理模塊)進行任務調度,調度多個MARS-S(資源服務模塊)進行并行處理以提供具體MongoDB非結構化數據庫操作,包括二進制解碼、數據同步合并、時間排序等。MARS-C可申請多達16個MARS-S的進程進行并行處理。MARS-M根據系統(tǒng)的忙閑分配資源并釋放和回收空閑的資源。
圖2 MARS系統(tǒng)結構
日志數據的時間標記有兩種:一種是嚴格按LTE TTI(Transmission Time Interval)時間戳標記,與GPS時鐘保持同步;另外一種是隨機事件型的,時間點對齊eNB內部時鐘。在執(zhí)行數據同步合并時,對同一UE,具有TTI時間戳的日志數據進行合并,按一個記錄處理,對事件型日志則保留逐條記錄。這樣做能明顯降低數據的規(guī)模。
數據輸出按照分析目的有不同的格式,各預定義了相應的結構化格式,便于后處理。常見的幾種格式包括:
(1)按會話日志索引將相關數據選擇輸出;
(2)按KPI要求將數據按時間單位匯總輸出;
(3)按照事件場景將相關UE日志過濾導出;
(4)將事件日志導出等。
日志數據有兩種類型,將使用不同的分析方法。一種是結果數據,就是在某一時間節(jié)點,統(tǒng)計生成的KPI統(tǒng)計量,可以是毫秒級別或者是秒級別的;另外一種是過程數據,主要是攜帶時間戳的事件。
結果數據的基礎分析方法分為描述性統(tǒng)計分析、相關性分析和時間序列分析。以eNB日志為例,可從中提取出各扇區(qū)下所有UE的行為,通過繪制日志、吞吐量、干擾等散點圖可分析和明顯看出基站工作正常與否,具體如圖3所示。
根據UE索引,可以進一步選擇少量UE進行描述性統(tǒng)計分析、相關性分析以及對某個UE的時間序列進行分析。圖4給出描述性統(tǒng)計分析的例子。描述性統(tǒng)計分析一般包括各種無線性能指標的概率密度、概率分布、方差、集中趨勢度量等內容,將多維信號同時用圖形進行展示,或者將不同配置、不同時刻下的信號用不同顏色進行標注后對比展示,可以讓工程師迅速找出差別從而進行進一步的分析。
圖4 eNB描述性性統(tǒng)計
圖3 UE日志數據散點圖
圖5 給出了UE日志時間序列分析的例子。時間序列圖能看出一個UE在進入系統(tǒng)后在時間上各信號間的相關關系。將各個層間無線指標信號在同步的時間軸上在一個畫面上同時展現,信號間的相關性一目了然。圖5下方的卷動軸可以選擇展現的時間范圍,從而同步放大縮小時間維度,有助于解決宏觀或者微觀定位問題。
將TTI級別的調度信息導入,系統(tǒng)也可以按不同屬性輸出資源調度圖,可以輕易評估資源利用率,圖6是LTE TDD的調度器在實際網絡中的示例。它將eNB資源調度按照時間和頻率展開,每列表示1 ms、100 RB的時頻空無線資源,圖中不同色塊表示不同UE的調度情況,對于多用戶調度,分析人員可以直觀地評估資源的利用率、資源公平性和效率等指標是否符合設計的初衷。在壓力測試下更能找出資源的瓶頸和進一步改進的方向。
圖5 UE下行時間序列圖
深度的數據分析則是客戶化的,平臺提供經過預處理的干凈數據,分析員根據工作目標定義合適的分析方法。例如需要分析UE測量報告判斷UE在室內還是室外,這一結論可以進一步應用于UE位置定位算法。使用不同有督導的學習方式的對比,可得到不同算法的適用程度,表1是各個算法的成功率[2]??梢钥吹?,有些算法具有極高的成功率,能迅速簡化問題的復雜度。
圖6 TDD LTE資源調度圖
表1 各個算法的成功率 %
當工程師需要研究無線設備的動態(tài)行為時,事件過程數據就十分有用。所謂過程挖掘就是從事件日志數據中提取知識來自動發(fā)現過程模型,檢驗抓取事件日志與設計的過程模型的順從型和適用性,最后用于評估模型的性能,進行增強型的再設計[1]。
事件日志包含關鍵字用于區(qū)分和跟蹤各個事件,一般還包含事件名稱、時間戳、事件其它相關屬性,比如源、目的、開始/結束時間、其它調用資源等信息。
數據的分析一般是從概況了解開始,如圖7所示的散點圖可以從各個維度展示日志數據的整體情況。圖中的橫坐標是時間,縱坐標是日志會話標識。
圖7 事件日志的散點圖
圖8 基于日志的Petri-net模型
圖9 Petri-net模型日志順從性檢查
圖10 eNB模塊間的社交網絡圖
當所有的事件一起同時分析,則顯得比較凌亂?,F在無線系統(tǒng)一般都是基于面向對象的構件化軟件設計。各個軟件構件一般都有相對穩(wěn)定的軟件設計模式,比如ECB(Entity-Controller-Boundary)模式[6],則控制器里的有限狀態(tài)機是軟件模塊性能的關鍵??梢詫⑷罩疚募凑哲浖嫾M行分類過濾,對單個構件進行過程自動識別,現有的算法包括alpha miner(阿爾法挖掘)、heuristics miner(啟發(fā)式挖掘)、inductive miner(歸納挖掘)和fuzzy miner(模糊挖掘)[8]。如圖8是基于日志的Petri-net模型[9]。利用inductive visual miner或者fuzzy miner可以將日志的事件動畫地重放,這樣可以觀察諸如延遲擁塞的直觀信息。
進一步就是考察發(fā)現的過程模型的質量,從順從性檢查、模型的簡單性、模型的通用性和模型的準確性幾個方面進行衡量。例如圖9所示的順從性檢查,將后續(xù)的事件日志在發(fā)現的模型進行重放比對,對于不匹配的事件進行分析,可以發(fā)現問題或者修訂模型。圖9右側給出了各個事件的統(tǒng)計值,左側的深色圖標則標注出不匹配的place或者action。
基于這些數據,還可以做性能分析,比如根據Petri-net上的place和action逗留時間,識別出網絡中瓶頸節(jié)點等。對于封閉系統(tǒng),系統(tǒng)吞吐量由瓶頸節(jié)點控制[5],這樣可以對其進行優(yōu)化,比如轉化為并行處理,從而提高系統(tǒng)性能。另外以軟件模塊為成員,可以按照社交網絡(Social Network)的方式來分析成員間的相互關系。圖10給出了eNB模塊間的關系圖。
如果需要構建量化模型,可以將各成員間的消息傳遞量化成外部平均到達速率、成員間轉移概率、成員平均服務時間,也可以將消息分類,這樣可以生成一個相對復雜的分類的排隊Jackson網絡[5],例如圖11所示:
圖11 簡單的軟件構件Jackson網絡
當抽象出Jackson網絡模型后,根據排隊論可知道該模型可以把每個軟件構件看成彼此獨立的(數學形式上是M/M/1)模型,于是聯(lián)合狀態(tài)空間可以看成獨立狀態(tài)空間的乘積形式。最終可以分析系統(tǒng)處理能力、響應時間等性能參數[5]。
前面討論了單個基站數據分析的方法,和工程師傳統(tǒng)習慣的單UE單會話的分析相比,已經拓展到基站下多UE的同時分析。但僅僅這一步還是不夠的,需要進一步拓展到連續(xù)覆蓋的簇及長時間更大量的數據進行分析。于是需要引入云計算平臺進行并行運算。引入的數學工具可能是隨機矩陣、泊松點過程等。
在引入云計算平臺過程中,除了注重現有成熟平臺的選擇,更需注重的是無線大數據的應用,可以有許多工作值得逐步展開。例如文中的圖4,可以將其轉化成實時的流計算,快速地發(fā)現基站的運行問題并告警,eNB的區(qū)域覆蓋特性特別適合于并行計算。
另外一個展望是考慮到LTE業(yè)務量增長迅猛,下一步很可能的技術熱點是多層異構網的部署,小區(qū)部署不規(guī)則、動態(tài)變化、指數級增長的基站數目對于網絡配置和優(yōu)化是一個挑戰(zhàn)。利用無線測量數據,使用指紋匹配可以將UE的位置信息進行提取,于是一個二維地圖上面有宏微基站的信息和UE分布等眾多數據,集中精力優(yōu)化特殊場景的最優(yōu)配置,迅速推廣到全網,這樣可以大大提高效率和降低成本[10]。
[1] Wil van der Aalst. Process Mining Data Science in Action[M]. New York: Springer, 2016.
[2] Gareth James. An Introduction to Statistical Learning[M].New York: Springer, 2015: 303-368.
[3] Robert I. R in Action: Data analysis and graphics with R[M]. New York: Manning Publications, 2011.
[4] Roger D Peng. Exploratory Data Analysis with R[M].Lean Publishing, 2015.
[5] Mor Harchol-Balter. Performance Modeling and Design of Computer Systems[M]. New York: Cambridge University Press, 2013: 297-311.
[6] Hassan Gomaa. Software Modeling and Design[M]. New York: Cambridge University Press, 2011: 191-368.
[7] J Leskovec. Mining of Massive Datasets[M]. New York:Cambridge University Press, 2014.
[8] Christian W, Gunther. Fuzzy Mining-Adaptive Process Simplification Based on Multi-Perspective Metrics[C]//Wil M.P. van der Aalst. Eindhoven University of Technology, 2007: 328-343.
[9] Wolfgang Reisig. Understanding Petri Nets[M]. Berlin:Springer, 2013: 1-81.
[10] Francesco Ricci. Recommender Systems Handbook[M].New York: Springer, 2011.★
Big Data Application in the Development of Mobile Products
ZHAO Songyi, YAO Jinsong, BAI Qing, LIU Jimin, LV Pingbao
(Nokia Shanghai Bell Co., Ltd., Shanghai 201206, China)
The research and development of mobile base station products (such as 4G LTE/5G mobile base station and IoT base station) are very complicated. Each software module of the base station is dependent on each other. The performance analysis and fault localization of the system depend on the data mining of the massive log data generated by different software modules. It is necessary to correlate the log data on the physical layer, MAC layer and RRC layer, because the product development effi ciency and product development quality can be highly enhanced. Firstly,the characteristics of wireless big data were introduced and the related problems were addressed. Then, the data processing was investigated including data acquisition, especially, the transformation of the joint cross-layer data acquisition, extraction and unstructured data format in the distributed database and the synchronization method between different-domain data. The analysis method of the result data and process data was elaborated. Finally, the platform demand and application prospect after the further expansion of wireless network data scale were outlined.
log analysis time series analysis process data analysis
10.3969/j.issn.1006-1010.2017.22.013
TP929.53
A
1006-1010(2017)22-0062-09
趙松嶧,姚勁松,柏青,等. 移動基站研發(fā)中的大數據運用[J]. 移動通信, 2017,41(22): 62-70.
2017-06-19
劉妙 liumiao@mbcom.cn
趙松嶧:系統(tǒng)顧問工程師,碩士畢業(yè)于上海交通大學,現任職于上海諾基亞貝爾股份有限公司,目前在從事LTE產品系統(tǒng)設計相關工作,主要研究方向為LTE無線性能、IP網絡架構。
姚勁松:系統(tǒng)顧問工程師,碩士畢業(yè)于華中科技大學,現任職于上海諾基亞貝爾股份有限公司,目前從事LTE產品系統(tǒng)設計相關工作,主要研究方向為無線資源管理設計與研究,下一代無線通信系統(tǒng)與物聯(lián)網的設計與研究。
柏青:系統(tǒng)顧問工程師,學士畢業(yè)于東北大學,現任職于上海諾基亞貝爾股份有限公司,主要從事LTE系統(tǒng)設計及性能指標定義方面的工作。