辛 晃 ,易興輝 ,陳震宇
(1.中國移動通信集團貴州有限公司 貴州 550018;2.中國移動通信集團設計院有限公司重慶分公司 重慶 401147)
隨著移動通信網絡規(guī)模的不斷擴大,網絡資源種類、數量不斷增加,終端客戶對網絡質量的要求不斷提高,客戶感知要求也日益提高,網絡運維面臨前所未有的挑戰(zhàn)和壓力。為了理解移動互聯網的業(yè)務特征、網絡狀態(tài),需要分析和存儲大量業(yè)務內容數據和信令數據。很多網管支撐分析系統面對著海量的數據壓力。目前網管支撐系統的數據存在如下問題,使其不能從海量數據中獲得有用的信息并服務于運維與客戶。
以某省為例,各專業(yè)的資源、告警和性能數據分散在20余套系統中,各系統各自處理各自的數據,系統間的數據難以實現跨專業(yè)告警關聯、全專業(yè)資源調度及端到端業(yè)務質量分析等。
數據建模方法、數據分類、數據粒度、數據維度、數據命名編碼均不同,不同系統無法共享。
告警監(jiān)控在話務網管、數據網管、動環(huán)監(jiān)控等9類系統中重復;網絡拓撲展現在10類系統中重復;性能統計報表在17類系統中重復。系統的數據和應用緊耦合,無法基于現有數據擴展新的應用。網絡數據采集不規(guī)范、重復采集。
因此,亟需將各生產系統數據準實時地整合到統一靈活的數據共享平臺上,有利于以不同視角全面分析網絡、業(yè)務和用戶的情況,有助于生成全局的正確決策。同時需提高數據共享能力,實現跨系統應用的快速支撐。據梳理調研,目前電信運營商的網絡數據存在如下特點。
以某省某運營商為例,其企業(yè)數據之“大”表現在以下方面:
·服務客戶數量超過3200萬戶;
·每天發(fā)生通話1.44億次,通話時長3.14億分鐘;
·每天產生流量 420 TB;
·每天發(fā)送短信1.4億條,彩信900萬條;
·無線數據核心網GN接口每天有3.5 TB的CDR話單,約70億條;
·無線數據接入網GB接口每天有5.3 TB的CDR話單,約100億條;
·無線交換核心網MC接口每天有300 GB的CDR話單,約5億條;
·某移動CMNET每日產生350 TB的流量,DNS請求達3.5億次;
·基站數超過3.4萬個;
·全省服務網點數量有3.6萬個。
從某種程度上來說,這些不僅是數據,而且是企業(yè)寶貴的信息資產。
各專業(yè)數據不僅量大,數據結構也多樣,既有結構化數據,如賬單、詳單、財務報表、整理后的XDR、企業(yè) ERP等,也有非結構化或半結構化數據,如原始信令、文件、視頻、語音、上網記錄等。目前的傳統關系型數據庫只在處理結構化數據方面有較好的優(yōu)勢。
目前數據的存儲分析處理大多采用集中式的以小型機為主的架構(SMP),此架構節(jié)點規(guī)模受限,磁盤I/O瓶頸嚴重,計算和存儲能力的可擴展性不足,導致高峰期負荷高,性能劣化明顯,無法對信令、話單等進行全量管理,難以支撐端到端、靈活的分析、優(yōu)化與應用。
針對以上數據特點,傳統的關系型數據庫已經不能滿足發(fā)展需求,需要尋求一種新的架構,其能較好地處理這些“大而有特點”的數據。
針對網管支撐系統的發(fā)展趨勢和存在的問題,通過研究與具體實現,搭建一個硬件平臺、網絡環(huán)境,以實現數據的統一建模、統一存儲、統一處理,實現數據向應用的開放共享。數據庫主要采用分布式架構,探索基于Hadoop+MPP的方式,上層應用可以基于數據平臺進行靈活、快速定制。
網管系統涉及的數據源多、數據量大、數據結構差異大,以某省網管為例,總計涉及六大類12小類數據,總存儲量8PB,日增量160 TB,其中信令數據占85%。因此,必然涉及大數據處理技術。目前電信運營商對大數據中心的建設主要有兩大主流方案,分別對兩大主流方案進行分析與對比。
因為Hadoop的低成本性 (使用廉價x86服務器 )、強擴展性(硬件節(jié)點可不斷橫向擴展)、容錯好(系統設計為高容錯性,允許PC出現故障;每塊文件數據在不同機器節(jié)點上保存2~3份)等特點,被廣泛運用于大數據解決方案中。
在Hadoop架構中,用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力進行高速運算和存儲。如某運營商在2012年用70臺服務器建成CS共享平臺 (CS域信令及無線信令),日增數據量約10 TB,保存60天,主要為營銷、無線優(yōu)化、網絡運維等提供信令數據支撐。
如某省投入90臺x86服務器,采用Hadoop技術搭建一個大數據平臺,通過大數據平臺的建設,融合DPI數據、網絡信令數據、業(yè)務支撐系統內的話單及客戶數據等,存儲共計1125 TB,其中計算/存儲節(jié)點 80臺,管理及接口服務器節(jié)點10臺。但隨著Hadoop的廣泛應用,其也顯現出不盡如人意的地方,介紹如下。
·適用場合局限:與傳統關系型數據庫、MPP(massively parallel processing)數據庫、流計算等技術相比,Hadoop只是對某些類型的計算任務比較擅長。
·人力資源問題:系統的開發(fā)人員對SQL比較熟悉,但對Hadoop技術比較陌生。Hive雖然支持在Hadoop平臺上使用類SQL,但性能較差,對性能要求較高的應用,Hive無法滿足相關要求。開發(fā)人員的技術能力是一大障礙。
·維護成本:主要包括兩部分,一是硬件維護成本,Hadoop平臺一般由PC服務器構成,而PC服務器的硬件故障率一般比小型機高,在生產系統運行初期,硬件故障發(fā)生的可能性較低,這部分成本不明顯,但隨著時間的推移,硬件(如內置硬盤)將會陸續(xù)出現問題,維護成本較高;二是平臺維護人員的投入成本,因為Hadoop平臺較為復雜,維護人員需要經常根據需要調整平臺設置,以獲得較好的性能。而傳統數據庫雖然不能設置一次后就“一勞永逸”,但至少可以在一段較長的時間內不用做大的更改。
傳統企業(yè)的IT能力有限,數據處理工作主要依賴于系統集成商,重點在應用實現方面。數據的處理目前還是以數據庫、數據倉庫技術為主,大多是主機+集中存儲的架構;軟件則主要選擇Oracle相關數據庫產品來搭建數據倉庫,實現各層功能。如某省的性能管理系統(相當于網絡數據共享平臺)、南方的電網數據中心、某運營商的總部集中數據分析系統、某省的地鐵數據中心均采用小型機+集中存儲+數據倉庫軟件的方式來完成數據中心的建設。
隨著數據量的增漲與數據類型的日益復雜,傳統數據倉庫的不足也逐漸顯現,具體介紹如下。
·處理數據量小:對于10 TB以上的數據,傳統小型機+磁陣方式處理吃力。
·投資高:如果使用傳統磁陣,成本為1.5萬元/TB,1 PB存儲需要1500萬元,存儲半年1 GB的分析數據需要近1500萬元(僅為存儲費用,不含小型機費用)。
·I/O瓶頸:傳統數據庫采用集中式存儲,數據庫的諸多性能問題最終總能歸咎為I/O。
Hadoop是一個分布式系統基礎架構,由Apache基金會開發(fā)[1]。用戶可以在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序,以充分利用集群的威力進行高速運算和存儲。Hadoop的成員架構如圖1所示[2]。
其有如下3部分核心內容[3,4]。
(1)分布式文件系統(HDFS):文件存儲方式
HDFS是新型分布式文件系統的典型代表,提供高可靠、高擴展、高吞吐能力的海量文件數據存儲能力。對用戶來說,可以將其看作一個巨大的磁盤,可以創(chuàng)建、刪除、移動、重命名文件。
(2)HBase數據庫:數據庫數據存儲方式
HBase 是非關系型數據庫 (not only SQL,NoSQL),主要依靠橫向擴展,通過不斷增加廉價的PC服務器增加計算和存儲能力。
(3)MapReduce模型:并行計算方式
遵循map(映射)/reduce(化簡)模型就可以實現分布式并行計算?;趍ap/reduce寫出來的應用能運行在上千臺服務器組成的集群上,并以一種可靠的容錯方式并行處理數據,實現對大數據的處理。
圖1 Hadoop的成員架構
MapReduce可以把一個任務分解為很多可以并行化處理的子任務,這些子任務被分配到不同服務器上進行并行計算,當所有服務器的計算都完成后,再把結果聚合到一起形成一個最終結果。
Hadoop的優(yōu)勢介紹如下[5]。
·數據處理能力強:在整體上獲得較高的計算能力,可以完成傳統數據庫無法完成的大數據處理任務。
·成本低:在生產實踐中,就Hadoop擅長的計算而言,同等計算能力的Hadoop集群的成本僅為運行于小型機的傳統數據庫成本的1/10~1/2。
·高可靠性:Hadoop通過維護多個數據副本,當一定數量的數據塊損壞或者一定數量的節(jié)點失效時,仍能保證數據的完整和正確。通過作業(yè)控制機制,即使某些計算任務失敗,也不會影響整個計算作業(yè)。
·靈活的可擴充性:Hadoop可以根據需要自由縮減和擴充集群規(guī)模(即減少和增加節(jié)點),具備良好的可擴充性。
綜上所述,Hadoop平臺既有優(yōu)勢,也有不足,適用于某些特定類型的場景,可以作為混搭結構的一部分。
Hadoop在處理如原始信令、圖片、聲音等非結構化或半結構化數據時,表現出毋容置疑的優(yōu)秀計算能力,但在面對傳統關系型數據復雜的多表關聯分析、強一致性要求、易用性等方面時,其與基于面向對象的分布式關系型數據庫還存在較大的差距。此時,最有效的大數據分析系統需要結合MPP數據庫搭配構建。
MPP是由多個SMP服務器通過一定的節(jié)點互聯網絡進行連接,協同工作,完成相同的任務,從用戶的角度看是一個服務器系統[6,7]。其基本特征是由多個SMP服務器(每個SMP服務器稱為一個節(jié)點)通過節(jié)點互聯網絡連接而成,每個節(jié)點只訪問自己的本地資源(內存、存儲等),是一種完全無共享(share nothing)結構,因而擴展能力最好,理論上其擴展無限制。
MPP數據庫是將任務并行地分散到多個服務器和節(jié)點上,在每個節(jié)點計算完成后,將各自的結果匯總在一起從而得到最終結果。
與傳統的關系型數據庫相比,MPP在數據處理方面具有以下優(yōu)勢[6,7]。
(1)采用分布式架構
與傳統數據庫相比,MPP最大的特點是采用分布式架構。傳統數據庫過于集中管理而造成大量數據堆積,需要大量存儲數據的介質,從而導致服務器的回應下降乃至崩潰。而MPP是由許多松耦合處理單元組成的,每個單元內的CPU都有自己私有的資源,如總線、內存、硬盤等,每個單元內都有操作系統和管理數據庫的實例復本。這種結構最大的特點是不共享資源。
(2)處理數據量大
傳統的數據庫部署不能處理TB級數據,也不能很好地支持高級別的數據分析,而MPP數據庫能處理PB級的數據。
(3)更大的 I/O 能力
典型的數據倉庫環(huán)境具有大量復雜的數據處理和綜合分析需求,要求系統具有很高的I/O處理能力,并且存儲系統需要提供足夠的I/O帶寬與之匹配。傳統數據庫采用集中式存儲,數據庫的諸多性能問題最終總能歸咎于I/O,而MPP采用完全無共享的并行處理架構,完全避免了集群中各節(jié)點在并行處理過程中的CPU、I/O、內存、網絡等的資源爭奪,不會造成計算及存儲資源瓶頸。
(4)擴展能力好
MPP由多個節(jié)點構成,節(jié)點通過互聯網絡連接而成,每個節(jié)點只訪問自己的本地資源(內存、存儲等),是一種完全無共享結構,擴展能力最好,理論上其擴展無限制,目前的技術可實現512個節(jié)點互聯、數千個CPU。不管后臺服務器由多少個節(jié)點組成,開發(fā)人員所面對的都是同一個數據庫系統。
(5)采用列存儲[8]
將分布式數據處理系統中以記錄為單位的存儲結構變?yōu)橐粤袨閱挝坏拇鎯Y構,進而減少磁盤訪問數量,提高查詢處理性能;由于相同屬性值具有相同的數據類型和相近的數據特性,以屬性值為單位進行壓縮存儲的壓縮比更高,能節(jié)省更多的存儲空間。
Hadoop和MPP作為兩種熱議技術,目前在各行業(yè)得到廣泛應用,如圖2所示。
大數據的分析是重點和難點,既要滿足海量數據的并行計算要求,又要滿足前端應用查詢的快速響應要求[9],因此,本文提出結合Hadoop、MPP數據庫、內存數據庫等多種技術組成的混搭架構來組建數據共享平臺。
圖2 國內外應用舉例
根據應用需求,數據共享平臺需要接入的數據包含細節(jié)數據(CDR、MR、話單、DPI、日志等)和各類統計數據(KPI),涉及的接口系統包括綜合資源、話務網管、傳輸網管、綜合告警、網絡優(yōu)化平臺、路測系統、經營分析系統等外部系統。主要數據管理范圍見表1。
4.2.1 兩種技術的定位
數據的處理和訪問需求決定了數據存儲的平臺,大數據時代需要分工嚴密的混搭架構,以充分發(fā)揮各個平臺的優(yōu)勢,兩種技術的定位如圖3所示。
4.2.2 系統架構
網絡數據共享平臺按照分層、分級設計理念,由三大層構成,分別為應用層、數據層、數據質量管控中心,打造智能網絡數據中心,為網絡運營、管理工作提供有力支撐。系統架構如圖4所示。
表1 共享平臺處理數據類別
(1)數據層
數據層由統一數據處理平臺、數據存儲構成。數據層通過標準化的邏輯模型完成數據倉庫中數據的基本存儲功能,并通過數據挖掘等技術進行數據加工,形成信息和知識,為外部數據訪問需求提供數據訪問服務;為系統內部的應用層提供各種數據和信息,滿足上層業(yè)務應用開發(fā)的需要,支撐平臺的自身發(fā)展。統一數據處理平臺從各外圍系統中采集相關基礎數據,進行數據的清洗、轉換和加載,并對整個處理流程的異常情況進行管控。數據處理實現數據倉庫中基礎數據、匯總數據以及加工后信息的存放和管理功能。
圖3 兩種技術定位
圖4 系統架構
(2)應用層
應用層包括基礎功能組件和各類分析應用,基礎組件包含指標管理、即席查詢、多維分析、統計報表、數據挖掘、預測優(yōu)化、GIS功能等,通過對分析功能和基礎能力的集成,形成功能支撐單元,為應用功能層提供數據和功能支撐;各類分析應用包括基礎分析應用、自主分析應用、挖掘分析應用、專題分析應用、實施分析應用等。
(3)數據質量管控中心
數據質量管控中心主要包括元數據管理、數據質量管理。通過數據管控中心有效發(fā)揮元數據管理的優(yōu)勢,結合生命周期管理,進一步完善數據質量監(jiān)控應用和數據運維管理機制,逐步實現企業(yè)全程數據質量的監(jiān)管。
4.2.3 技術架構
整個數據中心根據數據的流向,分成后臺的數據處理、前臺的數據展現兩大部分?;A數據平臺部分主要采用模塊化、高可擴展的技術,如并行計算(MapReduce)、并行裝載、MPP數據庫、分布式存儲等;應用平臺的數據展現采用基于J2EE的多層客戶/服務器模型,通過靈活的集成框架,保證不同的第三方插件、產品能夠有效地集成。
網絡數據共享平臺的技術架構主要由基礎數據平臺、數據共享平臺、BI應用平臺構成。數據處理采用Hadoop+MPP數據庫混搭模式,同時采用STORM技術支持實時數據的采集和計算,實現高并發(fā)、可伸縮。數據共享層支持數據庫、消息、文件多種方式的數據共享能力,數據共享可集中管理。在應用平臺將J2EE分層框架與SOA相結合,實現高可配置、組件化,可支持多種終端,可平滑承載不斷增長的BI應用,如圖5所示。
4.2.4 數據存儲計算架構
在數據存儲和計算方面,基礎數據處理采用Hadoop+MPP數據庫混搭模式,對非結構化大數據采用Hadoop進行分布式存儲和計算,其他數據采用MPP進行數據計算和存儲。上層數據的維度匯總以及深度分析同樣采用MPP數據庫。網絡數據共享平臺數據存儲及計算架構如圖6所示。
圖5 系統技術架構
圖6 數據存儲及計算架構
(1)數據源層
數據源層主要指網絡數據共享平臺的數據來源系統,主要包括數據網管、話務網管、傳輸網管、網絡優(yōu)化平臺、綜合資源管理、告警與故障管理、經營分析、數據業(yè)務監(jiān)測與分析、信令監(jiān)測、EOMS、網投、終端庫、撥測、路測等外部系統。
(2)基礎數據層
主要完成數據的裝載、緩存、處理、存儲。
①數據裝載、緩存
數據裝載層涵蓋網絡數據共享平臺從各業(yè)務源系統中對相關業(yè)務數據進行抽取、清洗、加工、整理并加載到數據存儲庫的全過程。數據裝載層通過文件、數據庫、消息等方式,從外部系統獲取所需的源數據。從數據源采集到數據后,通過不同的裝載處理,把數據加載至數據緩存層,以便于數據整合處理。對于數據量比較大的明細數據(如信令、話單等),將數據分發(fā)到多臺機器上進行并行ETL處理,以提高數據的處理效率;對于傳統數據(如性能、資源、工單、告警等),通過數據加載進入關系型數據庫緩存層。
②數據整合處理
完成數據的ETL過程。對于大量明細數據,除了基本的ETL處理,還要從公共資源數據中同步與關聯(用戶、資源、終端數據)以便于數據聚合處理;對于傳統網管數據,數據種類多,需要通過ETL過程得到分析所需要的歸一化數據。
③明細數據存儲
ODS層是網絡數據共享平臺數據處理與存儲的核心部分,大數據與傳統數據數據源的上報周期、頻率、特征不同,因此分兩個通道進行處理??刹捎梅植际接嬎慵按鎯夹g(如MPP、Hadoop),完成大數據的明細存儲(存儲原始用戶的詳單數據),根據業(yè)務需求定義的數據模型,應用并行計算技術,完成各種維度的數據計算與匯總,并將其結果存儲到維度匯總數據中。對非結構化、數據關系相對簡單的大數據 (如信令XDR、MR測量、DQ/CQT等),采用Hadoop技術處理;而對結構化和數據關系復雜的海量數據,采用MPP數據庫(如Vertica),支持分布式高效存儲、復雜計算和查詢;其他普通基礎數據經過ETL過程得到分析所需要的歸一化數據,技術上采用MPP關系數據庫進行存儲和計算。
④數據聚合處理
通過數據模型進行多維的分析、匯總與計算。對于大數據的計算結果有兩種輸出方式:大數據的部分計算與傳統網管的性能具有相同的維度、統計對象,要將這類計算結果與傳統網管的性能統計數據進行整合,同時輸出到維度匯總數據庫中進行存儲;大數據計算出的而傳統網管不可能計算出的數據,如用戶行為數據、終端數據、互聯網應用業(yè)務數據,則直接進入匯總數據EDS層。
(3)數據倉庫層
數據倉庫層主要存儲維度匯總數據和應用匯總數據。維度匯總數據是按照維度、事實進行數據組織,主要包括基于數據模型的大數據并行計算與傳統數據的數據庫計算結果。維度匯總數據為系統的應用匯總提供多維基礎數據,同時通過數據共享模塊,向外部系統提供可共享的數據,滿足外部系統的應用要求。應用匯總數據是按照系統實際的業(yè)務需求,進行數據組織,主要來自維度匯總數據的進一步分析,是根據業(yè)務應用需求高度匯總的數據,如維護查詢需求、日常分析需求、專題分析需求等,同時通過數據共享模塊,向外部系統提供可共享的數據,滿足外部系統的應用要求。
·數據倉庫(EDS)層:網絡數據共享平臺的維度匯總數據層,存儲周期較長,一般為3年或以上。EDS層為支撐上層應用層,根據業(yè)務需求按照主題劃分原則對事實數據和維度數據進行有效的組織和規(guī)范,提高數據的訪問效率,技術上采用MPP數據庫。EDS層是對外數據共享的主要數據層。
·數據集市(DM):面向特定主題的應用層數據的計算與呈現。
·準實時分析:為實時應用提供實時指標計算和反向實時數據通道,為實時應用提供數據源的實時數據。
4.3.1 數據量測算方法研究
(1)原始數據層
原始數據層存儲量=一天基礎數據量D×存儲時長。
(2)基礎明細數據層
共享Hadoop存儲量和MPP存儲量見表2和表3。
(3)數據倉庫層
數據倉庫層的數據流計算見表4。
表2 共享Hadoop存儲量
表3 MPP存儲量
表4 數據倉庫層數據量計算
匯總比例為該類匯總數據與入庫前基礎數據的比例,冗余系數=數據庫索引冗余系數1.5×數據庫壓縮系數0.5,匯總系數=匯總比例×冗余系數,得到數據倉庫層的計算方法為:存儲量=(每天采集量×7.5%×300+每天采集量×1%×300)×存儲份數/壓縮比。
(4)應用匯總層
應用匯總層的數據量計算見表5。
表5 應用匯總層數據量計算
匯總比例為該類匯總數據與入庫前基礎數據的比例,冗余系數=數據庫索引冗余系數1.5×數據庫壓縮系數0.5,匯總系數=匯總比例×冗余系數,得到應用匯總層的計算方法為:存儲量=(每天采集量×0.04%×1080)×存儲份數/壓縮比。
4.3.2 平臺物理架構建設
采用純x86的物理架構,根據數據接入量和數據存儲處理量配置x86 PC服務器,并配置相應的MPP數據庫和內存數據庫,平臺采用如圖7所示的物理組網架構。
考慮到該平臺需接入信令等大數據,同時考慮到業(yè)務的快速增長,本文采用分布式的x86集群架構:大數據分析及處理使用Hadoop云平臺,匯總關聯采用MPP數據庫集群。Hadoop云架構可充分利用集群資源對大數據進行高速運算和存儲,具有高可靠性、高擴展性、高效性、高容錯性、低成本等特點;MPP架構對海量數據進行集中存放和管理,具有高并發(fā)性、線性擴展性、高性價比、高可用性、系統易用等特點。該架構具有出色的線性擴展能力。
圖7 物理組網架構
4.4.1 混搭架構的優(yōu)勢
(1)支持明細數據并行快速加載、壓縮
加載指用戶粒度XDR的分布式采集和加載。Hive的數據保存在HDFS上,因為HDFS是分布式文件系統,并行加載能有效利用網絡和I/O,提高載入性能。Hadoop支持多種壓縮格式。
(2)詳單查詢(秒級響應,千級并發(fā))
對于實時查詢,HBase能夠提供較低時延的讀寫訪問能力,并能承受高并發(fā)的訪問請求,適合用于詳單查詢等應用。
(3)明細數據多表關聯查詢
MPP數據庫能較好地支持明細數據多表關聯查詢。Hadoop如果用Hive實現明細數據多表關聯,性能不是很理想;如果用MapReduce實現多表關聯,則可以針對應用進行優(yōu)化,有可能取得較好的效果,但MapReduce編碼較麻煩,只適用于特殊情況。
(4)明細數據自定義查詢
MPP數據庫和Hadoop均支持明細數據自定義查詢,但MPP數據庫實時性更好,Hadoop僅支持非實時的明細數據自定義查詢。
(5)數據共享、開放模型
數據總線可以提供數據共享和開放模型服務。
(6)明細數據并行計算
Hadoop和MPP數據庫的處理機制是并行計算,因為并行計算能有效提高處理能力,常用于處理數據量較大的明細數據。
(7)數據的高可靠性和系統的高可用性
Hadoop和MPP數據庫均有較強的容錯機制,包括數據容錯和計算容錯,通過多副本、任務失敗重調等手段,保證數據的高可靠性和系統的高可用性。
(8)支持橫向和縱向擴展
Hadoop和MPP數據庫均支持橫向和縱向擴展,除了采用更強的硬件,均可以通過增加節(jié)點來提高集群的總體處理能力。
(9)數據實時查詢
MPP數據庫和內存數據庫可支持數據實時查詢。如果處理邏輯較簡單(如根據行關鍵詞查詢),則HBase也是很好的選擇。
4.4.2 實現效果
根據測算與實現,搭建了一個84臺x86服務器規(guī)模的共享平臺,平臺將O域和B域數據融合,綜合多渠道數據,目前已接入處理經營分析、綜合資源、數據網管、網絡優(yōu)化平臺、信令系統等20余個廠商、51個外部系統、488個數據源接口,共接入5000余個指標,向用戶提供將近70個主題、專題應用,平均每天處理45 TB以上的數據。
基于數據共享平臺可實現多個專題、主題上層應用,均取得了較好的效果,具體表現在以下幾個方面。
·提升核心能力:實現了網絡隱患預先把控能力、端到端分析能力、網絡資源預測調配能力以及網絡質量評估支撐能力。
·提高管理效率:規(guī)則固化及集中運維,大幅度提高工作效率;實現閉環(huán)管理,提高了溝通效率;支撐服務地市,提升了各個地市的應用水平。
·提升企業(yè)效益:支撐市場精細化營銷,促進業(yè)務發(fā)展,增加企業(yè)效益,平臺的集中建設極大地提升投資效益。
·提高客戶感知:通過關鍵業(yè)務質量提升,減少客戶投訴,保障客戶感知。
以某省四網協調資源調配能力應用為例,基于數據共享平臺對四網協同分析進行強化,進行TD-SCDMA站點和WLAN AP的規(guī)劃選址和拆閑補忙,精準投放網絡資源,實現效益最大化。對各資源的調整優(yōu)化成果如圖8~圖10所示。
圖8中,規(guī)劃了410個TD-SCDMA站點新建工作,累計完成96個TD-SCDMA小區(qū)的拆閑補忙工作;圖9中,規(guī)劃了21個TD-SCDMA搬遷站點工作,對4組站點進行拆閑補忙的設備互調;圖10中,新規(guī)劃109個TD-SCDMA站點,利用拆閑補忙有效支撐開學的迎新促銷,高校區(qū)域超閑AP減少886個,全網超閑TD-SCDMA小區(qū)和WLAN AP數量顯著下降。實現了將生產系統數據準實時整合到統一的數據共享平臺上,同時提高數據共享能力,減輕生產系統的壓力,使生產系統專注于生產運營,提高專業(yè)化運作效率,降低企業(yè)運營成本,從而提升了企業(yè)數據資產價值。
圖8 TD-SCDMA站點新建工作
圖9 TD-SCDMA站點搬遷工作
圖10 TD-SCDMA站點規(guī)劃工作
本文運用分布式計算和存儲技術,開展和探索了基于Hadoop+MPP架構的電信運營商網絡數據共享平臺建設的研究。探索數據倉庫體系建設,通過整合各專業(yè)分散的網管數據,搭建了網絡側的基礎數據平臺、BI應用平臺、統一管控平臺,支撐上層應用;細分數據共享層,探索建立統一的數據模型和接口,以響應上層應用的開發(fā)需要。數據共享平臺的所有模型對上層應用開放,應用廠商可以通過標準的接口調用,實現高效應用開發(fā)。
對Hadoop的二次開發(fā)影響上層平臺的使用,而目前行業(yè)內優(yōu)秀的Hadoop二次開發(fā)技術人員比較缺乏,開發(fā)人員經驗不足和技術底蘊的深厚會嚴重影響Hadoop的應用。因此,本研究的后續(xù)工作是優(yōu)化Hadoop的二次開發(fā)工作,進一步探究MPP和Hadoop的深層理論,找到兩者的最佳契合點,實現Hadoop和MPP的完美結合。
1 王峰,雷葆華.Hadoop分布式文件系統的模型分析.電信科學,2010,26(12)
2 程瑩,張云勇,徐雷等.基于Hadoop及關系型數據庫的海量數據分析研究.電信科學,2010,26(11)
3 田秀霞,周耀君,畢忠勤等.基于Hadoop架構的分布式計算和存儲應用.上海電力學學報,2011,27(1)
4 陳夢杰,陳勇旭,賈益斌等.基于Hadoop的大數據查詢系統簡述.計算機與數字工程,2013(12)
5 單士華,曹社香.基于Hadoop處理大數據分析.創(chuàng)新科技,2013(12)
6 張雨,蔡鑫,李愛民等.分布式文件系統與MPP數據庫的混搭架構在電信大數據平臺中的應用.電信科學,2013,29(11)
7 吉增瑞.基于MPP結構的計算機平臺數據庫管理系統設計技術探討.計算機工程與科學,1998(Z1)
8 基于Hadoop的大規(guī)模數據處理系統.http://wenku.baidu.com/link url=ZNmtQsNXNogXR6 MDZKFT8cri7_eINjCix8I0X_4aucr-GC2X3JQfg-TlYfOPJfY4q93O6ERd_HXQoxZCkvtFXTUUOS-FqITz cneblkCXhSV4G
9 李建中,劉顯敏.大數據的一個重要方面:數據可用性.計算機研究與發(fā)展,2013,50(6)