【摘 要】進(jìn)入流量經(jīng)營(yíng)時(shí)代,通信運(yùn)營(yíng)商面臨端管云全方位競(jìng)爭(zhēng)。需要打破數(shù)據(jù)壁壘,融合通信運(yùn)營(yíng)商業(yè)務(wù)運(yùn)營(yíng)、網(wǎng)絡(luò)支撐、管理信息等不同域的數(shù)據(jù),通過大數(shù)據(jù)進(jìn)行立體分析與挖掘,提升流量經(jīng)營(yíng)時(shí)代核心競(jìng)爭(zhēng)力。如何借助大數(shù)據(jù),實(shí)現(xiàn)從傳統(tǒng)的基于話單的數(shù)據(jù)倉(cāng)庫(kù)向基于業(yè)務(wù)運(yùn)營(yíng)、網(wǎng)絡(luò)信令、財(cái)務(wù)指標(biāo)等海量信息的企業(yè)級(jí)數(shù)據(jù)中心發(fā)展呢?本文重點(diǎn)描述了通信運(yùn)營(yíng)商企業(yè)級(jí)數(shù)據(jù)中心的系統(tǒng)架構(gòu)設(shè)計(jì)、平臺(tái)演進(jìn)技術(shù)及其管控配套建議。
【關(guān)鍵詞】大數(shù)據(jù) 通信運(yùn)營(yíng)商 企業(yè)級(jí) 數(shù)據(jù)中心
一、現(xiàn)狀分析與背景技術(shù)
(一)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在通信運(yùn)營(yíng)商中的應(yīng)用現(xiàn)狀與挑戰(zhàn)
在電信行業(yè)競(jìng)爭(zhēng)日趨激烈的背景下,如何提升市場(chǎng)營(yíng)銷能力、客戶服務(wù)水平與經(jīng)營(yíng)決策水平已成為通信運(yùn)營(yíng)商面臨的一個(gè)重要問題。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)作為數(shù)據(jù)整理和分析的主流技術(shù),在通信運(yùn)營(yíng)商的應(yīng)用越來越廣泛,在企業(yè)經(jīng)營(yíng)生產(chǎn)中也扮演著越來越重要的角色。然而通信運(yùn)營(yíng)商數(shù)據(jù)倉(cāng)庫(kù)具有數(shù)據(jù)量巨大且增長(zhǎng)迅速、業(yè)務(wù)需求復(fù)雜度高、系統(tǒng)效率及數(shù)據(jù)質(zhì)量要求高等特點(diǎn)。這些都對(duì)數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)設(shè)計(jì)提出了很高的要求,亟需探索建立更加合理高效的新型數(shù)據(jù)倉(cāng)庫(kù)體系架構(gòu)。
(二)大數(shù)據(jù)定義及新技術(shù)引入意義
“大數(shù)據(jù)”作為時(shí)下最火熱的IT行業(yè)的詞匯,研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在企業(yè)級(jí)數(shù)據(jù)中心構(gòu)建中,可供選擇的除了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)外,還有Hadoop和MPP數(shù)據(jù)庫(kù)。Hadoop是一個(gè)以一種可靠、高效、可伸縮的方式對(duì)大量數(shù)據(jù)進(jìn)行分布式軟件框架。MPP數(shù)據(jù)庫(kù)是一個(gè)大規(guī)模并行處理數(shù)據(jù)庫(kù),通過每個(gè)集群中的每個(gè)節(jié)點(diǎn)處理計(jì)算通過高速專用網(wǎng)絡(luò)連接共享提供數(shù)據(jù)庫(kù)服務(wù)。Hadoop 和MPP數(shù)據(jù)庫(kù)為海量數(shù)據(jù)處理提供了一個(gè)超越傳統(tǒng)存儲(chǔ)和數(shù)據(jù)庫(kù)技術(shù)的解決方案,已經(jīng)成為構(gòu)建海量數(shù)據(jù)構(gòu)架的主流選擇。
二、借助大數(shù)據(jù)搭建企業(yè)級(jí)數(shù)據(jù)中心的架構(gòu)規(guī)劃
(一)企業(yè)級(jí)數(shù)據(jù)中心架構(gòu)設(shè)計(jì)
面向多專業(yè)領(lǐng)域海量數(shù)據(jù)的存儲(chǔ)、處理與開放的需求,可以通過引入大數(shù)據(jù)技術(shù),采用分級(jí)存儲(chǔ)混搭數(shù)據(jù)倉(cāng)庫(kù)搭建新型企業(yè)級(jí)數(shù)據(jù)中心,既兼顧了現(xiàn)網(wǎng)投資節(jié)約成本,又考慮到平臺(tái)開放性與擴(kuò)展性。與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)類似,企業(yè)級(jí)數(shù)據(jù)中心分為數(shù)據(jù)獲取層、數(shù)據(jù)存儲(chǔ)層和數(shù)據(jù)應(yīng)用層三層架構(gòu)。
1.數(shù)據(jù)獲取層:各生產(chǎn)系統(tǒng)數(shù)據(jù)源數(shù)據(jù)經(jīng)過抽取、清洗、轉(zhuǎn)換,并加載到數(shù)據(jù)中心。數(shù)據(jù)源范圍大大擴(kuò)張,不再局限于業(yè)務(wù)運(yùn)營(yíng)數(shù)據(jù),而是覆蓋了業(yè)務(wù)運(yùn)營(yíng)、網(wǎng)絡(luò)運(yùn)維、財(cái)務(wù)分析及網(wǎng)絡(luò)信令等網(wǎng)元平臺(tái),甚至包括外部數(shù)據(jù)。數(shù)據(jù)量急劇膨脹,以一個(gè)中等規(guī)模的省級(jí)通信運(yùn)營(yíng)商網(wǎng)絡(luò)信令為例,GPRS話單數(shù)據(jù)量一天約為6GB,僅Gn口上網(wǎng)日志數(shù)據(jù)量一天就達(dá)到5TB。數(shù)據(jù)類型多種多樣,包含了清單類結(jié)構(gòu)化數(shù)據(jù),日志類半結(jié)構(gòu)化數(shù)據(jù),GIS類非結(jié)構(gòu)化數(shù)據(jù)等。
2.數(shù)據(jù)存儲(chǔ)層:實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)和元數(shù)據(jù)的集中存儲(chǔ)與管理,并可根據(jù)需求建立面向部門、主題或分支機(jī)構(gòu)的數(shù)據(jù)集市。為了支持海量數(shù)據(jù)存儲(chǔ)與分析,構(gòu)建低成本高效的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),可以考慮采用分級(jí)存儲(chǔ)的混搭數(shù)據(jù)倉(cāng)庫(kù)模式,即“傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)+MPP數(shù)據(jù)庫(kù)+Hadoop Hbase數(shù)據(jù)庫(kù)”的混搭架構(gòu)。
3.數(shù)據(jù)應(yīng)用層:通過多樣化的前端分析展示工具,實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的分析和處理,形成市場(chǎng)經(jīng)營(yíng)和決策工作所需要的科學(xué)、準(zhǔn)確、及時(shí)的業(yè)務(wù)信息和知識(shí)。既可以是各個(gè)專業(yè)領(lǐng)域的分析應(yīng)用,也可以是基于完成的企業(yè)級(jí)數(shù)據(jù)進(jìn)行的企業(yè)級(jí)分析與決策支持系統(tǒng)。
(二)企業(yè)級(jí)數(shù)據(jù)中心各數(shù)據(jù)庫(kù)介紹及其比較
1.清單庫(kù):基于低成本文件存儲(chǔ),采用Hadoop技術(shù),實(shí)現(xiàn)原始數(shù)據(jù)預(yù)處理與存儲(chǔ)。低成本存儲(chǔ)承載低價(jià)值數(shù)據(jù),主要用于存儲(chǔ)通話詳單、網(wǎng)絡(luò)信令等規(guī)模龐大的原始數(shù)據(jù)。
2.基礎(chǔ)數(shù)據(jù)庫(kù):采用MPP技術(shù)的中低成本數(shù)據(jù)庫(kù)搭建分布式深度分析平臺(tái),主要用于存儲(chǔ)經(jīng)過輕度匯總的數(shù)據(jù)并對(duì)外開放。
3.核心信息庫(kù):采用傳統(tǒng)的高性能數(shù)據(jù)庫(kù)用于存儲(chǔ)高價(jià)值核心數(shù)據(jù),在產(chǎn)品選擇上可以采用ORACLE、DB2等主流廠家的成熟產(chǎn)品。主要用于存儲(chǔ)與處理高度匯總數(shù)據(jù),提供報(bào)表分析與即席查詢等高端應(yīng)用。
三、技術(shù)測(cè)試驗(yàn)證情況
在企業(yè)級(jí)數(shù)據(jù)中心搭建過程中進(jìn)行了大量的測(cè)試驗(yàn)證工作。例如在業(yè)內(nèi)有多種Hadoop產(chǎn)品和解決方案,為了驗(yàn)證產(chǎn)品選型,專門組織了Hadoop產(chǎn)品性能與穩(wěn)定性測(cè)試。根據(jù)測(cè)試結(jié)果分析:Hadoop平臺(tái)處理能力需求與處理數(shù)據(jù)量大小成正比,處理能力與數(shù)據(jù)存儲(chǔ)容量可以通過增加計(jì)算節(jié)點(diǎn)數(shù)線性獲得。在相當(dāng)?shù)呐渲们闆r下,在一個(gè)地市級(jí)電信公司31天詳單中查詢隨機(jī)號(hào)碼的話單記錄,考察數(shù)據(jù)加載能力,開源Hadoop能達(dá)到17萬(wàn)條/秒,而傳統(tǒng)數(shù)據(jù)庫(kù)僅為3萬(wàn)條/秒。Hadoop架構(gòu)比傳統(tǒng)數(shù)據(jù)庫(kù)在大數(shù)據(jù)處理上能更好地發(fā)揮硬件能力。
四、其他實(shí)施關(guān)注點(diǎn)
建設(shè)面向企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù),需要將原來數(shù)據(jù)倉(cāng)庫(kù)體系中的元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、安全和運(yùn)維管理經(jīng)驗(yàn)運(yùn)用到云平臺(tái)上,增強(qiáng)云平臺(tái)可運(yùn)營(yíng)可管理的能力,從而建立相應(yīng)的數(shù)據(jù)管控和應(yīng)用支撐體系,這就需要有專門的團(tuán)隊(duì)運(yùn)營(yíng)數(shù)據(jù)資源,并統(tǒng)一支撐數(shù)據(jù)分析需求。該團(tuán)隊(duì)需要負(fù)責(zé)工作包括數(shù)據(jù)標(biāo)準(zhǔn)建立、數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)應(yīng)用支持、數(shù)據(jù)需求管理等,先進(jìn)合理的技術(shù)架構(gòu)需要有與之相對(duì)應(yīng)的管控配套才能更好發(fā)揮企業(yè)級(jí)數(shù)據(jù)中心的作用。