雷 蕾,李景文,宮大鵬,王 睿,蘇 雷,陳寧江
(1.中國(guó)移動(dòng)通信集團(tuán)廣西有限公司 南寧530022;2.億陽(yáng)信通股份有限公司 南寧530022;3.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院 南寧530004)
隨著“大數(shù)據(jù)時(shí)代”的來臨,電信運(yùn)營(yíng)商已意識(shí)到自己手中“數(shù)據(jù)金庫(kù)”的價(jià)值,正在積極推動(dòng)傳統(tǒng)的分析支撐體系向分布式大數(shù)據(jù)架構(gòu)進(jìn)行演進(jìn),以構(gòu)建集中化的企業(yè)級(jí)大數(shù)據(jù)中心,實(shí)現(xiàn)整個(gè)企業(yè)的數(shù)據(jù)融合,提供開放的數(shù)據(jù)能力,逐步滿足全網(wǎng)、全渠道、全業(yè)務(wù)一體化營(yíng)銷服務(wù)的要求。
在廣西移動(dòng)的企業(yè)級(jí)大數(shù)據(jù)中心建設(shè)及企業(yè)數(shù)據(jù)融合工作中,主要采用Hadoop架構(gòu)搭建大數(shù)據(jù)中心,數(shù)據(jù)來源主要包括電信行業(yè)通常所劃分的OSS(operation support system,運(yùn)營(yíng)支撐系統(tǒng))、BSS(business support system,業(yè)務(wù)支撐系統(tǒng))、MSS(management support system,管理支撐系統(tǒng))3個(gè)領(lǐng)域的數(shù)據(jù),3個(gè)域數(shù)據(jù)的采集處理復(fù)雜度不同,服務(wù)于不同的場(chǎng)景。其中,OSS域數(shù)據(jù)種類繁多,數(shù)據(jù)量大,采集過程復(fù)雜,同時(shí)包含結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),是三域數(shù)據(jù)中最復(fù)雜的一類,也是建設(shè)大數(shù)據(jù)中心的重點(diǎn)及關(guān)鍵工作之一。本文結(jié)合業(yè)務(wù)實(shí)際需求,介紹基于Hadoop平臺(tái)的OSS域數(shù)據(jù)采集和數(shù)據(jù)管理建模的解決方案和實(shí)現(xiàn)技術(shù),目標(biāo)是將域數(shù)據(jù)有效地傳遞和組織,使得數(shù)據(jù)中心切實(shí)有效地對(duì)數(shù)據(jù)進(jìn)行管理,對(duì)應(yīng)用進(jìn)行數(shù)據(jù)供給。
OSS域系統(tǒng)的主要數(shù)據(jù)類型包括網(wǎng)絡(luò)的資源數(shù)據(jù)、告警數(shù)據(jù)、性能數(shù)據(jù)、網(wǎng)絡(luò)測(cè)量數(shù)據(jù)、信令數(shù)據(jù)、工單數(shù)據(jù)、日志數(shù)據(jù)等,每天產(chǎn)生的數(shù)據(jù)量在60 TB左右,以煙囪的方式在網(wǎng)絡(luò)優(yōu)化系統(tǒng)、話務(wù)網(wǎng)管、數(shù)據(jù)網(wǎng)管、信令監(jiān)測(cè)系統(tǒng)、綜合網(wǎng)絡(luò)資源管理系統(tǒng)等多套系統(tǒng)中采集和存儲(chǔ)。
如圖1所示,從數(shù)據(jù)量來看,來自于信令監(jiān)測(cè)系統(tǒng)的信令數(shù)據(jù)占整個(gè)OSS域數(shù)據(jù)量的97%,信令數(shù)據(jù)記錄了用戶的通話記錄和上網(wǎng)記錄等信息,同時(shí)含有結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),是對(duì)用戶行為進(jìn)行分析、開展大數(shù)據(jù)分析營(yíng)銷的重要基礎(chǔ)數(shù)據(jù);從數(shù)據(jù)獲取復(fù)雜度及采集頻次來看,網(wǎng)絡(luò)優(yōu)化系統(tǒng)(簡(jiǎn)稱網(wǎng)優(yōu))的數(shù)據(jù)獲取復(fù)雜度最大,采集頻次最高,網(wǎng)優(yōu)數(shù)據(jù)全面記錄了網(wǎng)絡(luò)的各類性能指標(biāo),以結(jié)構(gòu)化數(shù)據(jù)為主,是利用大數(shù)據(jù)技術(shù)開展2G/3G/TD/WLAN網(wǎng)絡(luò)協(xié)同性能分析,提升用戶網(wǎng)絡(luò)使用感知的重要基礎(chǔ)數(shù)據(jù)。
在上述的OSS域各系統(tǒng)中,都同時(shí)保留了各自采集到的原始數(shù)據(jù)和經(jīng)過計(jì)算后的匯總數(shù)據(jù),這種煙囪式的數(shù)據(jù)管理方式缺乏有效的管理機(jī)制,部分?jǐn)?shù)據(jù)存在重復(fù),如網(wǎng)優(yōu)系統(tǒng)和話務(wù)網(wǎng)管系統(tǒng)同時(shí)都有話務(wù)量、掉話率數(shù)據(jù),各系統(tǒng)間的數(shù)據(jù)也沒有顯性的聯(lián)系,如信令系統(tǒng)中的信令數(shù)據(jù)與網(wǎng)優(yōu)系統(tǒng)中的網(wǎng)絡(luò)性能數(shù)據(jù)無(wú)法實(shí)現(xiàn)關(guān)聯(lián)分析。因此,數(shù)據(jù)的孤島現(xiàn)象嚴(yán)重,數(shù)據(jù)價(jià)值無(wú)法得到充分的挖掘和利用。國(guó)內(nèi)許多互聯(lián)網(wǎng)公司為了應(yīng)對(duì)這樣的數(shù)據(jù)自主研發(fā)了許多架構(gòu),例如騰訊為應(yīng)對(duì)其自有業(yè)務(wù)的大數(shù)據(jù)處理構(gòu)建了一套TDW(Tencent distributed data warehouse,騰訊分布式數(shù)據(jù)倉(cāng)庫(kù))架構(gòu),小米對(duì)HBase進(jìn)行不斷改進(jìn)和擴(kuò)展。中國(guó)科學(xué)院計(jì)算技術(shù)研究所對(duì)行列混合式存儲(chǔ)技術(shù)、HDFS數(shù)據(jù)壓縮技術(shù)的研究也已取得初步成效。
針對(duì)上述問題,為實(shí)現(xiàn)OSS域各類數(shù)據(jù)的統(tǒng)一采集、統(tǒng)一存儲(chǔ)、集中建模和數(shù)據(jù)共享,筆者研發(fā)了一個(gè)基于Hadoop的OSS數(shù)據(jù)統(tǒng)一采集平臺(tái)(HD-OSS),如圖2所示。HD-OSS平臺(tái)基于Hadoop技術(shù)架構(gòu)搭建,實(shí)現(xiàn)對(duì)各類數(shù)據(jù)的采集、清理、抽取和轉(zhuǎn)換,并進(jìn)行輕量級(jí)匯總計(jì)算。采用統(tǒng)一的云化ETL技術(shù)進(jìn)行數(shù)據(jù)預(yù)處理,實(shí)現(xiàn)數(shù)據(jù)接入的統(tǒng)一管控、海量多樣化數(shù)據(jù)處理,提供各個(gè)域數(shù)據(jù)融合的基礎(chǔ),清洗后的數(shù)據(jù)在ETL平臺(tái)完成統(tǒng)一的調(diào)度轉(zhuǎn)換,最后進(jìn)入數(shù)據(jù)中心。采用異構(gòu)分層存儲(chǔ)架構(gòu),引入大規(guī)模并行分布式(MPP)數(shù)據(jù)庫(kù)和關(guān)系型數(shù)據(jù)倉(cāng)庫(kù),按照數(shù)據(jù)在生命周期中不同階段對(duì)存儲(chǔ)的性能需求,數(shù)據(jù)分類分級(jí)后分布存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)和MPP數(shù)據(jù)庫(kù)。HD-OSS平臺(tái)還需實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)建模、統(tǒng)一編碼管理和統(tǒng)一指標(biāo)管理。在平臺(tái)的建設(shè)中,數(shù)據(jù)采集管理和數(shù)據(jù)建模是確保大數(shù)據(jù)中心數(shù)據(jù)的完整性、準(zhǔn)確性和一致性的關(guān)鍵問題。本文主要對(duì)它們進(jìn)行研究并提出解決方案。OSS域數(shù)據(jù)面臨的最大問題是業(yè)務(wù)的影響會(huì)直接擴(kuò)散到網(wǎng)絡(luò)設(shè)備采集層,一旦上層的應(yīng)用需求改變,底層數(shù)據(jù)采集的時(shí)間粒度、空間粒度、指標(biāo)算法、存儲(chǔ)方式等可能會(huì)發(fā)生改變,OSS域數(shù)據(jù)與應(yīng)用解耦是關(guān)鍵課題。
圖1 OSS域數(shù)據(jù)分布
圖2 混搭式數(shù)據(jù)中心架構(gòu)
OSS數(shù)據(jù)統(tǒng)一采集平臺(tái)主要解決網(wǎng)絡(luò)中網(wǎng)元的采集適配問題,統(tǒng)一管理對(duì)網(wǎng)元、信令、路測(cè)等設(shè)備的采集進(jìn)程,監(jiān)控整個(gè)采集過程和數(shù)據(jù)質(zhì)量,通過ETL完成數(shù)據(jù)清洗和部分輕量級(jí)數(shù)據(jù)的匯總,將數(shù)據(jù)輸送進(jìn)入數(shù)據(jù)中心,這是整個(gè)OSS采集的核心。統(tǒng)一采集平臺(tái)重點(diǎn)對(duì)告警、性能(含網(wǎng)優(yōu))、資源和信令四大類數(shù)據(jù)采用不同的方式進(jìn)行處理,如圖3所示。
·對(duì)于資源數(shù)據(jù)來說,數(shù)據(jù)量較小,數(shù)據(jù)來源主要為工程配置和資源入網(wǎng)割接時(shí)錄入的手工數(shù)據(jù),對(duì)資源狀態(tài)的實(shí)時(shí)性要求不高,每天僅需更新一次,因此每天由統(tǒng)一采集平臺(tái)采集后,分別提供給大數(shù)據(jù)中心和綜合資源系統(tǒng)。
·對(duì)于告警數(shù)據(jù)來說,數(shù)據(jù)量大,具備流式處理的特征,而且實(shí)時(shí)性要求非常高,所以統(tǒng)一采集平臺(tái)采集到數(shù)據(jù)后將數(shù)據(jù)分為兩份,一份送到綜合告警管理系統(tǒng),一份送入企業(yè)大數(shù)據(jù)中心。
·對(duì)于性能數(shù)據(jù)來說,數(shù)據(jù)量一般,但數(shù)據(jù)來源多、采集頻次高、數(shù)據(jù)結(jié)構(gòu)復(fù)雜,統(tǒng)一采集平臺(tái)完成數(shù)據(jù)采集及解析后,再進(jìn)行輕量級(jí)計(jì)算及匯總,將原始數(shù)據(jù)及匯總數(shù)據(jù)根據(jù)需要送到OSS域的各系統(tǒng)及企業(yè)大數(shù)據(jù)中心。
·對(duì)于信令數(shù)據(jù)來說,數(shù)據(jù)量特別大,但數(shù)據(jù)來源單一,僅需要全量接入信令監(jiān)測(cè)系統(tǒng)提供的數(shù)據(jù)或文件即可,但由于存在大量的非結(jié)構(gòu)化數(shù)據(jù),因此需要統(tǒng)一采集平臺(tái)采用爬蟲技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,所有的數(shù)據(jù)全部送入到企業(yè)級(jí)大數(shù)據(jù)中心保存。
下面以最復(fù)雜的性能數(shù)據(jù)為例,說明統(tǒng)一采集平臺(tái)基于Hadoop平臺(tái)進(jìn)行ETL數(shù)據(jù)處理的過程,如圖4所示。
圖3 OSS域數(shù)據(jù)統(tǒng)一采集示意
圖4 基于Hadoop的ETL數(shù)據(jù)處理流程
基于Hadoop平臺(tái)的ETL與普通的ETL過程沒有本質(zhì)區(qū)別。統(tǒng)一采集平臺(tái)完成底層數(shù)據(jù)采集后即進(jìn)入ETL過程,主要通過Ooize或其他調(diào)度工具實(shí)現(xiàn)周期調(diào)度,另外HDFS和FS系統(tǒng)可以通過流程打通,Hive與Hbase也可以通過Sqoop與其他數(shù)據(jù)庫(kù)打通。大數(shù)據(jù)的處理過程也由SQL方式提供,可以引入一些數(shù)據(jù)挖掘的處理過程。
通過總結(jié)實(shí)際經(jīng)驗(yàn),筆者提出了一種層次型分類梳理數(shù)據(jù)建模方法,如圖5所示。數(shù)據(jù)建模和管理遵從自上而下的分類梳理對(duì)數(shù)據(jù)進(jìn)行重新規(guī)劃,主要根據(jù)數(shù)據(jù)源歸屬、特點(diǎn)、規(guī)模等情況對(duì)數(shù)據(jù)進(jìn)行模型分層和數(shù)據(jù)粒度分層,按照ODS(operational data store,操作型數(shù)據(jù)存儲(chǔ))、DW(data warehouse,數(shù)據(jù)倉(cāng)庫(kù))和DM(data market,數(shù)據(jù)集市)3層進(jìn)行數(shù)據(jù)建模。ODS用于存放從數(shù)據(jù)源直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上與數(shù)據(jù)源基本保持一致,DW主要根據(jù)企業(yè)模型而來,而從業(yè)務(wù)專題出發(fā)建立的模型則會(huì)固化在DM層。在ODS層和DW層,一般會(huì)以運(yùn)營(yíng)數(shù)據(jù)模型和企業(yè)模型為出發(fā)點(diǎn),指導(dǎo)數(shù)據(jù)在采集計(jì)算層面大致分出哪些是業(yè)務(wù)支撐驅(qū)動(dòng)的數(shù)據(jù),哪些是運(yùn)維支撐驅(qū)動(dòng)的數(shù)據(jù),例如借助eTOM模型定義出企業(yè)規(guī)劃、運(yùn)營(yíng)支撐、故障、計(jì)費(fèi)、開通、保障等層面數(shù)據(jù)覆蓋范圍和數(shù)據(jù)歸屬,并能結(jié)合現(xiàn)狀調(diào)研初步估算出數(shù)據(jù)的使用頻度和粒度大小。而DM層的業(yè)務(wù)模型則主要根據(jù)業(yè)務(wù)應(yīng)用方向分專題建模,如流量經(jīng)營(yíng)業(yè)務(wù)模型、客戶感知業(yè)務(wù)模型等。
OSS域數(shù)據(jù)將按照如下原則劃分到數(shù)據(jù)模型的ODS、DW、DM 3個(gè)層次。
(1)ODS層模型
·原則一:按照10億~1 000億的億級(jí)數(shù)據(jù)進(jìn)行分層。
·原則二:按照數(shù)據(jù)之間的推演規(guī)則進(jìn)行分層,如圖6所示。
圖5 建模方法論
圖6 ODS層模型
(2)ODS層
ODS層也被稱作數(shù)據(jù)緩沖區(qū),存儲(chǔ)包括O域?qū)I(yè)網(wǎng)性能、告警、資源、DPI等系統(tǒng)數(shù)據(jù)。建立清單級(jí)、會(huì)話級(jí)數(shù)據(jù)(PI、KPI級(jí)數(shù)據(jù))模型。例如網(wǎng)管系統(tǒng)的性能數(shù)據(jù)會(huì)按專業(yè)組織最細(xì)粒度的數(shù)據(jù)模型表示。DW層模型如圖7所示,在ODS層保存清單級(jí)數(shù)據(jù)后,通過進(jìn)一步關(guān)聯(lián)匯總形成DW層數(shù)據(jù),主要為了支撐上層應(yīng)用分析和鉆取分析,根據(jù)業(yè)務(wù)需求對(duì)事實(shí)數(shù)據(jù)和維度數(shù)據(jù)進(jìn)行有效的組織和規(guī)范,提高數(shù)據(jù)的訪問效率。按企業(yè)模型和不同細(xì)分粒度組織建模,并設(shè)計(jì)出模型間的關(guān)聯(lián)關(guān)系。一般DW層按4類模型進(jìn)行匯總,分別匯總為維度表、事實(shí)表、聚集表、臨時(shí)表。
·維度表:根據(jù)系統(tǒng)各個(gè)主題邏輯數(shù)據(jù)模型的維度設(shè)計(jì)的物理數(shù)據(jù)庫(kù)表,記錄模型維度信息。
·事實(shí)表:記錄各專題最細(xì)粒度的事實(shí)信息,物理數(shù)據(jù)庫(kù)表的設(shè)計(jì)是依據(jù)邏輯數(shù)據(jù)模型設(shè)計(jì)的。
·聚集表:記錄各專題匯總粒度的事實(shí)信息,物理數(shù)據(jù)庫(kù)表的設(shè)計(jì)是依據(jù)邏輯數(shù)據(jù)模型設(shè)計(jì)的。
·臨時(shí)表:根據(jù)數(shù)據(jù)ETL設(shè)計(jì)定義,即為中間表,無(wú)模型設(shè)計(jì)意義。
圖7 DW層模型
(3)DM層模型
DM層模型面向應(yīng)用組織建模,以業(yè)務(wù)需求應(yīng)用為單位對(duì)DW層的數(shù)據(jù)進(jìn)一步組織和存儲(chǔ),是面向需求以及未來需求變更、擴(kuò)展的模型。一般以業(yè)務(wù)作為驅(qū)動(dòng),在DW模型基礎(chǔ)上按業(yè)務(wù)專題所需要的業(yè)務(wù)再次進(jìn)行數(shù)據(jù)組織,通過按上層業(yè)務(wù)組合、業(yè)務(wù)鉆取等形成最終面向應(yīng)用的DM層模型;各專題域模型引用ODS層企業(yè)流程模型,構(gòu)成邏輯專題域數(shù)據(jù)。
以幾個(gè)分析專題為例,將所需要的業(yè)務(wù)進(jìn)行模型組織,按上層業(yè)務(wù)組合、業(yè)務(wù)鉆取等建立模型,具體見表1。
通過以上過程,即完成了數(shù)據(jù)中心架構(gòu)支撐下的分析應(yīng)用建模支撐。圖8給出了一個(gè)整體業(yè)務(wù)數(shù)據(jù)建模例子,在數(shù)據(jù)中心中組織了從基礎(chǔ)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市3層數(shù)據(jù)模型,通過數(shù)據(jù)抽取進(jìn)行逐層匯總,匯聚到DM層以后,即可形成高價(jià)值業(yè)務(wù)分析、高流量用戶分析等面向分析專題的模型數(shù)據(jù)。當(dāng)上層業(yè)務(wù)發(fā)生變更,開發(fā)者可根據(jù)情況在DW層再次快速組織數(shù)據(jù)匯總,省去重新采集建模的開發(fā)時(shí)間。按這樣層次組織的數(shù)據(jù)模型即可實(shí)現(xiàn)對(duì)應(yīng)用開發(fā)的快速模型支撐,響應(yīng)性能分析需求的高時(shí)效性。
表1 分析專題DM模型示意
圖8 按業(yè)務(wù)分層的數(shù)據(jù)模型例子
圖9為OSS域性能分析示意。
基于OSS域數(shù)據(jù)的分析應(yīng)用主要集中在客戶感知、業(yè)務(wù)質(zhì)量、網(wǎng)絡(luò)性能3個(gè)方面,這些分析專題的數(shù)據(jù)來源復(fù)雜,結(jié)構(gòu)化程度不統(tǒng)一,以下重點(diǎn)以移動(dòng)互聯(lián)網(wǎng)端到端分析專題為例,進(jìn)行數(shù)據(jù)采集及模型管理的介紹。
如圖10所示,移動(dòng)互聯(lián)網(wǎng)端到端分析專題重點(diǎn)圍繞LTE網(wǎng)絡(luò)移動(dòng)互聯(lián)網(wǎng)絡(luò)業(yè)務(wù),開展端到端感知分析。從業(yè)務(wù)感知指標(biāo)入口,總結(jié)自上而下的問題溯源關(guān)聯(lián)規(guī)則,提供各類型業(yè)務(wù)(瀏覽、下載、視頻和即時(shí)通信四大類業(yè)務(wù)類型)的業(yè)務(wù)質(zhì)量端到端分析,實(shí)現(xiàn)精準(zhǔn)的問題定界和定位。
圖9 OSS域性能分析示意
圖10 移動(dòng)互聯(lián)網(wǎng)端到端業(yè)務(wù)質(zhì)量指標(biāo)定位
針對(duì)業(yè)務(wù)端到端質(zhì)量問題,進(jìn)行問題溯源分為兩大步驟:第一,質(zhì)差定界;第二,問題溯源。兩大步驟均需要通過梳理指標(biāo)體系實(shí)現(xiàn)。根據(jù)業(yè)務(wù)梳理得到的指標(biāo)集結(jié)合模型分層原則可設(shè)計(jì)出采集及模型管理的要求,見表2。
目前通過業(yè)務(wù)質(zhì)量管理平臺(tái),能夠獲取移動(dòng)互聯(lián)網(wǎng)的4類業(yè)務(wù),分別為網(wǎng)頁(yè)瀏覽、視頻業(yè)務(wù)、即時(shí)通信、應(yīng)用下載業(yè)務(wù)數(shù)據(jù)。通過DPI平臺(tái)可對(duì)用戶面S1-U口、Uu口與SGi口信令解析,獲取KQI/KPI/PI指標(biāo)。表3為過程指標(biāo)分解。
瀏覽類業(yè)務(wù)主要包括附著、承載激活、DNS解析、TCP鏈接、HTTP請(qǐng)求的5個(gè)階段,當(dāng)成功率類指標(biāo)發(fā)生波動(dòng)時(shí),首先關(guān)聯(lián)KPI指標(biāo)確定業(yè)務(wù)失敗在哪個(gè)過程,然后根據(jù)這個(gè)過程中出現(xiàn)的錯(cuò)誤碼分析失敗原因,最后通過FM/PM/CM排查KPI,橫向?qū)Ρ?,定界具體異常點(diǎn)?;跇I(yè)務(wù)過程的KPI指標(biāo)能夠定位業(yè)務(wù)失敗原因,對(duì)業(yè)務(wù)質(zhì)量進(jìn)行管理和優(yōu)化。通過對(duì)兩類指標(biāo)進(jìn)行業(yè)務(wù)關(guān)聯(lián),即可完成故障溯源的過程。
采集方面,通過OSS統(tǒng)一采集平臺(tái)實(shí)現(xiàn)初步ETL過程,更好地解決算法不透明、缺乏管控手段、統(tǒng)計(jì)口徑不一致、接口雜亂等問題,平臺(tái)統(tǒng)一管理所有的采集通道和時(shí)間軸。在ETL完成后,數(shù)據(jù)按專業(yè)維度存放在數(shù)據(jù)中心的ODS層。
一般在ODS層保存兩年的清單級(jí)數(shù)據(jù)(PI、KPI級(jí)數(shù)據(jù)),通過進(jìn)一步關(guān)聯(lián)匯總為DW層模型。在DW模型基礎(chǔ)上,按互聯(lián)網(wǎng)端到端分析專題所需要的業(yè)務(wù)再次進(jìn)行數(shù)據(jù)組織,按上層業(yè)務(wù)組合、業(yè)務(wù)鉆取等建立模型,形成最終面向應(yīng)用的DM層模型,即完成了整個(gè)數(shù)據(jù)中心架構(gòu)支撐下的分析應(yīng)用建模支撐。
關(guān)于OSS數(shù)據(jù)對(duì)大數(shù)據(jù)業(yè)務(wù)的其他支撐,如圖11所示,還可以通過對(duì)信令數(shù)據(jù)進(jìn)行深度挖掘,研究客戶的上網(wǎng)行為、基本特征、位置軌跡、消費(fèi)偏好等信息,對(duì)數(shù)據(jù)進(jìn)行“脫敏”后,可完成用戶畫像,為自有業(yè)務(wù)營(yíng)銷、客戶產(chǎn)品服務(wù)提供數(shù)據(jù)支撐。
電信運(yùn)營(yíng)商數(shù)據(jù)中心建設(shè)必須重視OSS域數(shù)據(jù)建設(shè),這是保證整個(gè)數(shù)據(jù)中心質(zhì)量、支撐應(yīng)用分析業(yè)務(wù)開展的重要基礎(chǔ)。目前中國(guó)移動(dòng)正在全國(guó)推動(dòng)數(shù)據(jù)中心的建設(shè),在建設(shè)過程中怎樣處理好數(shù)據(jù)采集與數(shù)據(jù)存儲(chǔ)的關(guān)系,受到業(yè)界公司的重點(diǎn)關(guān)注。本文介紹了對(duì)OSS域數(shù)據(jù)進(jìn)行大數(shù)據(jù)中心架構(gòu)管理的采集流程和數(shù)據(jù)建模的關(guān)鍵方法,為其他省建設(shè)企業(yè)數(shù)據(jù)中心提供可實(shí)施的建設(shè)經(jīng)驗(yàn)。目前廣西移動(dòng)正在借助已有的平臺(tái)對(duì)數(shù)據(jù)中心進(jìn)行重新規(guī)劃,對(duì)于OSS域的數(shù)據(jù)供給,建設(shè)完成后可以對(duì)架設(shè)在數(shù)據(jù)中心之上60%~70%的應(yīng)用群提供OSS側(cè)的數(shù)據(jù)支撐。下一步的工作主要包括:適應(yīng)業(yè)務(wù)發(fā)展的多樣化,需要研究將更多的數(shù)據(jù)采集、計(jì)算存儲(chǔ)模型融入到數(shù)據(jù)中心的整體架構(gòu)中;深入研究OSS在大數(shù)據(jù)支撐的應(yīng)用,例如通過對(duì)信令數(shù)據(jù)的深度挖掘,研究客戶上網(wǎng)行為、位置軌跡、消費(fèi)偏好等信息,為自有業(yè)務(wù)營(yíng)銷、客戶產(chǎn)品服務(wù)提供數(shù)據(jù)支撐。
表2 互聯(lián)網(wǎng)端到端指標(biāo)體系
表3 過程指標(biāo)分解
圖11 OSS域數(shù)據(jù)的分析支撐
1 Barroso L A,Dean J,Holzle U.Websearch for a planet:The Google cluster architecture.IEEE Micro,2003,23(2):22~28
2 Xu Y,Kostamaa P,Qi Y.A Hadoop based distributed loading approach to parallel data warehouses.Proceedings of SIGMOD 2011,Athens,Greece,2011
3 詹志強(qiáng),孟洛明,邱雪松.多專業(yè)網(wǎng)綜合網(wǎng)管系統(tǒng)體系結(jié)構(gòu)的研究.北京郵電大學(xué)學(xué)報(bào),2003(1)Zhan Z Q,Meng L M,Qiu X S.Architecture of network management system for multi-technology network.Journal of Beijing University of Posts and Telecommunications,2003(1)
4 Liu X F,Thomsen C,Pedersen T B.Cloud ETL:Scalable Dimensional ETL for Hadoop and Hive.DB Technical Report,2012
5 Mohammed M,Mohd S A.A Framework for Interoperable Distributed ETL Components Based on SOA.Proceedings of ICSTE 2010,San Juan,PR,USA,2010
6 陳桂漢.綜合電信管理解決方案.北京:電子工業(yè)出版社,2002 Chen G H.Integrated Telecommunications Management Solutions.Beijing:Publishing House of Electronics Industry,2002
7 Ghemawat S,Gobioff H,Le-ung S T.The Google file system.Proceedings of 19th Symposium on Operating Systems Principles,Lake George,New York,USA,2003
8 Corbett J C,Dean J,Epstein M.Google’s globally distributed database.Proceedings of the 10th USENIX Symposium on Operating Systems Design and Implementation,OSDI 2012,Hollywood,CA,USA,2012
9 Samuel P,Mall R,Kanth P.Automatic test case generation from UML communication diagrams.Information and Software Technology,2007(49):158~171
10 Ling F,Chang E,Dillon T.A semantic network-based design methodology for XML documents.ACM Transactions on Information System(TOIS),2002,20(4):1~6
11 Dean J,Ghemawat S.MapReduce:Simplified data processing on large clusters.Proceedings of6th Symposium on Operating Systems Design and Implementation,OSDI’04,San Francisco,USA,2004