劉冉冉 江蘇省廣電有線信息網(wǎng)絡(luò)股份有限公司
?
基于統(tǒng)一數(shù)據(jù)抽取網(wǎng)關(guān)的網(wǎng)格系統(tǒng)數(shù)據(jù)倉庫建設(shè)
劉冉冉 江蘇省廣電有線信息網(wǎng)絡(luò)股份有限公司
【摘 要】網(wǎng)格系統(tǒng)數(shù)據(jù)倉庫的原始數(shù)據(jù)來自于BOSS系統(tǒng)、經(jīng)分系統(tǒng)、互動系統(tǒng)、終端管理系統(tǒng)等多個(gè)系統(tǒng)。各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和特性存在較大差異,因此建立統(tǒng)一的數(shù)據(jù)抽取機(jī)制尤為重要。本文介紹了基于統(tǒng)一數(shù)據(jù)抽取網(wǎng)關(guān)的網(wǎng)格系統(tǒng)數(shù)據(jù)倉庫建設(shè),包括其系統(tǒng)架構(gòu),外部接口設(shè)計(jì)以及非結(jié)構(gòu)化的機(jī)頂盒日志處理、可視化的多任務(wù)運(yùn)行監(jiān)控等關(guān)鍵技術(shù)。
【關(guān)鍵詞】統(tǒng)一數(shù)據(jù)抽取 非結(jié)構(gòu)化 可視化 多任務(wù)
2014年,江蘇有線提出加快建設(shè)新型網(wǎng)格化服務(wù)營維體系的戰(zhàn)略舉措。新型網(wǎng)格化服務(wù)營維體系是將目標(biāo)市場按照物理和類型等維度進(jìn)行劃分,以網(wǎng)格為單位開展以客戶為導(dǎo)向的服務(wù)銷售,從關(guān)注產(chǎn)品和關(guān)注客戶兩個(gè)維度進(jìn)行考核指標(biāo)設(shè)置,從而實(shí)現(xiàn)團(tuán)隊(duì)協(xié)同作戰(zhàn)的管理模式,是企業(yè)在發(fā)展中進(jìn)一步細(xì)分市場、實(shí)現(xiàn)精細(xì)化營銷的一種有效方式。
通過建立底層服務(wù)平臺,省經(jīng)分系統(tǒng)對接所有BSS域數(shù)據(jù),數(shù)據(jù)倉庫對接GIS系統(tǒng)、終端管理系統(tǒng)、運(yùn)維支撐系統(tǒng)、網(wǎng)絡(luò)資源管理系統(tǒng)、呼叫中心系統(tǒng)、業(yè)務(wù)開通系統(tǒng)等其他外部系統(tǒng)數(shù)據(jù),打通地址、客戶、業(yè)務(wù)資源與網(wǎng)絡(luò)資源等的關(guān)聯(lián),為上層各類功能應(yīng)用的建設(shè)奠定基礎(chǔ)。
2.1系統(tǒng)組成
整合業(yè)務(wù)支撐(B域)、運(yùn)營支撐(O域)、決策支撐(D域)的BOSS系統(tǒng)、GIS系統(tǒng)、綜合網(wǎng)管系統(tǒng)、OSS系統(tǒng)、終端管理系統(tǒng)、互動平臺、經(jīng)分系統(tǒng)中各類數(shù)據(jù),實(shí)現(xiàn)客戶、業(yè)務(wù)和網(wǎng)絡(luò)資源的關(guān)聯(lián),從而達(dá)到精確支撐服務(wù)和營銷的目標(biāo),統(tǒng)一抽取框架如圖1所示。
圖1 統(tǒng)一抽取框架
2.2外部接口類型及層次設(shè)計(jì)
網(wǎng)格系統(tǒng)與外部系統(tǒng)的接口主要分為三類:
1) 實(shí)時(shí)接口:實(shí)時(shí)接口需要傳輸網(wǎng)格系統(tǒng)需要立即處理、實(shí)時(shí)展現(xiàn)的數(shù)據(jù)。
2) 文件接口:文件接口需要傳輸大批量、對于時(shí)效不太敏感的數(shù)據(jù)。例如機(jī)頂盒使用日志。
3) 主動抓?。河芍苓呄到y(tǒng)賦權(quán)給網(wǎng)格化營銷系統(tǒng),由網(wǎng)格化營銷系統(tǒng)主動從周邊系統(tǒng)的庫表里抓取。
由于新型網(wǎng)格化服務(wù)營維支撐系統(tǒng)兼有OLAP聯(lián)機(jī)分析處理(數(shù)據(jù)統(tǒng)計(jì)分析)和OLTP聯(lián)機(jī)事務(wù)處理(網(wǎng)格劃分的增刪改查)的特征,因此該系統(tǒng)數(shù)據(jù)層設(shè)計(jì)與傳統(tǒng)的數(shù)據(jù)倉庫或者經(jīng)營分析系統(tǒng)并不一樣。該項(xiàng)目以網(wǎng)格化業(yè)務(wù)流程為導(dǎo)向,設(shè)計(jì)了接口層、明細(xì)數(shù)據(jù)層、網(wǎng)格聯(lián)機(jī)事務(wù)層(詳見表1網(wǎng)格聯(lián)機(jī)事務(wù)層設(shè)計(jì)、表2網(wǎng)格明細(xì)數(shù)據(jù)層)、網(wǎng)格明細(xì)數(shù)據(jù)層以及網(wǎng)格主題應(yīng)用層。通過明確定義各接口的“語義層”,自主研發(fā)ETL調(diào)度工具和ETL過程進(jìn)行數(shù)據(jù)的清理和轉(zhuǎn)換,匯聚至各數(shù)據(jù)層。
表1 網(wǎng)格聯(lián)機(jī)事務(wù)層設(shè)計(jì)
由于客戶有可能進(jìn)行移機(jī)、更改地址等業(yè)務(wù)操作,這些操作會造成客戶對應(yīng)的網(wǎng)格發(fā)生變化,如果僅根據(jù)每個(gè)月底客戶對應(yīng)的網(wǎng)格進(jìn)行各類數(shù)據(jù)統(tǒng)計(jì),會使得對應(yīng)網(wǎng)格的業(yè)績統(tǒng)計(jì)不夠準(zhǔn)確。因此,該項(xiàng)目特別設(shè)計(jì)了網(wǎng)格明細(xì)數(shù)據(jù)層,對日增量類型的數(shù)據(jù)進(jìn)行每日網(wǎng)格明細(xì)數(shù)據(jù)更新,確保了網(wǎng)格維度各類經(jīng)營指標(biāo)的準(zhǔn)確性。
表2 網(wǎng)格明細(xì)數(shù)據(jù)層
3.1非結(jié)構(gòu)化的機(jī)頂盒日志處理
由于終端管理系統(tǒng)采用TR069協(xié)議與機(jī)頂盒通信,采用Inform命令完成數(shù)據(jù)的上報(bào)等工作,開機(jī)上報(bào)內(nèi)容如表3所示。
表3 開機(jī)上報(bào)內(nèi)容
典型的報(bào)文如下所示:
Response
這是典型的非結(jié)構(gòu)化數(shù)據(jù),以文件形式保存在數(shù)據(jù)庫里。該文件抽取過來以后,必須首先進(jìn)行解析和處理,然后轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),機(jī)頂盒開機(jī)數(shù)據(jù)如表4所示。
3.2可視化的多任務(wù)運(yùn)行監(jiān)控技術(shù)
由于每天系統(tǒng)會由眾多調(diào)度任務(wù)通過接口從外部系統(tǒng)抽取大量數(shù)據(jù),在數(shù)據(jù)抽取完成后又會經(jīng)過一系列的計(jì)算,最后生成前臺數(shù)據(jù),這一過程中任一個(gè)環(huán)節(jié)出現(xiàn)故障,都可能會導(dǎo)致下一環(huán)節(jié)任務(wù)無法正確執(zhí)行。因此,對系統(tǒng)多任務(wù)執(zhí)行狀態(tài)的有效監(jiān)控是系統(tǒng)保障的一個(gè)重要方面。系統(tǒng)開發(fā)了一種新的基于用戶體驗(yàn)的任務(wù)執(zhí)行監(jiān)控管理平臺,通過可視化的系統(tǒng)性能指標(biāo)和任務(wù)執(zhí)行情況關(guān)鍵指標(biāo),對影響系統(tǒng)任務(wù)執(zhí)行的問題進(jìn)行主動預(yù)警??梢暬O(jiān)控流程見圖2。
表4 機(jī)頂盒開機(jī)數(shù)據(jù)
網(wǎng)格系統(tǒng)采用統(tǒng)一數(shù)據(jù)抽取網(wǎng)關(guān)之后不同系統(tǒng)不同數(shù)據(jù)結(jié)構(gòu)的源數(shù)據(jù)從不同接口抽取進(jìn)網(wǎng)格系統(tǒng)進(jìn)行清洗、轉(zhuǎn)換、統(tǒng)計(jì),這大大提升了運(yùn)營分析數(shù)據(jù)生成的效率。同時(shí)這種統(tǒng)一數(shù)據(jù)網(wǎng)關(guān)的可擴(kuò)展性也很強(qiáng),有新的系統(tǒng)的源數(shù)據(jù)接入時(shí),只需新增對應(yīng)的抽取接口且不會對原有系統(tǒng)產(chǎn)生影響。
可視化多任務(wù)運(yùn)行監(jiān)控在實(shí)際應(yīng)用過程中能快速識別故障環(huán)節(jié),變被動運(yùn)維為主動運(yùn)維,為應(yīng)用性能提供可靠、科學(xué)的系統(tǒng)化支撐,提升IT系統(tǒng)核心價(jià)值。
圖2 可視化監(jiān)控流程