王可欣
摘要:在當(dāng)今“大數(shù)據(jù)”爆發(fā)時(shí)代,可用信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)進(jìn)行科學(xué)有效的管理和進(jìn)行正確決策分析的基礎(chǔ),如何對(duì)數(shù)據(jù)進(jìn)行處理也已經(jīng)成為每個(gè)企業(yè)在經(jīng)營(yíng)過(guò)程中的重要環(huán)節(jié),使用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化地調(diào)度更是成為了一種必然趨勢(shì)。現(xiàn)今,很多企業(yè)仍然沒(méi)有最大化地利用已存在的數(shù)據(jù)資源,況且對(duì)大量數(shù)據(jù)的重復(fù)、粗暴、簡(jiǎn)陋的處理也.耗費(fèi)了大量的人力物力,也耽誤了最佳的商業(yè)決策時(shí)機(jī)。所以,對(duì)數(shù)據(jù)進(jìn)行有效地清洗及自動(dòng)化固化可以極大地減少企業(yè)的人力及時(shí)間成本,為企業(yè)節(jié)省更多的成本。而對(duì)海量數(shù)據(jù)的處理就用到了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)——ETL(Extract-Transform-Load)。
關(guān)鍵詞:經(jīng)營(yíng)分析;數(shù)據(jù)處理;Oracle;ETL;數(shù)據(jù)清洗,數(shù)據(jù)抽?。粩?shù)據(jù)挖掘
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)24-0256-02
1 ETL技術(shù)在電信數(shù)據(jù)運(yùn)營(yíng)中的應(yīng)用現(xiàn)狀
1.1背景介紹
近年來(lái)隨著“大數(shù)據(jù)”不斷地提出,對(duì)海量數(shù)據(jù)的處理也逐漸面臨巨大挑戰(zhàn)。而隨著中國(guó)電信市場(chǎng)份額的日益壯大以及競(jìng)爭(zhēng)愈加激烈的信息市場(chǎng),對(duì)數(shù)據(jù)的處理程度將成為重要的一環(huán)。
對(duì)于電信行業(yè)來(lái)說(shuō),存在著龐大的數(shù)據(jù)信息,而運(yùn)營(yíng)商想要在市場(chǎng)上站穩(wěn)腳步,就要建立以目標(biāo)客戶為中心,適應(yīng)市場(chǎng)機(jī)制的運(yùn)營(yíng)計(jì)劃,那么就要必須及時(shí)地了解市場(chǎng)的動(dòng)向,準(zhǔn)確的做出戰(zhàn)略調(diào)整。這激烈的市場(chǎng)競(jìng)爭(zhēng)要求電信業(yè)對(duì)客戶的需求,以及對(duì)隱藏的客戶都有著靈敏的感知度,而這所有的有效信息都來(lái)源于數(shù)據(jù)之中,所以如何讓對(duì)海量數(shù)據(jù)進(jìn)行處理,對(duì)數(shù)據(jù)進(jìn)行有有效、及時(shí)的處理成為了電信業(yè)企業(yè)競(jìng)爭(zhēng)的一個(gè)核心。
1.2國(guó)內(nèi)外現(xiàn)狀分析
目前,國(guó)外的電信運(yùn)營(yíng)公司大部分也都已經(jīng)有了穩(wěn)定的框架模型,而且也在實(shí)際的運(yùn)營(yíng)中,在商業(yè)決策中都將數(shù)據(jù)挖掘提上議程,并且,在此基礎(chǔ)上,將數(shù)據(jù)挖掘提升為成自動(dòng)化技術(shù),以指導(dǎo)公司運(yùn)營(yíng)戰(zhàn)略性決策的制定。而在于我國(guó),ETL在電信中的運(yùn)用已得到極大地重視,但是整體的發(fā)展起步較晚,還處于初級(jí)階段, 鑒于我國(guó)這一國(guó)情,我們的電信業(yè)經(jīng)營(yíng)分析系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建流程就不得不經(jīng)常變動(dòng)隨時(shí)調(diào)整來(lái)適應(yīng)實(shí)際運(yùn)營(yíng)中的現(xiàn)實(shí)問(wèn)題。通過(guò)ETL的構(gòu)建對(duì)大量數(shù)據(jù)的處理,從而節(jié)省人力物力,使運(yùn)營(yíng)商的運(yùn)營(yíng)成本得以大大減少,所以,如何建立好自己的經(jīng)營(yíng)分析系統(tǒng)是每一個(gè)運(yùn)營(yíng)商和系統(tǒng)開(kāi)發(fā)商都不得不面對(duì)的問(wèn)題和挑戰(zhàn)。
1.3 ETL技術(shù)在電信運(yùn)營(yíng)分析中的應(yīng)用實(shí)例
中國(guó)電信集團(tuán)公司**分公司對(duì)地下各地市每天都要將大量數(shù)據(jù)上傳至集團(tuán)公司。
集團(tuán)公司需要對(duì)對(duì)海量數(shù)據(jù)進(jìn)行清洗,根據(jù)口徑整理所需字段,梳理出當(dāng)天的運(yùn)營(yíng)情況,將日數(shù)據(jù)清洗之后對(duì)大量數(shù)據(jù)還需要再次進(jìn)行整合成月數(shù)據(jù)進(jìn)行處理,并且需要根據(jù)這些數(shù)據(jù)制定電信集團(tuán)**分公司的具體的運(yùn)營(yíng)計(jì)劃或方針,可是,在對(duì)數(shù)據(jù)的處理過(guò)程中或會(huì)發(fā)現(xiàn)存在大量的重復(fù)工冗余作,不但浪費(fèi)了大量的人力,也會(huì)浪費(fèi)不必要的時(shí)間,所以為了避免人力和時(shí)間的浪費(fèi),所以把以oracle來(lái)處理數(shù)據(jù)的腳本,以存儲(chǔ)過(guò)程固化,再運(yùn)用ETL調(diào)度平臺(tái)對(duì)其進(jìn)行任務(wù)配置,當(dāng)集團(tuán)下分屬公司將數(shù)據(jù)定時(shí)提交上來(lái)之后,集團(tuán)公司公司就可以運(yùn)用ETL調(diào)度平臺(tái)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化的處理,節(jié)省人力物力。
2 ETL技術(shù)介紹
2.1 ETL技術(shù)的定義
ETL,是英文 Extract-Transform-Load 的縮寫,用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。ETL這個(gè)詞在數(shù)據(jù)倉(cāng)庫(kù)方面用得比較多,但是,ETL的對(duì)象并不只是局限于數(shù)據(jù)倉(cāng)庫(kù)一個(gè)。
ETL在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中是非常重要的,用戶要將數(shù)據(jù)加載至數(shù)據(jù)倉(cāng)庫(kù)中,并且需要按照提前規(guī)劃好的模型數(shù)據(jù)倉(cāng)庫(kù),首先要將所需數(shù)據(jù)從數(shù)據(jù)源抽取出來(lái),第二步再將抽取出來(lái)的數(shù)據(jù)進(jìn)行清洗。
2.2 ETL工具應(yīng)用
ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle、久其ETL等。
開(kāi)源的工具有eclipse的etl插件:cloveretl。
數(shù)據(jù)集成:快速實(shí)現(xiàn)ETL。
ETL的質(zhì)量問(wèn)題具體表現(xiàn)特性主要有:正確性;完整性;一致性;完備性;有效性;時(shí)效性;可獲取性等。
而有很多的原因會(huì)影響ETL的質(zhì)量從而導(dǎo)致問(wèn)題出現(xiàn),由系統(tǒng)集成和歷史數(shù)據(jù)造成的原因主要包括:1)業(yè)務(wù)系統(tǒng)不同時(shí)期系統(tǒng)之間數(shù)據(jù)模型不一致;2)業(yè)務(wù)系統(tǒng)不同時(shí)期業(yè)務(wù)過(guò)程有變化;3)舊系統(tǒng)模塊在運(yùn)營(yíng)、人事、財(cái)務(wù)、辦公系統(tǒng)等相關(guān)信息的不一致;4)遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來(lái)的不一致性。
ETL的實(shí)現(xiàn),第一步是要實(shí)現(xiàn)ETL轉(zhuǎn)換的過(guò)程。具體體現(xiàn)在以下幾個(gè)方面:1)空值的處理;2)規(guī)范化數(shù)據(jù)格式;3)拆分?jǐn)?shù)據(jù);4)驗(yàn)證數(shù)據(jù)正確性;5)數(shù)據(jù)替換;6)建立ETL過(guò)程的主外鍵約束。
2.3 ETL體系結(jié)構(gòu)
對(duì)于一個(gè)比較完善的ETL體系結(jié)構(gòu),一般都會(huì)含有以下幾個(gè)部分,這也是體現(xiàn)了ETL產(chǎn)品框架的組成的主要部分。
1)ETL設(shè)計(jì);2)元數(shù)據(jù)管理;3)數(shù)據(jù)抽?。?)數(shù)據(jù)轉(zhuǎn)換;5)數(shù)據(jù)加載;6)數(shù)據(jù)傳輸進(jìn)程;7)管理和操作平臺(tái)。
3 ETL模型介紹
3.1 ETL框架
在實(shí)際的ETL模型設(shè)計(jì)當(dāng)中要根據(jù)實(shí)際的環(huán)境和情況進(jìn)行建模和框架設(shè)計(jì)。
在ETL設(shè)計(jì)過(guò)程中,一般需要先進(jìn)行數(shù)據(jù)轉(zhuǎn)換、再進(jìn)行數(shù)據(jù)抽取、最后進(jìn)行數(shù)據(jù)加載,遵循這樣的原則再結(jié)合電信的具體業(yè)務(wù)情況將ETL流程結(jié)構(gòu)設(shè)計(jì)如下:
3.2 針對(duì)電信行業(yè)的ETL框架說(shuō)明
各個(gè)不同業(yè)務(wù)平臺(tái)存放數(shù)據(jù)的服務(wù)器叫做FTP服務(wù)器。在該服務(wù)器上,運(yùn)營(yíng)商會(huì)將數(shù)據(jù)存放在其中一個(gè)服務(wù)器上,根據(jù)用戶權(quán)限開(kāi)通下載服務(wù)器端口,對(duì)數(shù)據(jù)進(jìn)行整理,擁有相應(yīng)的端口權(quán)限對(duì)平臺(tái)存放的數(shù)據(jù)進(jìn)行獲取,或者運(yùn)用跳板機(jī)進(jìn)行獲取,這樣是為了保證數(shù)據(jù)信息的安全性。在電信行業(yè)中的ETL Automation機(jī)制分為:
1)對(duì)需要加載的接口文件進(jìn)行抽取、轉(zhuǎn)換、審核;
2)對(duì)審核已經(jīng)通過(guò)的數(shù)據(jù)再進(jìn)行分發(fā);
3)對(duì)已經(jīng)分發(fā)完成的接口文件進(jìn)行裝載。
這些機(jī)制分別在服務(wù)器系統(tǒng)中加入,每一步作業(yè)的執(zhí)行都需要調(diào)用相關(guān)的腳本。在設(shè)計(jì)ETL框架時(shí)主要重點(diǎn)在處理各種元數(shù)據(jù)上,此外,一方面是用來(lái)解決模式?jīng)_突問(wèn)題,另一方面則為客戶提供一套邏輯比較完善合理的流程,協(xié)助分析和逐步調(diào)整數(shù)據(jù)清洗過(guò)程,方便用戶在邏輯層設(shè)計(jì)數(shù)據(jù)處理流程,確定需要執(zhí)行的數(shù)據(jù)轉(zhuǎn)化步驟;運(yùn)行時(shí)則在物理層實(shí)現(xiàn)設(shè)計(jì)時(shí)定制的規(guī)則,并對(duì)它們進(jìn)行優(yōu)化。在整個(gè)的ETL流程中,第一步的數(shù)據(jù)抽取和第二步的數(shù)據(jù)轉(zhuǎn)換觸發(fā)工作是通過(guò)設(shè)定腳本或者相關(guān)程序在指定目錄下的掃描時(shí)間來(lái)進(jìn)行的。
4 結(jié)束語(yǔ)
本文中提到的TEL監(jiān)控方法,是通過(guò)對(duì)相互連接的任務(wù)工作流流程節(jié)點(diǎn)的進(jìn)行監(jiān)控,從而實(shí)現(xiàn)對(duì)人員的工作流程及數(shù)據(jù)量進(jìn)行監(jiān)控。首先,通過(guò)實(shí)際的運(yùn)營(yíng)建模,然后再根據(jù)模型和實(shí)際的任務(wù)數(shù)據(jù)相結(jié)合而進(jìn)行監(jiān)控,這樣的任務(wù)監(jiān)控方法可以根據(jù)運(yùn)營(yíng)商復(fù)雜多變的信息業(yè)務(wù)需求隨時(shí)做出靈活的調(diào)整,為高效管理的運(yùn)營(yíng)提供數(shù)據(jù)上的支持。但是,在實(shí)際的運(yùn)營(yíng)過(guò)程當(dāng)中,要對(duì)任務(wù)監(jiān)控管理,任務(wù)分配的問(wèn)題其實(shí)歸根結(jié)底是一個(gè)優(yōu)化配置資源的問(wèn)題,而怎樣才能使任務(wù)分配的整體效能達(dá)到最優(yōu),則取決于市場(chǎng)模型的分析,以及對(duì)工作流整體的設(shè)計(jì)和后續(xù)優(yōu)化。
參考文獻(xiàn):
[1] Wf MC.Theworkflow reference model[R].[s.1.]:Wf MCTC00—1033 WorkflowManagement G31ition,1995:28-35.
[2] 郭道寧,舒華英.數(shù)據(jù)挖掘在電信運(yùn)營(yíng)市場(chǎng)決策支持中的應(yīng)用EJ].北京郵電大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2004(2):15-16.
[3] 趙軍富,馬勝梅,劉玉平,等.基于Web Serviees的工作流系統(tǒng)管理監(jiān)控工具設(shè)計(jì)[J].內(nèi)蒙古科技大學(xué)學(xué)報(bào),2008,27(3):256-259.
[4] MelnikS,Gubarev A,LongJ J,et 01.Dremel:interactiveanalysis of web·scaledatasets.Communications of the ACM,2011,54(6):1 14~123
[5] D.Margineantu,S.Bay,P.Chan.T.Lane.Data Mining Standards,Serviees and Platforms 2005.
Workshop Report.ACM SIGKDDDecember 2005,7(2):137.
[6] 王麗珍.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理應(yīng)用[M].2版.北京:科學(xué)出版社,2009.
[7] 丁康寶.數(shù)據(jù)庫(kù)實(shí)用教程[M].2版.北京:清華大學(xué)出版社,2003.