楊勝利
摘 要:對(duì)于CRM系統(tǒng)而言,最重要的是全面豐富準(zhǔn)確的客戶數(shù)據(jù),在數(shù)據(jù)中心建設(shè)過(guò)程中ETL技術(shù)和數(shù)據(jù)庫(kù)技術(shù)是關(guān)鍵的兩個(gè)方面。作者以自己參加的期貨CRM項(xiàng)目為依托,闡述了期貨CRM數(shù)據(jù)中心建設(shè)及ETL系統(tǒng)設(shè)計(jì),對(duì)ETL技術(shù)的研究,ETL系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)是本文研究的重點(diǎn)。
關(guān)鍵詞:ETL技術(shù) 期貨CRM 數(shù)據(jù)中心 規(guī)劃與設(shè)計(jì) 數(shù)據(jù)庫(kù)
1. ETL技術(shù)
ETL是將分布的、異構(gòu)數(shù)據(jù)源中的業(yè)務(wù)數(shù)據(jù)經(jīng)過(guò)抽取、轉(zhuǎn)換、清洗后裝載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程。
典型的ETL工具具備數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量保證、調(diào)度與監(jiān)控、異常錯(cuò)誤管理等功能。數(shù)據(jù)抽取是從多種異構(gòu)數(shù)據(jù)源獲取符合需求的數(shù)據(jù)過(guò)程,在一個(gè)ETL系統(tǒng)中,最起碼包括全量數(shù)據(jù)抽取、增量數(shù)據(jù)抽取兩種抽取模式;數(shù)據(jù)清洗與轉(zhuǎn)換從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定能完全滿足目的庫(kù)的要求,可能存在數(shù)據(jù)格式不一致、數(shù)據(jù)不完整、字段含義不一致、空值等問(wèn)題,并且還需對(duì)數(shù)據(jù)進(jìn)行聚合、匯總、統(tǒng)計(jì)等操作,數(shù)據(jù)清洗和轉(zhuǎn)換過(guò)程是按照預(yù)先設(shè)計(jì)好的規(guī)則對(duì)抽取的數(shù)據(jù)進(jìn)行處理并消除冗余、歧義、不完整、違反業(yè)務(wù)規(guī)則的數(shù)據(jù),以滿足目標(biāo)數(shù)據(jù)的數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量的要求;數(shù)據(jù)加載是ETL流程的最后一個(gè)步驟,即將轉(zhuǎn)換完的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)模型定義的表結(jié)構(gòu)加載到目標(biāo)數(shù)據(jù)庫(kù)系統(tǒng)中。
2.期貨CRM
期貨CRM是指以客戶為中心,恰當(dāng)?shù)靥峁┢谪洰a(chǎn)品和服務(wù),提高客戶的滿意度,最大限度地減少客戶流失,實(shí)現(xiàn)客戶和期貨公司的雙贏。應(yīng)用上主要實(shí)現(xiàn)客戶關(guān)系管理、客戶服務(wù)管理、市場(chǎng)營(yíng)銷管理、居間人管理及相關(guān)數(shù)據(jù)統(tǒng)計(jì)分析等,主要的業(yè)務(wù)需求:整合客戶資源、客戶分析與管理、統(tǒng)一營(yíng)銷管理、整合資訊和研報(bào)。
3.數(shù)據(jù)中心
CRM最關(guān)注的是客戶數(shù)據(jù),只有豐富全面的數(shù)據(jù)才能反映客戶的需求。數(shù)據(jù)中心建設(shè)是CRM的基礎(chǔ)關(guān)鍵所在,作為數(shù)據(jù)中心,其在整個(gè)信息化體系中,主要發(fā)揮以下作用:將傳統(tǒng)以業(yè)務(wù)為導(dǎo)向的數(shù)據(jù),加以采集、清洗、轉(zhuǎn)換,成為以客戶為導(dǎo)向的數(shù)據(jù)組織;形成以客戶為中心的數(shù)據(jù)檔案形式;為后臺(tái)提供多形式的應(yīng)用服務(wù);為統(tǒng)計(jì)分析、數(shù)據(jù)挖掘提供基礎(chǔ)支撐。
數(shù)據(jù)中心系統(tǒng)結(jié)構(gòu)分為ETL、中心數(shù)據(jù)庫(kù)、數(shù)據(jù)服務(wù)及管理程序四個(gè)子系統(tǒng)。ETL模塊主要負(fù)責(zé)數(shù)據(jù)的抽取、清洗和轉(zhuǎn)換,是數(shù)據(jù)中心建設(shè)的基礎(chǔ),該模塊采用自主研發(fā)的ETL系統(tǒng)實(shí)現(xiàn)。中心數(shù)據(jù)庫(kù)用于存放經(jīng)過(guò)數(shù)據(jù)抽取系統(tǒng)清洗轉(zhuǎn)換后的數(shù)據(jù),并作為數(shù)據(jù)服務(wù)系統(tǒng)的數(shù)據(jù)來(lái)源。中心數(shù)據(jù)庫(kù)需要滿足對(duì)海量數(shù)據(jù)、高性能、高可用性和擴(kuò)展性的支持,本項(xiàng)目采用ORACLE RAC數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)服務(wù)采用主動(dòng)推送和服務(wù)訪問(wèn)兩種方式互相結(jié)合,對(duì)外圍業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)支持。管理程序?qū)ο到y(tǒng)中涉及的各個(gè)應(yīng)用程序進(jìn)行統(tǒng)一的狀態(tài)監(jiān)控、統(tǒng)一的日志查詢,同時(shí)用于管理數(shù)據(jù)中心的歷史數(shù)據(jù),數(shù)據(jù)庫(kù)的日常備份等。
4. ETL規(guī)劃與設(shè)計(jì)
根據(jù)金融期貨數(shù)據(jù)中心的特點(diǎn),本項(xiàng)目ETL系統(tǒng)采用自主研發(fā)形式實(shí)現(xiàn),整個(gè)ETL由采集AR、采集AS、數(shù)據(jù)抽取組件、數(shù)據(jù)轉(zhuǎn)換組件、數(shù)據(jù)采集服務(wù)器組成。ETL體系結(jié)構(gòu)如下。
(1)采集流程。ETL系統(tǒng)支持多個(gè)抽取程序并發(fā)處理,數(shù)據(jù)采集服務(wù)器向采集AR發(fā)出采集命令,采集AR再將采集命令路由到采集AS,由采集AS完成相應(yīng)數(shù)據(jù)源的數(shù)據(jù)抽取工作,并將數(shù)據(jù)傳送到數(shù)據(jù)采集服務(wù),這些數(shù)據(jù)經(jīng)數(shù)據(jù)采集程序清洗轉(zhuǎn)換最終將數(shù)據(jù)存放在數(shù)據(jù)中心,以方便其他系統(tǒng)使用。
(2)數(shù)據(jù)抽取模式。系統(tǒng)支持實(shí)時(shí)、日終和歷史三種抽取模式:實(shí)時(shí)數(shù)據(jù)抽取是指主要用于實(shí)時(shí)監(jiān)控功能;日終數(shù)據(jù)抽取是指抽取清算后的數(shù)據(jù)信息;歷史數(shù)據(jù)抽取是指將數(shù)據(jù)源中指定日期的歷史數(shù)據(jù)抽取到數(shù)據(jù)中心。
(3)數(shù)據(jù)清洗轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要進(jìn)行不一致數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)粒度的轉(zhuǎn)換,以及一些業(yè)務(wù)規(guī)則的計(jì)算,如空值處理,數(shù)據(jù)類型不一致處理,將細(xì)粒度數(shù)據(jù)聚合成粗粒度數(shù)據(jù),業(yè)務(wù)規(guī)則計(jì)算,等等。系統(tǒng)數(shù)據(jù)清洗轉(zhuǎn)換通過(guò)兩種方式實(shí)現(xiàn):采集程序在數(shù)據(jù)采集過(guò)程中通過(guò)轉(zhuǎn)換規(guī)則進(jìn)行數(shù)據(jù)轉(zhuǎn)換,并將轉(zhuǎn)換的數(shù)據(jù)加載到數(shù)據(jù)中心;通過(guò)單獨(dú)的轉(zhuǎn)換組件對(duì)數(shù)據(jù)中心的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、匯總。
(4)數(shù)據(jù)加載。將轉(zhuǎn)換完的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)模型定義的表結(jié)構(gòu)加載到目標(biāo)數(shù)據(jù)庫(kù)系統(tǒng)中。本ETL系統(tǒng)采用實(shí)時(shí)增量抽取模式和日終數(shù)據(jù)抽取和歷史數(shù)據(jù)抽取模式兩種數(shù)據(jù)加載方式。
(5)并發(fā)與負(fù)載均衡。為了提高ETL性能,系統(tǒng)具備并行處理能力,系統(tǒng)通過(guò)采集AS、采集AR、采集服務(wù)器的n∶1∶1的組合方式實(shí)現(xiàn)并行和負(fù)載均衡,同時(shí)也實(shí)現(xiàn)了分布式抽取的功能。
(6)數(shù)據(jù)質(zhì)量保證。本ETL系統(tǒng)通過(guò)以下幾種方式保證數(shù)據(jù)的準(zhǔn)確性和完整性:系統(tǒng)通過(guò)核對(duì)數(shù)據(jù)源端和數(shù)據(jù)中心端的記錄數(shù),相關(guān)字段的匯總值,生成核對(duì)報(bào)告,以保證數(shù)據(jù)采集的一致完整性;數(shù)據(jù)中心的數(shù)據(jù)表上增加了數(shù)據(jù)庫(kù)規(guī)則的檢查,保證主鍵唯一、實(shí)體完整、字段非空;通過(guò)異常處理模塊,從另一個(gè)角度保證數(shù)據(jù)質(zhì)量。
5.結(jié)語(yǔ)
建設(shè)一個(gè)高效CRM系統(tǒng),最為關(guān)鍵的是通過(guò)建設(shè)數(shù)據(jù)中心,將分散在各個(gè)系統(tǒng)中的客戶數(shù)據(jù)進(jìn)行整合和匯總,為CRM系統(tǒng)提供統(tǒng)一的客戶視圖,本文是基于期貨公司CRM系統(tǒng)數(shù)據(jù)中心的設(shè)計(jì)與實(shí)現(xiàn)基礎(chǔ)上完成的,介紹了期貨公司數(shù)據(jù)中心建設(shè)過(guò)程,并對(duì)ETL過(guò)程進(jìn)行了重點(diǎn)研究。
目前,本ETL系統(tǒng)在期貨數(shù)據(jù)中心生產(chǎn)環(huán)境穩(wěn)定運(yùn)行,但隨著期貨行業(yè)的發(fā)展,數(shù)據(jù)量快速增加,實(shí)時(shí)性要求越來(lái)越高,開(kāi)發(fā)一個(gè)能支撐海量數(shù)據(jù)、高吞吐量和響應(yīng)時(shí)間的ETL系統(tǒng)是行業(yè)發(fā)展的必然要求。
參考文獻(xiàn)
[1]W.H.Inmon.王志海,林友芳等譯.數(shù)據(jù)倉(cāng)庫(kù)(原書第四版)[M].北京:機(jī)械工業(yè)出版社,2006.8.
[2]Ralph Kimball著.唐富年,孫媛媛譯.數(shù)據(jù)倉(cāng)庫(kù)生命周期工具箱(第二版)[M].北京:清華大學(xué)出版社,2009.9.
[3]PHILIP Russom.操作型數(shù)據(jù)倉(cāng)庫(kù)——操作型應(yīng)用和數(shù)據(jù)倉(cāng)庫(kù)之間整合[M].TTNN Group,2010.6.