[摘 要] 數(shù)據(jù)倉庫是最近發(fā)展起來的數(shù)據(jù)存儲和管理模式,克服了傳統(tǒng)關(guān)系數(shù)據(jù)庫在管理決策應(yīng)用中僅面向業(yè)務(wù)層流程的數(shù)據(jù)分析的缺點(diǎn),具有面向主題、數(shù)據(jù)集成、數(shù)據(jù)相對穩(wěn)定以及反映歷史變化的特點(diǎn),在管理決策中還能進(jìn)行趨勢分析等。本文概述了數(shù)據(jù)倉庫系統(tǒng)的原理和特點(diǎn)、數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)、企業(yè)數(shù)據(jù)倉庫系統(tǒng)在管理決策中的應(yīng)用,最后簡要介紹了構(gòu)建數(shù)據(jù)倉庫系統(tǒng)平臺的工具M(jìn)icrosoft SQL Server2000。
[關(guān)鍵詞] 數(shù)據(jù)倉庫系統(tǒng);數(shù)據(jù)倉庫;聯(lián)機(jī)分析處理OLAP;數(shù)據(jù)挖掘
[中圖分類號] F270.7
[文獻(xiàn)標(biāo)識碼]A
[文章編號]1673-0194(2006)10-0016-04
0引 言
信息技術(shù)的迅速發(fā)展使信息系統(tǒng)的內(nèi)容和作用在深度和廣度上都有了長足的發(fā)展,信息系統(tǒng)與管理模式、管理思想的融合逐步產(chǎn)生了MRP(物料需求計(jì)劃)、MRPⅡ(制造資源計(jì)劃)、ERP(企業(yè)資源計(jì)劃)、CRM(客戶關(guān)系管理)等一系列信息系統(tǒng)。但是在企業(yè)多個(gè)信息系統(tǒng)應(yīng)用過程中會(huì)出現(xiàn)多個(gè)平臺,為實(shí)現(xiàn)多平臺上的數(shù)據(jù)共享,必須在多個(gè)平臺上構(gòu)建多個(gè)數(shù)據(jù)接口為企業(yè)多個(gè)應(yīng)用服務(wù),而每個(gè)應(yīng)用又可能形成一系列新的數(shù)據(jù)平臺,長時(shí)間多個(gè)應(yīng)用反復(fù)構(gòu)建就會(huì)形成一種復(fù)雜的、難以維護(hù)和繼續(xù)開發(fā)的蜘蛛網(wǎng)狀結(jié)構(gòu),這將使企業(yè)數(shù)據(jù)陷入極端混亂的狀態(tài)。為解決這一問題,必須構(gòu)建統(tǒng)一的數(shù)據(jù)應(yīng)用平臺——企業(yè)數(shù)據(jù)倉庫系統(tǒng)。
1數(shù)據(jù)倉庫
1.1建立分離的數(shù)據(jù)倉庫
被尊為數(shù)據(jù)倉庫之父的William H. Inmon將數(shù)據(jù)倉庫(DW)定義為一個(gè)面向主題的、集成的、隨時(shí)間變化的非易失性數(shù)據(jù)的集合,用于支持管理的決策過程。由這一定義不難看出,數(shù)據(jù)倉庫的初衷就是為管理決策服務(wù)的,建立DW是為了提高信息系統(tǒng)性能、進(jìn)行輔助決策。首先,數(shù)據(jù)倉庫最吸引人的地方是其構(gòu)建了多種形式信息處理的基礎(chǔ);其次,對于決策理論所需要的復(fù)雜式查詢,以及大量的匯總計(jì)算,都需要特殊的數(shù)據(jù)結(jié)構(gòu)、存取方法和基于多維圖表的實(shí)現(xiàn)方法,在未來的決策支持過程中還需要將來自異種源的數(shù)據(jù)聚集和匯總,產(chǎn)生高質(zhì)量的、純凈的、集成的數(shù)據(jù),而建立分離的DW正滿足了這些需求。
1.2數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)
數(shù)據(jù)倉庫系統(tǒng)本身是一個(gè)體系結(jié)構(gòu),而不是一個(gè)軟件工具,其結(jié)構(gòu)由6個(gè)基本層次組成:數(shù)據(jù)源層、數(shù)據(jù)后端處理層、數(shù)據(jù)倉庫及其管理層、數(shù)據(jù)集市層、數(shù)據(jù)倉庫應(yīng)用層、數(shù)據(jù)展示層。DW系統(tǒng)的層次結(jié)構(gòu)示意見圖1。
數(shù)據(jù)源層 數(shù)據(jù)源是DW的數(shù)據(jù)來源,它們可以有多種不同的數(shù)據(jù)結(jié)構(gòu)類型,數(shù)據(jù)源可以分布于網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn),通過網(wǎng)絡(luò)數(shù)據(jù)接口與數(shù)據(jù)倉庫相互連接。
數(shù)據(jù)后端處理層 是數(shù)據(jù)源與數(shù)據(jù)倉庫的接口層,一般包括5個(gè)方面:數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)刷新。該層的功能是將分布于網(wǎng)絡(luò)多結(jié)點(diǎn)、不同平臺、結(jié)構(gòu)、語法的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)平臺和結(jié)構(gòu),最終輸入數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫及其管理層 數(shù)據(jù)倉庫管理系統(tǒng)是專門管理數(shù)據(jù)倉庫的軟件,包括DW中數(shù)據(jù)結(jié)構(gòu)構(gòu)建、數(shù)據(jù)操縱、數(shù)據(jù)維護(hù)、監(jiān)控,數(shù)據(jù)服務(wù)等。該層中的元數(shù)據(jù)管理是DW管理的核心,元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫中的數(shù)據(jù)字典,它描述了數(shù)據(jù)倉庫的數(shù)據(jù)和存儲環(huán)境、數(shù)據(jù)倉庫設(shè)計(jì)運(yùn)行、維護(hù)與使用的基本參數(shù)。
數(shù)據(jù)集市層 是一種特殊形式的數(shù)據(jù)倉庫,它是面向企業(yè)中部門決策的數(shù)據(jù)集合。
數(shù)據(jù)倉庫應(yīng)用層 建立DW系統(tǒng)主要是面向應(yīng)用,目前該層應(yīng)用主要包括兩方面:(1)分析與決策。以DW中統(tǒng)一的數(shù)據(jù)為對象作為歸納而進(jìn)行分析,建立決策的規(guī)則和模式,包括兩種形式:一是采取試探的方法以獲得模型或規(guī)則的聯(lián)機(jī)分析處理,二是采用挖掘的方法從數(shù)據(jù)中獲得模式或規(guī)則的數(shù)據(jù)挖掘。(2)數(shù)據(jù)統(tǒng)一平臺。DW可以為企業(yè)已有的數(shù)據(jù)結(jié)構(gòu)、語法、接口建立統(tǒng)一的數(shù)據(jù)平臺,目的是消除混亂的蜘蛛網(wǎng)狀結(jié)構(gòu)。
數(shù)據(jù)展示層 將輔助分析和決策的結(jié)果以多媒體或網(wǎng)頁的形式發(fā)布給終端用戶,本質(zhì)是一個(gè)人機(jī)交互的過程,為用戶提供直接支持。
2企業(yè)數(shù)據(jù)倉庫系統(tǒng)在管理決策中的應(yīng)用
市場經(jīng)濟(jì)條件下,企業(yè)管理者所面臨的環(huán)境瞬息萬變,如何才能使企業(yè)立于不敗之地?一個(gè)管理者所做的睿智的決策可能成為關(guān)鍵因素,而建立企業(yè)數(shù)據(jù)倉庫系統(tǒng)必將成為決策者的有力武器。
企業(yè)數(shù)據(jù)倉庫系統(tǒng)實(shí)現(xiàn)管理輔助決策首先要確立企業(yè)活動(dòng)的相關(guān)主題。這里確立了3方面主題和11個(gè)子主題:
產(chǎn)品主題: ①產(chǎn)品總體情況分析
②暢銷產(chǎn)品生產(chǎn)周期及庫存分析
③劣質(zhì)產(chǎn)品責(zé)任分析
④產(chǎn)品銷售情況分析
⑤產(chǎn)品銷售退貨分析
客戶關(guān)系主題:⑥客戶總體情況分析
⑦客戶結(jié)構(gòu)分析
⑧促銷活動(dòng)效果分析
⑨可入戶購買金額預(yù)測
財(cái)務(wù)主題:⑩應(yīng)收賬分析
11固定資產(chǎn)分析
而數(shù)據(jù)倉庫系統(tǒng)實(shí)現(xiàn)企業(yè)上述相關(guān)主題的過程其實(shí)就是向管理者提供輔助決策的過程,實(shí)現(xiàn)這一過程可以通過DW系統(tǒng)的3個(gè)工具來實(shí)現(xiàn)。
(1)數(shù)據(jù)倉庫 在同一集成的數(shù)據(jù)平臺上,利用DW特定的查詢索引方法實(shí)現(xiàn)產(chǎn)品主題中的①、②、③,客戶關(guān)系主體中的⑥。
(2)OLAP分析聯(lián)機(jī)分析處理工具實(shí)現(xiàn)產(chǎn)品主題的④、⑤;客戶關(guān)系主題的⑦、⑧;財(cái)務(wù)主題的⑩、11。
數(shù)據(jù)挖據(jù)工具:實(shí)現(xiàn)客戶關(guān)系主題的⑨。
2.1數(shù)據(jù)倉庫的建立和應(yīng)用
2.1.1數(shù)據(jù)倉庫的創(chuàng)建
創(chuàng)建企業(yè)數(shù)據(jù)倉庫首先創(chuàng)建基于企業(yè)基本信息和企業(yè)業(yè)務(wù)信息的分類信息表及其結(jié)構(gòu),這些數(shù)據(jù)表可以來源于存儲企業(yè)歷史數(shù)據(jù)的各種分類數(shù)據(jù)庫,也可以來自企業(yè)ERP各分系統(tǒng)的數(shù)據(jù)表。
企業(yè)基本信息表可以包括:產(chǎn)品信息表,生產(chǎn)狀況表,客戶信息表,員工信息表,部門信息表,物料信息表,倉庫信息表,產(chǎn)品成本表等。
企業(yè)主要業(yè)務(wù)數(shù)據(jù)表包括:銷售記錄表,退貨記錄表,促銷記錄表,固定資產(chǎn)明細(xì)表,工資明細(xì)表,應(yīng)收賬表,庫存表,合同表等。
例如,產(chǎn)品信息表描述了產(chǎn)品的基本信息,如產(chǎn)品編號,產(chǎn)品類別,產(chǎn)品名稱等屬性;客戶信息表包括客戶編號,客戶類別,名稱,所在地域,行業(yè)性質(zhì),信譽(yù)等級,付款方式,開戶銀行賬號等;銷售信息表記錄了企業(yè)產(chǎn)品銷售情況,如客戶編號,產(chǎn)品編號,購買時(shí)間,地點(diǎn),數(shù)量,單價(jià)等屬性。
2.1.2數(shù)據(jù)倉庫的應(yīng)用
數(shù)據(jù)倉庫工具應(yīng)用于管理決策分析,其本質(zhì)亦是對DW進(jìn)行查詢和統(tǒng)計(jì)工作,通過實(shí)現(xiàn)相關(guān)主題,對產(chǎn)品、客戶、暢銷產(chǎn)品庫存、生產(chǎn)周期、劣質(zhì)產(chǎn)品責(zé)任進(jìn)行詳細(xì)定性定量分析。
以產(chǎn)品總體情況分析為例。企業(yè)管理者希望從產(chǎn)品、銷售、成本、銷售額、利潤等各個(gè)方面全面了解企業(yè)產(chǎn)品情況。對于單個(gè)部門的分類操作數(shù)據(jù)庫完成詳細(xì)的一次查詢是很困難的,而通過建立在統(tǒng)一數(shù)據(jù)源的數(shù)據(jù)倉庫可以設(shè)計(jì)一個(gè)綜合的數(shù)據(jù)關(guān)系表來完成管理者的需求,例如從數(shù)據(jù)倉庫中的銷售記錄表統(tǒng)計(jì)出企業(yè)產(chǎn)品的銷量和銷售額,從生產(chǎn)狀況表中統(tǒng)計(jì)出產(chǎn)品生產(chǎn)情況,從產(chǎn)品成本表統(tǒng)計(jì)得到產(chǎn)品的總成本,還可以統(tǒng)計(jì)計(jì)算的中間結(jié)果并將產(chǎn)品編號連接在一起求得產(chǎn)品利潤等多個(gè)屬性。最終DW生成的這個(gè)表包括了產(chǎn)品編號、名稱、銷量、銷售額、總產(chǎn)量、總成本及利潤等多個(gè)屬性,管理者通過對該表的查詢和瀏覽充分地了解到本企業(yè)產(chǎn)品的全面情況。
同樣利用數(shù)據(jù)倉庫工具還可以完成客戶總體情況分析表,產(chǎn)品庫存和生產(chǎn)周期表,劣質(zhì)產(chǎn)品責(zé)任分析表的創(chuàng)建工作,并為管理決策提供支持。
2.2聯(lián)機(jī)分析處理OLAP的生成和應(yīng)用
OLAP在數(shù)據(jù)倉庫的基礎(chǔ)上實(shí)現(xiàn)其應(yīng)用主要通過建立數(shù)據(jù)集市、生成OLAP立方體、進(jìn)行數(shù)據(jù)展示3個(gè)步驟。首先是建立數(shù)據(jù)集市,數(shù)據(jù)集市是由數(shù)據(jù)倉庫派生而出的,應(yīng)用于規(guī)模小、結(jié)構(gòu)更集中的企業(yè)部門的數(shù)據(jù)集合體。在DW上建立數(shù)據(jù)集市更有其自身優(yōu)勢。第二步是建立OLAP立方體,包括構(gòu)建OLAP立方體所需的維度,以及基于維度、度量、存儲形式而進(jìn)行聚合計(jì)算生成的OLAP立方體。最后是將顯示結(jié)果通過數(shù)據(jù)展示平臺將結(jié)果以多種形式顯現(xiàn)出來,給用戶以直觀參照。
以產(chǎn)品主題中的銷售概況分析為例,介紹OLAP工具在企業(yè)決策支持中的應(yīng)用。
銷售分析是決策者需要了解企業(yè)產(chǎn)品的銷售情況,為決策產(chǎn)品的下一步生產(chǎn)和銷售情況提供依據(jù)。第一步,首先根據(jù)銷售情況的星狀模型建立數(shù)據(jù)集市,其數(shù)據(jù)表來源是銷售記錄表、客戶信息表和產(chǎn)品信息表,其關(guān)系如圖2;其次是建立數(shù)據(jù)集市的維表,包括時(shí)間、地域、產(chǎn)品和客戶維表。由于時(shí)間是多維模型中比較重要的屬性,可以為時(shí)間建立一個(gè)獨(dú)立公用的時(shí)間維表以供各個(gè)多維數(shù)據(jù)模型使用,其應(yīng)滿足多維數(shù)據(jù)模型對時(shí)間的要求;對于地域、產(chǎn)品和客戶維表均可由數(shù)據(jù)倉庫的各分類信息表產(chǎn)生。最后是建立數(shù)據(jù)集市事實(shí)表,將銷售記錄表和相應(yīng)的維表相連接,選取對應(yīng)的屬性從而為銷售事實(shí)表加載數(shù)據(jù)。
第二步是由銷售概況分析的多維模型和數(shù)據(jù)集市構(gòu)建相應(yīng)的OLAP立方體,包括構(gòu)建時(shí)間維度、地域維度、產(chǎn)品維度,最后選取購買數(shù)量和購買金額作為分析度量,以時(shí)間、地點(diǎn)、產(chǎn)品、客戶為分析維度,形成銷售分析的OLAP立方體。
在OLAP立方體生成之后可以利用OLAP分析工具對其進(jìn)行鉆取、切片、旋轉(zhuǎn)、統(tǒng)計(jì)、排序等操作,最終滿足決策者如下的一些分析需求:
(1) 各個(gè)月份(年、季度)的產(chǎn)品銷售數(shù)量及金額變化以及隨地域變化的銷售情況;
(2) 各地域、各類別產(chǎn)品銷售情況;
(3) 各類客戶完成銷售情況;
(4) 特定地域內(nèi)各產(chǎn)品隨時(shí)間變化的銷售情況等。
對于結(jié)果可以通過數(shù)據(jù)展示工具以各種形式展現(xiàn)給用戶,以同樣的邏輯和開發(fā)方法還可以進(jìn)行產(chǎn)品退貨、促銷活動(dòng)效果、應(yīng)收賬、固定資產(chǎn)等相關(guān)主題的分析,為最終用戶決策提供分析支持。
2.3數(shù)據(jù)挖掘的應(yīng)用
對于客戶關(guān)系主題的購買金預(yù)測,決策者經(jīng)常需要了解客戶對企業(yè)銷售收入的貢獻(xiàn),以制定相應(yīng)的優(yōu)惠政策和采取相應(yīng)的促銷來保持已有的優(yōu)質(zhì)客戶,并吸引更多的潛在用戶。
數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是基于潛在數(shù)據(jù)的發(fā)掘,要實(shí)現(xiàn)上述主題的預(yù)測,需要的是客戶基本信息和客戶對企業(yè)銷售收入的貢獻(xiàn)兩方面信息,而數(shù)據(jù)倉庫中的客戶信息表和銷售記錄表正滿足了挖掘的數(shù)據(jù)需求,其實(shí)現(xiàn)分為下述4個(gè)步驟:
(1) 在銷售記錄表中進(jìn)行疊加統(tǒng)計(jì)組操作,計(jì)算出每個(gè)客戶總的購買金額;
(2) 確定“高、中、低”3個(gè)等級,并對客戶購買金額進(jìn)行等級分類;
(3) 將客戶信息表和購買金額等級表通過客戶編號屬性連接起來,加入客戶類別、地域、行業(yè)類別、信譽(yù)、付款方式等屬性,形成一個(gè)最終的“客戶購買金額等級表”;
(4) 利用“決策樹”、“聚類”等數(shù)據(jù)挖掘算法對客戶購買金額等級進(jìn)行發(fā)掘和歸納。
3SQL Server 數(shù)據(jù)倉庫系統(tǒng)開發(fā)工具
在理論形成之后,可以利用工具對數(shù)據(jù)倉庫系統(tǒng)進(jìn)行開發(fā)實(shí)踐。Microsoft 公司的SQL Server 2000已經(jīng)在性能和可擴(kuò)展性方面確立了領(lǐng)先地位,在數(shù)據(jù)倉庫開發(fā)上,該工具通過一系列服務(wù)程序支持?jǐn)?shù)據(jù)倉庫的應(yīng)用:
SQL關(guān)系數(shù)據(jù)庫——提供數(shù)據(jù)倉庫的創(chuàng)建和維護(hù);
數(shù)據(jù)傳輸服務(wù)DTS——提供數(shù)據(jù)輸入/輸出功能,在傳輸過程中完成數(shù)據(jù)驗(yàn)證、清洗和轉(zhuǎn)換操作;
Analysis Services——支持在線分析處理OLAP、數(shù)據(jù)挖掘;
Print Table Services——提供客戶端OLAP訪問功能,開發(fā)人員可用編程語言開發(fā)前端數(shù)據(jù)展示程序;
MMC(Microsoft Management Console)——提供日程安排、存儲管理、性能鑒別、報(bào)警、通知等服務(wù);
擴(kuò)充服務(wù)MDC——支持對多維數(shù)據(jù)對象的查詢和操作。
利用上述開發(fā)工具創(chuàng)建數(shù)據(jù)倉庫系統(tǒng),并對企業(yè)活動(dòng)主題進(jìn)行相關(guān)分析預(yù)測和數(shù)據(jù)展現(xiàn),最終實(shí)現(xiàn)對用戶管理決策強(qiáng)有力的分析和支持。
4總結(jié)
數(shù)據(jù)倉庫技術(shù)作為企業(yè)決策支持工具的核心已經(jīng)被理論和實(shí)踐得到證明,美國Meta Group市場調(diào)查機(jī)構(gòu)的資料表明,《幸?!冯s志所列全球2000家大公司中已有90%將Internet和數(shù)據(jù)倉庫這兩項(xiàng)技術(shù)列入企業(yè)計(jì)劃,實(shí)踐表明,多學(xué)科理論的融合以及信息技術(shù)與智能技術(shù)的綜合應(yīng)用,是提高企業(yè)決策有效性和數(shù)據(jù)倉庫系統(tǒng)智能化水平的根本途徑。此外在數(shù)據(jù)倉庫創(chuàng)建開發(fā)后,操作人員對其熟練操作應(yīng)用是數(shù)據(jù)倉庫系統(tǒng)最終成功的標(biāo)志。
主要參考文獻(xiàn)
[1] 徐潔磐. 數(shù)據(jù)倉庫與決策支持系統(tǒng)[M].北京:科學(xué)出版社,2005.
[2] W H Inmon著.數(shù)據(jù)倉庫[M].王志海,林友芳等譯.北京:機(jī)械工業(yè)出版社,2003.
[3] 陳京民. 數(shù)據(jù)倉庫原理、設(shè)計(jì)和應(yīng)用[M].北京:中國水利水電出版社,2004.
[4] Jiawei Han Micheline Kamber 著.數(shù)據(jù)挖掘—概念與技術(shù)[M].范明,孟小峰譯. 北京:機(jī)械工業(yè)出版社,2001.
[5] 張玉峰等. 決策支持系統(tǒng)[M]. 武漢:武漢大學(xué)出版社,2004.