郝園揭金良苗春利
(成都理工大學(xué)信息工程學(xué)院,四川成都610059)
進(jìn)入21世紀(jì),人們對在任何時間、任何地點都能得到信息的需求是永無止境的。而傳統(tǒng)數(shù)據(jù)庫只保留了當(dāng)前的業(yè)務(wù)處理的信息,缺乏決策分析所需要的大量歷史信息。要從信息源中有效獲取信息,采掘數(shù)據(jù)和發(fā)現(xiàn)知識,以滿足管理人員的決策分析需要,就需要在數(shù)據(jù)庫的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境。因此,數(shù)據(jù)倉庫(DW,Data Warehouse)應(yīng)運而生。
數(shù)據(jù)倉庫是在企業(yè)管理和決策中用以更好地支持企業(yè)或組織的決策分析處理、面向問題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合。與其它數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,即對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。
完整的數(shù)據(jù)倉庫結(jié)構(gòu)一般由6個基本層次組成,如圖1:
各層次的基本功能如下:
(1)數(shù)據(jù)源:為數(shù)據(jù)倉庫提供數(shù)據(jù)來源。
(2)數(shù)據(jù)后端處理:是將數(shù)據(jù)源的數(shù)據(jù)進(jìn)行提取、清洗、轉(zhuǎn)換,最終構(gòu)建成數(shù)據(jù)倉庫所需的數(shù)據(jù)。
(3)數(shù)據(jù)倉庫及其管理:包括數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理和元數(shù)據(jù)管理。數(shù)據(jù)倉庫負(fù)責(zé)存儲分析、決策數(shù)據(jù);而數(shù)據(jù)倉庫管理則負(fù)責(zé)管理數(shù)據(jù)倉庫;元數(shù)據(jù)管理負(fù)責(zé)對元數(shù)據(jù)進(jìn)行管理。
(4)數(shù)據(jù)集市:是面向特定應(yīng)用的決策數(shù)據(jù)集合。
(5)基于數(shù)據(jù)倉庫的應(yīng)用:包括分析、決策應(yīng)用,如OLAP、數(shù)據(jù)挖掘等。
(6)數(shù)據(jù)展示:將應(yīng)用結(jié)果,特別是分析、決策結(jié)果以多種媒體形式表示。
聯(lián)機分析處理(OLAP)的概念最早是由E.F.Codd于1993年提出的。當(dāng)時,他認(rèn)為聯(lián)機事務(wù)處理OLTP已經(jīng)不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫的簡單查詢也不能滿足用戶分析的需求,用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量的計算才能得到結(jié)果,而查詢出來的結(jié)果已經(jīng)不能滿足決策者提出的需求。因此,他提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP與OLTP的比較見表1。
表1 OLAP與OLTP的對比
OLAP委員會對于OLAP的定義:是一種分析處理技術(shù),是針對特定問題的聯(lián)機數(shù)據(jù)訪問與分析,通過對大量信息的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互的存取,是決策人員對數(shù)據(jù)進(jìn)行深入觀察。
數(shù)據(jù)庫之父E.F.Codd對于OLAP的定義:OLAP是一個賦予動態(tài)的、企業(yè)分析的名詞,這些分析是注釋的、熟悉的、公式化數(shù)據(jù)分析模型的生成、操作、激活和信息合成。能夠在變量間分辨新的或不相關(guān)的關(guān)系,能夠區(qū)分對處理大量數(shù)據(jù)必要的參數(shù),而生成一個不限數(shù)量的維和指明維的條件表達(dá)式。
OLAP的特點可以概括為以下幾種:
快速性:用戶對OLAP的快速反映能力有很高的要求。
可分析性:能處理與應(yīng)用有關(guān)的邏輯分析和統(tǒng)計分析。
共享性:系統(tǒng)在保證安全的基礎(chǔ)上提供多用戶共享數(shù)據(jù)與信息機制。
多維性:是OLAP的關(guān)鍵屬性,系統(tǒng)提供對數(shù)據(jù)分析的多維視圖和分析,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是OLAP的靈魂。
信息性:系統(tǒng)能及時獲取信息,并能管理大容量的信息。
假定性:需要初始的假設(shè)來給出導(dǎo)航數(shù)據(jù)分析的方向,最終用分析的結(jié)果來驗證初始的假設(shè)。
目前OLAP常用分析方法有:數(shù)據(jù)切片和數(shù)據(jù)切塊、鉆取和數(shù)據(jù)旋轉(zhuǎn);OLAP的評價準(zhǔn)則有:多維概念視圖、透明性、存取能力、穩(wěn)定的報表性能、客戶/服務(wù)器體系結(jié)構(gòu)、維的等同性、動態(tài)稀疏矩陣處理、多用戶支持能力、非受限的跨維操作、直觀的數(shù)據(jù)處理、靈活的報表生成、非受限的維與維的層次。
在一個OLAP數(shù)據(jù)模型中,信息被抽象為一個立方體,它包括維和度量。多維結(jié)構(gòu)是決策支持的支柱,也是核心。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。維是相同類數(shù)據(jù)的集合,也可以理解為變量。維有自己固有的屬性,如層次結(jié)構(gòu)、排序和計算邏輯,這些屬性對進(jìn)行決策支持是非常有用的度量是一個定量值。
目前對OLAP的主要分類有以下三種:
(1)關(guān)系OLAP結(jié)構(gòu):使用關(guān)系或擴充關(guān)系DBMS存放并管理數(shù)據(jù)倉庫,采用基于稀疏矩陣表示方法的星形結(jié)構(gòu)或雪花結(jié)構(gòu)存儲多維數(shù)據(jù)。
(2)多維OLAP結(jié)構(gòu):核心是其數(shù)據(jù)存儲采用矩陣方式,數(shù)據(jù)檢索高效。
(3)混合OLAP結(jié)構(gòu):結(jié)合ROLAP和MOLAP技術(shù),在MOLAP立方體中存儲高級別的聚集,在ROLAP中存儲低級別的聚集。
ROLAP分為星型模式和雪花型模式。星型模式可能是最簡單的數(shù)據(jù)倉庫模式。因為它的實體關(guān)系圖是從一個中心表向外輻射連接各維表,看起來像是一個星星;雪花模式是一種比星型模式更繁雜的數(shù)據(jù)倉庫模式,實際上它也是星型模式的一種。因為從它的實體關(guān)系圖上看像雪花狀,所以它就被稱為雪花模式。
星型模式的優(yōu)點:在星型模式中進(jìn)行的復(fù)雜查詢,可以直接通過各維的層次比較、上卷、下鉆等操作完成,大大減少用戶的查詢響應(yīng)時間;星型模式既可以被用在簡單的數(shù)據(jù)集市上也可以被應(yīng)用在巨型數(shù)據(jù)倉庫上。星型模式的結(jié)構(gòu)示意圖見圖2。
雪花模式通過對維表的規(guī)范化來消除冗余的數(shù)據(jù)。它通過最大限度地減少數(shù)據(jù)存儲量以及把較小的規(guī)范化表(不是大的非規(guī)范化表)聯(lián)合在一起來改善查詢性能。雪花模式增加了應(yīng)用程序的靈活性。但雪花模式也增加了用戶必須處理的表的數(shù)量,增加了某些查詢的復(fù)雜性。
雪花模式與星型模式的不同在于,雪花模式的維表可能是規(guī)范化形式,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲空間。然而,與巨大的事實表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。這樣,系統(tǒng)的性能可能會受到影響。因此,在數(shù)據(jù)倉庫設(shè)計中,雪花模式不如星型模式流行。雪花模式結(jié)構(gòu)示意圖見圖3。
多維分是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)等各種分析動作,以剖析數(shù)據(jù),使最終用戶能從多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人的思維模式,因此減少了混淆并且降低了出現(xiàn)錯誤解釋的可能性。
數(shù)據(jù)倉庫在電信領(lǐng)域中能產(chǎn)生很多的應(yīng)用,本文從應(yīng)用的角度,闡述數(shù)據(jù)倉庫在電信行業(yè)中的應(yīng)用過程。該電信系統(tǒng)包括兩方面內(nèi)容,一方面是數(shù)據(jù)的整理過程,主要是數(shù)據(jù)倉庫的建設(shè)問題;另一方面是數(shù)據(jù)分析技術(shù),包括多維分析(OLAP)、數(shù)據(jù)挖掘等方面的內(nèi)容。
首先,在構(gòu)建數(shù)據(jù)倉庫的過程中,一個重要的問題是確定數(shù)據(jù)倉庫的主題,數(shù)據(jù)倉庫的主題決定了數(shù)據(jù)的存取方式,也決定了分析的能力。如要定義客戶的概念、選擇有關(guān)主題、主題實體和屬性等內(nèi)容。其次,在進(jìn)行多維分析時,也要選擇相關(guān)的維和指標(biāo)?!熬S”代表了分析的角度,指標(biāo)代表了在維下的數(shù)量情況。根據(jù)這些維度和指標(biāo)的定義,可以進(jìn)行多維分析,從多個角度對數(shù)據(jù)進(jìn)行分析,得出有關(guān)結(jié)論。由于電信行業(yè)的數(shù)據(jù)倉庫比較龐大,該系統(tǒng)基本要采用多層粒度級,對數(shù)據(jù)進(jìn)行一定程度的綜合,這樣能保證實際使用的效率。
在現(xiàn)有數(shù)據(jù)倉庫系統(tǒng)基礎(chǔ)上,引入數(shù)據(jù)分析技術(shù)對用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析以輔助領(lǐng)導(dǎo)決策。同時,還需要通過對該系統(tǒng)業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)該企業(yè)運作的規(guī)律,可以優(yōu)化企業(yè)本身的運作或進(jìn)行有效的客戶關(guān)系管理,以便揭示隱藏其中的規(guī)律性,完成一些深層次的數(shù)據(jù)分析進(jìn)而將其模型化。這樣就能方便為決策管理者用圖形化展示的效果來進(jìn)行趨勢分析,從而取代從浩瀚如煙的海量數(shù)據(jù)中分析數(shù)據(jù)這一傳統(tǒng)方法來解決問題。
隨著數(shù)據(jù)處理技術(shù)在企業(yè)的成功應(yīng)用,企業(yè)積累了大量的生產(chǎn)、科研和業(yè)務(wù)數(shù)據(jù),企業(yè)各級人員都希望能快速、交互、方便和有效地從雜亂無章的數(shù)據(jù)中提取有意義的信息,決策者希望能夠利用這些信息分析企業(yè)運行狀況,指導(dǎo)企業(yè)決策。本文介紹數(shù)據(jù)倉庫及OLAP技術(shù)的概念和其關(guān)鍵技術(shù)。給出OLAP的兩種數(shù)據(jù)模式,同時,以數(shù)據(jù)倉庫在電信行業(yè)中的應(yīng)用把多維分析技術(shù)運用于數(shù)據(jù)倉庫,以獲取決策所需要的信息。數(shù)據(jù)倉庫能夠?qū)崿F(xiàn)許多原來無法發(fā)現(xiàn)的規(guī)律,為企業(yè)在市場競爭過程中提供更好的服務(wù)。
;
[1]王珊等編著.數(shù)據(jù)倉庫技術(shù)與聯(lián)機分析處理[M].北京:科學(xué)出版社,1998.
[2]柳鶯樣等.數(shù)據(jù)倉庫技術(shù)研究和應(yīng)用探討[J].計算機應(yīng)用,2001,(2):46-47.
[3]劉義,常戈群編著.基于關(guān)系數(shù)據(jù)庫和OLAP的研究[J].計算機工程與應(yīng)用,2001,(2):36-38.
[4]李慧,聞豪.基于數(shù)據(jù)倉庫的OLAP技術(shù)的研究[J].電腦知識與技術(shù),2005,(1):77-81.
[5]段云峰,吳唯寧等.數(shù)據(jù)倉庫及其在電信領(lǐng)域中的應(yīng)用[M].電子工業(yè)出版社,2003.