一、引言
在今天激烈的市場競爭中,好的商業(yè)決策是取勝的關(guān)鍵。各個組織都在試圖尋找提高決策判斷的能力,但這又往往受阻于從各種操作和產(chǎn)品系統(tǒng)中進(jìn)行大量復(fù)雜的數(shù)據(jù)提取。而近年來,計算機(jī)應(yīng)用,開始向兩個不同的方向拓展:一是廣度計算;二是深度計算。廣度計算的含義是把計算機(jī)的應(yīng)用范圍盡量擴(kuò)大,同時實(shí)現(xiàn)廣泛的數(shù)據(jù)交流,互聯(lián)網(wǎng)就是廣度計算的特征。深度計算則是要求計算機(jī)對現(xiàn)有的數(shù)據(jù),進(jìn)行分析和推理,也就是人們對以往計算機(jī)的簡單數(shù)據(jù)操作,提出了更高的要求,希望計算機(jī)能夠更多的參與數(shù)據(jù)分析與決策的制定等領(lǐng)域。這與市場的需求不謀而合,從而導(dǎo)致了決策支持系統(tǒng)(DSS)的產(chǎn)生。
最初的決策系統(tǒng)是建立在數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上的。但隨著數(shù)據(jù)量的增長和查詢的復(fù)雜化,這種基于數(shù)據(jù)庫的DSS出現(xiàn)了許多難以克服的問題。為了解決這些問題,人們進(jìn)行了不斷的探索和嘗試,逐漸形成了數(shù)據(jù)倉庫的思想。數(shù)據(jù)倉庫從根本上解決了這些問題,并且現(xiàn)在已經(jīng)在許多行業(yè)得到了廣泛的應(yīng)用。
二、什么是數(shù)據(jù)倉庫
“數(shù)據(jù)倉庫(Data Warehouse)”的概念是在1992年,由W.H.Inmon在其《建立數(shù)據(jù)倉庫》一書中提出的。W.H.Inmon認(rèn)為數(shù)據(jù)倉庫是面向主題的、集成的、非易失的、是隨時間變化的數(shù)據(jù)集合,用來支持管理決策。數(shù)據(jù)倉庫是指整體的信息存儲。這些信息從其他系統(tǒng)收集而來,并且成為決策支持和數(shù)據(jù)分析的基礎(chǔ)。盡管有許多類型的數(shù)據(jù)倉庫,它們以不同的設(shè)計方法為基礎(chǔ),但卻都有一些共同的特點(diǎn)。
1.數(shù)據(jù)倉庫的特點(diǎn)。根據(jù)數(shù)據(jù)倉庫的定義,數(shù)據(jù)倉庫有以下特點(diǎn):面向主題的;(2)集成的;(3)非易失的;(4)隨時間變化的。
數(shù)據(jù)倉庫同數(shù)據(jù)庫相比,還有其他特點(diǎn)。如數(shù)據(jù)倉庫為了能夠在盡量短的時間內(nèi)將數(shù)據(jù)呈現(xiàn)給使用人員,使用了“空間換時間”的技術(shù),犧牲了數(shù)據(jù)的規(guī)范化、增加了數(shù)據(jù)的冗余度,從而減小系統(tǒng)的響應(yīng)時間。此外,在數(shù)據(jù)倉庫環(huán)境下系統(tǒng)的硬件資源常常在高利用率和低利用率之間切換。當(dāng)系統(tǒng)進(jìn)行數(shù)據(jù)應(yīng)用分析時,硬件利用率很高,而系統(tǒng)空閑時,系統(tǒng)利用率很低。
2.數(shù)據(jù)倉庫的處理。從信息技術(shù)角度看,數(shù)據(jù)倉庫的目標(biāo)是為組織的相關(guān)個體及時傳遞正確的信息。這是一個不斷發(fā)展的過程,而不能一時定論,要求對不同的面向事務(wù)的系統(tǒng)有不同的解決方案。數(shù)據(jù)倉庫為了支持決策而進(jìn)行數(shù)據(jù)的收集,具有面向事務(wù)的綜合性、時變性等特征。
數(shù)據(jù)倉庫是通過使用一致性的命名習(xí)慣、量度、物理屬性和語義來綜合數(shù)據(jù)操作的。在數(shù)據(jù)倉庫的物理設(shè)計中,第一步就是決定包含什么領(lǐng)域的事務(wù),并開發(fā)一套一致性的定義。這需要與最終用戶交流,以理解和記載相關(guān)領(lǐng)域的知識,在邏輯過程轉(zhuǎn)化為物理數(shù)據(jù)倉庫之前,必須做好這一步。
在操作系統(tǒng)中,數(shù)據(jù)被訪問時有精確的即時值。例如:一個有關(guān)訂購的應(yīng)用程序能為每個產(chǎn)品顯示出當(dāng)前值,不同的查詢時機(jī),值可能有所不同。在數(shù)據(jù)倉庫中,數(shù)據(jù)代表的是一段時間內(nèi)信息的收集情況,在某段范圍內(nèi)它是精確的。
最后信息被用來瀏覽、分析及報告,許多工具都可以用來幫助分析,從簡單的文書抄送,到高級的數(shù)據(jù)采集。員終,分析將驅(qū)動數(shù)據(jù)倉庫進(jìn)行循環(huán)處理,以提高系統(tǒng)的性能,允許新的類型分析等??傊?,這些過程將伴隨著數(shù)據(jù)倉庫的整個生命周期。
三、數(shù)據(jù)倉庫的組成部分
數(shù)據(jù)倉庫是一種環(huán)境,而不是一種產(chǎn)品,它主要有以下幾個部分組成:
1.數(shù)據(jù)倉庫工具。數(shù)據(jù)倉庫最終的目標(biāo)是盡可能讓更多的公司管理者方便、有效和準(zhǔn)確地使用數(shù)據(jù)倉庫這一集成的決策支持環(huán)境。數(shù)據(jù)倉庫工具可以分為四個互不相關(guān)的大類:分析工具、開發(fā)工具、實(shí)施工具和傳遞工具。在這四種工具中,分析工具最重要。
(1)分析工具主要用于分析階段,尤其是研究目前的業(yè)務(wù)環(huán)境時,它們有助于數(shù)據(jù)要求的確立識別信息獲取層的主要數(shù)據(jù)來源和建立數(shù)據(jù)模型。主要包括:CASE工具、掃描儀、數(shù)據(jù)綱目庫。
(2)開發(fā)工具會在為信息獲取、數(shù)據(jù)清潔、數(shù)據(jù)集成和數(shù)據(jù)倉庫的加載,而進(jìn)行代碼生成時向開發(fā)人員提供幫助。這類工具主要包括:代碼生成器、數(shù)據(jù)綱目庫。
(3)實(shí)施工具有助于數(shù)據(jù)倉庫實(shí)際的清潔、合并和加載數(shù)據(jù)的工作。一些開發(fā)商提供了用于數(shù)據(jù)清潔、數(shù)據(jù)復(fù)制和現(xiàn)行數(shù)據(jù)集成的方法和實(shí)施工具。如果由項目小組來選擇,那么有些工具的選擇范圍就可以有所擴(kuò)大。
(4)傳遞工具的作用是向傳遞平臺進(jìn)行數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)衍生、數(shù)據(jù)加載和提供報表。主要的傳遞工具有下面幾種:數(shù)據(jù)加載器、數(shù)據(jù)詞匯表、查詢和報表生成。
2.數(shù)據(jù)集市。人們在早期開發(fā)企業(yè)級數(shù)據(jù)倉庫時,一般是先建立一個全局的數(shù)據(jù)倉庫結(jié)構(gòu),然后在這一全局?jǐn)?shù)據(jù)倉庫基礎(chǔ)上建立各種應(yīng)用。但是在開發(fā)的過程中,人們發(fā)現(xiàn)了一些問題:按這種方法建立全局?jǐn)?shù)據(jù)倉庫,建設(shè)規(guī)模往往較大,建設(shè)周期長、投資大;在全局?jǐn)?shù)據(jù)倉庫建立好后,隨著使用數(shù)據(jù)倉庫部門的增多,對數(shù)據(jù)倉庫資源的競爭將成為企業(yè)所面臨的一個難題。各個部門希望能按自己的需要定制全局?jǐn)?shù)據(jù)倉庫中的數(shù)據(jù),但全局?jǐn)?shù)據(jù)倉庫中的數(shù)據(jù)是面向企業(yè)中所有部門的,它不可能專為某一部門的應(yīng)用而定制。為了解決上面的問題,人們提出了數(shù)據(jù)集市的概念,它更精練,更面向主題。
一般來說,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對—組主題的應(yīng)用系統(tǒng)。由于每個部門有自己特定的需求,因此他們對數(shù)據(jù)集市的期望也不一樣。一般來說,數(shù)據(jù)集市中數(shù)據(jù)庫的設(shè)計采用星形連接。這種結(jié)構(gòu)對部門用戶而言是最好的,但對企業(yè)范圍而言則不然。
3.關(guān)系數(shù)據(jù)庫。關(guān)系數(shù)據(jù)庫是現(xiàn)在普遍使用的一種數(shù)據(jù)庫,是數(shù)據(jù)倉庫的數(shù)據(jù)來源之一。包括關(guān)系模型、關(guān)系數(shù)據(jù)語言、關(guān)系操作等。在這里我就不詳細(xì)論述。
4.數(shù)據(jù)源。數(shù)據(jù)源一般有一下幾個部分,如下圖所示:
產(chǎn)品數(shù)據(jù)指的是應(yīng)用程序收集到的,并保存在運(yùn)作數(shù)據(jù)庫中的信息,這些運(yùn)作數(shù)據(jù)庫可以是多種技術(shù)的,如關(guān)系的、非關(guān)系的、基于文件的等。
遺留數(shù)據(jù)是脫機(jī)的數(shù)據(jù)或檔案數(shù)據(jù),它不必支持當(dāng)前運(yùn)作的應(yīng)用程序,但對于趨勢分析具有重大的歷史價值,必須用適當(dāng)?shù)膽?yīng)用程序?qū)⑵鋫魅霐?shù)據(jù)倉庫。這種數(shù)據(jù)對于數(shù)據(jù)挖掘也是有用的。
這是數(shù)據(jù)的來源,它并不存儲于當(dāng)前運(yùn)作的數(shù)據(jù)庫中,也不用于運(yùn)作的商業(yè)應(yīng)用程序。一般來說,這種數(shù)據(jù)有以下幾種:非結(jié)構(gòu)化的(例如電子形式的)、結(jié)構(gòu)化的(例如報表圖表,電子表格及字處理文檔的形式)、半結(jié)構(gòu)化的(例如年度的報表或SEC文檔的形式)這種數(shù)據(jù)對于支持跨部門的分析是非常有用的。
數(shù)據(jù)源結(jié)構(gòu)圖
這些數(shù)據(jù)源不受企業(yè)控制,不為企業(yè)獨(dú)有或隨意操作,可以是電子形式的,或者是來自市場研究部門的競爭分析簡報。另外,它們還可以是非電子形式的文章或競爭報表。外部系統(tǒng)的數(shù)據(jù)來源還包括行業(yè)數(shù)據(jù)。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)源的明確信息,它包括從數(shù)據(jù)源中所抽取數(shù)據(jù)的名稱、數(shù)據(jù)內(nèi)容(域)的定義、創(chuàng)建的日期、數(shù)據(jù)的來源。在內(nèi)部辦公系統(tǒng)和外部系統(tǒng)中,元數(shù)據(jù)還可以包括摘要描述、存儲定位,以及文檔數(shù)據(jù)的存取和控制參數(shù)等。
5.顯示服務(wù)。數(shù)據(jù)倉庫最終成功與否,取決于用戶能否從數(shù)據(jù)倉庫提取想要的數(shù)據(jù),即數(shù)據(jù)倉庫怎樣顯示數(shù)據(jù),從而形成一種信息。在最終用戶訪問方法的設(shè)計中,應(yīng)詳細(xì)說明并規(guī)劃最終用戶對數(shù)據(jù)倉庫進(jìn)行訪問的類型,確定如何從外部觀察點(diǎn)訪問數(shù)據(jù)。
開發(fā)數(shù)據(jù)倉庫應(yīng)用程序往往是為了支持維分析決策系統(tǒng),所以要進(jìn)行維分析設(shè)計,這類訪問方法有時也被稱作“立方旋轉(zhuǎn)”,多半是配置買來的工具的問題;有時,想要組織開發(fā)自己的訪問工具,這個活動便規(guī)定了用戶為了查看各種業(yè)務(wù)度量所使用的方法。大多數(shù)工具都包含了如下幾類功能:經(jīng)理信息系統(tǒng)、決策支持系統(tǒng)、報表生成工具、特別查詢、應(yīng)用程序開發(fā)、電子報表分析、統(tǒng)計分析、數(shù)據(jù)挖掘。
6.最終用戶分析。用戶對數(shù)據(jù)倉庫設(shè)計和開發(fā)工作的每個方面都十分重要。他們應(yīng)當(dāng)參加選擇項目、收集要求、定義數(shù)據(jù)、證實(shí)成本、選擇最終用戶工具,開發(fā)定制DSS應(yīng)用軟件、設(shè)計和評審、設(shè)計訪問數(shù)據(jù)和將數(shù)據(jù)移入個人倉庫中去的過程、測試和驗(yàn)證,以及開發(fā)管理變化要求和度量用戶滿意度的過程。IT和用戶的均衡參與是十分重要的。如果每個階段中用戶都能適當(dāng)?shù)貐⑴c進(jìn)來,數(shù)據(jù)倉庫的成功就可以確保了。
數(shù)據(jù)倉庫系統(tǒng)以數(shù)據(jù)倉庫為基礎(chǔ),通過查詢工具和分析工具,完成對信息的提取,滿足用戶的各種需求。數(shù)據(jù)倉庫是大量集成化數(shù)據(jù)的集合,它的主體由關(guān)系數(shù)據(jù)庫組成,但某些層次的數(shù)據(jù)也可以由其他類型的數(shù)據(jù)(如多維數(shù)據(jù))組成。各類分析工具與數(shù)據(jù)倉庫的不同數(shù)據(jù)層連接。不同的用戶可以從不同的數(shù)據(jù)層次,利用不同的分析工具來提取不同類型的信息。數(shù)據(jù)倉庫兼?zhèn)鋽?shù)據(jù)集成和數(shù)據(jù)分析的功能,既是對企業(yè)原有應(yīng)用系統(tǒng)缺陷的更正,
四、數(shù)據(jù)倉庫應(yīng)用前景
當(dāng)今世界競爭非常激烈,正確及時的決策對企業(yè)的生存和發(fā)展是至關(guān)重要的。越來越多的企業(yè)已經(jīng)認(rèn)識到,要想在競爭中取勝,必須利用計算機(jī)網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)倉庫技術(shù),深層次地挖掘、分析當(dāng)前和歷史的業(yè)務(wù)數(shù)據(jù),以及相關(guān)環(huán)境的數(shù)據(jù),為企業(yè)提供快速、準(zhǔn)確的決策信息。近年來,數(shù)據(jù)倉庫已經(jīng)在電信領(lǐng)域、銀行領(lǐng)域、證券業(yè)、保險、客戶管理等眾多領(lǐng)域得到了越來越廣泛的應(yīng)用。隨著因特網(wǎng)和電子商務(wù)的發(fā)展,各大數(shù)據(jù)倉庫產(chǎn)品供應(yīng)商紛紛把注意力投向電子商務(wù)領(lǐng)域,并且通過數(shù)據(jù)倉庫技術(shù)來構(gòu)造商業(yè)智能平臺。