梁柳瑩
摘要:數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是兩個比較大的概念,在國外已經(jīng)非常成熟,在國內(nèi)隨著前幾年企業(yè)數(shù)據(jù)的累計、ERP的成熟,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘開始起步。如何建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是個值得不斷探討和優(yōu)化的問題。
關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;數(shù)據(jù)集合
中圖分類號:P208 文獻標(biāo)識碼:A
文章編號:1674-1145(2009)03-0093-02
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是兩個比較大的概念,在國外已經(jīng)非常成熟,在國內(nèi)隨著前幾年企業(yè)數(shù)據(jù)的累計、ERP的成熟,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘開始起步。如何建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是個不斷值得探討和優(yōu)化的問題,不僅僅在技術(shù)上,在商業(yè)應(yīng)用上也是如此。
一、數(shù)據(jù)倉庫
1.?dāng)?shù)據(jù)倉庫的概念。數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
2.?dāng)?shù)據(jù)倉庫的特點
根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特點:
(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。
(2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
(4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)的。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個工程,是一個過程。
3.?dāng)?shù)據(jù)倉庫的結(jié)構(gòu)。整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu),具體由下圖表示:
數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。
數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
OLAP服務(wù)器:對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
二、數(shù)據(jù)挖掘
1.?dāng)?shù)據(jù)挖掘的概念。數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的信息的高級處理過程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下步驟組成:(1)數(shù)據(jù)清理;(2)數(shù)據(jù)集成;(3)數(shù)據(jù)選擇;(4)數(shù)據(jù)變換;(5)數(shù)據(jù)挖掘;(6)模式評估;(7)知識表示。數(shù)據(jù)挖掘可以與用戶或知識庫交互。
2.?dāng)?shù)據(jù)挖掘的作用。在今天的市場上,信息的利用至關(guān)重要,各行各業(yè)面臨激烈的競爭及經(jīng)濟壓力,產(chǎn)品的生命周期縮短,需要為顧客提供更好的服務(wù)。在市場經(jīng)濟比較發(fā)達(dá)的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基礎(chǔ)上通過數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進行深加工,以構(gòu)筑自己的競爭優(yōu)勢,擴大自己的營業(yè)額。在過去幾年中,各公司為了取得必要的市場戰(zhàn)略信息及對付市場方面的各種壓力,已經(jīng)開始采用數(shù)據(jù)倉庫技術(shù)。各公司為了確定所要開發(fā)的產(chǎn)品模式及了解市場走勢,需要提取數(shù)據(jù)倉庫數(shù)據(jù),包括聯(lián)機事務(wù)處理(OLTP)數(shù)據(jù),并與外部的人口統(tǒng)計數(shù)據(jù)及心理數(shù)據(jù)結(jié)合,從中“挖掘出”最終結(jié)果。利用這種數(shù)據(jù)倉庫信息源,知識工作者在他們的辦公室內(nèi)可根據(jù)所取得的數(shù)據(jù)進行決策??梢哉f,數(shù)據(jù)倉庫直接影響事關(guān)公司命運的決策。
三、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的關(guān)系
上述過程其實就是數(shù)據(jù)挖掘,實施這一過程的基本設(shè)施是數(shù)據(jù)倉庫。這是一種關(guān)鍵性、涉及范圍很廣的技術(shù)手段。利用數(shù)據(jù)挖掘技術(shù)可使?jié)撛诘男б娴玫阶畲蟮陌l(fā)揮。數(shù)據(jù)倉庫是一種數(shù)據(jù)集成戰(zhàn)略,目的是促進最終用戶利用企業(yè)數(shù)據(jù),同時保護公司的數(shù)據(jù)財富——關(guān)鍵任務(wù)的可操作數(shù)據(jù)——安全性和完整性。
只要安排妥當(dāng),數(shù)據(jù)倉庫就能發(fā)揮它的重要作用,即人們可以很快地作出決策。因此,數(shù)據(jù)倉庫是實施公司戰(zhàn)略的一種技術(shù)手段。
一般來說,構(gòu)筑數(shù)據(jù)倉庫是一個頻繁的查閱過程,它可分為若干階段,其中包括需求分析、數(shù)據(jù)倉庫的設(shè)計、操作數(shù)據(jù)的提取、不相容數(shù)據(jù)的集成、數(shù)據(jù)倉庫的裝填、最終交付用戶使用。在后續(xù)期內(nèi),還應(yīng)該對數(shù)據(jù)倉庫作定期更新。
數(shù)據(jù)挖掘?qū)Πl(fā)揮數(shù)據(jù)倉庫的作用有很大影響,因為通過它可以識別出商務(wù)中的模式與趨勢,而僅通過分析數(shù)據(jù)倉庫數(shù)據(jù)是無法得出的。當(dāng)知識工作者運用結(jié)構(gòu)化查詢語言(SQL)對數(shù)據(jù)倉庫查詢所需的信息時,查詢中的歧義性常常涉及到與答案集有關(guān)的一系列知識。相反地,數(shù)據(jù)挖掘可以揭示出非常有價值的信息,這些信息在實施分析之前,知識工作者是無法得知的。這種新技術(shù),有助于使公司取得較大的市場份額,建立更好的形象并推動公司向前發(fā)展。