何志明 李顯峰 苗水清
摘 要:數(shù)據(jù)倉庫是聯(lián)機數(shù)據(jù)分析及數(shù)據(jù)挖掘的基礎(chǔ),是一個熱門研究領(lǐng)域。本文主要紹了數(shù)據(jù)倉庫的產(chǎn)生、定義和主要特點。并在本文結(jié)尾部分簡單闡述了數(shù)據(jù)倉庫的發(fā)展趨勢。
關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)分析;數(shù)據(jù)挖掘
DOI:10.16640/j.cnki.37-1222/t.2019.21.110
1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫
在1961年,世界上產(chǎn)生了第一個數(shù)據(jù)庫管理系統(tǒng)。隨后,數(shù)據(jù)庫開始不停地往前發(fā)展。傳統(tǒng)的數(shù)據(jù)庫技術(shù)主要是用單一的數(shù)據(jù)進行批處理、聯(lián)機事務(wù)處理(即我們常用說的OLTP)、決策分析等各種數(shù)據(jù)處理工作。傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的主要工作是企業(yè)的日常事務(wù)處理,例如查詢、增加、刪除、日志等。所以它難以滿足高層用戶對數(shù)據(jù)的統(tǒng)計分析需求,難以實現(xiàn)數(shù)據(jù)處理中的多樣化要求。因此,傳統(tǒng)數(shù)據(jù)庫就逐步分離成了操作型數(shù)據(jù)庫和分析型數(shù)據(jù)庫兩大類。操作型數(shù)據(jù)庫也就是OLTP一般用于業(yè)務(wù)支撐:例如一個公司由于業(yè)務(wù)需要,會建立及使用一、兩個甚至多個數(shù)據(jù)庫,這些數(shù)據(jù)庫的主要功能不一樣,它們可能分別保存著企業(yè)的日常數(shù)據(jù):比如銷售記錄、商品預(yù)訂情況、員工基本情況分析等;它們相互獨立,偶有聯(lián)系,不利于數(shù)據(jù)分析。而分析型數(shù)據(jù)庫的側(cè)重點則完全不一樣,它主要進行歷史數(shù)據(jù)分析;分析型數(shù)據(jù)庫一般會將企業(yè)的日常操作數(shù)據(jù)單獨存儲,然后有目的地選擇歷史數(shù)據(jù)對針對具體主題進行分析。因為這兩類數(shù)據(jù)庫主導(dǎo)功能的不同,就產(chǎn)生了很多細節(jié)上的差異。其主要差異如下表所示。
2 數(shù)據(jù)倉庫概念
近年來,隨著數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用和迅猛發(fā)展,決策者需要對數(shù)據(jù)庫中的數(shù)據(jù)進行深層次的加工處理,然后形成一個綜合的,全面的、面向主題的環(huán)境,主要為決策支持提供服務(wù),從而催生了數(shù)據(jù)倉庫技術(shù)的誕生。
數(shù)據(jù)倉庫是:英文名稱為Data Warehouse(DW或DWH)。它是一個集成的、面向主題的、穩(wěn)定的、隨時間變化的數(shù)據(jù)的集合,以用于支持管理決策過程。
僅看數(shù)據(jù)倉庫的概念,還是比較晦澀難理解的。但我們結(jié)合應(yīng)用實例,那么就比較好理解了,因為大多技術(shù)都是為實際應(yīng)用服務(wù)的。我們就以超市的事務(wù)處理為例來看看數(shù)據(jù)倉庫與數(shù)據(jù)庫有什么不同。事務(wù)系統(tǒng)的數(shù)據(jù)平臺主要是數(shù)據(jù)庫,主要記錄每位客戶在超市的每筆交易。這里,我們可以將超市的數(shù)據(jù)庫系統(tǒng)比作記賬系統(tǒng)。那么數(shù)據(jù)倉庫是用來分析超市的交易數(shù)據(jù)的,它從超市的事務(wù)操作數(shù)據(jù)庫中獲取各種交易數(shù)據(jù),然后進行匯總、加工、分析,并給超市管理層或是決策者提供決策依據(jù)。例如,統(tǒng)計分析超市一個月有多少交易量,什么時間交易量比較大,什么商品不但交易量大而且利潤高。什么商品雖然交易量少,但利潤高等等。當(dāng)交易量大、利潤高,那么該超市就應(yīng)該考慮增加營業(yè)面積了。
很明顯,超市的交易量比較大,而且涉及商品、顧客都比較廣,如果一個顧客購買一件商品需要花費幾分鐘的時間來交易,那么顧客是無法接受的,所以它要求系統(tǒng)應(yīng)該在極短的時間內(nèi)給予響應(yīng)。而超市的營業(yè)分析,則不需要在幾分鐘內(nèi)完成,它需要對大量甚至是海量的交易數(shù)據(jù)進行匯總、分析,所以會需要較長的時間,但是只要它的數(shù)據(jù)分析結(jié)果是有效的,可用的,那么時間長些,決策者也是可以接受的。因為決策者更關(guān)注的是信息的匯總程度及其價值。
3 數(shù)據(jù)倉庫主要特點
3.1 面向主題
傳統(tǒng)型數(shù)據(jù)庫的主要任務(wù)是數(shù)據(jù)處理,即事務(wù)操作。所以該數(shù)據(jù)庫一般是以事務(wù)相關(guān)性進行存儲,而不會按照主題進行存儲數(shù)據(jù);數(shù)據(jù)倉庫的主要任務(wù)是數(shù)據(jù)分析,故而主要按主題相關(guān)進行存儲。所以數(shù)據(jù)倉庫是面向主題的;操作型數(shù)據(jù)庫的數(shù)據(jù)組織方式事物處理任務(wù)。主題是指決策用戶在使用數(shù)據(jù)倉庫進行決策時所關(guān)心方面。一般,一個主題通常與多個操作型數(shù)據(jù)庫相關(guān)。也就是是否面向主題是數(shù)據(jù)倉庫和傳統(tǒng)操作型數(shù)據(jù)庫的本質(zhì)區(qū)別。
3.2 集成性
數(shù)據(jù)倉庫的數(shù)據(jù)大多數(shù)情況下,會從各企業(yè)原有的數(shù)據(jù)庫系統(tǒng)中進行提取,但它并不是簡單的拷貝原有數(shù)據(jù),而是提取出來后必須經(jīng)過抽取、篩選、清理、轉(zhuǎn)換、綜合等工作然后再進行存儲、使用。
3.3 隨時間而變化
數(shù)據(jù)庫在保存數(shù)據(jù)時,一般不強調(diào)數(shù)據(jù)的具體時間信息。而數(shù)據(jù)倉庫則不一樣,數(shù)據(jù)倉庫中的數(shù)據(jù)基本都要求標(biāo)注數(shù)據(jù)的時間特性,這主要是出于決策需要。比如,在決策過程中,時間屬性也是非常重要的。例如,同樣是統(tǒng)計購買過某品牌汽車產(chǎn)品的顧客,A是最近三個月內(nèi)購買的,B則是在幾年前購買的,那么這個信息這對決策者意義是不一樣的。所以數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的。數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新主要是針對應(yīng)用操作來說的,換句話說,數(shù)據(jù)倉庫在進行數(shù)據(jù)分析處理時,一般不進行數(shù)據(jù)更新。但并不是說,數(shù)據(jù)倉庫中數(shù)據(jù)都是永遠不變的,永不更新的。只是,數(shù)據(jù)倉庫的數(shù)據(jù)一般更新時間間隔會比較長一些。不如事物數(shù)據(jù)庫更新快。所以數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間的變化而不斷變化的。
3.4 數(shù)據(jù)不易丟失
數(shù)據(jù)倉庫中的數(shù)據(jù)主要反映的是數(shù)據(jù)的歷史性,并不是操作型數(shù)據(jù)庫的那種日常事務(wù)操作處理數(shù)據(jù)。所以,數(shù)據(jù)倉庫中的數(shù)據(jù)基本不修改,或是極少修改,一般只是定期增加或是刪除數(shù)據(jù),以保證數(shù)據(jù)倉庫的中數(shù)據(jù)的完整性及時效性,同時控制數(shù)據(jù)倉庫的存儲規(guī)模。數(shù)據(jù)倉庫中數(shù)據(jù)基本都是綜合數(shù)據(jù),這些綜合數(shù)據(jù)中大多與跟時間相關(guān),所以要經(jīng)常按照時間段進行綜合整理,或是間隔一定時間片就要進行抽樣整理等。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是隨著時間的變化而不斷地進行重新綜合整理的。
4 發(fā)展趨勢
隨著計算機技術(shù)的日益精進,特別是數(shù)據(jù)庫技術(shù)的發(fā)展以及應(yīng)用需求的增大,數(shù)據(jù)倉庫也在發(fā)展。主要發(fā)展方向為:
(1)并行化與可擴展性:在這個追求速度與效率的時代,數(shù)據(jù)倉庫的發(fā)展也在向并行化方向發(fā)展,最明顯的就是在硬件上,采用多處理器提高并行處理能力。同時,在研發(fā)時,也考慮數(shù)據(jù)倉庫的可擴展性,以增強數(shù)據(jù)倉庫的生存期。
(2)集中化:目前,數(shù)據(jù)倉庫項目也是越來越大,很多決策、信息管理也都依賴于數(shù)據(jù)倉庫。并且,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展與廣泛應(yīng)用,數(shù)據(jù)倉庫必將與網(wǎng)絡(luò)應(yīng)用進行集成,即前臺是Web服務(wù)器及應(yīng)用,后臺則是數(shù)據(jù)倉庫系統(tǒng)。
(3)通用數(shù)據(jù)庫倉庫:將來的數(shù)據(jù)倉庫將向支持多媒體技術(shù)、支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉庫發(fā)展,也將具有面向?qū)ο筇幚淼哪芰Α?/p>
(4)數(shù)據(jù)倉庫打包應(yīng)用:數(shù)據(jù)倉庫將集成一些實用工具及應(yīng)用,并將它們打包后推向用戶。
5 小結(jié)
在這個海量數(shù)據(jù)存在,數(shù)據(jù)過剩的時代,數(shù)據(jù)倉庫顯示出了無與倫比的重要。因為,它是數(shù)據(jù)分析,數(shù)據(jù)挖掘的基礎(chǔ)及質(zhì)量保證。在國內(nèi),許多電商、互聯(lián)網(wǎng)公司,比如阿里、騰訊,其數(shù)據(jù)引擎、推薦引擎基本都是建立數(shù)據(jù)倉庫基礎(chǔ)上的。許多數(shù)據(jù)倉庫人員認為只要高質(zhì)量的數(shù)據(jù)倉庫建立起來了,數(shù)據(jù)分析、數(shù)據(jù)挖掘以及其相關(guān)應(yīng)用才能得到保障,如果相關(guān)業(yè)務(wù)數(shù)據(jù)沒梳理好,那么各種臟、亂、差得數(shù)據(jù)不光會搞得人焦頭爛額,苦不堪言,而且以此作為基礎(chǔ)的挖掘、分析質(zhì)量也會大打折扣。
參考文獻:
[1]郝雅萍.計算機數(shù)據(jù)倉庫的構(gòu)建原理及發(fā)展趨勢[J].延邊教育學(xué)院學(xué)報,2018,32(06):121-124.
[2]王定吉.探討移動互聯(lián)網(wǎng) APP 數(shù)據(jù)倉庫的應(yīng)用[J].建筑工程技術(shù)與設(shè)計,2018(32):4101.
[3]陳宏.淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技廣場,2011(09):90-93.
[4]李春葆.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嵺`[M].電子工業(yè)出版社,2014.