李亞鵬
(無錫商業(yè)職業(yè)技術學院,江蘇 無錫214153)
數據倉庫技術是計算機數據庫系統(tǒng)發(fā)展的新方向,近幾年來已經在許多領域得到了應用。以數據倉庫為基礎的商業(yè)職能系統(tǒng)強大的功能在實際應用中能帶來高利潤的回報,所以近年來數據倉庫在眾多領域得到了越來越廣泛的應用。對于大量存在于計算機信息系統(tǒng)中的數據,通過數據倉庫、聯(lián)機處理技術和數據挖掘技術,對數據進行加工、分析、產生用于決策支持的信息,得以充分利用。
數據倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定的)、隨時間不斷變化的數據集合。與其他數據庫應用不同的是,數據倉庫更像一種過程,即對分布在企業(yè)內部各處的業(yè)務數據的整合、加工和分析的過程,而不是一種可以購買的產品。
①面向主題。數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。
②集成的。數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上,經過系統(tǒng)加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業(yè)的一致的全局信息。
③相對穩(wěn)定的。數據倉庫的數據主要供企業(yè)決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
④反映歷史變化。數據倉庫中的數據通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
OLAP 是數據處理的一種技術概念。OLAP 的基本目的是使企業(yè)的決策者能靈活地操縱企業(yè)的數據,以多維的形式從多面角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數據中存在的規(guī)律,實現(xiàn)對數據的歸納、分析和處理,幫助組織完成相關的決策。
根據OLAP 產品的實際應用情況和用戶對OLAP 產品的需求,人們提出了一種對OLAP 更簡單明確的定義,即共享多維信息的快速分析。OLAP 通過對多維信息以很多種可能的觀察方式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數據進行深入的觀察。基于操作型數據環(huán)境的OLTP(聯(lián)機事務處理),其基本操作是通過經典的SQL 語句實現(xiàn)的。而OLAP 多維數據分析是指對多維數據采取切片、切塊、鉆取、旋轉等各種分析操作,以求剖析數據,使最終用戶能從多角度、多側面地觀察數據庫中的數據,從而深入地了解包含在數據中的信息、內涵。數據倉庫系統(tǒng)一般都支持OLAP 的這些基本操作,也可以認為是一種擴展了的SQL 操作。
OLAP 是直接仿照用戶的多角度思考模式,預先為用戶組建多維的數據模型,在這里,維指的是用戶的分析角度。例如對銷售數據的分析,時間周期是一個維度,產品類別、分銷渠道、地理分布、客戶群類也分別是一個維度。一旦多維數據模型建立完成,用戶可以快速地從各個分析角度獲取數據,也能動態(tài)的在各個角度之間切換或者進行多角度綜合分析,具有極大的分析靈活性。這也是聯(lián)機分析處理在近年來被廣泛關注的根本原因,它從設計理念和真正實現(xiàn)上都與舊有的管理信息系統(tǒng)有著本質的區(qū)別。
事實上,隨著數據倉庫理論的發(fā)展,數據倉庫系統(tǒng)已逐步成為新型的決策管理信息系統(tǒng)的解決方案。數據倉庫系統(tǒng)的核心是聯(lián)機分析處理,但數據倉庫包括更為廣泛的內容。
概括來說,數據倉庫系統(tǒng)是指具有綜合企業(yè)數據的能力,能夠對大量企業(yè)數據進行快速和準確分析,輔助做出更好的商業(yè)決策的系統(tǒng)。
從應用角度來說,數據倉庫系統(tǒng)除了聯(lián)機分析處理外,還可以采用傳統(tǒng)的報表,或者采用數理統(tǒng)計和人工智能等數據挖掘手段,涵蓋的范圍更廣;就應用范圍而言,聯(lián)機分析處理往往根據用戶分析的主題進行應用分割,例如:銷售分析、市場推廣分析、客戶利潤率分析等等,每一個分析的主題形成一個OLAP 應用,而所有的OLAP 應用實際上只是數據倉庫系統(tǒng)的一部分。
聯(lián)機分析處理的用戶是企業(yè)中的專業(yè)分析人員及管理決策人員,他們在分析業(yè)務經營的數據時,從不同的角度來審視業(yè)務的衡量指標是一種很自然的思考模式。例如分析銷售數據,可能會綜合時間周期、產品類別、分銷渠道、地理分布、客戶群類等多種因素來考慮。這些分析角度雖然可以通過報表來反映,但每一個分析的角度可以生成一張報表,各個分析角度的不同組合又可以生成不同的報表,使得IT 人員的工作量相當大,而且往往難以跟上管理決策人員思考的步伐。
數據挖掘,又稱數據庫中的知識發(fā)現(xiàn),是指從大型數據庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式,它是數據庫研究中的一個很有應用價值的新領域,融合了數據庫、人工智能、機器學習、統(tǒng)計學等多個領域的理論和技術。隨著人工智能技術在專家咨詢、語言處理、娛樂游戲等模式識別領域的應用日益廣泛。從選取專業(yè)學習、研究方向的實際出發(fā),提出了將數據挖掘應用于輔助選取專業(yè)學習、研究方向的數據挖掘技術流程模型。
數據挖掘技術是一個多步驟、可能需多次反復的處理過程。主要包括以下幾步:準備、數據選擇、數據預處理、數據縮減、確定數據挖掘的目標、確定知識發(fā)現(xiàn)算法、數據挖掘(Data Mining)、模式解釋、知識評價。其中最重要的一個步驟是數據挖掘,它是利用某些特定的知識發(fā)現(xiàn)算法,在可接受的運算效率的限制下,從有效數據中發(fā)現(xiàn)有關的知識。
數據挖掘技術主要有四種開采任務:
(1)數據總結是對數據進行濃縮,給出它的緊湊描述。數據挖掘是從數據泛化的角度來討論數據總結。
(2)分類發(fā)現(xiàn)這是一項非常重要的任務,分類是運用分類器把數據庫中的數據項映射到給定類別中的某一個,用于對未來數據進行預測。
(3)聚類是把一組個體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別的個體間的距離盡可能的大。
(4)關聯(lián)規(guī)則是指事物之間的聯(lián)系具有多大的支持度和可信度。有意義的關聯(lián)規(guī)則必須給定兩個閾值:最小支持度和最小可度。3.3 數據挖掘在實際生活中的應用數據挖據的結果經過業(yè)務決策人員的認可,才能實際利用。要將通過數據挖掘得出的預測模式和各個領域的專家認識結合在一起,構成一個可供不同類型的人使用的應用程序。也只有通過對挖掘知識的應用,才能對數據挖掘的成果做出正確的評價。但是在應用數據挖掘成果時,決策人員所關心的是數據挖掘最終結果與用其他候選結果在實際應用中的差距。為將數據挖掘結果能在實際中得到應用,需要將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織機構中去,使這些知識在實際的管理決策分析中得到應用。
數據挖掘不一定需要建立在數據倉庫基礎上,但以數據倉庫為基礎,對于數據挖掘來說源數據的預處理將簡化許多。另外為了保證結果的正確性,數據挖掘對基礎數據量的需求是巨大的,數據倉庫可以很好地滿足這個要求。
[1]謝邦昌.數據挖掘基礎與應用[M].機械工業(yè)出版社,2012-01.
[2]楊杰.數據挖掘技術及其應用[M].上海交通大學出版社,2011-01.
[3]張云濤.數據挖掘原理與技術[M].電子工業(yè)出版社,2004-04.