摘要:數(shù)據(jù)倉庫,聯(lián)機分析,數(shù)據(jù)挖掘都是信息領域中近年來快速發(fā)展起來的新技術,本文淺析了數(shù)據(jù)倉庫技術,聯(lián)機分析技術,數(shù)據(jù)挖掘技術的相關概念,論述了數(shù)據(jù)挖掘的方法,最后闡明了聯(lián)機分析技術與數(shù)據(jù)挖掘技術的區(qū)別與聯(lián)系,強調(diào)實際中相互配合使用有助于進行更好的決策。
關鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)挖掘聯(lián)機分析
隨著數(shù)據(jù)庫技術的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,人們積累的數(shù)據(jù)越來越多。大量的數(shù)據(jù)的背后隱藏著許多重要的信息,人們希望對其進行高層次的有效分析,以達到充分利用這些數(shù)據(jù),于是數(shù)據(jù)倉庫技術、聯(lián)機分析處OLAP理技術和數(shù)據(jù)挖掘技術就隨此誕生了。
1 數(shù)據(jù)倉庫技術
數(shù)據(jù)倉庫(Data Warehouse)簡稱Dw。最早被譽為“數(shù)據(jù)倉庫之父”的W.H.Inmon將數(shù)據(jù)倉庫明確地定義為:數(shù)據(jù)倉庫是集成的面向主題的數(shù)據(jù)庫集合。但數(shù)據(jù)倉庫系統(tǒng)并非一個簡單由各種數(shù)據(jù)合并而成的超大型數(shù)據(jù)庫,而是一種專為聯(lián)機分析應用和決策支持系統(tǒng)(DDS)提供數(shù)據(jù)分析和決策工具的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。它涉及數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載、數(shù)據(jù)存取、元數(shù)據(jù)管理、查詢、報表、分析工具及相應的開發(fā)方法等。它是用來支持決策,支持功能的。
它具有如下特征:
1.1它是面向主題的。
主題的含義是指在較高層次上將信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫面向應用相對應。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)做一個完整的、一致的描述,并統(tǒng)一分析對象所涉及的數(shù)據(jù)項及數(shù)據(jù)項之間的聯(lián)系。
1.2數(shù)據(jù)的集成性
數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須通過數(shù)據(jù)加工集成,這是建立數(shù)據(jù)倉庫的關鍵步驟。
1.3數(shù)據(jù)的相對穩(wěn)定性
數(shù)據(jù)倉庫中的數(shù)據(jù)是相對穩(wěn)定的。它不進行實時更新,一旦數(shù)據(jù)進入數(shù)據(jù)倉庫中去就不能由用戶進行更新。但從數(shù)據(jù)倉庫存貯的數(shù)據(jù)內(nèi)容上,可分為當前數(shù)據(jù)和歷史數(shù)據(jù)。在一定時間間隔后,當前數(shù)據(jù)需要按一定的方法轉(zhuǎn)換成歷史數(shù)據(jù)。對分析處理不再有用的數(shù)據(jù)需要從數(shù)據(jù)倉庫中刪除,這些工作是由系統(tǒng)管理員或由系統(tǒng)自動完成的。因此,可以說數(shù)據(jù)倉庫在一定時間間隔內(nèi)是穩(wěn)定的。
2 聯(lián)機分析處理技術
聯(lián)機分析處理技術即OLAP技術,是利用存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)完成各種分析操作,并以直觀易懂的形勢將分析結(jié)果返回給決策分析人員。OLAP聯(lián)機分析技術是針對數(shù)據(jù)倉庫應用中廣泛出現(xiàn)的大量的聚集操作而產(chǎn)生的一種新的技術,總體上講聯(lián)機分析技術可以分成兩種類型,一種是基于關系數(shù)據(jù)庫系統(tǒng)實現(xiàn)的聯(lián)機分析系統(tǒng),簡稱ROLAP。其基本思想是對數(shù)據(jù)倉庫中的數(shù)據(jù)模式進行合理組織,直接通過關系查詢實現(xiàn)切片、切塊、下鉆、上翻和旋轉(zhuǎn)等基本分析操作。另一種是基于多維模型實現(xiàn)聯(lián)機分析,主要研究如何減少存儲空間來實現(xiàn)查詢功能,而且還可以給用戶提供強大的多維和多層分析、統(tǒng)計和以報表處理功能,甚至可以進行趨勢分析。OLAP技術還可以和數(shù)據(jù)挖掘技術聯(lián)系起來運用,即數(shù)據(jù)挖掘可利用OLAP的分析結(jié)果,可以拓展分析的深度,可以發(fā)現(xiàn)OLAP聯(lián)機技術所不能發(fā)現(xiàn)的更為復雜、細致的信包。
3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的人們事先不知道的,但又是潛在有用的信息和知識的過程。
數(shù)據(jù)挖掘綜合了各個學科技術,有很多的功能,包括、聚類分析、關聯(lián)分析、分類、預測、時間序模式和偏差等。需要注意的是數(shù)據(jù)挖掘的各項功能不是獨立存在的而是在數(shù)據(jù)挖掘中互相聯(lián)系的一起發(fā)揮作用。
數(shù)據(jù)挖掘的方法也有很多種,簡要介紹如下:
3.1聚集分析(ClusterDetection)
聚集分析是將一個數(shù)據(jù)集分為幾個特征相同的簇,即把特征相同的數(shù)據(jù)聚集在一起。
3.2決策樹(Decision Tree)
它將基礎集中數(shù)據(jù)分為不相交的子集,每個子集可由一定的規(guī)則來描述。此規(guī)則在邏輯上具有層次結(jié)構(gòu)。因此可用樹型的數(shù)據(jù)結(jié)構(gòu)來表示,樹上的每個節(jié)點代表一條規(guī)則。
3.3鏈路分析(Link Analysis)
它用來分析對象之間的關系,用圖數(shù)據(jù)結(jié)構(gòu)來表示。具體方法是將對象看成是圖的節(jié)點,它們之間存在的關系則看成是圖的邊即鏈路,然后用圖論的方法進行數(shù)據(jù)分析。
3.4神經(jīng)網(wǎng)絡(NeutralNetwork)
這是最常見的一種有效的數(shù)據(jù)挖掘方法。即在計算機上模擬神經(jīng)元及其連接的方法,其中神經(jīng)網(wǎng)絡實際上是完成從已知數(shù)據(jù)項到目的數(shù)據(jù)項的一種非線性映射,它獲取的知識就存在于網(wǎng)絡結(jié)構(gòu)中。神經(jīng)網(wǎng)絡主要用來進行分類,估計和預測等來實現(xiàn)有向數(shù)據(jù)挖掘,也可以用于聚集等無向的數(shù)據(jù)挖掘。
3.5人工智能(artificial intelligence)
人工智能的一個重要組成部分是人工智能專家系統(tǒng),在專家系統(tǒng)中,最困難的是把專家的知識表達出來,而且還要把專家的知識變得十分有條理。專家系統(tǒng)很難解決很常性的問題。雖然人工智能技術有待提高,但是在發(fā)現(xiàn)有用的信息方面,是必不可少的,它總是為數(shù)據(jù)的查找提供很好的方向。
3.6遺傳算法(GeneticAlgorithms)
它是一種遺傳學原理和自然選擇機制來搜索最優(yōu)解的方法。在數(shù)據(jù)挖掘中,用來尋找實現(xiàn)分類、估計和預測功能的最優(yōu)參數(shù)集。過程是先產(chǎn)生一組解法,然后用重組、突變和選擇等進化過程來得到下一代解法。隨著進化過程的繼續(xù),較差的方法將被拋棄,從而逐步得到最優(yōu)的解法。
4 聯(lián)機處理技術與數(shù)據(jù)挖掘的關系
目前,聯(lián)機處理技術與數(shù)據(jù)挖掘是信息系統(tǒng)領域內(nèi)的研究重點,OLAP作為一種多維分析的工具,可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問題進行假設,分析,并將呈現(xiàn)給用戶。
數(shù)據(jù)挖掘是在海量的數(shù)據(jù)集合中尋找模式的決策支持過程,它從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的模式并作出預測性分析,是現(xiàn)有的最新的技術和統(tǒng)計學等成熟技術在特定系統(tǒng)中的具體的應用。
同時,數(shù)據(jù)挖掘與OLAP都屬于分析型工具,從某種角度上說OLAP聯(lián)機分析方法也是一種數(shù)據(jù)挖掘方法。但二者之間有著明顯的區(qū)別,數(shù)據(jù)挖掘的分析過程是全自動的,用戶可以不必提出確切的問題,只需工具去挖掘隱藏的模式并預測將來的趨勢,這樣有利于發(fā)現(xiàn)未知的事實;而OLAP更多地依靠用戶輸入問題和假設,由于用戶先入為主的參與問題和假設的范圍,從而會影響最后的結(jié)論。從對數(shù)據(jù)分析的深度角度來講,它比較淺顯,數(shù)據(jù)挖掘則可以發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復雜的信息。
數(shù)據(jù)挖掘存在的主要問題是實現(xiàn)很困難,因為數(shù)據(jù)庫或數(shù)據(jù)倉庫中存在大量數(shù)據(jù)和每個數(shù)據(jù)又有很多屬性,由于挖掘分析過程是全自動的。用戶僅僅指定挖掘的任務,而不提供搜索線索,這樣導致搜索的空間過大,生成相當多的外模式,其中絕大部分有可能是無意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度,不同抽象級別的視圖,但是由于對用戶的需求了解調(diào)研的不夠全面,視圖中缺乏所應包含的維度,從不同的視圖得到的結(jié)果可能并不相同,容易產(chǎn)生錯誤引導,用戶需做大量的數(shù)據(jù)打撈工作才能夠猜出正確的結(jié)果。
實際上數(shù)據(jù)挖掘的各個方法之間,數(shù)據(jù)挖掘和聯(lián)機分析處理之間都有著密不可分的關系,有些是可以由OLAP來展現(xiàn)或分析的,而數(shù)據(jù)挖掘的結(jié)果又可以指導生成OLAP多維模型。
從上述分析可以看出,OLAP與數(shù)據(jù)挖掘技術由于內(nèi)在技術方面和適用范圍的不同,在實際決策分析中必須協(xié)調(diào)配合使用才能發(fā)揮最好的作用。