亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析基于數(shù)據(jù)倉庫的OLAP聯(lián)機分析技術與數(shù)據(jù)挖掘技術

        2009-12-31 00:00:00孟雅鳳
        中國科技財富 2009年18期

        摘要: 數(shù)據(jù)倉庫,聯(lián)機分析,數(shù)據(jù)挖掘都是信息領域中近年來快速發(fā)展起來的新技術,本文淺析了數(shù)據(jù)倉庫技術,聯(lián)機分析技術,數(shù)據(jù)挖掘技術的相關概念,論述了數(shù)據(jù)挖掘的方法,最后闡明了聯(lián)機分析技術與數(shù)據(jù)挖掘技術的區(qū)別與聯(lián)系,強調實際中相互配合使用有助于進行更好的決策。

        關鍵詞: 數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;聯(lián)機分析

        隨著數(shù)據(jù)庫技術的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,人們積累的數(shù)據(jù)越來越多。大量的數(shù)據(jù)的背后隱藏著許多重要的信息,人們希望對其進行高層次的有效分析,以達到充分利用這些數(shù)據(jù),于是數(shù)據(jù)倉庫技術、聯(lián)機分析處OLAP理技術和數(shù)據(jù)挖掘技術就隨此誕生了。

        1 數(shù)據(jù)倉庫技術

        數(shù)據(jù)倉庫(Data Warehouse)簡稱DW。最早被譽為“數(shù)據(jù)倉庫之父”的W.H.Inmon將數(shù)據(jù)倉庫明確地定義為:數(shù)據(jù)倉庫是集成的面向主題的數(shù)據(jù)庫集合。但數(shù)據(jù)倉庫系統(tǒng)并非一個簡單由各種數(shù)據(jù)合并而成的超大型數(shù)據(jù)庫,而是一種專為聯(lián)機分析應用和決策支持系統(tǒng)(DDS)提供數(shù)據(jù)分析和決策工具的結構化數(shù)據(jù)環(huán)境。它涉及數(shù)據(jù)的抽取、轉換、裝載、數(shù)據(jù)存取、元數(shù)據(jù)管理、查詢、報表、分析工具及相應的開發(fā)方法等。它是用來支持決策,支持功能的。

        它具有如下特征:

        1.1它是面向主題的。

        主題的含義是指在較高層次上將信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫面向應用相對應。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)做一個完整的、一致的描述,并統(tǒng)一分析對象所涉及的數(shù)據(jù)項及數(shù)據(jù)項之間的聯(lián)系。

        1.2數(shù)據(jù)的集成性

        數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進入數(shù)據(jù)倉庫之前.必須通過數(shù)據(jù)加工集成,這是建立數(shù)據(jù)倉庫的關鍵步驟。

        1.3數(shù)據(jù)的相對穩(wěn)定性

        數(shù)據(jù)倉庫中的數(shù)據(jù)是相對穩(wěn)定的。它不進行實時更新,一旦數(shù)據(jù)進入數(shù)據(jù)倉庫中去就不能由用戶進行更新。但從數(shù)據(jù)倉庫存貯的數(shù)據(jù)內(nèi)容上,可分為當前數(shù)據(jù)和歷史數(shù)據(jù)。在一定時間間隔后,當前數(shù)據(jù)需要按一定的方法轉換成歷史數(shù)據(jù)。對分析處理不再有用的數(shù)據(jù)需要從數(shù)據(jù)倉庫中刪除,這些工作是由系統(tǒng)管理員或由系統(tǒng)自動完成的。因此,可以說數(shù)據(jù)倉庫在一定時間間隔內(nèi)是穩(wěn)定的。

        2聯(lián)機分析處理技術

        聯(lián)機分析處理技術即OLAP技術,是利用存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)完成各種分析操作,并以直觀易懂的形勢將分析結果返回給決策分析人員。OLAP聯(lián)機分析技術是針對數(shù)據(jù)倉庫應用中廣泛出現(xiàn)的大量的聚集操作而產(chǎn)生的一種新的技術,總體上講聯(lián)機分析技術可以分成兩種類型,一種是基于關系數(shù)據(jù)庫系統(tǒng)實現(xiàn)的聯(lián)機分析系統(tǒng),簡稱ROLAP。其基本思想是對數(shù)據(jù)倉庫中的數(shù)據(jù)模式進行合理組織,直接通過關系查詢實現(xiàn)切片、切塊、下鉆、上翻和旋轉等基本分析操作。另一種是基于多維模型實現(xiàn)聯(lián)機分析,主要研究如何減少存儲空間來實現(xiàn)查詢功能,而且還可以給用戶提供強大的多維和多層分析、統(tǒng)計和以報表處理功能,甚至可以進行趨勢分析。OLAP技術還可以和數(shù)據(jù)挖掘技術聯(lián)系起來運用,即數(shù)據(jù)挖掘可以利用OLAP的分析結果,可以拓展分析的深度,可以發(fā)現(xiàn)OLAP聯(lián)機技術所不能發(fā)現(xiàn)的更為復雜、細致的信息。

        3 數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的人們事先不知道的,但又是潛在有用的信息和知識的過程。

        數(shù)據(jù)挖掘綜合了各個學科技術,有很多的功能,包括、聚類分析、關聯(lián)分析、分類、預測、時間序模式和偏差等。需要注意的是數(shù)據(jù)挖掘的各項功能不是獨立存在的 而是在數(shù)據(jù)挖掘中互相聯(lián)系的一起發(fā)揮作用。

        數(shù)據(jù)挖掘的方法也有很多種,簡要介紹如下:

        3.1 聚集分析(ClusterDetection)

        聚集分析是將一個數(shù)據(jù)集分為幾個特征相同的簇, 即把特征相同的數(shù)據(jù)聚集在一起。非3.2 決策樹(Decision Tree)

        它將基礎集中數(shù)據(jù)分為不相交的子集, 每個子集可由一定的規(guī)則來描述。此規(guī)則在邏輯上具有層次結構, 因此可用樹型的數(shù)據(jù)結構來表示,樹上的每個節(jié)點代表一條規(guī)則。

        3.3鏈路分析(Link Analysis)

        它用來分析對象之間的關系,用圖數(shù)據(jù)結構來表示。具體方法是將對象看成是圖的節(jié)點, 它們之間存在的關系則看成是圖的邊即鏈路,然后用圖論的方法進行數(shù)據(jù)分析。

        3.4 神經(jīng)網(wǎng)絡(NeutralNetwork)

        這是最常見的一種有效的數(shù)據(jù)挖掘方法。即在計算機上模擬神經(jīng)元及其連接的方法,其中神經(jīng)網(wǎng)絡實際上是完成從已知數(shù)據(jù)項到目的數(shù)據(jù)項的一種非線性映射, 它獲取的知識就存在于網(wǎng)絡結構中。神經(jīng)網(wǎng)絡主要用來進行分類、估計和預測等來實現(xiàn)有向數(shù)據(jù)挖掘, 也可以用于聚集等無向的數(shù)據(jù)挖掘。

        3.5人工智能(artificial intelligence)

        人工智能的一個重要組成部分是人工智能專家系統(tǒng),在專家系統(tǒng)中,最困難的是把專家的知識表達出來,而且還要把專家的知識變得十分有條理。專家系統(tǒng)很難解決很常性的問題。雖然人工智能技術有待提高,但是在發(fā)現(xiàn)有用的信息方面,是必不可少的,它總是為數(shù)據(jù)的查找提供很好的方向。

        3.6 遺傳算法(GeneticAlgorithms)

        它是一種遺傳學原理和自然選擇機制來搜索最優(yōu)解的方法。在數(shù)據(jù)挖掘中,用來尋找實現(xiàn)分類、估計和預測功能的最優(yōu)參數(shù)集。過程是先產(chǎn)生一組解法, 然后用重組、突變和選擇等進化過程來得到下一代解法。隨著進化過程的繼續(xù), 較差的方法將被拋棄, 從而逐步得到最優(yōu)的解法。

        4 聯(lián)機處理技術與數(shù)據(jù)挖掘的關系

        目前, 聯(lián)機處理技術與數(shù)據(jù)挖掘是信息系統(tǒng)領域內(nèi)的研究重點,OLAP作為一種多維分析的工具, 可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問題進行假設,分析,并將呈現(xiàn)給用戶。

        數(shù)據(jù)挖掘是在海量的數(shù)據(jù)集合中尋找模式的決策支持過程,它從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的模式并作出預測性分析, 是現(xiàn)有的最新的技術和統(tǒng)計學等成熟技術在特定系統(tǒng)中的具體的應用。

        同時,數(shù)據(jù)挖掘與OLAP都屬于分析型工具, 從某種角度上說OLAP聯(lián)機分析方法也是一種數(shù)據(jù)挖掘方法。但二者之間有著明顯的區(qū)別,數(shù)據(jù)挖掘的分析過程是全自動的, 用戶可以不必提出確切的問題, 只需工具去挖掘隱藏的模式并預測將來的趨勢, 這樣有利于發(fā)現(xiàn)未知的事實;而OLAP更多地依靠用戶輸入問題和假設, 由于用戶先入為主的參與問題和假設的范圍, 從而會影響最后的結論。從對數(shù)據(jù)分析的深度角度來講, 它比較淺顯, 數(shù)據(jù)挖掘則可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復雜的信息。

        數(shù)據(jù)挖掘存在的主要問題是實現(xiàn)很困難,因為數(shù)據(jù)庫或數(shù)據(jù)倉庫中存在大量數(shù)據(jù)和每個數(shù)據(jù)又有很多屬性, 由于挖掘分析過程是全自動的, 用戶僅僅指定挖掘的任務, 而不提供搜索線索, 這樣導致搜索的空間過大, 生成相當多的外模式, 其中絕大部分有可能是無意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度、不同抽象級別的視圖, 但是由于對用戶的需求了解調研的不夠全面, 視圖中缺乏所應包含的維度, 從不同的視圖得到的結果可能并不相同, 容易產(chǎn)生錯誤引導, 用戶需做大量的數(shù)據(jù)打撈工作才能夠猜出正確的結果。

        實際上數(shù)據(jù)挖掘的各個方法之間, 數(shù)據(jù)挖掘和聯(lián)機分析處理之間都有著密不可分的關系,有些是可以由OLAP 來展現(xiàn)或分析的,而數(shù)據(jù)挖掘的結果又可以指導生成OLAP多維模型。

        從上述分析可以看出, OLAP與數(shù)據(jù)挖掘技術由于內(nèi)在技術方面和適用范圍的不同, 在實際決策分析中必須協(xié)調配合使用才能發(fā)揮最好的作用。

        參考文獻:

        [1]施伯樂 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的研究進展,復旦大學

        [2]廖里 數(shù)據(jù)挖掘和數(shù)據(jù)倉庫及其在電信業(yè)中的應用 2000年 《重慶郵電學院學報》

        [3]石磊 OLAP與數(shù)據(jù)挖掘一體化模型的分析與討論 2000年 《小型微型計算機系統(tǒng)》

        [4]豎 苧 數(shù)據(jù)倉庫的建設與數(shù)據(jù)挖掘技術淺析 2003年第3期《現(xiàn)代信息技術》

        [5]宋中山 數(shù)據(jù)倉庫技術研究與應用 2003年 《計算機工程與應用》

        作者簡介:

        孟雅鳳 哈爾濱市黑龍江農(nóng)墾職業(yè)學院計算機應用技術系 工學碩士 講師

        精品高清免费国产在线| 妞干网中文字幕| 中文字幕精品一区二区2021年 | 亚洲AV成人无码久久精品老人| 欧美综合图区亚洲综合图区| 日本视频一区二区三区| 欧美成人猛片aaaaaaa| 又湿又黄裸乳漫画无遮挡网站| 国产精品亚洲专区在线播放| 国产色婷亚洲99精品av网站| 久久青青草原国产毛片| 亚洲aⅴ天堂av天堂无码麻豆| 自拍 另类 综合 欧美小说| 久久熟女精品—区二区蜜臀| 成人影院在线视频免费观看| 少妇伦子伦精品无吗| 少妇spa推油被扣高潮| 中文无码免费在线| 成熟妇女毛茸茸性视频| 国产男女免费完整视频| 国产91成人精品亚洲精品 | 色婷婷在线一区二区三区| 精品国产综合区久久久久久| 又粗又大又黄又爽的免费视频| 久久国产A∨一二三| 日本视频一区二区三区观看| 女人被狂躁c到高潮| 国产美女露脸口爆吞精| 对白刺激的老熟女露脸| 亚洲中文字幕一区精品| 亚洲av久久久噜噜噜噜| 色综合天天网| 中文字幕视频二区三区| 一本色道无码不卡在线观看| 久久精品国产亚洲一区二区| AV无码专区亚洲AVL在线观看 | 亚洲av综合一区二区在线观看| 亚洲人成网7777777国产| 丰满人妻中文字幕乱码| 91九色成人蝌蚪首页| 久久久精品人妻一区二区三区蜜桃 |