亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        論數(shù)據(jù)倉庫和數(shù)據(jù)挖掘

        2009-07-28 05:55:50梁柳瑩
        關(guān)鍵詞:數(shù)據(jù)挖掘

        梁柳瑩

        摘要:數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是兩個比較大的概念,在國外已經(jīng)非常成熟,在國內(nèi)隨著前幾年企業(yè)數(shù)據(jù)的累計、ERP的成熟,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘開始起步。如何建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是個值得不斷探討和優(yōu)化的問題。

        關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;數(shù)據(jù)集合

        中圖分類號:P208 文獻標(biāo)識碼:A

        文章編號:1674-1145(2009)03-0093-02

        數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是兩個比較大的概念,在國外已經(jīng)非常成熟,在國內(nèi)隨著前幾年企業(yè)數(shù)據(jù)的累計、ERP的成熟,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘開始起步。如何建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是個不斷值得探討和優(yōu)化的問題,不僅僅在技術(shù)上,在商業(yè)應(yīng)用上也是如此。

        一、數(shù)據(jù)倉庫

        1.?dāng)?shù)據(jù)倉庫的概念。數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。

        2.?dāng)?shù)據(jù)倉庫的特點

        根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特點:

        (1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。

        (2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。

        (3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

        (4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。

        企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)的。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個工程,是一個過程。

        3.?dāng)?shù)據(jù)倉庫的結(jié)構(gòu)。整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu),具體由下圖表示:

        數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。

        數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。

        OLAP服務(wù)器:對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。

        前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。

        二、數(shù)據(jù)挖掘

        1.?dāng)?shù)據(jù)挖掘的概念。數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的信息的高級處理過程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下步驟組成:(1)數(shù)據(jù)清理;(2)數(shù)據(jù)集成;(3)數(shù)據(jù)選擇;(4)數(shù)據(jù)變換;(5)數(shù)據(jù)挖掘;(6)模式評估;(7)知識表示。數(shù)據(jù)挖掘可以與用戶或知識庫交互。

        2.?dāng)?shù)據(jù)挖掘的作用。在今天的市場上,信息的利用至關(guān)重要,各行各業(yè)面臨激烈的競爭及經(jīng)濟壓力,產(chǎn)品的生命周期縮短,需要為顧客提供更好的服務(wù)。在市場經(jīng)濟比較發(fā)達(dá)的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基礎(chǔ)上通過數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進行深加工,以構(gòu)筑自己的競爭優(yōu)勢,擴大自己的營業(yè)額。在過去幾年中,各公司為了取得必要的市場戰(zhàn)略信息及對付市場方面的各種壓力,已經(jīng)開始采用數(shù)據(jù)倉庫技術(shù)。各公司為了確定所要開發(fā)的產(chǎn)品模式及了解市場走勢,需要提取數(shù)據(jù)倉庫數(shù)據(jù),包括聯(lián)機事務(wù)處理(OLTP)數(shù)據(jù),并與外部的人口統(tǒng)計數(shù)據(jù)及心理數(shù)據(jù)結(jié)合,從中“挖掘出”最終結(jié)果。利用這種數(shù)據(jù)倉庫信息源,知識工作者在他們的辦公室內(nèi)可根據(jù)所取得的數(shù)據(jù)進行決策??梢哉f,數(shù)據(jù)倉庫直接影響事關(guān)公司命運的決策。

        三、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的關(guān)系

        上述過程其實就是數(shù)據(jù)挖掘,實施這一過程的基本設(shè)施是數(shù)據(jù)倉庫。這是一種關(guān)鍵性、涉及范圍很廣的技術(shù)手段。利用數(shù)據(jù)挖掘技術(shù)可使?jié)撛诘男б娴玫阶畲蟮陌l(fā)揮。數(shù)據(jù)倉庫是一種數(shù)據(jù)集成戰(zhàn)略,目的是促進最終用戶利用企業(yè)數(shù)據(jù),同時保護公司的數(shù)據(jù)財富——關(guān)鍵任務(wù)的可操作數(shù)據(jù)——安全性和完整性。

        只要安排妥當(dāng),數(shù)據(jù)倉庫就能發(fā)揮它的重要作用,即人們可以很快地作出決策。因此,數(shù)據(jù)倉庫是實施公司戰(zhàn)略的一種技術(shù)手段。

        一般來說,構(gòu)筑數(shù)據(jù)倉庫是一個頻繁的查閱過程,它可分為若干階段,其中包括需求分析、數(shù)據(jù)倉庫的設(shè)計、操作數(shù)據(jù)的提取、不相容數(shù)據(jù)的集成、數(shù)據(jù)倉庫的裝填、最終交付用戶使用。在后續(xù)期內(nèi),還應(yīng)該對數(shù)據(jù)倉庫作定期更新。

        數(shù)據(jù)挖掘?qū)Πl(fā)揮數(shù)據(jù)倉庫的作用有很大影響,因為通過它可以識別出商務(wù)中的模式與趨勢,而僅通過分析數(shù)據(jù)倉庫數(shù)據(jù)是無法得出的。當(dāng)知識工作者運用結(jié)構(gòu)化查詢語言(SQL)對數(shù)據(jù)倉庫查詢所需的信息時,查詢中的歧義性常常涉及到與答案集有關(guān)的一系列知識。相反地,數(shù)據(jù)挖掘可以揭示出非常有價值的信息,這些信息在實施分析之前,知識工作者是無法得知的。這種新技術(shù),有助于使公司取得較大的市場份額,建立更好的形象并推動公司向前發(fā)展。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        亚洲美女主播内射在线| 日韩国产精品一区二区Hd| 国产乱人伦偷精品视频免| 在线日韩中文字幕乱码视频| 亚洲乱码av乱码国产精品| 国产一区二区三区18p| 日韩午夜理论免费tv影院| 777午夜精品免费观看| 亚洲国产美女精品久久久久| 免费一级欧美大片久久网| 国产福利一区二区三区在线观看| 日本少妇高潮喷水视频| 国产亚洲av无码专区a∨麻豆| 国产精品每日更新在线观看 | 久久日本三级韩国三级| 91中文人妻丝袜乱一区三区| 熟女免费观看一区二区 | 日韩极品免费在线观看| 所有视频在线观看免费| 亚洲av无码国产精品色软件下戴| 国产乱子伦视频大全| 亚洲www视频| 国产成人精品一区二区不卡| 久久无码人妻一区二区三区午夜| 无遮挡边吃摸边吃奶边做| 久久久久久AV无码成人| 亚洲熟妇av一区二区在线观看| 宅男666在线永久免费观看| 怡春院欧美一区二区三区免费| 久久久久久久一线毛片| 能看不卡视频网站在线| 高h喷水荡肉爽文np肉色学校| 亚洲经典三级| 人妻爽综合网| 亚洲免费精品一区二区| 国产精品无码dvd在线观看| 国产成人无码精品午夜福利a | 国产美女遭强高潮网站| 精品日本韩国一区二区三区| 一本色道久久亚洲加勒比| 亚洲爆乳精品无码一区二区|