亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘的探索性研究

        2011-02-19 07:49:02武書彥
        制造業(yè)自動化 2011年2期
        關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)挖掘可視化

        武書彥,李 咚

        WU Shu-yan1,LI Dong2

        (1.鄭州牧業(yè)工程高等??茖W(xué)校,鄭州 450011;2.鄭鐵職業(yè)技術(shù)學(xué)院,鄭州 450052)

        0 引言

        隨著計算機技術(shù)的飛速發(fā)展以及網(wǎng)絡(luò)技術(shù)的普及,使得許多行業(yè)都有了更多的信息交流,促使數(shù)據(jù)庫的規(guī)模、范圍和深度都有了較大規(guī)模的擴大,從而積累了大量及以不同形式存儲的數(shù)據(jù)資料,同時在許多領(lǐng)域也建立了數(shù)據(jù)倉庫。在這些海量數(shù)據(jù)中往往隱含著各種各樣的信息,這些信息往往人們憑直覺與經(jīng)驗是難以發(fā)現(xiàn)的如何從大量的數(shù)據(jù)中獲得有價值的信息,采用傳統(tǒng)的數(shù)據(jù)庫技術(shù)己顯得微不足道。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析處理方法滯后的矛盾越來越大,人們希望能夠在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進行科學(xué)研究、商業(yè)決策或企業(yè)管理,從而達到為決策服務(wù)的目的。數(shù)據(jù)挖掘就是為了滿足這種需求而迅速發(fā)展起來的一種新的數(shù)據(jù)處理技術(shù)。

        1 數(shù)據(jù)挖掘的基本概念及特點

        l)數(shù)據(jù)挖掘的定義:目前有關(guān)數(shù)據(jù)挖掘的定義雖然有很多,但目前一種比較公認的定義是:數(shù)據(jù)挖掘(DM)就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中尋找出有價值的隱藏事件,加以分析,并將這些有意義的信息歸納成結(jié)構(gòu)模式,提供給有關(guān)部門在進行決策時參考。此外,數(shù)據(jù)挖掘看重的是數(shù)據(jù)庫的再分析,包括模式的建構(gòu)或是資料特征的判定,其主要目的就是要從數(shù)據(jù)庫中發(fā)現(xiàn)先前關(guān)心卻未曾獲悉的有價值信息。數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫發(fā)展相結(jié)合的產(chǎn)物。下圖為典型的數(shù)據(jù)挖掘系統(tǒng):

        圖1 典型的數(shù)據(jù)挖掘系統(tǒng)

        2)數(shù)據(jù)挖掘的特點:

        (1)挖掘?qū)ο笫呛A康?、?fù)雜的各種類型的數(shù)據(jù)。

        (2)挖掘的結(jié)果是潛在的、未知的、多樣性的(發(fā)現(xiàn)的知識可以是多種形式的)。

        (3)挖掘方法是不確定的。數(shù)據(jù)挖掘方面沒有所謂最好的技術(shù)或通用的技術(shù),因此,問題不是某一種方法比另一種方法更好,而是哪一種更適合所要解決的問題;

        (4)數(shù)據(jù)挖掘支持在線數(shù)據(jù)存取。

        (5)技術(shù)的綜合性。數(shù)據(jù)挖掘融入了人工智能技術(shù)、數(shù)據(jù)庫技術(shù)、數(shù)理統(tǒng)計技術(shù)、可視化技術(shù)等技術(shù)和哲學(xué)、邏輯學(xué)等學(xué)科的知識。

        3)知識發(fā)現(xiàn):知識發(fā)現(xiàn)的目的是從數(shù)據(jù)中發(fā)現(xiàn)知識,而數(shù)據(jù)挖掘則是知識發(fā)現(xiàn)中的一個特定步驟。二者都是從數(shù)據(jù)中發(fā)現(xiàn)知識,它們的區(qū)別可以這樣來理解:只是發(fā)現(xiàn)比數(shù)據(jù)挖掘更廣泛,而數(shù)據(jù)挖掘則是更具體更深入的概念。但在很多地方,就用數(shù)據(jù)挖掘表示知識發(fā)現(xiàn)。

        2 數(shù)據(jù)挖掘現(xiàn)狀

        數(shù)據(jù)挖掘的研究現(xiàn)狀目前,國外在數(shù)據(jù)挖掘方面的發(fā)展趨勢及研究主要有:對知識發(fā)現(xiàn)(簡稱KDD)方法的進一步研究,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;統(tǒng)計學(xué)回歸法在KDD中的應(yīng)用;KDD與數(shù)據(jù)庫的緊密結(jié)合;對網(wǎng)絡(luò)信息挖掘方法的研究等。目前國內(nèi)外出現(xiàn)了一些比較有影響的數(shù)據(jù)挖掘系統(tǒng),包括各種專用或通用的數(shù)據(jù)挖掘軟件。但總的來說,現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)由于各自的算法和模型不同,跨平臺操作還受到很大的限制,一個普遍實用的模型還有待研究。

        3 數(shù)據(jù)挖掘的任務(wù)

        數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種,按功能可分為兩大類:預(yù)測型模式和描述型模式。在實際應(yīng)用中,往往根據(jù)模式的實際作用又可分為以下幾種:分類,聚類,關(guān)聯(lián),序列等。

        1)分類:用于預(yù)測事件所屬的類別,其中樣本數(shù)據(jù)中包含標識樣本事件所屬類別的數(shù)據(jù)項,類別是己知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量。將其映射入己知類別中,如在醫(yī)療應(yīng)用中,可根據(jù)患者的各種特征進行疾病診斷等。

        2)聚類:用于描述和發(fā)現(xiàn)數(shù)據(jù)庫中以前未知的數(shù)據(jù)類型,其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔莺湍J降臄?shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程序最高,類間差異最大。

        3)關(guān)聯(lián):用于發(fā)現(xiàn)給定事件或紀錄中經(jīng)常一起發(fā)生的項目,由此推斷事件間潛在的關(guān)聯(lián),識別有可能重復(fù)發(fā)生的模式。

        4)序列模式:與關(guān)聯(lián)分析類似,只是擴展為一段時間的項目集間的關(guān)系。常把序列模式看作由時間變量連接起來的關(guān)聯(lián)。序列分析可分析長時間的相關(guān)紀錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式。

        4 數(shù)據(jù)挖掘采用的典型方法及一般流程

        1)數(shù)據(jù)挖掘采用的典型方法針對上述應(yīng)用類型,數(shù)據(jù)挖掘領(lǐng)域提出了多種實現(xiàn)模式。

        (1)神經(jīng)網(wǎng)絡(luò)。它建立在數(shù)學(xué)模型的基礎(chǔ)之上,可以對大量復(fù)雜的數(shù)據(jù)進行分析,并完成極為復(fù)雜的模式抽取及趨勢分析。

        (2)決策樹。它是通過一系列規(guī)則對數(shù)據(jù)進行分類,建立起相應(yīng)的數(shù)學(xué)模型。采用決策樹,可以將數(shù)據(jù)規(guī)則可視化,其輸出結(jié)果也容易理解。決策樹方法精確度比較高,構(gòu)造過程簡單。

        (3)聯(lián)機分析處理。根據(jù)分析人員的要求,對大量數(shù)據(jù)進行復(fù)雜的處理,專門用來支持復(fù)雜的分析操作,對用戶當前及歷史數(shù)據(jù)進行分析、查詢和總結(jié),輔助領(lǐng)導(dǎo)決策。它主要是用來完成用戶的事物處理,對響應(yīng)的時間要求比較高。

        (4)數(shù)據(jù)可視化。數(shù)據(jù)倉庫中包含大量的數(shù)據(jù),充實著各種數(shù)據(jù)模型,將如此大量的數(shù)據(jù)可視化需要復(fù)雜的數(shù)據(jù)可視化工具。

        (5)遺傳算法。它是一種優(yōu)化技術(shù),利用生物進化的一系列概念進行問題的搜索與挖掘,以達到優(yōu)化組合的目的,在信息挖掘中以它強大的搜索能力找到最優(yōu)解。

        (6)統(tǒng)計學(xué)方法。旨在從抽樣分析中提取未知的數(shù)學(xué)模型,在數(shù)據(jù)挖掘中常會遇到大量的統(tǒng)計數(shù)據(jù),通過模型分析來獲得普遍運行的模式規(guī)律。

        (7)數(shù)據(jù)倉庫技術(shù)。以傳統(tǒng)的數(shù)據(jù)存貯和管理為基本手段,以統(tǒng)計分析作為數(shù)據(jù)分析和提取的有效方法,以人工智能作為知識挖掘和發(fā)現(xiàn)的科學(xué)途徑。

        目前,數(shù)據(jù)挖掘技術(shù)正處在發(fā)展當中。數(shù)據(jù)挖掘涉及到數(shù)理統(tǒng)計、粗集理論、模糊邏輯理論、神經(jīng)網(wǎng)絡(luò)、人工智能、專家系統(tǒng)等多種技術(shù),技術(shù)含量比較高,實現(xiàn)難度較大。然而,數(shù)據(jù)挖掘技術(shù)與可視化技術(shù)、地理信息系統(tǒng)、統(tǒng)計分析系統(tǒng)相結(jié)合,可以豐富數(shù)據(jù)挖掘技術(shù)及工具的功能與性能。

        2)數(shù)據(jù)挖掘的一般流程如下:

        (1)定義問題:清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目的。

        (2)數(shù)據(jù)準備:數(shù)據(jù)準備包括:選擇數(shù)據(jù)--在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預(yù)處理--進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等。

        (3)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。

        (4)結(jié)果分析對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識。

        (5)知識的運用:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

        5 數(shù)據(jù)挖掘技術(shù)的實現(xiàn)

        在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。

        1)數(shù)據(jù)的抽取

        數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護。

        2)數(shù)據(jù)的存儲和管理

        數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴展關(guān)系型數(shù)據(jù)庫的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔當數(shù)據(jù)倉庫的服務(wù)器。

        3)數(shù)據(jù)的展現(xiàn)

        在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實現(xiàn)預(yù)定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識。

        6 Web數(shù)據(jù)挖掘的研究分析

        數(shù)據(jù)挖掘技術(shù)在各行各業(yè)的使用都是較為突出的,而基于Web的數(shù)據(jù)挖掘正是當前熱門研究方向之一,而且其應(yīng)用范圍廣闊,潛力巨大。Web挖掘技術(shù)也在不斷提出和改進之中,一般地Web挖掘可分為三類:Web內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 使用記錄挖掘。目前Web 挖掘研究的主要方向包括:Web 文本的自動分類、多層次Web 信息庫的建立、Web log 挖掘,以及其它涉及信息安全、搜索的效率、查詢結(jié)果的質(zhì)量、搜索工具的可伸縮性等方面的問題研究??梢灶A(yù)見,隨著XML的興起,Web 頁面會蘊涵更多的結(jié)構(gòu)化和語義信息,這會使Web 挖掘變得更有效。

        Web通過數(shù)據(jù)挖掘技術(shù),可以使我們得到相關(guān)的信息數(shù)據(jù):①內(nèi)容數(shù)據(jù),即用戶在網(wǎng)頁上看到的信息,主要是文本與圖像等;②結(jié)構(gòu)數(shù)據(jù),描述網(wǎng)頁內(nèi)容的組織方式的數(shù)據(jù),其中,頁內(nèi)結(jié)構(gòu)以HTML 和XML 表示成樹形結(jié)構(gòu),頁間結(jié)構(gòu)以連接不同網(wǎng)頁的超鏈接結(jié)構(gòu)表示;③訪問特征數(shù)據(jù),主要指與用戶訪問相關(guān)的IP 地址、URL 、訪問日期、訪問時間長度等數(shù)據(jù);④用戶背景數(shù)據(jù),包括用戶的注冊信息,如姓名、年齡、籍貫、收入、職業(yè)、學(xué)歷、專業(yè)、需求重點、個人愛好等。

        7 結(jié)束語

        數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息系統(tǒng)最前沿的研究方向之一,可以說它已成為國際上一個研究熱點。然而就現(xiàn)狀而言,數(shù)據(jù)挖掘仍有一定的局限性,如系統(tǒng)的低性能和挖掘?qū)ο蟮膯我恍缘龋深A(yù)見,隨著研究的進一步深入和數(shù)據(jù)存儲及表達方式的日趨標準化,數(shù)據(jù)挖掘?qū)⒆兊酶鼮橛行Р⒌玫礁鼮閺V泛的應(yīng)用。

        [1]宋愛波,黃逸生,等.Web挖掘研究綜述[J].計算機科學(xué),2001,28(11):73-77.

        [2]陳寧,周龍驤.數(shù)據(jù)采掘在Internet 中的應(yīng)用[J].計算機科學(xué),1999 ,26(7):44-49.

        [3]張志強,周立柱,等.Web 數(shù)據(jù)庫技術(shù)簡述[J ].計算機科學(xué),2001,28(10):1-6.

        [4]王清毅,陳恩紅,蔡慶生.知識發(fā)現(xiàn)的若干問題及應(yīng)用研究[J ].計算機科學(xué),1997,24(5):13-16.

        [5]胡侃,夏紹瑋.基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘:研究綜述[J].軟件學(xué)報,1998,9(1).

        猜你喜歡
        數(shù)據(jù)倉庫數(shù)據(jù)挖掘可視化
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲天堂av大片暖暖| 少妇对白露脸打电话系列| 国产日韩在线播放观看| 色婷婷亚洲十月十月色天| 中文字幕乱码亚洲一区二区三区| 中文字幕精品一区二区三区av| 国产一区二区三区免费av| 国产精品永久久久久久久久久| 9 9久热re在线精品视频| 日本视频在线观看二区| 国产精品免费av片在线观看| 久久久精品久久日韩一区综合| 国产成人亚洲综合无码DVD| 俺来也三区四区高清视频在线观看 | 久久久久久无码AV成人影院| 精品国产日韩亚洲一区在线| 中文字幕亚洲欧美在线不卡| 亚洲欧洲巨乳清纯| 国产自精品在线| 久亚洲精品不子伦一区| 久久不见久久见免费影院国语| 少妇人妻偷人精品视蜜桃| 成人无码网www在线观看| 日本一区二区三区四区在线视频 | 少妇一区二区三区精选| 给你免费播放的视频| 少妇无码一区二区三区| 国产成人一区二区三区高清| 丝袜美腿制服诱惑一区二区| 午夜无遮挡男女啪啪免费软件| 欧美孕妇xxxx做受欧美88| 动漫av纯肉无码av在线播放| 亚洲精品国产一区二区免费视频| 久久久久九九精品影院| 99热久久这里只精品国产www| 久久九九青青国产精品| 国产在线视频一区二区三区不卡| 天堂av在线美女免费| 成人免费看吃奶视频网站| 国产高潮流白浆免费观看不卡| 精品国产日产av在线|