亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘的探索性研究

2011-02-19 07:49:02武書彥

制造業(yè)自動化 2011年2期

關(guān)鍵詞：數(shù)據(jù)挖掘可視化數(shù)據(jù)庫

武書彥，李咚

WU Shu-yan1，LI Dong2

（1.鄭州牧業(yè)工程高等?？茖W(xué)校，鄭州 450011；2.鄭鐵職業(yè)技術(shù)學(xué)院，鄭州 450052）

0 引言

隨著計算機技術(shù)的飛速發(fā)展以及網(wǎng)絡(luò)技術(shù)的普及，使得許多行業(yè)都有了更多的信息交流，促使數(shù)據(jù)庫的規(guī)模、范圍和深度都有了較大規(guī)模的擴大，從而積累了大量及以不同形式存儲的數(shù)據(jù)資料，同時在許多領(lǐng)域也建立了數(shù)據(jù)倉庫。在這些海量數(shù)據(jù)中往往隱含著各種各樣的信息，這些信息往往人們憑直覺與經(jīng)驗是難以發(fā)現(xiàn)的如何從大量的數(shù)據(jù)中獲得有價值的信息，采用傳統(tǒng)的數(shù)據(jù)庫技術(shù)己顯得微不足道。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析處理方法滯后的矛盾越來越大，人們希望能夠在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或企業(yè)管理，從而達(dá)到為決策服務(wù)的目的。數(shù)據(jù)挖掘就是為了滿足這種需求而迅速發(fā)展起來的一種新的數(shù)據(jù)處理技術(shù)。

1 數(shù)據(jù)挖掘的基本概念及特點

l）數(shù)據(jù)挖掘的定義：目前有關(guān)數(shù)據(jù)挖掘的定義雖然有很多，但目前一種比較公認(rèn)的定義是：數(shù)據(jù)挖掘（DM）就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息，提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘所要處理的問題，就是在龐大的數(shù)據(jù)庫中尋找出有價值的隱藏事件，加以分析，并將這些有意義的信息歸納成結(jié)構(gòu)模式，提供給有關(guān)部門在進(jìn)行決策時參考。此外，數(shù)據(jù)挖掘看重的是數(shù)據(jù)庫的再分析，包括模式的建構(gòu)或是資料特征的判定，其主要目的就是要從數(shù)據(jù)庫中發(fā)現(xiàn)先前關(guān)心卻未曾獲悉的有價值信息。數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫發(fā)展相結(jié)合的產(chǎn)物。下圖為典型的數(shù)據(jù)挖掘系統(tǒng)：

圖1 典型的數(shù)據(jù)挖掘系統(tǒng)

2）數(shù)據(jù)挖掘的特點：

（1）挖掘?qū)ο笫呛Ａ康摹?fù)雜的各種類型的數(shù)據(jù)。

（2）挖掘的結(jié)果是潛在的、未知的、多樣性的（發(fā)現(xiàn)的知識可以是多種形式的）。

（3）挖掘方法是不確定的。數(shù)據(jù)挖掘方面沒有所謂最好的技術(shù)或通用的技術(shù)，因此，問題不是某一種方法比另一種方法更好，而是哪一種更適合所要解決的問題；

（4）數(shù)據(jù)挖掘支持在線數(shù)據(jù)存取。

（5）技術(shù)的綜合性。數(shù)據(jù)挖掘融入了人工智能技術(shù)、數(shù)據(jù)庫技術(shù)、數(shù)理統(tǒng)計技術(shù)、可視化技術(shù)等技術(shù)和哲學(xué)、邏輯學(xué)等學(xué)科的知識。

3）知識發(fā)現(xiàn)：知識發(fā)現(xiàn)的目的是從數(shù)據(jù)中發(fā)現(xiàn)知識，而數(shù)據(jù)挖掘則是知識發(fā)現(xiàn)中的一個特定步驟。二者都是從數(shù)據(jù)中發(fā)現(xiàn)知識，它們的區(qū)別可以這樣來理解：只是發(fā)現(xiàn)比數(shù)據(jù)挖掘更廣泛，而數(shù)據(jù)挖掘則是更具體更深入的概念。但在很多地方，就用數(shù)據(jù)挖掘表示知識發(fā)現(xiàn)。

2 數(shù)據(jù)挖掘現(xiàn)狀

數(shù)據(jù)挖掘的研究現(xiàn)狀目前，國外在數(shù)據(jù)挖掘方面的發(fā)展趨勢及研究主要有：對知識發(fā)現(xiàn)（簡稱KDD）方法的進(jìn)一步研究，如近年來注重對Bayes（貝葉斯）方法以及Boosting方法的研究和提高；統(tǒng)計學(xué)回歸法在KDD中的應(yīng)用；KDD與數(shù)據(jù)庫的緊密結(jié)合；對網(wǎng)絡(luò)信息挖掘方法的研究等。目前國內(nèi)外出現(xiàn)了一些比較有影響的數(shù)據(jù)挖掘系統(tǒng)，包括各種專用或通用的數(shù)據(jù)挖掘軟件。但總的來說，現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)由于各自的算法和模型不同，跨平臺操作還受到很大的限制，一個普遍實用的模型還有待研究。

3 數(shù)據(jù)挖掘的任務(wù)

數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種，按功能可分為兩大類：預(yù)測型模式和描述型模式。在實際應(yīng)用中，往往根據(jù)模式的實際作用又可分為以下幾種：分類，聚類，關(guān)聯(lián)，序列等。

1）分類：用于預(yù)測事件所屬的類別，其中樣本數(shù)據(jù)中包含標(biāo)識樣本事件所屬類別的數(shù)據(jù)項，類別是己知的，由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對這些類別的模式的描述，再利用所發(fā)現(xiàn)的模式，參照新的數(shù)據(jù)的特征變量。將其映射入己知類別中，如在醫(yī)療應(yīng)用中，可根據(jù)患者的各種特征進(jìn)行疾病診斷等。

2）聚類：用于描述和發(fā)現(xiàn)數(shù)據(jù)庫中以前未知的數(shù)據(jù)類型，其中樣本數(shù)據(jù)中不包含類別變量，數(shù)據(jù)挖掘?qū)⒕哂泄餐厔莺湍Ｊ降臄?shù)據(jù)元組聚集為一類，使類內(nèi)各元組相似程序最高，類間差異最大。

3）關(guān)聯(lián)：用于發(fā)現(xiàn)給定事件或紀(jì)錄中經(jīng)常一起發(fā)生的項目，由此推斷事件間潛在的關(guān)聯(lián)，識別有可能重復(fù)發(fā)生的模式。

4）序列模式：與關(guān)聯(lián)分析類似，只是擴展為一段時間的項目集間的關(guān)系。常把序列模式看作由時間變量連接起來的關(guān)聯(lián)。序列分析可分析長時間的相關(guān)紀(jì)錄，發(fā)現(xiàn)經(jīng)常發(fā)生的模式。

4 數(shù)據(jù)挖掘采用的典型方法及一般流程

1）數(shù)據(jù)挖掘采用的典型方法針對上述應(yīng)用類型，數(shù)據(jù)挖掘領(lǐng)域提出了多種實現(xiàn)模式。

（1）神經(jīng)網(wǎng)絡(luò)。它建立在數(shù)學(xué)模型的基礎(chǔ)之上，可以對大量復(fù)雜的數(shù)據(jù)進(jìn)行分析，并完成極為復(fù)雜的模式抽取及趨勢分析。

（2）決策樹。它是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類，建立起相應(yīng)的數(shù)學(xué)模型。采用決策樹，可以將數(shù)據(jù)規(guī)則可視化，其輸出結(jié)果也容易理解。決策樹方法精確度比較高，構(gòu)造過程簡單。

（3）聯(lián)機分析處理。根據(jù)分析人員的要求，對大量數(shù)據(jù)進(jìn)行復(fù)雜的處理，專門用來支持復(fù)雜的分析操作，對用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、查詢和總結(jié)，輔助領(lǐng)導(dǎo)決策。它主要是用來完成用戶的事物處理，對響應(yīng)的時間要求比較高。

（4）數(shù)據(jù)可視化。數(shù)據(jù)倉庫中包含大量的數(shù)據(jù)，充實著各種數(shù)據(jù)模型，將如此大量的數(shù)據(jù)可視化需要復(fù)雜的數(shù)據(jù)可視化工具。

（5）遺傳算法。它是一種優(yōu)化技術(shù)，利用生物進(jìn)化的一系列概念進(jìn)行問題的搜索與挖掘，以達(dá)到優(yōu)化組合的目的，在信息挖掘中以它強大的搜索能力找到最優(yōu)解。

（6）統(tǒng)計學(xué)方法。旨在從抽樣分析中提取未知的數(shù)學(xué)模型，在數(shù)據(jù)挖掘中常會遇到大量的統(tǒng)計數(shù)據(jù)，通過模型分析來獲得普遍運行的模式規(guī)律。

（7）數(shù)據(jù)倉庫技術(shù)。以傳統(tǒng)的數(shù)據(jù)存貯和管理為基本手段，以統(tǒng)計分析作為數(shù)據(jù)分析和提取的有效方法，以人工智能作為知識挖掘和發(fā)現(xiàn)的科學(xué)途徑。

目前，數(shù)據(jù)挖掘技術(shù)正處在發(fā)展當(dāng)中。數(shù)據(jù)挖掘涉及到數(shù)理統(tǒng)計、粗集理論、模糊邏輯理論、神經(jīng)網(wǎng)絡(luò)、人工智能、專家系統(tǒng)等多種技術(shù)，技術(shù)含量比較高，實現(xiàn)難度較大。然而，數(shù)據(jù)挖掘技術(shù)與可視化技術(shù)、地理信息系統(tǒng)、統(tǒng)計分析系統(tǒng)相結(jié)合，可以豐富數(shù)據(jù)挖掘技術(shù)及工具的功能與性能。

2）數(shù)據(jù)挖掘的一般流程如下：

（1）定義問題：清晰地定義出業(yè)務(wù)問題，確定數(shù)據(jù)挖掘的目的。

（2）數(shù)據(jù)準(zhǔn)備：數(shù)據(jù)準(zhǔn)備包括：選擇數(shù)據(jù)--在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集；數(shù)據(jù)預(yù)處理--進(jìn)行數(shù)據(jù)再加工，包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲，填補丟失的域，刪除無效數(shù)據(jù)等。

（3）數(shù)據(jù)挖掘：根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應(yīng)的算法，在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。

（4）結(jié)果分析對數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評價，轉(zhuǎn)換成為能夠最終被用戶理解的知識。

（5）知識的運用：將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

5 數(shù)據(jù)挖掘技術(shù)的實現(xiàn)

在技術(shù)上可以根據(jù)它的工作過程分為：數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。

1）數(shù)據(jù)的抽取

數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境，它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面，未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面，以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化，使系統(tǒng)更便于管理和維護。

2）數(shù)據(jù)的存儲和管理

數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性，也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多，且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前，許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴展關(guān)系型數(shù)據(jù)庫的功能，將普通關(guān)系數(shù)據(jù)庫改造成適合擔(dān)當(dāng)數(shù)據(jù)倉庫的服務(wù)器。

3）數(shù)據(jù)的展現(xiàn)

在數(shù)據(jù)展現(xiàn)方面主要的方式有：查詢：實現(xiàn)預(yù)定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢；報表：產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報告以及各種綜合報表；可視化：用易于理解的點線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系；統(tǒng)計：進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析；挖掘：利用數(shù)據(jù)挖掘等方法，從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識。

6 Web數(shù)據(jù)挖掘的研究分析

數(shù)據(jù)挖掘技術(shù)在各行各業(yè)的使用都是較為突出的，而基于Web的數(shù)據(jù)挖掘正是當(dāng)前熱門研究方向之一，而且其應(yīng)用范圍廣闊，潛力巨大。Web挖掘技術(shù)也在不斷提出和改進(jìn)之中，一般地Web挖掘可分為三類：Web內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 使用記錄挖掘。目前Web 挖掘研究的主要方向包括：Web 文本的自動分類、多層次Web 信息庫的建立、Web log 挖掘，以及其它涉及信息安全、搜索的效率、查詢結(jié)果的質(zhì)量、搜索工具的可伸縮性等方面的問題研究?？梢灶A(yù)見，隨著XML的興起，Web 頁面會蘊涵更多的結(jié)構(gòu)化和語義信息，這會使Web 挖掘變得更有效。

Web通過數(shù)據(jù)挖掘技術(shù)，可以使我們得到相關(guān)的信息數(shù)據(jù)：①內(nèi)容數(shù)據(jù)，即用戶在網(wǎng)頁上看到的信息，主要是文本與圖像等；②結(jié)構(gòu)數(shù)據(jù)，描述網(wǎng)頁內(nèi)容的組織方式的數(shù)據(jù)，其中，頁內(nèi)結(jié)構(gòu)以HTML 和XML 表示成樹形結(jié)構(gòu)，頁間結(jié)構(gòu)以連接不同網(wǎng)頁的超鏈接結(jié)構(gòu)表示；③訪問特征數(shù)據(jù)，主要指與用戶訪問相關(guān)的IP 地址、URL 、訪問日期、訪問時間長度等數(shù)據(jù)；④用戶背景數(shù)據(jù)，包括用戶的注冊信息，如姓名、年齡、籍貫、收入、職業(yè)、學(xué)歷、專業(yè)、需求重點、個人愛好等。

7 結(jié)束語

數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息系統(tǒng)最前沿的研究方向之一，可以說它已成為國際上一個研究熱點。然而就現(xiàn)狀而言，數(shù)據(jù)挖掘仍有一定的局限性，如系統(tǒng)的低性能和挖掘?qū)ο蟮膯我恍缘?，但可預(yù)見，隨著研究的進(jìn)一步深入和數(shù)據(jù)存儲及表達(dá)方式的日趨標(biāo)準(zhǔn)化，數(shù)據(jù)挖掘?qū)⒆兊酶鼮橛行Р⒌玫礁鼮閺V泛的應(yīng)用。

[1]宋愛波，黃逸生，等.Web挖掘研究綜述[J].計算機科學(xué)，2001，28（11）：73-77.

[2]陳寧，周龍驤.數(shù)據(jù)采掘在Internet 中的應(yīng)用[J].計算機科學(xué)，1999 ，26（7）：44-49.

[3]張志強，周立柱，等.Web 數(shù)據(jù)庫技術(shù)簡述[J ].計算機科學(xué)，2001，28（10）：1-6.

[4]王清毅，陳恩紅，蔡慶生.知識發(fā)現(xiàn)的若干問題及應(yīng)用研究[J ].計算機科學(xué)，1997，24（5）：13-16.

[5]胡侃，夏紹瑋.基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘：研究綜述[J].軟件學(xué)報，1998，9（1）.