武書彥,李 咚
WU Shu-yan1,LI Dong2
(1.鄭州牧業(yè)工程高等??茖W(xué)校,鄭州 450011;2.鄭鐵職業(yè)技術(shù)學(xué)院,鄭州 450052)
隨著計算機技術(shù)的飛速發(fā)展以及網(wǎng)絡(luò)技術(shù)的普及,使得許多行業(yè)都有了更多的信息交流,促使數(shù)據(jù)庫的規(guī)模、范圍和深度都有了較大規(guī)模的擴大,從而積累了大量及以不同形式存儲的數(shù)據(jù)資料,同時在許多領(lǐng)域也建立了數(shù)據(jù)倉庫。在這些海量數(shù)據(jù)中往往隱含著各種各樣的信息,這些信息往往人們憑直覺與經(jīng)驗是難以發(fā)現(xiàn)的如何從大量的數(shù)據(jù)中獲得有價值的信息,采用傳統(tǒng)的數(shù)據(jù)庫技術(shù)己顯得微不足道。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析處理方法滯后的矛盾越來越大,人們希望能夠在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進行科學(xué)研究、商業(yè)決策或企業(yè)管理,從而達到為決策服務(wù)的目的。數(shù)據(jù)挖掘就是為了滿足這種需求而迅速發(fā)展起來的一種新的數(shù)據(jù)處理技術(shù)。
l)數(shù)據(jù)挖掘的定義:目前有關(guān)數(shù)據(jù)挖掘的定義雖然有很多,但目前一種比較公認的定義是:數(shù)據(jù)挖掘(DM)就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中尋找出有價值的隱藏事件,加以分析,并將這些有意義的信息歸納成結(jié)構(gòu)模式,提供給有關(guān)部門在進行決策時參考。此外,數(shù)據(jù)挖掘看重的是數(shù)據(jù)庫的再分析,包括模式的建構(gòu)或是資料特征的判定,其主要目的就是要從數(shù)據(jù)庫中發(fā)現(xiàn)先前關(guān)心卻未曾獲悉的有價值信息。數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫發(fā)展相結(jié)合的產(chǎn)物。下圖為典型的數(shù)據(jù)挖掘系統(tǒng):
圖1 典型的數(shù)據(jù)挖掘系統(tǒng)
2)數(shù)據(jù)挖掘的特點:
(1)挖掘?qū)ο笫呛A康?、?fù)雜的各種類型的數(shù)據(jù)。
(2)挖掘的結(jié)果是潛在的、未知的、多樣性的(發(fā)現(xiàn)的知識可以是多種形式的)。
(3)挖掘方法是不確定的。數(shù)據(jù)挖掘方面沒有所謂最好的技術(shù)或通用的技術(shù),因此,問題不是某一種方法比另一種方法更好,而是哪一種更適合所要解決的問題;
(4)數(shù)據(jù)挖掘支持在線數(shù)據(jù)存取。
(5)技術(shù)的綜合性。數(shù)據(jù)挖掘融入了人工智能技術(shù)、數(shù)據(jù)庫技術(shù)、數(shù)理統(tǒng)計技術(shù)、可視化技術(shù)等技術(shù)和哲學(xué)、邏輯學(xué)等學(xué)科的知識。
3)知識發(fā)現(xiàn):知識發(fā)現(xiàn)的目的是從數(shù)據(jù)中發(fā)現(xiàn)知識,而數(shù)據(jù)挖掘則是知識發(fā)現(xiàn)中的一個特定步驟。二者都是從數(shù)據(jù)中發(fā)現(xiàn)知識,它們的區(qū)別可以這樣來理解:只是發(fā)現(xiàn)比數(shù)據(jù)挖掘更廣泛,而數(shù)據(jù)挖掘則是更具體更深入的概念。但在很多地方,就用數(shù)據(jù)挖掘表示知識發(fā)現(xiàn)。
數(shù)據(jù)挖掘的研究現(xiàn)狀目前,國外在數(shù)據(jù)挖掘方面的發(fā)展趨勢及研究主要有:對知識發(fā)現(xiàn)(簡稱KDD)方法的進一步研究,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;統(tǒng)計學(xué)回歸法在KDD中的應(yīng)用;KDD與數(shù)據(jù)庫的緊密結(jié)合;對網(wǎng)絡(luò)信息挖掘方法的研究等。目前國內(nèi)外出現(xiàn)了一些比較有影響的數(shù)據(jù)挖掘系統(tǒng),包括各種專用或通用的數(shù)據(jù)挖掘軟件。但總的來說,現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)由于各自的算法和模型不同,跨平臺操作還受到很大的限制,一個普遍實用的模型還有待研究。
數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種,按功能可分為兩大類:預(yù)測型模式和描述型模式。在實際應(yīng)用中,往往根據(jù)模式的實際作用又可分為以下幾種:分類,聚類,關(guān)聯(lián),序列等。
1)分類:用于預(yù)測事件所屬的類別,其中樣本數(shù)據(jù)中包含標識樣本事件所屬類別的數(shù)據(jù)項,類別是己知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量。將其映射入己知類別中,如在醫(yī)療應(yīng)用中,可根據(jù)患者的各種特征進行疾病診斷等。
2)聚類:用于描述和發(fā)現(xiàn)數(shù)據(jù)庫中以前未知的數(shù)據(jù)類型,其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔莺湍J降臄?shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程序最高,類間差異最大。
3)關(guān)聯(lián):用于發(fā)現(xiàn)給定事件或紀錄中經(jīng)常一起發(fā)生的項目,由此推斷事件間潛在的關(guān)聯(lián),識別有可能重復(fù)發(fā)生的模式。
4)序列模式:與關(guān)聯(lián)分析類似,只是擴展為一段時間的項目集間的關(guān)系。常把序列模式看作由時間變量連接起來的關(guān)聯(lián)。序列分析可分析長時間的相關(guān)紀錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式。
1)數(shù)據(jù)挖掘采用的典型方法針對上述應(yīng)用類型,數(shù)據(jù)挖掘領(lǐng)域提出了多種實現(xiàn)模式。
(1)神經(jīng)網(wǎng)絡(luò)。它建立在數(shù)學(xué)模型的基礎(chǔ)之上,可以對大量復(fù)雜的數(shù)據(jù)進行分析,并完成極為復(fù)雜的模式抽取及趨勢分析。
(2)決策樹。它是通過一系列規(guī)則對數(shù)據(jù)進行分類,建立起相應(yīng)的數(shù)學(xué)模型。采用決策樹,可以將數(shù)據(jù)規(guī)則可視化,其輸出結(jié)果也容易理解。決策樹方法精確度比較高,構(gòu)造過程簡單。
(3)聯(lián)機分析處理。根據(jù)分析人員的要求,對大量數(shù)據(jù)進行復(fù)雜的處理,專門用來支持復(fù)雜的分析操作,對用戶當前及歷史數(shù)據(jù)進行分析、查詢和總結(jié),輔助領(lǐng)導(dǎo)決策。它主要是用來完成用戶的事物處理,對響應(yīng)的時間要求比較高。
(4)數(shù)據(jù)可視化。數(shù)據(jù)倉庫中包含大量的數(shù)據(jù),充實著各種數(shù)據(jù)模型,將如此大量的數(shù)據(jù)可視化需要復(fù)雜的數(shù)據(jù)可視化工具。
(5)遺傳算法。它是一種優(yōu)化技術(shù),利用生物進化的一系列概念進行問題的搜索與挖掘,以達到優(yōu)化組合的目的,在信息挖掘中以它強大的搜索能力找到最優(yōu)解。
(6)統(tǒng)計學(xué)方法。旨在從抽樣分析中提取未知的數(shù)學(xué)模型,在數(shù)據(jù)挖掘中常會遇到大量的統(tǒng)計數(shù)據(jù),通過模型分析來獲得普遍運行的模式規(guī)律。
(7)數(shù)據(jù)倉庫技術(shù)。以傳統(tǒng)的數(shù)據(jù)存貯和管理為基本手段,以統(tǒng)計分析作為數(shù)據(jù)分析和提取的有效方法,以人工智能作為知識挖掘和發(fā)現(xiàn)的科學(xué)途徑。
目前,數(shù)據(jù)挖掘技術(shù)正處在發(fā)展當中。數(shù)據(jù)挖掘涉及到數(shù)理統(tǒng)計、粗集理論、模糊邏輯理論、神經(jīng)網(wǎng)絡(luò)、人工智能、專家系統(tǒng)等多種技術(shù),技術(shù)含量比較高,實現(xiàn)難度較大。然而,數(shù)據(jù)挖掘技術(shù)與可視化技術(shù)、地理信息系統(tǒng)、統(tǒng)計分析系統(tǒng)相結(jié)合,可以豐富數(shù)據(jù)挖掘技術(shù)及工具的功能與性能。
2)數(shù)據(jù)挖掘的一般流程如下:
(1)定義問題:清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目的。
(2)數(shù)據(jù)準備:數(shù)據(jù)準備包括:選擇數(shù)據(jù)--在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預(yù)處理--進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等。
(3)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。
(4)結(jié)果分析對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識。
(5)知識的運用:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
1)數(shù)據(jù)的抽取
數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護。
2)數(shù)據(jù)的存儲和管理
數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴展關(guān)系型數(shù)據(jù)庫的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔當數(shù)據(jù)倉庫的服務(wù)器。
3)數(shù)據(jù)的展現(xiàn)
在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實現(xiàn)預(yù)定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識。
數(shù)據(jù)挖掘技術(shù)在各行各業(yè)的使用都是較為突出的,而基于Web的數(shù)據(jù)挖掘正是當前熱門研究方向之一,而且其應(yīng)用范圍廣闊,潛力巨大。Web挖掘技術(shù)也在不斷提出和改進之中,一般地Web挖掘可分為三類:Web內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 使用記錄挖掘。目前Web 挖掘研究的主要方向包括:Web 文本的自動分類、多層次Web 信息庫的建立、Web log 挖掘,以及其它涉及信息安全、搜索的效率、查詢結(jié)果的質(zhì)量、搜索工具的可伸縮性等方面的問題研究??梢灶A(yù)見,隨著XML的興起,Web 頁面會蘊涵更多的結(jié)構(gòu)化和語義信息,這會使Web 挖掘變得更有效。
Web通過數(shù)據(jù)挖掘技術(shù),可以使我們得到相關(guān)的信息數(shù)據(jù):①內(nèi)容數(shù)據(jù),即用戶在網(wǎng)頁上看到的信息,主要是文本與圖像等;②結(jié)構(gòu)數(shù)據(jù),描述網(wǎng)頁內(nèi)容的組織方式的數(shù)據(jù),其中,頁內(nèi)結(jié)構(gòu)以HTML 和XML 表示成樹形結(jié)構(gòu),頁間結(jié)構(gòu)以連接不同網(wǎng)頁的超鏈接結(jié)構(gòu)表示;③訪問特征數(shù)據(jù),主要指與用戶訪問相關(guān)的IP 地址、URL 、訪問日期、訪問時間長度等數(shù)據(jù);④用戶背景數(shù)據(jù),包括用戶的注冊信息,如姓名、年齡、籍貫、收入、職業(yè)、學(xué)歷、專業(yè)、需求重點、個人愛好等。
數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息系統(tǒng)最前沿的研究方向之一,可以說它已成為國際上一個研究熱點。然而就現(xiàn)狀而言,數(shù)據(jù)挖掘仍有一定的局限性,如系統(tǒng)的低性能和挖掘?qū)ο蟮膯我恍缘龋深A(yù)見,隨著研究的進一步深入和數(shù)據(jù)存儲及表達方式的日趨標準化,數(shù)據(jù)挖掘?qū)⒆兊酶鼮橛行Р⒌玫礁鼮閺V泛的應(yīng)用。
[1]宋愛波,黃逸生,等.Web挖掘研究綜述[J].計算機科學(xué),2001,28(11):73-77.
[2]陳寧,周龍驤.數(shù)據(jù)采掘在Internet 中的應(yīng)用[J].計算機科學(xué),1999 ,26(7):44-49.
[3]張志強,周立柱,等.Web 數(shù)據(jù)庫技術(shù)簡述[J ].計算機科學(xué),2001,28(10):1-6.
[4]王清毅,陳恩紅,蔡慶生.知識發(fā)現(xiàn)的若干問題及應(yīng)用研究[J ].計算機科學(xué),1997,24(5):13-16.
[5]胡侃,夏紹瑋.基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘:研究綜述[J].軟件學(xué)報,1998,9(1).