摘 要:近年來,數(shù)據(jù)挖掘引起了社會(huì)各界特別是信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是在統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫知識(shí)高速發(fā)展的今天,以前積累了大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。通過數(shù)據(jù)挖掘技術(shù)獲取的信息和知識(shí)可以廣泛用于各個(gè)領(lǐng)域,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡(jiǎn)稱為KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。換言之,就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
二、數(shù)據(jù)挖掘的關(guān)鍵步驟
1.挖掘
把潛在的不明確數(shù)據(jù)關(guān)系的數(shù)據(jù)提取并轉(zhuǎn)化為數(shù)學(xué)問題。這一步的結(jié)果只是表明數(shù)據(jù)之間有關(guān)系,但是具體是什么關(guān)系仍然不明確。
2.建模
把不明確的數(shù)據(jù)關(guān)系通過數(shù)學(xué)建模過程轉(zhuǎn)化為明顯的數(shù)據(jù)關(guān)系,即把數(shù)據(jù)之間的內(nèi)在變化規(guī)律由數(shù)學(xué)符號(hào)與數(shù)學(xué)結(jié)構(gòu)表示出來。
三、數(shù)據(jù)挖掘分類
1.直接數(shù)據(jù)挖掘
目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù),即一個(gè)特定的變量進(jìn)行描述。
2.間接數(shù)據(jù)挖掘
目標(biāo)中沒有選出某一具體的變量,而是在所有的變量中建立起某種關(guān)系。
四、數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)
在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
?。?數(shù)據(jù)的抽取
就是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。
2.數(shù)據(jù)的存儲(chǔ)和管理
數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。
3.數(shù)據(jù)的展現(xiàn)
主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。
五、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫融合發(fā)展
數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性;另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。
數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是融合與互動(dòng)發(fā)展的,具有廣泛的應(yīng)用空間和豐富的學(xué)術(shù)價(jià)值。簡(jiǎn)而言之,掌握數(shù)據(jù)挖掘和數(shù)據(jù)倉庫技術(shù)可以使我們從數(shù)據(jù)庫的“奴隸”變成數(shù)據(jù)庫的“主人”。
六、數(shù)據(jù)挖掘在各領(lǐng)域中的應(yīng)用及發(fā)展前景
當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。專家也指出,數(shù)據(jù)挖掘會(huì)成為未來十年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。
具體發(fā)展趨勢(shì)和應(yīng)用方向主要有:對(duì)知識(shí)發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如對(duì)Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng)。
數(shù)據(jù)挖掘的發(fā)展應(yīng)是挖掘工具在先進(jìn)理論指導(dǎo)下的改進(jìn),而就現(xiàn)有情況而言,還有至少二十年的發(fā)展空間。
參考文獻(xiàn):
?。?]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010.
?。?]希賽IT發(fā)展研究中心.SQLSEVER數(shù)據(jù)庫系統(tǒng)開發(fā)[M].北京:電子工業(yè)出版社,2009.
?。?]邵維忠,楊芙清.面向?qū)ο蟮南到y(tǒng)分析[M].北京:清華大學(xué)出版社,1998.
?。?]朱耀明,宗剛.財(cái)政與金融[M].北京:高等教育出版社,2002.
?。?]吳偉民.數(shù)據(jù)結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.
作者簡(jiǎn)介:
林文淵,工程師,就職于廈門軟件職業(yè)技術(shù)學(xué)院,主要從事計(jì)算機(jī)與游戲開發(fā)方面的教學(xué)工作。
?。ㄗ髡邌挝?上海同濟(jì)大學(xué)軟件工程學(xué)院)