【摘 要】在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來(lái)越多的關(guān)注,本文介紹在實(shí)際問(wèn)題中,大量成功運(yùn)用數(shù)據(jù)挖掘的實(shí)例說(shuō)明了數(shù)據(jù)挖掘?qū)茖W(xué)研究具有很大的促進(jìn)作用。數(shù)據(jù)挖掘可以幫助人們對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高效的分析處理,以節(jié)約時(shí)間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。
【關(guān)鍵詞】數(shù)據(jù)挖掘 知識(shí)獲取 數(shù)據(jù)庫(kù)
數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來(lái)越突出,人們希望在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘通過(guò)在大量數(shù)據(jù)的基礎(chǔ)上對(duì)各種學(xué)習(xí)算法的訓(xùn)練,得到數(shù)據(jù)對(duì)象間的關(guān)系模式,這些模式反映了數(shù)據(jù)的內(nèi)在特性,是對(duì)數(shù)據(jù)包含信息的更高層次的抽象。
一、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從數(shù)據(jù)倉(cāng)庫(kù)中提取出可信的、新穎的、有效的并能被人理解的模式的高級(jí)處理過(guò)程。所謂模式,可以看作是我們所說(shuō)的知識(shí),它給出了數(shù)據(jù)的特性或數(shù)據(jù)之間的關(guān)系,是對(duì)數(shù)據(jù)包含的信息更抽象的描述。如:成績(jī)優(yōu)秀的學(xué)生學(xué)習(xí)都非??炭?;發(fā)燒的人是因?yàn)榛剂烁忻暗取DJ降谋硎痉椒ê芏?,可以利用圖形、文字、表達(dá)式等方式表示;所謂處理過(guò)程是指數(shù)據(jù)挖掘是一個(gè)多步驟的對(duì)大量數(shù)據(jù)進(jìn)行分析的過(guò)程,包括數(shù)據(jù)預(yù)處理、模式提取、知識(shí)評(píng)估及過(guò)程優(yōu)化。知識(shí)提取往往需要經(jīng)過(guò)多次的反復(fù),通過(guò)對(duì)相關(guān)數(shù)據(jù)的再處理及知識(shí)學(xué)習(xí)算法的優(yōu)化,不斷提高學(xué)習(xí)效率。
二、數(shù)據(jù)挖掘的技術(shù)算法
在數(shù)據(jù)挖掘的處理過(guò)程中,數(shù)據(jù)挖掘引擎是最為關(guān)鍵的,而決定數(shù)據(jù)挖掘引擎的算法主要有以下幾類(lèi):
(一)數(shù)據(jù)挖掘的信息論方法
該類(lèi)方法是利用信息論原理,計(jì)算數(shù)據(jù)庫(kù)中各字段的信息量,建立決策樹(shù)或者決策規(guī)則樹(shù)。比較重要的有ID3方法和IBLE方法。
(二)數(shù)據(jù)挖掘的集合論方法
粗集方法:在數(shù)據(jù)庫(kù)中將元素看成行對(duì)象,列元素看成屬性(分為條件屬性和結(jié)論屬性)。等價(jià)關(guān)系定義為不同對(duì)象在某個(gè)屬性上相同,這些等價(jià)關(guān)系的對(duì)象組成的集合稱(chēng)為該等價(jià)關(guān)系的等價(jià)類(lèi)。條件屬性上的等價(jià)類(lèi)E與結(jié)論屬性上的等價(jià)類(lèi)之間有三種關(guān)系:下近似,Y包含E;上近似,Y和E的交非空;無(wú)關(guān),Y和E的交為空。對(duì)下近似建立確定性規(guī)則,對(duì)上近似建立不確定性規(guī)則(含可信度),對(duì)無(wú)關(guān)情況不存在規(guī)則。
概念樹(shù)方法:數(shù)據(jù)庫(kù)中記錄的屬性字段按歸類(lèi)方式進(jìn)行抽象,建立起來(lái)的層次結(jié)構(gòu)稱(chēng)為概念樹(shù)。
(三)數(shù)據(jù)挖掘的仿生物方法
神經(jīng)網(wǎng)絡(luò)方法:神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型,一般可對(duì)隱類(lèi)型進(jìn)行分類(lèi),用于非線性的、復(fù)雜的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)由“神經(jīng)元”的互連或按層組織的結(jié)點(diǎn)構(gòu)成。通常,神經(jīng)模型由三個(gè)層次組成:輸入、中間層和輸出。每一神經(jīng)元求得輸入值,再計(jì)算總輸入值,由過(guò)濾機(jī)制比較總輸入,然后確定其自己的輸出值??赏ㄟ^(guò)連接一組神經(jīng)元來(lái)模型化復(fù)雜行為。當(dāng)修改連接層的“連接度”或參數(shù)時(shí),神經(jīng)網(wǎng)絡(luò)就進(jìn)行了“學(xué)習(xí)”和“訓(xùn)練”。這里,神經(jīng)網(wǎng)絡(luò)用恰當(dāng)?shù)臄?shù)據(jù)倉(cāng)庫(kù)示例來(lái)訓(xùn)練。目前,神經(jīng)網(wǎng)絡(luò)以MP和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類(lèi)多種神經(jīng)網(wǎng)絡(luò)模型。
三、數(shù)據(jù)挖掘技術(shù)的應(yīng)用
首先介紹一個(gè)著名的實(shí)例:SKICAT。然后結(jié)合實(shí)際具體探討數(shù)據(jù)挖掘技術(shù)在Bayesian中的應(yīng)用。
(一)天文數(shù)據(jù)分析中的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘在天文學(xué)上有一個(gè)非常著名的應(yīng)用系統(tǒng):SKICAT[外3]。它是美國(guó)加州理工學(xué)院(CIT)與天文科學(xué)家合作開(kāi)發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類(lèi)星體的一個(gè)工具。SKICAT既是第一個(gè)獲得相當(dāng)成功的數(shù)據(jù)挖掘應(yīng)用,也是人工智能技術(shù)在天文學(xué)和空間科學(xué)上第一批成功應(yīng)用之一。利用SKICAT,天文學(xué)家已發(fā)現(xiàn)了16個(gè)新的極其遙遠(yuǎn)的類(lèi)星體,該項(xiàng)發(fā)現(xiàn)能幫助天文工作者更好地研究類(lèi)星體的形成以及早期宇宙的結(jié)構(gòu)。
(二)Bayesian網(wǎng)絡(luò)中的數(shù)據(jù)挖掘
Bayesian網(wǎng)是由變量及其關(guān)聯(lián)組成的有向圖。它主要用于處理實(shí)際應(yīng)用中遇到的不確定信息。圖中還帶有各變量的概率分布,定量的概率信息被表示為條件概率表中在決策前對(duì)實(shí)際問(wèn)題的先驗(yàn)的理解與把握。
然而,針對(duì)實(shí)際問(wèn)題建立一個(gè)應(yīng)用于決策的Bayesian網(wǎng)絡(luò)時(shí)存在兩個(gè)問(wèn)題。首先,我們常常是憑個(gè)人對(duì)問(wèn)題的經(jīng)驗(yàn)與理解來(lái)建立模型的,因此建立的模型很難反映問(wèn)題的客觀實(shí)際。其二,在確定Bayesian網(wǎng)中的條件概率表時(shí),我們需要用定量的數(shù)值以支持計(jì)算,但實(shí)際中,人們很難給出一個(gè)具體概率值,一般的應(yīng)用往往是根據(jù)經(jīng)驗(yàn),這就要求我們有一個(gè)合理的方法,從大量雜亂無(wú)序的數(shù)據(jù)中將它們找到,并填入條件概率表中去。
而數(shù)據(jù)挖掘技術(shù)恰恰為我們提供了一系列有效的方法來(lái)尋找隱藏于大規(guī)模數(shù)據(jù)之中的有用數(shù)據(jù),以解決以上兩個(gè)問(wèn)題。在Bayesian建模中,我們需要找到各變量之間的關(guān)聯(lián),這種關(guān)聯(lián)與關(guān)系數(shù)據(jù)庫(kù)理論中的函數(shù)依賴(Functional Dependence)近似,后者表示了關(guān)系表中各屬性(Attribute)之間的依賴關(guān)系,而前者表示Bayesian網(wǎng)中各變量是關(guān)系表中的屬性時(shí),兩者的表示含義是一致而和諧的。因而,只要在關(guān)系表的元組中發(fā)掘出函數(shù)依賴,便可以認(rèn)清Bayesian網(wǎng)中各變量之間的關(guān)系,從而給建模予以理論依據(jù),并且在數(shù)量上以具體值作為技術(shù)支持。
將數(shù)據(jù)挖掘中函數(shù)依賴的挖掘與Bayesian網(wǎng)技術(shù)結(jié)合起來(lái)[外4],將帶來(lái)以下好處:簡(jiǎn)化Bayesian網(wǎng)的結(jié)構(gòu); 根據(jù)所挖掘出的函數(shù)依賴的置信度,可以使Bayesian網(wǎng)中各結(jié)點(diǎn)關(guān)聯(lián)更加清晰且有理可尋。
四、總結(jié)
數(shù)據(jù)挖掘技術(shù)是一個(gè)發(fā)展十分快的領(lǐng)域, 隨著對(duì)數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域日益廣泛的應(yīng)用,實(shí)現(xiàn)了數(shù)據(jù)資源共享及技術(shù)發(fā)展的跨域,從而大大提高了工作效率,并帶來(lái)巨大的成功。21世紀(jì)是信息時(shí)代的社會(huì),“信息不僅是資源,更是財(cái)富”,要實(shí)現(xiàn)經(jīng)濟(jì)的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進(jìn)行數(shù)據(jù)挖掘,則將為數(shù)據(jù)庫(kù)的應(yīng)用開(kāi)辟了廣闊的前景,也為人類(lèi)的文明開(kāi)辟了一個(gè)嶄新的時(shí)代。