隨著數(shù)字信息技術(shù)和計(jì)算機(jī)硬件技術(shù)中新存儲(chǔ)介質(zhì)和存儲(chǔ)方式的不斷發(fā)展,人類生活中的各類數(shù)據(jù)產(chǎn)生了爆炸式的增長(zhǎng),如何對(duì)這些數(shù)據(jù)進(jìn)行整理和使用成為當(dāng)前數(shù)據(jù)領(lǐng)域的研究熱點(diǎn),數(shù)據(jù)庫(kù)技術(shù)的成熟與普及為這些龐大數(shù)據(jù)量的整理及挖掘帶來(lái)了可能。但是傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)和統(tǒng)計(jì)分析方法已經(jīng)無(wú)法應(yīng)對(duì)如此海量的數(shù)據(jù),如何進(jìn)行有效的數(shù)據(jù)挖掘還有待分析和整理。
一、數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是數(shù)據(jù)知識(shí)發(fā)現(xiàn)的不可或缺的一個(gè)部分,其通過(guò)采用不同的分類手段和分析方法對(duì)大量數(shù)據(jù)進(jìn)行分析,揭示它們之間的內(nèi)在聯(lián)系和發(fā)展趨勢(shì)。數(shù)據(jù)挖掘是一門綜合性學(xué)科,是隨著人工智能技術(shù)和數(shù)據(jù)庫(kù)技術(shù)發(fā)展起來(lái)的。其發(fā)展基礎(chǔ)是超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn)、更加快速的計(jì)算機(jī)硬件突破、對(duì)巨大數(shù)據(jù)的快速訪問(wèn)需求及更為精確的數(shù)據(jù)機(jī)構(gòu)算法。
數(shù)據(jù)挖掘的主要任務(wù)就是對(duì)隱藏在數(shù)據(jù)中的模式進(jìn)行發(fā)掘,描述當(dāng)前數(shù)據(jù)的一般特性,并利用當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析。數(shù)據(jù)挖掘主要通過(guò)以下幾種模式實(shí)現(xiàn)數(shù)據(jù)的分類處理:
1.分類模式。該模式通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)建立相應(yīng)的符合模型特征的數(shù)據(jù)模型,進(jìn)而建立模型規(guī)則、決策樹或者數(shù)學(xué)表達(dá)式等,將新的數(shù)據(jù)按照上述規(guī)則進(jìn)行數(shù)據(jù)分類和映射,實(shí)現(xiàn)不同數(shù)據(jù)的分類。
2.聚類模式。該模式是利用數(shù)據(jù)的差別和相似性進(jìn)行分類,主要針對(duì)未知的數(shù)據(jù)。具體實(shí)現(xiàn)為,將數(shù)據(jù)項(xiàng)按照不同類間的數(shù)據(jù)差別最大、同類間的數(shù)據(jù)茶杯最小的規(guī)則進(jìn)行數(shù)據(jù)分類。該模式不依賴訓(xùn)練數(shù)據(jù)集和預(yù)先定義的類即可實(shí)現(xiàn)自動(dòng)分類。
3.回歸模式。該模式類似于分類模式,但是不同點(diǎn)在于回歸模式使用的是連續(xù)的預(yù)測(cè)值,而分類模式使用的是離散的預(yù)測(cè)值。回歸模式優(yōu)點(diǎn)在于將大量非線性問(wèn)題進(jìn)行變量轉(zhuǎn)換變?yōu)榫€性問(wèn)題,進(jìn)而利用線性回歸等處理手段進(jìn)行模式歸類,簡(jiǎn)化了歸類算法。
4.關(guān)聯(lián)模式。該模式是通過(guò)利用預(yù)先已知的一套數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則對(duì)不同的數(shù)據(jù)進(jìn)行挖掘,通過(guò)掃描前一次的數(shù)據(jù)庫(kù)應(yīng)用結(jié)果產(chǎn)生本次的掃描候選集,根據(jù)數(shù)據(jù)間的最小支持度和最小可信度實(shí)現(xiàn)不同數(shù)據(jù)間的關(guān)聯(lián)。
5.序列模式。該模式基于時(shí)間或者其他規(guī)律或趨勢(shì)進(jìn)行了建模和分類,是關(guān)聯(lián)模式和時(shí)間序列模式的結(jié)合模式。這種模式主要在時(shí)間維度上對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分類。
6.偏差模式。該模式主要用來(lái)描述差異性數(shù)據(jù)。在某些情況下,差異型數(shù)據(jù)比普通數(shù)據(jù)更有使用和分析價(jià)值,這種模式就是對(duì)這種少數(shù)數(shù)據(jù)情況進(jìn)行分析和歸類的一種模式。
二、經(jīng)典數(shù)據(jù)挖掘方式
具體數(shù)據(jù)挖掘的算法可以按照不同視角進(jìn)行多種方式分類,這些視角主要包括生物學(xué)方法、信息論方法、集合論方法、最近研究趨勢(shì)等。經(jīng)過(guò)十幾年的蓬勃發(fā)展,數(shù)據(jù)挖掘基本算法已經(jīng)相對(duì)趨于成熟,而在其基礎(chǔ)上進(jìn)行的改進(jìn)算法對(duì)數(shù)據(jù)挖掘的提升相對(duì)有限。
1、神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)算法是生物學(xué)方向的一種經(jīng)典算法,該算法通過(guò)某種規(guī)則對(duì)多個(gè)神經(jīng)元進(jìn)行關(guān)聯(lián),進(jìn)而利用網(wǎng)絡(luò)狀態(tài)對(duì)外部輸入信息的動(dòng)態(tài)響應(yīng)實(shí)現(xiàn)信息的處理,由于神經(jīng)元具有分布式存儲(chǔ)結(jié)構(gòu),故該種算法具有很強(qiáng)的容錯(cuò)性和魯棒性。鑒于神經(jīng)網(wǎng)絡(luò)主要被用來(lái)獲取分類模式,而該模式無(wú)法用明顯的規(guī)則來(lái)表述,故這類算法的可理解性較差。同時(shí)由于要進(jìn)行多次掃描和訓(xùn)練,故其在數(shù)據(jù)處理時(shí)間上具有明顯的劣勢(shì)。2、歸納學(xué)習(xí)。該算法以信息論為基礎(chǔ),通過(guò)對(duì)大量經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行歸納和整理進(jìn)行規(guī)則和模式的抽象總結(jié),進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘。C4.5是其中的一種經(jīng)典決策樹算法,其通過(guò)信息熵實(shí)現(xiàn)屬性的分類,適用于大數(shù)據(jù)庫(kù)中的學(xué)習(xí)和歸類。3、粗糙集理論。該算法是一種用于對(duì)不完整、不確定數(shù)據(jù)進(jìn)行表達(dá)學(xué)習(xí)和歸納的算法。該類算法不需要除所需處理的數(shù)據(jù)集合之外的其他任何先驗(yàn)信息即可實(shí)現(xiàn)數(shù)據(jù)的挖掘,對(duì)知識(shí)獲取瓶頸的突破具有明顯效果,可以發(fā)現(xiàn)差異性數(shù)據(jù)或者噪聲數(shù)據(jù)的內(nèi)在聯(lián)系。
三、數(shù)據(jù)挖掘研究熱點(diǎn)及發(fā)展趨勢(shì)
鑒于數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域,而各個(gè)領(lǐng)域又具有不同于其他領(lǐng)域的特點(diǎn)及需求,使得數(shù)據(jù)挖掘成為當(dāng)前時(shí)期內(nèi)信息系統(tǒng)領(lǐng)域研究的熱點(diǎn)。尤其是在一些尖端科學(xué)及熱門應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)應(yīng)用中的數(shù)據(jù)挖掘技術(shù)更是體現(xiàn)出了數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì)。
數(shù)據(jù)表明,網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的組成部分,網(wǎng)站,尤其是電子商務(wù)網(wǎng)站每天都會(huì)生成龐大的日志文件和訪問(wèn)記錄信息,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘可以幫助企業(yè)根據(jù)用戶需求設(shè)計(jì)出更為人性化的交互界面,幫助企業(yè)增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力。雖然基于網(wǎng)站的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘建模技術(shù)和算法使用差別不大,但是需要注意到,網(wǎng)站的數(shù)據(jù)庫(kù)格式與傳統(tǒng)的數(shù)據(jù)庫(kù)還是存在一定差別,如何實(shí)現(xiàn)特定環(huán)境的數(shù)據(jù)挖掘優(yōu)化是當(dāng)前研究的一個(gè)方向。
空間地理數(shù)據(jù)和視頻流媒體數(shù)據(jù)也都建立在數(shù)據(jù)庫(kù)的基礎(chǔ)上。但是這類信息的數(shù)據(jù)挖掘還處于初步階段,如何在海量數(shù)據(jù)中挖掘事先未知的和潛在有用的數(shù)據(jù)關(guān)系,幫助確定數(shù)據(jù)的內(nèi)在聯(lián)系和發(fā)展趨勢(shì)還有待研究。但是可以確定的是,由于這類數(shù)據(jù)具有跨學(xué)科的綜合性,故無(wú)法使用一般的方法進(jìn)行數(shù)據(jù)挖掘,而應(yīng)該建立多角度多學(xué)科交叉性的數(shù)據(jù)挖掘方式。
未來(lái)基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘肯定會(huì)朝著智能化、可視化、實(shí)時(shí)化、多維化、交互化方向發(fā)展,以適應(yīng)更為復(fù)雜的和現(xiàn)實(shí)的數(shù)據(jù)環(huán)境。
無(wú)論是在研究領(lǐng)域還是在商業(yè)應(yīng)用中,基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘都是一個(gè)熱點(diǎn)話題,并且得到了越來(lái)越多的關(guān)注。隨著數(shù)據(jù)挖掘技術(shù)的逐漸成熟,必須結(jié)合數(shù)據(jù)來(lái)源領(lǐng)域、數(shù)據(jù)應(yīng)用領(lǐng)域、數(shù)據(jù)模型建立和算法理論基礎(chǔ)等多方面因素進(jìn)行數(shù)據(jù)的挖掘工作才能保證數(shù)據(jù)挖掘的有效性。