劉義
摘要:數(shù)據(jù)挖掘技術(shù)是一種新興技術(shù),由于該技術(shù)在大數(shù)據(jù)的處理方面具有很大的優(yōu)勢(shì),因此許多行業(yè),尤其是像科研、金融、教育等需要分析大量數(shù)據(jù)的領(lǐng)域都紛紛引進(jìn)數(shù)據(jù)挖掘技術(shù)。本文介紹了數(shù)據(jù)挖掘技術(shù)的含義以及方法,并對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用做了簡(jiǎn)要分析。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);知識(shí)發(fā)現(xiàn);計(jì)算機(jī)隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)走進(jìn)了普通人的生活,人們可以互聯(lián)網(wǎng)上獲得海量的信息,這些海量的信息都被儲(chǔ)存在龐大的數(shù)據(jù)庫(kù)中。但是由于技術(shù)手段的限制,真正得到有效利用的信息僅僅是冰山一角,這種情況造成了信息的浪費(fèi),因此需要研究出新的技術(shù)手段來(lái)挖掘數(shù)據(jù)庫(kù)中有用信息,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)信息分析的自動(dòng)化、智能化,以最快的速度實(shí)現(xiàn)對(duì)海量原始數(shù)據(jù)的分析整理。目前,一項(xiàng)新興技術(shù)正方興未艾,即數(shù)據(jù)挖掘技術(shù),該技術(shù)能夠快速分析大量數(shù)據(jù),具有很大優(yōu)勢(shì),目前,基于數(shù)據(jù)挖掘技術(shù)的研究越來(lái)越多,其應(yīng)用范圍已經(jīng)擴(kuò)展到電信、金融等行業(yè),未來(lái)還具有巨大的發(fā)展?jié)摿Α?/p>
1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)
1.1 含義
數(shù)據(jù)挖掘就是針對(duì)海量數(shù)據(jù)的有效利用而提出來(lái)的,由于社會(huì)生產(chǎn)生活過(guò)程中產(chǎn)生了數(shù)量驚人的數(shù)據(jù),這些數(shù)據(jù)往往是混亂的、無(wú)序的。單憑人腦難以高效處理,往往造成大量信息的浪費(fèi)。數(shù)據(jù)挖掘就是要從這些混亂的、無(wú)序的、模糊的、隨機(jī)的、不完全的數(shù)據(jù)當(dāng)中找出人們事先不知道但是具有潛在價(jià)值的信息和知識(shí)。從本質(zhì)上說(shuō),數(shù)據(jù)挖掘是一種深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘技術(shù)就是針對(duì)數(shù)據(jù)挖掘的要求設(shè)計(jì)出來(lái)的實(shí)現(xiàn)數(shù)據(jù)挖掘的途徑和方法。隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,再加上人們對(duì)數(shù)據(jù)庫(kù)研究的日益深入,使得人們對(duì)數(shù)據(jù)挖掘有了新的認(rèn)識(shí)。人們根據(jù)數(shù)據(jù)挖掘任務(wù)的不同,把數(shù)據(jù)挖掘分為不同的類(lèi)型,例如分類(lèi)和預(yù)測(cè)模型發(fā)現(xiàn),序列模式發(fā)現(xiàn),數(shù)據(jù)歸類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn),依賴(lài)關(guān)系和依賴(lài)模型發(fā)現(xiàn)等等[1]。根據(jù)挖掘方法可以認(rèn)為統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)方法、數(shù)據(jù)庫(kù)方法以及神經(jīng)網(wǎng)絡(luò)方法。
1.2 數(shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘有其自身特有的過(guò)程。一般來(lái)說(shuō),首先需要確定挖掘的對(duì)象,即選擇數(shù)據(jù)源。其次就是要盡可能全面地收集數(shù)據(jù)。接下來(lái)就需要借助圖表等工具對(duì)所收集到的數(shù)據(jù)進(jìn)行直觀(guān)化的描述,從而形象地反映出各種數(shù)據(jù)之間的聯(lián)系。第四步需要根據(jù)數(shù)據(jù)情況選擇合適算法,并建立預(yù)言模型。然后還需要對(duì)模型進(jìn)行驗(yàn)證,從驗(yàn)證過(guò)程中找出模型的不足之處,并且及時(shí)加以完善,使模型更加合理實(shí)用。最后就是利用模型指導(dǎo)實(shí)踐了。
2數(shù)據(jù)挖掘技術(shù)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)作為一項(xiàng)新興技術(shù),是時(shí)代發(fā)展的產(chǎn)物,順應(yīng)了信息時(shí)代的發(fā)展潮流,因此,該技術(shù)自誕生之日起就引起了極大的關(guān)注。由于數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)的處理方面具有很大的優(yōu)勢(shì),因此許多行業(yè),尤其是像科研、金融、教育等需要分析大量數(shù)據(jù)的領(lǐng)域都紛紛引進(jìn)數(shù)據(jù)挖掘技術(shù)。
2.1 數(shù)據(jù)挖掘技術(shù)在科研領(lǐng)域的應(yīng)用
眾所周知,科研是高精尖的行業(yè),對(duì)數(shù)據(jù)的處理有非常高的要求,而且,科研過(guò)程當(dāng)中經(jīng)常需要處理各種紛繁復(fù)雜的觀(guān)察數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)等,隨著科研的不斷發(fā)展,數(shù)據(jù)的數(shù)量已經(jīng)呈現(xiàn)出技術(shù)增長(zhǎng)的狀態(tài),傳統(tǒng)的數(shù)據(jù)分析手段已經(jīng)顯現(xiàn)出力不從心的現(xiàn)象,不僅效率低下,而且精確性也難以滿(mǎn)足科研要求。因此,面對(duì)海量的科研信息,引進(jìn)數(shù)據(jù)挖掘技術(shù)成為必然選擇。近年來(lái),數(shù)據(jù)挖掘技術(shù)逐漸走進(jìn)了科研領(lǐng)域。例如,實(shí)現(xiàn)加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室開(kāi)發(fā)的SKICAT就是基于數(shù)據(jù)挖掘技術(shù)而研發(fā)的,該系統(tǒng)已經(jīng)發(fā)揮了作用,它幫助科學(xué)家發(fā)現(xiàn)了16個(gè)新的類(lèi)星體[2]。除此之外,數(shù)據(jù)挖掘技術(shù)也被應(yīng)用到了生物學(xué)領(lǐng)域,例如利用數(shù)據(jù)挖掘中的序列模式來(lái)進(jìn)行基因圖譜的繪制工作等。
2.2 數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用
金融領(lǐng)域涉及面廣泛,數(shù)據(jù)量也非常大,雖然銀行和金融機(jī)構(gòu)所產(chǎn)生的數(shù)據(jù)相對(duì)來(lái)說(shuō)更加有序和完整,但是金融分析領(lǐng)域的投資評(píng)估和股票交易的預(yù)測(cè)等具有很大的風(fēng)險(xiǎn)性,投資者和決策者在海量的信息面前往往不知所措,多數(shù)情況下是憑借經(jīng)驗(yàn)進(jìn)行判斷的,因此容易導(dǎo)致食失誤。因此金融領(lǐng)域迫切需要通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行有效分析,為投資者、決策者提供最佳的預(yù)測(cè),數(shù)據(jù)挖掘技術(shù)正好適應(yīng)了這一需求。通過(guò)數(shù)據(jù)挖掘技術(shù)就可以從海量的信息當(dāng)中找到各種信息之間的相互關(guān)系,識(shí)別各種風(fēng)險(xiǎn),然后對(duì)形式作出合理的預(yù)測(cè)。目前已經(jīng)存在的系統(tǒng)有HNC公司開(kāi)發(fā)的FALCON,這是一種信用卡欺詐估測(cè)系統(tǒng),目前已被許多的零售銀行用于探測(cè)可疑的信用卡交易。
2.3 數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用
隨著教育信息化的發(fā)展,學(xué)校教育在時(shí)間和空間上越來(lái)越超越傳統(tǒng)的教育,學(xué)生、教師和學(xué)校都面臨著更為繁雜多樣的信息交流,因此如何把海量的教育信息有效整合起來(lái)成為教育領(lǐng)域的一種重要命題。數(shù)據(jù)挖掘技術(shù)無(wú)疑為人們提供了一條新的思路。例如通過(guò)數(shù)據(jù)挖掘技術(shù)把互聯(lián)網(wǎng)中海量的教育資源結(jié)構(gòu)化,從而化解傳統(tǒng)檢索方法的困境。
[參考文獻(xiàn)]
[1]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].中國(guó)西部科技,2010,9(5):38-39.
[2]賴(lài)娟.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用分析[J].現(xiàn)代商貿(mào)工業(yè),2009,(14):283-284.