摘 要:近幾年來(lái),數(shù)據(jù)挖掘逐漸成為智能化信息系統(tǒng)的重要研究?jī)?nèi)容,得到信息行業(yè)的廣泛關(guān)注。這篇文章將在簡(jiǎn)要論述數(shù)據(jù)挖掘概念的基礎(chǔ)上,對(duì)其未來(lái)發(fā)展的優(yōu)化措施進(jìn)行探討。
關(guān)鍵詞:數(shù)據(jù)挖掘;特點(diǎn);應(yīng)用;優(yōu)化;
中圖分類(lèi)號(hào):C37 文獻(xiàn)標(biāo)識(shí)碼:A
二十一世紀(jì)是信息科學(xué)技術(shù)迅猛發(fā)展的時(shí)代,各行各業(yè)中有效數(shù)據(jù)的飛速增長(zhǎng),使人們處于海量的信息海洋中,為了進(jìn)一步提高工作效率和市場(chǎng)競(jìng)爭(zhēng)力,人們需要想盡一切辦法對(duì)信息進(jìn)行科學(xué)、準(zhǔn)確的分析,并從中提煉出對(duì)未來(lái)發(fā)展或目前運(yùn)營(yíng)有利的信息資源;但是傳統(tǒng)意義上的信息儲(chǔ)存也好、信息檢索也好既費(fèi)時(shí)又費(fèi)力,很難滿(mǎn)足現(xiàn)代化經(jīng)濟(jì)發(fā)展的要求,而數(shù)據(jù)挖掘就是在這種經(jīng)濟(jì)環(huán)境中應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的基本概念
就目前來(lái)看,數(shù)據(jù)挖掘已經(jīng)成為信息領(lǐng)域創(chuàng)新發(fā)展的重要內(nèi)容,簡(jiǎn)單來(lái)看,數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)信息中選擇出對(duì)企業(yè)經(jīng)營(yíng)決策有關(guān)的直接信息或者潛在信息;之前出現(xiàn)的機(jī)器學(xué)習(xí)也好、統(tǒng)計(jì)學(xué)及模式識(shí)別也好,雖然在一定程度上能夠幫助人們發(fā)現(xiàn)有效信息,但是其應(yīng)用的范圍很狹窄,大多是在科研領(lǐng)域,很難實(shí)現(xiàn)大面積的傳播,數(shù)據(jù)挖掘的出現(xiàn)充分結(jié)合了上述幾種方法的優(yōu)勢(shì),實(shí)現(xiàn)了對(duì)信息進(jìn)行精確、有效的整合。
從根本上來(lái)看,數(shù)據(jù)挖掘的本質(zhì)目的就是從數(shù)據(jù)庫(kù)模糊的、海量的、隨機(jī)的的數(shù)據(jù)中檢索出有使用價(jià)值的潛在信息資源;雖然數(shù)據(jù)挖據(jù)并沒(méi)有明確搜索條件,但是它能夠自動(dòng)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中隱藏的預(yù)測(cè)趨勢(shì)以及關(guān)聯(lián)網(wǎng),還具有類(lèi)聚、時(shí)許模式和檢測(cè)偏差的作用。很多通過(guò)數(shù)據(jù)挖掘得到的信息都是出人意料的,但是往往是這些意想不到的信息將會(huì)開(kāi)拓思維空間,對(duì)決策帶來(lái)巨大幫助。
二、數(shù)據(jù)挖掘的廣泛應(yīng)用
數(shù)據(jù)挖掘在很多領(lǐng)域中廣泛應(yīng)用,特別是在市場(chǎng)經(jīng)濟(jì)的商業(yè)發(fā)展中已經(jīng)相當(dāng)成熟,它在很大程度上提高了企業(yè)的綜合競(jìng)爭(zhēng)力,到目前為止已經(jīng)擴(kuò)展到工業(yè)、醫(yī)藥業(yè)、電子商務(wù)行業(yè)等等。
1、數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用
數(shù)據(jù)挖掘在商業(yè)發(fā)展中扮演著重要角色,數(shù)據(jù)挖據(jù)相當(dāng)于一個(gè)智能化篩選過(guò)程,它能夠?qū)崿F(xiàn)與信息技術(shù)的完美結(jié)合,為商業(yè)的發(fā)展提供重要幫助;例如在金融行業(yè)中,數(shù)據(jù)資料相對(duì)完整、精確,如今金融業(yè)中的數(shù)據(jù)挖掘技術(shù)已經(jīng)十分成熟,企業(yè)能夠充分利用該項(xiàng)技術(shù),對(duì)市場(chǎng)的波動(dòng)以及波動(dòng)原因進(jìn)行準(zhǔn)確的分析,也能夠通過(guò)數(shù)據(jù)挖掘形成科學(xué)、有效的預(yù)測(cè)機(jī)制,對(duì)企業(yè)的經(jīng)營(yíng)決策提供可靠依據(jù);除此之外,金融企業(yè)還能夠通過(guò)數(shù)據(jù)挖掘找出市場(chǎng)中的有效信息,對(duì)未來(lái)可能出現(xiàn)的風(fēng)險(xiǎn)進(jìn)行評(píng)估,將企業(yè)的損失降到最低。又比如說(shuō)在零售行業(yè),數(shù)據(jù)挖掘能夠?yàn)榭蛻?hù)的劃分提供準(zhǔn)確的信息資料,并依據(jù)分類(lèi)方法,對(duì)顧客的購(gòu)買(mǎi)傾向和模式進(jìn)行預(yù)測(cè),這對(duì)于銷(xiāo)售行業(yè)來(lái)說(shuō)是至關(guān)重要的,同樣根據(jù)相關(guān)信息,可以了解到顧客對(duì)商品價(jià)格和擺放的滿(mǎn)意度通過(guò)不斷調(diào)整,提高服務(wù)質(zhì)量,滿(mǎn)足消費(fèi)者的不同要求。
1、數(shù)據(jù)挖掘在工業(yè)中的應(yīng)用
數(shù)據(jù)挖掘在工業(yè)中的應(yīng)用基本上可以分為以下幾個(gè)方面,分別是在故障預(yù)測(cè)上、生產(chǎn)優(yōu)化中以及豐富知識(shí)庫(kù)中;首先,對(duì)于故障預(yù)測(cè)來(lái)說(shuō),數(shù)據(jù)挖掘是非常重要的一項(xiàng)環(huán)節(jié),通過(guò)數(shù)據(jù)信息提供的資料,對(duì)故障發(fā)生的可能性進(jìn)行準(zhǔn)確預(yù)測(cè),對(duì)于提高運(yùn)行安全性,減少故障損失有至關(guān)重要的作用。其次對(duì)于生產(chǎn)優(yōu)化來(lái)講,數(shù)據(jù)挖掘能夠?yàn)樯a(chǎn)工藝的改進(jìn)提供有效的信息,對(duì)于日后的生產(chǎn)工作有莫大的幫助。最后豐富知識(shí)庫(kù),數(shù)據(jù)挖掘本身就是一個(gè)信息收集、儲(chǔ)存、調(diào)取的過(guò)程,企業(yè)能夠從中獲得任一有效的數(shù)據(jù)資料并加以保存,形成自身獨(dú)特的文化底蘊(yùn),為決策的準(zhǔn)確性、科學(xué)性貢獻(xiàn)一份力量。
2、數(shù)據(jù)挖掘在醫(yī)藥業(yè)的應(yīng)用
數(shù)據(jù)挖掘在醫(yī)藥行業(yè)的應(yīng)用主要表現(xiàn)在科研方面,通過(guò)數(shù)據(jù)之間的聯(lián)系研究,促進(jìn)醫(yī)學(xué)的快速發(fā)展;例如數(shù)據(jù)分析能夠幫助醫(yī)生找到病源,核定不同藥物的不同療效,實(shí)現(xiàn)藥物的合理搭配,由于醫(yī)學(xué)數(shù)據(jù)相對(duì)穩(wěn)定,可以重復(fù)利用,因此對(duì)其準(zhǔn)確性要求很大,通過(guò)數(shù)據(jù)分析找到最有效的治療方案,對(duì)于醫(yī)藥界來(lái)講是一大福音。
3、數(shù)據(jù)挖掘在電子商務(wù)業(yè)的應(yīng)用
隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,電子商務(wù)逐漸崛起成為后起之秀,同時(shí)很多網(wǎng)站也引入了數(shù)據(jù)挖掘技術(shù),并從中開(kāi)發(fā)出無(wú)限的商業(yè)價(jià)值。數(shù)據(jù)挖掘能夠幫助商家提高用戶(hù)體驗(yàn)的服務(wù)質(zhì)量,對(duì)未來(lái)的消費(fèi)趨勢(shì)和市場(chǎng)走向進(jìn)行合理預(yù)測(cè),促使商家獲得豐厚的經(jīng)濟(jì)效益。
三、數(shù)據(jù)挖掘的優(yōu)化措施
1、決策樹(shù)
這里所說(shuō)的決策樹(shù)是指利用信息論里包含的信息找出數(shù)據(jù)庫(kù)中具有最大信息量的屬性字段,建立一個(gè)結(jié)點(diǎn),并根據(jù)這個(gè)屬性字段的取值確定樹(shù)的分支,并再各個(gè)分支中建立下層結(jié)點(diǎn)和分支,這種方法的最大優(yōu)勢(shì)在于,結(jié)果直觀(guān)、清晰明了,容易理解;但是其缺點(diǎn)在于如果數(shù)據(jù)處理對(duì)象較為繁雜,就需要多重分支,使挖掘過(guò)程難于管理,極易出現(xiàn)錯(cuò)誤。
2、遺傳算法
這種方法以生物的進(jìn)化過(guò)程為前提,這是生物學(xué)與計(jì)算機(jī)原理的完美結(jié)合,根據(jù)遺傳學(xué)的相關(guān)知識(shí),得出最合理的數(shù)據(jù)模型并加以?xún)?yōu)化;這種方法非常適用于數(shù)據(jù)類(lèi)聚,充分利用時(shí)間類(lèi)比和空間類(lèi)比,可以將大量繁雜的數(shù)據(jù)資料轉(zhuǎn)變成井然有條的數(shù)據(jù)資源,并從中探測(cè)數(shù)據(jù)之間緊密聯(lián)系,最后得到有實(shí)用價(jià)值的模式;遺傳算法具有高效性和靈活性的特點(diǎn),它對(duì)數(shù)據(jù)的信息量要求不高,因此在數(shù)據(jù)挖掘中,它還適用于評(píng)定其他算法的適合度。
3、關(guān)聯(lián)分析
關(guān)聯(lián)分析就是從大量的數(shù)據(jù)庫(kù)中搜索到對(duì)自己有用的關(guān)聯(lián)信息,使依據(jù)數(shù)據(jù)之間的關(guān)聯(lián)性開(kāi)展的,目前,人們對(duì)關(guān)聯(lián)分析的研究已經(jīng)逐步深化,并提出了多種關(guān)聯(lián)法則,比如說(shuō)DHP、STEM等等,關(guān)聯(lián)分析的最終目的是利用形成的數(shù)據(jù)關(guān)聯(lián)網(wǎng),為決策者提供有效的信息。
4、聚類(lèi)分析
聚類(lèi)分析是將一部分沒(méi)有標(biāo)定的記錄作為輸入集,以輸入記錄作為原始數(shù)據(jù),暗戰(zhàn)一定的規(guī)則,將記錄進(jìn)行合理的劃分,并通過(guò)隱式或者顯式的方式對(duì)劃分類(lèi)別加以具體描述。
四、結(jié)束語(yǔ):科學(xué)技術(shù)的日新月異,使數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域越來(lái)越廣泛,特別是在上文中所提到的幾個(gè)行業(yè)中,數(shù)據(jù)挖掘扮演著舉足輕重的角色;在未來(lái)的發(fā)展中數(shù)據(jù)挖掘依舊將會(huì)作為信息來(lái)源的重要渠道,幫助企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中獲得有利地位。同時(shí),數(shù)據(jù)挖掘也在發(fā)展中面臨著些許挑戰(zhàn),本文中我們重點(diǎn)敘述了四種優(yōu)化措施,分別是決策樹(shù)、遺傳算法、關(guān)聯(lián)分析以及聚類(lèi)分析,希望能夠?yàn)閿?shù)據(jù)挖掘的進(jìn)一步發(fā)展帶來(lái)幫助。
參考文獻(xiàn):
[1] 吳昉,宋培義. 數(shù)據(jù)挖掘的應(yīng)用[J]. 貴州科學(xué). 2012(03)
[2] 劉小華,胡學(xué)鋼. 數(shù)據(jù)挖掘的應(yīng)用綜述[J]. 信息技術(shù). 2009(09)
[3] 李江平,畢育學(xué),顏虹. 數(shù)據(jù)挖掘技術(shù)在現(xiàn)場(chǎng)流行病學(xué)調(diào)查資料中的應(yīng)用[J]. 中國(guó)初級(jí)衛(wèi)生保健. 2011(08)
[4] 劉靖. 復(fù)雜數(shù)據(jù)類(lèi)型的離群檢測(cè)方法研究[D]. 華南理工大學(xué) 2014