于慧凝
摘 要:數(shù)據(jù)采掘是數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、統(tǒng)計分析、模糊邏輯、模式識別、人工神經(jīng)網(wǎng)絡(luò)等多個學(xué)科相結(jié)合的產(chǎn)物。最后探討了數(shù)據(jù)挖掘的發(fā)展趨勢,這對我國的數(shù)據(jù)挖掘研究具有一定的參考價值。
關(guān)鍵詞:數(shù)據(jù)挖掘;發(fā)展前景
一、引 言
數(shù)據(jù)挖掘(DataMining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscovery in Database), 數(shù)據(jù)挖掘從一個新的視角將數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識別與人工智能等領(lǐng)域有機結(jié)合起來,它能組合各個領(lǐng)域的優(yōu)點,從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識。在最近幾年里已被數(shù)據(jù)庫界所廣泛研究,隨著計算機應(yīng)用的越來越廣泛,每年都要積累大量的數(shù)據(jù),運用數(shù)據(jù)挖掘技術(shù),在這些數(shù)據(jù)當中我們可以找出“金子”來。
二、數(shù)據(jù)挖掘應(yīng)用
數(shù)據(jù)挖掘是面向?qū)嶋H應(yīng)用的技術(shù),現(xiàn)在已經(jīng)廣泛應(yīng)用于金融、銀行、農(nóng)業(yè)、制造業(yè)、零售業(yè)、電信、醫(yī)療衛(wèi)生、教育和生物科學(xué)等領(lǐng)域。在信息技術(shù)方面,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎領(lǐng)域,從而產(chǎn)生智能搜索引擎,將會給用戶提供一個高效、準確的Web檢索工具。在醫(yī)療衛(wèi)生方面,探討了各種數(shù)據(jù)挖掘方法在生物醫(yī)學(xué)研究領(lǐng)域中的應(yīng)用,可以用分類方法對疾病進行診斷,用神經(jīng)網(wǎng)絡(luò)、支持向量機等數(shù)據(jù)挖掘方法對某些疾病進行預(yù)測,研究表明,預(yù)測效果良好。在研究MRI乳腺非腫塊樣強化病灶對乳腺癌的診斷時,發(fā)現(xiàn)決策樹模型的靈敏度、特異性和準確率等性能均優(yōu)于傳統(tǒng)統(tǒng)計學(xué)中的 logistic 回歸模型。
三、數(shù)據(jù)挖掘發(fā)展趨勢
目前數(shù)據(jù)挖掘技術(shù)的研究已成為國內(nèi)外研究的熱點,最近幾年在國內(nèi)發(fā)展迅速,今后該領(lǐng)域發(fā)展的趨勢可能主要表現(xiàn)在以下幾方面:
(1)隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的資源越來越多,如何通過數(shù)據(jù)挖掘技術(shù)對互聯(lián)網(wǎng)上的資源進行挖掘,并從中發(fā)現(xiàn)有用的信息,將成為一個熱點問題。Web 數(shù)據(jù)挖掘目前的研究雖然比較多,但是還有很多不足,需要進一步研究完善。
(2)數(shù)據(jù)挖掘算法的改進和數(shù)據(jù)挖掘可視化。數(shù)據(jù)挖掘算法一般要處理海量的數(shù)據(jù),如何在算法效率和算法準確度之間尋找平衡點,是一個值得研究的課題。另外,數(shù)據(jù)挖掘結(jié)果的友好可視化展現(xiàn)也是一個重要的研究課題。
(3)多媒體數(shù)據(jù)挖掘。多媒體包含視頻、音頻、圖像等,這些數(shù)據(jù)的結(jié)構(gòu)往往比較復(fù)雜,傳統(tǒng)的數(shù)據(jù)挖掘算法處理多媒體數(shù)據(jù)效果比較差。為了挖掘多媒體資源,需要設(shè)計和開發(fā)更好的數(shù)據(jù)挖掘算法。
(4)數(shù)據(jù)挖掘和隱私保護。數(shù)據(jù)挖掘的個人隱私與信息安全問題備受人們關(guān)注。誤用和濫用數(shù)據(jù)挖掘可能導(dǎo)致用戶數(shù)據(jù)特別是敏感信息的泄露,越來越多的人對此表示擔憂,如何在不暴露用戶隱私的前提下進行數(shù)據(jù)挖掘,將成為非常值得關(guān)注的研究課題。
(5)數(shù)據(jù)挖掘技術(shù)與其他系統(tǒng)的集成。數(shù)據(jù)挖掘應(yīng)該是一個完整的過程,不單單是一個算法,為了將數(shù)據(jù)挖掘技術(shù)更好地應(yīng)用于現(xiàn)實生活中,需要研究如何將數(shù)據(jù)挖掘與其他系統(tǒng)有機地集成,從而最大化地發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢。
(6)空間和時序數(shù)據(jù)挖掘。空間數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫不同,空間數(shù)據(jù)庫具有豐富的數(shù)據(jù)類型,帶有拓撲、距離信息,空間數(shù)據(jù)有很強的局部相關(guān)性等特點。挖掘空間數(shù)據(jù)庫需要特殊的數(shù)據(jù)挖掘方法。另外,有一類數(shù)據(jù)集的數(shù)據(jù)之間存在著時間上的關(guān)系,這類數(shù)據(jù)被稱為時序數(shù)據(jù)。在對時列數(shù)據(jù)進行挖掘的過程中,必須考慮數(shù)據(jù)集數(shù)據(jù)間存在時間上的關(guān)系,如何高效地處理空間和時序數(shù)據(jù),仍有大量問題需要解決。
(7) 適合中小企業(yè)使用的數(shù)據(jù)挖掘系統(tǒng)。目前國外著名的數(shù)據(jù)挖掘軟件有:SAS Enterprise Min-er、SPSS Clementine(現(xiàn)被IBM收購并改名為IBMSPSS Modeler)和RapidMiner(開源)等 。除開源軟件外,數(shù)據(jù)挖掘軟件一般價格昂貴,中小企業(yè)往往望而卻步。針對我國中小企業(yè)的特點,開發(fā)一套適合我國國情的數(shù)據(jù)挖掘軟件具有重要的現(xiàn)實意義。
四、結(jié)束語
總之,數(shù)據(jù)挖掘只是一個工具,但不是萬能的,它可以發(fā)現(xiàn)一些潛在的用戶,但是不會告訴你為什么,也不能保證這些潛在的用戶成為現(xiàn)實。數(shù)據(jù)挖掘的成功要求對期望解決問題的領(lǐng)域有深刻的了解,理解數(shù)據(jù),了解其過程,才能對數(shù)據(jù)挖掘的結(jié)果找出合理的解釋。例如曾經(jīng)用數(shù)據(jù)挖掘找出的啤酒和尿布的例子,如何去解釋這種現(xiàn)象,是應(yīng)該將兩者放在一起還是分開銷售,這還需要對消費心理學(xué)有所研究才能做出決定,而不是數(shù)據(jù)挖掘能力所及的了。
參考文獻:
[1]朱明.數(shù)據(jù)挖挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2003.
[2]邵峰晶、于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[3]范明.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[4]夏火松主編.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社.