[摘 要]本文概述了數(shù)據(jù)挖掘的定義及其軟件的分類,對經(jīng)典的幾種數(shù)據(jù)挖掘軟件進行了詳細的介紹,提出了企業(yè)選擇數(shù)據(jù)挖掘軟件的方法,最后通過分析數(shù)據(jù)挖掘現(xiàn)存的問題,探討了數(shù)據(jù)挖掘軟件的發(fā)展趨勢。
[關(guān)鍵詞]數(shù)據(jù)挖掘 數(shù)據(jù)庫 軟件應(yīng)用
作者簡介:鞏軍全(1978-),男,甘肅甘谷人,天水師范學(xué)院經(jīng)濟與社會管理學(xué)院教師。
一、數(shù)據(jù)挖掘的涵義
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程[2]。是從信息海洋中提取有價值的知識,從而幫助企業(yè)在業(yè)務(wù)管理及發(fā)展上做出及時、正確的判斷,然后采取明智的行動,做到在競爭中占據(jù)主動權(quán)的新途徑、新方法。
二、數(shù)據(jù)挖掘軟件
(一)數(shù)據(jù)挖掘軟件分類
一般來講,數(shù)據(jù)挖掘軟件根據(jù)其適用的范圍分為兩類[3]:專用數(shù)據(jù)挖掘軟件和通用數(shù)據(jù)挖掘軟件。專用數(shù)據(jù)挖掘軟件是針對某個特定領(lǐng)域的問題提供解決方案,在涉及算法的時候充分考慮了數(shù)據(jù)、需求的特殊性;而通用數(shù)據(jù)挖掘軟件不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。
(二)數(shù)據(jù)挖掘軟件介紹
當前推出的通用數(shù)據(jù)挖掘軟件有三十多種[4],下面分別按:軟件產(chǎn)品及其特點、應(yīng)用行業(yè)案例等方面詳細介紹經(jīng)典的SAS、SPSS、Oracle、IBM公司的軟件產(chǎn)品,以便對挖掘軟件有一個比較深刻的認識。
1.SAS的數(shù)挖軟件Enterprise Miner
平臺:Windows NT
功能:EM為所有的模型開發(fā)產(chǎn)生全部的記分代碼,這些記分代碼能夠立即應(yīng)用到新的數(shù)據(jù)中。優(yōu)點:圖形化的界面,可視化的操作,可導(dǎo)引即使是數(shù)理統(tǒng)計經(jīng)驗不太多的使用者也能按照SEMMA的原則成功的進行數(shù)據(jù)挖掘。缺點:臨時文件花費了許多空間,打印決策樹比較困難。
應(yīng)用行業(yè):多用于一些的零售公司。如美國AutoTrader.com是世界上最大的汽車銷售站點,每天都會有大量的用戶對網(wǎng)站上的信息點擊,尋求信息,其運用了SAS軟件進行數(shù)據(jù)挖掘,每天對數(shù)據(jù)進行分析,找出用戶的訪問模式,對產(chǎn)品的喜歡程度進行判斷,并設(shè)特定服務(wù)項,取得了巨大的成功。
2.SPSS的數(shù)挖軟件Clementine
平臺:Windows 95, Windows NT.
功能:SPSS是數(shù)據(jù)清洗、數(shù)據(jù)挖掘、統(tǒng)計分析工具。優(yōu)點:界面友好,不需要編程,統(tǒng)計功能強大。缺點:用戶很難知道選擇存儲時存儲的是什么信息,即存儲輸出和存儲數(shù)據(jù)比較容易混淆。應(yīng)用行業(yè)案例:多方位的金融服務(wù)商。如美國HSBC銀行有多于1.4億個人銀行客戶。使用SPSS的數(shù)據(jù)挖掘工具分析客戶,發(fā)現(xiàn)模型。三年內(nèi)增加了15%的銷售量,留住了更多的客戶,取得很好的效益。
3.Oracle的數(shù)挖軟件Darwin
平臺:Windows NT/95
功能: Darwin支持數(shù)據(jù)挖掘算法:神經(jīng)網(wǎng)絡(luò),分類和回歸樹,K-最近鄰居、遺傳算法、基于記憶的推理(memory-based reasoning)、聚集和貝葉斯算法。優(yōu)點:第一,高度的可擴展性,由于能夠使數(shù)據(jù)挖掘算法并行實現(xiàn),所以能夠挖掘海量數(shù)據(jù);第二,模型能夠容易導(dǎo)出,和其他應(yīng)用集成;第三是Windows風格的客戶端易于使用。缺點:缺乏在數(shù)據(jù)挖掘之前對數(shù)據(jù)的可視化探索。工作流不能可視化編輯。應(yīng)用行業(yè):適合專門的數(shù)據(jù)挖掘和數(shù)據(jù)倉庫市場分析和咨詢公司。全球最大的零售商——沃爾瑪百貨有限公司用Oracle商業(yè)智能套件企業(yè)加強版在所有經(jīng)營活動中實現(xiàn)全面的數(shù)據(jù)智能和分析。
4.IBM的數(shù)挖軟件Intelligent Miner
平臺:Window NT
功能:自動實現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果呈現(xiàn)這一整套數(shù)據(jù)挖掘操作。優(yōu)點:Intelligent Miner可以提供一定程度的定制,具有可擴展性,索引的速度很快,具有先進的語言分析能力、聚集和過濾能力、支持并行處理,查詢速度很快。缺點:Intelligent Miner圖形界面不友好。元數(shù)據(jù)不開放,結(jié)構(gòu)復(fù)雜。文檔缺乏錯誤代碼的詳細解釋。沒有對算法的詳細說明。應(yīng)用行業(yè):Bass Export是世界最大的啤酒進出口商之一,每個星期傳送23000份定單,這就需要了解每個客戶的習(xí)慣,如品牌的喜好等,IM很好的解決了上述問題。
總的來說[5],SAS在數(shù)理統(tǒng)計分析、數(shù)據(jù)挖掘方面具有很大的優(yōu)勢,是熟悉統(tǒng)計學(xué)并擅長編程的專業(yè)人士的首選。與SAS比較,SPSS則是非統(tǒng)計學(xué)專業(yè)人士的首選。Oracle在全球數(shù)據(jù)庫領(lǐng)域占有很大的份額,在并行計算方面具有優(yōu)勢。IBM在巨量數(shù)據(jù)的存儲方面具有很強的能力,在數(shù)據(jù)整合速度、并行處理等方面具有優(yōu)勢。
(三)數(shù)據(jù)挖掘軟件的選擇 數(shù)據(jù)挖掘是一個過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實施經(jīng)驗與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數(shù)據(jù)挖掘軟件的時候,要全面考慮多方面的因素,主要從下面幾點進行考慮:
1.數(shù)據(jù)挖掘的功能和方法。即是否可以完成各種數(shù)據(jù)挖掘的任務(wù)[6],如:關(guān)聯(lián)分析、分類分析、序列分析、回歸分析、聚類分析、自動預(yù)測等。2.操作的簡易性。一個好的數(shù)據(jù)挖掘軟件應(yīng)該為用戶提供友好的可視化操作界面和圖形化報表工具,在進行數(shù)據(jù)挖掘的過程中應(yīng)該盡可能提高自動化運行程度。3.數(shù)據(jù)挖掘軟件的可伸縮性。也就是說解決復(fù)雜問題的能力,一個好的數(shù)據(jù)挖掘軟件應(yīng)該可以處理盡可能大的數(shù)據(jù)量,可以處理盡可能多的數(shù)據(jù)類型,如果在數(shù)據(jù)量和挖掘維數(shù)增加的情況下,挖掘的時間呈線性增長,那么可以認為該挖掘軟件的伸縮性較好。4.數(shù)據(jù)挖掘軟件的開放性。即數(shù)據(jù)挖掘軟件與數(shù)據(jù)庫的結(jié)合能力。好的數(shù)據(jù)挖掘軟件應(yīng)該可以連接盡可能多的數(shù)據(jù)庫管理系統(tǒng)和其他的數(shù)據(jù)資源,應(yīng)盡可能的與其他軟件進行集成;而且開發(fā)模型,測試模型,部署模型都要充分利用數(shù)據(jù)倉庫的處理能力,另外,多個數(shù)據(jù)挖掘項目可以同時進行。5.數(shù)據(jù)挖掘軟件的可視化。 內(nèi)容包括源數(shù)據(jù)的可視化、挖掘模型的可視化、挖掘過程的可視化、挖掘結(jié)果的可視化,可視化的程度、質(zhì)量和交互的靈活性都將嚴重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力[7]。
三、數(shù)據(jù)挖掘軟件的發(fā)展趨勢
(1)Web挖掘;加強對各種非結(jié)構(gòu)化數(shù)據(jù)的開采,如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采。(2)數(shù)據(jù)挖掘軟件的跨平臺系統(tǒng)集成。(3)生物信息或基因的數(shù)據(jù)挖掘等。(4)可視化數(shù)據(jù)挖掘;數(shù)據(jù)挖掘過程中的可視化以使知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)的過程中進行人機交互。(5)數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)的集成[8];動態(tài)數(shù)據(jù)倉庫要具備真正的競爭力,使用者必須預(yù)測將要發(fā)生的事,而且更要有正確的信息,來驅(qū)動想要讓它發(fā)生的事。(6)數(shù)據(jù)挖掘中的隱私保護與信息安全的研究。
參考文獻
[1]黃勇,曾薇,黃毅。數(shù)據(jù)挖掘技術(shù)在企業(yè)管理中的應(yīng)用研究,福建電腦 2007(4)
[2]李成。數(shù)據(jù)挖掘技術(shù)的應(yīng)用探析,學(xué)術(shù)探討,2008(6)
[3]葛新紅。數(shù)據(jù)挖掘軟件應(yīng)用分析。微計算機應(yīng)用,2005年第3期:374
[4]田宏政。數(shù)據(jù)挖掘技術(shù)及其應(yīng)用,IT技術(shù),2007(34)
[5]林宇等。數(shù)據(jù)倉庫原理與實踐。人民郵電出版社,2003年1月
[6] Margaret H·Dunham。數(shù)據(jù)挖掘教程[M]北京:清華大學(xué)出版社,2005
[7]劉英。數(shù)據(jù)挖掘及其應(yīng)用科技信息 2008(18)
[8]梅薇。數(shù)據(jù)挖掘初探,中國集體經(jīng)濟 2008(2)