摘要:當(dāng)今社會(huì),數(shù)據(jù)無(wú)處不在,數(shù)據(jù)挖掘技術(shù)作為一種新的信息處理技術(shù),從海量的數(shù)據(jù)中找出有潛在價(jià)值的數(shù)據(jù)規(guī)律或數(shù)據(jù)模型#65377;用人工的方式難以實(shí)現(xiàn)這個(gè)目標(biāo),Weka是一種可用于數(shù)據(jù)挖掘的工具,數(shù)據(jù)挖掘用戶(hù)可使用Weka執(zhí)行數(shù)據(jù)預(yù)處理,分類(lèi),回歸,聚類(lèi),關(guān)聯(lián)規(guī)則等任務(wù)#65377;以Weka自帶的數(shù)據(jù)集為例,詳細(xì)介紹作為易于使用的數(shù)據(jù)挖掘工具Weka的使用#65377;
關(guān)鍵詞:數(shù)據(jù)挖掘工具Weka
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)06-10000-00
Using Weka as Data Mining Tool
LU Yuan-rong
(GuangDong Polytechnic College,Department of Computer., GuangZhou 510520, China)
Abstract: As a knowledge discovery technology that Data Mining extracts valuable rules or models from huge raw data around us. Using tools can contribute to the achievement of this goal. WEKA is a comprehensive tool bench for data mining. Data Preprocessing, Classification, clustering algorithms and Association Rules have been implemented in Weka. This paper introduces how to use this data mining tools by using the dataset within Weka.
Key words: data mining; tool; Weka
1 引言
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一個(gè)開(kāi)放源碼的數(shù)據(jù)挖掘軟件#65377;Weka也是新西蘭獨(dú)有的一種鳥(niǎo)名,而Weka的主要開(kāi)發(fā)者來(lái)自新西蘭的Waikato大學(xué)#65377;數(shù)據(jù)挖掘用戶(hù)可通過(guò)Weka集成的大量算法,使用Weka執(zhí)行數(shù)據(jù)預(yù)處理,分類(lèi),回歸,聚類(lèi),關(guān)聯(lián)規(guī)則,數(shù)據(jù)可視化等任務(wù)#65377;而開(kāi)發(fā)者則可使用Java語(yǔ)言,利用Weka的架構(gòu)上開(kāi)發(fā)出更多的數(shù)據(jù)挖掘算法#65377;
使用Weka可以輕松地進(jìn)行數(shù)據(jù)挖掘,可以在數(shù)據(jù)集上運(yùn)用數(shù)據(jù)挖掘算法和進(jìn)行數(shù)據(jù)預(yù)處理,下面介紹如何利用Weka自帶的數(shù)據(jù)集,從頭開(kāi)始進(jìn)行數(shù)據(jù)挖掘#65377;
2 軟件安裝
(1)下載并安裝JDK5
JDK5的下載地址:http://java.sun.com/javaee/downloads/index.jsp,下載完畢雙擊文件jdk-1_5_0_13-windows-i586-p.exe,按照提示操作即可#65377;
(2)下載并安裝WEKA3.4.12
WEKA下載地址:http://www.cs.waikato.ac.nz/ml/weka/,下載完畢雙擊文件weka-3-4-12jre.exe,按照提示操作即可#65377;
安裝完畢,運(yùn)行WEKA#65377;
3 啟動(dòng)WEKA
(1)WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件#65377;
(2)啟動(dòng)WEKA,單擊【Explorer】/【Openfile…】,打開(kāi)一個(gè).arff文件,在本例中,使用的是在WEKA安裝文件夾【date】子文件夾中自帶的soybean.arff進(jìn)行數(shù)據(jù)挖掘,在圖1中顯示的是預(yù)處理界面,在其中顯示了該文件的一些屬性,例如:關(guān)系名稱(chēng)為“soybean”,一共有683個(gè)實(shí)例,36個(gè)屬性#65377;
圖1 預(yù)處理(preprocess)界面
(3)單擊【Edit…】,可以看到WEKA所處理的WEKA所處理的數(shù)據(jù)集是如圖2所示的二維表格#65377;表格里的一個(gè)橫行稱(chēng)作一個(gè)實(shí)例(Instance),相當(dāng)于數(shù)據(jù)庫(kù)中的一條記錄#65377;豎行稱(chēng)作一個(gè)屬性(Attrbute),相當(dāng)于數(shù)據(jù)庫(kù)中的一個(gè)字段#65377;這樣一個(gè)表格表現(xiàn)的屬性之間的一種關(guān)系(Relation)#65377;
圖2 以二維表格形式顯示的
4 數(shù)據(jù)預(yù)處理(DataPreprocessing)
(1)數(shù)據(jù)預(yù)處理能夠幫助改善數(shù)據(jù)的質(zhì)量,進(jìn)而幫助提高數(shù)據(jù)挖掘進(jìn)程的有效性和準(zhǔn)確性#65377;數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清洗#65380;數(shù)據(jù)集成#65380;數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)消減#65377;
(2)在WEKA中,有預(yù)處理模塊,這個(gè)模塊就是在圖1中所示的界面#65377;在本例中,單擊圖3所示的【choose】按鈕,然后按照?qǐng)D4所示,選擇【Normalize】算法過(guò)濾數(shù)據(jù),相當(dāng)于對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理#65377;
圖3選擇過(guò)濾算法
圖4選擇過(guò)濾算法
(3)單擊圖1中的【Apply】按鈕,得到數(shù)據(jù)預(yù)處理的結(jié)果,如圖5所示。
圖5 數(shù)據(jù)預(yù)處理結(jié)果
5 分類(lèi)(Classification)
(1)分類(lèi)就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類(lèi)識(shí)別未知數(shù)據(jù)的歸屬或類(lèi)別,即將未知事例映射到某種離散類(lèi)別之一#65377;
(2)切換到【Classify】選項(xiàng)卡,單擊【Choose】按鈕后,在樹(shù)型框里選擇DecisionTable這個(gè)分類(lèi)算法,算法的設(shè)置參數(shù)采用默認(rèn)值#65377;
(3)單擊【Start】按鈕
(4)分類(lèi)結(jié)果在窗口右邊顯示出來(lái)#65377;
(5)操作過(guò)程如圖6所示
圖6 數(shù)據(jù)分類(lèi)的操作
6 聚類(lèi)分析(ClusterAnalysis)
(1)聚類(lèi)分析是一個(gè)將數(shù)據(jù)集劃分為若干組或類(lèi)的過(guò)程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象是不相似的#65377;
(2)在本例中,選擇K均值這種聚類(lèi)分析方法#65377;
(3)切換【Cluster】選項(xiàng)卡
(4)單擊【Choose】按鈕選擇【SimpleKMeans】,點(diǎn)擊旁邊的文本框,修改【numClusters】為5,即把683個(gè)實(shí)例聚成5類(lèi),即K=5#65377;【seed】數(shù)設(shè)為10#65377;
(5)單擊【Start】
(6)聚類(lèi)結(jié)果在窗口右方顯示出來(lái)#65377;
(7)觀察可視化的聚類(lèi)結(jié)果#65377;在左下方【Resultlist】列出的結(jié)果上右擊,選擇【Visualizeclusterassignments】彈出的窗口給出了各實(shí)例的散點(diǎn)圖,如圖7所示#65377;
圖7 可視化聚類(lèi)結(jié)果
7 關(guān)聯(lián)規(guī)則(AssociationAnalysis)
(1)關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價(jià)值描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識(shí)#65377;在本實(shí)驗(yàn)中,選擇Apriori算法
(2)切換到【Associate】選項(xiàng)卡
(3)單擊【Choose】按鈕選擇【Apriori】,選擇默認(rèn)的參數(shù)設(shè)置
(4)單擊【Start】
(5)結(jié)果在窗口右方顯示,其中可以看到WEKA找到了10條關(guān)聯(lián)規(guī)則#65377;
8 結(jié)束語(yǔ)
經(jīng)過(guò)上述的實(shí)際操作,數(shù)據(jù)挖掘的初學(xué)者將會(huì)對(duì)利用WEKA進(jìn)行數(shù)據(jù)挖掘有初步了解,也對(duì)整個(gè)數(shù)據(jù)挖掘的流程加深了認(rèn)識(shí),知道可以怎樣用和如何用數(shù)據(jù)挖掘的理論知識(shí)#65377;要更好地使用WEKA,需要加強(qiáng)對(duì)數(shù)據(jù)挖掘算法的理解,才能更好地選擇數(shù)據(jù)#65380;設(shè)置算法的參數(shù),繼而設(shè)置符合自己需要的算法,最后能夠根據(jù)挖掘出來(lái)的結(jié)果,進(jìn)行分析,提高業(yè)務(wù)的績(jī)效#65377;
參考文獻(xiàn):
[1]Pang-NingTan,MichaelSteinbach,VipinKumar,IntroductiontoDataMining[M],北京,PostsTelecomPress,2007.
[2]JiaweiHan,MichelineKamber,DataMiningConceptsandTechniques(2ndEdition)[M],北京,ChinaMachinePress,2006#65377;
[3]Weka中文站點(diǎn),http://wiki.wekacn.org/index.php/Weka
[4]Weka英文站點(diǎn),http://weka.sourceforge.net/wiki/index.php/Frequently_Asked_Questions
[5]AlexK.Seewald,tousingWeka3.4.6fromthecommandline,http://weka.sourceforge.net/wekadoc/index.php/en%3APrimer
[6]王木林.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)在教學(xué)管理中的應(yīng)用.電腦知識(shí)與技術(shù)[J].2007:525-527
收稿日期:2008-01-12
作者簡(jiǎn)介:陸遠(yuǎn)蓉(1971-)女,廣東省人,講師#65380;多媒體應(yīng)用設(shè)計(jì)師,碩士,研究方向?yàn)樾畔⒐芾?65380;教育技術(shù)#65377;