亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘工具WEKA及其應(yīng)用研究

        2018-09-10 16:46:09楊忠誠
        企業(yè)科技與發(fā)展 2018年9期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        楊忠誠

        【摘 要】數(shù)據(jù)挖掘、知識發(fā)現(xiàn)和機器學(xué)習(xí)的研究取得了矚目的成果,一大批算法和數(shù)據(jù)集層出不窮,為讓研究者簡單、有效地測試新的算法和數(shù)據(jù),開源工具WEKA提供了一個優(yōu)秀的測試和開發(fā)平臺。目前,WEKA已成為數(shù)據(jù)挖掘研究領(lǐng)域最常用的工具。文章詳細介紹WEKA平臺的使用方法,并介紹在WEKA社區(qū)內(nèi)一些成熟的應(yīng)用模塊。

        【關(guān)鍵詞】數(shù)據(jù)挖掘;WEKA;算法;數(shù)據(jù)集層

        【中圖分類號】TP311.13 【文獻標識碼】A 【文章編號】1674-0688(2018)09-0038-02

        0 引言

        由于需要統(tǒng)一的工作臺,讓研究人員能夠輕松獲得機器學(xué)習(xí)中的最新技術(shù),懷卡托知識分析環(huán)境(Waikato Environment for Knowledge Analysis,WEKA)應(yīng)運而生。在1992年項目開始的時候,學(xué)習(xí)算法有多種語言可供使用,可用于不同的平臺,并以各種數(shù)據(jù)格式運行。收集學(xué)習(xí)機制來做數(shù)據(jù)集的比較研究,這個任務(wù)的工作量多得令人望而生畏。設(shè)想WEKA不僅提供學(xué)習(xí)算法的工具箱,而且還提供一個框架,研究人員可以實現(xiàn)新算法,而不必關(guān)心支持數(shù)據(jù)操作和方案評估的基礎(chǔ)架構(gòu)。

        目前,WEKA被認為是數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域的里程碑式系統(tǒng),被研究和商業(yè)領(lǐng)域廣泛接受,成為數(shù)據(jù)挖掘研究領(lǐng)域最常用的工具。WEKA的成功很大程度上歸功于它的開源性,用戶能夠自由使用源代碼,也就愿意改進或編寫新的項目融入擴展WEKA。

        1 WEKA工作臺

        WEKA項目旨在為研究者和練習(xí)者提供通用的機器學(xué)習(xí)算法集和數(shù)據(jù)預(yù)處理工具,用戶可以簡單快速地在WEKA工作臺上對新的數(shù)據(jù)集進行新的算法測試,其模塊化、可擴展的架構(gòu)允許用戶從廣泛的基礎(chǔ)學(xué)習(xí)算法和工具集合中構(gòu)建復(fù)雜的數(shù)據(jù)挖掘流程。通過簡單的API、插件機制和設(shè)備,可以自動將新的學(xué)習(xí)算法與WEKA的圖形用戶界面集成在一起,因此擴展工具包非常容易。工作臺包括回歸、分類、聚類、關(guān)聯(lián)規(guī)則挖掘和屬性選擇等算法。數(shù)據(jù)可視化工具和許多預(yù)處理工具很好地滿足了數(shù)據(jù)的初步探索。這些與學(xué)習(xí)計劃的統(tǒng)計評估和學(xué)習(xí)結(jié)果的可視化相結(jié)合,支持CRISP-DM等數(shù)據(jù)挖掘過程模型。

        WEKA提供許多圖形用戶界面,使得應(yīng)用算法變得極其容易。其中主要的GUI是“Explorer”,它有一個基于面板的界面,不同的面板對應(yīng)不同的數(shù)據(jù)挖掘任務(wù)。在“預(yù)處理”面板的第一個面板中,可以使用WEKA的數(shù)據(jù)預(yù)處理工具“過濾器”加載和轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)可以從各種來源加載,包括文件、URL和數(shù)據(jù)庫。支持的文件格式包括WEKA自己的ARFF格式、CSV格式、LibSVM格式和C4.5格式,也可以使用生成數(shù)據(jù)并使用數(shù)據(jù)集編輯器手動編輯數(shù)據(jù)。

        資源管理器中的第二個面板允許訪問WEKA的分類和回歸算法,相應(yīng)的面板被稱為“分類”,因為回歸技術(shù)被視為“連續(xù)分類”的預(yù)測指標。默認情況下,該面板對預(yù)處理面板中已準備的數(shù)據(jù)集上的選定學(xué)習(xí)算法運行交叉驗證,用以估計預(yù)測性能。它還顯示了從完整數(shù)據(jù)集構(gòu)建的模型的文本表示。面板還提供對模型的圖形表示的訪問,如決策樹等。此外,它可以將散點圖中的預(yù)測誤差可視化,還可以通過ROC曲線和其他閾值曲線進行評估。模型也可以保存并加載到此面板中。

        除了監(jiān)督算法,WEKA還支持應(yīng)用無監(jiān)督算法,即關(guān)聯(lián)規(guī)則挖掘的聚類算法和方法。這些資源可以在資源管理器中分別通過第三和第四個面板訪問。用戶能夠通過“集群”面板對預(yù)處理面板中加載的數(shù)據(jù)運行集群算法,為評估聚類性能提供了簡單的統(tǒng)計數(shù)據(jù)。統(tǒng)計聚類算法基于似然的性能,以及如果在數(shù)據(jù)中的某個屬性中指定了“真”聚類成員資格的比較。如果適用,聚類結(jié)構(gòu)也可能可視化,如有必要,模型可以在持久存儲。

        WEKA對聚類任務(wù)的支持并不像對分類和回歸的支持那么廣泛,但是它擁有更多的聚類技術(shù),而不僅僅是關(guān)聯(lián)規(guī)則挖掘技術(shù),關(guān)聯(lián)規(guī)則挖掘目前在某種程度上被忽略了。盡管如此,它還是包含了該領(lǐng)域最著名算法及其他一些算法的實現(xiàn)。這些方法可以通過Explorer中的Associate面板訪問。

        數(shù)據(jù)挖掘在實際應(yīng)用中最重要的任務(wù)之一是識別數(shù)據(jù)中哪些屬性是最具預(yù)測性的。為此,WEKA的資源管理器有一個用于屬性選擇的專用面板——“選擇屬性”,它提供了各種算法和評估標準,用于識別數(shù)據(jù)集中最重要的屬性。由于可以將不同的搜索方法與不同的評估標準結(jié)合起來,因此可以配置各種可能的候選技術(shù)。所選屬性集的健壯性可以通過基于交叉驗證的方法進行驗證。屬性選擇面板主要設(shè)計用于探索性數(shù)據(jù)分析。WEKA的“Filtered Classifier”(可通過Classify面板訪問)可將屬性選擇技術(shù)與基礎(chǔ)分類或回歸算法結(jié)合使用,以避免在獲得的性能估計中引入積極的偏差。

        在許多實際應(yīng)用中,數(shù)據(jù)可視化提供了重要功能,會通知為當前問題選擇適當算法的過程,有些甚至可以避免使用機器學(xué)習(xí)和數(shù)據(jù)挖掘算法進一步分析。資源管理器中的最后一個面板稱為“可視化”,它提供了一個顏色編碼的散點圖矩陣,以及通過選擇該矩陣中的單個繪圖并選擇部分數(shù)據(jù)以進行可視化從而進行向下鉆取的選項。也可以獲得關(guān)于單個數(shù)據(jù)點的信息,并以選定的量級給數(shù)據(jù)添加隨機噪聲以發(fā)現(xiàn)模糊的數(shù)據(jù)。

        Explorer專為基于批處理的數(shù)據(jù)處理而設(shè)計:培訓(xùn)數(shù)據(jù)將全部加載到內(nèi)存中,然后進行處理。這可能不適用于涉及大型數(shù)據(jù)集的問題。但是,WEKA有一些允許增量模型構(gòu)建的算法,可以通過命令行界面以增量模式應(yīng)用。這些算法的增量特性在資源管理器中被忽略,但可以使用WEKA的一組圖形用戶界面的新增功能來利用這些算法。大多數(shù)可以解決的任務(wù)與資源管理器也可以由知識流處理。但是,除了基于批處理的訓(xùn)練之外,其數(shù)據(jù)流模型還可以使用處理節(jié)點進行增量更新,這些節(jié)點可以在將各個實例提供給適當?shù)脑隽繉W(xué)習(xí)算法之前加載和預(yù)處理這些實例。它還提供可視化和評估的節(jié)點。一旦配置了相互連接的處理節(jié)點的設(shè)置,它就可以保存下來供以后重新使用。

        WEKA中的第三個主要圖形用戶界面是“Experimenter”,該接口旨在便于根據(jù)WEKA中提供的許多不同評估標準對算法的預(yù)測性能進行實驗性比較。實驗可能涉及跨多個數(shù)據(jù)集運行的多種算法,如使用重復(fù)的交叉驗證。實驗還可以分布在網(wǎng)絡(luò)中的不同計算節(jié)點上,以減少單個節(jié)點的計算負載。一旦建立了實驗,可以將其保存為XML或二進制格式,以便在必要時重新訪問它。配置和保存的實驗也可以從命令行運行。與WEKA的其他用戶界面相比,數(shù)據(jù)挖掘從業(yè)者可能不太經(jīng)常使用Experimenter。但是,一旦在資源管理器中進行了初步實驗,使用這種替代界面為特定數(shù)據(jù)集或數(shù)據(jù)集的集合確定合適的算法通常會更容易??偨Y(jié)WEKA主要圖形用戶界面的簡要說明,無論用戶需要哪種用戶界面,提供用于運行WEKA的Java虛擬機都有足夠的堆空間是非常重要的。為了避免交換,需要預(yù)先指定所需的內(nèi)存量(應(yīng)設(shè)置為低于所用機器的物理內(nèi)存量)。

        2 基于WEKA的項目

        有很多項目以某種方式擴展或集成到WEKA中,包括以下方面。

        (1)自然語言處理系統(tǒng)。有許多工具使用WEKA進行自然語言處理:GATE是NLP工作臺;Balie執(zhí)行語言識別、標記、句子邊界檢測和命名實體識別;Senseval-2是一個用于詞義解歧的系統(tǒng);Kea是一個自動關(guān)鍵短語提取系統(tǒng)。

        (2)生物學(xué)中的知識發(fā)現(xiàn)。已經(jīng)開發(fā)了幾種使用或基于WEKA的工具來分析生物學(xué)應(yīng)用中的數(shù)據(jù):BioWEKA是WEKA在生物學(xué)、生物信息學(xué)和生物化學(xué)方面的任務(wù)的擴展工具;表位工具包(EpiT)是基于WEKA開發(fā)表位預(yù)測工具的平臺;maxdView和Mayday提供微陣列數(shù)據(jù)的可視化和分析。

        (3)分布式并行數(shù)據(jù)挖掘。有許多項目擴展WEKA以用于分布式數(shù)據(jù)挖掘:Weka-Parallel提供分布式交叉驗證功能;GridWeka提供分布式評分和測試及交叉驗證;FAEHIM和Weka4WS使WEKA可以提供網(wǎng)絡(luò)服務(wù)。

        (4)開源數(shù)據(jù)挖掘系統(tǒng)。幾個眾所周知的開源數(shù)據(jù)挖掘系統(tǒng)都提供插件來訪問WEKA的算法,Konstanz Information Miner(KNIME)和RapidMiner是兩個這樣的系統(tǒng)。R統(tǒng)計計算環(huán)境也通過RWeka軟件包提供與WEKA的接口。

        (5)科學(xué)的工作環(huán)境。Kepler Weka項目將WEKA的所有功能集成到Kepler開源科學(xué)工作流平臺中。

        3 結(jié)語

        本文首先介紹了WEKA平臺的使用方法,對其面板上的插件進行了詳細的說明并分析了各插件之間的關(guān)聯(lián)關(guān)系,其次將WEKA作為開源軟件發(fā)布并在Java中實現(xiàn),最后介紹了WEKA社區(qū)中使用者開發(fā)集成的一些成熟的應(yīng)用模塊。本文可以為使用WEKA進行數(shù)據(jù)挖掘的學(xué)者提供很好的參考。

        參 考 文 獻

        [1] 趙陽.WEKA系統(tǒng)及其在數(shù)據(jù)挖掘教學(xué)中的應(yīng)用[J].科技信息,2008(30).

        [2] 鄭繼剛,楊春華,曾慶紅,等.基于WEKA平臺的不確定數(shù)據(jù)挖掘[J].保山學(xué)院學(xué)報,2010(5).

        [3] 陳氏映雪(Tran Thi Anh Tuyet).WEKA環(huán)境下模糊聚類算法集成研究[D].上海:上海大學(xué),2013.

        [4]劉曉華.基于WEKA的數(shù)據(jù)挖掘技術(shù)在物流系統(tǒng)中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟,2007(22).

        [5] 廖強.基于關(guān)聯(lián)規(guī)則挖掘的WEKA數(shù)據(jù)挖掘應(yīng)用[J].計算機光盤軟件與應(yīng)用,2012(19).

        [6] 王彥增,曹正.基于WEKA數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的分析及應(yīng)用舉例[J].經(jīng)濟論壇,2013(1).

        [責(zé)任編輯:鐘聲賢]

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        青青草视频在线观看网| av中文字幕综合在线| 91精品国产91| 免费看男女啪啪的视频网站 | 成人大片免费视频播放一级| 国产成人无码精品久久久露脸| 国产精品jizz视频| 日韩中文字幕一区二区高清| 91亚洲夫妻视频网站| 精品人妻伦一二三区久久| 爆爽久久久一区二区又大又黄又嫩| 天天综合久久| 一区二区免费国产a在亚洲 | 无码精品人妻一区二区三区漫画| 性生交大全免费看| 一本一本久久久久a久久综合激情| 日韩字幕无线乱码免费| 第一次处破女18分钟高清| 久久国产热这里只有精品| 亚洲国产精品500在线观看| 在线免费观看毛视频亚洲精品| 亚洲人成网站在线播放2019| 免费无码毛片一区二区三区a片| 青青草综合在线观看视频| 男女搞基视频免费网站| √天堂中文官网在线| 国产精品乱码在线观看| 日韩精品人妻中文字幕有码| 在线精品首页中文字幕亚洲| 亚洲精品熟女国产| 欧美亚洲国产人妖系列视| 亚洲一区二区三区在线高清中文| 久久99国产精品久久99| 久久tv中文字幕首页| 亚洲国产av自拍精选| 中文字幕国产精品一二三四五区| 人妻丰满熟妇av无码片| 久久久国产不卡一区二区| 国产一区二区三区 在线观看| 日韩精品久久无码中文字幕| 日韩欧美区|