亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于RapidMiner的SVM分類方法設(shè)計(jì)

2015-02-07 10:40:54貴州師范大學(xué)物理與電子科學(xué)學(xué)院

電子世界 2015年16期

關(guān)鍵詞：正例開(kāi)源類別

貴州師范大學(xué)物理與電子科學(xué)學(xué)院陳葡

貴州財(cái)經(jīng)大學(xué)管理科學(xué)學(xué)院陳葵

貴州師范大學(xué)物理與電子科學(xué)學(xué)院游子毅

基于RapidMiner的SVM分類方法設(shè)計(jì)

貴州師范大學(xué)物理與電子科學(xué)學(xué)院陳葡

貴州財(cái)經(jīng)大學(xué)管理科學(xué)學(xué)院陳葵

貴州師范大學(xué)物理與電子科學(xué)學(xué)院游子毅

大數(shù)據(jù)時(shí)代背景下，數(shù)據(jù)挖掘技術(shù)是人們面對(duì)浩瀚的數(shù)據(jù)所必備的技能，也是提高數(shù)據(jù)利用的有效方式，使用現(xiàn)有的數(shù)據(jù)挖掘工具可以減少數(shù)據(jù)挖掘的時(shí)間，Rapidminer是一個(gè)開(kāi)源的數(shù)據(jù)挖掘工具，其可視化特性，使用者容易學(xué)習(xí)和掌握，其開(kāi)源性，使用者可以免費(fèi)使用。本文通過(guò)在Rapidminer中使用SVM方法對(duì)UCI的一個(gè)數(shù)據(jù)集進(jìn)行分類的實(shí)驗(yàn)，介紹如何使用Rapidminer進(jìn)行數(shù)據(jù)挖掘。

數(shù)據(jù)挖據(jù)；RapidMiner；SVM；分類

引言

大數(shù)據(jù)時(shí)代的背景下，如何在龐雜的數(shù)據(jù)中找到針對(duì)每個(gè)人特點(diǎn)的有用數(shù)據(jù)是大數(shù)據(jù)技術(shù)的一個(gè)重要組成部分，這給數(shù)據(jù)挖掘技術(shù)帶來(lái)了新的機(jī)遇與挑戰(zhàn)。數(shù)據(jù)挖掘是指從大量、雜亂的實(shí)際數(shù)據(jù)中，提取隱藏在其內(nèi)部、潛在有用的信息和知識(shí)的過(guò)程，然后把提取出的信息和知識(shí)表示為規(guī)律、概念、模式、規(guī)則等形式[1]。數(shù)據(jù)挖掘過(guò)程一般包括以下步驟，依次是數(shù)據(jù)預(yù)處理、特征選擇、模型選擇和模型評(píng)估[1]。

RapidMiner是一個(gè)可視化開(kāi)源數(shù)據(jù)挖掘工具，可進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和商業(yè)預(yù)測(cè)分析[2]。其可視化特性，較其他開(kāi)源的數(shù)據(jù)挖掘工具而言，初學(xué)者很容易入門(mén)；其開(kāi)源特性，較其他開(kāi)源的數(shù)據(jù)挖掘工具而言，使用者可以免費(fèi)使用。在RapidMiner中將相應(yīng)算子（operataor）進(jìn)行連接形成流程(process)實(shí)現(xiàn)數(shù)據(jù)挖掘功能，整個(gè)流程就像是車間的生產(chǎn)流水線，原材料進(jìn)入流水線生產(chǎn)后生產(chǎn)出成品，在RapidMiner中輸入原始數(shù)據(jù)，經(jīng)過(guò)流程后輸出模型評(píng)價(jià)結(jié)果或預(yù)測(cè)結(jié)果。算子就像是執(zhí)行某種具體功能的函數(shù)，不同算子有不同的輸入輸出特性。大概包括以下幾類算子：流程控制類，實(shí)現(xiàn)循環(huán)和條件功能；數(shù)據(jù)輸入和輸出類，實(shí)現(xiàn)數(shù)據(jù)交換；數(shù)據(jù)轉(zhuǎn)換類，數(shù)據(jù)抽取、清洗整理功能；建模類，分類回歸建模，關(guān)聯(lián)分析、聚類分析、集成學(xué)習(xí)等；評(píng)估類，多重交叉檢驗(yàn)，自助法檢驗(yàn)等[1]。

1 數(shù)據(jù)挖掘常用算法

數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代背景下占有很重要的地位，為了滿足用戶能在龐大的數(shù)據(jù)中篩選出有用數(shù)據(jù)的需要，數(shù)據(jù)挖掘中的分類技術(shù)是當(dāng)前使用最為廣泛的方法之一[2]。分類分析首先將待處理的數(shù)據(jù)分成訓(xùn)練集和測(cè)試集，然后使用分類算法模型分析訓(xùn)練集中的數(shù)據(jù)，為訓(xùn)練集中的每個(gè)類別做出描述并建立分析模型或挖掘出分類規(guī)則，接著將該模型或分類規(guī)則放到測(cè)試集中進(jìn)行驗(yàn)證，根據(jù)評(píng)價(jià)參數(shù)對(duì)模型進(jìn)行評(píng)價(jià)并進(jìn)行改進(jìn)，最后用該模型或分類規(guī)則對(duì)未來(lái)的或其他數(shù)據(jù)庫(kù)中的記錄進(jìn)行分類的方法。常見(jiàn)的分類算法有決策樹(shù)、神經(jīng)網(wǎng)絡(luò)和SVM等，本文采用SVM方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類[3]。

SVM算法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上，根據(jù)有限的樣本信息在模型的復(fù)雜性（即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度）和學(xué)習(xí)能力（即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力）之間尋求最佳折衷，在通用文本分類領(lǐng)域取得了成功，是眾多分類算法中公認(rèn)的效果最好的方法之一，具有分類精度高、魯棒性好等諸多優(yōu)點(diǎn)[4]。

2.實(shí)驗(yàn)環(huán)境

2.1 數(shù)據(jù)集

本文采用UCI Machine Learning Repository中的Chronic_Kidney_Disease數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)，該數(shù)據(jù)集中有400條數(shù)據(jù)，25個(gè)屬性，400條數(shù)據(jù)分為兩類（ckd和notckd），其中250條數(shù)據(jù)屬于ckd，150條數(shù)據(jù)屬于notckd，在Rapidminer5.3中使用SVM進(jìn)行實(shí)驗(yàn)。

2.2 實(shí)驗(yàn)步驟

實(shí)驗(yàn)步驟如下：step1、將Chronic_Kidney_Disease數(shù)據(jù)集導(dǎo)入Rapidminer5.3后，在主流程(main process)為該數(shù)據(jù)集新建一個(gè)庫(kù)(Repository)；step2、選擇模型(modeling)中的SVM放入主流程(main process)中，因?yàn)镾VM處理的數(shù)據(jù)不允許有缺失，不允許處理一些特殊的數(shù)據(jù)類型，比如polynomial，所以在選擇模型之前使用數(shù)據(jù)類型轉(zhuǎn)換和用一些特殊值替換缺失值對(duì)數(shù)據(jù)進(jìn)行預(yù)處理；step3、設(shè)置SVM中的相關(guān)參數(shù)(parameter)；step4、進(jìn)行算子連接，實(shí)驗(yàn)流程如圖1所示；step5、點(diǎn)擊運(yùn)行（Run）按鈕執(zhí)行流程得到結(jié)果。

圖1 流程圖

2.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中采用召回率(Recall)、精確率(Precision)、正確率(Accuracy)三個(gè)方面作為基本評(píng)價(jià)指標(biāo)。假設(shè)原始樣本有兩類（0和1），假設(shè)類別1為正例，類別0為負(fù)例，為方便敘述，先定義幾個(gè)變量，P：類別為1的數(shù)量；N：類別為0 的數(shù)量。

TP：分類后類別為1的樣本被正確判定為類別1的數(shù)量；FN：分類后類別為1的樣本被系統(tǒng)誤判定為類別0的數(shù)量；FP：分類后類別為0的樣本被系統(tǒng)誤判定為類別1的數(shù)量；TN：分類后類別為0的樣本被系統(tǒng)誤判定為類別0的數(shù)量；P=TP+FN；N=FP+TN。精確度：P=TP/(TP+FP)，即正例檢對(duì)率，反映了被分類器判定的正例中真正的正例樣本的比重。正確率：A=(TP+TN)/(P+N)，所有類別的判對(duì)率，反映了分類器對(duì)整個(gè)樣本的判定能力。召回率：R=TP/(TP+FN)，即正例檢出率，反映了分類器正確判定的正例占總的正例的比重。本實(shí)驗(yàn)的精確度、準(zhǔn)確率、召回率如圖2所示。

圖2 實(shí)驗(yàn)結(jié)果

3 總結(jié)

大數(shù)據(jù)時(shí)代背景下，為了滿足用戶能在龐大的數(shù)據(jù)中篩選出有用數(shù)據(jù)的需要，數(shù)據(jù)挖掘中的分類技術(shù)是當(dāng)前使用最為廣泛的方法之一。針對(duì)現(xiàn)有的數(shù)據(jù)挖據(jù)工具中如果開(kāi)源那么界面不夠友好或如果界面友好卻是商業(yè)化的工具的問(wèn)題，本文采用界面友好的開(kāi)源數(shù)據(jù)挖掘工具RapidMiner進(jìn)行數(shù)據(jù)挖據(jù)（SVM），可以提高數(shù)據(jù)挖掘中算法的性能與效率，發(fā)揮實(shí)際應(yīng)用價(jià)值。

[1]I．Mierswa,M．Wurst,R．Klinkenberg,M．Scholz,and T．Euler．Yale:Rapid prototyping for complex data mining tasks．In Proc．KDD‘06, pages 935-940,2006．

[2]王雅軒,頊聰．?dāng)?shù)據(jù)挖掘技術(shù)的綜述[J]．電子技術(shù)與軟件工程,2015,4:204-205．

[3]何峽峰．淺析數(shù)據(jù)挖掘中的分類算法[J]．電子制作,2015,4: 221-222．

[4]陳葡．基于詞序列核的垃圾郵件過(guò)濾[J]．武漢大學(xué)學(xué)報(bào)(理學(xué)版),2011,10:419-423．

陳葡（1985—），女，碩士研究生，現(xiàn)從事無(wú)線傳感器與數(shù)據(jù)挖掘研究。

“基于VANET的最佳路徑選擇研究”，2014年貴州省科學(xué)技術(shù)聯(lián)合基金項(xiàng)目（黔科合LH字[2014]7045）。