亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于R軟件的數(shù)據(jù)挖掘應(yīng)用

2017-01-01 00:00:00李韻

現(xiàn)代職業(yè)教育·職業(yè)培訓(xùn) 2017年6期

[摘要] R軟件集成了多種數(shù)據(jù)分析和可視化方法，具有強(qiáng)大的分析能力和出色的擴(kuò)展性，因此被廣泛應(yīng)用于數(shù)據(jù)挖掘之中。通過(guò)聚類分析和分類回歸樹方法給出了R軟件在數(shù)據(jù)挖掘中的應(yīng)用。從簡(jiǎn)潔的腳本設(shè)計(jì)和出眾的分析效果展示了 R 軟件的基本特點(diǎn)及其在數(shù)據(jù)挖掘中的優(yōu)勢(shì)。

[關(guān) 鍵詞] R軟件；數(shù)據(jù)挖掘；聚類分析；分類回歸樹

[中圖分類號(hào)] F407.67 [文獻(xiàn)標(biāo)志碼] A [文章編號(hào)] 2096-0603（2017）18-0045-01

近年來(lái)，隨著電子商務(wù)、社交網(wǎng)站、移動(dòng)終端應(yīng)用開發(fā)的興起，企業(yè)對(duì)用戶基本數(shù)據(jù)、行為數(shù)據(jù)、網(wǎng)絡(luò)痕跡數(shù)據(jù)等信息的掌握逐漸成為其在信息領(lǐng)域的核心競(jìng)爭(zhēng)力，“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策”已成為企業(yè)未來(lái)發(fā)展的基石。然而，傳統(tǒng)數(shù)據(jù)在全樣抽取時(shí)存在時(shí)效性差、不適合處理實(shí)時(shí)數(shù)據(jù)的缺陷，因此，如何從數(shù)據(jù)中挖掘出有價(jià)值的信息就顯得十分重要。

一、數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)文件包括通用型文件如純文本文件、Excel等，通過(guò)加載不同的功能模塊，R軟件還可以讀取多種數(shù)據(jù)文件。通過(guò)安裝 RODBC、RJDBC和RMySQL可以獲取對(duì) ODBC、JDBC和Oracle 數(shù)據(jù)源的訪問(wèn)能力。由于實(shí)際應(yīng)用中往往需要對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行挖掘，R 軟件提供的針對(duì)各種數(shù)據(jù)源的訪問(wèn)接口具有很強(qiáng)的適用性。

二、數(shù)據(jù)挖掘建模

（一）聚類分析

k-means是經(jīng)典的基于劃分的聚類方法，其基本思想是使聚類性能指標(biāo)最小化。所用的聚類準(zhǔn)則函數(shù)是聚類集中每個(gè)樣本點(diǎn)到該類中心的距離平方之和，應(yīng)使其最小化。為此，首先根據(jù)給定聚類數(shù)K，為每個(gè)聚類確定一個(gè)初始聚類中心；其次將樣本集里的各個(gè)樣本按最小距離原則分配到最鄰近的聚類，并使用每個(gè)聚類中的樣本均值作為新的聚類中心，如此重復(fù)直到聚類中心不發(fā)生變化；最后可獲得K個(gè)聚類。

R軟件中可以用k-means（）函數(shù)來(lái)進(jìn)行聚類。聚類可視化采用判別投影繪制函數(shù)plotcluster（），把數(shù)據(jù)對(duì)象映射平面空間，展示聚類之間的異構(gòu)性。以數(shù)據(jù)集iris為例。所用代碼見(jiàn)表1。

（二）分類回歸樹分析

R軟件提供的分類回歸樹函數(shù)有很多種，為簡(jiǎn)化獲得的分類回歸樹模型，避免產(chǎn)生過(guò)度擬合，常采用的分類回歸樹函數(shù)為rpart（），rpart（）可以建立一個(gè)分類回歸樹，并且可以選擇最小誤差的預(yù)測(cè)。利用rpart包中的bodyfat數(shù)據(jù)集建立分類回歸樹，然后用該分類回歸樹預(yù)測(cè)，所用代碼見(jiàn)表2。

優(yōu)秀的數(shù)據(jù)挖掘工具一方面要求豐富的數(shù)據(jù)挖掘功能，另一方面也需要優(yōu)化的算法和用戶體驗(yàn)，R軟件具備構(gòu)建實(shí)用性強(qiáng)的數(shù)據(jù)挖掘系統(tǒng)的各種條件，且具有開源的特點(diǎn)，交互方式提供可視化界面，還支持?jǐn)?shù)據(jù)挖掘工作流的任務(wù)定義與執(zhí)行，簡(jiǎn)化了編程人員的操作。此外，可通過(guò)自定義腳本來(lái)進(jìn)行分析功能及其他諸如C語(yǔ)言、java語(yǔ)言的調(diào)用等。因此，R語(yǔ)言未來(lái)將在大數(shù)據(jù)的挖掘領(lǐng)域有更廣泛的應(yīng)用。

參考文獻(xiàn)：

邵峰晶，于忠清.數(shù)據(jù)挖掘原理與算法[M].北京：中國(guó)水利水電出版社，2003.

現(xiàn)代職業(yè)教育·職業(yè)培訓(xùn)2017年6期

現(xiàn)代職業(yè)教育·職業(yè)培訓(xùn)的其它文章: 探討高校后勤突發(fā)事件風(fēng)險(xiǎn)評(píng)估機(jī)制的構(gòu)建; 頂崗實(shí)習(xí)期間高職學(xué)生黨建工作初探; 淺談安全保衛(wèi)工作在學(xué)校教育中的作用; 中等職業(yè)學(xué)校如何加強(qiáng)現(xiàn)代農(nóng)藝專業(yè)建設(shè); 淺談成人校農(nóng)民教育培訓(xùn)質(zhì)量管理的缺失及對(duì)策; 運(yùn)用微信公眾平臺(tái)高效管理班級(jí)