[摘 要] R軟件集成了多種數(shù)據(jù)分析和可視化方法,具有強(qiáng)大的分析能力和出色的擴(kuò)展性,因此被廣泛應(yīng)用于數(shù)據(jù)挖掘之中。通過(guò)聚類分析和分類回歸樹方法給出了R軟件在數(shù)據(jù)挖掘中的應(yīng)用。從簡(jiǎn)潔的腳本設(shè)計(jì)和出眾的分析效果展示了 R 軟件的基本特點(diǎn)及其在數(shù)據(jù)挖掘中的優(yōu)勢(shì)。
[關(guān) 鍵 詞] R軟件;數(shù)據(jù)挖掘;聚類分析;分類回歸樹
[中圖分類號(hào)] F407.67 [文獻(xiàn)標(biāo)志碼] A [文章編號(hào)] 2096-0603(2017)18-0045-01
近年來(lái),隨著電子商務(wù)、社交網(wǎng)站、移動(dòng)終端應(yīng)用開發(fā)的興起,企業(yè)對(duì)用戶基本數(shù)據(jù)、行為數(shù)據(jù)、網(wǎng)絡(luò)痕跡數(shù)據(jù)等信息的掌握逐漸成為其在信息領(lǐng)域的核心競(jìng)爭(zhēng)力,“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策”已成為企業(yè)未來(lái)發(fā)展的基石。然而,傳統(tǒng)數(shù)據(jù)在全樣抽取時(shí)存在時(shí)效性差、不適合處理實(shí)時(shí)數(shù)據(jù)的缺陷,因此,如何從數(shù)據(jù)中挖掘出有價(jià)值的信息就顯得十分重要。
一、數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)文件包括通用型文件如純文本文件、Excel等,通過(guò)加載不同的功能模塊,R軟件還可以讀取多種數(shù)據(jù)文件。通過(guò)安裝 RODBC、RJDBC和RMySQL可以獲取對(duì) ODBC、JDBC和Oracle 數(shù)據(jù)源的訪問(wèn)能力。由于實(shí)際應(yīng)用中往往需要對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行挖掘,R 軟件提供的針對(duì)各種數(shù)據(jù)源的訪問(wèn)接口具有很強(qiáng)的適用性。
二、數(shù)據(jù)挖掘建模
(一)聚類分析
k-means是經(jīng)典的基于劃分的聚類方法,其基本思想是使聚類性能指標(biāo)最小化。所用的聚類準(zhǔn)則函數(shù)是聚類集中每個(gè)樣本點(diǎn)到該類中心的距離平方之和,應(yīng)使其最小化。為此,首先根據(jù)給定聚類數(shù)K,為每個(gè)聚類確定一個(gè)初始聚類中心;其次將樣本集里的各個(gè)樣本按最小距離原則分配到最鄰近的聚類,并使用每個(gè)聚類中的樣本均值作為新的聚類中心,如此重復(fù)直到聚類中心不發(fā)生變化;最后可獲得K個(gè)聚類。
R軟件中可以用k-means()函數(shù)來(lái)進(jìn)行聚類。聚類可視化采用判別投影繪制函數(shù)plotcluster(),把數(shù)據(jù)對(duì)象映射平面空間,展示聚類之間的異構(gòu)性。以數(shù)據(jù)集iris為例。所用代碼見(jiàn)表1。
(二)分類回歸樹分析
R軟件提供的分類回歸樹函數(shù)有很多種,為簡(jiǎn)化獲得的分類回歸樹模型,避免產(chǎn)生過(guò)度擬合,常采用的分類回歸樹函數(shù)為rpart(),rpart()可以建立一個(gè)分類回歸樹,并且可以選擇最小誤差的預(yù)測(cè)。利用rpart包中的bodyfat數(shù)據(jù)集建立分類回歸樹,然后用該分類回歸樹預(yù)測(cè),所用代碼見(jiàn)表2。
優(yōu)秀的數(shù)據(jù)挖掘工具一方面要求豐富的數(shù)據(jù)挖掘功能,另一方面也需要優(yōu)化的算法和用戶體驗(yàn),R軟件具備構(gòu)建實(shí)用性強(qiáng)的數(shù)據(jù)挖掘系統(tǒng)的各種條件,且具有開源的特點(diǎn),交互方式提供可視化界面,還支持?jǐn)?shù)據(jù)挖掘工作流的任務(wù)定義與執(zhí)行,簡(jiǎn)化了編程人員的操作。此外,可通過(guò)自定義腳本來(lái)進(jìn)行分析功能及其他諸如C語(yǔ)言、java語(yǔ)言的調(diào)用等。因此,R語(yǔ)言未來(lái)將在大數(shù)據(jù)的挖掘領(lǐng)域有更廣泛的應(yīng)用。
參考文獻(xiàn):
邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2003.