王星
摘要;開源中的R語言具有很好的擴展性,它具有可視算法及多種數(shù)據分析。該文將通過對于R語言中的相關算法和技術進行分析,分析一些實際應用案例,探討一下R語言中在數(shù)據挖掘中的優(yōu)勢。
關鍵詞:R語言;數(shù)據挖掘;算法
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)07-0209-02
現(xiàn)今很多企業(yè)都采用“用數(shù)據決策”,以及“用數(shù)據說話”等方式對自身的企業(yè)進行改革以及轉變發(fā)展方向。但是利用傳統(tǒng)的數(shù)據隨機抽取、或是全樣抽取等數(shù)據收集方式,具有嚴重的實效差,已經滿足不了人們對于信息需求的實時性,而且嚴重地影響了數(shù)據的準確度。如何在大量的數(shù)據中收集到準確度度較高的信息,是一個企業(yè)提高競爭力的重要內容。
1在數(shù)據挖掘中的R語言技術
1.1Kmeans技術
Kmeans自定義算法編寫流程可以看圖1,先是進行繪制p.kmeans相關的函數(shù),之后就是對每個數(shù)據中的樣本設置相應的id號,其中mid是中心數(shù)據,c.core主要就是對數(shù)據進行集中分類。對于每個聚類的中心坐標是用Mid.core函數(shù)進行位置計算的,通過對多個中心進行計算,如果每次的計算結果都是相同的,那么就停止進行函數(shù)循環(huán)計算。否則就要繼續(xù)進行計算,指導每個中線點值都是相同的。
1.2IGRAPH技術
IGRAPH常用于電商平臺和社交網站等平臺,它主要是將每個站點的圖片等相關信息進行分析,然后獲得具有價值的數(shù)據決策。它是經過對結點和線段進行圖片構建,然后給予兩者進行賦值:比如對于線段的無方向權重,或是有向權重是多少。而且IGRAPH自身就具備多種圖片建設策略。比如圖1中的“隨機算法”可以將隨意兩點進行連線,構成圖片,對于圖片的生成也可以利用數(shù)據中“最小生成樹算法”,這樣可以構成最小連線權重。其中將兩個結點的連線穿透到第三個結點可以使用“穿插算法”,對于那種帶方向的圖片,想要對兩個結點進行連通就需要M指向N的必要條件作為支持,對于無方向的圖片,只有M與N是相互指向的才能稱為是連通的。在對圖片進行創(chuàng)建是經常使用的就是“最短路徑算法”,如果圖片中出現(xiàn)負數(shù)的權重值,那么就要使用Bellman-Ford這種算法,如果圖片中出現(xiàn)相同的權重值,或是值都是正數(shù)的話,就要用到Dijkstra這個算法。對大量的圖片進行連線和結點處理,然后通過處理就可以得到所有圖片包含的信息。比如,一些圖片相關的連線與結點數(shù)量、圖片中結點之間的距離、圖片對稱程度、圖片的每個結點是否是孤立的、每個圖片相關結點分布等信息,都可以成為根據圖片特征進行分類統(tǒng)計的依據,比如對圖片中的結點密集度,以及方向分布特征進行分析,找出圖片之間的關聯(lián)性等。
1.3Holt-Winters技術
Holt-Winters是一種基于時間序列指數(shù),屬于數(shù)據挖掘中的平常算法,它是指在某個時間段形成的趨勢數(shù)據,比如是數(shù)據的上升、保持以及下降等趨勢,通過這些數(shù)據我們可以分析一下未來數(shù)據的發(fā)展形勢。它的主要算法是通過一次和二次指數(shù)進行平滑算法,然后與預測未來數(shù)據的走向。有關一次指數(shù)的平滑計算遞推關系為:mx=cbi+(1-c)mx-1,公式中的c表示的是平滑參數(shù),而mx是表示x個數(shù)據中的平滑值,如果c的值接近1的話,那么計算出的數(shù)據結果就會越接近當前值,通過兩次的指數(shù)確定,既可以對坐標位置進行記錄了,最后可以通過三次的指數(shù)累計對季節(jié)性數(shù)據的發(fā)展趨勢進行保存,如果將三次數(shù)據進行相乘,這樣所得到的數(shù)據信息就更加準確了。
1.4Weka技術
在1992年的新西蘭關于一個機器人的項目中發(fā)展了Weka技術,其中涉及很多機器學習算法,還要很多圖片可視化環(huán)境編程,這為以后的編程人員學習提供了大量資源。首先,他可以通過知識流功能對相關多個數(shù)據進行整合,其中有數(shù)據的初始化和處理、數(shù)據的關聯(lián)設置、數(shù)據的輸出和輸入、數(shù)據的回歸和分類、數(shù)據的可視化、以及數(shù)據的聚類和評估等操作,然后,就是實現(xiàn)用命令去執(zhí)行其他命令的功能。其中的數(shù)據初始化是對數(shù)據特征進行分析的,賦予數(shù)據統(tǒng)一化的格式。其中將會用到的數(shù)據有Discretize(),Normalize(),他們分別是對離散型和標準化數(shù)據進行管理的。
Classifer是進行數(shù)據分類的,它可以通過測試數(shù)據集、交叉校驗、訓練數(shù)據集等方式對數(shù)據模型進行建設,之后可以利用Result list所提供的可視化圖片檢查歷史的數(shù)據分類,然后就可以利用classifer輸出所要的分類結果,最后對結果進行檢驗,這樣就可以看到錯誤和正確的分類數(shù)據信息,該過程有運用到幾個算法:決策樹算法J48()、提取源數(shù)據樣本Bagging()、向量分類SMOO、相鄰分類IBk()。對數(shù)據進行聚類中相關的算法有:(1)Cobweb();是構建聚類的,它通過查找與這個聚類相適應的數(shù)據,對大型的數(shù)據庫是不適用的。(2)XMeans():屬于k均值優(yōu)化法,它主要是完成自定義類別數(shù)。(3)SimpleKMeans、FarthestEirst():屬于均值算法。(4)DBScan():主要是對數(shù)據庫中具有噪音的每種形狀進行聚類。在數(shù)據聯(lián)系中最主要的算法是AprioH(),它是對少量數(shù)據進行處理。Predict算法在評估和預測中是通過聚類和分類結果進行新數(shù)據預測。Table()主要是對每兩個對象實行比較,其中執(zhí)行評估和預估模型的算法是evaluate_Weka_dassifler()。
2R語言在數(shù)據挖掘中的應用分析
不管是在門戶網站、在線游戲網站、商務網站,還是社交網站,關于訪問網站的人群、訪問目的和時間、以及網站流量、跳出網站比例、網站投入產出比等都可以通過后期匯總進行了解。這樣一來網站就可以為客戶進行針對性的服務,同樣也可以幫助網站維護人員及時發(fā)現(xiàn)問題。
將搜集到的信息進行再一次的詳細分類。這時就可以利用Analylics進行專門的數(shù)據分析,他可以對流量的類型(免費或付費)和來源、推薦鏈接或是自主搜尋的流量等進行詳細的報告,它還可以根據關鍵詞對數(shù)據進行詳細分類報告,而且對搜索的關鍵詞頻率有著非常清晰的認識。
對不同訪問網站的用戶進行詳細分類。其中包含新用戶的增加率,以及老用戶的回訪率。同時還可以進行自動創(chuàng)建用戶類別,不用通過用戶的學歷、行業(yè)、年齡性別等進行分類。類別不同的比率對于開拓新市場有著很大的影響。
評估網站的有效流量。如果在不同的時間區(qū)間里訪問量是相同的,就需要分析流量的有效性了。有效信息就是老用戶的回訪量,以及多個用戶的新訪問量。通過這樣的分析將會對網站的宣傳決策具有很大的幫助。在R語言中有一種對質量圖進行控制的方法,它被稱為P控制圖,該方法主要用于具有分類的數(shù)據分析,通過“Yes/No”的方式進行判斷,比如詢問在某時間區(qū)問是否有老用戶、流量是否是老用戶的回訪造成……當控制圖完成后,將其表現(xiàn)的狀態(tài)對以上這些類型進行比率判斷是否正常,如果有異常出現(xiàn)就需要找出關鍵問題。利用該方法時要有足夠多的數(shù)據作為支撐,關鍵問題是對于每組提供的數(shù)據記性上、下限設置。其中P圖的控制公式為:
分析用戶訪問目的。對于單一的網站訪問量來說,沒有較大的參考價值,比如放量為1萬次,既可以說是咨詢量,也可以說是購買量,兩者的分析結果迥然不同。所以,也要對客戶的訪問目的進行分析,首先要對主要的訪問信息進行分析,然后就是對搜索的關鍵詞進行分析,通過對兩者進行結合,最后進行網站開設新服務或是改版等情況進行合理決策。
對網站產出比實施分析。產出比就是流量成本和產生價值之間的比值,通過成本的控制,提高流量使用產生的最大價值。
3結束語
高效的數(shù)據采集工具,不僅需要較強的數(shù)據挖掘能力,還需要更有效的算法以及用戶體驗,而R語言不僅具有改進后的多種數(shù)據挖掘方法以及工具包,還具有開源的特征,同時還提供了界面可視化、數(shù)據挖掘任務的執(zhí)行和定義等,這些都很大程度上簡化了編程操作。另外,R語言可以進行腳本自定義來分析數(shù)據,還可以調用java語言以及C語言等。