宋晶晶
(長治學院,山西 長治 046011)
本文基于R 語言這一數據挖掘工具的研究背景,包括R 語言的數據總結和總結算法,對相關的數據準確整理、統(tǒng)計、分析的作用及R 語言作為數據挖掘工具發(fā)揮的相關作用進行研究。R 語言對建模數據的要求包括在建模過程或挖掘過程中進行相關的數據處理。與此同時,對所分布的數據進行分析,并對建模過程中的相關事件進行分析,數據挖掘工具的相關應用,包括在后文中所要介紹的設計方面,這些內容都會在建模的基礎上來進行。
R 語言現(xiàn)已成為數據的通用語言,它適用于數據整理。R 語言的數據挖掘工具也提供了許多數據統(tǒng)計分析的制圖方法,不僅滿足了人們對數據各式各樣的要求,還創(chuàng)造出了一條紐帶來構建數據和數據之間的聯(lián)系。用戶可以通過下載的程序,或者加載更多的軟件包來滿足在其他方面的需求。此外,R 語言還有許多比較完善的相關擴展作用。在R 語言總結方面的電子商務網站中,用戶完成數據下載后,對于當前數據沒有透徹的了解,不能進行下一步的挖掘工作,但是R 語言可以向用戶提供一系列的統(tǒng)計方法,以圖表的方式來反映數據的信息。這樣既可以幫助用戶對數據有一個非常直觀的了解,也能夠為客戶提供處理的思路。用戶還可以通過此軟件分析其他方面的數據問題,這些都是R 語言的有用之處[1]。
在直觀分布中,用戶可以借助R 語言以圖形的方式向客戶展示更多的數據,有利于客戶更好地理解相關數據。這種方法不僅可以使用戶清楚加載數據中存在的錯誤,也可以輔助其更好地改正錯誤,指導用戶選擇不同的方式進行變換變量,并且也選擇自己感興趣的數據內容進行分析。R 語言還提供了許多用于圖形方式呈現(xiàn)的數據選項。在某些方面,R 語言是最有能力將數據變?yōu)榭梢暬恼Z言之一,它能夠使用不同的圖形進行變換,激發(fā)用戶的興趣,使呈現(xiàn)在顧客眼前的數據形式多種多樣。在直觀分布象中,用戶可以選擇感興趣的特定變量和不同的分布圖對數據進行多元化分析。
在數據提取過程中,用戶會花費更多的時間進行數據匹配。為了提高數據的有效性,本設計提出改進數據提取方式以實現(xiàn)目標,清除并且處理丟失的數據。數據分類組件能夠提供合適的方法來幫助用戶。數據錯誤、部分數據丟失、異常數據值等這些都是用戶下載數據的過程中常遇到的問題。數據的整理在整個R 語言挖掘技術中有著非常重要的地位,是數據挖掘不可或缺的一步。
對用戶而言,不同的模型對數據有不同的要求,用戶可以根據已建立的模型選擇相應的數據縮放方法來實現(xiàn)對數據的處理。數據縮放主要是根據用戶本身對數據的相關要求進行縮放,它的可變性強,可以根據用戶的要求改變。
數據插補就是填補數據空白或缺少值。數據丟失有各種原因,例如,數據在傳輸的過程中會出現(xiàn)丟失的情況,這種情況會使數據之間的連接不連貫。因此就需要通過數據的插補進行修復,這樣可以引用用戶的數據,使用戶掌握相應的插補方式,保證數據的價值,使那些沒有足夠價值的數據被代替或被刪除。用戶也可以對沒有價值的數據進行刪除、自我排查。
數據轉換是按數據類別、指令和類型進行的。層次結構允許將連續(xù)的數值變量明確轉換為特定值。數據的轉換對于數據的處理有著非常重要的作用,它不僅可以通過轉換的方式使數據變得更加完善,這對于數據的轉換起著很重要的作用。
在這個模型中,此技術為用戶提供群體分類、關聯(lián)分析、決策樹和景觀模型,使用戶能夠快速找到合適的模型。在顯示建模過程中優(yōu)化默認設置的同時,用戶可以修改參數以滿足其需求,這就是建模的目的。
聚類分析是最常用的數據提取方法之一。在沒有數據錯亂的情況下,聚類分析可以將數據匯總到不同的類別中,這是用戶之間數據可比性的基礎。這一類別的數據盡可能相似,根據實際情況,在擴展R 語言中選擇相應的聚類計算方法。
關聯(lián)的相關分析作為數據挖掘中非常重要的一項技術,用來發(fā)現(xiàn)這些數據或變量之間的相關性,包括對數據的關聯(lián)進行相關分析,這些對后期處理數據有非常大的幫助。與此同時,這些相關性的表現(xiàn)為相關規(guī)則的一種結合方式。后關聯(lián)分析的時間算法較多,這樣可以根據R 語言的擴展進行相關算法的擴展,這對關聯(lián)與算法之中的分析也有著非常重要的作用。因此,關聯(lián)分析在建模中是一項非常重要的內容。
決策樹是經典的數據挖掘和相關學習的一種算法。建模的過程存在許多決策樹的算法。根據R 語言的不同性和相關性,用戶可以進行許多種不同的算法。同時,用戶也可以選擇相應的擴展包進行相應的算法,包括函數等算法,可以使用決策樹來進行計算,這樣可以在建模過程中減少計算量[2]。另外一種就是隨機森林,決策樹雖然提供了非常簡單的模型,但是這種模型較簡單,不能過于具體。因此在許多情況下,設計要將這些簡單的模型組合在一起,這就是隨機森林。隨機森林是許多決策樹模型組成在一起的一個大模型,它的算法也很多,可以根據R 語言的擴展來實現(xiàn)。隨機森林可以在函數中進行隨機計算,它在許多方面發(fā)揮著巨大的作用。隨機森林能夠解決決策失誤這種簡單的問題,也可以實時解決一些大的問題。
對于此次建模的評價,在不同的模型中,要選擇最合適的模型,必須要對所選的模型進行相關的評估與數據的計算,保證在建模的過程中可以更好地理解所建的模型,包括這個模型數據處理的能力也要在評估范圍之內。模型的評價可以確定在模型創(chuàng)建時,比如,數據的標量是否出現(xiàn)錯誤,建模時模型的好壞,這都是對于建模的評價[3]。
在建模過程中,用戶不僅要進行關聯(lián)的分析,還要進行相關R 語言的計算。以上是基于R 語言工具對這次數據加載模塊的方式總結,這樣可以更直觀地了解R 語言在數據挖掘基礎之中的相關應用。通過建模的方式,用戶可以更好地理解相關應用的方式。由此看來,將R 語言挖掘工具技術用于數據研究未來會有更多的建模方式。這些建模方式會在以后的許多領域中得到應用,并且發(fā)揮重要作用。