宋述芳 遲乃榮 呂震宙
摘要:本文介紹了R軟件在數(shù)理統(tǒng)計(jì)教學(xué)中的應(yīng)用優(yōu)勢(shì)及大數(shù)據(jù)處理分析的延伸功能。結(jié)合數(shù)理統(tǒng)計(jì)的課程特點(diǎn)及教學(xué)內(nèi)容,舉例說(shuō)明了R軟件在數(shù)理統(tǒng)計(jì)教學(xué)中的多方面應(yīng)用以及海量數(shù)據(jù)下R的延伸及適用性,并探討了R軟件對(duì)數(shù)理統(tǒng)計(jì)教學(xué)帶來(lái)的積極作用。
關(guān)鍵詞:數(shù)理統(tǒng)計(jì);R軟件;參數(shù)估計(jì);假設(shè)檢驗(yàn);大數(shù)據(jù)
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2019)09-0231-03
一、引言
數(shù)理統(tǒng)計(jì)是理工科院校的必修公共基礎(chǔ)課,是一門應(yīng)用性很強(qiáng)又頗具特色的數(shù)學(xué)學(xué)科。數(shù)理統(tǒng)計(jì)研究的是隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律,是概率論知識(shí)的實(shí)際應(yīng)用。數(shù)理統(tǒng)計(jì)所包含的主要內(nèi)容包括收集和整理隨機(jī)樣本,利用一定的統(tǒng)計(jì)模型進(jìn)行統(tǒng)計(jì)推斷,如參數(shù)估計(jì)、假設(shè)檢驗(yàn)、統(tǒng)計(jì)回歸等。其教學(xué)要求及難點(diǎn)體現(xiàn)在掌握統(tǒng)計(jì)推斷的原理及方法,根據(jù)樣本歸納樣本所反映的統(tǒng)計(jì)規(guī)律。然而傳統(tǒng)的人工處理手段遠(yuǎn)遠(yuǎn)跟不上數(shù)據(jù)處理的廣度、精度、速度的要求。
隨著計(jì)算機(jī)分析技術(shù)和實(shí)驗(yàn)測(cè)量技術(shù)的發(fā)展,信息化數(shù)據(jù)急劇增加,海量數(shù)據(jù)的處理及分析是數(shù)理統(tǒng)計(jì)面臨的難題和挑戰(zhàn),需要借助數(shù)據(jù)處理的軟件,如Matlab、Excel、Python、C語(yǔ)言、R語(yǔ)言等。Matlab工具箱多種多樣,然而安裝包及占用CPU的空間巨大;Excel可采用豐富的函數(shù)進(jìn)行部分分析,但還需自編不容易掌握的宏程序;Python和C語(yǔ)言的分析問(wèn)題快速,然而語(yǔ)言格式非常嚴(yán)謹(jǐn),不易上手;R語(yǔ)言作為一款開(kāi)源軟件,完全免費(fèi),有龐大的社區(qū)進(jìn)行維護(hù),簡(jiǎn)單易學(xué)。
在國(guó)外高校的統(tǒng)計(jì)系,R語(yǔ)言幾乎是一門必修的語(yǔ)言,可實(shí)現(xiàn)統(tǒng)計(jì)分析、數(shù)據(jù)可視化和預(yù)測(cè)建模的數(shù)據(jù)分析。R語(yǔ)言支持幾乎所有數(shù)據(jù)分析所需要的數(shù)據(jù)處理、統(tǒng)計(jì)模型和圖表,支持大量第三方功能包,涵蓋機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué),甚至自然語(yǔ)言處理等方面。本文著重介紹R語(yǔ)言在數(shù)理統(tǒng)計(jì)中的應(yīng)用以及大數(shù)據(jù)時(shí)代R語(yǔ)言的拓展及實(shí)用性。
二、R語(yǔ)言
R語(yǔ)言是一種適用于統(tǒng)計(jì)分析和圖像處理的語(yǔ)言,是進(jìn)行統(tǒng)計(jì)分析的重要工具,是受S語(yǔ)言和Scheme語(yǔ)言影響發(fā)展而來(lái)的。
1.R語(yǔ)言安裝及基本操作。在主頁(yè)http://www.r-project.org下載R語(yǔ)言程序(通常只有幾十兆)并進(jìn)行安裝。為了方便使用,可以從http://www.rstudio.com.products/ rstudio /download/中下載圖形界面編輯器RStudio,由于RStudio集成了豐富的開(kāi)發(fā)界面,提供了方便的函數(shù)名識(shí)別及搜索功能,極大地方便了R編程計(jì)算。R包的安裝更新在RStudio的Packages選項(xiàng)下的install和Update,數(shù)據(jù)導(dǎo)入選擇環(huán)境選項(xiàng)下的Import Dataset,可以選擇合適的導(dǎo)入格式。
2.R語(yǔ)言在數(shù)理統(tǒng)計(jì)教學(xué)內(nèi)容中的應(yīng)用。數(shù)理統(tǒng)計(jì)的主要教學(xué)內(nèi)容包括隨機(jī)事件發(fā)生概率的計(jì)算、樣本的統(tǒng)計(jì)量計(jì)算、參數(shù)估計(jì)、假設(shè)檢驗(yàn)、方差分析、統(tǒng)計(jì)回歸等。R語(yǔ)言幾乎可以實(shí)現(xiàn)數(shù)理統(tǒng)計(jì)教學(xué)內(nèi)容的全部應(yīng)用。
預(yù)測(cè)2017年該地區(qū)農(nóng)業(yè)生產(chǎn)總值為49.9,95%的預(yù)測(cè)區(qū)間是[42.5,57.2];預(yù)測(cè)2018年該地區(qū)農(nóng)業(yè)生產(chǎn)總值為54.8,95%的預(yù)測(cè)區(qū)間是[46.8,62.9]。
R語(yǔ)言同樣可以實(shí)現(xiàn)數(shù)據(jù)的多元非線性回歸,通過(guò)設(shè)置不同的非線性函數(shù)求解待定系數(shù),獲得回歸方程并進(jìn)行檢驗(yàn),從而用于模型預(yù)測(cè)、指導(dǎo)決策等。
三、大數(shù)據(jù)處理
數(shù)據(jù)挖掘是當(dāng)今時(shí)代的一門核心技術(shù),提供了對(duì)大數(shù)據(jù)的描述、探索、模式的識(shí)別和預(yù)測(cè)。數(shù)據(jù)挖掘者從統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)和計(jì)算科學(xué)中尋找各種適用的方法和工具。
作為優(yōu)秀的統(tǒng)計(jì)軟件包,R語(yǔ)言也提供了強(qiáng)大的數(shù)據(jù)挖掘工具。R軟件的延伸——大數(shù)據(jù)包很好地解決了這個(gè)問(wèn)題。
1.Rattle包。Rattle包是一個(gè)用于數(shù)據(jù)挖掘的R圖形交互界面,可用于快速處理常見(jiàn)的大數(shù)據(jù)中的數(shù)據(jù)挖掘問(wèn)題,從數(shù)據(jù)整理到模型評(píng)價(jià),Rattle給出了完整的解決方案。Rattle和R平臺(tái)具有良好的交互性,簡(jiǎn)單易用,不需要有很強(qiáng)的R語(yǔ)言編程基礎(chǔ),被廣泛應(yīng)用于數(shù)據(jù)挖掘與教學(xué)中。
在R控制臺(tái)輸入install.packages("RGtk2"),install.packages("rattle"),或者直接在RStudio里面用install命令輸入這兩個(gè)功能包的名字就可以安裝。
Rattle界面從上到下依次是菜單欄、工具欄和標(biāo)簽欄,標(biāo)簽欄從左到右依次排列各自完成數(shù)據(jù)挖掘工作中的相關(guān)步驟,包括導(dǎo)入數(shù)據(jù)的Data標(biāo)簽、執(zhí)行數(shù)據(jù)探索的Explore標(biāo)簽、數(shù)據(jù)檢驗(yàn)的Test標(biāo)簽、數(shù)據(jù)聚類的Cluster標(biāo)簽、關(guān)聯(lián)規(guī)則方法的Associate標(biāo)簽、算法模塊的Model標(biāo)簽、模型評(píng)估的Evaluate標(biāo)簽等。
2.R語(yǔ)言的其他大數(shù)據(jù)包。此外,R語(yǔ)言還有一些其他的手段或數(shù)據(jù)包可用于處理大數(shù)據(jù)問(wèn)題。data.table可用于讀取處理GB級(jí)或TB級(jí)的大數(shù)據(jù)集,latticist包用于數(shù)據(jù)圖形交互,rggobi包結(jié)合GGobi軟件也可以進(jìn)行圖形交互,ggplot2包用于處理高級(jí)繪圖命令,qcc是用于統(tǒng)計(jì)質(zhì)量控制的庫(kù),sqldf能在R數(shù)據(jù)框上執(zhí)行SQL查詢。
R語(yǔ)言社區(qū)有數(shù)以百計(jì)的功能包,并且還在不斷發(fā)展擴(kuò)充著,需要我們繼續(xù)探索更多的相關(guān)功能包。
四、總結(jié)
利用R語(yǔ)言可以很方便地進(jìn)行數(shù)理統(tǒng)計(jì)分析,還可以結(jié)合R語(yǔ)言豐富的包資源環(huán)境進(jìn)行數(shù)據(jù)開(kāi)發(fā)。數(shù)理統(tǒng)計(jì)在R語(yǔ)言的加持下能夠讓學(xué)生擺脫煩躁的計(jì)算,極大地激發(fā)學(xué)生對(duì)于數(shù)理統(tǒng)計(jì)的興趣,更方便的用R語(yǔ)言工具應(yīng)用數(shù)理統(tǒng)計(jì)理論解決實(shí)際問(wèn)題,成為大數(shù)據(jù)時(shí)代的弄潮兒。
參考文獻(xiàn):
[1]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].第四版.北京:高等教育出版社,2008.
[2]薛毅,陳立萍.R語(yǔ)言在統(tǒng)計(jì)中的應(yīng)用[M].北京:人民郵電出版社,2017.
[3]楊衛(wèi).R軟件在高等數(shù)學(xué)教學(xué)中的應(yīng)用[J].新教育時(shí)代,2016,(4):205-206.
[4]閏朝暉.R軟件在多元統(tǒng)計(jì)分析教學(xué)中的應(yīng)用研究[J].科技創(chuàng)新導(dǎo)報(bào),2011,(1):157-158.
[5]呂書龍,劉文麗,梁飛豹,葉福玲.數(shù)理統(tǒng)計(jì)直觀教學(xué)的實(shí)驗(yàn)設(shè)計(jì)與R程序?qū)崿F(xiàn)[J].實(shí)驗(yàn)技術(shù)與管理,2016,33(10):142-146.
[6]崔玉杰,劉喜波.R和Python軟件在《概率論與數(shù)理統(tǒng)計(jì)》教學(xué)中應(yīng)用初探[J].教育教學(xué)論壇,2017,(12):192-193.
[7]丁新濤,周在瑩,王翠蓮,肖婧.R軟件教學(xué)的一些心得[J].課程教育研究,2013,(12):125.