王麗麗 趙 娟
(合肥學(xué)院<人工智能與大數(shù)據(jù)學(xué)院數(shù)學(xué)與統(tǒng)計(jì)系,安徽 合肥 230601)
數(shù)理統(tǒng)計(jì)是理工科院校數(shù)學(xué)與統(tǒng)計(jì)專業(yè)的必修專業(yè)課,是一門從隨機(jī)數(shù)據(jù)中獲取信息、發(fā)現(xiàn)規(guī)律并指導(dǎo)決策的科學(xué)。 數(shù)理統(tǒng)計(jì)以概率論為基礎(chǔ),研究大量隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律, 其主要內(nèi)容有參數(shù)估計(jì)、假設(shè)檢驗(yàn)、方差分析和回歸分析。由于計(jì)算機(jī)的應(yīng)用,數(shù)理統(tǒng)計(jì)在自然科學(xué)、工程技術(shù)、管理科學(xué)及人文社會科學(xué)中的應(yīng)用越來越廣泛和深入,而傳統(tǒng)的“理論+推導(dǎo)+例題講解” 的上課方式已經(jīng)無法滿足數(shù)理統(tǒng)計(jì)的教學(xué)要求。 隨著大數(shù)據(jù)時代的到來,計(jì)算機(jī)技術(shù)的普及和各種統(tǒng)計(jì)軟件的廣泛應(yīng)用,減少數(shù)理統(tǒng)計(jì)教學(xué)中復(fù)雜理論知識的講解和繁復(fù)的證明,著重介紹模型的應(yīng)用背景和應(yīng)用實(shí)例, 并介紹一款統(tǒng)計(jì)軟件工具,力爭每個實(shí)例都能以算法實(shí)現(xiàn),就顯得尤為重要了。
統(tǒng)計(jì)軟件R 是以一種S 語言的擴(kuò)展實(shí)現(xiàn)作圖和數(shù)據(jù)分析的系統(tǒng),是一個優(yōu)秀的統(tǒng)計(jì)計(jì)算和可視化的軟件。 相對于目前廣泛使用的商業(yè)統(tǒng)計(jì)SAS、SPSS 軟件而言,統(tǒng)計(jì)軟件R 最大的特點(diǎn)是:開源,版本更新快,有大量的用于各種任務(wù)的庫。 尤其是有許多使用統(tǒng)計(jì)軟件R 的各領(lǐng)域的學(xué)者源源不斷地提供最新和最前沿的開源軟件包可供使用。本文著重介紹統(tǒng)計(jì)軟件R 在數(shù)理統(tǒng)計(jì)教學(xué)中的探索與應(yīng)用。
用戶可根據(jù)自己計(jì)算機(jī)所用的操作系統(tǒng), 從R 官方網(wǎng)站或其遍及各國的CRAN 鏡像站點(diǎn)選擇對應(yīng)的版本下載。目前R 最新版文件命名形式已統(tǒng)一為R-x.x.xwin.exe,直接運(yùn)行,并選擇安裝目錄及選裝內(nèi)容即可。
R 是一種解釋型語言,輸入的指令可以直接被執(zhí)行。在提示符后可以以交互式的行命令方式一個個地輸入指令,也可以創(chuàng)建一個腳本文件并以此方式運(yùn)行所寫的腳本文件。許多擴(kuò)展的、新的開發(fā)包可以在“程序包”選單選擇安裝加載。
常用函數(shù):max(),min(),which.max(),which.min(),length(),sum(),prod(),mean(),median(),var(),cov(),cor(),std(),quantile(),summary(),rev(),sort(),order(),rank()常與統(tǒng)計(jì)函數(shù)聯(lián)用的兩個重要的函數(shù):apply(),sweep()
表1 R 中常用的分布函數(shù)
R 軟件在統(tǒng)計(jì)分析時為處理方便準(zhǔn)確,提供了更為細(xì)致的有關(guān)概率函數(shù)。 這些函數(shù)包括四類:d(密度函數(shù)),p(分布函數(shù)),q(分位數(shù)函數(shù)),r(隨機(jī)數(shù)生成函數(shù))。
數(shù)理統(tǒng)計(jì)第一章主要介紹基本概念理論,包括常見統(tǒng)計(jì)量如樣本均值、方差、樣本矩的計(jì)算;散點(diǎn)圖、餅圖、直方圖、盒裝圖、莖葉圖等的繪制;抽樣分布、經(jīng)驗(yàn)分布函數(shù)等的直觀展示。 R 具有便捷的數(shù)據(jù)可視化系統(tǒng),除了常規(guī)的圖形之外,還可作出美觀、個性化的圖案,如小提琴圖,臉譜圖等。 在上課過程中,結(jié)合學(xué)生參加全國大學(xué)生市場調(diào)查與分析大賽的題目和調(diào)查問卷收集的數(shù)據(jù),作出臉譜圖,引起了學(xué)生極大的興趣。 附R-語言程序及執(zhí)行結(jié)果如下:
圖1 臉譜圖
在臉譜圖中,臉的長度、寬度、臉型及嘴的高度、寬度分別代表著品牌的高端、性價比高、安全可靠、智能及方便。
數(shù)理統(tǒng)計(jì)第二章主要介紹的是參數(shù)估計(jì),包括點(diǎn)估計(jì)中的矩估計(jì)和極大似然估計(jì)、區(qū)間估計(jì)、估計(jì)量的評價標(biāo)準(zhǔn)和克拉默-拉奧不等式。
例:已知某人分別搭乘公共汽車和地鐵上班所需的時間數(shù)據(jù),假設(shè)其服從正態(tài)分布。假設(shè)分別有65 分鐘和58 分鐘可用,問應(yīng)選取哪種交通工具上班?
解:輸入數(shù)據(jù),R-語言程序及計(jì)算結(jié)果如下:
時間限制 65 時 P(x<=65)的估計(jì):乘公汽 0.7233102;乘地鐵0.7699699
時間限制 58 時 P(x<=58)的估計(jì):乘公汽 0.5295298;乘地鐵0.1969957
所以,假設(shè)有65 分鐘可用,應(yīng)乘地鐵上班;假設(shè)有58 分鐘可用,應(yīng)乘公交車上班。
數(shù)理統(tǒng)計(jì)第三章主要介紹的是假設(shè)檢驗(yàn)。假設(shè)檢驗(yàn)是統(tǒng)計(jì)推斷的一個重要方面,包括參數(shù)假設(shè)檢驗(yàn)和非參數(shù)假設(shè)檢驗(yàn)。
例:廠家A、B、C 是生產(chǎn)某一產(chǎn)品的知名企業(yè),在過去的一年里,它們的市場占有率分別是15%、35%、25%。 廠家A 為了提高市場占有率,對該產(chǎn)品進(jìn)行了改進(jìn)。 現(xiàn)進(jìn)行抽樣調(diào)查,對銷售出的200 件調(diào)查的結(jié)果如表2 所示:
表2 廠商銷售量數(shù)據(jù)
依據(jù)調(diào)查數(shù)據(jù)對該產(chǎn)品的市場占有率是否發(fā)生變化做出判斷,以便為廠家A 下一步的決策提供依據(jù)(顯著性水平0.05)
解: 設(shè) p1,p2,p3分別為廠家 A、B、C 的市場占有率, 現(xiàn)進(jìn)行非參數(shù)假設(shè)檢驗(yàn):H0∶p1=0.15,p2=0.35,p3=0.25 R-語言程序及計(jì)算結(jié)果如下:
所以,不拒絕H0,即現(xiàn)有數(shù)據(jù)不拒絕“市場占有率未變”這一論斷。
數(shù)理統(tǒng)計(jì)第四章介紹的是兩種非常重要的統(tǒng)計(jì)方法:方差分析和回歸分析。
例:某企業(yè)逐年用于技術(shù)改造資金x(單位:萬元)與產(chǎn)品銷售利潤的增加額y(單位:萬元)資料如下:
表3 某企業(yè)技術(shù)改造投入與銷售利潤數(shù)據(jù)
若使利潤增加額以95%的概率在100 萬~150 萬元之間,利用一元線性回歸預(yù)測,技術(shù)改造資金應(yīng)在何范圍內(nèi)?
解:①建立一元回歸方程;②預(yù)測。R-語言程序及計(jì)算結(jié)果如下:
通過觀察t 檢驗(yàn)和F 檢驗(yàn)的p 值,可判斷自變量和整個模型都是顯著的。 技術(shù)改造資金應(yīng)在38.87萬~42.89 萬之間,才能使利潤增加額以95%的概率在100 萬~150 萬之間。
數(shù)理統(tǒng)計(jì)是一門應(yīng)用性非常強(qiáng)的學(xué)科,在近幾年的教學(xué)過程中, 我們突出了數(shù)理統(tǒng)計(jì)基本思想的介紹,適當(dāng)略去了復(fù)雜的公式推導(dǎo)和定理證明。 著重介紹統(tǒng)計(jì)方法和模型的應(yīng)用背景和應(yīng)用實(shí)例,并引入統(tǒng)計(jì)軟件R,力爭每個實(shí)例都能以算法實(shí)現(xiàn),以期全面改善教學(xué)效果。
通過兩個學(xué)期的教學(xué)實(shí)踐,我們發(fā)現(xiàn)使用R 軟件后, 學(xué)生擺脫了煩瑣的計(jì)算,R 強(qiáng)大的互動性極大地激發(fā)了學(xué)生的學(xué)習(xí)興趣。 未來,我們將進(jìn)一步探索R在教學(xué)中的應(yīng)用,使學(xué)生能夠在領(lǐng)會各種統(tǒng)計(jì)方法的基本思想的基礎(chǔ)上,自覺地、得心應(yīng)手地借助R 軟件來解決遇到的各種實(shí)際問題。