吳劍 錢進
摘 要:智能制造是工業(yè)發(fā)展方向,為了適應(yīng)“大數(shù)據(jù)”時代人才培養(yǎng)的需求,在學(xué)習《概率論與數(shù)理統(tǒng)計》的理論知識之外,讓工科本科生具有基本數(shù)據(jù)分析的能力,使用R軟件對概率論與數(shù)理統(tǒng)計部分的理論進行模擬,對數(shù)理統(tǒng)計的數(shù)據(jù)進行可視化,對學(xué)生理解理論、培養(yǎng)學(xué)生讀懂數(shù)據(jù)有重要的意義。因此本文初步探討使用R軟件進行概率論數(shù)理統(tǒng)計的輔助教學(xué),為進一步課程的深化改革提供參考,目的是把《概率論與數(shù)理統(tǒng)計》打造成有難度的“金課”。
關(guān)鍵詞:R語言;回歸;數(shù)理統(tǒng)計
一、 引言
概率論的理論基礎(chǔ)可以按照其他大學(xué)數(shù)學(xué)課程的學(xué)習方法進行學(xué)習,而數(shù)理統(tǒng)計是應(yīng)用科學(xué)的基礎(chǔ),當數(shù)據(jù)較大時,需要借助統(tǒng)計軟件去模擬,及實現(xiàn)數(shù)據(jù)的可視化,因此使用統(tǒng)計軟件輔助概率論與數(shù)理統(tǒng)計教學(xué),讓工科的學(xué)生更好地掌握概率論的理論,懂得統(tǒng)計學(xué)的方法及簡單的應(yīng)用是重要的。
R語言是專業(yè)的統(tǒng)計軟件,是統(tǒng)計計算、數(shù)據(jù)可視化的優(yōu)秀工具,同時R也是免費開源的軟件,其官網(wǎng)和鏡像網(wǎng)站中可以下載安裝程序、源代碼和程序包等,它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學(xué)計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活地利用這些函數(shù)進行數(shù)據(jù)分析,甚至可以通過不同方法的組合,創(chuàng)造出符合需要的新統(tǒng)計計算方法。
使用計算機語言輔助大學(xué)數(shù)學(xué)的教學(xué)相關(guān)研究較多,韓海燕介紹了使用Matlab軟件對《概率論與數(shù)理統(tǒng)計》課程進行輔助教學(xué),它主要利用進行圖形可視化和數(shù)學(xué)運算。江海峰研究了蒙特卡洛模擬在概率論與統(tǒng)計教學(xué)中的應(yīng)用,作者分析了該算法的應(yīng)用,并沒有介紹如何實現(xiàn),也沒有介紹使用的軟件。劉宣研究了R語言在大學(xué)數(shù)學(xué)教學(xué)中的應(yīng)用。因此對于工科概率論與數(shù)理統(tǒng)計課程的教學(xué)者,亟須把統(tǒng)計軟件應(yīng)用到教學(xué)中,并發(fā)展案例教學(xué)的方法,讓學(xué)習者更好的理解統(tǒng)計學(xué)的基本概念,懂得如何進行數(shù)據(jù)處理。
二、 R軟件的模擬應(yīng)用
工科的《概率論與數(shù)理統(tǒng)計》課程中,中心極限定理是概率論中重要的定理之一,其定理敘述如下:
x1,x2,…,xn是獨立同分布的隨機變量,期望μ與方差σ2都存在,設(shè)部分和序列為
Sn=∑ni=1xi,ESn=nμ,DSn=nσ2,則對于任意的實數(shù)x,標準化部分和序列的分布函數(shù)
Fn(x)收斂到標準正態(tài)分布的分布函數(shù),
PSn-nμnσ≤x→φ(x)=∫x-∞12πe-t22dt
該定理文字解釋很直觀,即某個隨機現(xiàn)象由大量隨機因素組成,各個因素起到的作用均勻且可忽略,則這個隨機現(xiàn)象可以用正態(tài)分布去描述,但是學(xué)生很難理解為什么隨機變量序列只要求獨立同分布,而不要求服從具體的分布,即無論服從什么分布,標準化部分和序列都服從正態(tài)分布,因此我們使用蒙特卡洛模擬,給學(xué)生直觀的認識。
假設(shè)x1,x2,…,xn服從參數(shù)為2的泊松分布,n=10000,計算其前n項部分和,并中心標準化,計算
Sn-ESnDSn,并模擬100000次,利用這些數(shù)據(jù)生成概率密度函數(shù)的估計,模擬的結(jié)果可視化的形式呈現(xiàn)給學(xué)生。
使用核概率密度函數(shù)估計,可以看出雖然給定的變量是泊松分布,但是標準化部分和序列的概率密度與標準正態(tài)的密度的形狀相似。
三、 R軟件線性回歸的演示
在線性回歸中,最小二乘法及回歸的計算相對復(fù)雜,解釋困難,因此利用實際數(shù)據(jù),配合圖形講解回歸的方法是讓學(xué)生快速掌握方法的較好途徑,采用如下的模擬方式,假設(shè)真實的模型為
Yi=a+bxi+εi,i=1,2,…,100,εi~N(0,σ2),取σ2=1,2,3三個不同噪聲等級下,
a=2,b=3觀察回歸的效果。再取誤差服從t(4),觀察在有異常數(shù)據(jù)點下最小二乘的效果,利用一條直線擬合這些數(shù)據(jù),使得這些數(shù)據(jù)距離直線的平方和最小,即是最小二乘的思想,隨著信噪比不斷地增加,數(shù)據(jù)的離散程度越來越大,模擬中還引入了厚尾的t分布,探索最小二乘估計的穩(wěn)健性,從表1中可以看到,隨著數(shù)據(jù)的離散程度越來越大,估計10000次的中位數(shù)與真值的距離越來越大,同時也關(guān)注R2
的取值越來越小,意味著擬合效果越來越差。從誤差為t分布的模擬結(jié)果和回歸直線可以看到,最小二乘回歸對異常數(shù)據(jù)點的影響是敏感的,因此可以適當探索其他的回歸估計方法。
四、 總結(jié)
由于工科學(xué)生動手能力較強,抽象思維能力相對理科學(xué)生較弱,因此適當?shù)睦媒y(tǒng)計軟件進行模擬研究,把結(jié)果直觀演示給學(xué)生,對學(xué)生掌握該方法提供了直觀的解釋。對于統(tǒng)計軟件的輔助作用就是更直觀地把數(shù)據(jù)及統(tǒng)計方法呈現(xiàn)給學(xué)生,更好地理解理論的推導(dǎo)和應(yīng)用,理論和應(yīng)用相結(jié)合,培養(yǎng)工科學(xué)生實踐能力和創(chuàng)新能力。
參考文獻:
[1]韓海燕.MATLAB軟件和概率論與數(shù)理統(tǒng)計教學(xué)的整合研究[J].科技信息,2011(14):202.
[2]江海峰.MCS在概率論與數(shù)理統(tǒng)計教學(xué)中的應(yīng)用研究[J].數(shù)理統(tǒng)計與管理,2008,27(4):740-747.
[3]劉宣.基于R語言的大學(xué)數(shù)學(xué)教學(xué)初探[N].福建師大福清分校學(xué)報,2015(5):45-48.
作者簡介:吳劍,錢進,遼寧省沈陽市,東北大學(xué)。