王中旺+金哲植
摘 要 統(tǒng)計學(xué)是應(yīng)用數(shù)學(xué)的一個分支,主要通過利用概率論建立數(shù)學(xué)模型,收集所觀察系統(tǒng)的數(shù)據(jù),進(jìn)行量化分析、總結(jié),做出推斷和預(yù)測,為相關(guān)決策提供依據(jù)和參考。它被廣泛地應(yīng)用在各門學(xué)科之上,從物理學(xué)到社會科學(xué),到人文科學(xué),甚至被用來工商業(yè)及政府的情報決策之上。隨著數(shù)字化的進(jìn)程不斷加快,產(chǎn)生的數(shù)據(jù)量越來越大,因此,在統(tǒng)計學(xué)的教學(xué)中,數(shù)據(jù)分析軟件的使用是個必然趨勢。
關(guān)鍵詞 Matlab 統(tǒng)計學(xué) 工具箱
中圖分類號:G424 文獻(xiàn)標(biāo)識碼:A DOI:10.16400/j.cnki.kjdkx.2017.12.044
Abstract Statistics is a branch of Applied Mathematics, mainly through the use of probability theory to establish the mathematical model, the observation system to collect data, quantitative analysis and summary, to make inferences and prediction, provide the basis and reference for the relevant decision-making. It is widely used in a variety of subjects, from physics to social sciences, to the humanities, and even to industry, commerce and government intelligence decisions. With the acceleration of the digital process, the amount of data is increasing. Therefore, the use of data analysis software is an inevitable trend in the teaching of statistics.
Keywords Matlab; Statistics; toolbox
0 引言
目前,在統(tǒng)計學(xué)的教學(xué)過程中,使用的數(shù)據(jù)分析軟件種類很多,例如SAS,R,SPSS,Matlab 等,各式各樣的軟件在教學(xué)過程中的使用,極大地提高了課堂效率和計算的準(zhǔn)確度,但是,選擇使用的軟件種類也尤為重要。如果選擇的軟件過于專業(yè)化,會增加非統(tǒng)計專業(yè)的學(xué)生學(xué)習(xí)統(tǒng)計學(xué)的難度,影響課堂上的學(xué)習(xí)效率;如果選擇的軟件過于簡潔,忽視了處理的過程,不利于學(xué)生對知識點的記憶和理解。[1-2]筆者認(rèn)為Matlab軟件非常適用于統(tǒng)計學(xué)的教學(xué)過程,尤其是統(tǒng)計工具箱的使用,不需要編程基礎(chǔ),操作簡潔,只要求學(xué)生對統(tǒng)計學(xué)的知識有一定的理解,能夠設(shè)置相關(guān)參數(shù)即可。[3]
1 Matlab統(tǒng)計工具箱在教學(xué)中的應(yīng)用
1.1 概率分布
隨機變量的統(tǒng)計行為取決于其概率分布,而分布函數(shù)常用連續(xù)和離散型分布。統(tǒng)計工具箱提供20種分布。每種分布有五類函數(shù),分別為:概率密度(pdf);累積分布函數(shù)(cdf);逆累積分布函數(shù)(icdf);隨機數(shù)產(chǎn)生器;均值和方差函數(shù)。
1.1.1 生成隨機數(shù)
隨機數(shù)在統(tǒng)計學(xué)中,很多的計算機隨機模擬實驗中會用到,是實驗進(jìn)行的關(guān)鍵。例如生成一個或多個服從二項分布的隨機數(shù):
>>binornd(10,0.7)
ans=6
>> binornd(10,0.7,2,4)
ans =
9 5 8 5
9 7 7 6
1.1.2 概率密度函數(shù)和累計分布函數(shù)
對于實驗而言,如果知道了該實驗的概率密度函數(shù)或者累計分布函數(shù),也就意味著掌握了實驗的全部信息。通過計算機畫某個分布的概率密度函數(shù)或者累計分布函數(shù),會使學(xué)生對該分布有一個直觀的印象,同時加深理解。
在Matlab中,求標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)及累計分布函數(shù):
>>x=-4:0.01:4;y=normpdf(x,0,1);z= normcdf(x,0,1);subplot(1,2,1);plot(x,y,'k');
>>axis([-4,4,-0.1,0.5]); subplot(1,2,2);plot(x,z,'k'); axis([-4,4,-0.1,1.1]);
1.2 參數(shù)估計與假設(shè)檢驗
1.2.1 參數(shù)估計
在很多的實際問題中,都會使用到參數(shù)估計,區(qū)間估計的方法使用得更多。理論聯(lián)系實際,通過與學(xué)生共同探討實際問題,會激發(fā)學(xué)生的學(xué)習(xí)興趣,同時也能夠讓學(xué)生更好地理解抽象的理論知識。
有這樣的一個實際問題,在一家飲料加工廠,生產(chǎn)出來的罐裝飲料的體積服從正態(tài)分布,其均值為550ml,方差為2,現(xiàn)收集到20個隨機樣本,求95%的置信區(qū)間。利用Matlab統(tǒng)計工具箱中的normfit函數(shù),進(jìn)行計算:
>>r=[552.0972,551.3214,555.0175,552.1269, 552.3138, 550.106,547.4232,549.2576,548.4844,48.8721,551.1103,548.8864,48.2098,549.1813,549.6782,550.8187,548.0947,550.6346, 550.156,552.6488]'
>> [mu,sigma]=normfit(r)
mu =550.3220 sigma =1.8931endprint
從而可得95%的置信區(qū)間。
1.2.2 假設(shè)檢驗
假設(shè)檢驗的方法眾多,對于已知的信息不同,構(gòu)造的統(tǒng)計量也有所不同。通過一個實際的例子,運用Matlab統(tǒng)計工具箱,解決該問題。
某車間用一臺包裝機包裝葡萄干,包好的袋裝葡萄干的重量是一個隨機變量,它服從正態(tài)分布,當(dāng)機器正常運行時,其均值為0.5kg,標(biāo)準(zhǔn)差為0.015,某日開工后為了檢驗包裝機器是否正常,隨機的抽取所包裝的9袋,稱其重為(單位:kg):
0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512
問機器是否正常?
提出假設(shè)::=0.5;:≠0.5
>>X=[0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512];
>>[h,sig,ci,zval]=ztest(X,0.5,0.015,0.05,0)
結(jié)果顯示為:
h=1 sig=0.0248 ci=0.5041 0.5210 zval=2.2444
結(jié)果表明:h=1,說明在水平 =0.05下,可拒絕原假設(shè),即認(rèn)為包裝機工作不正常。
1.3 回歸分析
回歸分析是統(tǒng)計分析的重要組成部分,用回歸分析方法建模是一種常用的有效方法,但是在計算的過程中會涉及到大量的算術(shù)運算,如果不使用軟件,在課程教學(xué)中會耽誤進(jìn)度,以及影響計算的準(zhǔn)確率。[5]
案例:對以下數(shù)據(jù)進(jìn)行回歸分析,
X=[143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164];
Y=[88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102]
Step1:輸入數(shù)據(jù)。
>> x=[143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164];X=[ones(16,1),x];
>> Y=[88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102];
Step2:回歸分析及檢驗。
>> [b,brint,r,rint,stats]=regress(Y,X)
% b為的估計值,brint為回歸系數(shù)的區(qū)間估計,r為殘差,rint為殘差的置信區(qū)間,stats為用于檢驗回歸模型的統(tǒng)計量。
得結(jié)果:b=-16.0730 brint=-33.7071 1.5612
0.7194 0.6047 0.8340
stats=0.9282 180.9531 0.0000
即 =-16.073,=0.7194;的置信區(qū)間為[-33.7017,1.5612]。的置信區(qū)間為[0.6047,0.834];r2=0.9282,F(xiàn)=180.9531,=0.0000,我們知道<0.05就符合條件,可知回歸模型=-16.073+0.7194成立。
Step3:殘差分析,做殘差圖。
>>rcoplot(r,rint)
Step4:預(yù)測及作圖。
>>z=b(1)+b(2)*x
>>plot(x,Y,'k+',x,z,'r')
2 開展隨機模擬實驗,激發(fā)學(xué)生學(xué)習(xí)興趣
統(tǒng)計學(xué)作為應(yīng)用數(shù)學(xué)的一個分支,必然涉及到很多的數(shù)學(xué)知識,對于很多數(shù)學(xué)基礎(chǔ)不太好的學(xué)生,失去了學(xué)習(xí)統(tǒng)計學(xué)的興趣。其實,部分學(xué)生沒有學(xué)習(xí)統(tǒng)計學(xué)的興趣,也跟老師課堂授課風(fēng)格有關(guān)系,傳授知識太過于理論化,缺少實踐教學(xué)。太過于嚴(yán)肅的課堂氛圍,使學(xué)生感到有壓力,會對該學(xué)科失去興趣。授課老師應(yīng)當(dāng)加強與學(xué)生的互動,利用Matlab工具箱,可以適當(dāng)?shù)拈_展隨機模擬實驗,老師向?qū)W生演示,也可以邀請學(xué)生共同參與。
例如,進(jìn)行拋硬幣的隨機模擬實驗,驗證當(dāng)試驗次數(shù)足夠多,頻率趨近于概率。當(dāng)然,進(jìn)行實驗時,不要求學(xué)生掌握編寫的程序,重在讓學(xué)生參與其中,重在讓學(xué)生觀察實驗現(xiàn)象。這樣既可以增加學(xué)生的學(xué)習(xí)積極性,又可以讓學(xué)生加強對知識點的理解及記憶。
3 結(jié)論與討論
本文針對統(tǒng)計學(xué)的部分內(nèi)容,演示了Matlab統(tǒng)計工具箱的一些具體操作步驟,得到了一系列相應(yīng)的計算結(jié)果和強大的的作圖分析功能,大大地方便了老師對繁雜過程的教學(xué)演示。Matlab統(tǒng)計工具箱具有強大的統(tǒng)計分析能力,在統(tǒng)計學(xué)教學(xué)過程中,要重視對Matlab統(tǒng)計工具箱的使用,更好地將統(tǒng)計學(xué)教學(xué)與Matlab統(tǒng)計工具箱相結(jié)合。
*通訊作者:金哲植
項目基金:吉林省教育廳“十三五”科學(xué)技術(shù)研究(吉教科合字[2016]第248號)
參考文獻(xiàn)
[1] 金哲植,劉光華.R與SAS的集成在統(tǒng)計學(xué)教學(xué)中的應(yīng)用研究[J].科教導(dǎo)刊,2013(24).
[2] 尹永學(xué).自由開源軟件在高等教學(xué)中的應(yīng)用[J].高教視窗,2009:156-157.
[3] 陳彥光.基于Matlab的地理數(shù)據(jù)分析[M].北京:高等教育出版社,2011.
[4] 姜啟源,謝金星,葉俊.數(shù)學(xué)模型(第四版)[M].北京:高等教育出版社,2011.
[5] 余娟.Matlab在高中數(shù)學(xué)回歸分析中的應(yīng)用[J].軟件導(dǎo)刊(教育技術(shù)),2008(5).endprint