王永娟 姜喜春 謝兵兵
(黑河學(xué)院 理學(xué)院,黑龍江 黑河 164300)
隨著科學(xué)技術(shù)的發(fā)展和社會現(xiàn)代化的推進(jìn),社會對大數(shù)據(jù)科學(xué)的研究與應(yīng)用型人才的需求與日俱增。概率論與數(shù)理統(tǒng)計是統(tǒng)計學(xué)和數(shù)據(jù)挖掘的理論基礎(chǔ),在大數(shù)據(jù)專業(yè)中顯得尤為重要。大數(shù)據(jù)的價值體現(xiàn)在其蘊(yùn)含的規(guī)律,對數(shù)據(jù)處理、分析離不開統(tǒng)計學(xué)和數(shù)據(jù)挖掘,而其原理和方法基于概率論與數(shù)理統(tǒng)計。Python軟件作為大數(shù)據(jù)分析的主流軟件,具有簡潔、可讀性強(qiáng)、易于操作等特點(diǎn),是每個大數(shù)據(jù)專業(yè)學(xué)生必須掌握的軟件之一。那如何將Python軟件引入到概率論與數(shù)理統(tǒng)計的教學(xué)過程中,使學(xué)生既理解了概率論與數(shù)理統(tǒng)計的理論,又掌握了Python軟件的應(yīng)用呢?本文從三個方面探討Python在概率論與數(shù)理統(tǒng)計教學(xué)中的應(yīng)用案例,旨在激發(fā)學(xué)生的學(xué)習(xí)積極性,提高課堂教學(xué)質(zhì)量,為培養(yǎng)大數(shù)據(jù)人才提供一定的參考。
定義[1]:設(shè)且X與Y相互獨(dú)立,稱隨機(jī)變量
的分布為具有(m,n)的F分布,記F~F(m,n)
自由度為(m,n)的F分布的概率密度函數(shù)為
在教學(xué)過程中發(fā)現(xiàn),F(xiàn)分布的概率密度函數(shù)比較抽象,學(xué)生理解起來比較困難,所以利用python軟件畫出不同自由度下F分布的圖像[2],如圖1所示,幫助學(xué)生掌握F分布中兩個自由度對函數(shù)圖像的影響。
從圖1可以看出,F(xiàn)分布圖像是非對稱分布,自由度m和n是有順序的,不同的自由度圖像的偏度不同。同時,將代碼展示給學(xué)生,加深對Python中scipy庫內(nèi)F分布概率密度函數(shù)f.pdf()的以及matplotlib庫內(nèi)繪圖函數(shù)的使用,圖像上顯示中文、負(fù)數(shù)等方法的理解。
圖1 F分布圖像
在概率論與數(shù)理統(tǒng)計中點(diǎn)估計有兩種常見的方法:矩估計法和極大似然估計法,在理解兩種方法原理的情況下,應(yīng)用原理進(jìn)行推導(dǎo)計算,得到公式帶入數(shù)據(jù)進(jìn)行計算計算,過程相對復(fù)雜[3]。對于大數(shù)據(jù)專業(yè)的學(xué)生,因為已經(jīng)有一定的python基礎(chǔ),可以應(yīng)用python軟件進(jìn)行計算。
程序中蘊(yùn)含矩估計表達(dá)式,結(jié)合相應(yīng)函數(shù),程序本身也能加深對矩估計法的理解,同時學(xué)生在遇到類似的問題,只需要把原始數(shù)據(jù)替換,即可求得相應(yīng)的矩估計值,簡化計算。
以正態(tài)總體均值的區(qū)間估計為例,在總體方差已知和未知兩種情況下分別進(jìn)行討論,相比較帶公式計算,用python代碼運(yùn)行更加簡便。
例2:20世紀(jì)末,某高校對50名大學(xué)生的午餐費(fèi)進(jìn)行調(diào)查,得到樣本均值為3.10元,假設(shè)總體的標(biāo)準(zhǔn)差為1.75元,是求總體均值(即該校大學(xué)生的平均午餐費(fèi))的0.95的置信區(qū)間。
代入公式即可求得置信區(qū)間,調(diào)用python運(yùn)行如下[4]:
例3:2005年某市某行業(yè)職工的月收入服從N(μσ2),現(xiàn)隨機(jī)抽取30名職工進(jìn)行調(diào)查,求得他們的月收入的平均值2084元,標(biāo)準(zhǔn)差元,試求的置信水平為0.95的置信區(qū)間。
代入公式即可求得置信區(qū)間,調(diào)用python運(yùn)行如下:
在給定均值和方差的條件下,利用np.random.normal()函數(shù)生成服從正態(tài)分布數(shù)據(jù),利用st.t.interval()計算出置信區(qū)間[6],并畫出圖形如圖2所示。
圖2 正態(tài)均值置信區(qū)間
從圖像中可以清晰看出,正態(tài)數(shù)據(jù)與置信區(qū)間的包含關(guān)系,幫助學(xué)生理解置信區(qū)間的含義。
概率論與數(shù)理統(tǒng)計中的一些定理與大數(shù)據(jù)專業(yè)中的軟件相結(jié)合[7],不但可以提高運(yùn)算速度,更重要的是可以生動形象地演示復(fù)雜定理的變化過程,揭示其內(nèi)在規(guī)律,從而激發(fā)學(xué)生的學(xué)習(xí)興趣。Python語言是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)領(lǐng)域主要應(yīng)用語言之一,因為Python在處理大量數(shù)據(jù)時具有高效率、自動化、可運(yùn)用算法建立數(shù)據(jù)模型等特點(diǎn),是大數(shù)據(jù)專業(yè)的學(xué)生必備語言,在概率論與數(shù)理統(tǒng)計教學(xué)過程中運(yùn)用python軟件可以起到事半功倍的效果。