曾惠芳,熊培銀
(湖南科技大學(xué) a.商學(xué)院;b.信息與電氣工程學(xué)院,湖南 湘潭 411201)
?
統(tǒng)計(jì)學(xué)課程教學(xué)的思考
曾惠芳a,熊培銀b
(湖南科技大學(xué) a.商學(xué)院;b.信息與電氣工程學(xué)院,湖南 湘潭 411201)
統(tǒng)計(jì)學(xué)是研究數(shù)據(jù)背后規(guī)律的一門科學(xué)。為使學(xué)生理解抽象的統(tǒng)計(jì)概念,培養(yǎng)統(tǒng)計(jì)思維,提高統(tǒng)計(jì)學(xué)修養(yǎng),圍繞統(tǒng)計(jì)學(xué)的概念,以生動(dòng)形象的例子闡述數(shù)據(jù)的獲得,數(shù)據(jù)背后規(guī)律的刻畫,以及統(tǒng)計(jì)推斷的思想。
統(tǒng)計(jì)學(xué);規(guī)律性;隨機(jī)性;統(tǒng)計(jì)思維
統(tǒng)計(jì)學(xué)是研究如何獲取數(shù)據(jù)、分析數(shù)據(jù)、解釋數(shù)據(jù),從數(shù)據(jù)中提取信息、尋找規(guī)律性的科學(xué)。當(dāng)今,對(duì)統(tǒng)計(jì)學(xué)的理解、研究和實(shí)際應(yīng)用已經(jīng)擴(kuò)展到整個(gè)自然科學(xué)、社會(huì)科學(xué)、工程技術(shù)、管理、經(jīng)濟(jì)、藝術(shù)和文學(xué)等領(lǐng)域。統(tǒng)計(jì)學(xué)家威爾斯(H.G. Wells)曾指出:“就像讀和寫的能力一樣,將來(lái)有一天統(tǒng)計(jì)的思維方法會(huì)成為公民的必備能力。”[1]所以,學(xué)好統(tǒng)計(jì)學(xué)對(duì)學(xué)生來(lái)說(shuō)具有深遠(yuǎn)的意義。統(tǒng)計(jì)學(xué)教學(xué)中應(yīng)注重抽象概念與生動(dòng)例子的結(jié)合,提高學(xué)生的學(xué)習(xí)興趣。同時(shí),培養(yǎng)學(xué)生的統(tǒng)計(jì)修養(yǎng),使其學(xué)會(huì)用統(tǒng)計(jì)思維觀察和認(rèn)識(shí)社會(huì)現(xiàn)象[2]。
統(tǒng)計(jì)學(xué)可以應(yīng)用于各領(lǐng)域。按薩維奇(L.J.Savage)的說(shuō)法:“統(tǒng)計(jì)學(xué)基本上是寄生的,靠研究其他領(lǐng)域內(nèi)的工作而生存。這不是對(duì)統(tǒng)計(jì)學(xué)表示輕視,這是因?yàn)閷?duì)很多寄主來(lái)說(shuō),如果沒有寄生蟲就會(huì)死。對(duì)有的動(dòng)物來(lái)說(shuō),如果沒有寄生蟲就不能消化它們的食物。因此,人類奮斗的很多領(lǐng)域,如果沒有統(tǒng)計(jì)學(xué),雖然不會(huì)死亡,但一定會(huì)變得很弱?!?/p>
統(tǒng)計(jì)學(xué)是一門非常實(shí)用的科學(xué),它的任務(wù)就是處理數(shù)據(jù)。那么什么是數(shù)據(jù)?拿擲骰子來(lái)說(shuō),擲骰子會(huì)得到什么值,是個(gè)隨機(jī)變量;而每次取得1~6點(diǎn)中任意點(diǎn)數(shù)的概率在理論上都是1/6(如果骰子均勻)。而在實(shí)際擲骰子過(guò)程中,如果擲100次,會(huì)得到100個(gè)由1~6點(diǎn)組成的數(shù)字串;再擲100次,又得到一個(gè)數(shù)字串,和前一次的結(jié)果很可能不一樣。這些試驗(yàn)結(jié)果就是數(shù)據(jù)。所以說(shuō),數(shù)據(jù)是關(guān)于變量的觀測(cè)值。
社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)資料的來(lái)源主要有兩種渠道:一種是通過(guò)直接的調(diào)查獲得原始數(shù)據(jù),這是統(tǒng)計(jì)數(shù)據(jù)的直接來(lái)源,一般稱之為第一手或直接的統(tǒng)計(jì)數(shù)據(jù);另一種是別人調(diào)查的數(shù)據(jù),并將這些數(shù)據(jù)進(jìn)行加工和匯總后公布的數(shù)據(jù),通常稱之為第二手或間接的統(tǒng)計(jì)數(shù)據(jù)。一切間接的統(tǒng)計(jì)數(shù)據(jù)都是從直接的、第一手?jǐn)?shù)據(jù)過(guò)渡而來(lái)的。
我們處于一個(gè)大數(shù)據(jù)時(shí)代,每天都可以獲得大量的信息。應(yīng)該如何去認(rèn)識(shí)這些信息?如何在具有欺騙性的數(shù)據(jù)海洋中找到可靠有用的資料?怎樣憑借雙眼就能識(shí)破虛假的統(tǒng)計(jì)資料并揭穿它?對(duì)此,可以從五個(gè)方面對(duì)數(shù)據(jù)進(jìn)行探索檢驗(yàn)分析:1)數(shù)據(jù)是如何收集、記錄的?2)數(shù)據(jù)中含有測(cè)量誤差和記錄誤差嗎?有關(guān)測(cè)量值的概念和定義明確嗎?觀察值之間存在什么區(qū)別嗎?3)數(shù)據(jù)是真實(shí)的嗎?是所調(diào)查的原樣,還是以任何方式經(jīng)過(guò)人工偽造、編纂或修改過(guò)的?是否由觀察者自行決定刪除了任何觀察值?數(shù)據(jù)中是否存在任何或許會(huì)過(guò)度影響統(tǒng)計(jì)推斷的異常值?4)提供信息的觀察數(shù)據(jù)來(lái)自什么樣的總體?作為抽樣調(diào)查總體中所選定部分是否存在沒有回答的(部分或全部)?數(shù)據(jù)信息是來(lái)自單一總體,還是混合總體?與抽出樣本單位的識(shí)別和分類有關(guān)的因素都記錄下來(lái)了嗎?5)對(duì)所要調(diào)查研究的課題或是觀察數(shù)據(jù)的性質(zhì)是否存在任何先驗(yàn)信息?
任何對(duì)數(shù)據(jù)的探索和檢驗(yàn)分析都是為了了解數(shù)據(jù)的性質(zhì),剔除測(cè)量誤差、記錄誤差和異常值,檢驗(yàn)先驗(yàn)信息的有效性,檢測(cè)數(shù)據(jù)的真?zhèn)巍?shù)據(jù)的初始研究也用于檢驗(yàn)一個(gè)指定的模型的有效性或是對(duì)進(jìn)一步的數(shù)據(jù)分析選擇一個(gè)更合適的隨機(jī)概率模型或隨機(jī)概率模型族[3]。
統(tǒng)計(jì)學(xué)的重要作用是利用已有的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)。利用已有的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái),必須要找到一個(gè)恰當(dāng)?shù)慕y(tǒng)計(jì)模型,確切地說(shuō),就是一條分布曲線去擬合已有的數(shù)據(jù),然后用擬合的分布去預(yù)測(cè)在未來(lái)的觀察中各種值出現(xiàn)的可能性大小[4]。
例1:19世紀(jì)末,騎兵部隊(duì)是多數(shù)軍隊(duì)的一個(gè)組成部分,在騎兵部隊(duì)內(nèi)間或就有人被馬踢死。俄國(guó)統(tǒng)計(jì)學(xué)家博特基維茨對(duì)普魯士軍隊(duì)的10個(gè)騎兵部隊(duì)在1875~1894年這20年間的此類死亡情況進(jìn)行了記錄,并對(duì)此進(jìn)行了統(tǒng)計(jì)分析。表1給出了這200支騎兵部隊(duì)一年中被馬踢死的人數(shù)信息。
表1 200支騎兵部隊(duì)一年中被馬踢死的人數(shù)統(tǒng)計(jì)
在概率論中,大家對(duì)泊松分布產(chǎn)生的一般條件已有所了解,容易想到,200支騎兵部隊(duì)一年中被馬踢死的人數(shù),可以用一個(gè)泊松隨機(jī)變量來(lái)近似描述。也就是說(shuō),可以假設(shè)200支騎兵部隊(duì)一年中被馬踢死的人數(shù)的分布X近似泊松分布。
現(xiàn)在的問(wèn)題是:上面的數(shù)據(jù)能否證實(shí)X具有泊松分布的假設(shè)是正確的?卡方檢驗(yàn)法是在總體X的分布未知時(shí),根據(jù)來(lái)自總體的樣本,檢驗(yàn)關(guān)于總體分布的假設(shè)的一種檢驗(yàn)方法。
提出假設(shè)H0:X服從參數(shù)為λ的泊松分布。根據(jù)觀察結(jié)果,得參數(shù)λ的極大似然估計(jì)為
按參數(shù)λ為0.61的泊松分布,計(jì)算事件pi=Pr(X=i)的概率,pi的估計(jì)為
統(tǒng)計(jì)學(xué)的作用,一方面是對(duì)數(shù)據(jù)進(jìn)行概要的描述,另一方面是基于數(shù)據(jù)做出推斷,包括評(píng)價(jià)推斷的有效性。所謂統(tǒng)計(jì)推斷,是基于一個(gè)指定的隨機(jī)概率模型來(lái)估計(jì)未知參數(shù),進(jìn)行相應(yīng)的假設(shè)檢驗(yàn),預(yù)測(cè)未來(lái)的觀測(cè)值,以及做出決策等的統(tǒng)計(jì)方法。統(tǒng)計(jì)分析的目的是“從觀測(cè)得到的數(shù)據(jù)中提取有效的信息”。所記錄的數(shù)據(jù)中有時(shí)有某種缺陷,如存在記錄誤差和異常值,有時(shí)甚至可能是偽造的,一個(gè)統(tǒng)計(jì)學(xué)者首先應(yīng)做的是詳細(xì)考察或交叉檢驗(yàn)數(shù)據(jù),以便發(fā)現(xiàn)可能有的缺陷并了解數(shù)據(jù)的特征。下一步則是利用先驗(yàn)信息和交叉核實(shí)技術(shù),對(duì)數(shù)據(jù)提出一個(gè)合適的隨機(jī)概率模型。基于被選擇的模型進(jìn)行數(shù)據(jù)推斷分析,包括未知參數(shù)的估計(jì),假設(shè)檢驗(yàn),對(duì)未來(lái)觀測(cè)值的預(yù)報(bào)以及做出決策[5]。
例2:一個(gè)魚塘的主人想知道池塘中有多少魚,他猜想數(shù)量在3 000條左右,但其實(shí)可能僅有它的一半,又或者是它的兩倍。逐一數(shù)魚是不可能的,那么他該怎么辦?
假設(shè)池塘中魚種的平均壽命大約為3年,所以花一個(gè)月左右的時(shí)間獲取魚的數(shù)量的過(guò)程,其出生與死亡數(shù)對(duì)總數(shù)量不會(huì)產(chǎn)生大的影響。他先捕到400條魚,貼上標(biāo)簽,再放回池塘。然后再?gòu)某靥敛?00條魚,其中60條貼有標(biāo)簽。利用樣本比例估計(jì)總體比例,可得到魚塘中貼有標(biāo)簽的魚的比例的最佳估計(jì)為
統(tǒng)計(jì)學(xué)是一門十分實(shí)用的科學(xué),它并不是枯燥的數(shù)據(jù)和公式的堆砌。為了提高學(xué)生的學(xué)習(xí)興趣,調(diào)動(dòng)學(xué)生學(xué)習(xí)的積極性與主動(dòng)性,在教學(xué)的過(guò)程中,應(yīng)強(qiáng)調(diào)統(tǒng)計(jì)學(xué)的實(shí)用性,通過(guò)生動(dòng)形象的例子和故事來(lái)表達(dá)統(tǒng)計(jì)思想。同時(shí),應(yīng)注重實(shí)踐教學(xué),讓學(xué)生學(xué)會(huì)關(guān)注社會(huì)問(wèn)題,并通過(guò)統(tǒng)計(jì)調(diào)查和統(tǒng)計(jì)分析,提高學(xué)生的統(tǒng)計(jì)應(yīng)用能力。
[1] C R 勞.統(tǒng)計(jì)與真理——怎樣運(yùn)用偶然性[M].北京:科學(xué)出版社,2004.
[2] 孫曉祥,惠英杰.數(shù)理統(tǒng)計(jì)課程教學(xué)中培養(yǎng)學(xué)生統(tǒng)計(jì)思維的幾點(diǎn)認(rèn)識(shí)[J].吉林農(nóng)業(yè)科技學(xué)院學(xué)報(bào),2013,22(1):80-82.
[3] 劉旭華,田英,陳薇.對(duì)研究生數(shù)理統(tǒng)計(jì)課程教學(xué)的思考與探索[J].高等農(nóng)業(yè)教育,2010(7):76-78.
[4] 云霞.統(tǒng)計(jì)思維是現(xiàn)代人的標(biāo)簽[J].調(diào)研世界,2012(12):58-59.
[5] 劉娟.概率論與數(shù)理統(tǒng)計(jì)案例教學(xué)探討[J].當(dāng)代教育理論與實(shí)踐,2014,6(12):36-37.
(責(zé)任校對(duì)莫秀珍)
10.13582/j.cnki.1674-5884.2016.09.025
20150722
國(guó)家自然科學(xué)基金項(xiàng)目(41301421);湖南科技大學(xué)教學(xué)研究與改革項(xiàng)目(G31533)
曾惠芳(1981-),女,湖南邵陽(yáng)人,副教授,主要從事貝葉斯統(tǒng)計(jì)研究。
F224.9, O212
A
1674-5884(2016)09-0078-03