李軍+曹旭+劉鵬+朱守平
摘 要 統(tǒng)計(jì)推理在目前的科學(xué)研究中起著中心位置,概率論與數(shù)理統(tǒng)計(jì)作為其入門的基礎(chǔ)課程,正確掌握其基本概念的本質(zhì)內(nèi)涵對(duì)以后學(xué)生從事科研工作顯得尤其重要。本文擬根據(jù)目前概率論與數(shù)理統(tǒng)計(jì)的教學(xué)大綱內(nèi)容探討一些學(xué)生在學(xué)習(xí)時(shí)容易忽視其本質(zhì)的概念,并結(jié)合實(shí)際的例子深入了解其概念的內(nèi)涵。
關(guān)鍵詞 獨(dú)立性 條件概率 相關(guān)系數(shù) 數(shù)字特征 最大似然估計(jì)
中圖分類號(hào):G424 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkx.2017.02.046
Abstract Statistical inference plays a central location in the current scientific research. The course of probability theory and mathematical statistics is a introductory course of statistical inference, it is especially important to correctly grasp the nature of basic concepts of probability theory and mathematical statistics for those students who will engage in research works in the future. Based on the current syllabus of probability theory and mathematical statistics, this paper explores some of concepts which are easy to overlook their nature by students while they are studying, combined with practical examples to further understand the nature of the concepts.
Keywords Independence; conditional probability; correlation coefficient; digital features; maximum likelihood estimation
2002年美國(guó)國(guó)家基金委組織了有關(guān)“當(dāng)前和顯露出來的概率論學(xué)科中研究機(jī)遇”的系列報(bào)告,指出概率論與數(shù)理統(tǒng)計(jì)在當(dāng)前已是一門核心數(shù)學(xué)學(xué)科,其概率推理理論在目前不同學(xué)科中解決其研究問題有著顯著功效,其理論研究的重要性也呈現(xiàn)爆炸性的增長(zhǎng)。[1]然而,鑒于目前相當(dāng)一部分科研論文中使用的統(tǒng)計(jì)方法存在概念性的錯(cuò)誤,[2]國(guó)際著名的學(xué)術(shù)期刊《科學(xué)》在2014年表示將增加一個(gè)特別的統(tǒng)計(jì)學(xué)專家團(tuán)隊(duì)來檢驗(yàn)投稿論文中的統(tǒng)計(jì)方法是否有誤。[3]其他重要的學(xué)術(shù)刊物,包括《自然》也相繼提出了一些檢查方案來保證論文中統(tǒng)計(jì)方法的使用得當(dāng)。[4]統(tǒng)計(jì)推理應(yīng)用的廣泛性同基本概念錯(cuò)誤理解之間的尖銳矛盾提示研究者在學(xué)習(xí)統(tǒng)計(jì)推理理論時(shí)不能停留在概念的表象,需要深入理解其本質(zhì)內(nèi)涵。2015年研究生入學(xué)考試的數(shù)學(xué)(一)科目中統(tǒng)計(jì)推理部分的試題就能很好的考察學(xué)生是否真正掌握了統(tǒng)計(jì)推理基本概念的本質(zhì)。2015年研究生入學(xué)考試的數(shù)一試卷中概率論與數(shù)理統(tǒng)計(jì)部分內(nèi)容一共是34分,內(nèi)容覆蓋了隨機(jī)事件性質(zhì),概率分布,數(shù)值特征計(jì)算,假設(shè)檢驗(yàn)等內(nèi)容。從題目的難易程度來講,在掌握基本概念內(nèi)涵的前提下,基本上不存特別難的題目。但在筆者小范圍的調(diào)查表明,越是考察基本概念的題越是失分嚴(yán)重,反而有固化解題步驟的題目得分就較多。針對(duì)目前統(tǒng)計(jì)推理的重要性和基本概念理解不夠透徹的普遍問題,再一次為我們從事概率論與數(shù)理統(tǒng)計(jì)的教學(xué)工作者提出了一個(gè)在教學(xué)中一直強(qiáng)調(diào)的問題,如何讓學(xué)生在學(xué)習(xí)過程中抓住基本概念的內(nèi)在實(shí)質(zhì)。結(jié)合概率論與數(shù)理統(tǒng)計(jì)的教學(xué)大綱,以及近幾年的教學(xué)過程中學(xué)生的反饋和自己的思考,針對(duì)大學(xué)本科工科概率論與數(shù)理統(tǒng)計(jì)部分教學(xué)中的一些基本概念內(nèi)涵教學(xué)做一個(gè)初步探討。
1 隨機(jī)事件之間相互獨(dú)立的本質(zhì)是隨機(jī)事件概率的獨(dú)立性
隨機(jī)事件之間存在多種關(guān)系,其中互斥(互不相容)和相互獨(dú)立在概率論的學(xué)習(xí)中使用最多,學(xué)生也最容易混淆。當(dāng)內(nèi)容延伸到隨機(jī)變量時(shí),隨機(jī)變量的相互獨(dú)立和隨機(jī)變量間的相關(guān)性又會(huì)帶來混淆。在講授這些定義時(shí),若強(qiáng)調(diào)其本質(zhì)并加以對(duì)比就能使學(xué)生比較容易區(qū)分隨機(jī)事件之間的不同關(guān)系描述的差異。首先是定義的范圍不同,互斥關(guān)系定義在樣本空間中,反映事件的集合性質(zhì);而相互獨(dú)立和相關(guān)性是定義在事件概率的數(shù)值關(guān)系中,反映事件間的概率屬性。其次相互獨(dú)立表述是事件概率的一般數(shù)值關(guān)系,而相關(guān)性表述的是事件的線性關(guān)系。通過強(qiáng)調(diào)隨機(jī)事件相互獨(dú)立的本質(zhì)是隨機(jī)事件概率的獨(dú)立性,就能辨別隨機(jī)事件互斥同隨機(jī)事件獨(dú)立之間的關(guān)系:兩事件互斥推導(dǎo)不出它們相互獨(dú)立,同時(shí)兩事件相互獨(dú)立也推導(dǎo)不出它們互斥。通過強(qiáng)調(diào)隨機(jī)事件相互獨(dú)立反映隨機(jī)事件概率間的一般數(shù)值關(guān)系,就能辨別隨機(jī)事件相互獨(dú)立同相關(guān)性之間的區(qū)別:隨機(jī)變量相互獨(dú)立可以推導(dǎo)出它們之間不相關(guān),但是反之不行。[5]
2 條件概率同普通概率定義本質(zhì)的統(tǒng)一性
條件概率定義為:設(shè)A,B為兩個(gè)事件,且P(A)>0,則有事件A發(fā)生的條件下事件B發(fā)生的概率為P(B|A)=P(AB)|P(A)。該定義明確直觀,易于使用,在實(shí)際使用時(shí)一般都是基于單個(gè)事件概率已知前提下求條件概率,但是通過挖掘其本質(zhì),并同普通事件的概率建立關(guān)聯(lián),那么在使用的時(shí)候不會(huì)再將條件概率同一般事件概率割裂,而會(huì)形成一個(gè)統(tǒng)一概念。對(duì)于任意隨機(jī)事件C,記其概率為P(C),當(dāng)同條件概率的定義建立聯(lián)系時(shí),我們引入樣本空間S,則有P(C)=P(C|S)=P(CS)/P(S)=P(CS)。通過這種變化形式可有效的解決特定事件概率不易求解的問題;同樣,這也是全概公式的實(shí)質(zhì)所在。
實(shí)例1:設(shè)2人抓鬮,一共5個(gè)鬮,其中2個(gè)鬮中寫有“是”字,三個(gè)空白。問抓鬮是否同次序有關(guān)。
解析:分析可知所求為依次抓鬮時(shí)抓到“是”的概率是否相同。
設(shè)A1,A2分別為第1,2個(gè)人抓到“是”字的事件。則有
P(A1)=2/5
故抓鬮同次序無關(guān)。該方法可以延伸到更多人數(shù)抓鬮的問題。
3 二維正態(tài)隨機(jī)變量同一維正態(tài)隨機(jī)變量之間的紐帶關(guān)系——相關(guān)系數(shù)
正態(tài)隨機(jī)變量有許多優(yōu)良的統(tǒng)計(jì)性質(zhì),也是概率論與數(shù)理統(tǒng)計(jì)課程中重點(diǎn)的分布。學(xué)生一般對(duì)于一維的正態(tài)分布有較深刻的認(rèn)識(shí),但是一旦擴(kuò)展到了二維及二維以上的正態(tài)分布時(shí)就不容易掌握。而二維正態(tài)分布同一維正態(tài)分布之間有很強(qiáng)的相關(guān)性;比如(X,Y) 符合二維正態(tài)分布,則其關(guān)X于和關(guān)于Y的邊緣分布就是一維正態(tài)分布。二維正態(tài)分布的求解在一些特定場(chǎng)合可以轉(zhuǎn)化為一維正態(tài)分布的求解,其紐帶關(guān)系就是相關(guān)系數(shù)。二維正態(tài)分布中,X,Y相互獨(dú)立的充分必要條件是X,Y相關(guān)系數(shù)為零。當(dāng)二維正態(tài)隨機(jī)變量中相關(guān)系數(shù)為零,則二維正態(tài)隨機(jī)便分解成兩個(gè)獨(dú)立的一維正態(tài)分布隨機(jī)變量的乘積。
實(shí)例2:設(shè)二維隨機(jī)變量(X,Y)服從正態(tài)分N(1,0;1,1,0)布,則P(XYY<0)= (2015年研究入學(xué)考試題14)。
解析:因?yàn)椋╔,Y)~N(1,0;1,1,0),其中X,Y,相關(guān)系數(shù)為0
故有X~N(1,1),Y~N(0,1),且X,Y相互獨(dú)立
進(jìn)而有X1~N(0,1),且與Y相互獨(dú)立
故由標(biāo)準(zhǔn)正態(tài)分布的性質(zhì)可得到結(jié)果
P(XYY<0)=P((X1)Y<0=P(X1<0,Y>0)+P(X1>0,Y<0)=1/2
4 隨機(jī)變量的數(shù)字特征是常量
隨機(jī)變量的分布一旦確定,其數(shù)值特征是常量;在實(shí)際的使用中,一般不會(huì)明確隨機(jī)變量的分布形式,只是指稱隨機(jī)變量符合某種分布,在這個(gè)前提下,隨機(jī)變量的數(shù)值特征一般用一個(gè)符號(hào)表示。如果不知曉隨機(jī)變量的數(shù)值特征是一個(gè)常量,在解題的過程就會(huì)發(fā)生把數(shù)值特征當(dāng)作變量使用。在教學(xué)的過程中一定要多次強(qiáng)調(diào)此概念。尤其在講授方差計(jì)算公式的時(shí)候,可以通過對(duì)其的證明來強(qiáng)調(diào)隨機(jī)變量的數(shù)值特征是常量這一概念。[5]
在此強(qiáng)調(diào)E(X)是一常量,并且也附加強(qiáng)調(diào)D(X)也是一常量,類似于數(shù)字特征性質(zhì)中常數(shù)符號(hào)a,進(jìn)而就可以利用已學(xué)習(xí)過的數(shù)學(xué)期望的性質(zhì)得證。
5 最大似然估計(jì)方法其本質(zhì)是使得似然函數(shù)取最大值時(shí)未知參數(shù)的取值就為該未知參數(shù)的最大似然估計(jì)值
在常規(guī)最大似然估計(jì)方法的教學(xué)中,一般會(huì)總結(jié)該方法為一個(gè)標(biāo)準(zhǔn)的流程,學(xué)生在學(xué)習(xí)的時(shí)候也會(huì)以記憶該流程作為最終的目的,當(dāng)解題的條件稍微偏離常規(guī)的流程,學(xué)生就不知所措,不知道該如何處理;如果我們?cè)诮虒W(xué)的過程中首先讓學(xué)生明確最大似然原理的本質(zhì)意義,就會(huì)依據(jù)最大似然原理來對(duì)常規(guī)流程做一變通。2015年考研的最后一個(gè)題就很好的體現(xiàn)這種思維。
實(shí)例4:設(shè)總體X的概率密度為:
其中 為未知參數(shù),X1,X2,……,Xn為,來自該總體的簡(jiǎn)單隨機(jī)樣本。求 的最大似然估計(jì)量(2015年研究入學(xué)考試題23.II)。
解析:該題目的求解目的非常清楚,按照解題流程按步推進(jìn)。
到了這一步發(fā)現(xiàn)對(duì)似然函數(shù)對(duì)數(shù)求導(dǎo)并不能使之為0,有些同學(xué)就卡到了這兒。如果學(xué)生知道這步對(duì)似然函數(shù)對(duì)數(shù)求導(dǎo)的目的是什么,就可輕易獲得 的估計(jì)量。第二步的目的通過求解似然函數(shù)獲得最大值時(shí)未知參數(shù) 的取值,也就是該未知參數(shù) 的估計(jì)量。既然不能為零,那么我們就探討下這個(gè)求導(dǎo)后所得函數(shù)的特點(diǎn),發(fā)現(xiàn)該導(dǎo)數(shù)函數(shù)是關(guān)于 單調(diào)增加;而由題目中的定義知 的取值范圍為: ≤x≤1,那么我們就能獲取 的估計(jì)量為:=min{x1,x2,…,xn}。
總之,在大學(xué)本科工科概率論與數(shù)理統(tǒng)計(jì)的教學(xué)中,把握住概念本質(zhì)內(nèi)涵教學(xué)方法,并同學(xué)生討論清楚,就能辨別一些容易混淆而難以理解的概念,并且使得學(xué)生在理解概念的本質(zhì)后舉一反三,相關(guān)的概念和內(nèi)容就能輕松掌握,同時(shí)也能調(diào)動(dòng)學(xué)生的學(xué)習(xí)積極性和主動(dòng)性,也能為以后學(xué)生從事相關(guān)科研工作做打好統(tǒng)計(jì)推理的堅(jiān)實(shí)基礎(chǔ),培養(yǎng)他們自主學(xué)習(xí)的能力。
本文受西安電子科技大學(xué)教學(xué)提升計(jì)劃教學(xué)改革項(xiàng)目(TSLS1506)及新實(shí)驗(yàn)開發(fā)與新實(shí)驗(yàn)設(shè)備研制及實(shí)驗(yàn)教學(xué)改革項(xiàng)目(SY1565)資助
參考文獻(xiàn)
[1] 林正炎,蘇中根,張立新.當(dāng)前概率學(xué)科中的研究機(jī)遇.數(shù)學(xué)進(jìn)展,2004.33(2):129-140.
[2] Nuzzo, R.,Scientific method: statistical errors. Nature, 2014. 506(7487): p. 150-2.
[3] McNutt, M.,Raising the bar. Science, 2014. 345(6192): p. 9.
[4] Collins, F.S.and L.A.Tabak, Policy: NIH plans to enhance reproducibility. Nature, 2014. 505(7485):612-3.
[5] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì).高等教育出版社,2008.