李艷
摘 要:生活中很多隨機(jī)現(xiàn)象都可以用正態(tài)分布來(lái)描述其統(tǒng)計(jì)規(guī)律,熟悉和掌握正態(tài)分布的性質(zhì)及應(yīng)用對(duì)概率統(tǒng)計(jì)的系統(tǒng)學(xué)習(xí)很重要。
關(guān)鍵詞:正態(tài)分布 中心極限定理
引言
正態(tài)分布是本科《概率論與數(shù)理統(tǒng)計(jì)》課程中介紹的重要的連續(xù)型隨機(jī)變量分布之一。之所以說(shuō)它重要,是因?yàn)?,一方面,正態(tài)可以用來(lái)描述生活中的很多隨機(jī)現(xiàn)象,比如人的生理特征方面的身高、體重、智力等,還有產(chǎn)品的質(zhì)量分布和測(cè)量誤差等;另一方面,在滿足一定的條件下,它還是其他許多分布的極限分布;另外,本科階段所學(xué)習(xí)的參數(shù)之區(qū)間估計(jì)和假設(shè)檢驗(yàn)也主要是針對(duì)正態(tài)分布進(jìn)行討論的。可以說(shuō),正態(tài)分布的性質(zhì)和應(yīng)用,貫穿于整個(gè)課程的教學(xué)內(nèi)容。[1]
然而課本上并沒(méi)有提及得到正態(tài)分布的來(lái)龍去脈,如此驚艷的公式,卻有種從天而降的感覺,真是應(yīng)了那句:“神說(shuō),要有正態(tài)分布,就有了正態(tài)分布;神看正態(tài)分布是好的,就讓隨機(jī)誤差服從了正態(tài)分布。”互聯(lián)網(wǎng)上有些相關(guān)的資料,語(yǔ)言生動(dòng)有趣,但難免跟后續(xù)的內(nèi)容相聯(lián)系過(guò)多,導(dǎo)致初學(xué)者越看越迷茫。因此,對(duì)正態(tài)分布這節(jié)內(nèi)容的講解的深度和廣度就顯得很重要,在恰當(dāng)?shù)牡胤街v恰當(dāng)?shù)膬?nèi)容,避免正態(tài)分布成為熟悉的陌生人。[2]
一、人生若只如初見
在講正態(tài)分布之前,為了不讓學(xué)生覺得內(nèi)容枯燥突兀,可以先從生活中比較直觀的例子切入,比如關(guān)于某高校大二某班學(xué)生身高。給出數(shù)據(jù),可以讓學(xué)生自己繪出頻率直方圖,一般情況下得到的直方圖具有中間高兩邊低的趨勢(shì),連接每個(gè)小矩形頂部中點(diǎn),可以得到一條同樣走勢(shì)的折線如圖a所示。
如果統(tǒng)計(jì)身高的學(xué)生數(shù)逐漸增多,身高區(qū)間劃分得逐漸細(xì)致,圖a中的折線會(huì)變得越來(lái)越光滑,最終形成如圖b所示的一條光滑曲線,那么自然想到這條曲線對(duì)應(yīng)的函數(shù)是什么呢,就目前所學(xué)知識(shí),可以直接給出該曲線的方程:
其中μ,σ (>0) 為參數(shù) ,并稱以該函數(shù)為密度函數(shù)的隨機(jī)變量服從正態(tài)分布,
記作。μ是正態(tài)曲線的對(duì)稱軸,σ是拐點(diǎn)到的距離。
有了分布,自然要進(jìn)行概率計(jì)算。由高等數(shù)學(xué)的知識(shí)可知,一般正態(tài)隨機(jī)變量落在某個(gè)區(qū)間內(nèi)的概率無(wú)法通過(guò)積分得到,那該如何去求呢?一般的概率統(tǒng)計(jì)教材上都是通過(guò)一個(gè)線性變換,令,然后證明。這里用到的證明方法從知識(shí)點(diǎn)上看屬于隨機(jī)變量的函數(shù)的分布,在內(nèi)容編排上屬于后續(xù)的學(xué)習(xí)內(nèi)容,從多年的執(zhí)教經(jīng)驗(yàn)來(lái)看,講解這個(gè)證明過(guò)程對(duì)理解正態(tài)分布并無(wú)多大益處,可以講完隨機(jī)變量的函數(shù)的分布之后,再讓學(xué)生自己去證明。我們可以利用圖像的變換,把一般正態(tài)分布的對(duì)稱軸移到坐標(biāo)系中唯一的y軸,然后令數(shù)軸上所有的點(diǎn)到對(duì)稱點(diǎn)的距離縮小σ倍,即得標(biāo)準(zhǔn)正態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布地得到,既解決了一般正態(tài)隨機(jī)變量的概率計(jì)算問(wèn)題,也為后續(xù)的中心極限定理做好了鋪墊。
二、千呼萬(wàn)喚始出來(lái)
上一節(jié)中,我們似乎很輕松地得到了正態(tài)分布,事實(shí)上,正態(tài)分布地得到可不是天才們一拍腦門就想出來(lái)的。我們一起穿越時(shí)空,回顧那段精彩的歷史。
首先出場(chǎng)的大神是法國(guó)數(shù)學(xué)家棣莫弗。他所撰寫的《機(jī)遇論》是概率論發(fā)展史中很重要的一本書。促使棣莫弗推導(dǎo)出正態(tài)分布是類似于如下的一個(gè)問(wèn)題:假設(shè)隨機(jī)變量 X~B(n,p)(二項(xiàng)分布), 求X 落在平均值np附近的概率P(|X–np|≤ε)。對(duì)于 p=1/2 的特殊情況, 棣莫弗做了一些計(jì)算并得到了一些近似結(jié)果,但是不夠
理想,進(jìn)而他又利用斯特林公式,得到了如下的結(jié)果:
(1)
正態(tài)分布的密度函數(shù)就在上面的積分中低調(diào)地出現(xiàn)了。之所以說(shuō)它低調(diào),一是因?yàn)殚δ€(gè)人并沒(méi)有完全意識(shí)到正態(tài)分布的神奇之處,二是他的工作當(dāng)時(shí)并沒(méi)有得到多少人的重視,也沒(méi)有在統(tǒng)計(jì)學(xué)中發(fā)揮它的作用,因此他也錯(cuò)失了正態(tài)分布的冠名權(quán),而后高斯基于在天文學(xué)中隨機(jī)測(cè)量誤差服從正態(tài)分布等一系列工作而獲得冠名權(quán),所以正態(tài)分布也稱高斯分布。
三、天下誰(shuí)人不識(shí)君
再回到(1)式,不難概括出該式體現(xiàn)的就是二項(xiàng)分布的極限分布是正態(tài)分布。棣莫弗研究了 p=1/2 的情形,后來(lái)拉普拉斯把二項(xiàng)分布的正態(tài)近似推廣到了任意 p的情況。這個(gè)結(jié)果就是棣莫弗-拉普拉斯中心極限定理。
在這些工作的基礎(chǔ)上,中心極限定理隨后又被其他數(shù)學(xué)家們推廣到了其他任意分布,比如李雅普諾夫中心極限定理和萊維-林德伯格中心極限定理。這些定理揭示了正態(tài)分布產(chǎn)生的源泉和自然界中正態(tài)分布應(yīng)用的廣泛性。統(tǒng)計(jì)學(xué)家發(fā)現(xiàn),在樣本容量充分大的時(shí)候,一些隨機(jī)變量的極限分布都可以用正態(tài)來(lái)描述,這構(gòu)成了數(shù)理統(tǒng)計(jì)學(xué)中大樣本理論的基礎(chǔ)。這部分內(nèi)容在本科階段的區(qū)間估計(jì)和假設(shè)檢驗(yàn)中都有涉及。正態(tài)分布的問(wèn)世以及它在中心極限定理和誤差分析中的應(yīng)用,得到了許多數(shù)學(xué)家統(tǒng)計(jì)學(xué)家的認(rèn)可、推崇與贊美,使得它稱霸于眾多概率分布,艷壓群芳,一枝獨(dú)秀,以至于當(dāng)時(shí)有些統(tǒng)計(jì)學(xué)家認(rèn)為正態(tài)分布幾乎無(wú)所不能。它在經(jīng)濟(jì)管理、物理、社會(huì)科學(xué)、醫(yī)學(xué)、農(nóng)業(yè)、工程等許多領(lǐng)域都堪當(dāng)研究指南,在實(shí)驗(yàn)和觀測(cè)數(shù)據(jù)的解讀中是必不可少的工具。
結(jié)語(yǔ)
任何數(shù)學(xué)知識(shí)都有其特定的產(chǎn)生背景和在實(shí)際生活中的應(yīng)用。基于這樣的思考,針對(duì)所授知識(shí)點(diǎn),在教學(xué)過(guò)程中適當(dāng)講述些知識(shí)背景,學(xué)生就不會(huì)覺得突兀,也能更好地激發(fā)他們的學(xué)習(xí)動(dòng)機(jī)和興趣,更好地學(xué)習(xí)本課程。
參考文獻(xiàn)
[1]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2008:14,36.
[2]戴維·薩爾斯博格,劉青山譯.女士品茶[M].江西人民出版社.