黃詩哲 黃孝祥 覃秦
摘 要 本文通過對正態(tài)分布的起源、發(fā)展和不同學者的推導等三個方面,對正態(tài)分布進行詳細的介紹,因為正態(tài)分布作為具有劃時代意義的一個分布,現(xiàn)在很多的學生對它并不了解,很多有統(tǒng)計背景的專業(yè)的學生對正態(tài)分布的推導只知其然,而不知其所以然,這里有必要對該分布進行一個詳細的介紹。
關鍵詞 正態(tài)分布 誤差分布 最小二乘法
中圖分類號:O212.1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? DOI:10.16400/j.cnki.kjdks.2020.05.021
Abstract In this paper, the origin, development and derivation of normal distribution are introduced in detail, because normal distribution is a landmark distribution. Now many students don't know about it. Many students with statistical background only know the derivation of normal distribution, but don't know why. It is necessary to introduce the distribution in detail.
Keywords normal distribution; error distribution; least square method
如若向在大學里學過數(shù)理統(tǒng)計的學生或者大學里的老師、學者提出這樣一個問題:你認為數(shù)理統(tǒng)計學中,哪一個概率分布是最重要的?那他們的回答一定是比較一致的:正態(tài)分布。不論是從它在實際應用中作為描述數(shù)據(jù)的統(tǒng)計模型來說,還是從在理論上的作用來說,都很明顯的體現(xiàn)了這一點。從19世紀的統(tǒng)計學發(fā)展來看,正態(tài)分布一直處于主導地位,不同性質和不同類型的數(shù)據(jù)均服從這個分布,使得許多學者在后期的研究中,感覺從混亂里找到了秩序和方向。這個分布的鐘型曲線形狀優(yōu)美、對稱,密度充滿了美感,進行標準化以后的密度函數(shù)更加簡潔,含有數(shù)學中的兩個重要常量。正態(tài)分布又稱高斯分析,所以人們很自然的認為這個分布是由高斯發(fā)現(xiàn)的,但回顧歷史,我們不僅可以學習這個分布的詳細內(nèi)容,還可以從中找到這個分布的發(fā)展和推導過程,除了高斯,其它的很多有名的統(tǒng)計學家均做出了他們的貢獻。整個正態(tài)分布的發(fā)現(xiàn)完全可以看作是一篇跌宕起伏的歷史故事,下面一起來揭開它的真實面目。
1 正態(tài)分布的雛形
從棣莫弗推導的上式很明顯的可以看到,積分中的被積函數(shù)正是后世的標準正態(tài)分布的密度函數(shù),這個結論也說明了二項分布近似等于正態(tài)分布,這種函數(shù)形式第一次被數(shù)學家以概率的二項分布推導出來。
不過在上述的公式中,棣莫弗只解決了在的情況,這個結果顯然太片面,這個公式發(fā)現(xiàn)40年后,拉普拉斯對進行了研究,將這種二項分布近似于正態(tài)分布的情況推廣到了取任意值的時候,并得到了后來著名的棣莫弗-拉普拉斯中心極限定理,設隨機變量,則對任意的,總有
學習過概率統(tǒng)計的同學看到這里肯定會很奇怪,中心極限定理不是在正態(tài)分布講完以后才學習的嗎,都認為沒有正態(tài)分布就沒有這個定理,但實際上,我們在學習正態(tài)分布的時候,是直接給出的正態(tài)分布的密度函數(shù),有心的讀者應該會對這個密度函數(shù)的由來比較好奇,而這個中心極限定理中出現(xiàn)的積分被積函數(shù)給出了正態(tài)分布發(fā)展到最終形態(tài)的雛形。既然是這樣,那正態(tài)分布怎么沒有以棣莫弗或者拉普拉斯的名字進行命名呢?而是以高斯或者正態(tài)分布來稱呼,我們繼續(xù)進行分析和推導。
2 正態(tài)分布的發(fā)展:誤差分布與最小二乘法
在上節(jié)中推導出的中心極限定理,已得到了正態(tài)分布的雛形,但是這個定理卻并沒有在統(tǒng)計學的應用中發(fā)揮作用,只被認為是一種數(shù)學表達式,而不是概率分布,從而沒有引起統(tǒng)計學界的重視。在18世紀末之前,天文學是應用數(shù)學中最發(fā)達的領域,在天文學中,涉及到大量數(shù)據(jù)的測量和計算,而在計算和測量中產(chǎn)生誤差不可避免,天文學家為了解決誤差問題,一般是采用多次測量取平均的方式,這種方式因為其直觀有效被使用了上百年。但是因為天文學家在不同環(huán)境、設備、人員進行數(shù)據(jù)觀測,差異在所難免,算術平均的合理性得到了很多學者的質疑。辛普森(Thomas Simpson,1755)指出,在天文學界,很多學者算術平均并不可靠,而是應該選擇那個“謹慎的觀測”所得到的值。不過他仍從數(shù)學方法上出發(fā),證明取算術平均這種方法具有更大的可信度。
這個公式可以看到正態(tài)密度函數(shù)的雛形,但在當時,對誤差的分析并沒有起到什么作用,尋找誤差分布的進展甚微。
到1809年,高斯為了解決天體力學中的行星軌道計算問題,發(fā)表了數(shù)學與天體力學的名著《繞日天體運動的理論》,系統(tǒng)地給出了計算的數(shù)學方法,這個方法正是以正態(tài)誤差分布為基礎的最小二乘法。
高斯在這個過程中主要有兩個貢獻,一是設被測量的變量真值為,變量的次觀測值為,概率;,其中為要求的誤差分布的密度函數(shù),然后求解使達到最大的作為的估計值,稱為樣本的似然函數(shù),稱為最大似然估計。
第二個貢獻是,高斯假設算術平均值作為的估計,然后返回去再求概率分布函數(shù),而此時求得的,,才能使他的假設成立,這就是正態(tài)分布。
另外,使用這個正態(tài)誤差分布,分析誤差函數(shù),其中為觀測樣本數(shù)據(jù),根據(jù)高斯的最大似然估計,求誤差密度的概率為,要使此概率為最大,只需式中的達到最小,這樣就得到了的最小二乘法。
高斯的這兩項創(chuàng)新對整個統(tǒng)計學的重要性不言而喻,不僅讓正態(tài)分布正式的以他名字命名,而且最小二乘法的發(fā)現(xiàn)也歸屬了高斯。拉普拉斯得到高斯的結論以后,對中心極限定理 進行優(yōu)化,得到上面的最優(yōu)化形式,并對自己發(fā)表的論文進行了補充,認為誤差是很多原因產(chǎn)生的元誤差疊加而成,根據(jù)他的中心極限定理,高斯分析(正態(tài)分布)也成了所有其它分布在趨向無窮時的落腳點。在整個正態(tài)分布被發(fā)現(xiàn)的過程中,棣莫弗、拉普拉斯,高斯都做出了他們的貢獻,他們的研究相互連接,使統(tǒng)計學成為一門和諧的整體,意義重大。
3 正態(tài)分布的不同推導
要了解正態(tài)分布的內(nèi)涵,必需有很深的概率論知識,從棣莫弗和拉普拉斯以中心極限定理為路徑,把統(tǒng)計學領到正態(tài)分布的門口以后,很多的學者、統(tǒng)計學家、數(shù)學家、物理學家都通過不同的方法和路徑對正態(tài)分布進行了推導,下面我們就從三位具有影響力的學者的推導中體現(xiàn)正態(tài)分布的魅力。
3.1 高斯的推導
Maxwell在1860年,通過類似的假設和推導過程推出了氣體分子速率分布定律,這個定律中正好是三個正態(tài)分布的乘積,,Herschel-Maxwell的推導過程不同之處在于他們沒有依賴概率論,只是根據(jù)空間幾何的旋轉對稱性,而推導過程中的正是分布密度中的。
4 總結
算術平均公式作為統(tǒng)計計算的起點,被使用了千百年,在這個公式的背后隱藏著一個宏大而美麗的世界,偉大的數(shù)學家們一代接一代不停歇的對它和它背后的世界進行研究。在某個時間段,這個世界里的中心極限定理被發(fā)現(xiàn),棣莫弗和拉普拉斯是它的挖掘者,而這個定理最初只是滄海中的一粒沙塵,不過當數(shù)學家們通過對它的精雕細琢,它最終顯現(xiàn)出它的光芒。算術平均的秘密被高斯在最大似然估計中實現(xiàn),從而推導出正態(tài)分布,這個分布的出現(xiàn)是數(shù)理統(tǒng)計史上具有里程碑意義的時刻,高斯的成就讓他有了數(shù)學之神的美譽,后世的德國鈔票和鋼镚上通過印有正態(tài)密度曲線的圖形來紀念他,高爾頓曾說:我不曾見過像誤差正態(tài)分布這么美麗的曲線,它激發(fā)了人們無窮的想象力,它是無理性世界中的最高法律,當我們從混亂的總體中抽取大量樣本,從小到大排序后,這個規(guī)律總會潛伏其中。這樣一個來自經(jīng)驗直方圖和賭博游戲的規(guī)律,成了我們?nèi)粘I钪械囊徊糠?,無論在哪里,都能感受到他的存在,在大數(shù)據(jù)時代愈發(fā)明顯。
資助項目:長江大學教學研究項目(JY2018030)
參考文獻
[1] 陳希孺.數(shù)理統(tǒng)計學簡史[M].2002.
[2] 靳志輝.正態(tài)分布的前世今生,https://cosx.org/2013/01/story-of-normal-distribution-1
[3] 吳江霞.正態(tài)分布進入統(tǒng)計學的歷史演化[D].河北師范大學,2008.
[4] Kiseon Kim, Shevlyakov, G. Why Gaussianity?[J].Signal Processing Magazine IEEE,25(2):102-113.
[5] Bhattacharya R. A history of the central limit theorem: from classical to modern probability theory [book review of MR2743162][J].Magyar Seb閟zet,1956.
[6] Doob J L.[The Central Limit Theorem Around 1935]:Comment[J].1986.1(1):93-94.