楊 軍,周菊玲
(新疆師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,新疆 烏魯木齊830017)
正態(tài)分布是應(yīng)用最廣泛的連續(xù)概率分布,因其概率密度函數(shù)解析式
是由德國(guó)著名的數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家高斯(Gauss.C.F,1777-1855)推導(dǎo)出來(lái),故又稱其為高斯分布(圖1)。其也是高斯所有科學(xué)貢獻(xiàn)中對(duì)人類(lèi)文明影響最大者,故在歐元出現(xiàn)前的德國(guó)10馬克的紙幣上,不僅印有高斯的頭像,更印有高斯分布N(μ,σ2)的密度曲線(圖2)。
但是,如此不常見(jiàn)的密度函數(shù)解析式高斯究竟是源于什么思路想到,又是利用什么方法推導(dǎo)出來(lái)的呢?筆者就曾因?qū)W生在課堂上提出這個(gè)問(wèn)題無(wú)法解釋而尷尬不已……
后來(lái)直至有機(jī)會(huì)查閱到陳希孺院士所著《數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史》等[1-2],其概要了高斯推導(dǎo)正態(tài)分布密度函數(shù)的思想方法,由此細(xì)細(xì)揣摩才發(fā)現(xiàn)歷史上高斯對(duì)正態(tài)分布密度函數(shù)的推導(dǎo)源于對(duì)誤差分布規(guī)律的研究,推導(dǎo)過(guò)程用到了“最大似然估計(jì)法”(今天的稱謂)和初等微積分的相關(guān)知識(shí)。至此才還原了高斯推導(dǎo)這條曲線解析式的思路和數(shù)學(xué)細(xì)節(jié)。
圖1 高斯分布圖
圖2 德國(guó)10馬克紙幣圖
本文首先介紹相關(guān)預(yù)備知識(shí),然后扼要梳理正態(tài)分布密度函數(shù)發(fā)現(xiàn)的歷史脈絡(luò),并重點(diǎn)分析高斯推導(dǎo)正態(tài)分布密度函數(shù)的思想方法,據(jù)此還原高斯推導(dǎo)正態(tài)分布密度函數(shù)的數(shù)學(xué)細(xì)節(jié)和過(guò)程。
之所以介紹相關(guān)預(yù)備知識(shí)并重點(diǎn)關(guān)注高斯推導(dǎo)正態(tài)分布概率密度函數(shù)的數(shù)學(xué)細(xì)節(jié)和過(guò)程,是基于查閱正態(tài)分布?xì)v史的相關(guān)文獻(xiàn),大多關(guān)注其發(fā)展脈絡(luò)和重大事件,鮮有從數(shù)學(xué)細(xì)節(jié)視角詳細(xì)闡述高斯推導(dǎo)正態(tài)分布概率密度函數(shù)過(guò)程的文獻(xiàn)。當(dāng)然,作為統(tǒng)計(jì)學(xué)史方面的文獻(xiàn)不應(yīng)也不可能把歷史上所涉及的數(shù)學(xué)細(xì)節(jié)均予以還原[3]。但如果歷史上統(tǒng)計(jì)學(xué)家研究某個(gè)問(wèn)題的解法具有史料價(jià)值,同時(shí)現(xiàn)有論著或文獻(xiàn)又不易查到這樣的解法,那么詳細(xì)還原其數(shù)學(xué)細(xì)節(jié)和過(guò)程不僅具有歷史意義,而且也具有數(shù)學(xué)邏輯價(jià)值。
設(shè)總體X的分布函數(shù)形式已知,但它的一個(gè)或幾個(gè)參數(shù)未知。借助于總體X的一個(gè)樣本值x1,x2,…,xn估計(jì)總體未知參數(shù)值的問(wèn)題稱為參數(shù)的點(diǎn)估計(jì)問(wèn)題。最大似然估計(jì)法是其中常用的方法之一。
最有可能發(fā)生的事件最容易發(fā)生。設(shè)x1,x2,…,xn是總體X的一個(gè)樣本值,那么既然已經(jīng)取到總體X的一個(gè)樣本值x1,x2,…,xn,則有足夠理由認(rèn)為樣本值x1,x2,…,xn發(fā)生的概率比較大,從而就可以根據(jù)已經(jīng)取到樣本值x1,x2,…,xn的概率比較大這一樸素認(rèn)識(shí),去估計(jì)總體X的未知參數(shù)值。
根據(jù)以上樸素認(rèn)識(shí),英國(guó)統(tǒng)計(jì)學(xué)家費(fèi)希爾(R.A.Fisher,1890—1962)于1912年提出了最大似然估計(jì)法:既然已經(jīng)取到總體X的一個(gè)樣本值x1,x2,…,xn,這表明取到這一樣本值的概率較大,而不用考慮那些不能使樣本出現(xiàn)的參數(shù)值θ作為其估計(jì)值。另一方面,如果當(dāng)參數(shù)取θ0時(shí),樣本值x1,x2,…,xn的概率取很大的值,而其他的參數(shù)值θ使此概率取很小值,自然認(rèn)為取θ0作為參數(shù)的估計(jì)值較為合理。由概率最大的事件最容易發(fā)生,從而有理由認(rèn)為取到樣本值x1,x2,…,xn的概率最大。進(jìn)而根據(jù)其概率最大,去估計(jì)總體X的未知參數(shù)的值也就最為合理。
若總體X屬于連續(xù)型,其概率密度函數(shù)f(x;θ),θ∈Θ的形式已知,θ為待估參數(shù),Θ是θ可能取值的范圍。設(shè)X1,X2,…,Xn是來(lái)自X的樣本,x1,x2,…,xn是相應(yīng)于樣本X1,X2,…,Xn的一個(gè)觀測(cè)值,則隨機(jī)點(diǎn)(X1,X2,…,Xn)落在點(diǎn)(x1,x2,…,xn)的鄰域(邊長(zhǎng)分別為dx1,dx2,…,dxn的n維立方體)內(nèi)的概率近似地為
(1)
這樣,確定最大似然估計(jì)值的問(wèn)題就歸結(jié)為微分學(xué)中的求最大值問(wèn)題了。注意到樣本的似然函數(shù)L(θ)為連乘形式,通常對(duì)其取對(duì)數(shù)化為和的形式便于求最大值。
引理1 已知連續(xù)函數(shù)g(x)是定義在R上的奇函數(shù),對(duì)任意自然數(shù)m及實(shí)數(shù)x,均有g(shù)(mx)=mg(x),則g(x)=cx(其中c=g(1)為常數(shù))。
下面利用“爬坡法”嚴(yán)格證明之。
證明(1)當(dāng)x=0時(shí),引理顯然成立。
表明引理亦成立;
當(dāng)x為任意負(fù)有理數(shù)時(shí),由g(x)為奇函數(shù)易知引理仍然成立。
表明當(dāng)x為任意無(wú)理數(shù)時(shí),也有g(shù)(x)=cx。
綜上,對(duì)任意實(shí)數(shù)x,均有g(shù)(x)=cx。
設(shè)D1={(x,y)|x2+y2≤R2},D2={(x,y)|x2+y2≤2R2},S={(x,y)|-R≤x≤R,-R≤y≤R}。
顯然D1?S?D2。由于e-x2-y2>0,故在D1,S,D2上的二重積分之間有下列不等式:
(2)
令R→+,上式兩端趨于同一極限π,從而
歷史上高斯對(duì)正態(tài)分布密度函數(shù)的推導(dǎo)源于對(duì)誤差分布規(guī)律的認(rèn)識(shí)。但在其之前,很多天文學(xué)家已經(jīng)開(kāi)展了相關(guān)研究。
伽利略(G.Galileo,1564—1642)可能是第一個(gè)提出隨機(jī)誤差概念并對(duì)其有所研究的學(xué)者[5]。他在1632年出版的著作《關(guān)于兩個(gè)主要世界系統(tǒng)的對(duì)話》中提出:
(1)所有觀測(cè)值都可能有誤差,其源于觀測(cè)者、儀器工具及觀測(cè)條件等;
(2)觀測(cè)誤差對(duì)稱地分布在0的兩側(cè),因儀器工具使得觀測(cè)值比真值大或小的可能性是等同的;
(3)小誤差出現(xiàn)的頻率大于大誤差。
辛普森(T.Simpson,1710—1761)基于當(dāng)時(shí)天文學(xué)家認(rèn)為“因?yàn)椴煌煳呐_(tái)的設(shè)備和觀測(cè)條件、人員素質(zhì)上的差異導(dǎo)致觀測(cè)結(jié)果的可靠性也有差異,故取算術(shù)平均值會(huì)受到‘壞’的觀測(cè)值的干擾”,故而于1755年《在應(yīng)用天文學(xué)中取若干觀測(cè)平均值的好處》一文中第一次從概率角度嚴(yán)格證明了算術(shù)平均值的優(yōu)良性:即在概率意義下,觀測(cè)結(jié)果的平均誤差比單次測(cè)量的誤差小。辛普森上述工作并未觸及建立一般的誤差分布理論,他只是在誤差滿足某種特定分布的前提下,去計(jì)算平均誤差的分布,從而證明觀測(cè)結(jié)果的平均誤差小于單次測(cè)量的誤差。
拉普拉斯(P.S.Laplace,1749-1827)則直接研究誤差論的基本問(wèn)題“誤差分布應(yīng)取怎樣的分布,以及在決定了誤差分布后,如何根據(jù)多次觀測(cè)結(jié)果去估計(jì)真值”。為此他提出誤差分布函數(shù)f(x)應(yīng)滿足以下條件:
(1)f(-x)=f(x);
(3)-f'(x)=mf(x),x≥0。
關(guān)于條件(3),拉普拉斯是基于“隨著x→+,曲線f(x)下降且愈來(lái)愈平緩,故而其下降率-f′(x)也應(yīng)隨x增大而下降,同時(shí)-f′(x)與f(x)在下降中總保持恒定比例”。據(jù)此,拉普拉斯推出今天教科書(shū)中稱之為拉普拉斯分布或指數(shù)分布的函數(shù)
隨即拉普拉斯依據(jù)其確定的誤差分布函數(shù)通過(guò)觀測(cè)結(jié)果去估計(jì)真值。設(shè)被測(cè)的量真值為θ,則n次獨(dú)立觀測(cè)真值θ得到觀測(cè)值x1,x2,…,xn的概率與
f(x1-θ)f(x2-θ)…f(x2-θ)
成正比例,但最終拉普拉斯因超級(jí)繁雜的計(jì)算無(wú)功而返。
高斯推導(dǎo)正態(tài)分布概率密度函數(shù)解析式的思想,與伽利略、辛普森、拉普拉斯等一樣,也源自對(duì)誤差分布規(guī)律的認(rèn)識(shí)。1809年,高斯發(fā)表了其數(shù)學(xué)和天體力學(xué)的名著《繞日天體運(yùn)動(dòng)的理論》。在此書(shū)末尾,他寫(xiě)了一節(jié)有關(guān)“數(shù)據(jù)結(jié)合”(data combination)的問(wèn)題,實(shí)際涉及的就是誤差分布規(guī)律的確定問(wèn)題。
高斯也提出了關(guān)于誤差分布函數(shù)f(e)的幾點(diǎn)看起來(lái)很自然的假定:
(1)所有的測(cè)量值相互獨(dú)立且沒(méi)有理由懷疑一個(gè)測(cè)量值比另一個(gè)看上去更不精確;
(2)誤差分布密度函數(shù)連續(xù)且關(guān)于原點(diǎn)對(duì)稱;
(3)當(dāng)誤差e的絕對(duì)值|e|→時(shí),f(e)→0。
設(shè)θ是總體真值,x1,x2,…,xn是n次獨(dú)立測(cè)量值,高斯把“n次觀測(cè)真值θ得到獨(dú)立觀測(cè)值x1,x2,…,xn”的概率(實(shí)際是成正比例)取為:
L(θ)=f(x1-θ)f(x2-θ)…f(xn-θ)
(3)
其中f(x)為待定的誤差分布函數(shù)。到此為止高斯的作法與拉普拉斯完全相同。
f(x2-θ)…f(xn-θ)
(4)
而反過(guò)來(lái)的問(wèn)題是:如何求誤差分布密度函數(shù)f(x)?對(duì)此,高斯提出了第二點(diǎn)出人意料的想法使其以極為簡(jiǎn)潔的方式推導(dǎo)出了誤差分布密度函數(shù)f(x)。高斯認(rèn)為:“當(dāng)我們?cè)谙嗤沫h(huán)境下,以相同的謹(jǐn)慎程度得到某一數(shù)量的多個(gè)直接觀察值時(shí),認(rèn)為算術(shù)平均值為這一數(shù)量最可能的取值是大家通常都接受的公理。雖然這樣做可能是不嚴(yán)格的,但至少是非常近似準(zhǔn)確的,因此堅(jiān)持這一點(diǎn)總是最穩(wěn)妥的?!盵2]
函數(shù)L(θ)=f(x1-θ)f(x2-θ)…f(xn-θ)的最大值問(wèn)題等價(jià)于:
(5)
(6)
故要求f(x),只需求g(x)。由f(x)為偶函數(shù),知g(x)為奇函數(shù),即g(-x)=-g(x)。
g(mx)=mg(x)。
(7)
顯然式(7)對(duì)一切自然數(shù)m及實(shí)數(shù)x均成立。從而根據(jù)引理1,可知g(x)=cx,即
至此,數(shù)理統(tǒng)計(jì)學(xué)中最重要的統(tǒng)計(jì)模型“正態(tài)分布概率密度函數(shù)”終于露出了廬山真面目,并最終成為19世紀(jì)數(shù)理統(tǒng)計(jì)學(xué)的統(tǒng)治者。