亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

還原數(shù)學(xué)細(xì)節(jié)：高斯推導(dǎo)正態(tài)分布概率密度函數(shù)的過(guò)程

2019-06-29 03:04:20周菊玲

統(tǒng)計(jì)與信息論壇 2019年6期

楊軍，周菊玲

(新疆師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院，新疆烏魯木齊830017)

一、引言

正態(tài)分布是應(yīng)用最廣泛的連續(xù)概率分布，因其概率密度函數(shù)解析式

是由德國(guó)著名的數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家高斯(Gauss.C.F，1777-1855)推導(dǎo)出來(lái)，故又稱其為高斯分布(圖1)。其也是高斯所有科學(xué)貢獻(xiàn)中對(duì)人類(lèi)文明影響最大者，故在歐元出現(xiàn)前的德國(guó)10馬克的紙幣上，不僅印有高斯的頭像，更印有高斯分布N(μ，σ2)的密度曲線(圖2)。

但是，如此不常見(jiàn)的密度函數(shù)解析式高斯究竟是源于什么思路想到，又是利用什么方法推導(dǎo)出來(lái)的呢？筆者就曾因?qū)W生在課堂上提出這個(gè)問(wèn)題無(wú)法解釋而尷尬不已……

后來(lái)直至有機(jī)會(huì)查閱到陳希孺院士所著《數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史》等[1-2]，其概要了高斯推導(dǎo)正態(tài)分布密度函數(shù)的思想方法，由此細(xì)細(xì)揣摩才發(fā)現(xiàn)歷史上高斯對(duì)正態(tài)分布密度函數(shù)的推導(dǎo)源于對(duì)誤差分布規(guī)律的研究，推導(dǎo)過(guò)程用到了“最大似然估計(jì)法”(今天的稱謂)和初等微積分的相關(guān)知識(shí)。至此才還原了高斯推導(dǎo)這條曲線解析式的思路和數(shù)學(xué)細(xì)節(jié)。

圖1 高斯分布圖

圖2 德國(guó)10馬克紙幣圖

本文首先介紹相關(guān)預(yù)備知識(shí)，然后扼要梳理正態(tài)分布密度函數(shù)發(fā)現(xiàn)的歷史脈絡(luò)，并重點(diǎn)分析高斯推導(dǎo)正態(tài)分布密度函數(shù)的思想方法，據(jù)此還原高斯推導(dǎo)正態(tài)分布密度函數(shù)的數(shù)學(xué)細(xì)節(jié)和過(guò)程。

之所以介紹相關(guān)預(yù)備知識(shí)并重點(diǎn)關(guān)注高斯推導(dǎo)正態(tài)分布概率密度函數(shù)的數(shù)學(xué)細(xì)節(jié)和過(guò)程，是基于查閱正態(tài)分布?xì)v史的相關(guān)文獻(xiàn)，大多關(guān)注其發(fā)展脈絡(luò)和重大事件，鮮有從數(shù)學(xué)細(xì)節(jié)視角詳細(xì)闡述高斯推導(dǎo)正態(tài)分布概率密度函數(shù)過(guò)程的文獻(xiàn)。當(dāng)然，作為統(tǒng)計(jì)學(xué)史方面的文獻(xiàn)不應(yīng)也不可能把歷史上所涉及的數(shù)學(xué)細(xì)節(jié)均予以還原[3]。但如果歷史上統(tǒng)計(jì)學(xué)家研究某個(gè)問(wèn)題的解法具有史料價(jià)值，同時(shí)現(xiàn)有論著或文獻(xiàn)又不易查到這樣的解法，那么詳細(xì)還原其數(shù)學(xué)細(xì)節(jié)和過(guò)程不僅具有歷史意義，而且也具有數(shù)學(xué)邏輯價(jià)值。

二、預(yù)備知識(shí)

(一)最大似然估計(jì)法

設(shè)總體X的分布函數(shù)形式已知，但它的一個(gè)或幾個(gè)參數(shù)未知。借助于總體X的一個(gè)樣本值x1，x2，…，xn估計(jì)總體未知參數(shù)值的問(wèn)題稱為參數(shù)的點(diǎn)估計(jì)問(wèn)題。最大似然估計(jì)法是其中常用的方法之一。

最有可能發(fā)生的事件最容易發(fā)生。設(shè)x1，x2，…，xn是總體X的一個(gè)樣本值，那么既然已經(jīng)取到總體X的一個(gè)樣本值x1，x2，…，xn，則有足夠理由認(rèn)為樣本值x1，x2，…，xn發(fā)生的概率比較大，從而就可以根據(jù)已經(jīng)取到樣本值x1，x2，…，xn的概率比較大這一樸素認(rèn)識(shí)，去估計(jì)總體X的未知參數(shù)值。

根據(jù)以上樸素認(rèn)識(shí)，英國(guó)統(tǒng)計(jì)學(xué)家費(fèi)希爾(R.A.Fisher，1890—1962)于1912年提出了最大似然估計(jì)法：既然已經(jīng)取到總體X的一個(gè)樣本值x1，x2，…，xn，這表明取到這一樣本值的概率較大，而不用考慮那些不能使樣本出現(xiàn)的參數(shù)值θ作為其估計(jì)值。另一方面，如果當(dāng)參數(shù)取θ0時(shí)，樣本值x1，x2，…，xn的概率取很大的值，而其他的參數(shù)值θ使此概率取很小值，自然認(rèn)為取θ0作為參數(shù)的估計(jì)值較為合理。由概率最大的事件最容易發(fā)生，從而有理由認(rèn)為取到樣本值x1，x2，…，xn的概率最大。進(jìn)而根據(jù)其概率最大，去估計(jì)總體X的未知參數(shù)的值也就最為合理。

若總體X屬于連續(xù)型，其概率密度函數(shù)f(x;θ)，θ∈Θ的形式已知，θ為待估參數(shù)，Θ是θ可能取值的范圍。設(shè)X1，X2，…，Xn是來(lái)自X的樣本，x1，x2，…，xn是相應(yīng)于樣本X1，X2，…，Xn的一個(gè)觀測(cè)值，則隨機(jī)點(diǎn)(X1，X2，…，Xn)落在點(diǎn)(x1，x2，…，xn)的鄰域(邊長(zhǎng)分別為dx1，dx2，…，dxn的n維立方體)內(nèi)的概率近似地為

(1)

這樣，確定最大似然估計(jì)值的問(wèn)題就歸結(jié)為微分學(xué)中的求最大值問(wèn)題了。注意到樣本的似然函數(shù)L(θ)為連乘形式，通常對(duì)其取對(duì)數(shù)化為和的形式便于求最大值。

(二)兩個(gè)引理

引理1 已知連續(xù)函數(shù)g(x)是定義在R上的奇函數(shù)，對(duì)任意自然數(shù)m及實(shí)數(shù)x，均有g(shù)(mx)=mg(x)，則g(x)=cx(其中c=g(1)為常數(shù))。

下面利用“爬坡法”嚴(yán)格證明之。

證明(1)當(dāng)x=0時(shí)，引理顯然成立。

表明引理亦成立；

當(dāng)x為任意負(fù)有理數(shù)時(shí)，由g(x)為奇函數(shù)易知引理仍然成立。

表明當(dāng)x為任意無(wú)理數(shù)時(shí)，也有g(shù)(x)=cx。

綜上，對(duì)任意實(shí)數(shù)x，均有g(shù)(x)=cx。

設(shè)D1={(x，y)|x2+y2≤R2}，D2={(x，y)|x2+y2≤2R2}，S={(x，y)|-R≤x≤R，-R≤y≤R}。

顯然D1?S?D2。由于e-x2-y2>0，故在D1，S，D2上的二重積分之間有下列不等式：

(2)

令R→+，上式兩端趨于同一極限π，從而

三、早期數(shù)學(xué)家與天文學(xué)家的相關(guān)工作

(一)數(shù)學(xué)家亞伯拉罕·棣莫弗的工作

(二)天文學(xué)家關(guān)于誤差分布規(guī)律的早期研究

歷史上高斯對(duì)正態(tài)分布密度函數(shù)的推導(dǎo)源于對(duì)誤差分布規(guī)律的認(rèn)識(shí)。但在其之前，很多天文學(xué)家已經(jīng)開(kāi)展了相關(guān)研究。

伽利略(G.Galileo，1564—1642)可能是第一個(gè)提出隨機(jī)誤差概念并對(duì)其有所研究的學(xué)者[5]。他在1632年出版的著作《關(guān)于兩個(gè)主要世界系統(tǒng)的對(duì)話》中提出:

(1)所有觀測(cè)值都可能有誤差，其源于觀測(cè)者、儀器工具及觀測(cè)條件等；

(2)觀測(cè)誤差對(duì)稱地分布在0的兩側(cè)，因儀器工具使得觀測(cè)值比真值大或小的可能性是等同的；

(3)小誤差出現(xiàn)的頻率大于大誤差。

辛普森(T.Simpson，1710—1761)基于當(dāng)時(shí)天文學(xué)家認(rèn)為“因?yàn)椴煌煳呐_(tái)的設(shè)備和觀測(cè)條件、人員素質(zhì)上的差異導(dǎo)致觀測(cè)結(jié)果的可靠性也有差異，故取算術(shù)平均值會(huì)受到‘壞’的觀測(cè)值的干擾”，故而于1755年《在應(yīng)用天文學(xué)中取若干觀測(cè)平均值的好處》一文中第一次從概率角度嚴(yán)格證明了算術(shù)平均值的優(yōu)良性：即在概率意義下，觀測(cè)結(jié)果的平均誤差比單次測(cè)量的誤差小。辛普森上述工作并未觸及建立一般的誤差分布理論，他只是在誤差滿足某種特定分布的前提下，去計(jì)算平均誤差的分布，從而證明觀測(cè)結(jié)果的平均誤差小于單次測(cè)量的誤差。

拉普拉斯(P.S.Laplace，1749-1827)則直接研究誤差論的基本問(wèn)題“誤差分布應(yīng)取怎樣的分布，以及在決定了誤差分布后，如何根據(jù)多次觀測(cè)結(jié)果去估計(jì)真值”。為此他提出誤差分布函數(shù)f(x)應(yīng)滿足以下條件：

(1)f(-x)=f(x)；

(3)-f'(x)=mf(x)，x≥0。

關(guān)于條件(3)，拉普拉斯是基于“隨著x→+，曲線f(x)下降且愈來(lái)愈平緩，故而其下降率-f′(x)也應(yīng)隨x增大而下降，同時(shí)-f′(x)與f(x)在下降中總保持恒定比例”。據(jù)此，拉普拉斯推出今天教科書(shū)中稱之為拉普拉斯分布或指數(shù)分布的函數(shù)

隨即拉普拉斯依據(jù)其確定的誤差分布函數(shù)通過(guò)觀測(cè)結(jié)果去估計(jì)真值。設(shè)被測(cè)的量真值為θ，則n次獨(dú)立觀測(cè)真值θ得到觀測(cè)值x1，x2，…，xn的概率與

f(x1-θ)f(x2-θ)…f(x2-θ)

成正比例，但最終拉普拉斯因超級(jí)繁雜的計(jì)算無(wú)功而返。

四、高斯推導(dǎo)正態(tài)分布概率密度函數(shù)

(一)高斯推導(dǎo)正態(tài)分布概率密度函數(shù)的思想方法

高斯推導(dǎo)正態(tài)分布概率密度函數(shù)解析式的思想，與伽利略、辛普森、拉普拉斯等一樣，也源自對(duì)誤差分布規(guī)律的認(rèn)識(shí)。1809年，高斯發(fā)表了其數(shù)學(xué)和天體力學(xué)的名著《繞日天體運(yùn)動(dòng)的理論》。在此書(shū)末尾，他寫(xiě)了一節(jié)有關(guān)“數(shù)據(jù)結(jié)合”(data combination)的問(wèn)題，實(shí)際涉及的就是誤差分布規(guī)律的確定問(wèn)題。

高斯也提出了關(guān)于誤差分布函數(shù)f(e)的幾點(diǎn)看起來(lái)很自然的假定：

(1)所有的測(cè)量值相互獨(dú)立且沒(méi)有理由懷疑一個(gè)測(cè)量值比另一個(gè)看上去更不精確；

(2)誤差分布密度函數(shù)連續(xù)且關(guān)于原點(diǎn)對(duì)稱；

(3)當(dāng)誤差e的絕對(duì)值|e|→時(shí)，f(e)→0。

設(shè)θ是總體真值，x1，x2，…，xn是n次獨(dú)立測(cè)量值，高斯把“n次觀測(cè)真值θ得到獨(dú)立觀測(cè)值x1，x2，…，xn”的概率(實(shí)際是成正比例)取為：

L(θ)=f(x1-θ)f(x2-θ)…f(xn-θ)

(3)

其中f(x)為待定的誤差分布函數(shù)。到此為止高斯的作法與拉普拉斯完全相同。

f(x2-θ)…f(xn-θ)

(4)

而反過(guò)來(lái)的問(wèn)題是：如何求誤差分布密度函數(shù)f(x)？對(duì)此，高斯提出了第二點(diǎn)出人意料的想法使其以極為簡(jiǎn)潔的方式推導(dǎo)出了誤差分布密度函數(shù)f(x)。高斯認(rèn)為：“當(dāng)我們?cè)谙嗤沫h(huán)境下，以相同的謹(jǐn)慎程度得到某一數(shù)量的多個(gè)直接觀察值時(shí)，認(rèn)為算術(shù)平均值為這一數(shù)量最可能的取值是大家通常都接受的公理。雖然這樣做可能是不嚴(yán)格的，但至少是非常近似準(zhǔn)確的，因此堅(jiān)持這一點(diǎn)總是最穩(wěn)妥的?！盵2]