張璇
摘 要:在實(shí)踐中,我們可以找到大量的滿足正態(tài)分布的例子。由于正態(tài)分布的應(yīng)用價值及理論重要性,正態(tài)分布得到廣泛的研究。由于一些學(xué)生基礎(chǔ)不扎實(shí)或課程設(shè)置的因素等,不少學(xué)生對正態(tài)分布的理解存在偏差。本文回顧了正態(tài)分布的起源及相關(guān)定義,闡述了其重要特性并給出了大量的應(yīng)用例子,包括在現(xiàn)實(shí)生活的應(yīng)用,例如在質(zhì)量管理的應(yīng)用。本文的研究成果有助于幫助學(xué)生更好的理解正態(tài)分布的起源、定義、性質(zhì)及其在具體問題中的靈活應(yīng)用。
關(guān)鍵詞:正態(tài)分布;性質(zhì);應(yīng)用;概率
1.正態(tài)分布的來源及概念
1.1正態(tài)分布的來源
正態(tài)分布,也稱高斯分布,是由著名的數(shù)學(xué)家Moivre首先提出并且被眾所周知的大數(shù)學(xué)家高斯首次在天文學(xué)研究中使用的。高斯在天文學(xué)中使用正態(tài)分布的結(jié)果催生了曲線擬合中聞名的最小二乘法。由于高斯在正態(tài)分布發(fā)展史上的重要貢獻(xiàn),直到今天,德國的10馬克紙幣上仍然印著正態(tài)分布的概率密度曲線還有高斯的頭像。在一開始的時候,該研究成果并沒有受到廣泛關(guān)注。直到小樣理論的出現(xiàn)。具體而言,拉普拉斯注意到了高斯關(guān)于正態(tài)分布的理論成果,開始思考其與拉普拉斯提出的中心極限定理的聯(lián)系,并猜想該定理應(yīng)該存在滿足正態(tài)分布的元素。該猜想后來被海根證實(shí)并導(dǎo)致了元誤差學(xué)說的誕生。
1.2正態(tài)分布的概念
1.2.1正態(tài)分布的定義
定義1:設(shè)連續(xù)型隨機(jī)變量的密度函數(shù) (也叫概率密度函數(shù))
式中x是自變量,表示隨機(jī)抽樣的樣本的值,f(x)是概率密度函數(shù)的函數(shù)值。該概率密度函數(shù)中包含兩個參數(shù)。其中,參數(shù) μ表示樣本數(shù)據(jù)的平均值,參數(shù)σ表示樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。給定兩個參數(shù)的值,則式子(1.1)所示的函數(shù)的曲線可以直接繪制出來。
定義2:在 (1.1) 式中,假如兩個參數(shù)滿足μ=0,σ=1, 那么該概率密度函數(shù)對應(yīng)的分布就是標(biāo)準(zhǔn)正態(tài)分布。將兩個參數(shù)的值代入式子(1.1)中,則概率密度函數(shù)可以化簡為如下函數(shù):
1.2.2參數(shù)μ和σ的意義
從前面的結(jié)果我們知道,正態(tài)分布的概率密度函數(shù)存在兩個參數(shù),分別是和,并且從圖1中我們知道,對于不同的參數(shù)值,正態(tài)分布的概率密度函數(shù)繪制出來的曲線是不一樣的。換言之,對于給定的一組參數(shù)值,我們可以得到對應(yīng)的概率密度函數(shù)的曲線圖。因此,這里有必要探討下這兩個參數(shù)對正態(tài)分布的概率密度函數(shù)的曲線的形狀和位置的影響。研究表明,參數(shù)決定了正態(tài)分布的概率密度函數(shù)曲線的對稱軸的位置,因此,我們稱它是正態(tài)分布概率密度函數(shù)的位置參數(shù)。該參數(shù)的值直接決定了正態(tài)分布概率密度曲線的對稱軸對應(yīng)的軸的取值。當(dāng)參數(shù)固定的情況下,如果改變參數(shù),我們可以發(fā)現(xiàn)正態(tài)分布的概率密度函數(shù)的曲線的形狀不改變,呈現(xiàn)一種平移的效果。具體可見圖2。相比之下,參數(shù)則決定了正態(tài)分布的概率密度函數(shù)的曲線的形狀。具體而言,當(dāng)位置參數(shù)的取值不變的情況下,如果減小參數(shù)的值,那么正態(tài)分布的概率密度函數(shù)的曲線會變得更加陡峭或者說高瘦;反之,如果保持位置參數(shù)的取值不變,增大參數(shù)的值,那么正態(tài)分布的概率密度函數(shù)的曲線會變得更加平緩,或者說矮胖。
實(shí)際上,對正態(tài)分布的概率密度函數(shù)的兩個參數(shù)可以從多個角度進(jìn)行分析。具體而言,如果從其幾何意義來看,參數(shù)對應(yīng)的是正態(tài)分布的概率密度函數(shù)的曲線的極大值所對應(yīng)的橫坐標(biāo)的值而參數(shù)則是正態(tài)分布的概率密度函數(shù)的曲線的拐點(diǎn)對應(yīng)的橫坐標(biāo)上的點(diǎn)距離該曲線的對稱軸的大小。換言之,參數(shù)是正態(tài)分布的概率密度函數(shù)的函數(shù)的凸曲線與凹曲線接連的處的橫坐標(biāo)值。就該兩個參數(shù)的物理含義而言,參數(shù)表示正態(tài)分布的概率密度函數(shù)的曲線和軸所包圍起來的平面圖形的重心所對應(yīng)的橫坐標(biāo)值。就該兩個參數(shù)的數(shù)理統(tǒng)計意義而言,參數(shù)對應(yīng)的是樣本的均值,而參數(shù)則對應(yīng)的是樣本數(shù)據(jù)的標(biāo)準(zhǔn)偏差。就該兩個參數(shù)的計量學(xué)意義而言,參數(shù)表示被測量的物理量的真值,而參數(shù)則表示測量值的分散程度的高低。具體而言,如果增大,那么我們得到的觀測值出現(xiàn)在附近的可能性就減小,導(dǎo)致觀測得到的值的分散程度增大嗎,進(jìn)而使得測量精度降低;反之,如果參數(shù)較小,那么我們得到的觀測值出現(xiàn)在附近的可能性就會增大,導(dǎo)致觀測值的分散程度減弱,也就是更加地集中,進(jìn)而提高我們的測量精度。綜上所述,正態(tài)分布的概率密度函數(shù)中,參數(shù)體現(xiàn)了觀測所得到的值的集中趨勢,而參數(shù)則體現(xiàn)了觀測所得到的值的分散程度。顯而易見的是,減小可以導(dǎo)致得到的觀測效果更好[1].
2.正態(tài)分布的性質(zhì)
2.1如果X ~N (μ, σ2) 且a與b是實(shí)數(shù),那么aX+b ~N (aμ+b,(aσ2)) 。
2.2給定統(tǒng)計獨(dú)立的正態(tài)隨機(jī)變量X ~ N (μX,σX2) 與Y ~N (μY,σY2 ),我們有如下結(jié)論:
(1)它們的和也滿足正態(tài)分布U =X+Y~N (μX+μY,σY2+ σY2 )。
(2)它們的差也滿足正態(tài)分布U =X-Y~N (μX-μY,σY2+ σY2 )。
(3)隨機(jī)變量U 和隨機(jī)變量V 相互獨(dú)立的。
2.3給定獨(dú)立標(biāo)準(zhǔn)正態(tài)隨機(jī)變量X 1, , , X n。則X12+X22+, , ,+Xn2滿足卡方分布且其自由度n。正態(tài)分布存在一個很好的特性,該特性被稱為中心極限定理。具體而言,當(dāng)某些要求得到滿足時,許多相互統(tǒng)計獨(dú)立的隨機(jī)變量的和形成的分布趨向于滿足正態(tài)分布。該定理的有趣的地方,基于其給出的結(jié)論,我們可以用正態(tài)分布去逼近其他的分布,從而利用正態(tài)分布的性質(zhì)是簡化問題的求解。
參考文獻(xiàn)
[1]Efficient processing of k nearest neighbor joins using MapReduce. Wei Lu,YanyanShen,SuChen,Beng Chin Ooi. Proceedings of the VLDB Endowment . 2012
[2]劉宗鶴等譯.概率與統(tǒng)計入門.北京:農(nóng)業(yè)出版社,1986
[3] 周富臣等.機(jī)械制造計量檢測技術(shù)手冊[J].北京:機(jī)槭工業(yè)出版社. 2000.10