鄭文兵
(湛江師范學院 法政學院,廣東 湛江 524048)
正態(tài)分布,又名高斯分布,是概率論中最重要的一種分布,一種最常見的連續(xù)性隨機變量的概率分布,也是自然界最常見的一種分布。在數學、物理及工程等領域都非常重要,在統(tǒng)計學的許多方面有著重大的影響力。正態(tài)分布的概念是由德國的數學家和天文學家Moivre于1733年首次提出的,但由于德國數學家Gauss率先將其應用于天文學家研究并對后世的影響極大,所以使正態(tài)分布同時就有了“高斯分布”的名稱[1]。該分布由兩個參數——平均值μ和方差σ2決定。概率密度函數曲線以均值為對稱中線,方差越小,分布越集中在均值附近。
如果一個隨機變量X的概念密度函數為:則表明該隨機變量X服從一個數學期望為μ、方差為σ2的正態(tài)(高斯)分布,其期望值μ決定了分布的位置、其標準差σ決定了分布的幅度。因其曲線呈鐘形狀態(tài),因此人們又經常稱之為鐘形曲線。我們通常所說的標準正態(tài)分布是μ=0,σ=1的正態(tài)分布。
正態(tài)分布理論具有廣泛的應用。大量實踐經驗和理論分析表明,許多自然現象和社會現象都可以看作服從或近似服從正態(tài)分布[2]。生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態(tài)分布來描述。例如,在生產條件不變的情況下,產品的強力、抗壓強度、口徑、長度等物理指標;同一種生物體的身長、體重等指標;同一種種子的重量;測量同一物體的誤差;彈著點沿某一方向的偏差;某個地區(qū)的年降水量;理想氣體分子的速度分量;醫(yī)學現象諸如同質群體中的紅細胞數、血紅蛋白量;一個人口群體的智商;一組人的某科目考試成績;實驗中的隨機誤差,等等,均呈現為正態(tài)或近似正態(tài)分布。有些指標(變量)雖服從偏態(tài)分布,但經數據轉換后的新變量可服從正態(tài)或近似正態(tài)分布。其中,經對數轉換后服從正態(tài)分布的指標,被稱為服從對數正態(tài)分布。同時,正態(tài)分布曲線還描述了許多心理檢驗得分;這個曲線還成為了不同種族的智力測驗的得分分布的爭論焦點[1]。
一般來說,如果一個現象是由許多微小的獨立隨機因素共同影響的結果,那么就可以認為這個現象具有正態(tài)分布。從理論上看,正態(tài)分布具有很多良好的性質,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導出的,例如對數正態(tài)分布、t分布、F分布等[3]。
在聯系自然、社會和人類思維的實踐背景下,我們以正態(tài)分布的本質為基礎,以正態(tài)分布曲線及其面積分布圖為表征,進行抽象與提升,可以抓住正態(tài)分布論的主要內涵歸納為正態(tài)哲學。這種哲學的主旨就是世界是不(非)均勻,也就是事物是不平均、不等分地分布著的,世界上的任何事物和結構都普遍存在著中心和外圍兩類狀態(tài),并與辯證唯物主義哲學的重點論理論相印證著。正態(tài)分布曲線及面積分布圖非常清晰的展示了事物的重心,那就是占事物整體68.27%的基區(qū),是主體、是重點、是中心,所以要重點抓。一倍標準差以外到正、負無窮遠的面積才占了31.73%,這恰好又展示了事物的外圍。
圖1 常用的正態(tài)概率值(在一般正態(tài)分布及標準正態(tài)分布中比較)
這就從數學上證明了世界是普遍的存在著中心和外圍的特征的,世界上的事物是不均勻的。人類在認識世界和改造世界的過程中一定要抓住重點、中心,因為重點、中心就是事物的主要矛盾,它對事物的發(fā)展起主要的、支配性的作用。抓住了重點、中心才能一舉其綱,萬目皆張。事物和現象紛繁復雜,在千頭萬緒中不抓住主要矛盾,就會陷入無限瑣碎之中。由于我們時間和精力的相對有限性,出于效率的追求,我們更應該抓住重點、中心。正態(tài)分布中基區(qū)所表現出的主體和重心意義,也正好和人類生活中的經驗智慧,比如“馬太效應”和20/80的“二八法則”不約而同的吻合著。
統(tǒng)計學上有古典概率、統(tǒng)計概率和主觀概率三種概率分類。古典概率的定義就是某種事件A所包含的基本事件個數M與其樣本空間中基本事件總數N的比值。古典概型(又叫等可能概型)認為有等概率的事件和現象發(fā)生,比如拋擲一枚均勻硬幣的現象,當硬幣落下來的時候,正面朝上和反面朝上的概率是一樣的;還比如投擲一顆均勻骰子的時候,當骰子落定以后,骰子的6個面中每一面朝上的概率也是一樣的[4]??墒沁@種事件和現象概率相等的條件必須具有以下兩種基本特點:
其一,事件的每次試驗的可能結果有限,即樣本空間中基本事件的總數是有限的;
其二,每個試驗結果即每個基本事件(樣本點)出現的可能性相同。
于是,從這里我們就可以清晰地看到,這種概型就是已經假設了事物是均勻分布的,也就是先事先假定事件是等概率的,然后再用它判斷事件是等概率的,用主觀代替客觀。所以,這種概率理論其實就是首先做出了一個事物出現、分布是相等概率的假設,然后又根本不加以檢驗或者無法加以檢驗后就直接地判定這個假定是成立的、不能被拒絕的,也就是用假設來證明假設是成立的,在理論上陷入了錯誤和混亂,在邏輯上也是前后循環(huán)和自相矛盾。事實上,筆者認為這是一種典型的人為假想的、孤立的、靜止的、唯心的概率觀。一旦聯系到客觀世界以后,并用普通聯系和永恒發(fā)展的辯證觀點來考察事物的概率以后,我們馬上就可以發(fā)現這種概率理論是需要修正的。比如,對于一個懷孕的女性,我們說她將來生育女孩和生育男孩的概率是相等的,都是0.5的概率??墒?,一個人口群體中,男孩和女孩的出生性別比一般是103~105:100,或者為103~107:100[5],這里就不再是0.5的概率了。再比如說,兩點分布即貝努利實驗中,實驗結果只有兩種可能,可是每一種結果出現的概率P卻不一定相等了,因為此時我們沒有確定事物是均勻分布的。某種結果即事件A出現的概率為P(A)=p,而另一種結果即事件A的對立事件Aˉ出現的概率則為P(Aˉ)=(1-p),很顯然p不一定等于(1-p)了。再比如,在N重貝努利實驗中的某種結果B出現的次數X的概率分布就為P(X=k)=Cknpk(1-p)n-k,也很清晰,這里每一種結果出現的概率也是不相等的。同理,超幾何分布、泊松分布等概率類型的分布中也是這種結果。
而統(tǒng)計概率則是歷史上同類事物發(fā)生的穩(wěn)定的頻率,其數學表達式為:
很顯然,這是一種不以人們的意志為轉移的客觀概率,毫無人類主觀的成分在內。同時,我們也可以很清晰地看出,統(tǒng)計概率的分布是不均勻的。
主觀概率則是合理的信念的測度,是某人對特定事件會發(fā)生的可能的度量,即他相信(認為)事件將會發(fā)生的可能性大小的程度。這種相信的程度是一種信念,是主觀的,但又是根據經驗、各方面的知識,對客觀情況的了解進行分析、推理、綜合判斷而設定的,與主觀臆測不同。主觀概率不認為事物的概率分布是均勻的。
總之,結合各門學科和各方面的情況后,我們認為世界上概率的分布是不均勻的。
這種概率不均勻、不平均的特性可以在正態(tài)分布中得到清晰的說明。正態(tài)分布的概率密度曲線的坐標系通常是這樣確定的:橫軸為變量軸,表示事物數量方面取值的變化;而縱軸是概率軸,表示事物數量某種取值概率的大小。從正態(tài)分布函數的概率密度曲線來看,很明顯地可以看出事物取不同變量值的概率是不一樣的,靠近中心的地方取值概率大,往兩邊延伸的地方取值概率小,離開均值越遠的地方取值的概率越小。
所以,正態(tài)分布的概率密度曲線告訴我們,我們所處的這個世界上不但存在著各種事實上的不均勻、不平均,而且還是概率上的不均勻、不平均,也即機會上的不平均,或者說各種事實上的不平均本身就是概率不平均、不均勻的具體表現和客觀化。所以,筆者認為追求事實平均和機會平均都是不可能的,這直接與自然法則相背道而馳。這就是正態(tài)分布的哲學本質和世界觀意義。
客觀世界作用于事物各個個體的因素分為基本因素和次要因素兩類,基本因素決定事物的必然規(guī)律,次要因素使事物呈現統(tǒng)計規(guī)律。人們所能認識而且能夠控制的因素是基本因素,而大量的次要因素未能為人們所認識或未能被人們所控制,但只要存在次要因素的影響,就必然會有所表現。人類社會的社會生活和經濟生活中,也大量的存在著各種影響人們社會生活和經濟生活的主要因素和次要因素。迄今為止,暫時還沒有相關的文獻表明社會、經濟現象不是隨機現象。
大量的文獻認為社會、經濟現象是隨機現象的,許多學者進行了類似的嘗試。例如,黃良文就認為一些社會和經濟現象是隨機事件,像農作物的每畝產量、人口的出生數和死亡數、生產的廢品數和合格品數、市場交易額、經營中的盈與虧等等現象,都是典型的經濟隨機事件[6]。同時,他還認為水產養(yǎng)殖中魚的體重、棉花纖維長度、機械零件尺寸、廁量誤差等等,都服從正態(tài)分布[7]。
袁衛(wèi)、龐浩、曾五一等也認為一些社會和經濟現象屬于隨機事件,例如他們認為消費者對于飲料的不同偏好、某座寫字樓每平方米的出租價格、產品質量中的合格率和次品率、某餐廳的日營業(yè)額、某電話用戶每一次通話時間長度等等,都是隨機現象。[4]
賈俊平、何曉群、金勇進等也認為,在社會和經濟現象中有許多隨機變量的概率分布都服從正態(tài)分布,如同齡組兒童的發(fā)育特征,如身高、體重、肺活量;某一公司的年銷售量;同一條件下產品的質量分布等等[8]。
王長江、郝華榮等也認為許多的自然現象和社會、經濟現象中,大量的隨機變量都服從或者近似服從正態(tài)分布[3]。
Gudmund R.Iversen and Mary Gergen等認為國民的政治傾向和投票行為、人們的慈善行為、人們的旅游行為、人們的汽車消費等都是隨機事件的,都服從或近似服從正態(tài)分布[1]。
朱建平、孫小素等認為保險公司的盈虧服從或者近似服從正態(tài)分布[2]。
張德存等認為農作物的產量、人們出行路線的選擇、產品的規(guī)范等現象服從或者近似服從正態(tài)分布[9]。
一種商品的需求數量是由許多因素共同決定的。其中,主要的因素有:該商品的價格、消費者的收入水平、相關商品的價格、消費者的偏好以及消費者對該商品的價格預期等等。
同樣的,一種商品的供給數量也取決于多種因素的影響。商品價格的高低、生產成本的大小、生產的技術水平、相關商品的價格、生產者對未來的預期等因素都會對商品的價格產生隨機影響。
商品的價格不僅由需求和供給決定,還有其它的很多因素也在隨機的影響著。例如,成本、消費者的偏好、邊際效用、相關商品的價格、最高限價和最低限價、財政和貨幣政策、信貸投資、消費者的風險態(tài)度等等因素都共同影響商品的價格。
消費者的風險態(tài)度和風險能力等,也是隨機現象。對任何一個消費者,不能完全確定其風險態(tài)度到底屬于何種,也不能完全確定其抵抗風險的能力。消費者的收入不僅由本身所提供的勞動來決定,還受到諸如能力、學識、行業(yè)、國家、地區(qū)、時期、文化等多因素的影響。
寡頭廠商之間的博弈中,也屬于隨機現象。因為任何一個博弈都有3個基本要素:參與者、策略和支付。在每一個博弈中其參與者、每一個參與者可供選擇的策略、每一個參與者所獲得的各自的報酬等等,事先都不能確定,都是隨機的。
所以我們可以觀察到許多的社會、經濟現象都是由許多微小的獨立隨機因素共同影響的結果?;诖耍P者認為,大量的社會現象、經濟現象都是隨機現象,正態(tài)分布的理論和方法廣泛地適應于社會現象和經濟現象的研究。
“偏態(tài)”,也稱偏度,是對數據分布對稱性的測度。測量偏態(tài)的統(tǒng)計量是偏態(tài)系數,記作SK。如果一組數據的分布是對稱的,則偏態(tài)系數等于0;如果偏態(tài)系數明顯不等于0,則表明數據的分布是不對稱的。若偏態(tài)系數大于1或者小于-1,則被稱為高度偏態(tài)分布;若偏態(tài)系數在0.5~1或者-1~-0.5之間嗎,則被認為是中等偏態(tài)分布;若偏態(tài)系數在-0.5~0.5之間的話,則稱低度偏態(tài)分布;偏態(tài)系數越接近0,偏斜程度就越低[8]。
“峰態(tài)”,也稱峰度,是對數據分布平峰或尖峰程度的測度。測度峰態(tài)的統(tǒng)計量是峰態(tài)系數,記作K。峰態(tài)通常是與標準正態(tài)分布相比較而言的。如果一組數據服從標準正態(tài)分布,則峰態(tài)系數的值等于0;若峰態(tài)系數的數值明顯不等于0,則表明分布比正態(tài)分布更平或者更尖,通常稱為平峰分布或尖峰分布。如果標準正態(tài)分布的峰態(tài)系數為0,那么當K>0時為尖峰分布,數據的分布更加集中;當K<0時為扁平分布,數據的分布越分散。如果標準正態(tài)分布的峰態(tài)系數為3,那么當K>3時為尖峰分布,數據的分布更加集中;當K<3時為扁平分布,數據的分布越分散[9]。
有關我國農村居民家庭某年度按純收入分組的資料匯總如表1所示。
表1 我國農村居民家庭純收入分組資料
現利用該資料計算其純收入的偏態(tài)系數和峰態(tài)系數。為計算方便,將分組資料縮小100倍。計算過程如表2。
根據表2計算得到皮爾遜偏態(tài)系數為SK=0.571、動差偏態(tài)系數為α=0.956,并如圖2所示。
所以,偏態(tài)系數為正值,而且數值較大。王長江、郝華榮等學者認為,這說明農村居民家庭純收入的分布為右偏分布,即收入較少的家庭占多數,而收入較高的家庭占少數,而且偏斜的程度較大。[3]而筆者還認為,有一半多的家庭收入超過了平均收入,只有不到一半的家庭收入低于平均收入,這說明農村居民家庭的純收入還是比較偏向于較高的。那些平均收入較低的家庭需要更好地考慮增加家庭收入的方法和途徑,努力提高自己的家庭收入。
同理,根據上述資料計算出來的峰態(tài)系數為K=3.4,圖形如圖3所示。王長江、郝華榮等學者認為,這說明我國農村居民家庭純收入的分布為尖峰分布,低收入組占較大的比重[3]。而筆者還認為,農村居民家庭的純收入分布得比較集中,收入差距相差不大。社會和國家需要更好的收入分配機制來進行適當的兼顧效率,讓努力程度不同的家庭收入分配適當拉開差距。
表2 偏態(tài)系數和峰態(tài)系數計算過程
圖2 右偏分布
圖3 尖頂分布
[1] (美)Gudmund R.Iversen and Mary Gergen.統(tǒng)計學[M].吳喜之等譯.北京:高等教育出版社,2000.
[2] 朱建平,孫小素.應用統(tǒng)計學[M].北京:清華大學出版社,2009.
[3] 王長江,郝華榮.統(tǒng)計學原理[M].北京:國防工業(yè)出版社,2006.
[4] 袁衛(wèi),龐浩,曾五一,賈俊平.統(tǒng)計學[M].北京:高等教育出版社,2009.
[5] 董銀蘭,周艷華,解鴻泉.人口學概論[M].北京:科學出版社,2004.
[6] 黃良文.隨機變量的概率分布[J].中國統(tǒng)計,1984,(02).
[7] 黃良文.二項分布和正態(tài)分布(上)[J].中國統(tǒng)計,1984,(03).
[8] 賈俊平,何曉群,金勇進.統(tǒng)計學(第4版)[M].北京:中國人民大學出版社,2000.
[9] 張德存.統(tǒng)計學(第2版)[M].北京:科學出版社,2004.