程小紅,楊浩菊
(1.首都師范大學初等教育學院,北京 100048;2.山西師范大學數(shù)學與計算機科學學院,山西臨汾 041004)
自19世紀初拉普拉斯(P-S.Laplace,1749—1827)證明中心極限定理以來,大樣本方法得到了廣泛應用,特別是統(tǒng)計方法引入到社會科學領域后。到20世紀初,以皮爾遜為首的統(tǒng)計學家已將大樣本視為解決問題的不可或缺的條件[1]。但是,在由人工控制的很多試驗,由于條件所限,樣本容量不是很大。雖有個別統(tǒng)計學家注意到了小樣本問題,但其工作并未引起人們的關注[2]。戈塞特(William Sealy Gosset,1876—1937)作為小樣本理論研究的先驅(qū),給出了樣本均值的誤差分布,討論了相關系數(shù)的小樣本分布。更為重要的是他的工作吸引了費舍爾(R.A.Fisher,1890—1962)、E.皮爾遜(E.S.Pearson,1895—1980)、內(nèi)曼(J.Neyman,1894—1981)等一批年輕統(tǒng)計學家的關注,進而形成了20世紀三、四十年代小樣本理論的大發(fā)展。
戈塞特于1876年出生在英國的肯特郡坎特伯雷市。1899年從牛津大學畢業(yè),大學期間主攻化學。畢業(yè)后,進入吉尼斯釀酒公司成為一名釀造師,從事這份職業(yè)直至去世。為了改良啤酒的口味,吉尼斯公司從19世紀90年代開始發(fā)起科學試驗改革。試驗產(chǎn)生了大量數(shù)據(jù),對數(shù)據(jù)進行系統(tǒng)分析就落在了數(shù)學功底深厚的戈塞特身上,為此他自學了有關誤差和最小二乘法的統(tǒng)計知識。
1905年,戈塞特到倫敦拜訪了統(tǒng)計學大師K.皮爾遜(K.Pearson,1857—1936)。1906 至1907年間,他又來到皮爾遜創(chuàng)立的生物計量實驗室深入研習。在這里,他了解到了統(tǒng)計理論的最新進展。戈塞特試圖用這些理論去分析釀酒行業(yè)中的數(shù)據(jù)?,F(xiàn)實讓戈塞特感到很困惑,當時統(tǒng)計學是大樣本的天下,比如約爾(G.Udney Yule,1871—1951)關于不列顛島成年男子身高的研究中,樣本就有8585個之多[3],與之相比,釀酒試驗中的數(shù)據(jù)要少得多,均值有時甚至只由十幾個樣本得出。戈塞特意識到大樣本理論應用到小樣本中可能會導致嚴重的偏差,這樣,他就開始致力于小樣本問題的研究。
1908年,戈塞特的小樣本研究成果以筆名“學生”在《生物計量學報》上發(fā)表。第1篇文章《平均值的或然誤差》,給出了樣本均值的小樣本分布[4]。第2篇文章《相關系數(shù)的或然誤差》,討論了皮爾遜相關系數(shù)的小樣本分布[5]。這兩篇文章揭開了小樣本理論研究的序幕,奠定了戈塞特在統(tǒng)計學中的地位。
隨后的三十年間,戈塞特涉獵很多統(tǒng)計問題,尤其是和釀酒有關的農(nóng)業(yè)試驗問題。雖說費舍爾的方差分析出現(xiàn)之后統(tǒng)計方法在農(nóng)業(yè)中的應用才取得較大進展,但戈塞特無疑是把統(tǒng)計方法引入到農(nóng)業(yè)試驗中的先驅(qū)者。費舍爾曾提到與戈塞特的通信及戈塞特的論文對自己的啟發(fā)。
與戈塞特在統(tǒng)計學上的貢獻相比,他獲得的榮譽并不多。戈塞特從未把自己看作專門的統(tǒng)計學家,他在吉尼斯公司一直工作到去世。對于研究成果,他也不急于發(fā)表。與那些動輒發(fā)表上百篇的科學家相比,他一生只發(fā)表21篇文章?;蛟S對他來說,科學研究只是為了解決工作中遇到的問題。
按照拉普拉斯中心極限定理,若x1,x2,…,xn為來自正態(tài)總體的樣本分別為樣本均值和樣本方差,μ為總體均值,當樣本容量n足夠大時,z=-μ)/s近似地服從正態(tài)分布。戈塞特在1908年發(fā)表的論文《平均值的或然誤差》中討論的是小樣本情況下z的分布問題,即z的精確分布。
戈塞特首先給出了樣本方差s2的分布。戈塞特的做法是考察s2的樣本矩。在計算了s2的四階樣本矩后,他推斷出s2的分布應為皮爾遜III型曲線,其概率分布為
根據(jù)s2的分布,很容易得出樣本標準差s的分布為
事實上,德國學者赫爾默特(Friedrich Robert Helmert,1843—1917)在1876年已經(jīng)發(fā)現(xiàn)s2的分布[6]。但從戈塞特的推導過程來看,他顯然并不知道赫爾默特的工作。
推出z的分布后,戈塞特又給出了樣本值n從4到10時z分布的表值。
很顯然,戈塞特雖然得出了正確的分布,但推理卻存在很大漏洞。由變量的不相關并不能推出變量是獨立的。但是,運氣眷顧了戈塞特,在正態(tài)總體情況下與s不相關是與s獨立的充要條件。給出z分布嚴格證明的是費舍爾。1912年還是大學生的費舍爾首先發(fā)現(xiàn)了戈塞特證明上的漏洞,他采用n維幾何法給出了嚴格證明,并把z轉(zhuǎn)換成了現(xiàn)在的t,其中費舍爾把這種調(diào)整及證明以通信的方式與戈塞特做了交流。自此,開啟了兩人長達二十多年的學術往來。
事實上,歷史上最早給出t分布的并非是戈塞特。德國數(shù)學家劉羅斯(Jakob Liuroth,1 844—1910)于1876年已經(jīng)發(fā)現(xiàn)t分布,英國統(tǒng)計學家愛德沃斯(F.Y.Edgeworth,1845—1926)1883年也獨立得出了t分布[2]。遺憾的是,兩位學者的工作淹沒在浩瀚的文獻中,沒有引起人們的關注。
戈塞特在1908年除了建立t分布外,還討論了樣本相關系數(shù)的分布問題。大樣本下的相關系數(shù)的近似分布早在1898年K.皮爾遜就已經(jīng)給出。戈塞特關注的是小樣本時相關系數(shù)的精確分布。數(shù)學推理加上豐富的經(jīng)驗與敏銳的直覺,用戈塞特的話來說,他猜出了總體相關系數(shù)ρ=0時樣本相關系數(shù)的抽樣分布。當ρ≠0時,因為不能用皮爾遜曲線族中的方程來描述,因此他無法給出一般情形下相關系數(shù)的抽樣分布。戈塞特甚至說,這超出了他的數(shù)學能力。
在探討相關系數(shù)的抽樣分布時,戈塞特沒有利用前面使用的矩法,而是采用了逆概率方法。對于總體相關系數(shù)ρ的先驗分布,他做過幾種假定,比如依據(jù)經(jīng)驗,相關系數(shù)應該與1-x2成比例,因此ρ的先驗分布可假定為
但由于他不能給出樣本相關系數(shù)r后驗分布f(r/ρ),因此也就無法給出 ρ的后驗分布 f(r/ρ)。
相關系數(shù)的抽樣分布最終還是由費舍爾在1915年給出。他依然是用處理t分布時的n維幾何法。而戈塞特此后除了對t分布的表值做過補充外,沒有再做過小樣本方面的研究。多數(shù)人認為他要在吉尼斯公司全職工作,根本沒有時間搞研究。戈塞特否認了這種說法,聲稱是自己的數(shù)學水平限制了他做進一步的研究。
戈塞特在小樣本理論的早期發(fā)展階段做出了重要貢獻。他給出了樣本均值的誤差分布——t分布,區(qū)分了總體標準差與樣本標準差,討論了相關系數(shù)的分布等。其工作更重要的意義在于他突破了大樣本研究的傳統(tǒng),開辟了統(tǒng)計學的一個全新的研究方向——小樣本理論。受戈塞特工作的啟發(fā),費舍爾給出了包括F分布在內(nèi)的多個抽樣分布,構(gòu)建了小樣本研究的理論基礎。戈塞特的工作也引發(fā)了E.皮爾遜和內(nèi)曼對假設檢驗的研究,二者在1933年合作發(fā)表的《關于統(tǒng)計假設的最有效檢驗問題》中提出了現(xiàn)代統(tǒng)計學著名的基本定理——N-P引理。
戈塞特的研究方式有著鮮明的個人特色。首先,他的推導常常是數(shù)學推理與經(jīng)驗和直覺相結(jié)合,盡管不嚴謹,但憑借豐富的經(jīng)驗和敏銳的洞察力,卻能得出正確的結(jié)論,這一點在數(shù)學理論發(fā)展的早期階段尤為重要。理論的建立過程往往是這樣,由不嚴格逐漸過渡到嚴格,先驅(qū)者為后面的研究者提供研究方向和研究素材,后來者需要彌補和完善理論發(fā)展過程中存在的缺陷和不足。再有,戈塞特善于用試驗模擬方法佐證結(jié)論的正確性。比如,在給出樣本均值的抽樣分布后,戈塞特選取了4組樣本量均為750個的近似正態(tài)總體,用χ2擬合優(yōu)度檢驗經(jīng)驗分布和理論分布,得出t分布擬合的效果好于正態(tài)分布。最后,戈塞特不僅擅長解決問題,也是提出問題的高手。費舍爾研究的諸多分布問題,大部分都是源于二者通信中戈塞特向他提出的問題。
戈塞特對小樣本理論的貢獻與他個人的努力、所處的工作環(huán)境、與同時代的統(tǒng)計學家廣泛交流是密不可分的。戈塞特從1899年畢業(yè)后一直在吉尼斯公司工作,直至61歲去世。他的工作環(huán)境為他提供了可以研究的問題,公司對科研的支持也為他的研究提供了保障。除此之外,K.皮爾遜對戈塞特所取得的成就也有很深的影響。戈塞特曾在皮爾遜的統(tǒng)計實驗室學習一年多的時間,他的兩篇重要文章正是在這個階段完成的。與當時的統(tǒng)計學家的廣泛交流也是戈塞特取得突出成就的一個重要原因。戈塞特愿意傳播自己的思想,交流自己的研究成果。他和費舍爾、E.皮爾遜等統(tǒng)計學家保持著長期聯(lián)系,從而為他從其他統(tǒng)計學家那里獲得新的思想和方法,同時也為傳播自己的思想和成果提供了十分有利的條件。另外,戈塞特在小樣本理論方面杰出的貢獻與他豐富的經(jīng)驗、敏銳的直覺也是密不可分的。
[1] 于忠義.簡明統(tǒng)計學術史綱要[J].統(tǒng)計研究,2009,26(6):102-111.
[2] PFANZAGL J,SHEYNIN O.A Forerunner of the t-Distribution[J].Biometrika,1996,83(4):891-898.
[3] UNDEY I G.Yule.Introduction to the Theory of Statistics[M].London:Charles Griffen and Company,1922.
[4] STUDENT.The probable error of a mean[J].Biometrika,1908,6:1-25.
[5] STUDENT.Probable Error of a Correlation Coefficient[J].Biometrika,1908,6:302-310.
[6] HELMERT F R.über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler etc[J].Z Math und Phys,1876,21:192-218.