周愛民
(鄭州大學圖書館 河南 鄭州 450002)
梁立明、 趙紅洲已探討過科學發(fā)現年齡定律。 他們探討的科學發(fā)現年齡定律分析方法已作為經典方法進入了許多科學計量學書中。 為了探索出科學發(fā)現年齡符合威布爾分布,我們希望不作任何參數假定的情況下,得到威布爾分布的參數,為此我們從威布爾分布基本概念談起。
定義:若非負隨機變量X 有分布函數
其中a、γ、k 均大于0,則稱X(或F(x))有威布爾分布。設隨機變量x 服從三參數威布爾分布,則其概率密度函數和累積概率分布函數為
其中,K>0 為形狀參數,a>0 為尺度參數,γ≥0 為位置參數。
表1 1500-1960 年按世紀分期重大科學發(fā)現與年齡的統計數據
威布爾分布一般只給出時間, 即第一個數值產生的時間、第二個數值產生的時間、第三個數值產生的時間、…、第n個數值產生的時間。 但1500-1960 年按世紀分期重大科學發(fā)現與年齡的統計數據卻是分組型數據,即每十歲間產生了多少重大科學發(fā)現,因此我們不能直接利用威布爾模型。 我們必須給出新的方法。 我們僅分析1601-1700 年期間的數據。由于此數據表給出的是歲數與發(fā)生的頻率,而不是重大科學發(fā)現產生時的具體歲數,所以我們下面用威布爾累積概率分布函數來作為擬合模型。
威布爾模型中,F(x)表示累積概率。 顯然我們可以把問題轉化成:
F(20)-F(10)=0.05
F(30)-F(20)=0.28
F(40)-F(30)=0.26
F(50)-F(40)=0.24
F(60)-F(50)=0.09
F(70)-F(60)=0.08
為此我們定義一個新差函數
Φ(x)的值如表2。
表2 Φ(x)的值
顯然這是一個一元非線性回歸問題, 我們利用dps 軟件中的一元非線性回歸程序計算得:
R2=0.9077,擬合精度還可以。我們考慮到x>12.7164 則定義累積概率分布函數和概率密度函數為:
我們考慮到x>12.7164,計算區(qū)間概率值P,區(qū)間概率值P與差函數Φ(x)的擬合值(x)的唯一差別是第一個值不同,(x)中的]在x<12.7164 處取非0 值,而
則
在x<12.7164 處只能是0 值, 因此, 區(qū)間概率值P 在x<12.7164 處只能是0 值。 二者矛盾,因此,必須按定義的累積概率分布函數計算區(qū)間概率值P,得:
表3 計算結果分析
最大殘差為3.3715。
設數組數為k,各組頻數為fi,總頻數為n,那么有卡方
定理,若n 充分大,則不論總體服從什么分布,統計量
總是近似地服從自由度為k-r-1 的χ2分布。
其中r 是被估參數的個數,pi是被假定分布的概率(即計算出的概率),而不是原頻率所決定的觀察概率。 這個定理告訴我們,只要能通過卡方檢驗,就可以認為服從被假定的分布。
針對1601-1700 年期間的數據擬合結果,有
最佳發(fā)現年齡的特點是成果增加最快, 成果增加最快處,累積函數
數量增加也最快,因此,該式的導數最大。 即
即:
化簡后可寫成下式:
解得:
我們把各個參數代入得:
x≈32.39
我們令
利用DPS 軟件求得
x=36.3089
即1601-1700 這個世紀完成世界上全部重大科學發(fā)現的一半年齡是36.3089 歲。
從前邊分析知: 重大科學發(fā)現年齡確實服從威布爾分布。 一般而言威布爾分布位置參數要小于自變量的最小值,但具體是多少,必須進行計算。
[1]程侃.壽命分布類與可靠性數學理論[M].科學出版社,1999:25-26.
[2]梁立明,趙紅州.科學發(fā)現年齡定律是一種威布爾分布[J].自然辯證法通訊,1991(1).