〔摘 要〕洛特卡定律是文獻計量學的重要理論基礎,是文獻計量學的三大定律之一。借助它人們可以了解作者發(fā)文的結構。廣義洛特卡定律是含約束條件的模型,它的參數估計較為復雜,帕歐提出了近似估計法,但其法仍較為復雜,且參數估計方法不科學。為了科學地估計參數本文在帕歐估計結果的基礎上,通過回歸法給出了更為簡單、更為科學 的估計法。
〔關鍵詞〕洛特卡;參數估計;新估計法
DOI:10.3969/j.issn.1008-0821.2010.12.005
〔中圖分類號〕G256 〔文獻標識碼〕A 〔文章編號〕1008-0821(2010)12-0018-04
New Lotka Parameter EstimationZhou Aimin
(Library,Zhengzhou University,Zhengzhou 450001,China)
〔Abstract〕Lotkas Law is an important theoretical basis of bibliometrics,is one of the three laws of bibliometrics.Through which people can understand what the author issued a documents structure.Generalized Lotkas law is a model with constraints,and its parameter estimation is more complicated,Paoli proposed approximate estimation,but the law is still a bit of complicated.This paper based on the results of Paolis estimation,gave a more simple estimation method through the regression method.
〔Keywords〕Lotka;parameter estimation;new estimation
洛特卡定律(Lotkas law)是由美國學者洛特卡于1926年率先提出的描述科學生產率頻率分布規(guī)律的文獻計量學定律,這是描述科技生產率的一個經驗定律。它是從某一時期,某一主題學科領域眾多科技工作者的科技生產率的觀察數據中模擬出來的一個著者頻率與論文數量之間的關系式,可以用文字表述為:在某一研究領域,寫x篇論文的作者數量大約是寫一篇論文作者數量的1/x2,所有寫一篇論文的作者占作者總數的比例大約為60%。它是文獻計量學的重要理論基礎,是文獻計量學的三大定律之一。
后來,大量學者通過研究發(fā)現,洛特卡當年的研究僅僅局限于指數等于2的情況,這僅是x的指數的一種特殊情況,一般情況下,指數不為2,指數一般在1.2~3.8之間。于是人們提出了廣義洛特卡定律:
y=Cxn(1.2<n<3.8)
我們知道y的含義是寫x篇文章的作者數占全體作者數的比,也就是概率,那么
人們常用的最小二乘洛特卡參數擬合方法存在著明顯的缺陷,求n并不考慮約束條件,用無約束非線性回歸法估計一個參數n,然后用帕歐公式估計另一個參數C,使估計結果的誤差過大,學者張賢澳早在1992年寫了一篇文章大聲疾呼《最小二乘法確定洛特卡定律參數的方法應當終結》。
為了消除人們對用最小二乘法確定洛特卡定律參數的方法懷疑,有人提出了K-S檢驗,通過了K-S檢驗,人們就認為數據符合洛特卡分布,參數估計合理,可以接受估計的模型。有人認為在驗證洛特卡定律時,使用K-S檢驗有更大的優(yōu)越性,K-S檢驗似乎已經成為驗證洛特卡定律的惟一標準。
圖書情報界普遍利用的K-S檢驗的步驟:
(1)計算實際發(fā)表某個篇數的作者的概率,作者的概率按篇數從小到大排序。
(2)計算實際作者的累計概率。
(3)計算理論發(fā)表某個篇數的作者的概率。
(4)計算理論作者的累計概率。
(5)計算實際作者的累計概率與理論作者的累計概率之差的絕對值Dx。
D=∑xk=1yk-∑xk=1k
(6)若給定檢驗顯著水平α,若α取為0.01,則可以用
D臨界=1.63∑zx
來近似計算。然后將所得結果與各Dx的最大值
Dmax=max{D1,D2,D3,…Dm}
相比較,若Dmax<D臨界則認為理論分布與實際分布是一致的,若D臨界Dmax,則認為理論分布與實際分布是不一致的。
例一:呂淑儀同志調研了1994-2003年《茂名學院學報》的作者與發(fā)文量的數據如下:表1 《茂名學院學報》論文數與作者數統(tǒng)計
論文數x作者數y占總數的百分比f112358.2926128.913167.58431.42552.37631.42
利用圖書情報界普遍應用的最小二乘法求得《學報》作者洛特卡分布模型為
fx=0.6948x2.28731表2 《茂名學院學報》數據最小二乘法擬合結果
觀察值最小二乘擬合值誤 差0.58290.6948-0.11190.28910.14230.14680.07580.05630.01950.01420.0292-0.0150.02370.01750.00620.01420.01150.0027
2010年12月第30卷第12期洛特卡參數的新估計法Dec.,2010Vol.30 No.12D臨界=1.63211=0.112213827
竟然通過了圖書情報界普遍利用的K-S檢驗,其實上述的圖書情報界普遍利用的K-S檢驗的步驟是對K-S檢驗的錯誤運用,上述例子只是錯誤運用K-S檢驗的惡果。
K-S檢驗的正確步驟應該是:
(1)計算實際發(fā)表某個篇數的作者的概率,作者的概率按篇數從小到大排序。
(2)計算實際作者的累計概率。
(3)計算理論發(fā)表某個篇數的作者的概率。
(4)計算理論作者的累計概率。
(5)計算實際作者的累計概率與理論作者的累計概率之差的絕對值Dx。
D臨界=1.63∑zx
事實上絕大部分洛特卡分布都通不過K-S檢驗。通常人們所以能通過K-S檢驗,是人們錯誤地運用K-S檢驗的結果,人們把
Dx=max1<k<n∑xk=1yk-∑xk=1k,∑xk=1yk-1-∑xk=1k
錯誤地變成了
Dx=max1<k<n∑xk=1yk-∑xk=1k
一般情況下,
y1-1-2>D臨界
正如鐘云志、王春香、杜香莉等人所言:“K-S檢驗盡管對連續(xù)分布函數檢驗十分有效,但必須要求欲檢驗的函數F0(x)為完全事先已知的函數。若F0(x)中含有未知參數,則未知參數需要用檢驗樣本來估計后才能確定。然后再用該樣本檢驗F0(x)。這種檢驗統(tǒng)計學中稱為分布族檢驗。對于該種檢驗,K-S檢驗實際上是不適合的?!?/p>
若利用帕歐公式直接把參數C代換之,用非線性回歸法估計參數n,理論上可以,但因帕歐公式過于復雜,操作上卻難以實現。
為了在約束條件下用非線性回歸法估計參數n,本文作者以0.01步長從1.8到4計算了帕歐公式,并用各種模型擬合,通過比較得到:
C=0.991688×1-e-n-1.01671.04040.934411?
決定系數R2=1,因此,洛特卡分布可表達為:
f=0.991688×1-e-n-1.01671.04040.934411? xn
這是一個非線性回歸模型,我們可用非線性最小二乘法程序進行回歸。
例二:鐘旭統(tǒng)計了《新疆大學學報?1自然科學版》論文,統(tǒng)計結果表明,1989-1998年該學報共刊載論文770篇,只統(tǒng)計第一作者,總作者數為451人,數據如下:表4 《新疆大學學報?1自然科學版》論文與作者數統(tǒng)計
論文數
xX=lnx第一
著者第一著者
比例yY=lny103070.6807-0.384633620.69314718760.1685-1.780819531.098612289290.0643-2.744195641.386294361130.0288-3.547379951.60943791280.0177-4.034190661.79175946940.0089-4.72170471.94591014980.0177-4.034190682.07944154240.0089-4.72170492.19722457710.0022-6.1192979112.39789527310.0022-6.1192979
我們若用最小二乘法確定洛特卡定律參數,就有
f=0.7155x2.369
我們利用非線性回歸模型對數據進行一元非線性回歸,求得參數n,利用帕歐公式進而求得第二個未知參數C,就有
f=0.677364x2.2229表5 《新疆大學學報?1自然科學版》數據的兩種擬合結果的比較
觀察值最小二乘
擬合值誤差非線性回歸
擬合值誤差0.68070.7155-0.03480.67680.00390.16850.13850.030.14510.02340.06430.0530.01130.05890.00540.02880.02680.0020.0311-0.00230.01770.01580.00190.0189-0.00120.00890.0103-0.00140.0126-0.00380.01770.00710.01060.00900.00880.00890.00520.00370.00670.00220.00220.0039-0.00170.0051-0.002900.0031-0.00310.0041-0.00410.00220.0024-0.00020.0033-0.0011
第一個樣本最小二乘擬合值殘差比較大,這就是不考慮約束條件的惡果。
例三:呂淑儀同志的數據再分析:
利用圖書情報界普遍應用的最小二乘法求得《學報》作者洛特卡分布模型為
fx=0.6948x2.28731
我們利用非線性回歸模型對數據進行一元非線性回歸,求得參數n,利用帕歐公式進而求得第二個未知參數C,就有
f=0.582077x1.928表6 呂淑儀同志的數據兩種擬合結果的比較
觀察值最小二乘
擬合值誤差非線性回歸
擬合值誤差0.58290.6948-0.11190.58180.00110.28910.14230.14680.1530.13610.07580.05630.01950.07000.00580.01420.0292-0.0150.0402-0.02600.02370.01750.00620.0261-0.00240.01420.01150.00270.0184-0.0042
例四:《數理統(tǒng)計與管理》總第1~46的期有關數據列于表:表7 《數理統(tǒng)計與管理》總第1~46的期有關數據
論文數x著者數著者數百分比f13430.89562270.0705390.0235410.0026510.0026720.0052
利用圖書情報界普遍應用的最小二乘法求得作者洛特卡分布模型為:
f=0.8405x3.069
我們利用非線性回歸模型對數據進行一元非線性回歸,求得參數n,利用帕歐公式進而求得第二個未知參數C,就有
f=0.8963x3.6027表8 《數理統(tǒng)計與管理》有關數據兩種擬合結果的比較
觀察值最小二乘
擬合值誤差非線性回歸
擬合值誤差0.89560.84050.05510.8963-0.00070.07050.1002-0.02970.0738-0.00330.02350.0289-0.00540.01710.00640.00260.0119-0.00930.0061-0.00350.00260.0060-0.00340.0027-0.00010.00520.00210.00310.00080.0044
從上邊后三個例子的最大殘差看,我們提出的非線性回歸模型要優(yōu)于圖書情報界普遍利用的線性回歸模型。一元非線性回歸模型求得的洛特卡分布優(yōu)于一元線性回歸模型求得的洛特卡分布。
結 語
本文通過回歸技術將復雜的約束回歸問題轉化為非線性回歸問題,先估計一個參數n,再計算帕歐公式得到參數C,進而得到洛特卡分布,這為各位學者利用洛特卡分布提供了一個新的思路和方法。本回歸方程精度犧牲較小,但計算量大為減少,有利于人們利用洛特卡定律正確研究論文作者的結構。圖書情報界和科學計量學界廣為利用的K-S檢驗是錯誤的方法,不符合K-S檢驗的原意,另外,K-S檢驗不能給出數據是否符合洛特卡分布的正確判別,因此應當終結。
參考文獻
[1]峁詩松.統(tǒng)計手冊[M].北京:科學出版社,2006:172.
[2]鐘云志,王春香,杜香莉.洛特卡定律研究中一個問題的探討[J].圖書情報工作,2005,(1):45-46.
[3]呂淑儀.《茂名學院學報》1994-2003年論文及作者統(tǒng)計分析[J].茂名學院學報,2005,(3):76-79.
[4]鐘旭,閆永勝.洛特卡定律在合著者及全體著者中的驗證研究[J].情報科學,2000,(6):564-565.
[5]許雯燕,康平立,龔勛.科學生產率的分布及其產生機制[J].現代情報,2007,(9):212-214.
[6]張賢澳.最小二乘法確定洛特卡定律參數的方法應當終結[J].情報學刊,1992,(6):415-419.
[7]常琳,孫靜春.我國文獻計量學中作者問題研究現狀分析[J].現代情報,2010,(7):145-150.