亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

洛特卡參數的新估計法

2010-12-31 00:00:00周愛民

現代情報 2010年12期

〔摘要〕洛特卡定律是文獻計量學的重要理論基礎，是文獻計量學的三大定律之一。借助它人們可以了解作者發(fā)文的結構。廣義洛特卡定律是含約束條件的模型，它的參數估計較為復雜，帕歐提出了近似估計法，但其法仍較為復雜，且參數估計方法不科學。為了科學地估計參數本文在帕歐估計結果的基礎上，通過回歸法給出了更為簡單、更為科學的估計法。

〔關鍵詞〕洛特卡；參數估計；新估計法

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０１０．１２．００５

〔中圖分類號〕Ｇ２５６〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０１０）１２－００１８－０４

New Lotka Parameter EstimationZhou Aimin

（Library，Zhengzhou University，Zhengzhou 450001，China）

〔Ａｂｓｔｒａｃｔ〕Lotkas Law is an important theoretical basis of bibliometrics，is one of the three laws of bibliometrics.Through which people can understand what the author issued a documents structure.Generalized Lotkas law is a model with constraints，and its parameter estimation is more complicated，Paoli proposed approximate estimation，but the law is still a bit of complicated.This paper based on the results of Paolis estimation，gave a more simple estimation method through the regression method.

〔Ｋｅｙｗｏｒｄｓ〕Lotka;parameter estimation;new estimation

洛特卡定律(Lotkas law)是由美國學者洛特卡于1926年率先提出的描述科學生產率頻率分布規(guī)律的文獻計量學定律，這是描述科技生產率的一個經驗定律。它是從某一時期，某一主題學科領域眾多科技工作者的科技生產率的觀察數據中模擬出來的一個著者頻率與論文數量之間的關系式，可以用文字表述為：在某一研究領域，寫ｘ篇論文的作者數量大約是寫一篇論文作者數量的１／ｘ２，所有寫一篇論文的作者占作者總數的比例大約為60%。它是文獻計量學的重要理論基礎，是文獻計量學的三大定律之一。

后來，大量學者通過研究發(fā)現，洛特卡當年的研究僅僅局限于指數等于2的情況，這僅是ｘ的指數的一種特殊情況，一般情況下，指數不為2，指數一般在1.2～3.8之間。于是人們提出了廣義洛特卡定律：

ｙ＝Ｃｘｎ（１.２＜ｎ＜３.８）

我們知道ｙ的含義是寫ｘ篇文章的作者數占全體作者數的比，也就是概率，那么

人們常用的最小二乘洛特卡參數擬合方法存在著明顯的缺陷，求ｎ并不考慮約束條件，用無約束非線性回歸法估計一個參數ｎ，然后用帕歐公式估計另一個參數Ｃ，使估計結果的誤差過大，學者張賢澳早在1992年寫了一篇文章大聲疾呼《最小二乘法確定洛特卡定律參數的方法應當終結》。

為了消除人們對用最小二乘法確定洛特卡定律參數的方法懷疑，有人提出了Ｋ－Ｓ檢驗，通過了Ｋ－Ｓ檢驗，人們就認為數據符合洛特卡分布，參數估計合理，可以接受估計的模型。有人認為在驗證洛特卡定律時，使用Ｋ－Ｓ檢驗有更大的優(yōu)越性，Ｋ－Ｓ檢驗似乎已經成為驗證洛特卡定律的惟一標準。

圖書情報界普遍利用的Ｋ－Ｓ檢驗的步驟：

（１）計算實際發(fā)表某個篇數的作者的概率，作者的概率按篇數從小到大排序。

（２）計算實際作者的累計概率。

（３）計算理論發(fā)表某個篇數的作者的概率。

（４）計算理論作者的累計概率。

（５）計算實際作者的累計概率與理論作者的累計概率之差的絕對值Ｄｘ。

Ｄ＝∑ｘｋ＝１ｙｋ－∑ｘｋ＝１ｋ

（６）若給定檢驗顯著水平α，若α取為0.01，則可以用

Ｄ臨界＝１.６３∑ｚｘ

來近似計算。然后將所得結果與各Ｄｘ的最大值

Ｄｍａｘ＝ｍａｘ｛Ｄ１，Ｄ２，Ｄ３，…Ｄｍ｝

相比較，若Ｄｍａｘ＜Ｄ臨界則認為理論分布與實際分布是一致的，若Ｄ臨界Ｄｍａｘ，則認為理論分布與實際分布是不一致的。

例一：呂淑儀同志調研了1994-2003年《茂名學院學報》的作者與發(fā)文量的數據如下：表１《茂名學院學報》論文數與作者數統(tǒng)計

論文數x作者數y占總數的百分比f112358.2926128.913167.58431.42552.37631.42

利用圖書情報界普遍應用的最小二乘法求得《學報》作者洛特卡分布模型為

ｆｘ＝０.６９４８ｘ２.２８７３１表２《茂名學院學報》數據最小二乘法擬合結果

觀察值最小二乘擬合值誤差0.58290.6948-0.11190.28910.14230.14680.07580.05630.01950.01420.0292-0.0150.02370.01750.00620.01420.01150.0027

２０１０年１２月第３０卷第１２期洛特卡參數的新估計法Ｄｅｃ.，２０１０Ｖｏｌ.３０Ｎｏ.１２Ｄ臨界＝１.６３２１１＝０.１１２２１３８２７

竟然通過了圖書情報界普遍利用的Ｋ－Ｓ檢驗，其實上述的圖書情報界普遍利用的Ｋ－Ｓ檢驗的步驟是對Ｋ－Ｓ檢驗的錯誤運用，上述例子只是錯誤運用Ｋ－Ｓ檢驗的惡果。

Ｋ－Ｓ檢驗的正確步驟應該是：

（１）計算實際發(fā)表某個篇數的作者的概率，作者的概率按篇數從小到大排序。

（２）計算實際作者的累計概率。

（３）計算理論發(fā)表某個篇數的作者的概率。

（４）計算理論作者的累計概率。

（５）計算實際作者的累計概率與理論作者的累計概率之差的絕對值Ｄｘ。

Ｄ臨界＝１.６３∑ｚｘ

事實上絕大部分洛特卡分布都通不過Ｋ－Ｓ檢驗。通常人們所以能通過Ｋ－Ｓ檢驗，是人們錯誤地運用Ｋ－Ｓ檢驗的結果，人們把

Ｄｘ＝ｍａｘ１＜ｋ＜ｎ∑ｘｋ＝１ｙｋ－∑ｘｋ＝１ｋ，∑ｘｋ＝１ｙｋ－１－∑ｘｋ＝１ｋ

錯誤地變成了

Ｄｘ＝ｍａｘ１＜ｋ＜ｎ∑ｘｋ＝１ｙｋ－∑ｘｋ＝１ｋ

一般情況下，

ｙ１－１－２＞Ｄ臨界

正如鐘云志、王春香、杜香莉等人所言：“Ｋ－Ｓ檢驗盡管對連續(xù)分布函數檢驗十分有效，但必須要求欲檢驗的函數Ｆ０（ｘ）為完全事先已知的函數。若Ｆ０（ｘ）中含有未知參數，則未知參數需要用檢驗樣本來估計后才能確定。然后再用該樣本檢驗Ｆ０（ｘ）。這種檢驗統(tǒng)計學中稱為分布族檢驗。對于該種檢驗，Ｋ－Ｓ檢驗實際上是不適合的?！?/p>

若利用帕歐公式直接把參數Ｃ代換之，用非線性回歸法估計參數ｎ，理論上可以，但因帕歐公式過于復雜，操作上卻難以實現。

為了在約束條件下用非線性回歸法估計參數ｎ，本文作者以0.01步長從1.8到4計算了帕歐公式，并用各種模型擬合，通過比較得到：

Ｃ＝０.９９１６８８×１－ｅ－ｎ－１.０１６７１.０４０４０.９３４４１１?

決定系數Ｒ２＝１，因此，洛特卡分布可表達為：

ｆ＝０.９９１６８８×１－ｅ－ｎ－１.０１６７１.０４０４０.９３４４１１? ｘｎ

這是一個非線性回歸模型，我們可用非線性最小二乘法程序進行回歸。

例二：鐘旭統(tǒng)計了《新疆大學學報?1自然科學版》論文，統(tǒng)計結果表明，1989-1998年該學報共刊載論文770篇，只統(tǒng)計第一作者，總作者數為451人，數據如下：表４《新疆大學學報?1自然科學版》論文與作者數統(tǒng)計

論文數

ｘＸ＝ｌｎｘ第一

著者第一著者

比例ｙＹ＝ｌｎｙ103070.6807-0.384633620.69314718760.1685-1.780819531.098612289290.0643-2.744195641.386294361130.0288-3.547379951.60943791280.0177-4.034190661.79175946940.0089-4.72170471.94591014980.0177-4.034190682.07944154240.0089-4.72170492.19722457710.0022-6.1192979112.39789527310.0022-6.1192979

我們若用最小二乘法確定洛特卡定律參數，就有

ｆ＝０.７１５５ｘ２.３６９

我們利用非線性回歸模型對數據進行一元非線性回歸，求得參數ｎ，利用帕歐公式進而求得第二個未知參數Ｃ，就有

ｆ＝０.６７７３６４ｘ２.２２２９表５《新疆大學學報?1自然科學版》數據的兩種擬合結果的比較

觀察值最小二乘

擬合值誤差非線性回歸

擬合值誤差0.68070.7155-0.03480.67680.00390.16850.13850.030.14510.02340.06430.0530.01130.05890.00540.02880.02680.0020.0311-0.00230.01770.01580.00190.0189-0.00120.00890.0103-0.00140.0126-0.00380.01770.00710.01060.00900.00880.00890.00520.00370.00670.00220.00220.0039-0.00170.0051-0.002900.0031-0.00310.0041-0.00410.00220.0024-0.00020.0033-0.0011

第一個樣本最小二乘擬合值殘差比較大，這就是不考慮約束條件的惡果。

例三：呂淑儀同志的數據再分析：

利用圖書情報界普遍應用的最小二乘法求得《學報》作者洛特卡分布模型為

ｆｘ＝０.６９４８ｘ２.２８７３１

我們利用非線性回歸模型對數據進行一元非線性回歸，求得參數ｎ，利用帕歐公式進而求得第二個未知參數Ｃ，就有

ｆ＝０.５８２０７７ｘ１.９２８表６呂淑儀同志的數據兩種擬合結果的比較

觀察值最小二乘

擬合值誤差非線性回歸

擬合值誤差0.58290.6948-0.11190.58180.00110.28910.14230.14680.1530.13610.07580.05630.01950.07000.00580.01420.0292-0.0150.0402-0.02600.02370.01750.00620.0261-0.00240.01420.01150.00270.0184-0.0042

例四：《數理統(tǒng)計與管理》總第1～46的期有關數據列于表：表７《數理統(tǒng)計與管理》總第1～46的期有關數據

論文數ｘ著者數著者數百分比ｆ13430.89562270.0705390.0235410.0026510.0026720.0052

利用圖書情報界普遍應用的最小二乘法求得作者洛特卡分布模型為：

ｆ＝０.８４０５ｘ３.０６９

我們利用非線性回歸模型對數據進行一元非線性回歸，求得參數ｎ，利用帕歐公式進而求得第二個未知參數Ｃ，就有

ｆ＝０.８９６３ｘ３.６０２７表８《數理統(tǒng)計與管理》有關數據兩種擬合結果的比較

觀察值最小二乘

擬合值誤差非線性回歸

擬合值誤差0.89560.84050.05510.8963-0.00070.07050.1002-0.02970.0738-0.00330.02350.0289-0.00540.01710.00640.00260.0119-0.00930.0061-0.00350.00260.0060-0.00340.0027-0.00010.00520.00210.00310.00080.0044

從上邊后三個例子的最大殘差看，我們提出的非線性回歸模型要優(yōu)于圖書情報界普遍利用的線性回歸模型。一元非線性回歸模型求得的洛特卡分布優(yōu)于一元線性回歸模型求得的洛特卡分布。

結語

本文通過回歸技術將復雜的約束回歸問題轉化為非線性回歸問題，先估計一個參數ｎ，再計算帕歐公式得到參數Ｃ，進而得到洛特卡分布，這為各位學者利用洛特卡分布提供了一個新的思路和方法。本回歸方程精度犧牲較小，但計算量大為減少，有利于人們利用洛特卡定律正確研究論文作者的結構。圖書情報界和科學計量學界廣為利用的Ｋ－Ｓ檢驗是錯誤的方法，不符合Ｋ－Ｓ檢驗的原意，另外，Ｋ－Ｓ檢驗不能給出數據是否符合洛特卡分布的正確判別，因此應當終結。

參考文獻

［１］峁詩松．統(tǒng)計手冊［Ｍ］．北京：科學出版社，2006：172．

［２］鐘云志，王春香，杜香莉．洛特卡定律研究中一個問題的探討［Ｊ］．圖書情報工作，2005，（1）：45-46．

［３］呂淑儀．《茂名學院學報》1994－2003年論文及作者統(tǒng)計分析［Ｊ］．茂名學院學報，2005，（3）：76-79．

［４］鐘旭，閆永勝．洛特卡定律在合著者及全體著者中的驗證研究［Ｊ］．情報科學，2000，（6）：564-565．

［５］許雯燕，康平立，龔勛．科學生產率的分布及其產生機制［Ｊ］．現代情報，2007，（9）：212-214．

［６］張賢澳．最小二乘法確定洛特卡定律參數的方法應當終結［Ｊ］．情報學刊，1992，（6）：415-419．

［７］常琳，孫靜春．我國文獻計量學中作者問題研究現狀分析［Ｊ］．現代情報，2010，（7）：145-150．

現代情報2010年12期

現代情報的其它文章: 論經濟周期與信息周期理論; 基于專利地圖的國內閃存技術現狀與趨勢分析; 石油企業(yè)民生檔案管理研究; 基于知識管理的企業(yè)信息資源開發(fā)與利用; 高校數字圖書館存儲網絡建設研究與實踐; 美國公共圖書館在電子政務中的作用及其啟示