亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        洛特卡參數的新估計法

        2010-12-31 00:00:00周愛民
        現代情報 2010年12期

        〔摘 要〕洛特卡定律是文獻計量學的重要理論基礎,是文獻計量學的三大定律之一。借助它人們可以了解作者發(fā)文的結構。廣義洛特卡定律是含約束條件的模型,它的參數估計較為復雜,帕歐提出了近似估計法,但其法仍較為復雜,且參數估計方法不科學。為了科學地估計參數本文在帕歐估計結果的基礎上,通過回歸法給出了更為簡單、更為科學 的估計法。

        〔關鍵詞〕洛特卡;參數估計;新估計法

        DOI:10.3969/j.issn.1008-0821.2010.12.005

        〔中圖分類號〕G256 〔文獻標識碼〕A 〔文章編號〕1008-0821(2010)12-0018-04

        New Lotka Parameter EstimationZhou Aimin

        (Library,Zhengzhou University,Zhengzhou 450001,China)

        〔Abstract〕Lotkas Law is an important theoretical basis of bibliometrics,is one of the three laws of bibliometrics.Through which people can understand what the author issued a documents structure.Generalized Lotkas law is a model with constraints,and its parameter estimation is more complicated,Paoli proposed approximate estimation,but the law is still a bit of complicated.This paper based on the results of Paolis estimation,gave a more simple estimation method through the regression method.

        〔Keywords〕Lotka;parameter estimation;new estimation

        洛特卡定律(Lotkas law)是由美國學者洛特卡于1926年率先提出的描述科學生產率頻率分布規(guī)律的文獻計量學定律,這是描述科技生產率的一個經驗定律。它是從某一時期,某一主題學科領域眾多科技工作者的科技生產率的觀察數據中模擬出來的一個著者頻率與論文數量之間的關系式,可以用文字表述為:在某一研究領域,寫x篇論文的作者數量大約是寫一篇論文作者數量的1/x2,所有寫一篇論文的作者占作者總數的比例大約為60%。它是文獻計量學的重要理論基礎,是文獻計量學的三大定律之一。

        后來,大量學者通過研究發(fā)現,洛特卡當年的研究僅僅局限于指數等于2的情況,這僅是x的指數的一種特殊情況,一般情況下,指數不為2,指數一般在1.2~3.8之間。于是人們提出了廣義洛特卡定律:

        y=Cxn(1.2<n<3.8)

        我們知道y的含義是寫x篇文章的作者數占全體作者數的比,也就是概率,那么

        人們常用的最小二乘洛特卡參數擬合方法存在著明顯的缺陷,求n并不考慮約束條件,用無約束非線性回歸法估計一個參數n,然后用帕歐公式估計另一個參數C,使估計結果的誤差過大,學者張賢澳早在1992年寫了一篇文章大聲疾呼《最小二乘法確定洛特卡定律參數的方法應當終結》。

        為了消除人們對用最小二乘法確定洛特卡定律參數的方法懷疑,有人提出了K-S檢驗,通過了K-S檢驗,人們就認為數據符合洛特卡分布,參數估計合理,可以接受估計的模型。有人認為在驗證洛特卡定律時,使用K-S檢驗有更大的優(yōu)越性,K-S檢驗似乎已經成為驗證洛特卡定律的惟一標準。

        圖書情報界普遍利用的K-S檢驗的步驟:

        (1)計算實際發(fā)表某個篇數的作者的概率,作者的概率按篇數從小到大排序。

        (2)計算實際作者的累計概率。

        (3)計算理論發(fā)表某個篇數的作者的概率。

        (4)計算理論作者的累計概率。

        (5)計算實際作者的累計概率與理論作者的累計概率之差的絕對值Dx。

        D=∑xk=1yk-∑xk=1k

        (6)若給定檢驗顯著水平α,若α取為0.01,則可以用

        D臨界=1.63∑zx

        來近似計算。然后將所得結果與各Dx的最大值

        Dmax=max{D1,D2,D3,…Dm}

        相比較,若Dmax<D臨界則認為理論分布與實際分布是一致的,若D臨界Dmax,則認為理論分布與實際分布是不一致的。

        例一:呂淑儀同志調研了1994-2003年《茂名學院學報》的作者與發(fā)文量的數據如下:表1 《茂名學院學報》論文數與作者數統(tǒng)計

        論文數x作者數y占總數的百分比f112358.2926128.913167.58431.42552.37631.42

        利用圖書情報界普遍應用的最小二乘法求得《學報》作者洛特卡分布模型為

        fx=0.6948x2.28731表2 《茂名學院學報》數據最小二乘法擬合結果

        觀察值最小二乘擬合值誤 差0.58290.6948-0.11190.28910.14230.14680.07580.05630.01950.01420.0292-0.0150.02370.01750.00620.01420.01150.0027

        2010年12月第30卷第12期洛特卡參數的新估計法Dec.,2010Vol.30 No.12D臨界=1.63211=0.112213827

        竟然通過了圖書情報界普遍利用的K-S檢驗,其實上述的圖書情報界普遍利用的K-S檢驗的步驟是對K-S檢驗的錯誤運用,上述例子只是錯誤運用K-S檢驗的惡果。

        K-S檢驗的正確步驟應該是:

        (1)計算實際發(fā)表某個篇數的作者的概率,作者的概率按篇數從小到大排序。

        (2)計算實際作者的累計概率。

        (3)計算理論發(fā)表某個篇數的作者的概率。

        (4)計算理論作者的累計概率。

        (5)計算實際作者的累計概率與理論作者的累計概率之差的絕對值Dx。

        D臨界=1.63∑zx

        事實上絕大部分洛特卡分布都通不過K-S檢驗。通常人們所以能通過K-S檢驗,是人們錯誤地運用K-S檢驗的結果,人們把

        Dx=max1<k<n∑xk=1yk-∑xk=1k,∑xk=1yk-1-∑xk=1k

        錯誤地變成了

        Dx=max1<k<n∑xk=1yk-∑xk=1k

        一般情況下,

        y1-1-2>D臨界

        正如鐘云志、王春香、杜香莉等人所言:“K-S檢驗盡管對連續(xù)分布函數檢驗十分有效,但必須要求欲檢驗的函數F0(x)為完全事先已知的函數。若F0(x)中含有未知參數,則未知參數需要用檢驗樣本來估計后才能確定。然后再用該樣本檢驗F0(x)。這種檢驗統(tǒng)計學中稱為分布族檢驗。對于該種檢驗,K-S檢驗實際上是不適合的?!?/p>

        若利用帕歐公式直接把參數C代換之,用非線性回歸法估計參數n,理論上可以,但因帕歐公式過于復雜,操作上卻難以實現。

        為了在約束條件下用非線性回歸法估計參數n,本文作者以0.01步長從1.8到4計算了帕歐公式,并用各種模型擬合,通過比較得到:

        C=0.991688×1-e-n-1.01671.04040.934411?

        決定系數R2=1,因此,洛特卡分布可表達為:

        f=0.991688×1-e-n-1.01671.04040.934411? xn

        這是一個非線性回歸模型,我們可用非線性最小二乘法程序進行回歸。

        例二:鐘旭統(tǒng)計了《新疆大學學報?1自然科學版》論文,統(tǒng)計結果表明,1989-1998年該學報共刊載論文770篇,只統(tǒng)計第一作者,總作者數為451人,數據如下:表4 《新疆大學學報?1自然科學版》論文與作者數統(tǒng)計

        論文數

        xX=lnx第一

        著者第一著者

        比例yY=lny103070.6807-0.384633620.69314718760.1685-1.780819531.098612289290.0643-2.744195641.386294361130.0288-3.547379951.60943791280.0177-4.034190661.79175946940.0089-4.72170471.94591014980.0177-4.034190682.07944154240.0089-4.72170492.19722457710.0022-6.1192979112.39789527310.0022-6.1192979

        我們若用最小二乘法確定洛特卡定律參數,就有

        f=0.7155x2.369

        我們利用非線性回歸模型對數據進行一元非線性回歸,求得參數n,利用帕歐公式進而求得第二個未知參數C,就有

        f=0.677364x2.2229表5 《新疆大學學報?1自然科學版》數據的兩種擬合結果的比較

        觀察值最小二乘

        擬合值誤差非線性回歸

        擬合值誤差0.68070.7155-0.03480.67680.00390.16850.13850.030.14510.02340.06430.0530.01130.05890.00540.02880.02680.0020.0311-0.00230.01770.01580.00190.0189-0.00120.00890.0103-0.00140.0126-0.00380.01770.00710.01060.00900.00880.00890.00520.00370.00670.00220.00220.0039-0.00170.0051-0.002900.0031-0.00310.0041-0.00410.00220.0024-0.00020.0033-0.0011

        第一個樣本最小二乘擬合值殘差比較大,這就是不考慮約束條件的惡果。

        例三:呂淑儀同志的數據再分析:

        利用圖書情報界普遍應用的最小二乘法求得《學報》作者洛特卡分布模型為

        fx=0.6948x2.28731

        我們利用非線性回歸模型對數據進行一元非線性回歸,求得參數n,利用帕歐公式進而求得第二個未知參數C,就有

        f=0.582077x1.928表6 呂淑儀同志的數據兩種擬合結果的比較

        觀察值最小二乘

        擬合值誤差非線性回歸

        擬合值誤差0.58290.6948-0.11190.58180.00110.28910.14230.14680.1530.13610.07580.05630.01950.07000.00580.01420.0292-0.0150.0402-0.02600.02370.01750.00620.0261-0.00240.01420.01150.00270.0184-0.0042

        例四:《數理統(tǒng)計與管理》總第1~46的期有關數據列于表:表7 《數理統(tǒng)計與管理》總第1~46的期有關數據

        論文數x著者數著者數百分比f13430.89562270.0705390.0235410.0026510.0026720.0052

        利用圖書情報界普遍應用的最小二乘法求得作者洛特卡分布模型為:

        f=0.8405x3.069

        我們利用非線性回歸模型對數據進行一元非線性回歸,求得參數n,利用帕歐公式進而求得第二個未知參數C,就有

        f=0.8963x3.6027表8 《數理統(tǒng)計與管理》有關數據兩種擬合結果的比較

        觀察值最小二乘

        擬合值誤差非線性回歸

        擬合值誤差0.89560.84050.05510.8963-0.00070.07050.1002-0.02970.0738-0.00330.02350.0289-0.00540.01710.00640.00260.0119-0.00930.0061-0.00350.00260.0060-0.00340.0027-0.00010.00520.00210.00310.00080.0044

        從上邊后三個例子的最大殘差看,我們提出的非線性回歸模型要優(yōu)于圖書情報界普遍利用的線性回歸模型。一元非線性回歸模型求得的洛特卡分布優(yōu)于一元線性回歸模型求得的洛特卡分布。

        結 語

        本文通過回歸技術將復雜的約束回歸問題轉化為非線性回歸問題,先估計一個參數n,再計算帕歐公式得到參數C,進而得到洛特卡分布,這為各位學者利用洛特卡分布提供了一個新的思路和方法。本回歸方程精度犧牲較小,但計算量大為減少,有利于人們利用洛特卡定律正確研究論文作者的結構。圖書情報界和科學計量學界廣為利用的K-S檢驗是錯誤的方法,不符合K-S檢驗的原意,另外,K-S檢驗不能給出數據是否符合洛特卡分布的正確判別,因此應當終結。

        參考文獻

        [1]峁詩松.統(tǒng)計手冊[M].北京:科學出版社,2006:172.

        [2]鐘云志,王春香,杜香莉.洛特卡定律研究中一個問題的探討[J].圖書情報工作,2005,(1):45-46.

        [3]呂淑儀.《茂名學院學報》1994-2003年論文及作者統(tǒng)計分析[J].茂名學院學報,2005,(3):76-79.

        [4]鐘旭,閆永勝.洛特卡定律在合著者及全體著者中的驗證研究[J].情報科學,2000,(6):564-565.

        [5]許雯燕,康平立,龔勛.科學生產率的分布及其產生機制[J].現代情報,2007,(9):212-214.

        [6]張賢澳.最小二乘法確定洛特卡定律參數的方法應當終結[J].情報學刊,1992,(6):415-419.

        [7]常琳,孫靜春.我國文獻計量學中作者問題研究現狀分析[J].現代情報,2010,(7):145-150.

        在线免费午夜视频一区二区| 国产精品视频二区不卡| 欧美日本国产三级在线| 国产精品一区区三区六区t区| 亚洲成人一区二区三区不卡| 欧美精品videosse精子| 亚洲av无码一区二区三区在线 | 亚洲国产一区二区a毛片| 欧美a在线播放| 成人短篇在线视频夫妻刺激自拍 | 精品一区二区三区人妻久久| 久久伊人亚洲精品视频| 公和我做好爽添厨房中文字幕| 亚洲av国产av综合av| 久久精品日本美女视频| 久久伊人精品中文字幕有尤物| 国产综合在线观看| 国产精品无需播放器| 亚洲老女人区一区二视频| 国产色视频一区二区三区不卡| 老少配老妇老熟女中文普通话| 亚洲国产成人久久一区www妖精 | 国产乱码卡二卡三卡老狼| 无码视频一区二区三区在线观看| 中文字幕偷拍亚洲九色| 国产熟人精品一区二区| 香蕉人人超人人超碰超国产 | 少妇高潮惨叫正在播放对白| 国产亚洲第一精品| 青青操视频手机在线免费观看| 一本加勒比hezyo无码专区| 男人和女人高潮免费网站| 强d漂亮少妇高潮在线观看| 日本免费在线一区二区三区| 亚洲h在线播放在线观看h| 日本高清中文字幕一区二区三区| 男生自撸视频在线观看| 含紧一点h边做边走动免费视频 | 国内精品福利在线视频| 亚洲av乱码国产精品观| 色欲综合一区二区三区|