■俞立平 李守偉
貴州財(cái)經(jīng)大學(xué)貴陽大數(shù)據(jù)金融學(xué)院,貴陽市花溪區(qū)花溪大學(xué)城 550025
2015年6月18日,湯森路透旗下的知識(shí)產(chǎn)權(quán)與科技事業(yè)部發(fā)布《期刊引證報(bào)告》(JCR2015),同時(shí)發(fā)布了兩個(gè)新的文獻(xiàn)計(jì)量學(xué)指標(biāo),一個(gè)是標(biāo)準(zhǔn)特征因子(Normalized Eigenfactor,NEI)),一個(gè)是期刊影響因子百分位(Journal Impact Factor Percentile,JIFP)。 標(biāo)準(zhǔn)特征因子是華盛頓大學(xué)特征因子(Eigenfactor)團(tuán)隊(duì)開發(fā)的經(jīng)改進(jìn)的期刊評(píng)價(jià)指標(biāo),是在特征因子基礎(chǔ)上設(shè)計(jì)的,計(jì)算方法是用期刊的特征因子除以同學(xué)科其他期刊特征因子的均值。如果某一期刊的標(biāo)準(zhǔn)特征因子為2,這表示該期刊的影響力兩倍于同學(xué)科領(lǐng)域的期刊[1]。對(duì)于標(biāo)準(zhǔn)特征因子的特點(diǎn)、與特征因子的區(qū)別以及與其他文獻(xiàn)計(jì)量指標(biāo)的關(guān)系等等,學(xué)術(shù)界目前還缺乏關(guān)注,因此有必要進(jìn)行深入研究,以便更準(zhǔn)確地應(yīng)用該指標(biāo)。
關(guān)于特征因子的特點(diǎn)學(xué)術(shù)界研究比較豐富。特征因子由華盛頓大學(xué)的Bergstrom、West等[2]提出,計(jì)算時(shí)通過構(gòu)建文獻(xiàn)引用網(wǎng)絡(luò),考慮到不同層次期刊的引用權(quán)重,對(duì)期刊的影響力進(jìn)行評(píng)價(jià)。Massimo[3]提出了采用特征因子的10個(gè)理由,認(rèn)為其具有立體的數(shù)學(xué)背景、公理性的理論基礎(chǔ)、有趣的隨機(jī)性解釋、以及與其他文獻(xiàn)計(jì)量指標(biāo)的有趣關(guān)系等特點(diǎn)。Rousseau[4]通過對(duì)165種醫(yī)學(xué)期刊的評(píng)價(jià)研究得出結(jié)論,認(rèn)為H指數(shù)與特征因子相關(guān)性較強(qiáng),它們之間的皮爾森系數(shù)達(dá)到0.951。Waltman等[5]對(duì)特征因子和受眾因子(audience factor)、影響力(influence weight)進(jìn)行了比較,研究顯示三個(gè)指標(biāo)對(duì)不同種類學(xué)科以及對(duì)影響力小的期刊具有不敏感性。Jacques[6]研究了2001—2008年間的醫(yī)學(xué)類期刊,認(rèn)為影響因子與論文影響力分值間有很強(qiáng)的相關(guān)性。任勝利[7]介紹了特征因子的概念及其原理,比較分析了中外期刊的特征因子分值與論文影響分值,并討論了特征因子的不足之處。俞立平、隆新文等[8]基于面板數(shù)據(jù)實(shí)證研究發(fā)現(xiàn)特征因子和論文影響分值互為高度相關(guān),特征因子與總被引頻次正相關(guān),但與即年指標(biāo)及影響因子無關(guān)。鄭雅妮、張叢[9]采用類似方法研究經(jīng)濟(jì)學(xué)期刊發(fā)現(xiàn),影響因子與特征因子之間不存在相關(guān)性,二者有不同的側(cè)重點(diǎn)。
從現(xiàn)有的研究看,關(guān)于特征因子原理、特點(diǎn)的研究比較成熟,研究視角主要放在特征因子與其他文獻(xiàn)計(jì)量指標(biāo)的關(guān)系特點(diǎn)以及特征因子的應(yīng)用上。由于標(biāo)準(zhǔn)特征因子2015年剛剛推出,是個(gè)新的文獻(xiàn)計(jì)量指標(biāo),對(duì)其進(jìn)行的相關(guān)研究尚處于起步階段。本文以JCR2015中期刊數(shù)量較多的數(shù)學(xué)與經(jīng)濟(jì)學(xué)期刊為例,重點(diǎn)比較標(biāo)準(zhǔn)特征因子與特征因子這兩個(gè)指標(biāo)的統(tǒng)計(jì)學(xué)特征,以及其與傳統(tǒng)文獻(xiàn)計(jì)量指標(biāo)的關(guān)系差異,從而進(jìn)一步了解標(biāo)準(zhǔn)特征因子的特點(diǎn),并對(duì)其應(yīng)用進(jìn)行進(jìn)一步討論。
由于特征因子與其他文獻(xiàn)計(jì)量指標(biāo)的關(guān)系研究比較成熟,標(biāo)準(zhǔn)特征因子是在特征因子基礎(chǔ)上產(chǎn)生的,因此為了研究方便,本文重點(diǎn)研究標(biāo)準(zhǔn)特征因子與特征因子的統(tǒng)計(jì)學(xué)特征差異,以及與其他文獻(xiàn)計(jì)量指標(biāo)關(guān)系的差異。
從統(tǒng)計(jì)學(xué)角度,一般文獻(xiàn)計(jì)量指標(biāo)的分析視角主要基于區(qū)分度與數(shù)據(jù)分布特點(diǎn),包括極小極大值比、中位數(shù)極大值比、離散系數(shù)、數(shù)據(jù)分布特點(diǎn)等。
從標(biāo)準(zhǔn)特征因子、特征因子兩個(gè)文獻(xiàn)計(jì)量指標(biāo)與其他文獻(xiàn)計(jì)量指標(biāo)關(guān)系角度,研究方法主要采用回歸分析法,鑒于很多文獻(xiàn)計(jì)量指標(biāo)的原理均建立在期刊影響力基礎(chǔ)上,因此這些文獻(xiàn)計(jì)量指標(biāo)之間往往存在著較高的相關(guān)性,比如總被引頻次、影響因子、5年影響因子、即年指標(biāo)之間,均是影響力指標(biāo)。這就容易產(chǎn)生多重共線性問題,使得回歸時(shí)統(tǒng)計(jì)檢驗(yàn)不易通過,甚至回歸系數(shù)符號(hào)錯(cuò)誤。鑒于研究目的是分析標(biāo)準(zhǔn)特征因子與其他文獻(xiàn)計(jì)量指標(biāo)的關(guān)系,因此刪除相關(guān)度較高變量的方法是不合適的,采用面板數(shù)據(jù)模型也不合適,因?yàn)闃?biāo)準(zhǔn)特征因子是2015年剛公布的新指標(biāo),根本就沒有面板數(shù)據(jù),所以最好的方法是采用嶺回歸進(jìn)行分析。
Horel(1970)[10]提出了嶺回歸(Ridge Regression)估計(jì)方法,它本質(zhì)上是對(duì)傳統(tǒng)回歸最小二乘法的改進(jìn),是一種適用于相關(guān)度較高數(shù)據(jù)回歸的有偏的回歸方法。嶺回歸放棄最小二乘的無偏性,以犧牲部分精度為代價(jià)來尋求效果稍差但更符合實(shí)際的回歸結(jié)果。
傳統(tǒng)的回歸是計(jì)算:
問題是當(dāng)存在多重共線性(Multicolinear)問題的時(shí)候,向量X′X幾乎是奇異(Singular)的,會(huì)導(dǎo)致最終估計(jì)結(jié)果方差非常大。嶺回歸通過變換向量的特征值來規(guī)避這個(gè)問題:
這樣的估計(jì)是有偏的,但是會(huì)減少估計(jì)方差,如果減少的方差遠(yuǎn)遠(yuǎn)大于增加的估計(jì)偏差,那么新的方法將是有效的。其實(shí)嶺回歸是一個(gè)懲罰回歸,用最小化:
來代替最小化:
本文所有數(shù)據(jù)均來自于2015 JCR數(shù)據(jù)庫,以學(xué)科期刊數(shù)量較多的數(shù)學(xué)期刊為例進(jìn)行研究,并輔以經(jīng)濟(jì)學(xué)期刊進(jìn)行對(duì)比。2015年JCR公布的指標(biāo)中,新指標(biāo)有標(biāo)準(zhǔn)特征因子、期刊影響因子百分位,其他文獻(xiàn)計(jì)量指標(biāo)包括:總被引頻次、影響因子、他引影響因子、5年影響因子、即年指標(biāo)、被引半衰期、特征因子分值、論文影響分值、載文量、引用半衰期、文獻(xiàn)選出率。
JCR 2015中數(shù)學(xué)期刊共312種,由于辦刊歷史較短和其他原因,部分期刊數(shù)據(jù)缺失,將其刪除后,剩余281種期刊,指標(biāo)的描述統(tǒng)計(jì)如表1所示。
表1 數(shù)學(xué)學(xué)科(JCR2015)文獻(xiàn)計(jì)量指標(biāo)描述統(tǒng)計(jì)
標(biāo)準(zhǔn)特征因子與特征因子的區(qū)分度與數(shù)據(jù)分布特點(diǎn)如表2所示。極小值極大值比、中位數(shù)極大值比、離散系數(shù)基本相同,從數(shù)據(jù)分布看,無論是偏度、峰度以及Jarque-Bera檢驗(yàn)值也基本相同,所以標(biāo)準(zhǔn)特征因子與特征因子的區(qū)分度和數(shù)據(jù)分布基本相同,標(biāo)準(zhǔn)特征因子能夠提供的新信息較少。
281種期刊根據(jù)標(biāo)準(zhǔn)特征因子的排序結(jié)果和根據(jù)特征因子的排序結(jié)果完全一致。這也進(jìn)一步驗(yàn)證了標(biāo)準(zhǔn)特征因子與特征因子數(shù)據(jù)的同質(zhì)性。
表2 標(biāo)準(zhǔn)特征因子與特征因子的統(tǒng)計(jì)學(xué)特征分析
標(biāo)準(zhǔn)特征因子與其他文獻(xiàn)計(jì)量指標(biāo)嶺回歸的結(jié)果,當(dāng)嶺參數(shù)為0.2時(shí),回歸基本穩(wěn)定,回歸系數(shù)如表3所示。繼續(xù)進(jìn)行特征因子與其他文獻(xiàn)計(jì)量指標(biāo)的嶺回歸,發(fā)現(xiàn)嶺跡圖特征幾乎一樣,嶺參數(shù)也是在0.2時(shí)回歸比較穩(wěn)定,回歸結(jié)果仍然見表3。
表3 標(biāo)準(zhǔn)特征因子、特征因子與其他文獻(xiàn)計(jì)量指標(biāo)嶺回歸結(jié)果
對(duì)比標(biāo)準(zhǔn)特征因子、特征因子與其他文獻(xiàn)計(jì)量指標(biāo)的嶺回歸結(jié)果,發(fā)現(xiàn)擬合優(yōu)度R2均較高,為0.964,除了他引影響因子由于無法回避的多重共線性系數(shù)為負(fù)以外,其他回歸系數(shù)均為正。標(biāo)準(zhǔn)特征因子、特征因子與其他文獻(xiàn)計(jì)量指標(biāo)嶺回歸結(jié)果的回歸系數(shù)基本相同,其絕對(duì)值相差均小于15%,同樣說明標(biāo)準(zhǔn)特征因子提供的新信息不多。
既然統(tǒng)計(jì)學(xué)分析與嶺回歸分析的結(jié)論基本相同,下面繼續(xù)對(duì)標(biāo)準(zhǔn)特征因子的內(nèi)涵特征進(jìn)行分析。標(biāo)準(zhǔn)特征因子是對(duì)特征因子做的一種特殊的標(biāo)準(zhǔn)化,其均值為1,這樣標(biāo)準(zhǔn)特征因子超過1的就說明超過了均值,比如標(biāo)準(zhǔn)特征因子為5,就說明該期刊5倍于平均值[11]。但是這種數(shù)據(jù)標(biāo)準(zhǔn)化并不是簡(jiǎn)單的線性變換,所以導(dǎo)致標(biāo)準(zhǔn)特征因子的統(tǒng)計(jì)學(xué)特征以及與其他文獻(xiàn)計(jì)量指標(biāo)的關(guān)系非常接近,但絕不相同。為了比較這種差異,本文用標(biāo)準(zhǔn)特征因子與特征因子的比值進(jìn)行學(xué)科之間的比較分析,除了數(shù)學(xué)學(xué)科外,另外選取經(jīng)濟(jì)學(xué)期刊進(jìn)行比較。也就是說,對(duì)特征因子轉(zhuǎn)換為標(biāo)準(zhǔn)特征因子的參照系進(jìn)行比較分析,結(jié)果如表4所示。
表4 數(shù)學(xué)與經(jīng)濟(jì)學(xué)標(biāo)準(zhǔn)特征因子/特征因子結(jié)果比較
數(shù)學(xué)學(xué)科與經(jīng)濟(jì)學(xué)學(xué)科相差較大,但作為“模擬”參照系的標(biāo)準(zhǔn)特征因子與特征因子的比值的均值非常接近,由于特征因子在一定程度上可以進(jìn)行跨學(xué)科比較,以上研究表明,標(biāo)準(zhǔn)特征因子可以用來進(jìn)行跨學(xué)科比較。
第一,標(biāo)準(zhǔn)特征因子并沒有提高指標(biāo)的區(qū)分度。標(biāo)準(zhǔn)特征因子設(shè)計(jì)的初衷,是為了展現(xiàn)學(xué)科內(nèi)某一期刊與其他期刊特征因子的差別,如果僅僅從數(shù)據(jù)大小本身看,標(biāo)準(zhǔn)特征因子差不多將特征因子放大了100倍,不像特征因子那樣幾乎永遠(yuǎn)小于0,給人的直接感覺是區(qū)分度較大。但是標(biāo)準(zhǔn)特征因子并沒有提高評(píng)價(jià)指標(biāo)的區(qū)分度,其極小值極大值比、中位數(shù)極大值比、離散系數(shù)與特征因子基本相同。
第二,標(biāo)準(zhǔn)特征因子與其他文獻(xiàn)計(jì)量指標(biāo)關(guān)系與特征因子相似。標(biāo)準(zhǔn)特征因子與其他文獻(xiàn)計(jì)量學(xué)指標(biāo)的回歸系數(shù)與特征因子回歸結(jié)果基本相同,并且期刊標(biāo)準(zhǔn)特征因子排序與特征因子的排序也基本一致,標(biāo)準(zhǔn)特征因子與特征因子正態(tài)分布檢驗(yàn)結(jié)果也基本相同,說明其數(shù)據(jù)分布特點(diǎn)一致。
第三,特征因子轉(zhuǎn)換為標(biāo)準(zhǔn)特征的非線性轉(zhuǎn)換是導(dǎo)致以上現(xiàn)象的根本原因。由于這種非線性轉(zhuǎn)換均值為1,從而使標(biāo)準(zhǔn)特征因子更容易被理解,總體上是值得肯定的。另外這種非線性轉(zhuǎn)換總體上是一種數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換,因此沒有破壞期刊的排序,是一種修補(bǔ)式的轉(zhuǎn)換,從而導(dǎo)致標(biāo)準(zhǔn)特征因子與特征因子的特征比較接近。
第四,在期刊評(píng)價(jià)中建議盡量選取標(biāo)準(zhǔn)特征因子指標(biāo)。由于標(biāo)準(zhǔn)特征因子與特征因子的統(tǒng)計(jì)學(xué)特征及與其他文獻(xiàn)計(jì)量指標(biāo)的關(guān)系比較接近,因此在期刊評(píng)價(jià)中不宜同時(shí)選取標(biāo)準(zhǔn)特征因子與特征因子,只能選取一個(gè)指標(biāo)。標(biāo)準(zhǔn)特征因子因?yàn)榫哂休^好的顯示度更適合進(jìn)行期刊評(píng)價(jià)。
[1] Eigenfactor and normalized Eigenfactor.http://www.lib.vt.edu/research/metrics/journal/eigenfactor.htm l.[2016-3-12]
[2] Bergstrom C T,West JD,Wiseman MA.The Eigenfactor Metrics[J].The Journal of Neuroscience,2008,28(45):11433-11434.
[3] Massimo Franceschet.Ten good reasons to use the Eigenfactor(TM) metrics[J].Information Processing and Management,2010,46(5): 555-558.
[4] Ronald Rousseau.On the Relation between the WoS Impact Factor,the Eigenfactor,the SCImago Journal Rank,the Article Influence Score and the Journal h-index[J/OL].[2016-03-11].http://eprints.rclis.org/13304/1/Rousseau_Nanjing_conference_contribution.pdf.
[5] Waltman L,van Eck N J.The Relation between Eigenfactor,Audience Factor,and Influence Weight[J].Journal of the American Society for Information Science and Technology,2010,61(7) : 1476-1486.
[6] Jacques Rizkallah D D.Integrative Approach to Quality Assessment of Medical Journals Using Impact Factor,Eigenfactor,and Article Influence Scores[J].PLoS ONE,2010,5(4): 10240.
[7] 任勝利.特征因子(Eigenfactor):基于引證網(wǎng)絡(luò)分析期刊和論文的重要性[J].中國科技期刊研究,2009,20(3):415-418.
[8] 俞立平,隆新文,武夷山.特征因子與其他文獻(xiàn)計(jì)量指標(biāo)關(guān)系研究[J].科研管理,2012(8):41-47.
[9] 鄭雅妮,張叢.影響因子、特征因子與其他計(jì)量指標(biāo)的相關(guān)性研究——基于經(jīng)濟(jì)學(xué)期刊面板數(shù)據(jù)的分析[J].情報(bào)雜志,2014,33(5):96-100.
[10] Hoerl AE, Kennard RW.Ridge regression: biased estimation for nonorthogonal problems[J].Technometrics,1970,12(1) :55-67.
[11] NORMALIZED EIGENFACTOR? SCORE.http://ipsciencehelp.thomsonreuters.com/incitesLive/glossaryAZgroup/g16/9709-TRS.htm l.[2016-05-21]