樓海萍 潘杏梅 方 紅 胡海翔 袁明捷
(1.浙江省醫(yī)學(xué)科學(xué)院 浙江杭州 310013)
(2.浙江省科技信息研究院 浙江杭州 310006)
學(xué)術(shù)論文的影響力評價(jià)一直深受科研人員及科研管理部門的關(guān)注。被引頻次是最常用的學(xué)術(shù)論文影響力評價(jià)指標(biāo),數(shù)據(jù)易得、經(jīng)典直觀,但由于其評價(jià)不夠全面、不能合理反映隱性引用論文的學(xué)術(shù)價(jià)值,且存在較長的時(shí)滯性及固有的引用缺陷,已經(jīng)越來越顯示出其作為學(xué)術(shù)論文影響力單一評價(jià)指標(biāo)的嚴(yán)重不足和局限。隨著學(xué)術(shù)資源數(shù)字化的普及以及期刊網(wǎng)絡(luò)出版和開放存取的發(fā)展,學(xué)術(shù)論文的下載類指標(biāo)(下載頻次)逐漸進(jìn)入學(xué)術(shù)論文影響力評價(jià)的視角,引起了國內(nèi)外學(xué)者的廣泛關(guān)注和積極研究,國內(nèi)的相關(guān)研究也已獲得了一些可喜的成果。本文通過文獻(xiàn)調(diào)研,對我國學(xué)術(shù)論文下載指標(biāo)研究的現(xiàn)狀和特點(diǎn)進(jìn)行分析、梳理和總結(jié),并提出了今后的研究方向。
選擇中國知網(wǎng)總庫作為本研究使用的數(shù)據(jù)庫,根據(jù)預(yù)檢結(jié)果確定檢索策略為:(篇名=論文OR文獻(xiàn)OR文章OR全文OR載文OR刊文OR期刊OR雜志OR學(xué)報(bào))AND(篇名=下載),檢索時(shí)間為2018年5月6日,得316條記錄。對數(shù)據(jù)進(jìn)行整合、清洗,最后得到121篇專論文獻(xiàn)進(jìn)入分析。
年代分布反映了學(xué)術(shù)論文下載指標(biāo)研究主題在我國的研究起源和發(fā)展軌跡。圖1可見,我國學(xué)術(shù)論文下載指標(biāo)研究報(bào)道于2005年,這與2004年12月《中國學(xué)術(shù)期刊網(wǎng)絡(luò)計(jì)量測試報(bào)告(2004版)》(簡稱《報(bào)告》)相一致[1]。2005—2017年發(fā)文量呈上下波動,年發(fā)文量不一,從2005—2014年成遞增趨勢,2014年達(dá)到最高值,隨后呈現(xiàn)出遞減趨勢。
圖1 國內(nèi)學(xué)術(shù)論文下載指標(biāo)研究文獻(xiàn)的年度分布
對121篇文獻(xiàn)作者進(jìn)行分析,按第一作者發(fā)文量統(tǒng)計(jì),排名前10名的作者如表1所示。這些作者為學(xué)術(shù)論文下載指標(biāo)研究的活躍作者。
表1 發(fā)文量排名前10名的作者
根據(jù)作者所屬單位的統(tǒng)計(jì)分析,發(fā)文量排名前7位的機(jī)構(gòu)如表2所示。
表2 發(fā)文量排名前7位的機(jī)構(gòu)
表2數(shù)據(jù)顯示,來自大學(xué)、期刊研究中心和編輯部以及研究所,尤其是南京大學(xué)、鄭州大學(xué)和大連理工大學(xué)的作者是學(xué)術(shù)論文下載指標(biāo)研究的主力軍。
按學(xué)科類別的統(tǒng)計(jì)結(jié)果顯示,對學(xué)術(shù)論文下載指標(biāo)研究的學(xué)科領(lǐng)域主要集中在圖書情報(bào)與數(shù)字圖書館、出版、醫(yī)學(xué)、科研管理、計(jì)算機(jī)應(yīng)用等領(lǐng)域,存在學(xué)科交叉滲透現(xiàn)象。121篇文獻(xiàn)中除有8篇碩士學(xué)位論文外,其余113篇期刊論文分布于68種期刊中,表3列出了發(fā)文量排名前10名的期刊。
表3 發(fā)文量排名前10名的期刊
從表3可見,發(fā)文量排名前10名的期刊中,圖書館學(xué)情報(bào)學(xué)期刊5種(其中4種為核心期刊),期刊類和醫(yī)藥類期刊各2種,大學(xué)學(xué)報(bào)1種。
按下載頻次從高到低對121篇文獻(xiàn)進(jìn)行排序,排名前10位文獻(xiàn)見表4。
表4 下載頻次排名前10的學(xué)術(shù)論文
這組文獻(xiàn)篇均下載786次,篇均被引35次,下載次數(shù)是被引次數(shù)的22.5倍。其中《開放存取論文下載與引用情況計(jì)量研究》一文的下載頻次是被引頻次的105倍,其下載頻次偏高可能跟“開放存取”是熱門主題以及發(fā)文期刊有關(guān)。該組論文除1篇學(xué)位論文外,其余9篇論文有8篇發(fā)表于核心期刊。
按被引頻次從高到低對121篇文獻(xiàn)進(jìn)行排序,排名前10位文獻(xiàn)見表5。
表5 被引頻次排名前10位的學(xué)術(shù)論文
這組文獻(xiàn)篇均被引用48次,篇均下載576次,下載次數(shù)是被引次數(shù)的12倍。其中《數(shù)字資源獲取對科學(xué)研究的影響——電子期刊全文下載與引用分析》一文的下載頻次是被引頻次的25倍,其下載頻次偏高可能跟作者機(jī)構(gòu)和發(fā)文期刊有關(guān)。該組論文除1篇為學(xué)位論文外,9篇論文有8篇發(fā)表在核心期刊上。
通過對上述論文的研讀分析可知,論文下載指標(biāo)研究主要涉及下載指標(biāo)的基本特征、下載與被引的關(guān)系、下載指標(biāo)的應(yīng)用、代表實(shí)時(shí)下載情況的下載數(shù)據(jù)的研究及應(yīng)用等主題。
學(xué)術(shù)論文在引用前被下載和研讀,體現(xiàn)了其社會價(jià)值和影響力。因此,學(xué)術(shù)論文的下載指標(biāo)也可作為論文評價(jià)的外部指標(biāo),那么其具有什么特性、與其他指標(biāo)的關(guān)系如何、能否用它來預(yù)測并替代引用指標(biāo)結(jié)果以及用于論文和期刊的評價(jià)時(shí)的適用性如何?學(xué)者們利用《中國學(xué)術(shù)期刊全文數(shù)據(jù)庫Web下載統(tǒng)計(jì)報(bào)告》大樣本數(shù)據(jù)或中國知網(wǎng)總庫或其鏡像站數(shù)據(jù)以及《中國學(xué)術(shù)期刊綜合引證報(bào)告》進(jìn)行了相關(guān)研究。
2.1.1 下載頻次的分布特征研究
為考察學(xué)術(shù)論文下載頻次的隨機(jī)變量分布特征,學(xué)者們從學(xué)科、期刊、機(jī)構(gòu)或論文等不同層次開展了相關(guān)研究。
其中一項(xiàng)利用《總庫》數(shù)據(jù)的分析結(jié)果表明:下載頻次在期刊中呈負(fù)指數(shù)分布,而并非正態(tài)分布,認(rèn)為將下載次數(shù)視為連續(xù)型隨機(jī)變量會更為合適[2]。
另一研究結(jié)果顯示:論文、期刊和機(jī)構(gòu)層次的下載頻次均不符合負(fù)指數(shù)或冪律分布,呈現(xiàn)向右偏斜的尖頂峰形曲線形態(tài),且以期刊層次為最,所有曲線與正態(tài)分布的差異都很大[3]。
針對《總庫》數(shù)據(jù)開展大樣本抽樣的統(tǒng)計(jì)結(jié)果表明:期刊論文的網(wǎng)絡(luò)下載頻次分布均遵循負(fù)對數(shù)函數(shù)衰減,衰減速率由最高下載頻次、篇均下載頻次與載文量3因素決定[4]。
另有研究顯示:隨著下載量的增多,論文數(shù)比例較快地增大,增大到某一最大值后再緩慢減小直至最小,認(rèn)為學(xué)科論文的下載頻次分布可用對數(shù)正態(tài)分布函數(shù)表征?;谠摲植继卣鳎岢鰧W(xué)科最可幾下載量,用以表征學(xué)科論文的下載量水平[5]。
毛國敏等運(yùn)用非線性迭代算法,模擬得出期刊論文下載指標(biāo)的概率密度服從對數(shù)正態(tài)分布[6]。
上述基于不同層面的研究均一致表明:學(xué)術(shù)論文下載頻次的隨機(jī)變量均不服從正態(tài)分布,為開展進(jìn)一步研究提供了理論基礎(chǔ)。
2.1.2 期刊論文下載頻次的布拉德福分布研究
作為文獻(xiàn)計(jì)量學(xué)經(jīng)典定律之一的布拉德福定律,最早是用來描述科技論文在期刊中的分布規(guī)律的,其是“期刊載文量累積數(shù)”與“期刊累積數(shù)”之間的函數(shù)關(guān)系,體現(xiàn)了文獻(xiàn)在相應(yīng)期刊中的集中與分散的對立與統(tǒng)一。為探討論文下載指標(biāo)是否也遵循布拉德福分布,學(xué)者們開展了一些實(shí)證研究。研究表明,布拉德福定律在網(wǎng)絡(luò)環(huán)境下也可適用。
張洋的研究表明:期刊“Web下載總頻次”在期刊中的分布符合布拉德福分布規(guī)律,同時(shí)也表現(xiàn)出一定的新特點(diǎn)。認(rèn)為專業(yè)論文的純度是影響布拉德福定律相關(guān)數(shù)學(xué)表達(dá)式準(zhǔn)確程度的一個(gè)重要指標(biāo)[1]。
曹藝等通過考察發(fā)現(xiàn),集中度從大到小依次為機(jī)構(gòu)>期刊>論文,在期刊和機(jī)構(gòu)層次,相鄰分區(qū)的集中系數(shù)差異很大,說明分區(qū)效果很差,其中還呈現(xiàn)格魯斯(Gross)下垂現(xiàn)象[3]。
郭強(qiáng)等研究顯示:不同學(xué)科屬性的期刊下載頻次從直觀上都能較為顯著地表現(xiàn)出布拉德福分布的特征,當(dāng)然學(xué)科間會存在一定的差異。研究針對下載頻次在期刊中分布的聚類現(xiàn)象以及分散程度進(jìn)行了解釋或是比較,對下載頻次與學(xué)科屬性之間的關(guān)系能有更深入的認(rèn)識,從而為建立期刊下載頻次的統(tǒng)計(jì)性質(zhì)與學(xué)科影響因素之間的定量關(guān)系作了準(zhǔn)備[2]。
2.1.3 論文下載頻次在論文關(guān)鍵詞中的齊普夫分布
傳統(tǒng)的齊普夫定律描述的是,若將文章中的詞按照出現(xiàn)的頻次降序排列,則詞頻與對應(yīng)排序值的乘積保持不變。有研究將傳統(tǒng)齊普夫定律中的研究對象轉(zhuǎn)換為論文關(guān)鍵詞與下載頻次,從新的視角對論文下載頻次的統(tǒng)計(jì)性質(zhì)進(jìn)行了考察。研究表明對于下載頻次在關(guān)鍵詞中的齊普夫分布,其意義從直觀上與傳統(tǒng)的齊普夫定律的含義也是相吻合的[7]。
論文下載頻次在論文關(guān)鍵詞中的齊普夫分布,也是下載頻次統(tǒng)計(jì)分布特性的一個(gè)組成部分,其在一定程度上反映出用戶信息需求的偏好,并可用來探討用戶下載行為及其知識利用的規(guī)律性特征,為文獻(xiàn)老化的解釋性研究帶來更多的啟示。
2.2.1 下載指標(biāo)和被引指標(biāo)間的一致性和差異性的比較研究
周燕子等[8]和劉影梅等[9]通過10篇高頻論文分別考察了我國圖書館學(xué)情報(bào)學(xué)核心期刊的下載頻次與被引頻次間的相關(guān)性,直觀比較后得出:同一篇論文的下載頻次遠(yuǎn)遠(yuǎn)高于被引頻次,高下載的論文不一定是高被引,高被引的論文不一定是高下載。
2.2.2 學(xué)術(shù)論文下載指標(biāo)和被引指標(biāo)相關(guān)性的定量統(tǒng)計(jì)研究
主要涉及機(jī)構(gòu)、期刊、作者、論文等不同層次上的論文下載和被引指標(biāo)的相關(guān)性研究。其中涉及期刊層次的研究較多,樣本量也較龐大,并較多地采用Spearman等級相關(guān)分析法進(jìn)行分析。其中有學(xué)者考慮到中文科技期刊文獻(xiàn)計(jì)量指標(biāo)與網(wǎng)絡(luò)計(jì)量指標(biāo)間的線性關(guān)系較弱,且大多不服從正態(tài)分布,直接采用Spearman 等級相關(guān)分析,分別對期刊和機(jī)構(gòu)層次的被引頻次和下載頻次[3]、期刊的下載頻次與被引頻次[10]等開展研究。也有學(xué)者先采用正態(tài)性檢驗(yàn)(如直方圖、QQ散點(diǎn)圖、K-S檢驗(yàn))、曲線估計(jì)確認(rèn)后再進(jìn)行Spearman 等級相關(guān)分析,從期刊[11]、論文+期刊[12]以及論文+作者+期刊[13]等不同層面上規(guī)范地考察了論文下載頻次、被引頻次與影響因子間的相關(guān)性。另有學(xué)者在期刊層面上采用線性相關(guān)法開展了相關(guān)研究[4,14]。而在單篇論文層面,可見采用線性相關(guān)分析法、回歸分析法考察論文下載頻次與被引頻次間的相關(guān)性[15-17]。
從相關(guān)研究中發(fā)現(xiàn)了一些較典型的問題:如取樣的合理性欠佳,樣本量過小導(dǎo)致結(jié)論不具有普遍性;樣本出版年限不夠長使得被引行為尚未發(fā)生;分析方法不合理,如沒有經(jīng)過正態(tài)性檢驗(yàn)而直接采用線性相關(guān)分析,使得結(jié)果不具科學(xué)性。通過研究發(fā)現(xiàn),高下載或高頻被引論文,在QQ概率圖中是一些遠(yuǎn)離簇位置的散點(diǎn)[3],亦即離群數(shù)據(jù)[18],容易造成單篇論文整體的相關(guān)系數(shù)降低,因此以高頻論文作為樣本,樣本量較少,并且被引頻次和下載頻次存在時(shí)間差,以及還有論文的學(xué)科差異等種種因素的影響,都會導(dǎo)致研究結(jié)論的可信度降低。
綜上,由于數(shù)據(jù)來源、樣本大小、學(xué)科領(lǐng)域、分析層次、統(tǒng)計(jì)方法、觀察時(shí)段等的不同,針對論文下載頻次和被引頻次的相關(guān)性研究的結(jié)論也不盡相同。但總的來說,基于期刊、作者、機(jī)構(gòu)層次,論文下載頻次與被引頻次呈現(xiàn)較顯著的正相關(guān)性,而在單篇論文層面,論文下載頻次與被引頻次不具有相關(guān)性或相關(guān)性偏弱,因此可作為兩個(gè)獨(dú)立指標(biāo),至于其權(quán)重如何,有待于進(jìn)一步研究探討。
2.3.1 在期刊、機(jī)構(gòu)、作者層次上論文下載頻次對被引頻次預(yù)測的可行性及實(shí)證研究
一些學(xué)者持肯定意見,如有研究基于期刊和機(jī)構(gòu)層次的下載頻次和被引頻次之間關(guān)聯(lián)性顯著較強(qiáng),認(rèn)為從其中一個(gè)指標(biāo)來推測另一指標(biāo)是較為可靠的[3]。另有研究認(rèn)為從作者或期刊粒度利用下載頻次預(yù)測被引頻次是可行的[13]。郭強(qiáng)等則利用期刊的前期下載總頻次對其后期的被引總頻次進(jìn)行了估算,并在線性假設(shè)基礎(chǔ)上,對后期的被引半衰期以及最大引文年限也進(jìn)行了考察[19]。
也有學(xué)者持否定意見,認(rèn)為不能利用期刊論文下載頻次對被引頻次進(jìn)行預(yù)測,如王雅祺指出被引量和下載數(shù)之間的關(guān)系較復(fù)雜,并不一定是簡單的因果關(guān)系[12]。
2.3.2 在單篇論文層次上論文下載頻次對被引頻次預(yù)測的可行性
周驥等通過研究認(rèn)為:根據(jù)論文早期的下載頻次可對后期的被引頻次進(jìn)行預(yù)測[17]。而有幾位學(xué)者通過高頻論文的直觀比較或者線性相關(guān)分析,認(rèn)為論文下載頻次不能對被引頻次進(jìn)行預(yù)測[8-9,16]。另有研究明確指出,從單篇論文粒度利用下載頻次預(yù)測被引頻次并不可行。也有學(xué)者提出,下載指標(biāo)能否用于評價(jià)論文的學(xué)術(shù)影響力還需深入研究[7]。
2.3.3 建議將學(xué)術(shù)論文下載頻次與被引頻次都作為學(xué)術(shù)期刊綜合評價(jià)的指標(biāo)之一
張洋[1]、王雅祺[12]等認(rèn)為文獻(xiàn)與期刊的下載頻次、被引頻次這兩個(gè)指標(biāo)都應(yīng)該在評估中相互參照并綜合考慮其影響力。
《中文核心期刊要目總覽》(2001版)和《中國學(xué)術(shù)期刊評價(jià)研究報(bào)告(2013-2014)》中已經(jīng)分別將“Web下載量”和“即年下載率”納入期刊評價(jià)指標(biāo),與引文指標(biāo)相比,權(quán)重系數(shù)偏小,分別為1%和5%[17],但也顯示了將論文下載頻次作為單獨(dú)一種指標(biāo)進(jìn)入期刊綜合評價(jià)體系成為一種必然趨勢。
2.3.4 論文下載頻次加入Altmetrics體系參與學(xué)術(shù)論文影響力評價(jià)
Altmetrics,一種新型的學(xué)術(shù)成果評價(jià)方法,強(qiáng)調(diào)用面向?qū)W術(shù)成果全面影響力評價(jià)的指標(biāo)體系來替代傳統(tǒng)片面依靠引文指標(biāo)的定量科研評價(jià)體系,其包含了被引量以外的被使用情況、被獲取情況、被提及情況和社交媒介等[20]。
國內(nèi)的研究結(jié)果驗(yàn)證了Altmetrics將論文下載指標(biāo)作為獨(dú)立的單篇論文評價(jià)指標(biāo)的合理性和科學(xué)性;目前已有研究者建立了類似Altmetrics的并將論文下載頻次納入單篇英文論文的動態(tài)評價(jià)體系[21]。
龔舒野基于下載角度提出了評價(jià)期刊的hd指數(shù),選擇圖書館學(xué)情報(bào)學(xué)核心期刊作為考察對象,通過實(shí)證研究說明了hd指數(shù)在學(xué)術(shù)期刊評價(jià)方面的科學(xué)性和合理性,并探討了影響期刊hd指數(shù)的因素[22]。學(xué)界可對hd指數(shù)開展進(jìn)一步的研究。
楊春華等認(rèn)為下載量可在一定程度上反映論文對用戶的貢獻(xiàn)即應(yīng)用價(jià)值,應(yīng)作為考量論文質(zhì)量的標(biāo)準(zhǔn)之一;對高下載論文所揭示的用戶需求,應(yīng)充分重視并給予足夠的關(guān)注,鼓勵服務(wù)導(dǎo)向的研究[23]。
郭強(qiáng)等認(rèn)為期刊下載次數(shù)反映的是期刊的受利用程度,電子資源的購買與維護(hù)等成本需要與它的受利用程度相匹配,在不嚴(yán)格意義下可用下載次數(shù)來表征[2]。
期刊論文在出版的早期會引起學(xué)者的廣泛關(guān)注,突出表現(xiàn)為在短期內(nèi)被大量下載[22]。擁有高下載頻次的論文,一般情況下能夠說明該論文受到的關(guān)注度相對較高,從而能夠從側(cè)面體現(xiàn)學(xué)科目前的熱點(diǎn)甚至是發(fā)展方向[24]。高下載論文的研究主題屬于研究熱點(diǎn)及前沿話題,代表學(xué)科最新的研究方向和最高的研究水平,因此獲得了較高的用戶關(guān)注度[12]。如基于高下載論文的高關(guān)注即“熱點(diǎn)”的特性,大連理工大學(xué)王賢文研究組利用論文下載數(shù)據(jù)輔以論文在社交媒體中的被關(guān)注信息,實(shí)時(shí)追蹤探測領(lǐng)域的研究熱點(diǎn)和研究前沿,獲得了滿意的效果[25]。
通過對近10多年來國內(nèi)有關(guān)學(xué)術(shù)論文下載指標(biāo)研究文獻(xiàn)的分析,表明學(xué)術(shù)論文下載頻次并非服從正態(tài)分布,將其視為連續(xù)型隨機(jī)變量更為合適;論文下載指標(biāo)也遵循布拉德福分布和齊普夫分布。研究較為一致地認(rèn)為:在期刊、機(jī)構(gòu)、作者層次,論文下載頻次與引用頻次存在正相關(guān),但在單篇論文層次上,較多的研究傾向于論文下載頻次與引用頻次間不存在正相關(guān)或僅有弱相關(guān);因此建議將論文下載頻次與被引頻次都作為學(xué)術(shù)論文綜合評價(jià)的指標(biāo)。
對學(xué)術(shù)論文下載指標(biāo)研究方面,可考慮對不同數(shù)據(jù)源中下載數(shù)據(jù)特點(diǎn)與性質(zhì)的實(shí)證研究、不同質(zhì)量論文間的下載頻次與被引頻次相關(guān)性的實(shí)證研究;基于高下載論文的“熱點(diǎn)”特性,也可開展基于學(xué)術(shù)論文下載頻次的圖書館服務(wù)新需求和資源配置優(yōu)化的研究;基于全球科技競爭的需要,更可以開展基于論文下載頻次的研究熱點(diǎn)和前沿的新趨勢探測研究,為科技創(chuàng)新提供超值的知識服務(wù)。