楊 柳 沈利華
(浙江大學圖書館 杭州 310027)
Wikipedia(維基百科)是一個以開放協(xié)作、多語言、結(jié)構(gòu)化為特點的Web 2.0知識系統(tǒng)[1]。“概念”是它的基本組成單元,通過“學科分類”進行有效組織。Wikipedia非常重視數(shù)據(jù)的來源,從發(fā)展的早期開始就規(guī)定“凡是引用前人(包括自引)已發(fā)表文獻中的觀點、數(shù)據(jù)和材料等,都要對其予以標明,并在文末列出參考文獻”。同時,Wikipedia也規(guī)定了較完善的參考文獻和語法格式,包括普通守則、行為指引、內(nèi)容指引、其他指引、樣式規(guī)范等[2]。Nature調(diào)查顯示,Wikipedia詞條具備較高的質(zhì)量和可信度,和《大英百科全書》的準確度十分接近,且它的條目比《大英百科全書》更加多樣化[3]。
如今,來自計算機科學、教育學、圖情出版等眾多學科領(lǐng)域的研究人員基于維基社區(qū)和維基數(shù)據(jù)已開展了廣泛研究,其中從參考文獻引用視角開展分析的研究主要包括:王志紅[4]、常建宇[5]、鄧莉[6]等從研究人員引用Wikipedia資源的角度出發(fā)開展量化分析,揭示學術(shù)研究中利用Wikipedia的特征與規(guī)律。以Wikipedia的參考文獻為對象開展的研究中,國內(nèi)主要有:楊陽將維基百科中歷史類詞條和《史學月刊》文章的參考文獻進行數(shù)量、類型等對比分析,發(fā)現(xiàn)前者參考文獻的數(shù)量較少,且主要來源是圖書[7];楊思洛等以中英維基百科圖書情報學類目的參考文獻為對象,研究網(wǎng)絡(luò)引文的分布規(guī)律,發(fā)現(xiàn)英文維基百科在引文總量、篇均引文等方面明顯好于中文維基百科,且兩個維基百科利用的網(wǎng)絡(luò)資源呈一定的聚集和離散分布等結(jié)論[2]。
國外相關(guān)研究的熱度高于國內(nèi):Banasik-Jemielniak N等對心理學期刊的Wikipedia引用、Wikipedia心理學詞條的學術(shù)期刊引用量及引用時間軌跡等進行研究,發(fā)現(xiàn)Wikipedia引用率與期刊SJR分數(shù)之間有顯著相關(guān)性等結(jié)論[8];Piccardi T等研究了Wikipedia使用過程中用戶與參考文獻的交互行為,結(jié)果顯示新編輯詞條的參考文獻,開放存取資源及出生、死亡、婚姻等與生活相關(guān)的參考文獻最受用戶歡迎[9];Torres-Salinas D等將Altmetric.com平臺下載的Wikipedia參考文獻映射至Scopus數(shù)據(jù)庫的人文學科開展共被引分析,結(jié)果表明歷史是人文科學與其他領(lǐng)域產(chǎn)生關(guān)聯(lián)的中心性學科,哲學為邊緣性學科等[10];Serrano-Lopez AE等基于被Wikipedia引用的WoS風力發(fā)電相關(guān)文獻和被WoS收錄的Wikipedia中風力發(fā)電相關(guān)詞條的參考文獻兩個數(shù)據(jù)集,開展引用量、引用率描述性統(tǒng)計分析及文獻類型分布等比較研究,得到Wikipedia不適合作為風力發(fā)電主題評價指標等結(jié)論[11];Kousha K等研究了Wikipedia對Scopus論文和專著的引用是否能夠反映文化、社會、教育影響力以及這些影響力是否存在學科、文獻類型等差異,發(fā)現(xiàn)專著的引用率遠高于論文,被引用率最高的學科為藝術(shù)和人文學科等結(jié)論[12]。
綜上可知,Wikipedia參考文獻的研究多為國外成果,國內(nèi)相關(guān)研究較少?,F(xiàn)有研究大多將某一學科/領(lǐng)域的Wikipeida參考文獻和Scopus收錄文獻相關(guān)聯(lián),開展引用量/率、文獻類型、學科類型等分析,鮮少聚焦于Wikipedia和Web of Science(下文簡稱為“WoS”),基于多學科大數(shù)據(jù)揭示W(wǎng)ikipedia提及指標和WoS引用指標的異同。筆者認為,Wikipedia、WoS分別是新興網(wǎng)絡(luò)百科、傳統(tǒng)引文數(shù)據(jù)庫的代表,對Wikipedia提及和WoS引用的特征開展系統(tǒng)性比較研究,有助于學界更為全面深入地了解與利用網(wǎng)絡(luò)百科和引文數(shù)據(jù)庫的相關(guān)資源,也可為數(shù)字環(huán)境下構(gòu)建更加客觀完善的科研成果計量與評價體系提供參考。鑒于此,筆者以Altmetric.com平臺追蹤的Wikipedia提及數(shù)據(jù)為樣本,在呈現(xiàn)Wikipedia提及指標數(shù)據(jù)量分布、學科分布、代表性論文主題分布的基礎(chǔ)上,深入探析Wikipedia和WoS在傳播新發(fā)表論文速度、指標值累積模式、關(guān)注論文持續(xù)性上的特點,比較Wikipedia提及和WoS引用在不同學科、出版年上的相關(guān)性差異,并揭示二者關(guān)注主題的側(cè)重點。
筆者之前的研究發(fā)現(xiàn)[13],眾多Altmetrics平臺中,Altmetric.com的評價對象以論文為主,數(shù)據(jù)時效性高,支持的文獻檢索和過濾方式最多,數(shù)據(jù)查詢下載操作方便,因此本文選用Altmetric.com作為數(shù)據(jù)源。它基于Wikipedia Events API追蹤英語、芬蘭語和瑞典語Wikipedia的提及數(shù)據(jù),能夠自動識別用戶最新編輯的詞條。研究成果需滿足以下兩個條件方能被追蹤到:一是位于頁面上的引用區(qū)域;二是使用格式正確的引用標簽。用戶可以在Altmetric Explorer的“提及入口”訪問所有提及類數(shù)據(jù),以數(shù)據(jù)源類型、作者姓名、國家、時間、成果類型對檢索結(jié)果進行過濾,并將查詢結(jié)果的元數(shù)據(jù)導出至CSV表格中。
第1步,下載數(shù)據(jù)。在Altmetric Explorer中檢索“Wikipedia Mentions(Wikipedia提及)”詞條,時間限制為2015年1月至2020年5月,共下載得到1 433 118條結(jié)果,數(shù)據(jù)截取展示見圖1;第2步,提取論文類提及數(shù)據(jù)。綜合“Output Type”字段是“Article”和“DOI”字段非空為篩選依據(jù),提取有DOI字段的論文類被提及成果,共得到828 952條Wikipedia條目。以DOI為依據(jù)去重,得到617 203篇被Wikipedia提及的論文數(shù)據(jù);第3步,檢索Wikipedia高提及論文的WoS施引數(shù)據(jù)。篩選Wikipedia提及次數(shù)在10次及以上的高提及論文,以DOI為檢索字段,在WoS核心合集中進行高級檢索,選取子庫SCI-E、SSCI、A&HCI、CPCI-S、CPCI-SSH、ESCI、CCR-E、IC,時間設(shè)定為2015-2020年,限定文獻類型為論文、會議論文、綜述、數(shù)據(jù)論文,得到581條記錄。將記錄以bib格式導出,導入浙江大學圖書館購買的Calis查收查引系統(tǒng),以檢索每篇論文的WoS核心合集收錄論文施引數(shù)據(jù)(包括總引和他引);最后,編程提取Calis查收查引系統(tǒng)返回的581篇論文及WoS他引施引論文的出版時間,分別計算高提及論文出版和WoS他引施引論文出版、Wikipedia詞條提及的時間間隔。數(shù)據(jù)下載與清洗時間為2020年6月-8月。
圖1Wikipedia原始數(shù)據(jù)展示
2.1數(shù)據(jù)量分布617 203篇論文獲得Wikipedia提及的區(qū)間為1~986次,其中獲得1次Wikipedia提及的論文數(shù)高達83.07%,有1 860篇論文被Wikipedia提及10次及以上,占比0.30%。獲得50次及以上Wikipedia提及的論文有143篇,僅占0.02%,詳見表1和圖2。
表1Wikipedia提及數(shù)據(jù)量分布
圖2Wikipedia提及頻次分布
2.2學科分布Altmetric.com使用Dimensions平臺的學科分類數(shù)據(jù),Dimensions憑借機器學習算法從論文摘要中提取短語和關(guān)鍵詞,以此將論文歸屬至22個一級學科,一篇論文可以歸屬至一個或多個學科[14]。617 203篇論文的學科分布統(tǒng)計如表2所示??梢钥闯?,2015年以來的Wikipedia提及次數(shù)學科分布差異明顯,理學、醫(yī)學類學科被Wikipedia提及較多,法律法規(guī)研究、創(chuàng)意藝術(shù)與寫作研究、教育學等人文社會科學類被Wikipedia提及較少。提及論文數(shù)分布最多的學科為醫(yī)學與保健科學、生物科學,這兩個學科的提及次數(shù)也遙遙領(lǐng)先于其他學科。建筑環(huán)境與設(shè)計學分別以2 210篇論文數(shù)、2 731次提及位列22個學科的最末位。提及極大值、篇均提及兩個指標排名前2的數(shù)值均出現(xiàn)在物理科學、地球科學兩個理學學科中,教育學的提及極大值(11次)、篇均提及(1.17次/篇)最低。因被Wikipedia提及為1次的論文數(shù)高達512 704篇,22個學科的提及最小值、中位數(shù)均為1。
2.3代表性論文主題分布為探析Wikipedia提及最多論文的研究內(nèi)容,選取被引次數(shù)在50次及以上的143篇論文為代表性論文,憑借Gephi軟件,基于高頻關(guān)鍵詞在論文中的共現(xiàn)關(guān)系,通過聚類分析揭示其研
表2Wikipedia提及學科分布
究主題,結(jié)果如圖3所示。代表性論文主要關(guān)注三大主題:主題一涉及星體分類、觀測、演化等天文學相關(guān)研究,包含Catalogs、Stars: fundamental parameters、Solar neighborhood、Astrometry、Minor planets, asteroids: general、Stars: evolution、Methods: data analysis等中心詞;主題二涉及生物形態(tài)學、系統(tǒng)學、地理學等生物科學相關(guān)研究,包含Morphology、Taxonomy、Phylogeny、Evolution、Biogeography、Apparatus等中心詞;主題三涉及動植物分類與命名等動植物學相關(guān)研究,包含Classification、Coleoptera、New species、Bibliography、Staphylinidae等中心詞。
圖3 代表性論文研究主題聚類圖
3Wikipedia提及指標與WoS引用指標比較分析
3.1傳播新發(fā)表論文速度對比分析論文第一次被WoS引用的時間可以表征WoS傳統(tǒng)科研成果數(shù)據(jù)庫傳播新發(fā)表論文的速度,同理,論文第一次被Wikipedia提及的時間可以反映Wikipedia新興網(wǎng)絡(luò)知識系統(tǒng)傳播新發(fā)表論文影響力的及時性[15]。分別將每篇Wikipedia高提及論文的WoS施引論文出版時間、Wikipedia提及詞條提及時間由早至晚進行排序,找出最早的施引、提及時間,并以月為單位分別計算二者和Wikipedia高提及論文出版時間的間隔,以進一步對比分析WoS和Wikipedia傳播新發(fā)表科研成果的速度,結(jié)果見圖4-圖5。
圖4 論文出版與第一次被WoS引用、Wikipedia提及的時間間隔
圖5 論文出版與第一次被WoS引用、Wikipedia提及的時間間隔
以論文出版第8個月為分水嶺,在此之前,Wikipedia第一次提及積累較快,WoS第一次施引累積量增長稍慢;在此之后,WoS第一次施引累積量的增長速度超越Wikipedia,二者積累速度大體趨于一致。Wikipedia、WoS最晚的第一次提及/施引分別發(fā)生在論文出版的第50個月、第60個月;Wikipedia有50.09%的第一次提及發(fā)生在論文發(fā)表的一個月之內(nèi),而距論文出版的第4個月,WoS第一次施引的數(shù)量才過半,較Wikipedia過半數(shù)的時間晚了3個月。此外,由于論文存在預出版、提前在線出版的情況,數(shù)據(jù)統(tǒng)計時出現(xiàn)了提及/施引時間早于正式出版時間的情況。581篇論文中,有118篇論文第一次被Wikipedia提及的時間早于論文正式出版日期,有48篇論文第一次被WoS引用的時間發(fā)生在論文正式出版日期之前。相較來說,WoS傳播新發(fā)表論文的速度稍慢。
3.2指標值累積模式對比分析581篇Wikipedia高提及論文在近5年半的時間內(nèi)共獲得了73 591次WoS引用和14 154次Wikipedia提及,論文與全部WoS施引論文、Wikipedia提及詞條的時間間隔分布及其累積占比見圖6-圖7。論文發(fā)表第2年獲得的WoS施引文獻最多,有18 368次施引行為發(fā)生在這個時間段內(nèi);正式出版前的WoS施引文獻最少,僅有410篇。相較來說,Wikipedia提及行為發(fā)生更早、累積更快:在論文發(fā)表第1年,就獲得了近半數(shù)(44.79%)的提及次數(shù),并另有6.80%的提及行為發(fā)生在論文正式出版日期之前。Wikipedia提及中,發(fā)生在論文發(fā)表之后第61~64個月的提及行為最少,僅有25個詞條。單從二者的時間間隔累積占比變化也可看出,WoS引用次數(shù)的累積增長速度顯著慢于Wikipedia。
WoS是國際公認的反映科學研究水準的二次文摘型數(shù)據(jù)庫,以SCI-E、SSCI等引文索引,CCR-E、IC化學索引等數(shù)據(jù)庫享譽全球科技和教育界,它收錄的期刊與論文在業(yè)內(nèi)具備較高水準,這些論文需經(jīng)作者研究成稿、同行專家評議、編輯審核校對之后方能被期刊錄用,且一般需在正式出版之后才會被WoS收錄,故而施引周期較長。而Wikipedia是來自世界各地的用戶協(xié)同編輯的一個網(wǎng)絡(luò)百科全書項目,任何人都可以自由、免費地開展詞條編輯,以全部維基人討論、修改的民主形式和系統(tǒng)中維基管理員清除破壞及封鎖惡意破壞者賬戶相結(jié)合的方式開展詞條審核[16],詞條編輯、審核所經(jīng)流程少,見網(wǎng)快,因而提及周期較短。
圖6 論文出版與全部被WoS引用、Wikipedia提及的時間間隔
圖7 論文出版與全部被WoS引用、Wikipedia提及的時間
3.3關(guān)注論文持續(xù)性對比分析分別計算每篇論文被WoS引用、Wikipedia提及的年份個數(shù),進而統(tǒng)計出版時間之前至出版第6年共7個年份中各個年段的論文數(shù)分布。為方便和論文出版之后的提及/引用年份作區(qū)分,此處統(tǒng)一將論文出版時間之前的提及/引用劃作單獨的一年予以統(tǒng)計,結(jié)果見圖8。
圖8WoS引用、Wikipedia提及關(guān)注論文的持續(xù)性
WoS關(guān)注論文持續(xù)性分布最多的為3~5個年份,有125篇論文分別在4個年份都有被WoS引用,占比最高。論文被Wikipedia關(guān)注持續(xù)時間分布最多的為1~3個年份,其中2個年份最多,有34.25%的論文被Wikipedi在2個年份中提及,占比最高。Wikipedia對論文關(guān)注的持續(xù)性最長為5個年份,WoS對論文關(guān)注的持續(xù)性最長為7年。有3篇論文在正式出版之前至出版之后第6年的每年都有被WoS引用,它們均出版于2015年,其中2篇發(fā)表于綜合性權(quán)威刊物Nature,1篇發(fā)表于生物學領(lǐng)域期刊JournalofMolluscanStudies,研究的內(nèi)容分別為基于基因組測序技術(shù)研究歐洲印歐語系起源[17]、靈長類動物新大陸猴的起源和早期進化[18]、錐體蝸牛的新分類[19],這3篇論文得到的關(guān)注時間持續(xù)最久。相較來說,WoS關(guān)注論文的持續(xù)性更長。
7年中,論文出版的第幾年最容易獲得WoS、Wikipedia關(guān)注呢?為回答這個問題,本文分別對每個年份引用/提及的論文數(shù)進行統(tǒng)計,結(jié)果見表3??梢?,在論文出版第2年,最易被WoS引用,565篇論文中,有82.12%的論文在出版第2年被引用。在論文出版當年,最易被Wikipedia提及,581篇論文中,有432篇在出版當年被提及。這一結(jié)論也與前文分析中論文分別于發(fā)表第2年獲得的WoS施引文獻最多,發(fā)表當年獲得的Wikipedia提及最多這一結(jié)論相契合。
表3 論文被WoS引用、Wikipedia提及的時間分布
3.4相關(guān)性分析上文可知,Wikipedia提及論文中高達83.07%的論文僅獲得了1次提及,為凸顯相關(guān)分析的趨勢性,此部分基于Wikipedia高提及論文數(shù)據(jù)集開展分析。憑借SPSS軟件,采用非參數(shù)K-S單樣本方法對581篇論文的WoS總引、WoS他引、Wikipedia提及共3個數(shù)據(jù)集進行正態(tài)性檢測,結(jié)果顯示數(shù)據(jù)集的顯著性水平皆小于0.05,不服從正態(tài)分布,因而選取Spearman方法來開展各指標之間的相關(guān)性檢測,結(jié)果見表4。來自同一數(shù)據(jù)庫的WoS總引和他引在0.01的顯著性水平上呈現(xiàn)極強的正相關(guān)關(guān)系,WoS總引次數(shù)隨著他引次數(shù)的增加而顯著增加。WoS總引、他引和Wikipedia提及指標之間的顯著性水平分別為0.119、0.208,均大于0.05,說明兩個WoS引用指標和Wikipedia提及指標不相關(guān)。
究其原因,從提及/施引人角度,Wikipedia的提及人可以是任意互聯(lián)網(wǎng)用戶,WoS的施引人則是各學術(shù)領(lǐng)域的專業(yè)研究者;從提及/施引環(huán)境角度,Wikipedia提及發(fā)生在網(wǎng)絡(luò)知識交流過程,WoS引用發(fā)生在專業(yè)學術(shù)領(lǐng)域;從提及/施引目的角度,Wikipedia提及的初衷是為詞條概念提供真實的參考憑證,側(cè)重于知識科普。WoS引用則是為某一學術(shù)領(lǐng)域開展更為深入的研究提供前人已取得的成果依據(jù),側(cè)重于學術(shù)科研。綜上,Wikipedia提及雖然和WoS引用一樣都是對科研成果的參考行為,但與WoS引用側(cè)重反映科研成果的學術(shù)影響力不同,Wikipedia提及側(cè)重于呈現(xiàn)網(wǎng)絡(luò)知識交流痕跡,揭示科研成果的社會影響力。
表4WoS引用與Wikipedia提及的相關(guān)性分析
3.4.1 在不同學科的相關(guān)性 WoS引用與Wikipedia提及在各學科之間的相關(guān)性分析,可以洞見兩個指標的相關(guān)性是否有學科差異。為確保相關(guān)性分析的客觀性,選取學科論文數(shù)在10篇及以上的10個學科展開分析,結(jié)果簡化展示如表5所示。與全部論文一致,各學科的WoS總引與他引呈極強正相關(guān)性。生物科學、醫(yī)學與保健科學、物理科學、環(huán)境科學、化學科學、工程學、人類社會學7個學科的WoS總引與Wikipedia提及、WoS他引與Wikipedia提及的顯著性水平均大于0.05,兩個WoS引用指標與Wikipedia提及在上述7個學科上無相關(guān)關(guān)系。地球科學WoS總引與Wikipedia提及、WoS他引與Wikipedia提及的顯著性水平分別等于小于0.05,指標之間有相關(guān)性,相關(guān)系數(shù)分別為0.244、0.249,說明WoS總引、他引均與Wikipedia提及呈弱相關(guān)性。
歷史與考古學WoS總引、他引與Wikipedia提及的顯著性水平皆小于0.05,相關(guān)系數(shù)分別為0.545、0.487,即兩個WoS引用指標和Wikipedia提及之間為中等程度正相關(guān)關(guān)系。上文學科分布部分可見,22個學科中,歷史與考古學的篇均提及量(1.43次/篇)高居第4位,說明該學科獲得Wikipedia提及的論文,其被提及的次數(shù)相對較多。Torres-Salinas D等的研究也發(fā)現(xiàn),歷史是哲學、古典文學、比較文學與文學理論、博物館學、視覺藝術(shù)與表演藝術(shù)、宗教研究領(lǐng)域Wikipedia共被引的核心學科,是人文科學與其他領(lǐng)域產(chǎn)生關(guān)聯(lián)的中心性學科[10],筆者推測學者在科研過程中有查閱上述領(lǐng)域Wikipedia詞條需求時,較容易發(fā)現(xiàn)歷史與考古學相關(guān)參考論文,進而可能觸發(fā)專業(yè)學術(shù)引用行為。
認知心理學WoS總引、他引與Wikipedia提及的相關(guān)系數(shù)分別為0.823、0779,分別在0.01、0.05的顯著性水平上呈極強正相關(guān)性、強正相關(guān)性。Vogl S等的研究顯示W(wǎng)oS數(shù)據(jù)庫2010-2012年心理學論文的在線提及指標(包括Wikipedia提及)與WoS影響因子指標呈中高水平正相關(guān)性[20],這與本文的分析結(jié)論一致。Banasik-Jemielniak N等的研究也從側(cè)面印證了這一結(jié)論:Wikipedia心理學相關(guān)條目中被廣泛引用的期刊在整個Wikipedia中也經(jīng)常被引用,心理學期刊的Wikipedia引用率和期刊的SJR分數(shù)存在顯著相關(guān)性[8],而SJR (SCImago Journal Rank)是基于傳統(tǒng)數(shù)據(jù)庫Scopus引文絕對數(shù)量和質(zhì)量的評分指標。
表5WoS引用與Wikipedia提及在不同學科上的相關(guān)性
3.4.2 在不同出版年的相關(guān)性 為揭示W(wǎng)oS引用與Wikipedia提及之間的相關(guān)性是否與指標值積累時間長短有關(guān),本文分別開展2015-2020年論文的相關(guān)性分析,結(jié)果簡化展示如表6所示。同樣與全部論文的結(jié)論一致,歷年論文的WoS總引與他引的相關(guān)系數(shù)均在0.96以上,呈非常顯著的正相關(guān)關(guān)系。WoS引用與Wikipedia提及的顯著性水平皆大于0.05,兩者在統(tǒng)計學上不相關(guān)。
表6WoS引用與Wikipedia提及在不同年份上的相關(guān)性
2020年論文的WoS總引、他引與Wikipedia提及的顯著性水平皆小于0.05,分別與Wikipedia提及呈中等程度負相關(guān)性、弱負相關(guān)性。該年論文的特殊性主要在于因出版時間短,絕大多數(shù)論文積累了較多的Wikipedia提及次數(shù),WoS總引次數(shù)、他引次數(shù)較少或暫時為零,未歷經(jīng)時間累積,所以呈現(xiàn)出Wikipedia提及越多,WoS總引、他引越少的趨勢,這也在一定程度上印證了新出版論文更易獲得Wikipedia提及,Wikipedia較WoS傳播新出版論文的速度更快這一結(jié)論。從整體看,WoS引用與Wikipedia提及之間的相關(guān)性在論文出版年早晚上無顯著差異。
3.5關(guān)注主題分析為揭示W(wǎng)ikipedia和WoS關(guān)注論文的異同,本文選取Wikipedia高提及論文中WoS總引次數(shù)排名前20%論文為Wikipedia、WoS關(guān)注皆高的論文集,排名后20%論文為Wikipedia關(guān)注高、WoS關(guān)注低的論文集,分別提取論文集合的關(guān)鍵詞字段進行主題分析,結(jié)果見表7。
表7WoS引用與Wikipedia提及關(guān)注主題分析
從表7可以看出,Wikipedia關(guān)注高、WoS關(guān)注低的主題主要為New species、Distribution、Ornithischia、Lepidoptera、Integrative taxonomy等動植物分布分類相關(guān)研究。Wikipedia、WoS關(guān)注皆高的主題主要為基因組學溯源人類演化史、發(fā)展史相關(guān)研究,包括Genome sequence、Hominid、DNA、History、Evolution等中心詞。此結(jié)論也與上文Wikipedia提及代表性論文關(guān)注的主題較為一致。
2015年1月至2020年5月,Wikipedia共提及論文類成果617 203篇,絕大部分論文僅被提及過1次。Wikipedia對理學、醫(yī)學類論文提及較多,對人文社會科學類論文提及較少,學科數(shù)據(jù)量分布差異顯著。代表性論文關(guān)注的主題主要有:星體分類、觀測、演化等天文學相關(guān)研究,生物形態(tài)學、系統(tǒng)學、地理學等生物科學相關(guān)研究,動植物分類與命名等動植物學相關(guān)研究。
Wikipedia高提及論文獲得的WoS引用量是Wikipedia提及量的5倍左右,對于論文類科研成果來說,Wikipedia的提及量遠低于WoS的施引量。Wikipedia反映新發(fā)表論文的影響力更及時,新發(fā)表論文更易獲得Wikipedia提及,Wikipedia指標值累積增長速度也相對更快。但WoS對論文的關(guān)注時間持續(xù)更長,論文出版第二年最易被WoS引用,出版當年最易被Wikipedia提及;從關(guān)注主題看,動植物分布分類相關(guān)研究是Wikipedia關(guān)注高、WoS關(guān)注低的主題,二者關(guān)注皆高的主題為基因組學溯源人類演化史、發(fā)展史等相關(guān)研究;從相關(guān)性看,無論從全部高提及論文抑或不同出版年角度出發(fā),兩個WoS引用指標均與Wikipedia提及沒有顯著的相關(guān)性,說明它們之間的相關(guān)性與指標值累積時間長短無關(guān);WoS總引、他引與Wikipedia提及在生物科學、醫(yī)學與保健科學、物理科學、環(huán)境科學、化學科學、工程學、人類社會學7個學科上也無相關(guān)關(guān)系,在地球科學上呈弱相關(guān)性,僅在歷史與考古學、認知心理學兩個學科上有顯著中等至極強正相關(guān)關(guān)系。可見,在生物科學、醫(yī)學與保健科學等學科,Wikipedia反映的價值內(nèi)涵與引文不同,Wikipedia高提及論文可以視為做出重大非學術(shù)貢獻的科研成果[12,21]。在歷史與考古學、認知心理學兩個學科,Wikipedia呈現(xiàn)的影響力與WoS引文指標較為一致,Wikipedia提及值對之后的WoS引用值有較好的預見性。
盡管學界關(guān)于Altmetrics的解讀至今仍未達成共識,但國內(nèi)外學者已普遍肯定它追蹤網(wǎng)絡(luò)學術(shù)交流痕跡的作用,認可它是對采用傳統(tǒng)引文指標評價體系的一個合理補充[22]。目前關(guān)于Altmetrics指標的研究,Twitter[23-24]、Mendeley[15,25]、F1000[26-27]相對較多,Wikipedia相對較少。Wikipedia提及作為Altmetrics指標之一,可以一定程度上彌補傳統(tǒng)文獻計量指標評價周期長、評價對象單一的缺陷,更快地呈現(xiàn)科研成果在網(wǎng)絡(luò)知識交流中的影響力。但要想客觀探究Wikipedia提及和WoS引用的相關(guān)性,至少需要考慮到兩個因素:一是Wikipedia在論文類研究成果的提及率、提及量過低[7,12],需要過濾過多提及次數(shù)為1的論文對相關(guān)趨勢的稀釋影響;二是Wikipedia提及與WoS引用在不同學科上的相關(guān)性差異顯著,有必要從學科角度進行分類分析。
本文基于Altmetric.com追蹤的Wikipedia提及數(shù)據(jù),對Wikipedia提及指標的數(shù)據(jù)量、學科、主題分布及其與WoS引用指標在傳播新發(fā)表論文速度、指標值累積模式、關(guān)注論文持續(xù)性、關(guān)注主題上的特點,二者之間相關(guān)性在學科、出版年上的差異性進行分析。研究尚存在一定局限性:一是在將Wikipedia高提及論文映射至WoS數(shù)據(jù)庫的過程中,舍棄了Wikipedia高提及論文中未被WoS收錄的部分,未能揭示W(wǎng)ikipedia高提及數(shù)據(jù)全貌;二是因WoS引用滯后于Wikipedia提及,樣本中2020年論文僅獲得了Wikipedia數(shù)據(jù),未迎來WoS引用高峰。我們將在后續(xù)研究中優(yōu)化數(shù)據(jù)處理方法與分析策略,進一步擴展分析維度以進一步揭示W(wǎng)ikipedia提及指標的學科特性。