隨著大數(shù)據(jù)時代到來,在線論壇、微博、Twitter、Facebook等社交媒體服務(wù)發(fā)展迅速,科研人員開始在社交媒體工具上開展學(xué)術(shù)研究工作,比如學(xué)者們在Twitter和Facebook上分享和討論學(xué)術(shù)文獻(xiàn),在社交型文獻(xiàn)管理軟件(如Mendeley)中組織學(xué)術(shù)文獻(xiàn),在博客與微博中評論學(xué)術(shù)文獻(xiàn),在新聞與同行評審(如Faculty of 1000)中報道學(xué)術(shù)文獻(xiàn)。社交媒體工具不僅改進(jìn)了學(xué)術(shù)研究流程,提高了學(xué)術(shù)交流效率,還記錄了一系列在線學(xué)術(shù)行為。Altmetrics就是在記錄這些學(xué)術(shù)行為基礎(chǔ)上而產(chǎn)生和發(fā)展,并逐漸走入科學(xué)家的研究視線。
在Altmetrics指標(biāo)研究的初始階段,學(xué)者們重點(diǎn)探討Altmetrics的產(chǎn)生背景、研究意義、研究方法等。在研究的中期,Altmetrics指標(biāo)與傳統(tǒng)引文指標(biāo)之間的關(guān)系成為研究的重點(diǎn)。到了近幾年,綜合利用數(shù)據(jù)源對多樣化類型的學(xué)術(shù)成果進(jìn)行科學(xué)評價是被熱議的話題。然而,眾多Altmetrics指標(biāo)處于離散狀態(tài),指標(biāo)數(shù)據(jù)源存在層次性和多樣性,很多類型的Altmetrics指標(biāo)所傳遞的價值仍有待探索[1]。由此,本文試圖探索Altmetrics指標(biāo)群的計量特點(diǎn)和指標(biāo)間的深層次關(guān)系,旨在發(fā)現(xiàn)指標(biāo)合理分類和構(gòu)建各個分類因子的計算模型,以可視化的方式揭示科學(xué)文獻(xiàn)在社交媒體中傳播和交流的特點(diǎn),以期有助于科學(xué)影響力評價效果的全面呈現(xiàn)。
2010年,Priem在Altmetrics宣言中首次提出“Altmetrics”概念,旨在為計量學(xué)術(shù)影響力提供新的指標(biāo)來源[2]。傳統(tǒng)文獻(xiàn)計量學(xué)中的影響度量通常會計算一定數(shù)量的出版物、引文和同行評審,用來評價研究人員、期刊或科研機(jī)構(gòu)[3]。隨著越來越多的出版物和研究成果在網(wǎng)上被使用,“使用指標(biāo)”(點(diǎn)擊量和下載量)和網(wǎng)絡(luò)計量學(xué)應(yīng)運(yùn)而生。特別是近年來研究成果呈現(xiàn)形式向多樣化轉(zhuǎn)變,不僅有專著、論文和報告,還包括博客、視頻、數(shù)據(jù)集和軟件代碼等,這些研究成果不斷在社交媒體上進(jìn)行討論和傳播,并用Altmetrics記錄了其在社交媒體上活動與互動[4]。
近年關(guān)于Altmetrics的研究已經(jīng)從概念、指標(biāo)范圍的探討階段進(jìn)入交叉度量研究驗(yàn)證階段。首先,在Altmetrics與傳統(tǒng)文獻(xiàn)計量指標(biāo)比較研究層面,大多數(shù)學(xué)者將Altmetrics指標(biāo)群和WoS或Scopus的引文量進(jìn)行相關(guān)分析[5],一些學(xué)者實(shí)證分析Altmetrics與CrossRef引文量、PubMed引文量、期刊引文量、書籍引文量和高校排名之間的交叉度量關(guān)系[6-10]。其次,在Altmetrics與網(wǎng)絡(luò)計量指標(biāo)比較研究層面,研究Altmetrics與使用指標(biāo)之間的相關(guān)關(guān)系。再次,在Altmetrics內(nèi)部指標(biāo)間的研究層面,關(guān)注Altmetrics指標(biāo)之間的交叉度量驗(yàn)證[3]。上述研究大多使用回歸分析、方差分析、曼·惠特尼U檢驗(yàn)及相關(guān)分析等方法。Bornmann[6]、Erdt等[11]運(yùn)用 Meta分析驗(yàn)證Altmetrics和引文量之間的相關(guān)系數(shù)在0.08~0.5內(nèi)變化,并強(qiáng)調(diào)Altmetrics指標(biāo)是傳統(tǒng)計量指標(biāo)的補(bǔ)充而非替代。國內(nèi)學(xué)者對Altmetrics指標(biāo)之間的關(guān)系和指標(biāo)分類進(jìn)行研究,趙蓉英等[12]將Altmetrics指標(biāo)分為兩類:媒介交流(News、Blog、Twitter、Facebook、Google+)和讀者數(shù)量(Mendeley、CiteULike、Wikipedia);由慶斌等[13]運(yùn)用主成分分析將指標(biāo)分為讀者數(shù)量因子(Mendeley、CiteULike)、社交傳播因子(Twitter、Facebook)和論文質(zhì)量因子(F1000)等三類。
盡管學(xué)者對Altmetrics的指標(biāo)來源、指標(biāo)間的關(guān)系及其與傳統(tǒng)計量指標(biāo)之間的關(guān)系進(jìn)行了探討,取得了一些研究成果,但Altmetrics的指標(biāo)體系中的指標(biāo)數(shù)量總計有23個之多[11],上述研究并未充分地獲取Altmetrics指標(biāo)數(shù)據(jù)來全面分析指標(biāo)特征,且尚未說明科學(xué)文獻(xiàn)在社交媒體中的交流與傳播規(guī)律。所以,對具有同質(zhì)性的Altmetrics指標(biāo)進(jìn)行科學(xué)分類,在此基礎(chǔ)上構(gòu)建計算模型并加以可視化驗(yàn)證是本文研究的重點(diǎn)。
本文利用Altmetrics指標(biāo)服務(wù)著名提供商之一Altmetric.com平臺,選取2016年度Altmetrics得分前100名的論文為文獻(xiàn)來源,利用該網(wǎng)站的鏈接(https://figshare.com/collections/Altmetric_Top_100_2016/3590951)下載100篇高得分論文的DOI、鏈接、主題、論文簡介、新聞報道、博客、Twitter、Facebook、Google+、維基百科、Video和F1000等各項(xiàng)指標(biāo)值(統(tǒng)計時間為2016年12月7日)。在檢索每篇論文的谷歌學(xué)術(shù)引文量(統(tǒng)計時間為2017年5月7日)的基礎(chǔ)上,再次重新統(tǒng)計每篇論文的Altmetrics得分(統(tǒng)計時間為2017年5月7日),最終形成2016年AltmetricsTop100論文數(shù)據(jù)集。
本研究運(yùn)用RStudio 3.3.3軟件,首先對Altmetrics指標(biāo)的計量數(shù)值進(jìn)行描述性統(tǒng)計分析,然后對Altmetrics Top100論文的各個計量指標(biāo)進(jìn)行Spearman相關(guān)分析,然后對數(shù)據(jù)集中的Altmetrics各個指標(biāo)進(jìn)行主成分提取并加以因子命名,最終得出因子計算模型并進(jìn)行可視化驗(yàn)證。
通過原始數(shù)據(jù)集可以看出,Top100論文是社交媒體中讀者關(guān)注的重點(diǎn)文章,在Altmetric.com網(wǎng)站上有較高的Altmetrics得分。本研究Altmetrics得分一列中有兩個值,分別統(tǒng)計于2016年12月7日和2017年5月7日,時隔5個月。雖然大部分文獻(xiàn)的Altmetrics得分統(tǒng)計值以增加為主,但有10篇文獻(xiàn)出現(xiàn)得分下降的異?,F(xiàn)象,見表1。
從表1中可以看出,一些文獻(xiàn)的Altmetrics得分統(tǒng)計值小幅下降。筆者重新統(tǒng)計這些文章的Altmetrics中的各個指標(biāo)值,發(fā)現(xiàn)Altmetric.com網(wǎng)站提供的統(tǒng)計指標(biāo)中,因這些文章的“新聞”指標(biāo)值大幅下降,雖然Twitter和Facebook指標(biāo)值略有增加,但因其“新聞”指標(biāo)占總分值權(quán)重較大,進(jìn)而導(dǎo)致總得分下降。另有一篇文獻(xiàn),雖然在2016年底被統(tǒng)計進(jìn)入年度網(wǎng)絡(luò)關(guān)注論文前100名中的第28名,Altmetrics得分為2353,但半年后Altmetrics得分急劇下降至125,該篇文獻(xiàn)在網(wǎng)上標(biāo)明原因:“NOT PEER-REVIEWED.‘PeerJ Preprints’is a venue for early communication or feedback before peer review.Data may be preliminary”,但該文獻(xiàn)經(jīng)過同行評審后又重新分配DOI號碼,并有了新的Altmetrics得分排名。此10篇文獻(xiàn)的得分降低幅度見圖1。
表1 Altmetrics得分降低的10篇文獻(xiàn)
這個現(xiàn)象也說明,相對于“引文量”等傳統(tǒng)計量指標(biāo),Altmetrics指標(biāo)具有活動性和不穩(wěn)定性。利用Altmetrics指標(biāo)對文獻(xiàn)進(jìn)行評價時應(yīng)考慮這種特性,以避免錯誤的計量和評價。
圖1 Altmetrics得分降低幅度圖
(1)首先計算谷歌學(xué)術(shù)引用量(Google Scholar Citation)與Altmetrics得分之間的相關(guān)系數(shù)。二者的相關(guān)系數(shù)值為0.246(p-value=0.01372<0.05,顯著相關(guān)),表示兩者具有弱相關(guān)關(guān)系。其次,繪制帶有邊際地毯的和局部加權(quán)擬和線的散點(diǎn)圖,見圖2。
圖2 谷歌學(xué)術(shù)引用量與Altmetrics得分相關(guān)關(guān)系散點(diǎn)圖
從圖2中可以看出,數(shù)據(jù)集中100篇文獻(xiàn)的引用量集中在500以內(nèi),Altmetrics得分值集中在2000至4000之間,在此范圍內(nèi)呈密集分布。本次統(tǒng)計分析亦做了局部加權(quán)多項(xiàng)式擬合線(loess曲線),陰影部分為95%擬合范圍區(qū)域。筆者還注意到兩個點(diǎn):一個是圖中最高的點(diǎn),代表文章為United States health care reform progress to data and next steps,該文章Altmetrics得分高達(dá)8340,而谷歌學(xué)術(shù)引用量僅為98次,表明該文章在社交媒體中具有很高的關(guān)注度,但學(xué)術(shù)關(guān)注度并不高;另一個最遠(yuǎn)的點(diǎn),代表文章為Observation of Gravitational Waves from a Binary Black Hole Merger,說明這篇文章的不僅具有較高的社交媒體關(guān)注度(Altmetrics得分4750),同時還具有高度的學(xué)術(shù)關(guān)注度(谷歌學(xué)術(shù)引用量高達(dá)1953)。從統(tǒng)計分析中可以看出,Altmetrics指標(biāo)重點(diǎn)表征的是文獻(xiàn)在社交網(wǎng)絡(luò)的關(guān)注度和影響力,并不能代表文獻(xiàn)的學(xué)術(shù)關(guān)注度,只能作為學(xué)術(shù)關(guān)注的社交層面的表征計量指標(biāo),是對傳統(tǒng)學(xué)術(shù)關(guān)注度計量的有效補(bǔ)充。
(2)對Altmetrics各指標(biāo)間進(jìn)行Spearman相關(guān)性分析,并加以可視化。原始數(shù)據(jù)集中統(tǒng)計的指標(biāo)共15個,由于有4個指標(biāo)的統(tǒng)計值均為0,為避免矩陣的稀疏性對結(jié)果的影響,本文選取統(tǒng)計分析的指標(biāo)有News、Video、Policy、Wikipedia、Blog、F1000、Google+、Facebook、Twitter、Redditors和Peer Review,共計11個指標(biāo)。11個指標(biāo)之間的相關(guān)關(guān)系通過計算如圖3所示。藍(lán)色代表正相關(guān),紅色代表負(fù)相關(guān),顏色越深代表相關(guān)系數(shù)的絕對值越大。從相關(guān)系數(shù)值來看,各個指標(biāo)之間的為弱相關(guān)到中等相關(guān)關(guān)系。其中,Blog與其他10個指標(biāo)均為正相關(guān);News與其他大部分指標(biāo)為負(fù)相關(guān)關(guān)系,表示News這一指標(biāo)值增大(減小),其他指標(biāo)如Twitter、 Redditors、 Google+ 、 Facebook、F1000等的指標(biāo)值相應(yīng)減小(增大)。
圖3 Altmetrics各指標(biāo)間相關(guān)系數(shù)矩陣
主成分分析作為降維方法,能將大量相關(guān)變量轉(zhuǎn)化為一組較少的不相關(guān)變量,這些無關(guān)變量被稱為主成分。主成分是觀測變量的線性組合,如第一主成分計算公式為:
其中,Xk為可觀測隨機(jī)變量,ak為因子載荷。
首先對數(shù)據(jù)集進(jìn)行KMO和Bartlett球形檢驗(yàn),結(jié)果見表2。
表2 KMO與Bartlett球形檢驗(yàn)
從表2中可知,KMO值為0.61,且Bartlett球型檢驗(yàn)的P值為2.2e-16<0.05,所以本數(shù)據(jù)集適合做主成分分析。
確定主成分個數(shù)是進(jìn)行主成分分析的第一步。本文使用基于特征值的方法來確定主成分的個數(shù):第一主成分與最大的特征值相關(guān)聯(lián),第二主成分與第二大的特征值相關(guān)聯(lián),以此類推。碎石圖繪制了特征值與主成分個數(shù)的圖形,見圖4。
通過平行分析得到的碎石圖清晰地顯示圖形彎曲的狀況。Kaiser-Harris準(zhǔn)則建議保留特征值大于1的主成分,因此,本研究中11個變量提取出4個主成分。
圖4 碎石圖平行分析
使用極大方差旋轉(zhuǎn)法提取出4個主成分,并計算出各個主成分載荷矩陣。由于做了極大方差旋轉(zhuǎn),各個主成分的名稱標(biāo)記為RC(Rotated Component),即 RC1、RC2、RC3和 RC4??梢园凑崭鱾€主成分對每個變量的成分載荷來對4個主成分進(jìn)行再次分析。經(jīng)驗(yàn)認(rèn)為成分載荷大于0.5即為能夠被主成分很好地解釋,按照4個主成分對各個變量的解釋度,將4個主成分依次命名為“大眾社交媒體因子”“新聞報道因子”“學(xué)術(shù)記錄因子”和“同行評審因子”,見表3。
表3 主成分及其命名
筆者注意到,變量Policy的成分公因子方差為0.21,即主成分對Policy的方差解釋度為0.21,方差無法被主成分解釋的比例為0.79。由此可見,在主成分分析的過程中,由于Policy的特殊性,在提取的主成分里,Policy并未被很好地解釋。所以4個主成分里,并沒有變量Policy的出現(xiàn)。
在明確4個主成分過后,可對各個變量在評價過程中的重要程度進(jìn)行度量,即分配權(quán)重。通過計算得到主成分得分系數(shù)矩陣,見表4。
表4 主成分得分系數(shù)矩陣
根據(jù)表4,可以得到主成分RC1、RC2、RC3、RC4的計算模型,由此4個主成分,即大眾社交媒體因子(RC1)、新聞媒體因子(RC2)、學(xué)術(shù)記錄因子(RC3)和同行評審因子(RC4)的計算模型得出,其公式依次為:
根據(jù)上述因子計算模型,計算各個因子得分,并導(dǎo)出xlsx文件。本文利用Rstudio3.3.3軟件生成Top100論文因子得分熱力圖,每篇論文的得分范圍值為-5至5,由紅色向藍(lán)色過渡表示,熱力圖的右側(cè)標(biāo)識為論文的編號(01-100),見圖5。從圖5中可以看到各個樣本分布在4個因子中的得分高低,得分范圍值為-5至5,由紅色向藍(lán)色過渡表示。從RC1得分來看,較大得分的樣本(藍(lán)色)是文獻(xiàn)1、文獻(xiàn)2、文獻(xiàn)5和文獻(xiàn)41,說明這幾篇文獻(xiàn)在大眾社交媒體中傳播較廣;從RC2得分來看,文獻(xiàn)2、文獻(xiàn)6、文獻(xiàn)15和文獻(xiàn)10得分較高(藍(lán)色),表明其通過新聞報道這一主要途徑廣泛傳播;從RC3的得分來看,文獻(xiàn)3、文獻(xiàn)4和文獻(xiàn)19擁有較高的得分(藍(lán)色),說明該文獻(xiàn)在學(xué)術(shù)記錄媒體中廣泛傳播;而文獻(xiàn)17、文獻(xiàn)37和文獻(xiàn)78等在RC4中得分較高(藍(lán)色),說明這些文獻(xiàn)是得到了同行評審的較高質(zhì)量論文。從圖5中還可以看到,不同論文在不同的社交媒體平臺中傳播和交流的熱度不同,比如在學(xué)術(shù)記錄因子(RC3)中,傳播比較平穩(wěn),每篇論文的分值變化不大,而在同行評審因子(RC4)中,有部分論文的因子得分變化幅度較大。從另一個角度表明,如果某篇文獻(xiàn)想提高自身在社交媒體中的學(xué)術(shù)影響,可以根據(jù)自身現(xiàn)有得分,通過“新聞報道因子”等途徑提高其在社交網(wǎng)絡(luò)平臺的學(xué)術(shù)影響力。
圖5 100篇論文因子得分熱力圖
Altmetrics指標(biāo)誕生于社交媒體,記錄了讀者學(xué)術(shù)交流過程中的收藏、推薦、評論、轉(zhuǎn)發(fā)等行為,它所度量的影響力偏重于大眾化視角的關(guān)注度和影響力。傳統(tǒng)的“引文指標(biāo)”記錄的是某篇學(xué)術(shù)論文被其他學(xué)術(shù)作品引用的次數(shù),直接用于評價科研成果的學(xué)術(shù)價值,是學(xué)術(shù)影響力在學(xué)術(shù)圈的直接體現(xiàn),并未涵蓋學(xué)術(shù)論文在大眾社交圈中的影響。本文統(tǒng)計分析發(fā)現(xiàn),隨著時間的推移,Altmetrics得分以增加為主,但也存在得分小幅下降和大幅突降的情況,這是由于部分網(wǎng)絡(luò)統(tǒng)計指標(biāo)的數(shù)值變化造成了最終得分的變化。變化中的一部分異常突變在統(tǒng)計評價時應(yīng)予以重視并加以分析,否則會造成評價結(jié)果的不準(zhǔn)確性。
本文所使用的原始數(shù)據(jù)集來自Altmetric.com網(wǎng)站,該平臺中所包含的Altmetrics計量指標(biāo)共計15種,幾乎涵蓋目前國際主流的社交媒體平臺,可以認(rèn)為該計量指標(biāo)覆蓋較全面,但從某種程度上說,各個Altmetrics指標(biāo)又是非常分散的。本文通過相關(guān)分析發(fā)現(xiàn),各Altmetrics指標(biāo)之間以弱相關(guān)到中等相關(guān)關(guān)系為主;同時,Altmetrics指標(biāo)也具有一定程度的相對集中性,通過主成分分析,眾多的Altmetrics指標(biāo)被劃分為“大眾社交媒體因子”“新聞報道因子”“學(xué)術(shù)記錄因子”和“同行評審因子”4類。而“Policy”這一計量指標(biāo)未被任何一個因子很好地解釋,故未被收錄到4類因子之中。
構(gòu)建因子計算模型有助于直接計算科學(xué)論文在社交媒體中的影響力。本文通過因子得分計算,發(fā)現(xiàn)不同文獻(xiàn)在不同的社交媒體平臺擁有不同的熱度,即傳播的路徑和交流的領(lǐng)域有所不同。由此可見,在社交媒體被廣泛應(yīng)用的今天,“學(xué)者”以及“非學(xué)者”利用社交網(wǎng)絡(luò)對科學(xué)文獻(xiàn)進(jìn)行分享、評論和推薦,提高了學(xué)術(shù)的傳播速度,擴(kuò)大了科學(xué)知識的受眾群體,科學(xué)不再是科學(xué)家們自己的事情。
Altmetrics指標(biāo)提供了一個獨(dú)特的社會學(xué)視角來呈現(xiàn)學(xué)術(shù)影響的傳播,并且讓學(xué)術(shù)交流活動有跡可尋?;谏缃痪W(wǎng)絡(luò)上真實(shí)存在的數(shù)據(jù)集,運(yùn)用社交網(wǎng)絡(luò)研究理論,探索科學(xué)傳播的路徑,并在此基礎(chǔ)之上研究社交媒體層面學(xué)術(shù)交流和社區(qū)發(fā)現(xiàn)的可視化成為一個重要的領(lǐng)域。同時,社交媒體平臺中保存了大量關(guān)于科學(xué)文獻(xiàn)的評論文本,因此應(yīng)利用如統(tǒng)計分析、文本情感分析、文本分類及聚類和機(jī)器學(xué)習(xí)等方法對這些文本進(jìn)行挖掘,從而得到那些隱含的、未知的潛在信息,可以更好地反饋和輔助科學(xué)知識的研究和發(fā)現(xiàn)。
參考文獻(xiàn)
[1] 余厚強(qiáng),邱均平.替代計量指標(biāo)分層與聚合的理論研究[J].圖書館雜志,2014(10):13-19.
[2]PRIEM J,TARABORELLI D,GROTH P,et al.Altmetrics:A manifesto[EB/OL].[2017-05-10].http://altmetrics.org/manifesto/.
[3]HAUSTEIN S,LARIVI?RE V.The use of bibliometrics for assessing research: possibilities, limitations and adverse effects[M]//Incentives and performance.Springer International Publishing,2015:121-139.
[4]WELLER K.Social media and altmetrics:An overview of current alternative approaches to measuring scholarly impact[M]//Incentivesand performance.Springer International Publishing,2015:261-276.
[5]HAUSTEIN S,LARIVIèRE V.A multidimensional analysis of Aslib proceedings-using everything but the impact factor[J].Aslib Journal of Information Management,2014,66(4) :358-380.
[6]BORNMANN L.Interrater reliability and convergent validity of F1000Prime peer review[J].Journal of the Association for Information Science and Technology,2015,66(12):2415-2426.
[7]COSTAS R, ZAHEDI Z, WOUTERS P.Do“altmetrics”correlate with citations?Extensive comparison of altmetric indicators with citations from a multidisciplinary perspective[J].Journal of the Association forInformation ScienceAnd Technology,2015,66(10):2003-2019.
[8] HOLMBERG K.Online Attention of Universities in Finland:Are the bigger universities bigger online too?[C]//International Society of Scientometrics and Informetrics Conference, June 29-July 3, 2015,Bogazi?i University,Istanbul,Turkey.
[9]THELWALL M,KOUSHA K.Web indicators for research evaluation.Part 1:Citations and links to academic articles from the Web[J].El Profesional de la Información,2015,24(5):587.
[10]THELWALL M,KOUSHA K.Web indicators for research evaluation.Part 2:Social media metrics[J].El Profesional de la Información,2015,24(5):607.
[11]ERDT M,NAGARAJAN A,SIN S-C J,et al.Altmetrics:an analysis of the state-of-the-art in measuring research impact on social media[J].Scientometrics,2016,109(2):1117-1166.
[12]趙蓉英,郭鳳嬌,譚潔.基于Altmetrics的學(xué)術(shù)論文影響力評價研究——以漢語言文學(xué)學(xué)科為例[J].中國圖書館學(xué)報,2016,42(1):96-108.
[13]由慶斌,韋博,湯珊紅.基于補(bǔ)充計量學(xué)的論文影響力評價模型構(gòu)建[J].圖書情報工作,2014,58(22):5-11.