李小濤 金心怡
摘要:探索基于Ahmetrics指標的研究熱點與前沿分析方法,提高分析結果的時效性與準確性.本研究建立了包括Altmetrics指標和被引頻次的論文影響力評價體系,采用因子分析識別出《Scientometrics》的高影響力文獻,進而對高影響力文獻進行科學知識圖譜分析,以發(fā)現(xiàn)該刊的研究熱點與前沿。研究結果表明Ahmetrics指標可為研究熱點與前沿分析提供一種更為合理的文獻篩選與過濾機制,有助于提高研究熱點與前沿分析的時效性與準確性,更好地揭示期刊和學科領域的發(fā)展態(tài)勢。
關鍵詞:替代計量學;科學計量學;研究熱點與前沿;因子分析
DOI:10.3969/j.issn.1008-0821.2019.01.019
[中圖分類號]G250.252 [文獻標識碼]A [文章編號]1008-0821(2019)01-0153-08
準確識別與預測研究熱點對于掌握學科發(fā)展動態(tài)、推進科研創(chuàng)新有著重要意義。傳統(tǒng)的基于引文的研究熱點識別方法難免存在時間滯后的問題,而隨著Altmetrics研究的興起,基于在線數(shù)據(jù)的替代計量方法具有更好的時效性,可為研究熱點探測提供新的思路。
王睿等分別用Ahmetric.con和web of sci-ence獲取了273篇論文的Altmetric分數(shù)和被引頻次,發(fā)現(xiàn)高Altmetrics指標在一定程度上能夠被視作文獻在未來獲得高被引的風向標。劉曉娟等對圖書情報領域文獻的Altmetrics指標進行了分析,發(fā)現(xiàn)Twitter適合對文獻的社會影響力做出判斷,Mendeley更適用于文獻的學術影響力評價。趙雅馨等通過Mtmetrics指標對信息與計算科學領域的文獻進行了評估,并對綜合關注度最高(Top 5%)的文獻進行了共詞分析。韋博等提出了基于Alt-metrics的研究熱點預測新思路,并提出了集評價分析、熱點預測、推送服務于一體的平臺設計模型。以上研究表明,學術界已充分認識到Altmet-rics指標在研究熱點與前沿分析中的潛力,但目前這方面的實證研究還較為缺乏。
《Scientometrics》是科學計量學領域的重要代表性期刊和高水平學術交流平臺,能較好地反映該領域的發(fā)展態(tài)勢。本研究建立包括Altmetrics指標和被引頻次的論文影響力評價體系,采用因子分析識別出發(fā)表于《Scientometrics》的高影響力文獻,在此基礎上進行科學知識圖譜分析。本研究一方面探索基于Almetrics指標的文獻影響力評價及研究熱點與前沿探測方法;另一方面通過分析《Scien-tometrics》的熱點與前沿來揭示科學計量學研究的發(fā)展態(tài)勢,以期為相關研究提供參考借鑒。
1數(shù)據(jù)來源與研究方法
1.1數(shù)據(jù)來源
本研究以《Scientometrics》近3年發(fā)表的論文作為研究對象,從Web of Science核心合集中以“刊名=Scientometrics”進行檢索.時間限定為2015-2017年,獲得該刊1141篇文獻及其DOI號、被引頻次,檢索時間為2018年3月8日。
Mltmtrics.con是獲取Altmetrics指標的重要數(shù)據(jù)來源之一。本研究用1141篇文獻的DOI號在Altmtries.com中進行檢索,共得到680篇文獻的Altmetrics指標數(shù)據(jù)及關注度分值(Altmetrie Auen-tion Score,AAS)。AAS是Mtmtrics.con通過對文獻的15種Mtmetric指標(Twitter提及數(shù)、Face-book提及數(shù)等)得分進行觀測,然后對各項指標匯總加權自動計算出的社會關注度總分。
1.2研究方法
1.2.1論文綜合影響力評估
Mtmetrics指標可以很好地體現(xiàn)論文的社會關注度,被引頻次則可以反映論文的學術影響力.本研究綜合考慮這兩方面的因素,構建同時包含被引頻次和Mtmetrics指標的論文綜合影響力評價指標體系。通過因子分析來對該指標體系進行降維并提取公共因子,識別論文影響力的主要影響因素,并計算每篇論文的綜合因子得分,以得到論文的綜合影響力排名。綜合影響力較高的論文不僅當前影響較大,以后也有望獲得更多的關注和被引頻次,成為未來一段時間學術界關注的焦點,因此本研究將綜合影響力前50%的論文作為研究熱點與前沿分析的文獻來源。
1.2.2研究熱點分析
共詞分析法是識別研究熱點的基本方法之一。該方法通過對能夠表達某一學科領域主題或研究方向的專業(yè)術語共同出現(xiàn)在同一篇論文中次數(shù)的統(tǒng)計,判斷各研究主題間的關系,進而發(fā)現(xiàn)學科研究熱點。除具有較好的時效性外,共詞分析法還具有客觀性、科學性、敏感性等特點,因此本研究通過對綜合影響力排名前50%的論文進行共詞分析,并采用Ucinet和Netdraw軟件將共詞矩陣映射為共詞網(wǎng)絡進行可視化展示,以揭示近年來《Scientometrics》的研究熱點。
1.2.3研究前沿分析
國內(nèi)外學者主要通過高被引文獻、施引文獻以及突現(xiàn)的術語和潛在的研究問題來發(fā)現(xiàn)與探測研究前沿。Citespace是目前最為流行的科學知識圖譜繪制工具之一,其圖譜具有直觀、高效、客觀、準確的優(yōu)點,被廣泛應用于圖書情報領域的研究前沿可視化分析中。本研究采用Citespace 5.2進行文獻共被引聚類分析,來探測《Scientometries》的前沿研究領域及代表性文獻。
2論文綜合影響力分析
2.1被引頻次和Altmetrics指標特征分析
對680篇論文的被引頻次和Mtmetrics指標分值進行描述統(tǒng)計,結果見表1。
表1列出了覆蓋率高于0.5%的指標。覆蓋率是在某指標下非零值的論文數(shù)占論文總數(shù)的比例,可以在一定程度上反映某指標在該領域論文評價中的可利用價值,同時也可以看到該領域論文的影響力主要來自哪些方面。680篇論文中,僅有68.38%的論文被引用,這跟論文發(fā)表年限較短有關,也說明僅憑這一指標難以對新發(fā)表論文的影響力進行全面評估。98.97%的論文在Mendeley上被用戶保存過,在Twitter、Blog、Facebook、Google+等社交媒體上被提及的論文所占比例分別是89.12%、16.47%、14.71%、3.97%,而新聞、政策文檔、維基百科、同行評議網(wǎng)站和課程大綱等指標對《Scientometrics》論文的覆蓋率普遍較低,均在5%以下??梢娔壳翱茖W計量學研究論文的網(wǎng)絡影響力一方面體現(xiàn)在文獻閱讀軟件的保存數(shù)上;另一方面體現(xiàn)在Twitter、Blog、Facebook這3類社交媒體上,而在新聞、政策文檔等方面的顯示度還很低。
2.2論文綜合影響力得分
選擇覆蓋率10%以上的5個指標(被引頻次、Mendeley、Twitter、Blog、Facebook)構建論文影響力綜合評價指標體系,將論文相應指標數(shù)據(jù)導人SPSS進行因子分析。首先對數(shù)據(jù)進行KMO和Bartlett的球形度進行檢驗:KMO值為0.712,說明5個指標之間偏相關性較強:Bartlett球形檢驗結果的顯著性小于0.05,進一步說明這5個指標適合提取公共因子。
因子提取的方法選擇主成分分析,特征根大于1的因子有2個(碎石圖見圖1),方差貢獻率分別為44.93%和35.82%,累計解釋總方差的80.75%,因子分析效果可以接受。為更清晰地看到2個因子分別由哪些指標主導,采用最大方差法,對因子進行正交旋轉,得到旋轉后因子荷載矩陣見表2。第一公因子在Twitter、Blog、Facebook上荷載較大,反映的是論文的社會影響力,因此稱之為社會影響因子;第二公因子在被引頻次和Mendeley上荷載較大,主要體現(xiàn)論文的學術影響力,稱之為學術影響因子。
根據(jù)各因子的載荷權重,論文的綜合影響力得分=(F1*0.4493+F2*0.3582)/0.8075,依據(jù)此計算公式可得出文獻的綜合影響力得分及排序。本研究將得分較高的前50%文獻(340篇)作為《Scientometrics》的高影響力文獻。
3研究熱點與前沿分析
3.1研究熱點
340篇高影響力論文是近三年《Scientomet-rics》學術影響力和社會關注度較高的論文,提取其高頻關鍵詞進行共現(xiàn)分析,可以反映近三年該刊乃至科學計量學界最受關注的研究內(nèi)容。選擇詞頻大于2的關鍵詞,統(tǒng)計其共現(xiàn)關系并進行可視化展示,以揭示該刊的研究熱點,結果見圖2。
圖2中每個節(jié)點表示1個關鍵詞,節(jié)點大小與該詞在網(wǎng)絡中的點度中心性成正比,節(jié)點間連線的粗細與關鍵詞兩兩共同出現(xiàn)的頻次成正比。圖2大致將所有關鍵詞分為3層:第一層為核心層,代表性的節(jié)點有Bibliometrics、Cition Analysis、Cita-tions等高頻詞,體現(xiàn)了當前影響力最高的科學計量研究仍然擁有穩(wěn)固的核心——文獻計量分析與引文分析;第二層是中間層,代表性的節(jié)點有Alt-metrics、Web of Science、Scopus、Google Scholar、Hindex、Research Evaluation等高頻詞,這一層體現(xiàn)出了當前科學計量學研究中數(shù)據(jù)來源和應用的拓展與創(chuàng)新,Scopus和Google Scholar、Web of Sci-ence為科學計量研究提供了多樣化的數(shù)據(jù)來源,替代計量學指標越來越多的應用于科研評價;第三層是新興層,代表性的節(jié)點有Sleeping Beauties、Social Media、Universities、Research Performance、Collaboration等詞,該層的關鍵詞在網(wǎng)絡中的位置相對邊緣化,可以看作是中間層關鍵詞的擴展和延伸,“睡美人”現(xiàn)象、社交媒體研究、大學科研評價、科研合作等受到學術界和社交媒體的共同關注,在一定程度上預示著科學計量學研究的新興趨勢。
3.2研究前沿
將文獻數(shù)據(jù)導入Citespace,節(jié)點類型選擇“Cited Reference”,時區(qū)跨度(Slice)為1年,數(shù)據(jù)篩選設置為Top 50,采用尋徑網(wǎng)絡算法對網(wǎng)絡進行整體裁剪。得到文獻共被引網(wǎng)絡后,對網(wǎng)絡進行聚類分析,聚類的標簽從施引文獻的標題中提取,標簽詞提取方法選擇LSI,結果見圖3。
圖3中包括218個節(jié)點,每個節(jié)點表示1篇參考文獻,形成了較為清晰的7個文獻聚類,每個聚類的標簽都用“#”號和阿拉伯數(shù)字進行編號。依據(jù)Citespace研究前沿的概念模型,本研究將218篇節(jié)點文獻視為本文獻集的知識基礎,這些節(jié)點文獻通過共被引形成的聚類即為本文獻集的主要研究領域,每個研究領域的施引文獻包含著該領域的研究前沿。在參考Citespace聚類標簽的基礎上,通過對每個聚類的重要節(jié)點文獻及其施引文獻進行內(nèi)容分析后,識別出5個前沿研究領域:學術搜索引擎研究(#0 google scholar)、大學評價研究(#1 university administrator)、學術生涯影響因素研究(#2 academic career)、“睡美人”現(xiàn)象研究(#2sleeping beauties)、Ahmetrics研究(#4 social media、#6 alternative metrics、#7 twitter count)。
3.2.1學術搜索引擎研究
這一研究領域由圖3中的“#0 google scholar”聚類中的文獻及其施引文獻構成。學術搜索引擎促使人們對當前學術知識的整體水平進行了重新審視,并對學術網(wǎng)絡的規(guī)模產(chǎn)生了濃厚的興趣,Or-duna-Malea E提出了3種方法來測度谷歌學術的規(guī)模。他的估算結果是,截至2014年5月,Google Scholar已覆蓋超過1億6千萬個文檔。Ja-mali H等探索了Google Scholar中論文全文的來源,發(fā)現(xiàn)61.1%的論文可以在谷歌學術搜索中以全文形式獲得,ResearchGate是提供論文全文最多的來源,谷歌學術10.5%的全文文章來自該網(wǎng)站。由于不同學科領域的引文特點存在較大差異,跨學科的文獻計量學評估要求將數(shù)據(jù)按學科進行歸一化,以消除學科差異。Mingers J等測試了由Bo-rnmann等人開發(fā)的谷歌學術歸一化方法,發(fā)現(xiàn)期刊論文的歸一化結果與WOS數(shù)據(jù)相近,證明了對GS標準化是可能的。
Google Scholar經(jīng)常被用于與其他數(shù)據(jù)庫進行對比,比較的結果常常作為評價數(shù)據(jù)庫的重要依據(jù)。微軟學術(Microsoft Academic Search,MAS)近年來快速興起,引起了科學計量學家的關注。Harzing A等以“鳳凰”來比喻MAS,接連發(fā)表了3篇論文——《微軟學術搜索:鳳凰于灰燼中重生》《微軟學術:鳳凰長出翅膀了嗎?》《微軟學術1歲了:鳳凰準備好離開巢穴》來介紹MAS的優(yōu)勢,獲得了較高的社會關注度。他把MAS與當前3種最常使用的科學計量數(shù)據(jù)來源Google Scholar、WOS、Scopus進行了比較,發(fā)現(xiàn)MAS的收錄的Google Scholar文獻遠遠多于WOS和Sco-pus,而且MAS覆蓋了Google Scholar中的所有期刊論文和書籍;在人文學科,MA的引文覆蓋率也遠高于WOS和Scopus。
Harzing A等的結論在Hug的研究中也得到了進一步地印證,Hug發(fā)現(xiàn)在大多數(shù)研究領域(包括經(jīng)濟學/商業(yè)、計算機/信息科學和數(shù)學等領域),MAS的覆蓋范圍都更有利于科學計量分析。Hug S等還進一步探索了MA在文獻計量分析中的實際應用及優(yōu)勢,最后他預測MA即將成為文獻計量分析的重要數(shù)據(jù)來源。
3.2.2大學評價研究
這一研究領域由圖3中的“#1 university ad-ministrator”聚類中的文獻及其施引文獻構成。大學評價一直是科學計量學領域的熱點問題,這方面的研究前沿是對大學評價的數(shù)據(jù)來源進行拓展、對大學評價指標體系進行創(chuàng)新,以及對不同大學評價體系的評價。
Mingers J等拓展了大學評價的數(shù)據(jù)來源,他采用Google Scholar(GS)機構級數(shù)據(jù),構建了基于引文的指標體系,以相對自動的方式評估了英國130所大學研究的質量,并制定了大學排名,進而與其他大學排名體系結果進行了比較,證明了該方法的可行性。Tijssen R等進行了大學評價指標的創(chuàng)新,他批判了現(xiàn)有的幾種世界大學排名的有效性和適用性,并提出了一個基于校企合作共享出版物(UICs)指數(shù)的大學評價指標體系,以衡量大學的創(chuàng)新能力,并將評價結果與湯森路透2015年的大學創(chuàng)新力排名(RIU)進行了比較。
還有學者對世界大學評價體系進行了評價。Claassen C等使用貝葉斯模型綜合分析了上海軟科、QS、THE、Usnews等8種不同的世界大學排名結果,發(fā)現(xiàn)大學排名結果存在較大的誤差,排名前30位與前100位的大學很難進行區(qū)分,而且有3個世界大學排名體系都存在對本國大學的偏愛。Piro F等嘗試對不同世界大學排名的差異進行解釋,他比較了THE和上海軟科的世界大學排名,發(fā)現(xiàn)排名差異可能是由于不重要指標的微小變化,以及重要指標的重大變化所引起。
3.2.3學術生涯的影響因素研究
這一研究領域由圖3中的“#2 academic ca-reef”聚類中的文獻及其施引文獻構成。目前較受關注的學術生涯的影響因素包括基金資助、工作年限、科研合作及性別因素等。
Ebadi A等研究了科研產(chǎn)出的影響因素,發(fā)現(xiàn)獲得科研基金資助有助于提高學者科研成果的數(shù)量和質量.學者的科研產(chǎn)出也在一定程度上受到馬太效應的影響,從事科研工作的年限與科研成果生產(chǎn)力之間呈正相關。此外,他還發(fā)現(xiàn)年輕的研究人員在大型研究團隊中工作,更有可能取得高質量的研究成果。Cabanac G等研究了計算機科學領域中學者在其學術事業(yè)中的合作網(wǎng)絡,并探索了合作網(wǎng)絡在他們職業(yè)生涯中的發(fā)展。他發(fā)現(xiàn)了該領域大多數(shù)科研合作的短暫性——70%的合作者僅僅是一次性的合作伙伴,學者們通過兩種方式不斷擴展他們的合作范圍:一是招募科研事業(yè)剛起步的新科研工作者進行合作;二是加強與現(xiàn)有合作者的合作。
性別差異及其對研究事業(yè)的影響也受到很多學者關注。越來越多的研究表明,引文和h指數(shù)存在性別差異,Geraci L等分析了心理學領域h指數(shù)中的性別差異,并發(fā)現(xiàn)女性研究人員的h指數(shù)偏低可能會影響其收入。Besselaar P調(diào)查了男性和女性研究人員之間的績效差異,以及這種差異的變化情況。他發(fā)現(xiàn)在科研生涯的早期,男性和女性的科研績效相差很小,但10年后男性研究人員的生產(chǎn)力(論文數(shù)量)增長速度高于女性研究人員,其科研事業(yè)的發(fā)展速度遠遠超過女性研究人員。Krawczyk M研究了在論文引用中的性別錯誤問題,即將被引作者的性別弄錯的情況。他發(fā)現(xiàn)女性被引作者被誤認為是男性的次數(shù)遠遠多于男性,前者大約是后者的10倍。Abramo G等探索了科學家能維持其科研影響力的時間,發(fā)現(xiàn)1/3的頂尖科學家能在連續(xù)12年內(nèi)都保持其巨大的科研影響力,在生命科學領域尤其如此,不過這也與科學家的性別有關——女性科學家長期維持其科研影響力的可能性低于男性。
3.2.4“睡美人”現(xiàn)象研究
這一研究領域由圖3中的“#3 sleeping beauty”聚類中的文獻及其施引文獻構成。在科學計量學領域,“睡美人”文獻一般是指一個很長時間沒人注意的出版物,幾乎是突然被一個“王子”喚醒,吸引了大量的注意力,被引頻次急劇上升。隨著文獻引用中的“睡美人”現(xiàn)象日益受到學術界的關注,“睡美人”現(xiàn)象的產(chǎn)生原因、發(fā)生機制、識別方法逐漸被研究者們解決。目前進入到了應用階段,應用于對不同學科、不同期刊、不同主題下“睡美人”文獻的識別。
Ho Y等對“睡美人”現(xiàn)象的研究成效顯著,是這一領域2017年社會關注度最高的學者。他們應用自行研發(fā)的工具對303 255篇心理學論文進行檢測,發(fā)現(xiàn)了3篇睡美人文獻,但并未分析出這些文獻對當前研究的價值及其長期“沉睡”的原因。隨后,他們又確定了那些讓心理學家注意到3個“睡美人”的“王子”文獻,探索了基于計算機技術的睡美人及其王子文獻的探測方法。他們還在對第二次世界大戰(zhàn)中被高被引文獻的計量分析中,發(fā)現(xiàn)了5篇“睡美人”文獻。
另外,Teixeira A等對“創(chuàng)新研究(Innova-tion Studies)”主題下52 373篇論文中的睡美人現(xiàn)象進行了研究,發(fā)現(xiàn)這一領域的“睡美人”文獻數(shù)量較少(不到0.02%),睡眠時間從7年到17年不等,8篇“睡美人”文獻被發(fā)表在高知名度期刊上的37篇王子文獻喚醒。
3.2.5 Altmetrics研究
這一前沿領域由圖3中的“#4 social media”、“#5 altemative metrics”、“#7 twKter count”聚類中的文獻及其施引文獻構成。
Mtmetrics研究從關注對象到相關指標都在不斷地拓展。Peters Ⅰ等人將Mtmetrics的研究對象從論文擴展到科學數(shù)據(jù),以研究數(shù)據(jù)引文索引(DCI)和Altmetrics.com為數(shù)據(jù)來源,探索了研究數(shù)據(jù)的被引頻次和Altmetrics分值的相關性。他們的研發(fā)現(xiàn)某些數(shù)據(jù)類型(調(diào)查、匯總數(shù)據(jù)和序列數(shù)據(jù))更常被引用,并且也會得到較高的Altmet-rics分數(shù),但并未發(fā)現(xiàn)研究數(shù)據(jù)的引用次數(shù)和Alt-metrics總分數(shù)之間的相關性。
推特仍然是目前最受關注的Mmtrics指標,對該指標的研究從之前關注推特數(shù)量與論文被引頻次的相關性,深入到了推特的用戶特征、情感特征層面。Vainio J等人以在推特上被提及最多的論文為統(tǒng)計對象,分析了在推特上推薦學術論文的用戶特征。Liu X等研究了推特在論文評價中的應用,提出論文作者的推文不應計算在內(nèi),與論文內(nèi)容無關的推文也應排除在外,推文的情感特征(贊同、支持、驚訝等)也應在計數(shù)時考慮在內(nèi)。
論文在政策文件中的被引用次數(shù)作為一個新興Altmetrics指標也日益受到人們關注。Haunschild R等研究了Web of Science論文被政策相關文件提及的次數(shù),發(fā)現(xiàn)2000-2014年發(fā)表的論文中,僅有0.32%的論文至少被政策相關文件提到1次。因此,他們認為政策相關文件提及論文的次數(shù)不應作為Altmtrics指標來衡量論文的影響力,當更多的政策文件來源被作為數(shù)據(jù)分析來源后,這一指標可能才會成為衡量論文社會影響力的可靠途徑。但Vilkins S等人的研究結果更為樂觀,他們分析了2010-2017年澳大利亞8個政府部門80個政府出版物(包括報告、文件等),發(fā)現(xiàn)總計4649篇參考文獻中有1836篇論文來自同行評議的期刊.即在政策相關文件的參考文獻中,學術論文所占比例已接近40%。他們認為論文的開放獲取可能會增加論文被政策引用的可能性,后續(xù)的相關研究同樣依賴于政策文件的可獲得性。
4結語
本研究探索了Mltmetrics指標在論文影響力評價和研究熱點與前沿探測中的應用,發(fā)現(xiàn)Mende-ley、Twitter、Blog、Facebook是目前在論文中覆蓋率較高的指標,這些指標與被引頻次一起進行因子分析,可以較好地計算出論文的綜合影響力。本研究對《Scientometrics》的高影響力文獻進行科學知識圖譜分析,發(fā)現(xiàn)了學術搜索引擎研究、大學評價研究、學術生涯影響因素研究、“睡美人”現(xiàn)象研究、Mtmetrics研究等前沿研究領域及其研究進展。本研究表明基于被引頻次和Mltmetrics指標的因子分析可以更為全面、及時地對論文影響力進行綜合評價,評價結果可為研究熱點與前沿探測提供一種更合理的文獻篩選與過濾依據(jù)。在此基礎上采用共詞分析、文獻共被引聚類分析所得到的科學知識圖譜時效性更好,更能準確揭示特定期刊乃至學科領域的研究發(fā)展態(tài)勢。