趙清俊皮進修彭建文陳桂蘭
作者簡介:趙清俊(1977-),男,四川宜賓人,博士,副教授,碩士生導師,研究方向:科學計量學,技術(shù)創(chuàng)新與管理。
摘要:本文從在中觀層面上對大數(shù)據(jù)領域的科研產(chǎn)出進行科學計量分析。對大數(shù)據(jù)科學研究的宏觀層面產(chǎn)出與分布進行分析,為更進一步了解大數(shù)據(jù)科學研究的重要機構(gòu),方便科研人員或者企事業(yè)單位快速定位全球范圍內(nèi)或者某國家范圍內(nèi)具有重要研究能力的研究機構(gòu)并開展合作、技術(shù)引進和投資等活動。
關鍵詞:大數(shù)據(jù);合著;科研產(chǎn)出
1.引言
科學知識的產(chǎn)出和分布是了解全球關于這一科學領域的研究實力的重要指標,其已經(jīng)成為對某一學科領域主題進行科學計量分析的重要組成部分。不少學者通過科學知識的產(chǎn)出與分布進行研究,取得了眾多顯著的成果。比如:著名的布拉福德定律的提出者Bradford通過對期刊的產(chǎn)出情況進行分析,發(fā)現(xiàn)了文獻的分布規(guī)律;在國內(nèi),李杰等通過分析31種SCI收錄的聲學期刊,統(tǒng)計分析了國際聲學研究的產(chǎn)出與分布提點。因此筆者在參考學者分析方法的基礎上,針對大數(shù)據(jù)科學知識的產(chǎn)出與分布進行探索,從論文與會議報告的角度嘗試挖掘出大數(shù)據(jù)科學知識的時間、空間分布的特點。
2.論文產(chǎn)出與分布
在2012年以前ARTICLE(論文)和PROCEEDINGS PAPER(報告)的文獻資料都相對很少,而且2003-2011年的文獻基本上處于個位數(shù),沒有明顯的增長規(guī)律。到了2012年以后呈現(xiàn)出爆發(fā)式的增長,尤其是ARTICLE(論文)2012年,2013年,2014年的文獻量幾乎是前一年的3倍。雖然PROCEEDINGS PAPER(報告)在2012年開始同樣具有出令人驚訝的增長量,但在2013年,2014年其文獻量大致相當,并且到2015年度可檢索的只有328篇,遠遠小于同期ARTICLE(論文)的數(shù)量,這間接說明就大數(shù)據(jù)科學的發(fā)展所舉辦的學術(shù)交流活動的次數(shù)呈現(xiàn)出穩(wěn)定的變化趨勢。為了更加具體的展現(xiàn)這兩種文獻資料的增長情況,筆者借助指數(shù)模型對他們的論文數(shù)量進行擬合,探究他們的增長趨勢。
從圖1中我們可以看出ARTICLE(論文)呈現(xiàn)出指數(shù)形式的增長趨勢(y=0.318e1.055x,R2=0.975),這在一定程度上說明對于大數(shù)據(jù)科學的研究處于持續(xù)高漲階段。普萊斯的理論對此解釋道:“學科系統(tǒng)的‘指數(shù)輸入(比如資金、人力資源投入等)是科學成果‘指數(shù)輸出的原因”,不少學者也對此類現(xiàn)象做出了解釋,他們認為學科處于誕生和發(fā)展階段,科學成果常常會呈現(xiàn)出指數(shù)形式的增長方式,但隨著科學研究的不斷進展,學科逐漸具有成熟的理論,此時學科的成果數(shù)量將增長緩慢,或者出現(xiàn)負增長。通過比較相同顏色的曲線,我們大致可以發(fā)現(xiàn)ARTICLE-TGCS=3*ARTICLE-Recs,ARTICLE-TGCS=5*ARTICLE-TLCS;PAPER-TGCS=3*PAPER-TLCS。
3.國家/地區(qū)的產(chǎn)出與分布
對大數(shù)據(jù)科學文獻資料的作者國籍進行統(tǒng)計分析,ARTICLE與PROCEEDINGS PAPER總共4140篇,涉及到的國家總共有84個,并分三個層次(總體情況,ARTICLE和PROCEEDINGS PAPER)六個指標(文獻數(shù)量、文獻數(shù)量百分比、TLCS、TGCS、H指數(shù)-LCS與H指數(shù)-GCS)進行統(tǒng)計分析,獲取了發(fā)文量總數(shù)排名前二十的國家,并通過Histcite軟件計算出這前二十個國家在三個層次上H指數(shù)①。從對大數(shù)據(jù)研究所涉及的國家以及文獻產(chǎn)出統(tǒng)計來看,大數(shù)據(jù)科學已經(jīng)受到了廣泛的關注。無疑前排名前十的國家是大數(shù)據(jù)科學研究最活躍取得成果最顯著的地區(qū),他們是美國(USA)、中國(Peoples R China)、英國(UK)、德國(Germany)、澳大利亞(Australia)、加拿大(Canada)、日本(Japan)、印度(India)、韓國(South Korea)、意大利(Italy)。參考以往學者的研究,我們不難發(fā)現(xiàn)美國和歐洲地區(qū)是目前大數(shù)據(jù)科學研究的核心地帶。
現(xiàn)在我們進一步分析,在進行分析前筆者發(fā)現(xiàn)文獻中存在少部分的科研成果涉及兩個或者兩個以上的國家,如果單純地將文獻的著作地歸屬于某一個國家,這顯然對其他國家不公平,而且從另一個角度講合著的各方均參與了研究,我們假設他們的研究信息對合著者是完全彼此公開的,這就不難得出文獻所蘊含的知識與技術(shù)在合著者國家間的掌握程度是彼此相當?shù)?,因此我們認為這樣的情況使得各個合著國的文獻量均為一篇,但這也會帶來一個負面效果即會使得總的文獻量虛增,但相比于更加真實的反應各個國家間的差距,筆者認為這樣的影響是可以忽略的。美國以發(fā)文量1417(占比28.8%),H-GCS為21位居榜首,另外在前五名中其他四個國家,中國(891,18.1%,10)、英國(265,5.4%,10)、德國(210,4.3%,10)和澳大利亞(182,3.7%,9)。我們不難發(fā)現(xiàn)中國無論是發(fā)文總量還是H指數(shù)均遠低于美國,但僅從發(fā)文數(shù)量上來看中國卻比其他國家更站優(yōu)勢,不過我們同樣也發(fā)現(xiàn)中國文獻的H指數(shù)與其他四個國家基本無差異,這也進一步證實了我國的論文數(shù)量充足但質(zhì)量上還有待進一步提高。
4.結(jié)語
對大數(shù)據(jù)科學研究論文數(shù)量排名前30的國家進行發(fā)文數(shù)量統(tǒng)計分析,這些國家前10位的發(fā)文數(shù)量就占據(jù)了全部發(fā)文數(shù)量的72.371%,到前20位時達到88.626%,到前30位時達到93.874%(如圖2所示),這反應大數(shù)據(jù)科學在世界各國間的研究產(chǎn)出存在很大的不平衡性,存在明顯的馬太效應,也就是說大數(shù)據(jù)科學的研究成果和技術(shù)掌握在少數(shù)國家間。(作者單位:1.重慶師范大學經(jīng)濟與管理學院;2.重慶師范大學數(shù)學學院;3.重慶師范大學教務處)
基金項目:重慶市社會科學規(guī)劃博士項目(No:2014BS097);大數(shù)據(jù)領域的創(chuàng)新績效的測度與知識演化研究;重慶師范大學基金項目(No:14XWB016):基于社會網(wǎng)絡分析的大數(shù)據(jù)領域成長路徑辨識與產(chǎn)業(yè)發(fā)展對策研究;中國博士后科學基金一等資助項目(No:2015M57016):大數(shù)據(jù)領域的復雜創(chuàng)新網(wǎng)絡研究;重慶市教委科學技術(shù)研究項目(No.KJ1500334):復雜創(chuàng)新網(wǎng)絡視角下的大數(shù)據(jù)領域成長戰(zhàn)略、創(chuàng)新機制、發(fā)展動力研究;重慶市社會科學規(guī)劃項目(No:2015YBGL113)“一帶一路”背景下重慶市的創(chuàng)新驅(qū)動路徑分析與對策研究—以大數(shù)據(jù)領域為例和重慶文理學院科研項目(No:Z2013SC09)資助。
注解:
①H指數(shù)最早由美國加利福尼亞大學教授J.E.Hirsch教授提出用于進行科學成果評價指標,具體含義是在一定時間內(nèi)發(fā)表的論文至少有H篇被引用的次數(shù)不低于H次的科研評估指標,在本處筆者將分兩個環(huán)境來計量,其一就是本地下載的文獻,其二是WoS數(shù)據(jù)庫文獻分別獲得H指數(shù)-LCS與H指數(shù)-GCS.
參考文獻:
[1]李杰.安全科學知識圖譜導論[M].北京:化學工業(yè)出版社,2015.7:54.