王 倩,李天柱,劉小琴
(遼寧科技大學工商管理學院,遼寧 鞍山 114051)
全球大數據研究的歷史演進:1993—2016年
王 倩,李天柱,劉小琴
(遼寧科技大學工商管理學院,遼寧 鞍山 114051)
運用CiteSpace軟件對WOS中的3296篇論文進行全樣本分析,發(fā)現全球大數據研究分為探索期、增長期和爆發(fā)期,具有覆蓋學科領域廣泛、生命科學大數據研究活躍及人文社會科學大數據研究與科學和技術學科大數據研究同步發(fā)展等特征,美國和中國在大數據研究中貢獻突出。全球大數據研究形成“理論萌芽階段-技術探索階段-實踐應用階段”的演進路徑,未來大數據研究會從理論研究向產業(yè)化研究轉變,相關研究會更加注重解決實際問題。
大數據;CiteSpace;研究熱點與研究前沿;演進路徑;趨勢預測
大數據對經濟社會的深刻影響與巨大價值已經得到全球關注[1],圍繞大數據的研究成為各個學科領域的熱點,相關文獻激增。但是,大數據研究在時間和空間(包括學科領域和研究力量)上如何分布,研究熱點和研究前沿如何變化,是否遵循特定的演進路徑,學術界對于這些問題仍缺乏相應的研究,而這些問題對于大數據的技術預見,以及企業(yè)、研究機構的研發(fā)決策、戰(zhàn)略規(guī)劃乃至政府政策制定等都具有參考價值。本文運用歷史研究的思路回溯大數據領域的相關文獻,通過對文獻進行計量對上述問題進行回答。
具體而言,運用文獻計量學中的可視化研究方法,以“big data”為檢索主題進行精確檢索,從Web of Science數據庫(包括SCI-E、SSCI、CPCI-S和CPCI-SSH四個子庫)中獲取文獻數據,檢索的時間跨度為所有年份,文獻類型選擇“article”,下載數據方式為“全記錄與引用的參考文獻”,數據格式選擇“純文本”,檢索時間為2016年9月19日。最終得到有關大數據的論文題錄信息共3296條,檢索發(fā)現最早的一篇大數據論文發(fā)表于1993年,而數據庫實時更新導致2016年的數據仍不完整,但2016年已有的文獻數據對研究主題仍有重要作用,因此將2016年列入數據來源,本文的研究時間跨度也因此被確定為1993—2016年。對文獻數據的計量采用CiteSpace軟件,該軟件主要用于科學文獻數據計量和分析、識別及顯示特定學科或知識領域在一定時期內發(fā)展的動向和趨勢,可探測和分析某個領域研究前沿的變化趨勢及研究前沿與其知識基礎之間、不同研究前沿之間的相互關系[2],發(fā)現前沿領域的演進歷程[3],適合本文的研究主題和研究目的。
1.1 時間和學科領域分布
按照時間序列對檢索得到的3296篇論文進行分析,可以將全球大數據研究的歷史演進劃分為3個主要階段:第一階段為1993—2010年,大數據論文發(fā)文量共19篇,對大數據研究處于探索期;第二階段為2010—2013年,大數據論文發(fā)文量共325篇,對大數據研究進入增長期;第三階段為2013—2016年,大數據論文發(fā)文量共2952篇,對大數據研究進入爆發(fā)期,其中2015年的發(fā)文量達到1288篇,2016年前8個月的發(fā)文量就高達993篇,這與社會各界對大數據的熱烈反應是高度一致的。進一步觀察發(fā)現,全球大數據研究具有如下特征:①覆蓋領域廣泛,不僅包括計算機科學、工程學、物理、數學、生物學、化學等科學和技術學科,也包括經濟、管理、科學學、情報等社會科學,共涉及89個學科(排名前25位的學科如圖1所示)。其中計算機科學對大數據研究的貢獻最大,共發(fā)表論文1334篇,占全部論文比例近一半。其次是工程學,共發(fā)表論文609篇;②大數據研究在生命科學中具有廣泛應用和關鍵地位,發(fā)文量前25位的學科領域中出現了計算生物學、生物化學和分子生物學、生物技術與應用微生物學、神經科學、醫(yī)療信息學等多個與生命科學密切相關的學科。但最早提出大數據理念的天體物理等學科[4],對大數據研究的貢獻卻不是很顯著;③近年來經濟學、科學學、情報學與管理學等人文社會科學對大數據研究的貢獻迅速提高,幾乎與科學和技術學科同步發(fā)展。
圖1 大數據研究排名前25位的學科
1.2 研究力量分布
(1)國家分布。大數據研究論文發(fā)文量處于前10位的國家如圖2所示。美國在大數據研究中占據絕對優(yōu)勢,共發(fā)表論文1406篇,占全部論文發(fā)文量的42.64%。其次是中國,共發(fā)表論文753篇,占全部論文發(fā)文量的22.85%。處于第三到第五位的分別是英國、澳大利亞和德國。同時,大數據研究力量排名前10位的國家其發(fā)文量變化情況與圖1中大數據論文的整體增長趨勢高度吻合(見圖3)。
圖2 大數據研究處于前10位的國家
圖3 論文發(fā)文量前10位的國家增長趨勢
(2)期刊分布。大數據論文發(fā)文量排在前10位的期刊如表1所示。排名第一位的是醫(yī)學期刊PLOS ONE,發(fā)表的大數據論文共59篇,說明醫(yī)學健康領域對大數據研究高度重視。排名第二的是大數據???,發(fā)表論文數49篇。排名前十的期刊中有8個期刊與計算機研究有關,反映出計算機科學是大數據研究的基礎。
(3)機構分布。大數據研究處于前10位研究機構見表2。中國科學院發(fā)文量位居全球第一位,共發(fā)表100篇,占全球發(fā)文總量的2.86%,是前十名中唯一的科研院所。從所屬國家來看,美國和中國的研究力量最強,排名前十的研究機構中有八所美國大學上榜,中國科學院和清華大學則占據了前兩名。
表1 論文發(fā)文數量前10名的期刊
表2 論文發(fā)文數量前10名的研究機構
2.1 研究熱點
(1)研究熱點識別。關鍵詞是作者對文章核心內容的精煉與概括,如某一關鍵詞在其領域內反復出現(即高頻關鍵詞),則可通過該關鍵詞所表征的主題反映出當前的研究熱點[5]。在CiteSpace軟件界面上選擇時間跨度為1993—2016年,時間區(qū)間為1年,節(jié)點類型選擇“Keyword”,主題詞選擇“None Phrases”,抽取數據對象為Top30,算法選擇為None,視圖方式選擇聚類視圖(cluster views),用title terms對各個聚類進行標簽,共得到27個聚類,如圖4所示。
圖4 關鍵詞聚類標簽視圖
對大數據研究文獻的關鍵詞進行合并去重處理,得到被引頻次最高的前20個關鍵詞,如表3所示。從關鍵詞聚類分析發(fā)現,在技術方面,大數據分析、云計算、機器學習、mapreduce、hadoop等技術模型是當前的研究熱點;在應用方面,大數據被廣泛用在人口社會科學、生物醫(yī)學、生態(tài)系統、生物基因等領域。本文著重分析排名前10的聚類。
表3 熱點關鍵詞統計表
①聚類0:big data(大數據)。包括big data analytics(大數據分析)、social media(社會媒體)等45個關鍵詞,主要集中在大數據的分析、社會媒體應用等方面。②聚類1:temporal lobe(顳葉,醫(yī)學術語)。包括data compression(大數據存儲)、high frequency oscillation(高頻震蕩)等17個關鍵詞,主要集中在大數據存儲、高頻震蕩學習等方面。③聚類2:dbgap database(數據庫)。包括population science(人口科學)、team science(團隊科學)等12個關鍵詞,主要聚焦在人口科學、團隊科學等方面。④聚類3:virtual screening(虛擬篩選)。包括co-screen(共同篩選)、qsar model(定量構效關系模型)等11個關鍵詞,主要側重篩選編碼RNA、定量構效關系模型等方面。⑤聚類4:communication study(通信研究)。包括critical question(關鍵問題)、presidential adder(總統加法器)等10個關鍵詞,側重關鍵問題及總統加法器方面。⑥聚類5:international geophysical year(國家地球物理年)。包括big science(大科學)、internationalbiological program(國際生物學計劃)等10個關鍵詞,集中在數據管理、生態(tài)系統、人類基因組等方面。⑦聚類6:application architecture(應用程序體系結構)。包括componentsof architecture(體系結構組成)、decision support(決策支持)等9個關鍵詞,主要集中在數據挖掘應用架構、數據挖掘方法等方面。⑧聚類7:radio channel(無線信道)。包括fdd mode(FDD模式)、robust non(非)等8個關鍵詞,主要應用在移動無線通信、無線信道方面。⑨聚類8:molecular population genetics(分子群體遺傳學)。包括dna polymorphism analyze(DNA多態(tài)性分析)、natural selection(自然選擇)等7個關鍵詞,側重于生物科學研究。⑩聚類9:social system(社會系統)。包括human factor(人為因素)、spatiotemporal correlation(時空相關性)等7個關鍵詞,主要應用于社會科學、經濟學領域。
(2)研究熱點演進。為明確大數據研究熱點隨時間變化的情況,在聚類視圖的基礎上,視圖方式選擇時區(qū)視圖(time-zone views),生成關鍵詞聚類時區(qū)視圖,發(fā)現全球大數據研究熱點的演進明顯分為三個階段:
①數據處理研究(1993—2008年)。該階段的熱點主要是云計算、大數據分析、hadoop、mapreduce、模型等技術,尤其是hadoop、mapreduce帶來的并行式和分布式算法,為更高效率的管理和處理海量數據帶來了可能,同時云計算模式為大數據提供了存儲空間和計算能力,是大數據處理技術基礎形成的階段。②數據挖掘研究(2008—2011年)。該階段的熱點主要是云計算、社交網絡、社交媒體、數據分析、數據挖掘等。社交媒體、社交網絡的普及產生了海量數據,而沉睡的數據只是一堆低價值密度的垃圾,通過數據挖掘才能發(fā)現和創(chuàng)造其潛在的價值[6]。③數據應用研究(2011—2016年)。該階段的熱點主要是大數據應用、數據分析、機器學習等。與傳統數據分析相比,大數據分析的核心是從類型多樣、動態(tài)產生的海量數據中挖掘信息和提取知識并付諸應用,從而創(chuàng)造價值,成為當前大數據研究的重點。
2.2 研究前沿
突現詞(burst terms)能準確反映某個領域的研究前沿,適合探測某個新興領域的趨勢和突然變化[7]。在CiteSpace軟件界面上,選擇主題詞類型burst terms,gamma值設為0.2,視圖方式選擇時區(qū)視圖(time-zone views),其他參數設置不變,運行軟件,生成突現詞時區(qū)視圖(見圖5),從中得到全球大數據研究前沿的演變過程。
圖5 突現詞時區(qū)視圖
①第一階段(2008年以前)。data mining(數據挖掘)、application architecture(應用程序體系結構)、components of architecture(建筑構件)、application(應用)、anomaly(異常)、data analysis(數據分析)、adaptive optics(自適應光學)、differential reduction(微分還原)、analytic signal(解析信號)這9個關鍵詞的突變率較高,說明數據挖掘、數據分析、應用程序體系結構等時該階段的研究前沿。②第二階段(2008—2011年)。data compression(數據壓縮)、cyclic redundancy code(循環(huán)冗雜碼)、data encryption(數據加密)、eeg(腦電圖)、development planning(發(fā)展規(guī)劃)這5個關鍵詞的突變率較高,表明與大數據有關的數據壓縮、數據加密、循環(huán)冗雜碼的處理成為此階段的研究前沿。③第三階段(2011—2016年)。bigdata(大數據)、performance(行為)、mapreduce(分布式計算)、network(網絡)、algorithm(算法)、model(模型)等7個關鍵詞的突變率最高,尤其performance(行為)是突變率最高的關鍵詞,說明近年來大數據行為管理研究得到了高度重視,可能是未來幾年的研究前沿。
一個研究領域的知識基礎會隨時間的變化而演進,演進過程中必然產生導致研究演進的關鍵節(jié)點文獻,探測研究演進中的關鍵節(jié)點文獻,可發(fā)現該領域核心理論的演進路徑[8]。關鍵節(jié)點文獻一般指中心度或共被引頻次較高的文獻,表示文獻作者對某個領域的研究主題、方法有著重要新理論或重大理論創(chuàng)新[9]。在CiteSpace軟件中節(jié)點類型選擇“Cited Reference”,其他參數設置不變,視圖方式選為時區(qū)視圖(time-zone views),得到大數據研究文獻共被引時區(qū)視圖,圖譜中共生成252個節(jié)點,591條連線(見圖6)。從圖6中選取共引頻次較高的10篇大數據關鍵節(jié)點文獻,如表4所示。
圖6 研究文獻共被引時區(qū)視圖
序號共引頻次發(fā)表年份關鍵節(jié)點文獻12132008MapReduce:simplifieddataprocessingonlargeclusters2532008Bigdata:Thefutureofbiocuration3492009Hadoop:TheDefinitiveGuide4482009Detectinginfluenzaepidemicsusingsearchenginequerydata5562009Lifeinthenetwork:thecomingageofcomputationalsocialscience6992011Bigdata:Thenextfrontierforinnovation,competition,andproductivity71042012Criticalquestionsforbigdata:Provocationforacultural,technological,andscholarlyphenomenon8702012BusinessIntelligenceandAnalytics:Frombigdatatobigimpact91082013BigData:ARevolutionThatWillTransformHowWeLive,WorkandThink10542014TheparableofGoogleFlu:trapsinbigdataanalysis
通過對關鍵節(jié)點文獻的分析,可將全球大數據研究的演進路徑歸納如下:
①理論萌芽階段(1993—2008年)。此階段大數據的理論基礎較為缺乏,學術界研究的主要問題是大數據的核心技術和應用前景。如2008年Google公司的Dean發(fā)表了一篇關于MapReduce算法的論文,該文的共引頻次高達312次。2008年Howe在Nature大數據??习l(fā)表的論文提出“生物文獻數據結構化”概念,將非結構化數據轉化為結構化數據,提高生物大數據信息的獲取率和利用率。②技術探索階段(2009—2011年)。此階段隨著對大數據核心技術的深入探索,加入大數據研究的學者和機構不斷增加,研究重點逐漸從技術層面向應用層面擴展。如2009年White介紹了開源分布式架構Hadoop的核心算法,它能夠對大量數據進行分布式處理并構建一種可靠、高效、可伸縮的計算系統。2009年Ginsberg在Nature上發(fā)表論文,采用大數據搜索引擎查詢數據并對流行性流感活動進行檢測。2009年Lazer揭示了在社會科學基礎上大數據的潛在價值及在未來發(fā)展中的障礙。2011年全球麥肯錫研究院(MGI)發(fā)布研究報告Big data:The next frontier for innovation,competition,and productivity,從商業(yè)和經濟角度揭示大數據發(fā)展的現狀和潛力,并為生物醫(yī)療、政府管理部門、銷售行業(yè)、制造行業(yè)和地理信息科學等應用領域提出了應對大數據時代的策略。③實踐應用階段(2012—2016年)。此階段全球大數據研究的重點主要是大數據理念、云計算,及大數據在社會管理、信息管理的應用等,呈現出研究和應用相互交融的態(tài)勢。如2012年Boyd在Information,communication&society上發(fā)表論文,從文化、科技、學術、分析及預測六個方面,對大數據領域的未來發(fā)展進行深入探索。2012年Chen在MIS QUARTERLY上發(fā)表Business Intelligence and Analytics:From big data to big impact的論文,為商務智能分析領域從業(yè)者和研究人員提供了解決數據相關問題的框架,并基于Web 2.0對商務智能分析的演進、應用和新興的研究領域進行大數據分析。2013年,Viktor在Big Data:A Revolution That Will Transform How We Live,Work and Think中提出大數據時代的思維變革、商業(yè)變革和管理變革,并明確指出大數據時代的最大轉變是由相關關系取代因果關系。2014年Lazer在Science上發(fā)表論文提出對于大數據的研究不應只專注于“大數據革命”,還應專注于所有數據革命。
本文運用科學計量學理論,借助CiteSpace軟件對WOS中收錄的大數據研究論文進行分析,得到如下結論:①全球大數據研究可以劃分為探索期、增長期和爆發(fā)期三個主要階段,并形成研究覆蓋領域廣泛、生命科學相關的大數據研究活躍,以及人文社會科學的大數據研究與科學和技術學科的大數據研究同步發(fā)展等特征;②美國和中國在全球大數據研究力量中占據優(yōu)勢,PLOS ONE、大數據??葘W術期刊是全球大數據研究的主要陣地,而中國科學院在全球大數據研究機構中位居第一位;③全球大數據研究的熱點明顯形成了“大數據處理技術-大數據挖掘技術-大數據應用實踐”的演進路徑,研究前沿則集中在數據挖掘、系統模型的構建及數據管理方面,從大數據的理論層面向應用層面轉變將是未來大數據研究的主要趨勢;④全球大數據研究具有較為明確的演進路徑,經歷了“理論萌芽階段-技術探索階段-實踐應用階段”的過程,未來大數據研究會從理論研究向產業(yè)化研究轉變,對大數據的相關研究會更加注重解決實際問題。
[1]Mckinsey Global Institude.Big data:the next frontier for innovation,competition and productivity[R].May,2011.
[2]CHAOMEI C.Searching for intellectual turning points:progressive knowledge domain visualization[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(Suppl.1):5303-5310.
[3]CHEN C.CiteSpaceⅡ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American society for information science and technology,2005,57(3):359-377.
[4]維克托·邁爾—舍恩伯格,肯尼思·庫克耶.大數據時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
[5]趙蓉英,許麗敏.文獻計量學發(fā)展演進與研究前沿的知識圖譜探析[J].中國圖書館學報,2010,36(5):60-68.
[6]李天柱,馬佳,呂健露,侯錫林.大數據價值孵化機制研究[J].科學學研究,2016,34(3):321-329.
[7]陳超美.CiteSpaceⅡ:科學文獻中新趨勢與新動態(tài)的識別與可視化[J].陳悅,等譯.情報學報,2009,28(3):401-421.
[8]劉則淵,等.科學知識圖譜:方法與應用[M].北京:人民出版社,2008.
[9]MOED HF.Citation analysis in research evolution[M].Dordrecht:Springer,2005.
(責任編輯 劉傳忠)
更正說明
本刊于2017年第5期刊登的文章《物聯網產業(yè)開放式創(chuàng)新的跨組織知識流動》中,課題基金號應為:國家自然科學基金面上項目(71672095),南開大學亞洲研究中心資助課題(AS1519)。
特此更正。
《中國科技論壇》編輯部
Historic Evolution of Global Big Data Research:1993—2016
Wang Qian,Li Tianzhu,Liu Xiaoqin
(School of Business Administration,University of Science and Technology Liaoning,Anshan 114051,China)
This paper carried out the whole sample analysis of 3296 papers from the Web of Science by CiteSpace.It found that the research history of the global big data was divided into exploration period,increase period and eruptive period.The researches showed the characteristics such as a wide range of covering subjects,animate big data research of life science,the simultaneous development of big data research on humanities and social sciences and science and technology.The US and China contributed prominently in the big data research.The global data research formed the evolving path of“the theory embryonic stage—the technology exploratory stage—the practical application stage”.And it would change from theory to industry in the future and be paid more attention to solve practical problems.
Big data;CiteSpace;Research hotspots and research frontiers;Evolution path;Trend prediction
國家自然科學基金項目(71372121、71472080),遼寧省自然科學基金項目(2015020067),遼寧省社會科學規(guī)劃基金項目(L15BGL004),遼寧省教育廳科技項目(2016TSZD05)。
2016-10-31 作者簡介:王倩(1992-),女,遼寧鞍山人。遼寧科技大學工商管理學院碩士研究生;研究方向:新興技術管理。
F062.3
A