詹 川
目前人類社會已進入大數(shù)據(jù)時代?!按髷?shù)據(jù)”這一術語最早可追溯到Apache org的開源項目Nutch,當時大數(shù)據(jù)用來描述為實現(xiàn)網(wǎng)絡搜索索引更新,同時進行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce、Google File System(GFS)的發(fā)布,大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù),還涵蓋處理數(shù)據(jù)的速度。業(yè)界用Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)來描述大數(shù)據(jù)的特征。大數(shù)據(jù)引起政府、企業(yè)界和學術界的極大關注。2012年3月奧巴馬宣布美國啟動“大數(shù)據(jù)研究和發(fā)展計劃”。中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓在第十屆國家信息化專家論壇上建議盡早啟動大數(shù)據(jù)國家戰(zhàn)略。國際上Google、Facebook、IBM、EMC等IT企業(yè)部署大數(shù)據(jù)領域,國內(nèi)的百度、阿里巴巴、騰訊等IT巨頭積極跟進。在學術界,Nature 在2008年推出大數(shù)據(jù)???,Science 在2011年2月推出Dealing with Data專刊,現(xiàn)在大數(shù)據(jù)成為國際學術界研究熱點。本文旨在分析全球大數(shù)據(jù)理論研究現(xiàn)狀,提供大數(shù)據(jù)研究圖譜,分析大數(shù)據(jù)主要研究領域和研究熱點。
筆者選用WoS數(shù)據(jù)庫,即SCI索引的Web版本。SCI是公認的世界上最權威的科學技術文獻索引工具,收錄了科技領域最重要、最新的研究成果。SCI引文檢索體系在全球獨一無二,不僅可從文獻引證角度評估文章的學術價值,還可迅速方便地組建研究課題的參考文獻網(wǎng)絡。因此,選用WoS作為檢索大數(shù)據(jù)研究成果的數(shù)據(jù)源,能確保所獲數(shù)據(jù)的全面性和權威性。
檢索設置條件見表1。由于難以確認大數(shù)據(jù)研究的正式起源時間,因此檢索時段的設置沒有時間限制,以便能從文獻數(shù)量角度觀察大數(shù)據(jù)研究規(guī)律。文件類型選擇會議論文(Proceedings Paper)、期刊文章(Article)和評論(Review),前兩種是發(fā)表學術研究成果的最主要方式;“Review”類型的文章雖然數(shù)量不多,共49篇,但被大量引用,對大數(shù)據(jù)研究有較大影響。檢索時間是2014年8月20日,獲得主題為“big data”的文獻1311篇。
表1 檢索設置
采用文獻計量和科學知識圖譜相結合的方式對大數(shù)據(jù)研究文獻進行分析。選擇的知識圖譜分析軟件是CiteSpace[1]。
主題為“big data”的1311篇中,最早的文獻出現(xiàn)在1999年,有1篇;2000年沒有。2001-2008年,每年論文數(shù)量為幾篇,屬于大數(shù)據(jù)研究萌芽階段。2008年Nature 出版專刊Big data,討論互聯(lián)網(wǎng)技術、網(wǎng)絡經(jīng)濟學、超級計算、環(huán)境科學、生物醫(yī)學等多方面大數(shù)據(jù)帶來的挑戰(zhàn),對大數(shù)據(jù)研究影響深遠。2009-2011年,大數(shù)據(jù)研究處于早期發(fā)展階段,每年發(fā)表數(shù)量保持在10來篇左右。2011年Science 推出Dealing with data 專刊,討論數(shù)據(jù)洪流帶來的問題,推動大數(shù)據(jù)研究快速發(fā)展。2012年大數(shù)據(jù)的技術優(yōu)勢被廣泛認可,越來越多的互聯(lián)網(wǎng)企業(yè)應用大數(shù)據(jù)技術來構建平臺的數(shù)據(jù)處理架構,大數(shù)據(jù)論文數(shù)量飆升到196篇。2013年大數(shù)據(jù)得到進一步普及,很多國家把大數(shù)據(jù)產(chǎn)業(yè)上升到戰(zhàn)略高度,關于大數(shù)據(jù)的研究文獻上升到755篇,占總數(shù)的57.79%。從文獻數(shù)量看,2012年至今,大數(shù)據(jù)文獻迅速增加,形成研究熱潮。
表2 大數(shù)據(jù)研究文獻時間分布統(tǒng)計
大數(shù)據(jù)論文數(shù)量排在前十位的期刊或會議見表3,其中8個是國際會議,說明專題會議是發(fā)表大數(shù)據(jù)研究成果的主要途徑。排名第一和第五的是IEEE的大數(shù)據(jù)專題會議,刊發(fā)大量的大數(shù)據(jù)論文,特別是排在第一位的2013 IEEE International Conference on Big Data刊文111篇,占總數(shù)的8.47%。醫(yī)學健康領域?qū)n}會議,如第三和第四位關于E-健康的國際會議,以及第八位醫(yī)學領域?qū)I(yè)期刊PLOS ONE,發(fā)表的大數(shù)據(jù)論文也較多,說明醫(yī)學健康領域?qū)Υ髷?shù)據(jù)的應用研究很重視。第十位是唯一一個計算機類期刊,共發(fā)表14篇,占總數(shù)的1.07%。
表3 刊發(fā)大數(shù)據(jù)文獻數(shù)量排前十的期刊/會議
發(fā)表論文數(shù)量排名前十的國家見表4。美國共發(fā)表489篇,占37.30%,表明美國在大數(shù)據(jù)研究上占主導地位。中國共發(fā)表241篇,說明中國在大數(shù)據(jù)研究方面成果較豐碩。從地理分布看,大數(shù)據(jù)研究主要集中在北美、東亞和歐洲。
表4 論文發(fā)表數(shù)量前十的國家和地區(qū)
論文發(fā)表數(shù)量排在前十位的機構見表5。中國科學院排第一,共發(fā)表30篇,占總數(shù)的2.29%,是前十中唯一的科研院所,其余都是大學。排名前十的機構從所屬國家看,美國最多,有七家美國知名大學;然后是中國,有兩家,分別是中國科學院和清華大學。
表5 論文發(fā)表數(shù)量前十的機構
普賴斯最早提出“研究前沿”的概念,用來描述研究領域的動態(tài)本質(zhì)。他認為某個領域的研究前沿由科學家積極引用的文章所體現(xiàn)。2009年陳超美把研究前沿定義為一組突現(xiàn)的動態(tài)概念和潛在的研究問題,而研究前沿的知識基礎則是它在科學文獻中的引文和共引軌跡[2],即由引用研究前沿術語的科學文獻所形成的演化網(wǎng)絡。
為進一步研究大數(shù)據(jù)研究的前沿領域,筆者把從WoS獲得1311篇文獻作為數(shù)據(jù)源導入CiteSpace,參數(shù)“Time Slicing”設置為1999-2014,“Per Slice”為1,“Node Types”選擇Cited Reference,進行共被引文獻分析。文獻需經(jīng)過聚類處理,聚類效果的好壞可從Modularity Q和Mean Silhouette的大小來衡量。Modularity Q值越大,越接近1,表示類群之間的耦合越小,劃分清晰;Mean Silhouette值越大,越接近1,說明類群內(nèi)部節(jié)點之間的同質(zhì)性越高。經(jīng)過多次測試,當“Top Nper slice”方式數(shù)量設為50,剪枝方式“Pruning”同時復選“Pathfinder”和“Pruning the merged network”兩種方式時,得到的聚類具有較高Modularity Q和Mean Sil houette值,分別為0.9542和0.8068。這兩個值都相當高,說明在此參數(shù)設置下,聚類效果俱佳。最終形成合并的共被引文獻網(wǎng)絡圖共有538個節(jié)點,1705個連線,聚類后得到68個聚類群。采用“keyw ord”+“tf*idf”方式獲取聚類標識,共標識出35個類,其中4個標識語為空,具體每個類標識見表6。表6從大到小列出每個聚類標號、擁有的節(jié)點數(shù)量及對應標識特征詞,這些特征詞代表大數(shù)據(jù)研究前沿領域。進一步對共被引文獻網(wǎng)絡圖進行“Citation Burst”處理,然后轉換成“Timeline View”得到圖1,更加直觀地顯示各個類的研究歷史和相互引用關系。共被引文獻網(wǎng)絡圖中引用文獻節(jié)點間相互引用關系構成大數(shù)據(jù)的知識基礎。表7列出排名前十的高被引文獻,它們是大數(shù)據(jù)研究知識基礎的重要代表,對大數(shù)據(jù)研究影響深遠。
表6 大數(shù)據(jù)主要研究前沿領域
圖1 大數(shù)據(jù)研究前沿聚類圖
表7 排名前十的高被引文獻
表8 引用次數(shù)突增的文獻
共被引文獻網(wǎng)絡中的突增節(jié)點預示著該領域的研究熱點。經(jīng)過突變處理,那些被引用次數(shù)出現(xiàn)突然增長的文獻節(jié)點以紅色圓圈標示出,圖1中共有3個突變節(jié)點,如表8所示。第一突增節(jié)點是Google公司的Dean J在2008年發(fā)表的關于MapReduce算法的論文。該文獻突現(xiàn)值高達12.49,同時也是被引用次數(shù)最多的文獻,高達124次,表明該論文在大數(shù)據(jù)研究中至關重要。現(xiàn)在MapReduce已成為開源大數(shù)據(jù)架構Hadoop的核心算法,廣泛應用于大型互聯(lián)網(wǎng)平臺中,該節(jié)點歸屬于#2data integration類。第二個突增節(jié)點是2011年麥肯錫咨詢公司Manyika J等人發(fā)布的一份關于大數(shù)據(jù)的詳盡報告,對大數(shù)據(jù)的影響、關鍵技術和應用領域進行了詳盡分析,幫助人們?nèi)嬲J識大數(shù)據(jù),對指引大數(shù)據(jù)的研究發(fā)展起到積極作用,該節(jié)點屬于#6twitter。第三個是Yahoo公司的Olston C等人針對大數(shù)據(jù)分析設計的高級程序語言Pig Latin,通過Pig編譯平臺產(chǎn)生Map Reduce程序,它比使用Map Reduce直接編寫更加容易、靈活,更便于維護和重用,因此在大數(shù)據(jù)分析中得到廣泛應用,Pig現(xiàn)是Hadoop項目的一部分,屬于#0MapReduce。Data Integration和Twitter這兩個方向從2012年到現(xiàn)在一直是大數(shù)據(jù)研究熱點,而表8中Dean J一文的突增值特別高,說明Data Integration方向在大數(shù)據(jù)研究中受到格外重視,是當前最大研究熱點。Map Reduce方向的突增發(fā)生在2013-2014年,是最近大數(shù)據(jù)研究關注的熱點。
對1311篇文獻繼續(xù)進行共被引作者分析,參數(shù)“Time Slicing”設置為1999-2014,“Per Slice”為1,“Node Types”選擇Cited Author,“Top N per slice”數(shù)量設為50,剪枝方式“Pruning”同時復選Pathfinder和Pruning the merged network兩種,得到一個494個節(jié)點,1590條連線的合并網(wǎng)絡,選擇只顯示大于30次的節(jié)點標示,結果如圖2所示。表9列出被引次數(shù)排名前十的作者及具體次數(shù)。結合圖2與表9的分析,排名第一的作者是Dean J,被引次數(shù)高達184次,遠遠超過其他作者,幾乎是第二名的3倍。Dean J正是Map Reduce:simplified data processing on large clusters 一文的作者,該文獻在大數(shù)據(jù)研究中被引次數(shù)最高,達124次,對大數(shù)據(jù)發(fā)展影響深遠。White T是排名第二的作者,他在2009年出版的Hadoop the definitive guide 是Hadoop的權威指南,是學習和了解大數(shù)據(jù)架構Hadoop的重要書籍,該書在高被引文獻排名中位居第二,被引56次。其余高被引作者的被引次數(shù)大致在50至30次左右,變化不大,其中MANYIKA J和OLSTONC發(fā)表的論文同時進入高被引文獻排名的前十位。
表9 被引次數(shù)前十的作者
圖2 共被引作者分析
采用類似參數(shù)對1311篇文獻進行共被引期刊分析,得到一個423個節(jié)點、1632條連線的網(wǎng)絡合并圖,選擇只顯示大于65次的節(jié)點標示,得出圖3。表10列出排名前十的期刊和會議。Communications of the ACM 是美國計算機協(xié)會的旗艦刊物,刊載計算機領域的重要研究和創(chuàng)新,對計算機發(fā)展影響重大;在排名前十的高被引文獻中,有兩篇出自該期刊。Lecture notes in computer science 是Springer集團出版的計算機領域的專業(yè)期刊。兩種期刊的被引次數(shù)較接近,分別為244次和229次,它們都是計算機領域的期刊。排在前十且屬于計算機領域的還有第六名的IEEE Transaction on knowledge and data engineering,是IEEE旗下知識及數(shù)據(jù)工程類的學報,被引次數(shù)93;第9名Journal of Machine Learning Research 被引次數(shù)為69次。從圖3可見,計算機領域四個期刊聚集在圖的左上方。排在第三至五名的分別是Nature、Science 期刊和Proceedings of the national academy of sciences of the united states of America會議,被引次數(shù)依次是167、161和113。Nature 和Science 是世界頂級期刊,一般刊載全球最前沿的科學研究,最重大的理論發(fā)現(xiàn),屬于綜合類期刊。第七、八和十名期刊屬于生物信息領域,被引次數(shù)分別為87、87、69,聚集在圖3的中心周圍,說明大數(shù)據(jù)技術在生物信息領域也得到廣泛應用。
表10 被引次數(shù)前十的期刊/會議
圖3 共被引期刊分析
(1)從WoS數(shù)據(jù)庫收錄的相關大數(shù)據(jù)論文數(shù)量看,大數(shù)據(jù)研究最早可追溯到1999年。1999-2008年,每年與大數(shù)據(jù)相關的論文都在幾篇左右,處于零星研究狀態(tài)。2008年Nature 和Communications of the ACM 刊發(fā)的大數(shù)據(jù)論文對大數(shù)據(jù)研究發(fā)展影響深遠。2009-2011年,從數(shù)量看大數(shù)據(jù)研究進入新的階段,每年發(fā)表的論文在15篇左右,說明大數(shù)據(jù)逐漸被關注。2012年論文數(shù)量快速增長到196篇,2013年更升至755篇,大數(shù)據(jù)研究進入快速成長期,大量專家學者投入大數(shù)據(jù)研究中,大數(shù)據(jù)受到空前的重視。
(2)從發(fā)表大數(shù)據(jù)論文數(shù)量最多的十個期刊或會議看,有八個是國際會議,說明專題會議成為發(fā)布大數(shù)據(jù)最新成果的主要途徑,其中IEEE的大數(shù)據(jù)專題會議,發(fā)表論文111篇,排名第一。另外,醫(yī)學健康方面的會議和期刊也大量登載關于大數(shù)據(jù)研究的論文。而從文獻被引用次數(shù)來看,排在前十的主要是期刊,其中對大數(shù)據(jù)研究影響最大的是Communications of the ACM。從被引用次數(shù)最多的前十種期刊或會議的類型來看,主要是三類期刊:計算機類、綜合類和生物信息類。綜合刊發(fā)大數(shù)據(jù)論文數(shù)量和被引用次數(shù)排名前十的期刊或會議的統(tǒng)計數(shù)據(jù),大數(shù)據(jù)研究主要集中在計算機、生物信息、醫(yī)學健康領域。
(3)從發(fā)文國家看,美國排第一,中國排第二。從發(fā)文機構看,前十所機構中有七家是美國大學,兩家是中國科研和教學機構。說明美國對大數(shù)據(jù)研究的重視,以及在此領域的領導地位,而中國也緊跟其后,走在世界前列。
(4)通過可視化分析,大數(shù)據(jù)的研究前沿共有34個方向,當前的研究熱點是MapReduce、Data Integration和Twitter。
(5)2008年Dean J在Communications of the ACM 發(fā)表的Map Reduce:simplified data processing on large clusters 對大數(shù)據(jù)研究影響深遠,此文及其作者、所在期刊都是被引用次數(shù)最多的,說明該文獻對大數(shù)據(jù)研究影響重大,文中提出的MapReduce理論模型已成為被廣泛應用,成為開源大數(shù)據(jù)架構Hadoop的核心技術。
[1] Chen C.CiteSpace II:Detecting and visualizing emerging trends and transient patterns in scientif ic literature[J].Journal of the American Society for Inf ormation Science and Technology,2006,57(3):359-377.
[2] Chen C,SanJuan FI,Hou JH.The structure and dynamics of co-citation clusters:Amultiple-perspective co-citationanalysis[J].Journal of the American Society for Information Science and Technology,2010,61(7):1386-1409.
[3] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[4] White T.Hadoop the def initive guide[M].Sebastopol:O’Reilly Media,2009.
[5] Manyika J,Chui M,Brown B,et al.Big data:The next f rontier f or innovation,competition,and productivity[R].[S.I]:McKinsey Global Institute,2011.
[6] Howe D,Costanzo M,F(xiàn)ey P,et al.Big data:The future of biocuration[J].Nature,2008,455(7209):47-50.
[7] Schadt EE,Linderman MD,Sorenson J,et al.Computational solutions to large-scale data management and analysis[J].Nature Reviews Genetics,2010,11:647-657.
[8] Lynch C.Big data:Howdo your data grow[J].Nature,2008,455(7209):28-29.
[9] Ekanayake J,F(xiàn)ox G.High Performance Parallel Computing with Clouds and Cloud Technologies[J].Lecture Notes of the Institute f or Computer Sciences, Social-Informatics and Telecommunications Engineering,2010,34:20-38.
[10]Dean J,Ghemawat S.MapReduce:aflexible dataprocessing tool[J].Communicationsof the ACM,2010,53(1):72-77.
[11]Hey T,Tansley S,Tolle K.The Fourth Paradigm:Data-Intensive Scientific Discovery[R].[S.I]:Microsoft Research,2009.
[12]Olston C,Reed B,Srivastava U,et al.Pig latin:a not-so-foreign language for data processing[C].SIGMOD'08 Proceedings of the 2008 ACMSIGMODinternational conf erence on Management of data.[S.I]:[s.n.],2008:1099-1110.