何曉萍 黃 龍
(南昌大學(xué)圖書館,江西南昌 330031)
?
大數(shù)據(jù)領(lǐng)域演進(jìn)路徑、研究熱點(diǎn)與前沿的可視化分析
何曉萍 黃 龍
(南昌大學(xué)圖書館,江西南昌 330031)
本文以Web of Science為數(shù)據(jù)源,運(yùn)用信息可視化軟件CiteSpace Ⅲ對所搜集的有關(guān)大數(shù)據(jù)研究的文獻(xiàn)進(jìn)行聚類分析和共引分析。通過CiteSpace Ⅲ生成的知識(shí)圖譜并結(jié)合相關(guān)文獻(xiàn)的研究內(nèi)容,從演進(jìn)路徑、研究熱點(diǎn)以及研究前沿三方面對大數(shù)據(jù)研究進(jìn)行量化分析和解讀。6篇關(guān)鍵節(jié)點(diǎn)文獻(xiàn)很好地展示了大數(shù)據(jù)研究的演進(jìn)路徑,13個(gè)高頻關(guān)鍵詞和10個(gè)突現(xiàn)詞表征了大數(shù)據(jù)的研究熱點(diǎn)與研究前沿,得出結(jié)論:大數(shù)據(jù)的研究經(jīng)歷了從大數(shù)據(jù)的計(jì)算模型、具體概念、復(fù)雜性科學(xué)的理論研究到有關(guān)大數(shù)據(jù)社會(huì)科學(xué)層面、應(yīng)用型實(shí)踐層面研究的歷程;大數(shù)據(jù)處理技術(shù)、大數(shù)據(jù)挖掘及大數(shù)據(jù)應(yīng)用是大數(shù)據(jù)研究的三大熱點(diǎn);對大數(shù)據(jù)本身的研究、處理技術(shù)的研究、數(shù)據(jù)挖掘、系統(tǒng)、模型和網(wǎng)絡(luò)的研究以及其績效評估和數(shù)據(jù)管理的研究是大數(shù)據(jù)的研究前沿和發(fā)展趨勢,文章旨在為現(xiàn)階段大數(shù)據(jù)研究工作的深入開展提供參考。
大數(shù)據(jù);CiteSpace Ⅲ;演進(jìn)路徑;研究熱點(diǎn);研究前沿;可視化
大數(shù)據(jù)是當(dāng)下繼云計(jì)算之后的一大熱點(diǎn)詞匯。2011年5月,信息存儲(chǔ)資訊科技公司EMC在“云計(jì)算相遇大數(shù)據(jù)(Cloud Meets Big Data)”大會(huì)上正式提出了“大數(shù)據(jù)”的概念。幾近同時(shí),麥肯錫全球研究院(MGI)發(fā)布了一份研究報(bào)告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》(Big data,The next frontier for innovation,competition,and productivity)[1],它研究了文檔和數(shù)字?jǐn)?shù)據(jù)的狀態(tài)以及處理這些數(shù)據(jù)所帶來的潛在價(jià)值。2012年1月,在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇上,“大數(shù)據(jù)”是主要討論的主題之一,該論壇上發(fā)布了一份題為《大數(shù)據(jù),大影響》(Big Data,Big Impact)的報(bào)告,提出“數(shù)據(jù)已成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣?!盵2]2012年3月,美國奧巴馬政府在白宮網(wǎng)站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》(Big Data Research and Development Initiative),該倡議涉及聯(lián)邦政府的6個(gè)部門,這些部門承諾將投資超過兩億美元,來大力推動(dòng)和改善大數(shù)據(jù)的提取、存儲(chǔ)、分析、共享和可視化[3]。
無論是EMC、MGI的研究報(bào)告,世界經(jīng)濟(jì)論壇的論題,還是美國政府的倡議,都向人們預(yù)示著大數(shù)據(jù)時(shí)代的來臨。國內(nèi)外對大數(shù)據(jù)的研究不斷增加,該領(lǐng)域的研究文獻(xiàn)量也與日俱增,大量的研究文獻(xiàn)使得人們難以對大數(shù)據(jù)的知識(shí)進(jìn)行深入地研究。信息可視化是常用的數(shù)據(jù)挖掘方法之一,它可以利用人類在可視化形勢下對模型和結(jié)構(gòu)的獲取能力來解決科技文獻(xiàn)數(shù)量過大、無法快速進(jìn)行有效交流的問題,可視化數(shù)據(jù)挖掘可以觀察、發(fā)現(xiàn)、篩選和理解信息,發(fā)現(xiàn)數(shù)據(jù)和信息背后所隱藏的含義[4]。本文將運(yùn)用信息可視化工具CiteSpace Ⅲ,以Web of Science數(shù)據(jù)庫中收錄的有關(guān)大數(shù)據(jù)研究的文獻(xiàn)為樣本進(jìn)行聚類分析和共引分析,對大數(shù)據(jù)的研究熱點(diǎn)、主題內(nèi)容和發(fā)展趨勢三方面進(jìn)行量化分析和解讀。
Web of Science是美國Thomson Scientific(湯姆森科技信息集團(tuán))基于WEB開發(fā)的產(chǎn)品,是大型綜合性、多學(xué)科、核心期刊引文索引數(shù)據(jù)庫,收錄了8 000多種世界范圍內(nèi)最有影響力的、經(jīng)過同行專家評審的高質(zhì)量的期刊[5],以Web of Science為數(shù)據(jù)源進(jìn)行研究,可以保證研究數(shù)據(jù)的全面性和權(quán)威性。本文選取了Web of Science數(shù)據(jù)庫中的4個(gè)子庫:Science Citation Index Expanded(SCI-EXPANDED)、Social Sciences Citation Index(SSCI)、Conference Proceedings Citation Index-Science(CPCI-S)和Conference Proceedings Citation Index-Social Science& Humanities(CPCI-SSH),檢索方式選擇高級檢索,檢索策略為:主題=(“big data”),時(shí)間跨度=所有年份,共檢索到有關(guān)大數(shù)據(jù)得研究文獻(xiàn)記錄1 849條(檢索日期:2014年10月12日)。
本文研究工具采用陳超美教授開發(fā)的信息可視化軟件CiteSpace Ⅲ,其獨(dú)到的創(chuàng)新之處在于繪制的一幅科學(xué)知識(shí)圖譜,能夠顯示一個(gè)學(xué)科或知識(shí)域在一定時(shí)期發(fā)展的趨勢與動(dòng)向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程[6]。將檢索到的1 849篇文獻(xiàn)題錄信息(主要包括篇名、關(guān)鍵詞、摘要、作者、參考文獻(xiàn)等字段)導(dǎo)入到CiteSpace Ⅲ軟件中。有關(guān)大數(shù)據(jù)研究的第一篇文獻(xiàn)的發(fā)表于1993年,即所檢索到的文獻(xiàn)時(shí)間范圍是1993-2014年,共計(jì)22年,以每2年設(shè)為1個(gè)時(shí)間分區(qū)(Time slicing),總共分為11個(gè)時(shí)間段;主題詞來源(Term Source)選擇標(biāo)題(Title)、摘要(Abstract)、關(guān)鍵詞(Author Keywords)和標(biāo)識(shí)符(Keywords Plus);分析節(jié)點(diǎn)(Node Types)選擇共引文獻(xiàn)(Cited Reference);設(shè)置閥值(c,cc,ccv)為(2,2,15),(3,2,20),(4,3,20),c為最低被引次數(shù),cc為本時(shí)間段內(nèi)的共被引次數(shù),ccv為規(guī)范化以后的共被引次數(shù),每個(gè)時(shí)間段中選取被引次數(shù)最高的30篇文獻(xiàn)。運(yùn)行CiteSpace Ⅲ軟件,得到大數(shù)據(jù)研究共引分析文獻(xiàn)網(wǎng)絡(luò)組圖和知識(shí)圖譜,就此分析關(guān)鍵節(jié)點(diǎn)文獻(xiàn)。主題詞類型(Term Type)有名詞短語(Noun Phrases)和突現(xiàn)詞(Burst Terms)兩種,名詞短語可以表達(dá)大數(shù)據(jù)的研究熱點(diǎn),而突現(xiàn)詞則可表達(dá)大數(shù)據(jù)的研究前沿及發(fā)展趨勢。
2.1 大數(shù)據(jù)研究文獻(xiàn)的時(shí)間分布情況
對WOS數(shù)據(jù)庫中大數(shù)據(jù)研究文獻(xiàn)按年代變化進(jìn)行時(shí)間分布分析,如圖1所示,從圖中可以看出,大數(shù)據(jù)的研究可以分為3個(gè)階段:第一階段從1993-2007年,為大數(shù)據(jù)的孕育階段,該階段大數(shù)據(jù)研究成果零散,發(fā)文量十分有限;第二階段從2008-2011年,為大數(shù)據(jù)研究的起步階段;第三階段從2012-2014年,為大數(shù)據(jù)研究的上升階段,研究文獻(xiàn)劇增,且年發(fā)文量大于200篇,呈現(xiàn)出快速增長的態(tài)勢,2014年的文獻(xiàn)數(shù)據(jù)不全,但已有600篇,由此可以預(yù)測未來大數(shù)據(jù)的研究將保持迅猛增長的勢頭。同時(shí),通過Logistic曲線擬合文獻(xiàn)量的時(shí)間序列分布,發(fā)現(xiàn)大數(shù)據(jù)研究還處在快速上升時(shí)期,還沒出現(xiàn)成熟前的“拐點(diǎn)”。
圖1 大數(shù)據(jù)研究文獻(xiàn)的年度時(shí)間分布
2.2 大數(shù)據(jù)研究的演進(jìn)路徑分析
信息可視化軟件CiteSpace Ⅲ有兩種顯示共引網(wǎng)絡(luò)圖譜的視圖方式,分別為聚類視圖(cluster views)和時(shí)區(qū)視圖(time-zone views)。時(shí)區(qū)視圖的顯示方式突出共引網(wǎng)絡(luò)節(jié)點(diǎn)隨時(shí)間變化的結(jié)構(gòu)關(guān)系[6]。運(yùn)行CiteSpace Ⅲ軟件得到大數(shù)據(jù)研究文獻(xiàn)共引網(wǎng)絡(luò)節(jié)點(diǎn)的時(shí)區(qū)視圖,圖譜中共有182個(gè)節(jié)點(diǎn),410條連線,如圖2所示。
圖2 大數(shù)據(jù)共引網(wǎng)絡(luò)節(jié)點(diǎn)的時(shí)區(qū)視圖
CiteSpace Ⅲ最突出的特點(diǎn)就是關(guān)鍵節(jié)點(diǎn)的計(jì)算測量,圖中每個(gè)圓形節(jié)點(diǎn)代表一篇引文,節(jié)點(diǎn)大小與被引用次數(shù)有關(guān),節(jié)點(diǎn)越大,被引頻次越高,其文獻(xiàn)價(jià)值也越大,當(dāng)設(shè)置“標(biāo)簽字體大小依比例顯示選項(xiàng)”后,被引頻次高的引文在圖中的字體也越大,同時(shí),節(jié)點(diǎn)間的連線代表引用關(guān)系與引用時(shí)間,連線越粗則引用次數(shù)越多,連線顏色則提示引用時(shí)間,依時(shí)間先后序列由冷色向暖色改變[7]。從知識(shí)理論的角度看,關(guān)鍵節(jié)點(diǎn)文獻(xiàn)通常是在該領(lǐng)域中提出重大理論或是創(chuàng)新概念的文獻(xiàn),也是最容易引起新的研究前沿?zé)狳c(diǎn)的關(guān)鍵文獻(xiàn)[8]。按被引頻次的大小,表1列舉出了圖2中排名前六位的有關(guān)大數(shù)據(jù)研究關(guān)鍵節(jié)點(diǎn)文獻(xiàn),這些文獻(xiàn)都是大數(shù)據(jù)研究的知識(shí)基礎(chǔ),結(jié)合圖2,按時(shí)間順序?qū)Ρ?中的關(guān)鍵節(jié)點(diǎn)文獻(xiàn)進(jìn)行分析,即可梳理出大數(shù)據(jù)研究發(fā)展的演進(jìn)路徑。
表1 大數(shù)據(jù)研究關(guān)鍵節(jié)點(diǎn)文獻(xiàn)
第一篇文獻(xiàn)是由MapReduce、BigTable 等系統(tǒng)的創(chuàng)造者Jeff Dean于2008年發(fā)表在《COMMUNICATIONS OF THE ACM》刊物上的《Mapreduce:Simplified data processing on large clusters》[9],文章借鑒函數(shù)式編程語言,強(qiáng)調(diào)了MapReduce的思想,將MapReduce模型用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,包括“分布grep,分布排序,web連接圖反轉(zhuǎn),每臺(tái)機(jī)器的詞矢量,web訪問日志分析,反向索引構(gòu)建,文檔聚類等”。這說明借助關(guān)鍵技術(shù)對大規(guī)模數(shù)據(jù)進(jìn)行深入的研究,最大限度地提升管理和使用大規(guī)模數(shù)據(jù)的能力開始成為研究的重點(diǎn)。
第二篇文獻(xiàn)是由Howe,Doug于2008年發(fā)表在《NATURE》雜志上的《Big data:The future of biocuration》[10],文章基于大數(shù)據(jù)環(huán)境,提出了“生物文獻(xiàn)數(shù)據(jù)結(jié)構(gòu)化”這一概念,通過數(shù)據(jù)結(jié)構(gòu)化來規(guī)范生物文獻(xiàn)信息,從而提高生物學(xué)信息的獲取率和利用率。這標(biāo)志著大數(shù)據(jù)的研究在生物學(xué)學(xué)科得到廣泛關(guān)注。
第三篇文獻(xiàn)是由英國e-Science計(jì)劃前首席科學(xué)家Tony Hey于2009年發(fā)表在《NATURE》雜志上的《The Fourth Paradigm:Data-Intensive Scientific Discovery》[11],該文探索了數(shù)據(jù)密集型計(jì)算以及未來計(jì)算技術(shù)的發(fā)展,揭示出數(shù)據(jù)分析已經(jīng)成為繼理論、實(shí)驗(yàn)和計(jì)算之后的第四種科學(xué)發(fā)現(xiàn)基礎(chǔ),是產(chǎn)生經(jīng)濟(jì)價(jià)值的新源泉。數(shù)據(jù)分析有助于市場預(yù)測、社會(huì)學(xué)以及醫(yī)學(xué)等學(xué)科領(lǐng)域的知識(shí)規(guī)律發(fā)現(xiàn)和趨勢預(yù)測,達(dá)成“真理盡在數(shù)據(jù)中”的效果,“數(shù)據(jù)科學(xué)”逐漸成為業(yè)界學(xué)者研究的新興領(lǐng)域。
第四篇文獻(xiàn)是由WHITE T撰寫的《Hadoop:The Definitive Guide》[12]一書,于2009年由O’Reilly Media,Inc.出版社出版,書中展示了如何使用Hadoop構(gòu)建可靠、可伸縮的分布式系統(tǒng),程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以了解如何建立與運(yùn)行Hadoop集群。作為處理海量數(shù)據(jù)集的理想工具,Apache Hadoop架構(gòu)是MapReduce算法的一種開源應(yīng)用,是Google(谷歌)開創(chuàng)其帝國的重要基石,更是打開“數(shù)據(jù)金礦”大門的金鑰匙。
第五篇文獻(xiàn)是由麥肯錫全球研究院(MGI)于2011年發(fā)布的研究報(bào)告《Big data,The next frontier for innovation,competition,and productivity》[1],該報(bào)告系統(tǒng)的闡述了大數(shù)據(jù)概念,麥肯錫認(rèn)為,“大數(shù)據(jù)”是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲(chǔ)存、管理和分析等能力的數(shù)據(jù)集。該定義有兩方面內(nèi)涵:一是符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小是變化的,會(huì)隨著時(shí)間推移、技術(shù)進(jìn)步而增長;二是不同部門符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小會(huì)存在差別。同時(shí),報(bào)告詳細(xì)列舉了大數(shù)據(jù)的核心技術(shù),深入分析了大數(shù)據(jù)在美國醫(yī)療衛(wèi)生、歐洲聯(lián)合公共部門管理、美國零售業(yè)、全球制造業(yè)和個(gè)人地理位置信息5個(gè)領(lǐng)域的應(yīng)用,明確提出了政府和企業(yè)決策者應(yīng)對大數(shù)據(jù)發(fā)展的策略。作為第一份從經(jīng)濟(jì)和商業(yè)維度詮釋大數(shù)據(jù)發(fā)展?jié)摿Φ难芯砍晒沂境鰯?shù)據(jù)正在成為有形資本、人力資本這類產(chǎn)品的一個(gè)因素,如何讓商業(yè)適應(yīng)大數(shù)據(jù),如何讓大數(shù)據(jù)的更有利的管理和更有價(jià)值的分析,是一個(gè)全新的具有挑戰(zhàn)的話題。
最后一篇是由被譽(yù)為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”的Mayer-Schoenberger于2013年在《INTERNATIONAL JOURNAL OF COMMUNICATION》雜志上發(fā)表的《Big Data:A Revolution That Will Transform How We Live,Work and Think》[13],文中前瞻性地指出,大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型,其中最大的轉(zhuǎn)變就是,放棄對因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系。也就是說只要知道“是什么”,而不需要知道“為什么”,這就顛覆了千百年來人類的思維慣例,對人類的認(rèn)知和與世界交流的方式提出了全新的挑戰(zhàn)。該文還提出大數(shù)據(jù)的核心就是預(yù)測。大數(shù)據(jù)將為人類的生活創(chuàng)造前所未有的可量化的維度。大數(shù)據(jù)已經(jīng)成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā),例如谷歌、微軟、亞馬遜、IBM、蘋果、facebook、twitter、VISA等大數(shù)據(jù)先鋒們已經(jīng)開啟了對大數(shù)據(jù)最具價(jià)值的應(yīng)用歷程。因此,該關(guān)鍵節(jié)點(diǎn)論文是大數(shù)據(jù)應(yīng)用在大數(shù)據(jù)時(shí)代的一個(gè)重要標(biāo)志。
通過以上關(guān)鍵節(jié)點(diǎn)文獻(xiàn)的分析,可以得出,在2008年之前,由于大數(shù)據(jù)理論和基礎(chǔ)比較缺乏,有關(guān)大數(shù)據(jù)研究的論文發(fā)文量比較低,且沒有產(chǎn)生具有影響力的文獻(xiàn)。從2008年開始,隨著研究的不斷深入,進(jìn)入大數(shù)據(jù)領(lǐng)域進(jìn)行研究的機(jī)構(gòu)、學(xué)者等不斷增加,有關(guān)大數(shù)據(jù)研究的論文發(fā)文量急劇增長,產(chǎn)生了許多重要的研究成果。大數(shù)據(jù)的研究經(jīng)歷了從大數(shù)據(jù)的計(jì)算模型、具體概念、復(fù)雜性科學(xué)的理論研究,到伴隨大數(shù)據(jù)研究技術(shù)的全面拓展而進(jìn)行的有關(guān)大數(shù)據(jù)社會(huì)科學(xué)層面、應(yīng)用型實(shí)踐層面研究的歷程。
2.3 大數(shù)據(jù)研究熱點(diǎn)分析
由于關(guān)鍵詞是作者對文章核心內(nèi)容的精煉與概括,體現(xiàn)文章研究價(jià)值與方向,因此在軟件分析結(jié)果中,頻次高的關(guān)鍵詞常被用來確定一個(gè)研究領(lǐng)域的熱點(diǎn)問題,另外,從文章中提取的名詞短語也可以在一定程度上代表某學(xué)科的研究熱點(diǎn)[14]。在CiteSpace Ⅲ軟件中,節(jié)點(diǎn)類型選擇關(guān)鍵詞(Keyword)、主題詞類型選擇名詞短語(Noun Phrases),并選擇Pathfinder算法,運(yùn)行CiteSpace Ⅲ軟件得到由關(guān)鍵詞和名詞短語生成的大數(shù)據(jù)研究熱點(diǎn)知識(shí)圖譜,圖譜中有342個(gè)節(jié)點(diǎn),1 076條連線,如圖3所示。
圖3 大數(shù)據(jù)研究熱點(diǎn)知識(shí)圖譜
圖3中的圓形節(jié)點(diǎn)和方形節(jié)點(diǎn)分別代表關(guān)鍵詞和名詞短語,節(jié)點(diǎn)的大小表示關(guān)鍵詞或名詞短語出現(xiàn)的頻次,圓形節(jié)點(diǎn)越大,越可以體現(xiàn)大數(shù)據(jù)的研究熱點(diǎn),同樣,方形節(jié)點(diǎn)越大,也在一定程度上代表了大數(shù)據(jù)的研究熱點(diǎn)。選取出現(xiàn)頻次大于等于40的熱點(diǎn)名詞術(shù)語,得到大數(shù)據(jù)研究熱點(diǎn)詞匯統(tǒng)計(jì)表,見表2。
表2 頻次大于等于40的熱點(diǎn)詞匯統(tǒng)計(jì)表
從圖3和表2可以看出,出現(xiàn)頻次最高的熱點(diǎn)詞為big data(大數(shù)據(jù)),達(dá)1 305次,且其中心度值(0.56)也位居首位,一方面,表明了選擇“big data”為本文的研究主題具有一定的明確性;另一方面,也說明“big data”這一表述在學(xué)術(shù)界被普遍認(rèn)可,且對大數(shù)據(jù)的研究也極其重視。其他高頻熱點(diǎn)詞匯按出現(xiàn)頻次高低分別為:cloud computing(云計(jì)算)、big data analytics(大數(shù)據(jù)分析)、mapreduce(分布式計(jì)算)、data mining(數(shù)據(jù)挖掘)、hadoop(分布式系統(tǒng)基礎(chǔ)架構(gòu))、social media(社交媒體)、machine learning(機(jī)器學(xué)習(xí))、model(模型)、big data application(大數(shù)據(jù)應(yīng)用)、social network(社交網(wǎng)絡(luò))、networks(網(wǎng)絡(luò)),同時(shí),這些熱點(diǎn)詞匯正是前文所述多數(shù)關(guān)鍵節(jié)點(diǎn)文獻(xiàn)研究的主要內(nèi)容。
目前,大數(shù)據(jù)的研究熱點(diǎn)可以從以下3方面來分析:(1)大數(shù)據(jù)處理技術(shù)的研究。這一研究熱點(diǎn)主要涉及云計(jì)算、大數(shù)據(jù)分析、Hadoop、Mapreduce、模型等技術(shù),尤其是Hadoop、Mapreduce帶來的并行式和分布式算法,為更高效率的管理和處理海量數(shù)據(jù)集帶來了可能。同時(shí),云計(jì)算模式為大數(shù)據(jù)提供了存儲(chǔ)空間和計(jì)算能力,是大數(shù)據(jù)處理技術(shù)的基礎(chǔ)。(2)大數(shù)據(jù)挖掘的研究。這一研究熱點(diǎn)主要涉及云計(jì)算、社交網(wǎng)絡(luò)、社交媒體、數(shù)據(jù)分析、數(shù)據(jù)挖掘等。社交媒體、社交網(wǎng)絡(luò)的普及產(chǎn)生了大量的數(shù)據(jù),而沉睡的數(shù)據(jù)只是一堆低價(jià)值密度的垃圾,只有通過數(shù)據(jù)挖掘,才能發(fā)現(xiàn)和創(chuàng)造其潛在的價(jià)值,同時(shí),大數(shù)據(jù)挖掘的實(shí)現(xiàn)也需要云計(jì)算技術(shù)支持。在業(yè)界,IT巨頭們?nèi)纾篏oogle、微軟、EMC、IBM、惠普等互聯(lián)網(wǎng)公司都已經(jīng)意識(shí)到大數(shù)據(jù)挖掘的重要意義,紛紛通過收購大數(shù)據(jù)分析公司,進(jìn)行技術(shù)整合,希望從大數(shù)據(jù)中挖掘更多的商業(yè)價(jià)值[15]。(3)大數(shù)據(jù)應(yīng)用的研究。這一研究熱點(diǎn)主要涉及大數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等。與傳統(tǒng)數(shù)據(jù)分析相比,大數(shù)據(jù)技術(shù)的核心目標(biāo)之一即是從數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)類型多樣的數(shù)據(jù)中挖掘信息和獲取知識(shí),而大數(shù)據(jù)技術(shù)這一目標(biāo)的實(shí)現(xiàn)離不開機(jī)器學(xué)習(xí)的技術(shù)。通過機(jī)器學(xué)習(xí)高效智能地獲取新知識(shí),為數(shù)據(jù)分析應(yīng)用帶來價(jià)值是當(dāng)今大數(shù)據(jù)應(yīng)用研究的一大重點(diǎn)。
2.4 大數(shù)據(jù)研究前沿分析
陳超美認(rèn)為,使用突現(xiàn)主題術(shù)語( surged topicalterms)要比使用出現(xiàn)頻次最高的主題詞(title words)更適合探測學(xué)科發(fā)展的新興趨勢和突然變化[16]。運(yùn)用CiteSpace Ⅲ軟件的突現(xiàn)詞探測(Detect Bursts)技術(shù),觀察詞頻的時(shí)間分布,將突現(xiàn)詞(Burst Terms)從大量的主題詞中探測出來,從而揭示出大數(shù)據(jù)的研究前沿。主題詞類型選擇突現(xiàn)詞(Burst Terms),運(yùn)行CiteSpace Ⅲ軟件,得到大數(shù)據(jù)研究前沿的網(wǎng)絡(luò)圖譜,如圖4所示。探測得到10個(gè)突現(xiàn)詞,見表3。
圖4 大數(shù)據(jù)研究前沿的網(wǎng)絡(luò)圖譜
結(jié)合圖4和表3可以看出,突變率最高的主題詞為是“big data(大數(shù)據(jù))”,達(dá)5.74,該主題詞代表了大數(shù)據(jù)領(lǐng)域?qū)Υ髷?shù)據(jù)本身的研究,而且,對大數(shù)據(jù)本身的研究依舊可能是未來大數(shù)據(jù)研究的熱點(diǎn)。除“big data(大數(shù)據(jù))”以外,“mapreduce(分布式計(jì)算)”、“cloud computing(云計(jì)算)”、“hadoop(分布式系統(tǒng)基礎(chǔ)架構(gòu))”這3個(gè)主題詞的突變率也較高,說明mapreduce框架、云計(jì)算、hadoop框架的數(shù)據(jù)處理技術(shù)近年來備受研究者關(guān)注。同時(shí),與數(shù)據(jù)處理技術(shù)有關(guān)的“data mining(數(shù)據(jù)挖掘)”、“systems(系統(tǒng))”、“model(模型)”、“networks(網(wǎng)絡(luò))”,這4個(gè)主題詞的突變率也比較高,分別是3.87、3.21、3.15和3.12,由此可以看出與大數(shù)據(jù)有關(guān)的數(shù)據(jù)挖掘、系統(tǒng)、模型及網(wǎng)絡(luò)的研究是近年來大數(shù)據(jù)領(lǐng)域研究的重要前沿與發(fā)展趨勢。此外,“performance(績效)”和“management(管理)”這2個(gè)高突變詞也說明了近年來大數(shù)據(jù)在績效評估和數(shù)據(jù)管理方向研究的重視,有關(guān)大數(shù)據(jù)的績效評估和數(shù)據(jù)管理也將成為未來幾年內(nèi)大數(shù)據(jù)研究的重點(diǎn)。
CiteSpace Ⅲ信息可視化軟件具有較強(qiáng)的探測和分析某一學(xué)科演化路徑、研究熱點(diǎn)與研究前沿的功能,在上述大數(shù)據(jù)研究中得以完美體現(xiàn),通過對Web of Science數(shù)據(jù)庫中收錄的有關(guān)大數(shù)據(jù)研究的文獻(xiàn)進(jìn)行聚類分析和共引分析,得到以下結(jié)論:
(1)大數(shù)據(jù)研究的演進(jìn)路徑:2008年,強(qiáng)調(diào)了MapReduce的思想,對大規(guī)模數(shù)據(jù)集進(jìn)行并行運(yùn)算,同時(shí),大數(shù)據(jù)的研究開始向生物學(xué)學(xué)科滲透;2009年,探索了數(shù)據(jù)密集型計(jì)算以及未來計(jì)算技術(shù)的發(fā)展,揭示出數(shù)據(jù)分析已經(jīng)成為繼理論、實(shí)驗(yàn)和計(jì)算之后的第4種科學(xué)發(fā)現(xiàn)基礎(chǔ),并且,數(shù)據(jù)處理技術(shù)Hadoop的應(yīng)用,為更高效的處理海量數(shù)據(jù)集帶來了可能;2011年,系統(tǒng)地闡述了大數(shù)據(jù)概念,并介紹了大數(shù)據(jù)的核心技術(shù),深入分析了大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用,明確提出了政府和企業(yè)決策者應(yīng)對大數(shù)據(jù)發(fā)展的策略。2013年,前瞻性地指出了大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。
(2)大數(shù)據(jù)的研究熱點(diǎn)概括為3個(gè)方面:一是大數(shù)據(jù)處理技術(shù)的研究;二是大數(shù)據(jù)挖掘的研究;三是大數(shù)據(jù)應(yīng)用的研究。研究的內(nèi)容逐漸從“概念化”走向“價(jià)值”。
(3)大數(shù)據(jù)的研究前沿有4個(gè):一是對大數(shù)據(jù)本身的研究;二是有關(guān)大數(shù)據(jù)處理技術(shù)的研究;三是與大數(shù)據(jù)處理技術(shù)有關(guān)的數(shù)據(jù)挖掘、系統(tǒng)、模型和網(wǎng)絡(luò)的研究;四是大數(shù)據(jù)績效評估和數(shù)據(jù)管理的研究。海量數(shù)據(jù)的存儲(chǔ)、管理、轉(zhuǎn)換、績效評估等問題,以及大數(shù)據(jù)在社會(huì)科學(xué)層面和應(yīng)用型實(shí)踐層面的研究將可能是大數(shù)據(jù)未來一段時(shí)間內(nèi)的深度挖掘的方向和研究趨勢。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL].http:∥www.Mckinsey.com/insights/business technology/big data the next frontier for innovation,2014-10-12.
[2]科技中國.大數(shù)據(jù)時(shí)代[EB/OL].http:∥www.techcn.com.cn/index.php?Edition-view-185281-2.html,2014-10-12.
[3]中國云計(jì)算.大數(shù)據(jù)大事業(yè)-白宮發(fā)布大數(shù)據(jù)研究和發(fā)展倡議[EB/OL].http:∥www.chinacloud.cn/show.aspx?id=9349&cid=17,2014-10-12.
[4]趙蓉英,徐燦.信息服務(wù)領(lǐng)域研究熱點(diǎn)與前沿的可視化分析[J].情報(bào)科學(xué),2013,(12):9-14.
[5]百度百科.Web of Science[EB/OL].http:∥baike.baidu.com/view/3511061.htm?fr=aladdin,2014-10-12.
[6]Chaomei Chen.CiteSpace Ⅱ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.
[7]趙智慧.文化遺產(chǎn)數(shù)字化研究演進(jìn)路徑與熱點(diǎn)前沿的可視化分析[J].圖書館論壇,2013,(2):33-40.
[8]侯劍華,陳悅,王賢文.基于信息可視化的組織行為領(lǐng)域前沿演進(jìn)分析[J].情報(bào)學(xué)報(bào),2009,(3):422-430.
[9]DEAN J.Mapreduce:Simplified data processing on large clusters[J].COMMUNICATIONS OF THE ACM,2008,1(51):107-113.
[10]Howe D,Costanzo M,Fey P,et al.Big data:The future of biocuration[J].Nature,2008,455(7209):47-50.
[11]Tony Hey.The Fourth Paradigm:Data-Intensive Scientific Discovery[J].Nature,2009,462(7274):722-723.
[12]WHITE T.Hadoop:The Definitive Guide[M].USA:O’Reilly Media,Inc,2009:15-73.
[13]Mayer-Schoenberger.Big Data:A Revolution That Will Transform How We Live,Work and Think[J].INTERNATIONAL JOURNAL OF COMMUNICATION,2013,(7):2727-2729.
[14]趙蓉英,許麗敏.文獻(xiàn)計(jì)量學(xué)發(fā)展演進(jìn)與研究前沿的知識(shí)圖譜探析[J].中國圖書館學(xué)報(bào),2010,(5):60-68.
[15]何清.大數(shù)據(jù)與云計(jì)算[J].科技促進(jìn)發(fā)展,2014,(1):35-40.
[16]陳超美.CiteSpace Ⅱ:科學(xué)文獻(xiàn)中新趨勢與新動(dòng)態(tài)的識(shí)別與可視化[J].陳悅,等譯.情報(bào)學(xué)報(bào),2009,28(5):401-421.
(本文責(zé)任編輯:馬 卓)
Visualization Analysis of Evolution Path,
Research Hotspots and Frontiers of Big Data
He Xiaoping Huang Long
(Library,Nanchang University,Nanchang 330031,China)
This paper used the literatures which were retrieved from the Web of Science with the capital of Big Data as data sources,and conducted the cluster analysis and co-citation by means of the information visualization software CiteSpace Ⅲ.Based on the knowledge mapping generated by Citespace Ⅲ and the relevant literature,it performed statistical analysis and data interpretation from three perspectives,namely,research hotspots,subject content and developing trends.6 critical node documents perfectly showed the evolution path of big data;13 high frequency keywords and 5 burst terms indicated the research hotspots and research fronts.Conclusion:the research of big data had experienced a process which from the big data calculation model,the specific concept,the theory research of complexity science to the research on big data of social science level and applied practice level,three research hotspots:big data processing,data mining and data application,the research frontier and developing trend of big data:the study of big data itself,the research of processing technology,the research of data mining and system,model and network,data management and performance evaluation,this paper aimed at providing the reference for carrying out the present research of big data.
big data;CiteSpace Ⅲ;evolution pathway;research hotspots;research frontiers;visualization
2014-12-15
何曉萍(1955-),女,教授,研究方向:情報(bào)學(xué)、圖書館學(xué)、教育技術(shù)學(xué)。
10.3969/j.issn.1008-0821.2015.04.010
G252
A
1008-0821(2015)04-0046-06