●趙建保,黃曉斌(.廣東農(nóng)工商職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系,廣州50507;.中山大學(xué)資訊管理學(xué)院,廣州50006)
基于Citespace的大數(shù)據(jù)研究可視化分析
●趙建保1,黃曉斌2
(1.廣東農(nóng)工商職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系,廣州510507;2.中山大學(xué)資訊管理學(xué)院,廣州510006)
大數(shù)據(jù);CiteSpace;可視分析;知識(shí)圖譜
以ISI Web of Knowledge數(shù)據(jù)庫(kù)中2008~2014年間大數(shù)據(jù)為主題的1547條引文為研究對(duì)象,并以CiteSpace作為信息可視化工具,繪制了國(guó)家、機(jī)構(gòu)和研究熱點(diǎn)知識(shí)圖譜,揭示了大數(shù)據(jù)的學(xué)科屬性、研究力量、研究演進(jìn)和研究熱點(diǎn).
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)和應(yīng)用的興起,信息化與工業(yè)化的深度融合,數(shù)據(jù)產(chǎn)生已經(jīng)從被動(dòng)轉(zhuǎn)向了自動(dòng)階段,數(shù)據(jù)源越來越多,數(shù)據(jù)精度越來越高,數(shù)據(jù)呈現(xiàn)了規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、真實(shí)性(Veracity)、價(jià)值性(value)、匯聚性(Aggregate)的特征,大數(shù)據(jù)必將廣泛應(yīng)用于金融、商業(yè)、科學(xué)研究、消費(fèi)行業(yè)等領(lǐng)域.已有的數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析模式已難以滿足大數(shù)據(jù)的需求,理清學(xué)界業(yè)界近幾年大數(shù)據(jù)研究力量、研究路徑和研究熱點(diǎn),對(duì)科研管理、決策和開發(fā)尤其必要.
2014年8月27日使用檢索式為"TOPIC:(big+data)Timespan:2008-2014.Indexes:SCI-EXPANDED, CPCI-S,CPCI-SSH."對(duì)Web of Science進(jìn)行主題檢索,2008~2014年共發(fā)表1547篇文獻(xiàn);其中2008~2011年72篇,2012~2014年1475篇;2012年233篇,2013年859篇,2014年383篇,從2012年以來大數(shù)據(jù)研究力量驟增,研究成果較2011年增長(zhǎng)了9倍多.
從WoS提供的研究領(lǐng)域劃分看,計(jì)算機(jī)科學(xué)881篇,工程536篇,電信125篇,說明大數(shù)據(jù)學(xué)科性質(zhì)是計(jì)算機(jī)科學(xué)技術(shù).從文獻(xiàn)類型方面會(huì)議論文(PROCEEDINGS PAPER)807篇,期刊論文(ARTICLE)472篇,其他類型文獻(xiàn)279篇.
設(shè)置CiteSpace參數(shù)生成2008~2014年間國(guó)家合作圖譜,顯示了大數(shù)據(jù)研究主要有美國(guó)(572篇)、中國(guó)(248篇)、德國(guó)(72篇)、英國(guó)、韓國(guó)、澳大利亞、日本等,美國(guó)和中國(guó)大數(shù)據(jù)研究起步較早,發(fā)文量較大.從國(guó)家合作看,國(guó)家間合作普遍開始于2013年之后,國(guó)家間合作呈現(xiàn)非網(wǎng)絡(luò)結(jié)構(gòu),說明國(guó)家間合作以單邊合作為主,多邊合作較少.
設(shè)置Citespace參數(shù)生成機(jī)構(gòu)合作圖譜,顯示國(guó)內(nèi)外主要大數(shù)據(jù)研究機(jī)構(gòu)有中國(guó)科學(xué)院、麻省理工學(xué)院、南加利福尼亞大學(xué)和加州大學(xué)洛杉磯分校等,研究機(jī)構(gòu)發(fā)文量統(tǒng)計(jì)如表1所示.
表1 研究機(jī)構(gòu)發(fā)文量排名
可劃分為以中國(guó)科學(xué)院、麻省理工學(xué)院和南加利福尼亞大學(xué)三大學(xué)術(shù)合作群體.其中,中國(guó)科學(xué)院與北京大學(xué)、北京理工大學(xué)等研究機(jī)構(gòu)開展了合作,麻省理工學(xué)院與加州理工學(xué)院(CALTECH)、卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)等研究機(jī)構(gòu)開展了合作,南加利福尼亞大學(xué)跟加州大學(xué)洛杉磯分校(Univ Calif Los Angeles)等研究機(jī)構(gòu)開展了合作.
從大數(shù)據(jù)研究的代表人物看,排前3位的分別是Jeffrey Dean、Tom White和Angela Hung Byers.Jeffrey Dean是Google公司Knowledge Group研究員, 2009年當(dāng)選美國(guó)工程院院士,研究方向?yàn)榇笠?guī)模分布式系統(tǒng)、信息檢索、機(jī)器學(xué)習(xí)等.1999年加入Google后參與了Google廣告服務(wù)系統(tǒng)、Google爬蟲、索引和查詢服務(wù)系統(tǒng)、MapReduce、BigTable等眾多Google的核心產(chǎn)品設(shè)計(jì)和實(shí)現(xiàn).主要學(xué)術(shù)研究成果有和等.其中的谷歌學(xué)術(shù)顯示的被引數(shù)高達(dá)11505次,影響力極高.Tom White是暢銷書的作者,從2007年2月?lián)蜛pache Hadoop項(xiàng)目負(fù)責(zé)人,是A-pache軟件基金會(huì)的成員之一.Angela Hung Byers是2011年麥肯錫全球研究院調(diào)研報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》的項(xiàng)目負(fù)責(zé)人.
演進(jìn)路徑是研究領(lǐng)域的知識(shí)基礎(chǔ)和前沿隨時(shí)間演進(jìn)的動(dòng)態(tài)過程.知識(shí)基礎(chǔ)以經(jīng)典文獻(xiàn)和關(guān)鍵文獻(xiàn)為骨架構(gòu)成,為研究領(lǐng)域演進(jìn)提供動(dòng)力和基礎(chǔ).2008~ 2013年經(jīng)典文獻(xiàn)如表2所示.
表2 大數(shù)據(jù)研究領(lǐng)域經(jīng)典文獻(xiàn)
結(jié)合WoS 大數(shù)據(jù)文獻(xiàn)分布規(guī)律,參照新興技術(shù)研究的特點(diǎn)和發(fā)展范式,可把2014 年之前的大數(shù)據(jù)研究劃分為萌生期(1980 ~2008) 和快速發(fā)展期(2009~2013) 二個(gè)階段。
萌生期(1980~2008 年)。1980 年3 月, Alvin Toffler 在《第三次浪潮》一書中預(yù)言大數(shù)據(jù)將是“第三次浪潮的華彩樂章”。2008 年1 月,Google 公司Jeffrey Dean 和Sanjay Ghemawat 在發(fā)表了
以谷歌大數(shù)據(jù)處理為例介紹了MapReduce 編程模型在處理各種大數(shù)據(jù)任務(wù)的可用性及數(shù)據(jù)處理模式,即程序員通過指定Map 函數(shù)和Reduce 函數(shù),底層系統(tǒng)會(huì)自動(dòng)實(shí)現(xiàn)大規(guī)模集群的并行計(jì)算,并自動(dòng)處理機(jī)器故障和調(diào)度機(jī)間的通信,有效地利用網(wǎng)絡(luò)和磁盤資源。[1]9 月Nature 推出了大數(shù)據(jù)??教岢隽舜髷?shù)據(jù)概念,[2]Doug Howe等在??邪l(fā)表文章,提出應(yīng)對(duì)生物學(xué)大數(shù)據(jù)的3項(xiàng)行動(dòng)倡議,即出版物和數(shù)據(jù)庫(kù)之間的數(shù)據(jù)交換、建立權(quán)威的數(shù)據(jù)標(biāo)準(zhǔn)和設(shè)置數(shù)據(jù)策劃崗位.Clifford Lynch專刊中發(fā)表評(píng)論,闡述了實(shí)現(xiàn)數(shù)據(jù)重用的前提是保存數(shù)據(jù),討論了數(shù)據(jù)管理的體制與機(jī)制.[3]12月,Bryant、Katz和Lazowska三位信息領(lǐng)域資深科學(xué)家聯(lián)合"計(jì)算社區(qū)聯(lián)盟(Computing Community Consortium)"發(fā)表了《大數(shù)據(jù)計(jì)算:商務(wù)、科學(xué)和社會(huì)領(lǐng)域的革命性突破》白皮書,闡述了在數(shù)據(jù)驅(qū)動(dòng)的研究背景下,解決大數(shù)據(jù)問題所需的技術(shù)以及面臨的一些挑戰(zhàn).由此可見,在大數(shù)據(jù)萌生期主要研究重點(diǎn)是大數(shù)據(jù)的應(yīng)用前景及面臨的技術(shù)問題.
快速發(fā)展期(2009~2013年).2009年6月, Schatz在中介紹了基于MapReduce的CloudBurst并行算法用于分析人體基因組數(shù)據(jù)的良好性能;10月,Hadoop開源項(xiàng)目負(fù)責(zé)人Tom White著《Hadoop權(quán)威指南》,全面介紹了MapReduce編程技術(shù)及部署要求,為MapReduce的后續(xù)研究和應(yīng)用提供了權(quán)威指導(dǎo);同月,微軟研究院副總裁Tony Hey博士在一書中通過分析眾多數(shù)據(jù)密集型科學(xué)研究實(shí)例提出了科學(xué)研究的第四范式,即科學(xué)研究將從以計(jì)算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為中心;2010年1月,Jeffrey Dean在中闡述了MapReduce在大數(shù)據(jù)處理中具有良好的容錯(cuò)性、異構(gòu)存儲(chǔ)系統(tǒng)加載和處理數(shù)據(jù)的便捷性以及為執(zhí)行復(fù)雜函數(shù)提供了良好的架構(gòu);6月,Ekanayake在中提出了支持跌代計(jì)算的MapReduce編程模型Twister及體系結(jié)構(gòu),并比較了Twister、Hadoop與DryadLING在海量數(shù)據(jù)并行處理的性能.9月Schadt等發(fā)表文章,以生命科學(xué)中基因組大數(shù)據(jù)為例提出了云計(jì)算和異構(gòu)計(jì)算來處理海量和高維數(shù)據(jù)集的方案.2011年2月Science雜志出版??饕懻摿丝茖W(xué)研究中大數(shù)據(jù)的問題及其重要性.[4]3月Trelles等發(fā)表文章指出計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)通信將成為生物信息學(xué)研究中瓶頸,提出了通過云計(jì)算和異構(gòu)框架克服硬件瓶頸(如開發(fā)高速并行I/O來縮短存儲(chǔ)與計(jì)算間的路徑,整合光電通信技術(shù)提高高維數(shù)據(jù)傳輸速度),而通過多處理器來克服軟件瓶頸.[5]5月麥肯錫全球研究院Byers等發(fā)布調(diào)研報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》,分析了大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域,明確提出了政府和企業(yè)決策者應(yīng)對(duì)大數(shù)據(jù)發(fā)展的策略.同年5月EMC公司董事長(zhǎng)兼首席執(zhí)行官喬圖斯在EMC World 2011拉斯維加斯大會(huì)主題為"云計(jì)算適逢大數(shù)據(jù)",闡述了云計(jì)算與大數(shù)據(jù)的理念和技術(shù)趨勢(shì).6月由EMC贊助的IDC數(shù)字宇宙研究《從混沌中提取價(jià)值》提到三點(diǎn)重要論斷:全球數(shù)據(jù)量大約每?jī)赡攴环?2010年全球數(shù)據(jù)量跨入ZB時(shí)代,預(yù)計(jì)2011年全球數(shù)據(jù)量將達(dá)到1.8ZB;未來全球數(shù)據(jù)增速將會(huì)維持,預(yù)計(jì)到2020年全球數(shù)據(jù)量將達(dá)到令人恐怖的35ZB.[6]10月Gartner將大數(shù)據(jù)列入2012年十大戰(zhàn)略新興技術(shù).2012年1月,瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇發(fā)布報(bào)告《大數(shù)據(jù),大影響》指出數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別.2012年3月美國(guó)奧巴馬政府推出了大數(shù)據(jù)研究和發(fā)展計(jì)劃投資兩億多美元推動(dòng)大數(shù)據(jù)相關(guān)的采集、組織、分析、決策工具及技術(shù)研究,計(jì)劃將大數(shù)據(jù)技術(shù)用于高科技領(lǐng)域.5月,Tom White在書中介紹了構(gòu)建可靠、可擴(kuò)展的Apache Hadoop分布式系統(tǒng),為程序員分析數(shù)據(jù)和管理員配置和運(yùn)行Hadoop集群提供了權(quán)威指導(dǎo).在第三版中也增加了MapReduce API、MapReduce2和YARN的部分.5月微軟研究院的SurajitChaudhuri在中描述了基于大數(shù)據(jù)和云計(jì)算的數(shù)據(jù)管理研究面臨隱私保護(hù)(Data Privacy)、近似查詢結(jié)果(Approximate Results)、數(shù)據(jù)探索與分析(Data Exploration To Enable Deep Analytics)、企業(yè)數(shù)據(jù)集成(Enterprise Data Enrichment)、面向租戶進(jìn)行性能隔離(Performance Isolation For Multi-Tenancy)的6個(gè)挑戰(zhàn).12月,Chen等在發(fā)表文章,采用文獻(xiàn)計(jì)量學(xué)研究了商務(wù)智能分析領(lǐng)域的演進(jìn)、應(yīng)用、前沿及研究框架.2013年3月,Cukier在一書中,前瞻性地指出大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,分三個(gè)部分講述了大數(shù)據(jù)時(shí)代的思維變革、商業(yè)變革和管理變革.明確指出放棄對(duì)因果關(guān)系的渴求而關(guān)注相關(guān)關(guān)系,大數(shù)據(jù)的核心就是預(yù)測(cè).書中展示了谷歌、微軟、亞馬遜、IBM等大數(shù)據(jù)先鋒們最具價(jià)值的應(yīng)用案例.4月,Murdoch在中討論大數(shù)據(jù)在衛(wèi)生保健中的應(yīng)用,借助經(jīng)濟(jì)模型強(qiáng)調(diào)了應(yīng)用中將面臨的機(jī)遇和挑戰(zhàn),建議通過加強(qiáng)病人和醫(yī)生數(shù)據(jù)的收集來提高衛(wèi)生保健的服務(wù)質(zhì)量和效率.6月,Marx在中介紹了生命科學(xué)大數(shù)據(jù)的增長(zhǎng)態(tài)勢(shì),指出了存儲(chǔ)和分析異構(gòu)復(fù)雜數(shù)據(jù)面臨的挑戰(zhàn)以及云計(jì)算在生命科學(xué)大數(shù)據(jù)的應(yīng)用.由此可見,在大數(shù)據(jù)快速發(fā)展期主要研究重點(diǎn)是大數(shù)據(jù)處理的生態(tài)系統(tǒng)構(gòu)建及業(yè)界學(xué)界的行業(yè)產(chǎn)業(yè)應(yīng)用實(shí)踐.
歷經(jīng)Toffler的大數(shù)據(jù)預(yù)言,Dean、White、Byers、Murdoch等一大批研究者的研究探索,大數(shù)據(jù)研究主題以大數(shù)據(jù)的應(yīng)用前景、大數(shù)據(jù)概念、大數(shù)據(jù)生態(tài)系統(tǒng)構(gòu)建和業(yè)界學(xué)界應(yīng)用落地為主線,呈現(xiàn)了大數(shù)據(jù)研究與大數(shù)據(jù)應(yīng)用交織演進(jìn)的態(tài)勢(shì).可以預(yù)見,2014年后,大數(shù)據(jù)研究開始轉(zhuǎn)向行業(yè)領(lǐng)域應(yīng)用系統(tǒng)集成、大數(shù)據(jù)分析、管理及生態(tài)系統(tǒng)優(yōu)化方向.
研究熱點(diǎn)可通過引文的主題詞出現(xiàn)頻率來探測(cè).設(shè)置CiteSpace參數(shù)生成2012~2014大數(shù)據(jù)研究熱點(diǎn)圖譜(見下圖).
圖2012 ~2014大數(shù)據(jù)研究熱點(diǎn)圖譜
圖譜中的方形結(jié)點(diǎn)表示主題詞,文字是主題詞標(biāo)簽,節(jié)點(diǎn)的大小代表出現(xiàn)的頻次.從研究熱點(diǎn)的年度分布看,2012年大數(shù)據(jù)研究的熱點(diǎn)是hadoop生態(tài)系統(tǒng),2013年度熱點(diǎn)是異構(gòu)數(shù)據(jù)的管理和可視化技術(shù), 2014年研究熱點(diǎn)是大數(shù)據(jù)分析及生態(tài)系統(tǒng)的完善和體系化.將熱點(diǎn)主題詞進(jìn)行同義詞合并,得出大數(shù)據(jù)研究主要主題詞排序,依次是大數(shù)據(jù)(big data)、大數(shù)據(jù)分析(big data analytics)、云計(jì)算(cloud computing)、mapreduce、數(shù)據(jù)挖掘(data mining)、hadoop、大數(shù)據(jù)應(yīng)用(big data application)、模型(model)、機(jī)器學(xué)習(xí)(machine learning)、大數(shù)據(jù)時(shí)代(big data era)、系統(tǒng)(systems)和社交媒體(social media),big data(大數(shù)據(jù))的節(jié)點(diǎn)最大,這跟本身是檢索主題詞有關(guān).(見表3).
表32012 ~2014大數(shù)據(jù)研究熱點(diǎn)
熱點(diǎn)詞big data analytics(大數(shù)據(jù)分析)指根據(jù)分析主題需求,基于云計(jì)算技術(shù),采用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等數(shù)據(jù)分析方法,發(fā)現(xiàn)大數(shù)據(jù)價(jià)值的過程.從大數(shù)據(jù)分析支撐技術(shù)來看,大數(shù)據(jù)中絕大部分都是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)缺乏可擴(kuò)展性已經(jīng)無法進(jìn)行分析處理,而以mapreduce實(shí)現(xiàn)分析處理和以GFS、HDFS為代表的分布式文件系統(tǒng)具有良好的橫向擴(kuò)展能力,現(xiàn)已成為大數(shù)據(jù)分析的主流技術(shù).大數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程的核心,通過分析過程發(fā)掘大數(shù)據(jù)價(jià)值并將其應(yīng)用到推薦系統(tǒng)、商業(yè)智能、決策支持等諸多領(lǐng)域.熱點(diǎn)詞cloud computing(云計(jì)算)為大數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析等提供支撐和基礎(chǔ)平臺(tái).云計(jì)算是一種大規(guī)模的分布式模型,通過網(wǎng)絡(luò)將抽象的、可伸縮的、便于管理的數(shù)據(jù)能源、服務(wù)、存儲(chǔ)方式等傳遞給終端用戶,[7]最典型的就是以分布式文件系統(tǒng)GFS、批處理技術(shù)mapreduce、分布式數(shù)據(jù)庫(kù)BigTable為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺(tái)Hadoop.云計(jì)算從技術(shù)層面強(qiáng)調(diào)單個(gè)節(jié)點(diǎn)的計(jì)算能力最大化,大數(shù)據(jù)從效用層面強(qiáng)調(diào)數(shù)據(jù)價(jià)值最大化.熱點(diǎn)詞mapreduce是Google公司和Hadoop開源軟件框架共有的核心計(jì)算模型.大數(shù)據(jù)處理模式主要有流處理和批處理兩種,流處理是直接處理,而批處理則是先存儲(chǔ)后處理.流處理應(yīng)用場(chǎng)景主要有網(wǎng)頁(yè)點(diǎn)擊數(shù)的實(shí)時(shí)統(tǒng)計(jì)、傳感器網(wǎng)絡(luò)、金融中的高頻交易等,比較代表性的開源系統(tǒng)如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等.批處理模式應(yīng)用場(chǎng)景主要有離線和近線處理,mapreduce是最具代表性的批處理模式,其核心思想在于"分而治之",把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效地避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通信開銷.mapreduce將運(yùn)行大規(guī)模集群上的復(fù)雜的并行計(jì)算過程高度地抽象為Map和Reduce兩個(gè)函數(shù),mapreduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理. Map任務(wù)從輸入中解析出鏈/值(Key/Value)對(duì)集合,然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤.Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后會(huì)根據(jù)key值進(jìn)行排序,將具有相同Key值的組織在一起,最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果.[8]data mining(數(shù)據(jù)挖掘)是數(shù)據(jù)分析師針對(duì)業(yè)務(wù)分析需求,利用各種分析工具從海量數(shù)據(jù)中挖掘出隱含的、未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì),并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過程.數(shù)據(jù)挖掘的任務(wù)有分類與回歸、聚類、關(guān)聯(lián)規(guī)則、時(shí)序模式、偏差檢測(cè)五個(gè)方面.數(shù)據(jù)挖掘過程包括定義挖掘目標(biāo)、數(shù)據(jù)取樣、數(shù)據(jù)探索、預(yù)處理、模式發(fā)現(xiàn)、模型構(gòu)建、模型評(píng)價(jià)七個(gè)步驟,常用的數(shù)據(jù)挖掘工具有SAS Enterprise Miner、SPSSClementine、IBMMiner、MATLAB、WEKA.[9]熱點(diǎn)詞Hadoop是目前最為流行的大數(shù)據(jù)處理平臺(tái),已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(kù)(HBase)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem),Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實(shí)上的標(biāo)準(zhǔn).
從大數(shù)據(jù)處理流程來看,大數(shù)據(jù)處理流程可劃分為數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋四個(gè)階段,[10]研究熱點(diǎn)中大數(shù)據(jù)分析、云計(jì)算、mapreduce和數(shù)據(jù)挖掘都屬于大數(shù)據(jù)分析環(huán)節(jié).從大數(shù)據(jù)生態(tài)系統(tǒng)來看,大數(shù)據(jù)分析和數(shù)據(jù)挖掘都屬于大數(shù)據(jù)分析的范疇,是實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的前提,云計(jì)算和mapreduce都屬于云計(jì)算的范疇,為大數(shù)據(jù)提供了存儲(chǔ)和分布式計(jì)算,由此說明,支撐大數(shù)據(jù)系統(tǒng)的基礎(chǔ)平臺(tái)和大數(shù)據(jù)分析是大數(shù)據(jù)研究的最熱門主題.
[1]Dean J,Ghemawat S.Mapreduce:Simplified data processing on large clusters[J].Communications of TheACM,2008,51(1):107-113.
[2]Nature.Big data:Science in the petabyte Era[EB/OL]. [2014-10-13].http://www.nature.com/nature/journal/ v455/n7209/edsumm/e080904-01.html.
[3]Lynch C.Big data:How do your data grow?[J]. nature,2008(455):28-29.
[4]Science.Special online collection:dealing with big data [EB/OL].[2014-10-13].http://www.sciencemag. org/site/special/data/.
[5]Trelles O,et al.Big data,but are we ready?[J]. NatureReviews Genetics,2011(12):224.
[6]IDC.Extracting Value from Chaos[EB/OL].[2014-09-18].http://www.emc.com/collateral/analyst-reports/ idc-extracting-value-from-chaos-ar.pdf.
[7]Foster I,et al.Cloud computing and grid computing 360-degree compared[C]//Proceedings of the Grid Computing Environments Workshop 2008(GCE'08). Austin:IEEE,2008:1-10.
[8]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[9]張良均,等.數(shù)據(jù)挖掘:實(shí)用案例分析[M].北京:機(jī)械工業(yè)出版社,2013,6.
[10]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,40(6):957-972.
G250.252;G255.76
B
1005-8214(2015)10-0054-04
本文系2010年國(guó)家社會(huì)科學(xué)基金項(xiàng)目"網(wǎng)頁(yè)內(nèi)容分析與挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)方法研究"(項(xiàng)目編號(hào): 10BTQ034),廣東省教育科學(xué)"十二五"規(guī)劃教育信息技術(shù)研究專項(xiàng)課題"構(gòu)建適應(yīng)項(xiàng)目化教學(xué)的網(wǎng)絡(luò)課程系統(tǒng)研究"(項(xiàng)目編號(hào):12JXN020)的成果之一.
趙建保(1978-),男,廣東農(nóng)工商職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系講師,研究方向:可視化、可視分析和Web工程;黃曉斌(1961-),男,中山大學(xué)資訊管理學(xué)院教授,博士生導(dǎo)師,研究方向:競(jìng)爭(zhēng)情報(bào)、網(wǎng)絡(luò)信息開發(fā)利用.
2014-11-17[責(zé)任編輯]劉丹