王富祥
(1.淮陰師范學(xué)院 法政學(xué)院,江蘇 淮安 223001;2.中國人民大學(xué) 勞動(dòng)人事學(xué)院,北京 100872)
基于知識圖譜的大數(shù)據(jù)研究可視化分析
王富祥1,2
(1.淮陰師范學(xué)院 法政學(xué)院,江蘇 淮安 223001;2.中國人民大學(xué) 勞動(dòng)人事學(xué)院,北京 100872)
知識圖譜;大數(shù)據(jù);可視化;文獻(xiàn)計(jì)量
為了深入探討目前國內(nèi)大數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀與趨勢,從文獻(xiàn)計(jì)量和知識圖譜的角度分析大數(shù)據(jù)研究進(jìn)展和熱點(diǎn)問題。針對CNKI數(shù)據(jù)庫中SCI、EI和CSSCI收錄的“關(guān)鍵詞=大數(shù)據(jù)”的2010-2015年間的1371條文獻(xiàn),采用文獻(xiàn)計(jì)量分析法、知識圖譜法,借助于可視化工具Citespace III對文獻(xiàn)進(jìn)行分析,探討了大數(shù)據(jù)研究領(lǐng)域核心作者群、文獻(xiàn)來源、機(jī)構(gòu)分布、學(xué)科領(lǐng)域分布以及研究層析情況,研究了目前國內(nèi)大數(shù)據(jù)領(lǐng)域的熱點(diǎn)問題。
(二)研究方法
本文采用文獻(xiàn)計(jì)量法和知識圖譜對檢索得到的文獻(xiàn)進(jìn)行深入研究和探索。采用Citespace III對檢索的文獻(xiàn)進(jìn)行可視化研究,充分挖掘大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)和科研動(dòng)態(tài)。Citespace是美國德雷賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院陳超美博士與大連理工大學(xué)WISE實(shí)驗(yàn)室聯(lián)合開發(fā)的科學(xué)文獻(xiàn)分析工具。Citespace是用來分析和可視化共被引網(wǎng)絡(luò)的Java程序、通用方法。基于信息科學(xué)中“研究前沿”和“知識基礎(chǔ)”間的時(shí)間對偶概念,并實(shí)現(xiàn)了兩個(gè)互補(bǔ)視圖:聚焦視圖和時(shí)區(qū)視圖[12]。
(一)年載文量分析
文獻(xiàn)的數(shù)量從某種程度可以反應(yīng)某一領(lǐng)域的研究水平和未來發(fā)展趨勢,表1列出了2010年到2015年六年間大數(shù)據(jù)領(lǐng)域論文發(fā)表數(shù)量變化情況。從表1中可以看出,2010年國內(nèi)尚未出版關(guān)于大數(shù)據(jù)的研究論文,在2011年僅有一篇,由中國人民大學(xué)王珊等人發(fā)表在《計(jì)算機(jī)學(xué)報(bào)》中的《架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望》。2012年論文發(fā)表數(shù)量有所增加,占總篇數(shù)的1.17%,但增加幅度很小,從2013年開始有關(guān)大數(shù)據(jù)的論文發(fā)表數(shù)量較前三年,數(shù)量明顯增加,2013年的發(fā)表論文百分比由2010年的零百分比增加到14.08%,到2015年論文發(fā)表百分比已經(jīng)增加至50.4%,占近五年論文總篇數(shù)的一半。從論文發(fā)表情況可以看出,國內(nèi)對大數(shù)據(jù)的研究從2012年開始已經(jīng)受到密切關(guān)注,論文發(fā)表數(shù)量增加幅度較快,已經(jīng)成為目前研究熱點(diǎn)問題。這種發(fā)展趨勢和變化從某個(gè)側(cè)面也反應(yīng)了學(xué)術(shù)界和工業(yè)界對大數(shù)據(jù)領(lǐng)域研究和發(fā)展的高度重視,這與國家推出大數(shù)據(jù)發(fā)展戰(zhàn)略計(jì)劃和各級政府部門對大數(shù)據(jù)的重視是分不開的。比如,2012年3月22日,奧巴馬政府將大數(shù)據(jù)定義為“未來的石油”,聯(lián)合國也在2012年發(fā)布了大數(shù)據(jù)政務(wù)白皮書,2012年7月21日,在國內(nèi)舉行了大數(shù)據(jù)論壇,交流大數(shù)據(jù)前沿技術(shù)、實(shí)踐應(yīng)用、經(jīng)營模式等[13]。根據(jù)以上分析可知,大數(shù)據(jù)研究目前已經(jīng)成為熱點(diǎn)問題,未來將出現(xiàn)更多的研究成果,大數(shù)據(jù)的實(shí)踐應(yīng)用將進(jìn)一步深度融入到各行各業(yè)中。
表1 CNKI中SCI、EI、CSSCI檢索的大數(shù)據(jù)相關(guān)論文年載文量分布情況
(二)著者分析
通過分析作者發(fā)文情況可以了解某個(gè)領(lǐng)域中作者群的成熟度。根據(jù)普萊斯定律,核心作者發(fā)文數(shù) (其中 表示發(fā)文最多著者的論文數(shù), 為核心作者最低發(fā)文量)[14],本文通過人工查閱的方式得出發(fā)文量最多的作者的論文數(shù)為11篇,由此計(jì)算得出 ,應(yīng)將3篇以上作者確定為重要作者,經(jīng)過分析得出發(fā)文量在3篇以上的作者一共有40位,共發(fā)表論文176篇,遠(yuǎn)遠(yuǎn)低于文獻(xiàn)總量的一半,而普萊斯定律認(rèn)為:“杰出科學(xué)家”或“核心作者群”將完成該研究領(lǐng)域50%以上的論文[15]。這說明大數(shù)據(jù)相關(guān)論文較多,但總體上看,國內(nèi)研究大數(shù)據(jù)的核心作者的貢獻(xiàn)率較低,學(xué)術(shù)水平和論文質(zhì)量還有待提高。由于篇幅的限制,只選擇了部分作者,如表2所示。從表2中可以看出,中國人民大學(xué)作者發(fā)文量最多,總數(shù)達(dá)到21篇,分別為喻國明教授,主要從事新聞媒體類研究,其次為孟小峰教授,主要從事大數(shù)據(jù)管理方面的研究,李彪教授主要從事社會輿情、新聞媒體類研究。桂林理工大學(xué)張興旺和李晨暉共發(fā)表論文19篇、蘭州商學(xué)院陳臣和馬曉婷共發(fā)表論文16篇、南京大學(xué)陳云松、甄峰和蘇新寧共發(fā)表14篇、北京大學(xué)李廣建和化柏林發(fā)表論文10篇。使用Citespace III可視化軟件將各作者的發(fā)文數(shù)量以及作者之間的合作情況用知識圖譜的形式直觀展示出來,在Citespace III中設(shè)置相關(guān)參數(shù)如下:時(shí)區(qū)分割(Time Slicing)設(shè)置為2010-2015,單個(gè)時(shí)間分區(qū)的長度(Years PerSlice)設(shè)置為1年,閾值設(shè)置為Top 100,詞類型設(shè)置為None,節(jié)點(diǎn)類型(Node Type)選擇為作者(Author),運(yùn)行程序得到作者共現(xiàn)知識圖譜,如圖1所示。圖1中,每個(gè)節(jié)點(diǎn)表示一個(gè)作者,節(jié)點(diǎn)大小表示作者發(fā)文量的多少,節(jié)點(diǎn)越大表示發(fā)文量越多,節(jié)點(diǎn)之間的連線表示作者之間有合作關(guān)系,連線越粗表示作者之間的合作次數(shù)越多,節(jié)點(diǎn)的年輪反映的是作者發(fā)文的時(shí)間結(jié)構(gòu),色調(diào)由冷變暖表明時(shí)間由遠(yuǎn)及近。圖1的作者共現(xiàn)知識圖譜中一共有285個(gè)節(jié)點(diǎn),132條連線。以發(fā)表論文數(shù)量最多的喻國明教授為例,從圖1中可以看到喻國明教授所對應(yīng)的節(jié)點(diǎn)最大,證實(shí)了他的發(fā)文量11篇是最多的,還可以看出喻國明教授與何睿、宋美杰有合作,喻教授是中國傳播學(xué)實(shí)證研究領(lǐng)域的領(lǐng)軍人物,從上世紀(jì)八十年代中期至今,他已經(jīng)主持進(jìn)行了400余項(xiàng)具有廣泛學(xué)術(shù)影響的實(shí)證研究項(xiàng)目,特別是近五年,喻教授在調(diào)查數(shù)據(jù)的價(jià)值挖掘、智能化文本分析技術(shù)在互聯(lián)網(wǎng)輿情監(jiān)測分析中的應(yīng)用,以及應(yīng)用認(rèn)知神經(jīng)科學(xué)的方法進(jìn)行傳播學(xué)研究,在學(xué)術(shù)界具有廣泛影響。發(fā)表的《傳播學(xué):大數(shù)據(jù)時(shí)代的新范式》被引頻次達(dá)到60次,該文主要分析了大數(shù)據(jù)基本特征,揭示大數(shù)據(jù)時(shí)代傳播學(xué)研究的變革和進(jìn)路,為大數(shù)據(jù)新聞實(shí)踐、輿情研究和品牌傳播等領(lǐng)域應(yīng)對大數(shù)據(jù)時(shí)代的到來提供全新的研究思路、架構(gòu)和方法[16]。綜合上述分析可知,正如第一部分引言所述,大數(shù)據(jù)領(lǐng)域的研究主要集中在新聞媒體類、社會輿情、計(jì)算機(jī)科學(xué)、圖書館、情報(bào)類。核心作者群主要集中在高校和研究院,在中國人民大學(xué)、桂林理工大學(xué)、蘭州商學(xué)院、南京大學(xué)、北京大學(xué)等高校已經(jīng)形成了穩(wěn)定的核心作者群。
表2 作者發(fā)文量排名表
圖1 作者共現(xiàn)知識圖譜
(三)文獻(xiàn)來源機(jī)構(gòu)分析
從文獻(xiàn)來源機(jī)構(gòu)角度看,由表4可知,中國人民大學(xué)、清華大學(xué)、武漢大學(xué)和南京大學(xué)為大數(shù)據(jù)領(lǐng)域文獻(xiàn)的高產(chǎn)機(jī)構(gòu)。文獻(xiàn)來源機(jī)構(gòu)排名從某個(gè)側(cè)面能反映某領(lǐng)域穩(wěn)定作者群分布情況。從表4中可知中國人民大學(xué)發(fā)表論文總篇數(shù)高達(dá)79篇之多,再次位居榜首,進(jìn)一步證明該高校具有穩(wěn)定的大數(shù)據(jù)研究的核心作者群,處于國內(nèi)領(lǐng)先水平,是大數(shù)據(jù)研究的核心機(jī)構(gòu)。清華大學(xué)和武漢大學(xué)發(fā)表論文篇數(shù)水平相當(dāng),南京大學(xué)和北京大學(xué)發(fā)表論文總篇數(shù)也不相上下。中國傳媒大學(xué)、蘭州商學(xué)院、華中師范大學(xué)發(fā)表論文總篇數(shù)均在20~30篇之間,上海交通大學(xué)和中國科學(xué)研究院計(jì)算機(jī)技術(shù)研究所發(fā)表論文近20篇,與排名第一的中國人民大學(xué)發(fā)表論文總數(shù)相差甚遠(yuǎn),在大數(shù)據(jù)研究已經(jīng)成為熱點(diǎn)的趨勢下,各高校和科研機(jī)構(gòu)應(yīng)學(xué)習(xí)和借鑒其他高校的研究方法和科研成果,提升大數(shù)據(jù)管理、處理和應(yīng)用能力,逐步提升在大數(shù)據(jù)領(lǐng)域的研究水平。使用Citespace III軟件,其他參數(shù)設(shè)置不變,將閾值Top 100設(shè)置為Top50,節(jié)點(diǎn)類型(Node Type)選擇為機(jī)構(gòu),運(yùn)行程序得到機(jī)構(gòu)共現(xiàn)知識圖譜如圖2所示。圖2中,每一個(gè)節(jié)點(diǎn)表示一個(gè)機(jī)構(gòu),節(jié)點(diǎn)大小表示機(jī)構(gòu)發(fā)文量的多少,節(jié)點(diǎn)之間的連線表示節(jié)點(diǎn)之間具有合作關(guān)系,連線越粗表示機(jī)構(gòu)之間合作的次數(shù)越多,節(jié)點(diǎn)的年輪結(jié)構(gòu)反映的是機(jī)構(gòu)發(fā)文的時(shí)間結(jié)構(gòu),色調(diào)由冷變暖表示時(shí)間由遠(yuǎn)及近,文獻(xiàn)來源機(jī)構(gòu)共現(xiàn)知識圖譜總共有131個(gè)節(jié)點(diǎn),27條邊,以中國人民大學(xué)新聞學(xué)院為例,由圖中可以看出,其所對應(yīng)的節(jié)點(diǎn)最大,說明發(fā)文量最多,并且與中國人民大學(xué)新聞與社會發(fā)展研究中心有合作關(guān)系。結(jié)合表4和圖2可以看出中國人民大學(xué)的新聞學(xué)院、信息學(xué)院、信息資源管理學(xué)院、統(tǒng)計(jì)學(xué)院,清華大學(xué)的計(jì)算機(jī)科學(xué)與技術(shù)系、新聞與傳播學(xué)院、社會科學(xué)學(xué)院、經(jīng)濟(jì)管理學(xué)院,武漢大學(xué)的計(jì)算機(jī)學(xué)院、信息管理學(xué)院、政治與公共管理學(xué)院,南京大學(xué)的社會學(xué)系、信息管理學(xué)院、工程管理學(xué)院為這些文獻(xiàn)的主要來源機(jī)構(gòu)。
表3 文獻(xiàn)來源機(jī)構(gòu)排名表
圖2 文獻(xiàn)來源機(jī)構(gòu)共現(xiàn)知識圖譜
(四)學(xué)科領(lǐng)域分析
對文獻(xiàn)進(jìn)行學(xué)科領(lǐng)域的分析,能有效把握大數(shù)據(jù)領(lǐng)域研究內(nèi)容的側(cè)重點(diǎn)。通過統(tǒng)計(jì)分析得出文獻(xiàn)主要集中在40個(gè)學(xué)科領(lǐng)域,本文選取排名前十的學(xué)科領(lǐng)域。從表6中可以看出,大數(shù)據(jù)研究領(lǐng)域主要分布在圖書情報(bào)與數(shù)字圖書館、計(jì)算機(jī)軟件與計(jì)算機(jī)應(yīng)用、新聞與傳媒、行政學(xué)及國家行政管理等學(xué)科領(lǐng)域,這與表3文獻(xiàn)出版來源分析結(jié)果相吻合。研究表明大數(shù)據(jù)是一個(gè)涉及多學(xué)科、多種信息技術(shù)、多行業(yè)的新研究領(lǐng)域,需要研究人員共同努力,積極加快大數(shù)據(jù)研究領(lǐng)域進(jìn)展、豐富大數(shù)據(jù)研究領(lǐng)域的成果。
表4 學(xué)科領(lǐng)域類別分布
(五)關(guān)鍵詞詞頻分析與共現(xiàn)分析
關(guān)鍵詞是一篇文獻(xiàn)的高度濃縮,是文獻(xiàn)的重點(diǎn)研究內(nèi)容,通過關(guān)鍵詞詞頻分析能夠確認(rèn)文獻(xiàn)所研究學(xué)科領(lǐng)域的研究熱點(diǎn)問題。本文使用Citespace III可視化軟件進(jìn)行關(guān)鍵詞詞頻和共現(xiàn)分析,設(shè)置相應(yīng)的參數(shù)為:其他參數(shù)不變,閾值設(shè)置為Top 50,節(jié)點(diǎn)類型(Node Type)選擇為關(guān)鍵詞(Keyword)。運(yùn)行程序得到關(guān)鍵詞詞頻排序表7和關(guān)鍵詞共現(xiàn)知識圖譜圖3。圖3中每個(gè)節(jié)點(diǎn)表示一個(gè)關(guān)鍵詞,節(jié)點(diǎn)大小表示關(guān)鍵詞的頻次,節(jié)點(diǎn)之間的連線表示關(guān)鍵詞具有共現(xiàn)關(guān)系,兩個(gè)節(jié)點(diǎn)之間的連線越粗表示兩個(gè)關(guān)鍵詞共現(xiàn)頻次越高。結(jié)合表7和圖3可以看出,大數(shù)據(jù)研究所采用的主要關(guān)鍵技術(shù)包括云計(jì)算、數(shù)據(jù)挖掘等,主要應(yīng)用領(lǐng)域包括圖書館、電子政務(wù)、新聞、知識服務(wù)等行業(yè)。Citespace III可視化軟件通過Time-Zone時(shí)區(qū)圖可以探索研究領(lǐng)域的發(fā)展與演進(jìn)軌跡,由圖4可以看出大數(shù)據(jù)一詞從2010年一直持續(xù)到2015年,近五年中大數(shù)據(jù)在云計(jì)算、圖書館、數(shù)據(jù)挖掘等方面的研究備受關(guān)注。
表5 關(guān)鍵詞詞頻排序
圖3 關(guān)鍵詞共現(xiàn)知識圖譜
圖4 研究前沿Time-Zone圖
本文從文獻(xiàn)的年載文量、著者來源、文獻(xiàn)來源、學(xué)科領(lǐng)域、研究層次、關(guān)鍵詞詞頻、共現(xiàn)、文獻(xiàn)被引頻次等方面對CNKI數(shù)據(jù)庫中從2010年到2015年SCI、EI以及CSSCI有關(guān)大數(shù)據(jù)的論文進(jìn)行了研究與分析,統(tǒng)計(jì)了目前國內(nèi)大數(shù)據(jù)研究熱點(diǎn)和發(fā)展趨勢,得出國內(nèi)大數(shù)據(jù)研究自2012年進(jìn)入了快速發(fā)展階段,在中國人民大學(xué)、桂林理工大學(xué)等高校已經(jīng)形成了核心作者群,以中國人民大學(xué)、清華大學(xué)、武漢大學(xué)和南京大學(xué)為代表的高校是大數(shù)據(jù)主要研究機(jī)構(gòu),計(jì)算機(jī)科學(xué)與技術(shù)、新聞媒體、圖書館、情報(bào)、社會輿情等是大數(shù)據(jù)主要研究的學(xué)科領(lǐng)域,在專業(yè)實(shí)用技術(shù)、基礎(chǔ)教育和中等職業(yè)教育等研究層次關(guān)注度較低,目前國內(nèi)還處于大數(shù)據(jù)研究初期,缺乏大數(shù)據(jù)實(shí)用性成果。大數(shù)據(jù)是一個(gè)涉及多學(xué)科的技術(shù),研究人員和學(xué)者應(yīng)該多交流、加強(qiáng)合作逐步形成一支世界領(lǐng)先的穩(wěn)定、強(qiáng)實(shí)的大數(shù)據(jù)研究團(tuán)隊(duì),爭取在大數(shù)據(jù)實(shí)用性方面取得輝煌成績。
[1]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,(6):957-972.
[2]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,(9):1889-1908.
[3]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013,(S2):216-233.
[4]朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書館的挑戰(zhàn)及其應(yīng)對策略[J].現(xiàn)代情報(bào),2013,(5):9-13.
[5]孫杰,賀晨.大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)金融創(chuàng)新及傳統(tǒng)銀行轉(zhuǎn)型[J].財(cái)經(jīng)科學(xué),2015,(1):11-16.
[6]陳堅(jiān)林.大數(shù)據(jù)時(shí)代的慕課與外語教學(xué)研究——挑戰(zhàn)與機(jī)遇[J].外語電化教育,2015,(1):3-8.
[7]David Goldston. Big data: Data wrangling[J]. Nature, 2008, 455(7209):15.
[8]O. J. Reichman, Matthew B. Jones, Mark P. Schildhauer. Challenges and opportunities of open data in ecology[J]. Science,2011,331(6018):703-705.
[9]Wang YZ, Jin XL, Cheng XQ. Network big data: Present and future[J]. Chinese Journal of Computers, 2013, 36(6):1125-1138.
[10]Gantz J, Reinsel D. Extracting value from chaos[EB/OL]. [2014-09-20]. http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.
[11]維克托·邁爾·舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:113.
[12]Chen, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.
[13]2012大數(shù)據(jù)論壇[EB/OL] . [2012-07-24]. http://huod.itxinwen.com/2012bigdata/.
[14]羅式勝.文獻(xiàn)計(jì)量學(xué)概論[M].廣州:中山大學(xué)出版社,1994:309-310.
[15]馮琳.國外信息用戶研究的文獻(xiàn)計(jì)量分析[J].圖書館學(xué)研究,2010,(14):2-5.
[16]喻國明,王斌,李彪,等.傳播學(xué)研究:大數(shù)據(jù)時(shí)代的新范式[J].新聞?dòng)浾撸?013,(6):22-27.
Visualization Analysis of Big Data Research Based on Knowledge Mapping
WANG Fu-xiang1,2
(1.School of Law Politics and Public Management, Huaiyin Normal University, Huai'an Jiangsu 223001, China; 2.School of Labor and Human Resources, Renmin University of China, Beijing 100872, China)
:knowledge mapping; big data; visualization; bibliometric
In order to deeply discuss the trends of big data research in China, we studied the hotspots of big data from the perspective of bibliometric and knowledge mapping. In CNKI database, 1371literatures which are indexed by SCI、EI and CSSCI are based on big data. Bibliometric analysis、knowledge mapping and Citespace III software were used to discuss primal authors、 reference source、institutions distribution、subject distribution and research rank in the field of big data, big data hotspots were also studied in this paper.
2095-2708(2017)01-0056-07
G250.252
A
一、數(shù)據(jù)來源和研究方法
知網(wǎng)(CNKI)學(xué)術(shù)文獻(xiàn)
總庫中收錄的“關(guān)鍵詞=大數(shù)據(jù)”的文獻(xiàn)作為數(shù)據(jù)來源。由于國內(nèi)開展大數(shù)據(jù)研究工作比較晚,檢索時(shí)設(shè)定時(shí)間跨度為2010年到2015年,檢索日期為2016年4月8日,期刊來源選擇:SCI、EI和CSSCI期刊進(jìn)行精確檢索得到1371篇文獻(xiàn)。
近年來,國內(nèi)對大數(shù)據(jù)研究的現(xiàn)狀、展望與挑戰(zhàn)的相關(guān)文獻(xiàn)學(xué)術(shù)成果不斷涌現(xiàn),涉及計(jì)算機(jī)科學(xué)、圖書館、情報(bào)、互聯(lián)網(wǎng)金融和高等教育等眾多領(lǐng)域[1-6]。“大數(shù)據(jù)”概念最早出現(xiàn)在《Nature》[7]雜志所設(shè)立的“Big Data”和《Science》[8]“Dealing with Data”???,專刊中主要涉及互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級計(jì)算機(jī)、環(huán)境科學(xué)生物醫(yī)藥等多個(gè)方面。什么是大數(shù)據(jù),目前尚未有統(tǒng)一的定義,從宏觀角度講,大數(shù)據(jù)是融合物理世界、信息空間和人類社會三元世界的紐帶[9],從信息產(chǎn)業(yè)角度講,大數(shù)據(jù)還是新一代信息技術(shù)產(chǎn)業(yè)的強(qiáng)勁推動(dòng)力。大數(shù)據(jù)及其研究領(lǐng)域極具影響力的領(lǐng)導(dǎo)者的國際數(shù)據(jù)公司(IDC)在2011年發(fā)布的報(bào)告中,總結(jié)了大數(shù)據(jù)具有4V特點(diǎn),即volume(體量大)、variety(模太多)、velocity(生成速度快)和value(價(jià)值大),4Vs特性指出了大數(shù)據(jù)的意義和必要性,就是如何從大數(shù)據(jù)中如挖掘價(jià)值[10],正如Facebook副總工程師杰伊·帕瑞克所言,“如果不利用所收集的數(shù)據(jù),那么你所擁有的只是一堆數(shù)據(jù),而不是大數(shù)據(jù)”[11]。本文從文獻(xiàn)計(jì)量和知識圖譜的角度分析大數(shù)據(jù)研究進(jìn)展和熱點(diǎn)問題。
(一)數(shù)據(jù)來源
華北理工大學(xué)學(xué)報(bào)(社會科學(xué)版)2017年1期