聶恒輝 陳大春
摘要:本文運(yùn)用Excel和CiteSpace軟件繪制了作者、機(jī)構(gòu)、關(guān)鍵詞等相關(guān)知識(shí)圖譜,對(duì)我國(guó)自2010年起在知網(wǎng)(CNKI)刊載的大數(shù)據(jù)應(yīng)用研究性文獻(xiàn)進(jìn)行分析并得出結(jié)論。研究發(fā)現(xiàn):各研究機(jī)構(gòu)及作者之間的聯(lián)系較少,缺乏溝通合作;研究熱點(diǎn)主題有云計(jì)算、人工智能、大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘等等,其中人工智能為我國(guó)大數(shù)據(jù)應(yīng)用研究的主要研究趨勢(shì)。
關(guān)鍵詞:大數(shù)據(jù)應(yīng)用;可視化分析;關(guān)鍵詞聚類分析
隨著科技和社會(huì)經(jīng)濟(jì)的發(fā)展,“大數(shù)據(jù)”的概念應(yīng)運(yùn)而生,它的出現(xiàn)開(kāi)啟了大規(guī)模應(yīng)用、分享、儲(chǔ)存數(shù)據(jù)的時(shí)代。大數(shù)據(jù)的特點(diǎn)是體量大、種類多、速度快、價(jià)值高,能讓我們通過(guò)對(duì)大量數(shù)據(jù)的處理統(tǒng)計(jì)去分析事物的其他方面,它代表了一種新的數(shù)據(jù)管理與統(tǒng)計(jì)分析的技術(shù),同時(shí)也打開(kāi)了另一種全新的思維方式和角度。
大數(shù)據(jù)的發(fā)展經(jīng)歷了三個(gè)階段:一是萌芽時(shí)期(20世紀(jì)90年代到21世紀(jì)初),1997年美國(guó)國(guó)家航空航天局在研究數(shù)據(jù)可視化中首次提出了“大數(shù)據(jù)”的概念,1998年《science》雜志上發(fā)表了一篇名為《大數(shù)據(jù)科學(xué)的可視化》的文章,“大數(shù)據(jù)”作為一個(gè)正式的公共名詞出現(xiàn)在大眾的視野里。二是發(fā)展時(shí)期(21世紀(jì)初期至2010年),隨著信息技術(shù)和互聯(lián)網(wǎng)行業(yè)的興起,大數(shù)據(jù)也進(jìn)入了快速發(fā)展時(shí)期,其特點(diǎn)和概念得到進(jìn)一步豐富。三是繁榮時(shí)期(2010年至今),專家們根據(jù)大數(shù)據(jù)分析預(yù)測(cè)未來(lái)、指導(dǎo)實(shí)踐的深層次應(yīng)用將成為發(fā)展重點(diǎn)[1]。
近年來(lái),隨著人們對(duì)大數(shù)據(jù)的深入研究,越來(lái)越多的研究者將大數(shù)據(jù)技術(shù)應(yīng)用于不同的專業(yè)方向,該領(lǐng)域的論文數(shù)量也大大增加。為了更全面的把握大數(shù)據(jù)在目前各行業(yè)中的應(yīng)用進(jìn)展,本文采用可視化工具分析了大數(shù)據(jù)技術(shù)應(yīng)用方向的研究熱點(diǎn)和前沿。
1 研究方法
本研究采用CiteSpace作為主要研究工具,同時(shí)使用Excel表格作為輔助研究工具。在CNKI的高級(jí)檢索中選擇“文獻(xiàn)”的主題檢索,檢索條件為文章主題、文章關(guān)鍵詞、文章篇名均為“大數(shù)據(jù)應(yīng)用”“大數(shù)據(jù)研究”的文章,檢索文獻(xiàn)發(fā)表時(shí)間為“2010年一2020年”,共獲得文獻(xiàn)1975篇(2020年9月10日檢索)。將目標(biāo)文獻(xiàn)全部選中,按CiteSpace所需參考文獻(xiàn)格式Refworks進(jìn)行導(dǎo)出并轉(zhuǎn)碼儲(chǔ)存,并進(jìn)行Excel的可視化處理,得到本文所需要的研究數(shù)據(jù)。
2 數(shù)據(jù)研究分析
2.1 基本概況分析
圖1顯示了我國(guó)大數(shù)據(jù)的相關(guān)研究性文獻(xiàn)在知網(wǎng)( CNKI)發(fā)文量隨年代變化的情況。由表可看出,2010-2014年期間,文章整體的發(fā)文量較少,均在200篇以下;自2015年起,相關(guān)文獻(xiàn)的發(fā)文量呈現(xiàn)出可觀的趨勢(shì),2020年發(fā)文量達(dá)到頂峰。由此可知大數(shù)據(jù)的研究在我國(guó)的關(guān)注度持續(xù)上升,并且可以預(yù)計(jì)在未來(lái)幾年內(nèi)其熱度仍然不會(huì)減少。
2.2 關(guān)鍵詞聚類分析
關(guān)鍵詞聚類分析是將關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)關(guān)系通過(guò)聚類統(tǒng)計(jì)學(xué)的方法簡(jiǎn)化成數(shù)目相對(duì)較少聚類的過(guò)程[2]。通過(guò)對(duì)關(guān)鍵詞進(jìn)行聚類分析,來(lái)得到我國(guó)大數(shù)據(jù)的研究方向趨勢(shì)。
運(yùn)行CiteSpace,設(shè)置節(jié)點(diǎn)類型為關(guān)鍵詞,選取cluster選項(xiàng),設(shè)定呈最大的現(xiàn)12個(gè)聚類集合,得到如圖2所示關(guān)鍵詞聚類網(wǎng)絡(luò)圖譜。圖中呈現(xiàn)了“大數(shù)據(jù)”“大數(shù)據(jù)研究”“云平臺(tái)”“大數(shù)據(jù)技術(shù)”“醫(yī)療健康”“存儲(chǔ)系統(tǒng)”等12個(gè)聚類,反應(yīng)了我國(guó)大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)。通過(guò)分析不難看出,大數(shù)據(jù)幾乎存在于所有的社會(huì)領(lǐng)域,背后隱藏著復(fù)雜的新理念和應(yīng)用價(jià)值[3]。
2.3 關(guān)鍵詞突現(xiàn)分析
關(guān)鍵詞突現(xiàn)是指在一個(gè)特定的時(shí)間內(nèi)被引用的頻率爆炸式增長(zhǎng)的情況,運(yùn)行CiteSpace,參數(shù)設(shè)置“Burstterms”,選取最具有代表性的七個(gè)關(guān)鍵詞突現(xiàn),得到關(guān)鍵詞突現(xiàn)圖(見(jiàn)圖3)。
由圖中可看出,最早出現(xiàn)的突現(xiàn)詞為“物聯(lián)網(wǎng)”,說(shuō)明物聯(lián)網(wǎng)行業(yè)是近十年來(lái)最早的大數(shù)據(jù)應(yīng)用案例,但是13年以后突現(xiàn)率消失,說(shuō)明迅速被大數(shù)據(jù)的其他應(yīng)用領(lǐng)域所取代;2012-2014年間的突現(xiàn)詞為“云計(jì)算”、“大數(shù)據(jù)時(shí)代”“數(shù)據(jù)挖掘”;2017-2018年間突現(xiàn)詞為“應(yīng)用”“城市規(guī)劃”;2018-2020年間突現(xiàn)詞為“人工智能”。目前“人工智能”的突現(xiàn)率一直延續(xù)至今,可說(shuō)明該突現(xiàn)詞是目前我國(guó)大數(shù)據(jù)研究的主要方向。
2.4 關(guān)鍵詞時(shí)序分析
關(guān)鍵詞時(shí)序圖能夠在一定程度上反映某一時(shí)間段內(nèi)的研究趨勢(shì),因此運(yùn)行CiteSpace,在關(guān)鍵詞共現(xiàn)分析基礎(chǔ)上,按時(shí)間片段生成關(guān)鍵詞時(shí)序圖譜(見(jiàn)圖4)。
該圖連接節(jié)點(diǎn)為516個(gè),連線數(shù)為1385條,說(shuō)明雖然大數(shù)據(jù)的研究機(jī)構(gòu)、研究作者之間聯(lián)系較少,缺乏溝通。但是大數(shù)據(jù)的研究方向之間聯(lián)系非常密切,各項(xiàng)技術(shù)的應(yīng)用和變革都是依次展開(kāi),緊密相關(guān)的。從圖中可看出在不同時(shí)期的關(guān)注點(diǎn)不同,自2010年以來(lái),大數(shù)據(jù)首先用在“物聯(lián)網(wǎng)”和“電力”上,隨著時(shí)間推移漸漸地向“云計(jì)算”、“Hadoop"數(shù)據(jù)挖掘”“電信”“農(nóng)業(yè)”等不同方向發(fā)展,說(shuō)明了大數(shù)據(jù)技術(shù)正在逐步滲透到各個(gè)行業(yè)領(lǐng)域。
3 結(jié)論與展望
文章基于知網(wǎng)( CNKI)數(shù)據(jù)庫(kù),運(yùn)用相關(guān)的可視化分析軟件,對(duì)2010-2020這十年間大數(shù)據(jù)的應(yīng)用研究情況進(jìn)行了較完整的分析。從發(fā)文量來(lái)看,在該領(lǐng)域發(fā)表的文章總體上升,并且在2014年以后出現(xiàn)程度較大的增長(zhǎng),這表明大數(shù)據(jù)的相關(guān)研究關(guān)注度會(huì)越來(lái)越高;從高產(chǎn)機(jī)構(gòu)和核心作者來(lái)看,各機(jī)構(gòu)和各作者之間的研究缺乏合作交流,關(guān)聯(lián)性較小;從文獻(xiàn)突現(xiàn)來(lái)看,雖然近十年來(lái)最先走入人們視線的大數(shù)據(jù)研究方向是物聯(lián)網(wǎng),但研究熱點(diǎn)正逐漸轉(zhuǎn)到人工智能上,并還可能會(huì)持續(xù)一段時(shí)間;從關(guān)鍵詞聚類和時(shí)序分析來(lái)看,前期的研究,尤其是2012-2014年這段時(shí)間,大多集中在大數(shù)據(jù)分析、物聯(lián)網(wǎng)、云計(jì)算上。后期出現(xiàn)了關(guān)鍵詞人工智能、云平臺(tái)和其他大數(shù)據(jù)產(chǎn)業(yè),表明了研究者的關(guān)注點(diǎn)也隨著生產(chǎn)生活方式的變化正在逐步轉(zhuǎn)移??傊?,大數(shù)據(jù)技術(shù)是一種新型技術(shù),其應(yīng)用情景廣闊,大數(shù)據(jù)技術(shù)在應(yīng)用過(guò)程中,不斷完善,不斷革新技術(shù),以適應(yīng)現(xiàn)代社會(huì)發(fā)展需要[4]。
大數(shù)據(jù)是將大量的原始數(shù)據(jù)匯集在一起以預(yù)測(cè)以后事物的發(fā)展趨勢(shì),有助于人們做出正確的決策,取得更大的收益[5]。目前大數(shù)據(jù)的相關(guān)研究正處于井噴式增長(zhǎng)期,具體的應(yīng)用已經(jīng)在各個(gè)領(lǐng)域取得了許多突破性的進(jìn)展,毫無(wú)疑問(wèn),大數(shù)據(jù)的應(yīng)用研究將在很大程度上改變?nèi)藗兊墓ぷ魃罘绞?。大?shù)據(jù)時(shí)代,倘若能夠更加有效地組織和使用數(shù)據(jù),人們將得到更多的機(jī)會(huì)發(fā)揮科學(xué)技術(shù)對(duì)社會(huì)發(fā)展的巨大推動(dòng)作用[6]。我們期待在未來(lái)幾年能夠出現(xiàn)更多重大突破。
參考文獻(xiàn)
[1]梅宏.大數(shù)據(jù)發(fā)展現(xiàn)狀與未來(lái)趨勢(shì)[J].交通運(yùn)輸研究,2019,5 (05):1-11.
[2]林德明,陳超美,劉則淵,共被引網(wǎng)絡(luò)中介中心性的Zipf-Pareto分布研究[J].情報(bào)學(xué)報(bào),2011 (1):76-82.鐘偉金,李佳,楊興菊,共詞分析法研究(三)一共詞聚類分析法的原理與特點(diǎn)[J].情報(bào)雜志,2008 (7):118-120.
[3]曾雷.大數(shù)據(jù)研究綜述[J].軟件導(dǎo)刊,201 5,14 (08):1-2.
[4]唐國(guó)宇,陸文成,大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J],電子技術(shù)與軟件工程,2017 (19):156-157.
[5]劉智慧,張泉靈,大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,48 (06):957-972.
[6]楊京,王效岳,白如江,祝娜,大數(shù)據(jù)背景下數(shù)據(jù)科學(xué)分析工具現(xiàn)狀及發(fā)展趨勢(shì)[J].情報(bào)理論與實(shí)踐,2015,38 (03):134-137+144.
作者簡(jiǎn)介
聶恒輝(1993-),男,山東省濟(jì)南市人。碩士研究生。研究方向?yàn)橛?xùn)練評(píng)估。
陳大春(1971-)(通訊作者),男,浙江省東陽(yáng)市人。副教授。研究方向?yàn)檐娛陆逃?/p>