閆亞飛,張立佳,賈 蘋
(1.中國科學(xué)院文獻情報中心,北京 100190;2,河北省科學(xué)院,河北 石家莊 050081)
隨著信息通信技術(shù)的廣泛運用,以及新模式、新業(yè)態(tài)的不斷涌現(xiàn),人類的社會生產(chǎn)生活方式正在發(fā)生深刻的變革,數(shù)字經(jīng)濟作為一種全新的社會經(jīng)濟形態(tài),正逐漸成為全球經(jīng)濟增長重要的驅(qū)動力。大數(shù)據(jù)是信息技術(shù)發(fā)展的必然產(chǎn)物,更是信息化進程的新階段,其發(fā)展推動了數(shù)字經(jīng)濟的形成與繁榮。
2008年,《自然》(Nature)雜志邀請科研領(lǐng)域和商業(yè)領(lǐng)域的專家,對未來十年將會改變世界的技術(shù)進行預(yù)測,并發(fā)表??疊ig data: The next Google,其中第一次正式提出“大數(shù)據(jù)”概念[1]。2011年,《科學(xué)》(Science)雜志發(fā)表??疍ealing with Data: Training New Scientists中,分析了大數(shù)據(jù)在信任、安全、數(shù)據(jù)存儲、復(fù)用、基礎(chǔ)設(shè)施建設(shè)等方面帶來的挑戰(zhàn)[2]。2011年,麥肯錫發(fā)布研究報告,報告明確大數(shù)據(jù)定義:大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能力的數(shù)據(jù)集[3]。研究機構(gòu)Gartner給出大數(shù)據(jù)定義,即 “大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[4]。
根據(jù)國際數(shù)據(jù)公司IDC全球最新數(shù)據(jù)支出指南預(yù)測[5],全球大數(shù)據(jù)市場投資規(guī)模將在2025年超過3500億美元,五年預(yù)測期內(nèi)(2021-2025年)實現(xiàn)約12.8%的復(fù)合增長率。2021年,美國的大數(shù)據(jù)市場規(guī)模超過1100億美元,其次是日本,大數(shù)據(jù)規(guī)模約為124億美元;中國大數(shù)據(jù)市場規(guī)模達到119億美元,預(yù)計在2025年超過250億美元。
隨著大數(shù)據(jù)市場規(guī)模的持續(xù)增加,大數(shù)據(jù)技術(shù)得到進一步的提升,大數(shù)據(jù)應(yīng)用也進一步普及。目前大數(shù)據(jù)已經(jīng)廣泛應(yīng)用于制造業(yè)、金融業(yè)、汽車行業(yè)、能源行業(yè)、城市管理和生命健康等多個領(lǐng)域。大數(shù)據(jù)與制造業(yè)相融合,可以推進制造業(yè)綠色轉(zhuǎn)型發(fā)展[6],實現(xiàn)成本精細化管理[7]、促進企業(yè)管理方式改善[8]、提高智能制造水平[9]等。大數(shù)據(jù)與金融行業(yè)相融合,可以轉(zhuǎn)變服務(wù)模式[10]、提高金融風(fēng)險控制管理[11]、提升金融統(tǒng)計能力[12]、支撐金融信貸決策[13]等。大數(shù)據(jù)與汽車行業(yè)相融合,可以開展事故追蹤分析[14]、充電用戶行為分析[15]、提高運行風(fēng)險管控[16]、加強出租車資源規(guī)劃[17]、進行服務(wù)營銷及其策略研究[18]等。大數(shù)據(jù)與能源行業(yè)相融合,可以提高新能源接入配電網(wǎng)比例狀態(tài)[19]、促進能源管控[20],推動構(gòu)建智能開放的能源體系[21]。大數(shù)據(jù)與城市管理相融合,可以提高城市政務(wù)服務(wù)能力[22]、推動城市安全治理[23-24]、構(gòu)建智能交通運維系統(tǒng)[25],提升城市綜合管理效率[26],推進城市規(guī)劃研究[27]。大數(shù)據(jù)與生命健康相融合,能夠提升醫(yī)療服務(wù)效率[28],提高區(qū)域疾病防控能力[29]、打破醫(yī)療信息孤島[30]、推進精準(zhǔn)醫(yī)療發(fā)展[31]等。
為了占據(jù)大數(shù)據(jù)發(fā)展制高點,世界主要大國已把大數(shù)據(jù)納入到國家戰(zhàn)略并開始重點部署實施。美國、英國、德國、中國等國家政府高度重視大數(shù)據(jù)產(chǎn)業(yè)發(fā)展[32],自2012年來,密集出臺多項專門政策予以支持。
2012年美國白宮科技政策辦公室發(fā)布《大數(shù)據(jù)研究和發(fā)展計劃》,成立“大數(shù)據(jù)高級指導(dǎo)小組”,宣布投資2億美元發(fā)展大數(shù)據(jù)研究,通過對海量、復(fù)雜數(shù)字信息收集、整理,增強數(shù)量采集和分析萃取功能,提升預(yù)測能力;2013年,美國信息技術(shù)與創(chuàng)新基金會發(fā)布《支持數(shù)據(jù)驅(qū)動型創(chuàng)新的技術(shù)與政策》報告,提出政府要大力培養(yǎng)所需技能勞動力,推動大數(shù)據(jù)技術(shù)研發(fā),制定數(shù)據(jù)共享法律,提高公眾的數(shù)據(jù)共享意識;2014年,美國發(fā)布《大數(shù)據(jù):把握機遇,守護價值》白皮書,積極調(diào)解個人隱私保護與大數(shù)據(jù)發(fā)展之間的沖突;2016年美國發(fā)布《聯(lián)邦大數(shù)據(jù)研發(fā)戰(zhàn)略計劃》,形成涵蓋技術(shù)研發(fā)、數(shù)據(jù)可信度、基礎(chǔ)設(shè)施、數(shù)據(jù)開放與共享、隱私安全與倫理、人才培養(yǎng)以及多主體協(xié)同等7個維度的頂層設(shè)計,打造面向未來的大數(shù)據(jù)創(chuàng)新生態(tài);2019年,美國白宮行政管理和預(yù)算辦公室(OMB)發(fā)布《聯(lián)邦數(shù)據(jù)戰(zhàn)略與2020年行動計劃》,描述了美國聯(lián)邦政府未來十年的數(shù)據(jù)愿景,并初步確定了各政府機構(gòu)在2020年需要采取的關(guān)鍵行動。
2012年英國頒布《政府?dāng)?shù)字化戰(zhàn)略》,由英國商業(yè)創(chuàng)新技能部牽頭,成立數(shù)據(jù)戰(zhàn)略委員會,通過大數(shù)據(jù)開放,為政府、私人部門、第三方組織和個體提供相關(guān)服務(wù),吸納更多技術(shù)力量和資金拓寬數(shù)據(jù)來源,實現(xiàn)大數(shù)據(jù)驅(qū)動的社會經(jīng)濟增長;2013年,英國政府發(fā)布《把握數(shù)據(jù)機遇:英國數(shù)據(jù)能力戰(zhàn)略》,從強化數(shù)據(jù)分析技術(shù)、加強國家基礎(chǔ)設(shè)施建設(shè)、推動研究與產(chǎn)研合作、確保數(shù)據(jù)安全存取與共享等方面做出部署;2017年,英國政府發(fā)布《數(shù)字英國戰(zhàn)略》,其中要求通過多項舉措釋放數(shù)據(jù)潛力,創(chuàng)新、高效的使用數(shù)據(jù),推進政府?dāng)?shù)據(jù)開放共享;2020年英國數(shù)字、文化、媒體和體育部(DCMS)發(fā)布《國家數(shù)據(jù)戰(zhàn)略》,支持英國對數(shù)據(jù)的使用,幫助該國經(jīng)濟從疫情中復(fù)蘇。
2014年德國推出《2014—2017年數(shù)字議程》,提出打造具有國際競爭力的“數(shù)字強國”,設(shè)立研發(fā)計劃促進大數(shù)據(jù)等技術(shù)的市場化,開發(fā)推廣安全的大數(shù)據(jù)應(yīng)用;2018年,德國聯(lián)席科學(xué)會議推出國家科研數(shù)據(jù)基礎(chǔ)設(shè)施計劃,決定未來十年內(nèi)建設(shè)30家科學(xué)數(shù)據(jù)中心,每年提供8500萬歐元的資助;2021年,德國政府發(fā)布《聯(lián)邦政府?dāng)?shù)據(jù)戰(zhàn)略》,確立了可持續(xù)的數(shù)據(jù)基礎(chǔ)設(shè)施、促進數(shù)據(jù)創(chuàng)新并負責(zé)任地使用數(shù)據(jù)、提高數(shù)字能力并打造數(shù)字文化、加強國家數(shù)字治理四大行動領(lǐng)域。
2012年澳大利亞政府發(fā)布《澳大利亞公共服務(wù)信息與通信技術(shù)戰(zhàn)略2012—2015》,提出增強政府機構(gòu)的數(shù)據(jù)分析能力,并計劃制定一份大數(shù)據(jù)戰(zhàn)略;2014年,澳大利亞政府信息管理辦公室(AGIMO)發(fā)布《公共服務(wù)大數(shù)據(jù)戰(zhàn)略》,推進公共行業(yè)大數(shù)據(jù)服務(wù)改革,保護公民隱私。
2015年,中國國務(wù)院發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》,對我國大數(shù)據(jù)發(fā)展進行了頂層設(shè)計和總體部署;2016年,《中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》中,提出了實施國家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源;2017年,工信部發(fā)布《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》,明確強化大數(shù)據(jù)技術(shù)產(chǎn)品研發(fā),深化工業(yè)大數(shù)據(jù)創(chuàng)新應(yīng)用;2017年,大數(shù)據(jù)被寫入黨的“十九大”報告,提出推動大數(shù)據(jù)與實體經(jīng)濟深度融合;2020年《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》中,大數(shù)據(jù)被證實列為新型生產(chǎn)要素;2021年工業(yè)和信息化部發(fā)布《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,提出完善大數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)。
本文以大數(shù)據(jù)為關(guān)鍵詞構(gòu)建檢索策略,利用Web of Science核心合集數(shù)據(jù)庫,檢索近十年的大數(shù)據(jù)領(lǐng)域研究論文。構(gòu)建檢索式 ((TI=(“big data” or “bigdata”) OR AK=(“big data” or “bigdata”) OR KP=(“big data” or “bigdata”))) AND PY=(2012—2021),在剔除掉噪聲文獻后,最終獲得相關(guān)論文49143篇。利用Derwent Data Analyzer(DDA)軟件、VOSviewer等軟件對論文數(shù)據(jù)進行可視化分析。
2012—2019年期間,全球大數(shù)據(jù)領(lǐng)域研究論文整體呈現(xiàn)逐年上升趨勢,并在2019年達到最高峰。隨后的2020年和2021年發(fā)表論文總量相比2019年均有所下降。從發(fā)展趨勢上來看,2012—2013年,全球主要國家在大數(shù)據(jù)宣傳方面達到高潮,2013年被稱為大數(shù)據(jù)元年,許多國家在該領(lǐng)域出臺相應(yīng)的支持政策;2014—2019年期間,大數(shù)據(jù)概念體系逐步形成,相關(guān)技術(shù)、產(chǎn)品和標(biāo)準(zhǔn)不斷發(fā)展,產(chǎn)業(yè)應(yīng)用更加廣泛,大數(shù)據(jù)創(chuàng)新生態(tài)體系不斷完善。
在大數(shù)據(jù)領(lǐng)域研究方面,美國多年來保持領(lǐng)先地位,2012—2017年期間,年度發(fā)文數(shù)量穩(wěn)居全球第一;中國緊隨其后,并于2018年超過美國。英國、印度和德國的年度發(fā)文量與全球發(fā)展趨勢一致,逐年上升,但與美國和中國相比,差距較大,2013年起,三個國家的年度發(fā)文總和均低于中國的年度發(fā)文量。如圖1所示。
圖1 大數(shù)據(jù)領(lǐng)域年度發(fā)表論文趨勢
全球已有多個國家在大數(shù)據(jù)領(lǐng)域進行相關(guān)研究,其中發(fā)文量較多的10個國家分別是美國、中國、英國、印度、德國、澳大利亞、意大利、西班牙、加拿大和韓國。其中美國在該領(lǐng)域發(fā)文數(shù)量最多,為12393篇,占全球研究論文的25.21%;其次是中國,在該領(lǐng)域發(fā)文12218篇,全球占比為24.86%;排在第三位的是英國,在該領(lǐng)域發(fā)文4604篇,全球占比為9.36%。其它7個國家的發(fā)文全球占比也均超過了3.6%。如表1所示。
大數(shù)據(jù)領(lǐng)域研究的國際合作較為密切,全球發(fā)表論文數(shù)量TOP10國家的國際合作論文占比平均值為44.16%。國際合作論文占比超過50%的國家分別是澳大利亞(66.42%)、加拿大(59.06%)、德國(51.19%)和西班牙(50.50%)。中國和印度兩個國家的國際合作論文占比相對較低,在30%以下。從國家之間的科研合作來看,TOP10國家均與美國和英國有較為密切的合作關(guān)系,其次是中國,另外這些國家也與澳大利亞、瑞士、意大利和巴基斯坦等國家在該領(lǐng)域建立了合作關(guān)系。
從發(fā)文主導(dǎo)率來看,TOP10國家的第一作者發(fā)文占比均超過了40%。其中中國在大數(shù)據(jù)領(lǐng)域的第一作者發(fā)文占比超過了70%;其次是美國、印度和韓國,第一作者發(fā)文占比均超過60%;說明這些國家在該領(lǐng)域的自主研發(fā)能力較強,處于第一梯隊。意大利、西班牙和德國的第一作者發(fā)文占比超過了50%,這些國家的自主研發(fā)能力居中,處于第二梯隊。加拿大、澳大利亞和英國的第一作者發(fā)文占比在40%以上,處于第三梯隊。
全球在大數(shù)據(jù)領(lǐng)域發(fā)文最多的50個機構(gòu)中,美國有25個機構(gòu),占比達50%;其次是中國,有11個機構(gòu);澳大利亞的機構(gòu)有4個,英國的機構(gòu)有3個;其它機構(gòu)則分別來自意大利、印度、法國、加拿大和沙特阿拉伯。排名前10機構(gòu)見表2。
發(fā)文數(shù)量排在前3位的機構(gòu)分別是中國科學(xué)院、加州大學(xué)和倫敦大學(xué),發(fā)文數(shù)量均超過550篇。從論文篇均被引量來看,哈佛大學(xué)、斯坦福大學(xué)、麻省理工學(xué)院和上海交通大的論文質(zhì)量較高,篇均被引均超過了25次。利用H指數(shù)對科研機構(gòu)的發(fā)文水平進行對比,美國加州大學(xué)發(fā)文的H指數(shù)最高,達到63;其次是中國科學(xué)院和哈佛大學(xué),H指數(shù)分別為56和55。
中國科學(xué)院在該領(lǐng)域發(fā)文數(shù)量最多,高被引論文主要研究熱點聚焦在遙感大數(shù)據(jù)計算、大數(shù)據(jù)分析系統(tǒng)、大數(shù)據(jù)研究挑戰(zhàn)、旅游大數(shù)據(jù)研究、大數(shù)據(jù)資源庫、基于大數(shù)據(jù)的交通流預(yù)測、基于大數(shù)據(jù)的生物信息學(xué)深度學(xué)習(xí)、大數(shù)據(jù)應(yīng)用的高效數(shù)據(jù)遷移和備份、物聯(lián)網(wǎng)數(shù)據(jù)挖掘、基于大數(shù)據(jù)的游客人數(shù)預(yù)測、使用有效二階解算器預(yù)測丟失的QoS數(shù)據(jù)、農(nóng)業(yè)遙感大數(shù)據(jù)、遙感大數(shù)據(jù)管理和處理、科學(xué)大數(shù)據(jù)、基于大數(shù)據(jù)的生物信息云、社交媒體大數(shù)據(jù)應(yīng)用等方面。
加州大學(xué)在該領(lǐng)域發(fā)文數(shù)量僅次于中國科學(xué)院,其高被引論文主要研究熱點聚焦在大數(shù)據(jù)處理引擎、基于大數(shù)據(jù)的新型冠狀病毒疾病應(yīng)對分析、醫(yī)療大數(shù)據(jù)、大數(shù)據(jù)在計量經(jīng)濟學(xué)的應(yīng)用、大數(shù)據(jù)技術(shù)挑戰(zhàn)、社會感知數(shù)據(jù)研究、邊緣計算范式、大數(shù)據(jù)分析機遇和威脅、大數(shù)據(jù)系分析處理、基于大數(shù)據(jù)的地理知識發(fā)現(xiàn)、基于大數(shù)據(jù)的無線通信、醫(yī)療健康大數(shù)據(jù)等方面。
表1 大數(shù)據(jù)領(lǐng)域主要發(fā)文國家
全球發(fā)文量TOP50機構(gòu)中,除了中國科學(xué)院之外,中國在大數(shù)據(jù)領(lǐng)域的研究機構(gòu)還有清華大學(xué)(7)、武漢大學(xué)(14)、華中科技大學(xué)(15)、香港理工大學(xué)(20)、上海交通大學(xué)(24)、北京航空航天大學(xué)(27)、電子科技大學(xué)(29)、浙江大學(xué)(32)、北京郵電大學(xué)(40)和北京大學(xué)(43)。
清華大學(xué)在大數(shù)據(jù)領(lǐng)域發(fā)表論文413篇,國內(nèi)排名第二。高被引論文主要研究方向聚焦在遙感大數(shù)據(jù)計算、大數(shù)據(jù)信息安全、大數(shù)據(jù)可視化分析、多媒體大數(shù)據(jù)組織模型、基于社交媒體大數(shù)據(jù)的城市突發(fā)事件檢測、大數(shù)據(jù)驅(qū)動的移動流量預(yù)測方法、視頻監(jiān)控大數(shù)據(jù)的語義表示與組織、高效節(jié)能的大數(shù)據(jù)流計算、大數(shù)據(jù)網(wǎng)絡(luò)魯棒因果關(guān)系挖掘、基于大數(shù)據(jù)的智能制造、城市大數(shù)據(jù)與城市智能化發(fā)展等方面。
表2 大數(shù)據(jù)領(lǐng)域主要研究機構(gòu)(排名前10)
大數(shù)據(jù)領(lǐng)域研究機構(gòu)之間的科研合作非常密集,TOP30發(fā)文機構(gòu)之間呈現(xiàn)出區(qū)域性合作網(wǎng)絡(luò)。如圖2所示。
網(wǎng)絡(luò)區(qū)域①美國機構(gòu)的合作網(wǎng)絡(luò),各機構(gòu)之間相互合作頻繁,以加州大學(xué)、哈佛大學(xué)、斯坦福大學(xué)、密歇根大學(xué)、賓夕法尼亞大學(xué)等為主體構(gòu)建了本土龐大的合作網(wǎng)絡(luò)。其中加州大學(xué)在大數(shù)據(jù)領(lǐng)域合作機構(gòu)范圍最為廣泛,除了與本土機構(gòu)之間合作緊密外,還與中國、英國和澳大利亞的各主要機構(gòu)有著密切的合作關(guān)系。
網(wǎng)絡(luò)區(qū)域②主要是中國機構(gòu)的合作網(wǎng)絡(luò),各機構(gòu)之間合作非常密切,構(gòu)建了以中國科學(xué)院、清華大學(xué)、中國科學(xué)技術(shù)大學(xué)、香港港理工大學(xué)等為主體的合作網(wǎng)絡(luò),其中中國科學(xué)院也與美國、英國和澳大利亞等地區(qū)的各個主要機構(gòu)有著密切的合作關(guān)系。
網(wǎng)絡(luò)區(qū)域③是英國機構(gòu)的合作網(wǎng)絡(luò),主要由牛津大學(xué)、倫敦大學(xué)和不列顛哥倫比亞大學(xué)構(gòu)成;牛津大學(xué)與美國的加州大學(xué)、哈佛大學(xué)、華盛頓大學(xué)等多個機構(gòu)有合作關(guān)系,還與中國科學(xué)院、北航大學(xué)、武漢大學(xué)、北京大學(xué)等多個機構(gòu)有合作關(guān)系;同時還與澳大利亞的西南威爾士大學(xué)、悉尼大學(xué)、墨爾本大學(xué)有合作關(guān)系。
網(wǎng)絡(luò)區(qū)域④是澳大利亞機構(gòu)為主的合作網(wǎng)絡(luò),主要由墨爾本大學(xué)、新南威爾士大學(xué)、悉尼大學(xué)和悉尼科技大學(xué)構(gòu)成;其中墨爾本大學(xué)與美國的加州大學(xué)、華盛頓大學(xué)、密歇根大學(xué)等機構(gòu)有密切的合作;與中國的上海交通大學(xué)、華中科技大學(xué)、香港理工大學(xué)等機構(gòu)有密切的合作;同時與英國的3個機構(gòu)也有合作。
圖2 大數(shù)據(jù)領(lǐng)域主要機構(gòu)合作關(guān)系
大數(shù)據(jù)領(lǐng)域的研究獲得了全球多個機構(gòu)的基金資助,資助產(chǎn)出論文最多的20個基金機構(gòu)中,美國和中國最多,都有5個基金資助機構(gòu);其次是英國和日本,分別有2個基金資助機構(gòu);德國、澳大利亞、加拿大、巴西、歐盟和西班牙各有1個資金資助機構(gòu)。排名前5機構(gòu)如表3所示。
中國國家自然科學(xué)基金在大數(shù)據(jù)領(lǐng)域資助產(chǎn)出論文4074篇,主要資助的科研機構(gòu)有中國科學(xué)院、清華大學(xué)和武漢大學(xué)。主要資助主題方向有工業(yè)物聯(lián)網(wǎng)、數(shù)據(jù)挖掘、基于大數(shù)據(jù)的交通流預(yù)測方法、機器學(xué)習(xí)、大數(shù)據(jù)服務(wù)、大數(shù)據(jù)擴展系統(tǒng)、基于大數(shù)據(jù)的智能制造、智能社區(qū)大數(shù)據(jù)分析、大數(shù)據(jù)驅(qū)動的智能能源管理、基于醫(yī)療大數(shù)據(jù)的疾病預(yù)測、遙感大數(shù)據(jù)計算、大數(shù)據(jù)處理的機器學(xué)習(xí)等方面。
美國國家科學(xué)基金會在大數(shù)據(jù)領(lǐng)域資助產(chǎn)出論文1559篇,主要資助機構(gòu)有加州大學(xué)、佛羅里達州立大學(xué)和德克薩斯大學(xué)。主要資助主題方向有商業(yè)大數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)帶來的影響、大數(shù)據(jù)分析挑戰(zhàn)、大數(shù)據(jù)生態(tài)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)與云計算、大數(shù)據(jù)機器學(xué)習(xí)、基于大數(shù)據(jù)與小數(shù)據(jù)的出行行為分析、大數(shù)據(jù)結(jié)構(gòu)優(yōu)化算法等方面。
歐盟委員會在大數(shù)據(jù)領(lǐng)域資助產(chǎn)出論文1361篇,主要資助機構(gòu)有倫敦大學(xué)、牛津大學(xué)和法國國家科學(xué)研究中心。主要資助領(lǐng)域主題方向有大數(shù)據(jù)機器學(xué)習(xí)、開放大數(shù)據(jù)、大數(shù)據(jù)緩存、科學(xué)大數(shù)據(jù)、基于大數(shù)據(jù)的物種多樣性分析、對地觀測大數(shù)據(jù)分析、大數(shù)據(jù)與工業(yè)4.0、全球傳染病監(jiān)測大數(shù)據(jù)、健康大數(shù)據(jù)分析等方面。如圖3所示。
表3 大數(shù)據(jù)領(lǐng)域發(fā)文主要資助基金機構(gòu)(排名前5)
圖3 大數(shù)據(jù)領(lǐng)域主要學(xué)科方向
利用Web of Science數(shù)據(jù)庫的學(xué)科體系進行分類,大數(shù)據(jù)領(lǐng)域論文的主要研究方向聚焦在計算機科學(xué)信息系統(tǒng)、計算機科學(xué)理論方法、計算機科學(xué)與人工智能、電信、計算機科學(xué)跨學(xué)科應(yīng)用、計算機科學(xué)軟件工程、計算機科學(xué)硬件架構(gòu)等方面,另外也在電氣電子工程、管理、商業(yè)、信息科學(xué)與圖書館學(xué)、環(huán)境科學(xué)、運籌與管理科學(xué)、自動化控制系統(tǒng)和多學(xué)科工程方面有相關(guān)研究。
對大數(shù)據(jù)領(lǐng)域的TOP200高頻主題詞進行聚類,構(gòu)建基于共詞矩陣的知識圖譜,如圖4所示。圖中每個節(jié)點代表1個關(guān)鍵詞,節(jié)點越大該詞出現(xiàn)的頻次越高;縱坐標(biāo)位置由下到上表示該主題次出現(xiàn)的平均時間由遠及近,靠近頂部為近3年的研究熱點。大數(shù)據(jù)領(lǐng)域的熱點研究主題詞主要可以聚類為6個方向。
(1)大數(shù)據(jù)在生命健康領(lǐng)域應(yīng)用研究,主要關(guān)鍵詞有大數(shù)據(jù)、人工智能、社交媒體分析、行為分析、新冠肺炎、數(shù)據(jù)挖掘、風(fēng)險模式、hadoop、生物信息、倫理學(xué)、精準(zhǔn)醫(yī)療等,近兩年的研究熱點關(guān)鍵詞有新冠肺炎、人工智能、診斷、驗證等。
(2)大數(shù)據(jù)管理研究,主要關(guān)鍵詞有大數(shù)據(jù)分析、管理、知識管理、數(shù)據(jù)科學(xué)、商業(yè)智能、協(xié)作、內(nèi)容分析、用戶接受度、數(shù)據(jù)質(zhì)量、生命周期評估等,近兩年的研究熱點關(guān)鍵詞有循環(huán)經(jīng)濟、內(nèi)容分析、生命周期評估、商業(yè)模式、用戶接受度等。
(3)大數(shù)據(jù)應(yīng)用相關(guān)技術(shù),主要關(guān)鍵詞有物聯(lián)網(wǎng)、智慧城市、云計算、區(qū)塊鏈、隱私、安全、通信、優(yōu)化、傳感器網(wǎng)絡(luò)、5G、邊緣計算、能效、霧計算、云制造、智能電網(wǎng)、智能合約等,近兩年的研究熱點關(guān)鍵詞有數(shù)據(jù)模型、認證、邊緣計算、使能技術(shù)、區(qū)塊鏈、電動汽車、智能合約等。
(4)大數(shù)據(jù)關(guān)鍵技術(shù)研究,主要關(guān)鍵詞有機器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)分析、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、預(yù)測、計算智能、入侵檢測、時間序列、異常檢測等,近兩年的研究熱點關(guān)鍵詞有異常檢測、入侵檢測、預(yù)測、神經(jīng)網(wǎng)絡(luò)和計算智能等。
(5)大數(shù)據(jù)在工業(yè)領(lǐng)域應(yīng)用研究,主要關(guān)鍵詞有工業(yè)4.0、網(wǎng)絡(luò)物理系統(tǒng)、智能制造、先進技術(shù)、數(shù)字孿生、智能工程、增強現(xiàn)實、數(shù)字化轉(zhuǎn)型、故障診斷、數(shù)字化、自動化等,近兩年的研究熱點關(guān)鍵詞有數(shù)字化轉(zhuǎn)型、數(shù)字孿生、工業(yè)4.0、智能制造、精準(zhǔn)農(nóng)業(yè)等。
(6)大數(shù)據(jù)在開放科學(xué)和共享方面研究,主要關(guān)鍵詞有分析學(xué)、文獻綜述、研究議程、情緒分析、滿意度、質(zhì)量、在線評論、認知計算、共享經(jīng)濟、推薦系統(tǒng)等,近兩年的研究熱點關(guān)鍵詞有推薦系統(tǒng)、客戶滿意度、韌性、情緒分析等。
經(jīng)過多年發(fā)展,大數(shù)據(jù)從一個新興的技術(shù)方向,正在成為融入實體經(jīng)濟發(fā)展各領(lǐng)域的要素、資源和動力。全球主要國家如美國、中國、英國、德國、澳大利亞等紛紛出臺相關(guān)政策,推動大數(shù)據(jù)產(chǎn)業(yè)發(fā)展。
2012—2019年期間,全球大數(shù)據(jù)研究領(lǐng)域年度發(fā)文整體呈現(xiàn)上升趨勢。美國和中國在該領(lǐng)域發(fā)文數(shù)量最多,中國近幾年的發(fā)文量逐步超過美國,位居全球第一。美國在大數(shù)據(jù)研究領(lǐng)域的發(fā)文機構(gòu)數(shù)量最多,TOP50機構(gòu)中,有50%的機構(gòu)來自美國;中國科學(xué)院在該領(lǐng)域發(fā)表論文數(shù)量最多。
全球在該領(lǐng)域的科研合作非常密切,整體呈現(xiàn)4大區(qū)域性合作網(wǎng)絡(luò),分別為美國機構(gòu)合作網(wǎng)絡(luò)、中國機構(gòu)合作網(wǎng)絡(luò)、英國機構(gòu)合作網(wǎng)絡(luò)、澳大利亞機構(gòu)合作網(wǎng)絡(luò),除了區(qū)域內(nèi)部合作外,各個網(wǎng)絡(luò)之間也有非常密切的科研合作。
大數(shù)據(jù)領(lǐng)域研究熱點研究方向聚焦在6個方面,分別是:大數(shù)據(jù)在生命健康領(lǐng)域應(yīng)用、大數(shù)據(jù)管理研究、大數(shù)據(jù)應(yīng)用關(guān)鍵技術(shù)、大數(shù)據(jù)關(guān)鍵技術(shù)研究、大數(shù)據(jù)在工業(yè)領(lǐng)域應(yīng)用研究、大數(shù)據(jù)在開放科學(xué)和共享方面研究。高頻主題詞有:大數(shù)據(jù)、人工智能、社交媒體分析、精準(zhǔn)醫(yī)療、大數(shù)據(jù)分析、生命周期評估、數(shù)據(jù)科學(xué)、物聯(lián)網(wǎng)、智慧城市、隱私、安全、智能合約、預(yù)測、神經(jīng)網(wǎng)絡(luò)、計算智能、數(shù)字化轉(zhuǎn)型、數(shù)字孿生、智能制造、韌性、情緒分析等。
中國在大數(shù)據(jù)領(lǐng)域起步較早,研究機構(gòu)和發(fā)文數(shù)量都位居前列,論文研究主導(dǎo)率和研究質(zhì)量也較高,并且形成了穩(wěn)定而廣泛的合作網(wǎng)絡(luò)。未來將與更多的國家開展研究合作,共同推進全球的技術(shù)進步。
隨著大數(shù)據(jù)技術(shù)與各行各業(yè)的融合應(yīng)用,數(shù)據(jù)價值逐漸凸顯,同時也產(chǎn)生了信息孤島、隱私安全、管理規(guī)范等問題。未來大數(shù)據(jù)領(lǐng)域應(yīng)加強對數(shù)據(jù)分析技術(shù)的研究,提高數(shù)據(jù)價值挖掘效用;加強大數(shù)據(jù)與云計算、區(qū)塊鏈等信息技術(shù)的協(xié)同發(fā)展,保護數(shù)據(jù)隱私安全;面向全球、國家和機構(gòu)等不同用戶維度,建立分層次的數(shù)據(jù)治理體系;提高觀念意識,促進開發(fā)科學(xué)數(shù)據(jù)共享和發(fā)展。