亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于共現(xiàn)分析的大數(shù)據(jù)熱點領(lǐng)域研究

        2014-01-13 08:01:38劉曉娟謝素萍
        圖書館理論與實踐 2014年9期

        ●劉曉娟,謝素萍

        (1.北京師范大學政府管理學院,北京100875;2.清華大學計算機與信息管理中心,北京100084)

        基于共現(xiàn)分析的大數(shù)據(jù)熱點領(lǐng)域研究

        ●劉曉娟1,謝素萍2

        (1.北京師范大學政府管理學院,北京100875;2.清華大學計算機與信息管理中心,北京100084)

        大數(shù)據(jù);共現(xiàn)分析;社會網(wǎng)絡(luò)分析

        以Scopus數(shù)據(jù)庫中1970~2013年間的“Big Data”相關(guān)數(shù)據(jù)作為分析對象,利用文獻計量分析工具Sci2,運用基本的統(tǒng)計和共現(xiàn)分析方法,進行論文發(fā)表時間、國別、文獻類型分布分析,以及合著分析、關(guān)鍵詞共現(xiàn)分析、共引分析,探討大數(shù)據(jù)研究的現(xiàn)狀、存在問題和發(fā)展趨勢。

        1 引言

        2012年3月29日,美國政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議(Big Data Research and DevelopmentⅠnitiative)”,來推進從大量的、復雜的數(shù)據(jù)集合中獲取知識的能力。該倡議涉及聯(lián)邦政府的6個部門,這些部門承諾投資將超過兩億美元,來大力推動和改善與大數(shù)據(jù)相關(guān)的收集、組織和分析工具及技術(shù)。[1]2012年底,Gartner公司(美國的信息技術(shù)研究與咨詢公司)公布了一份關(guān)于2012~2013年技術(shù)曲線成熟度(Hype Cycles)的報告,其中大數(shù)據(jù)成為這一曲線的關(guān)注對象,并指出大數(shù)據(jù)的發(fā)展正處于期望膨脹期,在未來2-5年將迎來其發(fā)展高峰期。[2]據(jù)谷歌趨勢[3]的統(tǒng)計,“Big Data”的搜索熱度從2010年底開始不斷上升,尤其是在2013年4月搜索熱度達到100,該數(shù)據(jù)的計算基礎(chǔ)是全球用戶將“Big Data”作為關(guān)鍵詞在Google中進行網(wǎng)頁搜索的頻次,在一定程度上可以代表大眾對“Big Data”的關(guān)注度。2008年9月,《Nature》雜志出版了一期??癇ig Data”,2011年2月,《Science》期刊聯(lián)合其姊妹刊推出了一期關(guān)于數(shù)據(jù)處理的專刊——“Dealing with data”。2012年9月,Elsevier的《Research Trends》雜志出版有關(guān)“Big Data”的??7N種跡象表明,無論是在企業(yè)界,還是在學術(shù)界,大數(shù)據(jù)均受到了熱切關(guān)注,成為熱點問題。

        學術(shù)論文中的共現(xiàn)現(xiàn)象,包括共同出現(xiàn)的主題(關(guān)鍵詞)、共同出現(xiàn)的被引作者、共同出現(xiàn)的被引文獻、共同出現(xiàn)的合作機構(gòu)以及論文與關(guān)鍵詞、機構(gòu)與作者共同出現(xiàn)等在不同論文間構(gòu)建的關(guān)聯(lián)關(guān)系是分析領(lǐng)域基本狀態(tài)的重要方面。本文將科研熱點領(lǐng)域定位在“Big Data”領(lǐng)域,利用共現(xiàn)分析方法,對該科研熱點進行關(guān)鍵詞共現(xiàn)、作者合著、論文同被引等多角度分析。

        2 數(shù)據(jù)來源及工具選擇

        為了構(gòu)建“Big Data”研究領(lǐng)域的數(shù)據(jù)集,盡管其他短語如“l(fā)arge datasets”或“big size data”可能與“big data”所指的概念相同,但本文所限定的研究領(lǐng)域是當前作為研究熱點的“big data”本身,所以檢索詞僅限于“big data”。筆者于2013年3月23日分別對Scopus和WoS兩個數(shù)據(jù)源進行檢索,檢索字段分別為“標題+摘要+關(guān)鍵詞”,“主題+標題”,獲得檢索結(jié)果分別為769條和237條記錄。盡管WoS的數(shù)據(jù)更加規(guī)范,易于處理,但文獻數(shù)量遠少于Scopus,不利于全面分析,因此本文選擇Scopus數(shù)據(jù)集作為分析對象。對檢索結(jié)果進一步人工檢查,刪除1970年以前的2條數(shù)據(jù)以及4條重復數(shù)據(jù)(題名與作者均相同),共得到763條有效數(shù)據(jù)。

        目前,國內(nèi)對共現(xiàn)分析的相關(guān)研究主要采用的工具包括文獻計量軟件Bibexcel、社會科學統(tǒng)計軟件包SPSS、引文網(wǎng)絡(luò)可視化軟件CiteSpace、社會網(wǎng)絡(luò)分析軟件Ucinet、Netminer和Pajek等,這些軟件各有優(yōu)劣。美國Ⅰndiana大學所開發(fā)的NWB(NetworkWorkbench)[4]與Sci2(Science of Science Tool)[5]軟件在國內(nèi)的文獻中有一定的介紹,[6]但在公開發(fā)表的文獻中鮮有利用這兩個工具進行共現(xiàn)分析研究。NWB很好地集成了許多常用的網(wǎng)絡(luò)分析和科學計量的分析算法,用戶可以根據(jù)自己的需求進行分析對象和分析方法的任意組配,分析過程非常靈活。Sci2是對NWB在科學計量、文獻計量分析領(lǐng)域的定制和擴展,支持基于時間序列、地理位置、網(wǎng)絡(luò)分析等多層面的文獻分析,提供科學文獻的宏觀、中觀和微觀的可視化分析。經(jīng)過多個工具的調(diào)研和比對,出于綜合性、靈活性的考慮,本文最終采用Sci2進行關(guān)鍵詞共現(xiàn)、合著分析和共引分析,而在可視化分析中,利用Sci2所集成的Gephi軟件,其功能豐富,使用靈活,是當前非常流行的網(wǎng)絡(luò)分析工具。

        3 數(shù)據(jù)預(yù)處理

        科學準確的數(shù)據(jù)是共現(xiàn)分析的基礎(chǔ),從Scopus中獲取的文獻集合存在諸多不規(guī)范的因素,盡管Sci2提供了對作者等數(shù)據(jù)進行合并清理的功能,但自動清理達不到共現(xiàn)分析的要求。因此,本文采用手工處理的方式進行數(shù)據(jù)預(yù)處理,包括:(1)統(tǒng)一人名表達規(guī)范,對作者的姓名,尤其是亞洲人的姓名進行補齊并加以區(qū)分。如數(shù)據(jù)集中姓名為“Li,X.”的作者頻次為9,但實際上“Li,X.”代表了多個本不重名的作者;(2)統(tǒng)一參考文獻的著錄格式,使引文分析結(jié)果更加準確;(3)提取及規(guī)范國家名稱,增加一個字段,其值為該文獻的第一作者的國家名稱;(4)將關(guān)鍵詞進行清洗、合并,統(tǒng)一關(guān)鍵詞的單復數(shù),將同義詞進行合并。

        4 論文發(fā)表時間及國家分布

        圖1是有關(guān)大數(shù)據(jù)的研究論文的逐年分布圖,2008年至今,論文數(shù)量一直處于上升勢頭,尤其是2012年的論文數(shù)量急劇增長。由于檢索時間為2013年3月23日,所以2013年的數(shù)據(jù)還不完整,但可以預(yù)計,隨著企業(yè)界和科研領(lǐng)域?qū)Υ髷?shù)據(jù)研究的關(guān)注,未來的論文數(shù)量還將繼續(xù)增長。圖2是論文數(shù)量的國家分布圖,其中排在前5名的國家為美國、中國、日本、德國和韓國,其中美國的論文數(shù)量幾乎達到總數(shù)的一半。從圖1和圖2中可以看出大數(shù)據(jù)相關(guān)研究的熱度,而這與以美國為代表的多個國家自2012年以來對大數(shù)據(jù)研究的經(jīng)濟投入、政策導向密不可分。從類型分布來看,Conference Paper(402篇)、Article(222篇)、Conference Review(34篇)、Review(29篇)、Article in Press(22篇)、Short Survey(18篇)、Note(17篇)、Editorial(11篇)、Letter(8篇),會議論文幾乎達到期刊論文的2倍,而從Scopus本身提供的分析工具可以看出,有關(guān)大數(shù)據(jù)研究的論文主題分布中,排名top5的為計算機科學、工程、數(shù)學、經(jīng)管和社會科學,其中計算機科學類幾乎達到工程類的3.5倍,由于計算機領(lǐng)域的研究人員更偏好及重視會議論文的發(fā)表,因此,這是造成會議論文數(shù)量較多的原因之一。

        5 合著分析

        合著分析方法是指分析在學術(shù)研究中作者合著的情況,從中可以看出在某一學科領(lǐng)域中的研究人員分布、結(jié)構(gòu)關(guān)系和學科發(fā)展現(xiàn)狀。合著的作者被認為是在地域上或?qū)W科研究上比較熟悉的人員。[7]Sci2可以非常靈活地基于不同的角度對合著網(wǎng)絡(luò)進行分析。數(shù)據(jù)剔除46篇缺少作者信息的文獻后,共析出2125位作者,其中論文數(shù)量只有一篇的作者為1954位,占92%;論文數(shù)量在3篇以上的作者僅有8位,如表1所示。僅從作者產(chǎn)出數(shù)量來看,由于大數(shù)據(jù)研究尚在新興發(fā)展階段,因此,尚無論文數(shù)量非常多的高產(chǎn)作者。表1中前四位和第六位作者同屬中國人民大學的數(shù)據(jù)工程與知識工程實驗室,可以看出該實驗室對于大數(shù)據(jù)研究的重視。

        圖1 論文數(shù)量的年代分布

        圖2 論文數(shù)量的國家分布

        圖3 合著網(wǎng)絡(luò)

        表1 論文數(shù)量大于3的作者

        利用Sci2構(gòu)建合著網(wǎng)絡(luò),網(wǎng)絡(luò)密度(反映節(jié)點間聯(lián)系的緊密程度)為0.0021,表示該合著網(wǎng)絡(luò)比較稀疏,研究人員之間的科研合作并不廣泛。為了重點關(guān)注合作比較緊密的作者群,對網(wǎng)絡(luò)進行了簡化,只關(guān)注合著2次以上的合著網(wǎng)絡(luò)(116個節(jié)點和166條邊),利用Sci2所集成的Gephi工具進行可視化展現(xiàn)。經(jīng)過Gephi所提供的社區(qū)檢測算法,將合著網(wǎng)絡(luò)中所有的節(jié)點分成了35個子群,圖3為子群規(guī)模top10的合著網(wǎng)絡(luò),節(jié)點大小表示該節(jié)點本身的權(quán)威性,在網(wǎng)絡(luò)中起到的重要作用。從圖3可以看出,最大的子群包括了11個節(jié)點,除Zhang Y.-s.外,其余作者單位都是中國人民大學數(shù)據(jù)工程與知識工程實驗室,而且其中有六位作者論文數(shù)量大于3。由此可見,該實驗室中有一支團隊的研究工作重點在大數(shù)據(jù)領(lǐng)域,但其與其他機構(gòu)的合作并不明顯,其中Wang S.和Zhou Xuan是屬于在這個合著網(wǎng)絡(luò)中權(quán)威性較高的節(jié)點。Campbell R.h.在所在的網(wǎng)絡(luò)中權(quán)威性最高,而他也是兩個子網(wǎng)絡(luò)的紐帶,將伊利諾伊大學香檳分校和美國惠普公司實驗室、雅虎公司等企業(yè)聯(lián)系起來,顯示了大學與企業(yè)之間的科研合作關(guān)系。在Poess M.、Rabl T.等人構(gòu)成的合著網(wǎng)絡(luò)中,五名作者分別來自O(shè)racel公司、Cisco公司、圣地亞哥超級計算機中心、EMC公司、多倫多大學,由此可見多個企業(yè)及大學在大數(shù)據(jù)領(lǐng)域的緊密合作。其余合著網(wǎng)絡(luò)比較單一,合作者皆來自同一機構(gòu)。

        6 關(guān)鍵詞共現(xiàn)

        共詞分析法利用文獻中詞匯對或名詞短語共同出現(xiàn)的情況,來確定該文獻集所代表學科中各主題之間的關(guān)系。如果詞匯在同一篇文章中出現(xiàn)的次數(shù)越多,則代表這兩個主題的關(guān)系越緊密。Scopus提供的數(shù)據(jù)中包括Author Keywords和Ⅰndex Keywords兩個關(guān)鍵詞字段,前者是筆者添加的關(guān)鍵詞,后者是由Scopus在收錄時標引的關(guān)鍵詞,在一定程度上屬于受控關(guān)鍵詞。本文將對這兩個關(guān)鍵詞字段分別構(gòu)建共詞網(wǎng)絡(luò)進行比較分析。表2為兩組Top10高頻詞,可以看出,其中有四個關(guān)鍵詞完全重復,但詞頻有明顯差別,說明Scopus對文章內(nèi)容進行了更為詳細的標引。不重合的另外六個關(guān)鍵詞可以分為兩類,一類是在Author Keywords中匹配不到的,如“ⅠnformationManagement”,但其下位類“EnterpriseⅠnformation Management”、“Cross-channelⅠnformation Management”包含在Author Keywords中;另一類是在AuthorKeywords中也有相同的關(guān)鍵詞,但詞頻較小,如“DigitalStorage”,詞頻僅為1。這進一步說明Scopus對文獻的標引要比作者本身更詳盡,這一點在表3中也可以充分體現(xiàn)。然而,經(jīng)過初步分析及人工查證后,發(fā)現(xiàn)Ⅰndex Keywords也存在一定問題。首先,Ⅰndex Keywords中存在很多重復標引;其次,存在priority journal、letter、note、article等與文章內(nèi)容無關(guān)的關(guān)鍵詞;最后,雖然可能作者提供的關(guān)鍵詞不是非常規(guī)范,但最熟悉文章主題的仍然是作者本人,所以其他人所標引的關(guān)鍵詞在準確性方面略差。總之,兩類關(guān)鍵詞各有利弊,本文分別利用Author Keywords和Ⅰndex Keywords進行共詞分析,為了簡化網(wǎng)絡(luò),見表3,說明所示兩個網(wǎng)絡(luò)的屬性不同,并分別采取不同的方法。圖4為抽取Top 100 Edges的Ⅰndex Keywords共詞網(wǎng)絡(luò),圖5為抽取Top 100 Nodes的Author Keywords共詞網(wǎng)絡(luò),并都進行了社區(qū)檢測計算,節(jié)點大小與詞頻相關(guān)。

        表2 Top10高頻詞(Author Keywords/Ⅰndex Keywords)

        表3 共詞網(wǎng)絡(luò)基本屬性

        圖4重點觀察共現(xiàn)次數(shù)較多,即聯(lián)系緊密的關(guān)鍵詞,該網(wǎng)絡(luò)共分為5個子群,最大的子群是以“Big Data”為中心,與其顯著關(guān)聯(lián)的有“Mapreduce”、“Ⅰnformation Management”、“Data Mining”、“Digital Storage”、“Data Processing”、“Data Sets”、“Algorithms”、“Database Systems”、“Cloud Computing”等,幾乎與表2中所列的“關(guān)鍵詞2”重合,由此可見,目前對于大數(shù)據(jù)的研究,集中在大數(shù)據(jù)的存儲、處理等方面。除“Biology”及“Computational Biology”組成的子群外,其他子群均與“Big Data”存在關(guān)聯(lián)?!阿駈ternet”所在的子群體現(xiàn)有關(guān)因特網(wǎng)上的大數(shù)據(jù)及其分析計算的研究?!癏uman”所在的子群表明很多研究關(guān)注人類醫(yī)療、健康信息的分析和利用,尤其是在美國?!阿鮥sualization”所在的子群說明可視化技術(shù)在大數(shù)據(jù)研究中的重要性,大數(shù)據(jù)時代為可視化發(fā)展提供了新的契機。而“Biology”所在的子群則是代表計算生物學等研究在大數(shù)據(jù)環(huán)境下有了新的發(fā)展??傊?,大數(shù)據(jù)領(lǐng)域的很多研究熱點其實在“Big Data”這個概念出現(xiàn)之前就已發(fā)展到了一定階段,但隨著數(shù)據(jù)量的增大、存儲和計算能力的增強,各個學科的發(fā)展有了新的變化。

        圖4 Ⅰndex Keywords Top100 edges共詞網(wǎng)絡(luò)

        圖5 Author Keywords Top100 nodes共詞網(wǎng)絡(luò)

        圖5 重點觀察高頻詞,該網(wǎng)絡(luò)分為6個子群,與“Big Data”有顯著關(guān)系的是“Mapreduce”、“Cloud Computing”、“Data Mining”、“Hadoop”等關(guān)鍵詞,但這些詞并不屬于同一個子群,“Mapreduce”和“Hadoop”所在的子群還包括“Performance”、“Hbase”、“Key-value Stores”、“Fpga”、“OLAP”、“Database”等關(guān)鍵詞。Apache Hadoop是一個開源項目,已成為大數(shù)據(jù)行業(yè)發(fā)展背后的驅(qū)動力,帶來了廉價的處理大數(shù)據(jù)的能力。Google MapReduce是Hadoop架構(gòu)的一個主要組件,是針對大數(shù)據(jù)的靈活的并行數(shù)據(jù)處理框架,這一點從“Mapreduce”和“Hadoop”兩個關(guān)鍵詞之間的連線可以看出。Hbase也是Hadoop的主要組件,是Key-value數(shù)據(jù)庫。這個子群說明有部分研究者非常關(guān)注大數(shù)據(jù)相關(guān)分析工具的研究與利用。而在以“Big Data”為中心的最大子群中,大數(shù)據(jù)與云計算的關(guān)系一目了然。云計算與大數(shù)據(jù)是相輔相成的,云計算為大數(shù)據(jù)提供了有力的工具和途徑,大數(shù)據(jù)為云計算提供了很有價值的用武之地。在這個最大子群中,包括大數(shù)據(jù)研究的多方面,如“Data Mining”、“Data Storage”、“Data Analysis”、“DataⅠntegration”、“Data Management”等數(shù)據(jù)分析處理流程研究;“Social Media”、“Social Network”、“Twitter”等基于社會媒體中的大數(shù)據(jù)研究;“Sampling”“Modeling”、“Clustering”、“Ⅴisualization”等具體的大數(shù)據(jù)處理方法??傊捎诖髷?shù)據(jù)所涉及的領(lǐng)域非常廣泛,而各方面研究融合也非常緊密,然而未發(fā)展到學科體系非常清晰的階段,所以這個子群中包含了網(wǎng)絡(luò)中一半以上節(jié)點。Web2.0網(wǎng)站的興起使非關(guān)系型的數(shù)據(jù)庫成為研究熱點,而Nosql就是典型代表,因此有一部分研究圍繞著“Nosql”來展開,體現(xiàn)在包含“Nosql”、“Web 2.0”、“Cloud Database”、“Sentiment Analysis”等關(guān)鍵詞的子群中。網(wǎng)絡(luò)中右側(cè)“Text Mining”、“Term Normalization”等關(guān)鍵詞構(gòu)成的子群說明大數(shù)據(jù)研究中,文本的處理和挖掘也是非常重要的方面。在網(wǎng)絡(luò)中,還有一個比較突出及相對獨立的是右上方的子群,包含了“Telecommunication”、“EconomicⅠssues”、“Ⅰnformation Society”、“Education”等關(guān)鍵詞,這部分研究主要體現(xiàn)了大數(shù)據(jù)在當今社會多行業(yè)的熱度。

        7 共引分析

        “共(被)引”就是兩篇文獻被同一篇文章引用的情況,說明這兩篇文獻之間存在一定的關(guān)聯(lián)性。在共引的概念下兩篇文獻的相似性取決于同時引用它們的文獻數(shù)量。利用Sci2的Data Preparation→Extract Directed Network功能得到文獻與被引文獻的有向網(wǎng),再利用Extract Document Co-Citation Network得到一個文獻與文獻相互連接的復雜帶權(quán)重的知識域網(wǎng)絡(luò)??紤]論文篇幅關(guān)系,表4只列出了被引頻次Top5的文獻列表,而從這些高被引文獻來看,多側(cè)重大數(shù)據(jù)分析工具,如Mapreduce、Hadoop、Pig等,文獻的作者多屬于Google、Yahoo等公司,可見企業(yè)界在大數(shù)據(jù)的相關(guān)研究中起到了非常重要的引領(lǐng)作用。

        表4 Top5高被引文獻

        由于網(wǎng)絡(luò)過于龐大,本文抽取了被引頻次Top 50的節(jié)點進行觀察,并利用Fast Pathfinder Network Scaling功能對網(wǎng)絡(luò)的邊進行修剪,對簡化后的網(wǎng)絡(luò)進行Gephi可視化處理,社區(qū)檢測計算后得到6個子群,節(jié)點的大小與HⅠTS算法得到的Hub值相關(guān),最后得到圖6所示的網(wǎng)絡(luò)。從圖6可以看出,表4中的文獻1與其余4篇文獻之間分別都有高權(quán)重的邊,但4篇文獻之間并無顯著關(guān)聯(lián)。節(jié)點的大小代表了節(jié)點在網(wǎng)絡(luò)中的中心度,節(jié)點越大,其作為樞紐的作用便越大,文獻1、5、4、2以及Pavlo A.所著的“A Comparison Of Approaches To Large-scale Data Analysis”、Jiang D.等所著的“The Performance Of Mapreduce:AnⅠn-depth Study”等文獻均處于比較重要的地位,這也是后續(xù)研究的重要參考文獻。文獻2作為樞紐文獻,連接了文獻1和Apache Hive、Apache Pig,這也與Mapreduce、Hive和Pig同屬Hadoop的核心技術(shù)這一相互關(guān)系是一致的。在Top50的文獻中,出版時間最早的是1992年P(guān)age L.等人對于Pagerank算法的論述,年代較新的文獻是2011年的兩篇文獻,文獻主要集中在2009年和2010年。較新的文獻還未被其他文獻所發(fā)現(xiàn)和關(guān)注,同時這些文獻也是此后大數(shù)據(jù)研究飛速發(fā)展的重要基礎(chǔ)。網(wǎng)絡(luò)中最大的子群是以文獻1為中心,其他子群也與之緊密關(guān)聯(lián),但規(guī)模較小,并經(jīng)過文獻查證,這些高被引文獻大多都是對于大數(shù)據(jù)分析處理工具的論述,這是大數(shù)據(jù)研究的重點,它們之間的聯(lián)系也體現(xiàn)了大數(shù)據(jù)分析需要多種技術(shù)共同配合完成。

        8 小結(jié)

        盡管大數(shù)據(jù)正處于飛速發(fā)展之中,但分析結(jié)果可以在一定程度上揭示大數(shù)據(jù)相關(guān)研究的進展和趨勢??偟膩砜矗贸鲆韵陆Y(jié)論。

        圖6 Top50 Nodes共引網(wǎng)絡(luò)

        (1)論文里所構(gòu)建的共現(xiàn)網(wǎng)絡(luò)有一個共同的特點,即網(wǎng)絡(luò)密度都不大,這說明各個節(jié)點之間的聯(lián)系并不緊密,這主要是由于大數(shù)據(jù)研究的發(fā)展尚在初期階段,發(fā)展時間較短,也與大數(shù)據(jù)研究具有跨學科的性質(zhì)有關(guān),使得各個網(wǎng)絡(luò)都比較分散。

        (2)不論是從關(guān)鍵詞共現(xiàn)還是共引分析,結(jié)論都體現(xiàn)出大數(shù)據(jù)分析處理技術(shù)是研究重點,這是由于在當前作為研究熱點的大數(shù)據(jù),主要是由于互聯(lián)網(wǎng)、云計算、移動和物聯(lián)網(wǎng)的迅猛發(fā)展。

        (3)從兩類關(guān)鍵詞的分析結(jié)果可以看出,云計算與大數(shù)據(jù)的緊密聯(lián)系,可以說“云”和“大數(shù)據(jù)”有著唇亡齒寒的關(guān)系,它們在某種程度上可以起到互相支撐的作用。因此,一方面可以從云計算發(fā)展的良好勢頭推斷出大數(shù)據(jù)未來發(fā)展的熱度,另一方面也要在進行大數(shù)據(jù)研究時對云計算加以重視。

        (4)從發(fā)文量的國家分布、合著分析及共引分析中可以看出中美兩國的對比。美國的總發(fā)文量是中國的三倍之多;從論文數(shù)量大于3的作者群來看,中國作者的數(shù)量居多;高被引文獻中,幾乎都是來自美國。這些結(jié)論的得出,有以下原因:第一,美國毫無置疑的是大數(shù)據(jù)研究的先行者,無論是從企業(yè)界、學術(shù)界還是政府,都對大數(shù)據(jù)投入巨大;第二,中國已經(jīng)意識到大數(shù)據(jù)的重要性,研究人員要把握契機;第三,表1中中國作者的論文發(fā)表時間多為2011年和2012年,來源為會議集和國內(nèi)的期刊,這在一定程度上局限了論文的影響力,在后續(xù)研究中,中國不僅應(yīng)在論文數(shù)量上不斷進步,更應(yīng)該提高論文質(zhì)量。

        (5)從合著分析和共引分析可以看出,企業(yè)界對于大數(shù)據(jù)研究的重視、投入和貢獻。大數(shù)據(jù)的研究起源于企業(yè)界的實際需求,尤其是Google和Yahoo,發(fā)展過程中企業(yè)界和學術(shù)界共同合作,使得研究方向緊密切合需求,而不是空中樓閣。這種科研模式是國內(nèi)科研發(fā)展需要借鑒的思路。

        (6)通過對關(guān)鍵詞共現(xiàn)和共引分析發(fā)現(xiàn),盡管相關(guān)技術(shù)的研究占了不小的比重,但大數(shù)據(jù)在各種應(yīng)用領(lǐng)域的研究也逐步增多,很多論文是來自計算機科學之外的方向,包括經(jīng)濟、社會科學、醫(yī)學、生物、環(huán)境等,可以說各行各業(yè)都會遇到大數(shù)據(jù),對其利用和處理的需求越來越強烈,這將是未來研究的熱點。

        [1]Obama Administration Unveils"Big Data"Ⅰnitiative:Announces$200Million in New R&DⅠnvestments[EB/ OL].[2013-06-10].http://www.whitehouse.gov/blog/ 2012/03/29/big-data-big-deal.

        [2]Jackie Fenn,Hung Le Hong.Emerging Technologies Hype Cycle:Whats Hot for 2012 to 2013[EB/OL].[2013-06-10].http://public.brighttalk.com/resource/ core/3297/september_19_hype_cycle_2012-fen_-lehon g_6009.pdf.

        [3]Google趨勢[EB/OL].[2013-06-20].http://www. google.com/trends/.

        [4]Network Workbench[EB/OL].[2013-06-06]. http://nwb.cns.iu.edu/.

        [5]Sci2Tool[EB/OL].[2013-06-06].https://sci2. cns.iu.edu/user/index.php.

        [6]楊思洛,韓瑞珍.國外知識圖譜繪制的方法與工具分析[J].圖書情報知識,2012(6):101-109.

        [7]馮博,劉佳.大學科研團隊知識共享的社會網(wǎng)絡(luò)分析[J].科學學研究,2007(6):1156-1163.

        G250.252;G252.8

        A

        1005-8214(2014)09-0040-06

        劉曉娟(1980-),女,博士,北京師范大學政府管理學院副教授;謝素萍(1979-),女,碩士,清華大學計算機與信息管理中心工程師。

        2013-10-08[責任編輯]邵晉蓉

        本文系國家社科基金“基于網(wǎng)絡(luò)計量方法的熱點WEB空間研究(項目編號:09CTQ028)”的項目成果之一;中央高?;究蒲袠I(yè)務(wù)費專項資金(2011北京師范大學自主科研項目“基于共現(xiàn)的研究熱點監(jiān)測與分析”)資助項目。

        性欧美长视频免费观看不卡| 扒下语文老师的丝袜美腿| 日本一区二区三区一级片| 亚洲综合色区一区二区三区| 久久综合狠狠色综合伊人| 欧美中文字幕在线| 亚洲国产色图在线视频| 一区二区三区中文字幕脱狱者| 亚洲欧美一区二区成人片| 又污又黄又无遮挡的网站| 精品无码国产一二三区麻豆| 日韩在线一区二区三区中文字幕| 天天爽夜夜爽人人爽| 97无码人妻福利免费公开在线视频| 亚洲色www无码| 中文字幕一区乱码在线观看| 少妇伦子伦情品无吗| 亚洲精品成人网站在线观看| 动漫av纯肉无码av在线播放| 亚洲精品一区二区成人精品网站 | av狠狠色丁香婷婷综合久久| 亚洲熟妇色xxxxx欧美老妇y| 蜜桃一区二区三区自拍视频| 一区二区在线观看视频高清| 69sex久久精品国产麻豆| 亚洲av日韩av综合aⅴxxx| 日本在线一区二区在线| 性色av一二三天美传媒| 一本一道波多野结衣一区| 黄 色 成 年 人 网 站免费| 日韩av天堂一区二区| 亚洲春色在线视频| 亚洲日韩图片专区小说专区| 午夜国产精品一区二区三区| 国产精品 无码专区| 国产欧美一区二区精品性色| 秀人网嫩模李梓熙大尺度| 青青草大香蕉视频在线观看| 国产精品18久久久久久麻辣| 国产成人亚洲合集青青草原精品| 久久久人妻一区二区三区蜜桃d|