亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)研究的知識圖譜分析*

        2015-12-31 09:41:36
        圖書館論壇 2015年4期
        關鍵詞:次數(shù)聚類數(shù)量

        詹 川

        目前人類社會已進入大數(shù)據(jù)時代?!按髷?shù)據(jù)”這一術語最早可追溯到Apache org的開源項目Nutch,當時大數(shù)據(jù)用來描述為實現(xiàn)網(wǎng)絡搜索索引更新,同時進行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce、Google File System(GFS)的發(fā)布,大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù),還涵蓋處理數(shù)據(jù)的速度。業(yè)界用Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)來描述大數(shù)據(jù)的特征。大數(shù)據(jù)引起政府、企業(yè)界和學術界的極大關注。2012年3月奧巴馬宣布美國啟動“大數(shù)據(jù)研究和發(fā)展計劃”。中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓在第十屆國家信息化專家論壇上建議盡早啟動大數(shù)據(jù)國家戰(zhàn)略。國際上Google、Facebook、IBM、EMC等IT企業(yè)部署大數(shù)據(jù)領域,國內(nèi)的百度、阿里巴巴、騰訊等IT巨頭積極跟進。在學術界,Nature 在2008年推出大數(shù)據(jù)???,Science 在2011年2月推出Dealing with Data專刊,現(xiàn)在大數(shù)據(jù)成為國際學術界研究熱點。本文旨在分析全球大數(shù)據(jù)理論研究現(xiàn)狀,提供大數(shù)據(jù)研究圖譜,分析大數(shù)據(jù)主要研究領域和研究熱點。

        1 數(shù)據(jù)獲取及描述

        筆者選用WoS數(shù)據(jù)庫,即SCI索引的Web版本。SCI是公認的世界上最權威的科學技術文獻索引工具,收錄了科技領域最重要、最新的研究成果。SCI引文檢索體系在全球獨一無二,不僅可從文獻引證角度評估文章的學術價值,還可迅速方便地組建研究課題的參考文獻網(wǎng)絡。因此,選用WoS作為檢索大數(shù)據(jù)研究成果的數(shù)據(jù)源,能確保所獲數(shù)據(jù)的全面性和權威性。

        檢索設置條件見表1。由于難以確認大數(shù)據(jù)研究的正式起源時間,因此檢索時段的設置沒有時間限制,以便能從文獻數(shù)量角度觀察大數(shù)據(jù)研究規(guī)律。文件類型選擇會議論文(Proceedings Paper)、期刊文章(Article)和評論(Review),前兩種是發(fā)表學術研究成果的最主要方式;“Review”類型的文章雖然數(shù)量不多,共49篇,但被大量引用,對大數(shù)據(jù)研究有較大影響。檢索時間是2014年8月20日,獲得主題為“big data”的文獻1311篇。

        表1 檢索設置

        2 研究方法

        采用文獻計量和科學知識圖譜相結合的方式對大數(shù)據(jù)研究文獻進行分析。選擇的知識圖譜分析軟件是CiteSpace[1]。

        3 大數(shù)據(jù)研究基礎分析

        3.1 文獻時間分布

        主題為“big data”的1311篇中,最早的文獻出現(xiàn)在1999年,有1篇;2000年沒有。2001-2008年,每年論文數(shù)量為幾篇,屬于大數(shù)據(jù)研究萌芽階段。2008年Nature 出版專刊Big data,討論互聯(lián)網(wǎng)技術、網(wǎng)絡經(jīng)濟學、超級計算、環(huán)境科學、生物醫(yī)學等多方面大數(shù)據(jù)帶來的挑戰(zhàn),對大數(shù)據(jù)研究影響深遠。2009-2011年,大數(shù)據(jù)研究處于早期發(fā)展階段,每年發(fā)表數(shù)量保持在10來篇左右。2011年Science 推出Dealing with data 專刊,討論數(shù)據(jù)洪流帶來的問題,推動大數(shù)據(jù)研究快速發(fā)展。2012年大數(shù)據(jù)的技術優(yōu)勢被廣泛認可,越來越多的互聯(lián)網(wǎng)企業(yè)應用大數(shù)據(jù)技術來構建平臺的數(shù)據(jù)處理架構,大數(shù)據(jù)論文數(shù)量飆升到196篇。2013年大數(shù)據(jù)得到進一步普及,很多國家把大數(shù)據(jù)產(chǎn)業(yè)上升到戰(zhàn)略高度,關于大數(shù)據(jù)的研究文獻上升到755篇,占總數(shù)的57.79%。從文獻數(shù)量看,2012年至今,大數(shù)據(jù)文獻迅速增加,形成研究熱潮。

        表2 大數(shù)據(jù)研究文獻時間分布統(tǒng)計

        3.2 主要發(fā)文期刊或會議

        大數(shù)據(jù)論文數(shù)量排在前十位的期刊或會議見表3,其中8個是國際會議,說明專題會議是發(fā)表大數(shù)據(jù)研究成果的主要途徑。排名第一和第五的是IEEE的大數(shù)據(jù)專題會議,刊發(fā)大量的大數(shù)據(jù)論文,特別是排在第一位的2013 IEEE International Conference on Big Data刊文111篇,占總數(shù)的8.47%。醫(yī)學健康領域?qū)n}會議,如第三和第四位關于E-健康的國際會議,以及第八位醫(yī)學領域?qū)I(yè)期刊PLOS ONE,發(fā)表的大數(shù)據(jù)論文也較多,說明醫(yī)學健康領域?qū)Υ髷?shù)據(jù)的應用研究很重視。第十位是唯一一個計算機類期刊,共發(fā)表14篇,占總數(shù)的1.07%。

        表3 刊發(fā)大數(shù)據(jù)文獻數(shù)量排前十的期刊/會議

        3.3 主要發(fā)文國家

        發(fā)表論文數(shù)量排名前十的國家見表4。美國共發(fā)表489篇,占37.30%,表明美國在大數(shù)據(jù)研究上占主導地位。中國共發(fā)表241篇,說明中國在大數(shù)據(jù)研究方面成果較豐碩。從地理分布看,大數(shù)據(jù)研究主要集中在北美、東亞和歐洲。

        表4 論文發(fā)表數(shù)量前十的國家和地區(qū)

        3.4 主要發(fā)文機構

        論文發(fā)表數(shù)量排在前十位的機構見表5。中國科學院排第一,共發(fā)表30篇,占總數(shù)的2.29%,是前十中唯一的科研院所,其余都是大學。排名前十的機構從所屬國家看,美國最多,有七家美國知名大學;然后是中國,有兩家,分別是中國科學院和清華大學。

        表5 論文發(fā)表數(shù)量前十的機構

        4 大數(shù)據(jù)研究的可視化分析

        4.1 大數(shù)據(jù)研究的知識基礎與研究前沿

        普賴斯最早提出“研究前沿”的概念,用來描述研究領域的動態(tài)本質(zhì)。他認為某個領域的研究前沿由科學家積極引用的文章所體現(xiàn)。2009年陳超美把研究前沿定義為一組突現(xiàn)的動態(tài)概念和潛在的研究問題,而研究前沿的知識基礎則是它在科學文獻中的引文和共引軌跡[2],即由引用研究前沿術語的科學文獻所形成的演化網(wǎng)絡。

        為進一步研究大數(shù)據(jù)研究的前沿領域,筆者把從WoS獲得1311篇文獻作為數(shù)據(jù)源導入CiteSpace,參數(shù)“Time Slicing”設置為1999-2014,“Per Slice”為1,“Node Types”選擇Cited Reference,進行共被引文獻分析。文獻需經(jīng)過聚類處理,聚類效果的好壞可從Modularity Q和Mean Silhouette的大小來衡量。Modularity Q值越大,越接近1,表示類群之間的耦合越小,劃分清晰;Mean Silhouette值越大,越接近1,說明類群內(nèi)部節(jié)點之間的同質(zhì)性越高。經(jīng)過多次測試,當“Top Nper slice”方式數(shù)量設為50,剪枝方式“Pruning”同時復選“Pathfinder”和“Pruning the merged network”兩種方式時,得到的聚類具有較高Modularity Q和Mean Sil houette值,分別為0.9542和0.8068。這兩個值都相當高,說明在此參數(shù)設置下,聚類效果俱佳。最終形成合并的共被引文獻網(wǎng)絡圖共有538個節(jié)點,1705個連線,聚類后得到68個聚類群。采用“keyw ord”+“tf*idf”方式獲取聚類標識,共標識出35個類,其中4個標識語為空,具體每個類標識見表6。表6從大到小列出每個聚類標號、擁有的節(jié)點數(shù)量及對應標識特征詞,這些特征詞代表大數(shù)據(jù)研究前沿領域。進一步對共被引文獻網(wǎng)絡圖進行“Citation Burst”處理,然后轉換成“Timeline View”得到圖1,更加直觀地顯示各個類的研究歷史和相互引用關系。共被引文獻網(wǎng)絡圖中引用文獻節(jié)點間相互引用關系構成大數(shù)據(jù)的知識基礎。表7列出排名前十的高被引文獻,它們是大數(shù)據(jù)研究知識基礎的重要代表,對大數(shù)據(jù)研究影響深遠。

        表6 大數(shù)據(jù)主要研究前沿領域

        圖1 大數(shù)據(jù)研究前沿聚類圖

        表7 排名前十的高被引文獻

        表8 引用次數(shù)突增的文獻

        共被引文獻網(wǎng)絡中的突增節(jié)點預示著該領域的研究熱點。經(jīng)過突變處理,那些被引用次數(shù)出現(xiàn)突然增長的文獻節(jié)點以紅色圓圈標示出,圖1中共有3個突變節(jié)點,如表8所示。第一突增節(jié)點是Google公司的Dean J在2008年發(fā)表的關于MapReduce算法的論文。該文獻突現(xiàn)值高達12.49,同時也是被引用次數(shù)最多的文獻,高達124次,表明該論文在大數(shù)據(jù)研究中至關重要。現(xiàn)在MapReduce已成為開源大數(shù)據(jù)架構Hadoop的核心算法,廣泛應用于大型互聯(lián)網(wǎng)平臺中,該節(jié)點歸屬于#2data integration類。第二個突增節(jié)點是2011年麥肯錫咨詢公司Manyika J等人發(fā)布的一份關于大數(shù)據(jù)的詳盡報告,對大數(shù)據(jù)的影響、關鍵技術和應用領域進行了詳盡分析,幫助人們?nèi)嬲J識大數(shù)據(jù),對指引大數(shù)據(jù)的研究發(fā)展起到積極作用,該節(jié)點屬于#6twitter。第三個是Yahoo公司的Olston C等人針對大數(shù)據(jù)分析設計的高級程序語言Pig Latin,通過Pig編譯平臺產(chǎn)生Map Reduce程序,它比使用Map Reduce直接編寫更加容易、靈活,更便于維護和重用,因此在大數(shù)據(jù)分析中得到廣泛應用,Pig現(xiàn)是Hadoop項目的一部分,屬于#0MapReduce。Data Integration和Twitter這兩個方向從2012年到現(xiàn)在一直是大數(shù)據(jù)研究熱點,而表8中Dean J一文的突增值特別高,說明Data Integration方向在大數(shù)據(jù)研究中受到格外重視,是當前最大研究熱點。Map Reduce方向的突增發(fā)生在2013-2014年,是最近大數(shù)據(jù)研究關注的熱點。

        4.2 共被引作者分析

        對1311篇文獻繼續(xù)進行共被引作者分析,參數(shù)“Time Slicing”設置為1999-2014,“Per Slice”為1,“Node Types”選擇Cited Author,“Top N per slice”數(shù)量設為50,剪枝方式“Pruning”同時復選Pathfinder和Pruning the merged network兩種,得到一個494個節(jié)點,1590條連線的合并網(wǎng)絡,選擇只顯示大于30次的節(jié)點標示,結果如圖2所示。表9列出被引次數(shù)排名前十的作者及具體次數(shù)。結合圖2與表9的分析,排名第一的作者是Dean J,被引次數(shù)高達184次,遠遠超過其他作者,幾乎是第二名的3倍。Dean J正是Map Reduce:simplified data processing on large clusters 一文的作者,該文獻在大數(shù)據(jù)研究中被引次數(shù)最高,達124次,對大數(shù)據(jù)發(fā)展影響深遠。White T是排名第二的作者,他在2009年出版的Hadoop the definitive guide 是Hadoop的權威指南,是學習和了解大數(shù)據(jù)架構Hadoop的重要書籍,該書在高被引文獻排名中位居第二,被引56次。其余高被引作者的被引次數(shù)大致在50至30次左右,變化不大,其中MANYIKA J和OLSTONC發(fā)表的論文同時進入高被引文獻排名的前十位。

        表9 被引次數(shù)前十的作者

        圖2 共被引作者分析

        4.3 共被引期刊分析

        采用類似參數(shù)對1311篇文獻進行共被引期刊分析,得到一個423個節(jié)點、1632條連線的網(wǎng)絡合并圖,選擇只顯示大于65次的節(jié)點標示,得出圖3。表10列出排名前十的期刊和會議。Communications of the ACM 是美國計算機協(xié)會的旗艦刊物,刊載計算機領域的重要研究和創(chuàng)新,對計算機發(fā)展影響重大;在排名前十的高被引文獻中,有兩篇出自該期刊。Lecture notes in computer science 是Springer集團出版的計算機領域的專業(yè)期刊。兩種期刊的被引次數(shù)較接近,分別為244次和229次,它們都是計算機領域的期刊。排在前十且屬于計算機領域的還有第六名的IEEE Transaction on knowledge and data engineering,是IEEE旗下知識及數(shù)據(jù)工程類的學報,被引次數(shù)93;第9名Journal of Machine Learning Research 被引次數(shù)為69次。從圖3可見,計算機領域四個期刊聚集在圖的左上方。排在第三至五名的分別是Nature、Science 期刊和Proceedings of the national academy of sciences of the united states of America會議,被引次數(shù)依次是167、161和113。Nature 和Science 是世界頂級期刊,一般刊載全球最前沿的科學研究,最重大的理論發(fā)現(xiàn),屬于綜合類期刊。第七、八和十名期刊屬于生物信息領域,被引次數(shù)分別為87、87、69,聚集在圖3的中心周圍,說明大數(shù)據(jù)技術在生物信息領域也得到廣泛應用。

        表10 被引次數(shù)前十的期刊/會議

        圖3 共被引期刊分析

        5 結論

        (1)從WoS數(shù)據(jù)庫收錄的相關大數(shù)據(jù)論文數(shù)量看,大數(shù)據(jù)研究最早可追溯到1999年。1999-2008年,每年與大數(shù)據(jù)相關的論文都在幾篇左右,處于零星研究狀態(tài)。2008年Nature 和Communications of the ACM 刊發(fā)的大數(shù)據(jù)論文對大數(shù)據(jù)研究發(fā)展影響深遠。2009-2011年,從數(shù)量看大數(shù)據(jù)研究進入新的階段,每年發(fā)表的論文在15篇左右,說明大數(shù)據(jù)逐漸被關注。2012年論文數(shù)量快速增長到196篇,2013年更升至755篇,大數(shù)據(jù)研究進入快速成長期,大量專家學者投入大數(shù)據(jù)研究中,大數(shù)據(jù)受到空前的重視。

        (2)從發(fā)表大數(shù)據(jù)論文數(shù)量最多的十個期刊或會議看,有八個是國際會議,說明專題會議成為發(fā)布大數(shù)據(jù)最新成果的主要途徑,其中IEEE的大數(shù)據(jù)專題會議,發(fā)表論文111篇,排名第一。另外,醫(yī)學健康方面的會議和期刊也大量登載關于大數(shù)據(jù)研究的論文。而從文獻被引用次數(shù)來看,排在前十的主要是期刊,其中對大數(shù)據(jù)研究影響最大的是Communications of the ACM。從被引用次數(shù)最多的前十種期刊或會議的類型來看,主要是三類期刊:計算機類、綜合類和生物信息類。綜合刊發(fā)大數(shù)據(jù)論文數(shù)量和被引用次數(shù)排名前十的期刊或會議的統(tǒng)計數(shù)據(jù),大數(shù)據(jù)研究主要集中在計算機、生物信息、醫(yī)學健康領域。

        (3)從發(fā)文國家看,美國排第一,中國排第二。從發(fā)文機構看,前十所機構中有七家是美國大學,兩家是中國科研和教學機構。說明美國對大數(shù)據(jù)研究的重視,以及在此領域的領導地位,而中國也緊跟其后,走在世界前列。

        (4)通過可視化分析,大數(shù)據(jù)的研究前沿共有34個方向,當前的研究熱點是MapReduce、Data Integration和Twitter。

        (5)2008年Dean J在Communications of the ACM 發(fā)表的Map Reduce:simplified data processing on large clusters 對大數(shù)據(jù)研究影響深遠,此文及其作者、所在期刊都是被引用次數(shù)最多的,說明該文獻對大數(shù)據(jù)研究影響重大,文中提出的MapReduce理論模型已成為被廣泛應用,成為開源大數(shù)據(jù)架構Hadoop的核心技術。

        [1] Chen C.CiteSpace II:Detecting and visualizing emerging trends and transient patterns in scientif ic literature[J].Journal of the American Society for Inf ormation Science and Technology,2006,57(3):359-377.

        [2] Chen C,SanJuan FI,Hou JH.The structure and dynamics of co-citation clusters:Amultiple-perspective co-citationanalysis[J].Journal of the American Society for Information Science and Technology,2010,61(7):1386-1409.

        [3] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

        [4] White T.Hadoop the def initive guide[M].Sebastopol:O’Reilly Media,2009.

        [5] Manyika J,Chui M,Brown B,et al.Big data:The next f rontier f or innovation,competition,and productivity[R].[S.I]:McKinsey Global Institute,2011.

        [6] Howe D,Costanzo M,F(xiàn)ey P,et al.Big data:The future of biocuration[J].Nature,2008,455(7209):47-50.

        [7] Schadt EE,Linderman MD,Sorenson J,et al.Computational solutions to large-scale data management and analysis[J].Nature Reviews Genetics,2010,11:647-657.

        [8] Lynch C.Big data:Howdo your data grow[J].Nature,2008,455(7209):28-29.

        [9] Ekanayake J,F(xiàn)ox G.High Performance Parallel Computing with Clouds and Cloud Technologies[J].Lecture Notes of the Institute f or Computer Sciences, Social-Informatics and Telecommunications Engineering,2010,34:20-38.

        [10]Dean J,Ghemawat S.MapReduce:aflexible dataprocessing tool[J].Communicationsof the ACM,2010,53(1):72-77.

        [11]Hey T,Tansley S,Tolle K.The Fourth Paradigm:Data-Intensive Scientific Discovery[R].[S.I]:Microsoft Research,2009.

        [12]Olston C,Reed B,Srivastava U,et al.Pig latin:a not-so-foreign language for data processing[C].SIGMOD'08 Proceedings of the 2008 ACMSIGMODinternational conf erence on Management of data.[S.I]:[s.n.],2008:1099-1110.

        猜你喜歡
        次數(shù)聚類數(shù)量
        機場航站樓年雷擊次數(shù)計算
        2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
        商用汽車(2021年4期)2021-10-13 07:16:02
        一類無界算子的二次數(shù)值域和譜
        統(tǒng)一數(shù)量再比較
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        依據(jù)“次數(shù)”求概率
        頭發(fā)的數(shù)量
        基于改進的遺傳算法的模糊聚類算法
        我國博物館數(shù)量達4510家
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        很黄很色很污18禁免费| 国产精品嫩草影院AV| 国产做无码视频在线观看浪潮 | 精品av熟女一区二区偷窥海滩 | 久久久久久人妻毛片a片| 久久久久久久无码高潮| 国产午夜无码视频免费网站| 精品人妻中文字幕一区二区三区 | 日本一二三四区在线观看| 国产婷婷色一区二区三区在线 | 美丽人妻被按摩中出中文字幕| 午夜无码片在线观看影院y| 精品人妻一区二区久久| 日韩亚洲一区二区三区在线| 自由成熟女性性毛茸茸应用特色| 国产日产精品_国产精品毛片| 久久无码专区国产精品| 少妇人妻偷人精品视频| 日韩高清亚洲日韩精品一区| 国产视频网站一区二区三区| 国产免费三级三级三级| 亚洲精品熟女av影院| 日韩欧美在线综合网另类| 亚洲午夜精品a片久久www慈禧| 在线观看av永久免费| 亚洲AV小说在线观看| 国产一区二区黄色的网站| 国产人妻丰满熟妇嗷嗷叫| 国产日韩欧美在线| 中文字幕一区韩国三级| 国产一区二区在线中文字幕 | 国产3p一区二区三区精品 | 人妖与人妖免费黄色片| 少妇高潮惨叫久久久久电影69| 人妻少妇不满足中文字幕| 国产精品理人伦国色天香一区二区 | 成人自拍偷拍视频在线观看 | 成在线人视频免费视频| 激情乱码一区二区三区| 国产三级黄色免费网站| 欧美精品videosse精子|