亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

<strike id="oykic"><input id="oykic"></input></strike>

?

大數(shù)據(jù)研究的知識圖譜分析*

2015-12-31 09:41:36詹川

圖書館論壇 2015年4期

關鍵詞：次數(shù)聚類數(shù)量

詹川

目前人類社會已進入大數(shù)據(jù)時代?！按髷?shù)據(jù)”這一術語最早可追溯到Apache org的開源項目Nutch，當時大數(shù)據(jù)用來描述為實現(xiàn)網(wǎng)絡搜索索引更新，同時進行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce、Google File System(GFS)的發(fā)布，大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù)，還涵蓋處理數(shù)據(jù)的速度。業(yè)界用Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)來描述大數(shù)據(jù)的特征。大數(shù)據(jù)引起政府、企業(yè)界和學術界的極大關注。2012年3月奧巴馬宣布美國啟動“大數(shù)據(jù)研究和發(fā)展計劃”。中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓在第十屆國家信息化專家論壇上建議盡早啟動大數(shù)據(jù)國家戰(zhàn)略。國際上Google、Facebook、IBM、EMC等IT企業(yè)部署大數(shù)據(jù)領域，國內(nèi)的百度、阿里巴巴、騰訊等IT巨頭積極跟進。在學術界，Nature 在2008年推出大數(shù)據(jù)?？?，Science 在2011年2月推出Dealing with Data專刊，現(xiàn)在大數(shù)據(jù)成為國際學術界研究熱點。本文旨在分析全球大數(shù)據(jù)理論研究現(xiàn)狀，提供大數(shù)據(jù)研究圖譜，分析大數(shù)據(jù)主要研究領域和研究熱點。

1 數(shù)據(jù)獲取及描述

筆者選用WoS數(shù)據(jù)庫，即SCI索引的Web版本。SCI是公認的世界上最權威的科學技術文獻索引工具，收錄了科技領域最重要、最新的研究成果。SCI引文檢索體系在全球獨一無二，不僅可從文獻引證角度評估文章的學術價值，還可迅速方便地組建研究課題的參考文獻網(wǎng)絡。因此，選用WoS作為檢索大數(shù)據(jù)研究成果的數(shù)據(jù)源，能確保所獲數(shù)據(jù)的全面性和權威性。

檢索設置條件見表1。由于難以確認大數(shù)據(jù)研究的正式起源時間，因此檢索時段的設置沒有時間限制，以便能從文獻數(shù)量角度觀察大數(shù)據(jù)研究規(guī)律。文件類型選擇會議論文(Proceedings Paper)、期刊文章(Article)和評論(Review)，前兩種是發(fā)表學術研究成果的最主要方式；“Review”類型的文章雖然數(shù)量不多，共49篇，但被大量引用，對大數(shù)據(jù)研究有較大影響。檢索時間是2014年8月20日，獲得主題為“big data”的文獻1311篇。

表1 檢索設置

2 研究方法

采用文獻計量和科學知識圖譜相結合的方式對大數(shù)據(jù)研究文獻進行分析。選擇的知識圖譜分析軟件是CiteSpace[1]。

3 大數(shù)據(jù)研究基礎分析

3.1 文獻時間分布

主題為“big data”的1311篇中，最早的文獻出現(xiàn)在1999年，有1篇；2000年沒有。2001-2008年，每年論文數(shù)量為幾篇，屬于大數(shù)據(jù)研究萌芽階段。2008年Nature 出版專刊Big data，討論互聯(lián)網(wǎng)技術、網(wǎng)絡經(jīng)濟學、超級計算、環(huán)境科學、生物醫(yī)學等多方面大數(shù)據(jù)帶來的挑戰(zhàn)，對大數(shù)據(jù)研究影響深遠。2009-2011年，大數(shù)據(jù)研究處于早期發(fā)展階段，每年發(fā)表數(shù)量保持在10來篇左右。2011年Science 推出Dealing with data 專刊，討論數(shù)據(jù)洪流帶來的問題，推動大數(shù)據(jù)研究快速發(fā)展。2012年大數(shù)據(jù)的技術優(yōu)勢被廣泛認可，越來越多的互聯(lián)網(wǎng)企業(yè)應用大數(shù)據(jù)技術來構建平臺的數(shù)據(jù)處理架構，大數(shù)據(jù)論文數(shù)量飆升到196篇。2013年大數(shù)據(jù)得到進一步普及，很多國家把大數(shù)據(jù)產(chǎn)業(yè)上升到戰(zhàn)略高度，關于大數(shù)據(jù)的研究文獻上升到755篇，占總數(shù)的57.79%。從文獻數(shù)量看，2012年至今，大數(shù)據(jù)文獻迅速增加，形成研究熱潮。

表2 大數(shù)據(jù)研究文獻時間分布統(tǒng)計

3.2 主要發(fā)文期刊或會議

大數(shù)據(jù)論文數(shù)量排在前十位的期刊或會議見表3，其中8個是國際會議，說明專題會議是發(fā)表大數(shù)據(jù)研究成果的主要途徑。排名第一和第五的是IEEE的大數(shù)據(jù)專題會議，刊發(fā)大量的大數(shù)據(jù)論文，特別是排在第一位的2013 IEEE International Conference on Big Data刊文111篇，占總數(shù)的8.47%。醫(yī)學健康領域?qū)ｎ}會議，如第三和第四位關于E-健康的國際會議，以及第八位醫(yī)學領域?qū)I(yè)期刊PLOS ONE，發(fā)表的大數(shù)據(jù)論文也較多，說明醫(yī)學健康領域?qū)Υ髷?shù)據(jù)的應用研究很重視。第十位是唯一一個計算機類期刊，共發(fā)表14篇，占總數(shù)的1.07%。

表3 刊發(fā)大數(shù)據(jù)文獻數(shù)量排前十的期刊/會議

3.3 主要發(fā)文國家

發(fā)表論文數(shù)量排名前十的國家見表4。美國共發(fā)表489篇，占37.30%，表明美國在大數(shù)據(jù)研究上占主導地位。中國共發(fā)表241篇，說明中國在大數(shù)據(jù)研究方面成果較豐碩。從地理分布看，大數(shù)據(jù)研究主要集中在北美、東亞和歐洲。

表4 論文發(fā)表數(shù)量前十的國家和地區(qū)

3.4 主要發(fā)文機構

論文發(fā)表數(shù)量排在前十位的機構見表5。中國科學院排第一，共發(fā)表30篇，占總數(shù)的2.29%，是前十中唯一的科研院所，其余都是大學。排名前十的機構從所屬國家看，美國最多，有七家美國知名大學；然后是中國，有兩家，分別是中國科學院和清華大學。

表5 論文發(fā)表數(shù)量前十的機構

4 大數(shù)據(jù)研究的可視化分析

4.1 大數(shù)據(jù)研究的知識基礎與研究前沿

普賴斯最早提出“研究前沿”的概念，用來描述研究領域的動態(tài)本質(zhì)。他認為某個領域的研究前沿由科學家積極引用的文章所體現(xiàn)。2009年陳超美把研究前沿定義為一組突現(xiàn)的動態(tài)概念和潛在的研究問題，而研究前沿的知識基礎則是它在科學文獻中的引文和共引軌跡[2]，即由引用研究前沿術語的科學文獻所形成的演化網(wǎng)絡。

為進一步研究大數(shù)據(jù)研究的前沿領域，筆者把從WoS獲得1311篇文獻作為數(shù)據(jù)源導入CiteSpace，參數(shù)“Time Slicing”設置為1999-2014，“Per Slice”為1，“Node Types”選擇Cited Reference，進行共被引文獻分析。文獻需經(jīng)過聚類處理，聚類效果的好壞可從Modularity Q和Mean Silhouette的大小來衡量。Modularity Q值越大，越接近1，表示類群之間的耦合越小，劃分清晰；Mean Silhouette值越大，越接近1，說明類群內(nèi)部節(jié)點之間的同質(zhì)性越高。經(jīng)過多次測試，當“Top Nper slice”方式數(shù)量設為50，剪枝方式“Pruning”同時復選“Pathfinder”和“Pruning the merged network”兩種方式時，得到的聚類具有較高Modularity Q和Mean Sil houette值，分別為0.9542和0.8068。這兩個值都相當高，說明在此參數(shù)設置下，聚類效果俱佳。最終形成合并的共被引文獻網(wǎng)絡圖共有538個節(jié)點，1705個連線，聚類后得到68個聚類群。采用“keyw ord”+“tf*idf”方式獲取聚類標識，共標識出35個類，其中4個標識語為空，具體每個類標識見表6。表6從大到小列出每個聚類標號、擁有的節(jié)點數(shù)量及對應標識特征詞，這些特征詞代表大數(shù)據(jù)研究前沿領域。進一步對共被引文獻網(wǎng)絡圖進行“Citation Burst”處理，然后轉換成“Timeline View”得到圖1，更加直觀地顯示各個類的研究歷史和相互引用關系。共被引文獻網(wǎng)絡圖中引用文獻節(jié)點間相互引用關系構成大數(shù)據(jù)的知識基礎。表7列出排名前十的高被引文獻，它們是大數(shù)據(jù)研究知識基礎的重要代表，對大數(shù)據(jù)研究影響深遠。

表6 大數(shù)據(jù)主要研究前沿領域

圖1 大數(shù)據(jù)研究前沿聚類圖

表7 排名前十的高被引文獻

表8 引用次數(shù)突增的文獻

共被引文獻網(wǎng)絡中的突增節(jié)點預示著該領域的研究熱點。經(jīng)過突變處理，那些被引用次數(shù)出現(xiàn)突然增長的文獻節(jié)點以紅色圓圈標示出，圖1中共有3個突變節(jié)點，如表8所示。第一突增節(jié)點是Google公司的Dean J在2008年發(fā)表的關于MapReduce算法的論文。該文獻突現(xiàn)值高達12.49，同時也是被引用次數(shù)最多的文獻，高達124次，表明該論文在大數(shù)據(jù)研究中至關重要。現(xiàn)在MapReduce已成為開源大數(shù)據(jù)架構Hadoop的核心算法，廣泛應用于大型互聯(lián)網(wǎng)平臺中，該節(jié)點歸屬于#2data integration類。第二個突增節(jié)點是2011年麥肯錫咨詢公司Manyika J等人發(fā)布的一份關于大數(shù)據(jù)的詳盡報告，對大數(shù)據(jù)的影響、關鍵技術和應用領域進行了詳盡分析，幫助人們?nèi)嬲J識大數(shù)據(jù)，對指引大數(shù)據(jù)的研究發(fā)展起到積極作用，該節(jié)點屬于#6twitter。第三個是Yahoo公司的Olston C等人針對大數(shù)據(jù)分析設計的高級程序語言Pig Latin，通過Pig編譯平臺產(chǎn)生Map Reduce程序，它比使用Map Reduce直接編寫更加容易、靈活，更便于維護和重用，因此在大數(shù)據(jù)分析中得到廣泛應用，Pig現(xiàn)是Hadoop項目的一部分，屬于#0MapReduce。Data Integration和Twitter這兩個方向從2012年到現(xiàn)在一直是大數(shù)據(jù)研究熱點，而表8中Dean J一文的突增值特別高，說明Data Integration方向在大數(shù)據(jù)研究中受到格外重視，是當前最大研究熱點。Map Reduce方向的突增發(fā)生在2013-2014年，是最近大數(shù)據(jù)研究關注的熱點。

4.2 共被引作者分析

對1311篇文獻繼續(xù)進行共被引作者分析，參數(shù)“Time Slicing”設置為1999-2014，“Per Slice”為1，“Node Types”選擇Cited Author，“Top N per slice”數(shù)量設為50，剪枝方式“Pruning”同時復選Pathfinder和Pruning the merged network兩種，得到一個494個節(jié)點，1590條連線的合并網(wǎng)絡，選擇只顯示大于30次的節(jié)點標示，結果如圖2所示。表9列出被引次數(shù)排名前十的作者及具體次數(shù)。結合圖2與表9的分析，排名第一的作者是Dean J，被引次數(shù)高達184次，遠遠超過其他作者，幾乎是第二名的3倍。Dean J正是Map Reduce：simplified data processing on large clusters 一文的作者，該文獻在大數(shù)據(jù)研究中被引次數(shù)最高，達124次，對大數(shù)據(jù)發(fā)展影響深遠。White T是排名第二的作者，他在2009年出版的Hadoop the definitive guide 是Hadoop的權威指南，是學習和了解大數(shù)據(jù)架構Hadoop的重要書籍，該書在高被引文獻排名中位居第二，被引56次。其余高被引作者的被引次數(shù)大致在50至30次左右，變化不大，其中MANYIKA J和OLSTONC發(fā)表的論文同時進入高被引文獻排名的前十位。

表9 被引次數(shù)前十的作者

圖2 共被引作者分析

4.3 共被引期刊分析

采用類似參數(shù)對1311篇文獻進行共被引期刊分析，得到一個423個節(jié)點、1632條連線的網(wǎng)絡合并圖，選擇只顯示大于65次的節(jié)點標示，得出圖3。表10列出排名前十的期刊和會議。Communications of the ACM 是美國計算機協(xié)會的旗艦刊物，刊載計算機領域的重要研究和創(chuàng)新，對計算機發(fā)展影響重大；在排名前十的高被引文獻中，有兩篇出自該期刊。Lecture notes in computer science 是Springer集團出版的計算機領域的專業(yè)期刊。兩種期刊的被引次數(shù)較接近，分別為244次和229次，它們都是計算機領域的期刊。排在前十且屬于計算機領域的還有第六名的IEEE Transaction on knowledge and data engineering，是IEEE旗下知識及數(shù)據(jù)工程類的學報，被引次數(shù)93；第9名Journal of Machine Learning Research 被引次數(shù)為69次。從圖3可見，計算機領域四個期刊聚集在圖的左上方。排在第三至五名的分別是Nature、Science 期刊和Proceedings of the national academy of sciences of the united states of America會議，被引次數(shù)依次是167、161和113。Nature 和Science 是世界頂級期刊，一般刊載全球最前沿的科學研究，最重大的理論發(fā)現(xiàn)，屬于綜合類期刊。第七、八和十名期刊屬于生物信息領域，被引次數(shù)分別為87、87、69，聚集在圖3的中心周圍，說明大數(shù)據(jù)技術在生物信息領域也得到廣泛應用。

表10 被引次數(shù)前十的期刊/會議

圖3 共被引期刊分析

5 結論

(1)從WoS數(shù)據(jù)庫收錄的相關大數(shù)據(jù)論文數(shù)量看，大數(shù)據(jù)研究最早可追溯到1999年。1999-2008年，每年與大數(shù)據(jù)相關的論文都在幾篇左右，處于零星研究狀態(tài)。2008年Nature 和Communications of the ACM 刊發(fā)的大數(shù)據(jù)論文對大數(shù)據(jù)研究發(fā)展影響深遠。2009-2011年，從數(shù)量看大數(shù)據(jù)研究進入新的階段，每年發(fā)表的論文在15篇左右，說明大數(shù)據(jù)逐漸被關注。2012年論文數(shù)量快速增長到196篇，2013年更升至755篇，大數(shù)據(jù)研究進入快速成長期，大量專家學者投入大數(shù)據(jù)研究中，大數(shù)據(jù)受到空前的重視。

(2)從發(fā)表大數(shù)據(jù)論文數(shù)量最多的十個期刊或會議看，有八個是國際會議，說明專題會議成為發(fā)布大數(shù)據(jù)最新成果的主要途徑，其中IEEE的大數(shù)據(jù)專題會議，發(fā)表論文111篇，排名第一。另外，醫(yī)學健康方面的會議和期刊也大量登載關于大數(shù)據(jù)研究的論文。而從文獻被引用次數(shù)來看，排在前十的主要是期刊，其中對大數(shù)據(jù)研究影響最大的是Communications of the ACM。從被引用次數(shù)最多的前十種期刊或會議的類型來看，主要是三類期刊：計算機類、綜合類和生物信息類。綜合刊發(fā)大數(shù)據(jù)論文數(shù)量和被引用次數(shù)排名前十的期刊或會議的統(tǒng)計數(shù)據(jù)，大數(shù)據(jù)研究主要集中在計算機、生物信息、醫(yī)學健康領域。

(3)從發(fā)文國家看，美國排第一，中國排第二。從發(fā)文機構看，前十所機構中有七家是美國大學，兩家是中國科研和教學機構。說明美國對大數(shù)據(jù)研究的重視，以及在此領域的領導地位，而中國也緊跟其后，走在世界前列。

(4)通過可視化分析，大數(shù)據(jù)的研究前沿共有34個方向，當前的研究熱點是MapReduce、Data Integration和Twitter。

(5)2008年Dean J在Communications of the ACM 發(fā)表的Map Reduce：simplified data processing on large clusters 對大數(shù)據(jù)研究影響深遠，此文及其作者、所在期刊都是被引用次數(shù)最多的，說明該文獻對大數(shù)據(jù)研究影響重大，文中提出的MapReduce理論模型已成為被廣泛應用，成為開源大數(shù)據(jù)架構Hadoop的核心技術。

[1] Chen C.CiteSpace II：Detecting and visualizing emerging trends and transient patterns in scientif ic literature[J].Journal of the American Society for Inf ormation Science and Technology，2006，57（3）：359-377.

[2] Chen C，SanJuan FI，Hou JH.The structure and dynamics of co-citation clusters：Amultiple-perspective co-citationanalysis[J].Journal of the American Society for Information Science and Technology，2010，61（7）：1386-1409.

[3] Dean J，Ghemawat S.MapReduce：simplified data processing on large clusters[J].Communications of the ACM，2008，51（1）：107-113.

[4] White T.Hadoop the def initive guide[M].Sebastopol：O’Reilly Media，2009.

[5] Manyika J，Chui M，Brown B，et al.Big data：The next f rontier f or innovation，competition，and productivity[R].[S.I]：McKinsey Global Institute，2011.

[6] Howe D，Costanzo M，F(xiàn)ey P，et al.Big data：The future of biocuration[J].Nature，2008，455（7209）：47-50.

[7] Schadt EE，Linderman MD，Sorenson J，et al.Computational solutions to large-scale data management and analysis[J].Nature Reviews Genetics，2010，11：647-657.

[8] Lynch C.Big data：Howdo your data grow[J].Nature，2008，455（7209）：28-29.

[9] Ekanayake J，F(xiàn)ox G.High Performance Parallel Computing with Clouds and Cloud Technologies[J].Lecture Notes of the Institute f or Computer Sciences， Social-Informatics and Telecommunications Engineering，2010，34：20-38.

[10]Dean J，Ghemawat S.MapReduce：aflexible dataprocessing tool[J].Communicationsof the ACM，2010，53（1）：72-77.

[11]Hey T，Tansley S，Tolle K.The Fourth Paradigm：Data-Intensive Scientific Discovery[R].[S.I]：Microsoft Research，2009.

[12]Olston C，Reed B，Srivastava U，et al.Pig latin：a not-so-foreign language for data processing[C].SIGMOD'08 Proceedings of the 2008 ACMSIGMODinternational conf erence on Management of data.[S.I]：[s.n.]，2008：1099-1110.

猜你喜歡

次數(shù)聚類數(shù)量

機場航站樓年雷擊次數(shù)計算

智能建筑電氣技術(2022年2期)2022-02-06 02:30:46

2020年，我國汽車召回次數(shù)同比減少10.8%，召回數(shù)量同比增長3.9%

商用汽車(2021年4期)2021-10-13 07:16:02

一類無界算子的二次數(shù)值域和譜

數(shù)學物理學報(2020年6期)2021-01-14 01:00:14

統(tǒng)一數(shù)量再比較

小學生學習指導(低年級)(2019年3期)2019-04-22 03:34:42

基于DBSACN聚類算法的XML文檔聚類

電子測試(2017年15期)2017-12-18 07:19:27

依據(jù)“次數(shù)”求概率

中學生數(shù)理化·中考版(2017年12期)2017-04-18 12:55:03

頭發(fā)的數(shù)量

小獼猴智力畫刊(2016年6期)2016-05-14 21:40:48

基于改進的遺傳算法的模糊聚類算法

智能系統(tǒng)學報(2015年4期)2015-12-27 09:38:39

我國博物館數(shù)量達4510家

現(xiàn)代企業(yè)(2015年5期)2015-02-28 18:51:08

一種層次初始的聚類個數(shù)自適應的聚類方法研究

電子設計工程(2015年6期)2015-02-27 12:04:53

圖書館論壇2015年4期

圖書館論壇的其它文章: 從跨文化視角看中美青少年閱讀活動主題語; 大學本科生圖書館閱讀行為與幸福感的相關性研究; 篳路藍縷先驅(qū)之路——試論我國第一代圖書館學人留美經(jīng)歷*; 圖書館轉型過程中知識資本效能的系統(tǒng)動力學分析*; 國外高校圖書館社會科學信息服務研究*; 維基的建構與應用——“香港文學地景資源庫”實踐

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

国产韩国一区二区三区| 91国际视频| 精品系列无码一区二区三区| 色婷婷精品大在线视频| 人人妻人人澡人人爽人人dvd| 久久精品人人做人人综合| 免费av在线国模| 日韩美女人妻一区二区三区 | 国产区高清在线一区二区三区| 国内自拍视频一区二区三区| 亚洲欧美日韩精品久久| 十八岁以下禁止观看黄下载链接| 免费视频成人国产精品网站| 亚洲白嫩少妇在线喷水 | 亚洲禁区一区二区三区天美| 伊人精品久久久久中文字幕| 狠狠色噜噜狠狠狠狠888奇禾| 亚洲欧美变态另类综合| 精品高清一区二区三区人妖| 99麻豆久久久国产精品免费| 一本色道av久久精品+网站| 日本嗯啊在线观看| 国产一区二区三免费视频| 国产一精品一av一免费| 国产亚洲日韩欧美一区二区三区 | 日韩精品人妻系列无码专区免费| 日韩欧美亚洲国产一区二区三区| 精品久久人妻av中文字幕| 国产国产裸模裸模私拍视频| 久久网视频中文字幕综合| 天堂av中文在线官网| 国产激情久久久久久熟女老人| 67194熟妇在线永久免费观看| 亚洲暴爽 AV人人爽日日碰 | 成人国产乱对白在线观看| 精品人妻av一区二区三区麻豆| 欧美黑人性暴力猛交喷水| 天天摸夜夜摸摸到高潮| 精品人妻伦九区久久AAA片69| 精品人妻av一区二区三区麻豆 | 亚洲av无码精品色午夜|

<fieldset id="q0ss0"><input id="q0ss0"></input></fieldset>

<fieldset id="q0ss0"><table id="q0ss0"></table></fieldset>

<del id="q0ss0"></del>

<fieldset id="q0ss0"><input id="q0ss0"></input></fieldset>