亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        什么是大數(shù)據(jù)?您需要知道的一切

        2017-10-27 16:26:11Charles
        計算機世界 2017年39期
        關鍵詞:分析

        Charles

        分析大量數(shù)據(jù)只是大數(shù)據(jù)不同于以前數(shù)據(jù)分析的部分因素。了解其他三個因素是什么。

        人類每天都在吃飯、睡覺、工作和玩耍,這產(chǎn)生了數(shù)據(jù)——非常非常多的數(shù)據(jù)。據(jù)IBM,人類每天產(chǎn)生2.5垓字節(jié)(250十億個十億)的數(shù)據(jù)。這相當于堆疊到月球又返回來的DVD碟片,包括了從我們發(fā)送的文本和我們上傳的照片,直至工業(yè)傳感器數(shù)據(jù)和機器到機器通信的所有數(shù)據(jù)。

        這就是為什么“大數(shù)據(jù)”成為如此常見用語的主要原因。簡單地說,當人們談論大數(shù)據(jù)時,他們指的是能夠獲得大量的數(shù)據(jù),分析數(shù)據(jù),并將其變成有用的東西。

        大數(shù)據(jù)究竟什么是?

        但大數(shù)據(jù)遠不止這些,它涉及到:

        大量的數(shù)據(jù),通常來自多個來源。

        不僅是大量的數(shù)據(jù),而且是不同類型的數(shù)據(jù)——通常是同時有多種數(shù)據(jù),而且數(shù)據(jù)還隨時間變化,這些數(shù)據(jù)不需要先轉換成特定的格式,也不需要使其一致。

        分析數(shù)據(jù)所采用的方式允許出于不同的目的對相同數(shù)據(jù)池進行持續(xù)分析。

        所有這一切都能夠迅速完成,甚至是實時的。

        在早期,業(yè)界提出了一個縮寫詞來描述四個特征中的三個:VVV,代表了體量(volume,體量巨大)、類型繁多(variety,不同類型的數(shù)據(jù),數(shù)據(jù)隨時間變化)、速度(velocity)。

        大數(shù)據(jù)和數(shù)據(jù)倉庫

        VVV首字母縮寫遺漏了一個關鍵的概念,即不需要永久地改變(轉換)要分析的數(shù)據(jù)。這種非破壞性的分析意味著誰都可以出于不同的目的去分析相同的數(shù)據(jù)池,并可以分析從不同源收集的數(shù)據(jù)。

        作為對比,數(shù)據(jù)倉庫是專門設計用于出于特定目的而分析特定的數(shù)據(jù),并對數(shù)據(jù)進行結構化處理,轉換為特定的格式。在整個過程中,原始數(shù)據(jù)基本上被破壞,是為了特定目的而不是其他目的——這被稱之為提取、轉換和加載(ETL)。數(shù)據(jù)倉庫的ETL方法只針對特定的數(shù)據(jù)進行特定的分析。這適用于所有數(shù)據(jù)都是在您的工作系統(tǒng)中的情況,但是在今天互聯(lián)網(wǎng)連接的世界里,數(shù)據(jù)來自四面八方,這就不太適用了。

        但是,不要認為大數(shù)據(jù)會使數(shù)據(jù)倉庫過時。大數(shù)據(jù)系統(tǒng)可以讓您非常方便地處理非結構化數(shù)據(jù),但您得到的查詢結果類型遠沒有數(shù)據(jù)倉庫的那么復雜。畢竟,數(shù)據(jù)倉庫的目的是深入分析數(shù)據(jù),它之所以能很好地做到這一點,是因為它把所有數(shù)據(jù)都轉換為一致的格式,使您能夠去構建用于深度挖掘的數(shù)據(jù)集等類似的工作。數(shù)據(jù)倉庫供應商花了多年的時間來優(yōu)化他們的查詢引擎,回答典型業(yè)務環(huán)境中的問題。

        大數(shù)據(jù)支持您分析來自多個數(shù)據(jù)源的大量數(shù)據(jù),但分辨率較低。因此,在未來一段時間內,我們將同時使用傳統(tǒng)的數(shù)據(jù)倉庫和新方法。

        大數(shù)據(jù)背后的技術突破

        為實現(xiàn)大數(shù)據(jù)四方面的特征——體量巨大、類型繁多、非破壞式使用和速度,這需要一些技術上的突破,包括分布式文件系統(tǒng)(Hadoop)的發(fā)展,一種方便快捷地了解不同數(shù)據(jù)的方法(最早是谷歌的MapReduce,還有最近的Apache Spark),以及根據(jù)需要訪問和移動數(shù)據(jù)的云/互聯(lián)網(wǎng)基礎設施。

        直到大約十年前,一次處理的數(shù)據(jù)量還相對較少。(嗯,當時,我們都認為數(shù)據(jù)倉庫是非常巨大的。自從互聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)并把各處的數(shù)據(jù)連接起來之后,情況發(fā)生了巨大的變化。)有限的數(shù)據(jù)存儲數(shù)量和位置,計算能力不足,處理來自多個源的不同數(shù)據(jù)格式的能力也有限,這些因素使得幾乎不可能完成數(shù)據(jù)處理任務。

        隨后,大約2003年的時候,谷歌的研究人員開發(fā)了MapReduce。這種編程技術首先把數(shù)據(jù)映射到一系列鍵/值對,對類似的鍵值進行計算,將它們縮減為單個值,然后在數(shù)百臺或者數(shù)千臺低成本機器上并行處理每一批數(shù)據(jù),從而簡化了大規(guī)模數(shù)據(jù)集的處理。這種龐大的并行特性使谷歌能夠從越來越大量的數(shù)據(jù)中更快的得到搜索結果。

        2003年左右,谷歌實現(xiàn)了兩個突破,這使得大數(shù)據(jù)成為可能:一是Hadoop,它是由兩項關鍵服務組成的:

        使用Hadoop分布式文件系統(tǒng)(HDFS),可靠的存儲數(shù)據(jù)。

        使用稱為MapReduce的技術進行高性能并行數(shù)據(jù)處理。

        Hadoop運行在商用無共享服務器集群上。您可以隨意添加或者刪除Hadoop集群中的服務器;系統(tǒng)會檢測并修復任何服務器上的硬件或者系統(tǒng)問題。換句話說,Hadoop是自我修復的。不管系統(tǒng)進行了修改還是出現(xiàn)了故障,它都能提供數(shù)據(jù),運行大規(guī)模、高性能處理工作。

        雖然Hadoop為數(shù)據(jù)存儲和并行處理提供了一個平臺,但真正的價值來自于附加組件、交叉集成和技術的定制實現(xiàn)。為此,Hadoop提供了子項目,這些子項目為平臺增加了功能和新特性:

        Hadoop Common:支持其他Hadoop子項目的公共實用程序。

        Chukwa:一個用于管理大型分布式系統(tǒng)的數(shù)據(jù)采集系統(tǒng)。

        Hbase:一個可擴展的分布式數(shù)據(jù)庫,為大型表提供結構化數(shù)據(jù)存儲支持。

        HDFS:一種分布式文件系統(tǒng),支持對應用數(shù)據(jù)的大吞吐量訪問。

        Hive:提供數(shù)據(jù)摘要和即席查詢的數(shù)據(jù)倉庫基礎設施。

        MapReduce:計算集群上大數(shù)據(jù)集分布式處理的軟件框架。

        Pig:并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。

        ZooKeeper:分布式應用的高性能協(xié)調服務。

        大部分Hadoop平臺的實現(xiàn)應至少包括其中的一些子項目,因為它們通常是開發(fā)大數(shù)據(jù)所必需的。例如,大多數(shù)企業(yè)選擇使用HDFS作為主要的分布式文件系統(tǒng),把HBase作為數(shù)據(jù)庫,它可以存儲數(shù)十億條數(shù)據(jù)。使用MapReduce或者最近的Spark幾乎是必須的,因為它們提高了Hadoop平臺的速度和敏捷性。

        采用MapReduce,開發(fā)人員可以在分布式處理器集群或者單機上開發(fā)并行處理大量非結構化數(shù)據(jù)的程序。MapReduce框架分為兩個功能區(qū):endprint

        Map,這一功能把工作分發(fā)到分布式集群中的不同節(jié)點上。

        Reduce,這一功能將工作排序并把結果解析為單個數(shù)值。

        MapReduce的主要優(yōu)點之一是它是容錯的,這通過監(jiān)視集群中的每個節(jié)點來實現(xiàn);每個節(jié)點都需要定期報告完成的工作和狀態(tài)更新。如果一個節(jié)點保持沉默的時間比預期的間隔長,那么主節(jié)點會發(fā)出通知并將工作重新分配給其他節(jié)點。

        Apache Hadoop是以MapReduce為核心的一種開源框架,兩年后才開發(fā)出來。Hadoop最初是用來索引現(xiàn)在不太常用的Nutch搜索引擎的,現(xiàn)在幾乎所有的主要行業(yè)都使用Hadoop來進行多種大數(shù)據(jù)工作。在Hadoop的分布式文件系統(tǒng)和YARN(Yet Another Resource Negotiator,另一種資源調度器)的支持下,該軟件使用戶能夠處理分布在數(shù)千臺設備上大量的數(shù)據(jù)集,就好像它們都在一臺巨大的機器上一樣。

        2009年,加州大學伯克利分校的研究人員開發(fā)了Apache Spark來替代MapReduce。Spark使用內存存儲進行并行計算,因此,它比MapReduce快100倍。Spark可以作為一個獨立的框架或者在Hadoop內部運行。

        即使使用Hadoop,您仍然需要一種方法來存儲和訪問數(shù)據(jù)。這通常是通過MongoDB、CouchDB或者Cassandra等NoSQL數(shù)據(jù)庫來實現(xiàn)的,它們專門處理分布在多臺機器上的非結構化或者半結構化數(shù)據(jù)。對于數(shù)據(jù)倉庫,大量不同類型的數(shù)據(jù)融合成統(tǒng)一的格式,并存放在一個數(shù)據(jù)存儲中,與數(shù)據(jù)倉庫不同,這些工具不會改變數(shù)據(jù)的根本性質或者位置——電子郵件仍然是電子郵件,傳感器的數(shù)據(jù)仍然是傳感器的數(shù)據(jù),而且可以存儲在任何地方。

        然而,把體量巨大的數(shù)據(jù)存儲在機器集群上的NoSQL數(shù)據(jù)庫中,如果您不使用這些數(shù)據(jù),那就體現(xiàn)不出這種方式的優(yōu)勢所在。而這才是大數(shù)據(jù)分析的用武之地。Tableau、Splunk和Jasper BI等工具支持您解析數(shù)據(jù),以識別模式、提取含義,并揭示出新的深度分析結果。您由此要開展的工作會因您的需求而有所不同。

        InfoWorld的執(zhí)行編輯Galen Gruman、InfoWorld的特約編輯Steve Nunez、自由撰稿人Frank Ohlhorst和Dan Tynan為本文做出了貢獻。

        原文網(wǎng)址:

        http://www.infoworld.com/article/3220044/big-data/what-is-big-data-everything-you-need-to-know.htmlendprint

        猜你喜歡
        分析
        禽大腸桿菌病的分析、診斷和防治
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        經(jīng)濟危機下的均衡與非均衡分析
        對計劃生育必要性以及其貫徹實施的分析
        GB/T 7714-2015 與GB/T 7714-2005對比分析
        出版與印刷(2016年3期)2016-02-02 01:20:11
        網(wǎng)購中不良現(xiàn)象分析與應對
        中西醫(yī)結合治療抑郁癥100例分析
        偽造有價證券罪立法比較分析
        亚洲精品久久区二区三区蜜桃臀 | 尤物yw无码网站进入| 久久久老熟女一区二区三区| 亚洲av无码av制服另类专区| 欧美性大战久久久久久久| 一级午夜视频| 日韩亚洲国产av自拍| 被驯服人妻中文字幕日本| 丝袜美腿久久亚洲一区| 亚洲av成人永久网站一区| 国产一区二区三区亚洲avv| 欧美激情肉欲高潮视频| 女人被狂躁高潮啊的视频在线看 | 亚洲国产成人va在线观看天堂| 国产精品一卡二卡三卡| 国产精品丝袜一区二区三区在线 | 欧美综合自拍亚洲综合百度| 一区二区三区手机看片日本韩国| 91成人国产九色在线观看| 亚洲视频在线一区二区| 熟女少妇精品一区二区| 老熟妇乱子伦av| 久久亚洲欧洲无码中文| 一区二区在线亚洲av蜜桃| 小黄片免费在线播放观看| 色呦呦九九七七国产精品| 国内女人喷潮完整视频| 精品久久无码中文字幕| 亚洲成人av一区二区三区| 中文字幕一区乱码在线观看| 亚洲综合色区一区二区三区| 国产精品爽爽v在线观看无码| 天天干夜夜操| 亚洲精品乱码久久久久久按摩高清| 白色白色白色在线观看视频| 亚洲人妻调教中文字幕| 亚洲精品久久久av无码专区| 亚洲 自拍 另类 欧美 综合 | 人妻少妇精品视中文字幕免费| 成年美女黄的视频网站| 中文字幕一区在线观看视频|