亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        什么是大數(shù)據(jù)

        2018-05-10 18:43:52朱瀅穎
        數(shù)字通信世界 2018年4期
        關(guān)鍵詞:字節(jié)數(shù)據(jù)庫汽車

        朱瀅穎

        (廣西南寧市第三中(五象校區(qū)),南寧 530221)

        1 大數(shù)據(jù)如此流行的原因

        現(xiàn)在的社會是一個高速發(fā)展、正在走向全面數(shù)據(jù)化的社會,科技發(fā)達(dá),人們的交流方式多樣化,生活也越來越方便,隨著社會的發(fā)展,出現(xiàn)了數(shù)據(jù)龐大且分散的問題,為了解決這樣的問題,大數(shù)據(jù)出現(xiàn)了。大數(shù)據(jù)就是這個高科技時(shí)代的產(chǎn)物。大數(shù)據(jù)在社會分析、科學(xué)發(fā)現(xiàn)、商業(yè)決策中的作用越來越大。大數(shù)據(jù)已經(jīng)成為各類大會的重要議題,管理人士都希望利用大數(shù)據(jù)技術(shù)進(jìn)行行業(yè)預(yù)測。

        2 大數(shù)據(jù)是什么

        2.1 人們對大數(shù)據(jù)的理解

        人們對大數(shù)據(jù)有著各種各樣的理解,理解當(dāng)中存在很多誤解,比如:大數(shù)據(jù)更多的運(yùn)用于存儲方面,大數(shù)據(jù)即為數(shù)據(jù)量十分龐大;大公司或者大企業(yè)才有能力使用大數(shù)據(jù)技術(shù);擁有了大數(shù)據(jù)便可看到想要的趨勢或結(jié)果;大數(shù)據(jù)的數(shù)據(jù)量大,可以將個人隱私深藏保護(hù)起來。[3]其實(shí),大數(shù)據(jù)包括收集、存儲和分析,它需要通過技術(shù)的支持就可進(jìn)行,即便是小公司,只要有了相關(guān)的技術(shù)支持,如爬蟲技術(shù)、云計(jì)算、No-SQL技術(shù),便可使用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過對大量數(shù)據(jù)的解析才能分析出數(shù)據(jù)中隱藏的規(guī)律,在細(xì)密的分析、挖掘下,個人隱私更容易遭到暴露。

        2.2 大數(shù)據(jù)的概念

        大數(shù)據(jù)(big data)也稱海量資料,指的是所需要處理的資料量十分龐大,一時(shí)無法通過現(xiàn)有的主流、常規(guī)的軟件工具在一定的時(shí)間內(nèi)進(jìn)行獲取、整理、處理,再整理得到結(jié)論,引導(dǎo)使用者可以做出較為正確決策的資料。[4]正如大數(shù)據(jù)所具四個特征(4個V)。

        (1)Volume(數(shù)據(jù)量大),存儲單位從過去的GB到TB,直至PB、EB。1GB(Gigabyte吉字節(jié))=2^10MB=1024MB=2^30B;1TB(Trillionbyte太字節(jié))=2^10GB=1024GB=2^40B;1PB(Petabyte 拍字節(jié))=2^10TB=1024TB=2^50B;1EB(Exabyte艾字節(jié))=2^10PB=1024PB=2^60B;1ZB(Zettabyte澤字節(jié))=2^10EB=1024EB=2^70B。

        我們平常中就產(chǎn)生了不少的數(shù)據(jù),如淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。

        (2)Variety(數(shù)據(jù)類型多),大數(shù)據(jù)形式的多樣性由廣泛的數(shù)據(jù)來源決定,但這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。

        (3)Value(商業(yè)價(jià)值巨大),這是大數(shù)據(jù)的核心特征,大數(shù)據(jù)最大的價(jià)值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預(yù)測分析出有價(jià)值的數(shù)據(jù)。但若只是將一個文件不斷地復(fù)制,這樣的文件量再多也是沒有價(jià)值的。

        (4)Velocity(處理速度快),這是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)挖掘的最顯著區(qū)別,與傳統(tǒng)的廣播、報(bào)紙等數(shù)據(jù)載體相比,大數(shù)據(jù)借著互聯(lián)網(wǎng)、云計(jì)算等方式實(shí)現(xiàn),因此數(shù)據(jù)的交換、傳播速度遠(yuǎn)比傳統(tǒng)方式快的多。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。

        2.3 大數(shù)據(jù)所需要的技術(shù)

        大數(shù)據(jù)依賴于獲取數(shù)據(jù)技術(shù)和分析數(shù)據(jù)技術(shù)。大數(shù)據(jù)通過獲取數(shù)據(jù),才可得到大量信息,進(jìn)而分析數(shù)據(jù)。獲取數(shù)據(jù)的主要方式(渠道):

        (1)面向有著足夠人數(shù)使用的服務(wù)器或系統(tǒng)的日志進(jìn)行信息采集。

        (2)利用網(wǎng)絡(luò)獲取數(shù)據(jù)技術(shù),如爬蟲技術(shù),可對整個網(wǎng)頁頁面的信息進(jìn)行收集,例百度貼吧當(dāng)中,樓主、貼主發(fā)送貼子的時(shí)間、內(nèi)容截取下來儲存分析;數(shù)據(jù)庫采集也是一種方式,比如大公司的數(shù)據(jù)庫、大眾常用的中國知網(wǎng)、萬方、維普的數(shù)據(jù)庫。

        分析數(shù)據(jù)技術(shù)是大數(shù)據(jù)的核心技術(shù),并且分析技術(shù)是多種多樣的,如:數(shù)據(jù)倉庫、數(shù)據(jù)庫、數(shù)據(jù)挖掘技術(shù)、社交網(wǎng)絡(luò)分析技術(shù)、信息檢索技術(shù)、自然語言處理技術(shù)、云計(jì)算、No-SQL技術(shù)。

        現(xiàn)在使用較為普遍的是由Apache基金會研究開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop,而Hadoop的框架最核心的設(shè)計(jì)就是為海量數(shù)據(jù)提供儲存的HDFS和為海量數(shù)據(jù)提供計(jì)算的谷歌大法寶MapReduce。

        2.3.1 存儲原理

        HDFS(Hadoop Distributed File System),其設(shè)計(jì)之處就是為了提高超大文件的存取和讀取速度,它的讀取方式是把超大文件分割成多個block(數(shù)據(jù)庫中的最小存儲和處理單位)在多個dataNode(存儲節(jié)點(diǎn),一般有多臺機(jī)器)備份并存儲的,小文件并不會因其容量小而得以提高訪問和讀取速度,反之可能會降低。[1]并且HDFS還具有高吞吐量訪問、高容錯性、容量擴(kuò)充的好處。HDFS由Namenode和Datanode組成。Namenode是管理文件的命名空間,并且能夠記錄節(jié)點(diǎn)的信息,但它不能進(jìn)行永久保存。Datanode是文件系統(tǒng)的工作節(jié)點(diǎn),負(fù)責(zé)存儲和檢索數(shù)據(jù)塊。在HDFS中,Namenode相當(dāng)于一個管理者Datanode依靠Namenode進(jìn)行節(jié)點(diǎn)內(nèi)文件的重建。因此,Namenode相當(dāng)重要,一旦失去Namenode,HDFS就無法正常運(yùn)行。為了盡量避免因運(yùn)行Namenode的機(jī)器掛掉而導(dǎo)致系統(tǒng)中文件丟失,Hadoop提供了兩種容錯機(jī)制,第一種是將本地硬盤中的重要文件備份,也就是Hadoop通過配置讓Namenode將它持久化的文件寫錄到不同的文件系統(tǒng)中;第二種是運(yùn)行一個輔助的Namenode,即第二Namenode,它能保存合并后的命名空間即namespace image(namenode管理文件資源)的一個備份。

        2.3.2 處理原理

        MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(>1TB)的并行運(yùn)算。Map(映射)和Reduce(歸納)是其主要思想。[2](腳標(biāo)百度引用)Mapreduce是大數(shù)據(jù)當(dāng)中不可缺失的組成成分,為大數(shù)據(jù)提供分析和計(jì)算處理技術(shù)。Mapreduce在運(yùn)行中主要分為五個階段:input階段,Hadoop將Mapreduce的輸入數(shù)據(jù)劃分成等長的小數(shù)據(jù)塊,即輸入分片,Hadoop為每個分片構(gòu)建一個map任務(wù);Map階段,運(yùn)行過程中對某種輸入格式的一條記錄解析成一條或多條記錄;shuffle階段,對中間數(shù)據(jù)的控制,作為reduce的輸入;Reduce階段,對相同key的數(shù)據(jù)進(jìn)行合并;output階段,按照格式輸出到指定目錄。

        2.4 大數(shù)據(jù)的應(yīng)用實(shí)例

        以汽車行業(yè)為例子,汽車本身就是智能化的,各種智能傳感器,信息收集器都能提供大量的數(shù)據(jù)來源,比如汽車的使用周期,汽車行駛的公里數(shù),汽車的型號;其次汽車維修中心的數(shù)據(jù)收集能力強(qiáng),包含汽車零部件的使用年限、汽車維修保養(yǎng)的頻率等信息都會成為龐大的數(shù)據(jù)被采集、挖掘而后產(chǎn)生新的商業(yè)價(jià)值。

        車企和車商可以利用汽車的大數(shù)據(jù)這一有效資源,打造一個以汽車周邊為主的生態(tài)商業(yè)圈,包括汽車的保險(xiǎn),汽車的內(nèi)部裝飾,汽車檢修服務(wù),洗車服務(wù)等方面。這一商業(yè)生態(tài)網(wǎng)絡(luò)利用大數(shù)據(jù)技術(shù),在獲得諸多數(shù)據(jù)資料的同時(shí),進(jìn)行解析,讓商家得到能夠了解客戶需求的信息,便于商家對銷售產(chǎn)品作出相應(yīng)調(diào)整,以及推出新的商業(yè)方案,獲得更大收益。

        3 大數(shù)據(jù)是怎樣運(yùn)行的

        圖1 大數(shù)據(jù)的運(yùn)行

        第一步,將由用戶所使用的pc端、andorid端、ios端、Web,以及服務(wù)器日志、數(shù)據(jù)庫得到的數(shù)據(jù)資源上傳至Nginx服務(wù)器。第二步,基礎(chǔ)框架Hadoop提供存儲技術(shù)(HDFS)和數(shù)據(jù)分析處理技術(shù)(Mapreduce),把數(shù)據(jù)分塊存儲后,用Mapreduce進(jìn)行第一輪分流處理,并放入第一個數(shù)據(jù)庫中,再用Mapreduce做二次處理,處理后的數(shù)據(jù)放入第二個數(shù)據(jù)庫。第三步,經(jīng)數(shù)據(jù)的轉(zhuǎn)換,使通過大數(shù)據(jù)收集、處理后的信息在發(fā)掘出其更大的價(jià)值之后,得以更加直觀地以文字的形式展現(xiàn)出來。

        4 結(jié)束語

        大數(shù)據(jù)是龐大的信息資料,依靠Hadoop中的HDFS的文件分割儲存和Mapreduce的分流式處理對數(shù)據(jù)采集、解析,得到信息中蘊(yùn)含的更大價(jià)值,這為人們作出決斷提供了可參考的信息,因此大數(shù)據(jù)受到高層管理人士和科學(xué)研究分析領(lǐng)域人士的重視。大數(shù)據(jù)加快社會的進(jìn)步與發(fā)展,各行各業(yè)與大數(shù)據(jù)相結(jié)合后發(fā)現(xiàn)了新的機(jī)遇,不僅是便利了人們的生活,更是推動了科技的進(jìn)步。通過大數(shù)據(jù),人們獲得了大量數(shù)據(jù)背后所隱藏的規(guī)律,這樣更能讓人們做出更貼合事物客觀發(fā)展規(guī)律的決定。

        [1] 翟永東.Hadoop分布式文件系統(tǒng)(HDFS)可靠性的研究與優(yōu)化[D].華中科技大學(xué),2011.

        [2] 李建江,崔健,王聃等.MapReduce并行編程模型研究綜述[J].電子學(xué)報(bào),2011,39(11):2635-2642.

        [3] 戴明鋒,劉展.大數(shù)據(jù)理解誤區(qū)解讀[J].中國衛(wèi)生信息管理雜志,2015,12(1):61-63.

        [4] https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356 941?fr=aladdin.

        猜你喜歡
        字節(jié)數(shù)據(jù)庫汽車
        No.8 字節(jié)跳動將推出獨(dú)立出口電商APP
        No.10 “字節(jié)跳動手機(jī)”要來了?
        汽車的“出賣”
        簡談MC7字節(jié)碼
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        汽車們的喜怒哀樂
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        3D 打印汽車等
        決策探索(2014年21期)2014-11-25 12:29:50
        含紧一点h边做边走动免费视频| 国产精品一级av一区二区| 国产午夜久久久婷婷| 大白屁股流白浆一区二区三区| 国产精品女主播在线播放| 精品久久久久久无码中文野结衣 | 日本高级黄色一区二区三区| 亚洲国产成人久久精品不卡| 亚洲精品久久| 看黄网站在线| 日本骚色老妇视频网站| 国产亚洲人成在线观看| 国产精品永久久久久久久久久| 夜夜欢性恔免费视频| 亚洲精品国产老熟女久久| 亚洲一区在线二区三区 | AV无码中文字幕不卡一二三区| 午夜黄色一区二区不卡| 日韩一区二区三区熟女| 成人亚洲精品777777| 国产精选污视频在线观看| av天堂精品久久久久| 亚洲女同精品一区二区久久| 日本黑人亚洲一区二区| 色播亚洲视频在线观看| 日韩高清毛片| 国产免费99久久精品| 天天综合网网欲色| 蜜臀久久99精品久久久久久小说 | 日日碰日日摸日日澡视频播放| 三级特黄60分钟在线观看| 日韩一二三四精品免费| 国产精品自拍盗摄自拍| 欧美猛少妇色xxxxx猛交| 水蜜桃亚洲一二三四在线| 亚洲无码性爱视频在线观看| 一区二区高清视频免费在线观看 | 国产精品一区二区无线| 日韩在线无| 国产精品毛片大尺度激情| 亚洲大尺度无码无码专区|