亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于大數(shù)據(jù)的研究與探討

        2018-05-30 16:14:10袁琴
        大東方 2018年1期
        關(guān)鍵詞:數(shù)據(jù)處理

        摘要:隨著通信技術(shù)的發(fā)展,移動(dòng)終端的隨時(shí)接入,大數(shù)據(jù)如排山倒海之勢充斥著我們的生活,如何處理大數(shù)據(jù)以及對大數(shù)據(jù)的利用是我們未來所面臨的主要問題。文章對大數(shù)據(jù)的概念及特點(diǎn)進(jìn)行了簡要分析與介紹,主要針對目前大數(shù)據(jù)分析與處理的常用六大工具進(jìn)行深入剖析與比較,旨在為大數(shù)據(jù)方向的科研工作者提供一些理論依據(jù)。

        關(guān)鍵詞:大數(shù)據(jù);Hadoop;HPCC;Storm;Apache Drill;RapidMiner;Pentaho BI

        1大數(shù)據(jù)的概念

        繼蒸汽時(shí)代、電氣時(shí)代、信息時(shí)代三大工業(yè)革命漸漸退出歷史舞臺(tái)之時(shí),以物聯(lián)網(wǎng)(IoT)與智能制造為主導(dǎo)的第四代工業(yè)革命悄然而至。云計(jì)算技術(shù)的興起,數(shù)據(jù)量出現(xiàn)了井噴現(xiàn)象,標(biāo)志著大數(shù)據(jù)(MegaData,BigData)時(shí)代的到來。與傳統(tǒng)的數(shù)據(jù)、海量數(shù)據(jù)(SeaData)所不同的是:大數(shù)據(jù)從數(shù)量上、類型上以及價(jià)值等方面都極具特色。

        目前,對大數(shù)據(jù)的定義還沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)和認(rèn)可,眾家各持己見。其中全球知名的咨詢公司麥肯錫提出了大數(shù)據(jù)的概念:大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。而研究機(jī)構(gòu)Gartner對大數(shù)據(jù)提出的概念是:大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)Ⅲ。在維基百科中大數(shù)據(jù)的概念定義為:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊。

        2大數(shù)據(jù)的特點(diǎn)

        在實(shí)際應(yīng)用中,也把大數(shù)據(jù)稱為巨量資料(Huge Data),從技術(shù)角度來看,大數(shù)據(jù)技術(shù)實(shí)際上是指從種類繁多的“數(shù)據(jù)”中,剔除數(shù)據(jù)噪音,迅速獲取有用信息的能力。云計(jì)算技術(shù)的出現(xiàn)為大數(shù)據(jù)的產(chǎn)生提供了“肥沃的土壤”,二者之間是密不可分的,也可以簡單的說:云計(jì)算技術(shù)促進(jìn)了大數(shù)據(jù)的發(fā)展,二者之間的關(guān)系就如同手心與手背的關(guān)系。

        目前對大數(shù)據(jù)的特點(diǎn)可概括為4V:

        *Volume(數(shù)量),數(shù)據(jù)量從過去的TB級(jí)別躍升至PB級(jí)別,甚至是EB級(jí)別。

        *Variety(類型),過去我們所處理的數(shù)據(jù)大部分都是結(jié)構(gòu)化數(shù)據(jù),少部分非結(jié)構(gòu)化數(shù)據(jù);如今,移動(dòng)終端的實(shí)時(shí)接入、互聯(lián)網(wǎng)的快速發(fā)展,所產(chǎn)生的網(wǎng)絡(luò)日志、影視、圖片、動(dòng)畫以及聲音等更多的是非結(jié)構(gòu)化數(shù)據(jù)或者是半結(jié)構(gòu)化數(shù)據(jù),其中個(gè)性化數(shù)據(jù)占近乎總數(shù)據(jù)量的三分之二。

        *Value(價(jià)值),數(shù)據(jù)量雖然很大,但是在這些數(shù)據(jù)中所包含的價(jià)值密度卻很低,以我們?nèi)粘I钪械挠跋褓Y料為例,一般時(shí)長為六十分鐘的視頻,對某類用戶來說有價(jià)值的數(shù)據(jù)可能只有那么一兩秒鐘,其余的都是數(shù)據(jù)噪音。

        *Velocity(速度),大數(shù)據(jù)要求其處理速度很快,也就是我們常說的1秒定律,它主要是從數(shù)據(jù)有效的實(shí)時(shí)性角度來考慮的。

        伴隨日益普及的網(wǎng)絡(luò)而產(chǎn)生的大數(shù)據(jù),給企業(yè)、事業(yè)、政府等部門帶來“困惑”的同時(shí)也帶來了潛在的“價(jià)值”。因?yàn)?,在大?shù)據(jù)中蘊(yùn)含著數(shù)據(jù)生產(chǎn)者的真實(shí)意圖與喜好。比如阿里巴巴、天貓等通過訪問量與訪問內(nèi)容就可以提取出客戶的喜好與需求,更好的為電子商務(wù)的擴(kuò)展業(yè)務(wù)提供數(shù)據(jù)支持。但是,從海量數(shù)據(jù)中去除噪音,提純信息使其更具價(jià)值,這對網(wǎng)絡(luò)的架構(gòu)來說是一項(xiàng)艱巨的任務(wù),對提高數(shù)據(jù)處理能力來說是一個(gè)難攻克的課題。因此,針對不同領(lǐng)域的大數(shù)據(jù)分析、大數(shù)據(jù)處理將是大數(shù)據(jù)產(chǎn)業(yè)健康、持續(xù)發(fā)展的關(guān)鍵。

        3大數(shù)據(jù)處理分析的六大常用工具

        1)Hadoop

        2006年,Apache Lucene的創(chuàng)始人Doung Cutting創(chuàng)建了Hadoop,Hadoop是Apache的Lucene項(xiàng)目的一個(gè)子項(xiàng)目。與此同時(shí),Doung加入yahoo,yahoo將Hadoop發(fā)展成一個(gè)能夠處理Web數(shù)據(jù)的系統(tǒng)。Hadoop作為對大量數(shù)據(jù)進(jìn)行分布式處理的軟件框架具有高可靠性、高容錯(cuò)性、高效性以及可伸縮性等優(yōu)點(diǎn),以至于在2008年短短幾年期間,它就基本成了大數(shù)據(jù)的代名詞。

        2)HPCC

        HPCC(High Performance Computing and Communications)是LexisNexis公司發(fā)布的一款開源的數(shù)據(jù)處理工具。1993年,由美國科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會(huì)向國會(huì)提交的一份關(guān)于HPCC的報(bào)告,其主要目標(biāo)是提高網(wǎng)絡(luò)的傳輸性能、擴(kuò)展網(wǎng)絡(luò)連接能力等。

        3)Storm

        Storm由Twitter開源而來,通常被比作“實(shí)時(shí)的Hadoop”,與Hadoop相比較為簡單,它是一個(gè)實(shí)時(shí)的、分布式以及具備高容錯(cuò)的計(jì)算系統(tǒng)。

        4)ApacheDrill

        Apache Drill是Apache參考Googlel的Dremel所創(chuàng)建的開源項(xiàng)目,是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行交互分析、開源的分布式系統(tǒng),它能夠運(yùn)行在上千個(gè)節(jié)點(diǎn)的服務(wù)器集群上,且能在幾秒內(nèi)處理PB級(jí)或者萬億條的數(shù)據(jù)記錄。

        5)RapidMiner

        RapidMiner是目前世界上較為領(lǐng)先的開源數(shù)據(jù)挖掘軟件,它提供了一些有用的、可擴(kuò)展的數(shù)據(jù)分析挖掘算法,可以用來搭建推薦系統(tǒng)和評(píng)論挖掘系統(tǒng),最終幫助用戶方便、快捷地創(chuàng)建智能應(yīng)用程序。

        6)Pentaho BI

        Pentaho BI平臺(tái)與傳統(tǒng)的BI產(chǎn)品有所不同,它是一個(gè)以流程為中心的,工作流驅(qū)動(dòng)的,可擴(kuò)展平臺(tái)的,用于解決商業(yè)智能問題的框架,側(cè)重于大中型企業(yè)應(yīng)用。Pentaho BI平臺(tái)是在MozillaPublic License(MPL)下基于Java的開放源碼。

        4結(jié)論

        大數(shù)據(jù)的分析工具是更好地利用大數(shù)據(jù)的必不可少的手段,這些工具都有或多或少的弊端,需要我們后續(xù)的科研工作者在前人的基礎(chǔ)上,進(jìn)行深入研究,為大數(shù)據(jù)更好地服務(wù)于企業(yè)、事業(yè)單位以及政府而不斷努力。

        作者簡介

        袁琴(1983-),女,江西吉安,講師,研究方向:計(jì)算機(jī)科學(xué)與技術(shù)。

        (作者單位:江西工程學(xué)院)

        猜你喜歡
        數(shù)據(jù)處理
        驗(yàn)證動(dòng)量守恒定律實(shí)驗(yàn)數(shù)據(jù)處理初探
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        ADS-B數(shù)據(jù)處理中心的設(shè)計(jì)與實(shí)現(xiàn)
        電子測試(2018年4期)2018-05-09 07:28:12
        MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
        大數(shù)據(jù)處理中基于熱感知的能源冷卻技術(shù)
        Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
        數(shù)據(jù)處理能力在求職中起關(guān)鍵作用
        我國首個(gè)“突發(fā)事件基礎(chǔ)數(shù)據(jù)處理標(biāo)準(zhǔn)”發(fā)布
        国产国拍精品亚洲av在线观看| 亚洲精品中文字幕无乱码麻豆 | 欧美日韩中文国产一区| 人妻无码AⅤ不卡中文字幕| 澳门精品一区二区三区| 国产禁区一区二区三区| 亚洲女初尝黑人巨高清| 亚洲欧美精品91| 久久免费网站91色网站| 精品国产亚洲第一区二区三区| 欧美人与禽2o2o性论交| 亚洲精品久久久久久| 久久aⅴ无码av高潮AV喷| 精品一区二区三区a桃蜜| 亚洲国产精品成人精品无码区在线| 中日韩精品视频在线观看| 国产亚洲午夜精品| 少妇人妻一区二区三飞| 国产成人a级毛片| 国产欧美一区二区精品仙草咪| 男人的天堂av网站一区二区| 日本免费播放一区二区| 女人被男人爽到呻吟的视频| 少妇精品久久久一区二区三区| 蜜桃视频中文在线观看| 国产三级不卡一区不卡二区在线| 亚洲国产av玩弄放荡人妇| 香蕉视频在线观看国产| 一区二区免费国产a在亚洲| 国产精品毛片无遮挡高清| 青青草97国产精品免费观看| 精品一区二区三区久久久| 中文字幕高清视频婷婷| 国产做国产爱免费视频| 人妻无码中文人妻有码| 国产精品久久夜伦鲁鲁| 国产成人精品无码免费看| 国产96在线 | 欧美| AV熟妇导航网| 美女人妻中出日本人妻| 中文字幕免费不卡二区|