亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)的特征、管理與挖掘

        2015-05-30 19:05:47周健
        中國市場 2015年45期
        關鍵詞:數(shù)據(jù)采集數(shù)據(jù)管理大數(shù)據(jù)

        周健

        [摘 要]未來將是大數(shù)據(jù)的時代。大數(shù)據(jù)產(chǎn)業(yè)主要涉及數(shù)據(jù)生成、存儲、處理分析、應用四個環(huán)節(jié),具體來看,包含硬件設備、處理分析環(huán)節(jié)、綜合處理、語音識別、視頻識別、商業(yè)智能軟件、數(shù)據(jù)中心建設與維護、IT咨詢、方案實施、信息安全等領域。

        [關鍵詞]大數(shù)據(jù);數(shù)據(jù)采集;數(shù)據(jù)管理

        [DOI]10.13939/j.cnki.zgsc.2015.45.105

        隨著計算機和信息技術的迅猛發(fā)展和普及應用,行業(yè)應用系統(tǒng)的規(guī)模迅速擴大,行業(yè)應用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長。動輒達到數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模的行業(yè)、企業(yè)大數(shù)據(jù)已遠遠超出了現(xiàn)有傳統(tǒng)的計算技術和信息系統(tǒng)的處理能力。因此,尋求有效的大數(shù)據(jù)處理技術、方法和手段已經(jīng)成為現(xiàn)實世界的迫切需求。世界權威IT信息咨詢分析公司IDC研究報告預測:全世界數(shù)據(jù)量未來10年將從2009年的0.8ZB增長到2020年的35ZB(1ZB=1000EB=1000000PB),10年將增長44倍,年均增長 40%。而且,大量新數(shù)據(jù)源的出現(xiàn)導致數(shù)據(jù)結構的多樣變化,非結構化、半結構化的數(shù)據(jù)呈爆發(fā)式增長。這些信息背后產(chǎn)生的大量數(shù)據(jù)遠遠超越了目前人力所能處理的范疇,大數(shù)據(jù)時代正在來臨。

        1 大數(shù)據(jù)的特征

        大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合?!睒I(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。

        1.1 數(shù)據(jù)體量巨大(Volume)

        截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。

        1.2 數(shù)據(jù)類型繁多(Variety)這種類型的多樣性也將數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。

        1.3 價值密度低(Value)價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。

        1.4 處理速度快(Velocity)這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。

        一個基本的大數(shù)據(jù)處理流程,可以概括為四步,分別是采集、導入和預處理、統(tǒng)計和分析,以及挖掘。

        2 大數(shù)據(jù)的采集方法

        2.1 系統(tǒng)日志采集方法

        對于系統(tǒng)日志采集,很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,它們均采用分布式架構,能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。

        2.2 網(wǎng)絡數(shù)據(jù)采集方法:對非結構化數(shù)據(jù)的采集

        網(wǎng)絡數(shù)據(jù)采集可以將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲??梢酝ㄟ^網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。對于網(wǎng)絡流量的采集可以使用DPI或DFI等帶寬管理技術進行處理。

        2.3 其他數(shù)據(jù)采集方法

        對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。

        3 大數(shù)據(jù)存儲(導入)和管理

        3.1 并行數(shù)據(jù)庫

        并行數(shù)據(jù)庫系統(tǒng)大部分采用了關系數(shù)據(jù)模型并且支持SQL語句查詢,在無共享的體系結構中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)。

        3.2 NoSQL數(shù)據(jù)管理系統(tǒng)

        NoSQL指的是“Not Only SQL”,即對關系型SQL數(shù)據(jù)系統(tǒng)的補充。NoSQL最普遍的解釋是“非關系型的”,強調(diào)鍵值存儲和文檔數(shù)據(jù)庫的優(yōu)點,而不是單純地反對關系型數(shù)據(jù)庫。它采用簡單數(shù)據(jù)模型、元數(shù)據(jù)和應用數(shù)據(jù)的分離、弱一致性技術,使NoSQL能夠很好地應對海量數(shù)據(jù)的挑戰(zhàn)。

        3.3 云存儲與云計算

        在云計算概念上延伸和發(fā)展出來的云存儲,是一種新興的網(wǎng)絡存儲技術,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。

        3.4 實時流處理

        所謂實時系統(tǒng),是指能在嚴格的時間限制內(nèi)響應請求的系統(tǒng)。流式處理就是指源源不斷的數(shù)據(jù)流過系統(tǒng)時,系統(tǒng)能夠不停地連續(xù)計算。所以,流式處理沒有嚴格的時間限制,數(shù)據(jù)從進入系統(tǒng)到出來結果可能是需要一段時間。然而,流式處理唯一的限制是系統(tǒng)長期來看的輸出速率應當快于或至少等于輸入速率。否則,數(shù)據(jù)會在系統(tǒng)中越積越多。

        4 大數(shù)據(jù)的分析

        數(shù)據(jù)分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。如果是一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。

        5 大數(shù)據(jù)的挖掘與展示

        大數(shù)據(jù)技術不在于掌握龐大的數(shù)據(jù)信息,而是將這些含有意義的數(shù)據(jù)進行專業(yè)化處理,將海量的信息數(shù)據(jù)在經(jīng)過分布式數(shù)據(jù)挖掘處理后將結果可視化。數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達與溝通信息。依據(jù)數(shù)據(jù)及其內(nèi)在模式和關系,利用計算機生成的圖像來獲得深入認識和知識。這樣就對數(shù)據(jù)可視化軟件提出了更高的要求。數(shù)據(jù)可視化應用軟件的開發(fā)迫在眉睫,數(shù)據(jù)可視化軟件的開發(fā)既要保證實現(xiàn)其功能用途,同時又要兼顧美學形式。例如,標簽云、聚類圖、空間信息流、熱圖等。

        大數(shù)據(jù)成為推動經(jīng)濟轉型發(fā)展的新動力。以數(shù)據(jù)流引領技術流、物質(zhì)流、資金流、人才流,將深刻影響社會分工協(xié)作的組織模式,促進生產(chǎn)組織方式的集約和創(chuàng)新。大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇。在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)已成為國家重要的基礎性戰(zhàn)略資源,正引領新一輪科技創(chuàng)新。大數(shù)據(jù)還成為提升政府治理能力的新途徑。大數(shù)據(jù)應用能夠揭示傳統(tǒng)技術方式難以展現(xiàn)的關聯(lián)關系,推動政府數(shù)據(jù)開放共享,促進社會事業(yè)數(shù)據(jù)融合和資源整合,將極大提升政府整體數(shù)據(jù)分析能力,為有效處理復雜社會問題提供新的手段。

        參考文獻:

        孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].算機研究與發(fā)展,2014(1).

        猜你喜歡
        數(shù)據(jù)采集數(shù)據(jù)管理大數(shù)據(jù)
        企業(yè)級BOM數(shù)據(jù)管理概要
        定制化汽車制造的數(shù)據(jù)管理分析
        海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
        CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
        鐵路客流時空分布研究綜述
        基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
        軟件工程(2016年8期)2016-10-25 15:54:18
        通用Web表單數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:52:53
        基于開源系統(tǒng)的綜合業(yè)務數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        东北妇女xx做爰视频| 一区二区视频在线国产| 欧美老妇牲交videos| 天天躁日日躁狠狠很躁| 无码日韩AⅤ一区二区三区| 最新亚洲av日韩av二区一区| 亚洲一区二区免费日韩| 日韩精品资源在线观看免费| 三级黄色片免费久久久| 麻豆精品国产精华精华液好用吗| 丰满熟妇乱又伦| 亚洲精品久久久久高潮| 色二av手机版在线| 日本二区三区视频在线观看| 国产一区二区三区的区| 久久久亚洲欧洲日产国码aⅴ| 亚洲aⅴ无码成人网站国产app| 精品久久久久久电影院| 97成人精品在线视频| 男女猛烈无遮挡免费视频| 日本人与黑人做爰视频网站| 国产日韩A∨无码免费播放| 久久精品亚洲成在人线av| 成人午夜高潮a∨猛片| 九月婷婷人人澡人人添人人爽| 成年女人在线观看毛片| 国产av天堂一区二区二区| 丰满少妇人妻无码专区| 最新69国产成人精品视频免费| 亚洲欧洲久久久精品| 极品少妇一区二区三区四区视频 | 日本午夜精品一区二区三区| 中文字幕日本人妻久久久免费| 伊人狠狠色丁香婷婷综合| 91手机视频在线| 亚洲一区二区精品久久岳| 91成人国产九色在线观看| 日韩精品一区二区午夜成人版| 日本阿v网站在线观看中文| 国产精品日本天堂| 亚洲成人精品在线一区二区|