亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主流大數(shù)據(jù)技術(shù)淺談

        2015-04-04 13:42:35曾昱祺
        數(shù)字通信世界 2015年7期
        關(guān)鍵詞:海量分析

        國 志,劉 暢,曾昱祺

        (國家無線電監(jiān)測(cè)中心,北京 100037)

        主流大數(shù)據(jù)技術(shù)淺談

        國 志,劉 暢,曾昱祺

        (國家無線電監(jiān)測(cè)中心,北京 100037)

        在全球化、信息化和市場(chǎng)化的今天,數(shù)據(jù)可以帶給我們的價(jià)值不言而喻。隨著智能社會(huì)的到來,大數(shù)據(jù)的沖擊,我們這代人正迎接著嶄新的機(jī)遇。本文在總結(jié)大數(shù)據(jù)時(shí)代新變革的基礎(chǔ)上,對(duì)當(dāng)今主流大數(shù)據(jù)技術(shù)進(jìn)行了列舉和介紹。在這樣一個(gè)需要高瞻遠(yuǎn)矚的大變革時(shí)代,只有掌握最新的技術(shù),才能在這輪技術(shù)浪潮中站穩(wěn)腳跟,脫穎而出。

        大數(shù)據(jù);Hadoop;Storm;Apache Drill

        Keyords:Big Data; Hadoop; Storm; Apache Drill

        1 引言

        大數(shù)據(jù)是現(xiàn)代信息技術(shù)的重要發(fā)展方向之一,實(shí)現(xiàn)大數(shù)據(jù)的共享和分析將帶來不可估量的經(jīng)濟(jì)價(jià)值,同時(shí)也對(duì)社會(huì)產(chǎn)生巨大的推動(dòng)作用。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每?jī)赡瓯銓⒎环?。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。大數(shù)據(jù)在現(xiàn)代社會(huì)和經(jīng)濟(jì)活動(dòng)中發(fā)揮著極其重要的作用,有效利用大數(shù)據(jù)會(huì)產(chǎn)生不可估量的價(jià)值。

        2 大數(shù)據(jù)帶來的新變革

        (1)全體數(shù)據(jù)替代隨機(jī)樣本。在過去很長的時(shí)間之內(nèi),由于數(shù)據(jù)儲(chǔ)存和分析能力的缺陷,人們無法準(zhǔn)確地對(duì)大量數(shù)據(jù)進(jìn)行處理,只能通過采樣的手段用最少的數(shù)據(jù)得到最多的信息,但這只是在不能收集和分析全部數(shù)據(jù)時(shí)的折中做法,本身存在很多缺陷。近些年,隨著云計(jì)算的產(chǎn)生和興起,大數(shù)據(jù)的處理迎來了一次巨大的飛躍。通過云計(jì)算可以處理的數(shù)據(jù)大大增加,用全體數(shù)據(jù)替代隨機(jī)樣本逐漸成為可能。

        (2)混雜性替代精確性。過去,由于被采樣的數(shù)據(jù)樣本偏小,則對(duì)數(shù)據(jù)分析就要求精準(zhǔn),盡可能地減少錯(cuò)誤,因?yàn)槭占挠邢扌砸馕吨⑿〉腻e(cuò)誤會(huì)被放大,甚至影響整個(gè)結(jié)果的準(zhǔn)確性。而對(duì)于“大數(shù)據(jù)”,單個(gè)結(jié)果的精確就顯得不那么重要了。與其浪費(fèi)計(jì)算在提高數(shù)據(jù)的精度上,不如用來處理更大量的數(shù)據(jù)。這樣,我們就不需要過于擔(dān)心某個(gè)數(shù)據(jù)對(duì)整套分析產(chǎn)生的不利影響,而是從這些紛繁復(fù)雜的數(shù)據(jù)中收益。相比小數(shù)據(jù)時(shí)代的精確,大數(shù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)的完整性和混雜性。

        (3)“是什么”代替“為什么”。我們網(wǎng)購時(shí),每當(dāng)買到一件心儀的物品以后,系統(tǒng)會(huì)向你推薦一些其他商品。事實(shí)證明,這個(gè)推薦比較準(zhǔn)確。而為什么兩樣不相關(guān)的東西會(huì)產(chǎn)生關(guān)聯(lián)?誰也不知道,但事實(shí)就是這樣。對(duì)商家來說,是什么比為什么更實(shí)惠。當(dāng)然,其中有些很可能只是巧合,但基于大量數(shù)據(jù)時(shí)就能篩選掉大多數(shù)巧合。而隨著計(jì)算能力和可用數(shù)據(jù)的增加,簡(jiǎn)單的線性關(guān)系向著更復(fù)雜的非線性關(guān)系轉(zhuǎn)變,給人們帶來更加豐富的結(jié)論和新的認(rèn)識(shí)。

        3 當(dāng)今主流的大數(shù)據(jù)技術(shù)

        在大數(shù)據(jù)時(shí)代,對(duì)大數(shù)據(jù)進(jìn)行統(tǒng)一表示,實(shí)現(xiàn)大數(shù)據(jù)處理、查詢、分析和可視化是亟需解決的關(guān)鍵問題。互聯(lián)網(wǎng)點(diǎn)擊數(shù)據(jù)、傳感數(shù)據(jù)、日志文件、具有豐富地理空間信息的移動(dòng)數(shù)據(jù)和涉及網(wǎng)絡(luò)的各類評(píng)論,成為了海量信息的多種形式。海量的電子政務(wù)數(shù)據(jù)、移動(dòng)終端數(shù)據(jù)、網(wǎng)站日志、社交媒體數(shù)據(jù)、來自物聯(lián)網(wǎng)傳感器的流式數(shù)據(jù)、企業(yè)長期積累的業(yè)務(wù)數(shù)據(jù)等也都是大數(shù)據(jù)的主要來源?,F(xiàn)有面向大數(shù)據(jù)的研究主要針對(duì)存儲(chǔ)、處理、分析、可視化等某一方面的關(guān)鍵技術(shù)。本文搜羅了如下當(dāng)今主流大的數(shù)據(jù)技術(shù)。

        3.1 Hadoop

        Hadoop是目前大數(shù)據(jù)平臺(tái)中應(yīng)用率最高的技術(shù),特別是針對(duì)諸如文本、社交媒體以及視頻等非結(jié)構(gòu)化數(shù)據(jù)。Hadoop可以部署在價(jià)格低廉的服務(wù)器上,形成分布式系統(tǒng),它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。

        Hadoop的核心是HDFS和MapReduce。HDFS具有高容錯(cuò)性和高擴(kuò)展性等優(yōu)點(diǎn)。MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序。因此,通過Hadoop可以輕松地組織計(jì)算機(jī)資源,搭建自己的分布式計(jì)算平臺(tái),完成海量數(shù)據(jù)的處理。相對(duì)當(dāng)前應(yīng)用較多的SQL關(guān)系型數(shù)據(jù)庫,HDFS提供了一種通用的數(shù)據(jù)處理技術(shù),它用大量低端服務(wù)器代替大型單機(jī)服務(wù)器,用鍵值對(duì)代替關(guān)系表,用函數(shù)式編程代替聲明式查詢,用離線批量處理代替在線處理,以高容錯(cuò)的方式并行處理大量的數(shù)據(jù)集。

        Hadoop目前已廣泛應(yīng)用于Web搜索、廣告系統(tǒng)、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)等領(lǐng)域。Hadoop作為網(wǎng)絡(luò)公司的重要工具,包括Yahoo,F(xiàn)acebook都利用它處理不斷增長的非結(jié)構(gòu)化數(shù)據(jù)。

        3.2 Storm

        隨著大數(shù)據(jù)業(yè)務(wù)的快速增長,針對(duì)大規(guī)模數(shù)據(jù)處理的實(shí)時(shí)計(jì)算變成了一種業(yè)務(wù)上的需求,缺少“實(shí)時(shí)的Hadoop系統(tǒng)”已經(jīng)成為整個(gè)大數(shù)據(jù)生態(tài)系統(tǒng)中的一個(gè)巨大缺失。Storm正是在這樣的需求背景下出現(xiàn)的,并很好地滿足了這一需求。

        Storm是一個(gè)自由的開源、分布式的實(shí)時(shí)計(jì)算系統(tǒng),它可以快速可靠地處理龐大的數(shù)據(jù)流。Storm很簡(jiǎn)單,支持許多種編程語言,使用靈活,它為分布式實(shí)時(shí)計(jì)算提供了一組通用原語,可被用于“流處理”之中,實(shí)時(shí)處理消息并更新數(shù)據(jù)庫。Storm也可被用于“連續(xù)計(jì)算”,對(duì)數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶,它可以方便地在一個(gè)計(jì)算機(jī)集群中編寫與擴(kuò)展復(fù)雜的實(shí)時(shí)計(jì)算。Storm處理速度很快,在一個(gè)小集群中,每秒可以處理數(shù)以百萬計(jì)的消息。

        許多知名的企業(yè)諸如淘寶、支付寶、阿里巴巴、Groupon、樂元素、Admaster等都基于它做開發(fā)。

        3.3 Apache Drill

        為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會(huì)發(fā)起了一項(xiàng)名為“Drill”的開源項(xiàng)目。Drill已經(jīng)作為Apache孵化器項(xiàng)目來運(yùn)作,將面向全球軟件工程師持續(xù)推廣。該項(xiàng)目將會(huì)創(chuàng)建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應(yīng)用提速),而Drill將有助于Hadoop用戶實(shí)現(xiàn)更快查詢海量數(shù)據(jù)集的目的。

        Drill項(xiàng)目其實(shí)也是從谷歌的Dremel項(xiàng)目中獲得靈感,該項(xiàng)目幫助谷歌實(shí)現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應(yīng)用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測(cè)試結(jié)果等。通過開發(fā)DrillApache開源項(xiàng)目,組織機(jī)構(gòu)將有望建立Drill所屬的API接口和靈活強(qiáng)大的體系架構(gòu),從而幫助支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語言。

        3.4 IBM PureData System

        IBM PureData System是PureSystems系列的成員,它將系統(tǒng)的靈活性、云的彈性和針對(duì)工作負(fù)載進(jìn)行調(diào)優(yōu)的設(shè)備的簡(jiǎn)易性進(jìn)行結(jié)合,從根本上改變了IT的體驗(yàn)和經(jīng)濟(jì)效益。IBM PureData System主要面向大數(shù)據(jù)應(yīng)用,幫助企業(yè)更加高效地管理、分析海量數(shù)據(jù),并從中獲取業(yè)務(wù)洞察。它以保證簡(jiǎn)單性、速度和低成本為前提,向當(dāng)今高要求的應(yīng)用程序交付數(shù)據(jù)服務(wù)而進(jìn)行了優(yōu)化。

        據(jù)IBM公布的數(shù)據(jù)顯示,目前已有60多家獨(dú)立軟件供應(yīng)商表示將全力支持PureData。包括DynaFront系統(tǒng)和PCCW電訊盈科在內(nèi)的多個(gè)合作伙伴,已經(jīng)在其數(shù)據(jù)中心內(nèi)部安裝了PureSystems。中國市場(chǎng)的合作伙伴方面,文思海輝技術(shù)有限公司已經(jīng)推出了基于PureData System的金融行業(yè)解決方案。

        3.5 GFS MapReduceBigTable

        谷歌的GFS MapReduceBigTable平臺(tái)是以云服務(wù)為主打的新一代搜索引擎,專為BigTable設(shè)計(jì)的分布式存儲(chǔ)Colossus,也被稱為二代Google文件系統(tǒng),它專為建立Caffeine搜索索引系統(tǒng)而用?;贑olossus,谷歌為用戶提供了可以計(jì)算、存儲(chǔ)以及應(yīng)用的云服務(wù)。為了更好地支持大數(shù)據(jù)集的互動(dòng)分析,Google推出了Dremel和PowerDrill。Dremel被設(shè)計(jì)用來管理海量的大數(shù)據(jù)集(指數(shù)據(jù)集的數(shù)量和每數(shù)據(jù)集的規(guī)模都大),而PowerDrill則設(shè)計(jì)用來分析少量的大數(shù)據(jù)集(指數(shù)據(jù)集的規(guī)模大,但數(shù)據(jù)集的數(shù)量不多)時(shí)提供更強(qiáng)大的分析性能。在谷歌新一代搜索引擎平臺(tái)上,每月40億小時(shí)的視頻,4.25億Gmail用戶,150,000,000GB Web索引,卻能實(shí)現(xiàn)0.25秒搜索出結(jié)果。

        4 結(jié)束語

        隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)和應(yīng)用的興起,全球范圍內(nèi)數(shù)據(jù)量迅猛增長,大數(shù)據(jù)時(shí)代已經(jīng)來臨。如今,越來越多的應(yīng)用涉及到大數(shù)據(jù),于是不斷涌現(xiàn)的大數(shù)據(jù)新技術(shù)就顯得尤為重要。大數(shù)據(jù)正在影響著人們的生活方式、生產(chǎn)方式、國際競(jìng)爭(zhēng)乃至整個(gè)時(shí)代。如能敏銳的發(fā)掘并利用好大數(shù)據(jù)新技術(shù),搶占現(xiàn)機(jī),必將從大數(shù)據(jù)時(shí)代的發(fā)展中獲益匪淺。人類正在從工業(yè)文明邁入信息文明,隨著大數(shù)據(jù)的沖擊,智能社會(huì)的到來,我們這代人迎接著嶄新的機(jī)遇。在大數(shù)據(jù)技術(shù)已經(jīng)逐漸發(fā)展并趨于成熟的今天,如何整合資源,掌握先進(jìn)技術(shù),在全球競(jìng)爭(zhēng)中發(fā)揮后發(fā)優(yōu)勢(shì),在這輪技術(shù)浪潮中站穩(wěn)腳跟,脫穎而出,我們期待著中國的騰飛。

        Brief Introduction ofModernBig Data Technology of Radio Monitoring Data

        Guo Zhi, Liu Chang, Zeng Yuqi

        (State Radio Monitoring Center, Beijing, 100037, China)

        Today, the world is being globalization, informatization and marketization. Data can bring us great value.With the arrival of the intelligent society and the impact of the large data, our generation is to meet the new opportunities. This paper summarizes the new changes of the Big Data era and introduced some of the modern Big Data technology. In such an era of the great change, only grasp the latest technology can help us gain a foothold in this technology wave and stand out.

        10.3969/J.ISSN.1672-7274.2015.07.017

        TN919文獻(xiàn)標(biāo)示碼:B

        1672-7274(2015)07-0066-03

        國 志,男,1987年生,碩士,國家無線電監(jiān)測(cè)中心助理工程師,主要從事專利申請(qǐng)、科技獎(jiǎng)申報(bào)、招投標(biāo)等方面的工作。

        劉 暢,女,1987年生,碩士,國家無線電監(jiān)測(cè)中心助理工程師,主要研究方向?yàn)樾l(wèi)星頻率和軌道資源情況、衛(wèi)星網(wǎng)絡(luò)間的國際協(xié)調(diào)。

        曾昱祺,男,1987年生,碩士,國家無線電監(jiān)測(cè)中心助理工程師,主要研究方向?yàn)樾l(wèi)星產(chǎn)業(yè)情況。

        猜你喜歡
        海量分析
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        隱蔽失效適航要求符合性驗(yàn)證分析
        海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        多通道海量數(shù)據(jù)記錄系統(tǒng)設(shè)計(jì)
        一種海量衛(wèi)星導(dǎo)航軌跡點(diǎn)地圖匹配方法
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        亚洲欧美在线视频| 亚洲天堂av另类在线播放| 久久人妻av不卡中文字幕| 在线不卡av一区二区| 99re6在线视频精品免费| 在线中文字幕乱码英文字幕正常| 亚洲老妈激情一区二区三区| 免费看久久妇女高潮a| 亚洲中久无码永久在线观看软件 | 色婷婷久久综合中文久久一本| 青青草中文字幕在线播放| 99久久国产精品网站| 久久久g0g0午夜无码精品| 四虎影视亚洲精品| 中文无码日韩欧免费视频| 日本国产精品高清在线| 女人的精水喷出来视频| 久久久精品人妻一区二区三区四| 免费一区在线观看| 99国产综合精品-久久久久| 一道本中文字幕在线播放| 国产成人精品一区二区20p| 东京热久久综合久久88| 国产美女在线精品免费观看网址| 国产人成亚洲第一网站在线播放 | 国产精品亚洲一区二区三区正片| 久久女人精品天堂av影院麻| 精品久久久久久无码专区| 内射无码专区久久亚洲| 成年男人裸j照无遮挡无码| 亚洲专区路线一路线二网| 日本在线视频www色| 国产成人无码区免费内射一片色欲| 热99精品| 国产一区二区一级黄色片| 24小时在线免费av| 久久久久无码精品国产app| 亚洲日韩欧美一区二区三区| 一本一道久久a久久精品综合蜜桃| 水蜜桃视频在线观看入口| 日韩人妻ol丝袜av一二区|