亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)及可信技術(shù)初探

        2014-12-13 20:02:48劉暢
        軟件工程 2014年12期
        關(guān)鍵詞:云計算分布式大數(shù)據(jù)

        劉暢

        摘? 要:隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)產(chǎn)生途徑越來越廣泛,數(shù)據(jù)量日益增加,人們對于“大數(shù)據(jù)”的研究越來越深入,但數(shù)據(jù)的有效性、安全性和可信性方面的保證技術(shù)卻不是特別完善。本文闡述了“大數(shù)據(jù)”的相關(guān)概念、特征和數(shù)據(jù)產(chǎn)生的渠道,詳細介紹了“大數(shù)據(jù)”的處理技術(shù)以及數(shù)據(jù)的可信技術(shù)。

        關(guān)鍵詞:大數(shù)據(jù);可信技術(shù);分布式;云計算

        中圖分類號:TP391;TP311?????????? 文獻標(biāo)識碼:A

        1?? 引言(Introduction)

        從2010年開始,信息領(lǐng)域的詞匯越來越豐富,“物聯(lián)網(wǎng)”“云計算”等被人們所熟知,隨著這些技術(shù)的不斷深入“數(shù)據(jù)”也被“大數(shù)據(jù)”一詞取而代之?!按髷?shù)據(jù)”(Big Data)也有人稱其為“海量數(shù)據(jù)”,它是一種數(shù)據(jù)巨大的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。首先,在數(shù)量上對于當(dāng)前的數(shù)據(jù)庫系統(tǒng)處理能力來說,是無法在合理的時間內(nèi)對此類數(shù)據(jù)進行擷取、管理和處理的;其次,由于“大數(shù)據(jù)”不再是結(jié)構(gòu)化數(shù)據(jù),所以對于數(shù)據(jù)分析工作來說花費的時間會更加無法想象。

        2 “大數(shù)據(jù)”是信息時代的必然產(chǎn)物("Big Data"is

        the inevitable product of the information age)

        隨著物聯(lián)網(wǎng)、云計算等技術(shù)的推進與發(fā)展,數(shù)據(jù)的產(chǎn)生途徑越來越多樣化,數(shù)量也在以人們無法想象的速度不斷增長和堆積。當(dāng)數(shù)據(jù)級從TB躍升至PB時,說明大數(shù)據(jù)時代已經(jīng)來臨。在咨詢公司麥肯錫的報告《大數(shù)據(jù)時代到來》中首次提出了“大數(shù)據(jù)”的到來,報告中稱“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來[1]?!?/p>

        如此龐大與繁雜的數(shù)據(jù)究竟來自于哪里?可以說,從人類進入文明社會起沒有任何一個時期能夠像今天這樣,每天都會產(chǎn)生無法計數(shù)的數(shù)據(jù),這些數(shù)據(jù)不分形式,無所不在,無時不在!目前為止,數(shù)據(jù)庫是數(shù)據(jù)管理的最為有效的方式,在這種方式下,數(shù)據(jù)的產(chǎn)生經(jīng)歷了以下幾種模式:

        (1)被動模式

        這種模式下數(shù)據(jù)的產(chǎn)生都是被迫的,一般都是伴隨著運營系統(tǒng)的運營而產(chǎn)生的,數(shù)據(jù)記錄保存于運營數(shù)據(jù)庫系統(tǒng)中。數(shù)據(jù)以文本為主,屬于結(jié)構(gòu)化數(shù)據(jù)。比如產(chǎn)品的銷售記錄、航空公司數(shù)據(jù)記錄等。

        (2)主動模式

        這種模式下的數(shù)據(jù)大多都是用戶自發(fā)的,是由在用戶的意愿下主動產(chǎn)生的,像生活中比較流行的博客、微博、微信等,此類數(shù)據(jù)已不再是單純的文字,更多的包含了圖片、視頻、音頻等,數(shù)據(jù)類型多樣化。

        (3)自動模式

        這種模式下產(chǎn)生的數(shù)據(jù)不再受人為因素影響,數(shù)據(jù)會通過感知式系統(tǒng)自動產(chǎn)生。隨著物聯(lián)網(wǎng)和云計算技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)節(jié)點不再是單純的計算機,傳感器和智能終端的出現(xiàn)使得數(shù)據(jù)無時無刻不在產(chǎn)生,此時的數(shù)據(jù)就不再是簡單的某一種類型或結(jié)構(gòu)了,更多的是混合而復(fù)雜的,并且產(chǎn)生數(shù)據(jù)的速度也讓我們無法想象的。至此真正的“大數(shù)據(jù)”產(chǎn)生了。

        3 “大數(shù)據(jù)”的四V特征(Four V characteristics of

        the "Big Data")

        所謂的四V特征,是“大數(shù)據(jù)”與傳統(tǒng)數(shù)據(jù)相比較體現(xiàn)出的四個特點,即:Volume—數(shù)量多、Velocity—速度快、Variety—類型雜、Value—價值大。

        第一,數(shù)據(jù)量究竟達到什么樣的程度才可以稱其為“大”?網(wǎng)上公布的一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)足以說明這個問題?;ヂ?lián)網(wǎng)上24小時內(nèi)產(chǎn)生數(shù)據(jù)需要1.68億張DVD來保存;互聯(lián)網(wǎng)上論壇中一天的發(fā)帖量可以達到200萬條,相當(dāng)于《時代》雜志770年的文字總和。據(jù)國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2009年全球產(chǎn)生的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年達到1.82ZB,預(yù)計2020年,全球數(shù)據(jù)使用量將是現(xiàn)在的44倍,達到35.2ZB[2]。大數(shù)據(jù)的起始計數(shù)量被定級為PB。

        第二,相對于傳統(tǒng)的數(shù)據(jù)挖掘來說,當(dāng)今的數(shù)據(jù)存在的最明顯的特征就是數(shù)據(jù)處理速度快。在信息世界中,第一時間能夠分析出數(shù)據(jù)的有效性,從而得到正確的處理結(jié)果,給社會和企業(yè)帶來的利益是不可估量的;相反如能沒能及時獲取最新的數(shù)據(jù),或?qū)?shù)據(jù)分析不準(zhǔn)確,導(dǎo)致決策上的失敗也是十分可怕的。

        第三,正如此前所述,當(dāng)今網(wǎng)絡(luò)中節(jié)點類型的不斷豐富,導(dǎo)致了數(shù)據(jù)類型的多種多樣,再用結(jié)構(gòu)化思想去定義當(dāng)今的數(shù)據(jù)明顯已經(jīng)不適合了。

        第四,一切事物的發(fā)展都是有規(guī)律可循的,我們可以從其發(fā)展的過程中得到相關(guān)數(shù)據(jù),將這些數(shù)據(jù)收集在一起便可以繪制其發(fā)展軌跡、預(yù)計其發(fā)展趨勢、總結(jié)其發(fā)展規(guī)律,幫助我們做出正確的決策,優(yōu)化運作流程。但是,如何在海量的大數(shù)據(jù)中提取有用的數(shù)據(jù),并對其加以利用是我們今后的努力方向。

        4 “大數(shù)據(jù)”的關(guān)鍵技術(shù)(The technology of the

        "Big Data")

        對于“大數(shù)據(jù)”面言,它的處理流程和傳統(tǒng)數(shù)據(jù)類似,主要包括采集、導(dǎo)入與預(yù)處理、統(tǒng)計與分析、數(shù)據(jù)挖掘等四個方面,其中以第三部分統(tǒng)計與分析最為重要。但由于“大數(shù)據(jù)”的特點決定其處理技術(shù)與傳統(tǒng)的數(shù)據(jù)處理技術(shù)存在著很大的差異。

        (1)分布式文件系統(tǒng)

        談到數(shù)據(jù),首先要考慮的問題就是數(shù)據(jù)的存儲,分布式文件系統(tǒng)為大數(shù)據(jù)的處理提供了最底層的支撐。Google公司最先研發(fā)了一種分布式文件系統(tǒng)GFS(Google File System),是一種基于分布式集群的大型分布式處理系統(tǒng),它處理的文件大小一般都在100MB以上。但隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)類型的增多,加上海量“小數(shù)據(jù)”也存在其中,GFS已無法滿足需求,繼GFS之后產(chǎn)生了Colosuss、HDFS、Cloudstoret、Facebook研發(fā)的Haystack等分布式文件系統(tǒng)。endprint

        (2)分布式數(shù)據(jù)庫

        隨著數(shù)據(jù)種類越來越繁雜、數(shù)據(jù)數(shù)量越來越大,人們對數(shù)據(jù)庫的設(shè)計理念也越來越符合實際,傳統(tǒng)的數(shù)據(jù)庫要求越簡單越好,講求的是“ONE SIZE FOR ALL”,而面對海量的非結(jié)構(gòu)化數(shù)據(jù),以Google為首的很多公司相繼按照“ONE SIZE FOR ONE”的設(shè)計理念,研發(fā)出了自己的分布式數(shù)據(jù)庫系統(tǒng)。這類數(shù)據(jù)庫模式比較自由,支持簡單的備份,擁有簡單的應(yīng)用程序接口,能夠處理海量的數(shù)據(jù)。

        (3)批處理技術(shù)

        2004年Google公司提出了MapReduce批處理技術(shù)。這種批處理技術(shù)將數(shù)據(jù)源分成多個部分,每個部分都對應(yīng)著一個初始值,按該值分配給不同的服務(wù)器進行計算,得到的結(jié)果再通過中間流程統(tǒng)一進行處理后傳遞給用戶。這種批處理系統(tǒng)簡化了數(shù)據(jù)處理流程,被廣泛應(yīng)用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和機器學(xué)習(xí)等方面。

        (4)云計算平臺

        云計算是大數(shù)據(jù)應(yīng)用的最基礎(chǔ)、最主要的平臺,也是大數(shù)據(jù)分析和處理技術(shù)的核心部分。2006年Google公司最先提出了“云計算”的概念,但對于“云計算”的定義卻一直沒有定論?;\統(tǒng)地說“云計算”是一種大規(guī)模的分布式模型,通過網(wǎng)絡(luò)將抽象的、可伸縮的、便于管理的數(shù)據(jù)能源、服務(wù)、存儲方式等傳遞給終端用戶[3]。

        (5)開源計算平臺

        面對復(fù)雜的數(shù)據(jù)類型,不是所有的用戶在開發(fā)程序之前都必須了解分布式系統(tǒng)究竟如何對數(shù)據(jù)進行擷取、存儲和處理。Apache基金會為用戶提供了一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺Hadoop。它是一個集分布式文件系統(tǒng)、分布式數(shù)據(jù)庫以及批處理系統(tǒng)等模塊于一身的高性能、可擴展、成本低的開源平臺。其中HDFS為海量的數(shù)據(jù)提供了存儲,MapReduce則為海量的數(shù)據(jù)提供了計算。

        5 “大數(shù)據(jù)”的可信技術(shù)(Trusted technology for

        large data)

        隨著數(shù)據(jù)產(chǎn)生的非主動因素越來越強,數(shù)據(jù)的來源渠道越來越多樣,給用戶帶來便利的同時,也帶來了許多困擾。隨著技術(shù)的發(fā)展,安全的問題和可信的問題,是和重大系統(tǒng)應(yīng)用是相伴而生的,但是它確實是一個重要的問題。不僅是大量“雜質(zhì)”數(shù)據(jù)出現(xiàn),而且隱私數(shù)據(jù)的問題也非常重要。因此,在大數(shù)據(jù)時代當(dāng)中,隨著數(shù)據(jù)的分布性,異構(gòu)性和動態(tài)快速變化性,加上個人擁有的質(zhì)性,可計算的問題,可管理的問題,可信任的問題,共同組成了在大數(shù)據(jù)時代的新的三類問題。

        首先要搭建一個可信的計算平臺,解決云端的一體化的安全監(jiān)控,系統(tǒng)的恢復(fù),以及今后發(fā)展的高可靠性的能力。可信計算平臺以可信平臺模塊TPM為核心。TPM是一個具有密碼保護功能的芯片,由中央處理器、存儲器、密碼運算處理器、隨機數(shù)產(chǎn)生器和I/O等部件組成。主要用于完成可信度量的存儲及報告、產(chǎn)生密鑰、簽名加密、數(shù)據(jù)安全存儲等一系列安全信任工作。這部分是由物理設(shè)備實現(xiàn)的可信技術(shù)[4]。

        可信平臺中還包括可信存儲和可信網(wǎng)絡(luò)??尚庞嬎愎ぷ鹘M在可信存儲規(guī)范中提供了可靠的實現(xiàn)全磁盤加密的方法,采用自加密驅(qū)動器來簡化數(shù)據(jù)的加密過程,通過自加密驅(qū)動實現(xiàn)加密和認(rèn)證功能[5];可信網(wǎng)絡(luò)連接TNC主要提供網(wǎng)絡(luò)安全和網(wǎng)絡(luò)安全訪問,網(wǎng)絡(luò)管理員能夠根據(jù)用戶級別和當(dāng)前設(shè)備進行狀況控制網(wǎng)絡(luò)訪問,監(jiān)視網(wǎng)絡(luò)運行狀況,一旦出現(xiàn)異常情況可以馬上做出反應(yīng)。

        當(dāng)然,在這樣一種可信平臺的基礎(chǔ)之上還有需要有其他的可信技術(shù)來解決大數(shù)據(jù)的安全問題。

        (1)用戶的身份認(rèn)證

        網(wǎng)絡(luò)中的用戶要在得到身份認(rèn)證和訪問允許的條件下才可以對數(shù)據(jù)進行訪問。TNC可以實現(xiàn)這方面的功能,它可以利用存儲在TPM中的硬件證書來保護系統(tǒng)中的信息。

        (2)限制訪問權(quán)限

        按照用戶訪問系統(tǒng)中的數(shù)據(jù)及服務(wù),將用戶分為不同的類別,對不同類別的用戶分配不同的訪問權(quán)限,這樣用戶即可以訪問資源又不會對其他數(shù)據(jù)進行干擾,從而降低了訪問模型的復(fù)雜性。

        (3)追蹤用戶行為

        可信計算系統(tǒng)中的所有用戶都有其獨特而詳細的個人信息,用戶只有通過TPM的密鑰驗證后才可以對系統(tǒng)進行訪問和操作,與此同時可信計算系統(tǒng)會對用戶的訪問和操作進行追蹤和記錄,確保資源的安全環(huán)境。

        (4)系統(tǒng)的合規(guī)性保證

        對于用戶來說網(wǎng)絡(luò)中的資源并不是完全透明的,用戶會非常擔(dān)心自己上傳到網(wǎng)絡(luò)中的數(shù)據(jù)是否安全??尚庞嬎阆到y(tǒng)在服務(wù)端安裝了監(jiān)控裝置,監(jiān)控裝置在對數(shù)據(jù)訪問用戶的身份、訪問和操作進行合規(guī)性審計,然后向數(shù)據(jù)屬主提供相關(guān)證明,數(shù)據(jù)屬主也可以收到監(jiān)控裝置提供的數(shù)據(jù)使用合規(guī)性描述。

        6?? 結(jié)論(Conclusion)

        目前對于大數(shù)據(jù)的研究還處于初步階段,有一些技術(shù)還不是特別成熟,有許多問題有待我們?nèi)ソ鉀Q,但無論怎么樣,大數(shù)據(jù)時代已經(jīng)來臨,如何利用好大數(shù)據(jù),如何保證數(shù)據(jù)的安全可靠,如何從數(shù)據(jù)中獲取我們所需要的信息,從而揭示事物的發(fā)展規(guī)律,都需要我們更加深入的研究。

        參考文獻(References)

        [1] ARMBRUSH Michael,ARMANDO Fox.Above the clouds:a

        Berkley view of cloud computing[R].eecs Department University

        of California Berkeley Tech Rep UCBEECS200928,2009:25.

        [2] MELL Peter,GRANCE Timothy.NIST special publication

        800-145,the NIST definition of cloud computing[S].

        Gaithersburg,MD:NIST,2011.2012-12-12http://tech.xinmin.

        cn/2012/12/24/17789537.html.

        [3] SINGH Amardeep,VERMA Monika.Attacks and security in

        cloud computing[J].Internetional Journal of Advanced

        Engineering &Application,2011(1):300-302.

        [4] 大數(shù)據(jù)技術(shù)大會.http://special.csdn.net/bdc2011/index.html.

        [5] 嚴(yán)霄風(fēng),張德馨.大數(shù)據(jù)研究[J].計算機技術(shù)與發(fā)展,2013,

        23(4):168-172.

        作者簡介:

        劉? 暢(1978-),女,本科,副教授.研究領(lǐng)域:程序設(shè)計教

        學(xué),物聯(lián)網(wǎng)技術(shù)應(yīng)用.endprint

        猜你喜歡
        云計算分布式大數(shù)據(jù)
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        基于云計算的移動學(xué)習(xí)平臺的設(shè)計
        實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器
        云計算中的存儲虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        基于DDS的分布式三維協(xié)同仿真研究
        雷達與對抗(2015年3期)2015-12-09 02:38:50
        西門子 分布式I/O Simatic ET 200AL
        亚洲中文字幕一区精品| 尤物视频在线观看| 中文字幕无码av激情不卡| 深夜国产成人福利在线观看女同| 亚洲av午夜成人片精品| 一区二区三区在线观看视频 | 国产亚洲精品品视频在线| 国产亚洲精品成人aa片新蒲金| 国产97色在线 | 亚洲| 国产成人一区二区三区免费观看| 日韩精品人妻少妇一区二区| 国产高清一区二区三区三州| 日韩精品无码一区二区三区四区 | 国产在线天堂av| 中文字幕日韩精品中文字幕| 国产av剧情一区二区三区| 亚洲无线码一区二区三区| 中出内射颜射骚妇| 久久亚洲国产欧洲精品一| 日韩性感av一区二区三区| 国产精品网站91九色| 人人爽人人爽人人片av| 亚洲国产精品特色大片观看完整版 | 极品白嫩的小少妇| 最近中文字幕在线mv视频在线| 啊v在线视频| av资源在线免费观看| 狠狠色噜噜狠狠狠8888米奇| 日本牲交大片免费观看| 国产在线观看黄| 色佬易精品视频免费在线观看| 亚洲视频高清一区二区| 丰满少妇a级毛片野外| 日韩av在线毛片| 一区二区三区日本在线| 精品一区二区av天堂色偷偷| 国产精品99久久久久久猫咪| 国产最新AV在线播放不卡| 国产精品av免费网站| 在线观看亚洲第一黄片| 青楼妓女禁脔道具调教sm|