楊靜
摘 ?要: 大數(shù)據(jù)技術(shù)是繼物聯(lián)網(wǎng)、云計算技術(shù)之后IT業(yè)界又一次技術(shù)浪潮。為了全面深入地理解大數(shù)據(jù)技術(shù)的內(nèi)涵,從大數(shù)據(jù)的定義及4V特征、關(guān)鍵技術(shù)及主要應(yīng)用領(lǐng)域等四個方面進(jìn)行闡述。介紹了大數(shù)據(jù)的基本概念、特征,總結(jié)了大數(shù)據(jù)的熱門應(yīng)用領(lǐng)域并用典型案例進(jìn)行佐證,重點(diǎn)剖析了云計算、Hadoop、數(shù)據(jù)備份等三大核心技術(shù)及關(guān)鍵策略,最后對大數(shù)據(jù)應(yīng)用中滋生的信息安全隱患提出了相應(yīng)的對策。
關(guān)鍵詞: 大數(shù)據(jù); 4V特征; Hadoop; 云計算
中圖分類號:TP391 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand ?big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網(wǎng)、云計算等新興技術(shù)的迅速發(fā)展開啟了大數(shù)據(jù)時代的帷幕。大數(shù)據(jù)技術(shù)是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價值信息的技術(shù),大數(shù)據(jù)的核心問題就是大數(shù)據(jù)技術(shù)。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)復(fù)雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,解決實(shí)際生產(chǎn)、生活中的各種問題,從而推動信息技術(shù)健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學(xué)科一樣,目前大數(shù)據(jù)沒有一個統(tǒng)一的標(biāo)準(zhǔn)和定義。一般認(rèn)為:大數(shù)據(jù)是由大量異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合,可以應(yīng)用合理的數(shù)學(xué)算法或工具從中找出有價值的信息,并為人們帶來經(jīng)濟(jì)及社會效益的一門新興學(xué)科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內(nèi)通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來自方方面面,比如社交網(wǎng)絡(luò)、傳感器采集、安防監(jiān)控視頻、購物交易記錄等。盡管尚無統(tǒng)一定義,但這些無比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲量大,計算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性,比如數(shù)據(jù)來源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價值Value,是指大數(shù)據(jù)價值密度相對較低,信息海量,但是要挖掘出真正有價值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長速度快,處理速度要求快。
2 大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域
通過對海量數(shù)據(jù)進(jìn)行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術(shù)正在對經(jīng)濟(jì)建設(shè)、醫(yī)療教育、科學(xué)研究等領(lǐng)域產(chǎn)生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領(lǐng)域
大數(shù)據(jù)的火熱應(yīng)用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財保險產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務(wù),其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺存儲了大量微小企業(yè)客戶及數(shù)以億計的個人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個人小額信貸,具有最大優(yōu)勢[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務(wù),開展得并不十分順利。
2.2 市場營銷
今天的數(shù)字化營銷與傳統(tǒng)市場營銷最大的區(qū)別就在于精準(zhǔn)定位及個性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點(diǎn)擊、加好友、收藏、轉(zhuǎn)發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉(zhuǎn)化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費(fèi)軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費(fèi)習(xí)慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準(zhǔn),廣告所攫取的價值就越高,這是正向的循環(huán)。
2.3 公眾服務(wù)
大數(shù)據(jù)的另一大應(yīng)用領(lǐng)域是公眾服務(wù)。如今數(shù)據(jù)挖掘已經(jīng)能夠預(yù)測海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡(luò)和基于地震時間序列的支持向量機(jī)方法來預(yù)測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關(guān)鍵的數(shù)據(jù),從而對地震進(jìn)行早期預(yù)警,以使防震抗災(zāi)部門可以提前做好應(yīng)對措施,避免大量的人員傷亡及財產(chǎn)損失;再如,將各個省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來,建立通用的電子病歷等基礎(chǔ)數(shù)據(jù)庫,實(shí)現(xiàn)醫(yī)院之間對病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實(shí)現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測與控制,包括大災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和更準(zhǔn)確的用電量預(yù)測等,并通過數(shù)據(jù)挖掘技術(shù)找出可行的節(jié)能降耗措施,以實(shí)現(xiàn)更科學(xué)的電力需求分配管理。
2.4 安防領(lǐng)域
安防領(lǐng)域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠(yuǎn)、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務(wù),依賴數(shù)據(jù)說話。尤其是高清、超高清監(jiān)控時代的到來,會產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控數(shù)據(jù)中,多數(shù)是冗余無用的,只有少數(shù)是關(guān)鍵數(shù)據(jù),如何剔除這些無用數(shù)據(jù),一直是人們研究問題的焦點(diǎn)。在大數(shù)據(jù)技術(shù)的支撐下,通過對巨量視頻數(shù)據(jù)的分析與處理,可實(shí)現(xiàn)模糊查詢、精準(zhǔn)定位、快速檢索等,能夠?qū)Ω咔灞O(jiān)控視頻畫質(zhì)進(jìn)行細(xì)節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務(wù)分析和事件決策判斷提供精準(zhǔn)依據(jù)。
3 大數(shù)據(jù)處理關(guān)鍵技術(shù)
3.1 數(shù)據(jù)備份技術(shù)
在大數(shù)據(jù)時代,如何做好數(shù)據(jù)的安全備份至關(guān)重要。數(shù)據(jù)備份是數(shù)據(jù)容災(zāi)的前提,具體是指當(dāng)出現(xiàn)某種突發(fā)狀況導(dǎo)致存儲系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴(yán)重?fù)p壞時,系統(tǒng)可準(zhǔn)確而快速地將數(shù)據(jù)進(jìn)行恢復(fù)的技術(shù)。數(shù)據(jù)容災(zāi)備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護(hù)手段,其核心工作是數(shù)據(jù)恢復(fù),根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)分析處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)橫向擴(kuò)展的需求。為了給大數(shù)據(jù)處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發(fā)了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強(qiáng),現(xiàn)在Hadoop已經(jīng)發(fā)展為一個包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應(yīng)用平臺。
3.3 云計算
如果把各種各樣的大數(shù)據(jù)應(yīng)用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運(yùn)行的高速公路就是云計算,云計算是大數(shù)據(jù)分析處理技術(shù)的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術(shù)支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統(tǒng))、MapReduce(批處理技術(shù))、BigTable(分布式數(shù)據(jù)庫)為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop[5]。
4 大數(shù)據(jù)應(yīng)用帶來的信息安全隱患及應(yīng)對策略
大數(shù)據(jù)時代,海量數(shù)據(jù)通常存儲在大規(guī)模分布式的網(wǎng)絡(luò)節(jié)點(diǎn)中,管理相對分散,而且系統(tǒng)也無法控制用戶進(jìn)行數(shù)據(jù)交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導(dǎo)致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲系統(tǒng)中包含了海量的個人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個信息保護(hù)和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風(fēng)險,我們提出以下四點(diǎn)建議:
⑴ 國家出臺相關(guān)政策,加強(qiáng)頂層設(shè)計,保障數(shù)據(jù)存儲安全;
⑵ 增強(qiáng)網(wǎng)絡(luò)安全防護(hù)能力,抵御網(wǎng)絡(luò)犯罪,確保網(wǎng)絡(luò)信息安全;
⑶ 提高警惕積極探索,加大個人隱私數(shù)據(jù)保護(hù)力度;
⑷ 深化云計算安全領(lǐng)域研究,保障云端數(shù)據(jù)安全。
5 結(jié)束語
在當(dāng)今信息知識爆炸的時代,大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電力醫(yī)療、教育科研等領(lǐng)域。隨著數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,相關(guān)信息行業(yè)競相從規(guī)模龐大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)海洋中攫取更多有價值的數(shù)據(jù)信息用于分析、解決現(xiàn)實(shí)生活中的各種實(shí)際問題,從而實(shí)現(xiàn)信息技術(shù)的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的四大熱門應(yīng)用領(lǐng)域及三大核心處理技術(shù),分析了大數(shù)據(jù)技術(shù)帶來的諸如信息竊取及篡改、個人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應(yīng)的解決措施及建議。當(dāng)然,目前大數(shù)據(jù)技術(shù)的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數(shù)據(jù)的存儲管理是通過硬件的簡單升級還是通過系統(tǒng)的重新設(shè)計來解決,大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,大數(shù)據(jù)技術(shù)的應(yīng)用前景是什么,等等。就目前來看,未來大數(shù)據(jù)技術(shù)的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻(xiàn):
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場新生態(tài)[Jl.時代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計算的區(qū)域醫(yī)療信息化服務(wù)平臺的研
究[J].計算機(jī)科學(xué),2013.40(10):360-365
[4] Hadoop [EB/OL].[2012-10-02].http://hadoop.apache.orq.
[5] 吳朱華.云計算核心技術(shù)剖析[M].人民郵電出版社,2011.