數(shù)據(jù)可以產(chǎn)生價值嗎?十年前,很多人恐怕會對這個問題給予否定或者模棱兩可的答案。在那時的觀念和技術(shù)發(fā)展水平下,對于IT一知半解的人們還沒有完全了解數(shù)據(jù)的本質(zhì)。大家承認數(shù)據(jù)本身的價值,卻并不了解如何利用數(shù)據(jù)。
不過,在今天這個大數(shù)據(jù)(Big Data)時代,幾乎沒有人會對數(shù)據(jù)的價值生產(chǎn)能力產(chǎn)生懷疑了。越來越多的人認識到,數(shù)據(jù)將會成為未來一個非常重要的虛擬資產(chǎn)。
但是培育數(shù)據(jù)讓其產(chǎn)生價值卻不是一個容易的事情。大數(shù)據(jù)由此應(yīng)運而生,這一當(dāng)前最為熱門的概念集合了多種技術(shù)為一體,開發(fā)出了一套全新方法,以便捷快速地處理數(shù)據(jù)。因此大數(shù)據(jù)并不是一種單獨的技術(shù),相對而言我們可以將其稱之為一套技術(shù)集合。
為什么需要大數(shù)據(jù)?
在當(dāng)今IT業(yè)界中大數(shù)據(jù)是炙手可熱的一個名詞,其以簡單的語法構(gòu)成通俗易懂地詮釋了什么才是龐大和復(fù)雜的數(shù)據(jù)集。大數(shù)據(jù)之所以會如此流行,是因為其契合了IT業(yè)界的發(fā)展與應(yīng)用趨勢。
最為廣泛流傳的對大數(shù)據(jù)的解釋莫過于4個V——海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)和巨大的數(shù)據(jù)價值(Value),而這恰恰是當(dāng)前社會對數(shù)據(jù)的需求組成。為了更好地發(fā)展業(yè)務(wù),一直以來企業(yè)、組織和機構(gòu)都在對結(jié)構(gòu)化數(shù)據(jù)進行梳理和統(tǒng)計。不過隨著IT應(yīng)用在業(yè)務(wù)中的逐漸深入,決策者們發(fā)現(xiàn)他們需要收集的數(shù)據(jù)不僅存在于銷售年報這樣的傳統(tǒng)信息中,而且還同樣存在于網(wǎng)絡(luò)日志、傳感器網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、影音文件、互聯(lián)網(wǎng)搜索索引、詳細通話記錄、醫(yī)療記錄、攝影檔案、視頻檔案以及電子商務(wù)等內(nèi)容之中。
這些內(nèi)容有著多種多樣的載體和類型,數(shù)據(jù)增長和迭代速度極快,相互之間還會存在不同的關(guān)聯(lián)。最終,會積累下非常龐大的體量。近兩年吸引了大量投資的視頻監(jiān)控領(lǐng)域,就是大數(shù)據(jù)內(nèi)容的一個重要應(yīng)用實例。其不僅擁有較大的數(shù)據(jù)規(guī)模,產(chǎn)生速度驚人,同時非結(jié)構(gòu)化的數(shù)據(jù)組成使得很難利用傳統(tǒng)IT技術(shù)對其進行處理。不過,由于其與日常生活、工作的密切相關(guān)性,視頻監(jiān)控數(shù)據(jù)又具有而且能夠產(chǎn)生極大的價值。當(dāng)然,我們也要看到,在龐大的數(shù)據(jù)量背后,視頻監(jiān)控數(shù)據(jù)的價值密度很低。在動輒數(shù)十小時的視頻資料中,有時我們需要的僅僅是其中的幾分鐘或者幾秒。但是就是這樣,我們依然需要對其進行長期保存。
來自IDC的調(diào)查報告認為,全球的數(shù)據(jù)資料存儲量到2020年將達到40ZB,而數(shù)字信息的主要制造者也將從現(xiàn)有的成熟市場轉(zhuǎn)移至新興市場。比如說,各種物聯(lián)網(wǎng)傳感器產(chǎn)生的數(shù)據(jù)量占比將從2005年的11%增長到2020年的40%。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫沒辦法將這些內(nèi)容加以消化。從應(yīng)用角度,業(yè)界需要大數(shù)據(jù)這樣的概念指導(dǎo),為企業(yè)、組織和機構(gòu)開發(fā)出一套全新方法和一系列技術(shù),使得決策者們不僅能夠處理傳統(tǒng)數(shù)據(jù),同時可以便捷地分析和應(yīng)用這些新興數(shù)據(jù),而不是僅僅進行儲存。
大數(shù)據(jù)的技術(shù)構(gòu)成
在大數(shù)據(jù)概念中,目前還沒有哪項單一技術(shù)能夠滿足所有應(yīng)用需求。這些大數(shù)據(jù)技術(shù)或針對數(shù)字營銷數(shù)據(jù)進行優(yōu)化,或分析社交網(wǎng)絡(luò)數(shù)據(jù),再或者主要用已知數(shù)據(jù)來預(yù)防未知的風(fēng)險,其應(yīng)用領(lǐng)域比較具有針對性。
我們可以將一套完整的大數(shù)據(jù)平臺拆分成幾個不同的技術(shù)領(lǐng)域。從宏觀上來看,大數(shù)據(jù)平臺包含了三個重要的技術(shù)部分。
首先是數(shù)據(jù)交易技術(shù)。這一部分技術(shù)所從事的工作,是對一些傳統(tǒng)的關(guān)系型數(shù)據(jù)或者非結(jié)構(gòu)化數(shù)據(jù)進行處理,這些數(shù)據(jù)包括ERP應(yīng)用、數(shù)據(jù)倉庫應(yīng)用、在線交易處理(OLTP)等。
數(shù)據(jù)交互是第二類組成部分,其也是成長最迅速的一類大數(shù)據(jù)技術(shù)。數(shù)據(jù)交互技術(shù)主要是對社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)設(shè)備和傳感器、地理定位、影像文件、互聯(lián)網(wǎng)點擊、電子郵件等應(yīng)用產(chǎn)生的數(shù)據(jù)進行處理。
最后是對數(shù)據(jù)的處理。在這一部分中,包含了技術(shù)架構(gòu)、計算方式等內(nèi)容。知名的Hadoop平臺就是其中的一份子。
另一方面,從微觀層面,我們可以將大數(shù)據(jù)平臺再進行更加細致的剖析。
1. 數(shù)據(jù)存儲 數(shù)據(jù)存儲是大數(shù)據(jù)平臺的根本,也是所有大數(shù)據(jù)技術(shù)中產(chǎn)品種類最多的一個組成部分。沒有了存儲平臺,數(shù)據(jù)也就沒有了載體。在數(shù)據(jù)存儲的組成中,包括了高性能的內(nèi)核式分布存儲系統(tǒng)、用戶級的分布式存儲以及業(yè)務(wù)級別的數(shù)據(jù)存儲。這其中不乏LustreFS、Hadoop HDFS這樣的知名產(chǎn)品。
2. 數(shù)據(jù)同步 這一部分技術(shù)主要用于將基礎(chǔ)架構(gòu)產(chǎn)生的數(shù)據(jù)內(nèi)容進行轉(zhuǎn)換,以完成數(shù)據(jù)處理、系統(tǒng)監(jiān)控等方面的操作。
3. 數(shù)據(jù)開發(fā) 顧名思義,數(shù)據(jù)開發(fā)技術(shù)主要承擔(dān)了搭建大數(shù)據(jù)平臺上層建筑的任務(wù)。其中涵蓋了用戶認證、數(shù)據(jù)鑒權(quán)、工作流、數(shù)據(jù)管理等多方面的任務(wù)。
4. 數(shù)據(jù)呈現(xiàn) 數(shù)據(jù)可視化是這一部分的一個重要主題。Facebook為了更好地應(yīng)用大數(shù)據(jù)技術(shù),特別開發(fā)了名為Facebook Insights的產(chǎn)品,將大數(shù)據(jù)平臺中的單元和屬性抽離出來,以更好地掌控數(shù)據(jù)資源。
5. 數(shù)據(jù)計算 這一部分毫無疑問是一個大數(shù)據(jù)平臺最為重要的技術(shù)核心。其承擔(dān)了對海量數(shù)據(jù)進行再加工再處理的任務(wù)。一般來說,我們可以將其分為離線計算與實時計算兩種模式。離線計算一般適用于對時間屬性不敏感的應(yīng)用,相對而言,其技術(shù)開發(fā)和構(gòu)建的成本較低。但是由于離線計算需要數(shù)據(jù)同步技術(shù)對數(shù)據(jù)進行采集,過大的數(shù)據(jù)量會使得采集過程失敗,因此目前用于離線計算的數(shù)據(jù)量還不能太大。
相較于離線計算,實時計算處理速度更快,但是其成本很高。目前實時計算大都用于金融、互聯(lián)網(wǎng)等行業(yè)。
6. 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘并不是一個新的技術(shù),目前其發(fā)展已經(jīng)非常成熟。在大數(shù)據(jù)的概念下,數(shù)據(jù)挖掘被賦予了新的意義。其所處理的數(shù)據(jù)類別越來越廣泛,同時為了迎接海量數(shù)據(jù),數(shù)據(jù)挖掘工具的性能也在不斷提升。
在當(dāng)今這個飛速發(fā)展的數(shù)字時代,大數(shù)據(jù)已經(jīng)成為我們生活中必不可少的一部分。展望未來,圍繞大數(shù)據(jù)還將有一些新的技術(shù)和商業(yè)模式誕生。數(shù)據(jù)將成為如同服裝、汽車、家電或者是食物一樣的商品,成為人們選購的對象。同時,精通大數(shù)據(jù)相關(guān)技術(shù)的數(shù)據(jù)科學(xué)家,也會成為一個新興的職業(yè)類型,在新時代中扮演重要的角色。