信息時(shí)代,數(shù)據(jù)意味什么?對(duì)于一個(gè)企業(yè)來(lái)說(shuō),數(shù)據(jù)意味著商機(jī)、執(zhí)行力、生產(chǎn)力、競(jìng)爭(zhēng)力。的確,數(shù)據(jù)資產(chǎn)已經(jīng)成為現(xiàn)代企業(yè)越來(lái)越重要甚至是核心的生產(chǎn)要素。如何采集好數(shù)據(jù)、管理好數(shù)據(jù)、挖掘應(yīng)用好數(shù)據(jù)已成為企業(yè)日常管理經(jīng)營(yíng)的基礎(chǔ)工作之一。
兩天,5000年
現(xiàn)在,全球每?jī)商毂粍?chuàng)建和被復(fù)制的數(shù)據(jù)總量相當(dāng)于人類(lèi)文明誕生到2003年五千多年歷史所產(chǎn)生數(shù)據(jù)量的總和。而且,根據(jù)IDC調(diào)研和預(yù)估,數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō),每?jī)赡陻?shù)據(jù)就會(huì)增長(zhǎng)一倍。愛(ài)立信預(yù)測(cè),2020年,平均每個(gè)人將擁有7個(gè)連接終端,這意味著屆時(shí)全世界將擁有500億個(gè)終端通過(guò)網(wǎng)絡(luò)互相連接。此外,如果物聯(lián)網(wǎng)變成現(xiàn)實(shí),我們的生活會(huì)被傳感器所包圍,其數(shù)量可能會(huì)超過(guò)2100億個(gè),那個(gè)時(shí)候,數(shù)據(jù)將無(wú)處不在。
我們正在進(jìn)入一個(gè)令人敬畏的大數(shù)據(jù)時(shí)代。IDC將大數(shù)據(jù)的特征歸納為4個(gè)“V”——Volume,Variety,Value和Velocity。Volume代表海量的數(shù)據(jù)規(guī)模,從TB級(jí)別躍升到PB級(jí)別,甚至是EB級(jí);Variety代表多樣的數(shù)據(jù)類(lèi)型,包括大量的非結(jié)構(gòu)化數(shù)據(jù);Value代表巨大的數(shù)據(jù)價(jià)值,但挖掘分析更加困難;Velocity代表動(dòng)態(tài)數(shù)據(jù)的快速處理。
大數(shù)據(jù)市場(chǎng)到底有多大?IDc有一個(gè)預(yù)測(cè),2015年整個(gè)市場(chǎng)規(guī)模將超過(guò)170億美元,每年的平均增長(zhǎng)速度超過(guò)50%。面對(duì)可以從大數(shù)據(jù)中發(fā)掘出來(lái)的、如此具體甚至已清晰可見(jiàn)的價(jià)值,IT產(chǎn)業(yè)界和用戶(hù)已就加速大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用達(dá)成了共識(shí),但相關(guān)技術(shù)和應(yīng)用的成熟和落地是無(wú)法一蹴而就的?!皵?shù)據(jù)量?jī)H僅是數(shù)據(jù),并不能解決問(wèn)題,它要從數(shù)據(jù)變成信息、變成智能、變成商業(yè)價(jià)值,這才能夠體現(xiàn)出真正的大數(shù)據(jù)的價(jià)值?!庇⑻貭杹喬邪l(fā)有限公司總經(jīng)理、英特爾軟件與服務(wù)事業(yè)部中國(guó)區(qū)總經(jīng)理何京翔在不久前召開(kāi)的英特爾大數(shù)據(jù)論壇上表示,“有人說(shuō)信息成為21世紀(jì)的石油。這確實(shí)是非常好的比喻,石油剛剛開(kāi)采出來(lái)的時(shí)候,原油開(kāi)采的時(shí)候價(jià)值并不是那么高。一百多年前,石油作為一種累贅,沒(méi)有人很好地利用起來(lái),直到我們把石油變成化學(xué)品,變成汽油的時(shí)候才真正體現(xiàn)出價(jià)值。大數(shù)據(jù)同樣的,僅僅是存儲(chǔ)起來(lái),而不利用起來(lái)并沒(méi)有價(jià)值,必須通過(guò)分析和處理才能體現(xiàn)它的價(jià)值?!?/p>
Hadoop崛起
何京翔認(rèn)為大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)時(shí)代有本質(zhì)的區(qū)別,既然問(wèn)題不一樣,就需要新的方法解決問(wèn)題。在考慮大數(shù)據(jù)的時(shí)候,不應(yīng)該把它看做一個(gè)技術(shù)問(wèn)題而是一個(gè)全新商業(yè)模式和生態(tài)系統(tǒng)的問(wèn)題,也就是說(shuō)不僅要在新技術(shù)上有創(chuàng)新,同時(shí)也應(yīng)該關(guān)注人員培訓(xùn)、生態(tài)系統(tǒng)的構(gòu)造以及最佳實(shí)踐。
開(kāi)源的Hadoop已經(jīng)在過(guò)去幾年被證明是市場(chǎng)中最成功的大數(shù)據(jù)處理平臺(tái),由Apache基金會(huì)開(kāi)發(fā)。其目的是讓用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,同時(shí)能夠充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop是高效的,因?yàn)樗圆⑿械姆绞焦ぷ?,通過(guò)并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級(jí)數(shù)據(jù)。此外,Hadoop依賴(lài)于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。
Hadoop邁向主流的標(biāo)志是在2011年,它得到了5家主要的數(shù)據(jù)庫(kù)和數(shù)據(jù)管理廠(chǎng)商的積極接受,EMC、IBM、Informatica、微軟和甲骨文都進(jìn)入Hadoop領(lǐng)域。但是無(wú)論是哪一類(lèi)大數(shù)據(jù)集,都無(wú)一例外地要求承載自己的IT基礎(chǔ)設(shè)施要具備強(qiáng)大且能與其增長(zhǎng)速度相適應(yīng)的計(jì)算能力、存儲(chǔ)能力和數(shù)據(jù)交換傳輸能力,而實(shí)現(xiàn)這些能力的關(guān)鍵就是要能對(duì)其進(jìn)行擴(kuò)展,特別是橫向擴(kuò)展。先天就具備強(qiáng)大橫向可擴(kuò)展特性,并在實(shí)現(xiàn)這種擴(kuò)展時(shí)擁有出色成本和性?xún)r(jià)比優(yōu)勢(shì)的,就是基于開(kāi)放架構(gòu)的平臺(tái)。所以我們看到芯片巨頭英特爾也推出了一系列的大數(shù)據(jù)解決方案,包括平臺(tái)以及針對(duì)英特爾平臺(tái)優(yōu)化的Hadoop產(chǎn)品和服務(wù),比如Intel Hadoop Manager2.0。
當(dāng)前,Hadoop已經(jīng)開(kāi)始了商業(yè)化應(yīng)用,亞馬遜的MapReduce便是其中代表。而在中國(guó),中國(guó)聯(lián)通的上網(wǎng)記錄查詢(xún)服務(wù)項(xiàng)目也是一個(gè)典型的案例。
聯(lián)通的實(shí)踐
根據(jù)中國(guó)聯(lián)通研究院副院長(zhǎng)黃文良介紹,3G時(shí)代,尤其在中國(guó)聯(lián)通引入iPhone之后,上網(wǎng)流量問(wèn)題是用戶(hù)投訴的焦點(diǎn),因?yàn)楝F(xiàn)在3G運(yùn)營(yíng)商大部分是按流量計(jì)費(fèi)的。他說(shuō):“用戶(hù)投訴以后,我們一般跟他解釋?zhuān)悄苁謾C(jī)機(jī)有時(shí)候會(huì)自動(dòng)下載應(yīng)用,因此會(huì)產(chǎn)生流量。而用戶(hù)也是強(qiáng)烈要求運(yùn)營(yíng)商能提供明明白白的消費(fèi),不要告訴我產(chǎn)生多少流量,我需要的是流量怎么產(chǎn)生,昨天的20M流量是因?yàn)楦铝薗Q還是因?yàn)榭戳耸裁匆曨l。但是我們卻無(wú)法拿出詳細(xì)清晰的用戶(hù)上網(wǎng)記錄,因?yàn)橹袊?guó)聯(lián)通用戶(hù)每個(gè)月的上網(wǎng)記錄是上萬(wàn)億條的,而且每6個(gè)月都會(huì)翻倍。在這樣的情況下,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)根本無(wú)法應(yīng)對(duì)。比如我們?cè)?jīng)用甲骨文數(shù)據(jù)庫(kù)試圖解決此問(wèn)題,但是后來(lái)發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)到百億條的時(shí)候便顯得力不從心,可能幾個(gè)小時(shí)都出不來(lái)結(jié)果。因此,面對(duì)用戶(hù)的投訴,有時(shí)候我們只能進(jìn)行退費(fèi),不但支出大,用戶(hù)滿(mǎn)意度也在降低,這讓我們很被動(dòng),也很委屈?!?/p>
于是從2011年起,中國(guó)聯(lián)通開(kāi)始部署針對(duì)移動(dòng)互聯(lián)網(wǎng)用戶(hù)的上網(wǎng)記錄查閱系統(tǒng),其中便引入了Hadoop技術(shù)來(lái)。中國(guó)聯(lián)通Hadoop系統(tǒng)部署在北京,采用了178臺(tái)英特爾至強(qiáng)刀片服務(wù)器,每一臺(tái)服務(wù)器配了14TB的存儲(chǔ)。各省分公司生成的數(shù)據(jù)以5分鐘一個(gè)文件的速度傳往北京,統(tǒng)一提供給全國(guó)所有的客服人員檢索?,F(xiàn)在檢索速度基本上能到秒一級(jí),輸入中國(guó)聯(lián)通任何一個(gè)城市的用戶(hù)號(hào)碼,該用戶(hù)的上網(wǎng)記錄可能一兩秒就可以跳出來(lái)。通過(guò)該項(xiàng)目的實(shí)施,黃文良的感受是,大數(shù)據(jù)的技術(shù)對(duì)電信業(yè)來(lái)說(shuō)是個(gè)很大的機(jī)遇,“現(xiàn)在基于這些數(shù)據(jù)我們要做出更多更豐富的應(yīng)用,為未來(lái)移動(dòng)互聯(lián)網(wǎng)健康良好的發(fā)展也奠定了很好基礎(chǔ)”。
IDC中國(guó)企業(yè)級(jí)系統(tǒng)與軟件研究部高級(jí)研究經(jīng)理周震剛認(rèn)為,經(jīng)過(guò)2010年和2011年兩年的迅速發(fā)展,Hadoop的生態(tài)環(huán)境已經(jīng)形成,他相信伴隨著市場(chǎng)上主流Hadoop打包產(chǎn)品的出現(xiàn),大數(shù)據(jù)的商業(yè)化部署將會(huì)加速。但是他也提醒大家,許多早期Hadoop項(xiàng)目都是以失敗告終的,究其原因主要有兩點(diǎn):首先是項(xiàng)目行業(yè)應(yīng)用的目的性不強(qiáng),有跟風(fēng)之嫌;其次,項(xiàng)目的開(kāi)發(fā)環(huán)境并不適合Hadoop,用傳統(tǒng)的數(shù)據(jù)庫(kù)就可以解決的問(wèn)題如果非要用Hadoop來(lái)實(shí)現(xiàn)結(jié)果反而會(huì)背道而馳。大數(shù)據(jù)整體還處在摸索和實(shí)踐的階段,因此,不可盲目跟風(fēng),必須明確實(shí)施大數(shù)據(jù)的目標(biāo),而且要有切實(shí)可行的規(guī)劃,數(shù)據(jù)質(zhì)量也很重要。