毫無疑問,數(shù)據(jù)分析將在大數(shù)據(jù)時(shí)代變得至關(guān)重要,這是實(shí)現(xiàn)大數(shù)據(jù)商業(yè)價(jià)值的關(guān)鍵所在。只有能透過大數(shù)據(jù)分析,預(yù)先把控行業(yè)發(fā)展脈搏的玩家才能掌握市場(chǎng)和競(jìng)爭(zhēng)的主動(dòng)權(quán)。
信息時(shí)代,數(shù)據(jù)儼然已成為一種重要的生產(chǎn)要素,如同資本、勞動(dòng)力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業(yè)的應(yīng)用。各行各業(yè)的公司都在收集并利用大量的數(shù)據(jù)分析結(jié)果,盡可能的降低成本,提高產(chǎn)品質(zhì)量、提高生產(chǎn)效率以及創(chuàng)造新的產(chǎn)品。大數(shù)據(jù)無處不在
“大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。就像望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測(cè)微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方法,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢(shì)待發(fā)……”互聯(lián)網(wǎng)專家維克托·邁爾一舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中這樣描述大數(shù)據(jù)。在這個(gè)時(shí)代大數(shù)據(jù)無處不在。Gartner公司的分析師聲稱信息量每年正以最少59%速度在遞增。IDC最新的數(shù)字宇宙(DigitalUniverse)研究估計(jì),到2020年世界上的數(shù)據(jù)存儲(chǔ)總額將達(dá)到35 ZB(zettabytes)(lzettabyte等于一萬億GB字節(jié))。
信息爆炸讓數(shù)據(jù)像空氣那樣無處不在。和朋友一起吃飯,對(duì)新上桌的美味進(jìn)行拍照,上傳到自己SNS賬號(hào)與更多的人分享。這個(gè)過程在產(chǎn)生大數(shù)據(jù);在淘寶上購物,選擇中意的物品,填寫送貨地址,點(diǎn)擊確定,進(jìn)入付款頁面,選擇付款銀行付款,這個(gè)過程也在產(chǎn)生大數(shù)據(jù)。工廠機(jī)器的GPS數(shù)據(jù)、維修記錄等也是大數(shù)據(jù),產(chǎn)品銷售記錄、客戶行為習(xí)慣資料等也是大數(shù)據(jù);礦山、氣象等資料也是大數(shù)據(jù);平安城市計(jì)劃中的物聯(lián)網(wǎng)更是大數(shù)據(jù)。
大數(shù)據(jù)來自無所不在的IT設(shè)施,人人成為了數(shù)據(jù)制造者:短信、微博、照片、錄像、可穿戴設(shè)備產(chǎn)生的信息都是數(shù)據(jù);數(shù)據(jù)來自無數(shù)自動(dòng)化傳感器、自動(dòng)記錄設(shè)施,生產(chǎn)監(jiān)測(cè)、環(huán)境監(jiān)測(cè)、交通監(jiān)測(cè)、安防監(jiān)測(cè)等等;來自自動(dòng)流程記錄:刷卡機(jī)、收款機(jī)、ETC、互聯(lián)網(wǎng)點(diǎn)擊、電話撥號(hào)等設(shè)施以及各種辦事流程登記等。大量自動(dòng)或人工產(chǎn)生的數(shù)據(jù)通過互聯(lián)網(wǎng)聚集到特定地點(diǎn),如電信運(yùn)營商、互聯(lián)網(wǎng)運(yùn)營商、政府、銀行、商場(chǎng)、企業(yè)、交通樞紐等機(jī)構(gòu),形成了大數(shù)據(jù)之海。總之,你信或不信,大數(shù)據(jù)就在我們身邊。
數(shù)據(jù)分析才是關(guān)鍵所在
擁有大數(shù)據(jù)并不是我們的目的,我們的目的是從這些數(shù)據(jù)中了解真實(shí)信息,使數(shù)據(jù)能夠真正在管理、決策、監(jiān)測(cè)、評(píng)價(jià),以及人們的生活中產(chǎn)生價(jià)值。大數(shù)據(jù)分析上可影響國家政治,沒有大數(shù)據(jù)分析奧巴馬就不會(huì)贏得美國總統(tǒng)大選;下可改變我們的日常生活,就連追女孩子都可以使用大數(shù)據(jù)分析的方法來制定策略。
“面對(duì)海量數(shù)據(jù),誰能更好地處理、分析數(shù)據(jù),誰就能真正搶得大數(shù)據(jù)時(shí)代的先機(jī)?!边@幾乎是業(yè)界所有人的共識(shí)。對(duì)海量數(shù)據(jù)的分析已經(jīng)成為了企業(yè)、政府非常重要且迫切的需求。在數(shù)據(jù)分析方面的能力將決定企業(yè)市場(chǎng)份額的得失、政府決策能力的高低。大數(shù)據(jù)分析讓IT有機(jī)會(huì)增加價(jià)值,增進(jìn)業(yè)務(wù)部門間的關(guān)系,增加收入和提高利潤。
大數(shù)據(jù)分析對(duì)醫(yī)療行業(yè)的發(fā)展非常重要。醫(yī)療行業(yè)早就遇到了海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn),大數(shù)據(jù)分析技術(shù)的發(fā)展讓這些數(shù)據(jù)的價(jià)值得以充分發(fā)揮,其中,基因組學(xué)是大數(shù)據(jù)在醫(yī)療行業(yè)的經(jīng)典應(yīng)用。以云計(jì)算為基礎(chǔ)的大數(shù)據(jù)分析技術(shù)不僅加速了基因序列分析的速度,也讓其成本不斷減低。
經(jīng)濟(jì)的快速發(fā)展促使城市機(jī)動(dòng)車輛大幅度增加,傳統(tǒng)的交通系統(tǒng)已難以滿足當(dāng)前復(fù)雜的交通需求,交通堵塞成為城市的通病。隨著交通信息化與交通規(guī)劃的融合程度越來越高,大數(shù)據(jù)發(fā)揮的功能和信息獲取渠道都將更加廣泛。中國城市交通研究中心吳洪洋博士表示,公交刷卡數(shù)據(jù)挖掘、出租車軌跡挖掘、手機(jī)數(shù)據(jù)挖掘、社會(huì)化網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)⒊蔀槲磥泶髷?shù)據(jù)應(yīng)用的主要方向。
大數(shù)據(jù)分析技術(shù)加速制造業(yè)從傳統(tǒng)的以生產(chǎn)為核心向客戶需求為核心轉(zhuǎn)型。在大數(shù)據(jù)分析技術(shù)的驅(qū)動(dòng)下,一些制造業(yè)的企業(yè)開始轉(zhuǎn)向與訂單用戶或者最終消費(fèi)客戶群進(jìn)行直接的互動(dòng)。通過更透明、更可用的數(shù)據(jù),企業(yè)可以釋放更多蘊(yùn)含在數(shù)據(jù)中的價(jià)值。實(shí)時(shí)、有效的數(shù)據(jù)可以更好的幫助企業(yè)提高產(chǎn)品品質(zhì)、降低生產(chǎn)成本。企業(yè)領(lǐng)導(dǎo)者也可根據(jù)真實(shí)可靠的數(shù)據(jù)制訂正確戰(zhàn)略經(jīng)營決策,實(shí)現(xiàn)企業(yè)效益最大化。
破解密碼——Hadoop
數(shù)據(jù)的非結(jié)構(gòu)化已經(jīng)成為企業(yè)的重大挑戰(zhàn)。由于這些數(shù)據(jù)的結(jié)構(gòu)問題及大數(shù)據(jù)類型的復(fù)雜關(guān)聯(lián),導(dǎo)致無法應(yīng)用現(xiàn)有的傳統(tǒng)技巧進(jìn)行大數(shù)據(jù)分析。這為企業(yè)帶來了新的任務(wù),需要開發(fā)一套全新方法,不僅能夠處理傳統(tǒng)數(shù)據(jù),而且可以便捷地分析和應(yīng)用這些新興數(shù)據(jù)。Hadoop恰恰可以滿足大數(shù)據(jù)分析這種需求。
Hadoop已成為公認(rèn)的新一代大數(shù)據(jù)處理平臺(tái)。Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。它以谷歌發(fā)布的MapReduce及谷歌文件系統(tǒng)技術(shù)研究論文為基礎(chǔ)。Hadoop充當(dāng)著眾多“大數(shù)據(jù)”分析工具的底層技術(shù),旨在對(duì)由web訪問、服務(wù)器日志及其它各類數(shù)據(jù)流所產(chǎn)生的海量數(shù)據(jù)進(jìn)行篩選,在分布式環(huán)境下提供海量數(shù)據(jù)的處理能力。
Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。它以計(jì)算元素和存儲(chǔ)會(huì)失敗為前提,維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop以并行的方式工作,通過并行處理加快處理速度,能夠處理PB級(jí)數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù)器,所以它又具有低成本的優(yōu)點(diǎn)。
目前,幾乎所有的主流廠商都提供了基于Hadoop的大數(shù)據(jù)分析工具。如IBM、EMc、英特爾、甲骨文等都紛紛投入到Hadoop懷抱。
IBM很早就開始在實(shí)驗(yàn)室嘗試使用Hadoop,但是,直到2012年才推出了首款大數(shù)據(jù)分析產(chǎn)品:IBM InFoSphereBigInsights。該產(chǎn)品既可以分析數(shù)據(jù)庫中的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),也可以分析例如文本、視頻、音頻、圖像、社交媒體、點(diǎn)擊流、日志文件、天氣數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù),幫助決策者根據(jù)數(shù)據(jù)迅速采取行動(dòng)。
EMC基于Hadodp的發(fā)行版PivotalHDs可以讓數(shù)據(jù)團(tuán)隊(duì)和分析團(tuán)隊(duì)在該平臺(tái)上無縫共享信息、協(xié)作分析。其最大的優(yōu)勢(shì)是能夠與Greenplum數(shù)據(jù)庫進(jìn)行整合,而不僅僅是在Hadoop中運(yùn)行SQL這么簡單。
英特爾推出的Hadoop發(fā)行版不但改寫了Hadoop框架的核心功能,強(qiáng)化對(duì)處理器指令集的支持來提高效能,可直接支持Xeon進(jìn)階運(yùn)算加密指令集AES-NI.并在數(shù)據(jù)儲(chǔ)存到HBase的過程。用芯片原生的加密功能保護(hù),這是英特爾進(jìn)軍大數(shù)據(jù)的殺手锏軟件。
作為老牌數(shù)據(jù)庫廠商,甲骨文在大數(shù)據(jù)領(lǐng)域更是不甘人后,推出了Oracle大數(shù)據(jù)平臺(tái)解決方案,該方案為Exadata+大數(shù)據(jù)機(jī)+Exalytics的組合,利用這“三駕馬車”分別應(yīng)對(duì)數(shù)據(jù)捕獲、組織、分析和決策。利用大數(shù)據(jù)機(jī)來捕獲所有可用數(shù)據(jù),通過Hadoop來將不同類型的數(shù)據(jù)組織為易分析的數(shù)據(jù);然后再利用Exadata進(jìn)行分析,其中Exalytics將起到加速BI分析過程的作用。
讓業(yè)務(wù)乘著大數(shù)據(jù)技術(shù)的東風(fēng)提升企業(yè)價(jià)值,這幾乎是所有企業(yè)用戶的心聲。數(shù)據(jù)的海量增加,尤其是非結(jié)構(gòu)化數(shù)據(jù)的無序增加,給諸多企業(yè)的數(shù)據(jù)信息處理帶來了極大的挑戰(zhàn),諸多公司IT主管都面臨著大數(shù)據(jù)處理分析這一挑戰(zhàn),一旦大數(shù)據(jù)難以分析這個(gè)問題得以解決,數(shù)據(jù)將給公司帶來無限的價(jià)值,并將指引公司走向更輝煌的成功。