特約通訊員 周琪
近年來,互聯(lián)網(wǎng)、云計算、移動和物聯(lián)網(wǎng)的迅猛發(fā)展。無所不在的移動設備、RFID、無線傳感器每時每刻都在產(chǎn)生數(shù)據(jù),數(shù)以億計用戶的互聯(lián)網(wǎng)服務每分每秒都在產(chǎn)生海量的交互。2011年5月,全球知名的麥肯錫全球研究院發(fā)布了一份題為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領域》的報告。報告指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素;而人們對于大數(shù)據(jù)的運用預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。2012年3月29日,美國政府在白宮網(wǎng)站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,表示將投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,增強從大數(shù)據(jù)中分析萃取信息的能力。
“大數(shù)據(jù)”是繼“物聯(lián)網(wǎng)”和“云計算”后IT業(yè)界最炙手可熱的新名詞。大家都在談論大數(shù)據(jù),大家都想用好大數(shù)據(jù)。但你真的了解大數(shù)據(jù)嗎?當前的行業(yè)狀況又是怎樣?
當你開著車對著“語音助手”說:“我要在附近找一家最羅曼蒂克的餐廳?!敝?,短短一兩秒就能得到您滿意的答案時。其背后向您提供服務所涉及到的定位、資料檢索、存取、數(shù)據(jù)交換等一系列動作是何等的復雜。而這一系列動作正是由“大數(shù)據(jù)”所支撐。
大數(shù)據(jù)目前仍未有統(tǒng)一的定義,通常被認為是一種數(shù)據(jù)量很大、數(shù)據(jù)形式多樣化的非結(jié)構(gòu)化數(shù)據(jù)。
這里有幾個名詞需要解釋一下,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)可以在關系數(shù)據(jù)庫中找到,多年來一直主導著IT應用;半結(jié)構(gòu)化數(shù)據(jù)包括電子郵件、文字處理文件以及大量發(fā)布在網(wǎng)絡上的新聞等,以內(nèi)容為基礎,這也是谷歌和百度存在的理由;而非結(jié)構(gòu)化數(shù)據(jù)廣泛存在于社交網(wǎng)絡、物聯(lián)網(wǎng)、電子商務之中。伴隨著社交網(wǎng)絡、移動計算和傳感器等新技術(shù)不斷產(chǎn)生,有報告稱,超過85%的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)技術(shù)則可以理解為從各種各樣類型的海量數(shù)據(jù)中,快速獲得有價值信息的能力。掌握大數(shù)據(jù)技術(shù),應用大數(shù)據(jù)技術(shù)會帶來巨大的商業(yè)成功。這也就是Facebook、谷歌、蘋果、亞馬遜等巨頭正在成為大數(shù)據(jù)的擁有者和使用者的原因。
大數(shù)據(jù)特點有四個層面:第一,數(shù)據(jù)容量大,現(xiàn)在數(shù)據(jù)單位已經(jīng)躍升至ZB級別;第二,數(shù)據(jù)種類多,主要來自業(yè)務系統(tǒng),例如社交網(wǎng)絡、電子商務和物聯(lián)網(wǎng)應用等;第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅為一兩秒。第四,處理速度快,時效性要求高,從傳統(tǒng)的事務性數(shù)據(jù)到實時或準實時數(shù)據(jù),這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
從下面一組數(shù)據(jù)可以說明大數(shù)據(jù)到底有多大?
◆每1秒鐘,會有60張Instagram照片被上傳
◆每1分鐘,會有60小時視頻被上傳到Y(jié)outube
◆每1天里,搜索引擎產(chǎn)生的日志數(shù)量是35T
◆每1天里,在Twitter上會產(chǎn)生1.9億條微博
◆每1天里,在Twitter上會產(chǎn)生3.4億的消息
◆每1天里,在Facebook有40億的信息擴散
◆自人類有史以來我們所產(chǎn)生的信息量為5艾字節(jié)(50億GB)
◆過去3年產(chǎn)生的數(shù)據(jù)量比以往4萬年的數(shù)據(jù)還多
◆2010年,全球數(shù)據(jù)量已達1.2ZB,到 2020年將暴增 30倍達35ZB
◆2011年,中國互聯(lián)網(wǎng)行業(yè)持有數(shù)據(jù)總量達到1.9EB(1EB艾字節(jié)相當于10億GB)
◆2011年,全球被創(chuàng)建和復制數(shù)據(jù)總量為1.8ZB(1.8萬億GB)
◆2015年,全球被創(chuàng)建和復制數(shù)據(jù)總量增長到8.2EB以上;
◆2020年,全球電子設備存儲的數(shù)據(jù)將暴增30倍,達到35ZB或以上。
“數(shù)據(jù)海量、信息缺乏”是相當多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問題。目前,大多數(shù)事物型數(shù)據(jù)庫僅實現(xiàn)了數(shù)據(jù)錄入、查詢和統(tǒng)計等較低層次的功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的有用信息,更無法進一步通過數(shù)據(jù)分析發(fā)現(xiàn)更高的價值。如果能夠?qū)@些數(shù)據(jù)進行分析,探尋其數(shù)據(jù)模式及特征,進而發(fā)現(xiàn)某個客戶、群體或組織的興趣和行為規(guī)律,專業(yè)人員就可以預測到未來可能發(fā)生的變化趨勢。這樣的數(shù)據(jù)挖掘過程,將極大拓展企業(yè)核心競爭力。例如,在網(wǎng)上購物時遇到的提示“瀏覽了該商品的人還瀏覽了如下商品”,這就是在對大量的購買者“行為軌跡”數(shù)據(jù)進行記錄和挖掘分析的基礎上,捕捉總結(jié)購買者共性習慣行為,并針對性地利用每一次購買機會而推出的銷售策略。通過掌握大量企業(yè)本身和外部的數(shù)據(jù),來揭示企業(yè)未來的發(fā)展方向,預測統(tǒng)計數(shù)據(jù)和采集其他具有可行性的信息,以便幫助企業(yè)做出下一步行動的決策。這就是大數(shù)據(jù)蘊含的商業(yè)價值。
大數(shù)據(jù)興起的原因有以下三點:一是計算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務處理。二是內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。三是把計算機聚合成服務器集群越來越簡單。
也有人懷疑大數(shù)據(jù)存在炒作成份,但不能忽視越來越多的企業(yè)因為應用大數(shù)據(jù)技術(shù)而獲得收益。
當你仍然在把微博等社交平臺當作抒情或者發(fā)議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯(lián)網(wǎng)的“數(shù)據(jù)財富”,先人一步用其預判市場走勢,而且取得了不俗的收益。數(shù)據(jù)在他們手上變成一種全新的致富手段,它的價值堪比石油和黃金。
例如:
◆華爾街根據(jù)民眾情緒拋售股票;
◆對沖基金依據(jù)購物網(wǎng)站的顧客評論,分析企業(yè)產(chǎn)品銷售狀況;
◆銀行根據(jù)求職網(wǎng)站的崗位數(shù)量,推斷就業(yè)率;
◆投資機構(gòu)搜集并分析上市企業(yè)聲明,從中尋找破產(chǎn)的蛛絲馬跡;
◆美國疾病控制和預防中心依據(jù)網(wǎng)民搜索,分析全球范圍內(nèi)流感等病疫的傳播狀況;
◆美國總統(tǒng)奧巴馬的競選團隊依據(jù)選民的微博,實時分析選民對總統(tǒng)競選人的喜好。
2010年時,大數(shù)據(jù)技術(shù)的一些主要用戶是大型Web企業(yè),例如Facebook和雅虎,它們需要分析點擊流數(shù)據(jù)。但是今天,大數(shù)據(jù)技術(shù)已經(jīng)超出了Web,要是有大量數(shù)據(jù)需要處理的企業(yè)都有可能用到它。例如銀行、公用事業(yè)機構(gòu)、情報部門等都在搭乘大數(shù)據(jù)這輛車。還有就是受社交媒體推動而需要創(chuàng)建相應Web服務的企業(yè)。它們對于大數(shù)據(jù)項目的貢獻非常重要。
而在其他垂直行業(yè)中,有些企業(yè)正在意識到,它們基于信息服務的價值定位要比它們先前想象的要大得多,所以大數(shù)據(jù)技術(shù)很快就吸引了這些企業(yè)的注意。再加上硬件和軟件成本的下降,這些企業(yè)發(fā)現(xiàn)它們已經(jīng)處在了一場企業(yè)大轉(zhuǎn)型機遇的完美風暴中。
紐約的TRA公司是專門幫助電視廣告主們評測其所投放的電視廣告的效果的,它會把某個家庭通過電視與DVR(數(shù)字錄像機)所接收到的廣告與其在零售商店的賬單相比對。該公司從有線電視公司的DVR以及一些日用品商店的會員卡計劃中搜集數(shù)據(jù),來進行這種比對。TRA的大數(shù)據(jù)系統(tǒng)所處理的數(shù)據(jù)量代表著170萬個家庭以秒計的觀看習慣,如此龐大的任務量如果沒有大數(shù)據(jù)技術(shù)幾乎無法完成。該公司部署了Kognitia的WX2數(shù)據(jù)庫,該數(shù)據(jù)庫允許它快速地裝載、描述和分析數(shù)據(jù),從DVR上收集細粒度的廣告觀看信息,繼而與銷售點的詳細數(shù)據(jù)進行比對,再生成定制報告。Kognitia有一個內(nèi)存運行的解決方案,TRA公司現(xiàn)有整個數(shù)據(jù)庫的一半都可以放在內(nèi)存里。當需要運行一個查詢時,響應時間是秒級而非小時級或日級的。對TRA公司而言,大數(shù)據(jù)技術(shù)可能會給全美700億美元的電視廣告市場帶來革命性的變化。傳統(tǒng)的廣告評測方法頂多只能在全國2萬個樣本家庭中安裝特制的機頂盒來分析抽樣數(shù)據(jù)。而今天,大數(shù)據(jù)技術(shù)則可以分析來自250萬臺DVR和機頂盒的實際數(shù)據(jù)。
公用事業(yè)行業(yè)也在剛剛開始了解到大數(shù)據(jù)所帶來的應用及其價值。美國中西部的一家電力公司利用Hadoop分析來自智能電表的數(shù)據(jù),這些智能電表可以自動完成計費功能,但是該公司還收集輸電線路上任意的電流波動信息。如果收集到這些信息并且能夠描繪出電流變化圖,那么電力公司就可以在某個地方的變壓器可能出現(xiàn)故障之前找到它,或者當發(fā)生停電事故時,會引起電流的波動,公司就可以探測到波動之處,在用戶打電話求助之前就采取行動。
新創(chuàng)于2009年的BloomReach公司,擁有世界上第一個網(wǎng)頁關聯(lián)引擎,此項技術(shù)可利用海量數(shù)據(jù),機器學習,和大規(guī)模系統(tǒng)科學去匹配相關產(chǎn)品和服務給合適的消費者,為用戶獲得更大的訪問流量,帶來更多的盈利空間。
凡事有利必有弊,“大數(shù)據(jù)”本身也存在一些風險。統(tǒng)計學家和計算機科學家指出,大數(shù)據(jù)的集合和高密度的測量將令“錯誤發(fā)現(xiàn)”的風險增長。斯坦福大學的統(tǒng)計學教授特來沃爾-哈斯迪(Trevor Hastie)稱,如果想要在龐大的數(shù)據(jù)“干草垛”中找到一根有意義的“針”,那么所將面臨的問題就是“那么多的稻草看起來就像是針一樣”。
數(shù)據(jù)聚合和大數(shù)據(jù)分析,是保證企業(yè)的營銷情報的寶庫,潛在的商業(yè)活動和機會。但大數(shù)據(jù)的使用者應該更多地關注所涉及的國家和地區(qū)在這信息安全領域的法律規(guī)定。企業(yè)還應該實現(xiàn)數(shù)據(jù)隱私最佳實踐和設計分析程序,建立相關透明度和問責制,對數(shù)據(jù)的利用應該保持靈活和理想的預期變化的調(diào)節(jié),而不是陷入困境時,才臨時尋求解決方案。
話雖這么說,在初期,我們還沒有看到大量的外部需求,強制要求企業(yè)確保信息的完整性。然而,隨著企業(yè)規(guī)模擴大,業(yè)務處理的信息仍然會增加,需要業(yè)務決策密切聯(lián)系原始數(shù)據(jù)的大數(shù)據(jù)分析,信息的質(zhì)量變得越來越重要。如果同樣復雜的分析可以應用到相關的安全數(shù)據(jù),大數(shù)據(jù)甚至可能被用于提高信息安全。