人類文明第三次浪潮的主角
未來大國間博弈的決勝關鍵
●大數據是不是大忽悠
●那些行業(yè)更愛大數據
●大數據和每個人都有關
無論是否出于你的意愿,數據正在每天為你做著人生筆記:你去了哪里?看到了什么?做了什么?你的性格喜好?與誰聯絡?心情如何?……這些通通可以從你的網絡瀏覽記錄、交易記錄、手機通話記錄、聯通視頻記錄、收發(fā)郵件記錄、社交網絡記錄等等當中獲得,你在網絡上的每一個“足跡”都會以數據的形式被記錄并存儲下來,它們精準及時、事無巨細。而借助于這些數據,就可以拼出一個比你自己更了解的“你”。
這樣由一個個數據描繪出的“你”,有何價值?
“鬼才”制片查理·布洛克(Charlie Brooker)推出的英國“神劇”《黑鏡》(Black Mirror)中,出現了一款功能極其強大的“大數據+云計算”產品——“再造人”,一個連思維人格都可以和因車禍而早逝的Ash“一模一樣”的機器人。
通過對Ash生前留在互聯網世界的數據分析挖掘、統計比較和重新組織,進而發(fā)現規(guī)律、構建模型,最終實現準確“預測”,“機器人Ash”就可以像“真正Ash”那樣與活著的人進行對話和對事物做出反應甚至進行學習。
大數據(Big Data)帶來的可能性,當然不會僅僅只是制造一個高級機器人那么簡單,否則也不會使得全世界都在為之癡迷和瘋狂:它被認為是人類文明第三次浪潮的主角,將改變人類的思考模式、生活習慣和商業(yè)法則,被認為將引發(fā)社會發(fā)展的深刻變革,被美國定位為未來最重要的國家戰(zhàn)略之一,是未來大國博弈的決勝關鍵……
現在,這一切正開始變?yōu)檎娼鸢足y的生意。Amazon和Facebook用它賣出了更多的廣告;Netflix用它創(chuàng)造了《紙牌屋》的收視奇跡;ZARA用它實現了比LV還高的利潤率;奧巴馬用它贏得了總統選舉,但又為因它而起的“棱鏡門”事件而焦頭爛額……
當然,世界對于“大數據所帶來的機遇是否被過分炒作”的質疑也從未停歇。在剛剛結束的夏季達沃斯上,一場主題為“大數據還是大忽悠”的辯論異常激烈。
辯論前對現場觀眾的調查顯示,“大數據就是大忽悠”(正方)稍占上風。然而,辯論結束,“大數據不是大忽悠”(反方)成功逆轉。反方“辯手”北京大學光華管理學院新媒體營銷研究中心副主任蘇萌教授的一段話贏得了觀眾手中的選票:15年前,人們認為互聯網存在泡沫,但事實證明其并沒有被高估;5年以前,人們又都認為電子商務被夸大,但如今看來這也是錯誤的結論。新事物的發(fā)展需要泡沫,這樣才能吸引更多的資金和人才,沉淀下來的才是真正寶貴的東西。
數據大爆炸
你可能并不一定知曉下面這些數字,但你也一定會感受到“數據”正在呈幾何基數的爆炸性增長,因為10億臺電腦、40億部手機、無數的互聯網終端……正在使得我們生活的世界高速數字化,“信息爆炸”早已從抽象的概念變?yōu)楝F實的描述。
從出現文字記錄到2003年,人類總共創(chuàng)造出的數據量只相當于現在全世界兩天創(chuàng)造出的數據量;在如此大的基數之上,全球的數據量仍然每18個月就會翻一番;預計到2020年,全球數據規(guī)模會達到今天的44倍;如今人們在一天之內上傳的照片數量就相當于柯達發(fā)明膠卷之后拍攝的所有圖像的總和……
就在10年前,1.44M的3.5寸盤還是我們裝機的必備;幾年前,體積不大但容量數百M的移動存儲還曾讓人們興奮不已;而現在,GB級別的小U盤和TB級別的移動硬盤早已是普通用戶的尋常之物,企業(yè)級應用則動輒就要躍升至PB、EB級別。(編者注:數據存儲單位由小到大依次為Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,后者依次為前者的1024倍。)
數據分析并不是一個新概念,也有人會因此對于大數據不以為然,認為這只不過是新瓶老酒而已。但是,量變引發(fā)質變傳統數據所采用的獲取、存儲、分析和解釋的方法和技術,早已無法應對現在的數據規(guī)模、產生速度和復雜程度了。
“我們今天講的大數據,和過去的數據挖掘有四個方面比較明顯的差異?!敝袊こ淘涸菏磕吖饽细嬖V《中國經濟周刊》,“一是數據量大,常為PB量級,而且每年有40%~50%的增幅;二是數據特征復雜,大數據時代我們主要面臨的是非結構化信息,比如文本、圖形、音頻、視頻等,而且大多是實時信息;三是數據來源主要是社會日常運作和各種服務中實時產生的,如在線搜索、社交媒體、移動電話、電子商務交易、遙感遙測數據等等,而過去主要是企業(yè)交易數據;四是應用領域主要是社會科學范疇,如在經濟學和社會學上的應用,而過去主要是自然科學范疇的應用?!?/p>
而數據之所以變“大”的最重要的推手便是云計算。從技術上講,大數據是根植于云計算的,它是云計算的重要延伸,兩者相輔相成。數據被搬到了“云”上之后,更容易被收集和獲得,過去那種各自分割存儲的數據往往不具備太大價值,只有不同領域打通共享,數據金礦才能呈現眼前。而如此龐大的數據也只有依靠云計算強大的處理能力,才能夠“淘盡黃沙始得金”。
從概念到生意
盡管在2012年,大數據才逐漸被中國產業(yè)界接受和關注,但業(yè)界普遍認為2013年將成為中國“大數據元年”,未來三年大數據市場都將呈爆發(fā)性增長態(tài)勢。賽迪顧問統計數據顯示,2012年我國大數據市場規(guī)模為4.5億元,同比增長40.6%;而預計到2016年,大數據行業(yè)規(guī)模將突破百億元。
和以往一樣,美國依然被視為風向標。實際上,大數據已經成為華爾街和硅谷最炙手可熱的追逐對象。今年5月兩只剛剛掛牌的大數據概念股Tableau和Marketo都受到了市場極大追捧,Tableau首日漲幅63.7%,募資2.542億美元,成為今年以來美國股市最大一筆科技公司的IPO項目;Marketo股價首日也飆升了78%。
國內的A股市場也隨之“激動”了一陣子,如拓爾思、美亞柏科、華宇軟件、科華恒盛、浪潮信息、天璣科技等公司近期走勢強勁,拉出了多個漲停板。
目前,大數據市場中的商業(yè)機會主要有三大方向:一是提供“硬件+軟件+數據”的整體解決方案,它以平臺性為特征,提供基礎服務,這個市場主要競爭者有國外的IBM、微軟、惠普、EMC等,國內的有曙光、浪潮、華為、聯想等。
二是掌握豐富大數據資源的互聯網公司,國外以Google、Facebook、Amazon為代表,國內以阿里巴巴、百度和騰訊等為代表,這些公司掌握海量用戶數據,通過數據挖掘形成產品和服務,如精準營銷和個性化廣告推介,同時也提供“數據租借”服務,為其他公司提供決策輔助。
“這個兩個方向并非競爭關系,而是合作關系。因為兩者是大數據產業(yè)鏈上的不同分工,前者負責后端平臺,是系統供應商,而后者則負責前端的應用?!?曙光公司總裁歷軍告訴《中國經濟周刊》。
三是會出現一大批分工細致的第三方大數據公司,他們雖然沒有第一類公司的硬件優(yōu)勢,也不具第二類公司的數據資源優(yōu)勢,但憑借某些細分領域的技術優(yōu)勢和專業(yè)性,也會在產業(yè)鏈中爭到一杯羹,如專注電子政務和智慧城市的拓爾思就是例子。
行行都愛大數據
杰夫·哈默巴赫(Jeff Hammerbacher)是一位哈佛數學天才,2006年,他離開華爾街投行貝爾斯登(Bear Steams)加入Facebook,成為Facebook最早搭建數據分析模型的人。通過對海量用戶數據分析挖掘,他完成了Facebook CEO扎克伯格交給他的使命:弄清楚用戶點擊廣告的動機和方式,這也為Facebook打開了高速盈利的閥門。
2008年,杰夫離開Facebook開始自己創(chuàng)業(yè)。談到原因,他說了一句非常著名的話:“我們這一代人中最聰明的那些都在想著怎么讓更多人點擊廣告,這簡直糟糕透了?!爆F在,杰夫的公司正在幫助醫(yī)生們找出“癌癥患者都有哪些共同基因”,以提示有類似基因的人提前預防和治療。
《大數據時代》作者維克托·邁爾·舍恩伯格向《中國經濟周刊》介紹說,“蘋果教父”史蒂夫·喬布斯的癌癥實際上非常嚴重,但他比其他得癌癥的人活得時間長,就是因為喬布斯有DNA排序的信息,這使得他有定制化、個體化的專門服務的治療。
確實,如果我們把大數據的價值僅僅理解為可以更精準地向用戶推送廣告就太為狹隘了。
舍恩伯格告訴《中國經濟周刊》,小到“以最合適價格和時機購買衣服”,大到“重要的經濟決策中如何提高經濟效益”,大數據都會告訴你如何做。
“與人腦總是喜歡問‘為什么’相比,大數據會直接告訴你‘是什么’?!鄙岫鞑衽e例說,冬天,人們總是被告知要記得戴帽子和手套,否則就會著涼,這是人腦的思維。但大數據分析會告訴你,著涼可能是病毒的問題,跟戴不戴手套和帽子沒有很直接關系。再如,到餐館吃飯,第二天生病了,人腦的思維馬上會用可能吃壞了東西這樣的理由來解釋,但從數據統計學角度,生病還有可能與有細菌的手握手導致的。“如果有了大數據,就可以讓腦子慢下來,不用去推測原因,直接回答結果?!?/p>
舍恩伯格再以谷歌翻譯舉例:谷歌依靠互聯網做統計方面的工作,并耗資了數十億,推出谷歌翻譯。“谷歌不需要知道為什么一個詞要翻譯成另外的詞,它只知道翻譯什么?!?/p>
大數據的滲透力極強,從本質上講,各行各業(yè)都已經在數據化了,比如電信業(yè)正在變成電信數據業(yè),金融業(yè)變成金融數據業(yè),醫(yī)療業(yè)也變成醫(yī)療數據業(yè)……這也就意味著,大數據挖掘將成為各行各業(yè)的必dOcYS/gkRgu/ewhqKS49WT60Y/ZO3D5T+5fOdXNa+cQ=修課。
根據全球最具權威的IT研究與咨詢公司Gartner統計,2012年大數據帶動了全球280億美元的IT支出,2013年帶動的規(guī)模有望增至340億美元,到2016年全球在大數據上的總花費將達到2320億美元。
“中國一線的大型城市,僅僅健康檔案的數據,一年就有5PB之多;一個智慧城市的數據一個季度就是200PB之多,這在過去很難想象。這些數據如果是無序的就是垃圾。我們需要把這堆垃圾變得井井有條,從中去尋找金礦?!睔v軍說。
“2012年底,中國共計發(fā)行了37億張卡,是全球的第一大發(fā)卡國家,每天大概有500億~600億交易通過600萬張銀行卡交易,這是一個非常龐大的數據量?!敝袊y聯副總裁柴洪峰告訴《中國經濟周刊》,對于銀聯來說,這些數據已經在變成非常重要的資產,而提升大數據處理的能力將會成為銀聯,甚至整個國家的核心競爭力。
全國農信銀資金清算中心運行保障部總經理王永剛告訴《中國經濟周刊》:“阿里金融的小額貸款幾個小時就發(fā)放,而我們作為一個全力支持小微企業(yè)和個人金融服務的農村金融機構,最快也得7到10天。他們靠的是什么?就是利用開放平臺的渠道的優(yōu)勢,還有一個就是數據挖掘的競爭性。他們大大降低了這種信貸、增信的成本和效率。我們銀行不缺數據,但缺少把數據轉為智慧,沒有充分挖掘數據的商業(yè)價值。”
“10年前我們還只是溫飽社會,但今天已步入小康社會,未來大數據會有怎么樣的發(fā)展,可能會突破我們的想象。比如,現在正在發(fā)展的移動支付,就需要我們和運營商的數據合作才能為用戶提供更好的服務。未來,醫(yī)療、教育、養(yǎng)老服務都有可能因為大數據而得到升級和改善。”柴洪峰說。
狂歡下的隱憂
今年6月,30歲的愛德華·斯諾登(Edward Snowden)一個人幾乎攪動了整個世界,這位美國防務承包商雇員、前CIA特工因為曝光了美國的“棱鏡”計劃而成為全球媒體的焦點。原來,美國國家安全局多年來一直通過直接接入蘋果、微軟、谷歌、雅虎等九大互聯網公司的中心服務器,獲取大量用戶的郵件、聊天記錄、視頻及登錄信息,中國內地和香港從2009年開始也在監(jiān)控之列。
盡管美國政府稱已經有“數十起”可能的恐怖攻擊因為“棱鏡”而流產,但是這件事還是激起了全球大討論:國家安全和個人隱私的微妙邊界在哪里?而今年的“3·15”,央視等媒體也針對許多互聯網公司通過Cookies“竊取”用戶信息的行為進行了曝光,同樣引發(fā)了大數據收集和分享與個人隱私保護之間的爭論。不少業(yè)內人士憂慮,這會成為大數據產業(yè)發(fā)展的巨大障礙。
大數據畢竟是新興事物,相關的政策法規(guī)即使在美國也離完善差距甚遠。倪光南認為:“我國大數據產業(yè)也同樣面臨著人才匱乏、數據開放程度較低、相關法律法規(guī)不完善等問題。”
“大數據有可能是大機會、大發(fā)展、大創(chuàng)新,也可能是大危機、大破壞、大淘汰。云計算和大數據將注定帶來一次革命?!睔v軍說。
就像在電影《點球成金》中,希望通過數據化思考代替經驗思考的棒球隊總經理所面臨的最大困難并不是數據分析技術難題和資金投入,而是整個團隊的不認同,因為經驗豐富的教練和自認為慧眼識珠的球探,不認為一個數學天才可以用電腦代替他們多年修煉得來的經驗和直覺。在我們的政府決策和商業(yè)判斷中也是如此,能不能轉變觀念,才是大數據能否發(fā)揮實效的關鍵。
“如果一個公司有數據,但沒有數據的文化,它是很難開展讓更多人用數據的,所以大數據實際是一種態(tài)度?!卑⒗锇桶图瘓F數據委員會首任會長車品覺告訴《中國經濟周刊》。
目前在中國,“大數據”尚未直接以專有名詞被國家提出。但是,工業(yè)和信息化部發(fā)布的物聯網“十二五”規(guī)劃中,把信息處理技術作為四項關鍵技術創(chuàng)新工程之一提出來,其中包括海量數據存儲、數據挖掘、圖像視頻智能分析,這都是“大數據”的重要組成部分。不過,已經有機構倡議將大數據像美國一樣上升為國家戰(zhàn)略。
“中國的云計算和大數據產業(yè)是國內信息產業(yè)最有可能實現彎道超車的產業(yè),我們的數據資源極為豐富,技術研究上我們已經實現了緊跟國際前沿,國內已有一些企業(yè)抓住這個機遇,擴展業(yè)務,進行轉型,希望他們能實現跨越式發(fā)展?!蹦吖饽险f,但他也表示最大的瓶頸還在于“應用相對滯后”,但他相信發(fā)展前景會非常廣闊。
(本刊記者李勇對本文亦有貢獻)