大數(shù)據(jù),無疑是今年IT業(yè)內(nèi)最熱的詞。廠商熱推,媒體熱炒。不談大數(shù)據(jù),不推大數(shù)據(jù),不用大數(shù)據(jù),仿佛就沒有了未來。
“大數(shù)據(jù)熱”源于2010年哈佛大學(xué)教授維克托·舍恩伯格的專著《大數(shù)據(jù)時代:生活、工作與思維的大變革》。他在書中斷言:大數(shù)據(jù)時代最大的轉(zhuǎn)變就是,放棄對因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系。也就是說只要知道“是什么”,而不需要知道“為什么”。
大數(shù)據(jù)在3年的實踐中,人們對它的認知不斷深化。時至今日,我們終于見到了對大數(shù)據(jù)最為嚴肅和理性的質(zhì)疑。這些嚴肅而非炒作性質(zhì)的質(zhì)疑總體上來自理論和實踐兩個層面。
在理論層面,最為專業(yè)的質(zhì)疑來自analyticbridge網(wǎng)站,由 Vincent Granville于今年5月發(fā)表的文章《The curse of big data(大數(shù)據(jù)的詛咒)》。這篇文章發(fā)表之后被廣為轉(zhuǎn)載和引用。
《大數(shù)據(jù)的詛咒》一文從數(shù)據(jù)分析專業(yè)的角度,以數(shù)理統(tǒng)計的理論論證了大數(shù)據(jù)“放棄因果關(guān)系”的謬誤。
所謂“大數(shù)據(jù)的詛咒”是指,當人們試圖在有數(shù)十億甚至數(shù)十萬億個數(shù)據(jù)點,而且包含數(shù)以千計指標的非常大量的數(shù)據(jù)集中尋找一些模式時,一定會發(fā)現(xiàn)一些用處的巧合事件。理論上,當樣本數(shù)量過大(變量因子超過1000個),就會在數(shù)據(jù)集中發(fā)現(xiàn)數(shù)量眾多的“統(tǒng)計上顯著”而非“因果上顯著”的關(guān)系。在數(shù)據(jù)分析上,“因果上顯著”為信號,而“統(tǒng)計上顯著”為噪音。所以通俗地講,“大數(shù)據(jù)的詛咒”是指,噪音必然會將信號淹沒。
大數(shù)據(jù)鼓吹者喜歡引用的“啤酒與尿布”案例,并非出自大數(shù)據(jù)的分析。按照《大數(shù)據(jù)的詛咒》說的,如果運用大數(shù)據(jù),一定會得出N多個類似于“啤酒與尿布”的量化關(guān)系,從而把“啤酒與尿布”(信號)淹沒在數(shù)量龐大的噪音中,而不能發(fā)現(xiàn)“啤酒與尿布”的因果關(guān)系。當今所有關(guān)于大數(shù)據(jù)的技術(shù)與方案,無一能自動揭示因果關(guān)系。
在實踐層面,《黑天鵝:如何應(yīng)對不可知的未來》一書的作者,商業(yè)思想家納西姆·塔勒布指出,隨著我們掌握的數(shù)據(jù)越來越多,可以發(fā)現(xiàn)的統(tǒng)計上顯著的相關(guān)關(guān)系也就越來越多。這些相關(guān)關(guān)系中,有很多都是沒有實際意義的,在真正解決問題時很可能將人引入歧途。這種欺騙性會隨著數(shù)據(jù)的增多而指數(shù)級地增長。在這個龐大的“干草垛”里,要找的那根針則被越埋越深。
大數(shù)據(jù)應(yīng)用的鼻祖之一是生命科學(xué)中的基因?qū)W。科學(xué)家曾熱衷于對整個基因排序,然后剖析其中的相關(guān)性,這種沒有盡頭的“盤前審問”導(dǎo)致種種無用的結(jié)果發(fā)生,科學(xué)家們一頭霧水,至今在基因大數(shù)據(jù)分析中一無所獲。
北大教授劉德寰以自已翔實的實驗數(shù)據(jù)證明,巨量數(shù)據(jù)集和細顆粒度的測量會導(dǎo)致出現(xiàn)“錯誤發(fā)現(xiàn)”的風(fēng)險增加。那種認為“假設(shè)、檢驗、驗證的科學(xué)方法已經(jīng)過時”的論調(diào),正是大數(shù)據(jù)時代的混亂與迷茫。
Christopher Mims最近發(fā)表文章稱,以 Facebook 為例,工程師交給集群處理的大多數(shù)任務(wù)也只是 MB—GB 級的,這意味著用筆記本就能處理了。Yahoo交給集群處理的任務(wù)規(guī)模平均是 12.5GB。這個規(guī)模對于任何服務(wù)器都沒有問題。大數(shù)據(jù)不是革命,小數(shù)據(jù)才是革命。格里格·孟德爾僅靠一本筆記本的數(shù)據(jù)就發(fā)現(xiàn)了基因遺傳的秘密。重要的是收集合適的數(shù)據(jù),而不是隨便收集。
大數(shù)據(jù),原來是個大忽悠。W
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。 大數(shù)據(jù)的4V特點是:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實)。