王鑫瑩 朱琳 劉方方
摘 要:繼物聯(lián)網、云計算之后,大數據(Big data)開始引起越來越多的關注,2012年3月29日奧巴馬政府公布“大數據研發(fā)計劃”(Big Data Research and Development Initiative)將“大數據戰(zhàn)略”上升為國家戰(zhàn)略,白宮科技政策委員會還成立了大數據高層指導小組以推動這一戰(zhàn)略規(guī)劃,奧巴馬政府甚至將大數據定義為“未來的新石油”。
關鍵詞:小數據;大數據;企業(yè)數據戰(zhàn)略;數據價值
當今,CIO們都已經接受了“大數據”的概念,雖然小數據的容易會被過濾和忽視,主要是因為目前人們還沒有一個明確概念和定義去解釋小數據。但毋庸置疑的是,如果沒有小數據,往往會使大數據管理充滿陷阱。所以數據管理的正確方式應該是兩者相輔相成。
一、什么是大數據?為什么人人言必稱大數據?
對于大數據有許多定義,其中維基百科的定義是一個最大眾的定義:“大數據,指的是無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數據集合。根據美國麥肯錫公司的預測,大數據每年將會為美國醫(yī)療服務業(yè)帶來3000億美元的潛在增加值,為位置服務產業(yè)帶來6000億美元的潛在年收入,為歐洲的公共管理帶來2500億歐元的潛在價值。此外制造業(yè)可使設備裝配成本降低50%,通過充分利用大數據零售商可以使其運營利潤增長60%。通過經合組織(OECD)的一項最新研究成果以及對互聯(lián)網數據市場價值的估計,更加證明了大數據存在巨大的潛在價值。
二、大數據存在的缺陷
1.大數據只是一種輔助工具。大數據毫無疑問確實是一個非常有價值的工具,并且在某些領域產生了至關重要的影響。但是大數據只是可以輔助科學調查,而不能完全的代替,大數據能告訴我們是什么,但不能告訴我們?yōu)槭裁?。因為雖然大數據能夠非常好地檢測相關性,特別是那些用小數據集可能無法測出的微妙相關性,但是它并不會告訴我們哪一種相關性是有意義的。
2.大數據可能帶來大風險。大數據可以給我們提供更多的信息相關性,但是如果你在兩個變量中不斷地尋找相關性,那么你很可能會純粹出于偶然發(fā)現虛假的相關性,由于缺乏謹慎的檢查,這些大數據的量級會造成一些錯誤的分析結論。正如統(tǒng)計學家馮啟思所說,依賴于網站的大數據收集常常把一些用不同方法、有不同目的數據整合起來,有時候這會產生負面的影響。從這樣的數據樣本得出結論通常是需要冒很大風險的。
3.大數據難以測量人的感受。組織機構總是想了解人們想知道什么,而且在這方面得心應手,但是卻不知道人們的感受。行為經濟學證明:我們依靠偶獲的靈感,直覺和猜測選擇人生的道路。一旦這些靈感被龐大的數字所遮蔽,這便成了一個不能處理的巨大問題。英國《衛(wèi)報》認為大數據削弱了人們的同理心,數字化已經滲透到我們生活的各個方面,我們以這種方式獲得政務服務,管理自己的金錢—甚至我們與朋友交流的方式也越來越依賴數字媒體。感受雖然不能被量化,但是社會、經濟和人道主義精神對數據的產生和使用影響深遠。
4.大數據掩蓋了價值觀念。數據總是依照某人的傾向和價值觀念而被構建出來的,大數據可以把任何事都簡化為數字,并給出聽上去很科學的解釋,而那些看起來很客觀公正的數據分析結果,其實從構建到解讀的整個過程都貫穿了價值的選擇。著名商業(yè)思想家納西姆?塔勒布)曾指出數據會制造出更大的“干草垛”,在這個龐大的“干草垛”中,我們需要找的那根針會被埋的更深。換言之就是那些 “重大”發(fā)現的數量會被數據擴張帶來的噪音而淹沒。
三、如何利用“小數據”決勝大數據時代
1.從小數據流中獲取靈感。面多“大數據”浪潮的沖擊,人們往往認為數據達到一定的規(guī)模才有用,數據的量大但并不意味著全都能用到。小細節(jié)解鎖大問題,所以需要學會去篩選那些具有潛在商業(yè)導向價值的數據,善于從小數據流中獲得靈感,并將其落實為具體行動。
2.提高數據的可信性。大數據側重于廣度,更加強調標準化,其統(tǒng)計結果一般體現出其規(guī)律并預示著未來趨勢?,F階段,大數據時代只是剛剛開啟,大數據分析往往缺乏謹慎的檢查導致人們做出錯誤決策。而小數據側重于深度,貴在挖掘,使人們擺脫了對經驗的依賴,使決策由主觀性走向客觀性從而使數據更加可信。譬如通過收集多元異構的數據來對數據進行分析理解,從而提高數據的可信性,通過歷史數據的對比可以推斷數據的可信性,最終運用數學模型來檢驗數據的可信性。
3.使大數據更加可視化。數據的可視化可能用到虛擬現實的結合或增強現實技術,從可視化的效果可以有助于判斷大數據挖掘的可信性。例如,美國統(tǒng)計參加NBA的球隊的比賽情況,發(fā)現投籃概率與投籃命中率以及投籃位置有一定的規(guī)律,從80年代開始他們就對球員在賽場上的表現數據進行可視化,通過30多年的積累NBA已經可以辨別每一個球員在場上的弱點,方便教練進行針對性戰(zhàn)術安排,到目前為止約有15家NBA球隊俱樂部請了數據分析師,而他們的平均獲勝率高達59.3%,那些沒有進行數據分析的球隊僅有平均40.7%的獲勝率。
總而言之,大數據只是互聯(lián)網發(fā)展到現今階段的一種表象或特征而已,面對社會各界的“大數據”熱,應當冷靜的看到,大數據的核心在于為客戶挖掘數據中蘊藏的價值,大數據體現出規(guī)律,小數據蘊含著智慧。統(tǒng)計學家博可斯(George Box)曾說:所有的模型都是錯的,但有些仍然是有用。相信通過技術創(chuàng)新的不斷發(fā)展,那些原本很難收集使用的數據會越來越容易被充分利用起來了,從而逐步為人類社會創(chuàng)造更多的價值。
參考文獻:
[1][英]維克托·邁爾·舍恩伯格.《大數據時代——生活、工作與思維的大變革》.浙江人民出版社.
[2]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報(工學版).
[3]吳娜,石青輝.大數據背景下的營銷倫理問題研究[J].湖南商學院學報.
[4]郭新平,黃貽俊.淺析大數據時代的小數據[J].現代經濟信息,2014.