賀琴川
大數據也有大麻煩
我們身處于這樣一個數據爆炸的時代,尤其是最近這些年來我們生產的數據量和分析量都在激增。據統(tǒng)計分析,過去的30年里,每兩年,世界上的數據量就增加了約10倍——這一比率甚至使得摩爾定律都相形見絀。而現在世界上90%的數據是在過去兩年里創(chuàng)造出來的。對于數據分析來說,這是偉大的,現在的我們得到了比人類歷史上任何時候都要多得多的數據供我們分析和操縱。很了不起不是嗎?但是這就代表著我們可以高枕無憂地隨意使用這些數據了嗎?
在大數據時代,人們越來越傾向于“用數據說話”。由數據驅動的決策被認為是一種明智的做法,但數據的真實性又會很大程度上影響決策的正確與否。因為數據是有偏見的,或者說人類收集和分析數據時是有偏見的。數據并不是越多越好,魚龍混雜的結果就是可能讓我們更加難以接近真相。
在許多分析算法中,篩選信息起著非常重要的作用。如果沒有篩選,我們可能會經歷“無用輸入/無用輸出”的情形。但是篩選的依據是什么?是以數量決定權重嗎?毋庸置疑,肯定是越近期的事件可參考的數據越多,如果將此定為高權重的部分,那么我們很容易得到一個不太準確的結論,因為我們拋棄了那些因為年代久遠而被認為是低權重的重要事實。
最新的就一定更好?
喜新厭舊似乎是我們每個人的天性,我們對他人或是事件的最新認知往往會在做判斷時占據主要的地位。比如兩個本來很要好的朋友,小A一直很照顧小B。小A最近因為其他事情上的不順而好幾次把氣撒在小B身上。小B也很是生氣,覺得小A根本就沒把自己當朋友,兩人關系破裂,形同陌路。為何只是小小的幾次不和就會對一段親密關系造成如此之大的殺傷力?原因在于我們對近期發(fā)生的事情的印象過于深刻,反而忽略了以往存在的事實。
如果世界上90%的數據都是最近兩年里創(chuàng)造出來的,那么我們的數據就存在固有的“近因偏差”。這種認知偏差讓人們傾向于認為,我們在近期觀察到的趨勢和模式將在未來繼續(xù)存在。因此人們會增加對近期所發(fā)生的事件的重視,并假設這些模式會與即將要發(fā)生的事情有直接的聯系,并以此作為制定決策的關鍵。
比如,你所居住的城市最近幾年的夏天都溫度較低,你就認為當地的氣候在變冷,但很可能明年氣溫就回升了;你看到這支股票近期的勢頭很好,一直在上漲,你可能會預測它會一直這樣無限期地持續(xù)下去,而這顯然也是不太可能的;尤其是,在中國,房價已經連續(xù)上漲了幾十年,幾乎已經沒人相信中國房價未來會跌了。
雖然歷史會重演,但近期的表現并不能直接表明未來的成功或失敗。因此,重要的是,不要給一個信息不成比例的關注。當我們給我們的大數據系統(tǒng)塞進大量過多的近期數據時,數據分析將會被近因效應極大地扭曲,很有可能你因此得出的預測結論還不如你擲硬幣來得可靠些。
如果想做出明智的決策,不僅要學會降低對近期表現的關注度,還要對以往的表現考慮得多一些。僅僅通過是六個月或一年的表現去分析可能并不扎實,如果不懂得從更遙遠的過去收集更多的信息數據,反過來,就會誤導自己做出草率的決定,成為目光短淺之人。
學會刪除數據更為重要
當然,最新的數據不一定是最好的,以往的老數據也同樣不等于就是絕對有用的。關鍵是在時間的錘煉過程中,學會刪除有缺陷和無效的數據。
比如你是一個喜歡拍照的人,時間久了你的手機相冊里會存有很多張照片。假設你手機的存儲空間是固定的,那么你就必須定期清理那些照片。你需要想想哪些是值得你留下來作為以后會回顧的相片,而哪些是你將來看都不會再看一眼的。如果你為了省事,只留下新照片,直接把那些老照片都刪除了,你可能會刪除許多珍貴的值得留念的照片,反而留下了一些無意義的照片。
在這個大數據的背景下,我們所擁有的數據集合,比以往的任何時刻對我們的研究所產生的影響都要大。而數據的科學性越弱,數據規(guī)模和數據的質量就越可能呈現負相關,此時時間本身就成為更加重要的過濾工具。我們如果不仔細選擇過去保存下來的有價值、有意義的事物,它們就會被迅速膨脹的信息洪流悄無聲息地吞沒掉。
因此,如果我們正在大數據中尋找一些可以告訴我們未來將會是如何發(fā)展的依據,我們需要知道當前的數據中什么是重要的,我們需要沖洗掉那些不重要的東西。新鮮的事物更能吸引我們的眼球,但卻不一定重要,我們需要克服這一點。
我們常用的搜索工具的算法基本上還是偏向于新鮮事物的,越近期發(fā)生的越排得靠前,越容易被我們所看到。而那些以往的舊聞,很可能點擊進去后已經變成了失效的網址。也許我們應該考慮設計一個智能程序,使得信息系統(tǒng)能夠變通,懂得忽略不重要但卻是最近產生的信息。
大數據時代機遇與挑戰(zhàn)并存,我們要善于利用我們所擁有的數據,應該懂得只分析那些有意義的數據,以質為主而不是以數取勝。數據只會如滾雪球一般越來越大,懂得主動選擇放棄哪些事情,與選擇做何事同樣重要。