胡泳
大數(shù)據(jù)的中心原則涉及搜尋運營數(shù)據(jù)之間的相關性,這個想法簡單明了。借助廉價的云存儲,我們現(xiàn)在可以收集與各種業(yè)務流程相關的令人眼花繚亂的數(shù)據(jù),從到達公司裝卸碼頭的卡車數(shù)量,到在給定的日期和時間內(nèi)每分鐘處理的訂單量,再到假日周末后的星期一收到的客戶投訴數(shù)量。新的功能強大的處理器和可擴展的數(shù)據(jù)庫使熟練的操作員可以挖掘這些數(shù)據(jù),以尋找數(shù)據(jù)內(nèi)的模式:特別是操作變量之間的相關性。通過發(fā)現(xiàn)這些模式,大數(shù)據(jù)有望暴露出復雜的關系,以解決瓶頸問題,改善日常運營。在理想狀態(tài)下,我們可以認為,數(shù)據(jù)驅動生產(chǎn)力的全新時代由此開始。
問題在于這些相關性常常是虛假的。這使得數(shù)據(jù)專業(yè)人士往往需要揮舞魔杖來確定哪些大數(shù)據(jù)關系是有意義的,而哪些僅僅是巧合。要想解決這個問題,其實可以用一種更簡單的方法來顯示相關性:納入帶有語境的“小數(shù)據(jù)”(small data)。情境意識,也就是上下文,可以使看似復雜的情況變得清晰明了。情境的最簡單示例可能是位置。Google Now就是使用你當前的位置來提供高度相關的搜索建議,例如在步行范圍內(nèi)的商家。其他形式的情境信息還包括人(例如與你一起工作的人)和時間(例如重合的日歷預約)。對企業(yè)推薦引擎最有用途的情境類型之一是主題,比如郵件的信頭信息。了解到一個員工目前最關注的事情,推薦引擎可以建議與這些主題中相關的電子郵件、文檔和商業(yè)交易。很明顯,將電子郵件用作情境的錨定物,可以消除無關內(nèi)容的提示,因為數(shù)據(jù)工具意識到這些無關內(nèi)容與你當前念茲在茲的東西完全不相干。
進行情境計算(contextual computing)所需的四種關鍵數(shù)據(jù)為:社交、興趣、行為和個人。這四方面中有些已經(jīng)相當成熟,而有些在這幾年才開始流行。能自如地掌握并運用這四項數(shù)據(jù)的玩家,將在互聯(lián)網(wǎng)行業(yè)的競爭中占據(jù)極大的優(yōu)勢。社交數(shù)據(jù)顯示了你如何與其他人聯(lián)系以及他們?nèi)绾蜗嗷ヂ?lián)系。它還揭示了這些聯(lián)系的性質(zhì)和情感相關性。在理想的情境計算狀態(tài)下,軟件和服務的輕輕一推就可以將兩個陌生人聯(lián)系到一起,他們同時在同一地點,并且可以相處融洽。然而,如果你對某個人的活動和興趣知之甚少,那么世界上的所有社交數(shù)據(jù)都將毫無用處。而一個人的口味和喜好很大程度上是圍繞著彼此相關的主題組織起來的。它也與同你自己的生活非常相似的個人之間的口味重疊相關。但興趣圖譜無法讀取你的好奇心可能將你引入的新方向。而且,它也做不到根據(jù)你所閱讀的內(nèi)容有效地推薦你喜歡的餐廳或度假勝地。行為是最可以輕松掌握的數(shù)據(jù)。行為數(shù)據(jù)很容易描述你實際所做的事情,而不是你聲稱要做的事情。傳感器可以完成這項工作,自我報告機制也是如此。這些數(shù)據(jù)可以與興趣數(shù)據(jù)兩相對照,從而使計算機能夠(也許比你更好)算出你下一步做什么的可能性。個人則是與一個人的最深層信仰、核心價值觀和個性有關的一組數(shù)據(jù)。它是令一個人在世界上與眾不同的原因,就像社交數(shù)據(jù)有助于顯示一個人與他人相似的原因一樣。鑒于心理學仍然難以準確解釋我們的個人認同如何發(fā)揮作用,因此以可計算的形式記錄此類信息的過程甚為緩慢就不足為奇了。
單獨掌握某一大項的數(shù)據(jù),并不能得出可靠的結論,以及作出完美的情景計算。也因此,對待大數(shù)據(jù)要有正確的態(tài)度。既不要忽視數(shù)據(jù)的價值,也不要把數(shù)據(jù)當成神。