大數(shù)據(jù)的核心就是預(yù)測,它把數(shù)學(xué)算法運用到海量的數(shù)據(jù)上來,預(yù)測人們的行為模式以及事件發(fā)生的可能性。通過大數(shù)據(jù)分析,當(dāng)當(dāng)網(wǎng)可以幫我們推薦想要的書,百度可以為關(guān)聯(lián)網(wǎng)站排序,微信可以猜出我們認(rèn)識誰。當(dāng)然,同樣的技術(shù)也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。大數(shù)據(jù)已經(jīng)成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)。
《紙牌屋》成功的秘密
《紙牌屋》是2013年美國最火的電視連續(xù)劇之一。它雖然有大牌導(dǎo)演加大牌演員的豪華陣容,但是在尋找投資時卻遇上了難題。以往電視劇的主創(chuàng)者都會至少做出一兩集的樣片,以提供投資依據(jù),但這次,他們除了提供一個劇名外,沒提供一點樣片,結(jié)果沒有一家電視臺敢冒風(fēng)險投資。
這時,一家公司卻作出一個驚人的決定,它不僅向這部電視劇投資一億美元(幾乎是美國一般電視劇價錢的兩倍),而且史無前例地作出了要拍足兩季的承諾。更驚人的是,這家公司既不是電視臺,也不是電影公司,而是一家類似于中國的土豆或優(yōu)酷這樣的在線視頻播放網(wǎng)站——奈飛(Netflix)。
令電視業(yè)巨頭們困惑的是,影視投資向來充滿風(fēng)險,收視率、票房的可預(yù)測性一直很低,而奈飛只是一個普通的視頻播放網(wǎng)站,既沒有拍攝經(jīng)驗,也不能很好地為影片的質(zhì)量把關(guān),它為何敢于在不看樣片的情況下進(jìn)行如此大筆的投資呢?
其實奈飛和傳統(tǒng)電視業(yè)的關(guān)注點并無不同,都是看電視劇的內(nèi)容能否引起觀眾的共鳴。只不過,傳統(tǒng)方式是通過看樣片來決定,而奈飛依賴的是該網(wǎng)站3000萬名用戶的收看習(xí)慣和偏好所組成的龐大的數(shù)據(jù)群。
用戶只要登錄奈飛的網(wǎng)站,對某一個視頻的每一次點擊、播放、暫停、快進(jìn)、回放,看了幾分鐘就關(guān)掉視頻,或者停了一段時間又重新打開,這些“事件”都被奈飛記錄下來并進(jìn)行匯總分析。奈飛每天有700名工程師對用戶3000萬次的播放動作、400萬次的評級、300萬次的搜索進(jìn)行縝密的數(shù)學(xué)計算,對視頻觀看時間以及所使用的設(shè)備進(jìn)行分析挖掘,并以此策劃節(jié)目。
奈飛或許并不能準(zhǔn)確知道每名用戶點擊暫停按鈕的個人原因,但如果有足夠多的人在整段視頻中的同一個地方做了相同的舉動,那么數(shù)據(jù)分析就開始顯出意義了。通過挖掘數(shù)據(jù),奈飛不僅知道用戶星期天晚上比星期一下午更愛看恐怖片,也能知道用戶更喜歡用平板電腦觀看視頻,以及哪些地方的人更喜歡在星期天下午用平板電腦觀看。奈飛甚至能夠記錄哪些用戶在一集節(jié)目結(jié)束演職員表開始滾動時就關(guān)閉了視頻。結(jié)果就是,奈飛比觀眾自身還要清楚他們的觀影喜好。
《紙牌屋》并非個案,時至今日,數(shù)據(jù)已經(jīng)像洪流一樣在全球的政治、經(jīng)濟(jì)生活中奔騰,很多政府部門、企業(yè)都已經(jīng)在嘗試用大數(shù)據(jù)來進(jìn)行決策和管理。2012年1月瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇的一份報告指出,大數(shù)據(jù)的價值堪比石油或黃金。
數(shù)據(jù)讓行為更有針對性
沃爾瑪擁有世界上數(shù)一數(shù)二的數(shù)據(jù)倉庫,也是最早應(yīng)用數(shù)據(jù)挖掘技術(shù)的企業(yè)之一。在一次例行的數(shù)據(jù)分析之后,研究人員發(fā)現(xiàn):跟尿布一起搭配購買最多的商品竟是啤酒。尿布和啤酒聽起來風(fēng)馬牛不相及,這種關(guān)聯(lián)性著實令人費解。經(jīng)過跟蹤調(diào)查,研究人員終于發(fā)現(xiàn)了這種聯(lián)系背后的原因:一些年輕的爸爸經(jīng)常要到超市去購買嬰兒尿布,有30%~40%的爸爸會順便買點啤酒犒勞自己。沃爾瑪隨后對啤酒和尿布進(jìn)行了捆綁銷售,不出意料,銷售量雙雙增加。
有些公司在做數(shù)據(jù)挖掘時還發(fā)現(xiàn),聽過羅大佑現(xiàn)場演唱會的人,對上海大眾某款汽車的興趣度比其他人高出30%。經(jīng)過分析,這款汽車的受眾是35歲左右,希望提高生活品質(zhì)的居家型男性,這和羅大佑演唱會的受眾非常一致。
谷歌有一個名為“谷歌流感趨勢”的工具,它可以通過跟蹤搜索詞來判斷全美地區(qū)的流感情況。如果諸如溫度計、流感癥狀、胸悶等關(guān)鍵詞出現(xiàn)的搜索頻率很高,谷歌系統(tǒng)就會進(jìn)行跟蹤分析,創(chuàng)建地區(qū)流感地圖。其結(jié)果與美國疾病防控中心的報告大體一致。
有了這些分析,商家就可以找到潛在的客戶,根據(jù)他們的特點和喜好制訂有針對性的營銷方案,促進(jìn)交易的完成。
這種方式不僅對于企業(yè)是有效的。2011年7月29日,美國國會為是否提高國家債務(wù)上限進(jìn)行了激烈辯論。奧巴馬一天內(nèi)連續(xù)發(fā)出十多個推特,要求他的粉絲采取行動,向議員施壓。但當(dāng)天晚上,奧巴馬卻發(fā)現(xiàn)自己的推特流失了三萬多名粉絲。經(jīng)過調(diào)查后,奧巴馬發(fā)現(xiàn),原因就在于很多人對這個話題并不感興趣,他們認(rèn)為總統(tǒng)在給他們發(fā)送垃圾信息。2012年奧巴馬宣布再次參選總統(tǒng)后,立即重新改版了他的個人網(wǎng)站,全力提高數(shù)據(jù)分析能力,使其能夠充分了解不同選民的關(guān)注點。
思維的革命
大數(shù)據(jù)時代,我們不僅擁有更多更全的數(shù)據(jù),而且對數(shù)據(jù)本身的理解也發(fā)生了革命性的變化,這一變化顛覆了千百年來人類的思維慣例。
在過去一百多年里,統(tǒng)計學(xué)家一般是采用抽樣分析,用少量數(shù)據(jù)說明問題。因為那時還不具備采集、儲存和處理海量數(shù)據(jù)的手段,是“小數(shù)據(jù)”時代。對“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯誤,保證質(zhì)量。因為收集的信息量比較少,一點細(xì)微的錯誤就有可能影響整個結(jié)果的準(zhǔn)確性。
然而,到了大數(shù)據(jù)時代,隨著數(shù)據(jù)量的大幅增加,一些錯誤的數(shù)據(jù)也會混進(jìn)數(shù)據(jù)庫,這是無法避免的。假設(shè)你要測量一個葡萄園的溫度,如果整個葡萄園只有一個溫度測量儀,那你就必須確保這個測試儀是精確的,而且能夠一直工作。但是,如果每棵葡萄樹都有一個測量儀,我們就沒辦法保證每個測量數(shù)字都是精確的,有些測試的數(shù)據(jù)可能會是錯誤的。不過沒關(guān)系,眾多的讀數(shù)合起來就可以提供一個更加準(zhǔn)確的結(jié)果。
擁有了大數(shù)據(jù),我們不再需要對一個現(xiàn)象刨根問底,只要掌握大體的發(fā)展方向即可。這不僅表現(xiàn)在精確度上,更表現(xiàn)在對因果關(guān)系的理解上。尋找因果關(guān)系是人類長久以來的習(xí)慣,我們常常喜歡問“事情為什么這樣,而不是那樣”,以便對癥下藥。但到了大數(shù)據(jù)時代,追求因果關(guān)系耗費太大,用途卻不大。如果A和B經(jīng)常一起發(fā)生,我們只需要注意到如果B發(fā)生了,就可以預(yù)測A也發(fā)生了,而不必考慮事情發(fā)生的原因。比如,你要經(jīng)過一條經(jīng)常堵車的高速公路,我能告訴你這條路什么時候會堵;當(dāng)你堵在路上時,我會告訴你什么時候會通;但我不會告訴你為什么會這樣,因為我也不知道。
相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。如果電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么,能夠治療的原因就沒有這種治療方法本身來得重要。
(摘自《大科技·百科新說》2013年第9期)