亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)思維離我們有多遠(yuǎn)?

2014-04-29 00:00:00TimHarford

銷售與管理 2014年7期

大數(shù)據(jù)是一個(gè)含糊不明確的詞，用來(lái)形容一種大規(guī)?，F(xiàn)象，這種現(xiàn)象目前已經(jīng)迅速成為企業(yè)家、科學(xué)家、政府以及媒體追尋的焦點(diǎn)。

大數(shù)據(jù)令人矚目

5年前，谷歌的一個(gè)研究團(tuán)隊(duì)在世界上最著名的科學(xué)期刊《自然》雜志上發(fā)布了一項(xiàng)令人矚目的研究成果。不需要任何醫(yī)療檢驗(yàn)結(jié)果，該小組竟能夠追蹤到當(dāng)時(shí)擴(kuò)散在全美的流感趨勢(shì)，而且追蹤速度甚至比美國(guó)疾病控制中心（CDC）要快得多。谷歌的追蹤只比流感的爆發(fā)晚了一天，而CDC卻花了一周甚至更多時(shí)間，來(lái)匯總一張流感傳播趨勢(shì)圖。顯然，谷歌的速度更快，因?yàn)樗ㄟ^(guò)尋找“在線搜索”和搜索“人是否患有流感”二者之間的相關(guān)性和規(guī)律，成功追蹤到流感傳播的趨勢(shì)。

谷歌流感趨勢(shì)不僅快速、準(zhǔn)確、成本低，而且不需要任何理論支持。谷歌的工程師們沒(méi)心思去開(kāi)發(fā)一套假設(shè)理論來(lái)追究什么樣的詞條（“流感癥狀”或者“離我最近的藥店”）可能和疾病本身的存在的關(guān)鍵詞，而是谷歌團(tuán)隊(duì)挑出了5000萬(wàn)條最靠前的詞條，然后讓搜索法則自行運(yùn)算，得出的結(jié)果。

谷歌流感趨勢(shì)成為了商業(yè)界、技術(shù)界、科學(xué)界具有代表意義的成功案例：“大數(shù)據(jù)”。接來(lái)下記者們就會(huì)激動(dòng)的問(wèn)道：科學(xué)界是否也可以向谷歌學(xué)習(xí)呢？

正如許多流行語(yǔ)一樣，“大數(shù)據(jù)”是一個(gè)含糊不明確的詞語(yǔ)，經(jīng)常被那些手里有什么要推銷的人信手拈來(lái)又隨手拋去。有人會(huì)特別提到數(shù)據(jù)組的規(guī)模，例如Large Hadron Collider的電腦，一年能夠儲(chǔ)存15千兆字節(jié)，基本相當(dāng)于你最喜歡的音樂(lè)播放1500年留下的數(shù)據(jù)。

吸引了眾多公司注意力的“大數(shù)據(jù)”實(shí)際上可以被我們稱作“尋獲的數(shù)據(jù)”，其發(fā)生在網(wǎng)絡(luò)搜索、信用卡支付、手機(jī)感應(yīng)到最近的電話信號(hào)平臺(tái)。谷歌流感趨勢(shì)是建立在已經(jīng)被尋獲的數(shù)據(jù)上的，就是這種信息吸引我們來(lái)到這里。這樣的數(shù)據(jù)組可以更龐大，甚至大過(guò)LHC的數(shù)據(jù)——Facebook。值得注意的是，相對(duì)于這些龐大的規(guī)模，這些數(shù)據(jù)的收集實(shí)際上很便宜。數(shù)據(jù)點(diǎn)的隨意拼貼，收集起來(lái)用于不同的目的，同時(shí)可以實(shí)時(shí)更新。現(xiàn)代社會(huì)隨著我們的溝通、休閑和商務(wù)活動(dòng)都轉(zhuǎn)移到網(wǎng)絡(luò)上，網(wǎng)絡(luò)則漸漸遷徙至移動(dòng)網(wǎng)絡(luò)，生活在以一種10年前難以想象的方式，被記錄和被量化。

大數(shù)據(jù)的擁護(hù)者們得出了以下四個(gè)結(jié)論，而每一條都存在于“谷歌流感趨勢(shì)”的成功案例中：

1.數(shù)據(jù)分析產(chǎn)生了驚人的準(zhǔn)確結(jié)果；

2.每一個(gè)數(shù)據(jù)點(diǎn)都可以被捕捉，這使得過(guò)去的統(tǒng)計(jì)抽樣技術(shù)顯得十分過(guò)時(shí)；

3.數(shù)據(jù)背后的原因糾結(jié)顯得過(guò)時(shí)，因?yàn)閿?shù)據(jù)的相關(guān)性已經(jīng)告訴了我們需要知道的信息；

4.科學(xué)或數(shù)據(jù)模型是不需要的。

雖然大數(shù)據(jù)向科學(xué)家、企業(yè)家以及政府展現(xiàn)出了那么多光明前景，然而，這四條理論完全是出于最樂(lè)觀最單純的角度，如果我們忽略了一些過(guò)去的經(jīng)驗(yàn)教訓(xùn)的話，它也注定會(huì)讓我們失望。

大數(shù)據(jù)為何讓人失望

在那篇關(guān)于谷歌流感趨勢(shì)預(yù)測(cè)的文章發(fā)表4年以后，新的一期《自然雜志消息》報(bào)道了一則壞消息：在最近的一次流感爆發(fā)中谷歌流感趨勢(shì)不起作用了。過(guò)去幾年冬天，“谷歌流感趨勢(shì)”信心滿滿地提供了一系列迅速準(zhǔn)確的流感爆發(fā)情況統(tǒng)計(jì)信息。但是不知從何時(shí)開(kāi)始，這項(xiàng)無(wú)理論依據(jù)，使得數(shù)據(jù)基礎(chǔ)豐富的模型漸漸失去它對(duì)流感的靈敏嗅覺(jué)。在谷歌的模型數(shù)據(jù)中顯示將有一場(chǎng)嚴(yán)重的流感爆發(fā)，但當(dāng)疾病防治中心最終將慢得不著邊際但依舊準(zhǔn)確可靠的數(shù)據(jù)送達(dá)時(shí)，這些數(shù)據(jù)表明谷歌對(duì)流感疾病傳播情況的預(yù)測(cè)夸大了近兩倍。

問(wèn)題是谷歌不知道，甚至根本無(wú)法知道是什么原因?qū)⑺阉髟~條和流感的傳播聯(lián)系在一起。谷歌的工程師也并沒(méi)有試圖去搞清楚背后的原因，他們只是簡(jiǎn)單地尋找數(shù)據(jù)中的規(guī)律。比起前因后果，他們更在乎數(shù)據(jù)之間的相關(guān)性。這種情況在大數(shù)據(jù)分析中相當(dāng)常見(jiàn)。

搞清楚前因后果很困難（幾乎是不可能的，有人這么說(shuō)），但是搞清楚哪些數(shù)據(jù)是相互關(guān)聯(lián)的則顯得成本更低更容易。

這就是為什么V i k t o r M a y e rSch？nberger和Kenneth Cukier會(huì)在他們的著作《大數(shù)據(jù)》中寫(xiě)道，“在大數(shù)據(jù)分析中針對(duì)因果關(guān)系的探究不會(huì)被丟棄，但是它正漸漸撤出數(shù)據(jù)研究的主要基石地位”。

一項(xiàng)沒(méi)有理論支持而只著重于數(shù)據(jù)相關(guān)性的分析必然是脆弱且站不住腳的。如果你不明白表象相關(guān)性背后的事情，那么你就不會(huì)知道什么原因會(huì)導(dǎo)致那種相互關(guān)聯(lián)性的破裂。谷歌流感趨勢(shì)之所以失敗的解釋可能是，2012年12月的新聞里總是充滿了聳人聽(tīng)聞的故事，而這些故事激發(fā)了那些健康人群的在線搜索的興趣。另一個(gè)可能性解釋就是，谷歌自身的搜索法朝令夕改，當(dāng)人們輸入信息時(shí)，系統(tǒng)會(huì)自動(dòng)提示診斷信息。

統(tǒng)計(jì)學(xué)家們?cè)谶^(guò)去200年里一直致力于弄清楚是什么阻擋了我們單純地通過(guò)數(shù)據(jù)來(lái)理解這個(gè)世界？雖然當(dāng)前世界中數(shù)據(jù)的量更大，傳播速度更快，但是我們不能假裝過(guò)去那些陷阱都已經(jīng)安全處理了，因?yàn)槭聦?shí)上他們并沒(méi)有消失。

1936年，共和黨人Alfred Landon參加和總統(tǒng)Franklin Delano Roosevelt一起的總統(tǒng)競(jìng)選，一家備受尊重的知名雜志《文學(xué)文摘》肩負(fù)起了大選結(jié)果的預(yù)測(cè)責(zé)任。雜志社發(fā)起了一次郵政民調(diào)活動(dòng)，目的在于將測(cè)驗(yàn)送達(dá)1000萬(wàn)人民手中，這個(gè)數(shù)字接近了真實(shí)選民數(shù)的1/4。回復(fù)如洪水般涌來(lái)，讓人難以想象。雜志社也很享受這種大范圍的任務(wù)。在8月末期，報(bào)道說(shuō)，“下周，這1000萬(wàn)名選票中的第一批人將開(kāi)始經(jīng)歷候選人的第一輪，進(jìn)行三次檢驗(yàn)，核實(shí)，五次交叉分類和匯總。”

在統(tǒng)計(jì)了兩個(gè)月內(nèi)收回的數(shù)量驚人的 240萬(wàn)張選票后，《文學(xué)文摘》雜志最終發(fā)布其調(diào)查結(jié)果：蘭登將以55%對(duì)41%令人信服地贏得大選，其中有少數(shù)投票傾向于第三方候選人。

但是競(jìng)選最終卻呈現(xiàn)出非常不同的結(jié)果：羅斯福以61%對(duì)37%的絕對(duì)優(yōu)勢(shì)大勝蘭登。讓《文學(xué)文摘》雜志更加郁悶的是，由民意調(diào)查先驅(qū)人物George Gallup實(shí)施的一個(gè)小范圍的調(diào)查得出的結(jié)果卻和最終投票結(jié)果非常接近，成功預(yù)測(cè)了羅斯福將輕松獲勝。由此可見(jiàn)，Gallup先生理解了《文學(xué)文摘》雜志社所不能理解的一些事：當(dāng)談到數(shù)據(jù)時(shí)，規(guī)模不代表一切。

大體上來(lái)說(shuō)，民意測(cè)驗(yàn)建立在投票人群的取樣基礎(chǔ)上。這就意味著，民意測(cè)驗(yàn)專家通常需要解決兩件事：取樣錯(cuò)誤和樣本偏差。

樣品錯(cuò)誤反應(yīng)了通過(guò)偶然的方式選擇樣本帶來(lái)的風(fēng)險(xiǎn)，一個(gè)隨機(jī)選擇的民調(diào)樣本并不能反應(yīng)人們的真實(shí)觀點(diǎn)，而民意測(cè)驗(yàn)中體現(xiàn)出來(lái)的“誤差幅度”也體現(xiàn)了這種風(fēng)險(xiǎn)。樣本越大，誤差幅度越小。一千個(gè)受訪者的樣本數(shù)據(jù)已經(jīng)足夠成為很多調(diào)查目的的樣本，Gallup先生的民意測(cè)驗(yàn)據(jù)說(shuō)采納了3000個(gè)受訪者樣本。

如果說(shuō)3000個(gè)受訪者樣本帶來(lái)的調(diào)查結(jié)果是對(duì)的，那么為什么240萬(wàn)個(gè)樣本卻沒(méi)有呈現(xiàn)更正確的結(jié)果呢？

答案是，取樣錯(cuò)誤會(huì)常常會(huì)伴隨著一個(gè)更危險(xiǎn)的因素：樣本偏差。取樣錯(cuò)誤是因?yàn)闃颖镜碾S機(jī)選擇會(huì)導(dǎo)致該選擇樣本無(wú)法反映民眾的根本意圖；而樣本偏差則是樣本的選擇未經(jīng)過(guò)篩選，而隨機(jī)的選擇。George Gallup不辭辛勞地尋到找了一個(gè)無(wú)偏差的樣本，因?yàn)樗酪粋€(gè)無(wú)偏差的樣本遠(yuǎn)遠(yuǎn)比一個(gè)數(shù)量龐大的樣本來(lái)得重要。

相反，一直致力于尋找龐大數(shù)據(jù)樣本的《文學(xué)文摘》卻忽略了可能產(chǎn)生的樣本偏差問(wèn)題。一方面，它直接將調(diào)查表格寄給從汽車登記簿和電話本上獲得的人員名單，而這種方式獲得的樣本，至少在1936年，在體現(xiàn)真實(shí)民意方面是比例失調(diào)的。另一方面，為了緩解問(wèn)題的嚴(yán)重性，蘭登的支持者們樂(lè)意于將自己的答案寄回。這兩個(gè)偏差因素結(jié)合在一起，使得這次《文學(xué)文摘》的民意測(cè)驗(yàn)泡湯。

大數(shù)據(jù)又一次讓《文學(xué)文摘》面臨危機(jī)。因?yàn)槭占降臄?shù)據(jù)組是那么凌亂，即使想要搞清楚數(shù)據(jù)中潛伏著偏差因素也是非常困難。此外，也因?yàn)檫@些數(shù)據(jù)實(shí)在太龐大，一些數(shù)據(jù)分析師似乎認(rèn)為取樣問(wèn)題根本不值得擔(dān)心。

《大數(shù)據(jù)》一書(shū)的合著者，牛津大學(xué)網(wǎng)絡(luò)學(xué)院的Viktor Mayer-Schonberger教授告訴我，他所傾向的大數(shù)據(jù)組的定義是：N=All，大數(shù)據(jù)前提下無(wú)需取樣，我們已擁有具備所有背景的人群。當(dāng)N=All，就說(shuō)明的確不存在取樣偏差，因?yàn)闃颖局邪怂腥恕?/p>

但是N=All是不是對(duì)大多數(shù)尋獲數(shù)據(jù)的最佳描述？也許不是?！耙粋€(gè)人能夠擁有所有數(shù)據(jù)，我對(duì)此表示懷疑”，計(jì)算機(jī)科學(xué)家及英國(guó)倫敦大學(xué)學(xué)院數(shù)據(jù)統(tǒng)計(jì)學(xué)教授Patrick Wolfe這么說(shuō)道。

Twitter就是其中的一個(gè)例子。原則上，通過(guò)記錄和分析Twitter上的每一條信息，并通過(guò)分析結(jié)果來(lái)判斷公眾輿情是有可能的。（事實(shí)上，大多數(shù)研究人員都在使用那些大數(shù)據(jù)中的一部分）但是當(dāng)我們可以看到所有Twitter信息，使用者從整體來(lái)看并不具備全體民眾的代表性。

《數(shù)字常識(shí)》一書(shū)的作者及數(shù)據(jù)分析師Kaiser Fung提醒我們不能簡(jiǎn)單地認(rèn)為我們已經(jīng)將所有重要因素考慮在內(nèi)了，他說(shuō)，“N=All，很多時(shí)候只是一個(gè)針對(duì)數(shù)據(jù)的假設(shè)，而不是事實(shí)?！?/p>

大數(shù)據(jù)思維尚未形成

面對(duì)大數(shù)據(jù)，我們必須經(jīng)常提出這樣一個(gè)疑問(wèn)：當(dāng)面對(duì)一大堆雜亂無(wú)章的數(shù)據(jù)信息時(shí)更應(yīng)該理清頭緒。

看看波士頓當(dāng)?shù)匮邪l(fā)的一款智能手機(jī)APP Street Bump，該程序通過(guò)手機(jī)的加速度傳感器來(lái)探測(cè)路面上的凹坑，而不需要城市工人通過(guò)街面巡查來(lái)發(fā)現(xiàn)凹坑。隨著波士頓市民紛紛下載該款A(yù)PP并且開(kāi)著車四處轉(zhuǎn)悠，他們的手機(jī)自動(dòng)提示市政廳是否需要對(duì)城市街道表面進(jìn)行修復(fù)工作。在這個(gè)過(guò)程，通過(guò)技術(shù)解決難題，創(chuàng)造出了信息量龐大的“數(shù)據(jù)排放”，而排放出的這些數(shù)據(jù)正好又以一種不可思議的方式解決問(wèn)題，這在幾年前是難以想象的。波士頓市非常驕傲的宣稱，“數(shù)據(jù)為這座城市提供了實(shí)時(shí)的信息監(jiān)控，而這些信息又可以用來(lái)解決城市問(wèn)題和規(guī)劃城市的長(zhǎng)期投資項(xiàng)目?！?/p>

但是Street Bump程序?qū)嶋H產(chǎn)生的是一張路面凹坑的城市分布圖，這些圖更多是系統(tǒng)地分布于年輕富裕的地區(qū)，因?yàn)樵谶@些地區(qū)會(huì)有更多人擁有智能手機(jī)。Street Bump這款程序給我們提供了一個(gè)N=All的情況，也就是說(shuō)每一部手機(jī)探測(cè)到的每一個(gè)路面凹坑都能被記錄下來(lái)。這和記錄每一個(gè)路面凹坑的情況是不一樣的。微軟的研究院Kate Crawford提出，尋獲數(shù)據(jù)中包含著系統(tǒng)的偏差，需要非常仔細(xì)的思考才能發(fā)現(xiàn)和糾正。大數(shù)據(jù)組看起來(lái)具有全面綜合型，但是N=All常常造成一個(gè)相當(dāng)有迷惑性的錯(cuò)覺(jué)。

極少有案例對(duì)于大批量數(shù)據(jù)的分析最終帶來(lái)奇跡的。劍橋大學(xué)的D a v i d Spiegelhalter談到了谷歌翻譯軟件，該軟件是在分析數(shù)以億計(jì)的已翻譯作品中，尋找其中可以復(fù)制的翻譯服務(wù)。這就是計(jì)算機(jī)科學(xué)家們稱為“機(jī)器學(xué)習(xí)能力”的一個(gè)典型例子，這種“學(xué)習(xí)能力”可以讓谷歌翻譯軟件呈現(xiàn)讓人難以置信的處理結(jié)果，而不需要預(yù)先編入任何語(yǔ)法規(guī)則。谷歌翻譯就是接近于無(wú)理論支撐的，完全由數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)運(yùn)算黑盒子?！斑@是一項(xiàng)了不起的成就?！盨piegelhalter說(shuō)，因?yàn)檫@項(xiàng)成就是建立在對(duì)大數(shù)據(jù)的明智處理的基礎(chǔ)之上。

但是大數(shù)據(jù)無(wú)法解決那些糾纏了統(tǒng)計(jì)學(xué)家和科學(xué)家們幾個(gè)世紀(jì)的問(wèn)題：洞察力，情況判斷，以及如何進(jìn)行正確干預(yù)，從而改善系統(tǒng)。

通過(guò)大數(shù)據(jù)得到這樣的答案需要統(tǒng)計(jì)學(xué)發(fā)展的大步邁進(jìn)。

“現(xiàn)在我們仿佛又回到了西大荒時(shí)代，” 倫敦大學(xué)學(xué)院的Patrick Wolfe說(shuō)，“聰明上進(jìn)的人會(huì)輾轉(zhuǎn)反側(cè)，會(huì)想盡方法利用每一種工具從這些數(shù)據(jù)中獲取有利的價(jià)值，但是我們?cè)诂F(xiàn)在有點(diǎn)盲目沖動(dòng)。”

統(tǒng)計(jì)學(xué)家們正在竭力研究新的方法來(lái)抓住大數(shù)據(jù)中蘊(yùn)藏的秘密。這樣的新方法非常關(guān)鍵，但是需立足于過(guò)去古老的統(tǒng)計(jì)理論基礎(chǔ)之上，這樣新方法才能起作用。

回顧大數(shù)據(jù)的四個(gè)信條，如果我們忽略了主動(dòng)的錯(cuò)誤訊息，那么很容易高估那些讓人覺(jué)得不可思議的高準(zhǔn)確性?！皵?shù)據(jù)中的因果關(guān)系已經(jīng)漸漸撤出作為數(shù)據(jù)研究基礎(chǔ)的基石地位”，如果有人這么宣稱，那么沒(méi)有關(guān)系，前提是我們是在一個(gè)穩(wěn)定的環(huán)境中進(jìn)行數(shù)據(jù)預(yù)測(cè)。但是如果世界正處于一個(gè)巨變的環(huán)境下（例如正經(jīng)歷流感的傳播）或者如果我們自身希望對(duì)現(xiàn)實(shí)世界做些改變，那就不能這么說(shuō)了?！耙?yàn)镹=All，取樣偏差不重要”，這種想法在大多數(shù)案例中都不成立。

大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)，但是大數(shù)據(jù)思維尚未形成?，F(xiàn)在的挑戰(zhàn)在于解決新的問(wèn)題，獲得新的答案，但是前提是不要在更大范圍內(nèi)犯過(guò)去的統(tǒng)計(jì)錯(cuò)誤。

銷售與管理2014年7期

銷售與管理的其它文章: 自平衡自行車; 讓網(wǎng)絡(luò)利益更多人; 戰(zhàn)勝經(jīng)濟(jì)黑暗時(shí)期的火炬; 中國(guó)“夠好即可”市場(chǎng)制勝之道; 企業(yè)該不該“做大”？; 華為為何久久不上市