亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)的陷阱

        2015-12-07 01:36:02盧昌海
        中學(xué)語文 2015年17期
        關(guān)鍵詞:陷阱流感文摘

        盧昌海

        大數(shù)據(jù)的陷阱

        盧昌海

        這幾年,大數(shù)據(jù) (bigdata)的“出鏡率”頗高。連帶著,“數(shù)據(jù)科學(xué)家”(datascientist)成為了新的高薪一族。人氣、財氣的提升也帶動了士氣,有人開始高估大數(shù)據(jù)的神通,仿佛只要積累了足夠多的數(shù)據(jù),請“數(shù)據(jù)科學(xué)家”們坐在電腦前——就像福爾摩斯坐在太師椅上——敲一通鍵盤,各種問題就都能迎刃而解了。

        大數(shù)據(jù)真有如此神通嗎?回顧一段小歷史對我們也許不無啟示。

        那是在1936年,美國共和黨人艾爾弗·蘭登(AlfredLandon)與民主黨人富蘭克林·羅斯福(Franklin D.Roosevelt)競選總統(tǒng)。當(dāng)時很有影響力的《文摘》雜志(TheLiterary Digest)決定搞一次超大規(guī)模的民意調(diào)查,調(diào)查人數(shù)高達(dá)1,000萬,約為當(dāng)時選民總數(shù)的1/4,最終收到的回復(fù)約有240萬份,對于民意調(diào)查來說可謂是“大數(shù)據(jù)”——事實上,哪怕在今天,一些全國性民意調(diào)查的調(diào)查對象也只有幾千。通過對這組“大數(shù)據(jù)”的分析,《文摘》雜志預(yù)測蘭登將以55%比41%的顯著優(yōu)勢獲勝。但不久后揭曉的真正結(jié)果卻是羅斯福以61%比37%的優(yōu)勢大勝?!段恼冯s志的“大數(shù)據(jù)”遭到了慘敗。

        當(dāng)然,那是陳年舊事了。240萬份回復(fù)作為民意調(diào)查是超大規(guī)模的,從數(shù)據(jù)角度講,以今天的標(biāo)準(zhǔn)來衡量卻實在小得可憐。不過,今天的“大”在幾十年后也未必不會如昔日的“小”一樣可憐。那段小歷史的真正啟示在于:數(shù)據(jù)已大到了統(tǒng)計誤差可以忽略的地步,結(jié)果卻錯得離譜。這種類型的錯誤對于大數(shù)據(jù)是一種警示。

        現(xiàn)在讓我們回到當(dāng)代。2008年8月,大數(shù)據(jù)“成功偶像”之一的谷歌(Google)公司領(lǐng)銜在《自然》(Nature)雜志上發(fā)表論文,推介了一個如今被稱為 “谷歌流感趨勢”(GoogleFlu Trends)的系統(tǒng)。這一系統(tǒng)能利用互聯(lián)網(wǎng)上有關(guān)流感的搜索的數(shù)量和分布來估計各地區(qū)流感類疾病的患者數(shù)目。谷歌表示,這一系統(tǒng)給出的估計不僅比美國疾病控制與預(yù)防中心(CentersforDiseaseControlandPrevention——簡稱CDC)的數(shù)據(jù)更快速,而且還有“不依賴于理論”(theory-free)的特點。

        但是,這個一度引起轟動的系統(tǒng)經(jīng)過幾年的運行后,卻引人注目地演示了大數(shù)據(jù)可能帶來的陷阱。

        2013年2月,《自然》雜志資深記者巴特勒(DeclanButler)發(fā)表了一篇題為“當(dāng)谷歌弄錯了流感”(When Googlegotfluwrong)的文章,指出“谷歌流感趨勢”對2012年底美國流感類疾病患者數(shù)目的估計比美國疾病控制與預(yù)防中心給出的數(shù)據(jù)高了約一倍。不僅如此,“谷歌流感趨勢”在2008-2009年間對瑞士、德國、比利時等國的流感類疾病患者

        數(shù)目的估計也都失過準(zhǔn)。

        大數(shù)據(jù)在這些例子中為什么會失敗呢?人們很快找到了原因。比如《文摘》雜志對1936年美國總統(tǒng)競選預(yù)測的失敗,是因為該雜志的調(diào)查對象是從汽車注冊資料及電話簿中選取的,而汽車及電話在當(dāng)時的美國尚未普及,使得由此選出的調(diào)查對象缺乏代表性。而谷歌對2012年底美國流感類疾病患者數(shù)目的估計失敗,則是因為媒體對那段時間的美國流感類疾病作了渲染,使得很多非患者也進(jìn)行了有關(guān)流感的搜索,從而干擾了“谷歌流感趨勢”的估計。在統(tǒng)計學(xué)中,這被稱為系統(tǒng)誤差(systematicerror),只要存在這種誤差,數(shù)據(jù)量再大也無濟(jì)于事。

        當(dāng)然,原因一旦找到,對結(jié)果進(jìn)行修正也就不無可能了。比如在有關(guān)流感的搜索中,來自患者的搜索往往隨疫情的爆發(fā)而迅速增加,隨疫情的緩慢結(jié)束而緩慢降低,呈現(xiàn)出前后的不對稱,而媒體渲染引來的非患者的搜索則前后比較對稱。利用這一區(qū)別,原則上可對結(jié)果進(jìn)行校正。

        但另一方面,原因之所以很快找到,是因為失敗已成事實,從而有了明確的分析對象,在千變?nèi)f化的大數(shù)據(jù)分析中要想每次都“先發(fā)制人”地避免失敗卻是極其困難的。比如大數(shù)據(jù)分析對數(shù)據(jù)間的相關(guān)性情有獨鐘,其所津津樂道的“不依賴于理論”的特點卻在很大程度上排斥了對相關(guān)性的價值進(jìn)行甄別——就如知名技術(shù)類刊物《連線》(Wired)雜志的主編安德森(ChrisAnderson)曾經(jīng)宣稱的:“只要有足夠多數(shù)據(jù),數(shù)字自己就能說話”(withenoughdata,thenumbers speakforthemselves)。數(shù)字也許是能說話,但說出的未必都是有價值的話。事實上,未經(jīng)甄別的相關(guān)性可謂處處是陷阱。比如2006-2011年間,美國的犯罪率和微軟IE瀏覽器的市場占有率就明顯相關(guān) (同步下降),但卻是毫無價值的相關(guān)性——這是紐約大學(xué)(NewYorkUniversity)計算機教授戴維斯(ErnestDavis)舉出的例子。在統(tǒng)計學(xué)中,這是所謂“相關(guān)性不蘊含因果性”(correlationdoes notimplycausation)的一個例子。

        無論是系統(tǒng)誤差還是“相關(guān)性不蘊含因果性”,大數(shù)據(jù)的這些陷阱其實都是統(tǒng)計學(xué)家們熟知的。只不過,太急于趕路時,人們有時會忘掉曾經(jīng)走過的路。

        (摘編自盧昌海個人主頁)

        猜你喜歡
        陷阱流感文摘
        IAPA文摘
        冬春流感高發(fā) 加強防治最重要
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        陷阱
        秋季謹(jǐn)防牛流感
        陷阱2
        陷阱1
        豬流感病的預(yù)防與治療
        甜蜜的陷阱
        “流感”來襲等
        日产无人区一线二线三线新版| 日本免费视频一区二区三区| 麻豆69视频在线观看| 国产精品h片在线播放| 曝光无码有码视频专区| 亚洲成a人片在线网站| 日本第一区二区三区视频| 亚洲精品一区二区网站| 欧美黑人又大又粗xxxxx| 欧美日韩视频无码一区二区三| 99热成人精品国产免国语的| 久久综合老鸭窝色综合久久| 一区二区三区人妻av| 狠狠色婷婷久久一区二区三区 | 伦伦影院午夜理论片| 欧美精品一区二区蜜臀亚洲| 男人的天堂在线无码视频| av一区二区三区高清在线看| 国产自拍高清在线观看| 精品国产乱码久久久久久1区2区| jjzz日本护士| av在线不卡一区二区三区| 美女国产毛片a区内射| 无码人妻精一区二区三区| 国产精品综合久久久久久久免费 | 欧美日本日韩aⅴ在线视频| 国产精品一区成人亚洲| 国产剧情av麻豆香蕉精品| 国产无遮挡又爽又刺激的视频老师 | 真人无码作爱免费视频禁hnn| 国产精品美女AV免费观看| 亚洲天堂一区二区三区| 妺妺跟我一起洗澡没忍住| 亚洲精品无码久久久久sm| 亚洲AV无码成人精品区H| 国产成人亚洲一区二区| 亚洲av永久精品爱情岛论坛| 亚洲中文字幕无码久久2018| 亚洲国产成人久久精品美女av| 国产av久久久久精东av| 亚洲成色在线综合网站|