亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)如何產(chǎn)生虛假的信心

        2016-08-05 02:34:29費(fèi)文緒編譯
        世界科學(xué) 2016年7期
        關(guān)鍵詞:流感研究

        費(fèi)文緒/編譯

        ?

        大數(shù)據(jù)如何產(chǎn)生虛假的信心

        費(fèi)文緒/編譯

        ● 如果我聲稱(chēng)美國(guó)人最近變得更加以自我為中心,你可能會(huì)把我視為一個(gè)愛(ài)發(fā)牢騷愛(ài)懷舊的倔老頭,但是如果我說(shuō)通過(guò)分析1 500億個(gè)文本詞匯,我能支持這個(gè)斷言,你又會(huì)怎么看我呢?請(qǐng)看卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)博士研究生杰西·杜尼艾茨(Jesse Dunietz)的分析。

        幾十年前,這種規(guī)模的證據(jù)只是一個(gè)白日夢(mèng)。而現(xiàn)在,1 500億個(gè)數(shù)據(jù)點(diǎn)實(shí)際上已經(jīng)過(guò)時(shí)了。一股對(duì)“大數(shù)據(jù)”分析的熱潮席卷了生物學(xué)、語(yǔ)言學(xué)、金融學(xué)以及它們之間的每個(gè)領(lǐng)域。

        盡管對(duì)于如何定義“大數(shù)據(jù)”尚未達(dá)成完全的共識(shí),不過(guò)一般的觀點(diǎn)認(rèn)為,數(shù)據(jù)集龐大,以致能揭示傳統(tǒng)數(shù)據(jù)查詢(xún)見(jiàn)不到的模式,這就是大數(shù)據(jù)。數(shù)據(jù)通常由數(shù)百萬(wàn)現(xiàn)實(shí)世界中的用戶(hù)行為產(chǎn)生,比如Twitter文章或信用卡購(gòu)買(mǎi)記錄,需要利用成千上萬(wàn)臺(tái)計(jì)算機(jī)收集、儲(chǔ)存和分析這些大數(shù)據(jù)。不過(guò),對(duì)很多公司和研究者而言,對(duì)大數(shù)據(jù)的投入是值得的,因?yàn)槠淠J侥芷谱g關(guān)于任何事物的信息——從遺傳病到明天的股票價(jià)格。

        但是有一個(gè)問(wèn)題:人們想當(dāng)然地以為擁有如此海量的數(shù)據(jù)作為支撐、依賴(lài)于大數(shù)據(jù)的研究不會(huì)出錯(cuò)。但是,數(shù)據(jù)量的巨大可能會(huì)為研究結(jié)果灌注一種虛假的確定性。很多基于大數(shù)據(jù)的研究很可能是虛假的——而其中的原因應(yīng)該讓我們對(duì)任何盲目相信大數(shù)據(jù)的研究有所質(zhì)疑。

        在語(yǔ)言和文化研究方面,大數(shù)據(jù)于2011年大大露臉,當(dāng)時(shí)谷歌推出全球書(shū)籍詞頻統(tǒng)計(jì)工具Ngrams。在《科學(xué)》雜志上大張旗鼓地發(fā)布后,Google Ngrams允許用戶(hù)在谷歌圖書(shū)數(shù)據(jù)庫(kù)中檢索短語(yǔ) (谷歌掃描的圖書(shū)數(shù)量大約占到現(xiàn)代印刷術(shù)發(fā)明以來(lái)人類(lèi)已出版圖書(shū)總量的4%),然后看看這些短語(yǔ)出現(xiàn)的頻率是如何隨著時(shí)間變化的。這篇論文的作者們預(yù)示了“文化組學(xué)”(culturomics)的問(wèn)世——這是一種基于大量數(shù)據(jù)的文化研究,從那以后,Google Ngrams很大程度上成為了娛樂(lè)的無(wú)盡源泉,同時(shí)也成為語(yǔ)言學(xué)家、心理學(xué)家和社會(huì)學(xué)家的金礦。他們遍覽數(shù)百萬(wàn)冊(cè)書(shū)籍,最終得出一個(gè)研究結(jié)論,比如說(shuō),美國(guó)人確實(shí)變得越來(lái)越個(gè)人主義,“我們年復(fù)一年越來(lái)越快地忘記我們的過(guò)去,道德理想正從我們的文化自覺(jué)中消失。”

        問(wèn)題開(kāi)始于Ngrams語(yǔ)料庫(kù)建立的方式。去年10月發(fā)表的一項(xiàng)研究中,佛蒙特大學(xué)的三位研究者指出,總體而言,谷歌書(shū)籍?dāng)?shù)據(jù)庫(kù)(Google Books)包括了每本書(shū)的一個(gè)副本。這對(duì)它創(chuàng)建的初衷而言非常有意義,那就是把這些書(shū)的內(nèi)容暴露于谷歌強(qiáng)大的搜索技術(shù)。但是,從社會(huì)學(xué)研究的角度而言,這使得語(yǔ)料庫(kù)被危險(xiǎn)地歪曲了。

        更逃避不了的事實(shí)是,Ngrams并不是正在出版書(shū)籍的一致而均衡的切片。同樣是佛蒙特大學(xué)的上述研究表明,在書(shū)籍結(jié)構(gòu)的變化中,尤為突出的是從20世紀(jì)60年代開(kāi)始科學(xué)文章的顯著增長(zhǎng)。所有這些因素都讓我們很難相信,谷歌Ngrams準(zhǔn)確反映出詞匯的文化流行度隨著時(shí)間的變化。

        即便你不考慮數(shù)據(jù)來(lái)源,在解釋上仍然存在很多棘手的問(wèn)題。的確,像“character”(性格)和“dignity”(尊嚴(yán))這樣的詞匯出現(xiàn)的頻率隨著時(shí)間在降低,但是這就意味著人們對(duì)道德的關(guān)注減少了嗎?不會(huì)這么快減少的,伊利諾伊大學(xué)厄巴納-香檳分校的英語(yǔ)教授泰德·安德伍德(Ted Underwood)提醒研究者下結(jié)論要慎重。20世紀(jì)末的道德概念很可能與我們現(xiàn)在的道德概念有很大的不同,他指出,“尊嚴(yán)”這個(gè)詞可能出于并非道德方面的原因而流行。所以,我們通過(guò)把現(xiàn)有的聯(lián)系映射到過(guò)去所得出的任何結(jié)論都是可疑的。

        當(dāng)然,所有這些問(wèn)題對(duì)于統(tǒng)計(jì)學(xué)家和語(yǔ)言學(xué)家而言,都算不上新鮮事。他們天天跟數(shù)據(jù)和解釋打交道,就像每天吃的面包和黃油,不過(guò),谷歌Ngrams的不同之處在于,純粹的數(shù)據(jù)會(huì)產(chǎn)生一種誘惑,讓我們變得盲目,可能會(huì)讓我們誤入歧途。

        這種數(shù)據(jù)的誘惑并不是Ngrams研究所獨(dú)有的,類(lèi)似的錯(cuò)誤也會(huì)損害所有類(lèi)型的大數(shù)據(jù)研究項(xiàng)目。比如,我們看看谷歌流感趨勢(shì)(GFT)的案例。2008年發(fā)布的GFT研究在數(shù)以百萬(wàn)計(jì)的谷歌搜索查詢(xún)中,統(tǒng)計(jì)了諸如“發(fā)燒”和“咳嗽”這樣的詞匯出現(xiàn)的頻度,用它們來(lái)映射到現(xiàn)在有多少人得了流感。如果采信GFT研究的估計(jì),可能在疾病控制中心 (CDC)從醫(yī)生的報(bào)告中計(jì)算出真實(shí)數(shù)據(jù)之前兩周,公共衛(wèi)生官員們就會(huì)采取行動(dòng)。

        最初,GFT研究結(jié)果聲稱(chēng)具有97%的準(zhǔn)確度,但是一項(xiàng)對(duì)美國(guó)東北大學(xué)文獻(xiàn)的研究表明,GFT研究的準(zhǔn)確度不過(guò)是僥幸。首先,GFT研究完全忽視了2009年春季和夏季爆發(fā)的“豬流感”。(原來(lái)GFT研究大部分預(yù)測(cè)的是冬季流感。)其次,該研究體系開(kāi)始高估了流感案例。實(shí)際上,它夸大了2013年流感高峰期的數(shù)據(jù),比真實(shí)數(shù)據(jù)夸大了驚人的140%。最后,谷歌只好整體解散GFT研究項(xiàng)目。

        那么,到底是哪里出錯(cuò)了呢?對(duì)于Ngrams,人們并沒(méi)有認(rèn)真考慮其數(shù)據(jù)來(lái)源和解釋。數(shù)據(jù)來(lái)源——谷歌搜索,并不是一個(gè)靜態(tài)的野獸。當(dāng)谷歌開(kāi)始自動(dòng)完成查詢(xún),用戶(hù)就開(kāi)始接受建議的關(guān)鍵詞,而扭曲了GFT研究看到的搜索。在解釋方面,GFT研究的工程師們最初讓GFT采用了表面價(jià)值的數(shù)據(jù),幾乎任何搜索詞都被視為一個(gè)潛在的流感指示詞。采用數(shù)以百萬(wàn)計(jì)的搜索詞,實(shí)際上保證了GFT過(guò)度解釋了具有季節(jié)性的詞匯,比如“雪”,將其視為流感證據(jù)。

        我們正在失去希望:上圖是“希望”(hope)這個(gè)詞的Ngrams詞頻統(tǒng)計(jì)圖,這是xkcd網(wǎng)絡(luò)漫畫(huà)的創(chuàng)作者蘭德?tīng)枴らT(mén)羅(Randall Munroe)發(fā)現(xiàn)的很多有趣的情節(jié)之一。如果Ngrams真的反映了我們的文化,那么我們將走向一個(gè)黑暗的地方

        但是當(dāng)人們不把大數(shù)據(jù)視為萬(wàn)能藥時(shí),大數(shù)據(jù)就可能起到變革作用。有幾個(gè)研究團(tuán)隊(duì),比如哥倫比亞大學(xué)杰弗里·沙曼(Jeffrey Shaman)研究團(tuán)隊(duì),通過(guò)利用疾病控制中心的研究結(jié)果彌補(bǔ)GFT研究的偏差,得到了比兩者都更為準(zhǔn)確的流感預(yù)測(cè)。據(jù)CDC說(shuō),“沙曼的研究團(tuán)隊(duì)對(duì)該季節(jié)中已經(jīng)發(fā)生的實(shí)際的流感疫情測(cè)試了他們的模型?!蓖ㄟ^(guò)把剛剛發(fā)生的流感疫情考慮在內(nèi),沙曼及其研究團(tuán)隊(duì)精密調(diào)校了他們的數(shù)學(xué)模型,以更好地預(yù)測(cè)未來(lái)的流感疫情。研究團(tuán)隊(duì)們所需做的就是嚴(yán)格評(píng)估他們對(duì)數(shù)據(jù)的假設(shè)。

        為了避免我看起來(lái)像是谷歌的冤家對(duì)頭,我會(huì)趕緊補(bǔ)充說(shuō),谷歌遠(yuǎn)不是唯一的罪魁禍?zhǔn)?。我的妻子是一個(gè)經(jīng)濟(jì)學(xué)家,過(guò)去曾為一家公司工作,那家公司搜刮整個(gè)互聯(lián)網(wǎng)上的招聘信息,然后匯總成統(tǒng)計(jì)數(shù)據(jù)報(bào)告給國(guó)家勞動(dòng)機(jī)構(gòu)。這家公司的經(jīng)理們鼓吹說(shuō)他們分析了美國(guó)80%的工作,但是再一次,數(shù)據(jù)的數(shù)量讓他們變得盲目而誤入歧途。例如,當(dāng)?shù)氐奈譅柆敵锌赡軙?huì)發(fā)布一個(gè)與銷(xiāo)售相關(guān)的職位招聘信息,而實(shí)際上它可能想要招聘10個(gè)人,或是在招到人以后,讓招聘信息依然掛在網(wǎng)上數(shù)周不拿下來(lái)。

        所以,與其屈服于“大數(shù)據(jù)的狂妄自大”,剩下的我們還不如保持質(zhì)疑態(tài)度,即便有人拿出數(shù)十億的詞頻分析作為結(jié)論支撐。

        [資料來(lái)源:Nautilus][責(zé)任編輯:彥 隱]

        猜你喜歡
        流感研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        冬春流感高發(fā) 加強(qiáng)防治最重要
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        秋季謹(jǐn)防牛流感
        與流感作戰(zhàn)
        豬流感病的預(yù)防與治療
        久久久精品国产免费看| 久久国产精品波多野结衣av| 一本到无码AV专区无码| 91色婷婷成人精品亚洲| 亚洲成a人一区二区三区久久| 久久久久亚洲精品男人的天堂| 极品新婚夜少妇真紧| 国产在线高清视频| 久久成人黄色免费网站| 亚洲第一女人的天堂av| 日本成本人片免费网站| 香蕉久久人人97超碰caoproen | 日韩精品一区二区三区中文9| 日本刺激视频一区二区| 精品一区二区三区免费视频| 日本三级欧美三级人妇视频| 精品少妇一区一区三区| 香蕉蜜桃av一区二区三区| 久久精品国产亚洲超碰av| 小宝极品内射国产在线| 欧美精品AⅤ在线视频| 亚洲国产精品成人一区二区三区| 美腿丝袜诱惑一区二区| 国产又爽又粗又猛的视频| 无码毛片高潮一级一免费| 福利视频在线一区二区三区| 日韩内射美女片在线观看网站| 亚洲美免无码中文字幕在线| 99精品视频69v精品视频免费| 成年人视频在线观看麻豆| 国产精品538一区二区在线| 亚洲av区无码字幕中文色| 激情五月婷婷久久综合| 开心五月激情五月五月天| 国产精品无码一区二区在线看| 精品国产看高清国产毛片| 丝袜美女美腿一区二区| 久久精品一区午夜视频| 国产高清一区二区三区视频 | 少妇高潮尖叫黑人激情在线| 亚洲午夜看片无码|