陳一帆/編譯
戈登·摩爾(Gordon Moore,上圖)有一個(gè)新的信念,他認(rèn)為大數(shù)據(jù)終將造就大科學(xué)。戈登-貝蒂·摩爾基金會計(jì)劃對15位科學(xué)家給予150萬美元的津貼(每年20萬美元至30萬美元分期發(fā)放)?;饡@15位科學(xué)家的期望是有能力對新算法、機(jī)器學(xué)習(xí)的方法,以及其他數(shù)據(jù)密集型科學(xué)技巧進(jìn)行跨學(xué)科的開發(fā)和使用,能把巨大數(shù)據(jù)量變成驚人的科學(xué)發(fā)現(xiàn)。根據(jù)基金會的說法,這“可能是對那些推動數(shù)據(jù)驅(qū)動以及用統(tǒng)計(jì)和計(jì)算機(jī)科學(xué)等多學(xué)科交叉的新方法,研究自然科學(xué)前沿的科學(xué)家的最大私人投資了”。
摩爾的基金會似乎認(rèn)為,現(xiàn)如今已經(jīng)有足夠多的數(shù)據(jù)了,或者正在產(chǎn)生足夠多的數(shù)據(jù),這些數(shù)據(jù)足以取得重大的發(fā)現(xiàn)。所以他們覺得,這筆新注入的津貼不應(yīng)用于構(gòu)建大型設(shè)備或運(yùn)行實(shí)驗(yàn)獲得新的數(shù)據(jù)組,而是應(yīng)該花費(fèi)在新的分析方式的研究上。
基金會的想法可能是正確的。像美國的“腦計(jì)劃”這樣的大項(xiàng)目或是歐洲的大型強(qiáng)子對撞機(jī)這樣的大儀器已經(jīng)生成了超出科學(xué)家可以運(yùn)用的更多數(shù)據(jù)。最能說明問題的例子就是在遺傳學(xué)里,基因組測序的成本下降了如此之多,下降得如此之快,而分析的進(jìn)度卻遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)的生成,所謂科學(xué)被淹沒在了大數(shù)據(jù)里。
海量數(shù)據(jù)泛濫問題在十年前已經(jīng)很明顯了。那時(shí)網(wǎng)絡(luò)先鋒John Hopfield就告訴《IEEE綜覽》,他已經(jīng)感覺到了盡管科學(xué)家們追求新數(shù)據(jù)是解決問題相對簡單的方式,但深入探究現(xiàn)有數(shù)據(jù)的內(nèi)在信息才會避免數(shù)據(jù)泛濫的問題。他向神經(jīng)網(wǎng)絡(luò)的愛好者們發(fā)起了挑戰(zhàn),他和一個(gè)同事聯(lián)合起來,只用一個(gè)小數(shù)據(jù)集去弄清楚虛擬鼠標(biāo)的作業(yè)區(qū)(事實(shí)上是一個(gè)模擬神經(jīng)元的集合)。雖然比賽是贏了,但這也不能消減人們對單純收集更多數(shù)據(jù)的熱情。
當(dāng)然有趣新鮮的科學(xué)數(shù)據(jù)源也是非常重要的,而且這些數(shù)據(jù)的生成甚至可能不需要先進(jìn)的新儀器。所謂公眾科學(xué),也就是我們普通人作為環(huán)境、地理空間、醫(yī)療的傳感器,或遠(yuǎn)程科研設(shè)備的訪問終端,它已經(jīng)發(fā)展了許多年。公眾科學(xué)也造就了一些了不起的成果,比如做出日本福島核泄漏事故后輻射地圖這樣的的事情。
但摩爾對那些善于采集大量數(shù)據(jù)的科學(xué)家慷慨資助也可能是非常有益的事,他們甚至能夠促生比收集器期望還要多的數(shù)據(jù)。數(shù)據(jù)密集型科學(xué)總有其生存之道。此外,《哈佛商業(yè)評論》認(rèn)為數(shù)據(jù)科學(xué)家們是性感的,所以獲得基金會資助的科學(xué)家們將會兼具性感和財(cái)富。