科技進(jìn)步的方式正在發(fā)生根本性變革。微軟研究院副總裁托尼·海博士認(rèn)為,在大數(shù)據(jù)時代,數(shù)據(jù)密集型科學(xué)如今已經(jīng)與理論科學(xué)、實驗科學(xué)和計算科學(xué)比肩,共同成為一種根本的研究范式,這為產(chǎn)業(yè)界、學(xué)術(shù)界和政府機(jī)構(gòu)之間開展合作帶來了新機(jī)遇。
數(shù)據(jù)洪流
由于研究方法的轉(zhuǎn)變以及多種快速發(fā)展的技術(shù)相互融合,科技進(jìn)步的方式正在發(fā)生根本性變革。
首先,科學(xué)數(shù)據(jù)體量十分龐大,今后20年還會繼續(xù)增加。媒體頻繁使用“數(shù)據(jù)洪流”來描述數(shù)據(jù)的急劇增長,而且這種現(xiàn)象不僅出現(xiàn)在科學(xué)領(lǐng)域,同樣也出現(xiàn)在社交媒體、商業(yè)和金融領(lǐng)域。計算模型受到更多應(yīng)用,各種網(wǎng)絡(luò)廣泛可用,數(shù)據(jù)傳感器商品化,這些都是科學(xué)數(shù)據(jù)的規(guī)模超出過去想象的關(guān)鍵因素。
其次,一些科學(xué)數(shù)據(jù)在生成并經(jīng)過分析后,需要存儲、管理、注解、歸檔和共享。過去研究人員歷來在本地存儲數(shù)據(jù)。這種方式不僅不可靠,難以持久,并且隨著科學(xué)研究日益全球化和跨學(xué)科化,其有效性也日漸降低。研究人員日益需要使用彼此的數(shù)據(jù),追求研究成果的可重復(fù)性,并通過將分散的多學(xué)科數(shù)據(jù)集加以綜合來增加科研價值。因此,有必要提供新的數(shù)據(jù)存儲、共享、獲取和管理服務(wù),而這將超出研究人員在本地創(chuàng)建和維護(hù)數(shù)據(jù)的能力范圍。
第三,科學(xué)數(shù)據(jù)的數(shù)量與可用性對先進(jìn)分析方法產(chǎn)生了迫切需求。面對龐大的數(shù)據(jù)集,研究人員將需要強(qiáng)大的數(shù)據(jù)可視化引擎、復(fù)雜的系統(tǒng)建模工具和前沿的機(jī)器學(xué)習(xí)算法。在這方面研究人員同樣會感受到本地計算機(jī)系統(tǒng)分析能力的局限性。
管理大數(shù)據(jù)
創(chuàng)建云計算是為了應(yīng)對互聯(lián)網(wǎng)帶來的大數(shù)據(jù)挑戰(zhàn)。為了支持全球范圍的互聯(lián)網(wǎng)搜索、電子商務(wù)、社交網(wǎng)絡(luò)和電子郵件,一些公司不得不建起龐大的云數(shù)據(jù)中心網(wǎng)絡(luò)。每個云數(shù)據(jù)中心都包含數(shù)十萬個服務(wù)器,它們使用計算機(jī)可視化等先進(jìn)的管理技術(shù)向數(shù)百萬并發(fā)用戶提供24小時應(yīng)需服務(wù)。由于這些中心匯總的是海量數(shù)據(jù),它們也成了海量數(shù)據(jù)的分析基地。由于受大公司和初創(chuàng)公司的需求推動,以“現(xiàn)用現(xiàn)付”方式訪問云數(shù)據(jù)中心的市場應(yīng)運而生,并快速增長。
研究人員發(fā)現(xiàn),云計算資源能夠高效地滿足科學(xué)數(shù)據(jù)分析的某些新興計算需求。通過云計算,研究人員能訪問更多的處理器,使用更多的存儲空間,操作常用的科學(xué)應(yīng)用軟件,而無需購置、安裝或維護(hù)這些系統(tǒng)。通過這種方式,科學(xué)家能夠成本有效地存儲、共享和訪問大型數(shù)據(jù)集,而在此之前,這些數(shù)據(jù)集可能是孤立地存儲在本地主機(jī)中。
云計算也有一些較大的局限性。例如,超級計算機(jī)對于計算科學(xué)仍將至關(guān)重要,云數(shù)據(jù)中心無法取而代之?;ヂ?lián)網(wǎng)架構(gòu)和局域網(wǎng)的容量將繼續(xù)制約龐大數(shù)據(jù)集的流動,使某些數(shù)據(jù)的本地化存儲更加實際,也更加成本有效。
多學(xué)科合作
對于數(shù)據(jù)密集型研究而言,隨著科研界對云計算的使用向前發(fā)展,產(chǎn)業(yè)界、學(xué)術(shù)界和政府之間的合作方式和機(jī)制將同技術(shù)一樣重要。
學(xué)術(shù)研究人員將繼續(xù)作為領(lǐng)域?qū)<叶鴵?dān)當(dāng)獨特的角色,他們要實施數(shù)據(jù)創(chuàng)建和采集技術(shù),建立復(fù)雜的仿真和系統(tǒng)模型,部署各種傳感器網(wǎng)絡(luò),并對產(chǎn)生的數(shù)據(jù)進(jìn)行分類和分析。不過,在數(shù)據(jù)共享和多學(xué)科研究合作這些優(yōu)勢的推動下,研究人員將需要花費更多時間來制定并遵守數(shù)據(jù)共享標(biāo)準(zhǔn)。
由于受到商業(yè)需求和機(jī)遇的推動,云計算技術(shù)行業(yè)正在大力擴(kuò)建基礎(chǔ)設(shè)施,并確定能夠維持云計算發(fā)展的經(jīng)濟(jì)模式和商業(yè)模式。未來20年,產(chǎn)業(yè)界很可能是大部分大規(guī)模云計算資源的主要業(yè)主和運營商。產(chǎn)業(yè)界將需要尋找與學(xué)術(shù)界合作的合適贏利機(jī)制,而這些機(jī)制可能根本不同于商業(yè)部門所使用的機(jī)制。
政府科研管理機(jī)構(gòu)將繼續(xù)擔(dān)當(dāng)資助者和政策制訂者的獨特角色。在云計算時代,合作研究和多學(xué)科研究將日益普遍,政府機(jī)構(gòu)需要更加積極地開展協(xié)調(diào),制訂數(shù)據(jù)標(biāo)準(zhǔn),倡導(dǎo)公共元數(shù)據(jù),確保廣泛、公平存取,推動公共資助的研究成果向公眾開放。
云計算模式
云計算通常有三種模式:一是“基礎(chǔ)架構(gòu)即服務(wù)”模式,程序員對虛擬機(jī)操作系統(tǒng)的配置有全部的訪問權(quán)限;二是“平臺即服務(wù)”模式,提供更高級的編程模型和數(shù)據(jù)庫服務(wù);三是“軟件即服務(wù)”模式,用戶能夠訪問全部軟件服務(wù)。這三種模式都能很好地應(yīng)用于數(shù)據(jù)密集型科學(xué)。
一類新出現(xiàn)的科學(xué)家將著眼于“研究即服務(wù)”的模式來發(fā)揮云計算的優(yōu)勢。隨著科學(xué)家們創(chuàng)建高度定制化的應(yīng)用程序來開展各學(xué)科獨有的深入研究,有些科學(xué)家將會選擇通過云計算提供研究服務(wù)和咨詢服務(wù),以此作為一種業(yè)務(wù)。例如,擅長地球科學(xué)數(shù)據(jù)整合與分析的研究人員或許能找到愿意補(bǔ)貼數(shù)據(jù)存儲和服務(wù)成本的商業(yè)客戶。這類新服務(wù)有可能建立一種有助于持續(xù)收集數(shù)據(jù)的市場經(jīng)濟(jì)。
總之,數(shù)據(jù)密集型科學(xué)已經(jīng)興起,而不斷成熟的云計算服務(wù)框架將為處理數(shù)據(jù)的研究人員提供重要能力。通過對云計算的開發(fā)與采用,產(chǎn)業(yè)界、學(xué)術(shù)界和政府將在科學(xué)家采用云計算資源方面發(fā)揮各自獨特且相互倚重的重要作用。