胡昭陽/編譯
●為了充分利用迅猛增長的電子數(shù)據(jù),奧巴馬政府于去年3月29日發(fā)出了“大數(shù)據(jù)研究和發(fā)展倡議”,并為之投入2億美元研發(fā)經(jīng)費。
倡議書宣布將發(fā)展從巨量復雜電子數(shù)據(jù)中獲取知識和洞見的能力,幫助美國應對當前的緊迫挑戰(zhàn)。超過2億美元的落實資金來自美國聯(lián)邦政府的6個部門,他們承諾將大力改善從大數(shù)據(jù)中獲取、組織和收集各種新發(fā)現(xiàn)的工具和技術。
據(jù)總統(tǒng)助理、白宮科技政策辦公室(OSTP)主任約翰·P·霍爾德倫(John P.Holdren)博士介紹,“過去聯(lián)邦政府曾用類似的方式投資信息技術領域,促進了超級計算的顯著進步和互聯(lián)網(wǎng)的誕生。今天我們提出的這一倡議是為了變革我們使用大數(shù)據(jù)的能力,為科學發(fā)現(xiàn)、環(huán)境保護、生物醫(yī)學研究、教育以及國家安全領域提供支持。”
為了抓住此次機遇,OSTP將和多個聯(lián)邦政府部門合作,提出的大數(shù)據(jù)研發(fā)倡議包括:推進收集、存儲、保存、管理、分析和共享巨量數(shù)據(jù)的尖端核心技術研發(fā);利用上述技術加速科學和工程的新發(fā)明,加強國家安全,變革教與學的模式;增強開發(fā)和運用大數(shù)據(jù)技術需要的人才力量。
此次倡議是對2011年總統(tǒng)科學和技術顧問委員會提出的一份建議的回應,該建議認為聯(lián)邦政府對大數(shù)據(jù)相關技術投入力度不足。作為響應,OSTP成立了大數(shù)據(jù)高級指導小組,以協(xié)調和拓展政府在這個關鍵領域的投資。根據(jù)發(fā)出的公告,政府響應該倡議的第一輪項目包括以下內(nèi)容。
美國國家科學基金會(NSF)和美國國立衛(wèi)生研究院(NIH)將聯(lián)合招標“大數(shù)據(jù)”項目,推進信息管理、分析、可視化以及從大量多樣化數(shù)據(jù)集中提取有用信息的核心技術。這將加快科學研究發(fā)現(xiàn),并將開啟一些原本不可能實現(xiàn)的新領域。NIH還對與影像、分子、細胞、電生理學、化學、行為學、流行病學、臨床和其他與健康和疾病相關的數(shù)據(jù)集特別有興趣。
除了提供資金招標大數(shù)據(jù)項目之外,NSF的舉措還包括:鼓勵研究型大學開發(fā)交叉學科研究生項目,培養(yǎng)下一代數(shù)據(jù)科學家和工程師;向加州大學伯克利分校提供1 000萬美元的項目經(jīng)費,研究集成三種將數(shù)據(jù)轉化為信息的重要方法:機器學習、云計算和眾包;為“地球立方”系統(tǒng)提供第一輪資金,該系統(tǒng)將允許地學科學家訪問、分析和共享地球信息;向研究訓練機構撥款200萬美元,培訓本科生使用復雜數(shù)據(jù)圖形和可視化技術;提供140萬美元,支持一個測定蛋白質結構和生物通路的統(tǒng)計學家和生物學家重點研究小組;召集跨學科研究人員,確定大數(shù)據(jù)如何改變教與學。
美國國防部為大數(shù)據(jù)擲下大賭注,每年將向一系列跨軍事部門的項目投入2.5億美元 (6 000萬美元用于新研究項目),包括:使用新方法管理和利用海量數(shù)據(jù),集成傳感、感知能力和決策支持,建立真正的自治系統(tǒng)以實現(xiàn)操作和決策的自動化;提高情境感知意識幫助作戰(zhàn)人員和分析師,為他們提供更多的操作支持。國防部正在探尋比分析師高100倍的能力,以從所有語言文本中提取信息;該能力還將實現(xiàn)在目標、活動和時間上都顯著超過分析師能觀察的數(shù)量。
為了加快大數(shù)據(jù)創(chuàng)新速率,達到上述及其他目標,國防部將在接下來的數(shù)月公布了一系列開放式有獎競賽。
此外,美國國防部高級研究計劃局啟動了XDATA計劃,該計劃每年將投資約2 500萬美元,開發(fā)計算技術和軟件工具,分析半結構化(如表格、關系、分類數(shù)據(jù)和元數(shù)據(jù)等)和非結構化(如文本文檔、數(shù)據(jù)流量等)海量數(shù)據(jù)。該計劃的主要挑戰(zhàn)和目標包括:開發(fā)處理分布式數(shù)據(jù)存儲中不完整數(shù)據(jù)的可擴展算法;開發(fā)高效的人機交互工具,并可以根據(jù)不同任務的視覺推理需求迅速進行定制服務。
XDATA計劃還將支持開發(fā)源代碼軟件工具包,方便用戶在進行特定時間、特定需求的目標防御任務中靈活開發(fā)軟件,處理大量數(shù)據(jù)。
NIH宣布,已經(jīng)在亞馬遜網(wǎng)絡服務(AWS)平臺上,免費共享了世界上最大的人類基因組數(shù)據(jù)集,也即全球千人基因工程項目的研究結果。該數(shù)據(jù)集是大數(shù)據(jù)的一個典型案例,這些數(shù)據(jù)共有200TB,大小相當于1 600萬個文件柜的文本信息量,或3 000張標準DVD的容量,有運算能力處理這些海量數(shù)據(jù)的研究人員少之又少。AWS已經(jīng)將千人基因工程數(shù)據(jù)作為公共資源免費共享,研究人員使用這些數(shù)據(jù)時只需要支付計算費用。
作為該項目的一部分,美國能源部將提供2 500萬美元的基金來建立可擴展的數(shù)據(jù)管理、分析和可視化研究機構。勞倫斯·伯克利國家實驗室將牽頭組織6個國家實驗室和7所大學的專業(yè)研究力量,目標是研發(fā)新工具并改善現(xiàn)有工具,幫助科學家們對數(shù)據(jù)進行管理和可視化操作。由于能源部所使用的超級計算機的容量和復雜性都在不斷增長,對于能在這些計算機上進行模擬運行的新工具的要求也在相應提高。
美國地質勘探局宣布將最新的研究獎勵授予其下屬的約翰·衛(wèi)斯理·鮑威爾中心,以表彰該中心在分析和綜合工作的成就。該中心通過向科學家提供場所和時間,以及深度分析、尖端運算和協(xié)同合作理解大數(shù)據(jù)集的工作條件,催生地球系統(tǒng)科學的創(chuàng)新思維。這些大數(shù)據(jù)項目將增強人類對于氣候變化、地震復發(fā)率,以及下一代地址指標等問題的理解和應對。