文/陳剛
大科學的數(shù)據(jù)是現(xiàn)代科學研究的根本,數(shù)據(jù)平臺的建設將保障和促進科學研究的順利開展。
現(xiàn)代科學研究項目往往規(guī)模巨大。高能物理、基因組學、蛋白組學、天體物理學等大科學工程都是以數(shù)據(jù)為中心的學科,這些大科學工程產(chǎn)生越來越多的數(shù)據(jù),迫切需要建立大規(guī)模的數(shù)據(jù)中心對數(shù)據(jù)進行存儲、管理、分析和處理。
以高能物理實驗為例,當今以歐洲大型強子對撞機LHC(Large Hadron Collider)為代表的一批高能物理實驗每年產(chǎn)生的數(shù)據(jù)多達數(shù)十PB,需要建立一大批數(shù)據(jù)中心聯(lián)合對數(shù)據(jù)進行分析處理。過去十多年來,國際高能物理的同行在全球范圍內(nèi)建立了近兩百個數(shù)據(jù)中心,利用網(wǎng)格技術將這些數(shù)據(jù)中心聯(lián)合起來形成一個統(tǒng)一的數(shù)據(jù)處理平臺,為LHC的物理研究提供支撐。這種多數(shù)據(jù)中心聯(lián)合形成的網(wǎng)格平臺很好地解決了海量數(shù)據(jù)開放融合、高效處理的問題。
高能物理采用完全開放融合共享的計算模式,海量基礎數(shù)據(jù)、計算能力、存儲能力、傳輸能力等等對于全球合作成員都是開放共享的。這種模式確保了所有的數(shù)據(jù)中心高效地分擔數(shù)據(jù)處理的任務,同時使物理學家能夠在世界上任何一個地方訪問數(shù)據(jù)資源和計算資源。可以說,高能物理是科研大數(shù)據(jù)的先驅(qū),也是科研大數(shù)據(jù)的典型成功案例。
分布式的數(shù)據(jù)中心首先需要強大的網(wǎng)絡支撐。高能物理網(wǎng)格平臺采用1Gbps~40Gbps的專用國際網(wǎng)絡鏈路把這些近兩百個數(shù)據(jù)中心連在一起,利用這些網(wǎng)絡鏈路進行數(shù)據(jù)的傳輸和計算任務的全局調(diào)度。每年在這些數(shù)據(jù)中心之間的數(shù)據(jù)交換達數(shù)百PB。
大科學裝置產(chǎn)生的海量數(shù)據(jù)需要經(jīng)過高效的處理和分析才能獲得研究結(jié)果。因此,建立高水平的數(shù)據(jù)中心為科學研究提供數(shù)據(jù)處理基礎環(huán)境是科學研究的重要工作之一。數(shù)據(jù)中心包括硬件環(huán)境和基礎軟件環(huán)境兩大部分,硬件環(huán)境包括數(shù)據(jù)存儲、計算環(huán)境、網(wǎng)絡環(huán)境三大資源。實驗產(chǎn)生的海量數(shù)據(jù)需要安全可靠地記錄保存起來,同時又能被高效的訪問。存儲系統(tǒng)需要根據(jù)科研數(shù)據(jù)的規(guī)模及處理模式進行仔細的規(guī)劃設計,以滿足數(shù)據(jù)分析的需求。一般而言,科學計算對數(shù)據(jù)的訪問往往既需要高吞吐率,又需要高并發(fā)率,這就要求數(shù)據(jù)存儲系統(tǒng)能支撐高I/O吞吐能力和高并發(fā)訪問能力。數(shù)據(jù)中心一般配備分布式的并行存儲系統(tǒng),如GPFS, ZFS, Lustre等等。這些存儲系在性能和容量規(guī)模上都后很好的可擴展性,從而能夠很好的滿足作為大規(guī)模數(shù)據(jù)中心的需求。高能物理研究所的數(shù)據(jù)中心對Lustre進行了改進優(yōu)化,建立的高性能海量數(shù)據(jù)存儲系統(tǒng)性能達到國際同行先進水平,可滿足大規(guī)模數(shù)據(jù)處理的需求。
數(shù)據(jù)中心的基礎軟件部分主要用于硬件資源和服務資源的管理。資源管理系統(tǒng)用于對存儲資源、計算資源及網(wǎng)絡資源進行管理和調(diào)度。由于許多大科學工程的數(shù)據(jù)處理和計算軟件不是標準的商業(yè)軟件,這些科學計算應用軟件需要針對科學項目進行自主開發(fā)。基礎軟件一方面將硬件平臺進行屏蔽,另一方面提供通用軟件庫來支撐科學計算應用軟件的開發(fā)。這樣做的好處是能夠讓科學家把精力放在與科學研究相關的軟件開發(fā)上而不必關心底層硬件的特性。這種模式也更便于科學計算軟件向新的計算機硬件平臺上的移植。
以高能物理為例,物理學家開發(fā)了用于描述粒子相互作用的軟件包GEANT4。該軟件包用來模擬粒子穿過介質(zhì)時與介質(zhì)發(fā)生作用的過程,幫助物理學家理解或預測實驗產(chǎn)生的結(jié)果和數(shù)據(jù),并為實驗裝置的設計、數(shù)據(jù)的分析處理提供依據(jù)。另外,物理學家還開發(fā)了各種通用的數(shù)字計算和物理分析軟件包,如物理分析框架ROOT。ROOT是一個面向?qū)ο蟮臄?shù)據(jù)分析框架工具,可用于大規(guī)模數(shù)據(jù)的分析處理和可視化。高能物理的數(shù)據(jù)中心普遍采用這些軟件包作為數(shù)據(jù)處理的基礎,而物理學家在此基礎上建立自己的數(shù)據(jù)處理系統(tǒng)。
事實上,以高能物理為代表的科研大數(shù)據(jù)研究一直在推動著計算、網(wǎng)絡、存儲等大數(shù)據(jù)基礎技術的發(fā)展。2004年開始建立面向數(shù)據(jù)密集型計算的高能物理數(shù)據(jù)中心,目前擁有近10PB的海量存儲空間,超萬核的計算能力。高能物理研究所在教育網(wǎng)和科技網(wǎng)的幫助下建立了通過TEIN2/ORIENT和升級后的ORIENTplus到歐洲的高速鏈路,每年的國際數(shù)據(jù)交換達到3PB以上。高能物理數(shù)據(jù)中心每年為LHC實驗的完成超過500萬個計算任務,為Higgs粒子的發(fā)現(xiàn)等重大物理成果的產(chǎn)出做出了貢獻。同時該數(shù)據(jù)中心還為其它高能物理、天文、生物等多個領域提供數(shù)據(jù)和計算服務,有力支撐了大亞灣中微子實驗在海量的事例中發(fā)現(xiàn)中微子第三種振蕩模式,被美國《科學》雜志評選為2012年度十大科學突破之一。
高能物理研究所有力支撐了大亞灣中微子實驗在海量的事例中發(fā)現(xiàn)中微子第三種振蕩模式,被美國《科學》雜志評選為2012年度十大科學突破之一。
借鑒高能物理海量數(shù)據(jù)處理的技術與經(jīng)驗,高能物理研究所正在建設一個開放融合的科研大數(shù)據(jù)應用中心,通過將數(shù)據(jù)中心的功能進行外延,與大科學工程的數(shù)據(jù)獲取系統(tǒng)、數(shù)據(jù)處理和展示等系統(tǒng)進行整合,力圖成為大科學工程領域大數(shù)據(jù)的集散地和數(shù)據(jù)加工廠。
科研大數(shù)據(jù)應用中心的特點首先表現(xiàn)在數(shù)據(jù)開放性上。系統(tǒng)集分布式數(shù)據(jù)獲取和整合、存儲、共享、傳輸、處理與展現(xiàn)與一體,通過將平臺和應用的分工細化,提供不同級別的大數(shù)據(jù)基礎支撐服務。大數(shù)據(jù)應用的研究者、開發(fā)者只需要利用平臺開放的數(shù)據(jù)獲取能力,獲取需要的數(shù)據(jù),或整合平臺已有數(shù)據(jù),并調(diào)用已有的存儲、計算以及數(shù)據(jù)挖掘工具工作,即可以最高的效率、最低的成本達到研究及應用的目標。實際上,高能物理領域一直是按照這個模式開展工作,該平臺將這種模式從高能物理擴大到其它大數(shù)據(jù)領域。
科研大數(shù)據(jù)應用中心的另一個特點表現(xiàn)在數(shù)據(jù)融合能力上??蒲写髷?shù)據(jù)應用中心的數(shù)據(jù)是流動的且不斷更新的。一方面,高能所基于自身科研需求,可以聚合其他領域科學應用的海量數(shù)據(jù)。另一方面,基于志愿計算的分布式數(shù)據(jù)采集技術是高能所獨有的優(yōu)勢,采用該技術可以實現(xiàn)對互聯(lián)網(wǎng)海量數(shù)據(jù)的有效采集,具有時效性、廣泛性與精準性的顯著特征。最后,通過數(shù)據(jù)合作、交換,可以整合更多領域的科研數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等海量數(shù)據(jù)。這些來源不同的數(shù)據(jù)依托科研大數(shù)據(jù)應用中心,實現(xiàn)高效、便捷、可控的分享、交換、融合,最終促進跨學科交叉創(chuàng)新,實現(xiàn)數(shù)據(jù)價值的最大化。目前該數(shù)據(jù)應用中心整合了對撞機(如歐洲大型強制對撞機、北京正負電子對撞機)實驗數(shù)據(jù)、大亞灣中微子實驗數(shù)據(jù)、羊八井宇宙線實驗數(shù)據(jù)、高能天體物理數(shù)據(jù)以及核分析數(shù)據(jù)等一大批自然科學數(shù)據(jù)資源,同時還采集了大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù),為相關科學領域和交叉學科提供服務。
科研大數(shù)據(jù)應用中心的特點還表現(xiàn)在數(shù)據(jù)跨地域的傳輸與共享方面??蒲写髷?shù)據(jù)的特點是需要進行跨地域的海量數(shù)據(jù)交換。國內(nèi)數(shù)據(jù)中心之間的數(shù)據(jù)交換仍存在帶寬資源不足的問題。為了解決這一難題,高能物理研究所正在建設高能物理數(shù)據(jù)傳輸虛擬專用網(wǎng)(CHEPDTN),采用軟件定義網(wǎng)絡技術和網(wǎng)絡架構(gòu)(SDN),充分利用已有的網(wǎng)絡基礎設施(設備)和資源(IPv4和IPv6帶寬),滿足跨地域的高能物理實驗合作單位之間的高速、穩(wěn)定、安全的數(shù)據(jù)傳輸需求。目前CHEPDTN連接了高能物理研究所、山東大學、上海交通大學和中國科技大學,實現(xiàn)科學數(shù)據(jù)的高速傳輸。與普通的云計算中心相比,建設中的科研大數(shù)據(jù)應用中心既有工具(云計算平臺)又有金礦(數(shù)據(jù)),同時整合了科研、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等多領域的數(shù)據(jù)。良好的體系結(jié)構(gòu)和新技術新思想的引入正在推動整個平臺的健康發(fā)展?,F(xiàn)代大科學都是數(shù)據(jù)驅(qū)動的,大科學工程在數(shù)據(jù)獲取、存儲與處理、數(shù)據(jù)傳輸與共享、數(shù)據(jù)展現(xiàn)等方面有著強烈的需求。在應用需求的引導下,高能物理等大科學領域在過去幾十年中積累了大量的大數(shù)據(jù)存儲、處理和共享等技術和經(jīng)驗。大科學的數(shù)據(jù)是現(xiàn)代科學研究的根本,數(shù)據(jù)平臺的建設將保障和促進科學研究的順利開展??蒲写髷?shù)據(jù)技術的研究和發(fā)展反過來可應用于整個社會的大數(shù)據(jù)行業(yè)。