?
中國(guó)科學(xué)院高能物理研究所 陳剛大數(shù)據(jù)技術(shù)在高能物理中的應(yīng)用
現(xiàn)代大科學(xué)的標(biāo)志為大科學(xué)機(jī)構(gòu)、大科學(xué)工程和大科學(xué)裝置。大科學(xué)裝置常產(chǎn)生海量的數(shù)據(jù),因此在大數(shù)據(jù)技術(shù)領(lǐng)域提出了巨大挑戰(zhàn)。國(guó)內(nèi)外高能物理實(shí)驗(yàn)研究是典型的大科學(xué)裝置,同時(shí)在不斷推動(dòng)大數(shù)據(jù)技術(shù)及應(yīng)用的發(fā)展。在應(yīng)用需求的引導(dǎo)下,高能物理領(lǐng)域積累了大量的大數(shù)據(jù)存儲(chǔ)、計(jì)算處理和共享等技術(shù)和經(jīng)驗(yàn)。
高能物理的目標(biāo)就是探索物質(zhì)微觀結(jié)構(gòu)、宇宙起源等自然規(guī)律。目前已經(jīng)證明微觀世界有六種夸克(quarks),還有六種輕子(leptons),這些一起組成了宇宙萬(wàn)物。這些粒子之間的相互組合主要有三種相互作用力:電磁相互作用力、強(qiáng)相互作用力以及熱相互作用力,當(dāng)然,還有第四種力,那就是萬(wàn)有引力。
高能物理,也叫粒子物理。我國(guó)也有很多高能物理的實(shí)驗(yàn),其中一個(gè)就是BEPCII/BESIII對(duì)撞機(jī),它是世界先進(jìn)的雙環(huán)對(duì)撞機(jī),5年內(nèi)將積累5PB的數(shù)據(jù),需要萬(wàn)個(gè)CPU用于數(shù)據(jù)分析,中國(guó)、美國(guó)、德國(guó)、俄羅斯、日本等36個(gè)研究所參與合作。
另外,在亞灣反應(yīng)堆做中微子實(shí)驗(yàn),有38個(gè)研究所300多名科學(xué)家參與合作,產(chǎn)生了4PB以上數(shù)據(jù)。在2012年發(fā)現(xiàn)中微子第三種震蕩,精確測(cè)量θ13同時(shí),利用西藏羊八井得天獨(dú)厚的優(yōu)勢(shì),中意、中日合作進(jìn)行宇宙線實(shí)驗(yàn),每年產(chǎn)生超過(guò)200TB的原始數(shù)據(jù),數(shù)據(jù)需從羊八井傳回高能所,在傳到日本、意大利進(jìn)行分析處理,合作單位能夠?qū)崟r(shí)訪問(wèn)數(shù)據(jù)。
圖1 典型的本地集群架構(gòu)
在高能物理領(lǐng)域,實(shí)驗(yàn)數(shù)據(jù)采集之后,還要面臨數(shù)據(jù)的傳輸、保存,以及計(jì)算等一系列的挑戰(zhàn)。這將會(huì)產(chǎn)生大量的數(shù)據(jù),這個(gè)大數(shù)據(jù)的特點(diǎn)是隨機(jī)變量空間很大,產(chǎn)生的末態(tài)粒子極其豐富;精確測(cè)量需要大樣本。在計(jì)算過(guò)程中,也是非常復(fù)雜的,末態(tài)的模式復(fù)雜(隨機(jī)變量)。物理圖像還原非常復(fù)雜,如圖像處理、模式識(shí)別技術(shù);擬合及誤差估計(jì)。
高能物理大數(shù)據(jù)的處理過(guò)程如下:第一,數(shù)據(jù)獲取與記錄。從探測(cè)器獲取Raw Data、蒙特卡洛產(chǎn)生數(shù)字化的二進(jìn)制格式的電子信號(hào);第二,數(shù)據(jù)處理。處理后Raw/MC Raw產(chǎn)生相關(guān)物理信息,如動(dòng)量、對(duì)撞頂點(diǎn)等;第三,數(shù)據(jù)挖掘。由上千個(gè)屬性組成的DST事例文件,提供物理學(xué)家進(jìn)行分析,并最后產(chǎn)生物理結(jié)果。
在“大數(shù)據(jù)(big data)”時(shí)代,PB級(jí)甚至EB的科學(xué)研究數(shù)據(jù)尤其需要在存儲(chǔ)模式、技術(shù)架構(gòu)、共享傳輸、全球協(xié)同、高效處理等方面有所突破。
計(jì)算平臺(tái)的發(fā)展歷程,與計(jì)算機(jī)發(fā)展歷程是完全一致的,經(jīng)歷了從大型機(jī),經(jīng)集群,到網(wǎng)格,再到云計(jì)算的演變。本地計(jì)算集群是基礎(chǔ),計(jì)算網(wǎng)格是“集群之集群”,需要整合計(jì)算資源。而云計(jì)算更注重平臺(tái)的通用性,提高資源利用率。因此需要對(duì)云計(jì)算與網(wǎng)格計(jì)算加以整合。
圖1是一個(gè)典型的本地集群架構(gòu)。這個(gè)系統(tǒng)目前也仍在使用,但是隨著CPU的計(jì)算能力、存儲(chǔ)量越來(lái)越大的時(shí)候,系統(tǒng)就會(huì)出現(xiàn)問(wèn)題。
目前世界上最成功的一個(gè)網(wǎng)格系統(tǒng),實(shí)際上就是用來(lái)做高能物理的。它有若干分層,0級(jí)、1級(jí)、2級(jí)、3級(jí),甚至一直到4級(jí),這樣一個(gè)分布式的計(jì)算環(huán)境。0級(jí)中心主要接收原始數(shù)據(jù),保存在磁帶系統(tǒng)中,并進(jìn)行第一遍數(shù)據(jù)重建,向Tier1分發(fā)數(shù)據(jù);一級(jí)中心(13個(gè))主要提供原始數(shù)據(jù)備份,執(zhí)行數(shù)據(jù)重建、分析等任務(wù),并提供數(shù)據(jù)分發(fā)等網(wǎng)格服務(wù);二級(jí)中心(〉160個(gè))主要執(zhí)行模擬、數(shù)據(jù)分析等任務(wù)。
當(dāng)然,計(jì)算集群或網(wǎng)格存在不足之處,如CPU資源利用率不足、遺留程序與操作系統(tǒng)不匹配、調(diào)度不靈活、運(yùn)維成本高等問(wèn)題。這時(shí),就需要引入虛擬化和云計(jì)算。
虛擬計(jì)算集群在物理機(jī)和RMS(資源管理系統(tǒng))之間構(gòu)造虛擬層,將物理機(jī)虛擬化,形成多個(gè)虛擬機(jī)。同時(shí),將RMS安裝在虛擬機(jī)上,對(duì)用戶完全透明,減少運(yùn)維工作量,提高資源利用率。
歐洲核子研究中心的“CERN Cloud”是世界最大的虛擬集群之一,它基于Openstack構(gòu)建,并于2013年開(kāi)始運(yùn)行。統(tǒng)一管理兩個(gè)數(shù)據(jù)中心(日內(nèi)瓦與布達(dá)佩斯),其規(guī)模為4600個(gè)物理機(jī),12.5萬(wàn)顆CPU核,15000個(gè)虛擬機(jī),2016年還將擴(kuò)充資源。根據(jù)集群任務(wù)動(dòng)態(tài)創(chuàng)建或刪除虛擬機(jī),平均10秒鐘創(chuàng)建/刪除一個(gè)虛擬機(jī)。據(jù)了解,CERN團(tuán)隊(duì)獲得Openstack巴黎峰會(huì)SuperUser大獎(jiǎng)。
在國(guó)內(nèi),我們有自己的實(shí)驗(yàn)和計(jì)算環(huán)境。例如,之前提到的BESIII分布式計(jì)算系統(tǒng),采用Pilot與計(jì)算插件技術(shù),整合合作單位的計(jì)算資源,能夠根據(jù)用戶作業(yè)的數(shù)目進(jìn)行實(shí)時(shí)的虛擬機(jī)動(dòng)態(tài)創(chuàng)建和刪除,實(shí)現(xiàn)資源彈性管理。共14個(gè)站點(diǎn),分布在中國(guó),美國(guó),俄羅斯和意大利。
在先進(jìn)信息化環(huán)境的支撐下,BESIII實(shí)驗(yàn)一直領(lǐng)跑全球tau-粲物理研究。2013年3月宣布發(fā)現(xiàn)了奇特態(tài)候選者——帶電類粲偶素Zc(3900);2013年6月18日,《自然》(nature)雜志就此發(fā)表了題為“夸克‘四重奏’打開(kāi)了物質(zhì)世界一扇嶄新的大門)”的新聞報(bào)道;這一成果被國(guó)際物理學(xué)頂級(jí)期刊、美國(guó)物理學(xué)會(huì)主編的《物理》雜志選為2013年國(guó)際物理學(xué)領(lǐng)域重要成果,在11個(gè)入選項(xiàng)目中位列第一;《粒子物理手冊(cè)》2014版收錄Zc(3900),是唯一收錄的在我國(guó)發(fā)現(xiàn)的新粒子!
高能物理的應(yīng)用不同于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘,它具有以下特點(diǎn):數(shù)據(jù)以對(duì)象方式存儲(chǔ),使用C++庫(kù)訪問(wèn);非〈key,value〉類型計(jì)算;隨機(jī)訪問(wèn);復(fù)雜的數(shù)據(jù)類型。
高能物理領(lǐng)域,實(shí)際上是一個(gè)大科學(xué)、大需求、大數(shù)據(jù)、大計(jì)算、大發(fā)現(xiàn)的過(guò)程。它要求多種計(jì)算技術(shù),推動(dòng)了信息化技術(shù)的發(fā)展。同時(shí),多種信息化支撐手段也在推動(dòng)高能物理科學(xué)的進(jìn)步,這是一個(gè)相輔相成的過(guò)程。
(本文整理自中國(guó)科學(xué)院高能物理研究所副所長(zhǎng)陳剛在第四屆中國(guó)科研信息化發(fā)展研討會(huì)上的演講“高能物理中的大數(shù)據(jù)技術(shù)”)