Demchenko Yuri Zhao Zhiming Grosso Paola Wibisono Adianto de Laat Cees(阿姆斯特丹大學(xué)系統(tǒng)與網(wǎng)絡(luò)工程組,荷蘭阿姆斯特丹 1098XH)
科研信息化基礎(chǔ)設(shè)施的大數(shù)據(jù)挑戰(zhàn)
Demchenko Yuri Zhao Zhiming Grosso Paola Wibisono Adianto de Laat Cees
(阿姆斯特丹大學(xué)系統(tǒng)與網(wǎng)絡(luò)工程組,荷蘭阿姆斯特丹 1098XH)
首先探討大數(shù)據(jù)科學(xué)(Big Data Science)給現(xiàn)代和未來(lái)科研數(shù)據(jù)基礎(chǔ)設(shè)施(SDI)帶來(lái)的挑戰(zhàn),并參考不同科研團(tuán)體的工作對(duì)數(shù)據(jù)管理、訪問(wèn)控制和安全要求進(jìn)行定義,然后介紹科研數(shù)據(jù)生命周期管理(SDLM)模型,分析所有的主要階段,反映現(xiàn)代e-Science的數(shù)據(jù)管理特性,提出SDI通用架構(gòu)模型,為利用現(xiàn)代技術(shù)和最佳實(shí)踐構(gòu)建以互用性數(shù)據(jù)或項(xiàng)目為中心的SDI奠定了基礎(chǔ),最后對(duì)如何利用基于云的現(xiàn)代基礎(chǔ)設(shè)施服務(wù)配置模型順利實(shí)現(xiàn)文中提出的SDLM和SDI模型進(jìn)行闡述,解決SDI資源的聯(lián)合訪問(wèn)控制問(wèn)題,為科研團(tuán)體提供了一種靈活的訪問(wèn)控制和身份管理模型。
大數(shù)據(jù)科學(xué);科研數(shù)據(jù)基礎(chǔ)設(shè)施;科研數(shù)據(jù)生命周期管理;云基礎(chǔ)設(shè)施服務(wù);科研信息化
現(xiàn)代科研信息化基礎(chǔ)設(shè)施的廣泛應(yīng)用解決了以往不可能出現(xiàn)的如基因組、氣候和全球變暖等大規(guī)模數(shù)據(jù)的問(wèn)題。科研信息化產(chǎn)生的海量數(shù)據(jù),需要新型科研數(shù)據(jù)基礎(chǔ)設(shè)施(SDI)進(jìn)行存儲(chǔ)、分發(fā)、處理、保存和管理[1-2]。在科研信息化過(guò)程中,科研數(shù)據(jù)具有復(fù)雜的內(nèi)部關(guān)系。這些科研數(shù)據(jù)需要利用相應(yīng)的物理或邏輯的基礎(chǔ)設(shè)施進(jìn)行存儲(chǔ)、訪問(wèn)和管理。新興的SDI應(yīng)允許不同的研究團(tuán)隊(duì)圍繞相同的數(shù)據(jù)集開(kāi)展工作,構(gòu)建自己的(虛擬)研究和協(xié)作環(huán)境,安全地存儲(chǔ)中間結(jié)果,共享研究成果。新產(chǎn)生的數(shù)據(jù)溯源、數(shù)據(jù)安全及數(shù)據(jù)訪問(wèn)控制機(jī)制與工具應(yīng)允許研究人員把他們的科研成果同原始數(shù)據(jù)(集)和中間數(shù)據(jù)聯(lián)系在一起,以便今后可以通過(guò)改進(jìn)研究技術(shù)和工具重新使用這些數(shù)據(jù)或改變這些數(shù)據(jù)。
本文分析了大數(shù)據(jù)技術(shù)給現(xiàn)代科研信息化基礎(chǔ)設(shè)施帶來(lái)的挑戰(zhàn),提出了應(yīng)對(duì)挑戰(zhàn)的一般方法和架構(gòu)解決方案,特別是利用云基礎(chǔ)設(shè)施技術(shù),構(gòu)建了新的科研數(shù)據(jù)生命周期管理(SDLM)模型和通用SDI架構(gòu)模型,為SDI異構(gòu)組件的互用和集成提供了基礎(chǔ)。本文結(jié)構(gòu)是:第二部分介紹主要研究團(tuán)體和對(duì)未來(lái)SDI的總體要求;第三部分探討大數(shù)據(jù)科研中數(shù)據(jù)管理面臨的挑戰(zhàn),包括對(duì)SDLM的討論;第四部分介紹為應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn)和要求而提出的e-SDI架構(gòu)模型;第五部分探討利用云技術(shù)實(shí)現(xiàn)SDI;第六部分論述構(gòu)建現(xiàn)代和未來(lái)SDI的聯(lián)合訪問(wèn)存取管理基礎(chǔ)設(shè)施的具體要求,并提出相關(guān)的建議。
目前,大數(shù)據(jù)的不斷涌現(xiàn),科研信息化基礎(chǔ)設(shè)施一方面要處理不同研究設(shè)備產(chǎn)生和/或傳感器收集呈指數(shù)增長(zhǎng)的數(shù)據(jù);另一方面要利用適當(dāng)?shù)墓芾砟J綄⑿畔⒒A(chǔ)設(shè)施打造成持久的研究平臺(tái),確保研究的連續(xù)性,實(shí)現(xiàn)跨學(xué)科合作,并能夠提供持續(xù)的服務(wù)。面對(duì)這樣的挑戰(zhàn),需要重新考慮現(xiàn)有的基礎(chǔ)設(shè)施組件、解決方案和處理過(guò)程[2-3]。隨著信息通信技術(shù)和大數(shù)據(jù)技術(shù)的迅猛發(fā)展,現(xiàn)代科研信息化管理模式發(fā)生了重大變化,主要表現(xiàn)在以下幾點(diǎn):(1)科研信息化全部流程自動(dòng)化,包括數(shù)據(jù)收集、存儲(chǔ)、分類和索引以及一般數(shù)據(jù)的管理和溯源等;(2)利用多維、多層面的測(cè)量、監(jiān)控方法,將處理過(guò)程和產(chǎn)品轉(zhuǎn)化為數(shù)字形式,并將現(xiàn)有人工制品及其他內(nèi)容數(shù)字化;(3)二次研究可重新開(kāi)發(fā)利用原始數(shù)據(jù)和已發(fā)布的研究數(shù)據(jù),并改變數(shù)據(jù)的用途;(4)合作研究團(tuán)隊(duì)通過(guò)網(wǎng)絡(luò)可利用和獲取全球數(shù)據(jù),包括廣泛的公開(kāi)獲取的科學(xué)數(shù)據(jù);(5)基礎(chǔ)設(shè)施組件和管理工具能夠?yàn)樘囟ǖ难芯宽?xiàng)目和任務(wù)快速組合、調(diào)整并按需配置基礎(chǔ)設(shè)施和服務(wù);(6)支持先進(jìn)的安全和訪問(wèn)控制技術(shù),確保復(fù)雜的研究基礎(chǔ)設(shè)施和科研設(shè)備安全運(yùn)行,為合作團(tuán)隊(duì)和研究人員營(yíng)造可靠的安全環(huán)境。
在整個(gè)數(shù)據(jù)生命周期中,未來(lái)的SDI不僅要求大規(guī)模和長(zhǎng)期/無(wú)限期地進(jìn)行數(shù)據(jù)存儲(chǔ)/保存、數(shù)據(jù)聚合和數(shù)據(jù)溯源,而且要求必須確保數(shù)據(jù)的安全性(完整性、機(jī)密性、可用性和可計(jì)量性)和保護(hù)數(shù)據(jù)的所有權(quán)。處理大數(shù)據(jù)需要強(qiáng)大的計(jì)算能力。隨著處理大數(shù)據(jù)需求的增加,應(yīng)該制定并實(shí)施數(shù)據(jù)/數(shù)據(jù)集處理策略,能夠在可靠的系統(tǒng)上和/或按照其他的要求處理數(shù)據(jù)。利用SDI處理研究人員的數(shù)據(jù),可以確保數(shù)據(jù)的安全,不被非授權(quán)者獲取。SDI具有遠(yuǎn)程分布的特性,用戶可以在不同的國(guó)家獲取數(shù)據(jù),這就帶來(lái)了數(shù)據(jù)安全性的問(wèn)題。這些問(wèn)題應(yīng)該由SDI的重要組件來(lái)控制訪問(wèn)并通過(guò)計(jì)費(fèi)基礎(chǔ)設(shè)施(ACAI)加以解決[4-5]。
近來(lái),筆者查閱了歐洲研究領(lǐng)域(ERA)[3]中關(guān)于歐洲科研信息化基礎(chǔ)設(shè)施已有的研究資料,如錫耶納項(xiàng)目(SIENA Project)[6]、歐洲跨政府聯(lián)合研究機(jī)構(gòu)論壇聯(lián)邦身份管理工作組(EIRO forum Federated Identity Management Workshop)[5]、歐洲網(wǎng)格基礎(chǔ)設(shè)施(EGI)戰(zhàn)略報(bào)告[7]、英國(guó)未來(lái)互聯(lián)網(wǎng)戰(zhàn)略組織報(bào)告(UK Future Internet Strategy Group Report)[8]等。這些研究資料分析了各科研團(tuán)隊(duì)的實(shí)踐,面臨的挑戰(zhàn),并對(duì)科研信息化基礎(chǔ)設(shè)施提出了新的要求。
(1)高能物理學(xué)團(tuán)體:高能物理學(xué)團(tuán)體擁有大批研究人員、獨(dú)一無(wú)二的昂貴的儀器設(shè)備以及大量生成且必須連續(xù)處理的數(shù)據(jù)。該團(tuán)隊(duì)擁有已經(jīng)投入運(yùn)營(yíng)的全球大型強(qiáng)子對(duì)撞機(jī)網(wǎng)格(WLCG)[9]基礎(chǔ)設(shè)施,在整個(gè)科研數(shù)據(jù)生命周期中,管理和訪問(wèn)數(shù)據(jù),保護(hù)數(shù)據(jù)的完整性。開(kāi)發(fā)WLCG是推進(jìn)歐洲信息化基礎(chǔ)設(shè)施建設(shè)中的重要一步。該基礎(chǔ)設(shè)施能夠?yàn)闅W洲乃至全球的多個(gè)科研團(tuán)體提供服務(wù)。歐洲網(wǎng)格基礎(chǔ)設(shè)施合作機(jī)構(gòu)[7]為高能物理學(xué)團(tuán)體和其他團(tuán)體管理歐洲乃至全球的基礎(chǔ)設(shè)施。
(2)材料科學(xué)、分析和低能物理學(xué)團(tuán)體:材料科學(xué)、分析和低能物理學(xué)(質(zhì)子、中子、激光設(shè)備)團(tuán)體的特點(diǎn)是既有短期項(xiàng)目研究又有實(shí)際操作,用戶群體不斷變化。因此通過(guò)對(duì)基礎(chǔ)設(shè)施的動(dòng)態(tài)管理,實(shí)現(xiàn)廣泛地獲取數(shù)據(jù)和分布式處理數(shù)據(jù)。
(3)環(huán)境和地球科學(xué)團(tuán)體:環(huán)境和地球科學(xué)團(tuán)體的研究瞄準(zhǔn)了區(qū)域/國(guó)家乃至全球性的問(wèn)題。他們收集來(lái)自陸地、海洋、大氣和空間的大量數(shù)據(jù),需要不斷擴(kuò)大存儲(chǔ)容量、提高計(jì)算能力。這就要求SDI能夠可靠精細(xì)地對(duì)大數(shù)據(jù)集進(jìn)行訪問(wèn)控制、對(duì)區(qū)域問(wèn)題能夠進(jìn)行強(qiáng)制執(zhí)行并對(duì)數(shù)據(jù)采取過(guò)濾策略(數(shù)據(jù)可能涉及與國(guó)家安全相關(guān)的信息),同時(shí)需要跟蹤數(shù)據(jù)的使用并保持?jǐn)?shù)據(jù)的完整性。
(4)生物和醫(yī)學(xué)科學(xué)團(tuán)體:生物和醫(yī)學(xué)科學(xué)(也稱為生命科學(xué))團(tuán)體通常關(guān)注健康、藥物開(kāi)發(fā)、新物種鑒定和新儀器開(kāi)發(fā)等。在研究過(guò)程中產(chǎn)生了大量的數(shù)據(jù),并且對(duì)分布式處理、數(shù)據(jù)共享和協(xié)作的計(jì)算能力、存儲(chǔ)容量以及網(wǎng)絡(luò)性能提出了更高的要求。生物醫(yī)學(xué)數(shù)據(jù)(包括醫(yī)療保健、臨床病例數(shù)據(jù))是敏感型且隱私性極高的數(shù)據(jù),必須按照歐洲個(gè)人數(shù)據(jù)處理政策進(jìn)行處理[10]。
(5)社會(huì)科學(xué)和人文學(xué)科團(tuán)體:社會(huì)科學(xué)和人文學(xué)科團(tuán)體及其研究項(xiàng)目具有多邊性的特點(diǎn),通常是研究人員之間的全球化合作。這就需要協(xié)作群組/團(tuán)體的參與,并通過(guò)協(xié)作的基礎(chǔ)設(shè)施實(shí)現(xiàn)共享數(shù)據(jù)、發(fā)現(xiàn)/研究成果、合作評(píng)估結(jié)果,應(yīng)該允許廣泛而公開(kāi)地獲取對(duì)所有收集到的人工制品數(shù)字化后產(chǎn)生的海量數(shù)據(jù)。
為此,新興的大數(shù)據(jù)科學(xué)對(duì)SDI的一般性基礎(chǔ)設(shè)施提出了新的要求:(1)能夠支持長(zhǎng)期運(yùn)行的實(shí)驗(yàn)和快速生成的大數(shù)據(jù)量;(2)可以進(jìn)行多層次數(shù)據(jù)分布與復(fù)制;(3)能夠支持虛擬科研團(tuán)體;(4)具有可靠安全的數(shù)據(jù)存儲(chǔ)與處理環(huán)境;(5)能夠保證數(shù)據(jù)的完整性、機(jī)密性和可計(jì)量性;(6)執(zhí)行并完善捆綁數(shù)據(jù)的隱私保護(hù)政策。
計(jì)算機(jī)輔助研究方法的出現(xiàn)改變了開(kāi)展科學(xué)研究和使用科研數(shù)據(jù)的方式方法。目前,科研數(shù)據(jù)主要有以下幾個(gè)類型[4]:(1)從觀察和實(shí)驗(yàn)中收集的原始數(shù)據(jù);(2)經(jīng)過(guò)數(shù)據(jù)過(guò)濾和處理的結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)集;(3)已發(fā)布的科學(xué)假設(shè)、研究成果或?qū)W術(shù)觀點(diǎn);(4)在出版物上廣泛研究整理、集成和公開(kāi)發(fā)布的數(shù)據(jù)。這些數(shù)據(jù)一旦發(fā)布,科研人員就會(huì)對(duì)感興趣的數(shù)據(jù)進(jìn)行確認(rèn)和再現(xiàn),并產(chǎn)生新的研究成果。因此,SDI提供者應(yīng)該深入考慮以下的內(nèi)容:(1)科研數(shù)據(jù)溯源:從捕捉原始數(shù)據(jù)到出版數(shù)據(jù),其中轉(zhuǎn)化過(guò)程中的信息已成為科研數(shù)據(jù)管理的重要方面[11];(2)提供已發(fā)布數(shù)據(jù)的語(yǔ)義:對(duì)于已發(fā)布的數(shù)據(jù),還要保證這些數(shù)據(jù)在科研團(tuán)體的研究實(shí)踐中可以重復(fù)使用。理解已發(fā)布數(shù)據(jù)的語(yǔ)義是實(shí)現(xiàn)數(shù)據(jù)可再用性的重要環(huán)節(jié),過(guò)去這都是靠人工方式完成的。然而,當(dāng)對(duì)大數(shù)據(jù)科研中產(chǎn)生的空前規(guī)模的數(shù)據(jù)進(jìn)行預(yù)測(cè)且有效地再利用發(fā)布時(shí),有必要附帶清晰的數(shù)據(jù)語(yǔ)義;(3)鏈接分布式數(shù)據(jù):在通常情況下,大數(shù)據(jù)既分布在數(shù)據(jù)收集端,也分布在處理/訪問(wèn)端。因此,需要對(duì)數(shù)據(jù)進(jìn)行收集、分配和/或復(fù)制,將分布式數(shù)據(jù)鏈接起來(lái)。歐盟委員會(huì)倡導(dǎo)開(kāi)放獲取公開(kāi)基金支持項(xiàng)目中的科學(xué)數(shù)據(jù),對(duì)于出版物以及數(shù)據(jù)的鏈接[12-13],建議采用PID(永久性數(shù)據(jù)ID)和ORCID(開(kāi)放研究者與貢獻(xiàn)者ID)[14]等方法。
在分析不同科研團(tuán)體實(shí)踐的基礎(chǔ)上,筆者提出了科研數(shù)據(jù)生命周期(SDLM)模型(圖1)。該模型體現(xiàn)了科研信息化的數(shù)據(jù)管理和處理新方法,與參考文獻(xiàn)[15]提出的數(shù)據(jù)生命周期研究結(jié)果相符。
通常地,科研數(shù)據(jù)生命周期主要包含研究項(xiàng)目或?qū)嶒?yàn)規(guī)劃、數(shù)據(jù)收集、數(shù)據(jù)處理、發(fā)布研究成果、討論和反饋、歸檔(或放棄)等階段。
在各個(gè)階段中,SDLM都要求存儲(chǔ)和保護(hù)數(shù)據(jù),并允許重新使用數(shù)據(jù)或改變數(shù)據(jù)的用途,并對(duì)已處理的數(shù)據(jù)和已發(fā)布的結(jié)果進(jìn)行二次研究。然而,在SDI中能夠?qū)崿F(xiàn)所有數(shù)據(jù)的識(shí)別、交叉引用和鏈接。在整個(gè)數(shù)據(jù)生命周期中,能夠支持?jǐn)?shù)據(jù)的完整性、訪問(wèn)控制以及可計(jì)量性。數(shù)據(jù)管理是討論SDLM重要的組成部分,其實(shí)現(xiàn)的方式必須是安全的和值得信賴的。
在科研數(shù)據(jù)的生命周期內(nèi),SDLM須要確保數(shù)據(jù)的安全性并能夠進(jìn)行訪問(wèn)控制,主要包括數(shù)據(jù)(實(shí)驗(yàn)數(shù)據(jù))的采集、原始數(shù)據(jù)的過(guò)濾、專業(yè)人員的處理、研究數(shù)據(jù)的存儲(chǔ)和二次數(shù)據(jù)挖掘、數(shù)據(jù)及其研究信息的存檔等。
本文提出的科研信息化SDI(e-SDI)框架如圖2所示。主要包含以下各層。
網(wǎng)絡(luò)基礎(chǔ)設(shè)施層(B1層):基于通用互聯(lián)網(wǎng)基礎(chǔ)設(shè)施和專用網(wǎng)絡(luò)基礎(chǔ)設(shè)施;
數(shù)據(jù)中心和計(jì)算資源/設(shè)施(B2層);
基礎(chǔ)設(shè)施虛擬層(B3層):以支持專門的科研平臺(tái)進(jìn)行部署和運(yùn)行的云/網(wǎng)格基礎(chǔ)設(shè)施服務(wù)和中間件為代表;
科研平臺(tái)與基礎(chǔ)設(shè)施(B4層):專門為不同研究領(lǐng)域提供數(shù)據(jù)共享的科研平臺(tái)與基礎(chǔ)設(shè)施;
聯(lián)合決策層(B5層):包括聯(lián)合基礎(chǔ)設(shè)施組件,能夠支持決策和協(xié)作用戶;
科研應(yīng)用和用戶門戶網(wǎng)站/客戶端(B6層)。
此外,還可以定義3個(gè)交叉層面:運(yùn)行支持與管理系統(tǒng)、安全層面及元數(shù)據(jù)與生命周期管理。
圖1 科研信息化的科研數(shù)據(jù)生命周期管理
圖2 本文提出的SDI架構(gòu)模型
通過(guò)專有層支持SDI動(dòng)態(tài)特性及其分布式多層面團(tuán)隊(duì):B3是基礎(chǔ)設(shè)施的有效層,典型地采用了現(xiàn)代云技術(shù);B5是聯(lián)合決策層,包含相關(guān)的聯(lián)合基礎(chǔ)設(shè)施的管理和存取技術(shù)[4,16-17]。引入聯(lián)合決策層反映出構(gòu)建和管理復(fù)雜SDI(也包括企業(yè)基礎(chǔ)設(shè)施)的現(xiàn)行方法,并允許獨(dú)立管理的基礎(chǔ)設(shè)施共享資源以及支持組織間的合作。
圖3 從科研工作流到基于云的基礎(chǔ)設(shè)施
圖3所示是一個(gè)典型的根據(jù)需要構(gòu)建的科研信息化或企業(yè)協(xié)作的基礎(chǔ)設(shè)施,包括企業(yè)所有權(quán)、基于云計(jì)算存儲(chǔ)的資源和設(shè)備、監(jiān)控系統(tǒng)、虛擬系統(tǒng)以及以客戶端為代表的典型地存在于現(xiàn)實(shí)或虛擬環(huán)境中的用戶。
企業(yè)協(xié)作或科研信息化的基礎(chǔ)設(shè)施支持企業(yè)或科研工作流以及有關(guān)過(guò)程監(jiān)控和數(shù)據(jù)處理的操作流程。云技術(shù)可以簡(jiǎn)單地構(gòu)建這樣的基礎(chǔ)設(shè)施并按需要提供配置。圖3以實(shí)例說(shuō)明了怎樣把一個(gè)企業(yè)或科研工作流映射到基于云的服務(wù),并作為一個(gè)即時(shí)互聯(lián)云基礎(chǔ)設(shè)施進(jìn)行部署和運(yùn)行。主要包括云基礎(chǔ)設(shè)施部分IaaS(VR3-VR5) 和 PaaS(VR6, VR7)、獨(dú)立的虛擬化資源和服務(wù)(VR1, VR2)、兩個(gè)相互作用的區(qū)域A和B以及相互連接的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。在許多情況下,需要采用專用的網(wǎng)絡(luò)連接以保證其性能的實(shí)現(xiàn)。
有效地運(yùn)行這樣的基礎(chǔ)設(shè)施既需要加強(qiáng)整體的基礎(chǔ)設(shè)施管理,又需要提供個(gè)性化的服務(wù)以及基礎(chǔ)設(shè)施領(lǐng)域間的相互交流與溝通。這已明顯超出了現(xiàn)有云服務(wù)提供商所提供服務(wù)的范圍,但卻是構(gòu)建未來(lái)科研信息化的SDI的宗旨所在。這是筆者另一項(xiàng)關(guān)于互聯(lián)云框架構(gòu)建的研究課題[18-19]。在此不再贅述。
6.1 SDI和訪問(wèn)控制的一般要求
為了控制訪問(wèn),確保數(shù)據(jù)的安全,未來(lái)科研數(shù)據(jù)信息化基礎(chǔ)設(shè)施(SDI)應(yīng)有相應(yīng)的訪問(wèn)控制和計(jì)費(fèi)基礎(chǔ)設(shè)施(ACAI),以正常運(yùn)行基礎(chǔ)設(shè)施,保護(hù)資產(chǎn)和信息,并在分布式多組織的環(huán)境下,實(shí)現(xiàn)用戶身份識(shí)別/鑒定和相關(guān)策略的執(zhí)行。而開(kāi)放獲取[12]可能需要部分改變現(xiàn)有的科研信息中心和圖書(shū)館的業(yè)務(wù)工作,因此,未來(lái)的ACAI應(yīng)支持這樣的轉(zhuǎn)變,并細(xì)化訪問(wèn)控制,界定和控制靈活的策略實(shí)施。
鑒于未來(lái)SDI支持全部的數(shù)據(jù)生命周期,且大規(guī)模和長(zhǎng)期/無(wú)限期地進(jìn)行數(shù)據(jù)存儲(chǔ)/保存、數(shù)據(jù)聚合和數(shù)據(jù)溯源的要求,未來(lái)的ACAI也應(yīng)支持?jǐn)?shù)據(jù)生命周期的全部階段,包括為數(shù)據(jù)附加策略,以確保在線和離線處理過(guò)程中持續(xù)地執(zhí)行相關(guān)的數(shù)據(jù)策略。
未來(lái)的ACAI應(yīng)該具有以下特點(diǎn):(1)允許研究人員(并讓他們相信)在具有數(shù)據(jù)和信息安全的大型數(shù)據(jù)中心的共享設(shè)備上進(jìn)行相關(guān)數(shù)據(jù)處理。(2)激勵(lì)/確保研究人員共享和開(kāi)放他們的研究環(huán)境,為其他的研究人員提供專門/定制的預(yù)先配置的基礎(chǔ)設(shè)施,并允許其他研究人員使用現(xiàn)有的或自己的數(shù)據(jù)集。(3)隨著技術(shù)的發(fā)展,數(shù)據(jù)保存技術(shù)本身應(yīng)該確保數(shù)據(jù)的可讀性和可獲取性。因此,在提供(長(zhǎng)期)數(shù)據(jù)存檔時(shí),應(yīng)采取數(shù)據(jù)保護(hù)措施來(lái)保護(hù)數(shù)據(jù)的所有權(quán),確保其他關(guān)聯(lián)數(shù)據(jù)(包括其他數(shù)據(jù)集和新產(chǎn)生的科研數(shù)據(jù))的安全。
6.2 聯(lián)合訪問(wèn)控制和身份管理
大數(shù)據(jù)的科研團(tuán)隊(duì)?wèi)?yīng)該探究現(xiàn)有身份驗(yàn)證與授權(quán)基礎(chǔ)設(shè)施(AAI)(組織、團(tuán)體和國(guó)家)的聯(lián)合以及常見(jiàn)的聯(lián)合基礎(chǔ)設(shè)施服務(wù)和策略,包括保護(hù)相關(guān)的屬性和維護(hù)信任管理權(quán)。這種聯(lián)合可以在成員團(tuán)體和研究組織間分擔(dān)聯(lián)合基礎(chǔ)設(shè)施的管理責(zé)任。
對(duì)于用戶來(lái)講,通過(guò)信息化基礎(chǔ)設(shè)施進(jìn)行訪問(wèn),獲取相關(guān)的資源,是最吸引人的。這種方式將消除通過(guò)信息化基礎(chǔ)設(shè)施獲取資源的障礙:用戶能夠使用他們的機(jī)構(gòu)賬號(hào)向SDI提出注冊(cè)申請(qǐng)(一般通過(guò)網(wǎng)站登錄),獲取相關(guān)資源和流程。網(wǎng)站負(fù)責(zé)鑒別用戶身份,并將這個(gè)賬戶映射到被認(rèn)可的合作/聯(lián)合的SDI網(wǎng)站的本地身份證明/證書(shū)上。用戶使用這個(gè)證書(shū)可以訪問(wèn)聯(lián)合基礎(chǔ)設(shè)施的其他網(wǎng)站或者獲取相關(guān)的資源。
在本文提出的e-SDI架構(gòu)模型中,聯(lián)合訪問(wèn)控制簡(jiǎn)化了對(duì)虛擬用戶組的管理,支持相應(yīng)的聯(lián)合基礎(chǔ)設(shè)施。聯(lián)合策略層B5提供了許多支持其運(yùn)行的功能、協(xié)議和界面:服務(wù)注冊(cè)與發(fā)現(xiàn)、可靠的服務(wù)代理商、身份標(biāo)識(shí)提供商(IdP)、可靠的管理器/路由器、屬性/名稱空間解析器、互聯(lián)云網(wǎng)關(guān)和/或?qū)傩?名稱空間解碼器。聯(lián)合ACAI能夠利用現(xiàn)有的平臺(tái)進(jìn)行聯(lián)合網(wǎng)絡(luò)的訪問(wèn)和聯(lián)合身份的管理。這樣的訪問(wèn)和管理將廣泛地應(yīng)用于多個(gè)領(lǐng)域和擁有多供應(yīng)商的基礎(chǔ)設(shè)施集成中(如eduGAIN[17]、Eduroam[20]、Shibboleth[21]、CILogon[22]等)。
未來(lái)的研發(fā)包括進(jìn)一步定義SDLM、e-SDI和 ACAI組件,重點(diǎn)開(kāi)發(fā)e-SDI基礎(chǔ)設(shè)施組件。特別需要注意的是,根據(jù)需要可以利用基于云的IaaS 和PaaS平臺(tái)提供SDI服務(wù)。在提供這樣的SDI服務(wù)時(shí)需要進(jìn)一步明確整個(gè)SDI服務(wù)周期,特別是為支持即時(shí)科研工作流而提供的SDI服務(wù)。本文的研究也將支持相應(yīng)的云和互聯(lián)云框架的研究與開(kāi)發(fā),同時(shí)支持大數(shù)據(jù)科研信息化流程和基礎(chǔ)設(shè)施的運(yùn)行。
本文的研究得到了“歐洲科研數(shù)據(jù)/信息資源認(rèn)證、授權(quán)和計(jì)費(fèi)(AAA)平臺(tái)研究”特別項(xiàng)目的推動(dòng)和部分支持。該項(xiàng)目由歐盟委員會(huì)委托TERENA、LIBER、阿姆斯特丹大學(xué)、德布勒森大學(xué)聯(lián)合實(shí)施。本文作者對(duì)各參與成員間的現(xiàn)有研究基礎(chǔ)設(shè)施的不同方面和進(jìn)一步開(kāi)發(fā)AAA技術(shù)進(jìn)行了有價(jià)值的廣泛討論。本文提出的基于云的SDI框架是歐盟資助的FP7項(xiàng)目“廣義動(dòng)態(tài)基礎(chǔ)設(shè)施服務(wù)架構(gòu)”(GEYSERS, FP7-ICT-248657)和GEANT(Grant Agreement No. 238875)的成果。
[1] 全球研究數(shù)據(jù)基礎(chǔ)設(shè)施:全球研究數(shù)據(jù)基礎(chǔ)設(shè)施十年展望[EB/OL].[2012-03-06].http://www.grdi2020.eu/ Repository/FileScaricati/6bdc07fb-b21d-4b90-81d4-d909fdb96b87.pdf.
[2] 科研數(shù)據(jù)高級(jí)專家組.乘風(fēng)破浪:歐洲怎樣從科研數(shù)據(jù)大潮中獲益[EB/OL].[2010-10-06].Available at http://cordis.europa.eu/fp7/ict/e-infrastructure/docs/ hlg-sdi-report.pdf.
[3] ESFRI 2010年最新發(fā)展路線圖[EB/OL].[2012-09-26].http://ec.europa.eu/research/ infrastructures/pdf/esfri/esfri_roadmap/roadmap_2010/procedure_roadmap_ update.pdf.
[4] 歐洲科研數(shù)據(jù)/信息資源AAA平臺(tái)研究[EB/OL]. [2012-09-26].https://con f uence.terena.org/download/ attachments/30474266/AAA-Study-Report-0907.pdf.
[5] 研究合作的聯(lián)合身份管理[EB/OL].[2012-09-26]. https://cdsweb.cern.ch/record/1442597.
[6] SIENA歐洲e-Science網(wǎng)格及云標(biāo)準(zhǔn)發(fā)展路線圖[EB/OL].[2012-09-26].http://www.sienainitiative.eu/ Repository/Filescaricati/ 8ee3587a-f255-4e5c-aed4-9c2dc7b626f6.pdf.
[7] 尋找新地平線:EGI為2020年努力[EB/OL].[2012-09-26].http://www.egi.eu/blog/2012/03/09/seeking_new_ horizons_egis_role_for_2020.htm l.
[8] 未來(lái)互聯(lián)網(wǎng)報(bào)告[EB/OL].[2011-05-06].https://connect.innovateuk.org/c/document_library/get_f le?folderI d=861750&name=DLFE-33761.pdf.
[9] 全球大型強(qiáng)子對(duì)撞機(jī)網(wǎng)格(WLCG)[EB/OL].[2012-09-26].http://w lcg.web.cern.ch/.
[10] 歐洲數(shù)據(jù)保護(hù)指令[EB/OL].[2012-09-26].http://ec. europa.eu/justice/data-protection/index_en.htm.
[11] Koopa, David, et al.基于數(shù)據(jù)溯源的基礎(chǔ)設(shè)施支持可執(zhí)行文件的生命周期[EB/OL].[2012-09-26].http://vgc. poly.edu/~juliana/pub/vistrails-executable-paper.pdf.
[12] 聯(lián)合國(guó)教科文組織歐洲委員會(huì).開(kāi)放訪問(wèn):機(jī)遇與挑戰(zhàn)[EB/OL].[2012-09-26].http://ec.europa.eu/research/ science-society/document_library/pdf_06/open-access-handbook_en.pdf.
[13] OpenAIR - 開(kāi)放訪問(wèn)歐洲研究基礎(chǔ)設(shè)施[EB/OL]. [2012-09-26].http://www.openaire.eu/.
[14] 開(kāi)放性研究者與貢獻(xiàn)者ID[EB/OL].[2012-09-26]. http://about.orcid.org/.
[15] 數(shù)據(jù)生命周期模型與概念[EB/OL].[2012-09-26]. http://wgiss.ceos.org/dsig/whitepapers/Data%20Lifecycle%20Models%20and%20Concepts%20v8.docx.
[16] EGI 聯(lián)合云任務(wù)組[EB/OL].[2012-09-26].http://www. egi.eu/infrastructure/cloud/cloudtaskforce.htm l.
[17] eduGAIN - 網(wǎng)絡(luò)服務(wù)和應(yīng)用的聯(lián)合訪問(wèn)[EB/OL]. [2012-09-26].http://www.edugain.org.
[18] Demchenko Y, Ngo C, Makkes M, et al.定義互聯(lián)云架構(gòu)的互用性和集成性[C]. 2012年第三屆國(guó)際云計(jì)算、網(wǎng)格和虛擬化云計(jì)算大會(huì),法國(guó)尼斯,2012年7月22-27日.
[19] 云參考框架[EB/OL].[2012-06-27].http://www.ietf. org/id/draft-khasnabish-cloud-reference-framework-03.txt.
[20] eduroam[EB/OL].[2012-06-27].http://www.eduroam.org.
[21] Shibboleth - 開(kāi)源聯(lián)合身份管理系統(tǒng)[EB/OL].[2012-06-27].http://shibboleth.net/.
[22] CILogon Service[EB/OL].[2012-06-27].http://www. cilogon.org/.
Big Data Challenges for e-Science Infrastructure
Demchenko Yuri, Zhao Zhiming, Grosso Paola, Wibisono Adianto, de Laat Cees
(System and Network Engineering Group, University of Amsterdam, Amsterdam 1098XH, Netherlands)
This paper discusses the challenges that are im posed by the Big Data Science on the modern and future Scientific Data Infrastructure (SDI). The paper refers to different scientific communities to define requirements on data management, access control and security. The paper introduces the Scientif c Data Lifecycle Management (SDLM) model that includes all the major stages and refects specif cs in data management in modern e-Science. The paper proposes the SDI generic architecture m odel that provides a basis for building interoperable data or project centric SDI using modern technologies and best practices. The paper explains how the proposed models SDLM and SDI can be naturally implemented using modern cloud based infrastructure services provisioning model. The paper also addresses issues with the federated access control to the SDI resources that provides a fexible access control and identity management model for scientif c and research communities.
big data science, Scientific Data Infrastructure (SDI), Scientific Data Lifecycle Management (SDLM), cloud infrastructure services, e-Science
G311
:ADOI:10.3772/j.issn.1674-1544.2013.01.006
Demchenko Yuri(1958- ),男,阿姆斯特丹大學(xué)系統(tǒng)與網(wǎng)絡(luò)工程組研究員,研究方向:云和云際的架構(gòu),大數(shù)據(jù)的科學(xué)基礎(chǔ)設(shè)施,通用安全體系結(jié)構(gòu)和分布式訪問(wèn)控制的基礎(chǔ)設(shè)施。
國(guó)家軟科學(xué)研究計(jì)劃資助項(xiàng)目“以老年人為中心的電子健康需求及其使能技術(shù)評(píng)價(jià)體系研究”(2011GXQ4K029);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目“信息系統(tǒng)的采納、擴(kuò)散與商業(yè)價(jià)值機(jī)理研究”(70831003);歐盟GEYSERS—基礎(chǔ)設(shè)施服務(wù)的通用體系架構(gòu)項(xiàng)目(FTP-ICT-248657);歐盟GEANT—高帶寬的泛歐網(wǎng)絡(luò)項(xiàng)目(238875)。
2012年10月15日。