文 /黎建輝 虞路清 張波 劉峰 吳章生
隨著云計(jì)算、云存儲(chǔ)和災(zāi)備系統(tǒng)陸續(xù)上線,科學(xué)數(shù)據(jù)云各項(xiàng)服務(wù)逐步投入使用,科學(xué)數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù)能力得到了全面提升。2013年9月,中科院條財(cái)局發(fā)布了《中國(guó)科學(xué)院云存儲(chǔ)服務(wù)管理暫行辦法》,為基礎(chǔ)設(shè)施云服務(wù)提供了指導(dǎo)依據(jù)。目前云存儲(chǔ)服務(wù)正常率達(dá)到99.9%,用戶總使用量達(dá)12.2PB,服務(wù)規(guī)模逐年提升,展示了云服務(wù)積極成效。
云存儲(chǔ)規(guī)模達(dá)12PB,科研用戶通過(guò)科學(xué)院郵箱直接登錄或快速注冊(cè)后,即可通過(guò)4種方式使用云存儲(chǔ)服務(wù):(1)訪問(wèn)云存儲(chǔ)站點(diǎn)(service.dcloud.cn),通過(guò)Web網(wǎng)頁(yè)上傳下載數(shù)據(jù);(2)利用Web Service云存儲(chǔ)接口(RESTFUL/SOAP)開(kāi)發(fā)應(yīng)用程序使用存儲(chǔ)空間;(3)Linux環(huán)境下直接掛載(mount)云存儲(chǔ)空間存取數(shù)據(jù);(4)使用客戶端程序,連接云存儲(chǔ)空間后存取數(shù)據(jù)。目前云存儲(chǔ)為543個(gè)科研團(tuán)隊(duì)提供服務(wù),已使用5PB,主要用于科研數(shù)據(jù)的在線存儲(chǔ)和應(yīng)用數(shù)據(jù)備份。
研發(fā)部署了云計(jì)算服務(wù)系統(tǒng),具備了虛擬機(jī)生產(chǎn)、應(yīng)用和服務(wù)的核心功能(如圖1所示),包括虛擬機(jī)全生命周期管理、鏡像管理、快照管理、凍結(jié)與激活管理、云安全管理、云監(jiān)控管理等。目前,已投入運(yùn)行100臺(tái)服務(wù)器,測(cè)試可支持極限值達(dá)8000個(gè)虛擬機(jī),展示出良好的平臺(tái)魯棒性。面向中科院服務(wù)方面,已按需定制提供了430個(gè)虛擬機(jī),用于信息化專項(xiàng)、科技領(lǐng)域云項(xiàng)目等應(yīng)用。同時(shí),針對(duì)私有云部署需求,開(kāi)發(fā)了一鍵快速安裝應(yīng)用和混合云快速部署應(yīng)用,可在30分鐘內(nèi)實(shí)現(xiàn)對(duì)上百臺(tái)服務(wù)器完成部署云計(jì)算服務(wù)環(huán)境。目前已為相關(guān)科研項(xiàng)目部署私有云環(huán)境30套。
圖1 云計(jì)算服務(wù)系統(tǒng)架構(gòu)
科學(xué)數(shù)據(jù)云歸檔環(huán)境每天可實(shí)現(xiàn)20TB高速歸檔或數(shù)據(jù)恢復(fù),面向中科院重大科研項(xiàng)目、信息化建設(shè)、中科院檔案館以及研究所存儲(chǔ)備份需求,目前總存儲(chǔ)備份數(shù)據(jù)量突破7PB,存儲(chǔ)用戶和數(shù)據(jù)量呈高速增長(zhǎng)趨勢(shì)。
為推動(dòng)科學(xué)數(shù)據(jù)云的優(yōu)勢(shì)資源服務(wù),中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心面向社會(huì)需求和政府服務(wù)采購(gòu)需求,以“中科澤云”進(jìn)行優(yōu)質(zhì)資源成果轉(zhuǎn)化如高等級(jí)災(zāi)備資源等,加強(qiáng)產(chǎn)業(yè)化服務(wù)推廣。具體業(yè)務(wù)由下屬控股公司經(jīng)營(yíng),承接院外重點(diǎn)用戶,靈活提供私有云、混合云和公有云環(huán)境的技術(shù)、咨詢和運(yùn)維服務(wù),推動(dòng)安全、可信、專業(yè)的云環(huán)境產(chǎn)業(yè)化服務(wù)(如圖2所示)。
圖2 面向用戶的中科澤云解決方案
2014年7月,北京市地方稅務(wù)局通過(guò)公開(kāi)招投標(biāo)、采購(gòu)社會(huì)公共服務(wù)的方式,采購(gòu)了中科院“兩地三中心”容災(zāi)服務(wù),通過(guò)技術(shù)隊(duì)伍在科學(xué)數(shù)據(jù)云災(zāi)備服務(wù)環(huán)境的快速部署,已達(dá)到預(yù)期的災(zāi)備運(yùn)維目標(biāo),實(shí)現(xiàn)大幅度提升關(guān)鍵業(yè)務(wù)與數(shù)據(jù)的災(zāi)備等級(jí),同時(shí)大幅度縮減了災(zāi)備應(yīng)用的投入時(shí)間,災(zāi)備擴(kuò)展與運(yùn)維總體成本降低達(dá)30%。
中科澤云是首批獲得ICANN gTLD數(shù)據(jù)托管資質(zhì)的企業(yè),也是全球6家企業(yè)中的2家中國(guó)企業(yè)之一,目前已為.公益、.ren、.公司、.網(wǎng)絡(luò)、.廣東、.佛山等6個(gè)新通用頂級(jí)域名提供數(shù)據(jù)托管(Data Escrow)服務(wù),為ICANN RDE計(jì)劃實(shí)施提供了可靠的可選方案,也為中國(guó)企業(yè)的域名數(shù)據(jù)安全與業(yè)務(wù)持續(xù)性提供了支持。
通過(guò)對(duì)建庫(kù)軟件VisualDB的升級(jí)改造,依托科學(xué)數(shù)據(jù)云的基礎(chǔ)設(shè)施資源,研發(fā)了云端建庫(kù)工具VDB Cloud,為科研人員提供了便捷的進(jìn)行云端建庫(kù)、數(shù)據(jù)管理及數(shù)據(jù)發(fā)布的服務(wù)。
通過(guò)圖形化拖曳界面、Excel導(dǎo)入、遠(yuǎn)程VDB導(dǎo)入三種方式快速創(chuàng)建數(shù)據(jù)庫(kù)表并對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行統(tǒng)一管理。可通過(guò)多種文件格式對(duì)表數(shù)據(jù)進(jìn)行導(dǎo)入導(dǎo)出,支持關(guān)系型數(shù)據(jù)和文件型數(shù)據(jù),支持6種以上主流的關(guān)系型數(shù)據(jù)庫(kù),實(shí)現(xiàn)2 分鐘內(nèi)云端自助建庫(kù)管理。用戶不需編寫代碼,能夠一鍵構(gòu)造網(wǎng)站,快速定制發(fā)布面向數(shù)據(jù)的應(yīng)用。目前,VDB Cloud已經(jīng)為50家數(shù)據(jù)庫(kù)建設(shè)單位提供服務(wù),提升了科研數(shù)據(jù)管理與服務(wù)能力。
面向科學(xué)數(shù)據(jù)云的建設(shè)與服務(wù),中心近年來(lái)研究制定了基礎(chǔ)設(shè)施運(yùn)行服務(wù)相關(guān)規(guī)范,資源集成和互操作技術(shù)規(guī)范,基于OAuth的科學(xué)數(shù)據(jù)統(tǒng)一登錄技術(shù)規(guī)范,以及服務(wù)科學(xué)數(shù)據(jù)資源建設(shè)與應(yīng)用的科學(xué)數(shù)據(jù)引用規(guī)范、數(shù)據(jù)共享社區(qū)服務(wù)規(guī)范等。目前,已制定實(shí)施20多項(xiàng)標(biāo)準(zhǔn)規(guī)范,每年組織兩次技術(shù)培訓(xùn)向全院推廣應(yīng)用,初步形成了科學(xué)數(shù)據(jù)云的標(biāo)準(zhǔn)規(guī)范體系。
為加強(qiáng)標(biāo)準(zhǔn)規(guī)范的推廣力度,積極推動(dòng)科學(xué)數(shù)據(jù)云的相關(guān)規(guī)范提升為國(guó)家標(biāo)準(zhǔn)。繼2006年主持完成《生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)》(GB/T 20533-2006)國(guó)家標(biāo)準(zhǔn)后,2011年,又聯(lián)合中科院南京土壤研究所制定《土壤科學(xué)數(shù)據(jù)元數(shù)據(jù)》國(guó)家標(biāo)準(zhǔn)(立項(xiàng)編號(hào):20111821-T-326),參與制定衛(wèi)生部“衛(wèi)生檢測(cè)數(shù)據(jù)采集與交換技術(shù)規(guī)范”。2014年,申請(qǐng)的《科學(xué)數(shù)據(jù)引用》和《數(shù)據(jù)溯源描述模型》獲批在國(guó)家標(biāo)準(zhǔn)委立項(xiàng)。
將數(shù)據(jù)集作為出版對(duì)象是一種新興出版模式,是出版界和數(shù)據(jù)共享界共同推進(jìn)的創(chuàng)新行動(dòng),有助于理順數(shù)據(jù)資源相關(guān)權(quán)益,是深化科學(xué)數(shù)據(jù)共享的重要機(jī)制??茖W(xué)數(shù)據(jù)出版將推動(dòng)科學(xué)數(shù)據(jù)資源的公開(kāi)發(fā)布、有序匯聚、長(zhǎng)期保存、數(shù)據(jù)發(fā)現(xiàn)、論文引用和重復(fù)利用等。
依托科學(xué)數(shù)據(jù)云資源環(huán)境,研究制定了科學(xué)數(shù)據(jù)出版與引用相關(guān)技術(shù)規(guī)范,開(kāi)發(fā)了《中國(guó)科學(xué)數(shù)據(jù)》在線出版系統(tǒng),以及數(shù)據(jù)出版存儲(chǔ)服務(wù)平臺(tái)??茖W(xué)數(shù)據(jù)出版存儲(chǔ)服務(wù)平臺(tái)將為科學(xué)數(shù)據(jù)出版提供長(zhǎng)期、安全、適用(適度覆蓋學(xué)科特點(diǎn)兼容未來(lái)擴(kuò)展)的數(shù)據(jù)存儲(chǔ)在線服務(wù),為科學(xué)數(shù)據(jù)資源賦予數(shù)字對(duì)象唯一標(biāo)識(shí),從基礎(chǔ)設(shè)施上、應(yīng)用服務(wù)技術(shù)上解決科學(xué)數(shù)據(jù)出版的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)引用的關(guān)鍵問(wèn)題,將促進(jìn)科學(xué)數(shù)據(jù)出版事業(yè)的發(fā)展。目前,科學(xué)數(shù)據(jù)論文的征集、審議得到順利推進(jìn),《中國(guó)科學(xué)數(shù)據(jù)》即將試行服務(wù)。
科學(xué)數(shù)據(jù)云已整合可共享科學(xué)數(shù)據(jù)總量達(dá)553TB,包括20個(gè)重點(diǎn)數(shù)據(jù)庫(kù)和20個(gè)專業(yè)數(shù)據(jù)庫(kù)統(tǒng)計(jì)。在地球科學(xué)、生物信息學(xué)、天文與空間科學(xué)、理化與材料,以及數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)庫(kù)建設(shè)和數(shù)據(jù)應(yīng)用等方面設(shè)立數(shù)據(jù)服務(wù)專員。通過(guò)科學(xué)數(shù)據(jù)云門戶系統(tǒng),提供7 ×24小時(shí)網(wǎng)上服務(wù),近年來(lái)年均訪問(wèn)人次超過(guò)千萬(wàn),數(shù)據(jù)下載量超過(guò)300TB。中科院科學(xué)數(shù)據(jù)庫(kù)已經(jīng)發(fā)展成為國(guó)內(nèi)規(guī)模最大、具有完善的技術(shù)規(guī)范的綜合性科學(xué)數(shù)據(jù)庫(kù),在國(guó)內(nèi)外都產(chǎn)生了較大影響,科學(xué)數(shù)據(jù)共享服務(wù)成為中科院科研信息化的基本公共服務(wù)。
面向地學(xué)、遙感、海洋、環(huán)境等學(xué)科服務(wù),經(jīng)過(guò)多年迭代研發(fā),建立了地理空間數(shù)據(jù)云(GSCloud)服務(wù),經(jīng)過(guò)6年多的發(fā)展,地理空間數(shù)據(jù)云已經(jīng)建立了覆蓋周期長(zhǎng)、覆蓋范圍廣的全球變化數(shù)據(jù)資源儲(chǔ)備庫(kù),提供覆蓋周期長(zhǎng)、覆蓋范圍廣的全球變化數(shù)據(jù)資源,含10大類95個(gè)原始數(shù)據(jù)產(chǎn)品,目前,注冊(cè)用戶達(dá)9萬(wàn)人。
面向生物學(xué)科服務(wù),研發(fā)了分子生物數(shù)據(jù)分析平臺(tái)即達(dá)爾文進(jìn)化樹(Darwintree),提供所有生物的基因mark數(shù)據(jù)從國(guó)際公共數(shù)據(jù)庫(kù)(NCBI、DDBJ、EMBL)的自動(dòng)獲取、數(shù)據(jù)清洗和數(shù)據(jù)加工,數(shù)據(jù)量已超過(guò)1.8億記錄數(shù)。用戶來(lái)自中科院的植物所、動(dòng)物所、微生物所、西北高原生物研究所、計(jì)算所等,高校用戶包括中國(guó)農(nóng)業(yè)大學(xué)、山東農(nóng)業(yè)大學(xué)、福建農(nóng)林大學(xué)、大連海事大學(xué)、四川農(nóng)業(yè)大學(xué)、南通大學(xué)等。此外,還推動(dòng)了與美國(guó)佛羅里達(dá)大學(xué)在世界陸地植物大框架研究領(lǐng)域的合作。
科學(xué)數(shù)據(jù)云為中科院戰(zhàn)略性先導(dǎo)項(xiàng)目的研發(fā)提供了重要支撐,例如,面向支持碳循環(huán)研究的信息化環(huán)境支持建立我國(guó)陸地生態(tài)系統(tǒng)固碳潛力與速率的綜合模擬與集成分析平臺(tái),為“空間先導(dǎo)專項(xiàng)”依托科學(xué)數(shù)據(jù)云災(zāi)備設(shè)施網(wǎng)絡(luò)開(kāi)發(fā)衛(wèi)星數(shù)據(jù)災(zāi)備解決方案;為環(huán)境保護(hù)部重大專項(xiàng)全國(guó)生態(tài)環(huán)境綜合評(píng)價(jià)系統(tǒng)建設(shè),支持遙感數(shù)據(jù)和評(píng)估結(jié)果等地理空間數(shù)據(jù)的網(wǎng)絡(luò)發(fā)布、共享服務(wù)和應(yīng)用分析;為國(guó)家科技支撐計(jì)劃“食品安全隱患信息采集及時(shí)空可視化預(yù)警系統(tǒng)研究”提供垂直信息搜集整合和可視化預(yù)警平臺(tái)等支持;為國(guó)家自然科學(xué)基金委重大研究計(jì)劃“面向非常規(guī)突發(fā)事件應(yīng)急管理的云服務(wù)體系和關(guān)鍵技術(shù)”、國(guó)家發(fā)改委高技術(shù)服務(wù)業(yè)研發(fā)與產(chǎn)業(yè)化專項(xiàng)“基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺(tái)應(yīng)用示范”項(xiàng)目等提供云存儲(chǔ)和云計(jì)算平臺(tái)應(yīng)用支持等。
針對(duì)長(zhǎng)時(shí)間系列的觀測(cè)數(shù)據(jù)可視分析開(kāi)發(fā)建立了一套可視化分析平臺(tái)(Dviz),一般科研人員服務(wù)使用Dviz即可開(kāi)展數(shù)據(jù)分析服務(wù)。Dviz提供逐步的用戶交互操作,例如數(shù)值查詢等,為研究分析提供了更為便利的手段。目前,Dviz可視化平臺(tái)在包括中科院心理所、地理所、寒旱所、空間中心、北京市疾控中心、伊利集團(tuán)等進(jìn)行了應(yīng)用。以中科院心理所的應(yīng)用需求為例,采用Dviz可視化平臺(tái),能夠快速生成調(diào)查數(shù)據(jù)可視化結(jié)果,還可以利用時(shí)間軸,分析調(diào)查數(shù)據(jù)的變化趨勢(shì)和空間分布情況,大幅提高科研工作效率。
通過(guò)支撐開(kāi)展交通擁堵數(shù)據(jù)、禽流感傳播數(shù)據(jù)、數(shù)據(jù)壓縮等大數(shù)據(jù)應(yīng)用相關(guān)技術(shù)研發(fā),科學(xué)數(shù)據(jù)云的研發(fā)團(tuán)隊(duì)取得了系列重要學(xué)術(shù)成果。例如,關(guān)于H7N9傳播數(shù)據(jù)的分析論文發(fā)表于頂級(jí)醫(yī)學(xué)期刊Lancet和Nature Communication等刊物,把熱量傳播模型(heat diffusion model)引入到城市交通異常擴(kuò)散的數(shù)據(jù)分析,被國(guó)際數(shù)據(jù)挖掘一流會(huì)議sdm2014錄用,同時(shí)參加2014空間數(shù)據(jù)壓縮國(guó)際競(jìng)賽(acm sigspatial #GIS CUP)并包攬了競(jìng)賽的前兩名。