黎建輝,周園春,胡良霖,劉峰,朱艷華,沈志宏,吳章生,張楊
中國科學院計算機網(wǎng)絡(luò)信息中心,北京 100190
中國科學院科學數(shù)據(jù)云建設(shè)與服務(wù)
黎建輝,周園春,胡良霖,劉峰,朱艷華,沈志宏,吳章生,張楊
中國科學院計算機網(wǎng)絡(luò)信息中心,北京 100190
科技數(shù)據(jù)資源整合與共享工程是中國科學院“十二五”五大信息化工程之一??偨Y(jié)了該項目的整體建設(shè)思想、建設(shè)情況、技術(shù)創(chuàng)新和服務(wù)創(chuàng)新等內(nèi)容。截至項目結(jié)束,數(shù)據(jù)工程建成了存儲容量達52 PB的分布式海量存儲環(huán)境;整合可共享科學數(shù)據(jù)總量近655 TB,累計訪問人次9 629萬次,累計下載量456 TB;同時為用戶提供強大的科學數(shù)據(jù)與文獻互聯(lián)以及豐富的可視化展示平臺。工程實現(xiàn)了以基礎(chǔ)設(shè)施云服務(wù)、科研數(shù)據(jù)云服務(wù)、數(shù)據(jù)應(yīng)用云服務(wù)為主體的多層次、交叉式信息化服務(wù)體系,逐漸建設(shè)形成共享開放、服務(wù)創(chuàng)新的國家級科技數(shù)據(jù)中心。
科學數(shù)據(jù);數(shù)據(jù)平臺;數(shù)據(jù)共享服務(wù);服務(wù)成效
迅速發(fā)展的信息技術(shù)不斷推動科研行為方式的變革和科技創(chuàng)新的發(fā)展。大數(shù)據(jù)在科研領(lǐng)域的蓬勃發(fā)展給科研方式帶來了革命性的改變。作為大數(shù)據(jù)的重要組成部分,科學大數(shù)據(jù)驅(qū)動科學研究進入數(shù)據(jù)密集型科學發(fā)現(xiàn)范式這一全新階段,已成為科學發(fā)現(xiàn)的新型戰(zhàn)略資源[1]。為了搶占科技競爭的至高點,世界各國已紛紛把科學大數(shù)據(jù)納入國家戰(zhàn)略,并開始重點部署。2015年8月31日,國務(wù)院發(fā)布了《促進大數(shù)據(jù)發(fā)展行動綱要》,標志著我國正式把發(fā)展大數(shù)據(jù)上升為國家戰(zhàn)略。
作為中國科技的“國家隊”,中國科學院(以下簡稱中科院)一直高度重視科學數(shù)據(jù)在科研發(fā)現(xiàn)、信息化建設(shè)中的創(chuàng)新及應(yīng)用。20世紀70年代,中科院開始建設(shè)專業(yè)數(shù)據(jù)庫。1982年科學數(shù)據(jù)庫被列入中科院“七五”和后10年的10項重大基本建設(shè)項目。1986年中華人民共和國國家計劃委員會正式批復同意建設(shè)“中國科學院科學數(shù)據(jù)庫及其信息系統(tǒng)”,并于1987年正式啟動建設(shè)。該項目1997年獲得“中國科學院科技進步獎一等獎”,1998年獲得“國家科技進步獎二等獎”,基本形成了以研究所和課題組自主自治為單元的科學數(shù)據(jù)資源建設(shè)和積累模式?!笆濉逼陂g,科學數(shù)據(jù)庫建設(shè)逐步系統(tǒng)化、規(guī)范化,共建成503個專業(yè)子庫。“十一五”期間,在中科院信息化專項和國家科技基礎(chǔ)條件平臺等的支持下,科學數(shù)據(jù)庫逐步形成結(jié)構(gòu)合理的科學數(shù)據(jù)網(wǎng)格體系,整合可共享數(shù)據(jù)量達148 TB。
“十二五”期間,中科院面向科技創(chuàng)新和科研信息化需求,啟動“科技數(shù)據(jù)資源整合與共享工程”建設(shè),目標著眼于“?!ぴ啤彼枷耄嫱苿尤嚎萍紨?shù)據(jù)基礎(chǔ)資源、海量存儲與處理基礎(chǔ)設(shè)施、數(shù)據(jù)集成與應(yīng)用先進環(huán)境的建設(shè)與服務(wù)?!翱萍紨?shù)據(jù)資源整合與共享工程”項目涵蓋數(shù)據(jù)存儲與管理云服務(wù)環(huán)境、科學數(shù)據(jù)整合與共享服務(wù)、海量科學數(shù)據(jù)分析與應(yīng)用示范3個子項目。截至項目結(jié)束,數(shù)據(jù)工程已建成了52 PB存儲容量的數(shù)據(jù)資源中心,系統(tǒng)地整合了58家單位的科學數(shù)據(jù)庫,可共享數(shù)據(jù)量達655 TB,重要數(shù)據(jù)服務(wù)130余例,在服務(wù)科技創(chuàng)新、國家戰(zhàn)略、學科發(fā)展、社會應(yīng)用、國際合作等方面發(fā)揮了重要應(yīng)用。
中國科學院計算機網(wǎng)絡(luò)信息中心作為中科院“十二五”科技數(shù)據(jù)資源整合與共享工程項目的總承擔單位,秉承“統(tǒng)籌規(guī)劃,整合集成,公開共享,服務(wù)科研”原則,踐行由硬件建設(shè)向環(huán)境構(gòu)建、工程化項目向持續(xù)化發(fā)展的重要轉(zhuǎn)變,構(gòu)建云服務(wù)模式,形成支持科研活動與科技創(chuàng)新的數(shù)據(jù)云,并從基礎(chǔ)設(shè)施、數(shù)據(jù)資源、應(yīng)用平臺三大類服務(wù)的角度整合集成各類資源和服務(wù)。其中,基礎(chǔ)設(shè)施即服務(wù)(IaaS)提供數(shù)據(jù)的云存儲、云計算、云災(zāi)備、云歸檔等服務(wù);數(shù)據(jù)即服務(wù)(DaaS)支持自助云端數(shù)據(jù)建庫管理,推動數(shù)據(jù)在云端匯聚,以通用接口實現(xiàn)數(shù)據(jù)云共享;軟件即服務(wù)(SaaS)則基于云環(huán)境支持各類數(shù)據(jù)應(yīng)用軟件的發(fā)布、運行和共享。數(shù)據(jù)工程整體架構(gòu)設(shè)計如圖1所示。
中科院“十二五”數(shù)據(jù)工程項目共設(shè)置數(shù)據(jù)存儲與管理云服務(wù)環(huán)境、科學數(shù)據(jù)整合與共享服務(wù)、海量科學數(shù)據(jù)分析與應(yīng)用示范3個相互緊密聯(lián)系又獨立實施的子項目。
“數(shù)據(jù)存儲與管理云服務(wù)環(huán)境”子項目面向科學活動大數(shù)據(jù)的管理和應(yīng)用需求,建設(shè)具有海量存儲與處理能力的科學數(shù)據(jù)基礎(chǔ)設(shè)施。在“十二五”末期形成50 PB容量的院級存儲與服務(wù)環(huán)境,布局全院、直達各所,實現(xiàn)存儲設(shè)施的虛擬化統(tǒng)一管理;與先進網(wǎng)絡(luò)設(shè)施互通,為科研活動提供以海量存儲設(shè)施為基礎(chǔ)的云存儲、云歸檔、虛擬機和數(shù)據(jù)云等服務(wù);為海量科學數(shù)據(jù)管理和共享提供運行支撐環(huán)境,為“十二五”創(chuàng)新活動提供存儲設(shè)施保障。
“科學數(shù)據(jù)整合與共享服務(wù)”子項目面向?qū)W科發(fā)展和科研應(yīng)用,通過整體規(guī)劃和設(shè)計,在全院公開優(yōu)選資源,重點整合一批具有優(yōu)勢地位的學科領(lǐng)域主題數(shù)據(jù)庫,示范整合一批研究所數(shù)據(jù)資源整體集成的專題數(shù)據(jù)庫,滾動支持一批長期積累和能夠共享的專業(yè)數(shù)據(jù)庫;形成科學數(shù)據(jù)共享服務(wù)監(jiān)控和效果評估管理機制和支撐系統(tǒng),深化數(shù)據(jù)資源的集成整合服務(wù),推動全院的數(shù)據(jù)整合、歸檔、匯聚和發(fā)布共享,整合資源量達到500 TB,并作為數(shù)據(jù)云服務(wù)的核心內(nèi)容,深入融合在數(shù)據(jù)基礎(chǔ)設(shè)施,并提供廣泛的公共數(shù)據(jù)服務(wù)。
“海量科學數(shù)據(jù)分析與應(yīng)用示范”子項目依托海量存儲為核心的數(shù)據(jù)基礎(chǔ)設(shè)施,立足全院海量數(shù)據(jù)資源和科技文獻信息,加強數(shù)據(jù)挖掘分析與可視化系統(tǒng),加強數(shù)據(jù)與文獻服務(wù)的集成化服務(wù)系統(tǒng),實現(xiàn)科學數(shù)據(jù)與科技文獻語義關(guān)聯(lián)服務(wù)示范,實現(xiàn)數(shù)據(jù)可視化交互分析平臺,充實數(shù)據(jù)基礎(chǔ)設(shè)施的基本服務(wù),深化先進數(shù)據(jù)應(yīng)用,形成具有特色的面向公共支撐服務(wù)的海量數(shù)據(jù)分析與應(yīng)用環(huán)境。
圖1 “十二五”數(shù)據(jù)工程整體架構(gòu)
中科院“十二五”數(shù)據(jù)工程以數(shù)據(jù)資產(chǎn)為核心,充分利用先進的云計算技術(shù),整合數(shù)據(jù)全生命周期的重要設(shè)施與資源,是現(xiàn)代科研創(chuàng)新體系的重要組成,也是大數(shù)據(jù)科研成果服務(wù)于社會應(yīng)用的示范平臺。數(shù)據(jù)存儲與管理云服務(wù)環(huán)境、科學數(shù)據(jù)整合與共享服務(wù)以及海量科學數(shù)據(jù)分析與應(yīng)用示范3個子項目得以順利實施并取得了豐碩的成果。
(1)建成了存儲容量達52 PB的分布式的海量存儲環(huán)境,支撐全院重要數(shù)據(jù)資產(chǎn)的容災(zāi)備份、長期保存、共享服務(wù)與增值應(yīng)用
中科院數(shù)據(jù)云環(huán)境為科研活動提供以海量存儲設(shè)施為基礎(chǔ)的云存儲、云歸檔、虛擬機和數(shù)據(jù)云等服務(wù),為科學數(shù)據(jù)管理和共享提供運行支撐環(huán)境,為科研創(chuàng)新活動存儲提供了有效保障。截至項目結(jié)束,中科院數(shù)據(jù)云存儲環(huán)境運行服務(wù)總?cè)萘窟_52 PB,云存儲規(guī)模達8 PB,共擁有物理服務(wù)器約300臺,虛擬機5 000多臺的計算服務(wù)能力;數(shù)據(jù)歸檔總?cè)萘窟_38 PB,擁有歸檔能力大于20 TB/天、在線磁盤陣列容量達到2 PB、近線磁帶庫存儲容量達到30 PB的歸檔系統(tǒng);建成布局中科院、直達各所的“一主一備+12分中心”的分布式、可擴展存儲系統(tǒng),提供滿足國標5級的“同城雙中心”“兩地三中心”的高等級的災(zāi)備服務(wù)。
同時,該項目研發(fā)部署了可視化數(shù)據(jù)管理與發(fā)布工具VisualDB、數(shù)據(jù)交換與共享云平臺 DataPub、科學數(shù)據(jù)服務(wù)效果評估工具等,形成了面向科學數(shù)據(jù)領(lǐng)域的云存儲和云計算服務(wù),為科研人員提供了穩(wěn)定易用的數(shù)據(jù)庫建設(shè)工具、自組織的科研社區(qū)建設(shè)工具,形成了支持科學數(shù)據(jù)庫績效評估和科學數(shù)據(jù)出版的能力;支持了空間科學先導專項、衛(wèi)星遙感、微生物等領(lǐng)域的數(shù)據(jù)存儲,在35個院內(nèi)單位部署了VisualDB,為北京市地方稅務(wù)局等地方單位提供了數(shù)據(jù)容災(zāi)服務(wù);科學數(shù)據(jù)引用規(guī)范、數(shù)據(jù)溯源表達模型獲得國家標準立項,《中國科學數(shù)據(jù)》獲得我國首批網(wǎng)絡(luò)連續(xù)型出版物試點(CN11-6035/N)。
(2)面向科技數(shù)據(jù)資源的持續(xù)發(fā)展與應(yīng)用,通過重點庫與專業(yè)庫建設(shè),基本形成后評估模式的科學數(shù)據(jù)長期共享服務(wù)環(huán)境和管理機制
“科學數(shù)據(jù)整合與共享服務(wù)”子項目面向中科院科學研究活動的需求,強化科學數(shù)據(jù)資源的整合與集成,基本形成后評估模式的科學數(shù)據(jù)長期共享服務(wù)環(huán)境和管理機制。截至項目結(jié)束,科學數(shù)據(jù)庫重點完成了資源學科領(lǐng)域、土壤學科領(lǐng)域、動物學科領(lǐng)域、植物學科領(lǐng)域、材料學科領(lǐng)域等13個領(lǐng)域重點庫,紫金山天文臺、昆明植物研究所、南海海洋研究所、南京地理與湖泊研究所等7個所級重點庫的整合建設(shè),完成了大氣科學、黃土高原水土保持、中國濕地與黑土生態(tài)、中國“金釘子”等20個專業(yè)庫的持續(xù)建設(shè)與服務(wù),數(shù)據(jù)資源內(nèi)容廣泛涉及地學、生物、物理、化學、材料、空間、天文、海洋、能源、信息等學科領(lǐng)域,數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、學科覆蓋范圍均得到大幅度提升。
根據(jù)科學數(shù)據(jù)庫統(tǒng)一監(jiān)控與統(tǒng)計分析,58家建庫單位共建完成40個數(shù)據(jù)庫,整合可共享的資源量達655 TB。特別是依托科學數(shù)據(jù)庫共建單位建立了面向全院的數(shù)據(jù)咨詢服務(wù)體系,累計為131項科研項目提供了數(shù)據(jù)支持和服務(wù),在支持科研項目、支撐學科發(fā)展和服務(wù)經(jīng)濟社會發(fā)展等方面均取得了良好的效果,積極推進了典型的數(shù)據(jù)應(yīng)用。“十二五”期間,共發(fā)表論文751篇,申請軟件著作權(quán)55項、專利30項。
(3)基于科學數(shù)據(jù)與文獻關(guān)聯(lián)服務(wù)應(yīng)用示范和海量科學數(shù)據(jù)分析可視化關(guān)鍵技術(shù)研究與應(yīng)用示范的成功探索,為用戶提供強大的科學數(shù)據(jù)與文獻互聯(lián)、豐富的可視化展示等功能
“科學數(shù)據(jù)與科技文獻集成服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用”示范課題的主要目標是采用近期熱點研究的開放關(guān)聯(lián)的理念,進行實踐探索,將科學文獻與科學數(shù)據(jù)有效關(guān)聯(lián),為科學信息的獲取和傳播探索新途徑。充分利用關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)機制,通過關(guān)聯(lián)映射模板及唯一標識符實現(xiàn)數(shù)據(jù)層不同類型資源描述框架(resource description framework,RDF)資源間的關(guān)聯(lián),同時采用了數(shù)據(jù)挖掘機制,通過術(shù)語共現(xiàn)分析等手段開展關(guān)聯(lián)路徑分析,使得文獻與科學數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)和外部關(guān)聯(lián)均得到充分展示。
“海量科學數(shù)據(jù)分析可視化關(guān)鍵技術(shù)研究與應(yīng)用”示范課題面向可視化應(yīng)用開發(fā),基于模型驅(qū)動理論,設(shè)計并采用了可視化應(yīng)用模型——DVDL,利用模塊化、層次化描述的可視化描述語言,可對組成可視化的各個部分進行不同抽象層次上的描述。其研究成果已經(jīng)應(yīng)用到中科院寒區(qū)旱區(qū)環(huán)境與工程研究所、地理科學與資源研究所等研究單位的科研活動,同時在伊利集團、北京市疾病預防控制中心、北京市地方稅務(wù)局等企事業(yè)單位進行了實際的使用,產(chǎn)生了相應(yīng)的社會效益和經(jīng)濟價值。
3個子項目的順利實施,推動了中科院科技數(shù)據(jù)基礎(chǔ)資源、海量存儲與處理基礎(chǔ)設(shè)施、數(shù)據(jù)集成與應(yīng)用先進環(huán)境的建設(shè)與服務(wù),形成以海量科學數(shù)據(jù)為核心的系列“?!ぴ啤狈?wù),成為科技云的重要支柱之一?!笆濉蹦┢冢μ嵘萍紨?shù)據(jù)戰(zhàn)略管理和支撐服務(wù)能力,為中科院乃至國家科技發(fā)展提供強大和持續(xù)的數(shù)據(jù)基礎(chǔ)設(shè)施。項目積累的存儲、處理與應(yīng)用等資源整合,為數(shù)據(jù)云一站式服務(wù)相關(guān)技術(shù)以及持續(xù)推動科學數(shù)據(jù)云發(fā)展打下了堅實的基礎(chǔ)。
4.1 面臨的問題與挑戰(zhàn)
科學數(shù)據(jù)的大規(guī)模主要體現(xiàn)在數(shù)據(jù)量大、分布廣泛、結(jié)構(gòu)多樣等方面,而科學數(shù)據(jù)的服務(wù)要求快速有效,這對數(shù)據(jù)服務(wù)體系的設(shè)計和實現(xiàn)提出了問題與挑戰(zhàn)。
(1)如何快速整合資源
科學數(shù)據(jù)的格式類型和存儲形式多種多樣,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)同時存在,如氣象數(shù)據(jù)、地學數(shù)據(jù)等都有其獨特的數(shù)據(jù)結(jié)構(gòu)和存儲方式;同時,目前的科學數(shù)據(jù)作為重要資源,往往掌握在各科研單位手中,分布極為分散,這種分布式的存儲形式對數(shù)據(jù)快速有效的組織和整合形成了障礙。如何將這些多源異構(gòu)的數(shù)據(jù)管理和集成起來并提供統(tǒng)一快速的服務(wù),是數(shù)據(jù)服務(wù)體系需要解決的重要問題之一。
(2)如何針對資源提供高質(zhì)量的數(shù)據(jù)服務(wù)
數(shù)據(jù)服務(wù)體系的最終目標是為科研人員提供高質(zhì)量的數(shù)據(jù)服務(wù),這對服務(wù)的組織形式、交付方式都提出了較高的要求。一個好的服務(wù)體系設(shè)計需要對服務(wù)模式、交互方式等有深入的研究和分析。由于可持續(xù)管理是服務(wù)體系長期運行和有效服務(wù)的關(guān)鍵環(huán)節(jié),與政策等密切相關(guān),同時也對技術(shù)架構(gòu)提出了要求,通過技術(shù)設(shè)計促進服務(wù)體系的有效管理并形成激勵。
4.2 技術(shù)整體架構(gòu)
針對大規(guī)模數(shù)據(jù)資源分散存儲與統(tǒng)一服務(wù)的總體需求,結(jié)合上述體系框架設(shè)計的問題與挑戰(zhàn)的分析,在整個體系框架設(shè)計中,采用分層設(shè)計的模式,以滿足不同層次管理與服務(wù)的需求。整體框架分層結(jié)構(gòu)如圖2所示。
整個服務(wù)體系框架共分3層,自底向上分別是自治管理層、整合管理層、集成服務(wù)層。其中,自治管理層重點實現(xiàn)分布式數(shù)據(jù)資源自治管理與服務(wù),完成數(shù)據(jù)資源的本地化集成注冊、服務(wù)封裝及發(fā)布管理;整合管理層重點實現(xiàn)數(shù)據(jù)資源與服務(wù)的集中注冊、審核與發(fā)布管理,進而形成統(tǒng)一的資源服務(wù)目錄,同時實現(xiàn)對數(shù)據(jù)資源與服務(wù)的監(jiān)控、統(tǒng)計和評估管理,為分布式數(shù)據(jù)資源與服務(wù)的穩(wěn)定、優(yōu)質(zhì)服務(wù)提供支撐和保證;集成服務(wù)層是整個體系的對外服務(wù)門戶,該層重點實現(xiàn)數(shù)據(jù)資源的目錄、發(fā)現(xiàn)、訪問、獲取等公共服務(wù),同時面向最終用戶提供以數(shù)據(jù)資源為中心的集成、交流、共享、咨詢方面的服務(wù)系統(tǒng)。
圖2 大規(guī)模分布式科學數(shù)據(jù)管理與服務(wù)體系分層框架
4.3 典型的工具和軟件
下面從系統(tǒng)分層框架自治管理層、整合管理層和集成服務(wù)層各選一個典型的工具軟件進行重點介紹。
(1)自主建庫與共享服務(wù)工具集VisualDB 3.0①http://www. vdbspace.cn/
為解決分布式數(shù)據(jù)的在線獲取速度慢、不穩(wěn)定,數(shù)據(jù)分散化嚴重,不好組織和整理,不能提供穩(wěn)定API等問題,研發(fā)自主建庫與發(fā)布工具集VisualDB3.0,為本地獨立、自治的數(shù)據(jù)庫提供可視化、可配置的數(shù)據(jù)管理與發(fā)布功能。VisualDB3.0是一個幫助數(shù)據(jù)管理者管理和發(fā)布關(guān)系型數(shù)據(jù)庫和文件系統(tǒng)的工具,幫助應(yīng)用研發(fā)人員快速開發(fā)面向數(shù)據(jù)應(yīng)用的研發(fā)框架,是一套幫助數(shù)據(jù)應(yīng)用低成本集成異構(gòu)數(shù)據(jù)源的解決方案。通過多途徑在線建庫、自助式數(shù)據(jù)管理、定制化數(shù)據(jù)發(fā)布,科學數(shù)據(jù)庫能夠為e-Science應(yīng)用提供組織良好、質(zhì)量有保障、可穩(wěn)定訪問的數(shù)據(jù),目前支持MySQL、SQL Server、Oracle等多種關(guān)系數(shù)據(jù)庫以及文件數(shù)據(jù)類型等,還可以通過數(shù)據(jù)訪問的接口直接訪問數(shù)據(jù),用VDB Server來完成數(shù)據(jù)遷移。
(2)科學數(shù)據(jù)服務(wù)監(jiān)控與評估系統(tǒng)②http://sees.csdb. cn/
針對分布式數(shù)據(jù)庫網(wǎng)站的多類多指標采集的評估需求,整個評估體系建設(shè)根據(jù)評估指標的特點,進行分類集中采集和注冊匯交,形成了相關(guān)支撐系統(tǒng)層。數(shù)據(jù)監(jiān)控與訪問統(tǒng)計系統(tǒng)完成中斷運行時間、訪問人次、在線下載量等定量指標的采集,資源量在線統(tǒng)計系統(tǒng)記錄數(shù)、數(shù)據(jù)容量、數(shù)據(jù)更新頻率、訪問接口正常率等定量指標的采集,咨詢服務(wù)系統(tǒng)完成服務(wù)響應(yīng)率定量指標的采集,資源與服務(wù)注冊系統(tǒng)完成元數(shù)據(jù)、服務(wù)案例、知識產(chǎn)權(quán)的相關(guān)定性指標的集中注冊與匯交。全部定量指標的采集均可通過自動模式獲取。
(3)中科院數(shù)據(jù)云門戶③http://www. csdb.cn
中科院數(shù)據(jù)云門戶從降低設(shè)計復雜度、提升可維護性和可擴展性的角度出發(fā),軟件應(yīng)用整體設(shè)計采用MVC架構(gòu),對模型維護、數(shù)據(jù)展示、請求與響應(yīng)進行了分層處理??刂茖邮褂肧pring MVC作為框架,Spring MVC能夠很好地與Spring框架集成,并支持REST風格,框架穩(wěn)定、性能優(yōu)異;使用Spring作為容器來管理服務(wù)層的控制邏輯處理,能夠很好地解耦層次之間的調(diào)用關(guān)系;數(shù)據(jù)處理層采用Spring Data框架,能夠適應(yīng)于大多數(shù)數(shù)據(jù)庫;為了能夠集成科學數(shù)據(jù)資源與服務(wù)注冊系統(tǒng)的查詢功能,采用Axis2作為Web Service技術(shù),Axis2能夠與Spring框架集成,使用廣泛。同時針對新聞采編需求,定制開發(fā)了采編系統(tǒng),提供頁面靜態(tài)化、廣告、訪問統(tǒng)計等功能。中科院數(shù)據(jù)云門戶提供各項應(yīng)用監(jiān)控信息和數(shù)據(jù)統(tǒng)計功能,系統(tǒng)采用定時輪詢和多任務(wù)處理方式,采集各項應(yīng)用服務(wù)的監(jiān)控和統(tǒng)計數(shù)據(jù),并使用可視化方式進行展示。
5.1 數(shù)據(jù)服務(wù)科研新模式
“十二五”期間中科院數(shù)據(jù)云形成了以基礎(chǔ)設(shè)施云服務(wù)、科研數(shù)據(jù)云服務(wù)、數(shù)據(jù)應(yīng)用云服務(wù)為主體的多層次、交叉式信息化服務(wù)體系。中科院計算機網(wǎng)絡(luò)信息中心通過研發(fā)部署云計算系統(tǒng),為中科院信息化專項、先導專項、重點基金項目、科技支撐計劃等項目提供支持,并以生物信息學分子數(shù)據(jù)分析環(huán)境、地理空間數(shù)據(jù)云、DViz大數(shù)據(jù)可視化等應(yīng)用開發(fā)為示范,進行了數(shù)據(jù)服務(wù)科研新模式的思考和探索。
大數(shù)據(jù)資源庫的開發(fā)和服務(wù)探索了一種多源異構(gòu)大數(shù)據(jù)融合管理與服務(wù)的新方式。大數(shù)據(jù)時代的科學研究面臨的關(guān)鍵需求和技術(shù)挑戰(zhàn)包括海量復雜數(shù)據(jù)低成本高可靠存儲、高效管理以及快速分析與服務(wù)等。面向海量多源異構(gòu)數(shù)據(jù)管理問題,本研究突破了其中關(guān)鍵的技術(shù)問題:面向異質(zhì)科學數(shù)據(jù)的一致化管理技術(shù)、多源數(shù)據(jù)流程化匯聚與加工技術(shù)以及基于大數(shù)據(jù)資源庫的在線數(shù)據(jù)服務(wù)技術(shù)等。通過構(gòu)建適合大規(guī)??蒲袛?shù)據(jù)的存儲集群和管理系統(tǒng),最終實現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的融合管理。項目以生物學領(lǐng)域數(shù)據(jù)為示范,設(shè)計開發(fā)大數(shù)據(jù)資源庫服務(wù)平臺,通過生物學領(lǐng)域數(shù)據(jù)對外數(shù)據(jù)服務(wù)接口,為中科院微生物研究所、廣州生物醫(yī)藥與健康研究院的有關(guān)應(yīng)用提供數(shù)據(jù)服務(wù)。
科學數(shù)據(jù)出版提出了一種科學數(shù)據(jù)發(fā)布和引用的新模式??茖W數(shù)據(jù)出版是科研人員與科研機構(gòu)按照統(tǒng)一規(guī)范的質(zhì)量管理和控制機制,主要利用互聯(lián)網(wǎng)及其他方式公開發(fā)布其通過觀察、實驗、計算分析等科研過程所產(chǎn)生的原始數(shù)據(jù)(raw data),或通過對已有數(shù)據(jù)進行系統(tǒng)化的收集、整理和再加工,形成數(shù)據(jù)及數(shù)據(jù)產(chǎn)品(data product)的出版行為④http://www. csdata.org/ paperview?id=9。科學數(shù)據(jù)出版通過對科學數(shù)據(jù)相關(guān)利益者權(quán)益的梳理,試圖化解數(shù)據(jù)開放共享的諸多問題,幫助使用者便捷地發(fā)現(xiàn)、獲取、理解和再分析利用數(shù)據(jù),并可在科研論文及相關(guān)科研成果中引用數(shù)據(jù)。2015年8月,中科院計算機網(wǎng)絡(luò)信息中心成功申請并獲批我國首批試點網(wǎng)絡(luò)連續(xù)性出版物,創(chuàng)辦《中國科學數(shù)據(jù)》期刊,探索建立科學數(shù)據(jù)產(chǎn)權(quán)保護的新方法,推動科學數(shù)據(jù)出版與數(shù)據(jù)引用,進一步促進我國科學數(shù)據(jù)資源的開放與共享⑤http://csdata. org/。
數(shù)據(jù)眾包服務(wù)示范了一種基于互聯(lián)網(wǎng)的數(shù)據(jù)產(chǎn)品加工與服務(wù)新方式。眾包作為互聯(lián)網(wǎng)一種嶄新的生產(chǎn)組織形式,通過高效調(diào)用分散的人力資源實現(xiàn)海量數(shù)據(jù)快速精準分析的方法[2]。隨著互聯(lián)網(wǎng)和計算機技術(shù)的發(fā)展,眾包在各行各業(yè)得到了廣泛應(yīng)用,其中也包括科學數(shù)據(jù)采集和處理領(lǐng)域。中科院計算機網(wǎng)絡(luò)信息中心開發(fā)的地理空間數(shù)據(jù)云(GSCloud)是一個基于云計算技術(shù)的海量地學數(shù)據(jù)資源以及數(shù)據(jù)處理模型服務(wù)的平臺,自2007年開始向公眾提供服務(wù)以來,至今已經(jīng)積累了海量數(shù)據(jù)資源,形成了完善的基礎(chǔ)設(shè)施和專業(yè)的服務(wù)團隊,累計注冊用戶13萬人次⑥http://www. gscloud.cn/。2015年5月,GSCloud發(fā)布了第一個數(shù)據(jù)處理眾包任務(wù),并在整個工作過程中,建立了整套的流程框架,包括需求明確與任務(wù)劃分、任務(wù)發(fā)布與分配、數(shù)據(jù)處理、質(zhì)量控制、結(jié)果集成和報酬發(fā)放等部分。目前GSCloud共發(fā)布了36個任務(wù),吸引和積累了大量專業(yè)人才,人才庫中的專業(yè)人員達到1 100余位。
此外,數(shù)據(jù)工程項目還開發(fā)了科學數(shù)據(jù)共享社區(qū)——DataPub。作為一個融合社交網(wǎng)絡(luò)理念的數(shù)據(jù)共享和交流平臺,DataPub構(gòu)建了多層次共享服務(wù)框架,實現(xiàn)了數(shù)據(jù)的有效流通與便捷訪問,為用戶提供了多途徑、高質(zhì)量的交互服務(wù)。其中,數(shù)據(jù)共享層滿足數(shù)據(jù)發(fā)布、檢索、訪問等以數(shù)據(jù)為中心的共享服務(wù);數(shù)據(jù)社交層圍繞用戶開展數(shù)據(jù)社交、定制化需求等個性服務(wù);數(shù)據(jù)融合層設(shè)計不同領(lǐng)域數(shù)據(jù)的集中管理與融合。通過該共享平臺,用戶能夠進行數(shù)據(jù)發(fā)布,讓更多人知曉和獲取數(shù)據(jù),發(fā)揮數(shù)據(jù)價值;可以查找和獲取DataPub上的數(shù)據(jù),或?qū)?shù)據(jù)需求提交到平臺;還能夠促進朋友圈交互、數(shù)據(jù)社區(qū)交互,實現(xiàn)全方位的數(shù)據(jù)交流與互動。
5.2 數(shù)據(jù)服務(wù)典型應(yīng)用案例
“十二五”中科院數(shù)據(jù)云服務(wù)平臺的建成,將進一步釋放我國科學大數(shù)據(jù)價值,為“一帶一路”“生態(tài)文明”“科學前沿”“基礎(chǔ)學科”與“創(chuàng)業(yè)、創(chuàng)新”等國家戰(zhàn)略需求及社會熱點應(yīng)用提供了有力的數(shù)據(jù)支撐與科學技術(shù)應(yīng)用服務(wù)。
“一帶一路”建設(shè)涉及新亞歐大陸橋、中蒙俄、中國—中亞—西亞、中國—中南半島等多個經(jīng)濟走廊,經(jīng)濟帶建設(shè)需求已對科學技術(shù)發(fā)出強勁召喚。2015年4月,中科院白春禮院長做出批示,支持并推動建設(shè)“一帶一路”國際科學家聯(lián)盟和信息網(wǎng)絡(luò)平臺。資源學科領(lǐng)域基礎(chǔ)科學數(shù)據(jù)以俄羅斯、蒙古等“一帶一路”國家基礎(chǔ)地理與資源環(huán)境為本底資料,通過整合獲取沿線國家的人口、經(jīng)濟、能源、交通設(shè)施等數(shù)據(jù)資料,集成大數(shù)據(jù)信息,直接為“一帶一路”科學院聯(lián)盟和協(xié)同創(chuàng)新網(wǎng)絡(luò)平臺提供數(shù)據(jù),發(fā)揮了為“一帶一路”建設(shè)決策和國家治理提供長期的科技戰(zhàn)略咨詢的作用。多民族語言資源數(shù)據(jù)庫推動了“一帶一路”區(qū)域文化與科技交流,為“一帶一路”少數(shù)民族地區(qū)的言語教學和言語科研提供了堅實的語言數(shù)據(jù)基礎(chǔ)。
生態(tài)文明建設(shè)需要科技創(chuàng)新支撐和引領(lǐng)。當前以大數(shù)據(jù)為基礎(chǔ)的新一輪科技革命和產(chǎn)業(yè)變革,對我國的綠色發(fā)展既是挑戰(zhàn),也是機遇。全國生態(tài)系統(tǒng)評估與生態(tài)安全數(shù)據(jù)庫為全國和區(qū)域尺度的生態(tài)環(huán)境重大科研項目提供了數(shù)據(jù)支持,同時為國家生態(tài)環(huán)境保護、生態(tài)文明建設(shè)提供了重要科學支撐。南海海洋數(shù)據(jù)資源體系和一站式共享服務(wù)系統(tǒng)的建設(shè),支撐我國海洋科技創(chuàng)新、海洋經(jīng)濟發(fā)展和海洋權(quán)益維護?!懊嫦蛘疀Q策的湖泊水環(huán)境治理決策與預警”數(shù)據(jù)專題服務(wù),為太湖流域水資源保護局、巢湖流域管理局掌握太湖和巢湖藍藻水華范圍分布及水華面積提供了及時有效的信息,在太湖和巢湖的藍藻調(diào)查、水資源調(diào)度以及流域水資源保護等方面起了較大的支撐作用。
取之于科學,用之于科學,科學數(shù)據(jù)庫激活科學前沿新研究。數(shù)據(jù)的爆發(fā)式增長,已把科學研究各個領(lǐng)域和環(huán)節(jié)推到了一個前所未有的“大數(shù)據(jù)”時代。中科院數(shù)據(jù)云作為科學大數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)庫,在促進我國科學技術(shù)研究占領(lǐng)國際制高點上發(fā)揮了越來越多的支撐作用。中微子實驗數(shù)據(jù)庫主要存儲大亞灣實驗產(chǎn)生的實驗數(shù)據(jù),結(jié)合數(shù)據(jù)中心計算環(huán)境向大亞灣國際合作組的研究人員提供數(shù)據(jù)和計算服務(wù)。中微子實驗自正式取數(shù)以來,取得了突破性的研究成果。2015年大亞灣國際合作組在《物理評論快報》發(fā)表了中微子測量的最新結(jié)果,將中微子混合角θ13和中微子質(zhì)量平方差的測量精度都提高了近一倍,此為世界最高精度?;谥袊参镂锓N信息數(shù)據(jù)庫編著的《中國植物志》出版后,中國科學院昆明植物研究所率先提出了“iFlora研究計劃”,擬基于《中國植物志》的研究成果,打破傳統(tǒng)意義上的紙本和單一產(chǎn)品《中國植物志》界限,實現(xiàn)植物物種多樣性研究的標準化、信息化和動態(tài)化,滿足我國生物多樣性保護研究與資源持續(xù)利用的需求?!癷Flora”研究計劃的提出,開辟了后植物分類學的新時代。
科學大數(shù)據(jù)孕育科研方法的新范式。大數(shù)據(jù)作為改變?nèi)祟惿罴袄斫馐澜绲男路绞?,正?qū)動著科學研究范式的轉(zhuǎn)化,科學大數(shù)據(jù)已成為科學發(fā)現(xiàn)與知識創(chuàng)新的新引擎。從海量數(shù)據(jù)中解析其蘊含的新模式,科學大數(shù)據(jù)正帶來科研方法論的新范式,如海量的天文數(shù)據(jù)給天文學家?guī)砹司薮蟮臋C遇和挑戰(zhàn),天文學的研究也越來越離不開大數(shù)據(jù)集的統(tǒng)計分析,即數(shù)據(jù)挖掘和知識發(fā)現(xiàn),高能天體物理數(shù)據(jù)庫已經(jīng)成為我國空間天文科學體系中的重要組成部分。《中國生物物種名錄》的編研和發(fā)布為生物多樣性保護政策和規(guī)劃的制定提供了科學依據(jù),為開展生物多樣性科學研究提供基礎(chǔ)數(shù)據(jù),為公眾參與生物多樣性保護創(chuàng)造必要條件,是中國貫徹實施《中國生物多樣性保護戰(zhàn)略與行動計劃》和積極履行《生物多樣性公約》的具體行動。
在服務(wù)科研的同時,中科院數(shù)據(jù)云面向社會需求不斷加強產(chǎn)業(yè)化創(chuàng)新服務(wù),提升拓展技術(shù)優(yōu)勢。在交通管理、食品安全、新材料研發(fā)等公共領(lǐng)域,中科院計算機網(wǎng)絡(luò)信息中心與國家發(fā)展和改革委員會、國家食品藥品監(jiān)督管理總局、北京市地方稅務(wù)局等30多家企事業(yè)單位開展相關(guān)合作,2012年獲得中國產(chǎn)學研創(chuàng)新合作獎,2013年獲批成立大數(shù)據(jù)應(yīng)用服務(wù)技術(shù)北京工程實驗室,2014年、2015年先后兩年成功舉辦科學數(shù)據(jù)大會,吸引了來自全國科研院所、高校以及相關(guān)企業(yè)的大批人員參加。
通過“十二五”整體建設(shè)和深化應(yīng)用,“科技數(shù)據(jù)資源整合與共享工程”部署形成了共建共享的海量存儲基礎(chǔ)設(shè)施運行服務(wù)環(huán)境,協(xié)作推進政策、環(huán)境和管理契合科學數(shù)據(jù)共享良性發(fā)展的新模式。通過推行數(shù)據(jù)云服務(wù)先進的發(fā)展理念和有效的運行機制,有力地引導和整合科學數(shù)據(jù)基礎(chǔ)性工作,將科學數(shù)據(jù)戰(zhàn)略機遇轉(zhuǎn)化,實現(xiàn)為數(shù)據(jù)云服務(wù),搶占數(shù)據(jù)密集型科學發(fā)現(xiàn)的制高點和前沿陣地。
“十三五”期間,在國務(wù)院《促進大數(shù)據(jù)發(fā)展行動綱要》背景下,以中科院“率先行動”計劃為行動指南,面向智慧中科院發(fā)展愿景,中科院數(shù)據(jù)云將以科研需求為牽引、社會應(yīng)用為落腳點,繼續(xù)推動科學大數(shù)據(jù)的整合與開放,提高科學大數(shù)據(jù)為科學家與公眾的服務(wù),探索科學數(shù)據(jù)庫發(fā)展和共享服務(wù)新模式。同時,在深入大數(shù)據(jù)驅(qū)動的科研創(chuàng)新應(yīng)用的基礎(chǔ)上,聚焦科學大數(shù)據(jù)基礎(chǔ)性理論問題研究和相關(guān)關(guān)鍵技術(shù)的突破,引領(lǐng)國內(nèi)科學大數(shù)據(jù)的發(fā)展。
中科院數(shù)據(jù)云將考慮構(gòu)建可以承載大數(shù)據(jù)資源、支撐大數(shù)據(jù)分析、推動大數(shù)據(jù)應(yīng)用的可擴展平臺環(huán)境,具有支持PB級大數(shù)據(jù)應(yīng)用處理能力;支持實現(xiàn)一批大數(shù)據(jù)應(yīng)用技術(shù)的研發(fā)部署,為科學大數(shù)據(jù)相關(guān)研究、測試和應(yīng)用提供基礎(chǔ)條件,為大數(shù)據(jù)應(yīng)用技術(shù)研發(fā)、培訓和示范服務(wù)等提供實驗環(huán)境;營造和制定實施科學大數(shù)據(jù)的相關(guān)環(huán)境、機制和標準規(guī)范,為協(xié)調(diào)推動全院大數(shù)據(jù)發(fā)展行動、夯實大數(shù)據(jù)應(yīng)用與研發(fā)環(huán)境提供基本指導和規(guī)范,良好促進科學大數(shù)據(jù)的建設(shè)發(fā)展;最終力爭實現(xiàn)立足中科院、面向科技界,形成共享開放、服務(wù)創(chuàng)新的國家級科技數(shù)據(jù)中心。
[1] 郭華東. 大數(shù)據(jù)、大科學、大發(fā)現(xiàn)[J]. 中國科學院院刊, 2014, 29(4):500-506. GUO H D. Bigdata, big science, big discovery[J]. Bulletin of Chinese Academy of Sciences, 2014, 29(4):500-506.
[2] BARRINGTON L, GHOSH S, GREENE M, et al. Crowdsourcing earthquake damage assessment using remote sensing imagery[J]. Annals of Geophysics, 2011, 54(6): 680-687.
Scientific data cloud construction and service of Chinese Academy of Sciences
LI Jianhui, ZHOU Yuanchun, HU Lianglin, LIU Feng, ZHU Yanhua, SHEN Zhihong, WU Zhangsheng, ZHANG Yang
Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
Scientific Data Resource Integration and Sharing Project is one of the 5 major informatization-specific projects of CAS for the 12th Five-Year Plan period. The overall construction of the project ideas, construction, technical innovation and service innovation, etc., was summarized. By the end of the project, a distributed mass storage environment with storage capacity of 52 PB was built. At the same time, it provided users with a strong connection between scientific data and literature and a rich visual display platform. The project has initially achieved a multi-level, cross information service system that included the infrastructure cloud service, research data cloud service and data application cloud service. It has gradually become a national science and technology data center for open sharing and service innovation.
scientific data, data platform, data sharing service, service effectiveness
N37
A
10.11959/j.issn.2096-0271.2016061
黎建輝(1973-),男,博士,中國科學院計算機網(wǎng)絡(luò)信息中心研究員、博士生導師,大數(shù)據(jù)技術(shù)與應(yīng)用發(fā)展部主任,CODATA中國委員會秘書長,主要研究方向為大數(shù)據(jù)管理、大數(shù)據(jù)分析與處理。
周園春(1975-),男,博士,中國科學院計算機網(wǎng)絡(luò)信息中心研究員、博士生導師,主要研究方向為大數(shù)據(jù)分析與挖掘。
胡良霖(1973-),男,中國科學院計算機網(wǎng)絡(luò)信息中心高級工程師,主要研究方向為數(shù)據(jù)庫技術(shù)與標準規(guī)范、數(shù)據(jù)質(zhì)量與數(shù)據(jù)服務(wù)。
劉峰(1974-),男,中國科學院計算機網(wǎng)絡(luò)信息中心高級工程師,主要研究方向為科學數(shù)據(jù)管理與服務(wù)體系構(gòu)建。
朱艷華(1982-),女,中國科學院計算機網(wǎng)絡(luò)信息中心高級工程師,主要研究方向為數(shù)據(jù)庫技術(shù)與標準規(guī)范、數(shù)據(jù)應(yīng)用服務(wù)。
沈志宏(1977-),男,博士,中國科學院計算機網(wǎng)絡(luò)信息中心高級工程師,主要研究方向為科學數(shù)據(jù)管理與共享、關(guān)聯(lián)數(shù)據(jù)、大數(shù)據(jù)管理。
吳章生(1980-),男,中國科學院計算機網(wǎng)絡(luò)信息中心工程師,主要研究方向為地圖學與地理信息、大數(shù)據(jù)技術(shù)與應(yīng)用。
張楊(1982-),男,中國科學院計算機網(wǎng)絡(luò)信息中心工程師,主要研究方向為數(shù)據(jù)庫技術(shù)與標準規(guī)范、數(shù)據(jù)應(yīng)用服務(wù)。
2016-10-08
中國科學院“十二五”信息化基金資助項目(No.XXH12504)
Foundation Item:Special Project of Informatization of Chinese Academy of Sciences in “the Twelfth Five-Year Plan”(No.XXH12504)