亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)技術(shù)架構(gòu)及系統(tǒng)

        2016-04-07 02:00:41劉峰陳昕黎建輝劉昂韓芳
        大數(shù)據(jù) 2016年6期
        關(guān)鍵詞:數(shù)據(jù)服務(wù)數(shù)據(jù)管理分布式

        劉峰,陳昕,黎建輝,劉昂,韓芳

        中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京 100190

        大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)技術(shù)架構(gòu)及系統(tǒng)

        劉峰,陳昕,黎建輝,劉昂,韓芳

        中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京 100190

        隨著信息化進程的發(fā)展,大規(guī)模分布式多源異構(gòu)科學(xué)數(shù)據(jù)的管理和應(yīng)用問題凸顯,如何有效地實現(xiàn)分布式數(shù)據(jù)的管理、整合、服務(wù),成為推動科研與應(yīng)用的共性需求和必要手段。深入分析核心需求和關(guān)鍵問題,對服務(wù)體系進行了系統(tǒng)化的頂層設(shè)計,提出一套面向大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)的技術(shù)架構(gòu),從自治管理、整合管理、集成服務(wù)3個層級對服務(wù)體系進行了組織和規(guī)劃,并建設(shè)了完備的服務(wù)平臺和軟件體系,為科學(xué)數(shù)據(jù)的管理與服務(wù)提供了從管理到應(yīng)用的一體化解決方案。

        科學(xué)數(shù)據(jù);科學(xué)數(shù)據(jù)管理;資源服務(wù)系統(tǒng);分布式服務(wù);服務(wù)框架;技術(shù)架構(gòu)

        1 引言

        科學(xué)數(shù)據(jù)是人類社會科技活動所產(chǎn)生的基本數(shù)據(jù)、資料以及按照不同需求而系統(tǒng)加工的數(shù)據(jù)產(chǎn)品和相關(guān)信息[1]。作為現(xiàn)代科學(xué)可持續(xù)發(fā)展的重要資源,科學(xué)數(shù)據(jù)與科技創(chuàng)新密不可分。科學(xué)數(shù)據(jù)不斷積累和發(fā)展,逐漸呈現(xiàn)出規(guī)模巨大、分布廣泛、結(jié)構(gòu)多樣的特點,這為科學(xué)數(shù)據(jù)的管理與共享服務(wù)帶來了巨大的挑戰(zhàn)。

        近年來,許多政府機構(gòu)和科研組織從不同層面開展了大量科學(xué)數(shù)據(jù)管理與服務(wù)的研究與實踐工作[2]。一些發(fā)達國家和國際組織建立了國家級科學(xué)數(shù)據(jù)中心群和數(shù)據(jù)共享服務(wù)網(wǎng)絡(luò),如國際科學(xué)聯(lián)合會理事會的國際科學(xué)技術(shù)數(shù)據(jù)委員會(Committee on Data for Science and Technology,CODATA)①http://www. codata.org/、世界數(shù)據(jù)中心/系統(tǒng)(World Data Center/System,WDC/WDS)②http://www. icsu-wds.org/、地球觀測組織(Group on Earth Observations,GEO)③http://www. earth observataions. org/、國際研究數(shù)據(jù)聯(lián)盟(Research Data Alliance,RDA)④http://www.rdalliance.org/和全球生物多樣性信息網(wǎng)絡(luò)(Global Biodiversity Information Facility,GBIF)⑤http://www.gbif. org/等,美國建立的分布式最活躍數(shù)據(jù)檔案中心群(distributed active archive centers,DAAC)⑥http://earthdata. nasa.gov/about/ daacs/、全球變化主目錄(global change master directory,GCMD)⑦http://gcmd.gsfc. nasa.gov/、美國國立衛(wèi)生研究院數(shù)據(jù)共享庫⑧http://www.nlm. nih.gov/ NIHbmic/ nih_data_ sharing_ repositories.html、地球觀測數(shù)據(jù)網(wǎng)(data observation network for earth,DataOne)⑨http://www. dataone.org/,歐洲空間信息基礎(chǔ)設(shè)施⑩http://inspire.ec. europa.eu/等。我國從20世紀80年代起,從多個層面推動了科學(xué)數(shù)據(jù)的管理與共享,啟動了科學(xué)數(shù)據(jù)工程、國家科技基礎(chǔ)條件平臺(National Science and Technology Infrastructure,NSTI)?http://www. escience.gov.cn/ default.jsp等。

        然而,大規(guī)模分布式科學(xué)數(shù)據(jù)的管理與服務(wù)尚缺乏完整的理論體系和解決方案,這為科學(xué)數(shù)據(jù)更為廣泛高效的開放共享帶來了障礙。對此,本文提出了一套面向大規(guī)模分布式科學(xué)數(shù)據(jù)的管理與服務(wù)技術(shù)架構(gòu),從技術(shù)視角對服務(wù)體系的整體框架、技術(shù)架構(gòu)和系統(tǒng)設(shè)計進行了完整的描述和分析。該體系架構(gòu)已在多個應(yīng)用項目中使用,取得了良好的服務(wù)效果并具有廣泛的適用性。

        2 體系框架設(shè)計

        2.1 體系框架活動分析

        大規(guī)模分布式科學(xué)數(shù)據(jù)資源管理與服務(wù)體系是指面向大規(guī)模分布式科學(xué)數(shù)據(jù),以提供敏捷安全的數(shù)據(jù)資源共享服務(wù)為目標所形成的與之相關(guān)的一系列概念、政策、目標、方法、規(guī)范、系統(tǒng)等,可實現(xiàn)科學(xué)數(shù)據(jù)的有效標引、發(fā)現(xiàn)、共享、服務(wù),推動科學(xué)數(shù)據(jù)的有效管理和敏捷交付。

        服務(wù)體系的核心目標在于對科學(xué)數(shù)據(jù)資源進行有效的管理與敏捷共享。具體包括如下內(nèi)容。

        (1)使全部的基礎(chǔ)性與公共性數(shù)據(jù)依據(jù)可發(fā)現(xiàn)、可訪問、可理解、可評估、可使用、可治理的原則以服務(wù)的形式發(fā)布,使其成為科研活動和經(jīng)濟發(fā)展的大數(shù)據(jù)資源與公共資產(chǎn)。其核心目標是實現(xiàn)科學(xué)數(shù)據(jù)的快速有效共享,使數(shù)據(jù)存得下、取得到、易分享、安全性高。

        (2)形成專業(yè)化的數(shù)據(jù)服務(wù),使數(shù)據(jù)服務(wù)與科研活動有機融合、協(xié)調(diào)發(fā)展,創(chuàng)造數(shù)據(jù)服務(wù)可持續(xù)發(fā)展的新生態(tài)。

        (3)實現(xiàn)應(yīng)用驅(qū)動的數(shù)據(jù)服務(wù)按需敏捷集成,以充分挖掘數(shù)據(jù)的潛在應(yīng)用價值,有力支撐大數(shù)據(jù)環(huán)境下的科研工作。

        大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)基本需求的概要描述如圖1所示。數(shù)據(jù)生產(chǎn)者在服務(wù)系統(tǒng)的協(xié)助下,實現(xiàn)數(shù)據(jù)資源的管理及發(fā)布;服務(wù)體系對分布的資源進行整合與集成管理,并通過門戶服務(wù)等形式提交給用戶實現(xiàn)數(shù)據(jù)資源的交付,主要涉及數(shù)據(jù)管理、服務(wù)管理、用戶服務(wù)等核心環(huán)節(jié)。

        2.2 體系框架設(shè)計難點與重點

        科學(xué)數(shù)據(jù)的“大規(guī)?!敝饕w現(xiàn)在數(shù)據(jù)量大、分布廣泛、結(jié)構(gòu)多樣3個方面,而科學(xué)數(shù)據(jù)的服務(wù)又要求快速有效,這對服務(wù)體系的設(shè)計與實現(xiàn)提出了挑戰(zhàn)。

        (1)如何快速整合資源

        科學(xué)數(shù)據(jù)基本掌握在各科研單位手中,其分布極為分散,這種分布式的存儲形式對快速有效地組織和整合形成了障礙。

        科學(xué)數(shù)據(jù)的類型和存儲形式多種多樣,結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)化同時存在,例如氣象數(shù)據(jù)、地學(xué)數(shù)據(jù)等都有其獨特的數(shù)據(jù)結(jié)構(gòu)和存儲方式,如何將這些多源異構(gòu)的數(shù)據(jù)管理和集成起來并提供統(tǒng)一的服務(wù),是服務(wù)體系需要解決的重要問題之一。

        同時,科學(xué)數(shù)據(jù)往往作為重要資源掌握在各單位手中,如何獲取并促進開放也是推動科學(xué)數(shù)據(jù)開放共享的重要課題,雖然這不是技術(shù)層面的問題、不是本文研究的范圍,但如何更好地提供服務(wù),使科研人員從分享中獲得益處,從而推進共享,也是本文思考的問題之一。

        (2)如何提供高質(zhì)量的數(shù)據(jù)服務(wù)

        服務(wù)體系的最終目標是為科研人員提供高質(zhì)量的數(shù)據(jù)服務(wù),這對數(shù)據(jù)服務(wù)的組織形式、交付方式都提出了較高的要求,因此,好的服務(wù)體系設(shè)計需要對服務(wù)模式、交互方式等有深入的研究和分析。

        (3)如何形成可持續(xù)的管理與發(fā)展

        持續(xù)化的管理是服務(wù)體系長期運行和有效服務(wù)的關(guān)鍵環(huán)節(jié),與政策等密切相關(guān),但對技術(shù)架構(gòu)也提出了要求,通過技術(shù)和服務(wù)的設(shè)計促進服務(wù)體系的有效管理、形成激勵等也是本文致力研究的問題之一。

        圖1 大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)需求概覽

        2.3 體系框架分層設(shè)計

        針對大規(guī)模數(shù)據(jù)資源分散存儲與統(tǒng)一服務(wù)的總體需求,結(jié)合上述體系框架設(shè)計的難點與問題的分析,在整個體系框架設(shè)計中要求必須采用分層設(shè)計的模式,以滿足不同層次管理與服務(wù)的需求。整體框架分層結(jié)構(gòu)如圖2所示。

        服務(wù)體系框架共分3層,自底向上分別是自治管理層、整合管理層、集成服務(wù)層。其中,自治管理層重點實現(xiàn)分布式數(shù)據(jù)資源自治管理與服務(wù),完成數(shù)據(jù)資源的本地化集成注冊、服務(wù)封裝及發(fā)布管理。整合管理層重點實現(xiàn)數(shù)據(jù)資源與服務(wù)的集中注冊、審核與發(fā)布管理,進而形成統(tǒng)一的資源服務(wù)目錄,同時實現(xiàn)對數(shù)據(jù)資源與服務(wù)的監(jiān)控、統(tǒng)計和評估管理,為分布式數(shù)據(jù)資源與服務(wù)的穩(wěn)定、優(yōu)質(zhì)服務(wù)提供支撐和保證。集成服務(wù)層是整個體系的對外服務(wù)門戶,該層重點實現(xiàn)數(shù)據(jù)資源的目錄、發(fā)現(xiàn)、訪問、獲取等公共服務(wù),同時面向最終用戶實現(xiàn)以數(shù)據(jù)資源為中心的集成、交流、共享、咨詢方面的服務(wù)系統(tǒng)。

        圖2 大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)體系分層框架

        3 技術(shù)架構(gòu)設(shè)計

        3.1 分層技術(shù)體系設(shè)計

        圖3 分布式科學(xué)數(shù)據(jù)管理與服務(wù)技術(shù)架構(gòu)分層框架

        根據(jù)第2節(jié)體系框架設(shè)計,將系統(tǒng)技術(shù)架構(gòu)進行分層設(shè)計,如圖3所示,共分為基礎(chǔ)支撐層、數(shù)據(jù)管理層、數(shù)據(jù)服務(wù)層、集成服務(wù)層。其中,基礎(chǔ)支撐層為其他3個層提供公共支撐。

        (1)基礎(chǔ)支撐層

        基礎(chǔ)支撐層主要為整個體系提供公共支撐服務(wù)。其中,消息隊列技術(shù)主要用于系統(tǒng)之間消息傳遞和任務(wù)分發(fā);權(quán)限控制技術(shù)采用單點登錄授權(quán)與權(quán)限驗證相結(jié)合的方式,其中登錄與授權(quán)采用OAuth 2.0協(xié)議[3]來實現(xiàn)開放式授權(quán);數(shù)據(jù)加密模塊主要用在重要信息存儲和傳輸,其中在數(shù)據(jù)傳輸上采用安全超文本傳輸協(xié)議(hypertext transfer protocol over secure socket layer,HTTPS)[4],保證傳輸過程安全,在重要信息存儲方面,采用對稱加密和非對稱加密相結(jié)合的方式;定時監(jiān)控主要使用線程池與定時任務(wù)技術(shù)以及日志分析算法和相關(guān)可視化技術(shù),對各個系統(tǒng)進行運行情況監(jiān)控、訪問情況分析等。

        (2)數(shù)據(jù)管理層

        數(shù)據(jù)管理層主要提供底層數(shù)據(jù)管理服務(wù)。數(shù)據(jù)管理中間件技術(shù)主要用于整合不同類型關(guān)系數(shù)據(jù)庫的訪問,提供不同關(guān)系數(shù)據(jù)庫的統(tǒng)一訪問接口,提供不同類型數(shù)據(jù)庫的集成功能;NoSQL[5]主要用于存儲非結(jié)構(gòu)化數(shù)據(jù),在效率和可用性方面強于關(guān)系型數(shù)據(jù)庫;分布式文件系統(tǒng)主要處理大型文件存儲和處理,如日志文件等。

        (3)數(shù)據(jù)服務(wù)層

        數(shù)據(jù)服務(wù)層主要提供數(shù)據(jù)服務(wù)化封裝、數(shù)據(jù)邏輯模型建立以及個性化服務(wù)頁面定制等功能。數(shù)據(jù)服務(wù)化封裝技術(shù)對數(shù)據(jù)的內(nèi)容進行解釋包裝,在邏輯模型之上建立服務(wù)接口,采用表述性狀態(tài)傳遞(representational state transfer,REST)風(fēng)格,以一種數(shù)據(jù)交換格式(javascript object notation,JSON)作為數(shù)據(jù)傳輸對象;邏輯建模技術(shù)用于將同源或異源的數(shù)據(jù)集成起來,并對其進行描述和解釋;定制化展示采用前端JS(javascript)技術(shù),用戶可以定制服務(wù)頁面內(nèi)容和布局。

        (4)集成服務(wù)層

        集成服務(wù)層主要將分布式數(shù)據(jù)集成處理,統(tǒng)一對外提供服務(wù)。緩存技術(shù)能夠提高系統(tǒng)響應(yīng)效率,減輕數(shù)據(jù)庫壓力;可視化技術(shù)為用戶提供所見即所得的數(shù)據(jù)服務(wù),提供基本的數(shù)據(jù)分析和展示功能;關(guān)聯(lián)檢索技術(shù)可以使用戶搜索結(jié)果更加準確,同時根據(jù)用戶搜索行為進行定制化推薦;數(shù)據(jù)分析技術(shù)利用常用的大數(shù)據(jù)分析技術(shù)[6],如Spark、R等,為用戶提供大數(shù)據(jù)分析服務(wù)。

        圖4 數(shù)據(jù)統(tǒng)一接入接口關(guān)系

        3.2 重點接口與協(xié)議設(shè)計

        (1)基礎(chǔ)數(shù)據(jù)統(tǒng)一接入接口

        為了解決科學(xué)數(shù)據(jù)以各種形式存儲帶來的不便,體系框架提供基礎(chǔ)數(shù)據(jù)統(tǒng)一接入接口,對已存在的數(shù)據(jù),不論是以關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫還是文件形式存儲,都可以接入系統(tǒng)中進行統(tǒng)一管理。

        如圖4所示,數(shù)據(jù)統(tǒng)一接入接口通過Spring Data與關(guān)系數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫進行交互,通過file/HDFS[7]應(yīng)用程序編程接口(application programming interface,API)與本地文件或分布式文件系統(tǒng)進行交互。接口中統(tǒng)一定義常用的數(shù)據(jù)操作:數(shù)據(jù)查詢、數(shù)據(jù)預(yù)覽、數(shù)據(jù)修改、數(shù)據(jù)刪除、表結(jié)構(gòu)信息查詢、文件讀取、文件屬性查詢、文件寫入、文件上傳等。

        (2)服務(wù)統(tǒng)一接入接口

        體系框架的統(tǒng)一接入接口服務(wù)于數(shù)據(jù)管理層。數(shù)據(jù)管理層發(fā)布的數(shù)據(jù)服務(wù)可以通過服務(wù)統(tǒng)一接入接口進行集成發(fā)布,同時接口也支持第三方數(shù)據(jù)服務(wù)接入。為了實現(xiàn)接口統(tǒng)一接入,系統(tǒng)設(shè)計了一套元數(shù)據(jù)管理體系,描述數(shù)據(jù)服務(wù)基本信息。接口主要功能分兩種:基本信息接口和內(nèi)容信息接口?;拘畔⒔涌谥饕糜诓樵償?shù)據(jù)服務(wù)相關(guān)信息,如基本描述、數(shù)據(jù)內(nèi)容結(jié)構(gòu)、返回數(shù)據(jù)格式等;內(nèi)容信息接口主要用于查詢數(shù)據(jù)內(nèi)容。接口以超文本傳輸協(xié)議(hyper text transfer protocol,HTTP)為傳輸協(xié)議,采用REST風(fēng)格設(shè)計,支持get、post、put請求格式,采用輕量級的JSON作為數(shù)據(jù)交換格式。

        (3)開放服務(wù)接口

        體系框架在集成服務(wù)層提供了統(tǒng)一開放服務(wù)接口,便于第三方應(yīng)用調(diào)用服務(wù)或編程使用。為了使服務(wù)被程序或第三方應(yīng)用理解,框架設(shè)計提供了兩種服務(wù)接口:元數(shù)據(jù)服務(wù)接口和數(shù)據(jù)服務(wù)接口。接口采用HTTP、REST風(fēng)格設(shè)計,主要以JSON作為數(shù)據(jù)交換格式。元數(shù)據(jù)服務(wù)接口包括元數(shù)據(jù)的獲取功能、程序或第三方應(yīng)用,可以調(diào)用元數(shù)據(jù)獲取接口讀取服務(wù)的元數(shù)據(jù)信息,接口提供JSON和XML兩種形式的返回數(shù)據(jù),程序可以根據(jù)元數(shù)據(jù)內(nèi)容解析服務(wù)數(shù)據(jù)。數(shù)據(jù)服務(wù)接口包括數(shù)據(jù)查詢接口和數(shù)據(jù)獲取接口;數(shù)據(jù)查詢接口可供程序通過關(guān)鍵字查詢相關(guān)服務(wù),獲取服務(wù)ID、服務(wù)名稱、服務(wù)簡介等信息;數(shù)據(jù)獲取接口可供程序通過服務(wù)ID和元數(shù)據(jù)中描述的參數(shù)信息,調(diào)用相應(yīng)服務(wù)并獲取數(shù)據(jù),數(shù)據(jù)以JSON格式返回,對于文件型數(shù)據(jù),接口會暫存文件到可訪問空間中,返回文件的訪問鏈接地址,程序可以直接訪問鏈接地址獲取文件。

        3.3 關(guān)鍵技術(shù)的設(shè)計實現(xiàn)

        3.3.1 邏輯模型映射實現(xiàn)

        為了將科學(xué)數(shù)據(jù)轉(zhuǎn)換成用戶可以理解的數(shù)據(jù),需要對科學(xué)原始數(shù)據(jù)進行抽象,建立邏輯模型,增加數(shù)據(jù)描述。通過邏輯模型映射模塊可以將科學(xué)原始數(shù)據(jù)描述成用戶可理解的數(shù)據(jù)或服務(wù)。為了使數(shù)據(jù)可理解,需要為數(shù)據(jù)增加額外的屬性:語義屬性、結(jié)構(gòu)屬性。

        邏輯模型={語義屬性,結(jié)構(gòu)屬性,原始數(shù)據(jù)}。

        語義屬性:主要描述數(shù)據(jù)的含義和用途、在上下文中的含義、與其他數(shù)據(jù)的關(guān)系等。

        結(jié)構(gòu)屬性:主要描述數(shù)據(jù)的結(jié)構(gòu)信息、數(shù)據(jù)的權(quán)限、特征屬性等,如文件的類型、權(quán)限、關(guān)系數(shù)據(jù)庫的列信息等。

        為了實現(xiàn)邏輯建模,系統(tǒng)對常用的數(shù)據(jù)格式進行封裝,對外提供豐富的可理解的數(shù)據(jù)類型,如文件、字典、日期、鏈接、圖片、音頻、視頻、化學(xué)結(jié)構(gòu)式、HTML等,并可擴展。邏輯模型映射模塊負責(zé)將基本數(shù)據(jù)類型根據(jù)數(shù)據(jù)服務(wù)的定義,包裝成用戶可理解的數(shù)據(jù)格式。

        邏輯模型映射的實現(xiàn)過程對用戶是透明的,用戶在數(shù)據(jù)發(fā)布時,根據(jù)所發(fā)布的數(shù)據(jù)填寫部分描述信息,這部分信息被邏輯模型映射模塊收集,與其他自動抽取的結(jié)構(gòu)屬性信息共同建立起相應(yīng)數(shù)據(jù)的邏輯模型。

        3.3.2 定制化數(shù)據(jù)服務(wù)發(fā)布

        為了方便科學(xué)數(shù)據(jù)快速發(fā)布并提供服務(wù),體系框架服務(wù)平臺提供了快速定制化數(shù)據(jù)服務(wù)發(fā)布功能。定制化數(shù)據(jù)服務(wù)發(fā)布模塊為用戶提供透明簡便的數(shù)據(jù)發(fā)布功能,實現(xiàn)簡單配置、快速發(fā)布、所見即所得的發(fā)布功能。模塊采用HTML和JavaScript的前端技術(shù),實現(xiàn)數(shù)據(jù)發(fā)布功能。同時采用組件化技術(shù),使用React框架將頁面拆分成一個個組件,由用戶進行配置。用戶的配置信息會保存在配置文件中,可以重復(fù)使用,同時在系統(tǒng)啟動時加載到緩存中,提高數(shù)據(jù)服務(wù)頁面響應(yīng)效率。采用React框架進行頁面組件化,可以使頁面上的邏輯業(yè)務(wù)模塊之間的耦合度降低,使頁面能夠模塊化、可拼裝,同時完全采用前端技術(shù),能夠降低內(nèi)存使用率,提高頁面響應(yīng)效率。

        4 服務(wù)系統(tǒng)設(shè)計

        4.1 分層系統(tǒng)體系設(shè)計

        針對大規(guī)模分布式資源服務(wù)的需求,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心大數(shù)據(jù)部依托科學(xué)數(shù)據(jù)工程項目,圍繞分布式資源服務(wù)體系框架設(shè)計,在“十五”到“十二五”期間重點建設(shè)了一批數(shù)據(jù)資源管理與服務(wù)系統(tǒng)。這些系統(tǒng)分別從資源服務(wù)體系框架的數(shù)據(jù)自治管理、數(shù)據(jù)集成整合管理和數(shù)據(jù)集成服務(wù)3個不同層次進行建設(shè)研發(fā)。整個系統(tǒng)建設(shè)的整體層次框架如圖5所示。

        數(shù)據(jù)資源自治管理層:重點面向各分布端的數(shù)據(jù)資源管理員,實現(xiàn)分布式數(shù)據(jù)資源的自主管理,主要系統(tǒng)包括面向科研團隊的數(shù)據(jù)管理工具TeamDR(課題數(shù)據(jù)寶)、面向數(shù)據(jù)自主管理與發(fā)布的工具VisualDB和基于規(guī)則的數(shù)據(jù)校驗工具iCheck。

        數(shù)據(jù)資源集成整合管理層:重點面向數(shù)據(jù)資源及服務(wù)的集中監(jiān)控與管理人員,包括數(shù)據(jù)資源整合管理和數(shù)據(jù)資源服務(wù)管理兩個方面的功能。其中,數(shù)據(jù)資源整合管理包括:科學(xué)數(shù)據(jù)資源與服務(wù)注冊系統(tǒng)RSR、數(shù)據(jù)資源在線映射與集成中間件SDM、分布式數(shù)據(jù)收割系統(tǒng)DDHS;數(shù)據(jù)資源服務(wù)管理包括:數(shù)據(jù)網(wǎng)絡(luò)資源量在線統(tǒng)計系統(tǒng)Resstat、數(shù)據(jù)網(wǎng)絡(luò)服務(wù)與訪問監(jiān)控統(tǒng)計系統(tǒng)Msis和科學(xué)數(shù)據(jù)服務(wù)效果評測系統(tǒng)Sees。

        數(shù)據(jù)集成服務(wù)層:重點面向廣大公眾用戶和科研用戶,實現(xiàn)數(shù)據(jù)資源的集成化服務(wù)。主要系統(tǒng)包括:科學(xué)數(shù)據(jù)云門戶CSDB、科學(xué)數(shù)據(jù)共享社區(qū)DataPub、科學(xué)數(shù)據(jù)搜索引擎Voovle和數(shù)據(jù)參考咨詢與服務(wù)系統(tǒng)DRS。

        圖5 分布式科學(xué)數(shù)據(jù)管理系統(tǒng)分層框架

        4.2 分系統(tǒng)功能實現(xiàn)

        下面對系統(tǒng)分層框架中的部分關(guān)鍵系統(tǒng)進行重點介紹。

        4.2.1 數(shù)據(jù)資源自治管理層

        (1)科研團隊數(shù)據(jù)管理工具TeamDR

        該系統(tǒng)中文名為課題數(shù)據(jù)寶。系統(tǒng)定位于面向課題組等科研團隊打造專屬日常科研數(shù)據(jù)存儲、組織、協(xié)作與共享的管理服務(wù)云平臺和本地管理工具,是一套課題組數(shù)據(jù)管理與共享的解決方案,是一個穩(wěn)定且可持續(xù)積累的課題組數(shù)據(jù)資源庫。

        (2)數(shù)據(jù)自主管理與發(fā)布工具VisualDB

        該系統(tǒng)面向數(shù)據(jù)資源管理者集成異構(gòu)數(shù)據(jù)源的需求,提供可視化管理、發(fā)布云平臺服務(wù)與本地管理工具。它是一個幫助數(shù)據(jù)管理者管理和發(fā)布關(guān)系型數(shù)據(jù)庫和文件系統(tǒng)的工具;一個幫助應(yīng)用研發(fā)人員快速開發(fā)面向數(shù)據(jù)應(yīng)用的研發(fā)框架;一套幫助數(shù)據(jù)應(yīng)用低成本集成異構(gòu)數(shù)據(jù)源的解決方案。

        4.2.2 數(shù)據(jù)資源集成整合管理層

        (1)科學(xué)數(shù)據(jù)資源與服務(wù)注冊系統(tǒng)RSR

        該系統(tǒng)重點實現(xiàn)科學(xué)數(shù)據(jù)各類資源的集中匯交、注冊、審核管理。系統(tǒng)覆蓋的資源類型包括:數(shù)據(jù)庫元數(shù)據(jù)、公共服務(wù)接口、服務(wù)案例、科研論文、服務(wù)公告、軟件與專利著作權(quán)、手冊素材、項目文檔材料。

        (2)數(shù)據(jù)網(wǎng)絡(luò)服務(wù)與訪問監(jiān)控統(tǒng)計系統(tǒng)Msis

        該系統(tǒng)目標是面向站點信息管理、監(jiān)測、訪問統(tǒng)計和分析報告的需求,建成基于B/S架構(gòu)的站點監(jiān)測及訪問統(tǒng)計管理的瀏覽平臺,為各站點進一步提高服務(wù)水平提供支撐和保障。

        (3)科學(xué)數(shù)據(jù)服務(wù)效果評測系統(tǒng)Sees

        該系統(tǒng)通過對數(shù)據(jù)服務(wù)效果相關(guān)的定量與定性指標的采集,將評估指標體系固化在軟件工具中,有效地實現(xiàn)對各科學(xué)數(shù)據(jù)服務(wù)系統(tǒng)服務(wù)效果的監(jiān)控與評估。

        4.2.3 數(shù)據(jù)集成服務(wù)層

        (1)科學(xué)數(shù)據(jù)云門戶CSDB

        中國科學(xué)院數(shù)據(jù)云門戶在整合“十二五”資源和服務(wù)的建設(shè)成果基礎(chǔ)上,重點實現(xiàn)基礎(chǔ)設(shè)施、平臺及應(yīng)用各層次科學(xué)數(shù)據(jù)云服務(wù)相關(guān)系統(tǒng)網(wǎng)站和接口的服務(wù)集成,對服務(wù)案例和檢索接口進行整合;對云服務(wù)的系統(tǒng)進行服務(wù)狀況的監(jiān)測、服務(wù)狀況可視化的展示;對云服務(wù)的數(shù)據(jù)庫進行元數(shù)據(jù)、論文、服務(wù)API的集成發(fā)現(xiàn)。

        (2)數(shù)據(jù)參考咨詢服務(wù)系統(tǒng)DRS

        該系統(tǒng)是科學(xué)數(shù)據(jù)的參考咨詢服務(wù)平臺,其建設(shè)目標是為用戶提供一個在訪問和使用數(shù)據(jù)資源遇到問題時可方便地尋求和獲得幫助的平臺,該系統(tǒng)將用戶、服務(wù)專員和有關(guān)知識緊密聯(lián)系起來。

        5 典型項目應(yīng)用

        大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)體系設(shè)計完成后,在中國科學(xué)院科學(xué)數(shù)據(jù)庫項目、科技部基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)項目和國家生態(tài)系統(tǒng)研究網(wǎng)絡(luò)等項目中得到了廣泛的應(yīng)用和驗證,極大地提高了這些重大項目的建設(shè)服務(wù)成效。下面選取典型項目應(yīng)用進行介紹。

        5.1 中國科學(xué)院科學(xué)數(shù)據(jù)庫

        5.1.1 項目背景

        從“十一五”的科學(xué)數(shù)據(jù)庫建庫項目到“十二五”期間的科技數(shù)據(jù)資源整合與共享工程,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心逐漸完善了一整套構(gòu)建科學(xué)數(shù)據(jù)庫并提供數(shù)據(jù)共享服務(wù)的服務(wù)體系,形成支持科研活動與科技創(chuàng)新的數(shù)據(jù)云,并從基礎(chǔ)設(shè)施(IaaS)、數(shù)據(jù)資源(DaaS)、應(yīng)用平臺(PaaS)三大類服務(wù)的角度整合各類資源和服務(wù),形成科技數(shù)據(jù)云環(huán)境。

        5.1.2 系統(tǒng)體系框架

        “中國科學(xué)院科學(xué)數(shù)據(jù)庫”的分層支撐系統(tǒng)體系主要是由3個層次構(gòu)成:基礎(chǔ)設(shè)施服務(wù)層、數(shù)據(jù)資源服務(wù)層、應(yīng)用平臺服務(wù)層。

        在基礎(chǔ)設(shè)施服務(wù)層上,為各個研究所提供必需的硬件設(shè)備,配備構(gòu)建數(shù)據(jù)庫的基本設(shè)施,支持MySQL、Oracle等多種數(shù)據(jù)庫的建設(shè),支持文件型等多種類型資源的管理,提供多種管理工具和服務(wù)。

        在數(shù)據(jù)資源服務(wù)層上,基于軟件發(fā)布工具及各類資源與服務(wù)注冊系統(tǒng),可將建庫單位的個體專業(yè)庫進行整合,通過數(shù)據(jù)映射和集成,形成主題相關(guān)的專題數(shù)據(jù)庫。同時也提供集中的數(shù)據(jù)資源管理,利用科學(xué)數(shù)據(jù)搜索引擎進行數(shù)據(jù)目錄和資源的搜索,通過資源服務(wù)監(jiān)控平臺獲取資源與服務(wù)的基本信息。

        在應(yīng)用平臺服務(wù)層上,基于數(shù)據(jù)協(xié)同服務(wù),能夠提供多種數(shù)據(jù)資源的應(yīng)用服務(wù),如各數(shù)據(jù)庫會最終匯聚到數(shù)據(jù)云門戶站點,提供統(tǒng)一的服務(wù)和接口,提供數(shù)據(jù)訪問標準。

        5.1.3 系統(tǒng)建設(shè)成效

        科技數(shù)據(jù)云環(huán)境的應(yīng)用服務(wù)基本實現(xiàn)了對分布式科研數(shù)據(jù)的統(tǒng)一管理、發(fā)現(xiàn)與共享,發(fā)展到目前“十二五”期間,共有58家建庫單位、1 340個數(shù)據(jù)庫,中國科學(xué)院數(shù)據(jù)云整合了從資源學(xué)科領(lǐng)域到植物學(xué)科領(lǐng)域等多領(lǐng)域數(shù)據(jù)庫資源,提供的共享數(shù)據(jù)量增加到655 TB,年均在線訪問超過千萬人次?!笆濉逼陂g,累計為131項科研項目提供了數(shù)據(jù)支持和服務(wù),數(shù)據(jù)云存儲環(huán)境運行服務(wù)總?cè)萘窟_52 PB,云存儲規(guī)模達8 PB,共擁有物理服務(wù)器約300臺,虛擬機5 000多臺的計算服務(wù)能力。

        5.2 國家生態(tài)系統(tǒng)觀測研究網(wǎng)絡(luò)

        5.2.1 項目背景

        國家生態(tài)系統(tǒng)觀測研究網(wǎng)絡(luò)(CNERN)是跨部門、跨行業(yè)、跨地區(qū)的科技基礎(chǔ)條件平臺,它將各主管部門的野外觀測研究基地資源、觀測設(shè)備資源、數(shù)據(jù)資源以及觀測人力資源等進行整合和規(guī)范化,構(gòu)建國家層次的生態(tài)系統(tǒng)觀測與研究的野外基地平臺、數(shù)據(jù)資源共享平臺、生態(tài)學(xué)研究的科學(xué)家合作與人才培養(yǎng)基地。CNERN包含53個野外觀測站和一個綜合研究中心,野外觀測站中36個隸屬于中國科學(xué)院,是中國生態(tài)系統(tǒng)研究網(wǎng)絡(luò)的成員站;15個屬于其他部門野外站;兩個屬于其他部門的子網(wǎng)。

        5.2.2 平臺系統(tǒng)框架

        國家生態(tài)系統(tǒng)觀測研究網(wǎng)絡(luò)云平臺(生態(tài)云平臺)屬于典型的分布式數(shù)據(jù)資源管理與服務(wù)體系架構(gòu),該云平臺框架主要包括3個主要的部分:支撐子系統(tǒng)、業(yè)務(wù)系統(tǒng)和門戶系統(tǒng)。

        其中統(tǒng)一認證系統(tǒng)完成整個云平臺用戶身份的集中統(tǒng)一認證功能;數(shù)據(jù)匯交和集成采編兩個重要的業(yè)務(wù)系統(tǒng)完成行政、實物等七大基礎(chǔ)數(shù)據(jù)及采編信息的集中匯聚;考核評估業(yè)務(wù)系統(tǒng)實現(xiàn)數(shù)據(jù)資源與服務(wù)的質(zhì)量效果評估;資源服務(wù)門戶和綜合信息門戶兩個重要的門戶系統(tǒng),主要完成信息資源的發(fā)布和數(shù)據(jù)資源在線對外服務(wù);臺站門戶系統(tǒng)完成臺站數(shù)據(jù)資源的管理和對外服務(wù)以及信息發(fā)布功能。

        5.2.3 平臺建設(shè)成效

        國家生態(tài)系統(tǒng)觀測研究網(wǎng)絡(luò)云平臺建設(shè)應(yīng)用云計算和大數(shù)據(jù)技術(shù),建成“運行管理”與“開放服務(wù)”相結(jié)合的統(tǒng)一高效的CNERN云服務(wù)環(huán)境。同時以平臺建設(shè)為契機,提高CNERN的資源信息化程度,強化CNERN的資源質(zhì)量,提升CNERN的服務(wù)能力,提升CNERN平臺在基礎(chǔ)條件平臺中的作用,為平臺規(guī)范化運行和深化服務(wù)提供技術(shù)支撐系統(tǒng)。建成了安全的國家生態(tài)網(wǎng)絡(luò)私有云平臺;實現(xiàn)了云用戶的安全驗證;建立了數(shù)據(jù)上報規(guī)范體系,實現(xiàn)了元數(shù)據(jù)的自動收割,實現(xiàn)了一次匯交、多處共用,保障了平臺數(shù)據(jù)質(zhì)量和長效更新;建立、健全了生態(tài)資源的集成并創(chuàng)新引導(dǎo)了服務(wù)考核評估的建設(shè)。

        6 結(jié)束語

        本文提出了一套面向大規(guī)模分布式科學(xué)數(shù)據(jù)管理與服務(wù)的技術(shù)架構(gòu)與系統(tǒng)實現(xiàn)方案,充分考慮了科學(xué)數(shù)據(jù)管理與服務(wù)的核心需求,貫穿了數(shù)據(jù)服務(wù)全生命周期的各個環(huán)節(jié),兼顧了實用性和可擴展性,其服務(wù)效果已在實際項目中得到了實踐與驗證。

        當前,隨著科學(xué)大數(shù)據(jù)的到來,科學(xué)數(shù)據(jù)的管理與服務(wù)又迎來了新的機遇和挑戰(zhàn)??茖W(xué)數(shù)據(jù)資源的管理、服務(wù)、共享得到了空前的重視,但對數(shù)據(jù)的規(guī)模、敏捷集成和交付方面又提出了新的要求。服務(wù)體系仍需要在大數(shù)據(jù)服務(wù)模式與服務(wù)的敏捷集成等方面繼續(xù)探索與完善。

        此外,必須說明的是,分布式科學(xué)數(shù)據(jù)管理共享是一項長期的系統(tǒng)工程,涉及政策、規(guī)范、系統(tǒng)等各個方面,需要全社會的聯(lián)合推動和長期努力。只有建立了完善的共享政策、標準規(guī)范體系和管理體系,才能真正實現(xiàn)科學(xué)數(shù)據(jù)的潛在價值,使科學(xué)數(shù)據(jù)資源的積累與共享達到基本滿足科技創(chuàng)新和國家發(fā)展的需求,提高國家科技創(chuàng)新能力和競爭力。

        [1] 黃鼎成, 郭增艷. 科學(xué)數(shù)據(jù)共享管理研究[M].北京: 中國科學(xué)技術(shù)出版社, 2002. HUANG D C, GUO Z Y. Study on the management of scientific datasharing[M]. Beijing: Science and Technology of China Press, 2002.

        [2] 諸云強, 孫九林, 廖順寶, 等. 地球系統(tǒng)科學(xué)數(shù)據(jù)共享研究與實踐[J]. 地球信息科學(xué)學(xué)報, 2010, 12(1): 1-8. ZHU Y Q, SUN J L, LIAO S B, et al. Earth system scientific data sharing research and practice[J]. Journal of GEOInformation Science, 2010, 12(1): 1-8.

        [3] 時子慶, 劉金蘭, 譚曉華. 基于 OAuth2.0 的認證授權(quán)技術(shù)[J]. 計算機系統(tǒng)應(yīng)用, 2012, 21(3): 260-264. SHI Z Q, LIU J L, TAN X H. Authentication and authorization technique based on OAuth2.0[J]. Computer Systems and Applications, 2012, 21(3): 260-264.

        [4] 沈濤, 馬紅光, 薛文通. 網(wǎng)絡(luò)數(shù)據(jù)加密算法研究及其應(yīng)用[J]. 計算機工程與應(yīng)用, 2002, 38(19): 156-158. SHEN T, MA H G, XUE W T. Research and application on network data encryption[J]. Computer Engineering and Applications, 2002, 38(19): 156-158.

        [5] 申德榮, 于戈, 王習(xí)特, 等. 支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J]. 軟件學(xué)報, 2013(8): 1786-1803. SHEN D R, YU G, WANG X T, et al. Survey on NoSQL for management of big data[J]. Journal of Software, 2013(8): 1786-1803.

        [6] 程學(xué)旗, 靳小龍, 王元卓, 等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報, 2014(9): 1889-1908. CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytic technology[J]. Journal of Software, 2014(9): 1889-1908.

        [7] GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google File System[C]//19th ACM Symposium on Operating Systems Principles, October 19-22, 2003, Lake George, USA. [S.l.:s.n.], 2003: 29-43.

        Large scale distributed scientific data management and service technology framework and system

        LIU Feng, CHEN Xin, LI Jianhui, LIU Ang, HAN Fang
        Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China

        With the development of the information process, problems in the management and application of large-scale distributed With three decades of experience in related fields, after studying key issues and core requirements, the systematic toplevel design was conducted. The technical architecture for large-scale distributed scientific data in management and services was proposed, and the service system was organized and planned from three levels: autonomy management, integration management and integration services, also a complete service platform and software system were constructed to provide integration solutions for scientific data management and services from management to application.

        scientific data, scientific data management, resource service system, distributed service, service framework, technology framework

        G311

        A

        10.11959/j.issn.2096-0271.2016062

        劉峰(1974-),男,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心高級工程師,主要研究方向為科學(xué)數(shù)據(jù)管理與服務(wù)體系構(gòu)建。

        陳昕(1982-),女,博士,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心研究員,主要研究方向為數(shù)據(jù)可視分析、科學(xué)數(shù)據(jù)管理與服務(wù)。

        黎建輝(1973-),男,博士,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心研究員、博士生導(dǎo)師,大數(shù)據(jù)技術(shù)與應(yīng)用發(fā)展部主任,CODATA中國委員會秘書長,主要研究方向為大數(shù)據(jù)管理、大數(shù)據(jù)分析與處理。

        劉昂(1990-),男,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心工程師,主要研究方向為科學(xué)大數(shù)據(jù)技術(shù)與服務(wù)。

        韓芳(1987-),女,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心工程師,主要研究方向為自然語言處理。

        2016-10-08

        國家“十二五”科技支撐計劃資助項目(No. 2013BAD15B02);國家自然科學(xué)基金資助項目(No.91224006);中國科學(xué)院“十二五”信息化基金資助項目(No.XXH12504)

        Foundation Items:National “Twelfth Five-Year”Plan for Science & Technology Support(No. 2013BAD15B02), The National Natural Science Foundation of China(No.91224006), Special Project of Informatization of Chinese Academy of Sciences in “the Twelfth Five-Year Plan”(No.XXH12504)

        猜你喜歡
        數(shù)據(jù)服務(wù)數(shù)據(jù)管理分布式
        地理空間大數(shù)據(jù)服務(wù)自然資源調(diào)查監(jiān)測的方向分析
        企業(yè)級BOM數(shù)據(jù)管理概要
        定制化汽車制造的數(shù)據(jù)管理分析
        海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
        CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        如何運用稅收大數(shù)據(jù)服務(wù)供給側(cè)結(jié)構(gòu)性改革
        中國商論(2016年34期)2017-01-15 14:24:18
        基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
        基于DDS的分布式三維協(xié)同仿真研究
        雷達與對抗(2015年3期)2015-12-09 02:38:50
        免费国产自拍视频在线观看| 欧美亚洲另类自拍偷在线拍| 久久深夜中文字幕高清中文| 九九99久久精品午夜剧场免费| 久久夜色精品国产亚洲av老牛| 国产一区二区av免费在线观看| 亚洲色一区二区三区四区| 最新精品国偷自产在线| 欧美成人免费高清视频| 国产在线白浆一区二区三区在线| 青青草视频在线免费观看91| 亚洲精品成人无百码中文毛片| 亚洲av不卡一区二区三区| 久久天天躁狠狠躁夜夜爽蜜月| 美女黄网站永久免费观看网站| 国产一区二区不卡av| 青青草小视频在线观看| 三年的高清电影免费看| 少妇内射视频播放舔大片| 久久精品国产88久久综合| 色婷婷亚洲一区二区在线| 亚洲国产av一区二区三区精品| 久久人人爽av亚洲精品| 欧美性受xxxx狂喷水| 2021国产视频不卡在线| 中文少妇一区二区三区| 久久夜色精品国产噜噜噜亚洲av| 国内少妇毛片视频| 97久久超碰国产精品2021| 亚洲AV无码一区二区二三区我| 精品国产3p一区二区三区| 久久午夜福利电影| 国产精品美女一区二区三区 | 亚洲天堂中文| 91精品国产无码在线观看| 婷婷丁香开心五月综合| 最近2019年好看中文字幕视频| 爽妇网国产精品| av天堂手机一区在线| 亚洲国产精品成人久久| 国产微拍精品一区二区|