陳湘
【摘 要】科學數(shù)據(jù)是國家的一種戰(zhàn)略資源,也是科學研究的基礎和科學發(fā)展的驅動力。本文指出大數(shù)據(jù)背景下我國科學數(shù)據(jù)共享的五種模式:大科學裝置模式、開放平臺模式、監(jiān)測網(wǎng)絡模式、聯(lián)邦服務模式、科學數(shù)據(jù)出版模式。此外,對這五種數(shù)據(jù)共享模式在實踐中的應用進行總結。
【關鍵詞】科學數(shù)據(jù);共享模式;大數(shù)據(jù);數(shù)據(jù)開放
中圖分類號: G352文獻標識碼: A 文章編號: 2095-2457(2019)17-0204-002
DOI:10.19694/j.cnki.issn2095-2457.2019.17.096
Research on Chinas Scientific Data Sharing Model under the Background of Big Data
CHEN Xiang
(Library,Xihua University,Chengdu Sichuan 610039,China)
【Abstract】Scientific data is a strategic resource of the country and the foundation of scientific research and the driving force for scientific development. This paper points out five models of scientific data sharing in China under the background of big data: large scientific device model, open platform model, monitoring network model, federal service model, and scientific data publishing model. In addition, the application of these five data sharing modes in practice is summarized.
【Key words】Scientific Data; Sharing mode; Big Data; Open data
0 引言
隨著我國科技創(chuàng)新投入和水平不斷增強,借助數(shù)字化、網(wǎng)絡化和智能化技術,在物聯(lián)網(wǎng)、大數(shù)據(jù)、移動技術、人工智能和感知技術的支持和驅動下,大科學裝置、大型儀器設備與大規(guī)模長期監(jiān)測網(wǎng)絡快速發(fā)展,科學數(shù)據(jù)采集能力持續(xù)提升,使我國積累了大量科學數(shù)據(jù)資源,將我國科學研究推進到大數(shù)據(jù)時代,且向縱深發(fā)展。開放科學的發(fā)展趨勢和《科學數(shù)據(jù)管理辦法》的頒布,促進國內政府機構、科研機構、高校等相關機構越來越重視科學數(shù)據(jù)的共享和管理。科學數(shù)據(jù)是國家的一種戰(zhàn)略資源,也是科學研究的基礎,更是科學發(fā)展的驅動力。
我國政府、研究機構、企業(yè)等利益相關者對科學數(shù)據(jù)共享和管理的關注始于上世紀80年代。我國于1984 年加入國際科技數(shù)據(jù)委員會CODATA,建立CODATA 中國委員會;2001年提出“實施科學數(shù)據(jù)共享工程,增強國家科技創(chuàng)新能力”建議[1];2002年啟動“科學數(shù)據(jù)共享工程”,實施國家科技基礎條件平臺建設,召開“中國科學數(shù)據(jù)共享香山會議”;2003年發(fā)布《國家科學技術項目科學數(shù)據(jù)匯交暫行辦法(草案)》;2004年出S臺《2004-2010年國家科技基礎條件平臺建設綱要》[2];2005年發(fā)布《科學數(shù)據(jù)共享工程技術標準(征求意見稿)》;2006年發(fā)布《國家中長期科學和技術發(fā)展規(guī)劃綱要(2006-2020年)》[3];2009年發(fā)布《國家重點基礎研究發(fā)展計劃資源環(huán)境領域項目數(shù)據(jù)匯交暫行辦法》[4];2011年確認23個國家科技基礎條件平臺;2014年第一屆“中國科學數(shù)據(jù)大會”召開并形成年屆慣例;2015年創(chuàng)立我國首個科學數(shù)據(jù)出版期刊《中國科學數(shù)據(jù)(中英文網(wǎng)絡版)》,同年,發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》[5];2018年頒布《國家科技資源共享服務平臺管理辦法》和《科學數(shù)據(jù)管理辦法》。從我國在科學數(shù)據(jù)共享和管理方面所出臺的政策來看,我國政府非常重視科學數(shù)據(jù),并在逐漸形成科學數(shù)據(jù)共享的良好體系和模式。
我國科學數(shù)據(jù)共享模式多樣,并呈現(xiàn)多種模式齊頭并進的趨勢。這些數(shù)據(jù)共享模式在數(shù)據(jù)來源、驅動機制、服務場景、管理、組織形態(tài)、質量績效和共享服務等方面的特征存在各自不同的差異和特點。本文通過文獻調研、網(wǎng)站調查法、實證分析和典型案例法,對科學數(shù)據(jù)共享模式進行系統(tǒng)的整理、分析和總結,為我國科學數(shù)據(jù)共享和管理的工作提供參考。
1 大數(shù)據(jù)環(huán)境下我國科學數(shù)據(jù)共享模式研究
1.1 大科學裝置模式
大科學裝置模式所代表的是一類以高度集中的大規(guī)模、高投入精尖設備為標志、以規(guī)模化數(shù)據(jù)生產與規(guī)范化數(shù)據(jù)開放見稱的數(shù)據(jù)資源共享活動[6]。它是以大規(guī)模投入和建設,用于基礎研究和應用基礎研究的大型科學裝置和設施為代表,不斷產生并捕獲數(shù)據(jù)。這種模式用來支撐科技含量高、富有探索性和創(chuàng)新性的持續(xù)科研活動。截至2017年,我國已建成并正式運行的大科學裝置有16個,在建調試裝置7個。大科學裝置模式具有科技含量高、政策主導性強、經費投入巨大和充足、數(shù)據(jù)來源集中和固定、數(shù)據(jù)的存儲和管理方式規(guī)范和統(tǒng)一、數(shù)據(jù)開放的形式統(tǒng)一、數(shù)據(jù)開放的權利和責任明確等特點。大科學裝置按作用可分為用于科學技術前沿領域和研究方向的專用設施和設備,如LAMOST望遠鏡;為多學科領域研究提供支撐的大型公共實驗設施,如穩(wěn)態(tài)強磁場;用于公益性科學研究的公益科技設施,如遙感飛機[7]。
它的數(shù)據(jù)資源共享服務分為延時和即時共享兩種類型。延時共享中,生產的數(shù)據(jù)先供項目組內科研使用,然后組織好后通過數(shù)據(jù)分級等形式供科研組以外的科學研究人員使用,如LAMOST望遠鏡的數(shù)據(jù)共享服務。即時共享模式中,它產生的數(shù)據(jù)要經過標準化處理后存儲進開放平臺,提供給用戶使用,如遙感飛機產生的數(shù)據(jù)。遙感飛機是國內為數(shù)不多的高性能、高空實驗平臺,全國28個省、市、自治區(qū)都有它的身影,共承擔和作業(yè)了一百多項相關項目,包含城市、農業(yè)、環(huán)境、災害等方面。它以對國內研究機構、學校、企業(yè)、地方政府提供數(shù)據(jù)開放和共享為原則,實現(xiàn)數(shù)據(jù)資源的獲取、處理和共享,建立了一個包括國家政府部門、科研院所、高校、企業(yè)與地方等組成的用戶委員會,根據(jù)用戶的需求開展動態(tài)的運行服務,為用戶提供高性能綜合對地觀測信息獲取和實驗服務。其中2014年全年度遙感飛機獲取數(shù)據(jù)超過30TB,可供共享數(shù)據(jù)量超過20TB。
1.2 開放平臺模式
隨著大數(shù)據(jù)技術的發(fā)展和應用,通過開放平臺匯聚數(shù)據(jù)的開放服務模式越來越受到眾多數(shù)據(jù)所有者的青睞。開放平臺模式具有統(tǒng)一的數(shù)據(jù)存儲庫和共享服務系統(tǒng),系統(tǒng)具有開放性,數(shù)據(jù)能在平臺中進行長期保存。此種模式的共享服務一般包括數(shù)據(jù)中心、特色數(shù)據(jù)庫、專題數(shù)據(jù)庫等,將數(shù)據(jù)資源、數(shù)據(jù)服務、數(shù)據(jù)維護等集中來進行各方資源的調配。它的數(shù)據(jù)資源管理的方式有面向普遍性數(shù)據(jù)存儲和共享需求的通用數(shù)據(jù)存儲庫,如科學數(shù)據(jù)存儲庫(ScienceDB);面向特定學科領域的學科數(shù)據(jù)存儲庫,如組學原始數(shù)據(jù)歸檔系統(tǒng)(GSA)、地理空間數(shù)據(jù)云(GSCloud);服務于特定機構數(shù)據(jù)統(tǒng)一歸檔和共享需求的機構數(shù)據(jù)儲存庫,如北京大學開放研究數(shù)據(jù)平臺。它的模式運行的驅動力為多元激勵機制的綜合體系,與聯(lián)邦服務模式的數(shù)據(jù)群形成互補。
ScienceDB是一個非盈利性的在線數(shù)據(jù)庫,這個數(shù)據(jù)存儲庫的功能是長期和穩(wěn)定的存儲、共享、管理和使用高質量的科學數(shù)據(jù),是一個面向科研人員、項目團隊以及期刊或出版商等的通過提供一系列網(wǎng)站服務,使科研數(shù)據(jù)歸檔、獲取、使用、認證和引用變得簡單。它的每個數(shù)據(jù)集和數(shù)據(jù)文件都將分配一個數(shù)字對象標識符,這是一個永久唯一并且可解析的標識符,是數(shù)據(jù)引用的重要組成部分。它涵蓋生命科學、地球科學、空間天文、材料科學、社會科學、信息科學、化學科學、物理科學等領域。
1.3 監(jiān)測網(wǎng)絡模式
監(jiān)測網(wǎng)絡模式中采集的數(shù)據(jù)既存儲在中心節(jié)點服務器上,又存儲在本地服務器上,數(shù)據(jù)通過共享服務門戶網(wǎng)站和各分節(jié)點合作為科研人員提供服務。監(jiān)測網(wǎng)絡一般依據(jù)具體的科研活動需要而建立,它是一種總中心的集權管理模式,但各分數(shù)據(jù)中心具有各自靈活的數(shù)據(jù)管理方式,數(shù)據(jù)開放由總中心統(tǒng)一管理。數(shù)據(jù)管理工作參與度高、開放流程復雜。它的數(shù)據(jù)采用統(tǒng)一的標準進行采集,參與數(shù)據(jù)收割、開放與服務的節(jié)點既相互聯(lián)結又自成體系。中國氣象數(shù)據(jù)網(wǎng)、國家海洋環(huán)境監(jiān)測中心、中國地震臺網(wǎng)、中國水土保持監(jiān)測網(wǎng)、中國林業(yè)網(wǎng)、全國公路水路交通運輸環(huán)境監(jiān)測網(wǎng)、國家生態(tài)系統(tǒng)觀測研究網(wǎng)絡等部門所建設的用于監(jiān)測自然與人文環(huán)境時空變化所形成的數(shù)據(jù)中心集群,皆為監(jiān)測網(wǎng)絡模式。這種模式的典型案例就是中國氣象數(shù)據(jù)網(wǎng)的數(shù)據(jù)共享服務。中國氣象數(shù)據(jù)網(wǎng)是我國科技基礎平臺的關鍵部分,是氣象云的門戶應用系統(tǒng),以滿足和響應科研工作者和普通群眾氣象數(shù)據(jù)的開放和共享需求為目的,是我國開放的氣象數(shù)據(jù)共享平臺。中國氣象數(shù)據(jù)網(wǎng)主要從建立標準規(guī)范體系、整合科學數(shù)據(jù)資源、建設共享平臺和建設數(shù)據(jù)共享服務等四個方面進行工作。數(shù)據(jù)服務對象,為涵蓋政府部門、公益性用戶、商業(yè)性用戶在內的各類社會團體和公眾用戶。它的服務模式分在線數(shù)據(jù)服務和離線數(shù)據(jù)服務兩種,在線數(shù)據(jù)服務通常通過中國氣象數(shù)據(jù)網(wǎng)提供在線的數(shù)據(jù)下載和服務,離線數(shù)據(jù)服務包括電話咨詢、信息咨詢、專題數(shù)據(jù)產品等[8]。數(shù)據(jù)服務包括共享目錄、各類相關資料(如農氣、衛(wèi)星、雷達、科考等)的下載、數(shù)值預報、歷史氣候代用、氣象災害等。
1.4 聯(lián)邦服務模式
聯(lián)邦服務模式是一種非集中控制的分布式自治服務模式,它和監(jiān)測網(wǎng)絡模式比較更為松散。具有數(shù)據(jù)服務節(jié)點多、數(shù)據(jù)節(jié)點參與范圍更廣泛,數(shù)據(jù)源頭多種多樣、數(shù)據(jù)采集形式多樣、數(shù)據(jù)服務松散等特點。這些特點使得聯(lián)邦服務模式有利于擴大數(shù)據(jù)的收集和開放范圍,為更廣范圍、更多學科交叉的數(shù)據(jù)重用與價值增值帶來可能。它依照規(guī)范統(tǒng)一的元數(shù)據(jù)標準匯集各節(jié)點的元數(shù)據(jù)到總節(jié)點,通過科學數(shù)據(jù)共享服務門戶和多源科學數(shù)據(jù)的統(tǒng)一標準規(guī)范為科研人員提供數(shù)據(jù)服務。這種模式的典型代表有我國政府主持建立的一些國家級或地方級的科學數(shù)據(jù)共享服務平臺,如:世界微生物數(shù)據(jù)中心(WDCM)、國際地球生物圈計劃(IGBP)等。IGBP是超級國際科學計劃,其科學目標主要在研究主導整個地球系統(tǒng)的相互作用的物理、化學和生物學過程,著重研究時間尺度約為幾十年到幾百年,對人類活動最為敏感的相互作用過程和重大變化,其最終目標是提高人類對全球變化的預測能力[9]?,F(xiàn)有49個國家成員,若干ICSU下屬聯(lián)盟和協(xié)會成員。IGBP的主要產品有數(shù)據(jù),它重視數(shù)據(jù)與信息管理,同時它引導建立國際化的數(shù)據(jù)庫。
1.5 科學數(shù)據(jù)出版模式
科學數(shù)據(jù)出版模式指用戶按照標準統(tǒng)一的管理和流程,以數(shù)據(jù)論文的方式,通過Internet公開發(fā)布其原始數(shù)據(jù),或通過對已有的數(shù)據(jù)進行系統(tǒng)化地采集、分析、理解、整理和再利用后形成的數(shù)據(jù)及相關數(shù)據(jù)產品,能夠使其他的科研人員更方便和快速的搜集、獲取、核查、分析、處理再利用,同時科研人員通過再利用和創(chuàng)新,可以在新發(fā)表和發(fā)現(xiàn)的科研論文和成果中引用。它具有知識產權清晰,可在學術出版物中正式引用,具有全球統(tǒng)一標識,可持久訪問,可對數(shù)據(jù)引用情況進行跟蹤統(tǒng)計和分析,能實現(xiàn)全面數(shù)據(jù)質量管理,有效保證科學數(shù)據(jù)質量,遏制學術不端行為等特點。它作為一種歷史悠久又兼具創(chuàng)新的數(shù)據(jù)開放共享模式,有利于在激勵機制與數(shù)據(jù)質量控制等方面發(fā)揮作用。我國科學數(shù)據(jù)出版平臺由科學數(shù)據(jù)出版系統(tǒng)、增值服務系統(tǒng)和科學數(shù)據(jù)存儲庫組成,科學數(shù)據(jù)出版系統(tǒng)主要進行數(shù)據(jù)論文的提交、評審和在線出版;科學數(shù)據(jù)存儲庫主要進行數(shù)據(jù)的在線上傳、發(fā)布、評論和評價;增值服務系統(tǒng)主要提供關聯(lián)發(fā)(下轉第173頁)(上接第205頁)現(xiàn)服務、數(shù)據(jù)推薦服務、可視化服務和分析服務。我國科學數(shù)據(jù)出版的典型刊物有《中國科學數(shù)據(jù)》《全球變化科學研究數(shù)據(jù)出版系統(tǒng)》《GigaScience》?!吨袊茖W數(shù)據(jù)》(China Scientific Data)是2015年我國專門面向多學科領域科學數(shù)據(jù)出版創(chuàng)立的學術期刊,獲批國內統(tǒng)一連續(xù)出版號碼:CN11-6035/N,該刊致力于科學數(shù)據(jù)的開發(fā)、交流和引用,推薦科學數(shù)據(jù)的長期保存和數(shù)據(jù)資產管理、探索科學數(shù)據(jù)工作的有效評價機制,推動科學數(shù)據(jù)的發(fā)展[10]?!吨袊茖W數(shù)據(jù)》主要關注數(shù)據(jù)的復用價值、數(shù)據(jù)生產方法、數(shù)據(jù)對相關研究結論的支持性、數(shù)據(jù)的質量和加工處理,其重點研究領域包括生命科學、空間天文、化學工程、材料科學、信息科學、社會科學等。
2 結語
我國科學數(shù)據(jù)資源豐富,科學數(shù)據(jù)共享和管理也得到政府的高度重視和支持,科學數(shù)據(jù)共享模式多種多樣,各模式齊頭并進發(fā)展。將科學數(shù)據(jù)共享模式加以區(qū)分是為了科學數(shù)據(jù)能夠更好地被存儲、分析、共享、應用和在利用。在實踐過程中,科學數(shù)據(jù)共享的模式并不是單一的,經常存在著交叉重疊現(xiàn)象,在實際數(shù)據(jù)共享的操作中要根據(jù)數(shù)據(jù)源頭、驅動機制、服務場景、組織形態(tài)、質量績效、科研活動的具體開展情況選擇合適的科學數(shù)據(jù)共享模式,同時,在政府的推動和廣大科研人員的共同努力下,科學數(shù)據(jù)共享模式將不斷地完善,相互補充,推動我國科學數(shù)據(jù)開放共享工作。
【參考文獻】
[1]張麗麗,溫亮明,石蕾,鄭曉歡,黎建輝.國內外科學數(shù)據(jù)管理與開放共享的最新進展[J].中國科學院院刊,2018,33(08):774-782.
[2]2004-2010年國家科技基礎條件平臺建設綱要[EB/OL].[2019-5-31].http://www.most.gov.cn/tjcw/tczcwj/200708/t200
70813_52389.htm.
[3]國家中長期科學和技術發(fā)展規(guī)劃綱要(2006-2020年)[EB/OL].[2019-5-31].https://www.mfa.gov.cn/ce/cekor/chn/kjjl/kjzc/t802179.htm.
[4]關于開展國家重點基礎研究發(fā)展計劃資源環(huán)境領域項目數(shù)據(jù)匯交工作的通知[EB/OL].[2019-5-31].http://www.most.gov.cn/mostinfo/xinxifenlei/fgzc/gfxwj/gfxwj2009/200912/t20091221_74795.htm.
[5]促進大數(shù)據(jù)發(fā)展行動綱要[EB/OL].[2019-5-31].http://www.zyczs.gov.cn/html/nysczl/2018/9/1536891477862.html.
[6]國家科技基礎條件平臺中心.2017國家科學數(shù)據(jù)資源發(fā)展報告[M].北京:科學技術出版社,2018.
[7]陳套,馮鋒.大科學裝置集群效應及管理啟示[J].西北工業(yè)大學學報(社會科學版),2015,35(01):61-66.
[8]司莉,王雨娃.我國科學數(shù)據(jù)共享平臺數(shù)據(jù)組織的現(xiàn)狀及改進建議——基于國家科技基礎條件平臺的分析[J].圖書館建設,2018(10):52-58.
[9]蔡運龍,李雙成,方修琦.自然地理學研究前沿[J].地理學報,2009,64(11):1363-1374.
[10]張麗麗,黎建輝.科研數(shù)據(jù)的開放:進展、模式與新探索[J].大數(shù)據(jù),2016,2(06):25-33.