亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科學(xué)大數(shù)據(jù)集成共享進(jìn)展及面臨的挑戰(zhàn)

        2017-10-13 01:50:26諸云強(qiáng)王筱萱
        中國科技資源導(dǎo)刊 2017年5期
        關(guān)鍵詞:科學(xué)

        諸云強(qiáng) 潘 鵬 石 蕾 孫 凱,5 王筱萱,楊 杰,5

        (1.中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.環(huán)境保護(hù)部環(huán)境工程評估中心,北京 100012;3.國家環(huán)境保護(hù)環(huán)境影響評價(jià)數(shù)值模擬重點(diǎn)實(shí)驗(yàn)室,北京 100012;4.國家科技基礎(chǔ)條件平臺(tái)中心,北京 100862;5.中國科學(xué)院大學(xué),北京 100049;6.江蘇省地理信息協(xié)同創(chuàng)新中心,江蘇南京 210023;7.白洋淀流域生態(tài)保護(hù)與京津冀可持續(xù)發(fā)展協(xié)同創(chuàng)新中心,河北保定 071002)

        科學(xué)大數(shù)據(jù)集成共享進(jìn)展及面臨的挑戰(zhàn)

        諸云強(qiáng)1,6,7潘 鵬2,3石 蕾4孫 凱1,5王筱萱1,楊 杰1,5

        (1.中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.環(huán)境保護(hù)部環(huán)境工程評估中心,北京 100012;3.國家環(huán)境保護(hù)環(huán)境影響評價(jià)數(shù)值模擬重點(diǎn)實(shí)驗(yàn)室,北京 100012;4.國家科技基礎(chǔ)條件平臺(tái)中心,北京 100862;5.中國科學(xué)院大學(xué),北京 100049;6.江蘇省地理信息協(xié)同創(chuàng)新中心,江蘇南京 210023;7.白洋淀流域生態(tài)保護(hù)與京津冀可持續(xù)發(fā)展協(xié)同創(chuàng)新中心,河北保定 071002)

        科學(xué)大數(shù)據(jù)集成共享既是數(shù)據(jù)密集型現(xiàn)代科學(xué)研究獲取數(shù)據(jù)的重要途徑,也是科學(xué)數(shù)據(jù)自身價(jià)值發(fā)掘和提升的必然選擇,更是國家政策的頂層要求。在分析科學(xué)大數(shù)據(jù)內(nèi)涵和特征的基礎(chǔ)上,總結(jié)科學(xué)數(shù)據(jù)集成共享主要進(jìn)展,指出科學(xué)大數(shù)據(jù)集成共享面臨整合集成機(jī)制、集成共享質(zhì)量控制、關(guān)聯(lián)集成與語義搜索、數(shù)據(jù)產(chǎn)權(quán)與共享安全、數(shù)據(jù)高效利用等5個(gè)方面的問題并分別提出應(yīng)對策略。

        科學(xué)大數(shù)據(jù);數(shù)據(jù)共享;關(guān)聯(lián)集成;數(shù)據(jù)質(zhì)量;開放安全

        科學(xué)數(shù)據(jù)是指人類在認(rèn)識世界、改造世界的科技活動(dòng)中所產(chǎn)生的原始性、基礎(chǔ)性數(shù)據(jù),以及按照不同需求系統(tǒng)加工的數(shù)據(jù)產(chǎn)品和相關(guān)信息[1]??茖W(xué)數(shù)據(jù)是關(guān)系到科技進(jìn)步與創(chuàng)新能力、社會(huì)經(jīng)濟(jì)發(fā)展與管理決策的寶貴國家財(cái)富和重要戰(zhàn)略資源[2-3]。隨著地基監(jiān)測、對地觀測、深地(空)探測,特別是移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展和深入應(yīng)用,科學(xué)數(shù)據(jù)的采集、處理、傳輸變得越來越容易和快捷,科學(xué)大數(shù)據(jù)的新紀(jì)元已經(jīng)到來??茖W(xué)研究已經(jīng)從幾千年前的直接觀察、幾百年前的理論方法、幾十年前的計(jì)算仿真,進(jìn)入到第四階段“數(shù)據(jù)密集型研究”[4]。這一階段的特點(diǎn)就是依靠海量的科學(xué)數(shù)據(jù),從表面上看起來毫無關(guān)聯(lián)的大數(shù)據(jù)中發(fā)現(xiàn)在傳統(tǒng)小規(guī)模數(shù)據(jù)中無法發(fā)現(xiàn)的隱含在科學(xué)大數(shù)據(jù)背后的規(guī)律和知識。

        盡管科學(xué)大數(shù)據(jù)的采集、處理、傳輸變得越來越容易和快捷,但大部分的數(shù)據(jù)仍然由少數(shù)權(quán)威行業(yè)部門、科研機(jī)構(gòu)以及科研項(xiàng)目所擁有,因此,科學(xué)大數(shù)據(jù)的集成共享仍然是當(dāng)前科學(xué)大數(shù)據(jù)挖掘利用的基礎(chǔ)和前提。為了促進(jìn)科學(xué)數(shù)據(jù)的集成共享,早在上世紀(jì)50年代,美國、英國等發(fā)達(dá)國家,國際科聯(lián)科技數(shù)據(jù)委員會(huì)、世界數(shù)據(jù)中心等國際組織就啟動(dòng)了一系列的行動(dòng)和計(jì)劃。2014年內(nèi)羅畢發(fā)展中國家科學(xué)數(shù)據(jù)共享國際研討會(huì)發(fā)布了“發(fā)展中國家數(shù)據(jù)共享原則”(又稱“內(nèi)羅畢數(shù)據(jù)共享原則”)。2015年國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》明確要求,構(gòu)建科學(xué)大數(shù)據(jù)國家重大基礎(chǔ)設(shè)施,實(shí)現(xiàn)對國家重要科技數(shù)據(jù)的權(quán)威匯集、長期保存、集成管理和全面共享。科學(xué)大數(shù)據(jù)集成共享既是數(shù)據(jù)密集型現(xiàn)代科學(xué)研究獲取數(shù)據(jù)的重要途徑,也是科學(xué)數(shù)據(jù)自身價(jià)值發(fā)掘和提升的必然選擇,更是國家政策的頂層要求。

        面向科學(xué)大數(shù)據(jù)集成共享的迫切需求,本文首先闡述科學(xué)大數(shù)據(jù)的內(nèi)涵與特征和科學(xué)大數(shù)據(jù)集成共享的主要進(jìn)展,然后分析提出科學(xué)大數(shù)據(jù)集成共享面臨的主要問題,最后提出相應(yīng)的應(yīng)對策略,以期在為后續(xù)科學(xué)大數(shù)據(jù)集成共享研究與應(yīng)用提供參考和借鑒。

        1 科學(xué)大數(shù)據(jù)內(nèi)涵與特征

        大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合[5]??茖W(xué)大數(shù)據(jù)則是與科學(xué)研究相關(guān),反映和表征自然和社會(huì)科學(xué)現(xiàn)象及其關(guān)系的大數(shù)據(jù)。它既是支撐科學(xué)研究的重要基礎(chǔ),也是科學(xué)研究的重要產(chǎn)物和成果[6];既有一般科學(xué)數(shù)據(jù)和大數(shù)據(jù)的特征,也有其自身獨(dú)有的特征(圖1)。

        圖1 科學(xué)大數(shù)據(jù)特征

        科學(xué)大數(shù)據(jù)具有一般科學(xué)數(shù)據(jù)的所有特征,包括客觀性、分離性、長效性、不對稱性、非排他性、可傳遞性、增值性等[7]。然而,作為大數(shù)據(jù)的一種,科學(xué)大數(shù)據(jù)還具有通用大數(shù)據(jù)具有的4V特征,即體量浩大(Volume)、模態(tài)繁多(Variety)、生成快速(Velocity)和價(jià)值巨大(Value),但密度很低[5,8];科學(xué)大數(shù)據(jù)的獨(dú)特特征表現(xiàn)為:高維度性、高度計(jì)算復(fù)雜性、高度不確定性和時(shí)空尺度大、分散多源異構(gòu)等[9]。高維度性是指科學(xué)大數(shù)據(jù)反映和表征著復(fù)雜的自然和社會(huì)科學(xué)現(xiàn)象與關(guān)系,而這些自然現(xiàn)象或科學(xué)過程的外部表征一般具有高度數(shù)據(jù)相關(guān)性和多重?cái)?shù)據(jù)屬性[10];高度計(jì)算復(fù)雜性是指科學(xué)大數(shù)據(jù)應(yīng)用的場景大多屬于非線性復(fù)雜系統(tǒng),具有高度復(fù)雜的數(shù)據(jù)模型,因而科學(xué)大數(shù)據(jù)計(jì)算問題不僅僅是一個(gè)數(shù)據(jù)處理與分析的問題,還是一個(gè)復(fù)雜系統(tǒng)與數(shù)據(jù)共同建模及計(jì)算的問題[11];高度不確定性是指科學(xué)大數(shù)據(jù)的來源一般包括對自然過程的感知和科學(xué)實(shí)驗(yàn)數(shù)據(jù)的獲取,這兩種數(shù)據(jù)來源的特點(diǎn)決定了科學(xué)大數(shù)據(jù)普遍具有高度不確定性[10];時(shí)空尺度大是指科學(xué)大數(shù)據(jù)由于研究對象的不同,其覆蓋的時(shí)間和空間范圍往往較大,在時(shí)間尺度上包含有從瞬間的地震暴發(fā)數(shù)據(jù)到上百萬年的地質(zhì)演變數(shù)據(jù),在空間尺度上包含有從單點(diǎn)的水質(zhì)監(jiān)測數(shù)據(jù)到全球范圍的氣候變化數(shù)據(jù)等;分散多源異構(gòu)是指科學(xué)大數(shù)據(jù)往往分散在從事科學(xué)研究的科研院所、高等學(xué)校的科研團(tuán)隊(duì)、科學(xué)家個(gè)人手中,具有不同來源、不同類型格式等特征。從數(shù)據(jù)管理和利用的視角來看,科學(xué)大數(shù)據(jù)具有不同的投資方式、產(chǎn)生方式、數(shù)據(jù)內(nèi)容、數(shù)據(jù)類型、管理主體和服務(wù)定位。

        在投資方式方面,科學(xué)大數(shù)據(jù)可以是由國家和地方財(cái)政、單位自主經(jīng)費(fèi),也可以是由企業(yè)或個(gè)人經(jīng)費(fèi)等方式進(jìn)行投資;在產(chǎn)生方式方面,科學(xué)大數(shù)據(jù)可以是由地面觀測(監(jiān)測)、考察調(diào)查、對地觀測、對空探測,也可以是由統(tǒng)計(jì)分析、實(shí)驗(yàn)試驗(yàn)、計(jì)算模擬,甚至是由互聯(lián)網(wǎng)挖掘、志愿數(shù)據(jù)采集等方式產(chǎn)生;在數(shù)據(jù)內(nèi)容方面,科學(xué)大數(shù)據(jù)包括科學(xué)數(shù)據(jù)集、圖集、志書/典籍、標(biāo)本資源(樣品、標(biāo)本)和標(biāo)準(zhǔn)物質(zhì)等內(nèi)容;在數(shù)據(jù)類型方面,科學(xué)大數(shù)據(jù)分為空間數(shù)據(jù)(矢量、柵格等)、非空間數(shù)據(jù)(數(shù)據(jù)庫表、數(shù)值文本、統(tǒng)計(jì)圖等)或多媒體數(shù)據(jù)(文檔、圖片、音頻、視頻等)等類型;在管理主體方面,科學(xué)大數(shù)據(jù)可以是由專業(yè)機(jī)構(gòu)(數(shù)據(jù)中心)、科研團(tuán)隊(duì)或科學(xué)家個(gè)人等不同主體管理;在服務(wù)定位方面,科學(xué)大數(shù)據(jù)可以是研究型數(shù)據(jù)(研究項(xiàng)目產(chǎn)生的數(shù)據(jù))、資源型數(shù)據(jù)(特定領(lǐng)域公共的數(shù)據(jù)庫)或參考型數(shù)據(jù)(長期積累的基礎(chǔ)性數(shù)據(jù))[12]。科學(xué)大數(shù)據(jù)的上述特征和屬性,決定了科學(xué)大數(shù)據(jù)集成共享的復(fù)雜性、困難性和長期性。

        2 科學(xué)大數(shù)據(jù)集成共享主要進(jìn)展

        2.1 科學(xué)大數(shù)據(jù)共享計(jì)劃/規(guī)劃

        美國政府認(rèn)為,全國范圍的大數(shù)據(jù)創(chuàng)新生態(tài)系統(tǒng)能夠幫助美國充分利用大而繁雜的數(shù)據(jù)集所創(chuàng)造的新機(jī)遇[13-14]。為此,2012年美國公布了“大數(shù)據(jù)研發(fā)計(jì)劃”(Big Data Research and Development Initiative, BDRDI), 開 發(fā) 大 數(shù) 據(jù)收集、存儲(chǔ)、維護(hù)、管理、分析和共享核心技術(shù),并將提高和改進(jìn)人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力作為BDRDI的重要目標(biāo)[15-16]。BDRDI得到了美國衛(wèi)生研究院(NIH)、國防部(DOD)、能源部(DOE)等15個(gè)不同領(lǐng)域的聯(lián)邦部門和機(jī)構(gòu)共同參與,并將鼓勵(lì)數(shù)據(jù)分享和管理的相關(guān)政策以提高數(shù)據(jù)價(jià)值,正確處理大數(shù)據(jù)收集、共享和使用過程中的隱私問題、安全問題和倫理問題等科學(xué)大數(shù)據(jù)共享相關(guān)內(nèi)容列為工作重點(diǎn)[14-15]。

        為整合各成員國的科研力量,提升歐洲總體研究水平,歐盟1984—2013年實(shí)施了7期框架計(jì)劃。最近一期的第七框架計(jì)劃(7th Framework Programme,F(xiàn)P7)實(shí)施周期為2007—2013年,包括了合作計(jì)劃、原始創(chuàng)新計(jì)劃、人力資源計(jì)劃、研究能力創(chuàng)新計(jì)劃4個(gè)專項(xiàng)計(jì)劃。其中的研究能力創(chuàng)新計(jì)劃主要包括加強(qiáng)基礎(chǔ)學(xué)科研究、建設(shè)知識區(qū)域、提高歐洲的研究潛力、加強(qiáng)國際合作等7項(xiàng)內(nèi)容,該計(jì)劃將科學(xué)大數(shù)據(jù)集成共享納入到計(jì)劃范圍內(nèi),并啟動(dòng)了包含科學(xué)大數(shù)據(jù)集成共享內(nèi)容的全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目GRDI 2020(Global Research Data Infrastructures)。繼GRDI 2020之后,歐盟還在2014年正式編制并啟動(dòng)了新的研究與創(chuàng)新框架計(jì)劃“地平線2020”(Horizon 2020),該計(jì)劃旨在幫助科研人員實(shí)現(xiàn)科研設(shè)想,獲得科研上新的發(fā)現(xiàn)、突破和創(chuàng)新,促進(jìn)新技術(shù)從實(shí)驗(yàn)室到市場的轉(zhuǎn)化。Horizon 2020確定了基礎(chǔ)科學(xué)、工業(yè)技術(shù)和社會(huì)調(diào)整3個(gè)共同的戰(zhàn)略優(yōu)先領(lǐng)域。其中,基礎(chǔ)科學(xué)領(lǐng)域下屬的歐洲基礎(chǔ)研究設(shè)施建設(shè)行動(dòng)計(jì)劃將e-基礎(chǔ)設(shè)施建設(shè)作為重點(diǎn)內(nèi)容,e-基礎(chǔ)設(shè)施建設(shè)通過整合不同的設(shè)備、服務(wù)、數(shù)據(jù)源以及廣泛的跨國合作,促進(jìn)歐洲的研究與創(chuàng)新潛力的發(fā)展[17]。Horizon 2020對整合歐盟各國的科研資源、推進(jìn)科學(xué)大數(shù)據(jù)共享、提高科研效率、促進(jìn)科技創(chuàng)新發(fā)揮著積極作用[18]。

        2.2 科學(xué)大數(shù)據(jù)共享典型項(xiàng)目

        2015年,美國商務(wù)部宣布啟動(dòng)國家海洋與大氣管理局(National Oceanic and Atmospheric Administration, NOAA)大數(shù)據(jù)項(xiàng)目。NOAA每天收集來源多樣、內(nèi)容多元的數(shù)據(jù)超過20Tb,數(shù)據(jù)主要來自多普勒雷達(dá)系統(tǒng)、氣候衛(wèi)星、浮標(biāo)網(wǎng)絡(luò)和浮標(biāo)站、驗(yàn)潮儀、實(shí)時(shí)氣候站、船舶、飛行器以及超級計(jì)算機(jī)等,包括氣候變化、海上情況、潮汐變化等內(nèi)容。NOAA通過大數(shù)據(jù)項(xiàng)目創(chuàng)建開放平臺(tái),使決策者和行業(yè)人員快速、有效地獲取到相關(guān)數(shù)據(jù),并幫助私有行業(yè)、學(xué)術(shù)界和個(gè)體創(chuàng)新者通過云服務(wù)訪問前所未有的大規(guī)模數(shù)據(jù)[3, 19]。

        GRDI 2020項(xiàng)目是由歐盟第七研發(fā)框架計(jì)劃FP7資助的構(gòu)建科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施項(xiàng)目。該項(xiàng)目旨在于2020年實(shí)現(xiàn)全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的戰(zhàn)略愿景[20]。2012年3月,GRDI 2020發(fā)布《全球科研數(shù)據(jù)基礎(chǔ)設(shè)施:大數(shù)據(jù)的挑戰(zhàn)》報(bào)告,指出科學(xué)是一項(xiàng)全球性事業(yè),而科研數(shù)據(jù)是全球的資產(chǎn),因此,需要全球科研數(shù)據(jù)基礎(chǔ)設(shè)施來克服語言、政策和社會(huì)的障礙,并減少地理時(shí)空和國家間的壁壘,從而更加方便地發(fā)現(xiàn)、訪問和利用數(shù)據(jù)[3]。同時(shí),GRDI 2020提出了構(gòu)建全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施所面臨的主要挑戰(zhàn)和必須解決的問題,包括跨學(xué)科的開放科研和開放數(shù)據(jù)的原則,科學(xué)組織各方面可能面臨的沖突,科學(xué)數(shù)據(jù)生態(tài)系統(tǒng)、統(tǒng)一規(guī)范定義的數(shù)據(jù)模型和查詢語言,科學(xué)數(shù)據(jù)和文件之間的互操作,海量數(shù)據(jù)的管理、集成、發(fā)現(xiàn)和傳輸工具等。

        目前,我國也有科學(xué)大數(shù)據(jù)共享相關(guān)項(xiàng)目。2001年,科學(xué)數(shù)據(jù)共享工程啟動(dòng)氣象科學(xué)數(shù)據(jù)共享試點(diǎn),在資源環(huán)境、農(nóng)業(yè)、人口與健康、基礎(chǔ)與前沿等領(lǐng)域共24個(gè)部門開展了科學(xué)數(shù)據(jù)共享工作,啟動(dòng)了9個(gè)科學(xué)數(shù)據(jù)共享試點(diǎn),開展了科學(xué)數(shù)據(jù)共享政策法規(guī)、技術(shù)標(biāo)準(zhǔn)體系的調(diào)研和編制工作,整合了跨部門跨領(lǐng)域國家投入產(chǎn)生的數(shù)據(jù)資源,并開展了科學(xué)數(shù)據(jù)共享服務(wù)[21]。2003年,科技部、財(cái)政部共同設(shè)立了科技基礎(chǔ)條件專項(xiàng)建設(shè)平臺(tái)(簡稱“科技平臺(tái)”),科學(xué)數(shù)據(jù)共享工程作為重要組成部分納入科技基礎(chǔ)條件平臺(tái)建設(shè)。科技平臺(tái)由研究實(shí)驗(yàn)基地和大型科學(xué)儀器設(shè)備共享平臺(tái)、自然科技資源共享平臺(tái)、科學(xué)數(shù)據(jù)共享平臺(tái)、科技文獻(xiàn)共享平臺(tái)等23家國家科技平臺(tái)構(gòu)成,其宗旨是充分運(yùn)用現(xiàn)代技術(shù),推動(dòng)科技資源共享,促進(jìn)全社會(huì)科技資源優(yōu)化配置和高效利用,提高我國科技創(chuàng)新能力。其中,科學(xué)數(shù)據(jù)共享平臺(tái)以政府資助獲取與積累的科學(xué)數(shù)據(jù)資源為重點(diǎn),整合相關(guān)的主體數(shù)據(jù)庫,構(gòu)建集中與分布相結(jié)合的國家科學(xué)數(shù)據(jù)中心群,形成國家科學(xué)數(shù)據(jù)分級分類共享服務(wù)體系[22]。2013年,為應(yīng)對大數(shù)據(jù)時(shí)代的挑戰(zhàn),國家發(fā)展改革委員會(huì)和中國科學(xué)院聯(lián)合啟動(dòng)了“基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺(tái)應(yīng)用示范”項(xiàng)目,構(gòu)建基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺(tái),實(shí)現(xiàn)基礎(chǔ)研究大數(shù)據(jù)匯聚融合、開放共享與高效處理,為科研工程技術(shù)人員和社會(huì)公眾提供在線基礎(chǔ)研究大數(shù)據(jù)的集成共享與知識發(fā)現(xiàn)服務(wù),并在天文、材料領(lǐng)域開展應(yīng)用示范[23]。

        2.3 科學(xué)大數(shù)據(jù)共享政策機(jī)制

        為提高所有科技領(lǐng)域內(nèi)重要數(shù)據(jù)的質(zhì)量,增進(jìn)數(shù)據(jù)的可靠性,改進(jìn)數(shù)據(jù)的管理,擴(kuò)大數(shù)據(jù)的可獲取性,國際科學(xué)聯(lián)合會(huì) (International Council for Science, ICSU)牽頭成立了國際科技數(shù)據(jù)委員會(huì)(Committee on Data for Science and Technology,CODATA)[24]。CODATA通過任務(wù)組、工作組、委員會(huì)或其他針對特定數(shù)據(jù)問題小組開展國際共享合作,利用互聯(lián)網(wǎng)構(gòu)建了全球范圍內(nèi)的科學(xué)數(shù)據(jù)交換體系,面向科學(xué)家和工程師提供數(shù)據(jù)共享服務(wù)[25]。CODATA確定了包括科技數(shù)據(jù)應(yīng)用與共享中心在內(nèi)的6個(gè)科學(xué)技術(shù)數(shù)據(jù)領(lǐng)域的前沿問題,并先后確定了亞洲—太平洋國家數(shù)據(jù)資源共享、發(fā)展中國家科技數(shù)據(jù)保護(hù)與共享、全球物種數(shù)據(jù)共享等11項(xiàng)任務(wù)作為國際合作的共同行動(dòng)計(jì)劃,并且這些計(jì)劃已經(jīng)獲得了聯(lián)合國教科文組織(UNESCO)、國際科學(xué)技術(shù)信息委員會(huì)(ICSTI)、國際科學(xué)聯(lián)合會(huì)(ICSU)、世界知識產(chǎn)權(quán)組織(WIPO)等相關(guān)國際組織的支持[26]。CODATA在解決當(dāng)前科學(xué)數(shù)據(jù)共享的主要問題以及協(xié)調(diào)參與國家與組織的行動(dòng)方面發(fā)揮了重要的作用。

        世界經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Cooperation and Development, OECD)也認(rèn)為政府和研究機(jī)構(gòu)應(yīng)該對數(shù)據(jù)、信息和知識的獲取條件予以更多的關(guān)注,倡導(dǎo)要建立公共資金資助的研究數(shù)據(jù)獲取機(jī)制[3]。2006年,OECD頒布了《關(guān)于公共資金資助的研究數(shù)據(jù)獲取的原則與指南》,提出了指導(dǎo)成員國制定、完善科學(xué)數(shù)據(jù)共享政策的13項(xiàng)原則,包括開放性、靈活性、透明性、法律一致性、保護(hù)知識產(chǎn)權(quán)、正式性、專業(yè)性、協(xié)作性、保障質(zhì)量、安全性、效率、評價(jià)和持續(xù)性[27-28]。

        美國首先是通過國家法律法規(guī)政策的強(qiáng)制驅(qū)動(dòng)來推進(jìn)科學(xué)數(shù)據(jù)的共建共享,相應(yīng)出臺(tái)了《信息自由法》和《版權(quán)法》,公布了以“完全與開放”科學(xué)數(shù)據(jù)共享政策為核心的“全球變化研究數(shù)據(jù)管理政策”,從而為美國科學(xué)數(shù)據(jù)共享活動(dòng)提供了法律依據(jù)和政策保障[29],并在此基礎(chǔ)上開展了BDRDI、RDA、NOAA等一系列數(shù)據(jù)共享計(jì)劃和項(xiàng)目。

        為了滿足全球?qū)?shù)據(jù)基礎(chǔ)設(shè)施日益增長的需求,美國國家科學(xué)基金會(huì)于2013年資助推出了國際研究數(shù)據(jù)聯(lián)盟(Research Data Alliance,RDA),RDA著眼于研究者和創(chuàng)新者們跨技術(shù)、跨學(xué)科以及跨國界公開共享數(shù)據(jù),旨在建立使數(shù)據(jù)實(shí)現(xiàn)共享的社會(huì)橋梁和技術(shù)橋梁[30-31]。在構(gòu)成成員方面,RDA由志愿者和個(gè)人合作組成,任何個(gè)人或機(jī)構(gòu)只要愿意遵守RDA的開放、協(xié)商決策、技術(shù)中立、均衡代表各方利益等基本原則,就可以加入聯(lián)盟。在工作任務(wù)方面,RDA主要開展5個(gè)方面的工作:生物學(xué)、農(nóng)業(yè)、社會(huì)科學(xué)、工程等領(lǐng)域的科學(xué)數(shù)據(jù)共享、數(shù)據(jù)歸檔和出版、科研和教育數(shù)據(jù)共享與重復(fù)利用、數(shù)據(jù)引用參考、數(shù)據(jù)管理、集成、共享等基礎(chǔ)設(shè)施建設(shè)。在任務(wù)實(shí)施方面,RDA由工作組、興趣組和合作組組成。其中,工作組致力于短期內(nèi)實(shí)現(xiàn)特定的工具、代碼、最佳實(shí)踐、標(biāo)準(zhǔn)等;興趣組負(fù)責(zé)在更寬廣的范圍和更長時(shí)間尺度上確定常見問題及興趣,而這些工作最終導(dǎo)致更多焦點(diǎn)合作組的創(chuàng)立[31-32]。RDA與日本科學(xué)技術(shù)振興機(jī)構(gòu)于2016年在日本東京舉辦議題為“在開放科學(xué)時(shí)代促進(jìn)數(shù)據(jù)共享”的第七屆大會(huì),會(huì)議認(rèn)為開放科學(xué)從基礎(chǔ)面上來說是由個(gè)別團(tuán)體主導(dǎo)的,需要依賴免費(fèi)知識共享以及獲取工具和服務(wù)[33]。RDA符合全世界對數(shù)據(jù)共享的需求,加速了基于大數(shù)據(jù)的創(chuàng)新[31]。

        2.4 科學(xué)大數(shù)據(jù)共享數(shù)據(jù)中心

        國際科學(xué)聯(lián)合會(huì) (ICSU)成立了世界數(shù)據(jù)中心(World Data Center,WDC)專門從事數(shù)據(jù)收集、交換、服務(wù)和共享等工作[26]。WDC重點(diǎn)在地球科學(xué)、空間科學(xué)和環(huán)境科學(xué)領(lǐng)域推進(jìn)數(shù)據(jù)集成和共享。自國際地球物理年(1957—1958)創(chuàng)立以來,WDC在全球已經(jīng)建立了50余個(gè)學(xué)科數(shù)據(jù)中心,各中心之間的數(shù)據(jù)交換和共享建立在互惠互利的基礎(chǔ)上,每個(gè)數(shù)據(jù)中心整合集成了本國該領(lǐng)域中的權(quán)威數(shù)據(jù)資源,并以不同的形式提供給各國科學(xué)家使用[34-35]。WDC倡導(dǎo)的科學(xué)數(shù)據(jù)開放共享的理念和做法影響巨大,為地球科學(xué)和相關(guān)學(xué)科的發(fā)展提供了大量的數(shù)據(jù)支撐服務(wù)[36]。

        作為領(lǐng)域內(nèi)權(quán)威的政府間國際組織,地球觀測組織(Group on Earth Observations, GEO)制定并通過了十年執(zhí)行計(jì)劃,旨在建立一個(gè)綜合、協(xié)調(diào)和持續(xù)的全球地球綜合觀測系統(tǒng)(Global Earth Observation System of Systems,GEOSS),在災(zāi)害、健康、能源、氣候、天氣、水、生態(tài)系統(tǒng)、農(nóng)業(yè)和生物多樣性等9個(gè)社會(huì)發(fā)展領(lǐng)域,為各國決策者提供數(shù)據(jù)產(chǎn)品和應(yīng)用服務(wù)[3,37-38]。GEOSS對于推進(jìn)全球觀測數(shù)據(jù)集成共享發(fā)揮了重要作用??傮w來看,當(dāng)前科學(xué)大數(shù)據(jù)集成共享具有一些共同特點(diǎn):在組織管理方面,通常由一個(gè)國家(組織)牽頭(發(fā)起),其他成員在接受一些基本原則或協(xié)議后可以共同參與,一般由政府或組織自上而下啟動(dòng)而很少由科技工作者自發(fā)組織;在投資方式方面,通常由政府或基金投資建設(shè)并維護(hù);在數(shù)據(jù)內(nèi)容方面:共享的數(shù)據(jù)通常具有公有性(由國家資助的科研產(chǎn)生)、公益性(對大多數(shù)相關(guān)成員均有利)、基礎(chǔ)性(對社會(huì)經(jīng)濟(jì)有基礎(chǔ)支撐作用)和領(lǐng)域性(通常是特定領(lǐng)域的數(shù)據(jù)共享)[26];在開放共享模式方面:通常以促進(jìn)區(qū)域科技創(chuàng)新為宗旨,不以盈利為目的,帶有公益性質(zhì);在數(shù)據(jù)共享服務(wù)方面:主要以提供源數(shù)據(jù)為主,對數(shù)據(jù)關(guān)聯(lián)集成、挖掘利用還不夠深入和廣泛。

        3 面臨的挑戰(zhàn)與應(yīng)對策略

        3.1 科學(xué)大數(shù)據(jù)整合集成機(jī)制

        由于科學(xué)大數(shù)據(jù)主要分散在科研機(jī)構(gòu)、高等院校、科研項(xiàng)目團(tuán)隊(duì)和科學(xué)家個(gè)人手中,因此采用何種機(jī)制來整合集成科學(xué)大數(shù)據(jù)以持續(xù)為科學(xué)大數(shù)據(jù)注入“新鮮血液”是首先要解決的關(guān)鍵問題。

        傳統(tǒng)科學(xué)數(shù)據(jù)整合集成主要采用自上而下,由國家統(tǒng)一規(guī)劃、出臺(tái)政策,并通過強(qiáng)制性數(shù)據(jù)匯交或者獎(jiǎng)補(bǔ)經(jīng)費(fèi)的方式進(jìn)行。如國家科技基礎(chǔ)條件平臺(tái)在儀器設(shè)備、自然資源、科學(xué)數(shù)據(jù)、科技文獻(xiàn)、實(shí)驗(yàn)基地和檢測資源等領(lǐng)域,部署認(rèn)定了23家國家平臺(tái),每年通過考核評估,進(jìn)行經(jīng)費(fèi)后補(bǔ)助,支持推動(dòng)分散科技資源的集成與共享服務(wù);科技基礎(chǔ)性工作專項(xiàng)通過數(shù)據(jù)匯交管理制度,要求各項(xiàng)目驗(yàn)收前必須完成數(shù)據(jù)匯交工作等。該模式通過政策的約束和穩(wěn)定經(jīng)費(fèi)的支持,可以有效保障國家財(cái)政投資形成的科學(xué)數(shù)據(jù)的持續(xù)性、系統(tǒng)性集成共享,然而也存在難以激發(fā)科研人員積極性、評價(jià)數(shù)據(jù)提供者貢獻(xiàn)困難等問題。在大數(shù)據(jù)時(shí)代,必須在現(xiàn)有的自上而下數(shù)據(jù)整合集成機(jī)制的基礎(chǔ)上,探索一條自下而上的能夠充分調(diào)動(dòng)科學(xué)家個(gè)人積極性的數(shù)據(jù)整合集成機(jī)制,形成“人人都是數(shù)據(jù)使用者和貢獻(xiàn)者”的志愿共享數(shù)據(jù)的氛圍。

        科學(xué)數(shù)據(jù)出版作為一種新的數(shù)據(jù)集成與開放共享機(jī)制,正在引起全球科研人員的廣泛關(guān)注[2,39]。類似于論文出版,科學(xué)數(shù)據(jù)出版通過數(shù)據(jù)投稿、同行評審、發(fā)表出版、共享引用等,可以明確數(shù)據(jù)成果的署名,讓科學(xué)數(shù)據(jù)也能夠被正式引用,并最終納入科研考核體系中,從而有效保障共享數(shù)據(jù)的科研人員的根本權(quán)益,激發(fā)科研人員志愿參與數(shù)據(jù)共享。因此,科學(xué)大數(shù)據(jù)的整合集成在保持現(xiàn)有國家科技條件平臺(tái)和科技計(jì)劃項(xiàng)目數(shù)據(jù)匯交的基礎(chǔ)上,應(yīng)進(jìn)一步推進(jìn)科學(xué)數(shù)據(jù)出版工作。

        3.2 科學(xué)大數(shù)據(jù)集成共享質(zhì)量控制

        數(shù)據(jù)質(zhì)量是影響數(shù)據(jù)共享利用效果的重要因素,低質(zhì)量的數(shù)據(jù)可能無法使用甚至影響研究結(jié)論的正確性??茖W(xué)大數(shù)據(jù)的高維性、復(fù)雜性、不確定性以及分散異構(gòu)、來源多樣、時(shí)空尺度較大等特點(diǎn),給科學(xué)大數(shù)據(jù)的質(zhì)量控制帶來了巨大的挑戰(zhàn)。

        科學(xué)數(shù)據(jù)質(zhì)量本質(zhì)上需要在數(shù)據(jù)生產(chǎn)源頭環(huán)節(jié),通過選用合格的儀器設(shè)備,采用正確規(guī)范的采集、處理方法,符合精度要求的模型算法以及嚴(yán)格的數(shù)據(jù)質(zhì)量控制規(guī)范,努力提高操作人員責(zé)任心等方法進(jìn)行控制。從集成共享的角度,首先,要準(zhǔn)確掌握數(shù)據(jù)來源和數(shù)據(jù)質(zhì)量信息,包括數(shù)據(jù)源及其處理方法、屬性字段語義、數(shù)據(jù)精度和不確定性、數(shù)據(jù)適用范圍等,這就要求數(shù)據(jù)生產(chǎn)者在開放數(shù)據(jù)的同時(shí)提供數(shù)據(jù)來源和質(zhì)量元數(shù)據(jù)。為了能夠自動(dòng)識別這些元數(shù)據(jù),需要采用具有明確語法和語義定義并公開發(fā)布的元數(shù)據(jù)標(biāo)準(zhǔn),如:DC、DIF、ISO 19115等,進(jìn)行元數(shù)據(jù)的編寫。其次,要大力發(fā)展基于領(lǐng)域知識和機(jī)器學(xué)習(xí)的大數(shù)據(jù)質(zhì)量自動(dòng)檢測工具,從數(shù)據(jù)的完整性、規(guī)范性、一致性、正確性等角度,對不同來源和領(lǐng)域的數(shù)據(jù)質(zhì)量進(jìn)行甄別。同時(shí),可以采用互聯(lián)網(wǎng)眾包模式,鼓勵(lì)數(shù)據(jù)用戶參與數(shù)據(jù)質(zhì)量的評估、標(biāo)識和修訂。

        3.3 關(guān)聯(lián)集成與語義搜索

        當(dāng)前,大部分科學(xué)數(shù)據(jù)集成共享主要通過元數(shù)據(jù)形式實(shí)現(xiàn)[40],即利用元數(shù)據(jù)描述、發(fā)布、查詢、定位和訪問數(shù)據(jù)資源。該模式下描述每個(gè)數(shù)據(jù)集的元數(shù)據(jù)獨(dú)立發(fā)布,僅僅通過主題分類或關(guān)鍵詞匹配將元數(shù)據(jù)進(jìn)行簡單的歸類和鏈接,相互之間缺乏有機(jī)的語義關(guān)聯(lián),很難從一個(gè)數(shù)據(jù)發(fā)現(xiàn)另一個(gè)高度相關(guān)的數(shù)據(jù)。同時(shí),由于受限于元數(shù)據(jù)的質(zhì)量,一旦元數(shù)據(jù)描述不準(zhǔn)確或者與用戶的查詢關(guān)鍵詞不一致,將極大地影響數(shù)據(jù)共享的效果。因此,如何高效智能地發(fā)現(xiàn)與用戶需求最相關(guān)的數(shù)據(jù),甚至實(shí)現(xiàn)數(shù)據(jù)的主動(dòng)推送,是促進(jìn)和提升科學(xué)大數(shù)據(jù)共享的重要因素。

        解決上述問題可以采用以下兩種對策:一是在數(shù)據(jù)集成階段,利用關(guān)聯(lián)數(shù)據(jù)(Linked Data)技術(shù)實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)集成;二是在數(shù)據(jù)發(fā)現(xiàn)階段,利用語義推理技術(shù),實(shí)現(xiàn)數(shù)據(jù)的語義搜索。關(guān)聯(lián)數(shù)據(jù)是指通過明確的語義表達(dá)發(fā)布數(shù)據(jù)資源,使數(shù)據(jù)之間能夠相互關(guān)聯(lián)和連接。作為語義網(wǎng)的一種實(shí)現(xiàn),關(guān)聯(lián)數(shù)據(jù)為構(gòu)建一個(gè)富含語義、人機(jī)都可理解的、互聯(lián)互通的全球數(shù)據(jù)網(wǎng)絡(luò)奠定了基礎(chǔ)。在科學(xué)大數(shù)據(jù)集成過程中,可以從時(shí)空范圍、內(nèi)容屬性、主題分類、類型格式等多個(gè)維度,通過相關(guān)度的計(jì)算,建立起科學(xué)大數(shù)據(jù)之間定量化的語義關(guān)聯(lián)[41],從而通過精準(zhǔn)的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)相關(guān)數(shù)據(jù)資源的智能搜索和主動(dòng)推薦。利用關(guān)聯(lián)數(shù)據(jù)技術(shù),還可以根據(jù)應(yīng)用需求,實(shí)現(xiàn)不同學(xué)科領(lǐng)域、地理位置、時(shí)間階段數(shù)據(jù)資源的關(guān)聯(lián)聚合,形成具有高度關(guān)聯(lián)、能夠滿足特定需求的“塊數(shù)據(jù)”[42]。關(guān)聯(lián)集成可以是語義搜索的基礎(chǔ),也可以通過圖搜索,利用關(guān)聯(lián)邊,根據(jù)關(guān)聯(lián)關(guān)系和關(guān)聯(lián)度,從一個(gè)數(shù)據(jù)發(fā)現(xiàn)另一個(gè)相關(guān)度高的數(shù)據(jù)(圖2)。

        圖2 基于多維特征的數(shù)據(jù)關(guān)聯(lián)

        3.4 數(shù)據(jù)產(chǎn)權(quán)與共享安全

        數(shù)據(jù)產(chǎn)權(quán)和共享安全問題始終是數(shù)據(jù)集成共享的重要問題,尤其在大數(shù)據(jù)時(shí)代,數(shù)據(jù)面臨不斷被集成、共享、再生產(chǎn)、再集成、再共享的過程,數(shù)據(jù)產(chǎn)權(quán)保護(hù)和共享安全保障遇到巨大挑戰(zhàn)。

        數(shù)據(jù)產(chǎn)權(quán)保護(hù)可以利用數(shù)字對象標(biāo)識符(DOI)對數(shù)據(jù)資源進(jìn)行全球唯一標(biāo)識、解析與發(fā)現(xiàn),并利用關(guān)聯(lián)的元數(shù)據(jù)對數(shù)據(jù)產(chǎn)權(quán)進(jìn)行詳細(xì)說明。同時(shí),可以通過數(shù)據(jù)出版,將數(shù)據(jù)正式出版。當(dāng)其他應(yīng)用研究或論文作者利用該數(shù)據(jù)時(shí),可以在應(yīng)用成果或論文中對數(shù)據(jù)來源DOI進(jìn)行標(biāo)注或在參考文獻(xiàn)中進(jìn)行正式引用。通過數(shù)據(jù)DOI,可以對該數(shù)據(jù)集全球引用情況進(jìn)行統(tǒng)計(jì),從而有效保護(hù)數(shù)據(jù)產(chǎn)權(quán)。

        共享安全可以利用傳統(tǒng)的數(shù)字水印技術(shù),或最新的區(qū)塊鏈技術(shù),防止在數(shù)據(jù)共享過程中數(shù)據(jù)的篡改和偽造。區(qū)塊鏈就是把加密數(shù)據(jù)(區(qū)塊)按照時(shí)間順序進(jìn)行疊加(鏈)生成的永久、不可逆向修改的記錄[43]。區(qū)塊鏈技術(shù)將所有數(shù)據(jù)都儲(chǔ)存在一個(gè)個(gè)數(shù)據(jù)區(qū)塊中,數(shù)據(jù)共享交換信息形成一個(gè)完整鏈條包含在區(qū)塊鏈里,所有數(shù)據(jù)由計(jì)算機(jī)加密生成。利用區(qū)塊鏈技術(shù)可以生成一套按時(shí)間先后記錄的、不可篡改的、可信任的全網(wǎng)統(tǒng)一的數(shù)據(jù)庫,并且這套數(shù)據(jù)庫具有去中心化、數(shù)據(jù)無法偽造、不可撤銷、不可逆轉(zhuǎn)的特點(diǎn),在沒有任何可信第三方存在的時(shí)候,能夠使參與者對全網(wǎng)數(shù)據(jù)交換共享記錄的事件順序和當(dāng)前狀態(tài)建立共識,解決數(shù)據(jù)共享的安全問題[40,44]。

        3.5 科學(xué)大數(shù)據(jù)高效利用

        現(xiàn)代科學(xué)研究范式(第四科研范式)的特點(diǎn)就是利用海量科學(xué)數(shù)據(jù),通過挖掘分析、模擬預(yù)測等尋找、發(fā)現(xiàn)數(shù)據(jù)背后隱含的科學(xué)規(guī)律和問題[45]。因此,科學(xué)大數(shù)據(jù)的高效利用除了數(shù)據(jù)集成共享外,還需要處理、利用數(shù)據(jù)的模型工具、文獻(xiàn)資料,以及支撐數(shù)據(jù)處理、利用的高性能計(jì)算能力。由于傳統(tǒng)數(shù)據(jù)共享、處理分析模型和高性能計(jì)算等相互獨(dú)立,并未有機(jī)地耦合在一起,嚴(yán)重制約了科學(xué)大數(shù)據(jù)的高效利用。

        圖3 數(shù)據(jù)—模型—計(jì)算資源共享一體化的信息化科研環(huán)境

        為了解決上述問題,應(yīng)在數(shù)據(jù)共享的基礎(chǔ)上,大力發(fā)展集數(shù)據(jù)、模型、文獻(xiàn)、計(jì)算資源共享為一體的協(xié)同信息化科研環(huán)境(e-Science)(圖3)。e-Science的概念早在2000年就由英國研究理事會(huì)提出,是指在重要科學(xué)領(lǐng)域中的全球性合作,以及使這種合作成為可能的下一代基礎(chǔ)設(shè)施,主要包括:計(jì)算資源、數(shù)據(jù)資源、科技文獻(xiàn)、模型工具、網(wǎng)絡(luò)通信資源以及科學(xué)儀器設(shè)備等。為了實(shí)現(xiàn)這些科學(xué)研究基礎(chǔ)設(shè)施的共享,需要在云計(jì)算的支撐下,實(shí)現(xiàn)硬件資源虛擬化、數(shù)據(jù)資源和軟件資源服務(wù)化;利用服務(wù)鏈和語義對齊等,實(shí)現(xiàn)科學(xué)數(shù)據(jù)、模型、計(jì)算資源等的有機(jī)集成與一體化共享。e-Science以科學(xué)數(shù)據(jù)為核心,自動(dòng)為數(shù)據(jù)處理與模擬分析,模型工具對應(yīng)匹配提供需要的計(jì)算資源,從而大力提升科學(xué)大數(shù)據(jù)的利用效率。

        4 結(jié)語

        隨著地基監(jiān)測、對地觀測、深地(空)探測,特別是移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展和深入應(yīng)用,科學(xué)數(shù)據(jù)的采集、處理、傳輸變得越來越便捷,科學(xué)大數(shù)據(jù)的時(shí)代已經(jīng)到來?,F(xiàn)代數(shù)據(jù)密集型科學(xué)研究范式的特點(diǎn)就是利用海量科學(xué)數(shù)據(jù),通過挖掘分析、模擬預(yù)測等尋找、發(fā)現(xiàn)數(shù)據(jù)背后隱含的科學(xué)規(guī)律和問題,因此,愈發(fā)依靠科學(xué)大數(shù)據(jù)。本文分析科學(xué)大數(shù)據(jù)內(nèi)涵和特征,總結(jié)科學(xué)數(shù)據(jù)集成共享國內(nèi)外主要進(jìn)展,指出科學(xué)大數(shù)據(jù)集成共享面臨的主要挑戰(zhàn),提出具體的應(yīng)對策略。

        (1)科學(xué)大數(shù)據(jù)的集成在保持現(xiàn)有國家科技條件平臺(tái)和科技計(jì)劃項(xiàng)目數(shù)據(jù)匯交的基礎(chǔ)上,應(yīng)進(jìn)一步推進(jìn)科學(xué)數(shù)據(jù)出版,充分激發(fā)廣大科研人員的積極性,促進(jìn)形成“人人都是數(shù)據(jù)使用者和貢獻(xiàn)者”的志愿數(shù)據(jù)共享氛圍。

        (2)在控制好科學(xué)大數(shù)據(jù)生產(chǎn)環(huán)節(jié)質(zhì)量的同時(shí),應(yīng)重視數(shù)據(jù)來源和數(shù)據(jù)質(zhì)量元數(shù)據(jù),大力發(fā)展基于領(lǐng)域知識和機(jī)器學(xué)習(xí)的大數(shù)據(jù)質(zhì)量自動(dòng)檢測工具,采用互聯(lián)網(wǎng)眾包模式,鼓勵(lì)數(shù)據(jù)用戶參與數(shù)據(jù)質(zhì)量的評估、標(biāo)識和修訂。

        (3)充分利用關(guān)聯(lián)數(shù)據(jù)技術(shù),通過明確的語義表達(dá)發(fā)布數(shù)據(jù)資源,實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)集成,構(gòu)建一個(gè)富含語義、人機(jī)都可理解的、互聯(lián)互通的數(shù)據(jù)網(wǎng)絡(luò),從而支撐數(shù)據(jù)的智能發(fā)現(xiàn)與主動(dòng)推薦。

        (4)通過數(shù)字對象標(biāo)識和數(shù)據(jù)出版引用以及區(qū)塊鏈技術(shù)等,利用全球唯一標(biāo)識和不可篡改的全網(wǎng)數(shù)據(jù)交換共享記錄,有效保障數(shù)據(jù)產(chǎn)權(quán)和共享安全。

        (5)在數(shù)據(jù)集成共享的基礎(chǔ)上,應(yīng)大力發(fā)展集數(shù)據(jù)、模型、文獻(xiàn)、計(jì)算資源共享為一體的協(xié)同信息化科研環(huán)境,大力提升科學(xué)大數(shù)據(jù)的利用效率。

        [1]中華人民共和國科學(xué)技術(shù)部. SDS/T1003.2-2004.科學(xué)數(shù)據(jù)共享工程技術(shù)標(biāo)準(zhǔn),科學(xué)數(shù)據(jù)共享概念與術(shù)語第2部分:術(shù)語[S].2004.

        [2]諸云強(qiáng), 朱琦, 馮卓,等. 科學(xué)大數(shù)據(jù)開放共享機(jī)制研究及其對環(huán)境信息共享的啟示[J]. 中國環(huán)境管理,2015, 7(6):38-45.DOI: 10.16868/j.cnki. 1674-6252.2015.06.008.

        [3]陳明奇, 黎建輝, 鄭曉歡,等. 科學(xué)大數(shù)據(jù)的發(fā)展態(tài)勢及建議[J]. 中國教育信息化, 2016(21):5-9.

        [4]李德偉.大數(shù)據(jù)改變世界[M].北京:電子工業(yè)出版社,2013:8.

        [5]李國杰, 程學(xué)旗. 大數(shù)據(jù)研究: 未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域: 大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊, 2012, 27(6): 647-657.

        [6]諸云強(qiáng), 朱琦, 馮卓,等. 科學(xué)大數(shù)據(jù)開放共享機(jī)制研究及其對環(huán)境信息共享的啟示[J]. 中國環(huán)境管理,2015, 7(6):38-45.DOI: 10.16868/j.cnki.1674-6252.2015. 06.008.

        [7]孫九林, 林海. 地球系統(tǒng)研究與科學(xué)數(shù)據(jù)[M]. 北京:科學(xué)出版社, 2009.

        [8]MATTMANN C A. A vision for data science[J]. Nature,2013, 493: 473-475.

        [9]郭華東, 王力哲, 陳方, 等. 科學(xué)大數(shù)據(jù)與數(shù)字地球[J].科學(xué)通報(bào), 2014, 59(12): 1047-1054.

        [10]ABARBANEL H D I, BROWN R, SIDOROWICH J J,et al. The analysis of observed chaotic data in physical systems[J]. Rev Mod Phys, 1993, 65:1331–1392

        [11]ROCHA L M. Complex systems modeling: using metaphors from nature in simulation and scientific models[R]. Los Alamos: Los Alamos National Laboratory, 1999.

        [12]NATIONAL SCIENCE FOUNDATION. Long-lived digital data collections enabling research and education in the 21st century[EB/OL].[2015-10-26]. http://www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.

        [13]美國當(dāng)局發(fā)布大數(shù)據(jù)研發(fā)戰(zhàn)略計(jì)劃[EB/OL].[2016-06-27]. https://zhuanlan.zhihu.com/p/21431164.

        [14]Administration issues strategic plan for big data research and development[EB/OL].[2016-05-23].https://obamawhitehouse.archives.gov/blog/2016/05/23/administration-issues-strategic-plan-big-data-research-and-development.

        [15]美國政府出臺(tái)大數(shù)據(jù)研發(fā)計(jì)劃[EB/OL].[2012-04-24].http://www.most.gov.cn/gnwkjdt/201204/t20120424_93877.htm.

        [16]KALIL Tom. Big data is a big deal[EB/OL].[2012-03-29].http://www.whitehouse.gov/blog/2012/03/29/bigdata-big-deal.

        [17]地平線2020計(jì)劃[EB/OL].[2014-07-01]. http://www.cstec.org.cn/ceco/zh/show/359.aspx.

        [18]HORIZON 2020. The EU framework programmer for research and innovation[EB/OL].[2015-06-06].http://ec.europa.eu/programmes/horizon2020/

        [19]National oceanic and atmospheric administration[EB/OL]. [2017-06-08].http://www.noaa.gov/.

        [20]歐盟GRDI 2020[EB/OL].[2014-11-20].http://www.grdi 2020.eu/.

        [21]科學(xué)數(shù)據(jù)共享工程[EB/OL].[2013-07-01].http://www.most.gov.cn/ztzl/kjzg60/kjzg60hhcj/kjzg60jcyj/200909/t20090911_72832.htm.

        [22]國家科技基礎(chǔ)條件平臺(tái)建設(shè)專項(xiàng)簡介[EB/OL].[2010-10-22].http://3y.uu456.com/bp_1tri89oyyy 7b8vd53zkt_1.html

        [23]基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺(tái)應(yīng)用示范[EB/OL]. [2013-05-17].http://www.cas.cn/xw/yxdt/201305/t2013 0521_3843550.shtml.

        [24]國際科技數(shù)據(jù)委員會(huì)[EB/OL]. [2014-07-22].http://www.bic.cas.cn/gjzz/201307/t20130719_3902696.html.

        [25]李娟, 劉德洪, 江洪. 國際科學(xué)數(shù)據(jù)共享現(xiàn)狀研究[J].圖書館建設(shè), 2009(2):25-27,31.

        [26]孫鴻烈, 劉闖. 國際科學(xué)技術(shù)數(shù)據(jù)前沿領(lǐng)域發(fā)展研究[J]. 中國基礎(chǔ)科學(xué), 2003, 18(1):329-333.

        [27]Organization for economic cooperation and development[EB/OL]. [2017-04-16].http://www.oecd.org/.

        [28]李娟, 劉德洪, 江洪. 國際科學(xué)數(shù)據(jù)共享原則和政策研究[J]. 圖書情報(bào)工作, 2008, 52(12):77-80.

        [29]楊友清, 陳雅. 科學(xué)大數(shù)據(jù)共享研究:基于國際科學(xué)數(shù)據(jù)服務(wù)平臺(tái)[J]. 新世紀(jì)圖書館, 2014(3):24-28.DOI: 10.16810/j.cnki.1672-514x. 2014.03.005

        [30]Research data sharing without barriers[EB/OL]. [2017-05-05].https://www.rd-alliance.org/node.

        [31]美國國家科學(xué)基金會(huì)支持研究數(shù)據(jù)共享[EB/OL].[2012-12-14].http://www.most.gov.cn/gnwkjdt/201212/t20121213_98503.htm.

        [32]王艷翠, 李書寧, 李愛紅. 研究數(shù)據(jù)聯(lián)盟:建立全球數(shù)據(jù)共享和數(shù)據(jù)交換的基礎(chǔ)架構(gòu)[J]. 圖書館理論與實(shí)踐, 2015(1):52-54. DOI:10.14064/j.cnki.issn1005-8214.2015.01.014.

        [33]RDA Seventh Plenary Meeting, Tokyo, Japan[EB/OL].[2016-02-29]. https://rd-alliance.org/plenary-meetings/rda-seventh-plenary-meeting.html.

        [34]WORLD DATA CENTER[EB/OL]. [2017-05-26].http://wdc.org.ua/.

        [35]王卷樂, 孫九林. 世界數(shù)據(jù)中心(WDC)中國學(xué)科中心數(shù)據(jù)共享進(jìn)展[J]. 中國基礎(chǔ)科學(xué), 2007, 9(2):38-42.

        [36]王卷樂, 孫九林. 世界數(shù)據(jù)中心(WDC)回顧、變革與展望[J]. 地球科學(xué)進(jìn)展, 2009, 24(6):612-620.

        [37]建立全球綜合地球觀測系統(tǒng)須無間合作[EB/OL].[2010-11-08]. http://news.sciencenet.cn/sbhtmlnews/2010/11/238246.html.

        [38]GEOSS[EB/OL]. [2016-05-16]. http://www.earthobservations.org/geoss.php.

        [39]劉闖. 論全球變化科學(xué)研究數(shù)據(jù)出版[J]. 地理學(xué)報(bào),2014,69(Z): 3-11.

        [40]諸云強(qiáng).地球系統(tǒng)科學(xué)數(shù)據(jù)共享關(guān)鍵技術(shù)研究[D].北京:中國科學(xué)院地理科學(xué)與資源研究所,2006.

        [41]ZHU Yunqiang, ZHU A-Xing, SONG Jia, et al. Multidimensional and quantitative interlinking approach for Linked Geospatial Data[J].International Journal of Digital Earth, 2017,10(9): 923-943.

        [42]大數(shù)據(jù)戰(zhàn)略重點(diǎn)實(shí)驗(yàn)室. 塊數(shù)據(jù)3.0:秩序互聯(lián)網(wǎng)與主權(quán)區(qū)塊鏈[M]. 北京:中信出版社, 2017.

        [43]區(qū)塊鏈技術(shù)[EB/OL]. [2016-06-20].http://www.jianshu. com/p/4c2754ba4766.

        [44]林小馳, 胡葉倩雯. 關(guān)于區(qū)塊鏈技術(shù)的研究綜述[J].金融市場研究, 2016(2):97-109.

        [45]HEY Tony, TANSLEY Stewary, TOLLE Kristin. The Fourth Paradigm: Data-intensive Scientific Discovery[M].The United States of America: Microsoft Corporation, 2009.

        Progress and Challenge of scientific Big Data Integration and Sharing

        ZHU Yunqiang1,6,7, PAN Peng2,3, SHI Lei4, SUN Kai1,5, WANG Xiaoxuan1, YANG Jie1,5
        (1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101;2. Appraisal Center for Environment and Engineering, Ministry of Environmental Protection, Beijing 100012;3. State Environmental Protection Key Laboratory of Numerical Modeling for Environment Impact Assessment, Beijing 100012;4.Center of National Science and Technology Infrastructure, Beijing 100862;5.University of Chinese Academy of Sciences, Beijing 100049;6. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing Normal University, Nanjing 210023; 7. Collaborative Innovation Centre for Baiyangdian Basin Ecological Protection and Jingjinji Regional Sustainable Development,Hebei University, Baoding 071002)

        On the basis of analyzing the connotation and characteristics of scientific big data, this paper summarizes the main research progress of scientific big data integration and sharing, points out 5 aspects of the problem that are integrated integration mechanism, integrated shared quality control, associated integration and semantic search,data property rights and shared security, e ffi cient data utilization, and puts forward coping strategies.

        scientific big data, data sharing, associative integration, data quality, open and safe

        TP391.7

        A

        10.3772/j.issn.1674-1544.2017.05.001

        諸云強(qiáng)(1977—),男,中國科學(xué)院地理科學(xué)與資源研究所研究員,主要研究方向:地學(xué)數(shù)據(jù)本體與共享,資源環(huán)境信息系統(tǒng);潘鵬(1985—),男,環(huán)境保護(hù)部環(huán)境工程評估中心助理研究員,主要研究方向:地學(xué)數(shù)據(jù)集成共享理論與技術(shù)(通訊作者);石蕾(1982—),女,國家科技基礎(chǔ)條件平臺(tái)中心副研究員,主要研究方向:科技資源管理;孫凱(1990—),男,中國科學(xué)院地理科學(xué)與資源研究所博士研究生,主要研究方向:地學(xué)本體及數(shù)據(jù)關(guān)聯(lián);王筱萱(1983-),女,中國科學(xué)院地理科學(xué)與資源研究所工程師,主要研究方向:研究方向:科學(xué)數(shù)據(jù)共享與集成;楊杰(1990—),男,中國科學(xué)院地理科學(xué)與資源研究所碩士研究生,主要研究方向:地學(xué)模型數(shù)據(jù)匹配方法。

        科技基礎(chǔ)性工作專項(xiàng)重點(diǎn)項(xiàng)目“科技基礎(chǔ)性工作數(shù)據(jù)資料集成與規(guī)范化整編”(2013FY110900);國家自然科學(xué)基金重點(diǎn)項(xiàng)目“網(wǎng)絡(luò)文本蘊(yùn)含地理信息理解與知識圖構(gòu)建”(41631177);貴州省公益性基礎(chǔ)性地質(zhì)工作項(xiàng)目“貴州省巖溶地下水系統(tǒng)功能可持續(xù)利用性研究”(黔國土資地環(huán)函〔2014〕23號);貴州省公益性基礎(chǔ)性地質(zhì)工作項(xiàng)目“貴州省國土資源可持續(xù)發(fā)展戰(zhàn)略研究”(黔國土資源函〔2016〕269號)。

        2017年7月14日。

        猜你喜歡
        科學(xué)
        點(diǎn)擊科學(xué)
        走進(jìn)科學(xué)
        走進(jìn)科學(xué)
        點(diǎn)擊科學(xué)
        點(diǎn)擊科學(xué)
        點(diǎn)擊科學(xué)
        走進(jìn)科學(xué)
        科學(xué)大爆炸
        科學(xué)
        科學(xué)怪咖
        亚洲色图三级在线观看| 无遮挡网站| 玩弄人妻奶水无码AV在线| 男生自撸视频在线观看| 亚洲大尺度无码无码专区| 亚洲а∨精品天堂在线| 欧洲亚洲综合| 国产一区二区三区免费主播| 亚洲伊人av天堂有码在线| 四川丰满妇女毛片四川话 | 国产欧美日韩视频一区二区三区| 神马影院午夜dy888| 精品深夜av无码一区二区| 永久免费无码av在线网站| 丰满熟妇人妻av无码区 | 中文字幕人妻av四季| 国语淫秽一区二区三区四区| 97精品久久久久中文字幕 | 无码人妻一区二区三区兔费| 在线观看av永久免费| 亚洲AⅤ精品一区二区三区| 日本高清中文字幕二区在线| 亚洲中文字幕久久精品一区| 中国美女a级毛片| 大陆极品少妇内射aaaaaa| 好爽…又高潮了毛片免费看| 久久久久久久国产精品电影| 国产成人av区一区二区三| 领导边摸边吃奶边做爽在线观看| 三年片在线观看免费大全电影| 欧美一级鲁丝片免费一区| 国产成人精品一区二三区在线观看| 亚洲成av人片不卡无码| 欧洲日本一线二线三线区本庄铃| 欧美亚洲国产丝袜在线| 国产免费一区二区三区在线观看| av在线播放免费网站| 妺妺跟我一起洗澡没忍住| 玩两个丰满老熟女| 亚洲一区二区高清在线| 国产av一区二区三区在线播放|