儲(chǔ)節(jié)旺 楊婷婷
(安徽大學(xué)管理學(xué)院,合肥 230601)
在科學(xué)研究過程中積累的科學(xué)數(shù)據(jù)作為一種基礎(chǔ)性數(shù)據(jù),伴隨著知識(shí)經(jīng)濟(jì)時(shí)代的到來,已經(jīng)成為支撐國(guó)家和地區(qū)經(jīng)濟(jì)發(fā)展的重要戰(zhàn)略性資源。廣義上的科學(xué)數(shù)據(jù)包括科研工作者在進(jìn)行科學(xué)研究全過程中所產(chǎn)生的過程數(shù)據(jù)以及研究成果[1]。國(guó)務(wù)院辦公廳2018年印發(fā)的《科學(xué)數(shù)據(jù)管理辦法》對(duì)科學(xué)數(shù)據(jù)的外延進(jìn)行了確定,科學(xué)數(shù)據(jù)主要包括在自然科學(xué)、工程技術(shù)等領(lǐng)域,通過基礎(chǔ)研究、應(yīng)用研究、實(shí)驗(yàn)開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測(cè)監(jiān)測(cè)、考察調(diào)查、檢驗(yàn)檢測(cè)等方式取得并用于科學(xué)研究活動(dòng)的原始數(shù)據(jù)及其衍生數(shù)據(jù)[2]。
互聯(lián)網(wǎng)時(shí)代,科學(xué)數(shù)據(jù)呈現(xiàn)出5V:Volume(海量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(準(zhǔn)確)的典型大數(shù)據(jù)特征[3]。與此同時(shí),科學(xué)研究進(jìn)入了“第四范式”——數(shù)據(jù)密集型科學(xué),數(shù)據(jù)密集型科學(xué)以海量科學(xué)數(shù)據(jù)的分析應(yīng)用為基礎(chǔ)[4]??茖W(xué)數(shù)據(jù)中心作為科學(xué)數(shù)據(jù)存儲(chǔ)與管理的重要載體,隨著全球科學(xué)數(shù)據(jù)的開放共享進(jìn)程不斷推進(jìn),其建設(shè)進(jìn)程也不斷加快。1957年國(guó)際科學(xué)聯(lián)合理事會(huì)(ICSU)成立世界數(shù)據(jù)中心(World Data Center)[5]。此后,歐美大多數(shù)國(guó)家開始探索建立自己的科學(xué)數(shù)據(jù)中心,建成了如美國(guó)國(guó)家空間科學(xué)數(shù)據(jù)中心(National Space Science Data Center)、英國(guó)數(shù)字保存中心(Digital Curation on Centre)、歐洲數(shù)據(jù)聯(lián)盟中心(EUD-CA)等數(shù)據(jù)中心[6]。國(guó)內(nèi)科學(xué)數(shù)據(jù)中心的建設(shè)相較于國(guó)外起步較晚,2003年科技部開始試點(diǎn)建設(shè)氣象科學(xué)數(shù)據(jù)中心、測(cè)繪科學(xué)數(shù)據(jù)中心、水文水資料科學(xué)數(shù)據(jù)中心等6個(gè)數(shù)據(jù)中心。2011年,科技部部署了23個(gè)國(guó)家科技基礎(chǔ)條件平臺(tái),其中包括6家科學(xué)數(shù)據(jù)共享領(lǐng)域和5家自然科技資源共享領(lǐng)域的數(shù)據(jù)資源平臺(tái)[7]。到2019年,我國(guó)的科學(xué)數(shù)據(jù)中心建設(shè)取得了較大的成果,建成了包括國(guó)家地震科學(xué)數(shù)據(jù)中心、國(guó)家人口健康科學(xué)數(shù)據(jù)中心等20個(gè)國(guó)家級(jí)科學(xué)數(shù)據(jù)中心。目前國(guó)內(nèi)已經(jīng)建成的科學(xué)數(shù)據(jù)中心以自然科學(xué)領(lǐng)域?yàn)橹鳎渲袊?guó)家高能物理科學(xué)數(shù)據(jù)中心、國(guó)家青藏高原科學(xué)數(shù)據(jù)中心、國(guó)家地震科學(xué)數(shù)據(jù)中心、國(guó)家空間科學(xué)數(shù)據(jù)中心、國(guó)家極地科學(xué)數(shù)據(jù)中心是國(guó)內(nèi)5個(gè)典型的科學(xué)數(shù)據(jù)中心[8]。
在新的科學(xué)研究范式中,促進(jìn)科技資源的開放與共享是當(dāng)前優(yōu)化與整合科技資源的重要途徑[9]。2018年國(guó)務(wù)院發(fā)布的《關(guān)于建立更加有效的區(qū)域協(xié)調(diào)發(fā)展機(jī)制意見》指出,要推動(dòng)京津翼、長(zhǎng)三角等幾大城市群發(fā)展,強(qiáng)化區(qū)域板塊間的科技創(chuàng)新合作,促成區(qū)域間的優(yōu)勢(shì)互補(bǔ)與協(xié)同發(fā)展[10]。當(dāng)前科學(xué)數(shù)據(jù)受物理空間位置、行政管轄等因素的約束,區(qū)域內(nèi)部科學(xué)數(shù)據(jù)的同質(zhì)性較高,而異質(zhì)性科學(xué)數(shù)據(jù)較為缺乏。各省市已建成的科學(xué)數(shù)據(jù)服務(wù)平臺(tái)的科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)體系尚未統(tǒng)一、數(shù)據(jù)服務(wù)能力較為欠缺,致使科學(xué)數(shù)據(jù)的流動(dòng)性大幅降低。為了健全國(guó)家科技創(chuàng)新體系,迫切需要探索建設(shè)一批跨區(qū)域科學(xué)數(shù)據(jù)中心,對(duì)區(qū)域間的科學(xué)數(shù)據(jù)進(jìn)行有效整合,建立起共建共享、開放高效的科技研發(fā)支撐體系[11]。
通過文獻(xiàn)梳理可以發(fā)現(xiàn)目前國(guó)內(nèi)尚無直接針對(duì)跨區(qū)域科學(xué)數(shù)據(jù)中心的研究,但部分科學(xué)數(shù)據(jù)中心相關(guān)研究可以為跨區(qū)域科學(xué)數(shù)據(jù)中心研究提供借鑒。①對(duì)科學(xué)數(shù)據(jù)中心的數(shù)據(jù)共享關(guān)鍵技術(shù)進(jìn)行探討。石京燕等[12]在介紹國(guó)家高能物理科學(xué)數(shù)據(jù)中心分布式數(shù)據(jù)處理平臺(tái)的基礎(chǔ)上為科學(xué)數(shù)據(jù)中心的跨區(qū)域數(shù)據(jù)資源共享與數(shù)據(jù)訪問提供了參考方案。盧逸航等[13]對(duì)科學(xué)數(shù)據(jù)中心間互操作模式現(xiàn)狀進(jìn)行分析,總結(jié)了兩大類科學(xué)數(shù)據(jù)中心間互操作的模式,即全局互操作模式和局部互操作模式。②對(duì)科學(xué)數(shù)據(jù)中心涉及的數(shù)據(jù)政策以及協(xié)議的評(píng)估分析。如崔雁[14]利用re3data.org注冊(cè)機(jī)制,對(duì)科學(xué)數(shù)據(jù)中心的數(shù)據(jù)類型、使用許可、元數(shù)據(jù)標(biāo)準(zhǔn)等進(jìn)行了多角度的分析,為科學(xué)數(shù)據(jù)的進(jìn)一步開放提供相關(guān)建議。文禹衡等[15]以扎根理論為基礎(chǔ)構(gòu)建科學(xué)數(shù)據(jù)中心用戶注冊(cè)協(xié)議合規(guī)性評(píng)價(jià)體系,經(jīng)評(píng)價(jià)當(dāng)前多數(shù)科學(xué)數(shù)據(jù)中心的用戶注冊(cè)協(xié)議合規(guī)程度不高,需要在用戶信息的保護(hù)、風(fēng)險(xiǎn)預(yù)警機(jī)制等方面做出進(jìn)一步的完善。
長(zhǎng)三角區(qū)域作為國(guó)內(nèi)科技發(fā)展先行區(qū),具有豐富的科技資源,但各地受制于行政區(qū)域的劃分,整體上對(duì)科技資源的配置和利用效率不高。因此本文以長(zhǎng)三角區(qū)域?yàn)槔?,探索建設(shè)跨區(qū)域科學(xué)數(shù)據(jù)中心相關(guān)問題,對(duì)其建設(shè)的必要性、建設(shè)基礎(chǔ)進(jìn)行探討,分析科學(xué)數(shù)據(jù)中心建設(shè)過程中的重點(diǎn)問題,對(duì)長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心的建設(shè)和發(fā)展提出對(duì)策建議。
目前,長(zhǎng)三角區(qū)域一體化發(fā)展已經(jīng)上升為國(guó)家戰(zhàn)略,在國(guó)務(wù)院印發(fā)的《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》中提到要加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心體系,并在長(zhǎng)三角等區(qū)域建設(shè)數(shù)據(jù)樞紐節(jié)點(diǎn),優(yōu)化數(shù)據(jù)中心的總體統(tǒng)籌規(guī)劃,而建設(shè)長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心正是該發(fā)展規(guī)劃在科學(xué)數(shù)據(jù)領(lǐng)域的落腳點(diǎn),該數(shù)據(jù)中心起著作為國(guó)家級(jí)平臺(tái)的對(duì)接與補(bǔ)充的作用[16]。長(zhǎng)三角地區(qū)的各省市都分別上線運(yùn)行了各自的科學(xué)數(shù)據(jù)共享平臺(tái),包括江蘇省科技資源統(tǒng)籌服務(wù)中心[17]、安徽省科技創(chuàng)新云服務(wù)平臺(tái)[18]、上??萍紕?chuàng)新資源數(shù)據(jù)中心[19]等。目前這些平臺(tái)都由各政府部門運(yùn)營(yíng),各省市之間經(jīng)濟(jì)與科技發(fā)展的不均衡導(dǎo)致了科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)進(jìn)度的差異,上海地區(qū)作為全球科技創(chuàng)新中心,其科學(xué)數(shù)據(jù)資源共享的發(fā)展走在其他省市的前列。2020年2月21日上海科技創(chuàng)新資源數(shù)據(jù)中心正式成為歐洲開放科學(xué)云EOSC(the European Open Science Cloud)的首家非歐洲會(huì)員機(jī)構(gòu),這也標(biāo)志著上海市的科技資源共享邁出了與國(guó)際接軌的重要一步[20]。其他省份雖然也有相應(yīng)科技資源共享平臺(tái)的建設(shè)基礎(chǔ),但是進(jìn)展相對(duì)較慢,呈現(xiàn)出各地區(qū)數(shù)據(jù)中心建設(shè)進(jìn)度不協(xié)調(diào)的“分裂”現(xiàn)狀,也極大阻礙了科學(xué)數(shù)據(jù)中心跨區(qū)域數(shù)據(jù)資源的傳遞與共享。此外,目前各個(gè)平臺(tái)制定的科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)與規(guī)范存在較大差異,容易造成后續(xù)科學(xué)數(shù)據(jù)之間對(duì)接的困難。因此打破行政壁壘,探索建設(shè)長(zhǎng)三角地區(qū)分布式科學(xué)數(shù)據(jù)庫(kù),推動(dòng)區(qū)域內(nèi)科學(xué)基礎(chǔ)設(shè)施、大型科研儀器、科技成果庫(kù)等科技資源的開放共享與合理流動(dòng),才能最大程度地發(fā)揮這些科技資源的價(jià)值。長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心的建立能夠加快形成長(zhǎng)三角科技創(chuàng)新共同體,加速科研成果轉(zhuǎn)化效率,推動(dòng)長(zhǎng)三角區(qū)域建設(shè)成為科技創(chuàng)新高地以及高質(zhì)量發(fā)展先行區(qū)。
長(zhǎng)三角區(qū)域一直是我國(guó)經(jīng)濟(jì)活力較強(qiáng),科技發(fā)展較快的地區(qū)。2021年長(zhǎng)三角地區(qū)GDP總量占全國(guó)比重為24.13%,能夠?yàn)閰^(qū)域的科技創(chuàng)新提供堅(jiān)實(shí)的經(jīng)濟(jì)基礎(chǔ)[21]。長(zhǎng)三角地區(qū)聚集了大量的科研機(jī)構(gòu)和科技創(chuàng)新人才,歷經(jīng)20余年的科技合作發(fā)展,各省市之間具有深厚的合作基礎(chǔ),在多個(gè)層面具備建立跨區(qū)域科學(xué)數(shù)據(jù)中心的基礎(chǔ)條件。
(1)科學(xué)數(shù)據(jù)資源豐富。長(zhǎng)三角地區(qū)擁有全國(guó)近四分之一的“雙一流”高校,“211”高校有25所,上海、合肥兩地分別建有國(guó)家綜合科學(xué)中心,三省一市共配備大科學(xué)裝置15個(gè)、國(guó)家重點(diǎn)實(shí)驗(yàn)室74個(gè)、創(chuàng)新型機(jī)構(gòu)17 686家,高端科研人才和高科技企業(yè)眾多,省級(jí)以上企業(yè)技術(shù)中心在500家以上,科技創(chuàng)新鏈的各環(huán)節(jié)分布均衡[22]。如江蘇省科技資源統(tǒng)籌服務(wù)中心收錄生物樣本1 730 123份,農(nóng)業(yè)種質(zhì)就達(dá)到38 934份[17]。
(2)政策支持力度大。2016年12月長(zhǎng)三角地區(qū)的三省一市共同簽訂《關(guān)于共同推進(jìn)長(zhǎng)三角地區(qū)協(xié)同創(chuàng)新網(wǎng)絡(luò)建設(shè)合作框架》;2018年11月舉辦的“長(zhǎng)江經(jīng)濟(jì)帶科技資源共享論壇”上,四地簽署了《長(zhǎng)三角科技資源共享服務(wù)平臺(tái)共建協(xié)議書》[23];2019年5月通過的《長(zhǎng)江三角洲區(qū)域一體化發(fā)展規(guī)劃綱要》中也明確描述了長(zhǎng)三角地區(qū)的科技資源共享的發(fā)展規(guī)劃,要推動(dòng)長(zhǎng)三角地區(qū)科技資源的合理流動(dòng)與開放共享[24]。
(3)協(xié)同創(chuàng)新基礎(chǔ)深厚。在2022年發(fā)布的《長(zhǎng)三角區(qū)域協(xié)同創(chuàng)新指數(shù)2021》中,長(zhǎng)三角區(qū)域協(xié)同創(chuàng)新指數(shù)的年均增速達(dá)到了9.54%,2020年的創(chuàng)新指數(shù)較2011的指數(shù)翻了一番;就優(yōu)秀科技人才的流動(dòng)性而言,長(zhǎng)三角三省一市的科技創(chuàng)新人才的跨區(qū)域流動(dòng)達(dá)到了165萬人次;就科學(xué)成果開發(fā)與共享而言,長(zhǎng)三角區(qū)域內(nèi)專利轉(zhuǎn)移數(shù)量達(dá)到17 741件,41個(gè)地級(jí)以上城市全部參與到科技論文合作網(wǎng)絡(luò)中[25];就科技成果轉(zhuǎn)化效果而言,在上海張江建立的長(zhǎng)三角國(guó)家技術(shù)創(chuàng)新中心即將成為長(zhǎng)三角產(chǎn)學(xué)研深度融合的示范中心[26]。
長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心的建設(shè)框架(見圖1)包括科學(xué)數(shù)據(jù)整合體系、科學(xué)數(shù)據(jù)分析體系以及科學(xué)數(shù)據(jù)服務(wù)體系3個(gè)模塊的內(nèi)容。
圖1 長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心的建設(shè)框架
(1)科學(xué)數(shù)據(jù)整合體系重點(diǎn)面向長(zhǎng)三角區(qū)域的四大優(yōu)勢(shì)特色產(chǎn)業(yè)(生物醫(yī)藥、物聯(lián)網(wǎng)、集成電路、智能網(wǎng)聯(lián)汽車),整合上述領(lǐng)域的科學(xué)數(shù)據(jù)庫(kù),推進(jìn)長(zhǎng)三角區(qū)域科學(xué)數(shù)據(jù)的集成化和一體化進(jìn)程??茖W(xué)數(shù)據(jù)的采集是整個(gè)科學(xué)數(shù)據(jù)整合工作開展的起點(diǎn),跨區(qū)域科學(xué)數(shù)據(jù)中心可以采用目前大多科學(xué)數(shù)據(jù)中心所使用的“自建+提交+外采”的數(shù)據(jù)采集方式,數(shù)據(jù)生產(chǎn)者在對(duì)科學(xué)數(shù)據(jù)進(jìn)行登記時(shí)不僅要上傳科學(xué)數(shù)據(jù)實(shí)體,同時(shí)還應(yīng)補(bǔ)充對(duì)科學(xué)數(shù)據(jù)進(jìn)行描述的信息,對(duì)處理數(shù)據(jù)所使用的軟件也應(yīng)進(jìn)行說明或者一并提交[22]。隨后科學(xué)數(shù)據(jù)中心對(duì)采集到的科學(xué)數(shù)據(jù)開展詳細(xì)的數(shù)據(jù)審核,審核通過后科學(xué)數(shù)據(jù)中心將與用戶簽訂數(shù)據(jù)匯交協(xié)議,對(duì)于審核沒有通過的數(shù)據(jù)也應(yīng)進(jìn)行說明。跨區(qū)域科學(xué)數(shù)據(jù)中心應(yīng)帶動(dòng)省級(jí)科學(xué)數(shù)據(jù)的匯入,積極探索與各種科研單位的合作與共建,不斷提高數(shù)據(jù)中心數(shù)據(jù)的數(shù)量以及質(zhì)量,形成豐富的科學(xué)數(shù)據(jù)資源體系,讓科學(xué)數(shù)據(jù)資源更好地服務(wù)長(zhǎng)三角區(qū)域的科技創(chuàng)新[27]??鐓^(qū)域科學(xué)數(shù)據(jù)中心必須對(duì)不同來源和不同類型的數(shù)據(jù)進(jìn)行統(tǒng)一的整合與規(guī)劃。科學(xué)數(shù)據(jù)的分類體系可以按照“學(xué)科+區(qū)域”相結(jié)合的方式進(jìn)行,按照數(shù)據(jù)資源所屬的不同學(xué)科和區(qū)域建立完整的科學(xué)數(shù)據(jù)分類體系。
(2)科學(xué)數(shù)據(jù)分析體系是數(shù)據(jù)中心通過整合長(zhǎng)三角區(qū)域內(nèi)的分布式計(jì)算機(jī)以及各類大型科學(xué)分析儀器等基礎(chǔ)設(shè)施,以“一平臺(tái)多中心”的管理模式對(duì)跨區(qū)域數(shù)據(jù)進(jìn)行一站式處理[12]。跨區(qū)域科學(xué)數(shù)據(jù)中心在對(duì)收集的海量科學(xué)數(shù)據(jù)進(jìn)行基礎(chǔ)性統(tǒng)計(jì)分析的基礎(chǔ)上,利用人工智能等大數(shù)據(jù)分析技術(shù)對(duì)科學(xué)數(shù)據(jù)進(jìn)行系統(tǒng)性挖掘與分析,形成可訪問、可復(fù)用的數(shù)據(jù)產(chǎn)品,更深層次地揭示科學(xué)數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),將科學(xué)數(shù)據(jù)中心打造成為一個(gè)直觀、立體的可視化數(shù)據(jù)訪問系統(tǒng)[28]。
(3)科學(xué)數(shù)據(jù)服務(wù)體系是直接面向用戶的模塊,科學(xué)數(shù)據(jù)檢索是跨區(qū)域科學(xué)數(shù)據(jù)中心所提供的最基礎(chǔ)的數(shù)據(jù)服務(wù)——面向所有平臺(tái)注冊(cè)和認(rèn)證通過的用戶提供開放科學(xué)數(shù)據(jù)的檢索服務(wù)。跨區(qū)域科學(xué)數(shù)據(jù)中心應(yīng)根據(jù)長(zhǎng)三角地區(qū)科技發(fā)展的重點(diǎn)需求為導(dǎo)向,提供具有區(qū)域特色的數(shù)據(jù)服務(wù),促進(jìn)跨學(xué)科、跨領(lǐng)域的數(shù)據(jù)融合,長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心所存儲(chǔ)的資源類型涉及物理、生物、化學(xué)等多個(gè)基礎(chǔ)學(xué)科,這些資源是眾多科學(xué)研究領(lǐng)域的關(guān)鍵基礎(chǔ)資源,科學(xué)數(shù)據(jù)中心在積極推動(dòng)跨領(lǐng)域數(shù)據(jù)深度融合的基礎(chǔ)上,激發(fā)科學(xué)數(shù)據(jù)的應(yīng)用價(jià)值,讓科學(xué)數(shù)據(jù)更好地服務(wù)于科研創(chuàng)新活動(dòng)??鐓^(qū)域科學(xué)數(shù)據(jù)中心可以向用戶提供機(jī)器學(xué)習(xí)、數(shù)據(jù)同化、時(shí)間序列分析等多種數(shù)據(jù)分析的方法庫(kù)與模型庫(kù),幫助用戶多角度、全方位地對(duì)科學(xué)數(shù)據(jù)進(jìn)行智能處理與分析[29]??鐓^(qū)域科學(xué)數(shù)據(jù)中心的建設(shè)要避免成為傳統(tǒng)的單一數(shù)據(jù)倉(cāng)儲(chǔ),不能單純地著眼于數(shù)據(jù)內(nèi)容的建設(shè),目前已建成的科學(xué)數(shù)據(jù)共享平臺(tái)所提供的數(shù)據(jù)服務(wù)形式較為單一,更好地為科研從業(yè)人員提供服務(wù)才是建立科學(xué)數(shù)據(jù)中心的根本目的,應(yīng)該探索多樣化的服務(wù)形式,更好地服務(wù)于用戶,表1列舉了一些跨區(qū)域科學(xué)數(shù)據(jù)中心可以提供的數(shù)據(jù)服務(wù)[30]。
表1 跨區(qū)域數(shù)據(jù)中心可提供的數(shù)據(jù)服務(wù)
穩(wěn)定的數(shù)據(jù)資源體系是科學(xué)數(shù)據(jù)中心建設(shè)的關(guān)鍵??鐓^(qū)域科學(xué)數(shù)據(jù)中心在建設(shè)過程中要重視科學(xué)數(shù)據(jù)匯交制度的建設(shè),目前長(zhǎng)三角區(qū)域各省市的科學(xué)數(shù)據(jù)匯交政策(見表2)中除浙江省外,都在《科學(xué)數(shù)據(jù)管理辦法》基礎(chǔ)上根據(jù)當(dāng)?shù)貙?shí)際情況制定了本地區(qū)的科學(xué)數(shù)據(jù)管理實(shí)施細(xì)則。其中安徽省和上海市的管理實(shí)施細(xì)則中明確提出科學(xué)數(shù)據(jù)中心建設(shè)的細(xì)則以及相應(yīng)職責(zé)。上海市還就“市科學(xué)數(shù)據(jù)管理中心”的主要職責(zé)進(jìn)行細(xì)致的規(guī)定,對(duì)科學(xué)數(shù)據(jù)匯交政策做出了要求,為后續(xù)行動(dòng)的規(guī)范提供很好的規(guī)章。在這幾項(xiàng)管理辦法中,只有安徽省強(qiáng)制要求由省級(jí)政府資金資助的項(xiàng)目所產(chǎn)生的科學(xué)數(shù)據(jù)必須匯交到相對(duì)應(yīng)的科學(xué)數(shù)據(jù)中心[31]。以上實(shí)施細(xì)則雖然為科學(xué)數(shù)據(jù)的匯交與管理提供了依據(jù),但是其落實(shí)仍然存在很多阻礙,例如它們更多是針對(duì)政府部門和數(shù)據(jù)中心等機(jī)構(gòu)的主要職責(zé)進(jìn)行規(guī)范,但是并未針對(duì)科學(xué)數(shù)據(jù)的利益相關(guān)者制定明確的行為規(guī)范,可能會(huì)導(dǎo)致實(shí)施細(xì)則的落實(shí)受到科學(xué)數(shù)據(jù)利益相關(guān)個(gè)人的自覺性的影響。因此,一方面應(yīng)該細(xì)化科學(xué)數(shù)據(jù)利益相關(guān)人員的行為規(guī)范,另一方面還應(yīng)加強(qiáng)對(duì)科研工作者行為的引導(dǎo)。上述實(shí)施細(xì)則都是各地根據(jù)自身情況制定,所以難免會(huì)出現(xiàn)一些差異與分歧,各地政府主管部門應(yīng)該加強(qiáng)政策溝通與交流,保持長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心建設(shè)過程中政策制定的一致性[32]。
表2 長(zhǎng)三角區(qū)域各省市的科學(xué)數(shù)據(jù)匯交政策
長(zhǎng)三角區(qū)域的科學(xué)數(shù)據(jù)類型多樣,必須建立一個(gè)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系對(duì)科學(xué)數(shù)據(jù)進(jìn)行有效的整合與集成,應(yīng)根據(jù)科學(xué)數(shù)據(jù)生命周期的全過程建立一個(gè)完善的標(biāo)準(zhǔn)體系(見圖2)。科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)體系的專用標(biāo)準(zhǔn)應(yīng)該包括數(shù)據(jù)采集、數(shù)據(jù)審核、數(shù)據(jù)分類到數(shù)據(jù)發(fā)布的數(shù)據(jù)生命周期全流程。同時(shí),跨區(qū)域科學(xué)數(shù)據(jù)中心作為綜合型的數(shù)據(jù)倉(cāng)儲(chǔ),元數(shù)據(jù)也是其進(jìn)行高質(zhì)量的數(shù)據(jù)管理所要考慮的問題之一,因此數(shù)據(jù)中心應(yīng)該基于自身的主要側(cè)重學(xué)科與數(shù)據(jù)中心的定位,在保持現(xiàn)有元數(shù)據(jù)組織方式的傳統(tǒng)優(yōu)勢(shì)的基礎(chǔ)上進(jìn)行創(chuàng)新,為科學(xué)數(shù)據(jù)中心所存儲(chǔ)的數(shù)據(jù)提供更加多樣化的關(guān)聯(lián)方式,并在數(shù)據(jù)的易用性和簡(jiǎn)潔性之間尋求平衡[33]。此外,除了確定整個(gè)數(shù)據(jù)中心的專用數(shù)據(jù)標(biāo)準(zhǔn),對(duì)于一些學(xué)科數(shù)據(jù)庫(kù)、主題數(shù)據(jù)庫(kù)以及專題數(shù)據(jù)庫(kù),數(shù)據(jù)中心可以在專用標(biāo)準(zhǔn)的基礎(chǔ)上提出針對(duì)這些特殊數(shù)據(jù)庫(kù)的指導(dǎo)標(biāo)準(zhǔn)。如針對(duì)主題數(shù)據(jù)庫(kù),可以在指導(dǎo)標(biāo)準(zhǔn)中對(duì)數(shù)據(jù)庫(kù)的總體架構(gòu)進(jìn)行統(tǒng)一定義,并明確該類型數(shù)據(jù)在運(yùn)行以及服務(wù)等方面的要求。
圖2 科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)體系
長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、結(jié)構(gòu)復(fù)雜、分布廣等特點(diǎn),如何對(duì)海量分布式異構(gòu)數(shù)據(jù)進(jìn)行有效管理對(duì)數(shù)據(jù)共享技術(shù)提出了更多的挑戰(zhàn)。目前已經(jīng)建成的科學(xué)數(shù)據(jù)中心主要是通過各區(qū)域分中心以及數(shù)據(jù)資源點(diǎn)之間以“物理上分布,邏輯上統(tǒng)一”的形式構(gòu)成數(shù)據(jù)共享服務(wù)網(wǎng)絡(luò)系統(tǒng)[13]。長(zhǎng)三角區(qū)域的科學(xué)數(shù)據(jù)分散在各個(gè)地區(qū)的科研機(jī)構(gòu)中,長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心同樣可以采取上述形式來建設(shè),建成1個(gè)總中心、4個(gè)區(qū)域分中心的分布式數(shù)據(jù)處理平臺(tái)(見圖3)。趙瑜等[34]針對(duì)各分布式節(jié)點(diǎn)數(shù)據(jù)資源之間協(xié)同與共享,提出了一種基于元數(shù)據(jù)的分布式數(shù)據(jù)統(tǒng)一訪問技術(shù)。該方法利用元數(shù)據(jù)檢索服務(wù)和數(shù)據(jù)庫(kù)統(tǒng)一訪問消除異構(gòu)資源之間的差異。由于分布式云服務(wù)平臺(tái)的用戶認(rèn)證將更加復(fù)雜,因此必須采用安全的跨域聯(lián)盟認(rèn)證方式,目前比較通用的是基于tokens的統(tǒng)一身份認(rèn)證方式,用戶通過認(rèn)證后會(huì)得到經(jīng)過加密后的token,隨后用戶在異地節(jié)點(diǎn)資源的合法作業(yè)身份也將由token來提供[12]。通過上述技術(shù)構(gòu)建起的分布式處理平臺(tái)將有效幫助科學(xué)數(shù)據(jù)的整合。
圖3 分布式數(shù)據(jù)處理平臺(tái)
跨區(qū)域科學(xué)數(shù)據(jù)中心是由政府統(tǒng)籌協(xié)調(diào)、多元主體參與建設(shè)的數(shù)據(jù)平臺(tái),數(shù)據(jù)中心的高效運(yùn)行需要充分激發(fā)數(shù)據(jù)價(jià)值鏈上各主體的積極性和主動(dòng)性。根據(jù)普麗娜等[35]于2019年對(duì)上海市571名科研從業(yè)人員的調(diào)查顯示,94.8%的科研從業(yè)人員有意愿進(jìn)行科學(xué)數(shù)據(jù)共享,但共享的前提是在后續(xù)的科研成果中對(duì)他們的科學(xué)數(shù)據(jù)進(jìn)行數(shù)據(jù)權(quán)益保護(hù)。數(shù)據(jù)出版是在科學(xué)數(shù)據(jù)開放過程中通過引入數(shù)據(jù)引用等機(jī)制,對(duì)科學(xué)數(shù)據(jù)生產(chǎn)者的權(quán)益進(jìn)行保護(hù)的科學(xué)數(shù)據(jù)共享方式。當(dāng)前國(guó)內(nèi)外的數(shù)據(jù)出版模式大體上可以分為學(xué)術(shù)論文關(guān)聯(lián)出版、數(shù)據(jù)存儲(chǔ)平臺(tái)出版和數(shù)據(jù)論文出版三類,目前多數(shù)科學(xué)數(shù)據(jù)中心的數(shù)據(jù)出版模式主要是第二類[36]。中國(guó)科學(xué)院則是第三類科學(xué)數(shù)據(jù)出版機(jī)制的主要推行者,分別于2016年和2017年創(chuàng)辦了《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》這兩本探索數(shù)據(jù)論文出版模式的期刊[37]。在科學(xué)數(shù)據(jù)出版中,最重要的問題就是建立科技資源標(biāo)識(shí)體系,當(dāng)前中國(guó)科學(xué)院科學(xué)數(shù)據(jù)中心體系主要采用科技資源標(biāo)識(shí)CSTR(China Science and Technology Resource)對(duì)科技資源進(jìn)行唯一標(biāo)識(shí),CSTR具有以下特點(diǎn):唯一性、持久性、兼容性、互操作性、動(dòng)態(tài)更新[38]。長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心與中國(guó)科學(xué)院數(shù)據(jù)中心體系一樣具有多學(xué)科、跨區(qū)域的特點(diǎn),因此同樣也可以采用科技資源標(biāo)識(shí)CSTR來對(duì)科技資源進(jìn)行標(biāo)識(shí),這也便于建立起統(tǒng)一的數(shù)據(jù)接口,實(shí)現(xiàn)與國(guó)家級(jí)科學(xué)數(shù)據(jù)中心的資源對(duì)接。在對(duì)科學(xué)數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)識(shí)之后,在后續(xù)的科學(xué)數(shù)據(jù)引用以及出版制度中,科學(xué)數(shù)據(jù)也將成為數(shù)據(jù)生產(chǎn)者的重要研究成果,因而能夠激發(fā)其進(jìn)行數(shù)據(jù)共享的積極性。
跨區(qū)域科學(xué)數(shù)據(jù)中心的可持續(xù)發(fā)展離不開良好的配套制度,包括人才隊(duì)伍的建設(shè)、資金來源的管理,以及績(jī)效考核制度。建設(shè)一支具有專業(yè)技能的高素質(zhì)人才隊(duì)伍是科學(xué)數(shù)據(jù)中心運(yùn)行的重要基礎(chǔ)。因此,必須完善人才培養(yǎng)體系,采用科學(xué)合理的激勵(lì)機(jī)制,拓寬員工的晉升渠道,留住數(shù)據(jù)中心建設(shè)所需的專業(yè)人才,同時(shí)吸引更多的青年人才加入到隊(duì)伍中來[39]。數(shù)據(jù)中心應(yīng)該定期對(duì)員工進(jìn)行專業(yè)技能培訓(xùn),提高員工的專業(yè)素養(yǎng),確保員工能夠與最新的前沿技術(shù)接軌。在資金保障制度方面,跨區(qū)域科學(xué)數(shù)據(jù)中心在運(yùn)行的多個(gè)方面,如科學(xué)數(shù)據(jù)的管理、科技服務(wù)的提供、人才隊(duì)伍的建設(shè)都需要長(zhǎng)期穩(wěn)定的資金支持,因此應(yīng)吸引更多的政府資金與科研基金參與到科學(xué)數(shù)據(jù)中心的運(yùn)營(yíng)中來,為跨區(qū)域科學(xué)數(shù)據(jù)中心建設(shè)一個(gè)穩(wěn)定的資金平臺(tái)。在績(jī)效考核制度方面,應(yīng)該建立一套有效的績(jī)效考核指標(biāo)體系,不斷完善制度體系的建設(shè),推行標(biāo)準(zhǔn)化管理,有效提高跨區(qū)域科學(xué)數(shù)據(jù)中心的服務(wù)水平。
建設(shè)跨區(qū)域科學(xué)數(shù)據(jù)中心是當(dāng)前探索區(qū)域科技協(xié)同發(fā)展、整合優(yōu)化科技資源的重要途徑。本文以長(zhǎng)三角地區(qū)為典型案例分析跨區(qū)域科學(xué)數(shù)據(jù)中心的建設(shè)路徑,長(zhǎng)三角地區(qū)雖然在建設(shè)科技資源共享平臺(tái)上已經(jīng)有了一定的基礎(chǔ)與經(jīng)驗(yàn),但在具體實(shí)現(xiàn)的過程中還是必須要堅(jiān)持一體化的建設(shè)原則,在建設(shè)過程中探索出一套能夠高效運(yùn)營(yíng)的管理機(jī)制,在發(fā)揮各省市基礎(chǔ)優(yōu)勢(shì)的基礎(chǔ)上開展跨區(qū)域、跨學(xué)科的開放科學(xué)合作,將長(zhǎng)三角跨區(qū)域科學(xué)數(shù)據(jù)中心打造成科技資源的集聚地。