司 莉 ( 武漢大學(xué)信息資源研究中心 湖北 武漢 430072 )王雨娃 ( 武漢大學(xué)信息管理學(xué)院 湖北 武漢 430072 )
科學(xué)數(shù)據(jù)共享已經(jīng)成為國(guó)際性的趨勢(shì),而國(guó)內(nèi)外科學(xué)數(shù)據(jù)共享平臺(tái)的涌現(xiàn)則是這一趨勢(shì)的直觀體現(xiàn)。科學(xué)數(shù)據(jù)共享平臺(tái)是數(shù)據(jù)上傳者與使用者直接交互的接口,而平臺(tái)的數(shù)據(jù)組織是數(shù)據(jù)服務(wù)的基礎(chǔ),對(duì)數(shù)據(jù)的有效管理與利用有著重要影響,科學(xué)、高效的數(shù)據(jù)組織有助于用戶發(fā)現(xiàn)和利用科學(xué)數(shù)據(jù)。
近期頒布的《科學(xué)數(shù)據(jù)管理辦法》[1]體現(xiàn)了近年來(lái)我國(guó)越來(lái)越重視科學(xué)數(shù)據(jù)的共享,現(xiàn)今國(guó)內(nèi)已有多個(gè)科學(xué)數(shù)據(jù)共享平臺(tái)建成或在建中,其中國(guó)家科技基礎(chǔ)條件平臺(tái)自2003啟動(dòng)建設(shè),至今已投入近30億元。2011年,首批國(guó)家科技基礎(chǔ)條件平臺(tái)共23家正式進(jìn)入運(yùn)行服務(wù)階段[2],其中科學(xué)數(shù)據(jù)共享領(lǐng)域的平臺(tái)有6家。國(guó)家科技基礎(chǔ)條件平臺(tái)在技術(shù)支持、人才支持、經(jīng)濟(jì)支持、數(shù)據(jù)量、運(yùn)行平穩(wěn)性等多方面具有一定的保證,體現(xiàn)出我國(guó)科學(xué)技術(shù)共享平臺(tái)的較高水平,具有代表性和可比較性。因此,筆者選取這6家科學(xué)數(shù)據(jù)共享領(lǐng)域平臺(tái)作為調(diào)查對(duì)象,即林業(yè)科學(xué)數(shù)據(jù)中心(以下簡(jiǎn)稱為林業(yè)平臺(tái))[3]、國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)(以下簡(jiǎn)稱地球系統(tǒng)平臺(tái))[4]、國(guó)家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)(以下簡(jiǎn)稱人口與健康平臺(tái))[5]、國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心(以下簡(jiǎn)稱農(nóng)業(yè)平臺(tái))[6]、國(guó)家地震科學(xué)數(shù)據(jù)共享中心(以下簡(jiǎn)稱地震科學(xué)平臺(tái))[7]、中國(guó)氣象數(shù)據(jù)網(wǎng)(以下簡(jiǎn)稱氣象平臺(tái))[8]。在調(diào)查其基本情況的基礎(chǔ)上,筆者從元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)的分類與檢索、數(shù)據(jù)整合方式3個(gè)角度調(diào)查6家平臺(tái)的數(shù)據(jù)組織現(xiàn)狀,調(diào)查時(shí)間為2018年5月。
筆者對(duì)6家平臺(tái)上公開(kāi)共享的數(shù)據(jù)集進(jìn)行調(diào)查,并根據(jù)教育部學(xué)科目錄中一級(jí)學(xué)科[9]將數(shù)據(jù)進(jìn)行分類,分類結(jié)果如表1所示。由下頁(yè)表1可知,不同平臺(tái)上數(shù)據(jù)集涉及的學(xué)科范圍不一,數(shù)量從2個(gè)到16個(gè)不等,但大致上仍舊呈現(xiàn)出明顯的主題集中趨勢(shì),一個(gè)平臺(tái)上的大部分?jǐn)?shù)據(jù)集主要圍繞某一主要學(xué)科分布,少部分?jǐn)?shù)據(jù)也有可能涉及到相關(guān)的學(xué)科領(lǐng)域,如地球系統(tǒng)平臺(tái)上的少量數(shù)據(jù)與社會(huì)學(xué)、生物學(xué)、大氣科學(xué)、天文學(xué)等諸多學(xué)科相關(guān),但所有數(shù)據(jù)中地理學(xué)數(shù)據(jù)占12 671條(84.6%),總體來(lái)說(shuō)仍以地理學(xué)數(shù)據(jù)為主。
表1 科學(xué)數(shù)據(jù)共享平臺(tái)數(shù)據(jù)的學(xué)科分布統(tǒng)計(jì)
6家平臺(tái)的數(shù)據(jù)主要采用集中存儲(chǔ)和分布式存儲(chǔ)兩種方式。其中,氣象平臺(tái)的數(shù)據(jù)集中存儲(chǔ)于國(guó)家氣象信息中心,其余平臺(tái)均采取分布式的數(shù)據(jù)存儲(chǔ),數(shù)據(jù)資源存儲(chǔ)在各個(gè)分中心,并通過(guò)網(wǎng)站集成。筆者還對(duì)各平臺(tái)存儲(chǔ)的數(shù)據(jù)量進(jìn)行了統(tǒng)計(jì),具體情況如表2所示,統(tǒng)計(jì)時(shí)間截至2018年5月29日。
各平臺(tái)的數(shù)據(jù)以不同的分類體系進(jìn)行組織,并用元數(shù)據(jù)中的關(guān)鍵詞字段進(jìn)行主題標(biāo)引。同時(shí),由于一些平臺(tái)存在子平臺(tái),各平臺(tái)對(duì)子平臺(tái)的數(shù)據(jù)以及一些網(wǎng)絡(luò)資源進(jìn)行了整合。因此,筆者從數(shù)據(jù)的分類組織、主題組織和整合3方面調(diào)查平臺(tái)數(shù)據(jù)組織的方式。
2.1.1 數(shù)據(jù)的分類組織
各平臺(tái)的數(shù)據(jù)分類差異較大。首先,數(shù)據(jù)分類體系差異大。平臺(tái)采用1~3種不等的分類方法,有的使用統(tǒng)一分類體系,如林業(yè)平臺(tái);也有同時(shí)采用多種方法,如農(nóng)業(yè)平臺(tái)和地震科學(xué)平臺(tái)。各平臺(tái)基本以學(xué)科主題劃分類目,也有些結(jié)合了體系分類法和分面組配的特色,如地球系統(tǒng)平臺(tái)的檢索界面具有分面特征。
其次,類目數(shù)量和劃分方式差異也較大。例如,人口與健康平臺(tái)的數(shù)據(jù)分為6個(gè)一級(jí)類目,每個(gè)一級(jí)類目實(shí)際上鏈接一個(gè)獨(dú)立的子平臺(tái),子平臺(tái)網(wǎng)站又分別劃分一級(jí)、二級(jí)類目。其余平臺(tái)中,最少的二級(jí)類目?jī)H17個(gè)(地震科學(xué)平臺(tái)),最多的二級(jí)類目有96個(gè)(地球系統(tǒng)平臺(tái)),各類目下的數(shù)據(jù)量也有很大差異(見(jiàn)下頁(yè)表3)。
2.1.2 數(shù)據(jù)的主題組織
除地震科學(xué)平臺(tái)外,各平臺(tái)對(duì)數(shù)據(jù)的主題描述基本通過(guò)元數(shù)據(jù)中的關(guān)鍵詞字段進(jìn)行。其中,人口與健康平臺(tái)、農(nóng)業(yè)平臺(tái)、地球系統(tǒng)平臺(tái)和氣象平臺(tái)的關(guān)鍵詞可直接通過(guò)數(shù)據(jù)詳情頁(yè)面的元數(shù)據(jù)描述項(xiàng)看到,并可進(jìn)行關(guān)鍵詞檢索。林業(yè)平臺(tái)的元數(shù)據(jù)字段在數(shù)據(jù)詳情頁(yè)面不可見(jiàn),但可通過(guò)專門的元數(shù)據(jù)檢索頁(yè)面按照關(guān)鍵詞進(jìn)行數(shù)據(jù)檢索。地震科學(xué)平臺(tái)的元數(shù)據(jù)字段中不包含關(guān)鍵詞,網(wǎng)站雖有“關(guān)鍵詞檢索”功能,但該功能本質(zhì)上是進(jìn)行數(shù)據(jù)名稱及內(nèi)容概述的全文檢索。
在關(guān)鍵詞的組配和語(yǔ)詞控制上,各平臺(tái)沒(méi)有嚴(yán)格規(guī)定,一般采用自由詞標(biāo)引的方式,以方便對(duì)各學(xué)科前沿主題和細(xì)化的研究方向進(jìn)行揭示。例如,農(nóng)業(yè)平臺(tái)在數(shù)據(jù)上傳時(shí)對(duì)關(guān)鍵詞不作限制,由數(shù)據(jù)上傳者選擇關(guān)鍵詞;其他平臺(tái)對(duì)數(shù)據(jù)上傳者的身份認(rèn)證有所限定,但相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)則中沒(méi)有對(duì)關(guān)鍵詞的選擇作出限定。同時(shí),目前各平臺(tái)對(duì)關(guān)鍵詞也沒(méi)有使用入口詞表等方式建立詞間關(guān)系,自由詞標(biāo)引可能使用戶在檢索中出現(xiàn)漏檢。
表2 科學(xué)數(shù)據(jù)共享平臺(tái)數(shù)據(jù)量與下載量統(tǒng)計(jì)
表3 科學(xué)數(shù)據(jù)共享平臺(tái)的數(shù)據(jù)分類
2.1.3 數(shù)據(jù)的整合
數(shù)據(jù)整合是指采用數(shù)字化信息處理和集成整合技術(shù),對(duì)多種來(lái)源的數(shù)字化信息資源有目的地進(jìn)行重新組合的過(guò)程,同時(shí)為用戶提供統(tǒng)一的檢索界面,實(shí)現(xiàn)高效傳播信息的一種服務(wù)方式[10]。平臺(tái)的數(shù)據(jù)整合主要包括對(duì)站內(nèi)數(shù)據(jù),即主站和各分中心數(shù)據(jù)資源的整合,以及對(duì)網(wǎng)絡(luò)資源的整合。
(1)站內(nèi)數(shù)據(jù)的整合:各平臺(tái)對(duì)主站的數(shù)據(jù)均已實(shí)現(xiàn)一站式檢索,而對(duì)分中心數(shù)據(jù)的整合則分3種情況:①地球系統(tǒng)平臺(tái)、農(nóng)業(yè)平臺(tái)與地震科學(xué)平臺(tái)在主站實(shí)現(xiàn)了統(tǒng)一檢索與瀏覽;②人口與健康平臺(tái)雖可直接檢索分中心資源,但僅提供資源鏈接,無(wú)法直接獲取數(shù)據(jù);③林業(yè)平臺(tái)沒(méi)有集成分中心的數(shù)據(jù)。此外氣象平臺(tái)沒(méi)有分中心,數(shù)據(jù)統(tǒng)一存儲(chǔ),因此不存在分中心數(shù)據(jù)整合的問(wèn)題。
(2)網(wǎng)絡(luò)資源的整合:各平臺(tái)對(duì)網(wǎng)絡(luò)資源的整合主要表現(xiàn)為鏈接我國(guó)相關(guān)的科技平臺(tái),尤其是國(guó)家科技基礎(chǔ)條件平臺(tái)中的其他平臺(tái);以及中國(guó)科學(xué)院、國(guó)家科技部、中國(guó)數(shù)字科技館等平臺(tái);除此之外,還會(huì)提供相關(guān)學(xué)科主題的國(guó)內(nèi)外其他數(shù)據(jù)平臺(tái)鏈接,如人口與健康平臺(tái)提供了國(guó)內(nèi)一些其他醫(yī)學(xué)專題數(shù)據(jù)庫(kù)和醫(yī)學(xué)網(wǎng)站的鏈接,地震科學(xué)平臺(tái)提供了與國(guó)內(nèi)外地震相關(guān)網(wǎng)站的鏈接(見(jiàn)下頁(yè)表4)。
在數(shù)據(jù)整合方式上,大部分平臺(tái)僅提供鏈接地址,只有地球系統(tǒng)平臺(tái)另外提供了簡(jiǎn)要的站點(diǎn)介紹,同時(shí),其長(zhǎng)達(dá)101頁(yè)的“國(guó)際數(shù)據(jù)資源”列表中提供了檢索功能,需要尋找特定站點(diǎn)的用戶可以通過(guò)檢索關(guān)鍵詞查到相關(guān)站點(diǎn)的鏈接,為科研人員尋找國(guó)外相關(guān)資源平臺(tái)帶來(lái)了便利。
表4 科學(xué)數(shù)據(jù)共享平臺(tái)的網(wǎng)絡(luò)資源整合方式
6家平臺(tái)對(duì)數(shù)據(jù)的描述采用元數(shù)據(jù)的形式,其中有3個(gè)平臺(tái)采用較完善的元數(shù)據(jù)標(biāo)準(zhǔn),包括林業(yè)平臺(tái)、地震科學(xué)平臺(tái)和氣象平臺(tái),其余平臺(tái)采用部分元數(shù)據(jù)字段(但未說(shuō)明采取的具體元數(shù)據(jù)標(biāo)準(zhǔn))??傮w來(lái)說(shuō),各平臺(tái)均選用了專指性較強(qiáng)的行業(yè)性元數(shù)據(jù)標(biāo)準(zhǔn)。筆者對(duì)各平臺(tái)的元數(shù)據(jù)標(biāo)準(zhǔn)、來(lái)源及分別的字段進(jìn)行分析(見(jiàn)表5),在統(tǒng)計(jì)“共有字段”時(shí),將部分平臺(tái)元數(shù)據(jù)中意義相近的字段合并進(jìn)行統(tǒng)計(jì)(如將“數(shù)據(jù)聯(lián)系人”“電話”“郵箱”等合并至共有字段“數(shù)據(jù)聯(lián)系人”中)。
表5 科學(xué)數(shù)據(jù)共享平臺(tái)的元數(shù)據(jù)標(biāo)準(zhǔn)、來(lái)源及字段
表6 科學(xué)數(shù)據(jù)共享平臺(tái)的數(shù)據(jù)檢索功能
數(shù)據(jù)的檢索功能直接關(guān)系到數(shù)據(jù)的獲取利用。筆者對(duì)各平臺(tái)的高級(jí)檢索功能進(jìn)行統(tǒng)計(jì)(見(jiàn)表6),其中人口與健康平臺(tái)的子平臺(tái)檢索功能有所不同。大部分平臺(tái)沒(méi)有設(shè)置專門的高級(jí)檢索入口,但通過(guò)不同方式可以實(shí)現(xiàn)多種高級(jí)檢索功能,如在檢索結(jié)果頁(yè)面提供結(jié)果精煉與二次檢索的功能。幾乎所有平臺(tái)均實(shí)現(xiàn)了字段檢索的功能(人口與健康平臺(tái)僅有3個(gè)子平臺(tái)實(shí)現(xiàn)這一功能),結(jié)果精煉和結(jié)果的二次檢索功能較為常見(jiàn),其余檢索功能也均有近半平臺(tái)實(shí)現(xiàn)。
6家平臺(tái)中部分平臺(tái)對(duì)數(shù)據(jù)組織的某些方面有所說(shuō)明,如數(shù)據(jù)的學(xué)科范圍、分類標(biāo)準(zhǔn)等,但少有平臺(tái)公開(kāi)完整的、全面的科學(xué)數(shù)據(jù)政策。例如,林業(yè)平臺(tái)僅提供了不足千字的簡(jiǎn)短元數(shù)據(jù)說(shuō)明,在“標(biāo)準(zhǔn)與規(guī)范”一欄下顯示的則是“沒(méi)有相關(guān)的數(shù)據(jù)表”,對(duì)于數(shù)據(jù)的保存時(shí)限、合理使用限制、學(xué)科屬性、分類方式、更新時(shí)間等均沒(méi)有作出說(shuō)明。
國(guó)外許多科學(xué)數(shù)據(jù)共享平臺(tái)提供完整的政策文件,其中通常包含科學(xué)數(shù)據(jù)的保存期限、保存格式、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)涵蓋的學(xué)科范圍等,如美國(guó)政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)[11]、歐洲多語(yǔ)言文化遺產(chǎn)庫(kù)等均有相應(yīng)的規(guī)定[12-13]。而我國(guó)科學(xué)數(shù)據(jù)共享平臺(tái)的政策文件或用戶指南偏重于實(shí)用性,其內(nèi)容往往是指引用戶了解和使用網(wǎng)站,包括用戶注冊(cè)、數(shù)據(jù)獲取、服務(wù)介紹等??傮w來(lái)說(shuō),各平臺(tái)的說(shuō)明文件側(cè)重于對(duì)服務(wù)和使用方式的介紹,較缺乏對(duì)數(shù)據(jù)本身及數(shù)據(jù)組織情況的全面說(shuō)明。
首先,各平臺(tái)數(shù)據(jù)分類的方式存在一些不嚴(yán)謹(jǐn)之處。6家平臺(tái)皆采用了學(xué)科主題劃分方式,同級(jí)類目劃分比較隨意,概念內(nèi)涵存在重疊,如地球系統(tǒng)平臺(tái)的所有降水?dāng)?shù)據(jù)集歸入一級(jí)類目“大氣圈”下“降水”的二級(jí)類目中。因此,研究陸地水循環(huán)的用戶在“陸地水圈”的一級(jí)類目下無(wú)法找到陸地降水的數(shù)據(jù)集,僅能在“大氣圈”類目下找到,給資源獲取造成一定的障礙。
其次,一些平臺(tái)元數(shù)據(jù)規(guī)范性不足。3家平臺(tái)沒(méi)有成型的元數(shù)據(jù)標(biāo)準(zhǔn),僅在數(shù)據(jù)頁(yè)面提供一定數(shù)量的字段。部分已制定的標(biāo)準(zhǔn)規(guī)范也未得到嚴(yán)格執(zhí)行,如人口與健康平臺(tái)于2012年至2016年間發(fā)布了《人口健康科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn)(征求意見(jiàn)稿)》《國(guó)家人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)資源核心元數(shù)據(jù)(征求意見(jiàn)稿)》等一系列標(biāo)準(zhǔn),但目前仍未出臺(tái)正式版本,該平臺(tái)各分中心的描述元數(shù)據(jù)也仍未統(tǒng)一[14]。同時(shí),與國(guó)外多用DC、Data Cite Metadata Schema等通用元數(shù)據(jù)標(biāo)準(zhǔn)作為核心[15]不同,6家平臺(tái)大多分別采用了專指性強(qiáng)的學(xué)科元數(shù)據(jù)標(biāo)準(zhǔn),各平臺(tái)間元數(shù)據(jù)字段差異較大,極少有共同的核心字段。這會(huì)對(duì)數(shù)據(jù)質(zhì)量和數(shù)據(jù)獲取造成一定的影響,也給未來(lái)的數(shù)據(jù)整合帶來(lái)不便。
目前,絕大部分調(diào)查范圍內(nèi)的共享平臺(tái)僅能做到對(duì)數(shù)據(jù)或數(shù)據(jù)集進(jìn)行標(biāo)示與索引,缺乏對(duì)數(shù)據(jù)內(nèi)容深度標(biāo)引,大多平臺(tái)不具備全面的高級(jí)檢索功能。例如,人口與健康平臺(tái)的檢索是針對(duì)數(shù)據(jù)集的,不是針對(duì)具體數(shù)據(jù)進(jìn)行全文檢索。雖然部分網(wǎng)站可以對(duì)數(shù)據(jù)內(nèi)容進(jìn)行進(jìn)一步的檢索,但直接對(duì)數(shù)據(jù)內(nèi)容的揭示仍舊不足,并且許多數(shù)據(jù)只能在下載后進(jìn)行查看。
在資源整合方面,6家平臺(tái)大部分實(shí)現(xiàn)了站內(nèi)數(shù)據(jù)整合,但仍存在一些問(wèn)題,如人口與健康平臺(tái)的主站和各分中心元數(shù)據(jù)字段均不相同,主站檢索結(jié)果雖可檢索出分中心資源,但僅提供鏈接,無(wú)法直接獲取資源;林業(yè)平臺(tái)未整合分中心數(shù)據(jù),各分中心網(wǎng)站的頁(yè)面布局、檢索、元數(shù)據(jù)等均不相同,給數(shù)據(jù)獲取帶來(lái)一定的不便。平臺(tái)對(duì)網(wǎng)絡(luò)資源的整合還停留在提供鏈接層次,除地球系統(tǒng)平臺(tái)提供了其他站點(diǎn)的簡(jiǎn)要介紹和站點(diǎn)檢索功能外,其他平臺(tái)僅鏈接網(wǎng)站名稱,未實(shí)現(xiàn)更深層次的資源整合。
最新頒布的《科學(xué)數(shù)據(jù)管理辦法》規(guī)定,科研院所、高等院校和企業(yè)等法人單位應(yīng)建立健全本單位科學(xué)數(shù)據(jù)相關(guān)管理制度……科學(xué)數(shù)據(jù)中心負(fù)責(zé)科學(xué)數(shù)據(jù)的分級(jí)分類、加工整理和分析挖掘[1]。各平臺(tái)也應(yīng)從微觀層次配合制定完善的科學(xué)數(shù)據(jù)政策,對(duì)數(shù)據(jù)組織的規(guī)定是政策中不可缺少的一部分,而數(shù)據(jù)組織政策的重點(diǎn)是元數(shù)據(jù)標(biāo)準(zhǔn)。例如,悉尼大學(xué)的數(shù)據(jù)政策規(guī)定了結(jié)構(gòu)元數(shù)據(jù)、描述元數(shù)據(jù)、管理元數(shù)據(jù)及各自的作用,并且描述性元數(shù)據(jù)和其他補(bǔ)充的上下文信息應(yīng)與數(shù)據(jù)集相關(guān)聯(lián)[16-17]。澳大利亞衛(wèi)生與福利研究院的數(shù)據(jù)政策包含了數(shù)據(jù)注冊(cè)表、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)鏈接,并對(duì)其使用的元數(shù)據(jù)METeOR進(jìn)行了詳細(xì)說(shuō)明[18],美國(guó)政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)在用戶指南中說(shuō)明了元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)量及各類數(shù)據(jù)指標(biāo)等[11]。國(guó)內(nèi)各平臺(tái)可以對(duì)數(shù)據(jù)政策加以完善,在目前的用戶指南或數(shù)據(jù)共享政策中補(bǔ)充元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)分類標(biāo)準(zhǔn)等內(nèi)容,以提升數(shù)據(jù)質(zhì)量,方便用戶使用。
數(shù)據(jù)分類上的不規(guī)范不僅會(huì)影響數(shù)據(jù)組織的效果,也會(huì)給用戶搜尋和使用數(shù)據(jù)帶來(lái)不便。各平臺(tái)可以參照不同學(xué)科的專業(yè)分類法,規(guī)范類目設(shè)置,也可同時(shí)使用多種分類方法進(jìn)行數(shù)據(jù)分類,以多重列類的方式彌補(bǔ)主題分類的不足,揭示和滿足數(shù)字資源構(gòu)成的多維知識(shí)空間[19],以便于數(shù)據(jù)發(fā)現(xiàn),如農(nóng)業(yè)平臺(tái)和地震科學(xué)平臺(tái)目前采用的分類方法。
在元數(shù)據(jù)標(biāo)準(zhǔn)方面,平臺(tái)內(nèi)部及同一平臺(tái)的分中心之間應(yīng)當(dāng)建立并使用統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),對(duì)核心和選用的元數(shù)據(jù)字段作出明確規(guī)定,以實(shí)現(xiàn)數(shù)據(jù)質(zhì)量控制與數(shù)據(jù)描述的標(biāo)準(zhǔn)化,規(guī)范數(shù)據(jù)管理;對(duì)已制定的元數(shù)據(jù)標(biāo)準(zhǔn),應(yīng)在實(shí)踐中予以執(zhí)行。國(guó)家科技基礎(chǔ)條件平臺(tái)的各平臺(tái)間也應(yīng)當(dāng)具有相對(duì)一致的元數(shù)據(jù)標(biāo)準(zhǔn),為未來(lái)平臺(tái)間的數(shù)據(jù)資源整合、共享與互操作奠定基礎(chǔ),可以參照英美政府?dāng)?shù)據(jù)網(wǎng)站,在某一權(quán)威元數(shù)據(jù)集的基礎(chǔ)上分別制定通用核心元數(shù)據(jù)標(biāo)準(zhǔn)和特定領(lǐng)域核心元數(shù)據(jù)標(biāo)準(zhǔn),通用核心元數(shù)據(jù)標(biāo)準(zhǔn)保留通用的描述元素和規(guī)范,同時(shí)特定領(lǐng)域核心元數(shù)據(jù)標(biāo)準(zhǔn)則體現(xiàn)學(xué)科特色,滿足不同學(xué)科數(shù)據(jù)的特定描述需求[20]。
為了更好地服務(wù)于科學(xué)研究,使科學(xué)數(shù)據(jù)發(fā)揮出最大的效益,對(duì)于網(wǎng)站內(nèi)部的數(shù)據(jù),除了采取規(guī)范元數(shù)據(jù)格式、增加高級(jí)檢索功能等方式,也可以通過(guò)RDF數(shù)據(jù)框架,使用URI命名數(shù)據(jù)實(shí)體,建立數(shù)據(jù)間的關(guān)聯(lián),乃至將平臺(tái)內(nèi)部的數(shù)據(jù)同外部資源連接起來(lái),以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布[21]。關(guān)聯(lián)數(shù)據(jù)可以支持資源的相互連接與聚合,促進(jìn)數(shù)據(jù)集之間的跨庫(kù)關(guān)聯(lián)[22],這有助于各平臺(tái)分中心資源的聚合以及未來(lái)的跨平臺(tái)資源整合;也可以復(fù)用現(xiàn)有的學(xué)科本體,進(jìn)行資源的語(yǔ)義化描述,如DataStaR項(xiàng)目提供各學(xué)科通用的核心元數(shù)據(jù)本體,SWEET項(xiàng)目提供了地球與環(huán)境科學(xué)的術(shù)語(yǔ)本體等[23]。
對(duì)于網(wǎng)絡(luò)資源,應(yīng)當(dāng)尋求比提供鏈接更進(jìn)一步的深層次的整合,如提供網(wǎng)站介紹、進(jìn)行站點(diǎn)分類、提供外部資源檢索等;也可鏈接其他平臺(tái)公開(kāi)的關(guān)聯(lián)數(shù)據(jù)或API接口,如Linked Life Data、Diseasome Map、Linked Sensor Data等大量科學(xué)數(shù)據(jù)資源及一些圖書館資源均開(kāi)始以關(guān)聯(lián)數(shù)據(jù)的方式提供開(kāi)放訪問(wèn)服務(wù)[24]。科學(xué)數(shù)據(jù)共享平臺(tái)不僅是數(shù)據(jù)的存儲(chǔ)點(diǎn),也應(yīng)當(dāng)是一個(gè)學(xué)術(shù)交流平臺(tái),通過(guò)介紹與推薦其他數(shù)據(jù)庫(kù)、科學(xué)數(shù)據(jù)平臺(tái)和網(wǎng)絡(luò)資源,平臺(tái)可以提供學(xué)術(shù)交流與分享的途徑;而通過(guò)提供外部資源的檢索或鏈接,平臺(tái)可以為科學(xué)研究者提供一站式的檢索服務(wù)。從提供數(shù)據(jù)文件到提供數(shù)據(jù)服務(wù),應(yīng)當(dāng)是科學(xué)數(shù)據(jù)共享平臺(tái)的發(fā)展方向。