亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)研究與啟示*

        2019-07-22 05:35:22崔佳偉吳思竹鄔金鳴修曉蕾錢(qián)慶
        數(shù)字圖書(shū)館論壇 2019年6期
        關(guān)鍵詞:科學(xué)標(biāo)準(zhǔn)

        崔佳偉 吳思竹 鄔金鳴 修曉蕾 錢(qián)慶

        (中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)

        隨著數(shù)據(jù)密集型科學(xué)研究成為常態(tài),各類(lèi)科學(xué)數(shù)據(jù)呈爆炸式增長(zhǎng),這為科研人員存儲(chǔ)、管理以及共享數(shù)據(jù)帶來(lái)了巨大的困難與挑戰(zhàn)??茖W(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的出現(xiàn)雖然為科學(xué)數(shù)據(jù)的存儲(chǔ)和共享提供了途徑,但如何實(shí)現(xiàn)對(duì)倉(cāng)儲(chǔ)內(nèi)數(shù)據(jù)進(jìn)行有效管理和統(tǒng)一檢索則成為另一個(gè)重要問(wèn)題??茖W(xué)數(shù)據(jù)元數(shù)據(jù)是對(duì)科學(xué)數(shù)據(jù)外部形式和內(nèi)部特征的詳細(xì)描述[1],能夠?yàn)榭茖W(xué)數(shù)據(jù)的組織、整合、交換、發(fā)現(xiàn)和獲取等提供信息。為充分發(fā)揮科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的功能與作用,必須構(gòu)建、應(yīng)用能夠滿(mǎn)足倉(cāng)儲(chǔ)功能目標(biāo)、資源特點(diǎn)和用戶(hù)需求的科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),鑒于此類(lèi)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)主要應(yīng)用于科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),故也可稱(chēng)之為科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)。國(guó)外的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展已經(jīng)較為成熟,但國(guó)內(nèi)的相關(guān)標(biāo)準(zhǔn)還大多處于建設(shè)之中。本文擬對(duì)國(guó)外現(xiàn)有科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)相關(guān)的元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容設(shè)計(jì)及實(shí)際應(yīng)用情況進(jìn)行系統(tǒng)梳理與深入探究,以期為我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建和應(yīng)用提供可資借鑒的參考。

        1 科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)概述

        在過(guò)去的幾十年里,為實(shí)現(xiàn)跨學(xué)科、跨領(lǐng)域的科學(xué)數(shù)據(jù)發(fā)現(xiàn)與共享,生物醫(yī)學(xué)、物理學(xué)和社會(huì)科學(xué)等領(lǐng)域都建立了相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)與規(guī)范。尤其在生物醫(yī)學(xué)領(lǐng)域,隨著高通量測(cè)序技術(shù)的快速發(fā)展,臨床實(shí)驗(yàn)和人群隊(duì)列研究的不斷深化,科學(xué)數(shù)據(jù)的膨脹驅(qū)動(dòng)了該領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的設(shè)計(jì),致使該領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建與應(yīng)用均處于較為前沿位置,對(duì)其他學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)以及通用科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)具有較高的借鑒價(jià)值,故本研究將生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)與通用科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行綜合性分析。通過(guò)對(duì)國(guó)際科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)注冊(cè)系統(tǒng)Re3Data.org中收錄的倉(cāng)儲(chǔ)所應(yīng)用的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行統(tǒng)計(jì)與歸納[2],結(jié)合FAIRsharing[3]和英國(guó)數(shù)字監(jiān)護(hù)中心(Digital Curation Center)[4]中收錄的科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),并針對(duì)能夠存儲(chǔ)科學(xué)數(shù)據(jù)的相關(guān)倉(cāng)儲(chǔ)及倉(cāng)儲(chǔ)所使用的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行調(diào)研,在綜合考慮每個(gè)標(biāo)準(zhǔn)的權(quán)威性、應(yīng)用廣泛性、領(lǐng)域影響力及內(nèi)容覆蓋力的基礎(chǔ)上,選取了3個(gè)通用的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn),分別為Dublin Core、DataCite和Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn),以及3個(gè)生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn),分別為DatA Tag Suite、W3C HCLS Dataset Description和Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)。

        1.1 Dublin Core

        1995年3月,都柏林核心集(Dublin Core)誕生于美國(guó)俄亥俄州都柏林鎮(zhèn)召開(kāi)的第一屆元數(shù)據(jù)研討會(huì)上[5]。會(huì)議目的是希望建立一套簡(jiǎn)單通用的描述網(wǎng)絡(luò)資源的方法,降低檢索難度,從而提高網(wǎng)絡(luò)資源利用率。而后經(jīng)過(guò)多次修正和補(bǔ)充,逐漸形成現(xiàn)在包含15個(gè)元素的元數(shù)據(jù)標(biāo)準(zhǔn)。目前 Dublin Core已被多個(gè)機(jī)構(gòu)作為正式標(biāo)準(zhǔn)發(fā)布(ISO15836、NISOZ3985、RFC5013),我國(guó)與其對(duì)應(yīng)的標(biāo)準(zhǔn)為GB/T 25100—2010。

        1.2 DataCite

        DataCite Metadata Schema由DataCite國(guó)際聯(lián)盟(the DataCite Consortium)制定[6],該聯(lián)盟創(chuàng)建的主要目標(biāo)是支持科學(xué)數(shù)據(jù)存儲(chǔ)并將科學(xué)數(shù)據(jù)的地位提升至合法的、可被引用的科學(xué)記錄,使科學(xué)數(shù)據(jù)更易在網(wǎng)上獲取。其創(chuàng)建的DataCite元數(shù)據(jù)標(biāo)準(zhǔn)包含一系列核心元數(shù)據(jù)元素,通過(guò)為數(shù)據(jù)集提供永久性唯一標(biāo)識(shí)符(DOI)以及準(zhǔn)確、一致性的描述,輔助科學(xué)數(shù)據(jù)的檢索、共享、重用、應(yīng)用和關(guān)聯(lián)。

        1.3 Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)

        Dataverse是哈佛-麻省理工數(shù)據(jù)中心(Harvard MIT Data Center,HMDC)于2007年開(kāi)發(fā)的一個(gè)科學(xué)數(shù)據(jù)管理系統(tǒng),能夠?qū)茖W(xué)數(shù)據(jù)進(jìn)行發(fā)布、引用、存儲(chǔ)、發(fā)現(xiàn)和在線(xiàn)分析[7]。Dataverse的元數(shù)據(jù)標(biāo)準(zhǔn)是以DDI(Data Document Initiative)元數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ)擴(kuò)展而成,根據(jù)不同的類(lèi)型分為不同的區(qū)塊,包括引用通用元數(shù)據(jù)區(qū)塊和學(xué)科專(zhuān)有元數(shù)據(jù)區(qū)塊。其中,引用通用元數(shù)據(jù)區(qū)塊包含引用數(shù)據(jù)集所需的相關(guān)信息,是平臺(tái)所有數(shù)據(jù)集的必備元數(shù)據(jù)區(qū)塊,適用于描述所有類(lèi)型和所有學(xué)科的數(shù)據(jù)集[8];學(xué)科專(zhuān)有元數(shù)據(jù)區(qū)塊則提供針對(duì)某一學(xué)科數(shù)據(jù)的元數(shù)據(jù)元素,覆蓋生命科學(xué)、人文與社會(huì)科學(xué)、地理空間、天文與天體物理和政治學(xué)等多個(gè)領(lǐng)域。

        1.4 DatA Tag Suite

        DatA Tag Suite(DATS)是由NIH的bioCADDIE(biomedical and healthCAre Data Discovery Index Ecosystem)開(kāi)發(fā)的元數(shù)據(jù)模型[9-10],設(shè)計(jì)初衷是滿(mǎn)足科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)DataMed的資源索引和檢索需求[11-12]。DATS以實(shí)現(xiàn)跨數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)集發(fā)現(xiàn)和獲取為目的,其核心實(shí)體可用于描述任何類(lèi)型的數(shù)據(jù)集,包括“數(shù)據(jù)集”“數(shù)據(jù)集分布”“獲取”等實(shí)體,涵蓋了數(shù)據(jù)集的基本信息;擴(kuò)展實(shí)體則主要針對(duì)生物醫(yī)學(xué)領(lǐng)域,包括“疾病”“研究”“生物”“分子”等實(shí)體,以期對(duì)生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)進(jìn)行揭示。

        1.5 W3C HCLS Dataset Description

        W3C HCLS Dataset Description是由the W3C Semantic Web for Health Care and the Life Sciences Interest Group(HCLSIG)通過(guò)重用18個(gè)已有詞表構(gòu)建的RDF詞表[13-14],目的是為生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集提供一個(gè)高質(zhì)量標(biāo)準(zhǔn),以滿(mǎn)足數(shù)據(jù)集的描述、關(guān)聯(lián)、交互、更新、內(nèi)容總結(jié)、索引和發(fā)現(xiàn)等功能需求。W3C HCLS Dataset Description對(duì)數(shù)據(jù)集的描述分為3個(gè)層級(jí):①Summary層級(jí),該層級(jí)對(duì)于數(shù)據(jù)集的描述獨(dú)立于特定版本或格式;②Distribution層級(jí),側(cè)重于描述特定數(shù)據(jù)文件的格式及可下載位置;③Version層級(jí),主要描述特定版本數(shù)據(jù)集的屬性,并利用VersionNumber將Summary層級(jí)的描述與Distribution層級(jí)的描述相關(guān)聯(lián)。除此之外,該標(biāo)準(zhǔn)中的元數(shù)據(jù)元素又分為5個(gè)專(zhuān)題模塊,分別為:核心元素元數(shù)據(jù);標(biāo)識(shí)符;出處和變化;訪(fǎng)問(wèn)、獲?。唤y(tǒng)計(jì)。

        1.6 Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)

        Dryad是由美國(guó)國(guó)家進(jìn)化分析中心等機(jī)構(gòu)建立的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)[15],旨在實(shí)現(xiàn)對(duì)進(jìn)化生物學(xué)、生態(tài)學(xué)及相關(guān)領(lǐng)域出版物的支撐數(shù)據(jù)的保存、發(fā)現(xiàn)、復(fù)用和管理。該倉(cāng)儲(chǔ)將元數(shù)據(jù)管理納入科學(xué)數(shù)據(jù)管理的全過(guò)程,成為科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)管理的典范,被稱(chēng)為元數(shù)據(jù)的“最佳實(shí)踐”[16]。Dryad的元數(shù)據(jù)從描述內(nèi)容來(lái)看可以分為3個(gè)模塊(即出版物元數(shù)據(jù)、數(shù)據(jù)集元數(shù)據(jù)和文件元數(shù)據(jù)[17]),通過(guò)利用特定元數(shù)據(jù)元素值之間的繼承,實(shí)現(xiàn)科學(xué)數(shù)據(jù)之間以及科學(xué)數(shù)據(jù)與期刊文章之間的相互關(guān)聯(lián)。

        2 科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)分析

        本文圍繞科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的特點(diǎn),提出分析框架,從基礎(chǔ)信息、內(nèi)容設(shè)計(jì)和實(shí)際應(yīng)用3個(gè)維度對(duì)這些元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行深入分析,以期為我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建和應(yīng)用提供可資借鑒的參考。

        2.1 基礎(chǔ)信息

        通過(guò)調(diào)研各元數(shù)據(jù)標(biāo)準(zhǔn)及其相關(guān)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),對(duì)各標(biāo)準(zhǔn)的基礎(chǔ)信息進(jìn)行整理,包括標(biāo)準(zhǔn)正文語(yǔ)種、發(fā)布機(jī)構(gòu)/組織、發(fā)布國(guó)家、最初版發(fā)布時(shí)間、最新版發(fā)布時(shí)間、最新版版本號(hào)和可下載格式,具體內(nèi)容見(jiàn)表1。通過(guò)比較可以發(fā)現(xiàn),美國(guó)在元數(shù)據(jù)標(biāo)準(zhǔn)制定和發(fā)布方面發(fā)揮了重要作用,主要體現(xiàn)在其起步較早且發(fā)布的標(biāo)準(zhǔn)應(yīng)用廣泛。如Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)和Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的最初版均于2007年發(fā)布,2015年發(fā)布的DATS更是被DataMed、OmicsDI、ICPSR等多個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)采用。

        隨著科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的持續(xù)發(fā)展,倉(cāng)儲(chǔ)收錄的數(shù)據(jù)資源及提供的服務(wù)類(lèi)型不斷豐富,這就需要倉(cāng)儲(chǔ)的元數(shù)據(jù)標(biāo)準(zhǔn)持續(xù)優(yōu)化升級(jí),實(shí)現(xiàn)多個(gè)版本的更迭。以DataCite為例,其最初版發(fā)布于2009年,而后每隔一年或兩年便更新一次,2019年發(fā)布的最新版版本號(hào)為4.2。

        同時(shí),為適應(yīng)不同類(lèi)型科學(xué)數(shù)據(jù)的特點(diǎn),支持?jǐn)?shù)據(jù)的人機(jī)理解與處理,各元數(shù)據(jù)標(biāo)準(zhǔn)的格式也趨于多樣化,從而滿(mǎn)足用戶(hù)多樣性的需求。如JSON格式能夠簡(jiǎn)潔清晰地揭示元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容元素的層次結(jié)構(gòu),XML格式的通用性有助于元數(shù)據(jù)標(biāo)準(zhǔn)在不同應(yīng)用場(chǎng)景的共享與快速解析,RDF格式能夠準(zhǔn)確描述出標(biāo)準(zhǔn)中各元素間的關(guān)系等。

        2.2 內(nèi)容設(shè)計(jì)

        在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容設(shè)計(jì)分析部分,分為設(shè)計(jì)概況分析和內(nèi)容元素分析兩個(gè)部分,逐層揭示現(xiàn)有標(biāo)準(zhǔn)值得借鑒之處與不足,輔助我國(guó)相關(guān)標(biāo)準(zhǔn)的制定。

        2.2.1 設(shè)計(jì)概況

        根據(jù)各元數(shù)據(jù)標(biāo)準(zhǔn)提供的創(chuàng)建指南或最佳實(shí)踐,對(duì)標(biāo)準(zhǔn)的整體設(shè)計(jì)架構(gòu)進(jìn)行分析,主要包括元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)目標(biāo)、元素總數(shù)、元素分類(lèi)、核心/必備元素個(gè)數(shù)、復(fù)用標(biāo)準(zhǔn)、是否提供受控詞表和是否提供數(shù)據(jù)集引用標(biāo)準(zhǔn)或格式7個(gè)方面(見(jiàn)表2),進(jìn)而從宏觀(guān)層面對(duì)各元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容設(shè)計(jì)進(jìn)行較為直觀(guān)的比較與分析。

        在元素設(shè)置及分類(lèi)方面,除Dublin Core外,其他5個(gè)標(biāo)準(zhǔn)都對(duì)自身的元數(shù)據(jù)元素進(jìn)行分類(lèi),其中“Must”“Mandatory”“Requried”類(lèi)元素均代表必備元素,(即在描述數(shù)據(jù)時(shí)必須出現(xiàn)的元素),占總元素的6%~80%,主要為10%左右。以DataCite為例,該標(biāo)準(zhǔn)共收錄元數(shù)據(jù)元素75個(gè),分為必備元素、推薦元素(在描述數(shù)據(jù)時(shí)推薦出現(xiàn)的元素)和可選元素(在描述數(shù)據(jù)時(shí)可不出現(xiàn)的元素)3類(lèi),其中必備元素9個(gè),占總元素的12%。從理論上看,元數(shù)據(jù)標(biāo)準(zhǔn)中設(shè)置的元素越多,其對(duì)數(shù)據(jù)集內(nèi)容和特征的揭示也就越全面,更有利于促進(jìn)科學(xué)數(shù)據(jù)的共享與發(fā)現(xiàn)。但在實(shí)際應(yīng)用中,如果元數(shù)據(jù)標(biāo)準(zhǔn)中的元素過(guò)多,尤其是必備元素過(guò)多時(shí),將導(dǎo)致數(shù)據(jù)著錄過(guò)程過(guò)于煩瑣和冗長(zhǎng),影響用戶(hù)上傳數(shù)據(jù)和倉(cāng)儲(chǔ)收集數(shù)據(jù)的效率,反而不利于科學(xué)數(shù)據(jù)的共享。而如果必備元素過(guò)少,雖然能夠減少著錄負(fù)擔(dān),但可能導(dǎo)致對(duì)數(shù)據(jù)資源的揭示程度不夠,阻礙科學(xué)數(shù)據(jù)的發(fā)現(xiàn)與再利用。同時(shí),通過(guò)對(duì)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行調(diào)查發(fā)現(xiàn),許多倉(cāng)儲(chǔ)雖然直接應(yīng)用特定的元數(shù)據(jù)標(biāo)準(zhǔn),但也會(huì)依據(jù)自身需求對(duì)標(biāo)準(zhǔn)元素進(jìn)行增減或修改。以科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)Zendo為例,其在應(yīng)用元數(shù)據(jù)標(biāo)準(zhǔn)DataCite時(shí),不僅使用了該標(biāo)準(zhǔn)的必備元素和推薦元素,還在此基礎(chǔ)上進(jìn)行一些額外的補(bǔ)充[18],從而為用戶(hù)提供豐富的資源描述和多角度資源服務(wù),保證數(shù)據(jù)的可發(fā)現(xiàn)性和可重用性。

        表2 元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容設(shè)計(jì)比較

        在提供受控詞表方面,各標(biāo)準(zhǔn)均通過(guò)提供自建的受控詞表或引用已有受控詞表對(duì)部分元數(shù)據(jù)元素的值域進(jìn)行限定。以Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)中的元數(shù)據(jù)元素“Subject”為例,該項(xiàng)可填入的內(nèi)容只能從標(biāo)準(zhǔn)自建的受控詞表中選擇,即從“Agricultural Sciences”“Medicine,Health and Life Sciences”“Chemistry”和“Other”等中選擇一個(gè)或多個(gè)。通過(guò)此種方式,有助于用戶(hù)了解和選擇恰當(dāng)?shù)脑~,從而在創(chuàng)建數(shù)據(jù)集描述之始提高元數(shù)據(jù)質(zhì)量,確保元數(shù)據(jù)描述的規(guī)范性和一致性,以便科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)未來(lái)提供更深層次的服務(wù)(如數(shù)據(jù)分析服務(wù)、知識(shí)發(fā)現(xiàn)服務(wù)等)。

        元數(shù)據(jù)復(fù)用是指在一個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)中復(fù)用一個(gè)或多個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)中的部分元素,利用不同元數(shù)據(jù)標(biāo)準(zhǔn)共同描述復(fù)雜資源,以便擴(kuò)展元數(shù)據(jù)標(biāo)準(zhǔn)的適用范圍,增強(qiáng)不同系統(tǒng)之間元數(shù)據(jù)的互操作性,促進(jìn)元數(shù)據(jù)的相互轉(zhuǎn)換[19]。由“復(fù)用標(biāo)準(zhǔn)”列可見(jiàn),超過(guò)60%的元數(shù)據(jù)標(biāo)準(zhǔn)在構(gòu)建時(shí)都會(huì)借鑒其他元數(shù)據(jù)標(biāo)準(zhǔn),復(fù)用已有元數(shù)據(jù)標(biāo)準(zhǔn)的部分元素,從而在降低標(biāo)準(zhǔn)構(gòu)建復(fù)雜性的同時(shí)提高自身實(shí)用性,并為實(shí)現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)間的互映射提供很好的基礎(chǔ)保障。以Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)為例,其在構(gòu)建時(shí)便復(fù)用了“the Bibliographic Ontology”“Dublin Core”和“Darwin Core”這3個(gè)標(biāo)準(zhǔn)中的元素。

        規(guī)范的數(shù)據(jù)引用標(biāo)準(zhǔn)或格式在數(shù)據(jù)認(rèn)證、數(shù)據(jù)再利用以及追蹤數(shù)據(jù)影響等方面均發(fā)揮了重要作用。由“是否提供數(shù)據(jù)集引用標(biāo)準(zhǔn)或格式”列可見(jiàn),DataCite和Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)均提供數(shù)據(jù)集引用標(biāo)準(zhǔn)或格式,而Dublin Core、DATS、W3C HCLS Dataset Description和Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)并未提供。

        2.2.2 內(nèi)容元素

        基于不同的設(shè)計(jì)目標(biāo)和應(yīng)用需求,各科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的結(jié)構(gòu)框架和內(nèi)容元素設(shè)計(jì)均存在明顯差異。Dublin Core、DATS和Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)目標(biāo)較為類(lèi)似,主要為促進(jìn)資源的存儲(chǔ)、管理、發(fā)現(xiàn)與獲取,并不需要對(duì)資源內(nèi)容進(jìn)行詳細(xì)的說(shuō)明與揭示,此類(lèi)標(biāo)準(zhǔn)的元素相對(duì)較少。相比于Dublin Core,Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)和DATS更加注重不同類(lèi)型資源間的整合,其中Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)利用不同元數(shù)據(jù)模塊中特定元數(shù)據(jù)元素值之間的繼承關(guān)系將出版物與數(shù)據(jù)集相關(guān)聯(lián);而DATS是基于“被引用”“使用”“存儲(chǔ)”“符合”等實(shí)體間關(guān)系將科學(xué)數(shù)據(jù)資源與出版物、軟件以及其他科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)和數(shù)據(jù)標(biāo)準(zhǔn)相聯(lián)系,同時(shí)還針對(duì)生物醫(yī)學(xué)相關(guān)科學(xué)數(shù)據(jù)構(gòu)建擴(kuò)展實(shí)體。與上述3個(gè)標(biāo)準(zhǔn)不同的是DataCite、Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)和W3C HCLS Dataset Description,這3個(gè)標(biāo)準(zhǔn)的總元素較多,必備元素卻較少,利用可選元素對(duì)數(shù)據(jù)資源進(jìn)行靈活描述,對(duì)于數(shù)據(jù)集的揭示更具有完整性,尤其是Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)和W3C HCLS Dataset Description,分別利用學(xué)科專(zhuān)有元數(shù)據(jù)區(qū)塊和分層級(jí)的資源描述方法,深入到科學(xué)數(shù)據(jù)描述的微觀(guān)層面。

        通過(guò)對(duì)各科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容元素展開(kāi)分析,探究各標(biāo)準(zhǔn)的元數(shù)據(jù)元素共有情況,可以發(fā)現(xiàn)內(nèi)容關(guān)聯(lián)性和相似性較高的標(biāo)準(zhǔn),為實(shí)現(xiàn)標(biāo)準(zhǔn)間的映射及互操作奠定基礎(chǔ),同時(shí)也為新標(biāo)準(zhǔn)的構(gòu)建提供備選元素。為保證比較分析的元素在同一層面,本文只選取各標(biāo)準(zhǔn)中描述數(shù)據(jù)集的元素進(jìn)行分析。依據(jù)元素被各標(biāo)準(zhǔn)共有的情況,可將元素分為3個(gè)大類(lèi),分別為公共元素、基本元素和擴(kuò)展元素,每類(lèi)元素具體涵蓋的內(nèi)容如圖1所示。

        雖然各元數(shù)據(jù)標(biāo)準(zhǔn)具體應(yīng)用領(lǐng)域不同,描述數(shù)據(jù)集的細(xì)粒度也不同,但實(shí)現(xiàn)數(shù)據(jù)描述和數(shù)據(jù)檢索都是其首要功能,因此在各元數(shù)據(jù)標(biāo)準(zhǔn)中,標(biāo)題、標(biāo)識(shí)符、描述、時(shí)間等記錄數(shù)據(jù)集基本屬性的公共元素都是必備的。在公共元素基礎(chǔ)上,各標(biāo)準(zhǔn)圍繞自身構(gòu)建目標(biāo)及需求,對(duì)數(shù)據(jù)集的內(nèi)容和形式展開(kāi)進(jìn)一步說(shuō)明,歸納后形成基本元素和擴(kuò)展元素。以DATS和Dryad為例,DATS標(biāo)準(zhǔn)的設(shè)計(jì)目標(biāo)是幫助用戶(hù)實(shí)現(xiàn)跨數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)集發(fā)現(xiàn)和獲取,故其基本元素和擴(kuò)展元素主要描述數(shù)據(jù)集的形式特征,提供關(guān)于數(shù)據(jù)集的分發(fā)信息(如數(shù)據(jù)集的格式、版本、存儲(chǔ)位置、獲取方式等),同時(shí)為滿(mǎn)足生物醫(yī)學(xué)科學(xué)數(shù)據(jù)的專(zhuān)業(yè)性,DATS還提供一些非核心實(shí)體,用于記錄數(shù)據(jù)集內(nèi)生物體的分類(lèi)情況、經(jīng)歷的研究過(guò)程和治療過(guò)程等;Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)為滿(mǎn)足自身功能目標(biāo)——實(shí)現(xiàn)生物醫(yī)學(xué)科學(xué)數(shù)據(jù)之間以及科學(xué)數(shù)據(jù)與期刊文章之間的相互關(guān)聯(lián),在基于公共元素對(duì)數(shù)據(jù)集的內(nèi)容和形式進(jìn)行簡(jiǎn)單描述的基礎(chǔ)上,利用擴(kuò)展元素“Associated Dryad Publication Record Identifier”和“Associated Dryad Data File Record Identifier”記錄數(shù)據(jù)集、出版物和數(shù)據(jù)文件間的聯(lián)系。

        2.3 實(shí)際應(yīng)用

        在上文對(duì)各元數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu)及內(nèi)容進(jìn)行分析的基礎(chǔ)上,結(jié)合各標(biāo)準(zhǔn)在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)中的實(shí)際應(yīng)用情況,表3對(duì)它們的特點(diǎn)、不足、使用難度、適用范圍以及應(yīng)用實(shí)踐進(jìn)行總結(jié),不僅為我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)提供選擇元數(shù)據(jù)標(biāo)準(zhǔn)的依據(jù),也為新標(biāo)準(zhǔn)的構(gòu)建提供參考和借鑒。

        圖1 元數(shù)據(jù)標(biāo)準(zhǔn)元素分類(lèi)

        表3 元數(shù)據(jù)實(shí)際應(yīng)用比較

        基于上述元數(shù)據(jù)標(biāo)準(zhǔn)的層級(jí)深度、結(jié)構(gòu)復(fù)雜度、元素豐富度和元素易理解度,可將它們的使用難度分為三級(jí)。一星級(jí)使用難度相對(duì)較低,包括2個(gè)標(biāo)準(zhǔn),分別為Dublin Core和Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn);二星級(jí)包括3個(gè)標(biāo)準(zhǔn),分別為DataCite、Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)和DATS;三星級(jí)使用難度相對(duì)較高,僅有標(biāo)準(zhǔn)W3C HCLS Dataset Description。分析可發(fā)現(xiàn),Dublin Core、Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)描述的內(nèi)容相對(duì)較少,雖然增加了標(biāo)準(zhǔn)的易用性,但同時(shí)也導(dǎo)致它們存在數(shù)據(jù)細(xì)粒度、數(shù)據(jù)關(guān)系等方面揭示不足等問(wèn)題。Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)雖然描述的內(nèi)容較多,使數(shù)據(jù)描述的準(zhǔn)確性與全面性得到保證,但由于元素的順序和層次劃分欠清晰,對(duì)其應(yīng)用范圍的擴(kuò)大造成限制。由此可見(jiàn),對(duì)于科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì),應(yīng)考慮著錄者(包括專(zhuān)業(yè)和非專(zhuān)業(yè)著錄人員及科學(xué)數(shù)據(jù)管理人員)和使用者(指共享科學(xué)數(shù)據(jù)的使用者)的需求、著錄對(duì)象(被描述的各類(lèi)科學(xué)數(shù)據(jù))的特性,并在期間尋求最佳平衡和組配,兼顧元數(shù)據(jù)標(biāo)準(zhǔn)的描述準(zhǔn)確性與應(yīng)用便捷性,促進(jìn)科學(xué)數(shù)據(jù)加工的規(guī)范化與標(biāo)準(zhǔn)化。

        在標(biāo)準(zhǔn)的適用范圍方面,Dublin Core、DataCite和Dataverse科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的元素設(shè)置均與學(xué)科無(wú)關(guān),主要描述數(shù)據(jù)集的宏觀(guān)層面,適用于綜合性科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)。DATS和Dryad科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)雖然都是為支持生物醫(yī)學(xué)相關(guān)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)而設(shè)計(jì),但因DATS的核心實(shí)體和Dryad全部元素均與學(xué)科無(wú)關(guān),故也可用于綜合性科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)。W3C HCLS Dataset Description是基于對(duì)15個(gè)生物醫(yī)學(xué)相關(guān)數(shù)據(jù)集實(shí)例的分析而構(gòu)建的元數(shù)據(jù)標(biāo)準(zhǔn),對(duì)生物醫(yī)學(xué)科學(xué)數(shù)據(jù)集進(jìn)行了深入內(nèi)容層面的組織,主要適用于生物醫(yī)學(xué)相關(guān)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)。

        結(jié)合現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)中的實(shí)際應(yīng)用情況,可以分析出元數(shù)據(jù)標(biāo)準(zhǔn)在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)中發(fā)揮的作用。本文以應(yīng)用上述元數(shù)據(jù)標(biāo)準(zhǔn)的6個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)為例,對(duì)目前元數(shù)據(jù)標(biāo)準(zhǔn)在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)中發(fā)揮作用的功能模塊進(jìn)行分析與總結(jié)(見(jiàn)表4)。在數(shù)據(jù)上傳和數(shù)據(jù)著錄模塊,科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)依據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)定用戶(hù)上傳數(shù)據(jù)時(shí)必填寫(xiě)的數(shù)據(jù)的元數(shù)據(jù)描述,進(jìn)而形成數(shù)據(jù)的著錄信息,以便用戶(hù)在不必瀏覽數(shù)據(jù)的情況下,能夠?qū)?shù)據(jù)有基本的了解和認(rèn)識(shí)。DataMed作為數(shù)據(jù)集檢索系統(tǒng),其并不提供數(shù)據(jù)上傳功能,而是通過(guò)收錄科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),利用DATS元數(shù)據(jù)標(biāo)準(zhǔn)將各科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)內(nèi)數(shù)據(jù)集的元數(shù)據(jù)描述進(jìn)行統(tǒng)一與規(guī)范化,進(jìn)而實(shí)現(xiàn)跨數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)集檢索。在數(shù)據(jù)檢索和數(shù)據(jù)瀏覽模塊,各科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)依據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)定用戶(hù)可選的檢索項(xiàng)、檢索結(jié)果篩選項(xiàng)以及分類(lèi)瀏覽的分類(lèi)依據(jù)。在數(shù)據(jù)獲取和數(shù)據(jù)引用模塊,許多科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)不僅提供數(shù)據(jù)集的獲取方式及獲取路徑,還基于科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)描述提供規(guī)范的數(shù)據(jù)引用格式。但也有部分倉(cāng)儲(chǔ)并未提供數(shù)據(jù)引用模塊,如DataMed和EBI RDF Platform。在普通數(shù)據(jù)轉(zhuǎn)RDF模塊,僅利用標(biāo)準(zhǔn)W3C HCLS Dataset Description的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)EBI RDF Platform能夠?qū)崿F(xiàn),即將ChEMBL、Ensembl、UniProt等數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換為RDF格式,從而使這些數(shù)據(jù)集能夠通過(guò)利用語(yǔ)義網(wǎng)技術(shù)進(jìn)行訪(fǎng)問(wèn)。在A(yíng)PI接口和OAI-PMH模塊,部分科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)依據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)為用戶(hù)提供批量數(shù)據(jù)上傳、數(shù)據(jù)下載、數(shù)據(jù)檢索以及數(shù)據(jù)的元數(shù)據(jù)項(xiàng)下載等功能。圖2從左至右分別展示了:①科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)Zenodo的數(shù)據(jù)上傳界面,包括用戶(hù)上傳數(shù)據(jù)時(shí)必填元數(shù)據(jù)描述項(xiàng)、推薦填寫(xiě)元數(shù)據(jù)描述項(xiàng)和選填元數(shù)據(jù)描述項(xiàng),對(duì)應(yīng)元數(shù)據(jù)標(biāo)準(zhǔn)DataMed的必備元素、推薦元素和可選元素;②科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)Dryad的數(shù)據(jù)著錄信息詳情頁(yè)面,不僅提供了數(shù)據(jù)集的基本信息說(shuō)明,還提供了數(shù)據(jù)的獲取路徑以及引用數(shù)據(jù)的標(biāo)準(zhǔn)格式;③科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)DataMed的高級(jí)檢索界面,為用戶(hù)提供了22個(gè)可選檢索項(xiàng),如“Title”“Author”“Description”等。

        3 對(duì)我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建及應(yīng)用啟示

        2002年,在科技部的主導(dǎo)下,我國(guó)開(kāi)始實(shí)施科學(xué)數(shù)據(jù)共享工程,制定了數(shù)據(jù)共享工程的核心元數(shù)據(jù)標(biāo)準(zhǔn),并陸續(xù)啟動(dòng)醫(yī)藥衛(wèi)生、氣象、農(nóng)業(yè)等9個(gè)學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)共享中心的建設(shè)與共享服務(wù)試點(diǎn)。近年來(lái),隨著科學(xué)研究的不斷深入,我國(guó)科學(xué)數(shù)據(jù)的數(shù)量和規(guī)模不斷擴(kuò)大,元數(shù)據(jù)標(biāo)準(zhǔn)也越來(lái)越多。但與國(guó)外相比,我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的規(guī)范化程度還不夠高,體系有待完善,應(yīng)用也未達(dá)到預(yù)期。在未來(lái)的發(fā)展中,我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)不僅要加強(qiáng)自身技術(shù)建設(shè),更應(yīng)增加與國(guó)外前沿機(jī)構(gòu)的合作學(xué)習(xí),深層次地?cái)U(kuò)展科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建與應(yīng)用工作。

        (1)應(yīng)用已有元數(shù)據(jù)標(biāo)準(zhǔn),根據(jù)需求進(jìn)行修改。不斷涌現(xiàn)的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)和管理平臺(tái)亟需比較成熟的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行管理,考慮到元數(shù)據(jù)格式規(guī)范設(shè)計(jì)和長(zhǎng)期維護(hù)的復(fù)雜性以及國(guó)際化環(huán)境和互操作的需要,一般選擇復(fù)用相關(guān)領(lǐng)域現(xiàn)有標(biāo)準(zhǔn)。在選擇標(biāo)準(zhǔn)時(shí),各平臺(tái)和倉(cāng)儲(chǔ)應(yīng)對(duì)自身功能目標(biāo)進(jìn)行探討,明確著錄科學(xué)數(shù)據(jù)的細(xì)粒度和層次,結(jié)合各元數(shù)據(jù)標(biāo)準(zhǔn)的特點(diǎn)與優(yōu)劣,從而選擇出適當(dāng)?shù)臉?biāo)準(zhǔn),并對(duì)選定的標(biāo)準(zhǔn)按需進(jìn)行調(diào)整與修改。如倉(cāng)儲(chǔ)主要收錄臨床實(shí)驗(yàn)數(shù)據(jù),并擬從微觀(guān)層面對(duì)數(shù)據(jù)進(jìn)行深入內(nèi)容的描述與組織,則可選用W3C HCLS Dataset Description標(biāo)準(zhǔn),并在其基礎(chǔ)上增加相關(guān)專(zhuān)指性描述字段,從而對(duì)實(shí)驗(yàn)的操作流程、方法以及時(shí)間進(jìn)行詳細(xì)說(shuō)明。

        (2)參考已有元數(shù)據(jù)標(biāo)準(zhǔn),構(gòu)建新的標(biāo)準(zhǔn)體系?,F(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)雖種類(lèi)多樣,各具特點(diǎn),但在實(shí)際應(yīng)用中并不能滿(mǎn)足所有科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)和管理平臺(tái)的需求。這就需要部分機(jī)構(gòu)、倉(cāng)儲(chǔ)或平臺(tái)以解決倉(cāng)儲(chǔ)內(nèi)科學(xué)數(shù)據(jù)管理、共享、應(yīng)用等方面的問(wèn)題為導(dǎo)向,考慮科學(xué)數(shù)據(jù)的特有屬性、倉(cāng)儲(chǔ)的功能需求和服務(wù)對(duì)象范圍,參考已有標(biāo)準(zhǔn),構(gòu)建具有實(shí)用性、準(zhǔn)確性、可擴(kuò)展性和前瞻性的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn),推進(jìn)科學(xué)數(shù)據(jù)的全生命周期管理與規(guī)范引用。

        表4 各元數(shù)據(jù)標(biāo)準(zhǔn)在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)中的應(yīng)用情況

        圖2 科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)Zenodo、Dryad和DataMed的部分界面

        (3)規(guī)整元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用,把控?cái)?shù)據(jù)著錄質(zhì)量。數(shù)據(jù)著錄是科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用過(guò)程中的一個(gè)重要環(huán)節(jié),數(shù)據(jù)的著錄質(zhì)量嚴(yán)重影響數(shù)據(jù)在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)內(nèi)的管理效率與后期復(fù)用情況。因此,在未來(lái)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用的過(guò)程中,需要嚴(yán)格把控科學(xué)數(shù)據(jù)著錄質(zhì)量,主要可從以下方面展開(kāi):一是制定科學(xué)數(shù)據(jù)著錄的質(zhì)量控制方案和相關(guān)原則,并以此為指導(dǎo)開(kāi)展著錄工作,如為數(shù)據(jù)提交者制訂元數(shù)據(jù)創(chuàng)建指南或者最佳實(shí)踐等;二是建立科學(xué)數(shù)據(jù)元數(shù)據(jù)描述質(zhì)量評(píng)估指標(biāo),將數(shù)據(jù)著錄結(jié)果交由專(zhuān)業(yè)人員進(jìn)行審核和評(píng)估,并加強(qiáng)專(zhuān)業(yè)人員對(duì)元數(shù)據(jù)質(zhì)量控制素養(yǎng)的培訓(xùn),保證他們對(duì)元數(shù)據(jù)標(biāo)準(zhǔn)以及每個(gè)元數(shù)據(jù)項(xiàng)有較為全面的理解。

        4 結(jié)語(yǔ)

        科學(xué)數(shù)據(jù)的開(kāi)放共享離不開(kāi)數(shù)據(jù)倉(cāng)儲(chǔ)和元數(shù)據(jù)標(biāo)準(zhǔn)的支持,為數(shù)據(jù)附加高質(zhì)量的元數(shù)據(jù)描述,是實(shí)現(xiàn)科學(xué)數(shù)據(jù)有效存儲(chǔ)與管理的基礎(chǔ)。目前我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建與應(yīng)用還處于探索階段,尚未形成良好的實(shí)踐成果和合作機(jī)制。本文在概述國(guó)外典型通用科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)和生物醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上,圍繞它們的內(nèi)容設(shè)計(jì)與實(shí)際應(yīng)用開(kāi)展多維分析,以期為我國(guó)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建和應(yīng)用提供理論根基和實(shí)踐參考。

        猜你喜歡
        科學(xué)標(biāo)準(zhǔn)
        2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
        點(diǎn)擊科學(xué)
        點(diǎn)擊科學(xué)
        科學(xué)大爆炸
        忠誠(chéng)的標(biāo)準(zhǔn)
        美還是丑?
        你可能還在被不靠譜的對(duì)比度標(biāo)準(zhǔn)忽悠
        科學(xué)
        一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長(zhǎng)中的煩惱”
        2015年9月新到標(biāo)準(zhǔn)清單
        亚洲精品第一页在线观看| 在线观看国产精品91| 久久精品国产自清天天线| a毛片全部免费播放| 久天啪天天久久99久孕妇| 情av一区二区三区在线观看| 免费国产在线精品一区二区三区免| 久久久国产乱子伦精品作者| 欧美做受视频播放| 国产日韩一区二区精品| 99亚洲女人私处高清视频| 成年美女黄网站色大免费视频| 亚洲国产精品第一区二区| 久久精品国产99精品国偷| 最新日韩精品视频免费在线观看| 91伦理片视频国产精品久久久| 精品无码人妻一区二区三区不卡| 国产一区二区三区小说| 中文字幕日本五十路熟女| 精品香蕉99久久久久网站| 又色又爽又黄又硬的视频免费观看 | 国产香蕉视频在线播放| 波多野结衣av手机在线观看| 精品无人区无码乱码大片国产| 亚洲白嫩少妇在线喷水| 久久综合亚洲色一区二区三区| 乱子真实露脸刺激对白| 亚洲日本视频一区二区三区| 国产黄色一级大片一区二区| 一区二区亚洲精品在线| 欧美亚洲色综久久精品国产| 中文字幕AⅤ人妻一区二区| 久久亚洲宅男天堂网址| 国产精品免费无遮挡无码永久视频 | 四虎影视免费永久在线观看| 国产精品大屁股1区二区三区| 国产日本精品一区二区| 亚洲精品国产成人片| 欧美肥胖老妇做爰videos| 久久国产综合精品欧美| 亚洲白嫩少妇在线喷水|