亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國(guó)外典型科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)實(shí)施的元數(shù)據(jù)方案及啟示

        2015-11-21 02:07:40胡芳
        圖書與情報(bào) 2015年1期
        關(guān)鍵詞:科學(xué)方案用戶

        胡芳

        (1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 北京 100190)

        (2.首都師范大學(xué)圖書館 北京 100089)

        國(guó)外典型科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)實(shí)施的元數(shù)據(jù)方案及啟示

        胡芳

        (1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 北京 100190)

        (2.首都師范大學(xué)圖書館 北京 100089)

        元數(shù)據(jù)方案是建立科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)需考慮的核心問(wèn)題之一。文章從功能目標(biāo)、元數(shù)據(jù)元素和元數(shù)據(jù)方案特點(diǎn)三個(gè)維度,分析四個(gè)國(guó)外典型的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)(DataCite、GBIF、DataStaR和OTA)的元數(shù)據(jù)方案。結(jié)果表明:四個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案各有特點(diǎn),其元數(shù)據(jù)元素各不相同,但都以用戶需求為中心構(gòu)建方案。我國(guó)制定科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案,需從考慮功能定位、應(yīng)用現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)及相關(guān)框架及以用戶為中心等方面對(duì)方案進(jìn)行評(píng)估。

        科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ);元數(shù)據(jù)方案;DataCite;GBIF;DataStaR;OTA

        在大數(shù)據(jù)時(shí)代和E-science背景下,科學(xué)數(shù)據(jù)作為一種學(xué)術(shù)交流資源,其作用日益凸顯,有必要建立科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)對(duì)科學(xué)數(shù)據(jù)進(jìn)行組織、保存和再利用,對(duì)科學(xué)數(shù)據(jù)實(shí)施數(shù)據(jù)監(jiān)護(hù)。其中,元數(shù)據(jù)是建立科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)需考慮的核心問(wèn)題之一。如何根據(jù)已有的元數(shù)據(jù)標(biāo)準(zhǔn),并結(jié)合本機(jī)構(gòu)特點(diǎn),構(gòu)建能滿足用戶存儲(chǔ)、檢索、復(fù)用和分享科學(xué)數(shù)據(jù)等需求的元數(shù)據(jù)框架方案,是建立科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)和實(shí)施數(shù)據(jù)監(jiān)護(hù)需要考慮的一個(gè)重要問(wèn)題。

        1 國(guó)內(nèi)外研究現(xiàn)狀

        國(guó)外對(duì)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的研究比較早,早在2009年,期刊《Cataloging&Classification Quarterly》策劃了一個(gè)專輯:《Metadata and Open Access Repositories》專門探討元數(shù)據(jù)與開放存儲(chǔ)庫(kù)問(wèn)題。國(guó)外關(guān)于該問(wèn)題的研究?jī)?nèi)容主要包括:科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)實(shí)施案例研究;用戶信息行為研究;元數(shù)據(jù)質(zhì)量;圖書館的角色??梢妼iT針對(duì)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)標(biāo)準(zhǔn)和方案的比較研究還不太多,研究者注重個(gè)案研究。

        國(guó)內(nèi)直接研究科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)問(wèn)題的文獻(xiàn)較少,主要介紹了Dryad和UKDA的元數(shù)據(jù)管理問(wèn)題;提出了高校科學(xué)數(shù)據(jù)設(shè)計(jì)的原則,并在都柏林核心元數(shù)據(jù)的基礎(chǔ)上,提出了具體的元數(shù)據(jù)方案。其它相關(guān)研究包括對(duì)科學(xué)數(shù)據(jù)監(jiān)護(hù)的研究,對(duì)科學(xué)數(shù)據(jù)監(jiān)護(hù)的研究主要體現(xiàn)在:國(guó)外數(shù)據(jù)監(jiān)護(hù)總體介紹及啟示;國(guó)外數(shù)據(jù)監(jiān)護(hù)崗位設(shè)置;圖書館的角色;國(guó)內(nèi)科研人員調(diào)查??梢园l(fā)現(xiàn)研究以介紹國(guó)外科學(xué)數(shù)據(jù)項(xiàng)目進(jìn)展的文獻(xiàn)比較多,對(duì)已有的元數(shù)據(jù)標(biāo)準(zhǔn)以及適用性分析還不夠,而這恰恰是本文重點(diǎn)研究的內(nèi)容。

        2 國(guó)外幾個(gè)典型的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)實(shí)踐方案

        2.1 典型科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的選取及簡(jiǎn)介

        根據(jù)數(shù)據(jù)倉(cāng)儲(chǔ)注冊(cè)系統(tǒng)Databib統(tǒng)計(jì),目前數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)數(shù)量比較多的國(guó)家集中在美國(guó)、英國(guó)和加拿大。在學(xué)科分布上,數(shù)量占比較高的學(xué)科是:生物、環(huán)境、地球科學(xué)、多學(xué)科科學(xué)等。從隸屬類型上分析,隸屬于政府和機(jī)構(gòu)的數(shù)據(jù)倉(cāng)儲(chǔ)比較多,少數(shù)隸屬商業(yè)公司。為體現(xiàn)不同類型數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)建設(shè)方案特點(diǎn),本文選擇了DataCite、GBIF、DataStaR和OTA四個(gè)倉(cāng)儲(chǔ)作為典型案例進(jìn)行分析。這四個(gè)倉(cāng)儲(chǔ)分別來(lái)自多國(guó)合作、美國(guó)和英國(guó),體現(xiàn)了目前數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的主要國(guó)家分布。在學(xué)科上也包括綜合和具體小學(xué)科,分別選取了生命科學(xué)和語(yǔ)言文學(xué),一方面可以體現(xiàn)自然科學(xué)和人文科學(xué)各自的特點(diǎn),另一方面根據(jù)Databib的統(tǒng)計(jì)分析,生物科學(xué)是目前數(shù)據(jù)倉(cāng)儲(chǔ)分布數(shù)量比較集中的一個(gè)自然科學(xué),而語(yǔ)言文學(xué)是人文社會(huì)科學(xué)中數(shù)量分布比較集中的一個(gè)學(xué)科。在機(jī)構(gòu)上選取了兩個(gè)單機(jī)構(gòu)和兩個(gè)多機(jī)構(gòu)的數(shù)據(jù)倉(cāng)儲(chǔ),體現(xiàn)了不同的特點(diǎn)(見表1)。

        表1 四個(gè)典型倉(cāng)儲(chǔ)的基本信息

        2.2 DataCite元數(shù)據(jù)方案

        2.2.1 DataCite目標(biāo)

        DataCite是由加州大學(xué)數(shù)字圖書館、德國(guó)國(guó)家科技圖書館、大英圖書館、蘇黎世聯(lián)邦理工學(xué)院圖書館、法國(guó)科技信息研究所、丹麥國(guó)家技術(shù)信息中心、荷蘭代爾夫特理工大學(xué)圖書館、加拿大科技信息研究所、澳大利亞國(guó)家數(shù)據(jù)服務(wù)中心和普渡大學(xué)合作完成的項(xiàng)目,該項(xiàng)目于2010年1月1日正式啟動(dòng)。

        DataCite的目標(biāo)是“促進(jìn)科學(xué)研究數(shù)據(jù)的網(wǎng)絡(luò)便捷獲取、提升科學(xué)數(shù)據(jù)的引用價(jià)值,并支持?jǐn)?shù)據(jù)存儲(chǔ),以利于未來(lái)研究中的證實(shí)和復(fù)用?!币虼?,DataCite的元數(shù)據(jù)方案也主要支持科學(xué)數(shù)據(jù)的引用和發(fā)現(xiàn)。具體而言,包括如下四個(gè)功能:第一,基于少量的必備元素,制定數(shù)據(jù)的標(biāo)準(zhǔn)引用格式;第二,提供與其他元數(shù)據(jù)方案,尤其是領(lǐng)域有關(guān)的方案之間的互操作;第三,通過(guò)一些可選元素對(duì)資源進(jìn)行靈活描述(與其它資源的關(guān)系、同一資源的其它版本等),促進(jìn)對(duì)數(shù)據(jù)的發(fā)現(xiàn);第四,通過(guò)建立可控詞表,以便未來(lái)提供深層次服務(wù)(如發(fā)現(xiàn)服務(wù))。

        2.2.2 DataCite元數(shù)據(jù)元素

        DataCite的必備元素(核心元素)包括:識(shí)別符(Identifier)、創(chuàng)作者(Creator)、題名(Title)、出版者(Publisher)、出版年(Publication Year)。其中識(shí)別符是DOI,創(chuàng)作者是指制作數(shù)據(jù)的主要人員,出版者是指將數(shù)據(jù)發(fā)布給研究社區(qū)的機(jī)構(gòu)。

        DataCite的可選元素包括:主題(Subject)、貢獻(xiàn)者(Contributor)、日期(Data)、語(yǔ)言(Language)、資源類型(ResourceType)、其它識(shí)別符(AlternateIdentifier)、相關(guān)識(shí)別符(RelatedIdentifier)、大小(Size)、格式(Format)、版本(Version)、Rights(權(quán)利)、描述(Description)。其中,其它識(shí)別符、相關(guān)識(shí)別符和版本這三個(gè)元素主要用來(lái)描述對(duì)象之間和對(duì)象內(nèi)部之間的復(fù)雜關(guān)系。DataCite在元數(shù)據(jù)方案中對(duì)相關(guān)識(shí)別符的具體屬性進(jìn)行了限定,包括:被引(IsCitedBy)、引用(Cites)、部分(IsSupplementTo)等18種關(guān)系值。

        2.2.3 DataCite元數(shù)據(jù)特點(diǎn)

        DataCite的元數(shù)據(jù)方案呈現(xiàn)如下特點(diǎn):第一,必備元素比較少,只有五項(xiàng);第二,可選元素中突出對(duì)描述對(duì)象之間的復(fù)雜關(guān)系的元素,并設(shè)置了多種復(fù)雜的值,方便對(duì)科學(xué)數(shù)據(jù)的引用和發(fā)現(xiàn);第三,設(shè)置專人管理元數(shù)據(jù)。DataCite在成立之初就組建了專門的元數(shù)據(jù)工作小組,負(fù)責(zé)元數(shù)據(jù)方案規(guī)劃和制定。該工作小組認(rèn)為由于DataCite成員來(lái)自10個(gè)國(guó)家的11個(gè)圖書館和研究機(jī)構(gòu),分布廣泛,其需求可能不一致,需要不斷更新元數(shù)據(jù)方案。因此,DataCite任命了一名來(lái)自TIB的專職人員負(fù)責(zé)元數(shù)據(jù)監(jiān)管(Metadata Supervisor)。

        2.3 GBIF元數(shù)據(jù)方案

        2.3.1 GBIF目標(biāo)

        GBIF(Global Biodiversity Information Facility)是由全球多個(gè)國(guó)家和組織機(jī)構(gòu)合作建設(shè)的一個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)。GBIF的愿景是:為促進(jìn)科學(xué)、社會(huì)和未來(lái)的可持續(xù)發(fā)展,讓公眾可自由地、普及性地獲取生物多樣性信息。可見其目標(biāo)是:通過(guò)國(guó)際互聯(lián)網(wǎng),讓全世界的生物多樣性數(shù)據(jù)在全球任何范圍內(nèi)面向任何人都可免費(fèi)獲取。當(dāng)前,GBIF可提供來(lái)自1000多個(gè)機(jī)構(gòu)的四億多條記錄,是最大的生物多樣性數(shù)據(jù)庫(kù)。

        2.3.2 GBIF元數(shù)據(jù)元素

        GBIF元數(shù)據(jù)方案是在生態(tài)元數(shù)據(jù)語(yǔ)言框架(Ecological Metadata Language,EML)的基礎(chǔ)上完善擴(kuò)展而成的。GBIF的必備元素只有5項(xiàng),包括:題名(title)、元數(shù)據(jù)提供者(metadataProvider)、語(yǔ)種(language)、發(fā)布日期(pubDate)、摘要(abstract)。其中,摘要是對(duì)數(shù)據(jù)集的簡(jiǎn)單描述。題名是對(duì)提交資源的區(qū)別性描述,以便能區(qū)分出類似資源,可提供多個(gè)標(biāo)題。

        GBIF的可選元素很多,一共有53項(xiàng),包括:基金(funding)、方法(methods)、地理位置(geographicCoverage)、知識(shí)產(chǎn)權(quán)(intellectualRights)、關(guān)鍵詞(keyword)、生存時(shí)間(livingTimePeriod)、機(jī)構(gòu)名稱(organization name)、目的(purpose)、項(xiàng)目(project)、質(zhì)量控制(qualityControl)等。

        2.3.3 GBIF元數(shù)據(jù)特點(diǎn)

        GBIF的元數(shù)據(jù)方案呈現(xiàn)如下特點(diǎn):第一,必備元素少,但可選元素?cái)?shù)量龐大,達(dá)50多項(xiàng),除一些常規(guī)的通用元素外,還包括一些獨(dú)特的與學(xué)科領(lǐng)域有關(guān)的元素,如:地理位置、生存時(shí)間等;第二,提供一些工具,自動(dòng)生成元數(shù)據(jù)元素。包括:集成發(fā)布工具包、元數(shù)據(jù)編輯器(Integrated Publishing Toolkit metadata editor)、達(dá)爾文核心元數(shù)據(jù)模版(Darwin Core Spreadsheet template metadata form)等。

        2.4 DataStaR元數(shù)據(jù)方案

        2.4.1 DataStaR目標(biāo)

        DataStaR(Data Staging Repository)是由康奈爾大學(xué)Albert R.Mann Library負(fù)責(zé)實(shí)施的一項(xiàng)美國(guó)國(guó)家科學(xué)基金項(xiàng)目。自2007年開始實(shí)施,2010年正式完成。DataStaR的功能是為康奈爾大學(xué)的學(xué)者提供一個(gè)本地的階段性(staging)存儲(chǔ)庫(kù),包括兩個(gè)目標(biāo):一是支持研究過(guò)程中的合作與共享;二是為科學(xué)數(shù)據(jù)在永久性的學(xué)科或者機(jī)構(gòu)存儲(chǔ)庫(kù)中進(jìn)行發(fā)布提供支持。該項(xiàng)目關(guān)注的焦點(diǎn)是具體的“小科學(xué)”(small science)數(shù)據(jù),不需要超大存儲(chǔ)容量但卻具有持久學(xué)術(shù)價(jià)值的小型數(shù)據(jù)。

        2.4.2 DataStaR元數(shù)據(jù)元素

        DataStaR的必備元素包括:所有者(Owner)、創(chuàng)建者(Originator)、題名(Title)、識(shí)別符(Identifier)、元數(shù)據(jù)與數(shù)據(jù)獲取許可(Metadata and data access permissions)、擬發(fā)布存儲(chǔ)庫(kù)(Publication repository)、擬發(fā)布/刪除日期(Target data for publication or deaccessioning)、文件級(jí)元數(shù)據(jù)(field-level metadata)。其中創(chuàng)作者是指數(shù)據(jù)創(chuàng)建的登錄人員,由系統(tǒng)自動(dòng)生成。文件級(jí)元數(shù)據(jù)是指和文件自身有關(guān)的元數(shù)據(jù),包括:文件名稱、文件格式、上傳時(shí)間等,由系統(tǒng)自動(dòng)生成。

        DataStaR的可選元素包括:聯(lián)系人員(Contact person)、與研究小組的關(guān)系(Relationship to research group)、與其它資源的關(guān)系(Relationship to other resources)、引文(Citing Publication)、摘要(Abstract)、時(shí)間范圍(Temporal coverage)、地理范圍(Geographic coverage)、使用權(quán)利(Usage rights)、主題(Subject)等,所有的可選元素都由作者自行提供。

        2.4.3 DataStaR元數(shù)據(jù)特點(diǎn)

        DataStar的元數(shù)據(jù)方案呈現(xiàn)如下特點(diǎn):第一,需用戶自行輸入或選擇的元素少,只有四個(gè),包括:創(chuàng)建者、題名、元數(shù)據(jù)與數(shù)據(jù)獲取許可和擬發(fā)布存儲(chǔ)庫(kù),其余元素都由系統(tǒng)自動(dòng)填寫或者具備缺省值;第二,元數(shù)據(jù)方案體現(xiàn)了語(yǔ)義網(wǎng)特征,可支持信息資源的自動(dòng)發(fā)現(xiàn)和互操作;第三,將元數(shù)據(jù)視為語(yǔ)句集合(a collection of statements),方便用戶對(duì)元數(shù)據(jù)的復(fù)用。如:當(dāng)用戶利用同樣的研究方法或者研究網(wǎng)站時(shí),對(duì)元數(shù)據(jù)的復(fù)用可節(jié)省用戶時(shí)間。

        2.5 OTA元數(shù)據(jù)方案

        2.5.1 OTA目標(biāo)

        OTA(University of Oxford Text Archive)是牛津大學(xué)于1976年實(shí)施的一個(gè)數(shù)據(jù)倉(cāng)儲(chǔ),得到了英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(JISC)和英國(guó)藝術(shù)與人文研究委員會(huì)(AHRC)的支持。OTA的目標(biāo)是:為促進(jìn)科研和教學(xué),對(duì)原始數(shù)字資源進(jìn)行采集、編目、保存和傳播。其學(xué)科范圍是:與英國(guó)高等教育有關(guān)的高質(zhì)量語(yǔ)言文學(xué)類。其資源的采集不局限于牛津大學(xué)內(nèi)部,而是來(lái)自更廣泛的社區(qū)。OTA目前收錄25種以上不同語(yǔ)種的文本資源。

        2.5.2 OTA元數(shù)據(jù)元素

        OTA元數(shù)據(jù)元素不區(qū)分必備元素和可選擇元素,一共包括21項(xiàng),主要有:第一,涉及數(shù)據(jù)內(nèi)容的元素:題名(Title of Resource)、其它題名(Alternative Titles)、項(xiàng)目摘要(Project Summary)、資源摘要(Resource Abstract)、資源類型(Purpose Resource Type)、相關(guān)數(shù)字資源(Related Digital Resources)、學(xué)科關(guān)鍵詞(Subject Keywords);第二,與版權(quán)有關(guān)的元素:責(zé)任人(Creators)、出版者(Publisher)、其它責(zé)任人(Other Acknowledgements)、版權(quán)(Copyright)、數(shù)據(jù)保護(hù)法(Registration under the Data Protection Act);第三,其它元素:識(shí)別符(Identifiers)、基金(Funding)、數(shù)字資源創(chuàng)建時(shí)間(Date Digital Resource Created)、語(yǔ)種(Language)、數(shù)字化細(xì)節(jié)(Details of Digitization)、來(lái)源出版物(Sources)、出版物(Publications)、地理信息(Geographical coverage)、時(shí)間覆蓋(Temporal coverage)。

        2.5.1 OTA元數(shù)據(jù)特點(diǎn)

        OTA元數(shù)據(jù)方案呈現(xiàn)如下特點(diǎn):第一,不區(qū)分必備元素和非必備元素,元素比較多,對(duì)每一個(gè)元素的具體內(nèi)容都有詳盡的說(shuō)明;第二,注重版權(quán)。21個(gè)元素中有5項(xiàng)與版權(quán)有關(guān),全面揭示數(shù)字資源的版權(quán)歸屬。

        如前所述,四個(gè)典型數(shù)據(jù)倉(cāng)儲(chǔ)因功能目標(biāo)不同,呈現(xiàn)不同的元數(shù)據(jù)方案,其中有共性也有差異(見表2)。

        表2 四個(gè)典型倉(cāng)儲(chǔ)的元數(shù)據(jù)方案

        3 對(duì)我國(guó)制定科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案的啟示

        3.1 國(guó)內(nèi)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)建設(shè)的發(fā)展現(xiàn)狀

        我國(guó)對(duì)科學(xué)數(shù)據(jù)的元數(shù)據(jù)研究和實(shí)踐已經(jīng)取得了一定成果。2002年,我國(guó)科技部開始實(shí)施科學(xué)數(shù)據(jù)共享工程,并制定了數(shù)據(jù)共享工程的核心元數(shù)據(jù)標(biāo)準(zhǔn),主要包括:元數(shù)據(jù)基本信息、數(shù)據(jù)集引用信息和數(shù)據(jù)集負(fù)責(zé)方。之后,又陸續(xù)啟動(dòng)了氣象、測(cè)繪等科學(xué)數(shù)據(jù)共享中心的建設(shè)與共享服務(wù)試點(diǎn)。

        由于核心元數(shù)據(jù)標(biāo)準(zhǔn)都是與學(xué)科無(wú)關(guān)的元素,不能滿足具體學(xué)科用戶的使用。在此基礎(chǔ)上,各學(xué)科制定了相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn),包括:《生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)》(GB/T 20533-2006)、《地理信息元數(shù)據(jù)》(GB/T 19710-2005)、《水利地理空間信息元數(shù)據(jù)標(biāo)準(zhǔn)》(SL420-2007)等。各自包括的內(nèi)容有共同之處,但更體現(xiàn)了各自不同的學(xué)科特點(diǎn)。如:《生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)》包括七個(gè)模塊:標(biāo)識(shí)信息、實(shí)體信息、場(chǎng)地信息、方法信息、數(shù)據(jù)質(zhì)量信息、項(xiàng)目信息和分發(fā)信息。而《地理信息元數(shù)據(jù)》包括十類子集:標(biāo)識(shí)信息、限制信息、數(shù)據(jù)質(zhì)量信息、維護(hù)信息、空間信息、參照系信息、內(nèi)容信息、圖示表達(dá)類目參照信息、分發(fā)信息、元數(shù)據(jù)擴(kuò)展信息。

        我國(guó)目前直接面向科學(xué)倉(cāng)儲(chǔ)建設(shè)和服務(wù)的學(xué)科數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)還有待進(jìn)一步探索和實(shí)踐,可結(jié)合科學(xué)倉(cāng)儲(chǔ)的特殊功能需求和用戶使用需求,對(duì)學(xué)科領(lǐng)域的數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行部分吸收,并進(jìn)行擴(kuò)展,用于科學(xué)倉(cāng)儲(chǔ)的元數(shù)據(jù)建設(shè)。如:地球系統(tǒng)科學(xué)數(shù)據(jù)共享網(wǎng)的建設(shè)就提供了基于XML Schema的元數(shù)據(jù)建模擴(kuò)展機(jī)制。

        3.2 制定科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案需考慮的問(wèn)題

        3.2.1 功能定位

        制定科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案首先需要考慮該倉(cāng)儲(chǔ)的功能定位,確定科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的組織和管理機(jī)構(gòu)(單一機(jī)構(gòu)還是多機(jī)構(gòu)合作)、服務(wù)對(duì)象(本機(jī)構(gòu)內(nèi)部還是所有網(wǎng)絡(luò)用戶,或者特定學(xué)科群體用戶)、服務(wù)內(nèi)容(是否需要滿足對(duì)科學(xué)數(shù)據(jù)的檢索、獲取、傳遞、存儲(chǔ)、復(fù)用等)。

        國(guó)外四個(gè)典型科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)實(shí)施的元數(shù)據(jù)方案表明:功能定位的不同,其元數(shù)據(jù)元素和特點(diǎn)也不同。如:DataCite主要用于支持科學(xué)數(shù)據(jù)的引用和發(fā)現(xiàn),其元數(shù)據(jù)方案中可選元素重點(diǎn)突出描述對(duì)象之間的復(fù)雜關(guān)系,并設(shè)置了多種復(fù)雜的值;GBIF的目的是讓公眾可方便地獲取生物多樣性信息,其元數(shù)據(jù)方案體現(xiàn)了一些獨(dú)特的與生物多樣性學(xué)科領(lǐng)域有關(guān)的元素,如:地理位置、生存時(shí)間等;DataStaR主要用于支持康奈爾大學(xué)研究人員對(duì)項(xiàng)目在研期間數(shù)據(jù)的共享以及數(shù)據(jù)向最終存儲(chǔ)庫(kù)的發(fā)布,其元數(shù)據(jù)方案考慮了科研人員對(duì)語(yǔ)義網(wǎng)的應(yīng)用需求,利用了語(yǔ)義網(wǎng)技術(shù);OTA主要用于保存原始的語(yǔ)言文學(xué)類資源,版權(quán)歸屬相對(duì)復(fù)雜,其元數(shù)據(jù)方案重視版權(quán)保護(hù)。

        3.2.2 現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)及相關(guān)框架的應(yīng)用

        國(guó)內(nèi)外相關(guān)機(jī)構(gòu)都制定了一些各領(lǐng)域的元數(shù)據(jù)框架(Metadata Scheme),較為知名的有:通用領(lǐng)域的都柏林元數(shù)據(jù)框架(Dublin Core)、用于生命科學(xué)領(lǐng)域的達(dá)爾文核心元數(shù)據(jù)(Darwin Core)、用于教育領(lǐng)域的IEEE學(xué)習(xí)對(duì)象元數(shù)據(jù)框架(IEEE Learning Object Metadata)等。

        我國(guó)可根據(jù)本機(jī)構(gòu)或者本項(xiàng)目用戶需求,對(duì)已有的元數(shù)據(jù)框架進(jìn)行調(diào)整,刪除或者新增部分元數(shù)據(jù)元素和值。如:DataCite元數(shù)據(jù)方案依據(jù)德國(guó)國(guó)家科技圖書館之前所采用的元數(shù)據(jù)框架,由工作組成員討論而逐步完善;GBIF元數(shù)據(jù)方案借鑒了生態(tài)元數(shù)據(jù)語(yǔ)言框架(Ecological Metadata Language,EML),在此基礎(chǔ)上擴(kuò)充了部分元素;DataStar借鑒了都柏林元數(shù)據(jù)框架(Dublin Core)、生態(tài)元數(shù)據(jù)語(yǔ)言本體(EML Ontology)、Fedora屬性(Fedora properties for Vitro)、FOAF本體(Friend of Friend Ontology)等已有的框架,建立了DataStaR核心本體(DataStaR core ontology)。利用現(xiàn)有的元數(shù)據(jù)框架或相關(guān)標(biāo)準(zhǔn),一方面可提高科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)的共享性和通用性,另一方面,也可節(jié)省制定科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案的時(shí)間。

        3.2.3 元數(shù)據(jù)方案評(píng)估

        如前所述,四個(gè)國(guó)外典型科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)DataCite、GBIF、DataStaR和OTA的用戶需求和項(xiàng)目目標(biāo)功能不同,其元數(shù)據(jù)方案各自呈現(xiàn)出不同特點(diǎn),它們各自包含的元素和賦值也各不相同。那么,應(yīng)該如何評(píng)價(jià)面向科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)方案呢?

        綜合考慮四個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)方案特點(diǎn),可以發(fā)現(xiàn)它們存在一個(gè)共同之處:都以用戶為中心來(lái)構(gòu)建其元數(shù)據(jù)方案。首先,盡可能幫助用戶,以節(jié)約用戶建立記錄的時(shí)間。DataCite和GBIF的必備元素只有四五項(xiàng);DataStaR的必備元素雖然多,但多數(shù)元素都可以計(jì)算機(jī)自動(dòng)生成;OTA不區(qū)分是否必備元素,但每一項(xiàng)元素都有詳盡的說(shuō)明,以幫助用戶理解。其次,考慮各自用戶的實(shí)際需求。如:DataCite重點(diǎn)考慮用戶對(duì)科學(xué)數(shù)據(jù)的引用和復(fù)用;GBIF突出對(duì)已有工具包的利用;DataStaR考慮科研用戶對(duì)關(guān)聯(lián)數(shù)據(jù)的應(yīng)用;OTA突出對(duì)原始數(shù)據(jù)版權(quán)的梳理和保護(hù)。因此,面向科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)方案應(yīng)以具體用戶的需求為出發(fā)點(diǎn)和重心,滿足用戶對(duì)科學(xué)數(shù)據(jù)的查找與發(fā)現(xiàn)、識(shí)別與選擇、獲取與分享等不同的功能需求。

        4 結(jié)語(yǔ)

        在數(shù)據(jù)驅(qū)動(dòng)科學(xué)時(shí)代,為了滿足科研用戶對(duì)科學(xué)數(shù)據(jù)的存儲(chǔ)、檢索、復(fù)用和分享等各種需求,國(guó)內(nèi)外相關(guān)機(jī)構(gòu)都構(gòu)建了一些科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),其元數(shù)據(jù)方案是構(gòu)建科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)需重點(diǎn)考慮的問(wèn)題之一。根據(jù)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的功能目標(biāo)、用戶需求特點(diǎn),我國(guó)可借鑒已有的元數(shù)據(jù)框架或相關(guān)標(biāo)準(zhǔn),制定符合需要的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)方案。

        [1]Greenberg,J.,White,H.C.,Carrier,S.,&Scherle,R.A Metadata Best Practice for a Scientific Data Repository[J].Journal of Library Metadata,2009,9(3-4):194-212.

        [2]Dietrich,D.Metadata Management in a Data Staging Repository[J].Journal of Library Metadata,2010,10(2-3):79-98.

        [3]White,H.C.Descriptive Metadata for Scientific Data Repositories:A Comparison of Information Scientist and Scientist Organizing Behaviors[J].Journal of Library Metadata,2014,14(1):24-51.

        [4]Windnagel,A.The Usage of Simple Dublin Core Metadata in Digital Math and Science Repositories[J].Journal of Library Metadata.2014,14(2),77-102.

        [5]Heidorn,P.B.The Emerging Role of Libraries in Data Curation and E-science[J].Journal of Library Administration,2011,51(7-8):662-672.

        [6]黃如花,邱春艷.Dryad數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)管理[J].圖書館雜志,2014(1):68-73.

        [7]周波.高校科學(xué)數(shù)據(jù)元數(shù)據(jù)方案初探[J].圖書館學(xué)研究,2012(1):45-49.

        [8]王芳,慎金花.國(guó)外數(shù)據(jù)管護(hù)(Data Curation)研究與實(shí)踐進(jìn)展[J].中國(guó)圖書館學(xué)報(bào),2014(4):118-130.

        [9]葉蘭.國(guó)外圖書館數(shù)據(jù)監(jiān)護(hù)崗位的設(shè)置與需求分析[J].大學(xué)圖書館學(xué)報(bào),2013(5):5-12.

        [10]樊俊豪.圖書館在科學(xué)數(shù)據(jù)管理中的角色定位研究[J].圖書情報(bào)工作,2014(3):27-41.

        [11]張晉朝.高校科研人員科學(xué)數(shù)據(jù)獲取意愿研究[J].情報(bào)雜志,2013(6):70-75.

        [12]劉峰,張曉林,孔麗華.科研數(shù)據(jù)知識(shí)庫(kù)研究述評(píng)[J].現(xiàn)代圖書情報(bào)技術(shù),2014(2):25-31.

        [13]Starr,J.,&Gastl,A.isCitedBy:A Metadata Scheme for DataCite[J/OL].[2014-09-23].http://www.dlib.org/dlib/ january11/starr/01starr.html.

        [14]Chavan,V,&Penev,L.The data paper:a mechanism to incentivize data publishing in biodiversity science[J].BMC Bioinformatics,2011,12(Suppl 15):S2.

        [15]University of Oxford.University of Oxford Text Archive[EB/OL].[2014-09-23].http://ota.ahds.ac.uk/.

        [16]吳彬.生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)及其標(biāo)準(zhǔn)研究[J].中南林業(yè)科技大學(xué)學(xué)報(bào),2010(12):5-79.

        [17]蔣景瞳,劉若梅,周旭,等.國(guó)家標(biāo)準(zhǔn)《地理信息元數(shù)據(jù)》研制與實(shí)現(xiàn)若干問(wèn)題[J].地理信息世界,2003(10):2-5.

        [18]崔麗美,謝佳節(jié),楊聯(lián)安,等.基于XML Schema地球系統(tǒng)科學(xué)數(shù)據(jù)的元數(shù)據(jù)擴(kuò)展機(jī)制[J].測(cè)繪學(xué)報(bào),2005(3):246-251.

        Metadata Practice in Typical Scientific Data Repositories Abroad

        Metadata design is one of the core questions of building a scientific data repository.This paper analyzes in details the four typical scientific data repositories abroad including DataCite,GBIF,DataStaR and OTA,in terms of aims,elements and features.The results show that three metadata practice present different features and elements,but they are all usercentered.Finally some suggestions are put forward for designing metadata for scientific data repositories in China,including considering the functions and aims,adopting the current metadata schemas and evaluating the metadata in a user-centered approach.

        scientific data repository;metadata design;DataCite;GBIF;DataStaR;OTA

        G250.74

        A

        10.11968/tsygb.1003-6938.2015021

        胡芳(1984-),女,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心博士研究生,首都師范大學(xué)圖書館館員。

        2015-01-27;責(zé)任編輯:魏志鵬

        猜你喜歡
        科學(xué)方案用戶
        爛臉了急救方案
        好日子(2022年3期)2022-06-01 06:22:30
        科學(xué)大爆炸
        定邊:一份群眾滿意的“脫貧答卷” 一種提供借鑒的“扶貧方案”
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        科學(xué)
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        科學(xué)拔牙
        如何獲取一億海外用戶
        穩(wěn)中取勝
        国产成人一区二区三区影院免费| 日韩精品真人荷官无码| 亚洲精品无码国产| 暖暖免费 高清 日本社区在线观看| 国产免费无码9191精品| 国产在线观看一区二区三区av| 亚洲av无码一区东京热久久| 国产精品久久国产三级国不卡顿 | 人妻少妇看a偷人无码| 色一情一乱一乱一区99av| 中字无码av电影在线观看网站| 丝袜美腿一区二区在线观看| 在线观看国产视频你懂得| 国产日产欧洲系列| 国产美女网站视频| 中文字幕一区二区三区在线乱码| 亚洲男人综合久久综合天堂| 国产精品激情| 伊人22综合| 亚洲国产精品美女久久久| 97精品人妻一区二区三区在线| 国产精品 亚洲 无码 在线| 亚洲一区二区三区国产精华液| 亚洲一区二区三区在线中文| 视频一区二区三区黄色| 精品999日本久久久影院| 91av视频在线| 日韩一区二区中文字幕| 久久久久成人精品免费播放动漫| 中文字幕精品久久久久人妻| 日本加勒比东京热日韩| 国产又大大紧一区二区三区| 男人和女人做爽爽视频| 乱子真实露脸刺激对白 | 精品蜜桃av免费观看| 午夜三级a三级三点在线观看| 高潮毛片无遮挡高清免费| 亚洲一区丝袜美腿在线观看| 久久99天堂av亚洲av| 亚洲色无码国产精品网站可下载| 欧美刺激午夜性久久久久久久|