亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國外科學數據監(jiān)護平臺調研分析*

        2019-05-16 01:51:18湯子鈺歐石燕
        數字圖書館論壇 2019年4期
        關鍵詞:數據管理生命周期監(jiān)護

        湯子鈺 歐石燕

        (南京大學信息管理學院,南京 210023)

        在e-Science和大數據環(huán)境下,數據密集型科學研究正在成為當代科學研究的主流范式,科研活動逐步轉向以科學數據為中心,但同時面臨著數據量大、數據類型繁多、數據價值密度低等諸多困難。數據監(jiān)護將數據管理由靜態(tài)、消極的保存上升到動態(tài)、積極的監(jiān)護,極大地提升了數據的應用價值,受到學術界、企業(yè)界和政府等各方面的廣泛關注,國外相繼涌現了大批數據監(jiān)護平臺。數據監(jiān)護平臺是為數據監(jiān)護服務提供載體的基礎設施平臺,是數據監(jiān)護由理論走向實踐的重要支撐。本文對國外代表性數據監(jiān)護平臺的技術規(guī)范、組件、軟件工具、功能等各方面進行全面調研、分析和比較,旨在為我國數據監(jiān)護平臺的開發(fā)與建設提供參考。

        1 數據監(jiān)護概述

        數據監(jiān)護萌生于20世紀90年代中期的數字資源長期保存研究與實踐。隨著研究的深入,研究者們的關注重點從確保數據的完整、真實逐步轉變?yōu)閷底仲Y源的積極利用[1]。2001年,數字保存聯盟(Digital Preservation Coalition)與英國國家空間中心(British National Space Centre)在倫敦聯合舉辦了“Digital Curation:Digital Archives,Libraries and e-Science Seminar”國際研討會,首次提出數字監(jiān)護(Digital Curation)和數據監(jiān)護(Data Curation)概念[2]。這兩個概念雖然前者多用于人文社科領域,后者多用于自然科學領域[3-4],但并沒有本質區(qū)別,都是指主動管理處于生命周期中的科學數據,從而促進數字資源共享的活動[5],在很大程度上可以互用。因此,在本文中我們統(tǒng)一使用數據監(jiān)護一詞。

        數據監(jiān)護與原有的數據保存(Data Preservation)和數據存檔(Data Archiving)這兩個概念既有區(qū)別又有聯系。英國數字數據監(jiān)護任務組(Digital Data Curation Taskforce)認為,數據保存是數據存檔的一個方面,而數據存檔則是數據監(jiān)護的基礎和前提[6];英國數字監(jiān)護中心(Digital Curation Center,DCC)認為,與數據保存相比,數據監(jiān)護在確保數據長期可用的同時,能夠為數據創(chuàng)建者和用戶帶來即時價值[7];英國聯合信息系統(tǒng)委員會(Joint Information Systems Committee,JISC)認為,數據監(jiān)護活動包含了數據存檔和數據保存,存檔和保存只是數據監(jiān)護多種活動中的一部分,更為重要的是數據監(jiān)護對數據進行增值活動以生成新的信息和知識[8];國內學者楊鶴林[9]認為,數據存檔從內容層面保證數據的再利用,而數據保存從數據監(jiān)護的技術層面確保數據的長期可用性;張智雄等[10]認為,數據保存是消極被動的,而數據監(jiān)護則是一項積極主動的活動。綜合上述觀點可以看出,數據監(jiān)護更強調數據的生命周期管理,是貫穿數據整個生命周期過程的持續(xù)性數據管理活動,目標是數據的價值增值,因此在數據管理活動中具有更積極的意義[11]。

        數據監(jiān)護的實施離不開數據監(jiān)護平臺的支撐。目前,有關數據監(jiān)護平臺的研究在歐美國家相對成熟和系統(tǒng),理論與實踐結合緊密。理論研究主要集中在數據管理、數據生命周期模型、平臺基礎設施和平臺架構4個方面。如Bishoff等[12]選取并分析了182個數據管理規(guī)劃的具體內容,得出數據管理規(guī)劃能夠提高數據服務質量的結論;Pej?a等[13]以地震工程學數據監(jiān)護平臺NEES為例,構建了適合地震工程學領域的數據模型;Kerrien等[14]從數據監(jiān)護政策、數據類型、數據描述、項目合作、平臺界面等方面,剖析了IntAct平臺框架。在實踐方面,國外數據監(jiān)護平臺實例眾多、發(fā)展成熟,如美國的考古學平臺tDAR[15]、英國的海洋學平臺MEDIN[16]、澳大利亞的綜合性數據監(jiān)護平臺ANDS[17]等。

        相較國外,我國針對數據監(jiān)護平臺的相關研究多數停留在理論層面,主要包括數據生命周期模型、數字資源倉儲系統(tǒng)和國外代表性數據監(jiān)護平臺調研等方面。如殷沈琴等[18]對DSpace、Fedora、Dataverse 3款數字資源倉儲系統(tǒng)進行分析,評估各軟件的基本功能、高級功能、使用的元數據規(guī)范和在線分析功能;楊鶴林[19]分析了康奈爾大學DataStaR平臺的運作模型,提出我國數據監(jiān)護平臺的構建應學習DataStaR的創(chuàng)新模式,以提高數據服務質量。實踐方面,國內雖然也開發(fā)構建了一些數據監(jiān)護平臺,但數量較少,僅有北京大學開放研究數據平臺、復旦大學社會科學數據平臺、中山大學社會科學調查中心、中國科學院數據云等,且主要依賴于國外數字資源倉儲系統(tǒng)(如哈佛大學的Dataverse[20]、MIT和HP實驗室的DSpace[21])進行支撐。

        總體來看,國內數據監(jiān)護平臺在理論研究和實踐研究方面都與國外存在較大差距。因此,國內平臺的開發(fā)與構建亟需學習國外較為成熟的理論與實踐經驗。

        2 數據監(jiān)護平臺調研

        為保證調研樣本的代表性和調研結果的可靠性,我們根據領域覆蓋面廣、學科多樣性強、平臺詳細技術信息可獲得、數據存儲量大的原則,本文選取了20個有代表性數據監(jiān)護平臺,分別來自英國、美國、澳大利亞、歐盟等國家或組織,涵蓋人文社會科學、地球科學、物理科學、生物醫(yī)學等學科領域。這些平臺或是全球性的服務平臺,抑或是所在國家或領域比較權威的數據監(jiān)護平臺,具有知名度高、用戶界面友好、服務功能完善、管理制度和構建技術成熟等特點。表1列舉了所調研的數據監(jiān)護平臺的基本信息。

        2.1 數據生命周期模型

        數據監(jiān)護平臺與傳統(tǒng)數據存儲系統(tǒng)的最大區(qū)別在于,數據監(jiān)護平臺對數據整個生命周期的各個階段都進行管理,從而保持數據的長期可用與價值增值;而傳統(tǒng)數據存儲系統(tǒng)主要是以數據檢索與發(fā)現為目的,對數據進行簡單描述和一次性靜態(tài)存儲,很少或根本不提供數據處理、數據分析等數據增值功能。

        數據生命周期模型是規(guī)劃監(jiān)護活動并抽象描述數據監(jiān)護活動各個階段的概念框架[22]。數據生命周期模型提供了在項目或機構中組織數據管理相關任務和活動的結構。不同組織機構根據需要提出不同的數據生命周期模型,從不同角度描述了數據從產生、收集、描述、存儲、發(fā)現、分析到再利用的整個生命周期。本文調研的20個平臺中,80%的平臺都是基于數據生命周期模型進行數據管理,主要采用的模型有4個,具體介紹如表2所示。

        (1)DCC生命周期模型。該模型由英國數據監(jiān)護中心于2008年提出[23],用于規(guī)劃特定研究項目、組織或聯盟內的數據管理活動,以確保按照正確的順序管理科研資源[24]。DCC模型將數據生命周期劃分為6個主要階段:概念化,創(chuàng)建和接收數據,評測和選擇數據,長期保存和存儲,訪問、使用和重用,以及轉換[25]。

        (2)OAIS(Open Archival Information System)模型。該模型是由美國國家航空航天局(NASA)和美國空間數據系統(tǒng)咨詢委員會(CCSDS)于1999年聯合制定的標準[26],其目的在于規(guī)范數字資源長期保存的概念和模型[27],包括功能模型、信息模型和互操作模型[28]。其中,功能模型涵蓋數據收集、歸檔存儲、數據管理、管理、保存規(guī)劃、訪問6個實體;信息模型用于解釋數字保存系統(tǒng)中信息對象的結構和種類。三者共同作用,描述整個數據管理過程中不同信息對象的內容和結構[29]。

        (3)DDI(Data Documentation Initiative)生命周期模型。該模型由數據文獻計劃聯盟構建,是一個以社會科學數據為服務對象的線性模型。它將數據生命周期劃分為概念研究、數據采集、數據處理、數據存檔、數據發(fā)布、數據發(fā)現、數據分析和數據重用8個階段[30],旨在對整個生命周期中的科學數據進行管理和監(jiān)護。

        表1 調研的數據監(jiān)護平臺基本信息

        續(xù)表

        (4)UKDA(UK Data Archive)生命周期模型。該模型由英國數據檔案組織構建,旨在保存高質量的研究數據以供分析和再利用[31]。UKDA模型將數據生命周期劃分為6個階段:數據創(chuàng)建、數據加工、數據分析、數據保存、數據訪問和數據再利用[32]。

        根據上述調研可以看出,DCC模型、OAIS模型、DDI模型和UKDA模型雖然在具體結構和細節(jié)上有所區(qū)別,但有關數據生命周期階段的劃分是有相通之處的。4個模型定義的數據生命周期大致包括數據管理規(guī)劃、數據采集、數據處理、數據保存、數據訪問、數據分析與利用這6個階段。因此,本文以科學數據的生命周期管理為切入點,對數據監(jiān)護平臺在數據生命周期各個階段采用的協議規(guī)范、技術實現方式,以及提供的功能等方面進行調研分析。

        表2 數據生命周期模型基本信息

        2.2 數據管理規(guī)劃

        為保證科研項目的順利進行和科學數據的可追溯、可重用,越來越多的基金會和其他研究資助者要求無論是在投標準備階段還是資金獲得后,科研人員和團隊都應明確如何對科學數據進行收集、處理和生成。數據管理規(guī)劃,是概要介紹科研項目進行中以及結束后科學數據將如何被有效處理的正式文檔[33]。數據管理規(guī)劃制定于科學數據生命周期管理的起始階段(即在科學數據產生前),但它不是固定不變的,通常在項目的生命周期中被不斷充實和細化完善[34]。數據管理規(guī)劃對開展數據監(jiān)護工作具有指導和驅動意義。

        為滿足科學數據管理的“FAIR”原則[35],即可尋找(findable)、可訪問(accessible)、可交互(interoperable)、可再用(re-usable),英國數據監(jiān)護中心提出數據管理規(guī)劃應包含5項信息,分別是數據創(chuàng)建規(guī)范、數據組織管理的標準、道德規(guī)范和知識產權問題、數據共享和訪問計劃,以及長期保存策略[36]。

        基金組織為數據監(jiān)護平臺開展或支持的科研活動提供資助,科研人員或團隊為獲得贊助,必須保證科研產出的質量滿足相應的要求。不同的基金組織對數據管理規(guī)劃的要求不一樣,如表3所示。本文調研的6個基金組織均要求在數據管理規(guī)劃中明確數據創(chuàng)建規(guī)范,部分基金組織未對道德規(guī)范與知識產權、數據歸檔和保存的相關內容做要求。數據管理規(guī)劃一方面能夠幫助研究人員明確資助者的具體要求,同時也為數據生命周期不同階段的管控提供明確的指導,保證科研項目的產出質量。

        表3 不同基金組織對數據管理規(guī)劃內容的整體要求

        2.3 數據采集

        數據采集是數據生命活動的起點,在該階段,數據監(jiān)護平臺為采集到的數據集提供元數據描述,為后續(xù)的數據管理和利用提供基礎[37]。元數據在科學數據的組織、存儲、檢索、引用、共享等生命周期的各個環(huán)節(jié)都起到至關重要的作用。在不同的學科領域,根據其數據特點,通常使用不同的元數據規(guī)范。如ABCD(Access to Biological Collections Data)元數據規(guī)范主要用于描述活生物體標本等初級生物多樣性數據[38];DIF(Directory Interchange Format)規(guī)范用于描述地球科學領域的相關項目中,數據捕獲儀器、數據時間和空間特性等元素;CIF(Crystallographic Information Framework)是物理科學領域主要用于描述晶體結構測定的數據。本研究所調研的20個數據監(jiān)護平臺涉及不同的學科,主要使用11種元數據規(guī)范,如表4所示。

        在所調研的20個數據監(jiān)護平臺中,應用最廣泛的是DC元數據規(guī)范,有7個平臺使用,占比35%;其次是DDI規(guī)范,有3個平臺使用,占比15%。DC屬于通用元數據規(guī)范,可擴展性強,廣泛用于各學科領域[45];而DDI是DC的延伸與擴展,在人文社會科學領域應用廣泛[46]。Darwin Core與DDI一脈相承,是DC元數據在生物學領域的擴展。FGDC/CSDGM由美國聯邦地理數據委員會(Federal Geographic Data Committee,FGDC)頒布,是最廣泛描述地理空間數據的標準。除此之外,為滿足部分學科數據描述的特殊要求,很多數據監(jiān)護平臺融合采用多種規(guī)范或自行定義合適的元數據框架。譬如,除Darwin Core外,GBIF為描述紙質地圖等非數字資源采用了EML規(guī)范;蛋白質數據銀行開發(fā)了PDBx/mmCIF規(guī)范,用于準確描述蛋白質、核酸3D結構信息和大分子晶體信息。這些方式有利于提高元數據標準針對性,快速滿足科研項目實踐的需求。

        除學科因素外,科學數據所處的生命周期階段也會影響到元數據規(guī)范的選擇。在不同階段,通常選擇全部用蛋白質數據銀行不同的元數據規(guī)范描述數據以達到不同的目的。如美國普渡大學研究資料庫(PURR)為兼顧數據描述、發(fā)現、可追蹤和保存等各個階段的數據管理需求,將幾個元數據標準整合到一起,形成一整套PURR的元數據解決方案[47]。在數據創(chuàng)建階段,METS(Metadata Encoding and Transmission Standard)標準表示數據集文件的結構和層次;在數據保存階段,MODS描述了數據集的訪問權限,PREMIS(Preservation Metadata Implementation Strategies)標準記錄每個數據集經歷的保存事件;在數據利用階段,采用DC元數據以支持數據的檢索和發(fā)現[48]。

        為幫助科研人員準確描述資源信息,數據監(jiān)護平臺通過發(fā)布指導性文件和要求用戶提交表格或制定元數據管理工具等方式提供元數據創(chuàng)建服務。ICPSR平臺發(fā)布文檔《元數據創(chuàng)建最佳實踐》(Best Practice in Creating Metadata),推薦科研用戶使用DDI標準來創(chuàng)建元數據,還補充設置了資金來源、項目描述、數據加權等十多個元數據項目;DataShare在《儲戶用戶指南》(Edinburgh Datashare:Depositor'sUser Guide)中描述了提供元數據的具體步驟,包括數據項名稱、創(chuàng)建者信息、數據類型、項目基金等。Dyrad和Dataverse Network平臺通過用戶提交表格的形式創(chuàng)建元數據。Dyrad要求數據創(chuàng)建者上傳短視頻,闡述表格內容的填寫原因和過程;Dataverse Network結合元數據標準體系和用戶需求,設置下拉菜單為用戶提供準確的選擇。目前,應用較為廣泛的元數據創(chuàng)建工具包括英國數據監(jiān)護中心制定的DMPtools、美國聯邦地理數據委員會提供的地理空間科學元數據編輯器EME(EPA Metadata Editor)等。

        表4 數據監(jiān)護平臺中使用的科學數據集元數據規(guī)范[39]

        2.4 數據處理

        在數據處理階段,數據監(jiān)護平臺主要負責數據審核和格式管理的工作。

        數據審核主要是指通過審核數據價值、元數據、數據格式等來保障科研數據的質量、可獲得性和兼容性。UKDA平臺在從數據的攝入到保存、再到數據發(fā)布過程中提供格式轉換和轉化質量檢查的功能[49];ICPSR平臺對科研項目是否處于核心研究領域、是否優(yōu)化現有工具、科研數據定量或定性等方面都有評估要求。格式管理是指轉化并規(guī)范科學數據格式。有的監(jiān)護平臺還支持將存儲的數據轉換為更加易讀的格式供用戶下載。

        調研發(fā)現,數據監(jiān)護平臺對數據上傳格式的要求通常有3種,分別是上傳格式無限制、上傳指定格式的數據和上傳格式符合特定標準。上傳格式無限制的數據監(jiān)護平臺通常提供格式轉換工具,能夠對上傳的數據進行處理,將其轉換為平臺支持的存儲格式。如OCTOPUS是SeaDataNet平臺提供的一種多重樣式檢測、轉化和拆分工具,它將給定SeaDataNet格式的文件轉換為另一種SeaDataNet格式。SeaDataNet平臺還提供NEMO工具,可以將數據在ASCII和自有格式ODV4之間相互轉化。上傳指定格式的數據是指數據監(jiān)護平臺只支持規(guī)定格式數據的上傳。如GBIF平臺只支持上傳文本、關系型數據表和XML格式的數據[50];有的數據監(jiān)護平臺雖然沒有規(guī)定上傳數據的具體格式,但是要求數據格式必須要滿足特定標準,如Protein Data Bank平臺規(guī)定上傳數據需符合PDBx/mmCIF標準[51-52]。

        大部分數據監(jiān)護平臺的數據存儲格式和下載格式基本相同,主要為文本、圖像、關系型數據表等格式,且經過數據處理和格式轉換流程之后,比數據最初的上傳格式更加規(guī)范。為了滿足管理特定類型數據的需求且達到資源共享的目的,有些數據監(jiān)護平臺支持視頻、音頻、關系型數據庫、元數據(XML、RDF)、程序代碼、GIS等小眾格式。如ADS平臺能夠通過VR(Virtual Reality)格式存儲考古文物的信息,通過GIS格式定位考察地點;tDAR平臺還支持遙感和3D掃描格式的數據;有些數據平臺則要求按照ASCII、netCDF、HDF等標準存儲數據。

        2.5 數據保存

        在數據保存階段,數據監(jiān)護平臺的工作主要涉及數據資源的永久性標識和數據倉儲軟件。

        永久標識符是對數字資源進行唯一標識的工具,在數字資源的可獲得性和重復利用方面發(fā)揮重要作用。目前,具有代表性的數字資源標識符有數字對象標識符(Digital Object Identifier,DOI)、永久統(tǒng)一資源定位符(Persistent Uniform Resource Locators,PURL)和句柄系統(tǒng)(Handle System)3種。在所調研的20個數據監(jiān)護平臺中,15個平臺采用DOI標識符,5個平臺采用PURL標識符,僅有Dataverse Network平臺同時采用了DOI標識符和句柄系統(tǒng)。PURL基于標準的Web資源地址URL,具有易推廣的優(yōu)勢;而DOI則具有較強的兼容性和語義互操作性,管理機制發(fā)展完善,解析系統(tǒng)也較為成熟,同時不斷推出CrossRef Search等增值服務[53]。目前,DOI在數字資源標識中的應用最為廣泛。除這3種通用的數字資源標識符,數據監(jiān)護平臺在積極探求更好的數據標引方式。如Dataverse Network平臺提供的數據引用功能,在永久性標識符的基礎上附加了基于每項數據集內容的通用數字指紋,以應對數字資源格式變化帶來的問題。

        數字資源倉儲系統(tǒng)是構建數據監(jiān)護平臺的基礎,負責對數據監(jiān)護平臺中的數據進行倉儲管理。主流的倉儲系統(tǒng)有Fedora、Eprints和Dataverse 3款,皆為免費開源軟件。在所調研的20個數據監(jiān)護平臺中,絕大部分平臺都采用自主研發(fā)軟件,因為定制軟件能提供具有針對性的數據服務并具有專業(yè)化的管理能力。如BODC平臺利用Linux、Microsoft Access、C++、Oracle SQL等自行開發(fā)倉儲平臺。僅有4個平臺選擇了開源軟件,其中ADS和FishNet平臺采用Fedora軟件,Dataverse Network平臺采用Dataverse軟件,UKDA平臺采用Eprints系統(tǒng)來管理機構的數據資源。采用免費開源軟件的優(yōu)勢是簡單易行,對數據機構的經費需求和技術要求都比較低。

        2.6 數據訪問

        數據監(jiān)護平臺的一個重要功能是提供對所有存儲的數據集的檢索與訪問,為實現跨平臺檢索與訪問,數據監(jiān)護平臺往往通過數字資源互操作協議來實現不同平臺間的互操作。

        數字資源互操作協議是為了實現不同機構與系統(tǒng)之間數字資源共享所制定的協議標準,為數據監(jiān)護平臺之間的互操作提供了支持。目前,具有代表性的數字資源互操作協議有Z39.50和OAI-PMH協議兩種。在所調研的20個數據監(jiān)護平臺中,19個平臺遵循OAI-PMH協議,僅有ADS平臺同時遵循OAI-PMH和Z39.50兩種協議。由此可見,OAI-PMH協議在數據監(jiān)護平臺中的應用遠超Z39.50協議,其原因是:一方面,Z39.50起源于圖書館界,主要應用于書目數據共享領域,雖然具有豐富的語義和強大的數據處理功能,但是結構復雜、數據處理效率低,不適于描述數字資源;而OAIPMH協議起源于數字出版界,用于電子文檔共享,基于跨學科的DC元數據規(guī)范,更加靈活通用[54];另一方面,2001年美國數字圖書館聯盟(Digital Library Federation)實施了采用OAI-PMH協議的通用網關計劃,并獲得美國安德魯·梅隆基金會的大量經費支持,從而促進了該協議在美國和歐洲的推廣。目前看來,OAI-PMH協議正獲得越來越廣泛的應用,同時圖書館領域也在開發(fā)基于XML編碼規(guī)則的新一帶代Z39.50協議Zing(Z39.50 International:Next Generation),以期拓寬其適用范圍。

        數據監(jiān)護平臺檢索項的設置關系到利用數據資源時的查全率和查準率。在20個數據監(jiān)護平臺中有6個平臺只提供一個通用的文本檢索框,不區(qū)分檢索內容的類型。我們一共總結出14個數字資源檢索項,其中10個是單一檢索項,4個是復合檢索項。20個調研平臺中,各檢索項的出現頻次如圖1所示。其中,70%提供標題和人物檢索項,近50%提供關鍵詞和時間檢索項,部分平臺還提供機構/國家、描述/摘要/注釋、主題、數據類型、全文、來源、地點、數據庫/數據集合、項目、儀器/設備等檢索項。

        圖1 數據監(jiān)護平臺檢索項的頻次統(tǒng)計

        2.7 數據分析與利用

        數據分析是數據監(jiān)護平臺實現數據價值增值的重要手段。在調研的20個平臺中,主流的數據分析軟件包括Nesstar、SDA和Dataverse。Nesstar統(tǒng)計功能較簡單,易用性強,能夠處理調查數據、列聯表及文本資源,對數據進行統(tǒng)計描述、列聯表、相關分析和回歸分析,數據結果能夠以表格、直方圖、條形圖等方式展示。SDA是一款功能全面、統(tǒng)計專業(yè)性強的在線分析軟件,主要包括頻數與交互列表、均值比較、相關矩陣、相關性檢驗、多元回歸、Logit/Probit回歸等分析功能,結果以表格、直方圖、條形圖等形式展現。Dataverse的在線分析功能提供描述性分析和高級統(tǒng)計分析,科研人員在瀏覽器窗口即可進行分析工作,無須下載整個數據。Dataverse還提供數據格式自動轉化功能,將數據資源轉化為.tab格式再進行分析處理,分析結果顯示為各類圖表、時間序列分析、GraphML等。

        除上述3種通用的數據分析工具外,數據監(jiān)護平臺根據學科屬性和科研項目需求,提供特定的數據分析工具。譬如,SeaDataNet平臺采用開源的ODV(Ocean Data View)軟件包作為數據分析和可視化軟件。ODV具有非常豐富的交互功能,提供海洋學和其他地理參考剖面或序列數據的交互式探索,并且支持各種各樣的繪圖類型;CCDC平臺開發(fā)了Python的API接口,允許用戶直接導入數據,并通過Python強大的工具進行數據分析;UKCCSRC平臺服務于地球科學領域的科研項目,不僅采用Nesstar,還開發(fā)了GIS地理可視化服務。數據監(jiān)護平臺定制數據分析工具,學科和項目針對性更強,處理數據更加高效可行。

        3 數據監(jiān)護平臺框架

        基于對20個數據監(jiān)護平臺各組件及其支撐技術與規(guī)范協議的調研結果,我們提出一個整體的數據監(jiān)護平臺框架,如圖2所示。該框架以科學數據的生命周期為切入點,圍繞數據管理規(guī)劃、數據采集、數據處理、數據保存、數據訪問、數據分析與利用6個核心階段,設計數據監(jiān)護平臺的各項功能及其相應的支撐組件。

        圖2 數據監(jiān)護平臺框架

        數據管理規(guī)劃是數據監(jiān)護平臺特有的階段之一,對管理整個生命周期中的數據起到綱領性作用。通過制定數據管理規(guī)劃,研究人員一方面能夠明確外部政策,即資助者的具體要求;另一方面也滿足了科研需要,為數據生命周期不同階段的管控提供指導。

        在數據采集階段,數據監(jiān)護平臺提供數據創(chuàng)建和數據發(fā)布兩項基本功能。在數據創(chuàng)建時可根據所屬學科選擇合適的元數據規(guī)范來描述數據。創(chuàng)建元數據時不僅要考慮學科背景,還要結合科研項目的特殊要求以及科學數據所處的生命周期等因素,制定元數據管理工具;與此同時,可以通過發(fā)布指導性文件、要求用戶提交表格或制定元數據管理工具等方式指導用戶進行操作。相應的,數據監(jiān)護平臺應配備有元數據創(chuàng)建工具、數據發(fā)布軟件等基礎設施以支撐這兩項功能的實現。

        在數據處理階段,數據監(jiān)護平臺應提供數據審核和數據格式轉換的工具。數據審核是指對數據內容和格式、數據集大小、元數據質量等方面的評估。數據格式轉換工具應用于科學數據生命周期的多個階段,從數據上傳到數據存儲,再從數據保存到數據瀏覽和下載。在數據上傳過程中,如果對用戶上傳的數據無格式要求,則平臺應在數據處理階段對資源進行格式轉換;如果平臺在用戶上傳數據時就做出要求,如上傳指定格式的數據,則數據格式轉換工具不是必需的。

        在數據保存階段,數據監(jiān)護平臺的主要工作是對科學數據進行標引和構建數據倉儲系統(tǒng)。數字資源永久性標識符保證了科研數據的長期可獲得、可應用,目前主流的標識符包括DOI、PURL和句柄系統(tǒng),數據監(jiān)護平臺也在積極探求更好的數據標引方式,以應對數字對象格式或內容的變化。數字資源倉儲系統(tǒng)對科研數據進行倉儲管理,是構建數據監(jiān)護平臺的基礎。主流的免費開源軟件簡單易行,包括Fedora、Eprints和Dataverse等,但大部分平臺選擇采用自主研發(fā)軟件,能提供更具有針對性和專業(yè)性的數據服務。相應的,數據監(jiān)護平臺應配備數據庫管理工具、數據備份工具、數據倉儲軟件等基礎設施以支撐這兩項功能的實現。

        在數據訪問階段,數據監(jiān)護平臺的主要工作是提供數據檢索和數據互操作。目前具有代表性的數字資源互操作協議有Z39.50和OAI-PMH協議兩種,其中OAI-PMH協議起源于數字出版界且基于跨學科的DC元數據規(guī)范,更加靈活通用。數據監(jiān)護平臺檢索項的設置關系到利用數據資源時的查全率和查準率。通過調研發(fā)現,數據監(jiān)護平臺的數據集檢索項可分為3類,即基本檢索項、推薦檢索項和參考檢索項?;緳z索項包括標題和人物2項,是必須提供的檢索內容項;推薦檢索項包括關鍵詞、時間、機構/國家、描述/摘要/注釋、主題、數據類型、全文7項,是科學數據集的通用屬性,但是區(qū)分度不夠高,因此筆者推薦數據監(jiān)護平臺提供這些檢索項,但是不做必須要求;參考檢索項包括來源、地點、數據庫/數據集合、項目、儀器/設備5項,屬于科學數據集的非通用屬性,只針對某些學科領域的部分科學數據,特定領域的數據監(jiān)護平臺可參照執(zhí)行。

        數據分析與利用主要提供數據的價值增值,是數據生命周期的核心階段之一。目前主流的數據分析軟件包括Nesstar、Dataverse和SDA。部分數據監(jiān)護平臺也會根據學科屬性和科研項目需求,開發(fā)特定的數據分析工具。

        4 結論

        本文首先界定了數據監(jiān)護和數據監(jiān)護平臺的相關概念,然后以數據生命周期為切入點,調研分析了國外20個有代表性的數據監(jiān)護平臺,得出如下結論。

        目前國內外有關數據監(jiān)護平臺的研究差距較大。歐美國家開展數據監(jiān)護工作較早,理論與實踐結合緊密;國內關于數據監(jiān)護平臺的理論與實踐研究尚處于起步階段,主要停留在數據生命周期模型、數字資源倉儲系統(tǒng)和國外代表性數據監(jiān)護平臺調研等方面。因此,主動學習國外成熟平臺的構建和管理經驗,對我國數據監(jiān)護平臺的發(fā)展具有重要價值。

        目前,數據監(jiān)護平臺建設仍面臨一些問題和挑戰(zhàn)。數據管理規(guī)劃的內容和結構尚未形成統(tǒng)一規(guī)范,數據評估審核工作尚未完全落實;由于學科、領域、科研項目等多方面原因,數據監(jiān)護平臺的元數據規(guī)范、永久性資源標識符、互操作協議等尚未達成一致標準,嚴重影響跨學科、跨平臺的數據互操作;特殊格式的數字資源缺乏完善的存儲機制;目前,數據管理工具開發(fā)尚未成熟,元數據無法自動抽取、數據無法自存檔等問題也為科研工作的開展帶來了不便。統(tǒng)一數據監(jiān)護工作的相關標準,同時完善數據管理工具,才能保證數據監(jiān)護平臺更好地為科研人員提供服務,發(fā)揮科學數據更大的科研和社會價值。

        猜你喜歡
        數據管理生命周期監(jiān)護
        動物的生命周期
        全生命周期下呼吸機質量控制
        企業(yè)級BOM數據管理概要
        定制化汽車制造的數據管理分析
        海洋環(huán)境數據管理優(yōu)化與實踐
        護娃成長盡責監(jiān)護 有法相伴安全為重
        CTCS-2級報文數據管理需求分析和實現
        從生命周期視角看并購保險
        中國外匯(2019年13期)2019-10-10 03:37:46
        民用飛機全生命周期KPI的研究與應用
        我國成年監(jiān)護制度之探討與展望
        日本大乳高潮视频在线观看| 日本一级二级三级在线| 久久亚洲网站中文字幕| (无码视频)在线观看| 天堂影院一区二区三区四区| 欧美韩国精品另类综合| 成人av一区二区亚洲精| 国产精品天天看天天狠| 无码成人aaaaa毛片| 欧洲一区在线观看| 一区二区三区在线日本视频| 亚洲s色大片在线观看| 亚洲av成人无码久久精品 | 最新亚洲人成网站在线观看| 国产成人精品午夜福利在线| 免费无码肉片在线观看| 九月色婷婷免费| 日本视频一区二区三区观看| 国产精品美女久久久久av超清| 亚洲av无码专区亚洲av| 国产美女胸大一区二区三区| 国产亚洲精品av一区| 在线看片免费人成视频久网下载| 国产一级毛片卡| 国产av大片久久中文字幕| 国产无遮挡aaa片爽爽| 最新亚洲精品国偷自产在线| 国产女人体一区二区三区| 男性av天堂一区二区| 国产激情视频一区二区三区| 国产又色又爽又刺激视频| 日本高清一区在线你懂得| 精品久久久久久无码专区| 久久久精品波多野结衣| 日本精品一区二区在线看| 日本高清一道本一区二区| 狠狠色噜噜狠狠狠狠7777米奇| 色爱无码A V 综合区| 快射视频网站在线观看| 精品国产一区二区三区av性色| 国产成人久久精品二区三区牛|