摘 要:文章通過對Data One項目完善的基礎架構、強大的工具包、高效的組織架構和分工明確的工作小組的分析與研究,總結出了實施數(shù)據(jù)監(jiān)管的關鍵流程:構建數(shù)據(jù)監(jiān)管基礎架構、制定數(shù)據(jù)管理計劃、選擇元數(shù)據(jù)標準、規(guī)范與統(tǒng)一數(shù)據(jù)、數(shù)據(jù)存儲與歸檔,最后借鑒國外諸多的研究對國內的數(shù)據(jù)監(jiān)管服務提出了相應的推進策略。
關鍵詞:數(shù)據(jù)監(jiān)管 Data One 科研數(shù)據(jù)
中圖分類號: G202 "文獻標識碼: A " 文章編號: 1003-6938(2014)06-0109-08
Revelation of Data One Project for Data Curation in China
Abstract Through the analysis on the perfect Infrastructure, the powerful toolkit, the efficient organization, and the clear division of the working group of Data One project, the authors summarize a set of key processes for data curation: building the infrastructure for data curation,making the data management plan,selecting the standards for metadata, standardizing and unifying data, "storing and archiving data. Promoting strategies for data curation service are put forward according to the studies abroad.
Key words data curation; data one; research data
對科學數(shù)據(jù)的收集、整理、評估、存儲工作既是科學數(shù)據(jù)再利用和共享的基礎,也是數(shù)據(jù)監(jiān)管工作的重點關注所在。在各類科研數(shù)據(jù)監(jiān)管項目中,Data One(Data Observation Network for Earth,地球觀測數(shù)據(jù)網(wǎng))項目備受矚目,其作為DataNets項目的一部分,得到了美國國家科學基金會(NSF)的資助。Data One項目的目標是廣泛收集、存儲地球和環(huán)境有關的數(shù)據(jù),在為眾多科研人員了解、接受、使用的基礎上,普及地球和環(huán)境數(shù)據(jù),創(chuàng)造新的科學和知識。本文在了解Data One項目基礎架構、工具包、組織架構和工作小組基礎上,歸納總結了數(shù)據(jù)監(jiān)管的關鍵流程,探討分析了國內數(shù)據(jù)監(jiān)管的推進策略。
1 Data One基礎架構及研究工具包
Data One項目擁有分布式基礎架構(當前有12個成員節(jié)點和3個協(xié)調節(jié)點)和一系列的技術支持,這使得不同國家、不同學科和不同規(guī)模的觀測數(shù)據(jù)均可以被長期存儲、檢索和共享(Data One項目的基礎架構和研究工具包見圖1)。
目前,Data One在全球擁有12個成員節(jié)點,而且這個數(shù)字還會隨著Data One的發(fā)展而進一步增加。成員節(jié)點是以數(shù)據(jù)保存為導向的存儲庫,其通過Data One的服務規(guī)程或者成員節(jié)點API為科研人員提供數(shù)據(jù)產(chǎn)品。在成為成員節(jié)點后,本地存儲的數(shù)據(jù)集容易被更廣泛的受眾發(fā)現(xiàn),也能為更廣泛的分析工具所用,在此基礎上科研人員發(fā)布的數(shù)據(jù)也更容易被引用,進而增加研究工作的價值。Data One也可以通過高效的、定制的方式將本地數(shù)據(jù)集復制到另一個Data One成員節(jié)點上,這樣會增大副本的可獲取性,服務全球社區(qū)的聯(lián)系成本也會降低,數(shù)據(jù)可用性的提高增加了科研人員之間合作的機會。
Data One 當前還建設有3個協(xié)調節(jié)點,分別位于橡樹嶺大學、加州大學圣塔芭芭拉分校和新墨西哥大學,這些協(xié)調節(jié)點提供廣泛的網(wǎng)絡服務,支持發(fā)現(xiàn)、索引、復制以提升成員節(jié)點間的互操作性。協(xié)調節(jié)點通過提供成員節(jié)點的數(shù)據(jù)目錄,使各地的科學家們都能夠很容易地發(fā)現(xiàn)數(shù)據(jù),也使得整個Data One網(wǎng)絡的數(shù)據(jù)和服務更廣泛地被國際社會認可。
Data One研究工具包是一系列軟件工具的集合,用以發(fā)現(xiàn)和使用數(shù)據(jù)。有些工具是直接為Data One定制開發(fā)的,有些工具被改寫以適應Data One的應用程序接口,還有些工具本身提供接口定義可以為Data One所調用,當前的主要研究工具有11種[1],其中包括:
(1)ONEMercury。ONEMercury是一個基于Web的工具,被用來搜索Data One成員節(jié)點中的數(shù)據(jù),是目前Data One項目主要的線上數(shù)據(jù)發(fā)現(xiàn)入口,其基于美國宇航局、美國能源部、美國地質調查局聯(lián)合研發(fā)的Mercury工具集,并進行了改編。ONEMercury采用了復雜的跨度對象標簽,可以將搜索結果加載到文獻管理工具中去,比如Zotero、Mendeley等。
(2)DataUp。DataUp有網(wǎng)絡版和插件版兩種版本,前者允許用戶通過它上傳自己的數(shù)據(jù)表格, Excel 格式或是CSV 格式都是被允許的,后者可以直接安裝到Microsoft Excel 中,兩者都具有發(fā)布元數(shù)據(jù)和數(shù)據(jù)、創(chuàng)建標準化元數(shù)據(jù)向導模板、尋找唯一標示符、數(shù)據(jù)格式化檢測等功能。
(3)DMP。DMP是Data One數(shù)據(jù)管理計劃工具(Data Management Planning Tool)的簡寫,是一款開源軟件,基于此軟件可以很容易地配置目標研究機構和數(shù)據(jù)管理政策信息,進而制定出符合政策要求和實際數(shù)據(jù)情況的管理計劃。科研人員可以利用它制定數(shù)據(jù)管理計劃,機構也能通過該工具為用戶提供數(shù)據(jù)監(jiān)管的政策信息,這有利于促進科研人員、資助機構、圖書館和計算機部門之間的合作[2]。
(4)ONER(Data One R客戶端)。ONER是一款適用于Windows、MAC和Linux等平臺的統(tǒng)計計算和可視化開源軟件,Data One R客戶端能夠從Data One網(wǎng)絡存儲庫中訪問開放的生態(tài)、環(huán)境和地球科學數(shù)據(jù),因為這些數(shù)據(jù)是通過具體的標識符(而不是本地存儲路徑)被獲取的,所以相應R腳本對不同用戶而言是可移植的,這使得R腳本被更加有效地發(fā)行。Data One R 客戶端不僅可以訪問數(shù)據(jù)文件,還能向Data One網(wǎng)絡中的節(jié)點寫入新的數(shù)據(jù)和元數(shù)據(jù)。
(5)Morpho。Morpho是美國KNB(Knowledge Network for Biocomplexity)為生態(tài)元數(shù)據(jù)語言(Ecological Metadata Language,EML)開發(fā)的編輯軟件。Morpho使得生態(tài)學家可以方便地產(chǎn)生符合EML標準的元數(shù)據(jù),并能通過建立元數(shù)據(jù)目錄讓使用者查詢、編輯和觀看已有數(shù)據(jù)或相關資料的描述。該軟件提供了一個容易使用的和跨作業(yè)平臺的應用界面,使用者可以在本機和網(wǎng)絡上獲取和操作元數(shù)據(jù)及原始數(shù)據(jù),其基本操作功能包括產(chǎn)生和編輯元數(shù)據(jù)、搜索和查詢元數(shù)據(jù)集、觀看資料與元數(shù)據(jù)集、校對和編輯資料與元數(shù)據(jù)、存取控制等。
2 Data One項目組織架構和工作小組
Data One項目的成功離不開其合理的基礎架構和強大的功能,更離不開其完善的組織架構和各工作小組的推進(Data One項目組織架構見圖2)。其中,外部咨詢委員會為所有Data One活動提供戰(zhàn)略方向、投入等方面的指導,促進社區(qū)參與,審查相關活動。首席研究員向外部咨詢委員會匯報,負責與資助方NSF保持聯(lián)系,并與其它DataNets項目成員保持協(xié)作關系,監(jiān)督執(zhí)行理事的工作,促進整個Data One領導團隊工作。首席研究員具備戰(zhàn)略領導和協(xié)調交流的雙重角色,其具體的工作包括戰(zhàn)略領導、計劃制定、合作協(xié)調、資金籌集等。領導團隊由各理事和各個機構關鍵領域的代表組成,領導團隊每周都和Data One關鍵成員商談,負責戰(zhàn)略方向(包含日常風險評估)、項目實施、項目合作、協(xié)調資源等方面工作。執(zhí)行理事則對Data One的日常工作負責,監(jiān)管和調整所有的技術、管理、報告和預算問題,執(zhí)行理事也會參與戰(zhàn)略規(guī)劃的制定,指導并跟蹤實施計劃,監(jiān)督運營和開發(fā)理事、社區(qū)參與和推廣理事以及Data One辦公室。執(zhí)行理事需要協(xié)調Data One事業(yè)的各個方面,同時也可以參與到一個或更多的工作小組中去。
此外,運營開發(fā)理事主要監(jiān)管基礎架構的開發(fā)和實施,包括計算機學科方面的研究、基礎架構小組以及研究工作小組的活動,管理各子機構的研發(fā)人員和博士后。社區(qū)參與和推廣理事負責Data One教育和拓展服務活動,組織領導和數(shù)據(jù)管理相關的訓練課程,管理各子機構的社區(qū)參與和推廣員工。在Data One項目中,工作小組模式在執(zhí)行研究、確定基礎設施和參與團體活動中起到非常重要的作用。工作小組使得Data One項目能夠和科學家團體、各類用戶廣泛互動,共同商討研究目標和推廣教育活動,每個工作小組至少有2名共同領導人,他們互為補充,共同組織活動,為特定的研究、教育和基礎設施問題提出解決方案。Data One工作小組會隨著時間的變化而變化,工作小組的一個議題完成后,其需求也會做出改變并被詳細說明,所以工作小組的數(shù)量和關注焦點是隨需所變的(最初的11個工作小組見表1)。
3 實施數(shù)據(jù)監(jiān)管的關鍵流程
Data One項目的最佳實踐是把數(shù)據(jù)監(jiān)管生命周期分成了計劃、收集、保障、描述、保存、發(fā)現(xiàn)、整合、分析8個步驟,其中的保障主要是通過元數(shù)據(jù)和數(shù)據(jù)格式來保障數(shù)據(jù)質量和兼容性,保證數(shù)據(jù)的可獲性以提升數(shù)據(jù)價值?;谇拔膶ata One項目的調研分析,并結合Data One項目數(shù)據(jù)監(jiān)管生命周期的步驟劃分和國外數(shù)據(jù)監(jiān)管的實踐,可以歸納總結出當前實施數(shù)據(jù)監(jiān)管的關鍵流程:構建數(shù)據(jù)監(jiān)管基礎框架、制定數(shù)據(jù)管理計劃、選擇元數(shù)據(jù)標準、規(guī)范與統(tǒng)一數(shù)據(jù)、數(shù)據(jù)存儲與歸檔。其中需要說明兩點:一是構建數(shù)據(jù)監(jiān)管基礎架構的過程其實也是選擇數(shù)據(jù)監(jiān)管基礎平臺的過程,這一流程與制定數(shù)據(jù)管理計劃其實是不可分的,只有需求明確并且切實可行的計劃才是有效的計劃;二是這些關鍵流程中并未涉及數(shù)據(jù)增值(基于數(shù)據(jù)的復用、關聯(lián)、挖掘等)和社區(qū)推廣等活動,這些活動也與Data One項目數(shù)據(jù)監(jiān)管生命周期中的發(fā)現(xiàn)、整合、分析等密切相關,但一方面由于這些活動相關實踐尚處于探索階段,另一方面受限于篇幅原因,所以這些活動并未包含在本文所總結的關鍵流程中。
3.1 構建數(shù)據(jù)監(jiān)管基礎架構
數(shù)據(jù)監(jiān)管的基礎架構有兩層含義,一是組織體系上的基礎架構,另一個是信息技術上的基礎架構,前者為數(shù)據(jù)監(jiān)管工作提供組織和人員保障,后者為數(shù)據(jù)監(jiān)管提供魯棒的、靈活的、高效的技術支撐。作為涉及面很廣的一項工作,數(shù)據(jù)監(jiān)管有著眾多的利益相關方,協(xié)調得好能發(fā)揮合力,協(xié)調不好項目根本無法推進。從Data One的組織架構可以看出,其具有完整的組織體系,合理的治理結構,還有眾多的研究工作小組,其工作推進不僅僅依賴于協(xié)調節(jié)點的那三所大學,還充分發(fā)揮了觀測數(shù)據(jù)提供者、資助機構、研究機構與研究者、數(shù)據(jù)出版商、數(shù)據(jù)集成公司、社區(qū)網(wǎng)絡等所有參與者的能力,形成了“眾人拾柴火焰高”的局面。當然,并不是所有的數(shù)據(jù)監(jiān)管項目都需要協(xié)調眾多利益相關方,牛津大學的EIDCSR項目就采用嵌入機構內部的數(shù)據(jù)監(jiān)管方式。
作為需要較強技術支撐的一項工作,IT基礎設施的建設也十分關鍵,原因有以下三點:
(1)如果自建平臺,那么平臺體系架構是首先需要考慮的。Data One項目采用分布式系統(tǒng)架構,便于處理大數(shù)量級的地球觀測和環(huán)境數(shù)據(jù),成員節(jié)點主要存儲數(shù)據(jù),協(xié)調節(jié)點則提供廣泛的數(shù)據(jù)服務。而美國的Sequoia2000項目則采用了層次架構,整個體系包括通用設備接口、數(shù)據(jù)庫管理系統(tǒng)、文件系統(tǒng)、應用軟件及網(wǎng)絡接口層等,樹嶺Sequoia2000是美國加州大學的計算機科學和地球科學研究人員自建的管理全球變化信息(包括全球變暖、環(huán)境污染、物種、植物分布狀況等)的數(shù)據(jù)管理平臺[3]。
(2)有一些商業(yè)合作建設的數(shù)據(jù)監(jiān)管平臺,比如荷蘭國家圖書館和IBM合作開發(fā)的e-Depot項目,其核心是IBM的數(shù)字信息存檔系統(tǒng)DIAS(Digital Information Archiving System)系統(tǒng),E-Depot主要關注于長期存取荷蘭電子出版物。而在歐洲,Nesstar軟件在社會科學數(shù)據(jù)平臺上有著較大的影響,如英國的數(shù)據(jù)檔案館以及旗下的經(jīng)濟和社會數(shù)據(jù)中心、德國的社會科學基礎服務、荷蘭的數(shù)據(jù)檔案和網(wǎng)絡服務、歐洲社會科學數(shù)據(jù)聯(lián)盟均采用Nesstar[4]。在具體學科領域,NuGenesis專注于生化領域數(shù)據(jù)管理,其針對生化領域的特點,為科研人員提供各項服務和綜合的信息管理技術,如實驗室?guī)齑婀芾?、實驗樣品管理、自動向?shù)據(jù)存儲庫導入實驗數(shù)據(jù)、儀器數(shù)據(jù)和各外部資源數(shù)據(jù)等。
(3)更多的一些平臺采用開源軟件來構建,如美國約翰霍普斯金大學圖書館DataStar項目和康奈爾大學圖書館Conservancy項目采用的Fedora系統(tǒng),劍橋大學機構倉儲項目和武漢大學蝎物種與毒素數(shù)據(jù)管理平臺基于Dspace開發(fā),荷蘭烏德勒支大學圖書館數(shù)據(jù)管理平臺和復旦大學社會科學數(shù)據(jù)平臺采用Dataverse開發(fā)。在平臺建設模式選擇和平臺體系結構構建上,沒有最好,只有適合,數(shù)據(jù)監(jiān)管服務提供方應充分調研科研用戶數(shù)據(jù)訪問、發(fā)布、存儲、檢索、分析、共享需求、產(chǎn)生數(shù)據(jù)的類型、數(shù)據(jù)之間的關系,并在此基礎上充分了解各種方案的優(yōu)劣,在綜合考慮后加以確定。
3.2 制定數(shù)據(jù)管理計劃
數(shù)據(jù)管理計劃是數(shù)據(jù)監(jiān)管的起始,仔細規(guī)劃貫穿數(shù)據(jù)生命周期的數(shù)據(jù)管理無論是對提高數(shù)據(jù)的可用性、確保數(shù)據(jù)保存和可訪問性,還是對數(shù)據(jù)監(jiān)管項目的長遠發(fā)展和未來研究都具有重要意義。首先,越來越多的資助機構都開始強制要求在項目申請時提交數(shù)據(jù)管理計劃,如Data One項目的資助方——美國國家科學基金會(NSF)就要求參加項目的小組提供管理計劃,此外美國國家航空航天局(NASA)、英國生物技術與生物科學研究理事會(BBSRC)、英國研究理事會(RCUK)、維康基金會(Wellcome Trust)、藝術與人文研究委員會(AHRC)等在項目申報時均提出類似要求。數(shù)據(jù)管理計劃可以由數(shù)據(jù)管理人員輔助科研人員或科研團隊獨立完成,也可使用專門的數(shù)據(jù)管理計劃工具生成,Data One項目中就有專門的DMP工具,另外英國數(shù)據(jù)監(jiān)管中心DCC開發(fā)的DMPONLINE也有比較廣泛的應用,利用相關的工具可以制定出符合政策要求和實際科研需要的數(shù)據(jù)管理計劃。
不管是團隊編制,還是工具生成,一般的數(shù)據(jù)管理計劃都應包含預算信息、數(shù)據(jù)類型(如空間數(shù)據(jù)、時間數(shù)據(jù)、儀器生成數(shù)據(jù)、模型數(shù)據(jù)、模擬數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)等,或者是原始數(shù)據(jù)、觀測數(shù)據(jù)、加工數(shù)據(jù)、數(shù)據(jù)產(chǎn)品、環(huán)境數(shù)據(jù)等)、數(shù)據(jù)大小、訪問和安全策略、元數(shù)據(jù)標準、數(shù)據(jù)權限、相關的軟硬件設備等,數(shù)據(jù)管理計劃還會定義項目參與者的角色以及數(shù)據(jù)收集、質量保證、描述、存儲和訪問的工作流。雖然數(shù)據(jù)管理計劃是在項目概念化階段就被創(chuàng)建,但還需在項目生命周期中不斷被審視和更新,所以其是一個動態(tài)性文件,應該被密切追蹤,在數(shù)據(jù)生命周期的各個階段都能提供重要的指導作用。
3.3 選擇元數(shù)據(jù)標準
元數(shù)據(jù)標準選擇也是數(shù)據(jù)監(jiān)管過程中基礎性的工作,元數(shù)據(jù)被理解為“關于數(shù)據(jù)的數(shù)據(jù)”,國際圖聯(lián)(IFLA)將其定義為描述數(shù)據(jù)的數(shù)據(jù),可用來協(xié)助對網(wǎng)絡數(shù)字資源進行識別、描述和定位的任何資料[5]。元數(shù)據(jù)又可分為描述型元數(shù)據(jù)(描述資源對象的內容或外觀信息,描述資源對象各組件的結構信息)和管理型元數(shù)據(jù)(描述資源對象的技術要求的元數(shù)據(jù)、描述資源對象的權限管理與合法使用的元數(shù)據(jù)、描述資源對象的產(chǎn)生、發(fā)展、軟硬件環(huán)境的元數(shù)據(jù)和用來管理信息資源的元數(shù)據(jù)信息)。
在數(shù)據(jù)監(jiān)管的過程中,為產(chǎn)生的數(shù)據(jù)選擇恰當?shù)脑獢?shù)據(jù)標準或根據(jù)研究需求建立一套元數(shù)據(jù)標準是未來數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)共享的基礎。Data One項目的最佳實踐中提到如果項目本身或是資助機構已經(jīng)明確了特定的元數(shù)據(jù)標準,那么就使用該元數(shù)據(jù)標準,并且將其納入數(shù)據(jù)管理計劃之中;如果研究團體有常用的或建議的元數(shù)據(jù)標準,那么也可以使用該標準,當然該標準最好要能夠和其它系統(tǒng)、倉儲進行互操作;如果研究團體傾向使用的元數(shù)據(jù)標準沒有廣泛的互操作性,那么最好考慮使用簡單、有互操作性的元數(shù)據(jù)標準,如都柏林核心元數(shù)據(jù)(Dublin Core Metadata)。在英國,9個主流的科研資助機構聲稱,為了保障正確利用數(shù)據(jù),在數(shù)據(jù)中要附上相關元數(shù)據(jù)[6],不過他們沒有提出具體的元數(shù)據(jù)方案,而是籠統(tǒng)地建議采用學科領域內一般性通用元數(shù)據(jù)標準。在具體項目中,參與牛津大學EIDCSR項目的圖書館員基于都柏林核心元數(shù)據(jù)創(chuàng)建了自己的核心元數(shù)據(jù)字段,并允許個別研究小組自定義本領域字段[7];武漢大學基于Dspace構建的“蝎物種與毒素數(shù)據(jù)管理平臺”除了文獻資源使用DC描述外,其它數(shù)據(jù),如物種數(shù)據(jù)、基因數(shù)據(jù)和蛋白數(shù)據(jù),都采用各自領域的專業(yè)元數(shù)據(jù)標準[8]。除了廣受推崇的都柏林核心元數(shù)據(jù)外,經(jīng)常用到的元數(shù)據(jù)還有描述政府信息的GLIS(Global Information Locator Service)、描述地理空間數(shù)據(jù)的FGDC/CSDGM標準、REACH元素集以及館藏的CDWA、CIMI、VRA Core等。除了元數(shù)據(jù)本身的選擇和制定外,相應的管理工具也會在大型的數(shù)據(jù)監(jiān)管項目中被開發(fā),比如Data One項目中就提供了Dataup工具。
3.4 規(guī)范與統(tǒng)一數(shù)據(jù)
高質量、規(guī)范化的科研數(shù)據(jù)是決定科學項目產(chǎn)生效益、推動社會進步的關鍵,所以在規(guī)范數(shù)據(jù)格式、提升數(shù)據(jù)質量的過程中選用或制定合理的數(shù)據(jù)標準是必要的。首先,在描述數(shù)據(jù)字段、屬性、參數(shù)和訪問方法時,最好使用定義好的、規(guī)范化的術語、敘詞表和關鍵詞表,以保證數(shù)據(jù)產(chǎn)品的易懂性、可移植性和可被發(fā)現(xiàn)。在數(shù)據(jù)監(jiān)管項目實施過程中,數(shù)據(jù)字典是一種比較有效的方式,其能夠簡化大型數(shù)據(jù)庫構建,避免數(shù)據(jù)錯誤和提高數(shù)據(jù)質量,以美國為例,在不同專業(yè)領域,SWEET(Semantic Web for Earth and Environmental Terminology)、Planetary Ontologies、GCMD(NASA Global Change Master Directory)等術語資源被應用。
以數(shù)據(jù)訪問方法為例,一般有三種方式:(1)訪問元數(shù)據(jù)庫,再通過元數(shù)據(jù)與數(shù)據(jù)資源之間的唯一標識符連接到目標資源,此時數(shù)據(jù)的規(guī)范控制其實和元數(shù)據(jù)的應用結合在一起,如牛津大學的EIDCSR項目;(2)直接訪問基于Web的數(shù)據(jù)資源庫,如Data One項目中通過提供的ONEMercury網(wǎng)絡接口訪問成員節(jié)點中的數(shù)據(jù),這其中也有相應的標準規(guī)范;(3)既可以通過元數(shù)據(jù)系統(tǒng)查找、下載所需數(shù)據(jù)集,也可以通過Web數(shù)據(jù)庫查詢和訪問數(shù)據(jù),如澳大利亞南極中心數(shù)據(jù)庫[9]。不管采用何種方式,這些數(shù)據(jù)都會有規(guī)范的數(shù)據(jù)文件名稱和良好的數(shù)據(jù)組織架構。
清晰的、描述性的、獨特的文件名很重要,這種重要性不僅體現(xiàn)在對數(shù)據(jù)擁有者自身,更體現(xiàn)于其他研究者的查詢檢索和便利發(fā)現(xiàn)。Data One項目最佳實踐認為文件名稱要能夠反映出文件的內容,包含足夠的信息來唯一確定該數(shù)據(jù)文件內容,文件名稱中應包含的信息包括項目縮寫、研究標題、地點、調查員、研究的跨度、數(shù)據(jù)類型、版本號和文件類型等。在數(shù)據(jù)文件中,還需要明確定義參數(shù)的單位,國際上有SI(The International System of Units),而且每個學科都有自己慣用的數(shù)據(jù)單位,同時還需要保持單位編碼上下一致。其次,數(shù)據(jù)文件可能由數(shù)據(jù)庫統(tǒng)一管理,也可能直接存放于文件目錄下(可能在本地還可能在FTP站點)。
3.5 數(shù)據(jù)存儲與歸檔
雖然數(shù)據(jù)監(jiān)管是比數(shù)據(jù)存儲、數(shù)據(jù)歸檔更為廣泛的概念,但不可否認的是數(shù)據(jù)存儲與歸檔是數(shù)據(jù)監(jiān)管活動中最為重要的一個環(huán)節(jié),也是數(shù)據(jù)共享和重用的基礎和前提。因為數(shù)據(jù)存儲也有成本的問題,那么哪些數(shù)據(jù)應該被保存呢?Data One項目中,在決定保存哪些數(shù)據(jù)時,數(shù)據(jù)管理人員和科研人員在保證數(shù)據(jù)未來可用的情況下,會綜合考慮數(shù)據(jù)保存的空間、時間和金錢成本,他們認為原始數(shù)據(jù)通常是值得保存的,不過算法和軟件代碼幾乎不用保存,如果數(shù)據(jù)可以輕易地從原始數(shù)據(jù)中生成,那么該數(shù)據(jù)也沒有必要保存。鑒于此問題,他們對Data One項目中不同的數(shù)據(jù)設置了不同的保存方案,對原始數(shù)據(jù)和具有歷史意義的數(shù)據(jù)進行長期保存,數(shù)據(jù)衍生產(chǎn)品在專家評估后選擇合適的保存周期,而對于可恢復的數(shù)據(jù)以及算法和模型不進行保存。
除了存什么的問題,還有存哪里的問題??蒲挟a(chǎn)生的數(shù)據(jù)主要有三個存儲去向:由政府或專門資助機構資助的大型科研數(shù)據(jù)一般存儲在專門的數(shù)據(jù)中心或存儲庫中;一些小的學科或者相對小型的研究會把科研數(shù)據(jù)存儲在機構庫或科研機構自己的存儲系統(tǒng)中;還有一些科研數(shù)據(jù)被科研人員直接存儲在本地的計算機或硬盤中。國內外大型的數(shù)據(jù)中心和數(shù)據(jù)保存項目有美國的數(shù)字化藏品保存項目PAREM、多備份資源保存項目LOCKSS、分布式數(shù)字資源保存項目PRISM、英國的電子文件歸檔計劃ERA、高校研究圖書館聯(lián)盟數(shù)字歸檔樣書項目CEDARS以及德國的NESTOR項目,還有國內的國家科學數(shù)據(jù)共享工程、網(wǎng)絡信息資源保存試驗項目等?;跈C構庫的存儲平臺數(shù)目更多,許多圖書館也把機構庫作為數(shù)據(jù)監(jiān)管的起點,Data One項目中各成員節(jié)點都可以充當存儲庫,各自進行數(shù)據(jù)管理和維護并控制數(shù)據(jù)訪問,比如普渡大學圖書館的分布式數(shù)據(jù)監(jiān)管中心D2C2、麻省理工學院的PLEDGE項目、康奈爾大學的DataStar項目等。所以作為有數(shù)據(jù)監(jiān)管服務需要的機構,既可以自己建設本地數(shù)據(jù)存儲庫,也可在機構庫基礎上擴展服務,利用自身資源優(yōu)勢和國內外的數(shù)據(jù)科學中心、存儲中心建立良好關系,形成優(yōu)勢互補、學科互補、數(shù)據(jù)互操作的共享局面。
4 數(shù)據(jù)監(jiān)管的推進策略
4.1 研究型圖書館應發(fā)揮積極作用
在組織部門上,相關研究都表明圖書館是比較理想的數(shù)據(jù)監(jiān)管組織和實施單位。美國國家科學基金會(NSF)指出:科研圖書館應該在數(shù)據(jù)監(jiān)護上給予科研機構業(yè)務和技術支持,為他們提供相應的數(shù)據(jù)服務[10]。英國圖書館聯(lián)盟就英國科研人員與圖書館合作進行數(shù)據(jù)監(jiān)護的模式進行分析和總結,得出“科研圖書館可以與研究人員合作,向他們提供數(shù)據(jù)監(jiān)護服務,并能夠得到較好效果”的結論[11]。加拿大研究圖書館聯(lián)盟在2010 年對圖書館向科研人員提供科研數(shù)據(jù)管理等服務做了研究,指出圖書館可以滿足科研人員對科學數(shù)據(jù)的需求,具體服務包括提供數(shù)據(jù)管理培訓,給予技術支持,數(shù)據(jù)的發(fā)現(xiàn)、獲取、歸檔等,還包括提供虛擬的科研環(huán)境[12]。德國2012年的調研顯示,過去數(shù)年間科研數(shù)據(jù)的監(jiān)管問題在科學界越加受到關注,而圖書館和科學家一直保持緊密的聯(lián)系,在處理數(shù)據(jù)和保存數(shù)據(jù)中具有天然的優(yōu)勢[13]。很多的研究資助機構都已經(jīng)意識到提供保存研究數(shù)據(jù)服務和基礎設施的重要性,研究型圖書館已經(jīng)被確認為提供研究數(shù)據(jù)服務的基地[14],研究型圖書館協(xié)會(ARL)也正在開發(fā)研究數(shù)據(jù)服務作為新的戰(zhàn)略性服務[15]。綜上所述,研究型圖書館理應在數(shù)據(jù)監(jiān)管方面發(fā)揮更大作用。
此外毋庸置疑的是,數(shù)據(jù)監(jiān)管作為一類合作項目(Data One項目的組織架構有著充分的體現(xiàn)),會涉及到眾多利益相關者,不僅有圖書館,還有研究人員、政策制定者、數(shù)據(jù)管理人員、數(shù)據(jù)存儲機構、檔案館、數(shù)據(jù)存儲庫等,雖然對圖書館在整個數(shù)據(jù)監(jiān)管過程中的定位還沒有明確的官方界定,但圖書館已經(jīng)在數(shù)據(jù)監(jiān)管過程中體現(xiàn)了其重要地位,尤其在高校中。OCLC在2013年報告中指出,在大學內部的數(shù)據(jù)監(jiān)管活動中,圖書館基于元數(shù)據(jù)、館藏管理、資源建設、機構存儲、數(shù)據(jù)獲取等方面的積累,非常適合成為數(shù)據(jù)管理、監(jiān)管和保存活動中的關鍵參與者[16]。其呼吁圖書館在利益相關者之間發(fā)起對話,以獲得數(shù)據(jù)監(jiān)管活動的主動權,并在其后的監(jiān)管活動中貢獻專業(yè)知識。西英格蘭大學在生物醫(yī)學和生物感知、數(shù)字創(chuàng)業(yè)產(chǎn)業(yè)、機器人技術和社會保健領域提供了良好的研究數(shù)據(jù)管理服務,該大學的數(shù)據(jù)監(jiān)管服務就是由圖書館、研究辦公室和IT部門共同負責的,而圖書館在其中發(fā)揮著主導作用,他們認為圖書館員(學科館員)知道如何監(jiān)管(存儲、組織、獲取和分享)數(shù)據(jù),和研究人員之間良好的關系也使得他們懂得需求,深刻地明白信息和數(shù)據(jù)缺乏管理的危險后果[17]。
4.2 用戶需求把握是數(shù)據(jù)監(jiān)管之源
調研用戶數(shù)據(jù)需求是為科研用戶提供合理數(shù)據(jù)監(jiān)管服務的源頭,沒有需求或者需求不明的服務只能是些無效勞動。高??蒲杏脩舴謱儆诓煌膶W科,但是不同的學科產(chǎn)出的數(shù)據(jù)都有其自身的學科特征,比如,人文社會科學產(chǎn)生的數(shù)據(jù)多數(shù)是文本數(shù)據(jù)和調研數(shù)據(jù),生物科學和醫(yī)學專業(yè)產(chǎn)生的多數(shù)是實驗數(shù)據(jù)和觀測數(shù)據(jù)。而且不同類型的數(shù)據(jù)對數(shù)據(jù)監(jiān)管的要求也有所不同,比如,對于不可再生的數(shù)據(jù)如帶有歷史色彩的觀測數(shù)據(jù)需要進行長期的監(jiān)管和保存,對實現(xiàn)成本較低的實驗數(shù)據(jù)可能只需要記錄實驗的條件和設備,而無需監(jiān)管整個實驗數(shù)據(jù)本身。正因為上述這些原因,數(shù)據(jù)監(jiān)管服務提供方在服務伊始要按照不同的要求和學科標準調研科研用戶的數(shù)據(jù)需求,弄清他們產(chǎn)生數(shù)據(jù)的類型、特點、重要性、機密性以及是否需要遵循資助機構的數(shù)據(jù)管理要求,然后根據(jù)調研結果和科研用戶一起制定相應的數(shù)據(jù)監(jiān)管計劃,包括數(shù)據(jù)收集的范圍、存儲的地點、保存的期限和共享權限等,真正根據(jù)用戶需求為其提供量身定做的監(jiān)管服務。
4.3 基礎平臺建設是數(shù)據(jù)監(jiān)管之本
數(shù)據(jù)監(jiān)管基礎平臺的建設是整個數(shù)據(jù)監(jiān)管活動賴以存在的基礎,沒有這些IT基礎設施,數(shù)據(jù)監(jiān)管活動只能是空談。那么數(shù)據(jù)監(jiān)管平臺應該由誰來構建?OCLC的報告認為應該由高校的信息技術部門承擔[16],但不同高?;蜓芯繖C構有著不同的實際情況,有些高校信息技術部門有著強大的技術實力和充足的人員配置,而有些高校甚至整個校園的IT運維都采用外包方式,若具體到圖書館層面,有些高校圖書館有自己的信息技術部門和存儲庫平臺的積累,而有些高校圖書館甚至沒有專門的學科服務團隊。筆者認為基礎平臺的建設同樣應該是一項協(xié)作任務,其建設模式也有多種,如校內合作模式、校外合作模式,甚至有跨國合作模式。比如,牛津大學的EIDCSR項目是由圖書館、計算機服務中心、IT指導辦公室合作搭建的,屬于校內合作模式;康奈爾大學的DataStaR項目既是一個平臺,也是一系列服務,是由康奈爾大學圖書館和華盛頓大學圣路易斯分校一起合作開發(fā)的,屬于校外合作模式;新墨西哥大學圖書館主導的Data One則是與世界各大地球環(huán)境研究所合作的分布式數(shù)據(jù)監(jiān)管體系,是國內外共建模式的代表??梢姅?shù)據(jù)監(jiān)管平臺的搭建,要符合機構實際的數(shù)據(jù)需要,選擇的搭建模式要和數(shù)據(jù)規(guī)模相符,在此基礎上合理利用內外部資源,擇取恰當?shù)臄?shù)據(jù)監(jiān)管平臺建設方式。
4.4 全面優(yōu)質服務是數(shù)據(jù)監(jiān)管之核
常見的數(shù)據(jù)監(jiān)管服務包括數(shù)據(jù)加工描述服務、數(shù)據(jù)存儲服務、數(shù)據(jù)發(fā)現(xiàn)和共享服務。數(shù)據(jù)加工描述服務指輔助科研人員根據(jù)科研數(shù)據(jù)的類型、特點和相關資助機構的數(shù)據(jù)管理要求描述和處理數(shù)據(jù);數(shù)據(jù)存儲服務要在判斷科研數(shù)據(jù)價值的基礎上,為科研數(shù)據(jù)選擇合適的存儲期限和存儲地點;數(shù)據(jù)發(fā)現(xiàn)和共享服務要能幫助科研用戶發(fā)現(xiàn)、檢索、獲取數(shù)據(jù)。這些服務一般還會有系統(tǒng)或者工具的支撐,比如,Data One項目中ONEMercury用于搜索、Dataup用于數(shù)據(jù)存儲、ONER用于統(tǒng)計發(fā)現(xiàn)和可視化展現(xiàn)。全面優(yōu)質的服務還應該包括對數(shù)據(jù)監(jiān)管服務的教育培訓和推廣,Data One項目組織架構中也有多個工作小組負責此類任務,國內也有不少高校圖書館為科研人員提供數(shù)據(jù)管理工具方面的培訓。
4.5 數(shù)據(jù)素養(yǎng)及其相關技能的提升
數(shù)據(jù)素養(yǎng)(Data Literacy)是對媒介素養(yǎng)、信息素養(yǎng)等概念的一種延續(xù)和擴展,其包括對數(shù)據(jù)的敏感性;數(shù)據(jù)的收集能力;數(shù)據(jù)的分析、處理能力;利用數(shù)據(jù)進行決策的能力;對數(shù)據(jù)的批判性思維[18]。對數(shù)據(jù)素養(yǎng)及其相關技能的提升涉及兩個方面,一是對包括圖書館員在內的數(shù)據(jù)管理人員,一是對科研人員或者其他有數(shù)據(jù)監(jiān)管需求的用戶。在數(shù)據(jù)監(jiān)管過程中,數(shù)據(jù)管理人員要承擔諸多職責,還要對最終結果負責,如果其缺乏特定領域的知識和處理大型數(shù)據(jù)的能力,那么他們很難圓滿地完成任務。相關的報告指出目前科研人員處理科學數(shù)據(jù)的能力與實際對他們的要求之間還存在一定的差距,數(shù)據(jù)監(jiān)管人員在輔助科研人員管理科學數(shù)據(jù)上具有重要作用[19]??蒲腥藛T是數(shù)據(jù)監(jiān)管活動的主要服務對象,要教授他們如何描述和組織數(shù)據(jù),如何保證數(shù)據(jù)在未來可以被檢索和共享,等等。此外,在大學中,大學生們也可能是未來的科研人員,所以也需要關注他們的數(shù)據(jù)素養(yǎng)和技能提升,在具體工作開展中,圖書館在開展數(shù)據(jù)素養(yǎng)教育講座或課程的同時,還可以與學校教務部門共同制定數(shù)據(jù)素養(yǎng)教學計劃,在本科生和研究生中推廣相關課程。
5 結語
Data One項目完善的基礎架構、強大的工具包、協(xié)作高效的組織架構、眾多的工作小組和研究任務給了我們很多的啟示。通過對Data One 及其他數(shù)據(jù)監(jiān)管項目的分析探討,本文歸納總結出一條實施數(shù)據(jù)監(jiān)管的關鍵流程,即構建數(shù)據(jù)監(jiān)管基礎架構、制定數(shù)據(jù)管理計劃、選擇元數(shù)據(jù)標準、規(guī)范與統(tǒng)一數(shù)據(jù)、數(shù)據(jù)存儲與歸檔。同時進一步延伸探討,希望數(shù)據(jù)監(jiān)管活動能夠在研究型圖書館參與、用戶需求把握、基礎平臺建設、全面優(yōu)質服務、數(shù)據(jù)素養(yǎng)及其相關技能提升等幾個方面廣泛推進。當然,數(shù)據(jù)監(jiān)管本身是一個廣泛復雜的主題,其涉及面很廣,可能遠超本文討論,希望在數(shù)據(jù)監(jiān)管理論和最佳實踐日益豐富的今天,本文的梳理和探討能為此領域的發(fā)展盡綿薄之力。
參考文獻:
[1]Investigator Toolkit[EB/OL].[2014-07-26].http://www.dataone.org/investigator-toolkit.
[2]數(shù)字資源長期保存研究與共享平臺. 數(shù)據(jù)管理計劃在線工具[EB/OL].[2014-07-26].http://archive.las.ac.cn/957f671f4fdd5b585de55177/dmp-online-tool.
[3]Stonebraker M, Dozier J. An overview of the Sequoia 2000project[J].Digital Technical Journal,1995,(3):39-49.
[4]張計龍,朱勤, 殷沈琴. 美國社會科學數(shù)據(jù)的共享與服務[J]. 大學圖書館學報, 2013,(5): 13-17.
[5]楊艷麗.元數(shù)據(jù)與網(wǎng)絡信息資源的管理[D].太原:太原理工大學, 2003.
[6]陳大慶. 英國科研資助機構的數(shù)據(jù)管理與共享政策調查及啟示[J]. 圖書情報工作, 2013,(8): 5-11.
[7]University of Oxford. Embedding Institutional "Data Curation Services in Research (EIDCSR)[EB/OL]. [2013-12-08].http://eidcsr.oucs.ox.ac.uk/docs/EIDCSR_AnalysisFindings_v2.1.pdf.
[8]洪正國,項英. 基于 Dspace 構建高??茖W數(shù)據(jù)管理平臺——以蝎物種與毒素數(shù)據(jù)庫為例[J].圖書情報工作, 2013,(6):39-42.
[9]Australian Government. Department of the Environment,Australian Antarctic Division. Leading Australia’s Antarctic Program[EB/OL]. [2014-07-26]. http://www.aad.gov.au/default.aspcasid=3812.
[10]To Stand the Test of Time: Long-Term Stewardship of Digital Data Sets in Science and Engineering[EB/OL].[2014-07-26].http://www.arl.org/pp/access/nsfworksho
p.shtml.
[11]Researchers' Use of Academic Libraries and Their Services[EB/OL].[2014-07-26].http://www.rin.ac.uk/researchers-uselibraries.
[12]Addressing the Research Data Gap: A Review of Novel Services for Libraries[EB/OL]. [2014-07-26]. http://www.carl-abrc.ca/about/working_groups/pdf/library_role
s-final.pdf.
[13]Osswald A, Strathmann S. The role of libraries in curation and preservation of research data in Germany: Findings of a survey[C/OL].[2014-07-26].http://conference.ifla.org/sites/default/files/files/papers/wlic2012/1
16-osswald-en.pdf.
[14]Friedlander A, Adler P. To Stand the Test of Time: Long-Term Stewardship of Digital Data Sets in Science and Engineering[R/OL].[2014-07-26].http://arl.org/bm~doc/digdatarpt.pdf.
[15]ARL. E-Science and Data Support Services: A Study of ARL Member Institutions[EB/OL]. [2014-07-26]. http://www.arl.org/bm~doc/escience_report2010.pdf.
[16]OCLC Research. Starting the Conversation: University-wide Research Data Management Policy[EB/OL].[2014
-07-26].http://oclc.org/research/publications/library/20
13/2013-08r.html.
[17]UWE Bristol. Why is the Library leading on this Research data management and theacademiclibrary[EB/OL].[2014-07-26].http://www2.uwe.ac.uk/services/library/using_the_library/Services for researchers/DARTS
3 presentation.pdf.
[18]數(shù)據(jù)素養(yǎng)[EB/OL]. [2014-07-26].http://baike.baidu.com/view/10402202.htm.
[19]Skills, Role amp; Career Structure of Data Scientists amp; Curators: Assessment of Current Practice amp; Future Needs[EB/OL].[2014-07-26].http://www.jisc.ac.uk/pu
blications/reports/2008/dataskillscareersfinalreport.aspx.
作者簡介:許鑫(1976-),男,華東師范大學信息學系副教授;劉甜(1990-),女,華東師范大學信息學系圖書情報專業(yè)碩士研究生;于霜(1992-),女,華東師范大學信息學系情報學碩士研究生。