宋秀芬 鄧仲華(武漢大學(xué)信息管理學(xué)院 湖北武漢 430072)
·數(shù)據(jù)管理與服務(wù)·
美國高校數(shù)據(jù)監(jiān)護平臺研究與借鑒*
宋秀芬鄧仲華
(武漢大學(xué)信息管理學(xué)院湖北武漢430072)
摘要:
文章剖析了約翰·霍普金斯大學(xué)Data Conservancy、哈佛大學(xué)Dataverse Network、康奈爾大學(xué)Data Staging Repository的平臺特征、功能及局限性。結(jié)果表明:基于國內(nèi)數(shù)據(jù)監(jiān)護平臺現(xiàn)狀,國內(nèi)平臺需從平臺功能、政策支持、數(shù)據(jù)標準、教育培訓(xùn)與合作交流等方面借鑒美國數(shù)據(jù)監(jiān)護平臺的構(gòu)建經(jīng)驗。關(guān)鍵詞:
數(shù)據(jù)監(jiān)護平臺;數(shù)據(jù)引用;數(shù)據(jù)標準;數(shù)據(jù)共享數(shù)據(jù)是科研成果,也是后續(xù)科學(xué)研究的基石,科研需求崔生數(shù)據(jù)監(jiān)護誕生,數(shù)據(jù)監(jiān)護已成為高校、研究機構(gòu)與政府部門等關(guān)注的重要課題,而高校在技術(shù)、設(shè)備和人才等方面具有構(gòu)建數(shù)據(jù)監(jiān)護平臺的天然優(yōu)勢,高校構(gòu)建統(tǒng)一數(shù)據(jù)監(jiān)護平臺有利于改變傳統(tǒng)數(shù)據(jù)私有觀念,打破信息壁壘,實現(xiàn)數(shù)據(jù)有效交流與共享,提升數(shù)據(jù)價值與加速科研進程。
國外高校在數(shù)據(jù)監(jiān)護實踐方面發(fā)展迅速且成效顯著,美國在構(gòu)建數(shù)據(jù)監(jiān)護平臺方面積累了豐富經(jīng)驗,構(gòu)建了諸多高質(zhì)量且公信力強的數(shù)據(jù)監(jiān)護平臺,如:康奈爾大學(xué) DataStaR、哈佛大學(xué) Dataverse Network、哈佛—麻省數(shù)據(jù)中心HMDC、約翰·霍普金斯大學(xué)Data Conservancy、普渡大學(xué)分布式數(shù)據(jù)中心D2C2等。國內(nèi)部分高校認識到數(shù)據(jù)監(jiān)護平臺的重要性,并開始實施數(shù)據(jù)監(jiān)護平臺的構(gòu)建,如:中國人民大學(xué)中國社會調(diào)查開放數(shù)據(jù)庫、中山大學(xué)社會科學(xué)調(diào)查中心與復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺等,但與美國相比,國內(nèi)數(shù)據(jù)監(jiān)護實踐還存在較大差距。因此,國內(nèi)高校在借鑒美國構(gòu)建數(shù)據(jù)監(jiān)護平臺經(jīng)驗的基礎(chǔ)上,開發(fā)出具有自身特點的平臺,避免重復(fù)工作、減少資金浪費、提高效率等。
國內(nèi)學(xué)者對數(shù)據(jù)監(jiān)護研究處于借鑒與探索階段,以楊鶴林、殷沈琴、賴劍菲、覃丹為代表的國內(nèi)學(xué)者研究了國外數(shù)據(jù)監(jiān)護平臺構(gòu)建現(xiàn)狀與對我國的借鑒與啟示,楊鶴林詳細介紹了康奈爾大學(xué)DataStaR的模型、思路、特色等;殷沈琴評估了 Nesstar、DSpace、Fedora Commons、Dataverse平臺軟件的進階功能、元數(shù)據(jù)標準、在線分析功能;賴劍菲從需求、目標、經(jīng)費保障和數(shù)據(jù)來源方面分析了國內(nèi)外11個代表性的數(shù)據(jù)共享平臺 (康奈爾大學(xué)DataStaR、約翰·霍普金斯大學(xué)Data Conservancy、哈佛—麻省數(shù)據(jù)中心HMDC等)的建設(shè)特點;覃丹從整體結(jié)構(gòu)、檢索服務(wù)、導(dǎo)航服務(wù)、咨詢/幫助、教育培訓(xùn)等內(nèi)容上介紹了英美高校5個社會科學(xué)數(shù)據(jù)共享平臺的建設(shè)現(xiàn)狀,分析了平臺軟件(Fedora Commons、Dataverse、SDA、Nesstar)的功能與建設(shè)特點,可見,以上研究成果從整體上概述了數(shù)據(jù)監(jiān)護平臺的特色功能,但均未對各數(shù)據(jù)監(jiān)護平臺特色功能、局限與不足進行深度剖析,而深入剖析平臺特色功能、局限與不足可為國內(nèi)數(shù)據(jù)監(jiān)護平臺的構(gòu)建與選型提供價值性參考,基于此,文章選取美國康奈爾大學(xué)DataStaR、哈佛大學(xué) Dataverse Network、約翰·霍普金斯大學(xué) Data Conservancy平臺加以深入研究,而挑選依據(jù)在于這三個平臺具有代表性、影響力大且為開源軟件。
美國研究數(shù)據(jù)監(jiān)護時間較早,數(shù)據(jù)監(jiān)護平臺發(fā)展成熟,平臺功能完善,本文將重點比較三大數(shù)據(jù)監(jiān)護平臺(康奈爾大學(xué)DataStaR、哈佛大學(xué)Dataverse Network、約翰·霍普金斯大學(xué)Data Conservancy)的功能、目標、服務(wù)方式、局限性等(見表1)。
2.1約翰·霍普金斯大學(xué)DataConservancy
約翰·霍普金斯大學(xué)Data Conservancy(以下簡稱DC)主要監(jiān)護天文、地球、生物和人文社會科學(xué)等學(xué)科數(shù)據(jù),提供跨機構(gòu)和跨學(xué)科的數(shù)據(jù)監(jiān)護工具及服務(wù),收集、處理、存儲、保存與共享數(shù)據(jù)以滿足學(xué)術(shù)團體的數(shù)據(jù)監(jiān)護需求,約翰·霍普金斯大學(xué)的持續(xù)工作包括開發(fā)跨學(xué)科領(lǐng)域數(shù)據(jù)監(jiān)護工具、搭建科學(xué)數(shù)據(jù)監(jiān)護基礎(chǔ)設(shè)施、規(guī)劃數(shù)據(jù)監(jiān)護職業(yè)教育、構(gòu)建可持續(xù)數(shù)據(jù)監(jiān)護模型等。
2.1.1智能查詢
DC超越了機構(gòu)庫或?qū)W科庫的數(shù)據(jù)查詢功能。DC的特征提取框架利用關(guān)鍵與綜合特征將多個項目數(shù)據(jù)聚合在一起,實現(xiàn)了基于時間、空間、類別的跨學(xué)科數(shù)據(jù)檢索與分類瀏覽,并提供附加服務(wù)(如網(wǎng)絡(luò)地圖服務(wù)、子集提取等)與個性化定制服務(wù)(如可制定用戶界面)以滿足特殊需求,促進數(shù)據(jù)發(fā)現(xiàn)和集成。
2.1.2跨系統(tǒng)數(shù)據(jù)互通
DC模塊化架構(gòu)和技術(shù)組件與外部服務(wù)組件的互操作實現(xiàn)了無縫數(shù)據(jù)遷移。用戶提交輸入與輸出數(shù)據(jù)請求后,通過API(應(yīng)用程序編程接口)攝取、檢索與訪問數(shù)據(jù),API外部服務(wù)組件或系統(tǒng)與DC的交互實現(xiàn)了跨學(xué)科數(shù)據(jù)服務(wù)與增值服務(wù),如:
(1)DC與美國國家冰雪數(shù)據(jù)中心(National Snow and Ice Data Center,NSIDC)的照片互操作服務(wù)。DC監(jiān)護大量圖像,其中包括南極洲冰川圖像,NSIDC圖像收集模塊定期從DC元數(shù)據(jù)庫中收集元數(shù)據(jù)、增加新圖像與建立DC照片鏈接。用戶在DC平臺終端界面通過冰川名稱、位置、日期、攝影師等關(guān)鍵詞檢索圖像,查看低分辨率圖像,訂購高分辨率圖像。
表1 美國數(shù)據(jù)監(jiān)護平臺建設(shè)情況
(2)DC與arXiv.org(電子預(yù)印本文庫)的數(shù)據(jù)與出版物雙向鏈接。作者向arXiv.org提交發(fā)表的論文與數(shù)據(jù),論文存于arXiv系統(tǒng),而數(shù)據(jù)存入約翰·霍普金斯大學(xué)DC中,arXiv系統(tǒng)的論文與DC的數(shù)據(jù)之間建立了雙向鏈接,用戶檢索與訪問論文與相關(guān)數(shù)據(jù)。
2.1.3配套的教育與培訓(xùn)
DC提供的數(shù)據(jù)監(jiān)護教育與培訓(xùn)形式包括培訓(xùn)材料、網(wǎng)絡(luò)研討會、課程、專題研討會和實習(xí)、數(shù)據(jù)管理規(guī)劃等,DC平臺承擔服務(wù)、協(xié)調(diào)、咨詢、培訓(xùn)和宣傳等工作,數(shù)據(jù)監(jiān)護人員在豐富多樣的教育和培訓(xùn)中掌握數(shù)據(jù)監(jiān)護的知識與技能。
2.1.4局限與不足
DC平臺軟件為測試版,系統(tǒng)存在兼容的局限性,其中包括系統(tǒng)版本兼容問題(API和數(shù)據(jù)模型兼容)、數(shù)據(jù)遷移、數(shù)據(jù)標準化等問題。
2.2哈佛大學(xué)Dataverse Network
由于傳統(tǒng)數(shù)據(jù)存儲與共享方法缺乏保存策略、永久認可條款和訪問機制等,再加上所有權(quán)與控制權(quán)問題;科研人員不重視數(shù)據(jù)保存問題,部分研究者通過網(wǎng)站共享數(shù)據(jù),部分研究者根本未共享數(shù)據(jù);而科研人員、圖書館、期刊和科研機構(gòu)統(tǒng)一數(shù)據(jù)監(jiān)護平臺來管理和共享數(shù)據(jù),因此,Dataverse正是基于此背景而產(chǎn)生的。
哈佛大學(xué)Dataverse Network(以下簡稱DVN)是軟件、協(xié)議、自動化存儲等共同體,存儲世界所有學(xué)科數(shù)據(jù),包括世界上最大社會科學(xué)研究數(shù)據(jù)集。其任務(wù)是收集、共享、引用、分析、保存與再利用數(shù)據(jù),其目的是實現(xiàn)數(shù)據(jù)共享與跨系統(tǒng)數(shù)據(jù)互聯(lián)互通,其目標是滿足科研人員的數(shù)據(jù)監(jiān)護需求,改變學(xué)術(shù)環(huán)境,激勵科研人員與出版商共享數(shù)據(jù),加速科研進程。
2.2.1虛擬檔案館
DVN是基于標準的集中存儲、分布式控制、成果認可的數(shù)據(jù)共享平臺。DVN無需硬件與軟件成本,利用機構(gòu)庫的基礎(chǔ)設(shè)施與技術(shù)提供專業(yè)歸案服務(wù),包括數(shù)據(jù)備份、恢復(fù),轉(zhuǎn)換、保存等服務(wù)。一個機構(gòu)創(chuàng)建多個虛擬檔案館(命名為“Dataverses”),如:學(xué)者、團隊、期刊的“Dataverses”,虛擬網(wǎng)絡(luò)檔案館為作者提供分布式數(shù)據(jù)控制,每個Dataverse通過人性化界面為用戶提供數(shù)據(jù)引用、發(fā)現(xiàn)、更新、訪問及再利用等服務(wù)。數(shù)據(jù)的發(fā)布架框支持數(shù)據(jù)控制、永久引用、發(fā)現(xiàn)與保存等,數(shù)據(jù)作者無需維護與備份,便可獲得學(xué)術(shù)成果的認可。
2.2.2數(shù)據(jù)共享鼓勵
鼓勵數(shù)據(jù)共享方式包括成果認可、工作可見及數(shù)據(jù)控制。鼓勵作者共享數(shù)據(jù)需要增強學(xué)術(shù)認可度與可見性,傳統(tǒng)上學(xué)術(shù)果引用不足體現(xiàn)認可程度,而數(shù)據(jù)本身也需引用,每個Dataverse自動生成永久數(shù)據(jù)引用,數(shù)據(jù)引用有利于原始研究成果的再利用,提升數(shù)據(jù)收集者或數(shù)據(jù)作者的認可度;數(shù)據(jù)作者的“Dataverse”相當個人網(wǎng)站,集中式的Dataverse后臺進行數(shù)據(jù)保存、分析與轉(zhuǎn)換等,作者即刻可見工作成果,無需關(guān)心保存與存檔問題,除了認可與可見性,還有數(shù)據(jù)控制問題。數(shù)據(jù)存儲在一個集中機構(gòu)庫里,數(shù)據(jù)作者隨時控制、更新、描述與設(shè)限訪問數(shù)據(jù)集等。
2.2.3數(shù)據(jù)永久引用
數(shù)據(jù)更新時,引文版本自動更新,版本控制是為了引用數(shù)據(jù)的最新版本。DVN構(gòu)建了數(shù)據(jù)引用原則和標準,生成數(shù)據(jù)引用內(nèi)容包括:作者、發(fā)布日期、標題、統(tǒng)一標識符、網(wǎng)站、通用數(shù)字指紋、出版商、數(shù)據(jù)子集、版本等字段,由此可見,在傳統(tǒng)引用基礎(chǔ)上,DVN數(shù)據(jù)引用增加了永久標識符和通用數(shù)字指紋,永久標識符代表引用數(shù)字對象獨立且永久,即使數(shù)字對象從一個站點移到另一個站點,數(shù)據(jù)引用將鏈接到最新網(wǎng)站;通用數(shù)字指紋生成是基于數(shù)據(jù)集的內(nèi)容而不是格式,即使數(shù)據(jù)格式發(fā)生了變化,通用數(shù)字指紋不會改變。永久標識符對應(yīng)于一項研究,通用數(shù)字指紋對應(yīng)于一個數(shù)據(jù)集。DVN分配給每項研究一個永久標識符,每項研究包括一個或多個數(shù)據(jù)集,每個永久標識符對應(yīng)于一項研究而不是單個數(shù)據(jù)集,每個通用數(shù)字指紋生成是基于每項研究中一個數(shù)據(jù)集。
數(shù)據(jù)引用的主要目的是提高數(shù)據(jù)作者以及數(shù)據(jù)出版商的聲望,加強發(fā)布成果和數(shù)據(jù)連接。在創(chuàng)建一項研究時,自動生成數(shù)據(jù)引用,數(shù)據(jù)作者提供出版物上文章的永久數(shù)據(jù)引用,然后釋放或者發(fā)布數(shù)據(jù),期刊的文章研究結(jié)果與基礎(chǔ)數(shù)據(jù)自動建立了雙向鏈接,所引用數(shù)據(jù)鏈接到已發(fā)表文章、出版物、數(shù)據(jù)集及相關(guān)文章。
2.2.4訪問控制
DVN通過使用條款、限制條件與技術(shù)來保護數(shù)據(jù)的利益相關(guān)者權(quán)利。訪問控制分三個級別:對于公共研究,查看研究中描述信息,只有用戶同意數(shù)據(jù)使用條款后,才可訪問數(shù)據(jù)文件;對于研究中受限文件,公開描述信息,具有授權(quán)密碼的用戶可查看和下載部分受限數(shù)據(jù)文件;對于受限研究項目,當整個研究項目受限訪問時,可檢索元數(shù)據(jù)與部分描述信息,不能訪問全部數(shù)據(jù)文件。
DVN為作者提供分布式控制權(quán),數(shù)據(jù)作者控制數(shù)據(jù)訪問、更新、保存和使用等。當用戶請求訪問受限文件或完整項目研究時,DVN中數(shù)據(jù)作者或出版商授權(quán)用戶訪問數(shù)據(jù)集,授權(quán)訪問條件是基于大學(xué)或其他機構(gòu)相關(guān)聯(lián)IP地址。
2.2.5易于使用與維護
DVN界面具有友好性、人性化且低維護等特征,數(shù)據(jù)作者通過網(wǎng)絡(luò)界面實施所有設(shè)置和管理研究??蒲腥藛T創(chuàng)建個人網(wǎng)站的虛擬檔案館,不需要安裝任何軟件或特殊要求,DVN采用云服務(wù)而不是應(yīng)用程序服務(wù),這種服務(wù)便于用戶操作與維護。
2.2.6局限與不足
(1)子集提取支持。子集提取與智能查詢又豐富了數(shù)據(jù)作者的成果。數(shù)據(jù)子集提取與分析不是數(shù)據(jù)共享框架關(guān)鍵,但有利于數(shù)據(jù)使用,每個“Dataverse”通過處理數(shù)據(jù)集、標準化格式與提取變量信息等方式豐富數(shù)據(jù)作者研究成果,DVN軟件附加數(shù)據(jù)服務(wù)是提取與分析數(shù)據(jù)集的子集,目前DVN支持表格數(shù)據(jù)集和社交網(wǎng)絡(luò)數(shù)據(jù)集的子集提取與分析,未來需開發(fā)工具或方案解決更多類型數(shù)據(jù)的子集提取、分析與可視化等。
(2)數(shù)據(jù)安全保護。訪問控制未能保護私有或機密數(shù)據(jù)安全。DVN利用數(shù)據(jù)使用條款來保護機密數(shù)據(jù)安全,數(shù)據(jù)使用條款是基于整個DVN或機構(gòu)、作者與出版商的要求,個人或組織共同識別數(shù)據(jù)風(fēng)險,數(shù)據(jù)機構(gòu)根據(jù)內(nèi)部評級法(IRB)收集數(shù)據(jù),研究者識別數(shù)據(jù)中未含有機密數(shù)據(jù),數(shù)據(jù)用戶訪問數(shù)據(jù)集時,不能鏈接多個數(shù)據(jù)集或其他信息。另外,對于非常敏感研究中DVN元數(shù)據(jù)與完整引文(包括UFN)需要離線安全存儲。
科學(xué)研究中敏感或機密數(shù)據(jù)的存儲和共享是未來數(shù)據(jù)安全的重要挑戰(zhàn),未來需開發(fā)存儲工具來收集數(shù)據(jù),機密數(shù)據(jù)需存儲于單獨機構(gòu)庫、提供安全控制、并利用限制方法進行數(shù)據(jù)發(fā)布和在線分析。
2.3康奈爾大學(xué)DataStaR
數(shù)據(jù)階段型存儲庫 (Data Staging Repository,DataStaR)是研究數(shù)據(jù)共享和發(fā)現(xiàn)的語義平臺,提供研究流程中嵌入數(shù)據(jù)服務(wù),其由平臺和服務(wù)構(gòu)成,服務(wù)是指在研究人員控制下實現(xiàn)跨機構(gòu)庫數(shù)據(jù)處理、存儲、共享與發(fā)布等服務(wù);平臺是為研究人員提供研究數(shù)據(jù)的在線臨時存儲庫。DataStaR旨在充分利用現(xiàn)有基礎(chǔ)設(shè)施以及外部資源來提供持續(xù)數(shù)據(jù)存儲、共享與發(fā)布服務(wù),實現(xiàn)跨學(xué)科或機構(gòu)庫數(shù)據(jù)共享。
2.3.1協(xié)同工作
DataStaR虛擬社區(qū)便于科研人員交流學(xué)術(shù)、傳輸文件、協(xié)同工作、共享數(shù)據(jù)等,科研人員、數(shù)據(jù)科學(xué)家、圖書館員等共同構(gòu)建最佳數(shù)據(jù)監(jiān)護實踐來滿足科研人員的個性化需求,DataStaR平臺便于科研人員監(jiān)護數(shù)據(jù)與協(xié)同工作,促進跨學(xué)科數(shù)據(jù)的再利用。
2.3.2嵌入服務(wù)
機構(gòu)庫是收藏數(shù)據(jù)的倉儲,只存儲科研流程中的終端成果,未對整個科研流程中實時數(shù)據(jù)進行維護、更新與完善,因此,機構(gòu)庫功能無法滿足數(shù)據(jù)監(jiān)護需求。DataStaR是基于機構(gòu)庫基礎(chǔ)上實施數(shù)據(jù)監(jiān)護戰(zhàn)略,提供面向科研流程的嵌入數(shù)據(jù)服務(wù),提供科研數(shù)據(jù)交流與知識共享的平臺和橋梁,改變了科研人員學(xué)術(shù)交流與共享方式,提升了跨學(xué)科數(shù)據(jù)再利用價值。
2.3.3彈性存儲
DataStaR彈性存儲政策未強制要求科研人員提交數(shù)據(jù),科研人員自愿發(fā)布數(shù)據(jù)集到學(xué)科庫或機構(gòu)庫,彈性存儲政策尊重研究人員的使用習(xí)慣,豐富了機構(gòu)庫的學(xué)術(shù)成果,贏得了學(xué)術(shù)界和科研人員的尊重,培養(yǎng)了用戶忠誠度,建立了DataStaR與科研人員長遠的伙伴關(guān)系。
2.3.4小科學(xué)數(shù)據(jù)監(jiān)護
DataStaR是基于小科學(xué)數(shù)據(jù)監(jiān)護需求與服務(wù)缺失的矛盾背景下誕生的??蒲腥藛T需要平臺與服務(wù)來監(jiān)護“小科學(xué)”數(shù)據(jù)集以促進數(shù)據(jù)共享與發(fā)布;小科學(xué)數(shù)據(jù)監(jiān)護存在盲區(qū),缺乏存儲平臺、標準、分享機制與長期再利用策略等。DataStaR作為臨時與過渡性存儲庫無需專門基礎(chǔ)設(shè)施,只需利用機構(gòu)庫與學(xué)科庫現(xiàn)有基礎(chǔ)設(shè)施來進行數(shù)據(jù)存儲、管理和訪問。DataStaR融合了機構(gòu)庫與學(xué)科庫的功能,利用機構(gòu)庫的能力提供訪問支持與數(shù)據(jù)服務(wù),并支持數(shù)據(jù)向長期存儲庫流動。
2.3.5語義網(wǎng)技術(shù)
DataStaR利用語義網(wǎng)技術(shù)描述不同學(xué)科數(shù)據(jù)集,實現(xiàn)基于跨學(xué)科元數(shù)據(jù)標準的元數(shù)據(jù)再利用。研究人員在DataStaR平臺上創(chuàng)建、共享和發(fā)布不同元數(shù)據(jù)標準來描述不同學(xué)科數(shù)據(jù)集,此外,DataStaR使用多個元數(shù)據(jù)標準描述單個數(shù)據(jù)集。因此,語義網(wǎng)技術(shù)支持基于多種元數(shù)據(jù)標準的數(shù)據(jù)描述、元數(shù)據(jù)再利用、以及跨機構(gòu)庫數(shù)據(jù)互通性。
2.3.6局限與不足
(1)數(shù)據(jù)的長期保存。DataStaR階段型存儲庫定位于短期的、暫時性的數(shù)據(jù)集存儲點,兼有一般機構(gòu)庫和學(xué)科庫的特征,DataStaR不能承擔數(shù)據(jù)集長期保存任務(wù),備份數(shù)據(jù)集的元數(shù)據(jù),可供科研人員再利用高質(zhì)量元數(shù)據(jù),促進數(shù)據(jù)向長期存儲庫流動。
(3)服務(wù)功能的完善。DataStaR是數(shù)據(jù)向長期保存過渡階段的臨時存儲庫,兼有學(xué)科庫與機構(gòu)庫功能,不具有數(shù)據(jù)監(jiān)護中更新、分析、處理、可視化等功能,DataStaR注重數(shù)據(jù)監(jiān)護的發(fā)展,如:數(shù)據(jù)服務(wù)咨詢、數(shù)據(jù)管理規(guī)劃、數(shù)據(jù)保存標準制定、與數(shù)字倉儲構(gòu)建等方面,因此,DataStaR是數(shù)據(jù)監(jiān)護發(fā)展的基礎(chǔ),DataStaR未來需完善平臺服務(wù)功能。
美國數(shù)據(jù)監(jiān)護平臺研究表明,在平臺功能、數(shù)據(jù)規(guī)范、組織管理、版權(quán)管理、系統(tǒng)選取、平臺服務(wù)、安全保障等方面擁有成熟的技術(shù)與規(guī)范的流程標準。而國內(nèi)研究數(shù)據(jù)監(jiān)護時間短,數(shù)據(jù)監(jiān)護實踐處于探索與借鑒階段,個別高校實施了平臺試點建設(shè),具有代表性數(shù)據(jù)監(jiān)護平臺包括復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺與中國社會調(diào)查開放數(shù)據(jù)庫,復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺軟件是Dataverse Network漢化及二次開發(fā),其平臺任務(wù)是收集、整理和開發(fā)中國社會經(jīng)濟發(fā)展數(shù)據(jù),提供數(shù)據(jù)保存、處理、共享等基礎(chǔ)服務(wù);中國社會調(diào)查開放數(shù)據(jù)庫收集、整理、存儲與發(fā)布國內(nèi)社會調(diào)查數(shù)據(jù),僅提供數(shù)據(jù)存儲、檢索、瀏覽、下載服務(wù)。
由此可見,與美國平臺相比,國內(nèi)平臺構(gòu)建存在滯后性與差距性,主要表現(xiàn)為以下方面:缺乏監(jiān)護綜合數(shù)據(jù)的完善服務(wù)功能;缺乏完善的數(shù)據(jù)監(jiān)護政策體系;缺少統(tǒng)一元數(shù)據(jù)標準與規(guī)范;缺乏配套的教育培訓(xùn)方案、缺乏平臺、機構(gòu)、國家之間合作交流機制等問題。因此,國內(nèi)平臺應(yīng)從平臺功能、政策支持、數(shù)據(jù)標準、教育培訓(xùn)與合作交流借鑒美國數(shù)據(jù)監(jiān)護平臺建設(shè)的經(jīng)驗,開發(fā)出中國特色的數(shù)據(jù)監(jiān)護平臺。
由于國內(nèi)外數(shù)據(jù)監(jiān)護構(gòu)建的環(huán)境存在差異性,我國不能直接移植美國平臺與策略,需借鑒美國平臺構(gòu)建經(jīng)驗,發(fā)展具有本土特色的數(shù)據(jù)監(jiān)護平臺。筆者主要基于美國數(shù)據(jù)監(jiān)護平臺構(gòu)建的文獻調(diào)研結(jié)果基礎(chǔ),從平臺功能、政策支持、數(shù)據(jù)標準、教育教育培訓(xùn)與合作交流方面,提出國內(nèi)高校數(shù)據(jù)監(jiān)護平臺構(gòu)建的參考建議。
4.1平臺功能
根據(jù)數(shù)據(jù)監(jiān)護生命周期理論,高??茖W(xué)數(shù)據(jù)監(jiān)護平臺應(yīng)具有數(shù)據(jù)收集、評價、組織、處理、描述、訪問、再利用功能。這些功能歸納為兩類功能基本功能與附加功能,其中基本功能包括數(shù)據(jù)管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)共享等;附加功能包括版本管理、數(shù)據(jù)標引、數(shù)據(jù)模板、數(shù)據(jù)引用、在線分析、數(shù)據(jù)更新、子集提取等。
4.2政策支持
高校數(shù)據(jù)監(jiān)護平臺構(gòu)建應(yīng)遵循政策體系,完善的數(shù)據(jù)監(jiān)護政策體系保障了數(shù)據(jù)監(jiān)護平臺有效運行與服務(wù)功能實現(xiàn)。數(shù)據(jù)監(jiān)護政策體系涉及內(nèi)容較多,如:數(shù)據(jù)治理(受限訪問、知識產(chǎn)權(quán))、數(shù)據(jù)使用、數(shù)據(jù)共享政策等,完善的政策體系規(guī)范了數(shù)據(jù)監(jiān)護服務(wù),保障了平臺服務(wù)功能實現(xiàn)。
4.3數(shù)據(jù)標準
統(tǒng)一數(shù)據(jù)標準有利于跨系統(tǒng)的數(shù)據(jù)交流與共享,并與國際數(shù)據(jù)監(jiān)護平臺無縫連接,實現(xiàn)國際平臺合作交流與共享。我國平臺建設(shè)應(yīng)采用國際規(guī)范的數(shù)據(jù)標準(元數(shù)據(jù)標準DDI與DDL)以實現(xiàn)未來平臺間的數(shù)據(jù)交流與交換。目前國內(nèi)數(shù)據(jù)標準涉及數(shù)據(jù)分類、引用、轉(zhuǎn)換、保存等規(guī)范或標準并沒有明確的規(guī)定,阻礙了平臺間合作交流。
4.4教育培訓(xùn)
研究人員的數(shù)據(jù)素養(yǎng)與數(shù)據(jù)監(jiān)護平臺服務(wù)功能相互影響、共同促進。而科研人員的數(shù)據(jù)素養(yǎng)與數(shù)據(jù)監(jiān)護意識的教育和培養(yǎng)需納入平臺建設(shè),如:通過數(shù)據(jù)監(jiān)護課程、虛擬社區(qū)與研討會等形式提供數(shù)據(jù)保存、收集、使用等基本數(shù)據(jù)監(jiān)護知識;在線幫助與指導(dǎo)研究人員協(xié)同科研、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)分析等。數(shù)據(jù)監(jiān)護的教育與培訓(xùn)有利于提高研究人員的數(shù)據(jù)素養(yǎng),培養(yǎng)研究人員的數(shù)據(jù)監(jiān)護能力,研究人員的數(shù)據(jù)素養(yǎng)與數(shù)據(jù)監(jiān)護平臺服務(wù)功能相互影響與促進。
4.5合作交流
我國高校數(shù)據(jù)監(jiān)護平臺構(gòu)建與實施需要人、機構(gòu)、高校、國家之間的合作與交流,合作與交流的目的為了人才、技術(shù)、資金、設(shè)施、數(shù)據(jù)等優(yōu)化配置,實現(xiàn)資源最大化利用。如:哈佛大學(xué)—麻省理工大學(xué)數(shù)據(jù)中心HMDC、復(fù)旦大學(xué)與哈佛大學(xué)合作的Dataverse Network漢化版,合作與交流擴大了數(shù)據(jù)共享范圍,保障了服務(wù)質(zhì)量,豐富了共享資源,提高了資源利用率。
參考文獻:
[1]Witt M.Institutional repositories and research data curation in a distributed environment[J].Library Trends,2008,57(2):191-201.
[2]Heidorn P B.The emerging role of libraries in data curation and e-science[J].Journal of Library Administration,2011,51 (7-8):662-672.
[3]宋秀芬,鄧仲華.數(shù)據(jù)監(jiān)護的知識技能與教育研究[J].圖書館學(xué)研究,2014(21):5-11.
[4]鄧仲華,宋秀芬.信息資源云的數(shù)據(jù)監(jiān)護研究[J].圖書館學(xué)研究,2014(17):45-52.
[5]宋秀芬,鄧仲華,金勇.高校圖書館數(shù)據(jù)監(jiān)護的流程管理研究[J].圖書館學(xué)研究,2015(5):6.
[6]楊鶴林.從數(shù)據(jù)監(jiān)護看美國高校圖書館的機構(gòu)庫建設(shè)新思路——來自 DataStaR的啟示 [J].大學(xué)圖書館學(xué)報,2012 (2):23-28.
[7]殷沈琴,張計龍,張瑩,等.社會科學(xué)數(shù)據(jù)管理服務(wù)平臺系統(tǒng)選型研究——以復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺為例[J].圖書情報工作,2013,57(19):92-96.
[8]賴劍菲,洪正國.對高??茖W(xué)數(shù)據(jù)管理平臺建設(shè)的建議[J].圖書情報工作,2013,57(6):23-27.
[9]覃丹.英美社會科學(xué)數(shù)據(jù)管理與共享服務(wù)平臺調(diào)查分析[J].圖書情報工作,2014,58(16):67-75.
[10]王玉林,曾詠梅,崔然,等.我國高校圖書館面向社會開放現(xiàn)狀調(diào)查[J].圖書與情報,2012(6):26-32.
[11]Mayernik M,Choudhury G S,DiLauro T,et al.The data conservancy instance:Infrastructure and organizational services for research data curation[J].D-Lib Magazine,2012,18(9):2.
[12]Hanisch R,Choudhury S.The Data Conservancy:Building a Sustainable System for Interdisciplinary Scientific Data Curation and Preservation[J/OL].[2015-03-20].http://jhir.library jhu.edul/handle/1774.2/34018.
[13]王娟.基于美國經(jīng)驗的我國高校圖書館科學(xué)數(shù)據(jù)管理發(fā)展路徑探析[J].湖南社會科學(xué),2014(3):226-228.
[14] King G.An introduction to the Dataverse Network as an infrastructure for data sharing[J].Sociological Methods&Resear ch,2007,36(2):173-199.
[15]Crosas M.The dataverse network?:an open-source application for sharing,discovering and preserving data[J].D-lib Magazine,2011,17(1):2.
[16]Altman M,Adams M O,Crabtree J,et al.Digital preservation through archival collaboration:The data preservation alliance for the social sciences[J].American Archivist,2009,72(1):170-184.
[17]Firebaugh G.Replication Data Sets and Favored-Hypothesis Bias Comment on Jeremy Freese(2007)and Gary King(2007)[J].Sociological methods&research,2007,36(2):200-209.
[18]Crosas M.A data sharing story[J].Journal of eScience Librarianship,2013,1(3):7.
[19]Steinhart G,Dietrich D,Green A.Establishing trust in a chain of preservation:The TRAC checklist applied to a datastaging repository(DataStaR)[J].D-Lib Magazine,2009,15(9/10).
[20] Weinberg J,Snavely A.Symbiotic space-sharing on sdsc’s datastar system[C].Job Scheduling Strategies for Parallel Processing.Springer Berlin Heidelberg,2007:192-209.
[21]Lowe B.Datastar:Bridging XML and OWL in science metadata management[M].Metadata and Semantic Research.Springer Berlin Heidelberg,2009:141-150.
[22]Steinhart G.DataStaR:A Data Sharing and Publication Infrastructure to Support Research[Article and Abstract][J].A-gricultural Information Worldwide,2011,4(1):16-20.
[23] Mayernik M S,Thompson C A,Williams V,et al.Enriching Education with Exemplars in Practice:Iterative Development of Data Curation Internships[J].International Journal of Digital Curation,2015,10(1):123-134.
[24]XIE J,CHEN Y.Research on the curation of scientific dada home and abroad[J].Journal of Academic Library and Information Science,2014(4):25.
[25]Mendoza C,Boswell J S,Ajoku D C,et al.AtomPy:An Open Atomic Data Curation Environment for Astrophysical Applications[J].Atoms,2014,2(2):123-156.
[26] 羅英.共享與善治:質(zhì)量公共服務(wù)對質(zhì)量監(jiān)管效果的影響——基于我國宏觀質(zhì)量觀測數(shù)據(jù)的實證分析[J].宏觀質(zhì)量研究,2013,1(1):59-67.
[27]程虹,陳川.2013年我國質(zhì)量學(xué)術(shù)研究的現(xiàn)狀與進展--宏觀視野,共同治理與數(shù)據(jù)積累[J].宏觀質(zhì)量研究,2014,2 (1):11-29.
[28]Davidson J,Hank C.International data curation education action(IDEA)working group:a report from the second workshop of IDEA[J].D-Lib Magazine,2009,15(3/4).
[29]Orchard S,Kerrien S,Abbani S,et al.Protein interaction data curation:the International Molecular Exchange(IMEx)consortium[J].Nature methods,2012,9(4):345-350.
[30]Witt M,Carlson J,Brandt D S,et al.Constructing data curation profiles[J].International Journal of Digital Curation,2009,4(3):93-103.
中圖分類號:
G203文獻標識碼:
ADOI:
10.11968/tsygb.1003-6938.2015068作者簡介:
宋秀芬(1982-),女,武漢大學(xué)信息管理學(xué)院情報學(xué)博士研究生;鄧仲華(1957-),男,武漢大學(xué)信息管理學(xué)院教授。*本文系
國家自然科學(xué)基金資助項目“大數(shù)據(jù)環(huán)境下面向科學(xué)研究第四范式的信息資源云研究”(項目編號:71373191)研究成果之一。收稿日期:
2015-04-03;責(zé)任編輯:魏志鵬Data Curation Platforms in American University:Research and Reference
Abstract
This paper analyzes the features,functions and limitations among Johns Hopkins University DC,Harvard University DVN,and Cornell University DataStaR platform.Based on the problem of domestic data curation platform, the paper provides the advice for constructing domestic data curation platform by comparing platform function,policy support,data standard,education&training and cooperation of the three data curation platforms in US.Key words
data curation platform;data eeferencing;data standard;data sharing