陳秀娟,吳鳴,胡卉
?
嵌入科研工作流的圖書館數(shù)據(jù)管理服務(wù)——以化學(xué)學(xué)科為例
陳秀娟,吳鳴,胡卉
摘要在數(shù)據(jù)開放獲取背景下,文章以化學(xué)學(xué)科為研究對(duì)象,提出基于化學(xué)科研工作流的數(shù)據(jù)生命周期,分析每一階段化學(xué)研究人員面臨的挑戰(zhàn)和問題并以此作為服務(wù)切入點(diǎn),設(shè)計(jì)嵌入化學(xué)科研工作流不同階段的圖書館數(shù)據(jù)管理服務(wù)模式,最終策劃化學(xué)科研工作中圖書館可提供的服務(wù),為我國(guó)圖書館開展嵌入科研工作流的數(shù)據(jù)服務(wù)提供思考和借鑒。
關(guān)鍵詞科研工作流研究人員圖書館數(shù)據(jù)管理服務(wù)化學(xué)
引用本文格式陳秀娟,吳鳴,胡卉.嵌入科研工作流的圖書館數(shù)據(jù)管理服務(wù)——以化學(xué)學(xué)科為例[J].圖書館論壇,2016(3):49- 55,102.
Library Data Management Services Embedded in Research Workflow——Taking Chemistry as an Example
CHEN Xiu- juan,WU Ming,HU Hui
Abstract This article takes chemistry as the research subject in the context of open access to data and proposes the data life circle regarding to the chemistry research workflow. It analyzes the challenges and issues that chemistry scholars encounter at every stage of scientific research,designs the corresponding library data management service models,and presents the final applicable planning of library services for chemistry research. Thus,reflections and references are provided for Chinese domestic libraries to implement data services built in research workflow.
Keywords research workflow;researcher;library;data management service;chemistry
近年,開放科研數(shù)據(jù)受到各界重視,國(guó)際組織、資助機(jī)構(gòu)、期刊出版商等紛紛發(fā)布科研數(shù)據(jù)的開放獲取政策。圖書館作為重要的信息、情報(bào)、知識(shí)服務(wù)機(jī)構(gòu),在科研數(shù)據(jù)共享中已主動(dòng)承擔(dān)起責(zé)任。在國(guó)外,哈佛大學(xué)、牛津大學(xué)、斯坦福大學(xué)等很多高校圖書館開展了科研數(shù)據(jù)管理服務(wù);我國(guó)少數(shù)幾個(gè)高校,如復(fù)旦大學(xué)、武漢大學(xué)、北京大學(xué)的圖書館也開始嘗試提供科研數(shù)據(jù)管理服務(wù)。綜合分析國(guó)內(nèi)外圖書館數(shù)據(jù)管理服務(wù)的現(xiàn)狀,發(fā)現(xiàn)多數(shù)圖書館的服務(wù)是面向數(shù)據(jù)管理生命周期(Data Management Lifecycle)的。另外,還有一些圖書館開展了面向科研生命周期(Research Lifecycle)的數(shù)據(jù)管理服務(wù),如巴斯大學(xué)圖書館[1]羅列了在項(xiàng)目啟動(dòng)前、進(jìn)展中以及結(jié)題后研究人員需要特別注意的問題;弗吉尼亞大學(xué)圖書館[2]展示了科研生命周期和數(shù)據(jù)生命周期的關(guān)系,并列出了科研項(xiàng)目過程中研究人員需要進(jìn)行的數(shù)據(jù)管理活動(dòng)。圖書館作為提供數(shù)據(jù)管理服務(wù)的主體,只有真正融入研究人員的項(xiàng)目工作流中才能提供切合實(shí)際的服務(wù),但鮮有圖書館強(qiáng)調(diào)圖書館員嵌入式的數(shù)據(jù)管理服務(wù)。
目前已經(jīng)有部分學(xué)者提倡學(xué)科館員、研究人員、信息專家等之間協(xié)同及嵌入科研工作流進(jìn)行科研數(shù)據(jù)管理。Minglu Wang指出,圖書館員應(yīng)較早與研究人員或?qū)W生建立密切關(guān)系,這樣可以及時(shí)發(fā)現(xiàn)自己所需技能及領(lǐng)域知識(shí)的不足并進(jìn)行相應(yīng)的培訓(xùn)和學(xué)習(xí);而在數(shù)據(jù)管理方面,數(shù)據(jù)服務(wù)館員可以指導(dǎo)研究人員或?qū)W生管理數(shù)據(jù),以更好地開展科研實(shí)踐[3]。Anna Gold討論了在數(shù)據(jù)圖書館事業(yè)中圖書館員所扮演的角色,其中一種是數(shù)據(jù)科學(xué)“上游”(Upstream)的角色,即作為科研過程密切的合作者,圖書館員可能會(huì)參與創(chuàng)建數(shù)據(jù)監(jiān)護(hù)模型,支持?jǐn)?shù)據(jù)文檔、標(biāo)準(zhǔn)等的使用以及建立支持科研工作流預(yù)出版的動(dòng)態(tài)數(shù)據(jù)倉(cāng)儲(chǔ)等[4]。肖瀟、呂俊生對(duì)嵌入式學(xué)科化科學(xué)數(shù)據(jù)服務(wù)進(jìn)行了研究,提出了學(xué)科館員參與學(xué)科數(shù)據(jù)服務(wù)的形式,包括過程嵌入、人員嵌入和平臺(tái)工具嵌入[5]。iSchool基于Atkinson等人[6]所述的“坡道”(Ramp,通過深入群體和接觸新的群體擴(kuò)大交流的方法)概念提出了數(shù)據(jù)能力坡道模型,見圖1[7],展示了iSchool通過與數(shù)據(jù)科學(xué)家、領(lǐng)域?qū)<?、學(xué)生之間的相互協(xié)作提高數(shù)據(jù)技能、能力和實(shí)踐經(jīng)驗(yàn)的方法。這些研究雖然都提到了圖書館員參與科研過程從而進(jìn)行服務(wù)的理念,但并沒有對(duì)具體的服務(wù)模式作進(jìn)一步研究。而,目前化學(xué)領(lǐng)域還沒有為實(shí)現(xiàn)化學(xué)數(shù)據(jù)的廣泛存取提供有效的科研數(shù)據(jù)管理和存儲(chǔ)服務(wù)。本文以化學(xué)學(xué)科為研究對(duì)象,分析化學(xué)科研工作流中的數(shù)據(jù)管理生命周期和每一階段的服務(wù)切入點(diǎn),汲取目前國(guó)內(nèi)外圖書館科研數(shù)據(jù)管理服務(wù)的經(jīng)驗(yàn)與啟示,基于學(xué)科館員、研究人員等多方協(xié)作的理念設(shè)計(jì)嵌入化學(xué)科研工作流的圖書館數(shù)據(jù)管理服務(wù),以期為我國(guó)圖書館開展相應(yīng)的數(shù)據(jù)服務(wù)提供思考和借鑒。
圖1 iSchool能力坡道模型
以化學(xué)學(xué)科為例,在化學(xué)領(lǐng)域,實(shí)驗(yàn)室科研工作流中產(chǎn)生了大量數(shù)據(jù),但缺乏對(duì)實(shí)驗(yàn)數(shù)據(jù)集的管理和發(fā)表。在開放數(shù)據(jù)的挑戰(zhàn)下,化學(xué)領(lǐng)域研究人員需要遵從各種數(shù)據(jù)共享政策的要求。然
科研數(shù)據(jù)的開放獲取讓化學(xué)領(lǐng)域研究人員有了新的科研壓力,學(xué)科館員需發(fā)揮其在數(shù)據(jù)檢索、數(shù)據(jù)組織、數(shù)據(jù)共享等方面的專業(yè)優(yōu)勢(shì),融入化學(xué)研究實(shí)際工作,從整體層面理解用戶的科研工作流,為其提供嵌入整個(gè)科研工作流的數(shù)據(jù)服務(wù)。
1.1化學(xué)科研工作流與數(shù)據(jù)管理生命周期
美國(guó)地球觀測(cè)衛(wèi)星委員會(huì)信息系統(tǒng)與服務(wù)工作組(Committee on Earth Observation Satellites (CEOS) Working Group on Information Systems and Services (WGISS))2011年發(fā)布
CEOS Data Life Cycle Models and Concepts[8],其中收集了44種較有代表性的數(shù)據(jù)生命周期模型和數(shù)據(jù)管理生命周期模型,有些是科研機(jī)構(gòu)或圖書館定義的,有些是面對(duì)某個(gè)學(xué)科領(lǐng)域的,還有部分是針對(duì)某個(gè)項(xiàng)目的,生命周期的定義稍有差異。綜合書中44種生命周期案例,筆者從科研項(xiàng)目實(shí)施的角度將化學(xué)數(shù)據(jù)管理生命周期分為3個(gè)大的階段:項(xiàng)目啟動(dòng)前的數(shù)據(jù)管理計(jì)劃(Data Management Plan,DMP),項(xiàng)目進(jìn)展中的數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)保存和項(xiàng)目結(jié)題后的數(shù)據(jù)發(fā)表,參見圖2。
1.2化學(xué)科研數(shù)據(jù)管理服務(wù)切入點(diǎn)
圖2化學(xué)科研工作流與數(shù)據(jù)管理生命周期
處于科研項(xiàng)目工作流的不同階段,研究人員所面臨的數(shù)據(jù)管理問題和挑戰(zhàn)也不相同。本文基于化學(xué)科研數(shù)據(jù)管理生命周期的3個(gè)階段,結(jié)合國(guó)內(nèi)外科研數(shù)據(jù)管理的經(jīng)驗(yàn),對(duì)研究人員可能面臨的問題進(jìn)行分析,基于圖書館解決用戶問題的角度,將其作為圖書館探索嵌入化學(xué)科研工作流的數(shù)據(jù)管理服務(wù)的切入點(diǎn)。
1.2.1項(xiàng)目啟動(dòng)前的數(shù)據(jù)服務(wù)切入點(diǎn)
越來越多的資助機(jī)構(gòu)要求其資助的項(xiàng)目能夠在項(xiàng)目研究過程中、結(jié)題或資助周期結(jié)束后對(duì)科研數(shù)據(jù)進(jìn)行規(guī)范的保存和管理。如為響應(yīng)美國(guó)國(guó)家科學(xué)基金會(huì)(NationalScience Foundation,NSF)開放數(shù)據(jù)的政策,NSF化學(xué)部規(guī)定:“2011年1 月18日之后提交到化學(xué)部的項(xiàng)目申請(qǐng)書需包含一份不超過2頁(yè)的數(shù)據(jù)管理計(jì)劃,且研究人員應(yīng)在合適的時(shí)間范圍內(nèi),將數(shù)據(jù)及相關(guān)的補(bǔ)充信息發(fā)表到同行評(píng)議的期刊或?qū)?shù)據(jù)保存到化學(xué)領(lǐng)域提供數(shù)據(jù)訪問的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)儲(chǔ)中?!盵9]在正式展開科研項(xiàng)目之前,化學(xué)研究人員需明確資助機(jī)構(gòu)的數(shù)據(jù)共享政策,并制定一個(gè)包含數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)備份和數(shù)據(jù)存儲(chǔ)等元素的數(shù)據(jù)管理計(jì)劃。越早制定數(shù)據(jù)管理計(jì)劃,越能幫助研究人員在創(chuàng)建、存儲(chǔ)和共享數(shù)據(jù)中做出正確的決定。而對(duì)處于科研一線的研究人員,制定一份高質(zhì)量的數(shù)據(jù)管理計(jì)劃無疑是一個(gè)很大的挑戰(zhàn)。
1.2.2項(xiàng)目進(jìn)展中的數(shù)據(jù)服務(wù)切入點(diǎn)
化學(xué)科研項(xiàng)目開展過程中涉及的數(shù)據(jù)管理流程包括數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲(chǔ)。
(1)數(shù)據(jù)收集:①研究人員需檢索是否存在與項(xiàng)目相關(guān)的數(shù)據(jù),確認(rèn)它們是否可以在項(xiàng)目中重用以及重用的方法;②項(xiàng)目數(shù)據(jù)的創(chuàng)建和收集,研究人員需明確產(chǎn)生數(shù)據(jù)的類型、格式,進(jìn)而確定數(shù)據(jù)創(chuàng)建、收集的方法并選擇合適的數(shù)據(jù)收集工具。
(2)數(shù)據(jù)組織:①文件命名。研究人員需對(duì)研究項(xiàng)目中產(chǎn)生的大量數(shù)據(jù)和文件進(jìn)行組織,如果數(shù)據(jù)和文件組織不規(guī)范,隨著時(shí)間的推移,數(shù)據(jù)將變得混亂無序、難以掌控,因此使用文件層次體系結(jié)構(gòu)、統(tǒng)一規(guī)范命名規(guī)則,可以減少數(shù)據(jù)處理中的錯(cuò)誤。②版本控制。在數(shù)據(jù)分析處理的過程中,數(shù)據(jù)可能會(huì)有多個(gè)版本,通過控制文件的版本,可以避免對(duì)過時(shí)的文件進(jìn)行操作,或者錯(cuò)誤地刪除了最終版本,項(xiàng)目組的所有成員都應(yīng)使用相同的版本。③元數(shù)據(jù)。選擇合適的元數(shù)據(jù)標(biāo)注數(shù)據(jù),可實(shí)現(xiàn)數(shù)據(jù)的檢索,確保數(shù)據(jù)在現(xiàn)在和未來都可理解,并在無需瀏覽所有數(shù)據(jù)集的情況下,能夠正確解讀數(shù)據(jù)的背景信息。但需注意的是,不同的數(shù)據(jù)類型有不同的元數(shù)據(jù)標(biāo)準(zhǔn),如晶體信息框架(Crystallographic Information Framework,CIF)是專門針對(duì)晶體信息存檔和傳播過程結(jié)構(gòu)化和標(biāo)準(zhǔn)化描述的元數(shù)據(jù)標(biāo)準(zhǔn)。
(3)數(shù)據(jù)分析:主要根據(jù)數(shù)據(jù)的類型以及預(yù)期結(jié)果選擇合適的工具進(jìn)行分析、處理科研數(shù)據(jù)。
(4)數(shù)據(jù)存儲(chǔ):為避免數(shù)據(jù)的丟失,在一定的時(shí)間間隔應(yīng)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和備份,不同項(xiàng)目組對(duì)科研過程中產(chǎn)生的數(shù)據(jù)有不同的保存途徑和工具,如紙質(zhì)實(shí)驗(yàn)室記錄本、電子實(shí)驗(yàn)室記錄本(Electronic Lab Notebook,ELN)、個(gè)人電腦、課題組電腦、服務(wù)器、U盤或硬盤、網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)等。
基于研究人員在項(xiàng)目進(jìn)展中的數(shù)據(jù)管理流程和目前化學(xué)研究人員數(shù)據(jù)管理的現(xiàn)狀,在科研數(shù)據(jù)共享的大背景下,將研究人員可能面臨的數(shù)據(jù)管理問題總結(jié)為表1。
表1項(xiàng)目進(jìn)展過程中化學(xué)研究人員面臨的數(shù)據(jù)管理問題
1.2.3項(xiàng)目結(jié)題后的數(shù)據(jù)服務(wù)切入點(diǎn)
化學(xué)科研項(xiàng)目結(jié)題后,研究人員對(duì)原始數(shù)據(jù)的處理有多種方式:(1)對(duì)于無價(jià)值的數(shù)據(jù),可能不需要繼續(xù)保存,使用后直接刪除;(2)對(duì)于不宜公開、需隱私保護(hù)的敏感數(shù)據(jù),如新材料、新藥品研發(fā)的相關(guān)數(shù)據(jù),可能會(huì)選擇自行保存或項(xiàng)目組集中保存。
對(duì)于那些可共享的數(shù)據(jù),目前主要有以下3種發(fā)表形式(見圖2)。
(1)科研數(shù)據(jù)獨(dú)立發(fā)表。數(shù)據(jù)直接共享給專門的數(shù)據(jù)倉(cāng)儲(chǔ),如將實(shí)驗(yàn)中產(chǎn)生的小分子晶體結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)到劍橋晶體數(shù)據(jù)中心[10](Cambridge Crystallographic Data Centre,CCDC);(2)以數(shù)據(jù)論文(Data Paper)的方式發(fā)表。主要對(duì)科研數(shù)據(jù)進(jìn)行描述,并以論文形式發(fā)表,原始數(shù)據(jù)提交到推薦的數(shù)據(jù)倉(cāng)儲(chǔ)中;(3)科研數(shù)據(jù)依附出版物發(fā)表。作為支撐論文內(nèi)容的材料,主要以兩種形式存在,一種是論文發(fā)表時(shí)把相關(guān)數(shù)據(jù)提交到數(shù)據(jù)倉(cāng)儲(chǔ)中,通過數(shù)據(jù)唯一標(biāo)識(shí)符與論文關(guān)聯(lián);另一種是數(shù)據(jù)作為論文的補(bǔ)充材料同論文一并發(fā)表。
將科研數(shù)據(jù)發(fā)表以實(shí)現(xiàn)共享逐漸成為研究人員處理原始數(shù)據(jù)的主流趨勢(shì),很多資助機(jī)構(gòu)相繼提出了數(shù)據(jù)共享要求,但數(shù)據(jù)共享環(huán)境給研究人員提出新的要求同時(shí)也帶來了很多挑戰(zhàn),主要有:(1)化學(xué)科研數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)量繁多、質(zhì)量參差不齊,給研究人員對(duì)權(quán)威倉(cāng)儲(chǔ)的選擇增加了難度[11];(2)化學(xué)數(shù)據(jù)類型多樣,而數(shù)據(jù)倉(cāng)儲(chǔ)對(duì)數(shù)據(jù)格式的要求又沒有統(tǒng)一的標(biāo)準(zhǔn),給研究人員增加了科研壓力;(3)目前化學(xué)領(lǐng)域已有3個(gè)數(shù)據(jù)期刊(Journal of Chemical and Engineering Data[12],Journal of Physical and Chemical Research Data[13],JournalofPhysical and Chemical Reference Data[14])。數(shù)據(jù)期刊屬于新型的科研成果出版形式,研究人員對(duì)其較為陌生;(4)化學(xué)學(xué)術(shù)期刊數(shù)據(jù)政策復(fù)雜,難以把握,而且化學(xué)是一門交叉性很強(qiáng)的學(xué)科,期刊數(shù)據(jù)要求涉及多種學(xué)科,如美國(guó)化學(xué)學(xué)會(huì)(American ChemicalSociety,ACS)出版的49種期刊,每一種期刊的數(shù)據(jù)政策都不相同,而且要求存儲(chǔ)的數(shù)據(jù)與生物科學(xué)、材料科學(xué)、物理科學(xué)等多種學(xué)科交叉[15],研究人員在發(fā)表學(xué)術(shù)論文時(shí),必須清晰梳理期刊的數(shù)據(jù)要求。
基于上述化學(xué)領(lǐng)域研究人員在科研項(xiàng)目中面臨的科研數(shù)據(jù)管理問題,筆者從嵌入科研工作流的角度提出針對(duì)每一階段問題的數(shù)據(jù)管理服務(wù),并從服務(wù)形式、服務(wù)內(nèi)容、服務(wù)時(shí)間、服務(wù)途徑、支持服務(wù)的工具和資源、嵌入機(jī)制、收集用戶反饋的途徑等7個(gè)方面對(duì)每一種服務(wù)進(jìn)行細(xì)化,形成具體的服務(wù)模式。
2.1項(xiàng)目啟動(dòng)前的數(shù)據(jù)服務(wù)模式
良好的數(shù)據(jù)管理計(jì)劃有助于推動(dòng)科研項(xiàng)目的有序開展,無論從政策上還是在實(shí)際科研過程中都需要研究人員撰寫一份高質(zhì)量的數(shù)據(jù)管理計(jì)劃。項(xiàng)目啟動(dòng)之前,圖書館可以利用自身優(yōu)勢(shì)通過數(shù)據(jù)素養(yǎng)教育、咨詢、資源推送、計(jì)劃資源導(dǎo)航協(xié)助他們制定數(shù)據(jù)管理計(jì)劃。服務(wù)的內(nèi)容包括介紹數(shù)據(jù)管理計(jì)劃政策、提供數(shù)據(jù)管理計(jì)劃指南、提供數(shù)據(jù)管理計(jì)劃要素、提供數(shù)據(jù)管理計(jì)劃模板(如美國(guó)麻州大學(xué)醫(yī)學(xué)院的化學(xué)數(shù)據(jù)管理計(jì)劃模板)、介紹數(shù)據(jù)管理計(jì)劃工具(目前常用的數(shù)據(jù)管理計(jì)劃工具有加利福尼亞數(shù)字圖書館等開發(fā)的DMPonline[16]和英國(guó)DCC開發(fā)的DMPTool[17])等,具體服務(wù)模式見表2。
表2化學(xué)科研數(shù)據(jù)管理計(jì)劃服務(wù)模式
2.2項(xiàng)目進(jìn)展中的數(shù)據(jù)服務(wù)模式
項(xiàng)目實(shí)施過程是數(shù)據(jù)產(chǎn)生的主要階段,也是數(shù)據(jù)管理活動(dòng)比較重要和復(fù)雜的一環(huán),數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲(chǔ)(指短期存儲(chǔ))中的任何一個(gè)環(huán)節(jié)都會(huì)影響項(xiàng)目數(shù)據(jù)的質(zhì)量和最終科研成果及科研數(shù)據(jù)的發(fā)表。基于表1項(xiàng)目進(jìn)展過程中化學(xué)研究人員面臨的數(shù)據(jù)管理問題,圖書館可提供與項(xiàng)目啟動(dòng)前階段相同的4種服務(wù),只是在服務(wù)內(nèi)容上稍有差異,包括化學(xué)領(lǐng)域文件命名規(guī)則、命名方法和工具(如Bulk Rename Utility (Windows)[18]、Renamer (Mac)[19]、PSRenamer[20]),數(shù)據(jù)文件版本控制方法、工具/系統(tǒng)(如CVS[21]、Subversion[22]、Bazaar[23]),與項(xiàng)目數(shù)據(jù)相關(guān)的元數(shù)據(jù)、創(chuàng)建元數(shù)據(jù)的方法和工具(如Morpho[24]、Dataup[25]),化學(xué)科研數(shù)據(jù)分析方法和工具,數(shù)據(jù)備份方法、工具和系統(tǒng)(如Smart-Copy)。除此之外,圖書館還可以開展化學(xué)科研數(shù)據(jù)發(fā)現(xiàn)、檢索與獲取和化學(xué)科研數(shù)據(jù)階段性存儲(chǔ)兩類服務(wù)。
2.2.1化學(xué)科研數(shù)據(jù)發(fā)現(xiàn)、檢索與獲取服務(wù)
研究人員在開展一個(gè)項(xiàng)目時(shí),首先需檢索是否存在與項(xiàng)目相關(guān)的數(shù)據(jù),如果有相關(guān)數(shù)據(jù),需明確這些數(shù)據(jù)是否可以在項(xiàng)目中重用、如何重用、有哪些需要注意的知識(shí)產(chǎn)權(quán)問題。文獻(xiàn)信息檢索是圖書館的優(yōu)勢(shì),學(xué)科館員可以通過通用搜索引擎、學(xué)科數(shù)據(jù)搜索引擎、學(xué)科數(shù)據(jù)倉(cāng)儲(chǔ)等多種方式開展化學(xué)科研數(shù)據(jù)的發(fā)現(xiàn)、檢索與獲取服務(wù),幫助用戶解決科研數(shù)據(jù)獲取的問題,具體服務(wù)模式見表3。
表3化學(xué)科研數(shù)據(jù)發(fā)現(xiàn)、檢索與獲取服務(wù)模式
2.2.2化學(xué)科研數(shù)據(jù)階段型存儲(chǔ)服務(wù)
對(duì)產(chǎn)生的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和保存,可避免在項(xiàng)目執(zhí)行過程中數(shù)據(jù)的丟失,有利于科研數(shù)據(jù)最終的發(fā)表和共享。比如,美國(guó)康奈爾大學(xué)圖書館面向該校研究人員,以機(jī)構(gòu)庫(kù)為基礎(chǔ),建立了數(shù)據(jù)階段型存儲(chǔ)庫(kù)(Data Staging Repository,DataStaR[30])。作為學(xué)術(shù)界數(shù)據(jù)共享的一個(gè)暫時(shí)的、過渡性的存儲(chǔ)節(jié)點(diǎn),DataStaR擁有可產(chǎn)生多種格式的高質(zhì)量元數(shù)據(jù)的工具,由圖書館員負(fù)責(zé)操作,通過協(xié)助研究人員完善數(shù)據(jù)和元數(shù)據(jù)來促進(jìn)共享,最終積極幫助他們向各自領(lǐng)域的學(xué)科數(shù)據(jù)倉(cāng)儲(chǔ)發(fā)布數(shù)據(jù)成果,以供長(zhǎng)期使用和保存[31]。我國(guó)圖書館可以借鑒國(guó)外圖書館建設(shè)相關(guān)機(jī)構(gòu)科研數(shù)據(jù)倉(cāng)儲(chǔ)的理念及其服務(wù)方式,對(duì)科研數(shù)據(jù)進(jìn)行實(shí)時(shí)跟蹤和處理?;瘜W(xué)科研數(shù)據(jù)階段型存儲(chǔ)服務(wù)的模式見表4。
2.3項(xiàng)目結(jié)題后的數(shù)據(jù)服務(wù)模式
數(shù)據(jù)倉(cāng)儲(chǔ)的選擇、數(shù)據(jù)期刊/學(xué)術(shù)期刊復(fù)雜的數(shù)據(jù)要求等成為化學(xué)研究人員數(shù)據(jù)發(fā)表中必然面對(duì)的問題。目前國(guó)外已有一些圖書館提供機(jī)構(gòu)知識(shí)庫(kù),使用戶可以發(fā)表、保存數(shù)據(jù)集,或幫助研究人員識(shí)別針對(duì)特定資助、學(xué)科、領(lǐng)域的數(shù)據(jù)倉(cāng)儲(chǔ)。比如,麻省理工學(xué)院圖書館在圖書館網(wǎng)站上鏈接了社會(huì)科學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科的一些期刊的數(shù)據(jù)要求,并給用戶提供可存儲(chǔ)數(shù)據(jù)的倉(cāng)儲(chǔ)及查找其他倉(cāng)儲(chǔ)的方法,以幫助研究人員共享科研數(shù)據(jù)[32]。針對(duì)研究人員數(shù)據(jù)發(fā)表的3種主要方式及其挑戰(zhàn),圖書館可通過化學(xué)科研數(shù)據(jù)素養(yǎng)教育服務(wù)、數(shù)據(jù)發(fā)表咨詢服務(wù)、數(shù)據(jù)倉(cāng)儲(chǔ)推送服務(wù)、數(shù)據(jù)發(fā)表資源導(dǎo)航服務(wù)、提供機(jī)構(gòu)數(shù)據(jù)知識(shí)庫(kù)等5種服務(wù)方式幫助化學(xué)科研人員更好地共享科研數(shù)據(jù)。具體服務(wù)模式見表5。
表4化學(xué)科研數(shù)據(jù)階段型存儲(chǔ)服務(wù)模式
表5化學(xué)科研數(shù)據(jù)發(fā)表服務(wù)模式
本文將化學(xué)研究人員在項(xiàng)目啟動(dòng)前、項(xiàng)目進(jìn)展中、項(xiàng)目結(jié)題后面臨的數(shù)據(jù)管理問題作為圖書館服務(wù)的切入點(diǎn),從圖書館嵌入科研工作流的角度設(shè)計(jì)了化學(xué)科研數(shù)據(jù)管理服務(wù)模式,強(qiáng)調(diào)化學(xué)學(xué)科館員需嵌入研究人員的科研環(huán)境,擴(kuò)大整體研究工作流管理的視野,而不能僅僅關(guān)注數(shù)據(jù)集、科研論文、學(xué)術(shù)報(bào)告等最終學(xué)術(shù)成果。只有從整體層面理解科研工作流,才能確定整個(gè)數(shù)據(jù)管理生命周期的科研數(shù)據(jù)、記錄和產(chǎn)出流,找到參與化學(xué)科研過程管理的最佳切入點(diǎn),對(duì)我國(guó)圖書館開展科研數(shù)據(jù)管理服務(wù)有很大的啟示和借鑒意義。本文僅是服務(wù)的設(shè)計(jì),目前,開展具體服務(wù)時(shí)還需注意以下3點(diǎn):(1)目前很多圖書館開展了科研數(shù)據(jù)管理服務(wù)并取得了一定的進(jìn)展,但圖書館提供的數(shù)據(jù)管理服務(wù)要緊密結(jié)合科研項(xiàng)目的具體特點(diǎn),而不能采用一刀切的辦法;(2)本文得出的化學(xué)研究人員在科研工作流中遇到的數(shù)據(jù)管理問題僅僅是結(jié)合國(guó)內(nèi)外科研數(shù)據(jù)管理的經(jīng)驗(yàn),難免會(huì)忽略一些在實(shí)際科研研究過程中才能遇到的問題,因此需要學(xué)科館員在實(shí)踐中不斷發(fā)現(xiàn)問題并進(jìn)行修正和增添服務(wù)內(nèi)容;(3)圖書館在開展服務(wù)時(shí)可以借助Web2.0下的新技術(shù),如圖書館微博、博客及社交網(wǎng)絡(luò)(SNS,如豆瓣)等來實(shí)時(shí)更新圖書館科研數(shù)據(jù)管理服務(wù)進(jìn)展情況,讓更多人了解到該服務(wù)的存在,并獲取更多人群的反饋意見。
參考文獻(xiàn)
[1] University of BATH. Research Data[EB/OL].[2015-08- 22].http://www.bath.ac.uk/research/data/.
[2] University of Virginia library. Research Data Service [EB/OL]. [2015- 08- 22]. http://data.library.virginia. edu/data- management/.
[3] Wang M. L. Supportingthe research processthrough expandedlibrarydataservices[J]. Program,2013,47(3):282- 303.
[4] Gold A K. Cyber infrastructure,data,and libraries,part 2:Libraries and th e data challenge:Roles and actions for libraries[J]. Office of the Dean(Library),2007,13(9/10).
[5]肖瀟,呂俊生.圖書館嵌入式學(xué)科化科學(xué)數(shù)據(jù)服務(wù)研究[J].圖書館學(xué)研究,2012(21):85- 89,73.
[6] Atkinson M,De Roure D,van Hemert J,et al. Shaping ramps for data- intensive research [Z]. Paper presented at the UK eScience All Hands Meeting,CardiffCityHall,2010.
[7] Lyon L,Brenner A. Bridging the Data Talent Gap:Positioning the iSchool as an Agent for Change [J]. International Journal of Digital Curation,2015,10 (1):111- 122.
[8] CEOS Data Life Cycle Models and Concepts[M].[S.l.]:[s.n.],2011:11.
[9] Directorate of Mathematical and Physical Sciences DivisionofChemistry(CHE). Advice to PIs on Data Management Plans[EB/OL]. [2015- 08- 26]. http:// www.nsf.gov/bfa/dias/policy/dmpdocs/che.pdf.
[10] Cambridge CrystallographicDataCentre[EB/OL].[2015-08- 27].http://www.ccdc.cam.ac.uk/pages/Home.aspx.
[11]陳秀娟,吳鳴.學(xué)科領(lǐng)域科研數(shù)據(jù)知識(shí)庫(kù)調(diào)研與分析——以化學(xué)領(lǐng)域?yàn)槔齕J].圖書情報(bào)工作,2015,59 (9):111- 118,147.
[12] Journal of Chemical and Engineering Data [EB/OL]. [2015- 08- 27].http://pubs.acs.org/journal/jceaax.
[13] Journal of Physical and Chemical Research Data[EB/ OL]. [2015- 08- 27]. http://scitation.aip.org/content/ aip/journal/jpcrd/browse.
[14] Journal of Physical and Chemical Reference Data[EB/ OL]. [2015- 08- 27]. http://scitation.aip.org/content/ aip/journal/jpcrd;jsessionid=g8g8oas2ki4n1.x- aip- live - 02.
[15]陳秀娟,吳鳴.學(xué)科領(lǐng)域期刊科研數(shù)據(jù)發(fā)表政策剖析——以美國(guó)化學(xué)學(xué)會(huì)期刊為例[J].中國(guó)科技期刊研究,2015,26(8):800- 807.
[16] DMPonline[EB/OL].[2015- 09- 10]. https://dmponline.dcc.ac.uk/.
[17] DMPTool[EB/OL].[2015- 09- 10]. https://dmptool. org/.
[18] Bulk Rename Utility[EB/OL].[2015- 09- 10]. http:// www.bulkrenameutility.co.uk/Main_Intro.php.
[19] Renamer[EB/OL].[2015- 09- 10].http://renamer.com/.
[20] PSRenamer [EB/OL]. [2015- 09- 10]. http://www. powersurgepub.com/products/psrenamer/index.html.
[21] CVS[EB/OL].[2015- 09- 10].http://www.cvshome.org/.
[22] Subversion[EB/OL].[2015- 09- 10]. https://subversion. apache.org/.
[23] Bazaar[EB/OL].[2015- 09- 10]. http://bazaar.canonical. com/en/.
[24] Morpho[EB/OL].[2015- 09- 10]. https://knb.ecoinformatics.org/#tools/morpho.
[25] Dataup [EB/OL]. [2015- 09- 10]. http://dataup.cdlib. org/.
[26] BASE [EB/OL]. [2015- 09- 10]. http://www.basesearch.net/.
[27] Web of science. Data Citation Index[EB/OL].[2015-09- 10]. http://wokinfo.com/products_tools/multidisciplinary/dci/.
[28] ChemSpider[EB/OL].[2015- 09- 10]. http://www. chemspider.com/.
[29] PubChem[EB/OL].[2015- 09- 10]. https://pubchem. ncbi.nlm.nih.gov/search/.
[30] Datastar[EB/OL].[2015- 09- 10]. http://datastar.mannlib.cornell.edu/.
[31]楊鶴林.從數(shù)據(jù)監(jiān)護(hù)看美國(guó)高校圖書館的機(jī)構(gòu)庫(kù)建設(shè)新思路——來自DataStaR的啟示[J].大學(xué)圖書館學(xué)報(bào),2012(2):23- 28,,73.
[32] MIT Library.Data management[EB/OL].[2015- 09- 10]. http://libraries.mit.edu/data- management/.
收稿日期2015- 09- 29
作者簡(jiǎn)介陳秀娟,女,碩士,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心學(xué)生;吳鳴,女,碩士,研究館員,學(xué)科咨詢服務(wù)部主任;胡卉,女,碩士,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心學(xué)生。