張培風(fēng),張連分(.河海大學(xué)公共管理學(xué)院;.石家莊郵電職業(yè)技術(shù)學(xué)院圖書館)
21世紀(jì)以來,許多大學(xué)、圖書館組織、科學(xué)數(shù)據(jù)中心和科研資助機(jī)構(gòu)聯(lián)合起來,深入開展了科研數(shù)據(jù)生命周期研究,建立了多種數(shù)據(jù)生命周期描述模型,如OAIS功能模型(Reference Model for an Open Archive Information System)、DDI(Data Documentation Initiative)數(shù)據(jù)生命周期模型、DataONE(Data Observation NetworkforEarth)數(shù)據(jù)生命周期模型。這些模型在國際上得到了廣泛應(yīng)用,已經(jīng)成為開展數(shù)據(jù)管理服務(wù)的國際標(biāo)準(zhǔn)或規(guī)范。
幾千年來,人類科學(xué)研究經(jīng)歷了經(jīng)驗范式、理論歸納范式、計算模擬范式三大階段,近年來正在形成數(shù)據(jù)密集型范式,又稱第四范式。[1]19第四范式的首要特點(diǎn)是科研數(shù)據(jù)量大、數(shù)據(jù)處理成本高。幾個世紀(jì)以來的科學(xué)史表明,世界科研產(chǎn)出量呈加速增長的趨勢。從17世紀(jì)中期到18世紀(jì)中期,世界科研產(chǎn)出量每年增加不到1%;18世紀(jì)中期到二戰(zhàn)前,每年增加約2-3%;二戰(zhàn)后至2012年,每年增加約8-9%,大概每9年就會翻一番。[2]特別是天文觀測、實驗物理、基因測序這樣的“大數(shù)據(jù)”學(xué)科,科學(xué)數(shù)據(jù)大約每年翻一番。[3]2016年,歐洲核子研究組織的大型粒子對撞機(jī)所產(chǎn)生的數(shù)據(jù)量甚至比2015年翻了5倍。[4]科研人員撞到了強(qiáng)大的數(shù)據(jù)墻,數(shù)據(jù)處理和分析占據(jù)了科研人員很大精力,一般占到實驗成本的1/4到1/2。科研人員在獲得原始數(shù)據(jù)之后,往往需要成千上萬人編寫幾百萬行代碼用于處理數(shù)據(jù),耗費(fèi)了大量人力物力。[1]20第四范式的第二個重要特點(diǎn)是要求科研成果具備基于數(shù)據(jù)的可復(fù)制性。可復(fù)制性是現(xiàn)代科研的重要特征,好的數(shù)據(jù)管理是實現(xiàn)成果可復(fù)制的關(guān)鍵。研究人員應(yīng)當(dāng)在整個研究周期內(nèi)做好數(shù)據(jù)管理,收集好研究數(shù)據(jù),并詳細(xì)記錄數(shù)據(jù)生成的流程和細(xì)節(jié),使他人能夠按照研究流程重新得到結(jié)果,提高科研的公信力。第四范式的第三個重要特點(diǎn)是科研數(shù)據(jù)可共享。數(shù)據(jù)是現(xiàn)在研究的終點(diǎn)也是將來研究的起點(diǎn)。保存好數(shù)據(jù),保證數(shù)據(jù)可分享,能夠幫助研究人員獲得新的發(fā)現(xiàn),推動研究不斷深入,這樣才會提高科研成果的社會價值,提升科研的效率和效益。
近年來,為適應(yīng)數(shù)據(jù)密集型科研范式的時代要求,許多國家的科研資助機(jī)構(gòu)都制定了學(xué)術(shù)數(shù)據(jù)管理政策,將數(shù)據(jù)管理計劃和數(shù)據(jù)共享作為申請科研資助的必要條件。美國國家科學(xué)基金、國家醫(yī)學(xué)基金、國家人文科學(xué)基金都對數(shù)據(jù)管理提出了明確的政策要求。美國國家科學(xué)基金會(National Science Foundation,NSF)規(guī)定,基金申請人必須提供數(shù)據(jù)管理計劃,說明如何保存和管理科研數(shù)據(jù),必須遵守相關(guān)數(shù)據(jù)分享政策;美國國家醫(yī)學(xué)科學(xué)院(National Institute of Health,NIH)規(guī)定,申請50萬美元以上的研究項目要提供數(shù)據(jù)分享計劃,產(chǎn)生大量數(shù)據(jù)的基因研究項目無論資助額大小都要向后續(xù)項目開放分享數(shù)據(jù);美國國家人文科學(xué)基金會(National Endowment for the Humanities,NEH)要求立項申請書中必須包括數(shù)據(jù)管理計劃,獲獎申請書中也必須包括數(shù)據(jù)管理計劃。[5]英國研究理事會(Research Councils UK,RCUK)和英國威康信托基金會(Wellcome Trust)已經(jīng)出臺了多項數(shù)據(jù)管理政策,鼓勵研究人員盡可能快地以盡可能小的限制公開他們的科研數(shù)據(jù)。英國研究理事會下設(shè)的工程和物理科學(xué)研究理事會(The Engineering and Physical Sciences Research Council,EPSRC)著重對研究機(jī)構(gòu)提出了數(shù)據(jù)分享責(zé)任,要求它們在全部數(shù)據(jù)生命周期上至少提供十年的數(shù)據(jù)管理服務(wù)。[6]加拿大也針對聯(lián)邦資助的科研項目制定了數(shù)據(jù)管理政策。2015年,加拿大衛(wèi)生研究院(Canadian Institutes of Health Research,CIHR)、加拿大自然科學(xué)和工程研究理事會(Natural Sciences and Engineering Research Council of Canada,NSERC)、加拿大社會人文科學(xué)研究理事會(Social Sciences and Humanities Research Council of Canada,SSHRC)三大國家科研資助機(jī)構(gòu),出臺了關(guān)于數(shù)據(jù)管理原則的草案。該草案明確了研究者、研究機(jī)構(gòu)、資助者的相關(guān)責(zé)任,支持最大限度地開放政府資助項目數(shù)據(jù),要求制定數(shù)據(jù)管理計劃,實現(xiàn)數(shù)據(jù)公開分享。[7]2018年3月,我國政府順應(yīng)數(shù)據(jù)密集科學(xué)潮流,汲取國外開展科學(xué)數(shù)據(jù)管理的經(jīng)驗,為了進(jìn)一步加強(qiáng)和規(guī)范科學(xué)數(shù)據(jù)管理、保障科學(xué)數(shù)據(jù)安全、提高開放共享水平,更好地支撐國家科技創(chuàng)新、經(jīng)濟(jì)社會發(fā)展和國家安全,頒布了《科學(xué)數(shù)據(jù)管理辦法》(以下簡稱《辦法》)。《辦法》按照分級管理、安全可控、充分利用的原則,明確了主管部門、法人單位、科學(xué)數(shù)據(jù)中心三級責(zé)任主體,制定了科學(xué)數(shù)據(jù)采集、匯交與保存的管理流程及分級分類共享利用科學(xué)數(shù)據(jù)的方式,提出了加強(qiáng)科學(xué)數(shù)據(jù)全生命周期安全管理的要求。從此,我國有了國家層面的科學(xué)數(shù)據(jù)管理的政策制度。[8]
除了科研資助機(jī)構(gòu)對數(shù)據(jù)管理的要求之外,學(xué)術(shù)期刊也對論文作者提出了數(shù)據(jù)管理要求。[9]其主要目的有3個:① 保證論文成果的可復(fù)制性,可復(fù)制性是科研的重要特征,而數(shù)據(jù)是實現(xiàn)科研成果可復(fù)制的基礎(chǔ);② 對研究數(shù)據(jù)進(jìn)行更嚴(yán)格的審查,防止有問題的論文的發(fā)表,并確保隨后的任何撤回更容易識別和解決,從而提高期刊的質(zhì)量和聲譽(yù);③ 促進(jìn)科研成果交流和數(shù)據(jù)共享,保證科技創(chuàng)新的連續(xù)性。學(xué)術(shù)期刊數(shù)據(jù)共享的要求主要有兩類。一種是將數(shù)據(jù)開放共享作為論文發(fā)表的必要條件,科學(xué)數(shù)據(jù)以附錄等形式與論文一同發(fā)表。如,《美國政治科學(xué)評論》()雜志要求作者提供數(shù)據(jù)文檔,充分詳細(xì)地描述研究分析流程,便于讀者了解評價科研成果的來龍去脈。另一種只要求作者提供科學(xué)數(shù)據(jù),用于同行評審,但不要求隨同論文發(fā)表數(shù)據(jù),《科學(xué)》《自然》等國際期刊則屬于這種情況。學(xué)術(shù)期刊數(shù)據(jù)開放共享的方式主要有兩種:一是僅要求標(biāo)明數(shù)據(jù)的出處,使讀者能夠訪問相關(guān)數(shù)據(jù);二是要求將數(shù)據(jù)存儲到特定的數(shù)據(jù)存儲庫。如,英國倫敦動物學(xué)會出版的期刊《動物保護(hù)》( )規(guī)定,在該刊發(fā)布的DNA數(shù)據(jù)必須存儲到EMBL、Gen-Bank、DDBJ三大核苷酸數(shù)據(jù)庫之一,作者必須在論文中公布基因序列號,允許公開查詢。[10]
國外發(fā)達(dá)國家的圖書館、圖書館協(xié)會和國際性圖書館組織,對圖書館在數(shù)據(jù)管理服務(wù)中的地位和作用、圖書館數(shù)據(jù)管理服務(wù)與數(shù)據(jù)生命周期的關(guān)系、圖書館數(shù)據(jù)管理能力建設(shè)等方面進(jìn)行了深入系統(tǒng)研究。① 圖書館在科研數(shù)據(jù)管理中的地位。2013年,聯(lián)機(jī)計算機(jī)圖書館中心(Online ComputerLibrary Center,OCLC)發(fā)表報告,2015年美國圖書館與信息資源理事會 (Council on Library and Information Resources,CLIR)發(fā)布報告,都對圖書館在科研數(shù)據(jù)管理中的地位進(jìn)行了系統(tǒng)研究,認(rèn)為圖書館是科研數(shù)據(jù)管理的重要相關(guān)方和關(guān)鍵角色,能夠發(fā)揮協(xié)調(diào)和領(lǐng)導(dǎo)作用。這是因為圖書館在科研數(shù)據(jù)管理體系中居于一個獨(dú)特位置。其他相關(guān)方包括大學(xué)管理者、研究者、科研資助者都有自己機(jī)構(gòu)的利益訴求,唯獨(dú)圖書館不但沒有特殊利益訴求,而且擁有與其他各相關(guān)方的同等密切聯(lián)系,長期以來為用戶服務(wù),積累了豐富的信息管理的專業(yè)知識和經(jīng)驗,從而處于一個十分有利的核心位置。[11-12]② 圖書館數(shù)據(jù)管理服務(wù)與數(shù)據(jù)生命周期的關(guān)系。2013年,美國博物館和圖書館服務(wù)研究所 (Institute of Museum and Library Services,IMLS)發(fā)布報告,對全球主要的十種數(shù)據(jù)管理生命周期模型進(jìn)行了歸納總結(jié),用于指導(dǎo)圖書館數(shù)據(jù)管理服務(wù)。[13]按照美國大學(xué)與研究圖書館協(xié)會(AssociationofCollege&Research Libraries,ACRL)所發(fā)布的白皮書,圖書館等機(jī)構(gòu)提供的科研數(shù)據(jù)管理服務(wù)是處理完整數(shù)據(jù)生命周期的服務(wù)。[14]科學(xué)家只能計劃、收集、分析他們的數(shù)據(jù),而圖書館則要基于生命周期開展服務(wù),包括利用元數(shù)據(jù)描述數(shù)據(jù)、實現(xiàn)長久和安全的數(shù)據(jù)存儲、組織數(shù)據(jù)以便于發(fā)現(xiàn)、支持?jǐn)?shù)據(jù)整合和再利用等。[15]③ 圖書館數(shù)據(jù)管理能力建設(shè)。數(shù)據(jù)管理服務(wù)是一項前所未有的創(chuàng)新,將推動圖書館建立新的信息基礎(chǔ)設(shè)施,形成新的業(yè)務(wù)模式,產(chǎn)生新的能力素質(zhì)和人才需求。國際圖書館界對圖書館的數(shù)據(jù)管理能力建設(shè)進(jìn)行了不斷研究探索,其中,美國研究圖書館協(xié)會 (Association of Research Library,ARL)、加拿大研究圖書館協(xié)會(Canadian Association of Research Libraries,CARL)、歐洲研究圖書館協(xié)會(Association of European Research Libraries,LIBER)以及國際開放存取庫聯(lián)盟(Confederation of Open Access Repositories,COAR)四大組織聯(lián)合開展的研究項目最具代表性。2013年8月,這四大組織建立了一個聯(lián)合工作組,研究數(shù)據(jù)密集型科研范式下圖書館職能的拓展,以及職能變化對館員能力的新要求。該工作組于2016年發(fā)布了研究報告,針對圖書館在數(shù)據(jù)管理服務(wù)領(lǐng)域的三大職能,提出了相應(yīng)的能力素質(zhì)框架,[16]成為國際圖書館界開展數(shù)據(jù)管理能力建設(shè)的指南。
近年來,我國學(xué)者從數(shù)據(jù)生命周期的視角開展了一些關(guān)于科學(xué)數(shù)據(jù)管理的研究,其側(cè)重點(diǎn)包括數(shù)據(jù)生命周期模型的比較研究、數(shù)據(jù)共享政策研究、圖書館的角色定位研究等方面。楊林等對7個科學(xué)數(shù)據(jù)管理生命周期模型的研制機(jī)構(gòu)、適用范圍、結(jié)構(gòu)特點(diǎn)、構(gòu)成要素、應(yīng)用實踐等方面進(jìn)行了分析與比較。[17]丁寧等按照不同維度對科學(xué)數(shù)據(jù)生命周期模型的類型進(jìn)行了劃分,并總結(jié)了高??茖W(xué)數(shù)據(jù)生命周期管理框架。[18]魏悅等對美、英、澳等國高校的科學(xué)數(shù)據(jù)管理政策進(jìn)行了深入分析,總結(jié)出數(shù)據(jù)訪問、數(shù)據(jù)組織、數(shù)據(jù)保存、數(shù)據(jù)共享和數(shù)據(jù)安全五個方面的政策內(nèi)容,并以此為基礎(chǔ),提出了我國高校科學(xué)數(shù)據(jù)管理政策內(nèi)容框架。[19]史艷芬等認(rèn)為圖書館應(yīng)將“科學(xué)數(shù)據(jù)管理生命周期”過程嵌入服務(wù),承擔(dān)科學(xué)數(shù)據(jù)管理協(xié)調(diào)者、元數(shù)據(jù)組織和管理機(jī)構(gòu)、科學(xué)數(shù)據(jù)長期保存機(jī)構(gòu)、數(shù)據(jù)質(zhì)量監(jiān)控者、數(shù)據(jù)信息素養(yǎng)培訓(xùn)機(jī)構(gòu)五大角色。[20]吳建中認(rèn)為大學(xué)圖書館正在向數(shù)字化和合作交流轉(zhuǎn)型,以藏書為核心的傳統(tǒng)圖書館已經(jīng)逐漸被以知識和數(shù)據(jù)為核心的現(xiàn)代圖書館所取代;現(xiàn)代圖書館是知識連接器,圍繞“數(shù)據(jù)”開展各種服務(wù),將大學(xué)與區(qū)域、與世界連接起來。[21]顧立平認(rèn)為圖書館應(yīng)當(dāng)基于公益服務(wù)屬性,扮演居中協(xié)調(diào)的角色,與各方利益相關(guān)者合作,建立良好的數(shù)據(jù)治理生態(tài)體系,管理好各學(xué)科不同載體的知識內(nèi)容,確保數(shù)據(jù)重用以及長期保存,促進(jìn)數(shù)據(jù)加值,保障數(shù)據(jù)獲取和數(shù)據(jù)重用的公益性質(zhì)。[22]
數(shù)據(jù)密集型科研范式的興起和公共科研資助機(jī)構(gòu)的政策要求,激勵圖書館開展數(shù)據(jù)管理服務(wù),以適應(yīng)深刻變化的科研需求。全球開展數(shù)據(jù)管理業(yè)務(wù)的圖書館越來越多,圖書館的業(yè)務(wù)重點(diǎn)逐漸從傳統(tǒng)業(yè)務(wù)轉(zhuǎn)移到數(shù)據(jù)業(yè)務(wù),并從文獻(xiàn)計量服務(wù)向數(shù)據(jù)管理服務(wù)深化。ARL于2010年面向57家會員館做了一項調(diào)查,發(fā)現(xiàn)其中有21家圖書館已經(jīng)建立了信息基礎(chǔ)設(shè)施并面向數(shù)據(jù)密集型科研提供服務(wù),約占37%。[23]2013年,邢文明等對世界排名前50的高校圖書館進(jìn)行了網(wǎng)上調(diào)查,發(fā)現(xiàn)其中26所高校圖書館開展了科研數(shù)據(jù)服務(wù),約占52%。[24]2015年,ARL面向124家會員館進(jìn)行調(diào)查,發(fā)現(xiàn)其中70%以上的圖書館擁有數(shù)字資源庫等信息基礎(chǔ)設(shè)施,并提供數(shù)據(jù)存儲、數(shù)據(jù)管理計劃、信息傳送咨詢、最佳實踐咨詢等服務(wù)。[9]由此看來,圖書館正在加速從以圖書為主體向以科研數(shù)據(jù)管理和知識發(fā)現(xiàn)為中心轉(zhuǎn)型。
國內(nèi)學(xué)者重點(diǎn)對國外高校圖書館開展科學(xué)數(shù)據(jù)管理服務(wù)的實踐進(jìn)行了研究,總結(jié)了國外高校圖書館開展科學(xué)數(shù)據(jù)管理服務(wù)的基礎(chǔ)設(shè)施、服務(wù)內(nèi)容、工作機(jī)構(gòu)等方面的實踐經(jīng)驗。尹春曉對英國、美國、澳大利亞三國高校科學(xué)數(shù)據(jù)管理服務(wù)進(jìn)行調(diào)研發(fā)現(xiàn),國外高??茖W(xué)地建立了信息基礎(chǔ)設(shè)施,依據(jù)數(shù)據(jù)管理政策、基于科學(xué)數(shù)據(jù)生命周期提供全程式服務(wù),普遍提供科學(xué)數(shù)據(jù)管理教育培訓(xùn)服務(wù)、數(shù)據(jù)參考咨詢服務(wù)。在開展科學(xué)數(shù)據(jù)管理服務(wù)過程中,圖書館與校內(nèi)不同部門開展了合作,圖書館內(nèi)部設(shè)置了數(shù)據(jù)管理部門和崗位。[25]張新興開展了大量的文獻(xiàn)調(diào)研發(fā)現(xiàn),國外高??茖W(xué)數(shù)據(jù)管理平臺均為開放獲取平臺,訪問不受時間和IP限制,并且資源豐富、功能完善。國內(nèi)平臺數(shù)量很少,功能相對簡單,有些平臺還需要通過申請方能使用數(shù)據(jù)。[26]國外高校的科學(xué)數(shù)據(jù)服務(wù)是一種廣義的科學(xué)數(shù)據(jù)服務(wù),是圍繞科學(xué)數(shù)據(jù)實施的一系列的數(shù)據(jù)管理、研究、利用活動,還有待向更高層次的數(shù)據(jù)分析、知識組織和知識發(fā)現(xiàn)服務(wù)躍升。胡雪環(huán)、陳麗君、司莉、王娟等國內(nèi)學(xué)者對美國普渡大學(xué)、霍普金斯大學(xué)等高校的科學(xué)數(shù)據(jù)管理實踐進(jìn)行了多方面研究發(fā)現(xiàn),這些高校建立了科學(xué)數(shù)據(jù)中心,根據(jù)本校學(xué)科專長開發(fā)了具體的服務(wù)項目,所提供的科學(xué)數(shù)據(jù)管理內(nèi)容主要包括數(shù)據(jù)收集、數(shù)據(jù)保存、數(shù)據(jù)使用、數(shù)據(jù)管理與維護(hù)等,并為用戶提供數(shù)據(jù)管理計劃、數(shù)據(jù)管理教育培訓(xùn)、數(shù)據(jù)管理政策等服務(wù)。[27-30]
在理論研究方面,目前國內(nèi)外學(xué)者的研究主要集中在對生命周期模型的對比分析方面,比較系統(tǒng)地闡述了模型的分類、結(jié)構(gòu)、構(gòu)成要素等,但是尚未深入提煉出全生命周期科學(xué)數(shù)據(jù)管理的基本要求;在實踐研究方面,目前國內(nèi)學(xué)者側(cè)重于對國外高??茖W(xué)數(shù)據(jù)管理實踐經(jīng)驗的總結(jié)提煉,但是對成功實踐背后的原因揭示不夠深刻,尚未給出全生命周期科學(xué)數(shù)據(jù)管理的實現(xiàn)方式。因此,還需要從以下兩個方面加強(qiáng)研究:一是要進(jìn)一步研究全生命周期科學(xué)數(shù)據(jù)管理的基本流程和要求,明確圖書館開展科學(xué)數(shù)據(jù)管理服務(wù)的著力點(diǎn);二是要進(jìn)一步研究圖書館開展科學(xué)數(shù)據(jù)管理服務(wù)的方式,理清圖書館開展全生命周期科學(xué)數(shù)據(jù)管理服務(wù)的技術(shù)平臺和協(xié)作方式。
地球觀測衛(wèi)星委員會(Committee on Earth Observation Satellites,CEOS)的信息系統(tǒng)與服務(wù)工作小組(Working Group on Information Systems and Services,WGISS)于2012年4月發(fā)布了調(diào)研報告,梳理出55個科學(xué)數(shù)據(jù)管理生命周期模型。從研制主體的維度來看,最高層次為國際標(biāo)準(zhǔn)模型,其次為國家科學(xué)數(shù)據(jù)中心的模型,再次為高校等法人單位的工作模型。經(jīng)過多年的應(yīng)用和發(fā)展,OAIS功能模型、DDI數(shù)據(jù)管理生命周期模型、DataONE數(shù)據(jù)管理生命周期模型等已經(jīng)成為國際標(biāo)準(zhǔn)或規(guī)范,它們反映了數(shù)據(jù)運(yùn)行的基本規(guī)律,在國際上得到了廣泛應(yīng)用,是其他層次的數(shù)據(jù)管理生命周期模型的編制依據(jù)和重要參考。本文主要以這三大模型為研究對象,分析其特點(diǎn)、異同點(diǎn)、適用性,揭示全生命周期科學(xué)數(shù)據(jù)管理的基本流程和要求。
3.1.1 適用于數(shù)字資源庫的OAIS功能模型
為了解決數(shù)字信息長期保存問題,國際標(biāo)準(zhǔn)化組織授權(quán)國際空間數(shù)據(jù)系統(tǒng)咨詢委員會開發(fā)空間領(lǐng)域的數(shù)字信息歸檔標(biāo)準(zhǔn)。該委員會采取開放方式創(chuàng)建標(biāo)準(zhǔn),吸引了政府、企業(yè)和學(xué)術(shù)界眾多機(jī)構(gòu)的參與。2003年,國際空間數(shù)據(jù)系統(tǒng)咨詢委員會開發(fā)的OAIS參考模型正式發(fā)布為國際標(biāo)準(zhǔn)(ISO14721)。[31]此后,在OAIS參考模型的基礎(chǔ)上,研究圖書館集團(tuán)(Research Library Group,RLG)和 OCLC合作研制了《支持?jǐn)?shù)字對象保存的元數(shù)據(jù)框架》,對OAIS的信息模型作了進(jìn)一步拓展,提供了描述性信息的結(jié)構(gòu)體系。RLG還和美國國家檔案記錄管理局合作,以O(shè)AIS參考模型為依據(jù),開展數(shù)字資源庫認(rèn)證規(guī)范的研究,于2013年發(fā)布ISO國際標(biāo)準(zhǔn)《可信性數(shù)字資源庫審核與認(rèn)證》極大地提高了OAIS參考模型的適用性和影響力。[32]OAIS參考模型主要由功能模型、信息模型、信息包轉(zhuǎn)換三部分組成,其中功能模型對數(shù)據(jù)生命周期進(jìn)行了系統(tǒng)描述,分為保存計劃、數(shù)據(jù)收集、數(shù)據(jù)保存、數(shù)據(jù)管理、訪問管理、行政管理6個功能模塊。
3.1.2 適用于社會科學(xué)的DDI數(shù)據(jù)生命周期模型
DDI是為描述社會科學(xué)研究數(shù)據(jù)而建立的國際元數(shù)據(jù)標(biāo)準(zhǔn)。它由美國校際政治及社會研究聯(lián)盟發(fā)起,獲得了NSF的資助,于2000年首次發(fā)布DDI標(biāo)準(zhǔn),現(xiàn)在已經(jīng)形成了DDI系列標(biāo)準(zhǔn)。2003年建立DDI聯(lián)盟,至2016年在全球擁有40個成員機(jī)構(gòu),包括世界銀行發(fā)展數(shù)據(jù)中心、歐盟統(tǒng)計局、諸多世界一流大學(xué),以及國家級有影響力的數(shù)據(jù)資源管理機(jī)構(gòu)。[33-34]DDI把數(shù)據(jù)生命周期分為研究概念、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)發(fā)送、數(shù)據(jù)公布、數(shù)據(jù)分析、數(shù)據(jù)再利用8個階段。DDI數(shù)據(jù)生命周期不是一個線性模型,而是一個循環(huán)模型。在研究概念、數(shù)據(jù)收集、數(shù)據(jù)處理這三個步驟中,建立和遵循一套初始概念體系,據(jù)此所創(chuàng)建的數(shù)據(jù)集直接傳送給用戶或者通過數(shù)據(jù)資源庫間接傳送給用戶;而數(shù)據(jù)再利用階段則根據(jù)新的應(yīng)用場景調(diào)整了變量、關(guān)聯(lián)關(guān)系等要素,形成新的數(shù)據(jù)概念框架,創(chuàng)建新的數(shù)據(jù)集,再傳送給用戶。[35]
3.1.3 適用于“大數(shù)據(jù)”學(xué)科的DataONE數(shù)據(jù)生命周期模型
DataONE是由新墨西哥州大學(xué)主持開發(fā)的,項目獲得了NSF的資助,其使命是通過廣泛存取地球生態(tài)和環(huán)境科學(xué)數(shù)據(jù)促進(jìn)新的科學(xué)知識的創(chuàng)造。這是由于地球生態(tài)和環(huán)境科學(xué)具有跨學(xué)科特征,涉及地理學(xué)、天文學(xué)、生物學(xué)、生態(tài)學(xué)、環(huán)境科學(xué)等多種學(xué)科領(lǐng)域,具有開展廣泛數(shù)據(jù)管理協(xié)作的迫切需要。[36]2009年,DataONE在NSF等機(jī)構(gòu)資助下開始建設(shè),2014年又獲得了二期資助,目前已經(jīng)形成向全球用戶提供服務(wù)的數(shù)據(jù)協(xié)作網(wǎng)絡(luò)。其組織架構(gòu)分為兩個層次:一是協(xié)作節(jié)點(diǎn),由核心信息基礎(chǔ)設(shè)施團(tuán)隊直接管理,負(fù)責(zé)全網(wǎng)管理,維護(hù)全網(wǎng)健康運(yùn)行;二是會員節(jié)點(diǎn),由當(dāng)?shù)亟M織機(jī)構(gòu)負(fù)責(zé)管理,負(fù)責(zé)當(dāng)?shù)氐臄?shù)據(jù)存儲、數(shù)據(jù)檢索、訪問控制、元數(shù)據(jù)質(zhì)量控制、本節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的數(shù)據(jù)復(fù)制、用戶主界面維護(hù)等業(yè)務(wù)。[37]地球觀測數(shù)據(jù)網(wǎng)基于NSF所提供的數(shù)據(jù)生命周期模型而構(gòu)建,是其開發(fā)工具、提供服務(wù)、開展培訓(xùn)的基本架構(gòu)。DataONE數(shù)據(jù)生命周期模型包括8個階段,分別是數(shù)據(jù)管理計劃、數(shù)據(jù)收集、數(shù)據(jù)核查、數(shù)據(jù)描述、數(shù)據(jù)保存、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)整合、數(shù)據(jù)分析。數(shù)據(jù)沿著生命周期的8個步驟運(yùn)行,以編制數(shù)據(jù)管理計劃為起點(diǎn),從而創(chuàng)造新的科學(xué)知識。但并不是所有的研究活動都經(jīng)過全部周期,許多只是經(jīng)歷周期的部分階段。如,對以往不同研究成果的數(shù)據(jù)進(jìn)行綜合分析的元分析項目,只側(cè)重于數(shù)據(jù)發(fā)現(xiàn)、整合、分析等步驟。
以上三種模型除結(jié)構(gòu)差別外,在構(gòu)成要素上也有異同。其共同要素包括數(shù)據(jù)管理計劃、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)發(fā)送、數(shù)據(jù)分析、數(shù)據(jù)發(fā)現(xiàn)等。但是每種模型相應(yīng)流程要素的涵義不盡相同:OAIS功能模型突出了數(shù)據(jù)庫管理功能,這是和數(shù)據(jù)存儲庫服務(wù)相適應(yīng)的;DDI數(shù)據(jù)管理生命周期則突出了概念框架設(shè)計,這是為了適應(yīng)社會調(diào)查及其數(shù)據(jù)管理特點(diǎn),同時還建立具有自身特色的數(shù)據(jù)再利用環(huán)節(jié),體現(xiàn)了利用科學(xué)數(shù)據(jù)發(fā)現(xiàn)新知識的目的和要求;而DataONE數(shù)據(jù)生命周期模型則特別加強(qiáng)了數(shù)據(jù)處理環(huán)節(jié),將這個環(huán)節(jié)拓展為數(shù)據(jù)核查、數(shù)據(jù)整合、數(shù)據(jù)標(biāo)引等操作,使大規(guī)模數(shù)據(jù)處理能力得到加強(qiáng)。
通過對各類數(shù)據(jù)管理模型的深入研究發(fā)現(xiàn),全生命周期科學(xué)數(shù)據(jù)管理是全體系、全流程、全要素的管理,需要各相關(guān)方密切協(xié)同,使數(shù)據(jù)規(guī)范一致和安全合規(guī),從而實現(xiàn)數(shù)據(jù)可用性高、可回溯性強(qiáng)、交換方便、檢索便利的管理目標(biāo)。
3.2.1 全部相關(guān)方密切協(xié)作
科學(xué)數(shù)據(jù)管理涉及數(shù)據(jù)生產(chǎn)者、消費(fèi)者、管理者等相關(guān)方。按照研制主體又分為多個層次,一般包括法人單位、科學(xué)數(shù)據(jù)中心、國際數(shù)據(jù)管理網(wǎng)。其中,法人單位主要指科研院所、高等院校、企業(yè)等從事數(shù)據(jù)密集科研的單位,其內(nèi)部又要求各二級單位的協(xié)同。內(nèi)部各相關(guān)方密切協(xié)作開展數(shù)據(jù)管理服務(wù),保證服務(wù)順利通達(dá)、系統(tǒng)正常運(yùn)轉(zhuǎn)、數(shù)據(jù)安全保密、管理規(guī)范有序。在法人單位內(nèi)部協(xié)作網(wǎng)之上,還有國際數(shù)據(jù)管理網(wǎng)。如,DataONE目前已經(jīng)形成向全球用戶提供服務(wù)的數(shù)據(jù)協(xié)作網(wǎng)絡(luò)。
3.2.2 全體系協(xié)同
科學(xué)數(shù)據(jù)管理是一個完整體系,包括數(shù)據(jù)管理政策、數(shù)據(jù)存儲庫系統(tǒng)、數(shù)據(jù)管理活動等。其中,數(shù)據(jù)管理政策包括國家科研資助機(jī)構(gòu)政策、科技期刊政策、法人單位政策等,主要對數(shù)據(jù)開放共享、知識產(chǎn)權(quán)授權(quán)、隱私保護(hù)等方面做出要求和規(guī)定。數(shù)據(jù)存儲庫系統(tǒng)是科學(xué)數(shù)據(jù)管理的信息基礎(chǔ)設(shè)施,主要提供唯一數(shù)據(jù)標(biāo)識碼、元數(shù)據(jù)創(chuàng)建和轉(zhuǎn)換、數(shù)據(jù)存儲等方面的技術(shù)支持功能,并實現(xiàn)分布式數(shù)據(jù)管理協(xié)同。數(shù)據(jù)管理活動依據(jù)科研過程而開展,貫穿全生命周期,主要包括科學(xué)數(shù)據(jù)采集生產(chǎn)、加工整理、開放共享和管理使用等活動。數(shù)據(jù)管理政策是科學(xué)數(shù)據(jù)管理的頂層設(shè)計和運(yùn)行規(guī)則,數(shù)據(jù)存儲庫是科學(xué)數(shù)據(jù)管理的技術(shù)平臺,各項科學(xué)數(shù)據(jù)管理活動按照政策要求在數(shù)據(jù)存儲庫平臺上有序運(yùn)作。
3.2.3 數(shù)據(jù)運(yùn)行全程留痕
基于全生命周期的管理方式對數(shù)據(jù)轉(zhuǎn)化全程留痕,完整保存生產(chǎn)者的初始數(shù)據(jù)文件、管理者的存檔文件、消費(fèi)者的分發(fā)文件,記錄各類數(shù)據(jù)文件之間的關(guān)系,可以實現(xiàn)不同數(shù)據(jù)版本的回溯和重用,[38]從而保證數(shù)據(jù)的完整性和可靠性。這是全生命周期科學(xué)數(shù)據(jù)管理的重要特征,針對數(shù)據(jù)管理的不同階段,建立相應(yīng)的數(shù)據(jù)文檔。不同階段的文檔采用特定的描述元數(shù)據(jù)和封裝方法,數(shù)據(jù)屬性、數(shù)據(jù)差別、數(shù)據(jù)關(guān)聯(lián)等一目了然,數(shù)據(jù)進(jìn)化路徑清晰可見。
3.2.4 全生命周期安全管理
① 數(shù)據(jù)安全是全流程的安全。要在數(shù)據(jù)管理計劃中詳細(xì)設(shè)計各項安全要求和措施,再按照計劃安排和要求,在數(shù)據(jù)輸入、數(shù)據(jù)處理、數(shù)據(jù)訪問等環(huán)節(jié)一一落實。② 數(shù)據(jù)安全是全體系的安全。要明確各方面的安全責(zé)任,建立互相監(jiān)督和制約機(jī)制,全部數(shù)據(jù)管理相關(guān)方都要嚴(yán)格遵守規(guī)定、履行安全職責(zé)。③數(shù)據(jù)安全是全要素的安全。需要綜合考慮數(shù)據(jù)內(nèi)容、硬件設(shè)備、管理規(guī)范、法律法規(guī)等多個方面的安全問題,既要采取數(shù)據(jù)加密、電源備份、數(shù)據(jù)備份、病毒防護(hù)和入侵者防護(hù)等有效技術(shù)措施,也要落實各項保護(hù)數(shù)據(jù)安全的法律措施,制定安全管理規(guī)范,從而有效保護(hù)數(shù)據(jù)完整、數(shù)據(jù)機(jī)密、知識產(chǎn)權(quán)和隱私權(quán)。
3.2.5 全生命周期數(shù)據(jù)交換
① 結(jié)構(gòu)一致的數(shù)據(jù)便于數(shù)據(jù)交換。如,OAIS參考模型的提交信息包、存檔信息包、分發(fā)信息包3種數(shù)據(jù)集具有規(guī)范的數(shù)據(jù)結(jié)構(gòu),能夠在不同系統(tǒng)、平臺之間交換和遷移,可以被不同用戶、多種終端訪問。② 標(biāo)準(zhǔn)化的元數(shù)據(jù)能夠提高數(shù)據(jù)可用性。如,DDI標(biāo)準(zhǔn)用可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)來標(biāo)記數(shù)據(jù)內(nèi)容,以ASCII碼為內(nèi)核,提供開放格式而非私有格式數(shù)據(jù),能夠一直保持可用性。[39]標(biāo)準(zhǔn)化的元數(shù)據(jù)集可以在數(shù)據(jù)生命周期內(nèi)重復(fù)使用,能夠有效降低數(shù)據(jù)管理成本。③ 按照生命周期模型創(chuàng)建的多種數(shù)據(jù)存儲庫產(chǎn)品,能夠共享元數(shù)據(jù)要素、識別數(shù)據(jù)結(jié)構(gòu),便利于同一標(biāo)準(zhǔn)下不同存儲庫之間的數(shù)據(jù)交換和共享,實現(xiàn)分布式網(wǎng)絡(luò)化數(shù)據(jù)管理協(xié)作。[40]
面對數(shù)據(jù)密集型科研范式的興起,研究人員在數(shù)據(jù)管理計劃、數(shù)據(jù)保存、數(shù)據(jù)共享等數(shù)據(jù)生命周期的重要階段面臨著越來越多、越來越復(fù)雜的困難和問題,急需專業(yè)人員提供幫助,實現(xiàn)與新的科研范式的對接,以便提高科研效率和效益,并滿足國家、機(jī)構(gòu)、出版者等層面對科研數(shù)據(jù)管理的規(guī)定和要求。在科研數(shù)據(jù)生命周期諸多階段中,數(shù)據(jù)管理計劃、數(shù)據(jù)存儲、數(shù)據(jù)分享這三個階段是圖書館提供數(shù)據(jù)管理服務(wù)的著力點(diǎn)。圖書館可以在其中發(fā)揮聯(lián)系和服務(wù)用戶的作用,成為數(shù)據(jù)資源的富集地、數(shù)據(jù)服務(wù)和技術(shù)支持的聯(lián)系點(diǎn)、數(shù)據(jù)管理培訓(xùn)和指導(dǎo)服務(wù)的提供者。
3.3.1 提供數(shù)據(jù)管理計劃服務(wù)
提供數(shù)據(jù)管理計劃相關(guān)服務(wù)是圖書館的第一個著力點(diǎn)。數(shù)據(jù)管理計劃是一份正式文檔,用以說明研究者在項目研究過程中和項目完成之后如何處理科研數(shù)據(jù)。它為科研數(shù)據(jù)管理工作提供了藍(lán)圖,明確了數(shù)據(jù)管理流程和要點(diǎn),改變了數(shù)據(jù)管理的無計劃狀態(tài),可以有效避免數(shù)據(jù)丟失、混亂等問題,實現(xiàn)數(shù)據(jù)管理的規(guī)范化、流程化,保證數(shù)據(jù)質(zhì)量和可復(fù)用性。同時,數(shù)據(jù)管理計劃還是一份動態(tài)文件。由于科研是一種創(chuàng)造性活動,有時需要改變路徑、調(diào)整進(jìn)度,數(shù)據(jù)管理計劃也應(yīng)當(dāng)隨著科研節(jié)奏和方向的調(diào)整而調(diào)整,只有這樣才能保證數(shù)據(jù)管理計劃的科學(xué)性和實用性,真正發(fā)揮作用。根據(jù)一些國家的實踐,圖書館可以在四個方面為用戶提供數(shù)據(jù)管理計劃服務(wù)。① 在線提供本國政策指導(dǎo)。不同國家的科研資助機(jī)構(gòu)都有自己的數(shù)據(jù)管理計劃編制要求,美國、澳大利亞、英國等國家的諸多學(xué)術(shù)圖書館都在線列舉和詳細(xì)說明了本國國家科研基金和相關(guān)科研協(xié)作機(jī)構(gòu)的數(shù)據(jù)管理計劃政策,供本單位研究人員了解遵循。② 在線提供外部參考資源。主要是收集整理國外的科研資助機(jī)構(gòu)、大學(xué)和研究機(jī)構(gòu)的資料,提供國外的數(shù)據(jù)管理計劃要求和數(shù)據(jù)管理計劃制作資料,供本單位的研究者參考。③在線提供模版工具。收集整理各級各類公共科研基金、各類學(xué)會、本機(jī)構(gòu)、其他研究機(jī)構(gòu)的數(shù)據(jù)管理計劃模版,供本單位的研究者參考。④ 線下開展培訓(xùn)和指導(dǎo)。圖書館員與研究人員成立開放式的研習(xí)會,共同針對相關(guān)主題的數(shù)據(jù)管理計劃進(jìn)行溝通研討,就數(shù)據(jù)管理計劃提供針對性的培訓(xùn)指導(dǎo)。
3.3.2 提供數(shù)據(jù)存儲服務(wù)
數(shù)據(jù)存儲是圖書館開展數(shù)據(jù)管理服務(wù)的第二個著力點(diǎn)。這項工作由圖書館與本機(jī)構(gòu)的科研管理部門、信息技術(shù)中心等協(xié)作開發(fā)和運(yùn)作。數(shù)據(jù)存儲服務(wù)主要包括保存、備份、長期保存三項重要內(nèi)容。① 保存數(shù)據(jù)。這項功能既能實現(xiàn)數(shù)據(jù)存儲,也能做到數(shù)據(jù)備份,還可以開展數(shù)據(jù)共享。② 備份數(shù)據(jù)。主要防止因電腦損壞、重裝系統(tǒng)等原因?qū)е聰?shù)據(jù)丟失,保證數(shù)據(jù)安全,但是不能共享數(shù)據(jù)。③ 長期保存數(shù)據(jù)。這項服務(wù)為研究人員提供永久賬號,能夠?qū)崿F(xiàn)不同時期數(shù)據(jù)版本的永久保存和安全備份,克服短期保存和備份的缺陷。所有這些數(shù)據(jù)存儲服務(wù)都要依賴數(shù)據(jù)存儲系統(tǒng)來提供,一般有以下四種存儲系統(tǒng)。① 高校和研究機(jī)構(gòu)自主運(yùn)行的系統(tǒng)。一些高?;蜓芯繖C(jī)構(gòu)自主開發(fā)數(shù)據(jù)管理系統(tǒng)來提供長久保存服務(wù),服務(wù)范圍往往限于單位內(nèi)部。如,斯坦福大學(xué)圖書館開發(fā)的數(shù)據(jù)資源庫系統(tǒng)不會因為員工離職等原因而注銷賬號,可以永久訪問賬號的研究數(shù)據(jù),能夠?qū)崿F(xiàn)數(shù)據(jù)的長久保存、共享和分析。② 高?;蜓芯繖C(jī)構(gòu)統(tǒng)一購買存儲服務(wù),免費(fèi)提供給二級部門、員工和學(xué)生使用。③ 高校師生或研究機(jī)構(gòu)的員工自費(fèi)購買商業(yè)存儲服務(wù)。④ 資助機(jī)構(gòu)和期刊社等規(guī)定存儲的數(shù)據(jù)庫。
3.3.3 提供數(shù)據(jù)分享服務(wù)
數(shù)據(jù)分享是圖書館開展數(shù)據(jù)管理服務(wù)的第三個著力點(diǎn)??蒲谐晒麛?shù)據(jù)是研究者對社會的獨(dú)特貢獻(xiàn),只有通過一定方式與他人分享才能發(fā)揮作用并得到社會的認(rèn)可。數(shù)據(jù)分享有助于推動將來的科學(xué)研究和獲得新的科學(xué)發(fā)現(xiàn)。在數(shù)據(jù)分享方面圖書館可以為研究者提供以下服務(wù)。① 作為數(shù)據(jù)管理服務(wù)的綜合聯(lián)系點(diǎn),圖書館為用戶提供各類數(shù)據(jù)資源庫的入口,搭建數(shù)據(jù)生產(chǎn)者和消費(fèi)者之間的橋梁,實現(xiàn)數(shù)據(jù)資源傳送和再利用。② 在線提供數(shù)據(jù)分享政策。國家科研資助機(jī)構(gòu)對所支持項目的科研成果有分享政策,要求項目成果出版物和電子化數(shù)據(jù)必須在國內(nèi)分享,以促進(jìn)本國企業(yè)和實體提高創(chuàng)新能力和競爭力,推動國家經(jīng)濟(jì)發(fā)展。圖書館可以比較全面地收集整理國家科研資助機(jī)構(gòu)對數(shù)據(jù)分享的政策要求,在線提供給研究者遵循,有利于提高科研項目的社會效益。③ 幫助用戶理清數(shù)據(jù)訪問限制。圖書館可以在線提供國家關(guān)于知識產(chǎn)權(quán)保護(hù)、隱私保護(hù)、科研倫理等方面的法規(guī)和政策,了解用戶的知識產(chǎn)權(quán)和隱私保護(hù)要求,幫助用戶對敏感數(shù)據(jù)實行限制存取控制,從而保護(hù)科研數(shù)據(jù)安全和個人隱私。④ 在線提供元數(shù)據(jù)工具。元數(shù)據(jù)是用以揭示科研數(shù)據(jù)屬性的描述性信息,有利于數(shù)據(jù)生產(chǎn)者和使用者對科研數(shù)據(jù)達(dá)成一致性認(rèn)知,是實現(xiàn)科研數(shù)據(jù)準(zhǔn)確檢索和有效利用的重要基礎(chǔ)。圖書館的工作重點(diǎn)是收集提供各種元數(shù)據(jù)工具,幫助研究者選擇控制詞用于生成各種結(jié)構(gòu)化的元數(shù)據(jù),以揭示內(nèi)容數(shù)據(jù)的屬性。⑤ 提供人工咨詢和培訓(xùn)。圖書館的數(shù)據(jù)館員可以根據(jù)用戶需求提供比較集中的培訓(xùn)和研習(xí),幫助用戶掌握數(shù)據(jù)分享政策、數(shù)據(jù)保護(hù)要求以及數(shù)據(jù)發(fā)現(xiàn)方法等知識和技能。
為了探索全生命周期科學(xué)數(shù)據(jù)管理服務(wù)的實現(xiàn)路徑和方式,需要對國內(nèi)外的實踐經(jīng)驗進(jìn)行深入研究,以便獲得有價值的信息。本文甄別選取了麻省理工大學(xué)、哈佛大學(xué)、斯坦福大學(xué)、牛津大學(xué)、劍橋大學(xué)五所大學(xué)圖書館作為研究對象;同時,選取北京大學(xué)圖書館、復(fù)旦大學(xué)圖書館[41]作為研究對象,它們是國內(nèi)正式開展科學(xué)數(shù)據(jù)管理服務(wù)的大學(xué)圖書館,其實踐經(jīng)驗也具有較大的參考價值。通過對國內(nèi)外一流大學(xué)圖書館的深入研究發(fā)現(xiàn),構(gòu)建數(shù)據(jù)平臺、建立組織體系、參加國際協(xié)作、提升人力資源等是實現(xiàn)全生命周期科學(xué)數(shù)據(jù)管理的關(guān)鍵問題。其中,數(shù)據(jù)平臺從技術(shù)上將資源整合起來,有效的組織體系把各部門協(xié)同起來,加入國際數(shù)據(jù)網(wǎng)絡(luò)促進(jìn)了國際合作,人力資源發(fā)展提供了人才保障。通過技術(shù)保障、組織保障、人才保障和國際協(xié)作,實現(xiàn)了全體系、全要素、全流程、國際化的科學(xué)數(shù)據(jù)管理協(xié)同,使高校圖書館具備全生命周期科學(xué)數(shù)據(jù)管理能力,從而能夠為科研人員提供高質(zhì)量的數(shù)據(jù)管理服務(wù)和數(shù)據(jù)產(chǎn)品。
本文調(diào)研的7所大學(xué)圖書館都開辦了專門的數(shù)據(jù)管理服務(wù)網(wǎng)站,擁有數(shù)據(jù)存儲庫系統(tǒng)(見下表)。其中,國外的5所大學(xué)圖書館建成了數(shù)據(jù)管理綜合平臺,按照全生命周期科學(xué)數(shù)據(jù)管理的要求,提供數(shù)據(jù)管理計劃、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)保存、數(shù)據(jù)發(fā)送、數(shù)據(jù)分析、數(shù)據(jù)發(fā)現(xiàn)等全流程服務(wù),提供數(shù)據(jù)管理教育、專家咨詢等延伸服務(wù)。不僅擁有自己的數(shù)據(jù)存儲庫系統(tǒng)和數(shù)據(jù)備份存儲系統(tǒng),還提供第三方云存儲、云計算服務(wù)接口;不僅提供本單位的數(shù)據(jù)管理政策,還提供國家科研資助機(jī)構(gòu)的政策要求和數(shù)據(jù)管理計劃模板??偟膩砜?,技術(shù)支持有力、功能全面、服務(wù)內(nèi)容豐富。從國內(nèi)來看,北京大學(xué)圖書館和復(fù)旦大學(xué)圖書館都引進(jìn)了麻省理工大學(xué)和哈佛大學(xué)聯(lián)合開發(fā)的 DataVerse數(shù)據(jù)存儲庫系統(tǒng),主要提供數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)發(fā)現(xiàn)等服務(wù),服務(wù)功能比較單一,許多重要的數(shù)據(jù)管理服務(wù)尚未提供。通過對比,筆者認(rèn)為國內(nèi)高校應(yīng)當(dāng)建立科學(xué)數(shù)據(jù)管理服務(wù)綜合平臺,提供全生命周期服務(wù),這是我國科學(xué)數(shù)據(jù)管理服務(wù)的發(fā)展方向。
表 一流大學(xué)圖書館開展科學(xué)數(shù)據(jù)管理服務(wù)的技術(shù)平臺
為了做好全生命周期科學(xué)數(shù)據(jù)管理工作,必須加強(qiáng)各部門協(xié)同,發(fā)揮各自專業(yè)特長,明確職責(zé)分工,形成全面服務(wù)能力。為了實現(xiàn)各部門的相互協(xié)同,需要建立相應(yīng)的組織體系,實現(xiàn)各部門的信息溝通、任務(wù)分配和工作落實。實現(xiàn)部門協(xié)同的方法路徑主要有兩條,一是整合各相關(guān)部門的功能和資源,建立矩陣型數(shù)據(jù)管理小組;二是以圖書館為主導(dǎo),建立數(shù)據(jù)管理服務(wù)協(xié)同網(wǎng)絡(luò),各部門協(xié)力提供數(shù)據(jù)管理服務(wù)。
(1)建立矩陣型數(shù)據(jù)管理小組。矩陣型數(shù)據(jù)管理小組是在一個大學(xué)垂直式職能組織形態(tài)下,為開展數(shù)據(jù)管理服務(wù),另外成立的橫向聯(lián)合的專案小組。此專案小組與原組織配合,呈現(xiàn)行列交叉的形式,所以稱為矩陣型組織。[42]牛津大學(xué)是建立矩陣型數(shù)據(jù)管理小組的代表。牛津大學(xué)成立科學(xué)數(shù)據(jù)管理服務(wù)組來提供數(shù)據(jù)管理服務(wù),其成員來自牛津大學(xué)博德利圖書館、電子化科研中心、信息技術(shù)服務(wù)中心、科研服務(wù)中心等相關(guān)部門。科學(xué)數(shù)據(jù)管理服務(wù)組每月開一次會,共同研究處理科學(xué)數(shù)據(jù)管理相關(guān)問題,重點(diǎn)是發(fā)展運(yùn)行牛津大學(xué)科學(xué)數(shù)據(jù)管理服務(wù)網(wǎng)站??茖W(xué)數(shù)據(jù)管理服務(wù)組著眼于為研究者提供全程的支持和服務(wù),幫助他們在科研項目申請階段編制數(shù)據(jù)管理計劃,在科研項目的整個生命周期內(nèi)處理數(shù)據(jù),在項目完成后實現(xiàn)數(shù)據(jù)長久保存。
(2)構(gòu)建圖書館主導(dǎo)的數(shù)據(jù)管理服務(wù)協(xié)同網(wǎng)絡(luò)。全生命周期的數(shù)據(jù)管理服務(wù)是一項極其復(fù)雜的工程,需要大學(xué)內(nèi)部各相關(guān)部門大力協(xié)同,組建數(shù)據(jù)管理服務(wù)協(xié)同網(wǎng)絡(luò)。這是一個基于任務(wù)分解的組織協(xié)同網(wǎng)絡(luò)。其主要任務(wù)是提供全生命周期的科學(xué)數(shù)據(jù)管理服務(wù)。協(xié)同網(wǎng)絡(luò)包括核心組織和協(xié)同組織,圖書館通過數(shù)據(jù)管理平臺分發(fā)工作任務(wù),協(xié)同組織基于自身的專業(yè)優(yōu)勢和職責(zé)要求,響應(yīng)用戶需求,完成相應(yīng)的科學(xué)數(shù)據(jù)管理任務(wù)。[43]哈佛大學(xué)圖書館是校內(nèi)研究者尋求數(shù)據(jù)服務(wù)和技術(shù)支持的綜合聯(lián)系點(diǎn),它與負(fù)責(zé)科研的副教務(wù)長辦公室、負(fù)責(zé)信息安全的信息技術(shù)學(xué)院、負(fù)責(zé)數(shù)據(jù)存儲庫開發(fā)和運(yùn)維的定量社會科學(xué)研究所、負(fù)責(zé)教育培訓(xùn)和專家咨詢的哈佛大學(xué)文理學(xué)院等密切協(xié)作,支持研究者進(jìn)行數(shù)據(jù)組織、處理、存儲、分享等活動,滿足科研基金、出版社、哈佛大學(xué)等層面對數(shù)據(jù)管理的政策要求。
科學(xué)數(shù)據(jù)管理國際化合作的重點(diǎn)有兩個,一是與國際標(biāo)準(zhǔn)接軌,二是申請加入相應(yīng)的國際網(wǎng)絡(luò)。目前,世界范圍內(nèi)已經(jīng)形成了OAIS功能模型、DDI數(shù)據(jù)生命周期模型、DataONE數(shù)據(jù)生命周期模型等具有國際影響力的規(guī)范。這些國際規(guī)范的形成過程持續(xù)了十年以上,經(jīng)歷了機(jī)構(gòu)規(guī)范、國內(nèi)規(guī)范到國際規(guī)范的發(fā)展進(jìn)化,得到了國家科研資助機(jī)構(gòu)的支持,調(diào)動了世界范圍內(nèi)圖書館組織、大學(xué)、研究機(jī)構(gòu)、國家信息中心、各類相關(guān)國際組織的參與,最后成為國際通行規(guī)范,也建立了自己的常設(shè)機(jī)構(gòu)和標(biāo)準(zhǔn)聯(lián)盟。領(lǐng)導(dǎo)和參與數(shù)據(jù)管理國際規(guī)范制定的國家和組織都在聯(lián)盟中居于重要地位,享有相應(yīng)的權(quán)益,能夠主導(dǎo)國際規(guī)范和國際合作的發(fā)展方向。得標(biāo)準(zhǔn)者得天下,這是非常重要的國際經(jīng)驗。我國圖書館界、數(shù)據(jù)科學(xué)界和公共科研資助機(jī)構(gòu)應(yīng)加強(qiáng)國際合作,主動支持和參與數(shù)據(jù)管理國際規(guī)范的研制,申請加入相應(yīng)的國際網(wǎng)絡(luò),謀求我國應(yīng)有的地位,分享國際科學(xué)數(shù)據(jù)資源。同時,在發(fā)展我國的數(shù)據(jù)管理服務(wù)過程中,要與國際標(biāo)準(zhǔn)接軌,站在世界的制高點(diǎn)上,建立開放的數(shù)據(jù)管理體系,與世界各國廣泛開展交流和合作。
面向數(shù)據(jù)密集型科研開展數(shù)據(jù)管理服務(wù)是一項前所未有的創(chuàng)新,將推動圖書館建立新的信息基礎(chǔ)設(shè)施,形成新的業(yè)務(wù)模式,產(chǎn)生新的能力素質(zhì)和人才需求。傳統(tǒng)圖書館圍繞藏書管理所生成的人力資源結(jié)構(gòu),存在信息技能缺乏、信息化人才匱乏等問題,必須認(rèn)真分析開展數(shù)據(jù)管理服務(wù)的能力素質(zhì)要求,彌補(bǔ)圖書館員能力素質(zhì)短板,引進(jìn)信息技術(shù)人才,促使圖書館形成較強(qiáng)的數(shù)據(jù)管理服務(wù)能力。全球諸多圖書館組織和研究機(jī)構(gòu)已經(jīng)對圖書館數(shù)據(jù)管理素質(zhì)能力進(jìn)行了深入研究,提供了比較系統(tǒng)的能力發(fā)展框架。我國應(yīng)當(dāng)吸收世界先進(jìn)成果和國外圖書館的成功經(jīng)驗,結(jié)合自身實際情況,開展圖書館數(shù)據(jù)管理人力資源建設(shè),逐步建立自己的數(shù)據(jù)管理崗位職能規(guī)范,培養(yǎng)數(shù)據(jù)管理人才隊伍,形成可以勝任數(shù)據(jù)管理服務(wù)的人力資源體系。