許正鑫,王 齊
(揚州大學,江蘇 揚州 225009)
開放科學基于自由、開放、合作、平等、共享等理念,目的在于形成更加開放、高效、民主和透明的科學研究范式[1],推動知識的創(chuàng)造與傳播,在拓寬科學界交互融合,提升科研成果附加值等方面具有重要價值。在這種科學范式發(fā)生改變的背景下,各領域研究人員都面臨著許多數據管理的挑戰(zhàn)、難題和需求。國際圖聯在評論《UNESCO開放科學建議書》時認為,開放科學與圖書館發(fā)展密切相關,能夠在很大程度上推動圖書館事業(yè)建設進程,同時圖書館也將對開放科學的推進產生積極效果[1]。
由于該背景下研究范式的轉變,高校圖書館科研數據的管理過程無可避免迎來了一定的沖擊和挑戰(zhàn),相關領域專家明確提出對圖書館等機構而言,提供優(yōu)質高效的科研數據服務的同時必須遵守科學數據生命周期的規(guī)律。因此,高校圖書館必須積極開展館內科研數據基于數據生命周期的管理模式的創(chuàng)新型探索,通過營造開放科學環(huán)境與氛圍,探索高??蒲袛祿淖罴压芾砟J揭源_保高校圖書館科研數據管理在開放科學環(huán)境下也能有的放矢,助力開放科學環(huán)境下高校圖書館科研數據價值的高效實現。
數據的產生、組織、保存、發(fā)布以及再利用的過程為數據生命周期,而以科研過程為基礎進行管理數據的過程就是科研數據生命周期。對科研人員而言,最優(yōu)的數據管理模式就是以數據生命周期理論為指導思想,數據管理部門將對數據從產生、重組到發(fā)布的全生命過程進行全程把控,能夠最大限度地促成數據的循環(huán)再利用。由此可見,高校圖書館應該基于科研數據的生命周期來完善其管理模式,以此增強科研人員與科研數據的黏性,促進高校圖書館科研數據生態(tài)體系的構建。目前,國外很多高校圖書館在進行科研數據管理活動時,已經開始引入科研數據生命周期理論以引領實踐。例如,哈佛大學圖書館為了鼓勵支持教學與學術研究,除了提供科學數據管理服務(RDM),還提供圍繞科研數據生命周期開展的科研數據管理服務,如醫(yī)學院RDM服務、法學院實證RDM服務以及商學院商業(yè)案例RDM服務等。國內外已有諸多高?;跀祿鲋档纳^程形成了具有自身特點的科研數據生命周期一般過程(見表1)。
表1 國內外高校形成的科研數據生命周期一般過程
由上述國內外重點高??蒲袛祿芾磉^程可以發(fā)現,雖然各個生命周期模型所適用的領域以及在操作上的細節(jié)有一定的區(qū)別,但都擁有數據的產生、組織、保存、發(fā)布以及再利用這些共同要素。本文通過總結各高校劃分的共性特征,主要將高??蒲袛祿芷趧澐譃閿祿漠a生與獲取、組織與描述、分析與加工、保存與歸檔、發(fā)布與共享以及再利用六個階段。
數據產生與獲取階段是指通過各種數據源,基于各種數據平臺、網站或文獻資源收集所需數據的過程。數據組織與描述階段需要對數據進行處理,如數據清洗和格式轉換等以獲得有用數據,并選擇合適的元數據標準對收集的數據進行描述。數據分析與加工階段是通過可視化分析工具及軟件來開展數據分析,并且通過加工向特定對象提供個性化數據,以滿足使用者多樣化利用需求。數據保存與歸檔階段主要通過形成完整的科學數據保存、備份與歸檔體系,構建數據存儲平臺,來確??蒲袛祿挠行浞莺蛥f(xié)同共享。數據發(fā)布與共享階段需要在獲得創(chuàng)作者同意且充分保護科研人員隱私信息及敏感數據、確保數據安全的基礎上,于期刊、數據平臺或存儲機構公開和發(fā)表研究成果。數據再利用階段是指以原始研究數據基礎來解決新問題的研究過程,或者在解決原始問題的過程中使用新的數據分析方法[2]。
數據生態(tài)鏈的提出起源于信息生態(tài)鏈,依據信息生態(tài)鏈中對信息人的分類,可以將在科研數據生命周期各個階段承擔不同任務的對象大致分為數據生產者、數據傳遞者、數據使用者3類[2]。在高校圖書館科研數據生命周期中,數據生產者主要是指從事一線科學研究活動的科研人員,如各學科領域科研人員、高校師生等以及團隊及高校信息服務部門;數據傳遞者基本由科研人員、高校信息服務部門以及出版機構承擔;數據使用者則多為科研人員、高校信息服務部門、校方領導決策機構以及社會用戶(見表2)。
表2 高校科研數據生態(tài)鏈中不同任務對象的角色定位及其科研數據生命周期階段
在科研數據生命周期中,數據生產者既能夠生產數據,同時也是數據的主要使用者,他們參與數據產生、處理、組織、保存以及發(fā)布的全部階段,貫穿于科研數據生命的全周期;對數據傳遞者而言,其主要工作是對科研數據的傳遞、儲存和管理,參與數據處理與描述、保存或歸檔以及數據的發(fā)布或共享階段;數據使用者主要是科研人員、高校信息服務部門、校方領導決策機構以及社會用戶。
筆者以“高??蒲袛祿芾怼睘闄z索詞,對中國知網收錄的核心期刊進行篩選,共獲得結果124條。根據可視化分析可知,研究成果自2014年起呈波段上升狀,截至2021年12月已達22篇,其中,以圖書情報與數字圖書館、高等教育、新聞與傳媒三大領域學科分布為主。對這124條結果做關鍵詞的社區(qū)聚類圖可以發(fā)現,科研數據管理與高校圖書館之間的聯系強度最高,并在開放科學參與高校圖書館建設以及數據生命周期參與高校圖書館科研數據管理過程方面已有研究成果(見圖1)。
就研究成果的具體內容來看,目前,學界對“高??蒲袛祿芾怼鳖I域的研究主要集中于開放科學環(huán)境中高校圖書館的作為、高校圖書館科研數據管理流程研究以及高校圖書館科研數據管理模式探究等。除了上述主題,還涉及包括數據治理及資源優(yōu)化配置研究等方面的數據質量管控、管理工具應用以及人才培養(yǎng)等研究。其中,在開放科學領域,任萍萍[3]、王舒波[4]研究開放科學視閾下高校圖書館科研數據治理路徑以及合理建議;張劭君[5]、張俊等[1]和劉敬儀等[6]分別針對開放科學背景下高校圖書館需要拓展的學科服務內容,探索變革科學數據服務模式和合作機制。在高校圖書館科研數據管理流程研究中,李菲等[7]、周淑云等[8]和李錚[9]均以數據生命周期理論為基點,分別對高校圖書館科研智庫管理模式和數據監(jiān)護流程進行分析;魏悅等[10]和賈玉文等[11]則以實際調研為依據,深入剖析國內外高校的科研數據管理政策和資源整合情況。最后就管理模式的研究成果來看,有學者或從數據策展角度,或從多維數據融合角度,提出高校圖書館科研管理模式的構建策略[12—14];也有學者基于國內外高校圖書館科研數據管理模式實踐,通過總結現有經驗提出面向研究數據管理的高校圖書館學科服務模式[15—17]。
綜上可知,雖然目前學界對于在開放科學環(huán)境中開展高校圖書館科研數據管理的研究已有涉及,但仍未將開放科學的內核與高校圖書館科研數據全生命周期管理流程進行有效結合,尚未形成統(tǒng)一健全的科研數據生命階段劃分體系以及明確的科研數據系統(tǒng)管理模式,也未曾基于開放科學的核心要義,從數據生命周期視角對科研數據生命鏈的各參與主體進行深入闡述與剖析。在此背景下,本文嘗試基于數據生命周期視角,構建一個明確任務對象、清晰劃分任務的高校圖書館科研數據生態(tài)鏈,并對每一鏈下相關任務對象所涉及的任務進行詳細闡述,構建出開放科學視域下高校圖書館科研數據“多鏈交互”管理模式。
對高??蒲袛祿M行收集與獲取是開展高??茖W研究的第一步,也是促進科研創(chuàng)新的前提和保障,數據生產者、傳遞者與使用者必須統(tǒng)籌協(xié)調,共同參與到該過程當中。具體來說,高校圖書館可以加強與研究性圖情機構以及“智庫”“知識庫”等社會網絡企業(yè)力量的合作聯系,與數據利用的多元主體建立廣泛的科研數據獲取伙伴關系,同時加強與校內其他相關服務部門的合作,建立起基于學科生態(tài)系統(tǒng)的學科聯絡以及協(xié)同支持的科研合作體系,從而為建立面向本校學者的數據階段型存儲庫做好數據積累與儲備。
數據處理與描述階段的主要參與者是數據生產者與數據傳遞者,在進行高校科研數據描述與處理時二者必須遵循統(tǒng)一的操作要求。數據生產者要在生產數據時保持與數據傳遞者的及時溝通與反饋,以此來確保數據描述的一致性。數據傳遞者如高校信息服務部門需要按照元數據標準處理數據生產者提供的數據或成果,同時向校內科研人員及團隊明確元數據創(chuàng)建數據文檔的使用方法、數據文件格式的標準與命名規(guī)范以及如何基于數據間邏輯關系分類創(chuàng)建使用模板等數據處理操作。
數據分析與加工階段主要是通過數據生產者運用信息組織、語義分析與文本挖掘、資源語義互聯以及關聯數據等新興技術手段與識別方法,對數據使用者的學術專長進行用戶畫像,進而開展個性化學術文獻引文推薦的信息組織。作為數據使用者,高校信息服務部門在此階段也需要對科研論文的學術價值進行測量,形成以科學創(chuàng)造力、創(chuàng)新為導向的學術影響力評價模型,以及跨學科的創(chuàng)新型信息資源組織機制,以求促進復雜網絡視角下科學文獻的知識融合,充分實現高??鐚W科的知識共享與知識再利用。
高校圖書館進行科研數據管理的最終目標是實現高校的數據從業(yè)者、學科專家、服務及資源提供者之間的高度耦合,確保各學科研究數據可獲取性、可訪問性、可互操作性和可重用性,那么數據的保存與歸檔就相當重要。在這一階段中,作為數據生產者的高校科研人員及團隊等需要對數據進行前端控制,根據既定的保存策略及要求進行數據存儲,高校信息服務部門以及出版機構等數據傳遞者需要為數據保存與歸檔提供格式規(guī)范與技術指導,并確保數據在傳遞過程中不被篡改或污染,同時還必須充分考慮到期刊或平臺的要求、數據文件格式、數據版權、數據的隱私和敏感性、共享方式等問題。而數據使用者則需要在使用過程中保證數據的完整與安全,以確保數據保存與歸檔格式的一致性與延續(xù)性。
對高校圖書館科研數據的發(fā)布與共享階段來說,只有基于群體參與視角,并以公眾獲得感為導向,鼓勵數據的生產者、傳遞者與使用者協(xié)同開展信息行為,才能實現高??蒲袛祿挠行鬟f與利用。具體來說,科研人員及團隊作為主要的數據生產者必須獲得可擴展的研究數據服務和資源以及數字素養(yǎng)教育和培訓,同時定期與數據使用者開展雙向信息溝通與交流,確保數據使用者提供項目評估監(jiān)管以及指導等反饋途徑暢通,以便數據處理者能夠及時改進管理方法。高校信息部門等作為數據傳遞者則要為數據生產者提供數據發(fā)布與共享的技術指導與咨詢服務,同時為數據使用者提供定期推送,以幫助使用者時刻了解科研數據管理最新消息。而對數據使用者來說,必須明確使用需求和目標對象,以此為數據的發(fā)布與共享提供精準的用戶導向。
開放科學的最終目標就是促進數據再利用,高校圖書館必須從數據監(jiān)管人員維度以及技術維度兩方面對這一階段進行科學管控。具體來說,數據生產者需要通過對數據生產過程進行嚴格的質量管控,確保數據的可信性與可靠性,以提高高??蒲袛祿问褂玫囊子眯?數據傳遞者如高校信息服務部門需要及時記錄描述信息以免數據丟失,并向數據使用者提供及時、便利的數據訪問,提高數據二次利用的可行性及效率;數據使用者必須積極主動發(fā)揮主觀能動性,根據要求及標準對數據進行深入挖掘。
此外,為建立一個完善的高校圖書館科研數據“多鏈交互”管理模式(見圖2),外部保障也必不可少。首先,要完善高??蒲袛祿芾碛媱?規(guī)范科研數據管理秩序。數據管理第一步是制訂數據管理計劃(DMP),有序管理科研項目數據,滿足高??蒲袛祿墓芾砼c共享要求。其次,要明確規(guī)則制度,維護科研數據倫理。具體來說,高校圖書館要收集、評估不同需求和利益關系,提供科研數據管理服務和資源、相關法律政策、數據標準。最后,要加大技術投入確??蒲袛祿踩Mㄟ^開發(fā)支持數據驅動研究的軟件工具,為科研數據管理服務實踐、數據長期獲取以及知識再利用等創(chuàng)造最佳的技術環(huán)境。
圖2 開放科學背景下高校圖書館科研數據“多鏈交互”管理模式
隨著開放科學的不斷發(fā)展,科學將更加具有合作性、可計算性和數據密集性,科研創(chuàng)新對于海量、系統(tǒng)、高可信度數據的依賴性將會提高。作為數據管理的重要基礎理論之一,數據生命周期理論十分重視科學數據管理流程中數據的可流動性和生命性。因此,高校圖書館作為開放科學的重要參與者,必須深度融入開放科學全過程,牢牢把握開放科學這一特殊時代背景,在面對各種不確定因素的沖擊時,立足于高??蒲袛祿芷谌^程,開展科研數據“多鏈交互”管理模式探索,以實現學術網絡視域下圖書館跨學科支撐與服務能力的提升,從而全面助力開放科學背景下高??鐚W科融合與協(xié)同創(chuàng)新。