徐菁菁
(浙江大學,浙江 杭州 310058)
近年來,科學數(shù)據(jù)出版越來越受到研究者的關注??茖W數(shù)據(jù)或研究數(shù)據(jù)是指產(chǎn)生或收集后有待進一步檢查并作為推理、討論或計算基礎的信息[1]。科研數(shù)據(jù)的出版是從科學研究的角度,對科學研究的數(shù)據(jù)進行公開發(fā)表及同行評審,并創(chuàng)建永久而標準的數(shù)據(jù)引用信息,以便被他人發(fā)現(xiàn)、引用和再利用[2]。
近年來,政府越來越多地參與到開放數(shù)據(jù)的建設中。許多國外政府對項目申請者科研全程的數(shù)據(jù)提出了硬性規(guī)定。美國國家科學基金會[3]、美國國家航空航天局(NASA)、英國研究理事會(RCUK)等均有相關規(guī)定,要求所有提交的基金申請項目,必須使其科學數(shù)據(jù)有公開獲取途徑。
數(shù)據(jù)期刊政策是數(shù)據(jù)期刊發(fā)展的指引方向,主要涉及數(shù)據(jù)提交、數(shù)據(jù)描述、數(shù)據(jù)保存、數(shù)據(jù)利用等流程[4]。首先,數(shù)據(jù)期刊一般要求使用指定格式的數(shù)據(jù)以方便統(tǒng)一管理和引用。在審核階段,需要對其數(shù)據(jù)進行全方位的評估,同行評審評議是審核數(shù)據(jù)集非常重要的過程之一。另外,還需針對數(shù)據(jù)集進行描述,除了論文幾大要素之外,還要附加描述數(shù)據(jù)采集、處理方法、數(shù)據(jù)樣本描述、數(shù)據(jù)質量評估、元數(shù)據(jù)信息等內容。數(shù)據(jù)論文通過評審后,將進行發(fā)布并確該數(shù)據(jù)集是可發(fā)現(xiàn)和可引用的。
我國數(shù)據(jù)出版發(fā)展雖已取得階段性成果,但與國外相比還處于起步和探索階段。我國大部分期刊都不具有數(shù)據(jù)出版政策,僅有的政策也多以鼓勵為主,并不強制要求。
科學數(shù)據(jù)出版模式是推進科學數(shù)據(jù)共享的必經(jīng)之路?,F(xiàn)有研究者主要是通過科學數(shù)據(jù)出版的主、客體方式來歸納科學數(shù)據(jù)出版模式,屬于比較初級的劃分。關于主體與客體的區(qū)分,邱春艷[5]認為:科學數(shù)據(jù)出版的主體主要包含學術出版商、科研機構、數(shù)據(jù)中心和圖書館等,客體為科學數(shù)據(jù)、科學數(shù)據(jù)集以及元數(shù)據(jù)等。Lawrence等[6]從客體視角,將數(shù)據(jù)出版劃分為:獨立的數(shù)據(jù)出版、作為論文輔助資料的數(shù)據(jù)出版、附錄數(shù)據(jù)出版、期刊數(shù)據(jù)檔案出版以及數(shù)據(jù)論文出版等。
目前科研數(shù)據(jù)出版服務主要有以下4種數(shù)據(jù)出版形式:①學科數(shù)據(jù)儲存庫[7]。②機構存儲庫[8-9]。③數(shù)據(jù)論文和期刊論文。④機構、個人或第三方網(wǎng)頁出版[10]。
也有學者認為,科學出版的主要目的是方便共享,促進科學發(fā)展,所以簡化流程和方法是非常重要的課題。
基于OSF平臺[11]中Meeting板塊,創(chuàng)建一個在線數(shù)據(jù)存儲庫Data Ark[12],并在其中填充數(shù)據(jù)集(目前網(wǎng)站中的數(shù)據(jù)集上傳時間為2018-2019),從而使心理學和精神病學相關的研究團體能夠重復使用并驗證它們。
Micropublication[13]是一個新穎的學術交流平臺,該平臺可以捕獲研究人員的數(shù)據(jù),然后通過Micropublication將其直接傳遞到信息資源中。該平臺通過提供快速并且輕量級的出版物,從而激勵作者發(fā)布其未發(fā)表的觀察結果以及相關的元數(shù)據(jù)。該平臺每篇文章都經(jīng)過同行評審并分配了DOI,整理所包含的數(shù)據(jù),并在發(fā)布后將其存儲在第三方參考數(shù)據(jù)庫中。
IDR項目的建設由BBSRC資助,這是鄧迪的 OME財團與EMBL-EBI的合作。IDR使一些研究社區(qū)可以被搜索、查看、挖掘,可以處理和分析大型、復雜的多維生命科學圖像數(shù)據(jù)。共享數(shù)據(jù)可以促進對實驗方法和科學結論的驗證,可以與全球科學界獲得的新數(shù)據(jù)進行比較,并可以使開發(fā)人員使用新的分析和處理工具來重復使用數(shù)據(jù)[14]。
Psi開放數(shù)據(jù)是心理學研究協(xié)會開放的超心理學和心理學研究數(shù)據(jù)的開放存儲庫。該存儲庫使用DKAN構建,DKAN是一個開放源代碼開放數(shù)據(jù)平臺,具有完整的編目、發(fā)布和可視化功能。它允許管理員用戶上載研究數(shù)據(jù)集,并允許任何訪客搜索和下載數(shù)據(jù)集[15]。
Qresp[16]是一個基于Web的開放源代碼應用程序,可用于管理和探索科學論文中呈現(xiàn)的數(shù)據(jù),或者僅用于探索科學論文。它不僅可以用于管理數(shù)據(jù),更可以用于數(shù)據(jù)共享。
Qresp的優(yōu)點不僅在于促進數(shù)據(jù)可重復性;還在于它具有以下優(yōu)點:通過創(chuàng)建論文工作流程,Qresp使作者能夠解釋和公開論文的研究內容。Qresp通過鼓勵使用(重復使用)腳本化程序以減少耗時和錯誤,從而鼓勵從研究項目的早期階段就采用良好的科學實踐操作。Qresp可以成為培養(yǎng)數(shù)據(jù)管理和共享文化的重要工具。并且Qresp還滿足促進數(shù)據(jù)挖掘和統(tǒng)計分析/學習的需求。Qresp增加大量數(shù)據(jù)的可用性,以進行統(tǒng)計學習,從而有助于該領域的擴展和穩(wěn)健性。此外,這將有助于減少在屬于某個社區(qū)或研究小組的研究人員之間共享數(shù)據(jù)和知識的時間框架,從而提高生產(chǎn)率并最大程度地減少工作和成本的 重復。