盧垚 王鸑飛 劉洪冰 袁雪 陳斯翰 劉敏娟
(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
科學(xué)體系正在經(jīng)歷重大的轉(zhuǎn)變,從以研究人員為主導(dǎo)的專業(yè)體系,轉(zhuǎn)變?yōu)橛卸鄠€利益相關(guān)者的開放創(chuàng)新體系[1]。在開放科學(xué)中,開放數(shù)據(jù)作為重要要素,其實踐促進(jìn)科研協(xié)作和透明度,并且提升科研成果的重現(xiàn)性和影響力[2-3]。近年來無論是研究人員、圖書館、資助者、政策制定者,還是出版方、各類倡議組織、資源開發(fā)和策展方,各利益相關(guān)方都對推動研究數(shù)據(jù)的有效共享給予了更高關(guān)注。研究人員對數(shù)據(jù)共享持積極態(tài)度,根據(jù)萊頓大學(xué)的調(diào)查結(jié)果[1],73%的受訪者表示獲得已發(fā)表的研究數(shù)據(jù)將有利于自身研究,69%的受訪者表示共享研究數(shù)據(jù)對于他們所在領(lǐng)域的研究很重要,同時有64%的受訪者愿意讓別人訪問自己的研究數(shù)據(jù)。2020年STM出版商協(xié)會開始實施研究數(shù)據(jù)實踐,將2020年定為“STM研究數(shù)據(jù)年”,啟動了STM研究數(shù)據(jù)項目。根據(jù)該項目調(diào)查[4],2020年參與該項目的出版商中,采用數(shù)據(jù)政策的期刊從29%增加到52%,而包含數(shù)據(jù)可用性聲明(DASs)的文章數(shù)量增加一倍多。
然而研究數(shù)據(jù)的分享實踐面臨很多挑戰(zhàn),根據(jù)全球7 000余位科研人員反饋[5],46%的科研人員認(rèn)為將數(shù)據(jù)進(jìn)行共享的最主要障礙是不知道如何將數(shù)據(jù)按照可展示、有用的方式進(jìn)行有效的組織,其他困擾因素包括對版權(quán)和授權(quán)條款的不了解(37%)、不知道在何處使用何種數(shù)據(jù)倉儲(33%)、缺乏時間(26%)和擔(dān)心成本(19%)。因此研究數(shù)據(jù)共享并不應(yīng)該僅是對開放數(shù)據(jù)政策開展研究和制定宏觀數(shù)據(jù)管理計劃,在推進(jìn)數(shù)據(jù)管理實踐層面也同樣重要。如何為科研人員提供良好的數(shù)據(jù)管理支撐服務(wù),創(chuàng)建便捷的數(shù)據(jù)共享路徑,幫助研究人員更容易訪問和使用數(shù)據(jù),也應(yīng)當(dāng)引起重視。
數(shù)據(jù)共享的主要目標(biāo)是使研究數(shù)據(jù)以標(biāo)準(zhǔn)化的方式被其他研究人員重用。FORCE11工作組于2016年發(fā)布了《FAIR數(shù)據(jù)原則》,代表了數(shù)據(jù)共享和重用的黃金標(biāo)準(zhǔn)[6]。開放數(shù)據(jù)不僅要可發(fā)現(xiàn)可訪問,更需要能夠被理解、可信賴和可重用。將數(shù)據(jù)存儲在標(biāo)準(zhǔn)化的數(shù)據(jù)倉儲中可以增加公開和重用的機(jī)會,目前許多組織提供了用于歸檔數(shù)據(jù)集的存儲庫[7]。隨著研究數(shù)據(jù)的日益豐富,高效的研究數(shù)據(jù)集成發(fā)現(xiàn)和管理工具越來越不可或缺。本文選取Mendeley Data平臺進(jìn)行調(diào)研,它是Elsevier公司2015年開發(fā)的科研數(shù)據(jù)管理與共享平臺,本文針對其數(shù)據(jù)治理流程、開放關(guān)聯(lián)特征、數(shù)據(jù)存儲管理和共享功能進(jìn)行分析,總結(jié)其開放數(shù)據(jù)實踐過程中,遵循FAIR標(biāo)準(zhǔn)實施流程和系統(tǒng)設(shè)計的優(yōu)勢經(jīng)驗,為圖書館開展開放數(shù)據(jù)資源建設(shè)和研究數(shù)據(jù)服務(wù)帶來啟示。
Mendeley Data的數(shù)據(jù)治理流程包括數(shù)據(jù)收割、數(shù)據(jù)管理發(fā)布、數(shù)據(jù)存檔和提供訪問4 個環(huán)節(jié)(見圖1)。
圖1 Mendeley Data基于開放檔案信息系統(tǒng)(OAIS)模型的數(shù)據(jù)治理流程[8]
Mendeley Data索引的科研數(shù)據(jù)一方面來自于個人用戶通過網(wǎng)頁界面創(chuàng)建數(shù)據(jù)集;另一方面來自于外部系統(tǒng)通過配置公共API創(chuàng)建數(shù)據(jù)集,如Elsevier的文章發(fā)表投稿系統(tǒng)EVISE。個人用戶或者外部系統(tǒng)需要按照規(guī)范元數(shù)據(jù)(見表1)對數(shù)據(jù)集進(jìn)行描述。
表1 Mendeley Data元數(shù)據(jù)
數(shù)據(jù)集通過UI和API進(jìn)行發(fā)布,以便公眾進(jìn)行訪問。在數(shù)據(jù)集發(fā)布前,系統(tǒng)將從形式上確保必備元數(shù)據(jù)的完整性。數(shù)據(jù)集可立即發(fā)布,也可設(shè)置禁止日期延遲其發(fā)布,若設(shè)置禁止日期的情況下發(fā)布數(shù)據(jù)集,僅其標(biāo)題是立即公開的,其余的元數(shù)據(jù)和文件直至禁止日期才公開。公開時,數(shù)據(jù)集將從DataCite接收一個新的數(shù)字對象標(biāo)識符(Digital Object Identifier,DOI)。數(shù)據(jù)集發(fā)布后,由Mendeley Data平臺審核員從內(nèi)容上進(jìn)行審核,確保其為具有科學(xué)性質(zhì)的研究數(shù)據(jù),尤其是要與包含研究結(jié)果的研究論文進(jìn)行區(qū)別,并且確保不涉及以下情況:已經(jīng)公開發(fā)布過,具有DOI;含有可執(zhí)行文檔但缺乏獨立、詳細(xì)的文件描述;包含有版權(quán)的內(nèi)容(音頻、視頻、圖像等);包含敏感信息等。而不符合審核標(biāo)準(zhǔn)的數(shù)據(jù)集將被刪除并通知作者。
數(shù)據(jù)集依照上述標(biāo)準(zhǔn)被審核為有效后,隨即被歸檔到數(shù)據(jù)歸檔和網(wǎng)絡(luò)服務(wù)(Data Archiving and Network Services,DANS)長期資源庫[9]中。Mendeley已經(jīng)與DANS簽署協(xié)議,確保所有已發(fā)布和有效的數(shù)據(jù)集都將被永久存檔,并且所有存檔的數(shù)據(jù)集將獨立于Mendeley Data站點,而在DANS中可用。通過DANS存檔,保證了所有格式文件的長期保存和DANS優(yōu)選數(shù)據(jù)格式文件的長期可用性。
科研用戶可以從Mendeley Data網(wǎng)站查看和下載數(shù)據(jù)集。外部系統(tǒng)也可以通過Mendeley Data公共API查詢和下載任何已發(fā)布的有效數(shù)據(jù)集。平臺提供元數(shù)據(jù)和文件的全文搜索功能,并且可按數(shù)據(jù)類型、來源倉儲、學(xué)科類別過濾搜索結(jié)果。同時所有數(shù)據(jù)集都分配有永久DOI,也能夠通過已發(fā)表的相關(guān)論文或其他相關(guān)數(shù)據(jù)集進(jìn)行鏈接訪問。
Mendeley Data通過與DANS[9]、OpenAIRE[10]、DataCite[11]、Scholix[12]等一系列科研數(shù)據(jù)基礎(chǔ)設(shè)施系統(tǒng)進(jìn)行集成,促進(jìn)科研數(shù)據(jù)在全球范圍內(nèi)的開放關(guān)聯(lián)。在Elsevier內(nèi)部與ScienceDirect、Scopus、Scival等產(chǎn)品進(jìn)行關(guān)聯(lián),將科研數(shù)據(jù)管理共享全面整合入其學(xué)術(shù)研究數(shù)字化服務(wù)生態(tài)。
(1)利用DANS解決數(shù)據(jù)長期保存問題。DANS是一個長期存檔的供應(yīng)機(jī)構(gòu),隸屬荷蘭皇家科學(xué)院KNAW和荷蘭科學(xué)研究基金會NWO[9]。Mendeley Data與DANS達(dá)成協(xié)議對所有有效的已發(fā)布數(shù)據(jù)集進(jìn)行永久存檔,協(xié)議將確保數(shù)據(jù)集分配的DOIs將始終被解析為一個包含可用數(shù)據(jù)集元數(shù)據(jù)和文件的web頁面。
(2)與歐洲科研開放獲取基礎(chǔ)設(shè)施OpenAIRE(Open Access Infrastructure for Research in Europe)及其Zenodo數(shù)據(jù)倉儲創(chuàng)建索引。OpenAIRE[10]作為歐盟的研究門戶網(wǎng)站,是歐洲最大的科研數(shù)據(jù)發(fā)布中心,通過建立索引,當(dāng)數(shù)據(jù)集在Mendeley Data平臺發(fā)布時,也將同步發(fā)布到OpenAIRE。
(3)通過DataCite元數(shù)據(jù)索引與數(shù)千個科研數(shù)據(jù)倉儲創(chuàng)建索引,從而索引千萬級別的數(shù)據(jù)集。DataCite是一家于2009年在英國成立的國際非營利性組織,由多家機(jī)構(gòu)聯(lián)合發(fā)起,為科學(xué)數(shù)據(jù)創(chuàng)建元數(shù)據(jù)集[11],在Mendeley Data平臺發(fā)布的數(shù)據(jù)集,元數(shù)據(jù)也將發(fā)送至DataCite。同時DataCite作為科學(xué)數(shù)據(jù)標(biāo)識符注冊中心,為研究數(shù)據(jù)和其他研究產(chǎn)出分配DOI,增強(qiáng)數(shù)據(jù)搜索能力,建立數(shù)據(jù)共享生態(tài)和高效引用機(jī)制。
(4)通過Scholix鏈接研究論文和科研數(shù)據(jù)。學(xué)術(shù)鏈接交換(Scholix)是一項倡議,為其成員提供一個全面的互操作性框架,通過收集和交換研究數(shù)據(jù)與文獻(xiàn)之間的鏈接,創(chuàng)建開放的全球信息生態(tài)系統(tǒng)[12]。其成員需使用統(tǒng)一的信息模型來表示數(shù)據(jù)和文獻(xiàn)之間的鏈接,以及標(biāo)準(zhǔn)的交換格式和協(xié)議來實現(xiàn)信息交換。Mendeley Data作為Scholix的成員之一,通過將其元數(shù)據(jù)(包括相關(guān)文獻(xiàn)的鏈接)發(fā)送到DataCite來為Scholix做出貢獻(xiàn),DataCite是Scholix用于聚合數(shù)據(jù)集和文獻(xiàn)之間鏈接的信息集散中心之一,從而使鏈接被廣泛地發(fā)現(xiàn)。
(5)與Elsevier內(nèi)部產(chǎn)品關(guān)聯(lián),將科研數(shù)據(jù)服務(wù)納入其學(xué)術(shù)研究數(shù)字化服務(wù)生態(tài)。Mendeley Data數(shù)據(jù)集通過Scholix與Scopus數(shù)據(jù)庫中相應(yīng)出版物進(jìn)行關(guān)聯(lián)訪問,進(jìn)一步借助Scopus數(shù)據(jù)庫中的規(guī)范信息對數(shù)據(jù)集作者、所屬機(jī)構(gòu)等元數(shù)據(jù)進(jìn)行增強(qiáng);在ScienceDirect以及SSRN文獻(xiàn)出版流程中,Mendeley Data則被用于提交或公開與文獻(xiàn)相關(guān)的數(shù)據(jù)集;研究數(shù)據(jù)和文獻(xiàn)一樣也可通過計量指標(biāo)度量其影響力,Mendeley Data復(fù)用了Elsevier的PlumX指標(biāo)體系,包括下載、查看和數(shù)據(jù)引用(源自DataCite和Crossref)等,以及替代計量學(xué)指標(biāo)來反映社交媒體的關(guān)注度和對媒體、政策的影響力。
Mendeley Data作為覆蓋科研數(shù)據(jù)全生命周期的模塊化研究數(shù)據(jù)管理云平臺,具有數(shù)據(jù)檢索、數(shù)據(jù)存儲和管理以及數(shù)據(jù)監(jiān)控功能,各功能模塊可獨立使用,也可以與機(jī)構(gòu)現(xiàn)有的解決方案集成在一起以確??蒲泄芾砉ぷ鞯倪B續(xù)性。
Mendeley Data可作為研究數(shù)據(jù)開放搜索引擎進(jìn)行數(shù)據(jù)檢索,其索引了全球2 000多個公共研究數(shù)據(jù)倉儲中超過2 810萬個數(shù)據(jù)集,也包括Mendeley Data管理平臺的數(shù)據(jù)集,并且將各個來源的研究數(shù)據(jù)進(jìn)行元數(shù)據(jù)和數(shù)據(jù)文件的深度標(biāo)引,由此提供字段的高級檢索,可對檢索結(jié)果數(shù)據(jù)文件內(nèi)容進(jìn)行在線預(yù)覽,同時突出顯示搜索詞,以便用戶快速評估和選擇檢索記錄。
Mendeley Data作為數(shù)據(jù)存儲解決方案,使機(jī)構(gòu)能夠存儲文本、表格、圖像、統(tǒng)計數(shù)據(jù)、數(shù)據(jù)庫、置標(biāo)語言等各種類型的研究數(shù)據(jù)[13],數(shù)據(jù)通過云服務(wù)器進(jìn)行托管也可以選擇存儲在本地服務(wù)器。數(shù)據(jù)庫采用標(biāo)準(zhǔn)且豐富的元數(shù)據(jù)對數(shù)據(jù)記錄進(jìn)行管理,并允許機(jī)構(gòu)用戶自定義元數(shù)據(jù)。同時支持大規(guī)模的數(shù)據(jù)協(xié)作,使研究人員能夠與機(jī)構(gòu)內(nèi)外部合作者在同一個項目環(huán)境中對研究數(shù)據(jù)進(jìn)行組織、注釋和共享。此外,還提供一系列高級數(shù)據(jù)管理工具,如版本控制和審核工作流等,促進(jìn)研究數(shù)據(jù)管理的最佳實踐。
數(shù)據(jù)監(jiān)控模塊能追蹤檢索全球2 000多個數(shù)據(jù)庫中超過2 810萬個數(shù)據(jù)集,機(jī)構(gòu)用戶能借助其索引自動追蹤監(jiān)控本機(jī)構(gòu)科研數(shù)據(jù)產(chǎn)出情況。Mendeley Data從2 000多個通用和領(lǐng)域數(shù)據(jù)倉儲收集索引研究數(shù)據(jù),按照OpenAIRE元數(shù)據(jù)方案進(jìn)行規(guī)范描述,經(jīng)數(shù)據(jù)清洗刪除無效索引記錄,再利用自然語言處理和文本挖掘技術(shù),綜合DataCite、Scholix、Scopus等多個來源的信息,通過添加出版物鏈接、作者標(biāo)識符(ORCID、Scopus Author ID等)和機(jī)構(gòu)標(biāo)識符(Scopus Affiliation ID等)的方式來豐富數(shù)據(jù)集元數(shù)據(jù),從而形成底層數(shù)據(jù)搜索語料庫(見圖2)。數(shù)據(jù)監(jiān)控模塊在此基礎(chǔ)上,比對作者信息和機(jī)構(gòu)隸屬信息的元數(shù)據(jù),確定數(shù)據(jù)集的歸屬,即使在原始元數(shù)據(jù)中缺少歸屬信息的情況下也能依據(jù)增強(qiáng)的元數(shù)據(jù)進(jìn)行判斷。因此使得機(jī)構(gòu)科研管理者、圖書館館員能夠追蹤所在機(jī)構(gòu)研究人員發(fā)布的數(shù)據(jù)集,進(jìn)而進(jìn)行監(jiān)控和審核,并且無論這些數(shù)據(jù)集是發(fā)布于機(jī)構(gòu)數(shù)據(jù)存儲庫中,還是發(fā)布于外部的通用或領(lǐng)域數(shù)據(jù)倉儲中。
圖2 數(shù)據(jù)監(jiān)控模塊的工作原理
此外,數(shù)據(jù)監(jiān)控模塊通過建立機(jī)構(gòu)用戶專門的研究數(shù)據(jù)門戶,集中展示本機(jī)構(gòu)的科研數(shù)據(jù)產(chǎn)出情況,提升機(jī)構(gòu)數(shù)據(jù)的可發(fā)現(xiàn)性和可復(fù)用能力。數(shù)據(jù)監(jiān)控模塊還提供API服務(wù)將數(shù)據(jù)集元數(shù)據(jù)集成到機(jī)構(gòu)知識庫(IR)和機(jī)構(gòu)現(xiàn)有研究信息系統(tǒng)(CRIS)中,實現(xiàn)自動匹配作者和鏈接到出版物。此外,還支持導(dǎo)出數(shù)據(jù)報表和生成報告,以進(jìn)行批量審核和分析。
用戶利用平臺進(jìn)行科研數(shù)據(jù)發(fā)布和分享,但科研數(shù)據(jù)的所有權(quán)和控制權(quán)應(yīng)當(dāng)由用戶掌握而非平臺。Mendeley Data平臺由用戶根據(jù)需求對數(shù)據(jù)集進(jìn)行“私密”或“公開”兩種狀態(tài)的權(quán)限設(shè)置,從而控制數(shù)據(jù)集的發(fā)布。私密狀態(tài)意味著數(shù)據(jù)集尚未發(fā)布,用戶可在該狀態(tài)下對數(shù)據(jù)集進(jìn)行編輯和刪除。用戶設(shè)置權(quán)限選項為“公開”狀態(tài)則意味著對數(shù)據(jù)集進(jìn)行發(fā)布,類似于正式發(fā)表一篇文章,數(shù)據(jù)集一旦發(fā)布則不能進(jìn)行編輯和刪除,平臺將公開數(shù)據(jù)集的名稱、所有者、版本、發(fā)布時間以及DOI。而即便是發(fā)布數(shù)據(jù)集,用戶仍可以通過設(shè)置禁止日期來延遲公開的時間,這對研究者而言有充分的自主選擇權(quán)確保在論文發(fā)表之前讓研究數(shù)據(jù)處于非公開狀態(tài),又能保證編輯和審稿人可見。此外,在用戶發(fā)布科研數(shù)據(jù)時,平臺針對各種數(shù)據(jù)類型,提供了15種資料公開授權(quán)許可方式(見表2)供其選擇,包括常見的一系列CC授權(quán)條款、軟件許可條款(MIT、Apache、BSD、GPL)以及硬件許可條款,其中CC0許可相對最不受約束,Mendeley Data平臺發(fā)送至DataCite的元數(shù)據(jù)使用該許可方式。
表2 Mendeley Data提供的15種資料公開授權(quán)條款
開放高效的研究數(shù)據(jù)管理和共享工具一定是遵循FAIR原則的[14],通過分析Mendeley Data的數(shù)據(jù)治理流程、其集成的開放生態(tài)系統(tǒng),并進(jìn)一步梳理其功能,對Mendeley Data研究數(shù)據(jù)管理流程和系統(tǒng)設(shè)計中使研究數(shù)據(jù)具有可查找性、可訪問性、互操作性和可重用性特征的解決方案進(jìn)行總結(jié),以供開放科學(xué)數(shù)據(jù)資源建設(shè)進(jìn)行借鑒。
(1)可查找性。Mendeley Data數(shù)據(jù)倉儲中所有數(shù)據(jù)集都將被分配DOI,包括數(shù)據(jù)集下級文件夾和文件,甚至是數(shù)據(jù)集的不同版本,并且通過數(shù)據(jù)集元數(shù)據(jù)注冊和索引,使其能在多個研究數(shù)據(jù)資源發(fā)現(xiàn)系統(tǒng)中被檢索,除Mendeley Data平臺本身提供的檢索之外,在Google Dataset Search、DataCite、OpenAIRE、Open Science Framework都可以被發(fā)現(xiàn)。
(2)可訪問性。發(fā)布的數(shù)據(jù)集通過標(biāo)準(zhǔn)化通信協(xié)議進(jìn)行訪問,借助DOI標(biāo)識符通過HTTPS協(xié)議用瀏覽器進(jìn)行訪問或者REST API訪問。在訪問過程中允許在必要時進(jìn)行身份驗證和授權(quán),機(jī)構(gòu)用戶可以集成與行業(yè)標(biāo)準(zhǔn)SAML 2.0協(xié)議兼容(如Shibboleth)的機(jī)構(gòu)認(rèn)證。即便數(shù)據(jù)集未來不再可用,元數(shù)據(jù)仍可被訪問。Meneley Data系統(tǒng)支持“墓碑”DOIs機(jī)制,即使數(shù)據(jù)集從系統(tǒng)中刪除,DOI仍能解析數(shù)據(jù)集頁面。同時由于在DANS長期存檔,確保了對數(shù)據(jù)資源的永久訪問,若Meneley Data平臺停止服務(wù),數(shù)據(jù)集將通過DOIs解析并指向存儲在DANS中的副本,數(shù)據(jù)集和元數(shù)據(jù)將永遠(yuǎn)可用。
(3)互操作性。Meneley Data使用標(biāo)準(zhǔn)的、廣泛應(yīng)用的、可訪問的方式來表示知識,其采用JSON格式作為數(shù)據(jù)交換語言,通過HTTPS/REST協(xié)議同時也支持OAI-PMH元數(shù)據(jù)互操作協(xié)議,與其他研究數(shù)據(jù)管理工具集成進(jìn)行數(shù)據(jù)收割和推送;通過語義鏈接關(guān)聯(lián)研究論文、軟件、其他數(shù)據(jù)集等研究對象;支持Dublin Core和schema.org標(biāo)準(zhǔn)元數(shù)據(jù)框架,提供標(biāo)準(zhǔn)元數(shù)據(jù)字段的標(biāo)識符(作者及其隸屬機(jī)構(gòu)字段)和受控詞匯表(學(xué)科類別和許可條款字段)。
(4)可重用性。Meneley Data基于豐富精確的元數(shù)據(jù)描述不僅提供數(shù)據(jù)溯源信息,也促進(jìn)數(shù)據(jù)重用。通過許可條款受控詞匯表提供清晰和可訪問的數(shù)據(jù)使用許可;同時鼓勵用戶編輯“Steps to reproduce”字段,對重演該數(shù)據(jù)集對應(yīng)研究步驟和方法進(jìn)行文字描述;還允許機(jī)構(gòu)和研究人員添加自定義元數(shù)據(jù)模板來進(jìn)一步豐富元數(shù)據(jù),尤其是可以添加某些特定領(lǐng)域的元數(shù)據(jù)字段,并且可將自定義元數(shù)據(jù)字段取值范圍設(shè)置為現(xiàn)有的分類法,以便于發(fā)現(xiàn)和重用。
Mendeley Data的研究數(shù)據(jù)實踐充分證明了它不僅是研究數(shù)據(jù)存儲工具,更是工作工具,依據(jù)數(shù)據(jù)重用和共享標(biāo)準(zhǔn)為研究人員提供存儲和發(fā)布的工作環(huán)境,將研究人員作為共享和重用數(shù)據(jù)實踐的核心使之真正受益,也通過這種自下而上的方法縮小政策與開放數(shù)據(jù)基層實踐之間的差距,為開展研究數(shù)據(jù)資源建設(shè)和科研數(shù)據(jù)服務(wù)提供可借鑒的實際措施。
元數(shù)據(jù)的價值一直是科學(xué)數(shù)據(jù)各項研究和實踐中探討的重要問題和關(guān)鍵問題,元數(shù)據(jù)標(biāo)準(zhǔn)對科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、共享和再利用至關(guān)重要[15-16]。機(jī)構(gòu)內(nèi)部自建研究數(shù)據(jù)倉儲應(yīng)使用統(tǒng)一元數(shù)據(jù)描述標(biāo)準(zhǔn),提高數(shù)據(jù)的互操作性。而圖書館或信息服務(wù)機(jī)構(gòu)進(jìn)行開放科學(xué)數(shù)據(jù)資源建設(shè)時,可通過建立統(tǒng)一元數(shù)據(jù)倉儲,對分散的開放科學(xué)數(shù)據(jù)資源進(jìn)行集成匯聚,以便集中發(fā)現(xiàn),除對公共數(shù)據(jù)倉儲的數(shù)據(jù)集進(jìn)行索引之外,商業(yè)出版社也掌握豐富的研究數(shù)據(jù)資源,在2020年STM研究數(shù)據(jù)項目的驅(qū)動下,有21家出版商13 064種學(xué)術(shù)期刊參與該項目,并且研究數(shù)據(jù)聯(lián)盟(Research Data Alliance,RDA)的數(shù)據(jù)政策標(biāo)準(zhǔn)化和實施利益小組為所有期刊和出版商開發(fā)了研究數(shù)據(jù)政策標(biāo)準(zhǔn)框架[17],從出版商的角度積極推動研究數(shù)據(jù)共享,因此加強(qiáng)與出版商在研究數(shù)據(jù)元數(shù)據(jù)方面的合作也十分必要。除此之外,從Mendeley Data的實踐還可以看出,對元數(shù)據(jù)進(jìn)行深度標(biāo)引,配合統(tǒng)一分類系統(tǒng)和受控詞表等知識組織工具的使用,將有利于資源的深度揭示。
從Mendeley Data可以看出,Elsevier公司作為全球領(lǐng)先的出版企業(yè)在研究數(shù)據(jù)領(lǐng)域非?;钴S,是DataCite、Scholix、FORCE11、Research Data Alliance等多個聯(lián)盟和組織的成員,在研究數(shù)據(jù)資源匯聚、關(guān)聯(lián)、分享、利用,以及標(biāo)準(zhǔn)和指導(dǎo)原則制定等各方面都有布局。國內(nèi)科研機(jī)構(gòu),尤其是國家級的科技信息服務(wù)機(jī)構(gòu)也應(yīng)當(dāng)為開放數(shù)據(jù)的未來提前做準(zhǔn)備,積極加入各類研究數(shù)據(jù)國際聯(lián)盟和倡議組織,與各類學(xué)術(shù)生態(tài)系統(tǒng)參與者(如資助方、機(jī)構(gòu)、出版商和政策制定者)開展廣泛的合作。借助DataCite這類社區(qū)的數(shù)據(jù)資源集成、數(shù)據(jù)注冊等機(jī)制獲得更大范圍的研究數(shù)據(jù)共享,目前DataCite在中國有5家會員,分別是北京大學(xué)、清華大學(xué)、中國國家基因庫(China National GeneBank)、中國散裂中子源(China Spallation Neutron Source,IHEP)和全國地質(zhì)資料館(National Geological Archives of China);同時充分利用全球研究數(shù)據(jù)基礎(chǔ)設(shè)施[18],減少技術(shù)成本投入;參與研究數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)和指導(dǎo)原則的制定,并遵循通用的標(biāo)準(zhǔn)和原則開展具體實施。
圍繞研究數(shù)據(jù)服務(wù)有很多系統(tǒng)的研究,都指出應(yīng)推行面向科研全生命周期的嵌入式服務(wù),包括發(fā)現(xiàn)訪問、數(shù)據(jù)存儲和管理、培訓(xùn)教育等[19-23]。Mendeley Data的解決方案使一些服務(wù)更具可操作性,如數(shù)據(jù)鏈接服務(wù),指導(dǎo)作者在數(shù)據(jù)存儲庫與在線文章之間創(chuàng)建雙向鏈接來實現(xiàn)論文和數(shù)據(jù)的更容易被發(fā)現(xiàn)和訪問。此外以標(biāo)準(zhǔn)化且深度標(biāo)引的元數(shù)據(jù)為基礎(chǔ),也可進(jìn)一步拓展對科研數(shù)據(jù)利用價值和潛力的開發(fā),使科研數(shù)據(jù)和文摘數(shù)據(jù)一樣,能夠通過數(shù)據(jù)挖掘和情報分析,為不同類型的用戶提供數(shù)據(jù)驅(qū)動的科研管理決策支撐服務(wù)。例如:通過追蹤本機(jī)構(gòu)研究人員發(fā)布的數(shù)據(jù)集情況,更好地響應(yīng)資助基金要求,輔助管理部門制定機(jī)構(gòu)相關(guān)的數(shù)據(jù)管理政策;跟蹤全球、區(qū)域或機(jī)構(gòu)研究數(shù)據(jù)產(chǎn)出,洞察學(xué)科發(fā)展趨勢和熱點前沿等[24]。
數(shù)據(jù)共享的障礙之一是研究人員需要付出額外的時間和工作,卻無法獲得直接回報。對研究數(shù)據(jù)的引用可以改變這種情況,通過引用提高發(fā)布者的學(xué)術(shù)研究聲望,以此激勵其分享行為。數(shù)據(jù)引用是支持?jǐn)?shù)據(jù)重用的學(xué)術(shù)生態(tài)系統(tǒng)的一部分,F(xiàn)ORCE11工作組為數(shù)據(jù)引用制定了一套指導(dǎo)原則[25],并為出版商和學(xué)術(shù)團(tuán)體提出了實施建議[26]。與論文產(chǎn)出成果的評估類似,引用指標(biāo)和替代計量指標(biāo),同樣適用于研究數(shù)據(jù)的影響力評估,因此未來數(shù)據(jù)引用及相關(guān)評價指標(biāo)也可納入當(dāng)前基于論文引用的評估體系和激勵機(jī)制。而推行這方面應(yīng)用的重要前提是對數(shù)據(jù)集發(fā)布者的身份識別及其歸屬機(jī)構(gòu)的認(rèn)定,Mendeley Data通過元數(shù)據(jù)增強(qiáng)進(jìn)行歸屬認(rèn)定的做法值得借鑒。