衛(wèi)軍朝 宋婧婷
(1.上海大學圖書情報檔案系 上海 200444)
近年來,隨著數(shù)據(jù)密集型科研活動的蓬勃發(fā)展,越來越多的科學數(shù)據(jù)倉儲被建立,以滿足科學數(shù)據(jù)保存和管理的需要。據(jù)Re3data.org的統(tǒng)計,截至2017年9月,已經(jīng)有1900余個科學數(shù)據(jù)倉儲在Re3data.ORG注冊,體現(xiàn)了科學數(shù)據(jù)倉儲的迅速發(fā)展。而圖書館保存著海量的科學文獻,這些科學文獻往往被獨立的保存在文獻管理系統(tǒng)中。微軟研究院科學家Jim Gray指出,科學研究的素材實際包含呈金字塔型的三個層面:處于塔尖的科學文獻、中間層是派生數(shù)據(jù)和重組數(shù)據(jù)、基礎(chǔ)層是大量的原始數(shù)據(jù),科學文獻和科學數(shù)據(jù)共同構(gòu)成科學研究的總體。如何將圖書館的科學文獻和目前蓬勃發(fā)展的科學數(shù)據(jù)關(guān)聯(lián)起來,將二者構(gòu)成科研成果的全體,讓用戶置身于完全的科研成果環(huán)境中,使科學文獻和科學數(shù)據(jù)共同來支撐科學發(fā)現(xiàn),成為科研新范式下,圖書館面臨的重要問題。
在傳統(tǒng)的學術(shù)交流體系中,學術(shù)期刊也以科學文獻為主要報道內(nèi)容。隨著數(shù)據(jù)密集型科研范式的興起,越來越多的學術(shù)期刊出臺期刊數(shù)據(jù)政策,要求作者在提交學術(shù)論文的同時,必須在學術(shù)期刊或在第三方科學數(shù)據(jù)倉儲提交相關(guān)的科學數(shù)據(jù)。學術(shù)期刊通過和科學數(shù)據(jù)的關(guān)聯(lián),為用戶提供集文獻和數(shù)據(jù)于一體的信息服務(wù)。目前看來,學術(shù)期刊與科學數(shù)據(jù)之間的關(guān)聯(lián)實踐成為研究科學文獻和科學數(shù)據(jù)關(guān)聯(lián)的典型范例和最活躍研究對象,本文以學術(shù)期刊與科學數(shù)據(jù)倉儲的關(guān)聯(lián)為研究對象,希望通過本文的努力,為我國圖書館開展科學文獻與科學數(shù)據(jù)倉儲關(guān)聯(lián)提供參考。
期刊數(shù)據(jù)政策是數(shù)據(jù)密集型科研范式下,學術(shù)期刊制定的提交數(shù)據(jù)、保存數(shù)據(jù)、開放數(shù)據(jù)、共享數(shù)據(jù)的重要措施,它對數(shù)據(jù)的提交方式,數(shù)據(jù)的內(nèi)容、共享范圍、有效期、版權(quán)、保存方式等具體信息進行了規(guī)定。對期刊數(shù)據(jù)政策的分析可以加強我們對學術(shù)期刊與科學數(shù)據(jù)倉儲關(guān)聯(lián)的認識。如期刊PLoS One要求所有論文中涉及到的數(shù)據(jù)都必須無限制的開放,要求作者在提交論文時,同時提供一份“數(shù)據(jù)可用性說明”,以描述論文涉及到科學數(shù)據(jù)的使用和訪問方法。PLoS One推薦幾種數(shù)據(jù)存儲的途徑,其中強烈推薦將數(shù)據(jù)存儲在公開的數(shù)據(jù)倉儲中。BioMed Central鼓勵所有作者將數(shù)據(jù)以一種可機讀的方式存儲在公共數(shù)據(jù)庫中,并且在“數(shù)據(jù)可用性說明”中提交數(shù)據(jù) DOI或 Accession Numbers。
從期刊數(shù)據(jù)政策可以看出,學術(shù)期刊往往要求作者將與論文相關(guān)的科學數(shù)據(jù),提交至學術(shù)期刊或公共科學數(shù)據(jù)倉儲。如Wiley、Springer等出版商要求作者將科學數(shù)據(jù)存儲在PANGAEA等數(shù)據(jù)存儲庫;Science、PNAS、Nature、BMC等國外學術(shù)出版社和期刊出臺相關(guān)的數(shù)據(jù)政策,要求作者提交論文的同時,也要提交相應(yīng)的科學數(shù)據(jù);PubMed中的文章可以與GenBank、Dryad等數(shù)據(jù)存儲庫中的數(shù)據(jù)進行關(guān)聯(lián)等。
JISC資助的旨在調(diào)研學術(shù)期刊數(shù)據(jù)政策的項目Journal Research Data Policy Bank針對400種期刊的科學數(shù)據(jù)政策調(diào)查發(fā)現(xiàn),其中約一半的期刊對其所發(fā)表文獻的支撐數(shù)據(jù)提出定向存儲的要求,要求作者在提交學術(shù)論文時,必須同時或在第三方科學數(shù)據(jù)存儲庫提交相關(guān)的科學數(shù)據(jù)。特別是地理科學、基因?qū)W、生物學等學科數(shù)據(jù)量較大的學術(shù)期刊,往往會為作者提供用以存儲與期刊文獻關(guān)聯(lián)的科學數(shù)據(jù)的數(shù)據(jù)倉儲。如美國地理協(xié)會 (The Geological Society of America,GSA)的 GSA Data Repository專門用以存儲其出版的科學期刊的支撐數(shù)據(jù)。
Dryad于2011年提出聯(lián)合數(shù)據(jù)保存政策(The Joint Data Archiving Policy,JDAP)提出支撐學術(shù)論文的科學數(shù)據(jù)也應(yīng)該被保存在合適的公共存儲中,以被讀者獲取和訪問。JDAP最先被生態(tài)和進化學領(lǐng)域的期刊提出,目前已成為大多數(shù)學術(shù)期刊制定數(shù)據(jù)政策的主要參考標準。采用該政策的期刊多推薦使用Dryad作為定向存儲數(shù)據(jù)的數(shù)據(jù)倉儲。
數(shù)據(jù)密集型科研范式下,越來越多的學術(shù)期刊開始嘗試與科學數(shù)據(jù)進行關(guān)聯(lián),實現(xiàn)論文和數(shù)據(jù)的互操作,為用戶提供集文獻和數(shù)據(jù)于一體的信息服務(wù),實現(xiàn)科學數(shù)據(jù)的增值再利用。本文通過對國外有代表性的期刊數(shù)據(jù)政策、學術(shù)期刊與科學數(shù)據(jù)關(guān)聯(lián)實踐、以及部分代表性的科學數(shù)據(jù)倉儲的調(diào)研和分析,來了解學術(shù)期刊和科學數(shù)據(jù)倉儲之間的關(guān)聯(lián)關(guān)系。
表1 部分學術(shù)期刊與科學數(shù)據(jù)倉儲關(guān)聯(lián)情況
國內(nèi)學術(shù)期刊與科學數(shù)據(jù)關(guān)聯(lián)實踐才剛起步?!冬F(xiàn)代圖書情報技術(shù)》從2016年第2期起,要求所有發(fā)表論文提交支撐論文結(jié)論的數(shù)據(jù),編輯部將對論文和數(shù)據(jù)進行關(guān)聯(lián)和出版;《圖書館雜志》也開通了數(shù)據(jù)管理平臺,鼓勵作者在提交數(shù)據(jù)論文的同時,提交數(shù)據(jù)全文或數(shù)據(jù)引用方法。傅天珍、陳妙貞于2014年對我國學術(shù)期刊數(shù)據(jù)出版政策的調(diào)查發(fā)現(xiàn),即使在我國最具國際影響力的期刊中,擁有數(shù)據(jù)政策的期刊數(shù)量仍非常有限,且主要是自然科學與工程技術(shù)類期刊。
國內(nèi)關(guān)于學術(shù)期刊與科學數(shù)據(jù)倉儲關(guān)聯(lián)的研究尚且不多,主要集中在兩個方面:一是對學術(shù)期刊科學數(shù)據(jù)政策的研究。 吳蓉等調(diào)研了 Science、Pans、Nature、BMC的期刊數(shù)據(jù)政策,從數(shù)據(jù)提交規(guī)范、數(shù)據(jù)審查政策、數(shù)據(jù)權(quán)益政策等方面進行了論述;陳秀娟等對美國化學學會期刊的數(shù)據(jù)政策進行了剖析;雷秋雨等對進化生物學領(lǐng)域期刊的數(shù)據(jù)政策進行了綜述;陳全平從主體、客體與主要內(nèi)容的角度分析了期刊數(shù)據(jù)政策;二是對科學文獻和科學數(shù)據(jù)的關(guān)聯(lián)性研究。黃筱瑾基于元數(shù)據(jù)描述的角度,分析了科學數(shù)據(jù)和科學文獻關(guān)聯(lián)的幾種模式;邱春艷在2014年和2015年的兩篇論文中對期刊文獻與科學數(shù)據(jù)的關(guān)聯(lián)服務(wù)及其實現(xiàn)進行了比較全面的研究;郭學武總結(jié)分析了科技數(shù)據(jù)與科技文獻相互關(guān)聯(lián)的三種主要模式:基于引用的直接關(guān)聯(lián)、基于同被引關(guān)聯(lián)和基于引文網(wǎng)絡(luò)的擴展并聯(lián)。
學術(shù)期刊與科學數(shù)據(jù)倉儲建立合作關(guān)系,可以根據(jù)二者的實際情況,最大可能的合作實現(xiàn)學術(shù)期刊與科學數(shù)據(jù)的關(guān)聯(lián),增強文獻和數(shù)據(jù)關(guān)聯(lián)的廣度和深度,促進科學數(shù)據(jù)的開放共享。如Elsevier希望通過與科學數(shù)據(jù)的關(guān)聯(lián),完善論文的上下文環(huán)境,為用戶提供更完善的科研產(chǎn)出,構(gòu)建完整的論文產(chǎn)出成果,盡可能地提高數(shù)據(jù)集的可獲取性來支持科研人員的研究。已與包括Protein Data Bank、Encyclopedia of Life、Cambridge Crystallographic Data Center、PANGAEA、SIMBAD Astronomical Database、Dryad 在內(nèi)的50多個科學數(shù)據(jù)倉儲建立了合作關(guān)系,通過Elsevier開發(fā)的Science Direct平臺與這些科學數(shù)據(jù)倉儲進行關(guān)聯(lián)和互操作。
目前學術(shù)期刊已與一些大型公共科學數(shù)據(jù)倉儲之間建立合作關(guān)系。Dryad鼓勵學術(shù)期刊成為Dryad的合作伙伴,構(gòu)建學術(shù)期刊與Dryad的集成系統(tǒng),使用戶在提交學術(shù)論文時,可以同時在學術(shù)期刊系統(tǒng)提交相應(yīng)的科學數(shù)據(jù)至Dryad,實現(xiàn)學術(shù)期刊和科學數(shù)據(jù)倉儲的無縫關(guān)聯(lián),目前已與130余種期刊之間實現(xiàn)了合作關(guān)系,如PLoS的全部期刊已與Dryad實現(xiàn)集成,作者在提交論文的同時,相關(guān)數(shù)據(jù)可同步至Dryad。Dataverse科學數(shù)據(jù)倉儲系統(tǒng)則提供了與學術(shù)期刊系統(tǒng)的集成插件,學術(shù)期刊利用Dataverse的數(shù)據(jù)倉儲插件,建設(shè)與自身系統(tǒng)集成的Dataverse數(shù)據(jù)倉儲,集成期刊論文與科學數(shù)據(jù)的提交、管理、編輯、評審等過程。FigShare作為一種新的分享開放科學數(shù)據(jù)的方式,研究人員可以在FigShare上,以可引述、搜尋、共享的方式發(fā)表他們的數(shù)據(jù)。FigShare也是學術(shù)期刊的主要合作對象,如與300多種BioMed Centra、SpringerOpen、Wily期刊合作,將 FigShare集成到學術(shù)期刊的工作流和論文出版過程中。
表2 科學數(shù)據(jù)倉儲與學術(shù)期刊關(guān)聯(lián)情況(部分)
一些專業(yè)的學科數(shù)據(jù)倉儲也是學術(shù)期刊的主要合作對象,學術(shù)期刊要求作者將相應(yīng)的科學數(shù)據(jù)提交到學科數(shù)據(jù)倉儲,而數(shù)據(jù)倉儲為學術(shù)期刊提供可訪問的數(shù)據(jù)DOI或Accession Number。如SCIENCE要求和論文相關(guān)的分子結(jié)構(gòu)數(shù)據(jù)提交到Worldwide Protein Data Bank,DNA和蛋白質(zhì)序列數(shù)據(jù)提交到GenBank,氣候數(shù)據(jù)提交到NOAA氣候資源庫,微陣列數(shù)據(jù)提交到 Gene Expression Omnibus 等。 PLoS要求數(shù)據(jù)應(yīng)該滿足各學科標準,并且提交到相應(yīng)學科的科學數(shù)據(jù)倉儲,并在其數(shù)據(jù)政策中羅列出了不同學科推薦的科學數(shù)據(jù)倉儲。如生物化學領(lǐng)域的caNanoLab、PubChem等,生物醫(yī)學領(lǐng)域的The Cancer Imaging Archive (TCIA)、Influenza Research Database等,神經(jīng)系統(tǒng)科學領(lǐng)域的NeuroMorpho.org、OpenfMRI等,基因序列領(lǐng)域的 DDBJ、ENA、Genbank等科學數(shù)據(jù)倉儲。
(1)學術(shù)期刊與科學數(shù)據(jù)倉儲無縫集成概況。數(shù)據(jù)密集型科研范式下,學術(shù)期刊積極謀劃與科學數(shù)據(jù)倉儲更緊密的合作和關(guān)聯(lián),通過將學術(shù)期刊系統(tǒng)與科學數(shù)據(jù)倉儲的集成,在學術(shù)期刊系統(tǒng)嵌入科學數(shù)據(jù)倉儲插件,使學術(shù)期刊系統(tǒng)具備科學數(shù)據(jù)管理功能,實現(xiàn)在提交科技論文的同時,能夠同時對相關(guān)的科學數(shù)據(jù)實現(xiàn)提交、描述、管理、存儲等功能,科學數(shù)據(jù)倉儲同時接受從學術(shù)期刊系統(tǒng)傳遞過來的科學數(shù)據(jù)與元數(shù)據(jù)。實現(xiàn)科學文獻和科學數(shù)據(jù)在提交、管理、發(fā)布等流程中的無縫集成,最終在學術(shù)期刊的訪問頁面,為使用者提供訪問科學文獻的同時,提供科學數(shù)據(jù)的閱讀、引用、分析等體驗。
目前一些大型的公共科學數(shù)據(jù)倉儲,如Dryad、Dataverse、FigShare等正在積極與學術(shù)期刊進行集成,Dryad提出免費為學術(shù)期刊提供與Dryad集成的接口,Dataverse 開發(fā)了 OJS(Open Journal System)Dataverse Plugin來實現(xiàn)學術(shù)期刊與Dataverse的集成,F(xiàn)igShare也開發(fā)了相關(guān)的學術(shù)期刊系統(tǒng)插件,來實現(xiàn)學術(shù)期刊系統(tǒng)與FigShare的集成。PKPDataverse項目通過對開放期刊系統(tǒng) (Open Journal System,OJS)與哈佛大學的Dataverse科學數(shù)據(jù)倉儲集成,在開放期刊系統(tǒng)OJS中加入OJS Dataverse插件,文獻作者可以在期刊文獻提交系統(tǒng)提交文獻的同時,提交相關(guān)的科學數(shù)據(jù)至Dataverse,提交的數(shù)據(jù)集通過數(shù)據(jù)存儲API自動存儲到Dataverse中,由OJS Dataverse為科學數(shù)據(jù)生成數(shù)據(jù)DOI,并與文獻進行關(guān)聯(lián),實現(xiàn)文獻和數(shù)據(jù)之間的雙向鏈接。
學術(shù)期刊與科學數(shù)據(jù)倉儲的無縫集成,對于作者、期刊編輯、評審人員以及文獻和數(shù)據(jù)的關(guān)聯(lián)的主要作用表現(xiàn)在:①簡化作者的數(shù)據(jù)提交流程;②可以使作者更多的將科學數(shù)據(jù)提交到統(tǒng)一的科學數(shù)據(jù)倉儲;③期刊編輯和評審人員可以同時看到論文和數(shù)據(jù),使評審工作更科學;④將對科學數(shù)據(jù)的元數(shù)據(jù)描述和對期刊論文的元數(shù)據(jù)描述統(tǒng)一起來,增強二者關(guān)聯(lián)性;⑤實現(xiàn)期刊論文和科學數(shù)據(jù)之間的雙向鏈接;⑥保證期刊論文可公開訪問時,科學數(shù)據(jù)也可以訪問。
(2)學術(shù)期刊與科學數(shù)據(jù)倉儲無縫集成的工作流。在學術(shù)期刊出版中集成科學數(shù)據(jù)的提交和發(fā)布,體現(xiàn)在學術(shù)期刊與科學數(shù)據(jù)提交、編輯、描述、存儲、評審、發(fā)布等工作流的重構(gòu)與集成。傳統(tǒng)學術(shù)期刊的工作流以文獻為中心,將科學數(shù)據(jù)加入進來,需要對以往的工作流進行重構(gòu),把對科學文獻和科學數(shù)據(jù)操作的工作流集成,形成統(tǒng)一的工作流,在統(tǒng)一的界面、步驟中完成科學文獻與科學數(shù)據(jù)的提交、出版等操作。這種工作流的集成使用戶在提交、編輯、描述論文的上下文環(huán)境中同時提交、編輯、描述科學數(shù)據(jù),實現(xiàn)了文獻和數(shù)據(jù)的集成操作,避免了二者割裂的提交,使用戶能更及時、準確的對支撐論文的科學數(shù)據(jù)進行組織和描述,增強了文獻和數(shù)據(jù)的關(guān)聯(lián),提升用戶的體驗。
PKP-Dataverse通過對學術(shù)期刊工作流的重構(gòu)與集成,使作者、編輯、評審人員可以同時完成對科學論文和科學數(shù)據(jù)的操作,提高工作效率,加強文獻與數(shù)據(jù)的關(guān)聯(lián)強度(工作流見圖 1)。
圖1 學術(shù)期刊與科學數(shù)據(jù)出版的集成工作流
學術(shù)期刊與科學數(shù)據(jù)出版的工作流首先由期刊工作人員安裝Dataverse數(shù)據(jù)倉儲,并安裝基于Dataverse的數(shù)據(jù)存儲API,在OJS系統(tǒng)安裝OJS Dataverse插件,完成基礎(chǔ)設(shè)施準備工作。然后由作者在OJS中同時提交、編輯、描述論文與數(shù)據(jù),論文被保存在OJS系統(tǒng)中,數(shù)據(jù)和數(shù)據(jù)的元數(shù)據(jù)描述提交至Dataverse,Dataverse接收數(shù)據(jù)并生成數(shù)據(jù)引用和DOI反饋給OJS系統(tǒng)。作者提交完成后,編輯和評審人員對文獻和數(shù)據(jù)進行評審,如果評審通過,將文獻和數(shù)據(jù)在OJS系統(tǒng)進行發(fā)布,同時科學數(shù)據(jù)與描述元數(shù)據(jù)在Dataverse中也進行發(fā)布,發(fā)布以后,可以實現(xiàn)從文獻(OJS)到數(shù)據(jù)(Dataverse)的,和從數(shù)據(jù)(Dataverse)到文獻(OJS)的雙向鏈接,并且在 OJS 中可以實時查看科學數(shù)據(jù)的引用、編輯等狀態(tài)。如果評審未通過,作者可以選擇將相關(guān)的科學數(shù)據(jù)從Dataverse中移除或繼續(xù)保存在Dataverse中。
當用戶將科學數(shù)據(jù)存儲到數(shù)據(jù)倉儲時,科學數(shù)據(jù)倉儲會生成數(shù)據(jù)DOI,用戶在提交期刊論文時,將數(shù)據(jù)DOI同時提交給學術(shù)期刊,方便實現(xiàn)論文與科學數(shù)據(jù)倉儲的關(guān)聯(lián)。從目前的調(diào)研來看,學術(shù)期刊要求作者提供數(shù)據(jù)DOI,基于作者提交數(shù)據(jù)DOI來構(gòu)建期刊論文和科學數(shù)據(jù)之間的關(guān)聯(lián),成為構(gòu)建期刊論文和科學數(shù)據(jù)之間關(guān)聯(lián)的主要方式。
(1)科學數(shù)據(jù)倉儲產(chǎn)生數(shù)據(jù)DOI。大多數(shù)科學數(shù)據(jù)倉儲會為用戶提交的科學數(shù)據(jù)產(chǎn)生數(shù)據(jù)DOI或Accession Number。Dryad提供DOI Services為用戶提交的科學數(shù)據(jù)產(chǎn)生DOI,并提供DOI解析服務(wù)。PANGAEA提供PANGAEA DOI Name Resolver來進行 DOI的產(chǎn)生和解析服務(wù);GenBank為用戶提交的DNA或其他序列數(shù)據(jù)生成Accession Number,Accession Number是數(shù)據(jù)的唯一標識符,學術(shù)期刊可以通過Accession Number實現(xiàn)期刊論文和相應(yīng)科學數(shù)據(jù)的鏈接,用戶可以通過Accession Number訪問到科學數(shù)據(jù)的具體內(nèi)容??茖W數(shù)據(jù)倉儲通過數(shù)據(jù)DOI,可以實現(xiàn)科學數(shù)據(jù)的發(fā)現(xiàn)和再利用。
(2)作者提交數(shù)據(jù)DOI。期刊數(shù)據(jù)政策要求,作者在提交數(shù)據(jù)的同時,需要提供一份“數(shù)據(jù)可用性說明”,以描述論文涉及到科學數(shù)據(jù)的使用和訪問方法。如PLoS One要求“數(shù)據(jù)可用性說明”必須包含存儲數(shù)據(jù)的數(shù)據(jù)倉儲名稱以及數(shù)據(jù)DOI或Accession Numbers, 以方便 PLoS One實現(xiàn)與數(shù)據(jù)的關(guān)聯(lián);SCIENCE要求在文獻出版前,Accession Numbers或一個可訪問的地址必須被包含在文獻提交中。
(3)學術(shù)期刊基于數(shù)據(jù)DOI構(gòu)建關(guān)聯(lián)。學術(shù)期刊基于作者提交的數(shù)據(jù)DOI或Accession Numbers構(gòu)建與科學數(shù)據(jù)之間的關(guān)聯(lián),關(guān)聯(lián)實現(xiàn)方式多樣。以Dryad為例,學術(shù)期刊與Dryad的關(guān)聯(lián)方式主要包括:①通過Banner Widgets(旗幟窗體)的方式,嵌入在論文展示頁面。這種Banner Widgets既可以是簡單的鏈接圖標,也可以是更多功能的數(shù)據(jù)快照;②論文正文中包含的圖表、數(shù)據(jù)等通過數(shù)據(jù)DOI直接與Dryad關(guān)聯(lián),讀者通過點擊這些圖表、數(shù)據(jù),可以直接訪問Dryad中存儲的數(shù)據(jù);③在論文展示頁面,可以在論文的開頭或附錄,通過“數(shù)據(jù)可用性說明”,明確數(shù)據(jù)的來源和引用方式;④同時在參考文獻中,以全標識的方式,一般以數(shù)據(jù)DOI的方式,對論文中提到的科學數(shù)據(jù),進行參考文獻標識。
通過作者提交數(shù)據(jù)DOI來實現(xiàn)與科學數(shù)據(jù)的關(guān)聯(lián),是最簡單、易于實現(xiàn)的方式。然而作者提交的數(shù)據(jù)DOI并不能代表與該文獻內(nèi)容相關(guān)的所有科學數(shù)據(jù),除了作者提交的數(shù)據(jù)DOI,該文獻還可能與其他科學數(shù)據(jù)存在主題相似或其他關(guān)聯(lián)關(guān)系。學術(shù)期刊也在積極通過各種方式,來實現(xiàn)與這些科學數(shù)據(jù)的關(guān)聯(lián)。
(1)通過識別文本中的語義實體來進行關(guān)聯(lián)。一般而言,作者在文中涉及到的一些重要概念、術(shù)語、詞組等,也具有一定的科學意義,通過識別這些語義實體,在后臺的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)中,發(fā)現(xiàn)并構(gòu)建與這些語義實體關(guān)聯(lián)的科學數(shù)據(jù),可以更全面的實現(xiàn)文獻和數(shù)據(jù)關(guān)聯(lián)。如Elsevier通過人工識別和自動文本挖掘的方式,對作者行文中的語義實體進行識別,通過Science Direct構(gòu)建這些語義實體與相關(guān)數(shù)據(jù)的關(guān)聯(lián),為用戶提供更全面的閱讀體驗。
(2)與科學數(shù)據(jù)倉儲合作開發(fā)數(shù)據(jù)APP。學術(shù)期刊與可信任的科學數(shù)據(jù)倉儲合作開發(fā)數(shù)據(jù)APP,通過數(shù)據(jù)APP,可以更大程度的發(fā)現(xiàn)與識別文獻中涉及的與該科學數(shù)據(jù)倉儲有關(guān)的科學數(shù)據(jù),并通過集成展示的方式,在文章頁面展示相關(guān)的科學數(shù)據(jù)。Elsevier與可信賴的數(shù)據(jù)倉儲之間建立了緊密的合作,已經(jīng)開發(fā)了許多數(shù)據(jù)APP,例如Protein Viewer(PDB)、PANGAEA Relate d Data、GenomeViewer(NCBI)等。這些數(shù)據(jù)APP保證了文獻與這些科學數(shù)據(jù)的發(fā)現(xiàn)、識別與關(guān)聯(lián)。
(3)構(gòu)建科學數(shù)據(jù)登記注冊中心。雖然,學術(shù)期刊識別了論文中的科學數(shù)據(jù)語義實體,但是不知道與哪些科學數(shù)據(jù)倉儲進行關(guān)聯(lián),以及有哪些與該文獻相關(guān)的科學數(shù)據(jù)。通過構(gòu)建科學數(shù)據(jù)登記注冊中心的方式,科學數(shù)據(jù)倉儲在科學數(shù)據(jù)注冊中心進行注冊,學術(shù)期刊在科學數(shù)據(jù)注冊中心進行搜索與發(fā)現(xiàn)與之關(guān)聯(lián)的科學數(shù)據(jù)倉儲。
目前國際上比較著名的科學數(shù)據(jù)登記注冊中心包括Re3data.ORG與DataCite。Re3data.ORG是一個科學數(shù)據(jù)倉儲注冊中心,主要目標是提供科學數(shù)據(jù)的全景地圖,鼓勵科學數(shù)據(jù)開放共享??茖W數(shù)據(jù)倉儲在Re3data.ORG注冊時,需要的主要注冊信息包括:數(shù)據(jù)倉儲的簡短描述、內(nèi)容類型、關(guān)鍵詞、科學數(shù)據(jù)的受資助機構(gòu)、數(shù)據(jù)集的許可證、數(shù)據(jù)集版本、數(shù)據(jù)DOI等。截至2017年9月,已經(jīng)有1900余個科學數(shù)據(jù)倉儲在Re3data.ORG注冊。DataCite是一個為科學數(shù)據(jù)提供數(shù)據(jù)DOI的非盈利組織,科學數(shù)據(jù)倉儲產(chǎn)生的數(shù)據(jù)DOI,通過在DataCite進行注冊,為科研組織定位、識別和引用科學數(shù)據(jù)提供幫助。如,Dryad提供的數(shù)據(jù)DOI就會在DataCite進行注冊,以方便第三方的查找和識別。
科研大數(shù)據(jù)時代,我國已經(jīng)建設(shè)和正在積極開展科學數(shù)據(jù)倉儲和科學數(shù)據(jù)平臺的建設(shè)。如由科技部牽頭的我國科學數(shù)據(jù)共享工程,在資源環(huán)境、農(nóng)業(yè)、人口與健康、基礎(chǔ)與前沿等領(lǐng)域開展科學數(shù)據(jù)共享工作,已經(jīng)形成了50余個不同學科領(lǐng)域的科學數(shù)據(jù)共享中心。中國科學院建設(shè)的國家基礎(chǔ)科學數(shù)據(jù)共享服務(wù)平臺,重點對中科院各院所的科學數(shù)據(jù)進行整合和存儲,形成不同學科的科學數(shù)據(jù)專題庫。我國高校圖書館也積極開展科學數(shù)據(jù)平臺的建設(shè)。包括復旦大學社會科學數(shù)據(jù)管理平臺、武漢大學科學數(shù)據(jù)管理平臺、北京大學開放研究數(shù)據(jù)平臺等。
從調(diào)研來看,這些科學數(shù)據(jù)管理平臺主要實現(xiàn)科學數(shù)據(jù)的匯交、保存和管理功能,提供的服務(wù)以科學數(shù)據(jù)的檢索、發(fā)現(xiàn)和下載服務(wù)為主,通過數(shù)據(jù)DOI和數(shù)據(jù)使用說明來實現(xiàn)數(shù)據(jù)的引用。而其他功能,如與科學文獻的關(guān)聯(lián),與學術(shù)期刊或圖書館開展合作,共同提供集文獻和數(shù)據(jù)于一體的服務(wù)則較少。
我國圖書館保存和管理著海量的科學文獻,如何實現(xiàn)這些科學文獻和科學數(shù)據(jù)倉儲的關(guān)聯(lián),為用戶提供集科學文獻和科學數(shù)據(jù)于一體的服務(wù),成為圖書館、學術(shù)期刊、科學數(shù)據(jù)倉儲都在關(guān)心和期望解決的主要問題。通過研究國外學術(shù)期刊與科學數(shù)據(jù)倉儲關(guān)聯(lián)的實現(xiàn)方式,可以為我國圖書館開展科學文獻與科學數(shù)據(jù)關(guān)聯(lián)提供參考。
(1)積極與科學數(shù)據(jù)倉儲合作。目前國內(nèi)外已經(jīng)建設(shè)一些成熟的科學數(shù)據(jù)倉儲,這些科學數(shù)據(jù)倉儲保存著海量的科學數(shù)據(jù),圖書館與科學數(shù)據(jù)倉儲建立信任和合作關(guān)系,可以更好的實現(xiàn)與科學數(shù)據(jù)倉儲的關(guān)聯(lián)。如國外主要的幾個科學數(shù)據(jù)倉儲,Dataverse、Dryad、FigShare 等已經(jīng)和諸如 Nature、Plos One等期刊深度合作,構(gòu)建學術(shù)期刊與科學數(shù)據(jù)倉儲集成關(guān)聯(lián)系統(tǒng),實現(xiàn)提交科學文獻和科學數(shù)據(jù)的集成與統(tǒng)一。學術(shù)期刊還可以通過與科學數(shù)據(jù)倉儲的合作,在學術(shù)期刊的論文展示頁面,展現(xiàn)與科學數(shù)據(jù)的關(guān)聯(lián),這既可以實現(xiàn)科學數(shù)據(jù)的開放共享,又可以為用戶提供更全面的使用體驗。
(2)重構(gòu)科學文獻與科學數(shù)據(jù)提交與管理工作流。傳統(tǒng)的學術(shù)期刊或圖書館,對科學文獻和科學數(shù)據(jù)的提交、管理是兩個不同的平臺,由不同的工作流來實現(xiàn)。數(shù)據(jù)密集型科研范式下,學術(shù)期刊與圖書館都開始重視科學數(shù)據(jù)的提交、發(fā)布、管理,如果將對科學文獻的提交、發(fā)布、管理與科學數(shù)據(jù)的提交、發(fā)布、管理集成起來,重構(gòu)科學文獻與科學數(shù)據(jù)提交與管理工作流,使二者合二為一,有機聯(lián)系,共同構(gòu)成科學研究內(nèi)容的總體,將能更好的實現(xiàn)文獻和數(shù)據(jù)的關(guān)聯(lián),提升數(shù)字資源的檢索與發(fā)現(xiàn)效率,更好的為用戶服務(wù)。如PKP-Dataverse項目就實現(xiàn)了期刊論文提交、評審、出版工作流和科學數(shù)據(jù)提交、管理工作流的集成。
(3)要求作者同時提交數(shù)據(jù)DOI。作者在提交科學文獻時,同時提交的數(shù)據(jù)DOI成為進行科學文獻和科學數(shù)據(jù)關(guān)聯(lián)最主要、最易于實現(xiàn)的方式。作者提交的數(shù)據(jù)DOI,就像學術(shù)論文中作者自行標注的關(guān)鍵詞,最能準確反映學術(shù)論文的具體特征。因此,圖書館可以要求作者在提交論文時,同時提交相關(guān)的科學數(shù)據(jù)DOI,以方便實現(xiàn)二者的關(guān)聯(lián)。國內(nèi)已有學術(shù)期刊開始要求作者同時提交相關(guān)的科學數(shù)據(jù)。如國內(nèi)的《現(xiàn)代圖書情報技術(shù)》(后改名為《數(shù)據(jù)分析與知識發(fā)現(xiàn)》)、《圖書館雜志》等期刊已經(jīng)開始要求作者在提交論文的同時,提交相應(yīng)的科學數(shù)據(jù)至編輯部。
(4)圖書館自動識別與科學數(shù)據(jù)的關(guān)聯(lián)。除了作者提交數(shù)據(jù)DOI,科學文獻和科學數(shù)據(jù)之間還存在其他諸如主題相關(guān)、研究相似的關(guān)聯(lián)關(guān)系,這些關(guān)聯(lián)關(guān)系作者沒有自主標出,而讀者則希望能看到與某研究主題相關(guān)的所有科學文獻和科學數(shù)據(jù)。圖書館可以通過自動文本挖掘、語義實體識別、開發(fā)數(shù)據(jù)APP等方式,建立科學文獻和科學數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
(5)建設(shè)科學數(shù)據(jù)登記注冊中心。目前國內(nèi)外已有較多的科學數(shù)據(jù)倉儲,通過科學數(shù)據(jù)登記注冊機制,可以發(fā)現(xiàn)和識別與科學文獻相關(guān)的科學數(shù)據(jù)。例如國際上比較著名的科學數(shù)據(jù)登記注冊中心Re3data.ORG與DataCite,Dryad、FigShare等科學數(shù)據(jù)倉儲都在這些登記中心進行注冊,以方便用戶的檢索和發(fā)現(xiàn)。我國也可以建設(shè)科學數(shù)據(jù)登記注冊中心,科學數(shù)據(jù)倉儲在其上進行注冊,圖書館通過注冊中心查找和識別與自己相關(guān)的科學數(shù)據(jù)。
參考文獻:
[1]Registry of Research Data Repositories[EB/OL].[2017-09-28].http://www.re3data.org/browse/by-subject/.
[2]Tansley S,Tolle K M.The fourth paradigm:data-intensive scientific discovery[M].Redmond,WA:Microsoft research,2009:19-33.
[3]李若溪,游中勝,田海江,等.數(shù)據(jù)密集型科學環(huán)境中科技期刊的數(shù)字化走向[J].編輯學報,2011(6):531-534.
[4]周曉英.數(shù)據(jù)密集型科學研究范式的興起與情報學的應(yīng)對[J].情報資料工作,2012(2):5-11.
[5]陳全平.學術(shù)期刊數(shù)據(jù)政策及相關(guān)研究[J].圖書與情報,2015(5):9-15.
[6]Data Availability in Plos One[EB/OL].[2017-08-21].http://journals.plos.org/plosone/s/data-availability.
[7]BioMed Central.BioMed Central's position statement on open data[EB/OL].[2017-08-21].http://blogs.biomedcentral.com/bmcblog/files/opendatastatementdraft.pdf.
[8]Science.Data and materials availability[EB/OL].[2017-08-21].http://www.sciencemag.org/site/feature/contribinfo/prep/gen_info.xhtml#dataavail.
[9]PNAS.Editorial policies[EB/OL].[2017-08-21].http://www.pnas.org/site/authors/joournal.xhtml.
[10]Nature.Data policies[EB/OL].[2017-08-21].http://www.nature.com/scientificdata/for-authors/data-deposition-policies/.
[11]NCBI Linkout Technology[EB/OL].[2017-08-22].http://wiki.datadryad.org/NCBI_LinkOut.
[12]Journal Research Data (JoRD) Policy Bank[EB/OL].[2017-08-22].http://crc.nottingham.ac.uk/projects/jord.php
[13]GSA Data Repository[EB/OL].[2017-08-23].http://geosociety.org/datarepository/.
[14]Joint Data Archiving Policy (JDAP)[EB/OL].[2017-08-23].http://datadryad.org/pages/jdap.
[15]Look up your journal[EB/OL].[2017-08-23].http://www.datadryad.org/pages/journalLookup.
[16]《現(xiàn)代圖書情報技術(shù)》編輯部.公開研究數(shù)據(jù),保障學術(shù)研究的可檢驗性和可重復性[J].現(xiàn)代圖書情報技術(shù),2015,31(11):1-3.
[17]《圖書館雜志》數(shù)據(jù)管理平臺(測試版)試運行公告[EB/OL].[2017-07-25].http://www.libraryjournal.com.cn/CN/column/item136.shtml
[18]傅天珍,陳妙貞.我國學術(shù)期刊數(shù)據(jù)出版政策分析及建議[J].中國出版,2014(23):31-34.
[19]吳蓉,顧立平,劉晶晶.國外學術(shù)期刊數(shù)據(jù)政策的調(diào)研和分析[J].圖書情報工作,2015,59(7):99-105.
[20]陳秀娟,吳鳴.學科領(lǐng)域期刊科研數(shù)據(jù)發(fā)表政策剖析——以美國化學學會期刊為例[J].中國科技期刊研究,2015(8):800-807.
[21]雷秋雨,馬建玲.學術(shù)期刊數(shù)據(jù)出版政策研究綜述——以JCR中進化生物學領(lǐng)域期刊為例[J].圖書館理論與實踐,2017(1):30-34.
[22]黃筱瑾.基于元數(shù)據(jù)的科學數(shù)據(jù)與科技文獻關(guān)聯(lián)研究[J].情報理論與實踐,2013(7):27-30.
[23]邱春艷.期刊文獻與科學數(shù)據(jù)的關(guān)聯(lián)服務(wù)研究[J].情報資料工作,2014(2):63-66.
[24]邱春艷.科學數(shù)據(jù)與期刊文獻的關(guān)聯(lián)實現(xiàn)研究[J].圖書館雜志,2015(8):29-33.
[25]郭學武.基于引文的科學數(shù)據(jù)與科技文獻關(guān)聯(lián)研究[J].情報科學,2014(4):59-62.
[26]Designing the Article of the Future[EB/OL].[2017-07-25].https://www.elsevier.com/connect/designing-the-article-of-thefuture.
[27]Submission integration[EB/OL].[2017-08-23].http://www.datadryad.org/pages/submissionIntegration.
[28]The Dataverse Project[EB/OL].[2017-08-25].http://dataverse.org/.
[29]Figshare teams up with Springer Nature[EB/OL].[2017-08-25].https://www.researchinformation.info/news/figshare-teamsspringernature.
[30]Science:editorial policies[EB/OL].[2017-08-25].http://www.sciencemag.org/authors/science-editorial-policies.
[31]PKP-Dataverse integration project[EB/OL].[2017-08-25].https://projects.iq.harvard.edu/ojs-dvn.
[32]Building a Bridge Between Journal Articles and Research Data:The PKP-Dataverse Integration Project[J].International Journal of Digital Curation,2014,9(1):176-184.
[33]Open Journal Systems and Dataverse Integration-Helping Journals to Upgrade Data Publication for Reusable Research[EB/OL].[2017-08-25].http://journal.code4lib.org/articles/10989.
[34]DOI Services Technology[EB/OL].[2017-08-25].https://wiki.datadryad.org/DOI_Services_Technology.
[35]PANGAEA DOI Name Resolver[EB/OL].[2017-08-25].https://doi.pangaea.de/.
[36]Receiving an Accession Number for your Manuscript[EB/OL].[2017-08-25].https://www.ncbi.nlm.nih.gov/genbank/submit/.
[37]Datacite.org[EB/OL].[2017-08-25].https://www.datacite.org/.
[38]衛(wèi)軍朝,張春芳.國內(nèi)外科學數(shù)據(jù)管理平臺比較研究[J].圖書情報知識,2017(4):97-107.