張莎莎,黃國彬,耿騫
(北京師范大學(xué)政府管理學(xué)院,北京 100875)
基于re3data的英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)研究*
張莎莎,黃國彬,耿騫
(北京師范大學(xué)政府管理學(xué)院,北京 100875)
本文以re3data為數(shù)據(jù)獲取源,選取英國247個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)為研究對象,從責(zé)任主體、平臺(tái)功能、數(shù)據(jù)資源、數(shù)據(jù)傳輸四個(gè)角度出發(fā),對英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)特點(diǎn)進(jìn)行研究,總結(jié)英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)特點(diǎn)及建設(shè)經(jīng)驗(yàn),為科研人員訪問和利用現(xiàn)有科學(xué)數(shù)據(jù)發(fā)布平臺(tái)、科學(xué)數(shù)據(jù)發(fā)布平臺(tái)建設(shè)者建設(shè)和完善平臺(tái)提供一定指導(dǎo)。
科學(xué)數(shù)據(jù);發(fā)布平臺(tái);英國;re3data
隨著“互聯(lián)網(wǎng)+”時(shí)代的來臨,科研人員每天在科學(xué)研究中產(chǎn)生海量科學(xué)數(shù)據(jù)??茖W(xué)數(shù)據(jù),又被稱作科研數(shù)據(jù)或研究數(shù)據(jù),指在科研活動(dòng)中產(chǎn)出的能夠反映客觀世界本質(zhì)、特征及變化規(guī)律的原始數(shù)據(jù),以及根據(jù)科學(xué)研究活動(dòng)需要而加工處理的數(shù)據(jù)集合[1]。當(dāng)前,國內(nèi)外科學(xué)研究步伐日益加快,多渠道收集與使用科學(xué)數(shù)據(jù)已成為十分重要的研究方法,然而由于科學(xué)數(shù)據(jù)來源廣、數(shù)量大、種類多等特點(diǎn),科學(xué)數(shù)據(jù)的獲取和處理已成為科研人員面臨的重大難題之一。而解決該難題的關(guān)鍵則是建設(shè)一個(gè)集數(shù)據(jù)存儲(chǔ)、描述、共享、獲取等功能于一身的科學(xué)數(shù)據(jù)發(fā)布平臺(tái),至此,不同類型、各具特色、質(zhì)量參差不齊的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)應(yīng)運(yùn)而生。
根據(jù)德國研究基金會(huì)資助構(gòu)建的re3data(一個(gè)匯集全球不同學(xué)科科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的注冊表)統(tǒng)計(jì),截至2017年4月6日,共有1 839個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)在此注冊[2],其中美國(894個(gè))、德國(281個(gè))、英國(247個(gè))的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)數(shù)量排名前三。對眾多科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的選擇和使用,成為科研人員面臨的難題之一。鑒于統(tǒng)計(jì)工作量及語言限制等因素,本文選取英國的247個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)為例,對其特點(diǎn)進(jìn)行總結(jié)和分析,輔助科研人員選擇適合的科學(xué)數(shù)據(jù)發(fā)布平臺(tái),以減少重復(fù)研究、提高科研效率、增加科研收益,并對我國研究機(jī)構(gòu)在組織建設(shè)和完善自身科學(xué)數(shù)據(jù)發(fā)布平臺(tái)方面提供指導(dǎo)和借鑒。
本文以“科研數(shù)據(jù)”O(jiān)R“科學(xué)數(shù)據(jù)”O(jiān)R“研究數(shù)據(jù)”為關(guān)鍵詞,并以“平臺(tái)”O(jiān)R“倉儲(chǔ)”O(jiān)R“共享”等為關(guān)鍵詞,在中國知網(wǎng)、Web of Science等數(shù)據(jù)庫進(jìn)行文獻(xiàn)檢索,通過對現(xiàn)有文獻(xiàn)的分析來揭示有關(guān)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的研究現(xiàn)狀。
2.1 國內(nèi)研究現(xiàn)狀
目前,國內(nèi)有關(guān)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的研究主要集中于三方面。(1)介紹國外各領(lǐng)域具有代表性的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)案例。覃丹選取英美兩國一流高校構(gòu)建的5個(gè)社會(huì)科學(xué)數(shù)據(jù)管理與共享平臺(tái)(ROPER、SSDA、ODUM、ICPSR、UK Data Archive),從整體結(jié)構(gòu)、檢索服務(wù)、導(dǎo)航服務(wù)、咨詢/幫助服務(wù)、教育培訓(xùn)服務(wù)等方面介紹各平臺(tái)建設(shè)現(xiàn)狀[3];陳秀娟等調(diào)研化學(xué)領(lǐng)域科研數(shù)據(jù)發(fā)布平臺(tái)的創(chuàng)建國家、建立時(shí)間、平臺(tái)類別、開放情況等,選取Cambridge Structural Database、ChemSpider和ChemSynthesis來深度分析化學(xué)數(shù)據(jù)發(fā)布平臺(tái)的服務(wù)內(nèi)容[4];李翼等考察國外四大醫(yī)學(xué)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)(PMC、Europe PMC、AIHW、CT)的建設(shè)現(xiàn)狀、共享情況和元數(shù)據(jù)特點(diǎn),并將其與國內(nèi)的人口與健康科學(xué)數(shù)據(jù)平臺(tái)進(jìn)行對比分析[5]。(2)研究科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的支撐軟件。張計(jì)龍等從系統(tǒng)功能、二次開發(fā)可能性和系統(tǒng)可維護(hù)性等角度分析比較主流平臺(tái)軟件Dspace、Fedora Commons、Dataverse、Nesstar和在線分析軟件SDA的特點(diǎn)[6],殷沈琴等對以上5款軟件進(jìn)行部署測試,對系統(tǒng)的進(jìn)階功能、元數(shù)據(jù)標(biāo)準(zhǔn)、在線分析功能進(jìn)行評估和系統(tǒng)選型,提出構(gòu)建高??茖W(xué)數(shù)據(jù)管理平臺(tái)的建議[7]。(3)探討科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)。于海軍等針對載人航天空間應(yīng)用與科學(xué)數(shù)據(jù)在線分發(fā)共享需求,提出一種多層次、松耦合、易擴(kuò)展的平臺(tái)架構(gòu),解決了平臺(tái)數(shù)據(jù)邏輯模型設(shè)計(jì)、元數(shù)據(jù)自動(dòng)提取、數(shù)據(jù)便捷在線服務(wù)、軌道仿真等技術(shù)問題及其實(shí)現(xiàn)方式[8];周寶平介紹太原市科學(xué)數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)過程和開發(fā)技術(shù),指出該平臺(tái)具有元數(shù)據(jù)匯交、數(shù)據(jù)發(fā)布、元數(shù)據(jù)檢索及多種方式數(shù)據(jù)共享等功能,具有較好的擴(kuò)展性和復(fù)用性[9]。
2.2 國外研究現(xiàn)狀
通過對國外文獻(xiàn)調(diào)研發(fā)現(xiàn),目前有關(guān)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的研究較少且主要圍繞兩個(gè)主題。(1)研究現(xiàn)有的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)。Chourasia等從功能和技術(shù)維度探討科學(xué)數(shù)據(jù)發(fā)布平臺(tái)SeedMe的特點(diǎn),其中,功能維度包括數(shù)據(jù)文件和集合屬性、程序文件發(fā)布工具、元數(shù)據(jù)、下載、訪問控制、安全獲取等內(nèi)容,技術(shù)維度包括內(nèi)容管理、安全控制、Web服務(wù)、視頻編碼等內(nèi)容[10];Kraft等從建設(shè)模式、建設(shè)目標(biāo)、系統(tǒng)架構(gòu)、元數(shù)據(jù)標(biāo)準(zhǔn)等方面介紹Radar,其主要面向無數(shù)據(jù)共享傳統(tǒng)學(xué)科的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)[11];Herrick等調(diào)研了可公開訪問的醫(yī)學(xué)成像數(shù)據(jù)存儲(chǔ)庫XNAT Central,并從當(dāng)前服務(wù)、托管數(shù)據(jù)、貢獻(xiàn)數(shù)據(jù)、未來發(fā)展等方面對其深入介紹[12]。(2)研究科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的構(gòu)建或改進(jìn)方法。Herzinger等開發(fā)SmartR插件,該插件有利于增強(qiáng)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)tranSMART的互動(dòng)和動(dòng)態(tài)視覺分析能力[13];Huang等利用和擴(kuò)展Chaste和sif軟件框架開發(fā)新科學(xué)數(shù)據(jù)發(fā)布平臺(tái),該平臺(tái)有助于促進(jìn)研究者間科學(xué)數(shù)據(jù)共享,有利于共享科學(xué)數(shù)據(jù)訪問[14];Kruger等提出歸檔和檢索實(shí)時(shí)科學(xué)數(shù)據(jù)的一般架構(gòu)(即科學(xué)數(shù)據(jù)發(fā)布平臺(tái)),并從元數(shù)據(jù)角度探索改進(jìn)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)存儲(chǔ)和檢索功能的方案[15]。
目前有關(guān)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的研究存在兩點(diǎn)不足:(1)國內(nèi)外學(xué)者都傾向于研究個(gè)別實(shí)踐案例,沒有從宏觀角度出發(fā),對現(xiàn)有科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的特點(diǎn)進(jìn)行梳理;(2)現(xiàn)有研究雖從元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)服務(wù)、軟件平臺(tái)等角度對科學(xué)數(shù)據(jù)發(fā)布平臺(tái)進(jìn)行介紹,但欠缺從平臺(tái)語言、數(shù)據(jù)類型、學(xué)科分布等角度的探索。因此,本文選取英國247個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)為例,從責(zé)任主體、平臺(tái)功能、數(shù)據(jù)資源、數(shù)據(jù)傳輸四個(gè)角度出發(fā),梳理英國科學(xué)數(shù)據(jù)平臺(tái)的整體特點(diǎn)。
語種的多樣性對信息的傳播和獲取具有促進(jìn)作用,就英國的247個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)而言,其使用了43種語言且每個(gè)平臺(tái)都使用英語這一語種;此外,232個(gè)平臺(tái)(占94%)的語言類型僅為英語,15個(gè)平臺(tái)(占6%)采用兩種及以上語言,其中Data Hub[16]語言版本最多(見表1)。英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)管理機(jī)構(gòu)在采用英語作為平臺(tái)主要語言的同時(shí),逐漸采用多語種版本來提高平臺(tái)可讀性,該舉措雖目前普及度不高,但對于母語非英語的研究者大有裨益。除平臺(tái)語言通用、多語種外,英國的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)在其責(zé)任主體、平臺(tái)功能、數(shù)據(jù)資源、數(shù)據(jù)傳輸方面皆具有顯著的特點(diǎn)。
3.1 責(zé)任主體
3.1.1 來源國家/組織
來源國家/組織指科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的責(zé)任主體所屬國家或組織。通過對英國247個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)調(diào)研發(fā)現(xiàn)[2],有107個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)(占43%)僅由英國建設(shè)或管理,其余平臺(tái)由英國和其他國家/組織合作建設(shè)或管理(見表2)。在合作建設(shè)或管理的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)中,Consortium of European Social Science Data Archives的責(zé)任主體所屬國家/組織最多(22個(gè));由2—10個(gè)國家/組織合作建設(shè)或管理的平臺(tái)數(shù)目分別為71、38、13、4、5、2、4、1、1和1。從合作對象看,合作國家/組織數(shù)量在1—3個(gè)的平臺(tái)最多(占87%);此外,英國與美國、德國、法國、加拿大、澳大利亞合作最多,這些國家正好也是科學(xué)數(shù)據(jù)發(fā)布平臺(tái)數(shù)量排行前10的國家。
表1 英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的語言類型
3.1.2 管理機(jī)構(gòu)
管理機(jī)構(gòu)是負(fù)責(zé)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)運(yùn)營的直接單位。調(diào)研發(fā)現(xiàn)[2],44個(gè)平臺(tái)(占18%)屬于一家機(jī)構(gòu)獨(dú)立管理模式,其余203個(gè)平臺(tái)(占82%)由多家機(jī)構(gòu)聯(lián)合管理,通常合作機(jī)構(gòu)數(shù)為2—5家(占59%)。英國的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)注重合作建設(shè)模式,以吸引合作伙伴加盟,在資源、資金、技術(shù)、服務(wù)等方面各顯其長,共同提供優(yōu)質(zhì)數(shù)據(jù)服務(wù)。如UK Data Archive由埃塞克斯大學(xué)成立并提供技術(shù)和部分?jǐn)?shù)據(jù)資源支持,英國的經(jīng)濟(jì)與社會(huì)研究委員會(huì)、國家檔案館、聯(lián)合信息系統(tǒng)委員會(huì)等提供資金支持等[17]。此外,從平臺(tái)管理機(jī)構(gòu)性質(zhì)看,4個(gè)平臺(tái)(占2%)僅由盈利性機(jī)構(gòu)管理,如GeoNames;15個(gè)平臺(tái)(占6%)由盈利性和非盈利性機(jī)構(gòu)共同管理,如Crystallography Open Database;其余228個(gè)平臺(tái)(占92%)由非盈利性機(jī)構(gòu)管理,如UK Data Service。
3.2 平臺(tái)功能
3.2.1 開發(fā)軟件
開發(fā)軟件是支撐科學(xué)數(shù)據(jù)發(fā)布平臺(tái)運(yùn)作的基礎(chǔ)架構(gòu)和硬件系統(tǒng)。除154個(gè)平臺(tái)的開發(fā)軟件信息未知以外,剩余93個(gè)平臺(tái)的開發(fā)軟件信息如圖1所示。
圖1 英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的開發(fā)軟件情況
英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)通?;贓Prints、Dspace、MySQL、CKAN、Fedora、DataVerse、dLibra軟件開發(fā)。上述軟件基本屬于開源軟件,具備科學(xué)數(shù)據(jù)發(fā)布平臺(tái)所需的存儲(chǔ)、發(fā)布、檢索、下載等數(shù)據(jù)管理功能,可免費(fèi)獲取且支持二次開發(fā)或系統(tǒng)移植;此外,它們獲取便利、使用簡易、安全可靠、兼容性強(qiáng),滿足數(shù)據(jù)管理所需的上傳、下載、檢索、篩選、分享、社交等功能。如DataVerse具有在線統(tǒng)計(jì)與分析功能,CKAN提供瀏覽、下載次數(shù)統(tǒng)計(jì)和5星級(jí)評價(jià)標(biāo)注等功能。從開發(fā)軟件角度看,平臺(tái)的功能大部分取決于開發(fā)軟件的選擇。
表2 英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的合作國家/組織分布 個(gè)
3.2.2 平臺(tái)類別
根據(jù)平臺(tái)的功能定位,可將科學(xué)數(shù)據(jù)發(fā)布平臺(tái)分為學(xué)科知識(shí)庫和機(jī)構(gòu)知識(shí)庫。除11個(gè)平臺(tái)(占4%)未注明平臺(tái)類別外,有170個(gè)平臺(tái)(占69%)類型為學(xué)科知識(shí)庫,如UniProtKB/Swiss-Prot主要存儲(chǔ)和發(fā)布遺傳學(xué)學(xué)科方面的科學(xué)數(shù)據(jù);有35個(gè)平臺(tái)(占14%)類型為機(jī)構(gòu)知識(shí)庫,如DataSTORRE主要存儲(chǔ)和發(fā)布英國斯特林大學(xué)研究者的科學(xué)數(shù)據(jù);有31個(gè)平臺(tái)(占13%)屬于混合型知識(shí)庫,如UK Data Archive不僅存儲(chǔ)和發(fā)布機(jī)構(gòu)成員的科學(xué)數(shù)據(jù),還存儲(chǔ)和發(fā)布注冊會(huì)員、人文社科領(lǐng)域的科學(xué)數(shù)據(jù)[17]。
3.3 數(shù)據(jù)資源
3.3.1 學(xué)科分布
從整體看,平臺(tái)學(xué)科分布涉及人類與社會(huì)科學(xué)、生命科學(xué)、自然科學(xué)、工程科學(xué)四大類,14個(gè)一級(jí)子類,45個(gè)二級(jí)子類(見表3)。從各類學(xué)科平臺(tái)數(shù)量分布可見,生命科學(xué)和自然科學(xué)是英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)較重視的兩大類學(xué)科。本文將內(nèi)容只涉及一種學(xué)科大類、一種一級(jí)子類且一種二級(jí)子類的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)稱為單學(xué)科平臺(tái),其余為多學(xué)科平臺(tái)。經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),除MRC National Survey of Health and Development未注明學(xué)科外,183個(gè)平臺(tái)(占74%)為多學(xué)科平臺(tái),如National Geoscience Data Centre存儲(chǔ)和發(fā)布的內(nèi)容涉及水研究、大氣科學(xué)與海洋學(xué)、地球物理學(xué)與測地學(xué)3個(gè)二級(jí)子類學(xué)科;63個(gè)平臺(tái)(占26%)為單學(xué)科平臺(tái),如STRING中的內(nèi)容涉及的學(xué)科為基本的生物和醫(yī)學(xué)研究。
3.3.2 內(nèi)容類型
英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)發(fā)布的內(nèi)容類型多種多樣,至少14種(見表4)。從內(nèi)容類型數(shù)量看,13個(gè)平臺(tái)(占5%)發(fā)布的內(nèi)容只有一種類型,如Chemical Database Service只發(fā)布科學(xué)和統(tǒng)計(jì)數(shù)據(jù)格式的內(nèi)容;217個(gè)平臺(tái)(占88%)發(fā)布的內(nèi)容類型數(shù)量在2—7種,如EBI Metagenomics發(fā)布科學(xué)和統(tǒng)計(jì)數(shù)據(jù)格式、純文本、圖片、原始數(shù)據(jù)和結(jié)構(gòu)化圖形5種類型的內(nèi)容;Loughborough Data Repository發(fā)布的類型內(nèi)容最多,達(dá)14種。
3.3.3 元數(shù)據(jù)標(biāo)準(zhǔn)
有76個(gè)平臺(tái)對所使用的元數(shù)據(jù)標(biāo)準(zhǔn)情況進(jìn)行了說明,主要涉及13種元數(shù)據(jù)標(biāo)準(zhǔn)(見表5)。其中,Dublin Core是使用最多的一項(xiàng)標(biāo)準(zhǔn),其次分別為DataCite Metadata Schema、DDI、ISO 19115。Dublin Core是描述信息資源的通用標(biāo)準(zhǔn),其內(nèi)容簡潔明了[18];DataCite Metadata Schema可應(yīng)用于任意領(lǐng)域,準(zhǔn)確且有效地識(shí)別出資源,以便于用戶引用和檢索[19];DDI是社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn),其設(shè)計(jì)不僅考慮獲取信息,還考慮采用機(jī)器可讀的格式去表達(dá)數(shù)據(jù)處理、發(fā)現(xiàn)及分析全過程[20];ISO 19115是面向地理科學(xué)數(shù)據(jù)國際元數(shù)據(jù)標(biāo)準(zhǔn),可為數(shù)字化地理科學(xué)數(shù)據(jù)集描述提供清晰的過程[20]。有的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)不止采用一種元數(shù)據(jù)標(biāo)準(zhǔn),如Environmental Information Data Centre使用3種元數(shù)據(jù)標(biāo)準(zhǔn),分別為Dublin Core、DataCite Metadata Schema和ISO 19115。
3.4 數(shù)據(jù)傳輸
3.4.1 數(shù)據(jù)上傳
大多數(shù)平臺(tái)對數(shù)據(jù)上傳設(shè)有限制條件,以確保數(shù)據(jù)質(zhì)量。173個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)(占70%)允許有限制的上傳數(shù)據(jù),64個(gè)平臺(tái)(占30%)不面向公眾上傳數(shù)據(jù),8個(gè)平臺(tái)(占3%)面向用戶開放上傳數(shù)據(jù)。這3種方式并不互斥,可組合使用。如Virtual Liver Network的上傳方式為不面向其他公眾上傳和有限制上傳,只有機(jī)構(gòu)成員才可以注冊并在平臺(tái)上存儲(chǔ)發(fā)布數(shù)據(jù)[21]。有限制上傳包括注冊上傳、機(jī)構(gòu)成員注冊上傳、注冊付費(fèi)上傳。此外,96個(gè)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)(占39%)規(guī)定上傳數(shù)據(jù)需遵循相應(yīng)數(shù)據(jù)上傳許可協(xié)議,如EMEP規(guī)定了兩個(gè)上傳許可協(xié)議,分別為Data Policy和Terms of Use。據(jù)此可知,為提高數(shù)據(jù)質(zhì)量,英國多數(shù)科學(xué)數(shù)據(jù)平臺(tái)采取有限制上傳和制定上傳許可協(xié)議等舉措。
3.4.2 數(shù)據(jù)獲取
大多數(shù)平臺(tái)都在積極響應(yīng)開放獲取運(yùn)動(dòng),以推動(dòng)科學(xué)信息的廣泛傳播和無障礙地獲取。207個(gè)平臺(tái)(占84%)獲取方式為開放,109個(gè)平臺(tái)(占44%)獲取方式為有限制獲取,33個(gè)平臺(tái)(占13%)獲取方式為暫時(shí)禁
止獲取,僅23個(gè)平臺(tái)(占9%)獲取方式為無法獲取。同數(shù)據(jù)上傳類似,不同數(shù)據(jù)獲取方式也并不互斥。如Environmental Information Data Centre的獲取方式為暫時(shí)禁止獲取和注冊獲取,即所有數(shù)據(jù)需用戶注冊才有獲取權(quán)限,另有部分?jǐn)?shù)據(jù)需等到被解禁后才允許用戶下載[22]。
表3 英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的學(xué)科分布
表4 英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的內(nèi)容類型
表5 英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)的元數(shù)據(jù)標(biāo)準(zhǔn)使用情況
3.4.3 數(shù)據(jù)引用
數(shù)據(jù)引用指科學(xué)數(shù)據(jù)發(fā)布平臺(tái)對用戶引用平臺(tái)上數(shù)據(jù)的相關(guān)要求、說明或限制條件。147個(gè)平臺(tái)(占60%)制定有引用指南,如Dryad要求科學(xué)數(shù)據(jù)施引者在引用時(shí)注明數(shù)據(jù)來源和數(shù)據(jù)來源文獻(xiàn),并對引用格式進(jìn)行范例說明[23];100個(gè)平臺(tái)(占40%)暫未制定引用指南,如STRING。由此可見,英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)較重視保護(hù)科研人員的學(xué)術(shù)成果。對科學(xué)數(shù)據(jù)予以引用不僅是對科學(xué)數(shù)據(jù)貢獻(xiàn)者的尊重和對成果的認(rèn)可,還有助于學(xué)者追根溯源,了解更多有關(guān)被引用的科學(xué)數(shù)據(jù)內(nèi)容或驗(yàn)證相關(guān)研究的科學(xué)性和有效性,進(jìn)而推動(dòng)科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步。
通過以上研究發(fā)現(xiàn),英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)除了語言類型以英語為主,多語言為輔外,還具有3方面的特點(diǎn)。(1)合作建設(shè)或管理。英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)大多是國家間、機(jī)構(gòu)間合作建設(shè)或管理的模式,這種模式可以博采眾長,充分發(fā)揮各組織機(jī)構(gòu)特點(diǎn),為研究者提供優(yōu)化數(shù)據(jù)服務(wù)。(2)平臺(tái)功能受開發(fā)軟件和平臺(tái)類別影響。平臺(tái)開發(fā)軟件除具有上傳、下載、檢索、篩選、分享、社交等功能外,不同的開發(fā)軟件還有其特色功能,如在線統(tǒng)計(jì)、分析、評價(jià)等;不同類別的平臺(tái)(學(xué)科知識(shí)庫或機(jī)構(gòu)知識(shí)庫),其功能定位不同,目前英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)主要傾向于發(fā)布某一個(gè)或多個(gè)學(xué)科文獻(xiàn)資源。(3)數(shù)據(jù)資源內(nèi)容廣、類型多、有標(biāo)準(zhǔn)。英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)在學(xué)科上基本涵蓋所有主流和特色學(xué)科,數(shù)據(jù)資源豐富齊全;在內(nèi)容類型上,其格式多樣且以機(jī)器可讀的類型為主,方便研究者應(yīng)用和處理;在元數(shù)據(jù)標(biāo)準(zhǔn)上,其涉及的元數(shù)據(jù)標(biāo)準(zhǔn)多樣,以國際通用為主,提高數(shù)據(jù)交換效率。(4)數(shù)據(jù)上傳有要求、數(shù)據(jù)引用有規(guī)范、數(shù)據(jù)獲取較容易。為對平臺(tái)科學(xué)數(shù)據(jù)質(zhì)量加以控制,多數(shù)平臺(tái)對數(shù)據(jù)上傳操作具有限制要求,如注冊上傳、機(jī)構(gòu)會(huì)員上傳或付費(fèi)上傳等。英國大多數(shù)科學(xué)數(shù)據(jù)發(fā)布平臺(tái)都在積極踐行開放獲取運(yùn)動(dòng),對公眾免費(fèi)開放。在數(shù)據(jù)引用方面,英國目前有超過半數(shù)的科學(xué)數(shù)據(jù)發(fā)布平臺(tái)都制定了引用指南,有效規(guī)范引用程序。
科學(xué)數(shù)據(jù)發(fā)布平臺(tái)是支撐科研活動(dòng)的關(guān)鍵基礎(chǔ)設(shè)施,對建設(shè)經(jīng)驗(yàn)豐富的英國科學(xué)數(shù)據(jù)發(fā)布平臺(tái)特點(diǎn)進(jìn)行研究,不僅有助于我國科研機(jī)構(gòu)吸收先進(jìn)經(jīng)驗(yàn),建設(shè)適應(yīng)我國科研實(shí)情的科學(xué)數(shù)據(jù)發(fā)布平臺(tái),同時(shí)對于國內(nèi)研究者選擇適合的平臺(tái)存儲(chǔ)、共享或利用科學(xué)數(shù)據(jù)也具有積極作用。
[1]司莉,邢文明.國外科學(xué)數(shù)據(jù)管理與共享政策調(diào)查及對我國的啟示[J].情報(bào)資料工作,2013,34(1):61-66.
[2]re3data.org[EB/OL].[2017-03-20].http://www.re3data.org/search.
[3]覃丹.英美社會(huì)科學(xué)數(shù)據(jù)管理與共享服務(wù)平臺(tái)調(diào)查分析[J].圖書情報(bào)工作,2014(16):67-75,142.
[4]陳秀娟,吳鳴.學(xué)科領(lǐng)域科研數(shù)據(jù)知識(shí)庫調(diào)研與分析——以化學(xué)領(lǐng)域?yàn)槔齕J].圖書情報(bào)工作,2015(9):111-118,147.
[5]李翼,吳丹.開放醫(yī)學(xué)科學(xué)數(shù)據(jù)平臺(tái)調(diào)查研究[J].圖書情報(bào)工作,2015(18):24-29,50.
[6]張計(jì)龍,殷沈琴,張用,等.社會(huì)科學(xué)數(shù)據(jù)的共享與服務(wù)——以復(fù)旦大學(xué)社會(huì)科學(xué)數(shù)據(jù)共享平臺(tái)為例[J].大學(xué)圖書館學(xué)報(bào),2015(1):74-79.
[7]殷沈琴,張計(jì)龍,張瑩,等.社會(huì)科學(xué)數(shù)據(jù)管理服務(wù)平臺(tái)系統(tǒng)選型研究——以復(fù)旦大學(xué)社會(huì)科學(xué)數(shù)據(jù)平臺(tái)為例[J].圖書情報(bào)工作,2013(19):92-96.
[8]于海軍,李盛陽,焦鵬,等.一種空間應(yīng)用與科學(xué)數(shù)據(jù)分發(fā)共享服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].載人航天,2016(4):494-499.
[9]周寶平.論科學(xué)數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].山西科技,2010(2):48-49.
[10]CHOURASIA A,WONG M,MISHIN D,et al.SeedMe:a scientific data sharing and collaboration platform[C]//Xsede16 Conference on Diversity,Big Data,and Science at Scale.[S.1.]:ACM,2016:48.
[11]KRAFT A,RAZUM M,POTTHOFF J,et al.The radarproject:a service for research data archival and publication[J].ISPRS International Journal of Geo-Information,2016,5(3):28.
[12]HERRICK R,HORTON W,OLSEN T,et al.XNAT central:open sourcing imaging research data[J].Neuroimage,2016,124(Pt B):1093.
[13]HERZINGER S,GU W,SATAGOPAM V,et al.SmartR:an opensource platform for interactive visual analytics for translational research data[J/OL].Bioninformatics,2017.[2017-04-03].https://www.ncbi.nlm.nih.gov/pubmed/28334291.Doi:10.1093/bioinformatics/btx137.
[14]HUANG J,ZHANG X,EISENHAUER G,et al.Scibox:online sharing of scientific data via the cloud[C]//2014 IEEE 28th International Parallel and Distributed Processing Symposium,Phoenix, AZ,2014:145-154.
[15]KRUGER A,LAWRENCE R.An architecture for real-time warehousing of scientific data[C]//International Conference on Scientific Computing,Csc 2005,June,Las Vegas,Nevada.[S.1.]:DBLP,2005:151-156.
[16]datahub.Open knowledge international[EB/OL].[2017-04-05].https://datahub.io/en/.
[17]University of Essex.About us[EB/OL].[2017-04-01].http://www.data-archive.ac.uk/about.
[18]趙華,王健.國內(nèi)外科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)及內(nèi)容分析[J].情報(bào)探索,2015(2):21-24,30.
[19]DataCite Schema.Metadata Schema4.0[EB/OL].[2017-04-05].http://schema.datacite.org/.
[20]劉峰,張曉林.科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)述評及其通用化設(shè)計(jì)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2015(12):3-12.
[21]The University of Manchester and HITS gGmbH.Browse by scale[EB/OL].[2017-04-06].http://seek.virtual-liver.de/.
[22]FORD H,GARBUTT A,SKOV M.Coastal biodiversity and ecosystem service sustainability(CBESS)soil pH on salt marsh sites at morecambe bay and essex[EB/OL].(2016-05-03)[2017-04-06].https://catalogue.ceh.ac.uk/documents/c726249f-c2d8-4aeb-9af2-60a40de40be2.
[23]North Carolina State University.Frequently asked questions[EB/OL].[2017-04-06].http://datadryad.org/pages/faq#using.
Research on UK Scientific Data Publishing Platforms Based on Re3data
ZHANG ShaSha, HUANG GuoBin, GENG Qian
(School of Government, Beijing Normal University, Beijing 100875, China)
This paper studies UK scientific data publishing platforms from four aspects: responsibility subjects, platform functions, data resources and data transmissions, and sums up the characteristics and construction experience of UK scientific data publishing platforms by taking re3data, a registry of global scientific data publishing platforms as the data acquisition source, and selecting 247 scientific data publishing platforms in the UK as the research object, to provide guidance for researchers’accessing and using the existing scientific data publishing platforms and builders’ constructing and improving scientific data publishing platforms.
Scientific Data; Publishing Platforms; UK; Re3data
G250
10.3772/j.issn.1673-2286.2017.06.003
張莎莎,女,1992年生,碩士研究生,研究方向:信息分析,E-mail:buhuishuide@126.com。
黃國彬,男,1979年生,博士,碩士生導(dǎo)師,副教授,研究方向:信息法學(xué)、信息分析,E-mail:huanggb@bnu.edu.cn。
耿騫,男,1965年生,博士,教授,研究方向:政府信息管理、知識(shí)組織,E-mail:gengqian@bnu.edu.cn。
2017-04-13)
* 本研究得到國家社會(huì)科學(xué)基金項(xiàng)目“云計(jì)算環(huán)境下圖書館信息資源安全政策法律研究”(編號(hào):11CTQ004)資助。