亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全球研究數(shù)據(jù)注冊(cè)倉(cāng)儲(chǔ)Re3data.org的醫(yī)學(xué)科學(xué)數(shù)據(jù)

        2018-03-22 01:15:22
        關(guān)鍵詞:許可醫(yī)學(xué)機(jī)構(gòu)

        吳思竹,李贊梅,崔佳偉,修曉蕾,錢(qián) 慶

        隨著數(shù)據(jù)密集型科學(xué)時(shí)代的到來(lái),數(shù)據(jù)增長(zhǎng)迅速,各國(guó)均意識(shí)到數(shù)據(jù)的重要性,將大數(shù)據(jù)提升到戰(zhàn)略層面,數(shù)據(jù)已成為科技發(fā)展和科技競(jìng)爭(zhēng)的重要戰(zhàn)略資產(chǎn)。數(shù)據(jù)倉(cāng)儲(chǔ)是對(duì)外服務(wù)的平臺(tái),它不僅是數(shù)據(jù)存儲(chǔ)的倉(cāng)庫(kù),還提供管理、服務(wù)。Re3data.org(Registry of Research Data Repositories)是綜合性的全球研究數(shù)據(jù)存儲(chǔ)注冊(cè)倉(cāng)儲(chǔ),面向研究者、資助機(jī)構(gòu)、出版者和學(xué)術(shù)機(jī)構(gòu)呈現(xiàn)永久保存與訪問(wèn)的數(shù)據(jù)集,致力于推動(dòng)研究數(shù)據(jù)的共享傳播、提高數(shù)據(jù)的可見(jiàn)性、促進(jìn)數(shù)據(jù)的訪問(wèn)和復(fù)用。

        Re3data.org由德國(guó)研究基金(Deutsche Forschungsgemeinschaft,DFG)資助,德國(guó)洪堡大學(xué)的柏林圖書(shū)館與信息科學(xué)學(xué)院、德國(guó)地理科學(xué)研究中心、卡爾斯魯厄理工學(xué)院共同參與建設(shè),于2012年上線,2014年3月與科學(xué)數(shù)據(jù)目錄倉(cāng)儲(chǔ)Databib合并,并由DataCite統(tǒng)一接管[1]。為促進(jìn)注冊(cè)管理機(jī)構(gòu)的可持續(xù)發(fā)展,Re3data作為一項(xiàng)數(shù)據(jù)倉(cāng)儲(chǔ)注冊(cè)服務(wù)于2016年被納入DataCite[2]。它不僅是歐洲委員會(huì)、國(guó)家科學(xué)基金會(huì)等資助機(jī)構(gòu)在其數(shù)據(jù)管理和共享相關(guān)的指導(dǎo)方針和政策中積極推薦使用的倉(cāng)儲(chǔ),也是《自然》科學(xué)數(shù)據(jù)、PLoS ONE和英國(guó)皇家學(xué)會(huì)等出版社和期刊推薦作者查找、保存和發(fā)布數(shù)據(jù)的倉(cāng)儲(chǔ)平臺(tái)。大量數(shù)據(jù)建設(shè)或持有者不斷向Re3data.org注冊(cè)倉(cāng)儲(chǔ)數(shù)據(jù),其匯集的倉(cāng)儲(chǔ)資源已成一定規(guī)模,截至2018年8月收錄了2 150個(gè)數(shù)據(jù)倉(cāng)儲(chǔ),其中包括大量的醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)。通過(guò)系統(tǒng)分析,能夠在一定程度上反映和總結(jié)全球醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的現(xiàn)狀、經(jīng)驗(yàn)與不足,為我國(guó)解決醫(yī)學(xué)科學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)研究和實(shí)踐中面臨的基礎(chǔ)技術(shù)、共享政策、數(shù)據(jù)權(quán)益、標(biāo)準(zhǔn)規(guī)范等方面的問(wèn)題提供參考和借鑒。

        雖然全球已建立了很多數(shù)據(jù)倉(cāng)儲(chǔ),如Dryad、DataMed、NIH公共數(shù)據(jù)倉(cāng)儲(chǔ)等均收錄大量醫(yī)學(xué)領(lǐng)域數(shù)據(jù)資源,但只囊括了部分資源,提供的數(shù)據(jù)統(tǒng)計(jì)功能多針對(duì)自身收集的數(shù)據(jù)情況,不足以反映領(lǐng)域整體數(shù)據(jù)的匯聚、建設(shè)及管理等情況。目前,還沒(méi)有能夠全面揭示各國(guó)醫(yī)學(xué)科學(xué)數(shù)據(jù)開(kāi)放共享程度的網(wǎng)站或系統(tǒng)。Re3data.org面向全球提供科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的注冊(cè),收錄了較廣泛的數(shù)據(jù)倉(cāng)儲(chǔ),能夠在一定程度上反映全球科學(xué)數(shù)據(jù)的開(kāi)放情況。其網(wǎng)站雖然也提供收錄倉(cāng)儲(chǔ)數(shù)據(jù)的統(tǒng)計(jì)分析,但是以全部數(shù)據(jù)為對(duì)象,分析粒度較粗,不能按領(lǐng)域等進(jìn)行靈活數(shù)據(jù)遴選和細(xì)粒度分析,在分析方法和數(shù)據(jù)呈現(xiàn)方面也相對(duì)簡(jiǎn)單。因此,研究者結(jié)合不同研究需求和目標(biāo),基于Re3data收錄的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)據(jù)開(kāi)展分析和研究工作。如鄒麗雪等側(cè)重分析生命科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的年代、國(guó)家、機(jī)構(gòu)、學(xué)科領(lǐng)域、開(kāi)放程度等分布情況,并選取6個(gè)典型的數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行特點(diǎn)分析[3];王輝等從Re3data元數(shù)據(jù)中遴選14個(gè)指標(biāo),對(duì)1 848個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的責(zé)任機(jī)構(gòu)進(jìn)行定量分析,并通過(guò)獨(dú)立樣本t檢驗(yàn)方法分析比較了不同學(xué)科的倉(cāng)儲(chǔ)數(shù)據(jù)內(nèi)容、服務(wù)類(lèi)型、數(shù)據(jù)訪問(wèn)與上傳等方面的差異[4];張莎莎利用Re3data數(shù)據(jù)分析了英國(guó)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)情況[5];夏姚璜對(duì)比了中國(guó)和美國(guó)的數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)特點(diǎn)[6];曾麗瑩等對(duì)211所高??茖W(xué)數(shù)據(jù)知識(shí)倉(cāng)儲(chǔ)的分布特點(diǎn)、資源數(shù)量和數(shù)據(jù)管理方式等進(jìn)行了分析,闡述了對(duì)高??茖W(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的啟示[7];Kindling M.提出對(duì)2015年Re3data收錄的全部數(shù)據(jù)進(jìn)行多維度分析,對(duì)倉(cāng)儲(chǔ)的可見(jiàn)性和功能性提出了建議[8]。我們主要利用統(tǒng)計(jì)分析、共現(xiàn)分析和社會(huì)網(wǎng)絡(luò)分析等方法,并結(jié)合可視化圖表針對(duì)Re3data.org中收錄的醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的分布、使用的特殊元數(shù)據(jù)標(biāo)準(zhǔn)、政策、許可等情況進(jìn)行分析。

        1 數(shù)據(jù)與方法

        1.1 主要方法

        Re3data.org使用Re3data Metadata Schema 4.0從多維度描述科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)和收錄數(shù)據(jù)的基本信息和屬性特征,并提供應(yīng)用程序編程接口(Application Programming Interface,API)數(shù)據(jù)訪問(wèn)接口。本文主要通過(guò)編寫(xiě)Java程序調(diào)用API數(shù)據(jù)接口,用可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)格式的倉(cāng)儲(chǔ)描述元數(shù)據(jù)的采集。通過(guò)編寫(xiě)XML數(shù)據(jù)解析和數(shù)據(jù)清洗程序進(jìn)行預(yù)處理,利用UCNET等工具及統(tǒng)計(jì)方法、共現(xiàn)分析和社會(huì)網(wǎng)絡(luò)分析等方法,結(jié)合可視化圖表對(duì)Re3data.org中收錄的醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的分布、資源內(nèi)容、建設(shè)模式和服務(wù)模式等進(jìn)行量化分析,并基于此展開(kāi)探討和總結(jié)。

        1.2 數(shù)據(jù)選取

        本文數(shù)據(jù)采集時(shí)間為2017年8月。Re3data.org是綜合性數(shù)據(jù)倉(cāng)儲(chǔ),使用德國(guó)研究基金提出的DGA分類(lèi)進(jìn)行數(shù)據(jù)組織,將收錄的注冊(cè)數(shù)據(jù)倉(cāng)儲(chǔ)分為4個(gè)一級(jí)類(lèi)目、14個(gè)二級(jí)類(lèi)目。涉及到醫(yī)學(xué)領(lǐng)域的大類(lèi)是Life Sciences,類(lèi)目下包括Biology和Medicine 2個(gè)二級(jí)類(lèi)目。其中,Biology類(lèi)目包括Basic Biological and Medical、Plant Sciences和Zoology 3個(gè)三級(jí)類(lèi)目,該類(lèi)目下注冊(cè)了978個(gè)數(shù)據(jù)倉(cāng)儲(chǔ);Medicine類(lèi)目包括Microbiology、Virology and Immunology,Medicine,Neurosciences 3個(gè)三級(jí)類(lèi)目,該類(lèi)目下注冊(cè)了470個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)。兩個(gè)一級(jí)類(lèi)目下的內(nèi)容有重疊,一個(gè)倉(cāng)儲(chǔ)可能會(huì)被分配到多個(gè)類(lèi)目下,如Ensembl Metazoa既屬于Biology也屬于Medicine類(lèi)目。本文主要聚焦醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),因此保留Medicine分類(lèi)下的全部數(shù)據(jù)倉(cāng)儲(chǔ)的同時(shí)也納入了Biology三級(jí)類(lèi)目Basic Biological and Medical下的數(shù)據(jù)倉(cāng)儲(chǔ)。由此,共獲得871個(gè)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),去重后最終得到637個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)的注冊(cè)數(shù)據(jù)用于本文研究。

        2 結(jié)果與分析

        2.1 醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)分布

        2.1.1 時(shí)間分布

        醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)創(chuàng)建時(shí)間在1905-2017年之間(圖1),如圖1所示,收錄醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的幾個(gè)高峰是在1992年、2000年、2003年、2006年、2008年和2011年。

        圖1 醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)創(chuàng)建時(shí)間分布

        1982-1984年間,歐洲分子生物學(xué)實(shí)驗(yàn)室-DNA(The European Molecular Biology Laboratory-DNA,EMBL-DNA)、GeneBank、日本DNA數(shù)據(jù)庫(kù)(DNA Data Bank of Japan,DDBJ)先后建立,共同組成全球性的國(guó)際DNA數(shù)據(jù)庫(kù),每天實(shí)時(shí)進(jìn)行數(shù)據(jù)和信息交換。同時(shí)建立了在線人類(lèi)孟德?tīng)栠z傳數(shù)據(jù)庫(kù)(Online Mendelian Inheritance in Man,OMIM)、Database of Sequence Tagged Sites等數(shù)據(jù)倉(cāng)儲(chǔ)。

        1990年人類(lèi)基因組計(jì)劃啟動(dòng)。1996年,百慕大原則(Bermuda Principles)發(fā)布,要求將達(dá)到一定規(guī)模的基因組序列整合提交到特定公共數(shù)據(jù)庫(kù),進(jìn)一步促進(jìn)了基因組數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)。在這一階段,Nucleic Acid Database(NDB)、UniProtKB/Swiss-Prot、癌癥基因組解剖數(shù)據(jù)項(xiàng)目倉(cāng)儲(chǔ)等相繼建立。

        2000-2007年,以高通量為特點(diǎn)的第二代測(cè)序技術(shù)快速發(fā)展。2000年,Ensembl計(jì)劃建立了Bacteria、Fungi、Genomes等系列數(shù)據(jù)庫(kù),推動(dòng)基因組自動(dòng)注釋?zhuān)⒆⑨屌c其他有用的生物數(shù)據(jù)整合和共享;2002年建立了UniProtKB、Wellcome Images和European Variation Archive;2003年,柏林會(huì)議發(fā)布《關(guān)于自然科學(xué)與人文科學(xué)知識(shí)的開(kāi)放存取柏林宣言》;2006年,經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)頒布《關(guān)于公共資金資助的研究數(shù)據(jù)獲取的原則與指南》,極大地促進(jìn)了數(shù)據(jù)開(kāi)放獲取,各國(guó)和組織機(jī)構(gòu)積極開(kāi)展開(kāi)放數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè);NCBI建立了HomoloGene、Nucleotide、PopSet、Protein、Influenza Virus Resource和Protein Clusters系列數(shù)據(jù)庫(kù);美國(guó)國(guó)立癌癥研究所(National Cancer Institute,NCI)和美國(guó)國(guó)立人類(lèi)基因組研究所(National Human Genome Research Institute,NHGRI)聯(lián)合啟動(dòng)了腫瘤基因組圖譜(Cancer Genome Projects,TCGA),并建立了腫瘤基因組圖譜數(shù)據(jù)門(mén)戶(hù)(Cancer Genome Atlas Data Portal)。

        2008-2011年,第三代測(cè)序技術(shù)在測(cè)序通量、時(shí)間和成本等方面都有了極大改善和提高。大量基因組項(xiàng)目如英國(guó)的“千人基因組計(jì)劃”和歐洲的“創(chuàng)新藥物計(jì)劃”(二期)等陸續(xù)啟動(dòng)并建立了相應(yīng)的千人基因組計(jì)劃倉(cāng)儲(chǔ)和Open Phacts倉(cāng)儲(chǔ)等。2009年,《開(kāi)放透明政府備忘錄》《開(kāi)放數(shù)據(jù)聲明》《開(kāi)放數(shù)據(jù)憲章》等重要文件的簽署也推動(dòng)了開(kāi)放數(shù)據(jù)運(yùn)動(dòng)在全球范圍內(nèi)的興起和迅速發(fā)展。各國(guó)政府機(jī)構(gòu)、國(guó)際機(jī)構(gòu)和非營(yíng)利組織積極組織建設(shè)開(kāi)放共享數(shù)據(jù)倉(cāng)儲(chǔ),搭建了DRYAD、DATA.GOV.UK、NCBI Virus Variation、NCBI dbGaP和組學(xué)原始數(shù)據(jù)歸檔庫(kù)(Genome Sequence Archive,GSA)等倉(cāng)儲(chǔ),用于促進(jìn)數(shù)據(jù)共享和利用。

        2.1.2 國(guó)家分布

        數(shù)據(jù)驅(qū)動(dòng)科技創(chuàng)新發(fā)展已經(jīng)成為世界共識(shí),各國(guó)積極進(jìn)行數(shù)據(jù)資源創(chuàng)造、規(guī)劃和積累,促進(jìn)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)和大數(shù)據(jù)研究應(yīng)用。醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)涉及全世界五大洲36個(gè)國(guó)家(圖2)。

        其中,美國(guó)在醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)方面實(shí)力雄厚,共參與了346個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè),所占比例超過(guò)50%,并且獨(dú)立建設(shè)倉(cāng)儲(chǔ)數(shù)量達(dá)241個(gè);英國(guó)參與建設(shè)數(shù)據(jù)倉(cāng)儲(chǔ)139個(gè),位居第二(22%),獨(dú)立建設(shè)倉(cāng)儲(chǔ)41個(gè);德國(guó)參與建設(shè)數(shù)據(jù)倉(cāng)儲(chǔ)71個(gè)(11%),獨(dú)立建設(shè)倉(cāng)儲(chǔ)45個(gè);歐盟參與數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)58個(gè)(9.11%);中國(guó)雖然也積極開(kāi)展數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)工作,但建設(shè)成果在國(guó)際數(shù)據(jù)倉(cāng)儲(chǔ)庫(kù)Re3data中注冊(cè)的數(shù)量不多,共有參建倉(cāng)儲(chǔ)17個(gè)(含港、臺(tái)地區(qū))。

        圖2 Re3data各國(guó)家建設(shè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)量比

        醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的多國(guó)合作網(wǎng)絡(luò)如圖3所示。其中,每個(gè)國(guó)家可能有多個(gè)機(jī)構(gòu)參與同一倉(cāng)儲(chǔ)建設(shè)。本文中每個(gè)國(guó)家在合作倉(cāng)儲(chǔ)建設(shè)中只計(jì)算了1次。美國(guó)、英國(guó)和國(guó)際組織在多方合作倉(cāng)儲(chǔ)建設(shè)方面表現(xiàn)最為突出,而美國(guó)、英國(guó)和歐盟則構(gòu)筑了數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)合作的核心三角,合作密切,共同建立了Ensembl的系列倉(cāng)儲(chǔ)。這三者之間,英國(guó)與歐盟、美國(guó)與英國(guó)之間的合作更為緊密,英、美兩國(guó)共同參與建設(shè)了如GenBank、1000 Genomes和WormBase等多個(gè)倉(cāng)儲(chǔ)。國(guó)際組織和美國(guó)、德國(guó)與歐盟、瑞士和英國(guó)也有密切合作。

        亞洲國(guó)家中,中國(guó)、日本和韓國(guó)與國(guó)際組織、歐盟及美國(guó)有部分合作。歐洲國(guó)家在醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)中參與度最高,參與數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的國(guó)家達(dá)20個(gè),占?xì)W洲國(guó)家數(shù)量的43%。美洲國(guó)家在醫(yī)學(xué)數(shù)據(jù)管理和共享倉(cāng)儲(chǔ)研究和建設(shè)上的實(shí)力和優(yōu)勢(shì)最強(qiáng),雖然只有3個(gè),但美國(guó)和加拿大在數(shù)據(jù)倉(cāng)儲(chǔ)合作建設(shè)和獨(dú)立建設(shè)的數(shù)量和應(yīng)用方面均處于引領(lǐng)地位。其他洲的國(guó)家參與情況是,亞洲國(guó)家7個(gè),非洲國(guó)家3個(gè),大洋洲國(guó)家2個(gè)。

        圖3 各國(guó)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)合作網(wǎng)絡(luò)

        2.1.3 機(jī)構(gòu)分布

        參與醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu),主要以非營(yíng)利性機(jī)構(gòu)為主,也包括部分營(yíng)利性機(jī)構(gòu)。非營(yíng)利性機(jī)構(gòu)包括政府機(jī)構(gòu)、公益性團(tuán)體組織(基金、協(xié)會(huì))、教育機(jī)構(gòu)(大學(xué)、研究所、圖書(shū)館、出版社等),營(yíng)利性機(jī)構(gòu)主要是公司企業(yè)。各國(guó)均有不同類(lèi)型機(jī)構(gòu)參與到醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè),其中美國(guó)參與建設(shè)的機(jī)構(gòu)居首位(有300余家),英國(guó)其次(有100余家)。各國(guó)主要機(jī)構(gòu)和其建設(shè)的代表性倉(cāng)儲(chǔ)如表1所示。

        各國(guó)均對(duì)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)支持力度較大(圖4)。從政府機(jī)構(gòu)的多方、多種形式的參與程度可以看出各國(guó)對(duì)科學(xué)數(shù)據(jù)資源匯聚和利用的重視程度。以美國(guó)為例,美國(guó)衛(wèi)生和人類(lèi)服務(wù)部、美國(guó)農(nóng)業(yè)部和美國(guó)能源部均參與其中,尤其是美國(guó)衛(wèi)生和人類(lèi)服務(wù)部下屬的國(guó)立衛(wèi)生研究院、國(guó)家生物技術(shù)信息中心等15個(gè)機(jī)構(gòu)參與倉(cāng)儲(chǔ)建設(shè)。由圖4可以看出,在各機(jī)構(gòu)合作中,美國(guó)的政府機(jī)構(gòu)、研究所和基金會(huì)占據(jù)合作核心位置,廣泛組織和參與倉(cāng)儲(chǔ)建設(shè)合作。其中,美國(guó)國(guó)家衛(wèi)生研究院最為突出,除了與醫(yī)學(xué)研究委員會(huì)、國(guó)家綜合醫(yī)學(xué)研究所、國(guó)家科學(xué)基金會(huì)、比爾和梅琳達(dá)·蓋茨基金會(huì)等美國(guó)國(guó)內(nèi)機(jī)構(gòu)緊密合作外,也與歐洲生物信息學(xué)研究所、英國(guó)威康信托基金會(huì)、英國(guó)生物技術(shù)和生物科學(xué)研究委員會(huì)、瑞士生物信息學(xué)研究所和加拿大衛(wèi)生研究院等密切合作。

        表1 各國(guó)主要參與醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu)

        圖4 各國(guó)參與醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu)合作情況

        2.2 資源內(nèi)容

        2.2.1 類(lèi)型和規(guī)模

        Re3data根據(jù)parse.insight調(diào)查結(jié)果將各倉(cāng)儲(chǔ)中收錄的數(shù)據(jù)類(lèi)型歸納為15類(lèi),其中457個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)記錄了收錄數(shù)據(jù)內(nèi)容類(lèi)型信息[9]。本文對(duì)收錄各數(shù)據(jù)類(lèi)型的倉(cāng)儲(chǔ)數(shù)量進(jìn)行統(tǒng)計(jì)(表2)。

        表2 收錄不同數(shù)據(jù)類(lèi)型的倉(cāng)儲(chǔ)占比

        醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)中,收錄科學(xué)和統(tǒng)計(jì)數(shù)據(jù)的最多,達(dá)325個(gè)(占51%);收錄標(biāo)準(zhǔn)辦公文檔、純文本、原始數(shù)據(jù)和結(jié)構(gòu)化圖形、圖像數(shù)據(jù)的超過(guò)30%;收錄2種以上類(lèi)型數(shù)據(jù)的超過(guò)64%。其中,大多倉(cāng)儲(chǔ)(57%)都收錄了3~6種數(shù)據(jù)類(lèi)型,如European Genome-phenome Archive、dbGaP和PhysioBank等;有倉(cāng)儲(chǔ)收錄數(shù)據(jù)類(lèi)型多達(dá)十二、三種,如Canadensys repository、Open Phacts、heiDATA等。 Re3data也記錄了部分?jǐn)?shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)規(guī)模,但由于收錄數(shù)據(jù)類(lèi)型和格式豐富,描述方式不統(tǒng)一,難以統(tǒng)計(jì)。倉(cāng)儲(chǔ)收錄數(shù)據(jù)規(guī)模的描述,有的以記錄條數(shù)記錄,如UniProtKB包括547 964條手工注釋和審核的記錄和92 124 243條自動(dòng)注釋和沒(méi)有審核的記錄;有的以研究個(gè)數(shù)記錄,如ClinicalTrials.gov包括237 639個(gè)研究;有的以收錄內(nèi)容數(shù)量記錄,如GenBank包括228 719 437 638個(gè)堿基和199 341 377個(gè)序列;有的按圖片個(gè)數(shù)記錄,如Wellcome Images,包括超過(guò)40 000張圖片。雖然對(duì)倉(cāng)儲(chǔ)規(guī)模、收錄數(shù)據(jù)的描述方式和統(tǒng)計(jì)數(shù)量不是實(shí)時(shí)更新,但對(duì)幫助用戶(hù)發(fā)現(xiàn)和了解所需數(shù)據(jù)倉(cāng)儲(chǔ)收錄內(nèi)容有一定的參考作用。

        2.2.2 內(nèi)容和質(zhì)控

        Re3data提供了對(duì)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的關(guān)鍵詞和描述摘要。為了更全面地揭示倉(cāng)儲(chǔ)收錄內(nèi)容,本文通過(guò)對(duì)關(guān)鍵詞和從描述摘要中提取的詞進(jìn)行處理和詞頻統(tǒng)計(jì),繪制了詞匯立方云圖進(jìn)行對(duì)比(圖5)。

        圖5 數(shù)據(jù)倉(cāng)儲(chǔ)收錄內(nèi)容的關(guān)鍵詞和摘要詞云圖

        圖5-1為關(guān)鍵詞云圖,圖5-2為摘要詞云圖,圖中詞的大小表示詞頻強(qiáng)度,每個(gè)立方云圖以3面27個(gè)方塊展示排序結(jié)果。關(guān)鍵詞云圖可以看出醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的收錄內(nèi)容,包括蛋白、基因、疾病、細(xì)胞、藥物、序列等數(shù)據(jù),來(lái)源對(duì)象有小鼠、人類(lèi)、植物、果蠅、酵母和其他物種,對(duì)數(shù)據(jù)內(nèi)容描述得較為細(xì)致;摘要詞云圖來(lái)自對(duì)倉(cāng)儲(chǔ)較為全面的描述,除了揭示收錄的數(shù)據(jù)內(nèi)容以外,還揭示了數(shù)據(jù)相關(guān)來(lái)源或應(yīng)用是來(lái)自或用于研究、實(shí)驗(yàn)、調(diào)查、項(xiàng)目等。倉(cāng)儲(chǔ)收錄的數(shù)據(jù)類(lèi)型包括圖像、報(bào)告、文獻(xiàn)、圖譜、標(biāo)準(zhǔn)等,倉(cāng)儲(chǔ)建設(shè)方式有平臺(tái)、網(wǎng)站、數(shù)據(jù)庫(kù)、工具、在線門(mén)戶(hù)等,倉(cāng)儲(chǔ)或數(shù)據(jù)的處理和管理環(huán)節(jié)包括標(biāo)識(shí)、注冊(cè)、提交、處理、注釋、訪問(wèn)、檢索、分析、可視化、審編、發(fā)現(xiàn)、共享和服務(wù)等。數(shù)據(jù)評(píng)估包括評(píng)議、效果、質(zhì)量等。

        Re3data沒(méi)有詳細(xì)記錄各倉(cāng)儲(chǔ)數(shù)據(jù)質(zhì)量控制的具體標(biāo)準(zhǔn)和流程,但記錄了是否提供了數(shù)據(jù)質(zhì)控功能。其中,64.36%的醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)重視收錄數(shù)據(jù)質(zhì)量,提供質(zhì)控功能,33.59%未知是否提供質(zhì)控,2.05%未提供質(zhì)控。

        2.3 建設(shè)模式

        2.3.1 平臺(tái)技術(shù)

        在Re3data中,標(biāo)明底層支撐技術(shù)的倉(cāng)儲(chǔ)數(shù)量不多,僅有181個(gè)。其中,38個(gè)倉(cāng)儲(chǔ)建設(shè)使用MySQL數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)和管理,其他數(shù)據(jù)倉(cāng)儲(chǔ)則使用商業(yè)軟件或開(kāi)源軟件進(jìn)行本地化建設(shè)。倉(cāng)儲(chǔ)建設(shè)使用了7種軟件,包括DSpace、CKAN、Dataverse、Fedora和Eprints等開(kāi)源軟件、非開(kāi)源軟件Digital Commons和商業(yè)軟件Nesstar。DSpace、Eprint、Fedora和Digital Commons在機(jī)構(gòu)知識(shí)庫(kù)建設(shè)中應(yīng)用廣泛,常被用于包括文獻(xiàn)、數(shù)據(jù)等在內(nèi)的機(jī)構(gòu)知識(shí)成果管理、發(fā)布、學(xué)術(shù)工作和影響力展示,注冊(cè)的倉(cāng)儲(chǔ)中,有10個(gè)倉(cāng)儲(chǔ)使用其建設(shè),如DRYAD、WormBase使用了DSpace。Fedora因其功能全面性也被用于電子資源(包括數(shù)據(jù)資源)的長(zhǎng)期保存,Columbia University Academic Commons 等4個(gè)倉(cāng)儲(chǔ)是基于其建設(shè)的。CKAN目前廣泛被作為開(kāi)放政府?dāng)?shù)據(jù)平臺(tái)的底層支撐,用于數(shù)據(jù)發(fā)布、查找和利用,有9個(gè)倉(cāng)儲(chǔ)是基于其建設(shè)的,影響力較大的有英國(guó)的Data.gov.uk、澳大利亞的Data.gov.au。Dataverse是由哈佛大學(xué)開(kāi)發(fā)維護(hù)的用于共享、保存、引用、探索和研究分析的數(shù)據(jù)倉(cāng)儲(chǔ)軟件,使用Dataverse的醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)有9個(gè)。除此之外,5個(gè)倉(cāng)儲(chǔ)是使用Nesstar建設(shè)的,主要用于處理調(diào)查數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、多維表和文本資源。

        2.3.2 標(biāo)準(zhǔn)規(guī)范

        2.3.2.1 唯一標(biāo)識(shí)符

        Re3data收錄的醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)主要使用5種通用唯一標(biāo)識(shí)符用于數(shù)據(jù)資源檢索、管理和定位,包括國(guó)際數(shù)字對(duì)象標(biāo)識(shí)符基金會(huì)(International DOI Foundation,IDF)管理的數(shù)字對(duì)象標(biāo)識(shí)符(Digital Object Identifier,DOI)、美國(guó)國(guó)家研究創(chuàng)新機(jī)構(gòu)(Corporationfor National Research Initiatives,CNRI)設(shè)計(jì)的句柄(Handles,HDL)、美國(guó)國(guó)家研究創(chuàng)新機(jī)構(gòu)(Corporationfor National Research Initiatives,CNRI)提出的永久唯一資源定位符(Persistent Uniform Resource Locator,PURL)、美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館設(shè)計(jì)的檔案資源主鍵(Archival Resource Key,ARK)和國(guó)際電信聯(lián)盟提出的唯一資源名稱(chēng)(Uniform Resource Name,URN)。

        其中,DOI是應(yīng)用最廣泛的唯一標(biāo)識(shí)符,有97個(gè)倉(cāng)儲(chǔ)使用;其次是HDL,有16個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)使用;PURL、ARK和URN分別有7個(gè)、5個(gè)和4個(gè)倉(cāng)儲(chǔ)使用。其他倉(cāng)儲(chǔ)未明確標(biāo)注所使用的標(biāo)識(shí)符或是否使用自定義標(biāo)識(shí)符。

        2.3.2.2 元數(shù)據(jù)標(biāo)準(zhǔn)

        Re3data收集的標(biāo)注了使用元數(shù)據(jù)標(biāo)準(zhǔn)的醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)僅有106個(gè),提及的元數(shù)據(jù)標(biāo)準(zhǔn)有16個(gè),它們多為國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)和項(xiàng)目標(biāo)準(zhǔn),在數(shù)據(jù)倉(cāng)儲(chǔ)中數(shù)據(jù)的檢索、定位、管理、互操作和共享等方面發(fā)揮重要作用。其中通用標(biāo)準(zhǔn)有6個(gè)、生物領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)6個(gè)、地理領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)2個(gè)和氣象領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)2個(gè)。倉(cāng)儲(chǔ)中應(yīng)用較多的不是醫(yī)學(xué)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn),而是通用元數(shù)據(jù)標(biāo)準(zhǔn),包括DDI(Data Documentation Initiative)、DC(Dublin Core)和DataCite元數(shù)據(jù)標(biāo)準(zhǔn);其次是生物醫(yī)學(xué)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)DwC(Darwin Core)、ISA-Tab(Investigation Study Assay Tabular)和MIBBI(Minimum Information for Biological and Biomedical Investigations)、Genome Metadata。

        此外,隨著數(shù)據(jù)語(yǔ)義化的發(fā)展,醫(yī)學(xué)數(shù)據(jù)語(yǔ)義化標(biāo)準(zhǔn)RDF Data Cub也開(kāi)始應(yīng)用于倉(cāng)儲(chǔ)數(shù)據(jù)資源描述框架(Resource Description Framework,RDF)格式描述存儲(chǔ)和下載,如UniProtKB的所有的文件都支持RDF格式下載。醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)使用的16個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)如表3所示。

        表3 醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)使用的16個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)

        2.4 服務(wù)模式

        2.4.1 數(shù)據(jù)訪問(wèn)

        數(shù)據(jù)訪問(wèn)和使用是醫(yī)學(xué)科學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)建設(shè)的重要目標(biāo)。Re3data提供注冊(cè)倉(cāng)儲(chǔ)和數(shù)據(jù)2個(gè)層次的訪問(wèn)級(jí)別和條件信息。

        Re3data將數(shù)據(jù)倉(cāng)儲(chǔ)層面的訪問(wèn)級(jí)別劃分為開(kāi)放、限制、關(guān)閉3類(lèi),開(kāi)放是指用戶(hù)可以無(wú)障礙訪問(wèn)數(shù)據(jù)倉(cāng)儲(chǔ),限制是指外部用戶(hù)能夠通過(guò)滿(mǎn)足一定條件訪問(wèn)數(shù)據(jù)倉(cāng)儲(chǔ),關(guān)閉是指外部用戶(hù)無(wú)法訪問(wèn)數(shù)據(jù)倉(cāng)儲(chǔ),訪問(wèn)限制指需通過(guò)成為數(shù)據(jù)倉(cāng)儲(chǔ)機(jī)構(gòu)成員、系統(tǒng)注冊(cè)用戶(hù)或付費(fèi)等方式方可獲得倉(cāng)儲(chǔ)訪問(wèn)的許可。目前,支持對(duì)外開(kāi)放訪問(wèn)的數(shù)據(jù)倉(cāng)儲(chǔ)有598個(gè)(80%),限制訪問(wèn)的有34個(gè),關(guān)閉的有5個(gè)。

        倉(cāng)儲(chǔ)層面訪問(wèn)開(kāi)放并不意味著數(shù)據(jù)層面也對(duì)外開(kāi)放。各倉(cāng)儲(chǔ)根據(jù)數(shù)據(jù)的重要性及使用范圍設(shè)置多種訪問(wèn)級(jí)別,保障數(shù)據(jù)所有者、管理者和使用者的權(quán)益。本文中各倉(cāng)儲(chǔ)數(shù)據(jù)層面的訪問(wèn)級(jí)別分為開(kāi)放、限制、關(guān)閉和禁止4種。禁止是指數(shù)據(jù)集開(kāi)放或受限訪問(wèn),發(fā)布數(shù)據(jù)之前用戶(hù)無(wú)法訪問(wèn)。如CancerData.org、ArrayExpress和PharmGKB數(shù)據(jù)倉(cāng)儲(chǔ)訪問(wèn)都是開(kāi)放的但在數(shù)據(jù)訪問(wèn)層面,CancerData.org包括開(kāi)放、限制和關(guān)閉的數(shù)據(jù),ArrayExpress包括開(kāi)放、限制和禁止的數(shù)據(jù),PharmGKB包括開(kāi)放和限制的數(shù)據(jù)。各倉(cāng)儲(chǔ)數(shù)據(jù)層面的訪問(wèn)級(jí)別設(shè)置的多種情況見(jiàn)圖6。

        圖6 倉(cāng)儲(chǔ)數(shù)據(jù)層面的訪問(wèn)級(jí)別

        近50%的倉(cāng)儲(chǔ)數(shù)據(jù)訪問(wèn)是完全開(kāi)放的,126個(gè)倉(cāng)儲(chǔ)既有開(kāi)放數(shù)據(jù)也有限制性數(shù)據(jù)。限制的數(shù)據(jù)訪問(wèn)要滿(mǎn)足一定條件,如用戶(hù)需要注冊(cè)、填寫(xiě)必要的數(shù)據(jù)使用說(shuō)明或付費(fèi)。

        2.4.2 政策及許可

        544個(gè)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)通過(guò)制定和采取不同政策,保障其管理和運(yùn)維。經(jīng)歸納,25個(gè)倉(cāng)儲(chǔ)注冊(cè)了4個(gè)及以上的政策,221個(gè)倉(cāng)儲(chǔ)注冊(cè)了2個(gè)及以上的政策。政策類(lèi)型主要包括數(shù)據(jù)發(fā)布政策、數(shù)據(jù)提交政策、數(shù)據(jù)使用政策、數(shù)據(jù)管理政策、數(shù)據(jù)許可政策、隱私政策、數(shù)據(jù)安全和質(zhì)量政策、版權(quán)政策、標(biāo)識(shí)符政策、數(shù)據(jù)共享政策。與政策相關(guān)的還有服務(wù)提供原則、數(shù)據(jù)轉(zhuǎn)換許可、分類(lèi)規(guī)則等。以注冊(cè)最多政策的Edinburgh DataShare倉(cāng)儲(chǔ)為例,注冊(cè)的政策包括提交政策、內(nèi)容政策、服務(wù)政策、存儲(chǔ)許可、數(shù)據(jù)和元數(shù)據(jù)政策和長(zhǎng)期保存政策等7項(xiàng)數(shù)據(jù)政策。不同倉(cāng)儲(chǔ)應(yīng)根據(jù)自身需要和特點(diǎn)制定政策。還有一些公用性政策,如NIH的公共訪問(wèn)政策、IMEx(International Machine Tools Expo)審編規(guī)則、TCGA 工具使用條款等也在多個(gè)倉(cāng)儲(chǔ)中使用。

        除數(shù)據(jù)政策,醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)也提供必要的數(shù)據(jù)許可,保障其用戶(hù)的權(quán)益和數(shù)據(jù)創(chuàng)作者及持有者的權(quán)益。Re3data中主要記錄了數(shù)據(jù)倉(cāng)儲(chǔ)訪問(wèn)許可、數(shù)據(jù)上傳許可和數(shù)據(jù)訪問(wèn)許可。

        數(shù)據(jù)訪問(wèn)許可相對(duì)統(tǒng)一,現(xiàn)有倉(cāng)儲(chǔ)多應(yīng)用公認(rèn)的開(kāi)放許可或開(kāi)源軟件的許可(表4)。

        表4 倉(cāng)儲(chǔ)訪問(wèn)許可和數(shù)據(jù)訪問(wèn)許可的倉(cāng)儲(chǔ)數(shù)

        數(shù)據(jù)訪問(wèn)許可有8類(lèi),應(yīng)用最多的是Copyrights、Creative Commons(CC)、Public Domain。數(shù)據(jù)倉(cāng)儲(chǔ)訪問(wèn)的許可包括7類(lèi),應(yīng)用最多的是Copyrights、CC和Apache License 2.0;數(shù)據(jù)上傳許可因不同數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)目標(biāo)、應(yīng)用范圍不同,在數(shù)據(jù)內(nèi)容、格式、數(shù)據(jù)量、上傳途徑等方面有較大差別,比較分散,共有143個(gè),包括各倉(cāng)儲(chǔ)數(shù)據(jù)提交的方法、工具指南、注意條款、許可協(xié)議等,如IMEx數(shù)據(jù)提交指南(IMEx data submission)、TCAG工具使用條款(TCAG Facilities Terms and Conditions)、GenBank流感病毒序列提交指南(Submitting Influenza Virus Sequences to GenBank)等。其中也包括CC0、CC、Apache License 2.0、OGL和Public Domain等通用許可。

        2.4.3 數(shù)據(jù)接口

        除了數(shù)據(jù)的在線瀏覽和下載外,通過(guò)API接口提供計(jì)算機(jī)數(shù)據(jù)訪問(wèn)也是很多數(shù)據(jù)倉(cāng)儲(chǔ)提供數(shù)據(jù)應(yīng)用的重要途徑。本文中共有292個(gè)醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)提供了數(shù)據(jù)交互接口信息,其中有8種數(shù)據(jù)接口方式:文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)、表述性狀態(tài)傳遞(Representational State Transfer,REST)、簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議(Simple Object Access Protocol,SOAP)、元數(shù)據(jù)收割協(xié)議(Open Archives Initiative Protocol for Metadata Harvesting,OAI-PMH)、SPARQL(SPARQL Protocol and RDF Query Language)、網(wǎng)絡(luò)通用數(shù)據(jù)格式(Network Common Data Form,NetCDF)、SWORD和OpenDAP。不同數(shù)據(jù)接口方式在數(shù)據(jù)傳輸性能、數(shù)據(jù)體量及安全性等方面有一定差別。其中,32%的倉(cāng)儲(chǔ)提供基于FTP的數(shù)據(jù)交互方式,該方式適于傳輸大規(guī)模數(shù)據(jù),數(shù)據(jù)傳輸過(guò)程安全性較高,但傳輸需約定數(shù)據(jù)格式;24%的倉(cāng)儲(chǔ)提供基于REST方式,其數(shù)據(jù)傳輸效率高且簡(jiǎn)單易用,適于對(duì)安全要求不高的應(yīng)用,NCBI和EBI構(gòu)建的很多倉(cāng)儲(chǔ)都采用了這兩種數(shù)據(jù)交互接口方式,還有部分采用了SOAP方式,用于在分布式環(huán)境中交換輕量級(jí)的數(shù)據(jù)信息。提供元數(shù)據(jù)收割和下載的倉(cāng)儲(chǔ)通常提供OAI-PMH的接口方式。

        SWORD主要被用在Dataverse軟件支持的倉(cāng)儲(chǔ)中用于數(shù)據(jù)交互,是針對(duì)存儲(chǔ)庫(kù)的輕量級(jí)數(shù)據(jù)傳輸協(xié)議。而開(kāi)展RDF數(shù)據(jù)建設(shè)的倉(cāng)儲(chǔ),如BioPortal,支持SPRQL數(shù)據(jù)查詢(xún)。不少倉(cāng)儲(chǔ)提供多種接口方式,有11個(gè)倉(cāng)儲(chǔ)提供3種接口方式進(jìn)行數(shù)據(jù)調(diào)用,有50個(gè)倉(cāng)儲(chǔ)提供2種不同的接口方式供用戶(hù)根據(jù)自己的需求選擇使用。

        3 討論

        通過(guò)對(duì)Re3data收錄醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的系統(tǒng)分析,希望能通過(guò)多維分析視角,歸納總結(jié)全球范圍醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)和發(fā)展的特點(diǎn)和經(jīng)驗(yàn)。

        3.1 歐美國(guó)家占據(jù)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的高地

        無(wú)論是在國(guó)際層面還是國(guó)家層面,醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)均受到高度重視,各國(guó)積極發(fā)布國(guó)家級(jí)數(shù)據(jù)政策及戰(zhàn)略,并且相繼啟動(dòng)開(kāi)放數(shù)據(jù)研究計(jì)劃促進(jìn)開(kāi)展數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)實(shí)踐,致力于破除“數(shù)據(jù)孤島”,推進(jìn)科學(xué)數(shù)據(jù)資源匯聚和共享,推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的科技創(chuàng)新,提升科技競(jìng)爭(zhēng)能力。其中,歐美發(fā)達(dá)國(guó)家持續(xù)推動(dòng)數(shù)據(jù)倉(cāng)儲(chǔ)發(fā)展和建設(shè),處于領(lǐng)跑地位。英國(guó)和德國(guó)在自建倉(cāng)儲(chǔ)數(shù)量方面僅次于美國(guó),加拿大、瑞士等國(guó)積極參與數(shù)據(jù)倉(cāng)儲(chǔ)合作建設(shè)。相比美洲和歐洲國(guó)家而言,亞洲國(guó)家在全球科研倉(cāng)儲(chǔ)中注冊(cè)的倉(cāng)儲(chǔ)數(shù)量不多,在國(guó)際合作的倉(cāng)儲(chǔ)建設(shè)中參與能力和可見(jiàn)度還有待提升。

        3.2 多方合作共促數(shù)據(jù)開(kāi)放共享

        學(xué)科和機(jī)構(gòu)類(lèi)型數(shù)據(jù)倉(cāng)儲(chǔ)是醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的主要類(lèi)型,開(kāi)展倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu)以非營(yíng)利性機(jī)構(gòu)為主,包括大量政府機(jī)構(gòu)、公益組織和高校研究團(tuán)體,進(jìn)行倉(cāng)儲(chǔ)功能建設(shè)、技術(shù)支撐、制度建立、標(biāo)準(zhǔn)制定、運(yùn)行維護(hù)和宣傳推廣。

        在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)中,多家機(jī)構(gòu)打破國(guó)家、地域、區(qū)域、機(jī)構(gòu)限制和突破技術(shù)、資源等瓶頸形成跨國(guó)家、跨區(qū)域、跨機(jī)構(gòu)的合作,不僅擴(kuò)大了醫(yī)學(xué)科學(xué)數(shù)據(jù)資源來(lái)源,也擴(kuò)展和提高了數(shù)據(jù)流動(dòng)、共享的空間和效率。

        3.3 開(kāi)源技術(shù)降低倉(cāng)儲(chǔ)搭建門(mén)檻

        基礎(chǔ)平臺(tái)和關(guān)鍵技術(shù)是支撐醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)發(fā)展的重要基石,但從Re3data的注冊(cè)填報(bào)數(shù)據(jù)對(duì)其收錄的數(shù)據(jù)倉(cāng)儲(chǔ)的基礎(chǔ)支撐技術(shù)的揭示并不完整,明確填寫(xiě)了底層技術(shù)的倉(cāng)儲(chǔ)數(shù)量不多?,F(xiàn)有數(shù)據(jù)顯示,較多采用自建開(kāi)發(fā)方式建立,也有不少利用成熟開(kāi)源軟件進(jìn)行科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)。應(yīng)用的開(kāi)源軟件均具有一定的版本更新和技術(shù)升級(jí)能力,在資源內(nèi)容管理方面具有相對(duì)廣泛的應(yīng)用。開(kāi)源軟件結(jié)合本地化改造可以節(jié)約技術(shù)開(kāi)發(fā)成本,加快和促進(jìn)數(shù)據(jù)共享與開(kāi)放的進(jìn)程,在一定程度上降低醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的技術(shù)難度。

        3.4 標(biāo)準(zhǔn)規(guī)范建設(shè)保障倉(cāng)儲(chǔ)運(yùn)管

        在醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)運(yùn)行管理過(guò)程中,唯一標(biāo)識(shí)和元數(shù)據(jù)標(biāo)準(zhǔn)被用于資源識(shí)別和定位,規(guī)范數(shù)據(jù)管理流程和用于統(tǒng)一檢索與數(shù)據(jù)交換。本文中醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)使用的唯一標(biāo)識(shí)符除主要是倉(cāng)儲(chǔ)自定義的唯一標(biāo)識(shí)外,多使用DOI、HDL等通用標(biāo)識(shí)提高數(shù)據(jù)的可管理性和互操作性。在元數(shù)據(jù)標(biāo)準(zhǔn)方面,應(yīng)用到的元數(shù)據(jù)標(biāo)準(zhǔn)具有一定共性,涉及多類(lèi)國(guó)際或國(guó)家級(jí)標(biāo)準(zhǔn),不僅涵蓋通用標(biāo)準(zhǔn),還包括多種特定領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)。此外,一些數(shù)據(jù)倉(cāng)儲(chǔ)開(kāi)展底層數(shù)據(jù)語(yǔ)義化建設(shè),使用了W3C推薦的兩種語(yǔ)義數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)建設(shè)和管理流程。

        3.5 數(shù)據(jù)分級(jí)共享提供接口支持

        由于醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)存儲(chǔ)的數(shù)據(jù)類(lèi)型多樣,可用性、隱私性、價(jià)值程度不一,數(shù)據(jù)倉(cāng)儲(chǔ)通過(guò)設(shè)置多種數(shù)據(jù)訪問(wèn)級(jí)別和訪問(wèn)限制條件控制用戶(hù)訪問(wèn),包括開(kāi)放、限制、關(guān)閉、禁止等多種級(jí)別保護(hù)數(shù)據(jù)創(chuàng)建者、管理者和使用者的權(quán)益。此外,醫(yī)學(xué)科學(xué)數(shù)據(jù)服務(wù)中,如序列、影像等數(shù)據(jù)體量較大,數(shù)據(jù)交互多采用FTP、REST接口支持?jǐn)?shù)據(jù)傳輸和調(diào)用?,F(xiàn)有數(shù)據(jù)倉(cāng)儲(chǔ)提供不止一種調(diào)用方式滿(mǎn)足機(jī)器調(diào)用和讀取,有助于數(shù)據(jù)的共享和利用。

        3.6 采用政策許可保障多方權(quán)益

        醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)機(jī)構(gòu)和倉(cāng)儲(chǔ)制定數(shù)據(jù)相關(guān)政策和指南引導(dǎo)用戶(hù)進(jìn)行醫(yī)學(xué)數(shù)據(jù)提交、管理和存儲(chǔ)。政策內(nèi)容涉及數(shù)據(jù)提交、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)共享、數(shù)據(jù)使用等多個(gè)環(huán)節(jié)。從收集的數(shù)據(jù)來(lái)看,各倉(cāng)儲(chǔ)制定或使用的數(shù)據(jù)政策和指南偏個(gè)性化,主要根據(jù)各倉(cāng)儲(chǔ)存儲(chǔ)數(shù)據(jù)特點(diǎn)和流程,通用的政策或指南不多。在數(shù)據(jù)使用許可方面,通用的許可類(lèi)型較集中為CC0、CC、Copyrights等。通過(guò)數(shù)據(jù)許可可以指導(dǎo)用戶(hù)結(jié)合需求有效使用倉(cāng)儲(chǔ)數(shù)據(jù)和了解數(shù)據(jù)使用中可能遇到的知識(shí)產(chǎn)權(quán)和隱私問(wèn)題。

        4 結(jié)語(yǔ)

        本文仍存在一些不足,如在處理倉(cāng)儲(chǔ)所屬機(jī)構(gòu)數(shù)據(jù)時(shí),由于數(shù)據(jù)采用不同語(yǔ)言填寫(xiě),在數(shù)據(jù)處理時(shí),對(duì)德語(yǔ)的翻譯不是非常準(zhǔn)確。在處理醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)機(jī)構(gòu)名稱(chēng)歸一時(shí),由于涉及各國(guó)機(jī)構(gòu)較多,僅按名稱(chēng)進(jìn)行了歸并,未對(duì)機(jī)構(gòu)層級(jí)進(jìn)行關(guān)聯(lián)歸并處理,因此在各國(guó)機(jī)構(gòu)數(shù)量統(tǒng)計(jì)時(shí)僅統(tǒng)計(jì)到百位和十位的數(shù)字。下一步將結(jié)合分析結(jié)果和經(jīng)驗(yàn)總結(jié),優(yōu)化和完善倉(cāng)儲(chǔ)建設(shè)和功能。

        猜你喜歡
        許可醫(yī)學(xué)機(jī)構(gòu)
        版權(quán)許可聲明
        版權(quán)許可聲明
        版權(quán)許可聲明
        醫(yī)學(xué)的進(jìn)步
        本期作者介紹
        預(yù)防新型冠狀病毒, 你必須知道的事
        祝您健康(2020年4期)2020-05-20 15:04:20
        一周機(jī)構(gòu)凈增(減)倉(cāng)股前20名
        一周機(jī)構(gòu)凈增(減)倉(cāng)股前20名
        一周機(jī)構(gòu)凈增倉(cāng)股前20名
        一周機(jī)構(gòu)凈減倉(cāng)股前20名
        性色av免费网站| 无码成人AV在线一区二区| 91麻豆精品一区二区三区| 日本成年一区久久综合| 免费不卡在线观看av| 白白色视频这里只有精品| 本道天堂成在人线av无码免费| 成人午夜福利视频镇东影视| 亚洲欧美偷拍视频| 日本啪啪一区二区三区| 国产一区二区精品人妖系列在线 | 久久综合九色综合网站| 中文字幕一区二区人妻出轨| 亚洲色图第一页在线观看视频| 成人影院视频在线免费观看| 三年中文在线观看免费大全| 波多野结衣亚洲一区二区三区| 午夜人妻中文字幕福利| 国产日产桃色精品久久久| 亚洲中文字幕无码一久久区| 亚洲一区二区三区成人| 亚洲第一页综合av免费在线观看| 美女用丝袜脚玩我下面| 久久99精品久久久久久秒播| 伊人久久综在合线亚洲不卡| 亚洲av男人免费久久| 永久免费毛片在线播放| 人妻色综合网站| 就去吻亚洲精品欧美日韩在线| 美女黄网站永久免费观看网站| 人妻有码中文字幕在线| 日韩人妻中文字幕高清在线| 精品人妻伦九区久久aaa片| 无码粉嫩虎白一线天在线观看| 91久久国产综合精品| 国产91在线播放九色快色| 香蕉免费一区二区三区| 国产精品免费大片| 国产成人aa在线观看视频| 亚洲视频一区二区免费看| 人与动牲交av免费|