,, ,
[作者單位]中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100005
科學(xué)數(shù)據(jù)的快速增長(zhǎng)為科學(xué)研究和發(fā)展帶來了巨大挑戰(zhàn)和機(jī)會(huì),對(duì)數(shù)據(jù)重要價(jià)值的認(rèn)知促使各資助機(jī)構(gòu)、科研院所等爭(zhēng)先制定相關(guān)數(shù)據(jù)政策,促進(jìn)數(shù)據(jù)倉(cāng)儲(chǔ)更有效地利用和共享科學(xué)數(shù)據(jù)。數(shù)據(jù)倉(cāng)儲(chǔ)(Data Repository,DR)的宗旨是在科學(xué)研究領(lǐng)域內(nèi),促進(jìn)數(shù)據(jù)轉(zhuǎn)化為知識(shí)和再利用。數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)需要完成數(shù)據(jù)的收繳、數(shù)據(jù)的質(zhì)量控制、數(shù)據(jù)組織與長(zhǎng)期存儲(chǔ)、數(shù)據(jù)內(nèi)容的描述,并提供檢索、查詢、調(diào)用等服務(wù)[1]。
國(guó)內(nèi)已有相關(guān)文獻(xiàn)分析了生命科學(xué)領(lǐng)域科研數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)年代、學(xué)科領(lǐng)域等分布情況,從宏觀角度分析了代表性數(shù)據(jù)倉(cāng)儲(chǔ)。本文則聚焦數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè),擬以數(shù)據(jù)上傳、下載、管理、訪問等方面為切入點(diǎn),系統(tǒng)梳理和深入探索美國(guó)國(guó)立衛(wèi)生研究院(National Institutes of Health,NIH)生物醫(yī)學(xué)共享數(shù)據(jù)倉(cāng)儲(chǔ)中典型倉(cāng)儲(chǔ)的建設(shè)模式,全面了解數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)情況,為我國(guó)生物醫(yī)學(xué)科學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)的建設(shè)提供可資借鑒的參考。
NIH以列表形式,匯集了73個(gè)生物數(shù)據(jù)共享倉(cāng)儲(chǔ),提供數(shù)據(jù)存儲(chǔ)和共享服務(wù),促進(jìn)數(shù)據(jù)復(fù)用。該倉(cāng)儲(chǔ)涵蓋癌癥、生物納米技術(shù)樣本、多肽、眼部等多個(gè)領(lǐng)域。本文根據(jù)數(shù)據(jù)倉(cāng)儲(chǔ)權(quán)威性、領(lǐng)域影響力、應(yīng)用廣泛性和規(guī)范性等方面的特點(diǎn),確保倉(cāng)儲(chǔ)中涵蓋內(nèi)容格式單一型倉(cāng)儲(chǔ)及內(nèi)容格式集成型倉(cāng)儲(chǔ),涵蓋前沿的基因、蛋白、腫瘤領(lǐng)域及傳統(tǒng)的生物、技術(shù)、模型、臨床等領(lǐng)域,并根據(jù)對(duì)數(shù)據(jù)管理模式及流程的調(diào)研,篩選具有代表性,詳盡、規(guī)范及自身特性鮮明的倉(cāng)儲(chǔ),最終遴選出Protein Data Bank (PDB)、PubChem、GenBank、TCIH、FlyBase、CaNanolab、iDash、Uniprot、dbGaP、Clinicaltrials.gov等10個(gè)典型的數(shù)據(jù)共享倉(cāng)儲(chǔ)進(jìn)行研究。
癌癥影像檔案庫(kù)TCIA[2]為公眾提供大量去識(shí)別化的醫(yī)學(xué)癌癥影像的檔案資料[3]。FlyBase[4]是一個(gè)果蠅染色體和基因的數(shù)據(jù)庫(kù),包括蛋白質(zhì)組數(shù)據(jù)、微數(shù)列等[5];caNanoLab[6]是旨在促進(jìn)全球生物醫(yī)學(xué)納米技術(shù)研究社區(qū)的信息共享,以促進(jìn)并驗(yàn)證生物醫(yī)學(xué)中的納米技術(shù)的用途[7];iDash[8]提供數(shù)據(jù)倉(cāng)儲(chǔ)、開源軟件、架構(gòu)、模型、算法等資源[9];Uniprot[10]旨在為科學(xué)界提供一個(gè)全面、高質(zhì)量和能夠自有獲取的蛋白質(zhì)序列和功能信息資源[11];蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)[12]是關(guān)于大型生物分子的3D結(jié)構(gòu)信息的單一全球信息庫(kù)[13];基因型和表型數(shù)據(jù)庫(kù)(dbGaP)[14]是精選和發(fā)布由調(diào)查基因型和表型間相互作用的研究所產(chǎn)生的信息的數(shù)據(jù)倉(cāng)庫(kù)[15];PubChem[16]提供關(guān)于小分子的生物活性的信息[17];ClinicalTrials.gov提供患者及其家屬、醫(yī)療專家、科研人員和公眾的研究數(shù)據(jù)的入口[18];GenBank[19]是基因序列數(shù)據(jù)庫(kù),旨在提供和鼓勵(lì)科學(xué)界獲得最新和全面的DNA序列信息[20]。
NIH數(shù)據(jù)倉(cāng)儲(chǔ)中心提供了所有倉(cāng)儲(chǔ)的情況。本文圍繞數(shù)據(jù)管理系統(tǒng)機(jī)制,提出分析框架,從數(shù)據(jù)提交、數(shù)據(jù)管理、數(shù)據(jù)檢索、數(shù)據(jù)訪問、數(shù)據(jù)下載、數(shù)據(jù)引用等層面對(duì)這些數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行深入分析。
數(shù)據(jù)提交細(xì)化為數(shù)據(jù)內(nèi)容、格式規(guī)范、提交流程、質(zhì)量規(guī)定、審核流程和上傳方式6個(gè)方面。
數(shù)據(jù)內(nèi)容方面,各倉(cāng)儲(chǔ)內(nèi)容橫跨癌癥影像、表型、基因組、序列、生物大分子結(jié)構(gòu)、生物表達(dá)信息、健康相關(guān)信息、序列信息等。按照涉及領(lǐng)域劃分,iDash、dbGaP、GenBank、FlyBase屬基因領(lǐng)域,ClinicalTrials.gov、iDash屬健康領(lǐng)域,UniProt、PDB屬蛋白領(lǐng)域,PubChem屬化合物領(lǐng)域,TCIA屬腫瘤領(lǐng)域;按數(shù)據(jù)類型劃分,ClinicalTrials.gov、TCIA均屬于數(shù)據(jù)類型和內(nèi)容單一型倉(cāng)儲(chǔ),F(xiàn)lyBase、UniProt、PDB、PubChem屬于內(nèi)容單一的數(shù)據(jù)類型豐富的倉(cāng)儲(chǔ),iDash則是在內(nèi)容上較為豐富的集成型倉(cāng)儲(chǔ)。格式規(guī)范方面,多數(shù)倉(cāng)儲(chǔ)沒有明確限制數(shù)據(jù)格式,也有給出建議格式的,如UniProt建議使用UniProtKB/Swiss-Prot格式,GenBank、PubChem給出了通用的格式;TCIA由于主要收集影像資料,格式主要為DICOM;PDB則對(duì)于提交的不同類型規(guī)定了不同的格式。就某一領(lǐng)域,數(shù)據(jù)的某種格式很可能是通用的,如基因領(lǐng)域,通用格式是FASTA。質(zhì)量規(guī)定方面,60%的倉(cāng)儲(chǔ),如caNanoLab等采用人工審核,其中,ClinicalTrials.gov會(huì)為用戶提供審查標(biāo)準(zhǔn)供用戶自行檢查,再由審核人員控制;20%的倉(cāng)儲(chǔ)考慮加入自動(dòng)審核,如dbGaP自動(dòng)完成針對(duì)數(shù)據(jù)格式、元數(shù)據(jù)核對(duì)等一系列質(zhì)量審核。提交流程方面,多數(shù)倉(cāng)儲(chǔ)仍然采用傳統(tǒng)的提交數(shù)據(jù)、審核、通過后發(fā)布的模式設(shè)計(jì)流程,并加入與自身倉(cāng)儲(chǔ)特性結(jié)合的環(huán)節(jié)。以僅將原數(shù)據(jù)發(fā)布作為目標(biāo)的機(jī)構(gòu)為例,TCIA通過人員和軟件的共同協(xié)作實(shí)現(xiàn)提交;iDash則需要用戶先簽訂一份提交協(xié)議,包括內(nèi)容和法律條款等,而后提交數(shù)據(jù);UniProt、dbGaP、PubChem、ClinicalTrials.gov要求用戶注冊(cè)并填報(bào)所需元數(shù)據(jù)項(xiàng)(表1)。數(shù)據(jù)審核方面,除dbGaP倉(cāng)儲(chǔ)采用自動(dòng)審核的方式外,其余均為人工審核。值得一提的是,PubChem審核數(shù)據(jù)更新情況時(shí),采用半人工半自動(dòng)的方式。數(shù)據(jù)上傳方面,多數(shù)倉(cāng)儲(chǔ)使用最基本的附件上傳方式,其余上傳方式包括批量上傳、FTP上傳等,部分倉(cāng)儲(chǔ)實(shí)現(xiàn)了工具上傳,如TCIA、GenBank分別使用CTP(臨床試驗(yàn)處理器)及Sequin程序等工具上傳。其中CTP可以在數(shù)據(jù)提交前根據(jù)DICOM標(biāo)準(zhǔn)對(duì)數(shù)據(jù)執(zhí)行去識(shí)別的工作,Sequin用于在MAC、PC和UNIX平臺(tái)通過FTP指導(dǎo)提交過程,ClinicalTrials.gov則直接輸入數(shù)據(jù)元素。
表1 數(shù)據(jù)共享倉(cāng)儲(chǔ)數(shù)據(jù)提交規(guī)范
數(shù)據(jù)管理細(xì)化為內(nèi)容管理、數(shù)據(jù)管理和版本管理3個(gè)方面。
數(shù)據(jù)共享倉(cāng)儲(chǔ)數(shù)據(jù)管理規(guī)范情況見表2。
表2 數(shù)據(jù)共享倉(cāng)儲(chǔ)數(shù)據(jù)管理規(guī)范
內(nèi)容方面,TCIA、FlyBase、caNanolab較為單一,如FlyBase主要涉及果蠅資源,aNanolab主要涉及納米技術(shù);其余倉(cāng)儲(chǔ)數(shù)據(jù)類型相對(duì)豐富,如iDash是生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)的集合庫(kù),PubChem集成了物質(zhì)信息、化合物信息和生物活性等方面的信息數(shù)據(jù)。就內(nèi)容所屬領(lǐng)域來說,UniProt、PDB、dbGaP、GenBank均包含基因組或蛋白質(zhì)序列的內(nèi)容,其細(xì)化研究領(lǐng)域各有專攻,如PDB對(duì)生物體、蛋白質(zhì)、結(jié)構(gòu)測(cè)定等更為關(guān)注,dbGaP主要研究個(gè)體水平的基因數(shù)據(jù)匯編,UniProt專攻蛋白質(zhì)序列記錄及分析等,GenBank則含有更多表達(dá)序列標(biāo)簽和基因組序列的信息。
數(shù)據(jù)管理方面,80%的倉(cāng)儲(chǔ)將數(shù)據(jù)發(fā)布后,會(huì)為用戶提供相對(duì)統(tǒng)一的元數(shù)據(jù)項(xiàng);對(duì)于倉(cāng)儲(chǔ)中包含多種類型數(shù)據(jù)的情況,會(huì)區(qū)別對(duì)待,如caNanolab,協(xié)議和樣品需提供的元數(shù)據(jù)項(xiàng)是不相同的。另外20%的倉(cāng)儲(chǔ)可能由于內(nèi)容的不同,如FlyBase中每種報(bào)告可能含有不同的元數(shù)據(jù)描述項(xiàng),iDash數(shù)據(jù)以社區(qū)形式存放,相關(guān)說明由數(shù)據(jù)上傳者提供,所以元數(shù)據(jù)項(xiàng)無法統(tǒng)一。
版本管理方面,F(xiàn)lyBase等4個(gè)倉(cāng)儲(chǔ)提供數(shù)據(jù)版本發(fā)布及管理功能,dbGaP設(shè)置文件格式版本、匯編版本、阻止發(fā)布版本等版本管理模塊;數(shù)據(jù)更新頻率方面,多數(shù)倉(cāng)儲(chǔ)保持每日到數(shù)月更新一次的頻率。
6個(gè)倉(cāng)儲(chǔ)可無限制訪問和下載,部分設(shè)置權(quán)限。如dbGaP出于保護(hù)研究參與人員的意愿和隱私考慮,設(shè)置訪問權(quán)限,并采取其他數(shù)據(jù)安全措施;TCIA中部分?jǐn)?shù)據(jù)集需特定權(quán)限;caNanolab 、iDash 、PubChem 部分開放。6個(gè)倉(cāng)儲(chǔ)提供了詳細(xì)的數(shù)據(jù)量數(shù)據(jù)。TCIA絕大部分?jǐn)?shù)據(jù)集無需登錄即可下載;caNanolab 則是由數(shù)據(jù)提交人或?qū)徍巳藳Q定該數(shù)據(jù)是否公開;iDash倉(cāng)儲(chǔ)中因包含很多安全、保密的數(shù)據(jù)庫(kù),故其部分?jǐn)?shù)據(jù)集設(shè)有權(quán)限限制,用戶需要首先加入數(shù)據(jù)社區(qū),才能訪問該社區(qū)內(nèi)的資源(表3)。
各倉(cāng)儲(chǔ)均提供多種檢索方式,包括簡(jiǎn)單檢索、高級(jí)檢索與關(guān)聯(lián)檢索,部分倉(cāng)儲(chǔ)已經(jīng)將檢索工具投入使用。80%的倉(cāng)儲(chǔ)實(shí)現(xiàn)了高級(jí)檢索,如PDB列出了包括機(jī)體、X射線分辨率、發(fā)布日期、酶分類、蛋白質(zhì)對(duì)稱性等檢索類別,提供基于關(guān)鍵詞、結(jié)構(gòu)注釋、所有實(shí)驗(yàn)類別等方面的篩選條件;ClinicalTrials.gov提供研究類型、研究結(jié)果、所屬單位、年齡、性別、定向搜索等檢索條件。40%的倉(cāng)儲(chǔ)提供了檢索工具,如FlyBase提供的檢索工具QueryBuilder允許用戶使用模板查詢、導(dǎo)入保存的查詢或者構(gòu)建新查詢,自動(dòng)創(chuàng)建與查詢匹配的記錄交叉引用的記錄集,從單個(gè)頁面提供到倉(cāng)儲(chǔ)中所有相關(guān)記錄的鏈接;UniProt提供的檢索工具BLAST可以查找序列之間的局部相似性區(qū)域并推測(cè)序列之間的功能及進(jìn)化關(guān)系,GenBank提供的基本局部比對(duì)搜索工具BLAST等[21]和PubChem提供的基于結(jié)構(gòu)相似度的物質(zhì)聚類工具、識(shí)別結(jié)構(gòu)活性關(guān)系并檢查化合物的靶選擇性和特異性的工具、支持快速搜索和檢索單個(gè)生物測(cè)定記錄的測(cè)試結(jié)果的工具以及用于檢查和比較多個(gè)生物測(cè)試中的生物學(xué)結(jié)果的工具等(表3)。
各倉(cāng)儲(chǔ)下載方式包括鏈接直接下載、FTP下載、API下載、批量下載等。多數(shù)倉(cāng)儲(chǔ)提供直接下載和FTP下載,ClinicalTrials.gov只提供在線搜索查看。其中有些倉(cāng)儲(chǔ)是以某個(gè)數(shù)據(jù)版本打包下載的,如Uniprot;也有以提供數(shù)據(jù)資源列表方式支持下載的,如TCIA。權(quán)限方面,4個(gè)倉(cāng)儲(chǔ)提供公開的數(shù)據(jù)集服務(wù),4個(gè)倉(cāng)儲(chǔ)部分?jǐn)?shù)據(jù)提供公開服務(wù),2個(gè)倉(cāng)儲(chǔ)需要相關(guān)訪問權(quán)限。其中,dbGaP則需要申請(qǐng)?jiān)L問權(quán)限并符合相關(guān)政策,GenBank則做出了關(guān)于數(shù)據(jù)權(quán)限的說明。格式方面,除了TCIA格式較為單一外,其余倉(cāng)儲(chǔ)多含有通用格式及其他格式,具體信息參見表4。
70%的倉(cāng)儲(chǔ)提供用戶引用時(shí)的推薦格式,其中caNanolab還針對(duì)普通引用、已發(fā)布的數(shù)據(jù)引用和未發(fā)布的數(shù)據(jù)引用做出區(qū)分。個(gè)別倉(cāng)儲(chǔ)未標(biāo)明引用樣例格式,但給出了相關(guān)要求,包括dbGaP遵循DUC協(xié)議,ClinicalTrials.gov給出了引用時(shí)需標(biāo)明的幾點(diǎn)要求,iDash需要發(fā)表引用聲明。引用協(xié)議方面,各倉(cāng)儲(chǔ)均根據(jù)自身情況引用了相關(guān)協(xié)議,如TCIA從促進(jìn)數(shù)據(jù)共享與復(fù)用的強(qiáng)烈意愿為出發(fā)點(diǎn),使用CC BY 3.0的引用協(xié)議。該協(xié)議標(biāo)明用戶可以自由共享或演繹,但必須署名,提供許可協(xié)議鏈接,如有修改需標(biāo)明。iDash由于包含較多保密數(shù)據(jù),因此要求用戶遵循HIPAA法案。HIPAA法案(健康保險(xiǎn)攜帶與責(zé)任法案)在衛(wèi)生信息化環(huán)境下如何保護(hù)個(gè)人隱私的問題上開展了較為深入的探索[22]。UniProt要求遵循Creative Commons Attribution-NoDerivs協(xié)議[23]。該協(xié)議允許用戶共享,前提是用戶必須給出適當(dāng)?shù)男庞弥?,提供許可鏈接,并指明是否進(jìn)行了更改;如果對(duì)內(nèi)容進(jìn)行各種形式的重構(gòu),則不能分發(fā)結(jié)果。PDB以數(shù)據(jù)共享為出發(fā)點(diǎn),數(shù)據(jù)完全開放[24],部分內(nèi)容遵循CC-BY-4.0協(xié)議。該協(xié)議旨在無限制地允許用戶進(jìn)行共享和重構(gòu),用戶同樣需要遵循相關(guān)條件。其余數(shù)據(jù)倉(cāng)儲(chǔ)需遵循NIH相應(yīng)管理政策。數(shù)據(jù)共享倉(cāng)儲(chǔ)下載與引用規(guī)范見表4。
表3 數(shù)據(jù)共享倉(cāng)儲(chǔ)數(shù)據(jù)訪問與檢索規(guī)范
表4 數(shù)據(jù)共享倉(cāng)儲(chǔ)數(shù)據(jù)下載與引用規(guī)范
(續(xù)表4)
NIH生物醫(yī)學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)的如下特點(diǎn)值得我們參考和借鑒。
數(shù)據(jù)提交方面,根據(jù)領(lǐng)域給出元數(shù)據(jù)內(nèi)容要求,不限制數(shù)據(jù)格式。在附件上傳的基礎(chǔ)上,設(shè)計(jì)及應(yīng)用了上傳工具便于用戶上傳數(shù)據(jù)。為更好地進(jìn)行數(shù)據(jù)核驗(yàn),保留對(duì)數(shù)據(jù)資源人工審核質(zhì)量的模式,個(gè)別倉(cāng)儲(chǔ)對(duì)半人工半自動(dòng)或自動(dòng)質(zhì)量審核模式進(jìn)行了探索。另外,在數(shù)據(jù)提交的過程中,iDash強(qiáng)調(diào)法律權(quán)益及版權(quán)方面的問題,因此事先擬定了要簽署的協(xié)議,值得借鑒。
數(shù)據(jù)管理方面,各倉(cāng)儲(chǔ)內(nèi)容不同,但均盡可能收集詳細(xì)全面的元數(shù)據(jù),并總結(jié)和發(fā)布相對(duì)統(tǒng)一的元數(shù)據(jù)項(xiàng),同時(shí)提供數(shù)據(jù)的分析統(tǒng)計(jì)。倉(cāng)儲(chǔ)具有較好的版本管理規(guī)范,并定期對(duì)數(shù)據(jù)進(jìn)行更新與檢查。
數(shù)據(jù)服務(wù)方面,多數(shù)檢索提供簡(jiǎn)單檢索和高級(jí)檢索,積極開展個(gè)性化檢索工具的嘗試與應(yīng)用。倉(cāng)儲(chǔ)提供多種下載方式和數(shù)據(jù)格式,對(duì)于需要引用數(shù)據(jù)的用戶,提供多種引用規(guī)范格式或樣例,或做出聲明,制定符合自身倉(cāng)儲(chǔ)特點(diǎn)的引用規(guī)范,并采用符合自身倉(cāng)儲(chǔ)特點(diǎn)、與行業(yè)標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)與政策相符合的數(shù)據(jù)引用協(xié)議(如CC協(xié)議)。
由于時(shí)間與精力限制,本文未對(duì)NIH生物醫(yī)學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)下的所有倉(cāng)儲(chǔ)進(jìn)行全面調(diào)研,但通過對(duì)典型倉(cāng)儲(chǔ)進(jìn)行分析比較及特點(diǎn)總結(jié),希望能夠?yàn)槲覈?guó)開展生物醫(yī)學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)建設(shè)提供一定的經(jīng)驗(yàn)和啟示。
中華醫(yī)學(xué)圖書情報(bào)雜志2017年10期