亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國際三大核酸序列數(shù)據(jù)庫的運(yùn)行與管理模式及對中國的啟示

        2023-03-30 10:59:08李欣然
        科技管理研究 2023年4期
        關(guān)鍵詞:核酸數(shù)據(jù)中心基因組

        李欣然,劉 云

        (1.中國科學(xué)院大學(xué)中丹學(xué)院,北京 100190;2.中國科學(xué)院大學(xué)公共政策與管理學(xué)院,北京 100190)

        1990 年,美國啟動(dòng)人類基因組計(jì)劃,英國、法國、德國、日本、中國等主要國家科學(xué)家參與,其直接成果是測定了人類30 億個(gè)堿基對的人類基因組全序列[1],生命科學(xué)逐步進(jìn)入到以數(shù)據(jù)密集型研究為代表的第四范式,這也推動(dòng)了生物學(xué)研究從實(shí)驗(yàn)生物學(xué)、分子生物學(xué)進(jìn)入到信息生物學(xué)的階段。預(yù)計(jì)到2025 年,全球每年將會(huì)產(chǎn)出1 ZB 的基因組數(shù)據(jù)[2]。數(shù)據(jù)密集型科研范式的深入發(fā)展,也推動(dòng)了基因序列分析的進(jìn)步[3]。在基因大數(shù)據(jù)日益成為國家基礎(chǔ)性戰(zhàn)略資源的背景下,對核酸序列數(shù)據(jù)的規(guī)范化管理以及數(shù)據(jù)庫建設(shè)逐漸成為各國關(guān)注的重點(diǎn),對核酸序列數(shù)據(jù)等人類遺傳資源信息的管理也成為中國科學(xué)數(shù)據(jù)中心參與國際科學(xué)數(shù)據(jù)共享的重要課題。本研究旨在調(diào)查分析由發(fā)達(dá)國家主導(dǎo)的國際三大核酸序列數(shù)據(jù)庫的建設(shè)情況及運(yùn)行管理模式,并對中國核酸序列數(shù)據(jù)庫建設(shè)進(jìn)行對比分析,為推動(dòng)中國核酸序列數(shù)據(jù)庫建設(shè)及數(shù)據(jù)管理與開放共享提供政策建議。

        1 國際三大核酸序列庫建設(shè)總體情況

        為對規(guī)模龐大的基因組數(shù)據(jù)進(jìn)行有效管理與使用,各國紛紛建立了不同規(guī)模的核酸序列數(shù)據(jù)庫。但建立核酸序列數(shù)據(jù)庫是一項(xiàng)成本高昂且耗時(shí)較久的工程,其重難點(diǎn)就在于數(shù)據(jù)庫架構(gòu)、中間程序與可視化程序的開發(fā)工作,采用不同架構(gòu)模式或者不同語言建設(shè)的數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)交換的難度會(huì)更加突出,這使得不同機(jī)構(gòu)數(shù)據(jù)流動(dòng)成本居高不下[4]。

        1.1 國際三大核酸序列庫發(fā)展歷程

        如圖1 所示,1980 年,歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory,EMBL)創(chuàng)建了世界首個(gè)核酸序列數(shù)據(jù)庫(Nucleotide Sequence Data Library),即 EMBL-Bank;1982 年,美國洛斯阿拉莫斯國家實(shí)驗(yàn)室創(chuàng)建了GenBank;1986 年,日本國家遺傳學(xué)研究所(NIG)創(chuàng)建了屬于日本的核酸序列庫DDBJ (DNA Data Bank of Japan)。由此,形成了分立于不同國家、分屬不同機(jī)構(gòu)的三大公共核酸序列數(shù)據(jù)中心[5]。由于核酸序列數(shù)據(jù)來源的差異性,且彼時(shí)并未有核酸序列數(shù)據(jù)交換共享渠道建立,致使研究者在獲取全面核酸序列數(shù)據(jù)時(shí)存在困難。1988 年,為統(tǒng)一核酸數(shù)據(jù)格式以方便數(shù)據(jù)共享,三大核酸序列數(shù)據(jù)庫(以下簡稱“三大數(shù)據(jù)中心”)召開了第一屆國際合作會(huì)議(International Collaborative Meeting,ICM),隨后三大數(shù)據(jù)中心于20 世紀(jì)90 年代中期成立了國際機(jī)構(gòu)合作聯(lián)盟,在聯(lián)盟框架下,GenBank、EMBL 和 DDBJ 遵循統(tǒng)一政策,各自負(fù)責(zé)本地核酸序列數(shù)據(jù)的相關(guān)工作,形成了基于機(jī)構(gòu)聯(lián)盟的共享機(jī)制。2005 年,三大數(shù)據(jù)中心正式將合作命名為“國際核酸序列數(shù)據(jù)庫聯(lián) 盟”(International Nucleotide Sequence Database Collaboration,INSDC)。

        圖1 國際三大核酸序列數(shù)據(jù)庫發(fā)展歷程

        1.2 三大數(shù)據(jù)中心數(shù)據(jù)資源狀況

        國際三大核酸序列數(shù)據(jù)庫的主要數(shù)據(jù)資源情況如表1 所示。

        表1 國際三大核酸序列數(shù)據(jù)庫主要數(shù)據(jù)資源情況

        2.1.1 GenBank

        美國GenBank 核酸序列數(shù)據(jù)庫受到美國國立衛(wèi)生研究院(National Institutes of Health,NIH)、美國國家生物技術(shù)信息中心以及基金會(huì)的支持,其隸屬于美國國立衛(wèi)生研究院,提供核酸數(shù)據(jù)的上傳、使用和下載服務(wù)。美國國家生物技術(shù)信息中心隸屬于美國國立衛(wèi)生研究院下屬國立醫(yī)學(xué)圖書館(The United States National Library of Medicine,NLM),是由NLM 于1988 年建立,主要負(fù)責(zé)運(yùn)維GenBank 數(shù)據(jù)庫,提供基于GenBank 的檢索和分析服務(wù)。1993年GenBank 開始接受直接提交的序列數(shù)據(jù),數(shù)據(jù)主要來源于覆蓋全球的實(shí)驗(yàn)室和大規(guī)模測序項(xiàng)目等[6](見圖2)。2013 年,美國國立衛(wèi)生研究院啟動(dòng)了“大數(shù)據(jù)向知識(shí)轉(zhuǎn)化計(jì)劃”(Big Data to Knowledge),將從多方面促進(jìn)生物醫(yī)學(xué)數(shù)據(jù)的共享與利用[7],因此該計(jì)劃也在一定程度上推動(dòng)了GenBank 的發(fā)展。

        圖2 美國GenBank 的組織體系和運(yùn)行機(jī)制

        2.1.2 EBI-ENA

        1974 年,歐洲14 個(gè)國家加上亞洲的以色列共同建立了歐洲分子生物學(xué)實(shí)驗(yàn)室,該實(shí)驗(yàn)室隨后建立了歐洲分子生物學(xué)實(shí)驗(yàn)室核酸序列庫(EMBLBank),這也是世界上最早的核酸序列數(shù)據(jù)庫,目的在于促進(jìn)歐洲國家之間的合作來發(fā)展分子生物學(xué)基礎(chǔ)研究。1992 年,歐洲議會(huì)決定在EMBLBank 的基礎(chǔ)上建立歐洲生物信息研究所(European Bioinformatics Institute,EMBL-EBI)。1994 年EMBLEBI 于英國休斯頓正式成立,其經(jīng)費(fèi)主要來源于歐盟各成員國以及英國維康信托基金會(huì)(Wellcome Trust,WT)、美國國立衛(wèi)生研究院、英國醫(yī)學(xué)研究理事會(huì)(Medical Research Council,MRC)。EBI建立了歐洲生物信息研究所核酸檔案庫(European Nucleotide Archive,ENA),并負(fù)責(zé)該數(shù)據(jù)庫的運(yùn)維,其資金來源主要包括了歐洲委員會(huì)、英國生物技術(shù)和生物科學(xué)研究委員會(huì)(Biotechnology and Biological Sciences Research Council,BBSRC)和威康信托基金會(huì)。2008 至2015 年間,EBI 實(shí)施了由WT 資助的“千人基因組計(jì)劃”(1000-Genome Project),主要目標(biāo)就是尋找人類群體中出現(xiàn)頻率至少為1%的遺傳變異[7]。目前,EBI-ENA 為歐洲以及世界各個(gè)國家的科研人員提供免費(fèi)公開的數(shù)據(jù)查詢服務(wù)[8]。如圖3 所示。

        圖3 EBI-ENA 的組織體系和運(yùn)行機(jī)制

        2.1.3 DDBJ

        在歐洲EMBL 與美國GenBank 的邀請之下,1984 年日本成立了DNA 數(shù)據(jù)庫,1987 年DDBJ 正式開始運(yùn)行,由日本國立遺傳學(xué)研究所遺傳信息中心負(fù)責(zé)維護(hù)[10]。對DDBJ 提供審查和建議有兩個(gè)機(jī)構(gòu):日本DNA 數(shù)據(jù)庫咨詢委員會(huì)(獨(dú)立于NIG 的外部委員會(huì))以及國際核酸序列數(shù)據(jù)庫聯(lián)盟INSDC 的咨詢委員會(huì)IAC。DDBJ 是日本核酸序列數(shù)據(jù)庫,也曾是亞洲唯一核酸序列數(shù)據(jù)庫,其首先是反映日本所產(chǎn)生的DNA 數(shù)據(jù),同時(shí)與GenBank 和ENA 合作,互通有無、同步更新。其具體發(fā)展歷程如表2 所示。

        表2 DDBJ 組織體系和發(fā)展歷程

        2.2 數(shù)據(jù)開放共享政策和知識(shí)產(chǎn)權(quán)保護(hù)

        2.2.1 數(shù)據(jù)使用機(jī)制

        國際核酸序列數(shù)據(jù)庫聯(lián)盟的數(shù)據(jù)庫INSD 中的數(shù)據(jù)免費(fèi)向公眾提供,用戶可不受限制訪問其數(shù)據(jù)庫中的所有數(shù)據(jù)記錄,世界各地的科學(xué)家均可訪問數(shù)據(jù)庫記錄來計(jì)劃實(shí)驗(yàn)或發(fā)表任何分析或評論。用戶可以檢索數(shù)據(jù)應(yīng)用于自己的研究,但根據(jù)數(shù)據(jù)共享的FAIR 原則(即可發(fā)現(xiàn)findable、可訪問accessible、可互操作interoperable 和可重用reusable原則),引用INSDC 數(shù)據(jù)需標(biāo)注標(biāo)識(shí)號(hào)以保證原始數(shù)據(jù)提交者得到適當(dāng)?shù)恼J(rèn)可。此外,INSD 不會(huì)在記錄中附加限制訪問數(shù)據(jù)、限制使用這些記錄中的信息或禁止基于這些記錄的某些類型的出版物的聲明,任何序列數(shù)據(jù)記錄中不會(huì)包含任何使用限制或許可要求,任何一方對數(shù)據(jù)庫的再分發(fā)或使用都不會(huì)有任何限制或許可費(fèi)用。

        2.2.2 數(shù)據(jù)保密機(jī)制

        由于部分?jǐn)?shù)據(jù)提交者擔(dān)心核酸序列數(shù)據(jù)庫中一些待出版數(shù)據(jù)可能會(huì)對其成果造成影響,因此數(shù)據(jù)庫會(huì)被要求在數(shù)據(jù)提交后的某一具體時(shí)間后再進(jìn)行數(shù)據(jù)公開,但I(xiàn)NSD 不會(huì)無限期持有數(shù)據(jù)但不出版。因此,對于數(shù)據(jù)提交者來說,其享有決定數(shù)據(jù)開放時(shí)間的權(quán)利,數(shù)據(jù)的所有權(quán)將一直歸屬于原始數(shù)據(jù)提供者;若需更新數(shù)據(jù),僅允許數(shù)據(jù)的所有者或是被INSDC 批準(zhǔn)的代表有權(quán)更新數(shù)據(jù)。此外,雖然數(shù)據(jù)庫保存的是公共數(shù)據(jù),但并非所有數(shù)據(jù)保密等級(jí)一致,數(shù)據(jù)公開性分為兩個(gè)級(jí)別,即機(jī)密材料和公共數(shù)據(jù)。數(shù)據(jù)可用性的兩個(gè)主要級(jí)別是數(shù)據(jù)在發(fā)布前保密和在公開發(fā)布后保密。

        (1)機(jī)密資料。數(shù)據(jù)所有者可以在研究/項(xiàng)目注冊期間提出,在所有者管理的發(fā)布日期或文獻(xiàn)發(fā)表之前(以較早者為準(zhǔn))需要保密。在保密階段,數(shù)據(jù)不會(huì)通過任何方式公開。

        (2)公共數(shù)據(jù)。一個(gè)項(xiàng)目在達(dá)到指定的發(fā)布日期或在此日期之前就被出版物引用時(shí),數(shù)據(jù)將自動(dòng)發(fā)布成為公共數(shù)據(jù)。如果必須延長發(fā)布日期,數(shù)據(jù)所有者可以在數(shù)據(jù)公開之前延長其發(fā)布時(shí)間。

        2.2.3 數(shù)據(jù)隱私機(jī)制

        如果要提交人類基因序列數(shù)據(jù)到核酸序列數(shù)據(jù)庫,研究者需要保證數(shù)據(jù)中不包含任何泄露個(gè)人隱私的信息。核酸序列數(shù)據(jù)庫會(huì)假定所有數(shù)據(jù)提交者在提交數(shù)據(jù)之前已經(jīng)明晰了必要的知情同意授權(quán)材料,如美國基因數(shù)據(jù)共享政策(Genomic Data Sharing Policy,GDS)就明確提出了在基因數(shù)據(jù)等共享過程中要尊重隱私和專利,充分發(fā)揮各機(jī)構(gòu)審查委員會(huì)的審查作用[11]。

        2.3 核酸序列數(shù)據(jù)庫全生命周期科學(xué)數(shù)據(jù)管理模式

        2.3.1 數(shù)據(jù)來源

        GenBank 屬于一級(jí)核酸序列庫,它匯集并注釋了所有公開的核苷酸序列和蛋白質(zhì)序列,以及相關(guān)文獻(xiàn)著作和生物學(xué)注釋。根據(jù)GenBank 官網(wǎng)統(tǒng)計(jì),大概每18 個(gè)月,其數(shù)據(jù)量翻一倍。GenBank 數(shù)據(jù)來源主要有2 種途徑1):第一,測序工作者提交的序列、測序中心(如北京基因組研究所)提交的大量表達(dá)序列標(biāo)簽(express sequence tag,EST)、基因組勘測序列(genome survey sequences,GSS)[12],以及其他高通量數(shù)據(jù)。第二,與其他數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)。通過與來自各個(gè)實(shí)驗(yàn)室遞交的序列和同國際核酸序列數(shù)據(jù)庫(ENA 和DDBJ)交換數(shù)據(jù)匯集數(shù)據(jù)。第三,美國專利商標(biāo)局(United States Patent and Trademark Office,USPTO)提供的已發(fā)表的專利數(shù)據(jù)。GenBank會(huì)從已發(fā)表的專利中提取序列[13]。前兩種數(shù)據(jù)都是源于測序工作者直接提交的測序數(shù)據(jù),經(jīng)審核后即可在數(shù)據(jù)庫中公布。

        歐洲生物信息研究所核酸檔案庫收存了歐洲大部分的核苷酸測序信息,包括原始測序數(shù)據(jù)、序列組裝信息和功能注釋。其數(shù)據(jù)來源于基因組測序中心、世界各地的研究人員、歐洲專利局直接提交的數(shù)據(jù)、大規(guī)模基因組測序項(xiàng)目以及與合作伙伴GenBank 和DDBJ 合作交換的數(shù)據(jù)[6],因此它也是一個(gè)較為全面的核酸序列數(shù)據(jù)庫。除此之外,ENA也存儲(chǔ)與核酸測序?qū)嶒?yàn)流程相關(guān)的信息,包括測序材料的分離與制備相關(guān)數(shù)據(jù)、測序儀器產(chǎn)生的數(shù)據(jù)以及隨后的生物信息學(xué)分析流程數(shù)據(jù)等。

        日本核酸序列數(shù)據(jù)庫主要收集日本研究者的序列數(shù)據(jù)并為其賦予唯一標(biāo)識(shí)號(hào),不過DDBJ 也接受來全球研究者的研究數(shù)據(jù)[8]。2020 年,DDBJ 共接收了6 836 份經(jīng)過審核認(rèn)證的核苷酸序列,其中59.3%是由日本研究團(tuán)隊(duì)提交的。DDBJ 會(huì)定期以平面文件(flat file)發(fā)布所有公開的DDBJ/ENA/GenBank 核苷酸序列數(shù)據(jù)。2021 年6 月數(shù)據(jù)顯示,國際核酸序列數(shù)據(jù)庫聯(lián)盟中包括2 830 321 188 個(gè)序列和15 093 100 107 909 個(gè)堿基對,DDBJ 為其貢獻(xiàn)了3.39%的序列和2.23%的堿基對[13]。

        2.3.2 數(shù)據(jù)結(jié)構(gòu)

        國際核酸序列數(shù)據(jù)庫聯(lián)盟圍繞著數(shù)據(jù)描述、數(shù)據(jù)標(biāo)識(shí)和數(shù)據(jù)分類制定了一系列的規(guī)范。1980 年,GenBank、EMBL 和DDBJ 共同設(shè)計(jì)了數(shù)據(jù)描述規(guī)范——特征表(feature table),方便在不同框架下對核酸序列的特征進(jìn)行描述。實(shí)際應(yīng)用過程中,三大數(shù)據(jù)中心在規(guī)范框架下制定了不同的格式來進(jìn)行核酸序列數(shù)據(jù)的描述。以記錄“AF000011”的核酸序列為例,檢索結(jié)果如圖4 所示[6],可以看出GenBank 和DDBJ 的表達(dá)形式是一致的,而ENA 則略有不同,但是在特征表的約束下,特征項(xiàng)(feature key)均是一致的,在此規(guī)范下能夠保證不同數(shù)據(jù)庫之間高效地交換共享(見圖4)。

        圖4 GenBank、EMBL 和DDBJ 數(shù)據(jù)結(jié)構(gòu)示例

        2.3.3 數(shù)據(jù)處理

        三大數(shù)據(jù)中心采用的數(shù)據(jù)處理流程基本一致。首先,有數(shù)據(jù)提交需求的研究人員通過指定的數(shù)據(jù)提交工具將基因序列上傳,然后,審核人員對提交數(shù)據(jù)進(jìn)行質(zhì)量控制與審核,審核通過的數(shù)據(jù)將被賦予唯一記錄號(hào)然后被存儲(chǔ),如GenBank 中的GI 標(biāo)識(shí)符(gen info identifier number)就是國際性通用序列標(biāo)識(shí)符,也是數(shù)據(jù)庫在處理數(shù)據(jù)時(shí)為其分配的唯一ID 號(hào)[14]。數(shù)據(jù)開放時(shí)間由研究人員自行規(guī)定,研究人員需要在提交時(shí)就明確數(shù)據(jù)是立刻開放或者延遲開放,并說明指定時(shí)間。當(dāng)數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行公開后,用戶即可通過檢索系統(tǒng)獲取數(shù)據(jù)。三大數(shù)據(jù)中心彼此之間建立信任機(jī)制,共同采用上述處理流程。以DDBJ 提供的服務(wù)為例,如圖5 所示,圖中:

        圖5 DDBJ 的數(shù)據(jù)處理流程及數(shù)據(jù)服務(wù)

        ①向科技期刊提交論文。當(dāng)作者向期刊投稿時(shí),通常會(huì)將序列數(shù)據(jù)提交到DDBJ(ENA 或GenBank)獲取登錄號(hào)(accession numbers),即使沒有論文待發(fā)表,也可以向DDBJ 提交序列數(shù)據(jù)。

        ②核酸序列提交。DDBJ 通過核酸序列提交系統(tǒng)或者批量上傳序列系統(tǒng)(MSS)進(jìn)行數(shù)據(jù)提交。在經(jīng)過審核處理之后,DDBJ 會(huì)為每一個(gè)序列提供一個(gè)登錄號(hào)。

        ③直到發(fā)表公布。在序列提交之后,數(shù)據(jù)提交者可以指定數(shù)據(jù)公布時(shí)間;如果提交者希望在論文發(fā)表之后再公布,可指定相應(yīng)日期。

        ④公開序列數(shù)據(jù)。DDBJ 根據(jù)數(shù)據(jù)發(fā)布規(guī)則發(fā)布提交數(shù)據(jù),當(dāng)要求保留至論文發(fā)表的數(shù)據(jù)在論文出版之后將被公開。任何人都可以要求DDBJ 公開在已發(fā)表論文上登錄號(hào)所對應(yīng)的序列數(shù)據(jù)。

        ⑤查詢序列數(shù)據(jù)。DDBJ 的數(shù)據(jù)最初通過getEntry 方式和匿名的文件傳輸協(xié)議(FTP)獲取,后來獲取方式擴(kuò)展了ARSA 等網(wǎng)站,同時(shí)這些數(shù)據(jù)還將會(huì)與國際核酸序列數(shù)據(jù)庫聯(lián)盟其他成員共享。

        ⑥數(shù)據(jù)引用。許多生物數(shù)據(jù)庫引用了DDBJ/ENA/GenBank 發(fā)布的數(shù)據(jù)。

        ⑦ 對于發(fā)布數(shù)據(jù)的反饋。如果用戶對于發(fā)表的數(shù)據(jù)存疑,可以直接聯(lián)系序列的提交者或者聯(lián)系DDBJ 工作人員填寫詢問表格說明原因。

        ⑧數(shù)據(jù)更新。只有序列提交者可以對數(shù)據(jù)進(jìn)行更新或者修改;在數(shù)據(jù)被修改之后,提交者仍可以選擇數(shù)據(jù)公開的時(shí)間,但原則上并不能將數(shù)據(jù)狀態(tài)恢復(fù)為非公開。

        為保證數(shù)據(jù)能保持同步,GenBank、ENA 與DDBJ 每日交換最新數(shù)據(jù),用戶在任意一個(gè)數(shù)據(jù)庫中均能獲取最新數(shù)據(jù)[15]。其交換遵循如圖6 所示模式,即機(jī)構(gòu)之間的點(diǎn)對點(diǎn)交換。這種交換方式能夠保證數(shù)據(jù)能夠及時(shí)得到更新,聯(lián)盟成員也能保存較為完整數(shù)據(jù)。具體來看,國際核酸序列數(shù)據(jù)庫聯(lián)盟體系下各成員的數(shù)據(jù)交換共享機(jī)制的特點(diǎn)可歸納為以下幾點(diǎn):

        圖6 GenBank、ENA 與 DDBJ 核酸序列數(shù)據(jù)交換模式

        第一,數(shù)據(jù)共享以國際核酸序列數(shù)據(jù)庫聯(lián)盟為基礎(chǔ),由聯(lián)盟委員會(huì)決定數(shù)據(jù)共享發(fā)展方向。委員會(huì)成員分別來自美、日、歐三方,能夠代表各方立場并通過國際合作會(huì)議解決數(shù)據(jù)共享中存在問題,從而保障數(shù)據(jù)共享機(jī)制能夠長期平穩(wěn)運(yùn)行[16]。

        第二,共享機(jī)制的形成是由底層需求產(chǎn)生,從而促使上層聯(lián)盟合作機(jī)制形成的過程,數(shù)據(jù)共享模式的形成從底層實(shí)踐中抽象而成,因此具有較強(qiáng)可操作性[6]。

        第三,任何研究者都可自由和不受限制地訪問數(shù)據(jù)庫中的所有數(shù)據(jù)記錄[17],數(shù)據(jù)共享的保障機(jī)制根據(jù)需求不斷進(jìn)行調(diào)整,機(jī)構(gòu)聯(lián)盟設(shè)置專門委員會(huì)進(jìn)行研討,靈活應(yīng)對出現(xiàn)的各種問題與挑戰(zhàn),從而保證合作的穩(wěn)定性與可持續(xù)性。

        3 國內(nèi)外核酸序列數(shù)據(jù)庫對比分析

        1999 年中國加入“人類基因組計(jì)劃”(1990—2003 年),至今已23 年。在這23 年里,中國實(shí)施過一些大型基因組學(xué)研究項(xiàng)目,但由于國際幾大數(shù)據(jù)中心的領(lǐng)導(dǎo)地位,主流期刊要求論文作者將數(shù)據(jù)遞交到幾大數(shù)據(jù)庫的規(guī)定,以及國內(nèi)管理較為分散等原因,中國基因數(shù)據(jù)流失嚴(yán)重。同時(shí),國內(nèi)基因組學(xué)大數(shù)據(jù)管理共享機(jī)制不健全也帶來了“數(shù)據(jù)孤島”與“數(shù)據(jù)主權(quán)”的問題[18]。近些年來,國內(nèi)各類生命健康大數(shù)據(jù)中心相繼建成,具有代表性的有全國公安機(jī)關(guān)DNA 數(shù)據(jù)庫、深圳國家基因庫、上海生物醫(yī)學(xué)大數(shù)據(jù)中心、國家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)、北京基因組研究所生命與健康大數(shù)據(jù)中心(BIG Data Center,BIGD)以及國家基因組科學(xué)數(shù)據(jù)中心(NGDC)等。2018 年,生物數(shù)據(jù)領(lǐng)域權(quán)威期刊《核酸研究》(Nucleic Acids Research)將NGDC 列為與美國NCBI、歐洲EBI 齊名的全球核心數(shù)據(jù)中心[19]。NGDC 在成立之初就對標(biāo)INSDC,總體目標(biāo)是建成有國際影響力的基因組科學(xué)數(shù)據(jù)中心,促進(jìn)科學(xué)數(shù)據(jù)開放共享,保障科學(xué)數(shù)據(jù)安全可控,支撐國家科技創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展。

        3.1 核酸序列數(shù)據(jù)庫多指標(biāo)對比

        作為國內(nèi)國外生物核酸數(shù)據(jù)領(lǐng)域領(lǐng)先的數(shù)據(jù)服務(wù)機(jī)構(gòu),INSDC 與NGDC 在建設(shè)運(yùn)營中既存在共性又各具特色,如表3 所示。

        表3 國內(nèi)外核酸序列數(shù)據(jù)庫多指標(biāo)對比

        3.2 核酸序列數(shù)據(jù)庫對比分析

        針對以上指標(biāo)對比情況,國內(nèi)外核酸序列數(shù)據(jù)庫存在的主要不同包括:

        (1)平臺(tái)組織架構(gòu)。這4 個(gè)數(shù)據(jù)庫都屬于學(xué)術(shù)性、非盈利性質(zhì)的數(shù)據(jù)服務(wù)機(jī)構(gòu),總體上講,國外的資助機(jī)構(gòu)比較多,資金支持比較雄厚,中國NGDC 的支持來源比較單一,目前主要依靠研究所資助,并在積極尋求資金資助。

        (2)建設(shè)目標(biāo)。三大數(shù)據(jù)中心進(jìn)行了較為長期的國際合作,其宗旨和數(shù)據(jù)政策較為統(tǒng)一,均是為了提供并鼓勵(lì)科學(xué)界訪問最新和最全面的核酸序列信息,為全球研究者提供更好的服務(wù);中國的核酸序列庫除了上述目標(biāo)之外,還肩負(fù)著完善建立中國人群基因組遺傳變異圖譜、形成中國人群精準(zhǔn)醫(yī)學(xué)信息庫的重要使命。

        (3)數(shù)據(jù)共享政策。INSDC 成員數(shù)據(jù)庫中的數(shù)據(jù)全部免費(fèi)對外開放,實(shí)行全部開放免費(fèi)獲取的政策,但是對于數(shù)據(jù)提交者另有要求的會(huì)進(jìn)行差異性處理,對于有版權(quán)要求的數(shù)據(jù)可根據(jù)數(shù)據(jù)提交者要求時(shí)間進(jìn)行公布,反映出其對于數(shù)據(jù)安全和作者版權(quán)的重視;中國NGDC 的一些數(shù)據(jù)需要用戶進(jìn)行申請獲得審批后才能獲取,這反映出NGDC 對于知識(shí)產(chǎn)權(quán)的重視,但同時(shí)這可能也對數(shù)據(jù)的獲取造成一定的阻礙。

        (4)數(shù)據(jù)資源與服務(wù)。關(guān)于核酸序列數(shù)據(jù)發(fā)布頻率,INSDC 成員數(shù)據(jù)庫定期發(fā)布最新版本,但頻率有所不同;NGDC 暫未形成固定發(fā)布周期。在數(shù)據(jù)空間性方面,三大數(shù)據(jù)中心具有全球性的特點(diǎn),涵蓋了除本土之外的世界和其他地區(qū);相較而言,NGDC 數(shù)據(jù)在空間上以則是以中國數(shù)據(jù)資源為主,兼顧全球。總體而言,三大數(shù)據(jù)中心空間覆蓋范圍更廣,NGDC 數(shù)據(jù)庫資源建設(shè)目前正在逐漸向全球化邁進(jìn),未來在國際數(shù)據(jù)資源整合引進(jìn)上仍然有發(fā)展空間。

        (5)國際合作。三大數(shù)據(jù)中心于20 世紀(jì)已經(jīng)建立了堅(jiān)實(shí)的合作關(guān)系,并建立了國際核酸數(shù)據(jù)庫聯(lián)盟,設(shè)置委員會(huì)對其國際合作進(jìn)行專門管理,目前已經(jīng)形成三足鼎立的態(tài)勢;與之相比,NGDC 與阿拉伯和泰國的大學(xué)建立了國際合作關(guān)系,也作為唯一其他國家參與了INSDC 年度會(huì)議并做報(bào)告,國際影響力在不斷增強(qiáng)。近年來,INSDC 與中國科研機(jī)構(gòu)之間的合作交流也逐漸增多。

        4 國際三大核酸序列數(shù)據(jù)庫建設(shè)對中國的啟示

        作為國際上有影響力的DNA 序列數(shù)據(jù)庫,GenBank、EBI-ENA、DDBJ 建設(shè)和管理過程對中國基因組學(xué)領(lǐng)域數(shù)據(jù)庫建設(shè)具有很大的參考價(jià)值。綜合以上對比分析,提出以下發(fā)展啟示:

        (1)從宏微觀兩層面制定核酸數(shù)據(jù)管理政策,宏觀政策指導(dǎo)建立核酸序列數(shù)據(jù)管理總體框架,微觀政策體現(xiàn)在數(shù)據(jù)中心的具體管理政策中。要在國家層面逐步完善關(guān)于基因組學(xué)領(lǐng)域科學(xué)數(shù)據(jù)共享與管理政策。美國于2014 年發(fā)布了基因組數(shù)據(jù)共享政策,旨在促進(jìn)基因組數(shù)據(jù)共享,加快數(shù)據(jù)向知識(shí)、產(chǎn)品和流程的轉(zhuǎn)化;中國雖已制訂了《科學(xué)數(shù)據(jù)管理辦法》等規(guī)范性文件,但針對基因組學(xué)領(lǐng)域科學(xué)數(shù)據(jù)管理規(guī)范仍然存在很大不足。其次,通過數(shù)據(jù)中心等微觀管理主體制定基因組學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的管理政策,有助于規(guī)范基因組學(xué)數(shù)據(jù)的開放獲取服務(wù),促進(jìn)核酸序列數(shù)據(jù)的最大化利用[20]。

        (2)加強(qiáng)核酸數(shù)據(jù)共享平臺(tái)各部門分工和人才隊(duì)伍建設(shè)。三大數(shù)據(jù)中心擁有跨學(xué)科的人才隊(duì)伍,專業(yè)領(lǐng)域涵蓋了生命科學(xué)、生物信息學(xué)、計(jì)算機(jī)科學(xué)、信息和圖書館學(xué)等多個(gè)方面,這些人員擅長的領(lǐng)域包括元數(shù)據(jù)和信息管理、軟件開發(fā)、數(shù)據(jù)歸檔、基因組學(xué)研究以及跨學(xué)科研究等。鑒于此,中國的核酸序列數(shù)據(jù)中心在建設(shè)過程中應(yīng)保證不同類型人才的專業(yè)分工與溝通協(xié)調(diào)。在人才培養(yǎng)方面,可以根據(jù)不同研究方向、領(lǐng)域數(shù)據(jù)類型的需要,開展跨學(xué)科交叉復(fù)合型人才的培養(yǎng),建立起一個(gè)分工細(xì)致的高效率組織架構(gòu)。

        (3)開展精品數(shù)據(jù)庫的開發(fā)與建設(shè),拓展深加工數(shù)據(jù)資源。三大數(shù)據(jù)中心中都有一些引用量高、影響力比較大的子庫,但通過對NGDC 各子庫的考察可見,引用量排名靠前的庫較少,如新型冠狀病毒庫下載量和引用量排在前列,但引用次數(shù)僅一百余次。因此,中國的基因組核酸數(shù)據(jù)中心可參考國外其他生物數(shù)據(jù)庫在精品數(shù)據(jù)庫建設(shè)方面的經(jīng)驗(yàn),對平臺(tái)核心的數(shù)據(jù)產(chǎn)品進(jìn)行深度挖掘,加強(qiáng)熱點(diǎn)領(lǐng)域方向?qū)n}數(shù)據(jù)庫建設(shè)。

        (4)加強(qiáng)問題導(dǎo)向的基因組數(shù)據(jù)綜合集成。中國人口眾多、民族多樣,各種與基因有關(guān)研究問題多而復(fù)雜,因此有必要加強(qiáng)以問題為導(dǎo)向的數(shù)據(jù)平臺(tái)建設(shè),通過打破學(xué)科界限,以高度綜合的基因組科學(xué)研究對象為基礎(chǔ)進(jìn)行學(xué)術(shù)思想的整合集成,從而促使其與大型國際/國家科學(xué)計(jì)劃相結(jié)合,并進(jìn)一步促進(jìn)數(shù)據(jù)的產(chǎn)生、集成和應(yīng)用。同時(shí),加強(qiáng)問題導(dǎo)向的數(shù)據(jù)資源整合集成也是目前中國基因組學(xué)領(lǐng)域科學(xué)數(shù)據(jù)資源管理的緊迫需求。

        (5)加強(qiáng)數(shù)據(jù)服務(wù)能力建設(shè),形成閉環(huán)全生命周期數(shù)據(jù)管理模式。包括GenBank 在內(nèi)的核酸序列數(shù)據(jù)庫均擁有多種數(shù)據(jù)檢索、分析工具,且下載格式多樣,兼容性較強(qiáng);除通過網(wǎng)絡(luò)平臺(tái)提供數(shù)據(jù)服務(wù)外,三大數(shù)據(jù)中心還會(huì)提供培訓(xùn)服務(wù),以方便研究人員充分利用數(shù)據(jù)庫資源。因此,NGDC 在數(shù)據(jù)服務(wù)建設(shè)方面應(yīng)當(dāng)加強(qiáng)能力建設(shè),為數(shù)據(jù)用戶提供完善的“一站式”數(shù)據(jù)服務(wù)系統(tǒng);其次,要充分利用依托部門資源,根據(jù)科研用戶需求提供持續(xù)性的專業(yè)科學(xué)數(shù)據(jù)培訓(xùn)服務(wù),同時(shí)促進(jìn)領(lǐng)域內(nèi)人才培養(yǎng)和交叉學(xué)科發(fā)展。

        (6)從軟硬件兩方面入手優(yōu)化數(shù)據(jù)庫性能,同時(shí)重視核酸數(shù)據(jù)安全管理??衫脜^(qū)塊鏈、云計(jì)算、流計(jì)算等數(shù)據(jù)安全管理的特性和使用新的模式,提升大數(shù)據(jù)傳輸效率與存儲(chǔ)能力。此外,可通過人工智能解決諸如資源調(diào)度、索引設(shè)計(jì)與優(yōu)化等問題,機(jī)器學(xué)習(xí)等人工智能技術(shù)能以科學(xué)模型操作海量數(shù)據(jù),提高處理效率。同時(shí)建立并完善核酸數(shù)據(jù)安全管理制度,配備齊全的物理設(shè)施進(jìn)行數(shù)據(jù)存儲(chǔ)備份,還可依托云平臺(tái)建立云備份;對于重要數(shù)據(jù)采取物理存儲(chǔ)隔離,對于特定用戶還可采用虛擬專用網(wǎng)絡(luò)(VPN)機(jī)制提供局域網(wǎng)數(shù)據(jù)服務(wù)。

        (7)強(qiáng)化國際合作,關(guān)注國際數(shù)據(jù)資源建設(shè)。三大數(shù)據(jù)中心持續(xù)整合全球核酸序列數(shù)據(jù),INSDC在空間性上具有全球性。NGDC 在發(fā)展過程中應(yīng)進(jìn)一步加強(qiáng)國際數(shù)據(jù)資源的交換,引進(jìn)高質(zhì)量國際數(shù)據(jù)資源,同時(shí)完善外文版網(wǎng)站建設(shè)以吸引國際用戶提升自身的國際影響力。除此之外,還可通過頒布政策激勵(lì)研究人員匯交數(shù)據(jù)形成良好的數(shù)據(jù)匯交生態(tài),促進(jìn)數(shù)據(jù)提交、儲(chǔ)存、使用全流程的可持續(xù)發(fā)展,同時(shí)推進(jìn)基礎(chǔ)設(shè)施建設(shè)以提高數(shù)據(jù)儲(chǔ)存分析能力。積極尋求國際合作擴(kuò)大國際影響力,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),方便數(shù)據(jù)交換共享。

        5 結(jié)論

        加強(qiáng)提升中國基因組科學(xué)數(shù)據(jù)中心的建設(shè)能力和國際化水平是提高中國包括基因組學(xué)在內(nèi)的生命科學(xué)領(lǐng)域研究能力的關(guān)鍵。近年來,中國在各個(gè)層面都加強(qiáng)了科學(xué)數(shù)據(jù)中心的布局與建設(shè),出臺(tái)了一系列的辦法規(guī)定。對于核酸數(shù)據(jù)中心發(fā)展過程中的規(guī)范化管理問題,本研究結(jié)合國際三大核酸序列數(shù)據(jù)庫的經(jīng)驗(yàn)與認(rèn)識(shí),對其進(jìn)行剖析,從數(shù)據(jù)庫的總體情況、運(yùn)行管理機(jī)制、全生命周期科學(xué)數(shù)據(jù)管理模式等進(jìn)行調(diào)研與分析,探討了國際三大核酸序列庫的數(shù)據(jù)處理流程特點(diǎn)及數(shù)據(jù)跨機(jī)構(gòu)共享的實(shí)現(xiàn)過程,并通過4 個(gè)數(shù)據(jù)庫的發(fā)展沿革、建設(shè)目標(biāo)、建設(shè)概況等多維度的對比,總結(jié)出中國與國際三大核酸序列數(shù)據(jù)庫不同的方面,進(jìn)而提出開發(fā)建設(shè)精品數(shù)據(jù)庫、加強(qiáng)問題導(dǎo)向的基因組數(shù)據(jù)綜合集成等方面的啟示建議。

        此外,筆者還注意到,根據(jù)國際專門提供全站流量數(shù)據(jù)的Similarweb 網(wǎng)站統(tǒng)計(jì),在訪問美國NCBI官網(wǎng)查詢數(shù)據(jù)的所有用戶中,中國用戶數(shù)量排名第6位;訪問日本DNA 數(shù)據(jù)庫DDBJ 的所有用戶中,中國用戶排在第3 位,占比為6.91%;而訪問歐洲生物信息分子實(shí)驗(yàn)室EBI 網(wǎng)站中的中國研究者排名達(dá)到第2 位,約占11.83%。因此,習(xí)慣性使用NCBIGenBank、EBI-ENA 等數(shù)據(jù)庫是否已經(jīng)成為非歐美國家分子生物學(xué)研究者頭上的達(dá)摩克利斯之劍?

        另一方面,核酸數(shù)據(jù)安全也是中國參與國際科學(xué)數(shù)據(jù)共享的重要課題。根據(jù)2018 年中國《科學(xué)數(shù)據(jù)管理辦法》規(guī)定,科學(xué)數(shù)據(jù)中心應(yīng)當(dāng)要保障科學(xué)數(shù)據(jù)安全,依法推動(dòng)科學(xué)數(shù)據(jù)開放共享;同時(shí),科技部下發(fā)的《人類遺傳資源管理?xiàng)l例實(shí)施細(xì)則(征求意見稿)》擬規(guī)定不得向境外提供本國人類遺傳資源,而人類遺傳資源必然涉及到人類基因、基因組數(shù)據(jù)等人類遺傳資源信息。因此,如何在保障中國基因數(shù)據(jù)安全的基礎(chǔ)上進(jìn)一步推進(jìn)中國核酸序列數(shù)據(jù)的國際合作與開放共享,是中國相關(guān)基因數(shù)據(jù)中心需要思考和探索的問題。

        注釋:

        1)基于2022 年6 月的數(shù)據(jù)。

        猜你喜歡
        核酸數(shù)據(jù)中心基因組
        酒泉云計(jì)算大數(shù)據(jù)中心
        測核酸
        中華詩詞(2022年9期)2022-07-29 08:33:50
        全員核酸
        中國慈善家(2022年3期)2022-06-14 22:21:55
        第一次做核酸檢測
        快樂語文(2021年34期)2022-01-18 06:04:14
        牛參考基因組中發(fā)現(xiàn)被忽視基因
        核酸檢測
        中國(俄文)(2020年8期)2020-11-23 03:37:13
        民航綠色云數(shù)據(jù)中心PUE控制
        電子測試(2018年11期)2018-06-26 05:56:24
        基于云計(jì)算的交通運(yùn)輸數(shù)據(jù)中心實(shí)現(xiàn)與應(yīng)用
        基因組DNA甲基化及組蛋白甲基化
        遺傳(2014年3期)2014-02-28 20:58:49
        有趣的植物基因組
        亚洲中文字幕国产综合| 亚洲精品乱码久久久久久蜜桃图片| 中文字幕无码精品亚洲资源网久久 | 亚洲国产精彩中文乱码av| 久久男人av资源网站无码| 国产精品美女黄色av| 亚洲精品熟女av影院| 精品精品国产高清a毛片| 色狠狠av老熟女| 阿v视频在线| 99伊人久久精品亚洲午夜| 精品av熟女一区二区偷窥海滩 | 91老司机精品视频| 国产美女主播福利一区| 亚洲一区二区三区特色视频| 国产三级精品三级在线观看| 乱伦一区二| 中文字幕久久国产精品| 国产av无码专区亚洲a∨毛片| 香蕉久久福利院| 中文字幕日产人妻久久| 亚洲国产成人av毛片大全| 亚洲色中文字幕无码av| 中文乱码人妻系列一区二区| 久久久亚洲精品一区二区| 最新国产熟女资源自拍| 少妇饥渴偷公乱a级无码 | 经典三级免费看片天堂| 忘忧草社区www日本高清| 久久久久久人妻精品一区百度网盘 | 在线一区二区三区国产精品| 一本色道久久综合亚洲精品不卡 | 久久人人爽人人爽人人av东京热| 久久精品国产久精国产69| 亚洲av毛片在线免费看| 久久久www成人免费精品| 精品无码AⅤ片| av网址在线一区二区| 亚洲日韩中文字幕无码一区| 亚洲人成综合网站在线| 一区二区三区在线观看高清视频|