亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向國際的生命組學大數(shù)據(jù)管理體系建設

2016-04-07 02:00:42趙文明張思思唐碧霞陳婷婷郝麗麗桑健李茹姣肖景發(fā)章張

大數(shù)據(jù) 2016年6期

關鍵詞：基因組研究組學甲基化

趙文明，張思思，唐碧霞，陳婷婷，郝麗麗，桑健，李茹姣，肖景發(fā)，章張

中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心，北京 100101

面向國際的生命組學大數(shù)據(jù)管理體系建設

趙文明，張思思，唐碧霞，陳婷婷，郝麗麗，桑健，李茹姣，肖景發(fā)，章張

中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心，北京 100101

組學數(shù)據(jù)是生命科學研究中的一類極其重要的大數(shù)據(jù)，特別是二代測序技術的發(fā)展推動了組學大數(shù)據(jù)的爆炸式增長。通過借鑒國際數(shù)據(jù)中心建設的成功經(jīng)驗，分析國內組學產(chǎn)出數(shù)據(jù)及數(shù)據(jù)庫建設、數(shù)據(jù)管理現(xiàn)狀及應用需求，構建了面向國際的生命組學大數(shù)據(jù)管理體系，涵蓋組學原始序列歸檔庫、基因組序列數(shù)據(jù)庫、基因表達數(shù)據(jù)庫、基因組變異數(shù)據(jù)庫、DNA甲基化數(shù)據(jù)庫系統(tǒng)等，初步形成中國組學數(shù)據(jù)資源的存儲、共享與應用體系。

組學數(shù)據(jù)；大數(shù)據(jù)；數(shù)據(jù)共享；生物信息學；基因組

1 引言

從1999年我國正式加入人類基因組計劃并承擔1%測序任務以來，我國的基因組學研究已經(jīng)歷了16年，實現(xiàn)了我國基因組學乃至生命科學研究的跨越式發(fā)展，尤其是2005年前后第二代基因組測序技術的面世，推動了整個領域的飛速發(fā)展。然而，與本領域飛速發(fā)展極不相稱的是，我國基因組學研究過程中產(chǎn)生的數(shù)據(jù)資源卻沒能很好地收集、存儲與管理。10多年來，以郝柏林院士為代表的許多有識之士，呼吁建立國家生物醫(yī)學信息中心，但至今杳無音信。國內的科學家甚至有受國際期刊及國際生物信息數(shù)據(jù)庫“綁架”的被動局面，要向國際數(shù)據(jù)庫提交數(shù)據(jù)才能發(fā)表文章。從科學的嚴謹性、公開性及結果經(jīng)得起考驗的角度講，這種做法無可厚非，但從國家基礎科研數(shù)據(jù)積累、方便我國科學家使用的角度來講，急需建立我國自己的生物信息數(shù)據(jù)庫系統(tǒng)。以國際相關數(shù)據(jù)庫為借鑒對象及發(fā)展目標，跨越層層障礙，構建我國組學數(shù)據(jù)存儲與管理體系，或許能為中國的組學數(shù)據(jù)積累與發(fā)展奠定基礎。

圖1 NCBI-SRA數(shù)據(jù)增長情況①

2 國際組學數(shù)據(jù)庫發(fā)展狀況

近10多年來，生命科學研究進入了以生物組學數(shù)據(jù)研究為基礎，以人口健康為主要落腳點，加速向臨床醫(yī)學轉化并不斷取得重大突破的高速發(fā)展時代，新的生物學技術和方法的出現(xiàn)，引發(fā)了生物學數(shù)據(jù)和信息的新一輪爆炸性增長，美國國立生物技術信息中心（Natioal Center of Biotechnology Institute,NCBI）—原始序列檔案庫（Sequence Read Archive, SRA）的數(shù)據(jù)增長情況如圖1所示。近年來，1 000美元完成個人基因組重測序的目標已經(jīng)實現(xiàn)[1,2]，精準醫(yī)學研究計劃已在世界各國陸續(xù)啟動，復雜而多層次的生物組學數(shù)據(jù)和信息的年產(chǎn)出量已經(jīng)達到PB量級。生物醫(yī)學和生物技術的發(fā)展和創(chuàng)新性研究越來越依賴于對生物信息數(shù)據(jù)的積累、管理、共享以及應用。

國際上已有的3個生物信息中心，收錄了幾乎所有科研用途產(chǎn)出的組學大數(shù)據(jù)，即美國國立生物技術信息中心、歐洲生物信息研究所（EMBL European Bioinformatics Institute，EMBL-EBI）和日本DNA數(shù)據(jù)庫中心（DNA Data Bank of Japan，DDBJ）。這3個中心專注于存儲、管理和共享科學家們產(chǎn)出的基因組序列信息，并形成了國際核苷酸序列數(shù)據(jù)庫共享聯(lián)盟（International Nucleotide Sequence Database Collaboration，INSDC）。時至今日，這3個中心已經(jīng)在全球范圍以遙遙領先之勢形成組學數(shù)據(jù)資源壟斷的局面。

2.1 美國國立生物技術信息中心

20世紀80年代后期，美國國會參議員Claude Pepper意識到計算機化信息處理方法對生物醫(yī)學研究的重要性，倡導建立國家生物技術信息中心，NCBI因此于1988年成立，由美國國立衛(wèi)生研究院（National Institute of Health，NIH）直接撥款資助。NCBI雖然在行政上隸屬于美國國立醫(yī)學圖書館（National Library of Medicine，NLM），但在業(yè)務與經(jīng)費上相對獨立。NCBI的主要任務就是利用計算機技術和國際互聯(lián)網(wǎng)系統(tǒng)，收集、存儲生物醫(yī)學文獻資料以及核酸、蛋白質等生物分子序列、結構等數(shù)據(jù)，開發(fā)生物信息應用軟件和分析平臺，為生物醫(yī)學、生命科學和生物技術研究開發(fā)提供服務。

經(jīng)過近30年的發(fā)展，NCBI已經(jīng)成為全球數(shù)據(jù)資源最豐富的生物信息中心，主要數(shù)據(jù)及數(shù)據(jù)庫覆蓋了分子生物學、生物化學、遺傳學、基因組學等多個方面，其中比較有特色的包括生物醫(yī)學文獻摘要數(shù)據(jù)庫PubMed，核酸序列數(shù)據(jù)庫GenBank，基因組、轉錄組、甲基化組等各種組學數(shù)據(jù)庫以及二代測序原始序列檔案庫[3]。根據(jù)NCBI官方網(wǎng)站中公布的數(shù)據(jù)增長圖顯示②https://trace. ncbi.nlm.nih.gov，僅SRA數(shù)據(jù)庫每年約有2 PB的數(shù)據(jù)增長量，即平均每天有超過5 TB的數(shù)據(jù)遞交至SRA數(shù)據(jù)庫。此外，NCBI還開發(fā)了一套功能強大的搜索引擎系統(tǒng)（Entrez），將NCBI內部數(shù)據(jù)庫進行信息整合與匯總，免費為用戶提供檢索、瀏覽、下載和分析服務。

2.2 歐洲生物信息研究所

歐洲生物信息研究所是歐洲生物信息學研究和服務的中心，隸屬于歐洲分子生物學實驗室（European Molecular Biology Laboratory，EMBL）。EMBLEBI的前身是世界上第一個核苷酸序列數(shù)據(jù)庫，即1980年位于德國海德堡的歐洲分子生物學實驗室創(chuàng)建的核酸序列數(shù)據(jù)庫—— EMBL[4]。1992年歐洲議會決定建立歐洲生物信息研究所，經(jīng)費來源除歐盟各成員國外，也得到英國Wellcome基金會、美國國立衛(wèi)生研究院、英國醫(yī)學研究理事會等機構資助[5]。EMBL-EBI為歐洲及世界各地科學家提供公開、免費的生物信息資源，包括多個特色生物醫(yī)學數(shù)據(jù)庫和分析工具，其中最值得關注的是歐洲核苷酸檔案庫（European Nucleotide Archive，ENA）。

2.3 日本DNA數(shù)據(jù)庫中心

日本DNA數(shù)據(jù)庫中心是一個收集DNA序列的生物數(shù)據(jù)庫[6,7]，它位于日本靜岡縣的國家遺傳學研究所（National Institute of Genetic，NIG）。DDBJ創(chuàng)立于1984年，1987年開始正式服務，并由日本國家遺傳研究所維護和更新，目前仍是亞洲唯一的核苷酸序列數(shù)據(jù)庫。DDBJ主要向研究者收集DNA序列信息并賦予其數(shù)據(jù)存取號，數(shù)據(jù)來源主要是日本的研究機構，它也可以接受來自任何其他國家科學家的數(shù)據(jù)。數(shù)據(jù)庫通過環(huán)球網(wǎng)、匿名FTP、E-mail或Gopher方式為廣大研究人員服務。

2.4 國際核苷酸序列數(shù)據(jù)庫共享聯(lián)盟

國際核苷酸序列數(shù)據(jù)庫共享聯(lián)盟③http://insdc.orgINSDC是由NCBI、EMBL-EBI和DDBJ共同發(fā)起并建立的一個國際性的核苷酸序列數(shù)據(jù)庫共享聯(lián)盟。聯(lián)盟的成員約定了數(shù)據(jù)交換與共享的原則、數(shù)據(jù)的命名規(guī)范、交換的標準及數(shù)據(jù)交換的范圍等，同時，堅持每日同步共享各數(shù)據(jù)庫收集的信息（見表1），確保為全世界的科研工作者提供最新的核苷酸序列數(shù)據(jù)應用服務[8]。

3 國內組學數(shù)據(jù)及數(shù)據(jù)庫系統(tǒng)發(fā)展現(xiàn)狀

3.1 我國組學數(shù)據(jù)產(chǎn)出現(xiàn)狀

縱觀全球，組學數(shù)據(jù)大規(guī)模產(chǎn)出與發(fā)展是隨著國際人類基因組研究計劃而快速起步的，在2005年后，新一代測序技術（第二代測序技術）的出現(xiàn)及技術的不斷革新、測序通量的提高與成本的大幅降低，將以基因組測序為主要手段的生命科學研究推向新的高潮，基因組、轉錄組等組學數(shù)據(jù)以井噴之勢爆發(fā)，生命科學的研究進入組學大數(shù)據(jù)時代。

由于擁有世界最多的人口及豐富的生物樣本資源，我國很快成為組學數(shù)據(jù)產(chǎn)出大國。據(jù)不完全統(tǒng)計，近幾年，國內從事新一代高通量測序的相關企業(yè)蓬勃發(fā)展。據(jù)粗略估算，我國約有1 700臺第二代高通量測序儀，絕大部分設備來源于美國的3家公司：Illumina測序儀約1 000臺（其中Hiseq X10共8套），Thermo Fisher測序儀約600臺，Pacific Biosciences約50臺，其他約50臺。設備主要集中在一線城市，如北京約460臺，上海約450臺，深圳約410臺。這些設備若全負荷運轉，組學數(shù)據(jù)年產(chǎn)出量高達10 PB。隨著國家在人口健康領域的研究部署，越來越多的大型人群隊列研究正在陸續(xù)建設，如“國家大型健康隊列”，將要收集數(shù)十萬甚至百萬人群的健康數(shù)據(jù)。這些海量的數(shù)據(jù)將會成為未來醫(yī)學模式轉變的重要基礎。

3.2 國內組學數(shù)據(jù)庫建設情況

表1 INSDC成員數(shù)據(jù)交換內容

按照領域內對數(shù)據(jù)庫類別的劃分方法，組學數(shù)據(jù)庫通常分為一級數(shù)據(jù)庫、二級數(shù)據(jù)庫[9]。一級數(shù)據(jù)庫的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù)，只是經(jīng)過簡單的歸納、整理和注釋；二級數(shù)據(jù)庫一般是指對原始生物分子數(shù)據(jù)庫進行分類、整理的結果，是在一級數(shù)據(jù)庫數(shù)據(jù)的深度加工和分析的基礎之上形成的具有特定目的的數(shù)據(jù)庫。一級數(shù)據(jù)庫中的數(shù)據(jù)需要再分析和加工以獲取更多信息，二級數(shù)據(jù)庫可直接為科學家提供某些特定的信息。

中國組學數(shù)據(jù)庫的建設更多是集中于二級數(shù)據(jù)庫建設，一方面是由于二級數(shù)據(jù)庫大部分是科研成果的直接展示形式，另一方面是二級數(shù)據(jù)庫開發(fā)、運行和維護成本相對較低，課題組或實驗室便可承擔二級數(shù)據(jù)庫的建設與維護。表2列出了從Database Commons④http://bigd. big.ac.cn/ databasecommons收錄的自2005年開始由國內科研人員公開發(fā)表的公共數(shù)據(jù)庫情況，從表2可以看出，國內二級組學數(shù)據(jù)資源已涵蓋從DNA、RNA、蛋白質到表達、表型、藥物等多種數(shù)據(jù)類型，呈現(xiàn)出多樣化的數(shù)據(jù)資源情況。同時有一批數(shù)據(jù)庫還廣泛得到國際同行的認可，并具有較高的國際引用率（見表3）。

表2 國內組學二級數(shù)據(jù)庫統(tǒng)計（數(shù)據(jù)截至2016年9月）

表3 國內組學二級數(shù)據(jù)庫引用率前10位（數(shù)據(jù)截至2016年9月）

相對于蓬勃發(fā)展的二級數(shù)據(jù)庫，國內在一級數(shù)據(jù)庫系統(tǒng)建設方面相對較晚或較弱，主要原因是一級數(shù)據(jù)庫建設工程大、周期長、耗資高、運行維護成本高，且缺乏相應的政策支持及穩(wěn)定的經(jīng)費投入。因此早在多年前，雖有一些成形的一級數(shù)據(jù)庫系統(tǒng)，但其運行狀況不佳，未能形成國內組學數(shù)據(jù)集中匯交、存儲與共享體系，也沒有獲得國際及國內同行的認可。這一狀況導致中國產(chǎn)出的絕大部分組學數(shù)據(jù)需要提交到NCBI、EMBLEBI或DDBJ等數(shù)據(jù)庫平臺進行管理和發(fā)布。從某種意義上講，缺乏一級組學數(shù)據(jù)集中匯交、存儲、管理與共享的數(shù)據(jù)庫體系，使中國失去了對所產(chǎn)組學數(shù)據(jù)的管理權。

4 組學數(shù)據(jù)管理體系建設

為了改變國內組學數(shù)據(jù)被動外流的現(xiàn)狀，積累中國產(chǎn)出的組學大數(shù)據(jù)，并為國內從事生命科學研究的科學家提供本地化的數(shù)據(jù)服務體系，中國科學院北京基因組研究所于2016年初成立“生命與健康大數(shù)據(jù)中心（Big Data Center，BIGD）”，旨在立足本地建立國際化的組學數(shù)據(jù)管理平臺，提供組學數(shù)據(jù)匯交、共享、發(fā)布及數(shù)據(jù)應用服務。同時，構建了涵蓋不同數(shù)據(jù)類型及應用方向的綜合性的數(shù)據(jù)庫系統(tǒng)，包括組學原始序列歸檔庫（Genome Sequence Archive，GSA）系統(tǒng)、基因組序列數(shù)據(jù)庫（Genome Warehouse，GWH）系統(tǒng)、基因表達數(shù)據(jù)庫（Gene Expression Nebulas，GEN）系統(tǒng)、基因組變異數(shù)據(jù)庫（Genome Variation Map，GVM）系統(tǒng)和DNA甲基化數(shù)據(jù)庫（MethBank）系統(tǒng)，初步形成了繼NCBI、EMBL-EBI、DDBJ國際數(shù)據(jù)庫之后的第四個國際組學數(shù)據(jù)管理系統(tǒng)。

4.1 組學原始序列歸檔庫

GSA⑤http://gsa.big. ac.cn是一個基因組數(shù)據(jù)的集中存儲與數(shù)據(jù)管理數(shù)據(jù)庫，存儲數(shù)據(jù)包括基因組、轉錄組、表觀組等其他組學原始測序數(shù)據(jù)。GSA接收常見的多種測序平臺產(chǎn)出的原始數(shù)據(jù)，包括Illumina、PacBio SMRT、Complete Genomics等，并且除了原始測序數(shù)據(jù)，GSA也可接收二級分析的數(shù)據(jù)，如BAM、VCF格式的數(shù)據(jù)。

GSA的數(shù)據(jù)元素包括數(shù)據(jù)本體及其元數(shù)據(jù)，其中數(shù)據(jù)本體為數(shù)據(jù)文件或測序文件，以文件形式存儲于文件系統(tǒng)；元數(shù)據(jù)為數(shù)據(jù)本體的描述信息，以記錄的形式保存于數(shù)據(jù)庫表中，包括“項目信息”“樣本信息”“實驗信息”“測序信息”。元數(shù)據(jù)按照由大到小的邏輯順序，即從“項目”“樣本”“實驗”到“測序”，建立一對多的關聯(lián)關系，確保信息的完整性。GSA中各元素的數(shù)據(jù)編碼規(guī)范采用國際同行編碼規(guī)則，并使用字母“C”表示中國，如PRJCA00001、SAMC00001等數(shù)據(jù)元素。GSA支持數(shù)據(jù)在線提交，也支持數(shù)據(jù)的離線復制，并針對每一個遞交的數(shù)據(jù)項（包括數(shù)據(jù)本體和元數(shù)據(jù)）均具有內部審核的機制，從而確保數(shù)據(jù)質量。GSA為每一個用戶遞交的每一組數(shù)據(jù)分配唯一的存取號，且當數(shù)據(jù)為發(fā)布狀態(tài)時，使這些數(shù)據(jù)在全球范圍內公開可用。

GSA系統(tǒng)是一個面向國際的公共數(shù)據(jù)管理平臺，可以長期保存科學家產(chǎn)出的原始測序數(shù)據(jù)，并可以幫助科學家實現(xiàn)數(shù)據(jù)的共享與發(fā)布，因此除中國之外，可接收來自世界各地的用戶提交的數(shù)據(jù)本體和元數(shù)據(jù)。目前，GSA已經(jīng)獲得國際10余家期刊（包括PNAS、Cell Research等）的認可，并允許作為其刊發(fā)論文的數(shù)據(jù)存儲與共享平臺。

4.2 基因組序列數(shù)據(jù)庫

基因組數(shù)據(jù)及其注釋信息是從事某物種研究的最基本的信息，GWH⑥http://bigd.big. ac.cn/gwh則是一個綜合性的收集、整理與展示基因組及其注釋信息的數(shù)據(jù)庫系統(tǒng)，該數(shù)據(jù)庫系統(tǒng)建設的主要目標是為科學家提供一個方便、高效的數(shù)據(jù)檢索、獲取以及發(fā)布的平臺。

GWH已收錄了27個物種的基因組序列數(shù)據(jù)，涉及的數(shù)據(jù)內容既包含了豐富的序列資源（如基因序列、蛋白質序列、非編RNA序列、基因的位置及功能注釋信息等），也包含了某一物種基因組的元信息概述（如染色體的大小和數(shù)目、拼接質量、所發(fā)表的論文信息等），既涵蓋了與我國國民經(jīng)濟密切相關的經(jīng)濟物種（如水稻、家蠶、家雞、鯉魚、橡膠等），也包括了一些處在關鍵進化節(jié)點上的模式植物（如擬南芥、衣藻以及楊樹）。GWH每年定期地搜集各個物種最新公布的轉錄組數(shù)據(jù)與蛋白質組數(shù)據(jù)，并通過統(tǒng)一的基因組注釋流程對其進行基因組重注釋，以期為生物學家提供更為可靠的基因注釋信息。

4.3 基因表達數(shù)據(jù)庫

GEN⑦http://bigd.big. ac.cn/gen的建設區(qū)別于NCBI、EMBLEBI對表達數(shù)據(jù)匯集和共享的模式，GEN主要以科學問題為導向，充分利用原始組學數(shù)據(jù)，匯總、挖掘、審編、整合出知識型的表達數(shù)據(jù)庫，為科學研究人員提供數(shù)據(jù)、方法、信息與知識4個層面的內容。GEN將針對不同物種的特性，充分挖掘了解相應研究領域的共性科研問題和需求，將公共表達數(shù)據(jù)經(jīng)過數(shù)據(jù)篩選、生物信息分析和數(shù)據(jù)審編等步驟，整理出物種、種屬或特定類別群體的特異性表達庫。

目前，GEN已經(jīng)涵蓋了基于二代測序的人、豬、小鼠、大鼠以及水稻的表達數(shù)據(jù)，基因在各種組織類型、環(huán)境狀態(tài)與處理條件下的表達模式信息以及基于基本表達模式進一步分析與審編獲得的知識性信息。隨著對更多重要物種的表達數(shù)據(jù)的匯集與整理，同源基因在各物種中的表達進化等信息也會陸續(xù)被整合進來。未來，GEN系統(tǒng)將配合原始數(shù)據(jù)歸檔系統(tǒng)與基因組數(shù)據(jù)發(fā)布與展示系統(tǒng)，為科學研究人員提供更加多維全面的數(shù)據(jù)與信息源。

4.4 基因組變異數(shù)據(jù)庫

GVM⑧http://bigd.big. ac.cn/gvm是一個以個體（物種）為單位收錄其基因組中變異位點信息及其注釋信息的共享平臺，涉及的數(shù)據(jù)類型主要包括單核苷酸多態(tài)性（SNP）、小插入（small indel）或缺失片段。GVM提供多種數(shù)據(jù)利用功能，如用戶在GVM平臺上可以查看對應的物種信息、檢索物種的變異數(shù)據(jù)、下載和提交變異數(shù)據(jù)；在變異檢索頁面中，通過同時設定多種檢索條件，如位置信息、影響結果類型、關聯(lián)基因信息、最小Allele頻率，達到精確檢索數(shù)據(jù)結果的目的。

GVM收錄的數(shù)據(jù)主要來自于已公開發(fā)表的高粱、狼和狗以及水稻的SNP數(shù)據(jù)。其中，高粱的數(shù)據(jù)來源于48個個體，狼和狗的數(shù)據(jù)來源于78個個體，水稻的數(shù)據(jù)來源于5 152個個體。為了確保各個體變異數(shù)據(jù)標準的一致性，GVM 采用統(tǒng)一的標準注釋流程對不同物種的變異數(shù)據(jù)進行處理和整理。

4.5 DNA甲基化數(shù)據(jù)庫

MethBank⑨http://bigd.big. ac.cn/methbank是一個全基因組單堿基精度DNA甲基化的交互式數(shù)據(jù)庫，允許用戶檢索和查詢已有物種的全基因組單堿基甲基化分布、基因的甲基化水平分布、不同樣本之間的差異甲基化區(qū)域、CpG島、基因表達譜、特定基因或基因組區(qū)的遺傳多態(tài)性等信息，并可以快速計算特定區(qū)間的甲基化水平。

目前，MethBank庫整合了斑馬魚、小鼠、水稻、大豆、木薯、菜豆和番茄的高質量全基因組重亞硫酸氫鹽測序甲基化圖譜數(shù)據(jù)，提供了全基因組范圍的甲基化水平概覽，用戶可以從數(shù)據(jù)庫中直接獲取所有搜集樣本的基因的不同功能區(qū)域的不同序列模式的甲基化水平。未來，MethBank會持續(xù)升級并繼續(xù)整合更多物種的高質量單堿基核苷酸甲基化組數(shù)據(jù)資源，為世界范圍內的表觀遺傳和發(fā)育研究提供重要的資源儲備。

5 結束語

組學大數(shù)據(jù)是國家重要的戰(zhàn)略生物資源，科學家們產(chǎn)生的組學數(shù)據(jù)不僅僅是為了發(fā)表文章，更重要的是作為一種戰(zhàn)略資源進行保護與再次利用，并充分發(fā)揮數(shù)據(jù)本身的價值。我國的組學數(shù)據(jù)產(chǎn)量較大，但數(shù)據(jù)存儲量較少，導致我國的科學家使用數(shù)據(jù)時要跨過大西洋的海底線纜從美國下載，效率極低。要改變這種局面，不是一蹴而就的事情，也絕不是構建一套數(shù)據(jù)管理系統(tǒng)就能解決的問題。更重要的是獲得更多國際期刊的認可并得到中國廣大從事生命科學研究的科學家的認可，或者從某種程度上講，也非常需要得到一些政府機構的認可與支持。因為只有這樣，龐大的、耗資的數(shù)據(jù)庫體系的開發(fā)與穩(wěn)定運行才能持續(xù)，中國組學數(shù)據(jù)庫建設的夢想才能實現(xiàn)。

致謝

在本文的撰寫過程中，得到了北京大學羅靜初教授的大力支持和幫助，在此表示真誠的感謝！同時感謝北京基因組研究所生命與健康大數(shù)據(jù)中心每一位成員的辛勤付出及對數(shù)據(jù)庫系統(tǒng)建設做出的重要貢獻！

[1] BENNETT S T, BARNES C, COX A, et al. Toward the $1000 human genome[J]. Future Medicine, 2005, 6(4): 373-382.

[2] HAYDEN C. Technology: the $1,000 genome[J]. Nature, 2014, 507(7492): 294-295.

[3] WHEELER D L, CHAPPEY C, LASH A E, et al. Database resources of the mational center for biotechnology information[J]. Nucleic Acids Research, 2015, 43(Database): D6- D17.

[4] STOESSER G, STERK P, TULI M, et al. The EMBL nucleotide sequence database[J]. Nucleic Acids Research, 1997, 25 (1): 7-13.

[5] COCHRANE G, AKHTAR R, ALDEBERT P, et al. Priorities for nucleotide trace, sequence and annotation data capture at the ensemble trace archive and the EMBL nucleotide sequence database[J]. Nucleic Acids Research, 2007, 36(Database): D5-D12.

[6] MASHIMA J, KODAMA Y, KOSUGE T, et al. DNA data bank of Japan (DDBJ) progress report [J]. Nucleic Acids Research, 2016, 44 (Database): D51-D57.

[7] TATENO Y, IMANISHI T, MIYAZAKI S, et al. DNA data bank of Japan (DDBJ) for genome scale research in life science[J]. Nucleic Acids Research, 2002, 30(1): 27-30.

[8] COCHRANE G, KARSCH-MIZRACHI I, TAKAGI T. The international nucleotide sequence database collaboration[J]. Nucleic Acids Research, 2016, 44(Database): D48-D50.

[9] WAN Y H, HE L M. Bioinformatics database resources on internet[J]. Journal of the China Society for Scientific and Technical Information, 2002, 21(4): 497-512.

Constructing the international database management system for omics big data

ZHAO Wenming, ZHANG Sisi, TANG Bixia, CHEN Tingting, HAO Lili, SANG Jian, LI Rujiao, XIAO Jingfa, ZHANG Zhang
Big Data Center in Beijing Institute of Genomics, Chinese Academy of Sciences, Beijing 100101, China

Omics data are the important elements of the biosciences, in recent years, with the rapid progress of the next generation sequencing (NGS) technology, the omics data show the explosive increasement. Drawing on the successful experiences from the international data centers, and considering the domestic requirements, lots of databases including genome sequencing archive, genome warehouse, gene expression nebulas, genome variation map, DNA methylation databank were constructed. These databases constitute the domestic omics data resources and provide the free service for all the scientists for the data storing, sharing and management.

omics data, big data, data sharing, bioinformatics, genome

Q-9

10.11959/j.issn.2096-0271.2016065

趙文明（1977-），男，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心高級工程師，主要研究方向為生物組學大數(shù)據(jù)整合與挖掘、高性能計算。

張思思（1985-），女，博士，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心工程師，主要研究方向為組學大數(shù)據(jù)整合與審編。

唐碧霞（1984-），女，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心工程師，主要研究方向為三維基因組的可視化。

陳婷婷（1986-），女，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心工程師，主要研究方向為組學大數(shù)據(jù)整合與審編。

郝麗麗（1983-），女，博士，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心助理研究員，主要研究方向為轉錄組數(shù)據(jù)整合與挖掘分析。

桑?。?989-），男，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心博士生，主要研究方向為組學大數(shù)據(jù)整合與挖掘。

李茹姣（1976-），女，博士，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心高級工程師，主要研究方向為表觀遺傳學相關大數(shù)據(jù)整合和深度挖掘。

肖景發(fā)（1973-），男，博士，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心研究員，主要研究方向為生命與健康相關組學大數(shù)據(jù)整合和深度挖掘。

章張（1980-），男，博士，中國科學院北京基因組研究所生命與健康大數(shù)據(jù)中心研究員，主要研究方向為分子進化建模和選擇壓力檢測、序列組分建模分析。

2016-09-26

中國科學院先導基金資助項目（No.XDB13040500，No.XDA08020102）；國家高技術研究發(fā)展計劃（“863”計劃）基金資助項目（No.2015AA020108）；中國科學院關鍵技術人才基金資助項目

Foundation Items:Strategic Priority Research Program of the Chinese Academy of Sciences (No.XDB13040500, No.XDA08020102), The National High Technology Research and Development Program of China(863 Program) (No.2015AA020108), Key Technology Talent Program of the Chinese Academy of Sciences