亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高通量DNA測序數(shù)據(jù)的生物信息學方法

        2016-04-10 08:51:26詹曉娟姚登舉朱懷球
        大數(shù)據(jù) 2016年2期
        關鍵詞:信息學高通量基因組

        詹曉娟,姚登舉,朱懷球

        1. 黑龍江工程學院計算機科學與技術學院,黑龍江 哈爾濱 150050;

        2. 哈爾濱理工大學軟件學院,黑龍江 哈爾濱 150040;3. 北京大學生物醫(yī)學工程系,北京 100871

        ◎研究

        高通量DNA測序數(shù)據(jù)的生物信息學方法

        詹曉娟1,姚登舉2,朱懷球3

        1. 黑龍江工程學院計算機科學與技術學院,黑龍江 哈爾濱 150050;

        2. 哈爾濱理工大學軟件學院,黑龍江 哈爾濱 150040;3. 北京大學生物醫(yī)學工程系,北京 100871

        高通量測序技術產(chǎn)生的DNA序列數(shù)據(jù)長度較短,而且數(shù)據(jù)量非常巨大。分析了高通量測序環(huán)境下大數(shù)據(jù)的挑戰(zhàn)和機遇,總結并討論了數(shù)據(jù)壓縮、宏基因組數(shù)據(jù)序列拼接、宏基因組數(shù)據(jù)序列分析方面的算法和工具等研究成果。最后,展望了高通量測序下DNA短讀序列數(shù)據(jù)研究的發(fā)展趨勢。

        高通量DNA測序;生物信息學;短讀序列數(shù)據(jù)壓縮;短讀序列數(shù)據(jù)拼接;短讀序列數(shù)據(jù)分析

        1 引言

        高通量測序技術又稱“下一代”測序(next-generation sequencing, NGS)技術[1],可以一次性測定幾十萬甚至幾百萬條序列,是現(xiàn)今應用最廣泛的測序技術。相對于傳統(tǒng)的Sanger測序技術[2],NGS具有高速、高通量、低價格等優(yōu)點[3]。高通量測序數(shù)據(jù)廣泛應用于生物學、醫(yī)學、遺傳科學等諸多領域,具有重要研究價值。許多大型的科學研究項目,如千人基因組計劃(1 000 genome project)、DNA元件百科全書(encyclopedia of DNA elements)計劃、國際癌癥基因組計劃(international cancer genome project)等,正以前所未有的速度產(chǎn)生海量DNA序列。截至2014年2月,僅登錄在美國GenBank數(shù)據(jù)庫中的DNA序列數(shù)據(jù)就有十萬億堿基對,所有高通量測序下的DNA短讀序列數(shù)據(jù)大小達到上千PB。隨著測序技術的不斷改善和測序成本的持續(xù)降低,每天都會有海量的DNA序列產(chǎn)生,使得生物數(shù)據(jù)量呈指數(shù)規(guī)模增長,平均約每14個月增加一倍。圖1對高通量測序平臺下的短讀(short reads,以下簡稱reads)序列數(shù)據(jù)和其他大數(shù)據(jù)領域的原始數(shù)據(jù)增長方式進行了比較,陰影區(qū)預報了未來的增長趨勢,從圖11可以看出,高通量測序下的基因組序列數(shù)據(jù)即短讀序列數(shù)據(jù)的增長遠大于摩爾定律的增長速度。計算機是存儲和處理DNA數(shù)據(jù)的主要工具,其微處理器性能和存儲設備容量平均18~24個月翻一番,而DNA測序數(shù)據(jù)平均4~5個月就翻一番,DNA測序數(shù)據(jù)的增長速度已經(jīng)遠遠超過了計算機微處理器和存儲設備的增長速度。面對如此迅速增長的龐大的短讀序列數(shù)據(jù)集,如何有效管理、分析、充分利用這些信息,已成為生物信息學發(fā)展亟需解決的問題[4]。

        圖1 不同種類數(shù)據(jù)的近似增長趨勢

        2 生物大數(shù)據(jù)帶來的新挑戰(zhàn)

        隨著高通量測序技術的發(fā)展,各種生物學數(shù)據(jù)呈現(xiàn)爆炸式增長,并且這一趨勢將隨著生物測序技術的發(fā)展而進一步增強。面對生命科學領域的大數(shù)據(jù)分析任務,多種不同維度的數(shù)據(jù)整合、多學科交叉的數(shù)據(jù)分析以及經(jīng)典的數(shù)據(jù)挖掘算法都面臨新的挑戰(zhàn)。

        2.1 多學科交叉的挑戰(zhàn)

        自從1990年人類基因組計劃正式啟動以來,20余年間,各種基因組、蛋白質組、轉錄組、宏基因組等國際生物學研究合作計劃開始啟動或已完成,目前國際上已經(jīng)成立了多個大的跨國科研合作機構,生物信息領域的國際合作與交流也不斷加強(見表11)。各種組學和生物信息學領域的國際化和跨學科間的專家合作使得團隊成員在該領域取得了突出的成果,不僅發(fā)表了很多有影響力的文章,而且開發(fā)出許多新的數(shù)據(jù)集成和分析工具,以便資源和信息共享[5]。然而,面對飛速增長的生物學大數(shù)據(jù)和日漸增多的生物信息學研究任務,跨學科的國際合作仍面臨巨大的挑戰(zhàn),例如不同的實驗室和平臺產(chǎn)生的大數(shù)據(jù)如何實現(xiàn)無障礙的共享和協(xié)作分析,不同組學產(chǎn)生的數(shù)據(jù)如何有效地進行集成、管理、維護和更新,如何開發(fā)新型的面向生物學大數(shù)據(jù)分析的算法和工具等。

        2.2 數(shù)據(jù)和工具的整合問題

        目前主流的高通量測序平臺主要有Roche/454焦磷酸測序、Solexa/Illumina邊合成邊測序和ABI SOLiD連接測序。高通量測序技術的讀長較短,但測序深度可以在一定程度上彌補讀長較短帶來的問題。其中,454測序平臺讀長最長有450~800 bp,適合對未知基因組從頭測序;Solexa/Illumina測序讀長比454測序平臺短,但測序通量高、價位低,適合基因組重測序;SOLiD讀長也較短,但測序精度高,特別適合SNP檢測等。目前應用較普遍的是Illumina測序平臺,約占現(xiàn)有測序工具數(shù)量的一半。

        表1 生物大數(shù)據(jù)項目合作計劃

        不同的測序平臺產(chǎn)生的數(shù)據(jù)格式各不相同,常用的文件格式有.bam、.csfasta、.fasta、.fastq、.gvf、.sam、.tar、.tiff、.var、.vcf等。現(xiàn)有的數(shù)據(jù)分析工具大多只能分析特定格式的數(shù)據(jù),在實際的數(shù)據(jù)分析過程中往往需要把不同格式的數(shù)據(jù)進行標準化并重新整合,因此會浪費很多時間進行數(shù)據(jù)的預處理。例如,不同測序平臺會產(chǎn)生不同品質和長度的高通量短讀數(shù)據(jù),由于沒有統(tǒng)一的行業(yè)標準來描述高通量測序下的核苷酸序列和質量分數(shù)值,導致需要跨平臺進行序列分析。因此,開發(fā)一組可以運行在不同計算平臺下的互操作數(shù)據(jù)分析工具是一個具有挑戰(zhàn)性的課題。

        表22列出了目前高通量測序下各種組學所使用的工具和方法。隨著這些多樣的組學數(shù)據(jù)的整合,數(shù)據(jù)分析和解釋的規(guī)模大大增加,這樣就對基因組學和生命科學領域的大數(shù)據(jù)工具和基礎設施提出更高的要求。對不同來源、不同形式的數(shù)據(jù)進行挖掘、評估、整合和應用還亟待加強。未來,多種組學數(shù)據(jù)的整合分析將會挑戰(zhàn)傳統(tǒng)的思維模式,發(fā)揮其至關重要的作用。

        2.3 構建新型學術交流平臺日益迫切

        隨著高通量測序成本的降低,生物大數(shù)據(jù)對于傳統(tǒng)的數(shù)據(jù)存儲、分析和解釋提出了新的挑戰(zhàn),而將這些數(shù)據(jù)和成果進行系統(tǒng)整合并應用于醫(yī)療實踐才剛剛開始。當前,一些小的實驗室顯然不具備存儲和處理大數(shù)據(jù)的基礎設施和能力。隨著互聯(lián)網(wǎng)技術的快速發(fā)展,眾多的科學合作網(wǎng)絡平臺提供了實時的數(shù)據(jù)交換,使得人們可以通過互聯(lián)網(wǎng)方便地進行數(shù)據(jù)分享和成果交流。例如,Illumina公司的新一代測序云計算平臺BaseSpace(www.basepace. c o m)、開放科學框架平臺(h t t p:// openscienceframework.org)和Figshare(http://epic.org/privacy/medical)等。全球三大IT公司Amazon、Rackspace和Google都提供了云存儲和計算解決方案,通過云計算平臺可以實現(xiàn)大型數(shù)據(jù)中心的資源共享。然而,云計算基因組學也面臨著數(shù)據(jù)隱私和病人數(shù)據(jù)的合法性問題,拓展新型的學術交流平臺成為生物大數(shù)據(jù)研究的一個重要任務。

        表2 高通量測序下各種組學所使用的技術

        2.4 數(shù)據(jù)挖掘技術在生物大數(shù)據(jù)處理中的挑戰(zhàn)

        面對高通量測序數(shù)據(jù)的爆發(fā)式增長,傳統(tǒng)的數(shù)據(jù)挖掘算法和工具遭遇巨大的挑戰(zhàn):如何建立智能學習數(shù)據(jù)庫系統(tǒng);如何對生物大數(shù)據(jù)存儲訪問和計算;如何進行隱私保護;如何結合領域知識設計新的適用于生物大數(shù)據(jù)挖掘分析的算法和工具。具體來說,面向生物學數(shù)據(jù)挖掘的數(shù)據(jù)挖掘技術主要有3個層次的挑戰(zhàn)。第一個挑戰(zhàn)是數(shù)據(jù)的訪問和程序的運算。因為大數(shù)據(jù)都是分布式存儲的,隨著數(shù)據(jù)量的增長,如何建立一個有效的平臺,使分散存儲的數(shù)據(jù)能夠擺脫計算機內(nèi)存的限制和大數(shù)據(jù)處理的障礙,進行分布式計算。第二個挑戰(zhàn)是不同的大數(shù)據(jù)有不同的語義和領域知識,如何能夠更好地挖掘語義和領域知識,為數(shù)據(jù)所有者和消費者服務。第三個挑戰(zhàn)集中在算法設計方面,生物大數(shù)據(jù)稀疏且具有各種各樣的混合數(shù)據(jù),數(shù)據(jù)有不確定性、不完整性和多源性等特點,如何用數(shù)據(jù)融合技術進行處理,并且挖掘出蘊含其中的復雜和動態(tài)信息;如何通過局部學習,得到一個反映全局問題的融合模型[17]。

        3 高通量DNA測序數(shù)據(jù)的生物信息學方法

        隨著生物信息技術突飛猛進地發(fā)展,越來越多的計算機和數(shù)學領域的專家加入生物信息學研究的隊伍,開發(fā)出許多好用的生物信息學工具,使得生物學、醫(yī)學領域的專家可以利用這些先進工具對生物大數(shù)據(jù)進行分析,更準確地揭示生物進化的內(nèi)部規(guī)律,更好地解釋遺傳變異,為基礎醫(yī)學研究向醫(yī)學臨床應用轉化提供新思路和新方法,取得了非常有意義的成果。但是NGS測序的樣本制備過程非常復雜,并且生成的序列難以處理,這給生物信息學專家?guī)砹撕艽蟮奶魬?zhàn)。

        3.1 高通量DNA測序數(shù)據(jù)的壓縮算法

        NGS測序下的短讀序列的數(shù)據(jù)量呈爆炸性增長,如果不對其進行壓縮而直接存儲或傳輸會消耗巨大的硬件存儲設備,同時也會給網(wǎng)絡傳輸帶來很大的負擔。NGS測序數(shù)據(jù)有其自身的特點和規(guī)律,存在大量的信息冗余,傳統(tǒng)的數(shù)據(jù)壓縮算法并不能夠很好地壓縮DNA序列,這就需要開發(fā)專門針對DNA序列的數(shù)據(jù)壓縮算法和工具。

        近幾年,已經(jīng)研發(fā)了許多專門針對NGS數(shù)據(jù)的壓縮算法和工具,大多數(shù)是針對FASTQ格式的數(shù)據(jù)。根據(jù)DNA序列是否有參考基因組,壓縮方法分為有參考基因組的壓縮和無參考基因組的壓縮。有參考基因組的數(shù)據(jù)壓縮是利用參考基因組和短讀序列的差異信息來進行壓縮。這種方法第一步先把短讀映射到參考基因組,記錄每條短讀在參考基因組上的位置以及與參考基因組的差異信息,然后再采用高效編碼方式存儲這些記錄,實現(xiàn)數(shù)據(jù)壓縮。其代表算法有DNAzip[18]、BWB[19]、SlimGene[20]、GRS[21]、mZIP[22]、NGC[23]、samcomp[24]等。由于同源物種基因組之間具有高度相似性,這種壓縮通常能達到很高的壓縮比,但這種方法有明顯的局限性,有些測序數(shù)據(jù)(如宏基因數(shù)據(jù)、從頭測序數(shù)據(jù))并不存在現(xiàn)成的參考基因組,因此無法使用此算法;另外,該方法對于參考基因組依賴性太強,壓縮和解壓縮都需要相同參考基因組,這樣參考基因組必須事先保存在本地,如果參考基因組缺失將直接影響壓縮數(shù)據(jù)的使用。

        無參考基因組的數(shù)據(jù)壓縮方法通常采用兩步法,首先最大限度地識別冗余DNA序列,然后再利用通用的壓縮方法(如gzip、bzip2)進行處理。其代表算法工具有Beetl[25]、SCALCE[26]、SRComp[27]和ORCOM[28]。Beetl采用Burrows Wheeler變換算法,識別冗余;SCALCE采用局部一致性技術方法排序短讀序列,識別關鍵子串;SRComp采用burstsort排序的方法,使相同的字符串聚集在一起,然后再采用不同的編碼方式對其進行編碼。ORCOM采用并行的Minimizers算法壓縮reads中的重疊區(qū)域(overlap)。另一種新穎的無參考基因組的數(shù)據(jù)壓縮方法是基于拼接的方法,代表算法有Quip[29]。Quip方法采用拼接的方式,用一小部分短讀拼接成疊連群作為臨時參考基因組,然后利用基于參考基因組的壓縮方法進行壓縮。

        盡管高通量測序數(shù)據(jù)的壓縮研究已取得一定成果,但其在計算資源、壓縮算法方面仍面臨巨大挑戰(zhàn)。隨著DNA測序數(shù)據(jù)量的增大,對計算資源的要求也越來越大,處理時間過長是DNA測序數(shù)據(jù)分析最重要的問題。另外,如何利用高通量測序技術產(chǎn)生有意義的冗余信息、采用并行化策略和基于索引的壓縮方法、建立統(tǒng)一的數(shù)據(jù)質量評價標準等,都是重要的研究方向。

        3.2 高通量DNA測序的序列拼接

        由于測序技術的限制,新一代測序的讀長較短(30~500 bp)[30],測序所得序列無法滿足大多數(shù)序列分析的需要[31],因此序列拼接成為基因組學研究中一個重要的環(huán)節(jié)。所謂序列拼接,是指將測序得到的短序列片段利用計算的方法拼接成較長的連續(xù)序列片段(contig)或者中間帶有空隙的長序列片段(scaffold)乃至整段基因組序列的方法。

        序列拼接包括兩種不同的策略:從頭(D e N o v o)拼接的方法和對照(comparative)拼接的方法[32]。從頭拼接是指在沒有任何基因組序列參照的前提下,構建全新基因組序列的策略,而對照拼接是指在參照基因組序列的指導下進行的基因組序列的拼接。對照拼接適用于存在參照基因組序列的拼接,比如重測序項目中的序列拼接,而對于全新物種的大規(guī)模全基因組測序以及宏基因組測序項目主要使用從頭拼接。

        拼接算法的主要挑戰(zhàn)來源于基因組中的重復序列片段。在不同區(qū)域的兩個完全一致的重復片段無法通過計算的方式來辨別。對于相似但不完全一致的重復片段,可以通過提高序列比對的相似度閾值區(qū)分不同的復本,這種方法一般還涉及對reads中測序錯誤的估計[33]。重復片段的區(qū)分一般需要借助于reads或是mate-pair的跨越。所謂的mate-pair是指測序時從一段長度已知的片段兩端測得的一對reads。對于reads來說,如果reads的中間是重復序列,而兩端都有足夠長的唯一片段,則可以區(qū)分中間的重復片段,這種方法針對短的重復片段有效,一般在k-mer圖算法中使用。對于mate-pair來說,如果matepair分別處于重復序列的兩端,也可以指導正確的拼接路徑,而且mate-pair比reads更長,因此可以區(qū)分更長的重復片段。高的測序深度有利于重復片段的區(qū)分,因為高的測序深度可能提供更多的reads或者mate-pair跨越重復片段。對于新一代測序中短序列的拼接,重復片段的區(qū)分更加困難,因為reads更短,更多的重復片段無法通過reads來區(qū)分,因此提高測序深度和使用mate-pair尤為重要。

        測序錯誤也給重復片段問題的解決增加了難度。因為拼接算法必須因為測序錯誤而接受不完全一致的重疊,以免錯漏了真實的重疊。然而對測序錯誤的容忍又增加了拼接的假陽性。更多不完全一致的重復片段會對算法造成麻煩。另外,序列拼接需要考慮的一個問題是計算時間上的復雜度問題,尤其對于reads數(shù)量越來越多的大規(guī)模測序數(shù)據(jù)。例如,為了提高拼接效率,所有的拼接軟件都在不同程度地以不同方式使用k-mer的概念。很直觀的一個結論是,reads之間的重疊區(qū)域必然共同享有k-mer。而對共享k-mer的搜索顯然要比計算序列比對簡單得多。因此,幾乎所有的拼接算法都涉及對k-mer的計算。

        理論上,序列拼接屬于一個NP難的問題,尚無一個蓋棺定論的解答方法。現(xiàn)有的拼接算法只能通過一系列復雜的推斷性質的步驟來獲得近似的“解答”。這些算法仍有局限性,例如拼接結果錯誤、拼接序列連續(xù)性差、計算時間長、內(nèi)存消耗量大等。因此,序列拼接算法仍有很大的改進空間。另外,測序技術的不斷變化和改進,使得新數(shù)據(jù)對序列拼接不斷提出新的要求,以更好地適應新數(shù)據(jù)的特點。

        3.3 高通量測序下宏基因組的基因預測方法

        基于高通量測序的宏基因組學研究給環(huán)境相關微生物的研究帶來了新的機遇。隨著越來越多的各種生態(tài)環(huán)境中宏基因組序列被測定并公開,有效的宏基因組數(shù)據(jù)分析和功能預測軟件被開發(fā)與應用,這些都大大推動了宏基因組學的發(fā)展。目前研究基因預測的方法主要有兩類:一類是基于序列相似性的預測方法,基于已知的基因序列通過搜索相似度較高的序列進行預測;另一類是基于統(tǒng)計學模型的預測方法,即利用數(shù)學統(tǒng)計模型進行基因預測,從已知的DNA序列中訓練出統(tǒng)計學模型,應用到宏基因組的測序結果上進行預測。

        (1)基于序列相似性比較的方法

        序列比對是生物信息學的基礎,其基本問題是比較兩個或兩個以上序列之間的相似性。兩個序列比對已有發(fā)展成熟的動態(tài)規(guī)劃(dynamic programming)算法和在此基礎上發(fā)展起來的工具包BLAST[34]和FASTA[35]。事實上,在基于比對的方法中,高通量測序所得的序列較短,而這種短序列直接進行比對的效果往往不理想,并且大量的原始數(shù)據(jù)進行比對會耗費很多時間,因此需要在比對前進行序列拼接,將其拼接成較長的序列,提高分析效率和分析效果[36]。由于必須與已知基因序列進行相似性比較,故這種方法很難發(fā)現(xiàn)新基因。

        基于序列相似性比較的高通量測序的宏基因組數(shù)據(jù)的應用非常多。2010年,華大基因在Nature發(fā)表文章,對人體腸道微生物基因組研究計劃(MetaHIT)進行了總結[37]。該計劃為研究人體腸道微生物群落與人類健康之間的關系,采集了124個歐洲人的糞便樣本,其中包括25個炎癥性腸?。╥nflammatory bowel disease,IBD)患者和99個健康志愿者的樣本,并用Illumina測序平臺進行測序,產(chǎn)生了567.7 GB的測序數(shù)據(jù),并對序列拼接、注釋、功能基因的分類、多態(tài)性分析等進行了研究。2012年,華大基因在Nature發(fā)表了一篇研究人體腸道微生物與Ⅱ型糖尿病之間關系的文章[38]。該研究收集了345個中國人的腸道微生物樣本,用Illumina測序平臺對其進行了深度測序,并在基因組關聯(lián)研究(genome wide association studies,GWAS)的基礎上開發(fā)了一種全基因組相關聯(lián)研究(metagenome wide association studies,MGWAS)的方法,對Ⅱ型糖尿病與腸道微生物失調(diào)之間的關系進行了深入研究。人體腸道中絕大多數(shù)種類的微生物是難以培養(yǎng)的,只有運用宏基因組學技術才能研究人類腸道中的所有微生物群落,進而了解人類腸道中細菌的物種分布。

        (2)基于序列內(nèi)容統(tǒng)計特征的方法

        基于序列內(nèi)容統(tǒng)計特征的基因預測方法一般是建立在密碼子的編碼區(qū)和非編碼區(qū)有不同相對出現(xiàn)頻率的基礎上的。除了一個區(qū)域堿基組成的特征外,基因長度分布、CG含量、基因重疊區(qū)域的特征等因素也常被用于基因預測中。根據(jù)DNA序列中編碼蛋白質區(qū)域和非編碼區(qū)域內(nèi)容統(tǒng)計特征的差別,建立其學習模型,可以有效地進行基因預測。在單個基因組上具有代表性的方法包括采用馬爾科夫模型的GeneMark[39-41]系列、Glimmer[42,43]系列、FGENESB[44]和MED[45,46]系列。GeneMark對原核生物、真核生物和病毒均能進行基因預測。Glimmer被廣泛應用于微生物的基因預測。FGENESB主要用于細菌基因組的基因自動預測和注釋。MED是筆者所在課題組開發(fā)的一款基于多元熵距離法的原核生物基因預測算法,該算法的基礎為開放閱讀框(ORF)和翻譯起始位點(TIS)的綜合統(tǒng)計模型。MED2.0在對DNA的GC核苷酸含量高的細菌基因組和古細菌基因組的基因預測上具有明顯優(yōu)勢,之后又推出了MED2.1,提高了預測精度,達到了國際水平。

        針對宏基因組序列的研究,研究人員開發(fā)了一系列宏基因組預測算法(見表33)。宏基因組預測算法借鑒了傳統(tǒng)的基于單基因組的基因預測方法,只是對原始數(shù)據(jù)增加了預處理的步驟。例如,MetaGUN算法基于序列組成的統(tǒng)計特征對輸入序列進行分類,對同一類中的序列使用相同的統(tǒng)計模型刻畫,然后分別獨立地進行基因預測,在模擬宏基因序列測試集和在兩個人體腸道微生物的真實數(shù)據(jù)上的測試表明,MetaGUN在發(fā)現(xiàn)新基因方面更具潛力。MetaGeneMark同時使用細菌—古細菌和嗜溫細菌—嗜熱細菌兩套模型進行預測。FragGeneScan適用于有測序錯誤的宏基因組序列。

        近年來,專門針對宏基因組序列的基因預測方法目前面臨著新的挑戰(zhàn),基于序列相似性比較的方法,使用BLAST系統(tǒng)工具對已知數(shù)據(jù)庫進行相似性搜索,依賴性強,無法發(fā)現(xiàn)新基因?;诮y(tǒng)計建模的預測算法運行速度快,在保證高特異性的條件下能獲得更高的敏感性。宏基因組序列來源于繁雜且大多為未知的物種,微生物中已知的細菌和古細菌只占全世界存在量的10%;同時高通量測序的宏基因組DNA序列很短,存在大量不完整基因,無法在單個序列片斷上完成自學習,為統(tǒng)計建模所能提供的信息有限;另外,如何把分析結果和已知的數(shù)據(jù)庫(Greengenes[55]、SILVA[56]等)結合起來、如何進一步研究生物體之間以及生物體和環(huán)境之間的相互作用等,都成為亟待解決的問題。

        表3 宏基因組基因預測算法

        4 結束語

        高通量測序技術奠定了生物信息學的“大數(shù)據(jù)”基礎,面對如潮水般的基因序列數(shù)據(jù),給后續(xù)基因組分析方法的研究和工具的發(fā)展帶來了巨大挑戰(zhàn)。本文總結討論了高通量測序數(shù)據(jù)的基因組分析及生物信息學方法。目前,基因組生物信息學研究正面臨從傳統(tǒng)的全基因組序列分析到當前基于短讀的序列片段(含contigs)分析;從傳統(tǒng)的單個物種的全基因組序列分析到當前多個物種混雜的序列片段數(shù)據(jù)集的分析;從本地計算機運算分析到未來適應“云計算”模式的遠程、快速運算分析這幾方面發(fā)展。面對如此快速的發(fā)展,現(xiàn)有的生物信息學方法和工具已經(jīng)不能滿足如此大量的數(shù)據(jù)資料的需求,只有進一步發(fā)展出優(yōu)秀的生物信息學方法和工具,才能更好地利用高通量測序技術的優(yōu)勢和應用價值。

        [1] S C H US T ER S C. N e x t-g e n e r a t i o n sequencing transforms today’s biology[J]. Nature Methods, 2008, 5(1): 16-18.

        [2] SANGER F, NICKLEN S, COULSON A R. DNA sequencing with chain-terminating inhibitors[J]. Proceeding of the National Academy of Sciences, 1977, B7(12): 5463-5467.

        [3] SHENDURE J, JI H. Next-generation DNA sequencing[J]. Nature Biotechnology, 2008, 26(10): 1135-1145.

        [4] HIGGINS G. Human Genomes and Big Data Challenges[R]. Mason: AssureRx Health Inc, 2013.

        [5] WARD R M, SCHMIEDER R, HIGHNAM G, et al. Big data challenges and opportunities in highthrough-put sequencing[J]. Systems Biomedicine, 2013, 1(1): 29-34.

        [6] DUNHAM I, BIRNEY E, LA JOIE B R, et al. An integrated encyclopedia of DNA elements in the human genome[J]. Nature, 2012, 489(7414): 57-74.

        [7] COLLINS F S, BARKER A D. Mapping the cancer genome[J]. Scientific American, 2007, 296(3): 50-57.

        [8] HAYDEN E C. International genome project launched[J]. Nature, 2008, 451(7177): 378-389.

        [9] GEVERS D, KNIGHT R, PETROSINO J F, et al. The human microbiome project: a community resource for the healthy human microbiome[J]. PLoS Biology, 2012, 10(8): e1001377.

        [10] HAUSSLER D, O’BRIEN S J, RYDER O A, et al. Genome 10K: a proposal to obtain whole-genome sequence for 10 000 vertebrate species[J]. The Journal of Heredity, 2008, 100(6): 659-674.

        [11] O’ROAK B J, VIVES L, GIRIRAJAN S, et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations[J]. Nature, 2012, 485(7397): 246-250.

        [12] EHRLICH S D. MetaHIT: the European union project on metagenomics of the human intestinal tract[M]// Metagenomics of the Human Body. New York: Springer, 2011: 307-316.

        [13] L E G R A I N P, A E B E R S O L D R, A R C H A KO V A, e t a l. T h e h u m a n proteome project: current state and future direction[J]. Molecular & Cellular Proteomics, 2011, 10(7): M111. 009993.

        [14] G I L B E R T J A, M E Y E R F, ANTONOPOULOS D, et al. Meeting report: the terabase metagenomics workshop and the vision of an earth microbiome project[J]. Standards in Genomic Sciences, 2010, 3(3): 243.

        [15] R O B I N S O N G E, H A C K E T T K J, PURCELL M M, et al. Creating a buzz about insect genomes[J]. Science, 2011, 331(6023): 1386.

        [16] JOLY Y, DOVE E S, KNOPPERS B M, et al. Data sharing in the post-genomic world: the experience of the international cancer genome consortium (ICGC) data access compliance office (DACO)[J]. PLoS Comput Biol, 2012, 8(7): e1002549.

        [17] WU X D, ZHU X Q. Data mining with big data[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1): 97-108.

        [18] C H R I S T L E Y S, L U Y, L I C, e t a l. Human genomes as email attachments[J]. Bioinformatics, 2009, 25(2): 274-275.

        [19] BRADON M C, WALLACE D C, BALDI P. Data structures and compression algorithms for genomic sequence data[J]. Bioinformatics, 2009, 25(14): 1731-1738.

        [20] K O Z A N I T I S C, S A U N D E R S C, K RUGLYAK S, e t al. Co m p r e ssin g genomic sequence fragments using SlimGene[J]. Journal of Computational Biology, 2011, 18(3): 401-413.

        [21] WANG C, ZHANG D. A novel compression tool for efficient storage of genome resequencing data[J]. Nucleic Acids Research, 2011, 39(7): e45.

        [22] F R I T Z M H Y, L E I N O N E N R, COCHRANE G, et al. Efficient storage of high throughput DNA sequencing data using reference-based compression[J]. Genome Research, 2011, 21(5): 734-740.

        [23] MILLER J R, KOREN S, SUT TON G. Assembly algorithms for next-generation sequencing data[J]. Genomics, 2010, 95(6): 315-327.

        [24] B O N F I E L D J K, M A H O N E Y M V. Compression of FASTQ and SAM format sequencing data[J]. Plos One, 2013, 8(3): 1453-1456.

        [25] COX A J, BAUER M J, JAKOBI T, et al. Large-scale compression of genomic sequence databases with the Burrows-Wheeler transform[J]. Bioinformatics, 2012, 28(11): 1415-1419.

        [26] H A C H F, N U M A N A G I ? I, A L K A N C, et al. SCALCE: boosting sequence compression algorithms using locally consistent encoding[J]. Bioinformatics, 2012, 28(23): 3051-3057.

        [27] SELVA J J, CHEN X. SRComp: short read sequence compression using burstsort and Elias omega coding[J]. PloS One, 2013, 8(12): e81414.

        [28] P AT R O R, K I N G S F O R D C. D a t adependent bucketing improves referencefree compression of sequencing reads[J]. Bioinformatics, 2015: btv248.

        [29] J O N E S D C, RUZ ZO W L, PEN G X, et al. Compression of next-generation sequencing reads aided by highly efficient de novo assembly[J]. Nucleic Acids Research, 2012, 40(22): e171.

        [30] METZKER M L. Applications of nextgeneration sequencing technologies the next generation[J]. Nature Reviews Genetics, 2010, 11(1): 31-46.

        [31] WOOLEY C, GODZIK A, FRIEDBERG I. A primer on metagenomics[J]. PLoS Comput Biol, 2010, 6(2): e1000667.

        [32] POP M, PHILLIPPY A, DELCHER A L, et al. Comparative genome assembly[J]. Briefings in Bioinformatics, 2004, 5(3): 237-248.

        [33] KECECIOGLU J, JU J. Separating repeats in DNA sequence assembly[C]// The 5th Annual International Conference on Computational Biology, April 22-25,2001, Montreal, Canada. [S.l.:s.n.], 2001: 176-183.

        [34] P R I D E D T, M E I N E R S M A N N R J, WASSENAAR T M, et al. Evolutionary implications of microbial genome tetranucleotide frequency biases[J]. Genome Research, 2003, 13(2): 145-158.

        [35] WU Y W, YE Y. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples[J]. Journal of Computational Biology, 2011, 18(3): 523-534.

        [36] PRAKASH T, TAYLOR T D. Functional assignment of metagenomic data: challenges and applications[J]. Briefings in Bioinformatics, 2012, 13(6): 711-727.

        [37] QIN J, LI R, RAES J, et al. A human gut microbial gene catalogue established by metagenomic sequencing[J]. Nature, 2010, 464(7285): 59-65.

        [38] QIN J, LI Y, CAI Z, et al. A metagenomewide association study of gut microbiota in type 2 diabetes[J]. Nature, 2012, 490(7418): 55-60.

        [39] B O R O D O V S K Y M, M C I N I N C H J. GENMARK: parallel gene recognition for both DNA strands[J]. Computers & Chemistry, 1993, 17(2): 123-133.

        [40] L U K A S H I N A, B O R O D O V S K Y M. GeneMark.hmm: new solutions for gene finding[J]. Nucleic Acids Research, 1998, 26(4): 1107-1115.

        [41] B E S E M E R J, L O M S A D Z E A, BORODOVSKY M. GeneMarks: a selftraining method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions[J]. Nucleic Acids Research, 2001, 29(12): 2607-2618.

        [42] SALZBERG S L, DELCHER A L, KASIF S, et al. Microbial gene identification using interpolated Markov models[J]. Nucleic Acids Research, 1998, 26(2): 544-548.

        [43] DELCHER A L, BRATKE K A, POWERS E C, et al. Identifying bacterial genes and endosymbiont DNA with Glimmer[J]. Bioinformatics, 2007, 23(6): 673-679.

        [44] FRIGAARD N U, MARTIMEZ A, MINCER T J, et al. Proteorhodopsin lateral gene transfer between marine planktonic bacteria and archaea[J]. Nature, 2006, 439(7078): 847-850.

        [45] OUYANG Z, ZHU H, WANG J, et al. Multivariate entropy distance method for prokaryotic gene identification[J]. Journal of Bioinformatics and Computational Biology, 2004, 2(2): 353-373.

        [46] ZHU H Q, HU G Q, YANG Y F, et al. MED: a new non-super vised gene prediction algorithm for bacterial and archaeal genomes[J]. BMC Bioinformatics, 2007, 8(1): 97.

        [47] NOGUCHI H, TANIGUCHI T, ITOH T. MetaGeneAnnotator: detecting speciesspecific patterns of ribosomal binding site for precise gene prediction in anonymous prokaryotic and phage genomes[J]. DNA Research, 2008, 15(6): 387-396.

        [48] H O F F K J, L I N G N E R T, M E I N I C K E P, et al. Orphelia: predicting genes in metagenomic sequencing reads[J]. Nucleic Acids Research, 2009, 37(suppl 2): W101-W105.

        [49] ZHU W, LOMSADZE A, BORODOVSKY M. Ab initio gene identification in metagenomic sequences[J]. Nucleic Acids Research, 2010, 38(12): e132.

        [50] RHO M, TANG H, YE Y. FragGeneScan: predicting genes in short and error-prone reads[J]. Nucleic Acids Research, 2010, 38(20): e191.

        [51] KELLE Y D R, LIU B, DELCHER A L, et al. Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering[J]. Nucleic Acids Research, 2012, 40(1): e9.

        [52] HYATT D, LOCASCIO P F, HAUSER L J,et al. Gene and translation initiation site prediction in metagenomic sequences[J]. Bioinformatics, 2012, 28(17): 2223-2230.

        [53] WANG Y, LEUNG H C M, YIU S M, et al. MetaCluster 5.0: a two-round binning approach for metagenomic data for lowabundance species in a noisy sample[J]. Bioinformatics, 2012, 28(18): i356-i362.

        [54] L I U Y, G U O J, H U G, e t a l. G e n e prediction in metagenomic fragments based on the SVM algorithm[J]. BMC Bioinformatics, 2013, 14(suppl 5): S12.

        [55] D E S A N T I S T Z, H U G E N H O LT Z P, L A R S E N N, e t a l. G r e e n g e n e s, a chimera-checked 16S rRNA gene database and workbench compatible with ARB[J]. Applied and Environmental Microbiology, 2006, 72(7): 5069-5072.

        [56] PRUESSE E, QUA ST C, K NIT TEL K, et al. SILVA: a comprehensive online resource for quality checked and aligned ribosomal RNA sequence data compatible with ARB[J]. Nucleic Acids Research, 2007, 35(21): 7188-7196.

        Bioinformatics methods for high-throughput DNA sequencing data

        ZHAN Xiaojuan1, YAO Dengju2, ZHU Huaiqiu3
        1. College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China
        2. School of Software, Harbin University of Science and Technology, Harbin 150040, China 3. Department of Biomedical Engineering, Peking University, Beijing 100871, China

        DNA sequence data generated by high-throughput sequencing technology is short in length, and the amount of data is enormous. The challenges and opportunities of the big data in high-throughput sequencing environment were analyzed. The data compression, the assembly of metagenomic sequence data, and algorithms and tools of metagenomic sequence data analysis also were summarized and discussed. Finally, the future of the study on short read DNA sequence data in high-throughput sequencing environment was discussed.

        high-throughput DNA sequencing, bioinformatics, short read sequence data compression, short read sequence data splicing, short read sequence data analysis

        TP399

        A

        10.11959/j.issn.2096-0271.2016021

        詹曉娟(1978-),女,黑龍江工程學院講師,主要研究方向為數(shù)據(jù)挖掘、機器學習、生物信息。

        姚登舉(1980-),男,哈爾濱理工大學副教授,主要研究方向為數(shù)據(jù)挖掘、機器學習、生物信息。

        朱懷球(1970-),男,北京大學教授,主要研究方向為生物醫(yī)學信息學和計算系統(tǒng)生物學。

        2015-09-30

        黑龍江省自然科學基金資助項目(No.F201313);黑龍江省教育廳科學技術研究資助項目(No.12541124);哈爾濱市科技創(chuàng)新人才資助項目(No.2013RFQXJ114)

        Foundation Items: The Natural Science Foundation of Heilongjiang Province (No.F201313), The Foundation of Heilongjiang Province Educational Committee (No.12541124), The Harbin Special Funds for Technological Innovation Research of Heilongjiang Province of China (No.2013RFQXJ114)

        猜你喜歡
        信息學高通量基因組
        高通量衛(wèi)星網(wǎng)絡及網(wǎng)絡漫游關鍵技術
        國際太空(2023年1期)2023-02-27 09:03:42
        牛參考基因組中發(fā)現(xiàn)被忽視基因
        雞NRF1基因啟動子區(qū)生物信息學分析
        高通量血液透析臨床研究進展
        Ka頻段高通量衛(wèi)星在鐵路通信中的應用探討
        初論博物館信息學的形成
        中國博物館(2018年2期)2018-12-05 05:28:50
        中國通信衛(wèi)星開啟高通量時代
        miRNA-148a在膀胱癌組織中的表達及生物信息學分析
        基因組DNA甲基化及組蛋白甲基化
        遺傳(2014年3期)2014-02-28 20:58:49
        有趣的植物基因組
        世界科學(2014年8期)2014-02-28 14:58:31
        色偷偷激情日本亚洲一区二区 | 蜜臀aⅴ国产精品久久久国产老师| 狠狠色婷婷久久一区二区| 免费av在线国模| 国产在线一区二区视频免费观看| 国产一区二区三区探花| 亚洲丝袜美腿在线视频| 加勒比hezyo黑人专区| 区二区三区玖玖玖| 手机看片福利日韩| 国产av熟女一区二区三区老牛| 午夜视频一区二区三区在线观看| 日本中文一区二区在线| 日本少妇又色又爽又高潮| 蜜桃日本免费看mv免费版| 亚洲熟女乱色一区二区三区| 国产综合自拍| 麻豆夫妻在线视频观看| 自拍视频在线观看首页国产| 999国产精品999久久久久久| 奇米影视777撸吧| 91久久精品无码人妻系列 | 国99久9在线 | 免费| 国产精品美女久久久网站三级| 帅小伙自慰videogay男男| 亚洲性啪啪无码av天堂| 欧美自拍区| 日本久久一级二级三级| 国产婷婷成人久久av免费| 风情韵味人妻hd| 亚洲av区无码字幕中文色| 无码一区二区三区网站| 亚洲综合中文一区二区 | 国产欧美日韩综合精品一区二区| 狼人香蕉香蕉在线28 - 百度| 吃奶还摸下面动态图gif| 成人不卡国产福利电影在线看| 国产精品毛片av一区二区三区| 东北熟妇露脸25分钟| 午夜性色一区二区三区不卡视频| 99精品热这里只有精品|