亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于組成成分的元基因組分類算法分析與研究

2015-03-16 09:53:37葉維帥陶漢

電腦知識與技術(shù) 2015年1期

關(guān)鍵詞：聚類算法

葉維帥　陶漢

摘要：元基因組學(xué)是計算生物學(xué)領(lǐng)域的一個重要分支，主要研究環(huán)境中微生物群落的基因組。元基因組分類算法是用計算機(jī)程序?qū)σ粋€樣本中的多個不同種屬的微生物基因序列分離開來，以提供給生物學(xué)家進(jìn)行深入研究的參考。元基因組分類算法主要分為兩大類，一是基于同源性的分類，二是基于組成成分的分類?；谕葱苑诸愔饕眯蛄械奈锓N同源性信息，基于組成成分的分類方法通常提取序列的l-mer特征利用計算機(jī)科學(xué)領(lǐng)域的聚類方法，如k-means聚類。該文介紹基于組成成分的元基因組分類算法及其實例，并分析各實例算法的特點。最后總結(jié)并展望基于組成成分的元基因組算法當(dāng)前方法及未來可以做的優(yōu)化。

關(guān)鍵詞：元基因組；組成成分；聚類算法

中圖分類號：TP18 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2015）01-0135-02

1 生物背景

元基因組學(xué)亦稱宏基因組學(xué)，是對微生物基因組的研究，是計算生物學(xué)領(lǐng)域的一個分支。計算生物學(xué)是利用現(xiàn)有的計算機(jī)科學(xué)相關(guān)先進(jìn)技術(shù)（高性能計算機(jī)硬件，高效率算法，并行計算等）研究生物科學(xué)領(lǐng)域的相關(guān)問題的學(xué)科[1]。

元基因組分類算法是利用計算機(jī)通過微生物群落基因組序列數(shù)據(jù)分析該群落的物種結(jié)構(gòu)。這些微生物通常分布在土壤、深海、動物表皮及腸道等場所，對自然環(huán)境及動物、人體的健康有著重要的間接或直接關(guān)系。研究表明，人體腸道內(nèi)的微生物群落結(jié)構(gòu)發(fā)生異常時可導(dǎo)致IBD疾?。↖nammatory Bowel Disease）[2]。

元基因組基因序列讀段（reads）通常來自一個微生物群落的多個物種的基因片段，在元基因組的研究過程中，一個重要的步驟是對這些基因片段進(jìn)行分組，即相近的物種的基因片段聚成一個類，亦稱元基因組分類[3]，從而確定該生物群落中有哪些微生物。到目前為止，研究者們提出了多種計算生物學(xué)方法來對元基因組分類，主要分為兩大類：一是基于同源性分類方法，二是基于組成成分分類方法。前一種需要用BLAST[4]對目標(biāo)序列從參考（reference）基因數(shù)據(jù)庫中匹配，找到最匹配的種屬。由于BLAST用在序列對齊的操作上需要花費大量時間，此種方法相對而言效率較低。而且，這種方法較大依賴參考基因數(shù)據(jù)庫，由于大部分微生物的基因組并不存在于該數(shù)據(jù)庫中，所以對匹配的結(jié)果影響較大。但對于已知的微生物基因組，匹配得到的結(jié)果準(zhǔn)確度較高。后一種方法無需參考基因數(shù)據(jù)庫，通過提取基因組的l-mer特征，得到特征向量再用聚類方法進(jìn)行聚類。該類方法不能找到基因組讀段相對應(yīng)的物種，但分類效率及準(zhǔn)確度高。

2 基于組成成分的元基因組分類算法

AbundanceBin[5]、MetaCluster[6]、Mcluster[7]是三種基于組成成分對元基因組分類的算法代表。

AbundanceBin是印第安納大學(xué)的研究者于2011年發(fā)表在《計算生物學(xué)雜志》（Journal of Computational Biology）上的一種分類算法。首先，文中假設(shè)基因組的序列讀段服從蘭德-沃特曼模型（Lander-Waterman model）[abudancebin29]，也就是每個序列中的堿基的位置服從泊松分布（Poisson distribution）。對于所有的基因組序列，可以認(rèn)為是一個混合的泊松分布。對于給定的一個元基因組序列數(shù)據(jù)集，該算法首先計算每個序列l(wèi)-mer的數(shù)量，然后用EM算法（Expectation-Maximization）預(yù)測出物種豐度和基因組的大小，最后得到每個序列對應(yīng)的微生物的最后分組。文中對序列長度分別是400bp，75bp及方差分別為50，5的數(shù)據(jù)集做了實驗，l-mer中的l值取20，結(jié)果表明該算法能在較短的時間里取得較高的分類準(zhǔn)確度。

MetaCluster是香港大學(xué)王毅（音譯WangYi）等人研究的對元基因分類的算法系列[8]。該系列算法從最初的MetaCluster2.0到2012年發(fā)表的MetaCluster5.0，能夠分別處理不同序列長度、序列錯誤率的元基因組數(shù)據(jù)集。該文中談及的MetaCluster主要指MetaCluster5.0。MetaCluster（MetaCluster5.0）算法對元基因組數(shù)據(jù)集分類主要分為兩個過程。在第一個過程中，首先對元基因組數(shù)據(jù)集進(jìn)行過濾，得到豐度較大的一組及豐度較小的一組。對豐度較大的一組進(jìn)行l(wèi)-mer特征提取，此時l取l=4。得到4-mer特征后，對這部分序列進(jìn)行k-means聚類，得到相對較長的contig（聚類后得到的較長序列）。再對contig進(jìn)行l(wèi)-mer特征提取，此時l取l=5。得到contig的5元特征后，聚類后得到豐度較大的序列分類結(jié)果。在第二個過程中，完成第一步中過濾得到的豐度較小的一組序列數(shù)據(jù)聚類。對這些序列數(shù)據(jù)，首先進(jìn)行合并來源于同一個長序列的短序列，然后再進(jìn)行l(wèi)-mer特征提取，l取l=4，再聚類得到兩個過程的最后結(jié)果。文中在平均序列長度為75bp的模擬數(shù)據(jù)集及真實數(shù)據(jù)集上做了實驗，表明MetaCluster在計算時間及內(nèi)在耗用上有較大優(yōu)勢，并且對數(shù)據(jù)集中豐度不同序列有較好的分類效果。

Mcluster是復(fù)旦大學(xué)的研究者于2013年發(fā)表在《IEEE/ACM Transactions on computational biology and bioinformatics》上的算法。該算法提出了基于l-mer（l=4）特征提取后自動權(quán)重迭代的思想。Mcluster首先提取數(shù)據(jù)集中序列的l-mer特征向量，然后隨機(jī)初始化k個中心點，對所有特征設(shè)為一個相同的初始權(quán)重。接下來是兩個需要迭代的步驟。I）計算每個特征向量每個維度相對于k個中心的距離，根據(jù)權(quán)重公式計算每個特征向量的新權(quán)重，并且將其歸到距離最近的中心點所代表的聚類類簇。Ii）計算完所有的特征向量后，得到新的k個聚類類簇，再重新計算得到k個新的中心點。并且重新計算得到新的權(quán)重公式。重復(fù)迭代上述i）、ii）步驟，直到k個中心點達(dá)到穩(wěn)定狀態(tài)。該算法在多個模擬數(shù)據(jù)集及一個真實數(shù)據(jù)集上做了實驗，并且和AbundanceBin、MetaCluster算法做了比較。實驗結(jié)果的權(quán)衡標(biāo)準(zhǔn)主要基于三個數(shù)值，一是分類準(zhǔn)確度，二是敏感度，三是F-measure（即準(zhǔn)確度和敏感度的權(quán)衡值）。在上述三個標(biāo)準(zhǔn)中，Mcluster在模擬數(shù)據(jù)集及真實數(shù)據(jù)集中比AbundanceBin和MetaCluster算法都具有更理想的性能。

3 總結(jié)及展望

之前的分類算法大多數(shù)是基于同源性比較，主要用到BLAST序列匹對方法，需要耗費大量的時間和計算資源。AbundanceBin在基于組成成分的元基因組分類算法研究上具有開創(chuàng)性意義，它優(yōu)化了分類的計算時間，并且指引了研究者可以在基于組成成分上進(jìn)行研究元基因組分類。但AbundanceBin的缺點也比較明顯，即當(dāng)元基因組數(shù)據(jù)集中包含不同物種并且各物種不同豐度時，分類的效果欠佳。

MetaCluster的分類效果比AbundanceBin更佳，但其對元基因組數(shù)據(jù)集的要求是序列長度在50bp-128bp（MetaCluster5.0要求）之間，這也讓MetaCluster（5.0）局限于處理較短長度的元基因組數(shù)據(jù)。MCluster處理的數(shù)據(jù)集序列長度在128bp-1000bp間，相比AbundanceBin及MetaCluster在準(zhǔn)確率、敏感度、F-measure上都有較好的分類效果，是目前為止綜合分類效果最佳的元基因組分類算法。

在未來對元基因組分類算法的研究上，有待完善及具有挑戰(zhàn)性的有以下幾點。

1）能夠處理較大范圍的數(shù)據(jù)集序列長度。由于基因組測序技術(shù)的發(fā)展，目前多種平臺的測序數(shù)據(jù)的長度在幾十到幾百幾千bp的不等讀段長度，若分類算法只能處理幾十到幾百的序列讀段長度，則有局限性。

2） l-mer特征提取的l值自適應(yīng)選取。4-mer特征提取在序列長度在500-1000bp時，具有較好的特征向量結(jié)果，但在序列長度為50-100時，特征向量的多數(shù)維度是無效的。并且在序列長度在2000bp以上時，5-mer特征提取能達(dá)到更高的準(zhǔn)確度。按照數(shù)據(jù)集中平均的序列長度，選取相應(yīng)的l值進(jìn)行l(wèi)元特征提取能夠優(yōu)化元基因組分類結(jié)果，是未來研究的一個方向。

總而言之，國內(nèi)外基于組成成分的元基因組分類算法研究在這幾年的研究中取得了一定的成就。在未來的研究中，也仍具有挑戰(zhàn)性的難點等待研究者們?nèi)スタ恕?/p>

參考文獻(xiàn)：

[1] John C. Wooley， Adam Godzik， Iddo Friedberg. （2010）. A primer on metagenomics. Plos Computational Biology， Feb 2010， Vol 6， Issue 2， e1000667

[2] Qin J， Li R， Raes J， et al.A human gut microbial gene catalogue established by metagenomic sequencing. Nature， 2010（464）：7285.

[3] Mavromatis K， Ivanova N， Barry K， et al.Use of simulated data sets to evaluate the _delity of metagenomic processing methods. Nature Methods， 2007，4（6）：495-500.

[4] Scott McGinnis， Thomas L. Madden ： BLAST： at the core of a powerful and diverse set of sequence analysis tools， Nucleic Acids Research， 2004，32（20）.

[5] Wu Y， Ye Y.A novel abundance-based algorithm for binning metagenomic sequences using l-tuples. Journal of Computational Biology ， 2011，18（3）：523-534.

[6] Wang Y， Leung H C， Yiu S M， et al.Metacluster 5.0： a two-round binning approach for metagenomic data for low-abundance species in a noisy sample. Bioinformatics ， 2012，28（18）， 356-362.

[7] Liao R， Zhang R， Guan J， et al.A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting. IEEE/ACM Transactions on Computational Biology and Bioinformatics （TCBB）（2014）.

[8] http：//i.cs.hku.hk/～alse/MetaCluster/.