李 濤,王 鵬
(1.同濟(jì)大學(xué)海洋地質(zhì)國家重點(diǎn)實(shí)驗室,上海 200092;2.廣州海洋地質(zhì)調(diào)查局,廣州 510760)
自然界中存在的微生物可能多達(dá)上百萬種[1],然而,它們中的大多數(shù)沒有被觀測到甚至沒有被檢出,這些微生物的存在只能根據(jù)預(yù)測來推斷;不過,這種預(yù)測也僅僅是基于猜測,以目前的技術(shù)還無法完全檢測出微生物多樣性(本文僅討論微生物種數(shù)或豐度)全貌。基于非培養(yǎng)的rRNA技術(shù)是研究環(huán)境微生物多樣性最有效的工具[2],16S rRNA克隆文庫相比其他研究手段能更多地揭示群落多樣性信息,基于16S rRNA克隆文庫對微生物豐度的預(yù)測更能趨近于客觀真實(shí),在土壤、水體、潮間帶等環(huán)境中的細(xì)菌豐度的估計得到了廣泛應(yīng)用[3]。
從已發(fā)表的文獻(xiàn)來看,常用于預(yù)測物種豐度的方法主要有兩大類:參數(shù)模型法和非參數(shù)估計法。共有5種參數(shù)模型:逆高斯分布、對數(shù)正態(tài)分布、負(fù)二項式分布、雙參數(shù)(形狀+標(biāo)尺)帕雷托分布、雙指數(shù)分布等,Hong等基于Maple軟件開發(fā)出相應(yīng)的計算程序[3],供研究使用?;谪S度覆蓋估計法(ACE)以及適用于高異質(zhì)種群的ACE-1法是兩種用得較多的非參數(shù)估計法,基于此算法,Chao等開發(fā)SPADE(Species Prediction And Diversity Estimation)軟件[4]免費(fèi)下載使用。
為防止估計模型的選擇不當(dāng)對估計值可靠性的影響,本文綜合使用了以上參數(shù)模型法和非參數(shù)估計法共7種方法對來自南海陸坡的一沉積物柱中的細(xì)菌豐度進(jìn)行估算,并通過比較各種方法與觀測數(shù)據(jù)的吻合程度,找到最佳估計。此外,由于單一樣品16S rRNA基因文庫規(guī)模較小,不能全面反映細(xì)菌的多樣性,本文從該沉積物柱不同深度采集12個微生物樣品來構(gòu)建細(xì)菌16S rRNA基因文庫。
2005年5月15日—6月8日IMAGES147航次獲得的深海沉積物柱MD05-2896,采樣點(diǎn)位于南海陸坡區(qū)的南沙珊瑚礁臺地西部邊緣(08°49.50'N,111°26.47'E,水深1 657 m)。采用無擾動箱式采泥器采集沉積物柱,總長11 m,從表層到底層以1 m等間距采樣,共12個微生物樣品,船上于 -20℃ 下保存,運(yùn)回實(shí)驗室后儲存于-80℃。
12個微生物樣品各稱取5 g,采用Zhou抽提法[5]分別提取總DNA,使用細(xì)菌16S rRNA通用引物Eubac 27F和Eubac 1492R進(jìn)行PCR擴(kuò)增[6]。PCR擴(kuò)增得到的片斷經(jīng)純化后克隆到pMD-18T(TaKaRa)載體上,并轉(zhuǎn)化到大腸桿菌DH5α感受態(tài)細(xì)胞,挑取陽性轉(zhuǎn)化子,利用PCR擴(kuò)增引物重新擴(kuò)增插入片斷。使用內(nèi)切酶MspⅠ(Fermentas)切割,分析電泳帶型,挑選不同帶型克隆子測序,并統(tǒng)計不同帶型的克隆子數(shù),將序列提交到RDPⅡ(ribosomal database project)數(shù)據(jù)庫,利用CHECK-CHIMERA檢驗,去除不合理序列。應(yīng)用BLASTN程序(www.ncbi.nlm.nih.gov/BLAST/)搜索相似性序列,采用ClustalX(Version 1.8)進(jìn)行比對分析,通過PAUP(Version 4.0b10)[7]構(gòu)建系統(tǒng)發(fā)育樹,使用Neighbor-Joining建樹方法,選擇Jukes-Cantor進(jìn)化距離。細(xì)菌16SrRNA基因序列在 Genbank核苷酸數(shù)據(jù)庫中的接受號為 EU048662—EU048694和EU385666—EU385826。
利用CLUSTUALW軟件對沉積物柱MD05-2896細(xì)菌16S rRNA序列進(jìn)行序列比對分析,計算序列相似性,以99%、98%、97%、95%、90%和80%的序列一致性作為分界標(biāo)準(zhǔn),根據(jù) OS clustering程序的算法(http://www.compbio.dundee.ac.uk/Software/OC/oc.html),利用無加權(quán)組群方法對序列進(jìn)行聚類分析,將群組定義為“分類單元”(OTU),計算每個分類單元中的出現(xiàn)次數(shù),即分類單元中的16S rRNA序列數(shù)。將分類單元出現(xiàn)次數(shù)依次從小到大排列,統(tǒng)計出現(xiàn)次數(shù)相同的分類單元個數(shù)。以分類單元出現(xiàn)次數(shù)和對應(yīng)的分類單元個數(shù)的頻次作為進(jìn)一步分析的基礎(chǔ)數(shù)據(jù)。
參數(shù)模型通過對樣品數(shù)據(jù)進(jìn)行擬合,構(gòu)建相應(yīng)的物種豐度分布模型,預(yù)測群落中未觀測到的物種數(shù)據(jù)[8]。首先區(qū)分統(tǒng)計意義上“豐富的”和“稀有的”分類單元。選取一個適當(dāng)?shù)挠医攸c(diǎn)(τ),當(dāng)分類單元出現(xiàn)次數(shù)>τ時,則為“豐富的”;當(dāng)分類單元出現(xiàn)次數(shù)<τ時,則為“稀有的”。然后利用文獻(xiàn)[3]提供的5種參數(shù)模型方法進(jìn)行估計。通過比較不同的估計方法,得出最合理的估計值。選取的標(biāo)準(zhǔn)有:(1)擬合優(yōu)度(GOF)檢驗:自然擬合優(yōu)度(na?ve GOF)和漸進(jìn)擬合優(yōu)度;(2)能得到有生物學(xué)意義的標(biāo)準(zhǔn)差;(3)使用物種頻率觀測數(shù)據(jù)的最大限度值(即最大的右截點(diǎn))。
無參數(shù)估計法采用“標(biāo)記釋放回捕法”(MRR)[9],認(rèn)為被再次觀測到的物種(“回捕”)與僅觀測到一次的物種能達(dá)到均衡,即在多樣性高的群落中,物種被再次觀測到的幾率較小,數(shù)量豐富的物種僅能被觀測到一次;相反在一個多樣性很低的群落,數(shù)量豐富的物種被再次觀測到的幾率則較高。該類方法基于“豐富的”物種和“稀少的”的物種的相對豐度,來建立估算公式,并利用標(biāo)準(zhǔn)差檢驗。本文利用SPADE軟件[4]中提供的2種方法對細(xì)菌豐度進(jìn)行估計。
由于非參數(shù)模型估計一般會低估微生物多樣性;因此,本文主要討論參數(shù)模型對細(xì)菌豐度的估計。
以97%序列相似性作為代表型的分界標(biāo)準(zhǔn),1 329條細(xì)菌16S rRNA基因序列分別屬于190個系統(tǒng)發(fā)育型,系統(tǒng)發(fā)育分析結(jié)果表明這些系統(tǒng)發(fā)育型主要來自17個已知的類群(“門”):浮霉?fàn)罹?Planctomycetes)、變形桿菌(Proteobacteria)、綠屈撓桿菌(ChloroFlexi)、放線菌(Actinobacteria)、螺旋體(Spirochaetes)、疣微菌(Verrucomicrobia)、酸桿菌(Acidobacteria)、擬桿菌(Bacteriodetes)、鐵還原桿菌(Defferribacteres)、硝化螺菌(Nitrospirae)以及 candidate division OP1、OP3、OP8、OP11、JS1、WS3、TM6。細(xì)菌16S rRNA 基因克隆子數(shù)和代表型數(shù)在細(xì)菌“門”中的分布見表1。
以99%、98%、97%、95%、90%、80%序列相似性作為分類單元的分界,利用無加權(quán)組群方法對1 329條細(xì)菌16S rRNA基因序列進(jìn)行聚類分析,分別組群成212、194、190、168、115、和50個分類單元。利用參數(shù)模型來估算分類單元豐度值,結(jié)果見表2。
從結(jié)果來看(表2),參數(shù)模型得到的預(yù)測值一般高于非參數(shù)估計法,應(yīng)從參數(shù)模型中尋找最佳估計。Hong等認(rèn)為應(yīng)優(yōu)先考慮與觀測數(shù)據(jù)擬合程度最好的模型,如果存在多個模型與觀測數(shù)據(jù)的擬合程度都較好,則比較他們的標(biāo)準(zhǔn)差[3],得到最優(yōu)模型,本文也依此尋找最佳估計。從本研究數(shù)據(jù)來看,出現(xiàn)次數(shù)較少(<5次),尤其出現(xiàn)次數(shù)為1次的分類單元個數(shù)最多,它們是群落的主體;模型擬合的結(jié)果是否與觀測數(shù)據(jù)吻合,關(guān)鍵是出現(xiàn)次數(shù)小于5次的分類單元個數(shù)的預(yù)測值是否接近觀測值。結(jié)果表明當(dāng)分類單元分界為99%和
90%序列一致性時,雙指數(shù)分布為最佳估計模型,估計值分別為326±40(SE)和127±4(SE);當(dāng)分類單元分界為98%和80%序列一致性時,帕雷托分布為最佳估計模型,估計值分別為251±9(SE)和62±4(SE);當(dāng)分類單元分界為97%和95%序列一致性時,負(fù)二項式分布為最佳估計模型,估計值分別為244±10(SE)和220±6(SE)。圖1顯示了以99%、97%、90%和80%序列一致性為分類單元分界標(biāo)準(zhǔn),最優(yōu)分布模型估計的分類單元出現(xiàn)次數(shù)及對應(yīng)的分類單元個數(shù)與實(shí)際數(shù)據(jù)的擬合情況。從圖上看,分類單元個數(shù)預(yù)測與實(shí)際值較吻合,尤其是出現(xiàn)次數(shù)較少的分類單元個數(shù)的預(yù)測與實(shí)際數(shù)據(jù)基本一致,選取的模型符合對細(xì)菌豐度的估計。
表1 沉積物柱MD05-2896克隆子在細(xì)菌“門”中的分布Table 1 Bacterial phyla detected among sequenced clones in sediment core MD05-2896
表2 沉積物柱MD05-2896中細(xì)菌的豐度Table 2 Bacterial richness of the core MD05-2896
續(xù)表
圖1 細(xì)菌克隆子庫中的分類單元頻率分布及參數(shù)模型擬合Fig.1 Frequency distribution of OTUs in the bacterial library versus parametric model's fitted values
目前,利用16S rRNA基因序列對細(xì)菌“種”的劃分還存在較大爭議,1%和3%的序列差異都被用于“種”的定義,較合理的辦法是以1%序列差異作為菌株分類標(biāo)準(zhǔn),以3%作為“種”的分類標(biāo)準(zhǔn)[3],在此標(biāo)準(zhǔn)下,估計約326±40(SE)個菌株,244±10(SE)個種。
細(xì)菌的“屬”、“科”/“綱”和“門”等分類單元很難通過16S rRNA基因序列的差異來準(zhǔn)確劃分,已有文獻(xiàn)分別將5%、10%和20%的序列差異作為以上各分類單元的界限[10-12]。依此推斷沉積物柱MD05-2896中細(xì)菌群落大約包括62±4(SE)個“門”,127±4(SE)個“科”/“綱”和220±6(SE)個“屬”。
發(fā)射臺架控制系統(tǒng)雙機(jī)冗余熱備份控制技術(shù)研究……………………………………………… 李博,趙慧莉(4-255)
從已發(fā)表的文獻(xiàn)來看,來自不同環(huán)境的樣品,對細(xì)菌豐度的估計值相差很大,如耕地或重金屬污染的土壤中細(xì)菌豐度估計值為300—1 500[8,13];而未開發(fā)土壤中的細(xì)菌豐度的估計值則高達(dá)6 000—10 000[14],甚至達(dá)到500 000[15]。16S rRNA基因技術(shù)從環(huán)境樣品中檢出的細(xì)菌一般只有幾十種,最多不過幾百種,不同環(huán)境中細(xì)菌豐度是否有如此大的差別?Hong等認(rèn)為環(huán)境中細(xì)菌豐度不應(yīng)有如此大的差別,這些估計值并不可靠,原因在于研究者選擇了錯誤的模型[3],但該觀點(diǎn)并未獲得證實(shí)。
為進(jìn)一步探討細(xì)菌豐度估計值的可靠性,本文與Hong等的研究結(jié)果進(jìn)行了比較。本文與Hong等的基礎(chǔ)數(shù)據(jù)都來自16S rRNA基因文庫,并采用了完全相同的估計模型,但得到細(xì)菌“種”數(shù)的估計值卻相差很大。造成差異的原因可能與樣品本身或構(gòu)建的文庫質(zhì)量等因素有關(guān)。
從估計的結(jié)果來看,本文對細(xì)菌“種”數(shù)的估計值與觀測值相差不大,都為102量級,而且對采自西沙海槽的沉積物柱MD05-2902中的細(xì)菌豐度預(yù)測值為179±9(SE),也只達(dá)到102量級;然而,Hong等細(xì)菌物種數(shù)量的估計值約為觀測值的10倍左右,為103量級[3]。利用分布模型估計細(xì)菌豐度的原理是利用分類單元出現(xiàn)次數(shù)的頻率分布對觀測值擬合,得出各參數(shù)值,進(jìn)而估計未檢出分類單元個數(shù)。在頻率分布曲線上表現(xiàn)為:曲線左端越陡,利用模型預(yù)測次數(shù)為0(未檢出)的分類單元個數(shù)則越多,預(yù)測值與觀測值差別越大。Hong樣品的細(xì)菌克隆文庫中絕大多數(shù)分類單元出現(xiàn)次數(shù)只有1,即樣品中絕大多數(shù)分類單元被再次觀測到的幾率小,出現(xiàn)次數(shù)為1的分類單元個數(shù)遠(yuǎn)大于出現(xiàn)次數(shù)為2(被再次觀測)的分類單元個數(shù),頻率分布曲線左端很陡,表明樣品中存在大量未檢測出的分類單元,估計值就遠(yuǎn)大于觀測值。本文研究樣品的細(xì)菌克隆文庫有較多的分類單元出現(xiàn)次數(shù)大于1,頻率分布曲線左端相對較緩(圖1);利用分布曲線預(yù)測未檢出的分類單元個數(shù)較少,即分類單元被再次觀測到的幾率很高,遺漏的分類單元數(shù)量則較少,因而估計值接近觀測值。
影響細(xì)菌豐度估計值可靠性的因素主要有兩個:首先是估計模型的選擇,不同的估計模型得到的結(jié)果可能有較大的差異;其次是用于估計的基礎(chǔ)數(shù)據(jù),而這種基礎(chǔ)數(shù)據(jù)是通過實(shí)驗手段來獲取的,數(shù)據(jù)質(zhì)量主要取決于對實(shí)驗技術(shù)的評價。
3.2.1 估計方法
目前,對參數(shù)模型和非參數(shù)估計法孰優(yōu)孰劣存在較大的爭議[9],即便只使用參數(shù)模型,存在如何選擇模型的困惑。
對參數(shù)模型而言,很難建立一個足夠大的微生物多樣性數(shù)據(jù)庫來支持模型的使用和對各模型中的分布參數(shù)進(jìn)行賦值。因為沒有經(jīng)驗值,只能通過理論上來推斷最佳模型。但不同的學(xué)者對最佳模型的選取標(biāo)準(zhǔn)完全不同。Curtis等認(rèn)為細(xì)菌群落具有高動態(tài)性,增長隨意,群落分布符合對數(shù)正態(tài)分布[14];不過Jeon指出當(dāng)出現(xiàn)次數(shù)為1的分類單元占很高比例時,逆高斯分布模型對微生物豐度有較好的估計[16];Hong等認(rèn)為并不存在一個普遍適用的模型[3],只能通過綜合利用各種模型來以增加估計的可靠性。
非參數(shù)估計法完全依賴于分類單元相對豐度的估計,在調(diào)查微生物多樣性的過程中難免出現(xiàn)取樣偏差;此外,非參數(shù)估計法提供的是一個更小范圍的分類單元多樣性,即只從觀察到的分類單元中獲取信息,與參數(shù)模型不同,非參數(shù)估計法不能給出分類單元相對豐度的假想分布,容易忽略了那些“稀少的”分類單元,導(dǎo)致對微生物豐度的低估。
3.2.2 實(shí)驗技術(shù)
就實(shí)驗本身而言,任何實(shí)驗都無法檢測自然界中的全部微生物?;?6S rRNA基因的PCR-RFLP方法也不例外,同樣會造成對生物多樣性的低估,該技術(shù)影響微生物多樣性低估的主要因素是克隆文庫的規(guī)模和實(shí)驗偏差。
圖2 細(xì)菌16S rRNA基因克隆文庫稀疏曲線Fig.2 Rarefaction curves of bacterial 16S rRNA gene library從上到下依次為:8m,7m,4m,6m,2m,11m,3m,surface,1m,9m,10m和5m
(1)克隆文庫的規(guī)模
克隆文庫并非越大越好,因為哪怕構(gòu)建最大的克隆文庫,也不能窮盡所有的微生物。不過,如果克隆文庫選取過小,則會喪失部分物種多樣性信息。文庫要達(dá)到何種規(guī)模,才能滿足完全反映多樣性的要求?稀疏分
析[13]以及克隆文庫的覆蓋度 C值[17]能提供判斷依據(jù)。使用Analytic Rarefaction軟件對本文研究的12個樣品分別繪制16S rRNA基因克隆文庫稀疏曲線(圖2),從圖上可以看出,所有稀疏曲線在克隆子數(shù)達(dá)到100后趨于平緩,部分達(dá)到平臺期。從表層往下,C值分別為
89%、90%、93%、92%、79%、92%、87%、79%、85%、97%、77%和83%,這些樣品的克隆文庫的C值多數(shù)在90%左右或大于90%以上。綜合稀疏分析和覆蓋度計算結(jié)果,細(xì)菌16S rRNA基因克隆文庫能大致反映微生物多樣性。
(2)實(shí)驗偏差
實(shí)驗過程中的偏差主要表現(xiàn)在總DNA的損耗、PCR擴(kuò)增效率以及PCR偏嗜性。
環(huán)境樣品總DNA的提取,無論是物理裂解,化學(xué)裂解,還是生物裂解,在提取過程中都會引起DNA的損耗。如物理裂解造成長片斷DNA的物理剪切;化學(xué)裂解法不能完全去除腐殖酸、色素和重金屬等雜質(zhì);抽提后殘余的苯酚等會影響PCR的擴(kuò)增效率[18]。
PCR的偏嗜性主要表現(xiàn)在:(1)PCR擴(kuò)增過程中,模板濃度過低會引起模板的隨機(jī)擴(kuò)增[18],高GC含量的模板比低GC含量的模板擴(kuò)增效率低[19],低GC含量模板更易于擴(kuò)增,結(jié)果擴(kuò)增產(chǎn)物中低GC含量DNA偏多。(2)目前通用的16S rRNA基因引物擴(kuò)增范圍并不能完全覆蓋所有目標(biāo)類群[18],尤其是針對深海環(huán)境中的微生物,據(jù)Webster等的估計,27F和1492R引物分別覆蓋自然界中全部細(xì)菌的72.9%和16.3%[18];不過,Webster的觀點(diǎn)可能過于保守,目前還很難找到替代的通用引物,更別說針對深海環(huán)境的通用引物。
雖然基于16S rRNA基因的PCR-RFLP方法會低估環(huán)境中微生物多樣性,但卻是目前最成熟的方法,對微生物豐度的預(yù)測也多基于由該方法所獲取的多樣性數(shù)據(jù)。隨著技術(shù)的發(fā)展,16Sr DNA-DGGE(變性凝膠電泳)、宏基因組文庫中的數(shù)據(jù)也將逐漸用于估計環(huán)境樣品中微生物的豐度,對PCR-RFLP方法進(jìn)行進(jìn)一步的驗證。
總之,本文對南海陸坡沉積物柱細(xì)菌豐度進(jìn)行最優(yōu)估計估計,以97%序列一致性作為“種”的劃分標(biāo)準(zhǔn),負(fù)二項式分布模型最優(yōu),估計細(xì)菌的種數(shù)為244±10(SE),鑒于16S rRNA基因的PCR-RFLP實(shí)驗技術(shù)會低估細(xì)菌的多樣性,該值可能偏低。
[1] Tiedje J M.Microbial diversity:of value to whom?ASM News,1994,60:524-525.
[2] Olsen G J,Lane D J,Giovannoni S J,Pace N R,Stahl D A.Microbial ecology and evolution:a ribosomal RNA approach.Annual Review of Microbiology,1986,40(1):337-365.
[3] Hong S H,Bunge J,Jeon S O,Epstein S S.Predicting microbial species richness.Proceedings of the National Academy of Sciences of the United States of America,2006,103(1):117-122.
[4] Chao A,Shen T J.Program SPADE(Species Prediction and Diversity Estimation).Program and user's guide Available from:http://chao.stat.nthu.edu.tw.
[5] Zhou J Z,Davery E,F(xiàn)igure J B,Rivkina E,Gilichinsky D,Tiedje J M.Phylogenetic diversity of a bacterial community determined from Siberian tundra soil DNA.Microbiology,1997,143(12):3913-3919.
[6] DeLong E F.Archaea in coastal marine environments.Proceedings of the National Academy of Sciences of the United States of America,1992,89(12):5685-5689.
[7] Swofford D L.PAUP:Phylogenetic Analysis Using Parsimony(*and Other Methods).Version 4.0.Sinauer Associates:Sunderland,Massachusetts,1999.
[8] Hughes J B,Hellmann J J,Ricketts T H,Bohannan B J M.Counting the uncountable:statistical approaches to estimating microbial diversity.Applied and Environmental Microbiology,2001,67(10):4399-4406.
[9] Bohannan B J M,Hughes J.New approaches to analyzing microbial biodiversity data.Current Opinion in Microbiology,2003,6(3):282-287.
[10] Schloss P D,Handelsman J.Status of the microbial census.Microbiology and Molecular biology Reviews,2004,68(4):686-691.
[11] Hugenholtz P,Goebel B M,Pace N R.Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity.Journal of Bacteriology,1998,180(18):4765-4774.
[12] Sait M,Hugenholtz P,Janssen P H.Cultivation of globally distributed soil bacteria from phylogenetic lineages previously only detected in cultivation-independent surveys.Environmental Microbiology,2002,4(11):654-666.
[13] Kemp P F,Aller J Y.Bacterial diversity in aquatic and other environments:what 16S rDNA libraries can tell us.FEMS Microbiology Ecology,2004,47(2):161-177.
[14] Curtis T P,Sloan W T,Scannell J W.Estimating prokaryotic diversity and its limits.Proceedings of the National Academy of Sciences of the United States of America,2002,99(16):10494-10499.
[15] Dykhuizen D E.Santa Rosalia revisited:Why are there so many species of bacteria?Antonie van Leeuwenhoek,1998,73(1):25-33.
[16] Jeon S O,Bunge J,Stoeck T,Barger K J A,Hong S H,Epstein S S.Synthetic statistical approach reveals a high degree of richness of microbial eukaryotes in an anoxic water column.Applied and Environmental Microbiology,2006,72(10):6578-6583.
[17] Lee S M,Chao A.Estimating population size via sample coverage for closed capture-recapture models.Biometrics,1994,50(1):88-97.
[18] Webster G,Newberry C J,F(xiàn)ry J C,Weightman A J.Assessment of bacterial community structure in the deep sub-seafloor biosphere by 16S rDNA-based techniques:a cautionary tale.Journal of Microbiological Methods,2003,55(1):155-164.
[19] Wintzingerode F V,G?bel U B,Stackebrandt E.Determination of microbial diversity in environmental samples:pitfalls of PCR-based rRNA analysis.FEMS Microbiology Reviews,1997,21(3):213-229.