陳尚坤
(吉林警察學(xué)院,吉林長(zhǎng)春 130117)
微生物末端限制性片段的長(zhǎng)度多態(tài)性研究新進(jìn)展
陳尚坤
(吉林警察學(xué)院,吉林長(zhǎng)春 130117)
有效的比對(duì)不同環(huán)境下微生物群落基因組間的差異,可為刑事偵查中鑒定不同物證的來(lái)源或異同,提供有效的分析思路;微生物基因組16S rRNA有多個(gè)區(qū)段高度保守,可以設(shè)計(jì)出通用引物,擴(kuò)增所有細(xì)菌的16S rRNA片段,而16S rRNA可變區(qū)的差異則可以用來(lái)區(qū)分不同的細(xì)菌;近年來(lái)發(fā)展起來(lái)的T-RFLP(末端標(biāo)記限制性片段長(zhǎng)度多態(tài)性)技術(shù)為該策略的實(shí)施提供了新的技術(shù)平臺(tái);本文對(duì)近年來(lái)T-RFLP分析的研究進(jìn)展進(jìn)行了系統(tǒng)回顧,對(duì)其關(guān)鍵技術(shù),包括引物及限制酶的選擇、末端片段的解析、信號(hào)的區(qū)分以及圖譜的解讀等方面的最新研究方法進(jìn)行了系統(tǒng)的比較和評(píng)價(jià),以期為其在法庭科學(xué)中的實(shí)踐提供相應(yīng)的參考和幫助。
微生物群落;16S rRNA;末端限制性片段的長(zhǎng)度多態(tài)性(T-RFLP);多樣性
在大量刑事案件中,犯罪嫌疑人為了逃避打擊,往往毀滅證據(jù),或者轉(zhuǎn)移尸體等與犯罪有關(guān)的證據(jù)。犯罪嫌疑人在進(jìn)出現(xiàn)場(chǎng)的過(guò)程中,鞋或者衣物會(huì)粘附有現(xiàn)場(chǎng)的泥土、水;轉(zhuǎn)移尸體等物品的過(guò)程中,嫌疑人、尸體等物體粘附有現(xiàn)場(chǎng)及所經(jīng)過(guò)地點(diǎn)的泥土、水。在一些交通肇事逃逸案件中,肇事車(chē)輛會(huì)被嫌疑人沖洗。而他們往往只注意車(chē)輛上的血跡,而不會(huì)注意所粘附的現(xiàn)場(chǎng)泥土。環(huán)境微生物學(xué)的研究說(shuō)明泥土、水中分布有大量的微生物,而且呈多樣性分布,不同地區(qū)及同一地區(qū)不同地點(diǎn)所分布的微生物種類(lèi)不同,菌株也不同。大量的微生物基因組測(cè)序顯示不同種類(lèi)微生物的基因組序列存在差異,不同菌株的某些位置序列存在多態(tài)性。因此通過(guò)分析泥土、水中的微生物種類(lèi)鑒別泥土的來(lái)源,無(wú)疑可為案件的偵破提供有力的線(xiàn)索和證據(jù)。
16S rRNA基因(rDNA)是最常用的作為細(xì)菌群落結(jié)構(gòu)分析的系統(tǒng)進(jìn)化標(biāo)記分子。目前,人們對(duì)細(xì)菌的16S rRNA序列已有了清晰的認(rèn)識(shí):該序列全長(zhǎng)約1 540 bp,有多個(gè)區(qū)段高度保守。根據(jù)這些保守區(qū)可以設(shè)計(jì)出細(xì)菌的通用引物,用來(lái)擴(kuò)增各種細(xì)菌的16S rRNA片段,而16S rRNA可變區(qū)的差異可以用來(lái)區(qū)分不同的細(xì)菌。
隨著核酸測(cè)序技術(shù)的發(fā)展,越來(lái)越多的rRNA基因序列被輸入數(shù)據(jù)庫(kù)。其中原核生物核糖體小亞基RNA的基因序列已達(dá)到20 000條以上。有了強(qiáng)大的數(shù)據(jù)庫(kù)支持,采用16S rRNA作目的序列進(jìn)行細(xì)菌群落結(jié)構(gòu)分析就更加方便可靠。確定了合適的目的序列后,根據(jù)序列的保守區(qū)設(shè)計(jì)引物,其中一個(gè)引物的5'端用熒光物質(zhì)標(biāo)記,然后提取待分析樣品的總DNA,以它為模板進(jìn)行PCR擴(kuò)增,所得到的PCR產(chǎn)物一端就帶有這種熒光標(biāo)記。然后,將PCR產(chǎn)物用合適的限制性?xún)?nèi)切酶消化,由于在不同細(xì)菌的擴(kuò)增片段內(nèi)存在核苷酸序列的差異,酶切位點(diǎn)會(huì)存在差異,酶切后就產(chǎn)生許多不同長(zhǎng)度的限制性片段。消化產(chǎn)物用DNA自動(dòng)測(cè)序儀(選用Genescan功能)進(jìn)行檢測(cè)獲得峰值圖,末端帶熒光標(biāo)記的片段(Terminal Restriction Fragment,T-RF)或者稱(chēng)作操縱分類(lèi)單元(Operational Taxonomic Unit,OTU)被檢測(cè)到,而其他沒(méi)帶熒光標(biāo)記的片段則檢測(cè)不到。因?yàn)橐环N細(xì)菌的T-RF長(zhǎng)度是唯一的,所以峰值圖上的每一個(gè)峰至少代表了一種細(xì)菌。
在GeneScan的峰值圖上,每個(gè)峰所占據(jù)的面積占總面積的百分?jǐn)?shù)就代表了這種T-RF的相對(duì)數(shù)量。雖然不同細(xì)菌基因組上16S rRNA以不同數(shù)量的多拷貝形式存在,導(dǎo)致了哪種細(xì)菌對(duì)應(yīng)的T-RF峰曲線(xiàn)下的面積大,該細(xì)菌的相對(duì)數(shù)量就大。據(jù)報(bào)道,峰值圖的重復(fù)性很高,因而該技術(shù)做定量分析是非??煽康摹?/p>
更為重要的是,在法科學(xué)實(shí)驗(yàn)室應(yīng)用T-RFLP技術(shù)進(jìn)行案件的調(diào)查時(shí),只需要比對(duì)不同樣本的圖譜(Profile)是否具有相同的來(lái)源,而不必去明確每個(gè)特征峰所代表的具體微生物的種類(lèi)。事實(shí)上,環(huán)境中的絕大多數(shù)微生物是不可培養(yǎng)的,可培養(yǎng)的微生物只占總量的0.1%~10%,這樣,應(yīng)用T-RFLP技術(shù)進(jìn)行法科學(xué)分析,無(wú)疑獲得了比其他方法更多的信息。
理想情況下,T-RFLP分析中引物的選擇應(yīng)該特定于相應(yīng)的目標(biāo)分類(lèi)群,但也需要足夠通用以便于它們可擴(kuò)增所有相關(guān)細(xì)菌種群。目前沒(méi)有已知的引物可同時(shí)滿(mǎn)足這兩個(gè)標(biāo)準(zhǔn)。例如,通過(guò)使用探針匹配工具,在核糖體數(shù)據(jù)庫(kù)項(xiàng)目(RDP)中一個(gè)計(jì)算機(jī)模擬的測(cè)序分析后表明,常用的細(xì)菌引物8fm(引物命名基于大腸桿菌16S rRNA基因)潛在地只能擴(kuò)增76%~98%的細(xì)菌16S rRNA基因序列[1]。另外,這個(gè)分析沒(méi)有考慮序列數(shù)據(jù)庫(kù)只包含部分現(xiàn)存的細(xì)菌多樣性,所以常用的引物如8fm不能完全滿(mǎn)足實(shí)踐的需要。另外,引物8fm對(duì)于細(xì)菌來(lái)說(shuō)并非100%特定,因?yàn)樗财ヅ浠驇?kù)(http:∥www.ncbi.nlm.nih.gov/Gen bank/)中古細(xì)菌16S rRNA基因序列中的19個(gè)古細(xì)菌的16S rRNA基因。盡管沒(méi)有完美的引物,仍然有一些基于數(shù)據(jù)庫(kù)序列的工具以便研究者比較不同引物的特異性和敏感性,如在微生物群落分析(MiCA)網(wǎng)站(http:∥mica.ibest.uidaho.edu/)里的引物優(yōu)化工具[2]及核糖體數(shù)據(jù)庫(kù)項(xiàng)目網(wǎng)站(http:∥rdp.cme.msu.edu/)中的探針匹配工具[1]。不足之處在于目前尚無(wú)可以同時(shí)分析古細(xì)菌序列的工具。
如果僅使用一個(gè)熒光標(biāo)記引物進(jìn)行檢測(cè),可能造成在一個(gè)樣本中低估微生物多樣性的結(jié)果。因?yàn)椴煌木嚎捎梢粋€(gè)特定的引物酶切組合而產(chǎn)生相等的末端限制長(zhǎng)度片段[1]。如果使用兩個(gè)標(biāo)記引物可以削弱這個(gè)問(wèn)題,前提是那些不可能被一個(gè)引物所區(qū)分的種群可以通過(guò)第二個(gè)標(biāo)記引物產(chǎn)生的末端片段所提供的額外信息加以區(qū)分[3]。通過(guò)引入第三個(gè)或更多標(biāo)記引物可以更進(jìn)一步解決這一問(wèn)題。例如,Zhou[4]應(yīng)用兩個(gè)獨(dú)立的PCR反應(yīng)以擴(kuò)增人類(lèi)陰道菌群的16S rRNA基因,這兩個(gè)PCR反應(yīng)采用兩個(gè)不同標(biāo)記的正向引物結(jié)合相同的反向引物。消化后,兩個(gè)反應(yīng)的限制產(chǎn)物在分析前進(jìn)行混合,分析取得了良好的效果。
相同的PCR反應(yīng)中也可以使用多個(gè)引物以研究總?cè)郝渲胁煌念?lèi)群(復(fù)合擴(kuò)增)。如Singh[5]等針對(duì)細(xì)菌、古細(xì)菌和真菌,使用了3對(duì)不同的引物對(duì)土壤的生物群進(jìn)行了復(fù)合擴(kuò)增,并應(yīng)用3個(gè)獨(dú)立的PCR反應(yīng)及其產(chǎn)生的T-RFLP圖譜,對(duì)此復(fù)合擴(kuò)增及其酶切的效能進(jìn)行了評(píng)估,另外,他們還應(yīng)用單個(gè)PCR反應(yīng)的產(chǎn)物構(gòu)建DNA池進(jìn)行了對(duì)比分析。結(jié)果顯示,單個(gè)反應(yīng)、復(fù)合擴(kuò)增及PCR產(chǎn)物池的圖譜,在代表樣本中不同微生物的峰的數(shù)目、位置及相對(duì)峰值等指標(biāo)上是一致的。
T-RFLP分析區(qū)分細(xì)菌種群的方法,依賴(lài)于使用限制性?xún)?nèi)切酶來(lái)檢測(cè)16S rRNA基因的序列多態(tài)性。通常情況下,那些有四個(gè)堿基對(duì)識(shí)別位點(diǎn)的酶,由于具有較高的識(shí)別頻率而被使用。一些研究已經(jīng)證明,使用一個(gè)以上的限制性?xún)?nèi)切酶提高了細(xì)菌種群的分辨率。這是因?yàn)椋煌募?xì)菌種群經(jīng)一個(gè)特定引物-酶組合處理后,可產(chǎn)生相同的末端限制性長(zhǎng)度片段[1]。
檢測(cè)不同的限制性?xún)?nèi)切酶對(duì)于特定序列的消化能力,可通過(guò)基因序列數(shù)據(jù)庫(kù)、不同富度種群以及從T-RFs數(shù)據(jù)庫(kù)反復(fù)隨機(jī)抽樣等方法。Engebretson與Moyer[6]評(píng)估了18種限制酶后發(fā)現(xiàn),在他們的模型群落中最常用于剪切單個(gè)群落的酶是BstUI,DdeI,Sau961和MspI。對(duì)于超過(guò)50個(gè)操作分類(lèi)單元(OTUs)的群落,沒(méi)有一種限制酶可以作用于OTUs總量的70%以上。因此,T-RFLP能夠有效地用于低或中等豐富度的群落。
評(píng)價(jià)一種限制性?xún)?nèi)切酶對(duì)不同序列的消化能力可借助生物信息學(xué)工具來(lái)完成,比如T-RFLP分析程序(TAP)TRFLP(http:∥rdp8.cme.msu.edu/html/TAP-trflp.html)、針對(duì)16S rRNA基因的MiCA (http:∥mica.ibest.uidaho.edu/)工具以及目的在于功能基因的ARB實(shí)現(xiàn)工具TRF-CUT(http:∥www.mpi-marburg.mpg.de/downloads/)等。TAP TRFLP位于RDP網(wǎng)站,它通過(guò)運(yùn)用數(shù)據(jù)庫(kù)數(shù)據(jù)來(lái)進(jìn)行計(jì)算機(jī)模擬,以不同的引物-酶組合來(lái)消化數(shù)據(jù)庫(kù)中所有的16S rRNA基因,從而進(jìn)行限制酶的選擇。TAP T-RFLP把選擇的一個(gè)正向或反向引物相匹配于數(shù)據(jù)庫(kù)中的每一個(gè)序列后,將所有匹配引物的序列都通過(guò)已選擇的選擇限制酶進(jìn)行計(jì)算機(jī)模擬消化。這樣的分析可以解決幾個(gè)問(wèn)題:①哪種(些)酶最適用于區(qū)分種系從而進(jìn)行種群多樣性評(píng)估;②哪種(些)酶最適用于識(shí)別靶系統(tǒng)基因組;③哪種(些)引物-酶組合最適合一個(gè)特定的數(shù)據(jù)集。默認(rèn)的輸出結(jié)果顯示在RDP的系統(tǒng)層次結(jié)構(gòu)中。此外,這些結(jié)果可以通過(guò)序列名稱(chēng)或末端片段大小進(jìn)行整理。雖然TAP TRFLP是一個(gè)功能強(qiáng)大的工具,對(duì)不同的限制性?xún)?nèi)切酶對(duì)各種群的分辨能力,可以給研究者以直觀的印象,但也同時(shí)具有特殊限制。它只允許一個(gè)引物酶組合被指定,數(shù)據(jù)不能自動(dòng)排序,并且結(jié)果不能被打印或輸出于其他程序。相反,MiCA允許用戶(hù)指定正向引物與反向引物,一個(gè)引物與目標(biāo)序列的不匹配數(shù)量,可選擇3個(gè)限制酶且可選擇使用數(shù)據(jù)庫(kù)。該工具使用連接到數(shù)據(jù)庫(kù)的一個(gè)查詢(xún)程序,并在特定參數(shù)的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行分析。結(jié)果可被寫(xiě)入PHP、純文本或逗號(hào)分隔值格式。然而,這些結(jié)果的缺陷是它們可能會(huì)非常大且難以解釋。另外一個(gè)可選擇的的工具是限制性?xún)?nèi)切酶選擇器(REPK;http:∥rocaplab.ocean.washington.edu/ tools/repk),該程序可針對(duì)用戶(hù)指定的序列,自動(dòng)確定相關(guān)的的限制酶集。用戶(hù)輸入一個(gè)修整后的FASTA格式文件,文件包含被用于計(jì)算機(jī)模擬消化分析的序列。上傳FASTA文件后,可通過(guò)最新REBASE數(shù)據(jù)庫(kù)得出的列表中來(lái)選擇限制酶,或者用戶(hù)自行定義來(lái)選擇。比如末端片段的最小、最大允許長(zhǎng)度和每種酶必須能夠區(qū)分的種群數(shù)目的最小閾值等,諸如此類(lèi)的指標(biāo)都可具體設(shè)置。所有選定的限制酶都雙向消化既定序列。末端片段的大小被確定并且產(chǎn)生一個(gè)模型。特定大小的酶切片段被置于特定“箱體”中并認(rèn)為大小相同。然后,程序會(huì)決定“箱體”內(nèi)是含有單一細(xì)菌種群的序列還是不同種群的序列,不同種群序列意味著該特定的限制酶不能區(qū)分細(xì)菌種群。那些能夠充分區(qū)分細(xì)菌種群的酶經(jīng)過(guò)嚴(yán)格篩查并被保存在最終輸出結(jié)果中。Collins與Rocap[7]研究表明,如果一個(gè)新的群落必須被區(qū)分,或者一個(gè)既定群落的組成成分必須被區(qū)分,那么REPK將會(huì)特別適用。
盡管網(wǎng)絡(luò)工具和計(jì)算機(jī)模擬實(shí)驗(yàn)研究提供了判斷限制酶分辨細(xì)菌群落的能力,這些工具產(chǎn)生的結(jié)果仍需謹(jǐn)慎使用。研究人員必須謹(jǐn)記,目前發(fā)現(xiàn)的細(xì)菌多樣性只是一小部分而且序列數(shù)據(jù)庫(kù)是不完整的。因此,樣品中含有的種系,沒(méi)有在任何數(shù)據(jù)庫(kù)中表示出來(lái)的情況是可能的。因此,計(jì)算機(jī)模擬消化分析選擇引物-酶組合時(shí)應(yīng)根據(jù)經(jīng)驗(yàn)評(píng)估以確保這些酶能夠更好地區(qū)分樣品種群。
樣品中熒光標(biāo)記T-RFs的長(zhǎng)度與豐度的差別通常使用毛細(xì)管或聚丙烯酰胺凝膠電泳區(qū)分,T-RFs的電泳遷移率與已知標(biāo)準(zhǔn)大小比較。T-RFs的實(shí)際大小通過(guò)插值算法估計(jì),如Local Southern算法可用于GeneScan和GeneMapper這樣的軟件包。每個(gè)TRF的豐度由熒光強(qiáng)度來(lái)確定并表示為峰高或峰面積。一般來(lái)說(shuō),T-RFLP分析采用毛細(xì)管電泳會(huì)比聚丙烯酰胺凝膠電泳更精確且重現(xiàn)性更好[8]。即便如此,運(yùn)行間的變化造成即使是相同的細(xì)菌種群的末端片段都會(huì)存在細(xì)小偏差,因此圖譜識(shí)別需要保持一致。不同大小的片段一般被分配至不同種類(lèi)的操作分類(lèi)單元或“箱”中。每個(gè)“箱”中可能實(shí)際包含不止一個(gè)種系,這由被分析群落的物種復(fù)雜性、種群間的親緣關(guān)聯(lián)度以及引物與酶的剪切能力所決定。毛細(xì)管系統(tǒng)的一個(gè)缺點(diǎn)是,由于采用電動(dòng)進(jìn)樣,通過(guò)施加電場(chǎng)將帶電分子注入到毛細(xì)管中,這會(huì)導(dǎo)致越小的分子越先進(jìn)入,所以應(yīng)將鹽和PCR反應(yīng)[9]或酶切反應(yīng)[10]的引物在樣品分析前去除。
片段大小的精確確定尤為重要,特別是在如果我們的目的是從T-RFLP圖譜推斷出合理的群落組成的前提下。使用網(wǎng)絡(luò)工具可確定合理的群落組成,其中,T-RFs的大小應(yīng)與來(lái)自數(shù)據(jù)庫(kù)信息中相應(yīng)種群的16S rRNA基因的T-RF大小相匹配。然而有時(shí)這點(diǎn)并不能保證做到,因?yàn)榧俚腡-RFs(特別是單鏈擴(kuò)增子)可能在PCR反應(yīng)中形成[11],并且不同的熒光團(tuán)可以通過(guò)不同方式影響片段的電泳遷移率,使在確定片段大小時(shí)產(chǎn)生錯(cuò)誤[12]。盡管DNA片段的毛細(xì)管電泳分析是非常精確的(±1 bp),但它并不一定是準(zhǔn)確的,因?yàn)樯写嬖谝恍┎淮_定因素。用熒光素染料標(biāo)記的DNA片段,例如6FAM和HEX,遷移速率比那些用羅丹明染料標(biāo)記的DNA片段(如ROX)快得多,后者常用于作為系統(tǒng)內(nèi)標(biāo)。其結(jié)果是,HEX或6FAM標(biāo)記的末端片段大小會(huì)被低估。調(diào)整遷移行為的差異是不容易的,因?yàn)槠未笮〔町惖姆炔皇呛愣ǖ?。?duì)于小于100 bp的片段,其差別可達(dá)11 bp[13],對(duì)于大約500 bp的片段,其差別又會(huì)減少至2~3 bp,而對(duì)于大于700 bp的片段,這種差值又會(huì)增加。另外,各片段中嘌呤含量的不同也可帶來(lái)T-RF真實(shí)值和觀察值大小的差異[14]。此外,用于確定DNA片段大小的算法的性能也隨著DNA片段大小的增加而降低。常用的Local Southern算法假定片段的遷移時(shí)間隨著片段大小線(xiàn)性增加,但事實(shí)并非如此,所以越大的DNA片段就越可能被錯(cuò)誤認(rèn)定。目前,沒(méi)有任何的解決方案可以糾正由于使用不同熒光造成的遷移差異,研究者在使用T-RFLP數(shù)據(jù)以確定群落組成時(shí)應(yīng)該考慮到這一點(diǎn)。
T-RFLP圖譜分析的第一步是將信號(hào)從電子干擾中區(qū)分出來(lái),即需要確定基準(zhǔn)線(xiàn)。GeneScan和GeneMapper這樣的程序可以確定峰的開(kāi)始與結(jié)束、峰的高度及面積等,但必須由研究者確定實(shí)際基準(zhǔn)。因?yàn)椴煌倪\(yùn)行過(guò)程產(chǎn)生不同的電子干擾,所以理想情況下,用來(lái)從圖譜的干擾信號(hào)中篩查真實(shí)信號(hào)的程序應(yīng)該是一個(gè)自動(dòng)化的客觀方法。峰高或者峰面積都可以用來(lái)從干擾中區(qū)分信號(hào),且兩者具有各自的優(yōu)點(diǎn)和缺點(diǎn)[15]。確定基線(xiàn)的方法目前包括固定閾值、比例閾值以及統(tǒng)計(jì)確定閾值等幾種。
區(qū)分信號(hào)最簡(jiǎn)單的方法是施加一個(gè)固定的檢測(cè)閾值,即隨機(jī)選擇的值,如50或100 FU(熒光單位)。采用高檢測(cè)閾值,如100 FU[16],可確保將峰誤判為干擾的數(shù)目大大減少,但風(fēng)險(xiǎn)在于可能將客觀存在的矮小峰排除在外。此外,設(shè)定固定的檢測(cè)閾值的前提,是基于檢測(cè)樣本的圖譜是不受負(fù)荷與檢測(cè)效率等實(shí)驗(yàn)誤差影響的假設(shè)。Dunbar[17]已經(jīng)表明閾值不能被任意預(yù)先設(shè)定,因?yàn)樽罴验撝翟跇颖鹃g存在差異?;诖?,固定閾值的方法不是一個(gè)有效的方法。
一個(gè)更精確的方法是使用一個(gè)固定的百分比閾值[18]。要做到這一點(diǎn),需要將一個(gè)給定樣品的圖譜中存在的所有的T-RFs及其峰面積生成一個(gè)矩陣。如果一個(gè)T-RF沒(méi)有在一個(gè)特定圖譜中出現(xiàn),會(huì)分配至為“零”的區(qū)域。然后,該數(shù)據(jù)集會(huì)被圖譜中計(jì)算出的每個(gè)峰的總面積的比例標(biāo)準(zhǔn)化。要確定基線(xiàn),百分比閾值會(huì)以這樣的方式被選擇,即總峰面積和峰數(shù)之間的相關(guān)性被最小化。之所以這樣做,是因?yàn)樾枰刂朴捎谧⑷隓NA量的不同而帶來(lái)的差異。總峰面積和峰數(shù)量間的強(qiáng)相關(guān)性表明,更高的DNA注入量造成了閾值以上的較大數(shù)量的峰,而不是因?yàn)闃颖局写巳郝涞谋戎卮笤斐傻摹?/p>
Dunbar介紹的方法也提及了上述問(wèn)題,注入不同量的DNA可能會(huì)影響細(xì)菌種群在T-RFLP圖譜表現(xiàn)的數(shù)量和相對(duì)豐度。該方法應(yīng)用最小峰高作為基礎(chǔ)來(lái)標(biāo)準(zhǔn)化圖譜中的其他峰高。要做到這一點(diǎn),每個(gè)圖譜的總峰高的計(jì)算僅包括大于25個(gè)熒光單位的峰高。數(shù)據(jù)集中任何樣本的總峰值除以最小峰高值,而得到此峰的校正系數(shù)。此校正系數(shù)被用來(lái)調(diào)整圖譜中的峰值高度,并通過(guò)這樣做調(diào)整DNA注入量的差異。例如,假設(shè)20 000 FU是最小峰高,則圖譜上總峰高度為40 000 FU的樣品的校正系數(shù)為0.5。因此,后面的圖譜將每個(gè)峰值高度乘以0.5。此次修正后,有些峰將低于25 FU的門(mén)檻并被去除。隨后計(jì)算每個(gè)圖譜而得到一個(gè)新的總峰高值,并且這個(gè)過(guò)程反復(fù)進(jìn)行直至它們每個(gè)都等于最小峰高。作者指出,使用25 FU的閾值未能從數(shù)據(jù)中消除所有干擾,并且這會(huì)影響進(jìn)一步的統(tǒng)計(jì)比較。因此,只有標(biāo)準(zhǔn)化后的峰將會(huì)做進(jìn)一步的比較。這種方法是在恒定基線(xiàn)值(25 U)主觀選擇中優(yōu)化的方案。
不同的圖譜中的電子干擾是不同的,所以使用相同的百分比閾值以消除所有圖譜中干擾是不可能的。因此,Osborne[16]提出使用可變百分比閾值來(lái)解決這一問(wèn)題。Sait[18]及Osborne等的方法試圖最小化總峰面積與峰數(shù)之間的關(guān)系。在該方法中,分別為每個(gè)圖譜確定閾值百分比使之達(dá)到最弱的總峰面積與峰數(shù)之間關(guān)系的結(jié)果。Osborne將他們的方法與Sait和Dunbar的兩個(gè)程序作比較并總結(jié),他們的方法能更好地區(qū)分信號(hào)與干擾,因?yàn)榧庸ず蟮膱D譜能夠最大程度地精確分組。
統(tǒng)計(jì)理論的一種新的統(tǒng)計(jì)方法已應(yīng)用到信號(hào)/干擾區(qū)分中[19]。使用此程序,數(shù)據(jù)由每個(gè)峰的面積除以該特定樣品的總的峰面積而標(biāo)準(zhǔn)化。數(shù)據(jù)集的標(biāo)準(zhǔn)偏差隨后通過(guò)假定真實(shí)平均值為零而計(jì)算出來(lái)。峰面積大于平均值的標(biāo)準(zhǔn)偏差3倍的峰被確定為真實(shí)信號(hào)并被采用。這個(gè)過(guò)程一直重復(fù)直至沒(méi)有更多的“真實(shí)峰”被確定。這種方法倚重于為解決注入DNA不同而采取的圖形標(biāo)準(zhǔn)化,而這種標(biāo)準(zhǔn)化導(dǎo)致了一些無(wú)法與干擾相區(qū)分的小峰的減少。盡管如此,此方法在識(shí)別較小的峰時(shí)比其他方法更加靈敏,這也可能會(huì)導(dǎo)致圖譜中各菌群豐度的細(xì)微差別。盡管使用基于峰高和峰面積的歐幾里德距離可以將這些差異縮小,但基于存在/不存在的矩陣分析可能會(huì)放大豐度的差異并可能會(huì)產(chǎn)生不準(zhǔn)確的結(jié)果。
T-RFLP分析不同運(yùn)行過(guò)程中的差異,可能導(dǎo)致對(duì)相同菌群的T-RF估計(jì)片段大小產(chǎn)生細(xì)微差別。因?yàn)檫@種運(yùn)行間的變化是客觀存在的,所以在進(jìn)行進(jìn)一步的統(tǒng)計(jì)分析之前,必須使圖譜保持有效的一致性。用于將不同大小的片段分配給不同的長(zhǎng)度分型區(qū)(箱體)的方法,包括四舍五入法、人工分區(qū)以及基于聚類(lèi)的統(tǒng)計(jì)方法[20]。如果參數(shù)的選擇是基于貫穿始終的實(shí)驗(yàn)數(shù)據(jù),則可以應(yīng)用自動(dòng)化程序?qū)Υ髷?shù)據(jù)集進(jìn)行客觀分析,并提供統(tǒng)計(jì)學(xué)依據(jù),因此,統(tǒng)計(jì)方法的使用無(wú)疑優(yōu)于四舍五入及人工分區(qū)的方法。
四舍五入是最簡(jiǎn)單的方法。預(yù)計(jì)的片段大小被四舍五入至最接近整數(shù),然后每個(gè)整數(shù)倍視為一個(gè)箱。這個(gè)方法存在局限性,DNA片段的毛細(xì)管電泳分析的誤差為±0.5 bp,所以分次運(yùn)行的相同片段可能被放置于不同的箱中。例如,一個(gè)圖譜中100.4 bp的片段將被放置于一個(gè)100 bp的箱中,而在另一圖譜中的該片段可能被測(cè)出為100.6 bp,四舍五入后為101 bp并被置于另一個(gè)箱中。由于兩個(gè)片段大小的差異只有0.2 bp,在分組時(shí)它們可能本該歸于同一類(lèi)。由于有此問(wèn)題,對(duì)于調(diào)整T-RFLP圖譜來(lái)說(shuō),整數(shù)法并不適用。
與四舍五入法比較,用人工分區(qū)的方法,一個(gè)有經(jīng)驗(yàn)的分析師可在兩可的情況下做出正確的選擇。人工分區(qū)由于存在主觀判斷誤差的可能性,并且不具備高通量分析能力,因此并不推薦。
Hewson和Fuhrman[21]描述了一個(gè)箱體化的技術(shù),其特征在于圖譜基于固定大小窗口的不同箱體而對(duì)齊。在他們的例子中,Hewson和Fuhrman使用10 bp大小作為箱的窗口。如果排除由于引物二聚體峰產(chǎn)生的大小小于50 bp的片段,則第一個(gè)箱將包含50~59 bp的所有片段,第二個(gè)箱將包含所有大小為60~69的片段,并依此類(lèi)推。排列進(jìn)行數(shù)輪,且每輪中窗口的起點(diǎn)都要偏移1 bp;即在第二輪排列中,所有片段長(zhǎng)度,從51~60 bp,61~70 bp等,被認(rèn)為是相同的。完成對(duì)齊所需要的次數(shù)等于箱的窗口的大小,在本例中,需要十次(應(yīng)當(dāng)指出,此方法被發(fā)展用于使用聚丙烯酰胺凝膠和非毛細(xì)管凝膠電泳的片段分析中,由于可能產(chǎn)生較大的運(yùn)行間差異,因此,提倡使用大的窗口)。對(duì)于每一層結(jié)構(gòu),所有的圖譜的兩兩之間的相似性被計(jì)算,在圖譜中兩兩之間的最大相似中構(gòu)建聚類(lèi)樹(shù)(UPGMA),該樹(shù)對(duì)不同的微生物群落進(jìn)行勾畫(huà)。分箱方法只在對(duì)未知群落結(jié)構(gòu)的樣本檢測(cè),因此,這種方法用于確定真實(shí)的微生物群落的差異的能力仍然未知。這種分箱方法經(jīng)Ruan[22]進(jìn)一步改進(jìn)后,允許根據(jù)片段大小決定不同箱體的窗口大小,因?yàn)槠螠y(cè)量的可重復(fù)性隨片段大小的變化而變化。
Dunbar[17]提出根據(jù)片段大小來(lái)對(duì)齊圖譜,例如±0.5 bp。由于這種分析使用毛細(xì)管凝膠電泳,所有長(zhǎng)度差異小于0.5 bp的片段被認(rèn)為是相同的并置于同一箱中。這種方法的一個(gè)潛在缺陷是,在某些情況下,尺寸差小于0.5 bp的峰可能是客觀存在的。為了解決這個(gè)問(wèn)題,Dunbar限制了可以被分配給一個(gè)箱對(duì)應(yīng)圖譜的峰的最大數(shù)目。此方法優(yōu)于Hewson和Fuhrman開(kāi)發(fā)的方法,因?yàn)橥ㄟ^(guò)Dunbar的方法,決定兩個(gè)片段是否屬于同一箱體的基礎(chǔ)是兩個(gè)片段大小的差異,而不是它們是否屬于一個(gè)相同的預(yù)設(shè)的固定箱的窗口。
Abdo[19]在分析T-RFLP圖譜時(shí)使用層次聚類(lèi)的方法。盡管對(duì)箱中片段的數(shù)目沒(méi)有限制,這種方法仍然與Dunbar描述的方法相似。首先,所有相關(guān)的圖譜中的所有片段長(zhǎng)度被合并、排序以及刪除重復(fù)片段。然后,采用聚類(lèi)樹(shù)(UPGMA)進(jìn)行層次聚類(lèi),以識(shí)別足夠接近且可被同一箱體化(例如,±1 bp半徑內(nèi))的長(zhǎng)度片段。聚類(lèi)程序通過(guò)選擇兩個(gè)具有最小尺寸差異的片段啟動(dòng)。將這兩個(gè)片段進(jìn)行分組,并形成一個(gè)由它們的平均片段大小表示的箱。此程序持續(xù)將片段分組至箱,直至沒(méi)有更多的片段或箱能夠滿(mǎn)足尺寸差小于定義值的要求。如果一個(gè)樣本內(nèi)的片段分在同一箱體,則它們的峰面積相加并視為一個(gè)單一的峰。
分析環(huán)境中微生物的差別,為法庭科學(xué)實(shí)踐提供有效技術(shù)手段和解決思路已成為不爭(zhēng)的趨勢(shì)[23]。盡管T-RFLP技術(shù)目前還存在一些缺陷,但仍是最好的微生物多樣性分析工具之一。我們相信,隨著該方法的進(jìn)一步完善和設(shè)備、試劑的改進(jìn),數(shù)據(jù)庫(kù)中核酸序列的不斷豐富,以及相關(guān)標(biāo)準(zhǔn)的制定和實(shí)施,TRFLP技術(shù)在司法實(shí)踐中必將得到更加廣泛的應(yīng)用。
[1]MARSH T L,SAXMAN P,COLE J,et al.Terminal restriction fragment length polymorphism analysis program,a web-based research tool for microbial community analysis[J].Applied and Environmental Microbiol,2000,66 (8):3616-3620.
[2]SHYU C,SOULE T,BENT S J,et al.MiCA:a webbased tool for the analysis of microbial communities based on terminal-restriction fragment length polymorphisms of16S and 18S rRNA genes[J].Microb Ecol,2007,53 (4):562-570.
[3]LIU W T,MARSH T L,CHENG H,et al.Characterization of microbial diversity by determining terminal restriction fragment length polymorphisms of genes encoding 16S rRNA[J].Appled and Environmental Microbiology,1997,63(11):4516-4522.
[4]ZHOU X,BROWN C J,ABDO Z,et al.Differences in the composition of vaginal microbial community healthy found in Caucasian and black woman[J].ISME Journal,2007,1(2):121-133.
[5]SINGH B K,NAZARIES L,MUNRO S,et al.Use of multiplex terminal restriction fragment length polymorphism for rapid and simultaneous analysis of different components of the soil microbial community[J].Applied and Environmental Microbiology,2006,72(11):7278-7285.
[6]EGERT M,F(xiàn)RIEDRICH M W.Formation of pseudo-terminal restriction fragments,a PCR-related bias affecting terminal restriction fragment length polymorphism analysis of microbial community structure[J].Applied and Environment Microbiology,2003,69(5):2555-2562.
[7]COLLINS R E,ROCAP G.REPK:an analytical web server to select restriction endonucleases for terminal restriction fragment length polymorphism analysis[J].Nucleic Acids Research,2007,35(suppl 2):w58-w62.
[8]BEHR S,M?TZIG M,LEVIN A,et al.A fully automated multicapillary electrophoresis device for DNA analysis[J].Chromatographia,1999,49:581-582.
[9]TIQUIA S M,ICHIDA J M,KEENER H M,et al.Bacterial community profiles on feathers during composting as determined by terminal restriction fragment length polymorphism analysis of 16S rDNA genes[J].Applied Microbiol Biotechnol,2005,67(3):412-419.
[10]HOSHINO T,TERAHARA T,YAMADA K,et al.Long-term monitoring of the succession of a microbial community in activated sludge from a circulation flush toilet as a closed system[J].FEMS Microbiol Ecology,2006,55(3):459-470.
[11]EGERT M,F(xiàn)RIEDRICH M W.Post-amplification Klenow fragment treatment alleviates PCR bias caused by partially single-stranded amplicons[J].Journal of Microbiological Methods,2005,61(1):69-75.
[12]TU O,KNOTT T,MARSH M,et al.The influence of fluorescent dye structure on the electrophoretic mobility of end-labeled DNA[J].Nucleic Acid Research,1998,26(11):2797-2802.
[13]HAHN M,WILHELM J,PINGOUD A.Influence of fluorophore dye labels on the migration behavior of polymerase chain reactionamplified short tandem repeats during denaturing capillary electrophoresis[J].Electrophoresis,2001,22:2691-2700.
[14]KAPLAN C W,KITTS C L.Variation between observed and true terminal restriction fragment length is dependent on true TRF length and purine content[J].Journal of Microbiological Methods,2003,54(1):121-125.
[15]LUEDERS T,F(xiàn)RIEDRICH M W.Evaluation of PCR amplification bias by terminal restriction fragment length polymorphism analysis of small-subunit rRNA and mcrA genes by using defined template mixtures of methanogenic pure cultures and soil DNA extracts[J].Applied and Environmental Microbiology,2003,69(1):320-326.
[16]OSBORN A M,MOORE E R B,TIMMIS K N.An evaluation of terminal restriction fragment length polymorphism(T-RFLP)analysis for the study of microbial community structure and dynamics[J].Environmental Microbiology,2000,2(1):39-50.
[17]DUNBAR J,TICKNOR L O,KUSKE C R.Phylogenetic specificity and reproducibility and new method for analysis of terminal restriction fragment profiles of 16S rRNA genes from bacterial communities[J].Applied and Environmental Microbiology,2001,67(1):190-197.
[18]SAIT L,GALIC M,STRUGNELL R A,et al.Secretory antibodies do not affect the composition of the bacterial microbiota in the terminal ileum of 10-week-old mice[J].Applied and Environmental Microbiology,2003,69(4):2100-2109.
[19]ABDO Z,SCH?TTE U M E,BENT S J,et al.Statistical methods for characterizing diversity of microbial communities by analysis of terminal restriction fragment length polymorphisms of 16S rRNA genes[J].Environmental Microbiology,2006,8(5):929-938.
[20]BLACKWOOD C B,PAUL E A.Eubacterial community structure and population size within the soil light fraction,rhizosphere,and heavy fraction of several agricultural systems[J].Soil Biology and Biochemistry,2003,35(9):1245-1255.
[21]HEWSON I,F(xiàn)UHRMAN J A.Improved strategy for comparing microbial assemblage fingerprints[J].Microbial Ecology,2006,51(2):147-153.
[22]RUAN Q,STEELE J A,SCHWALBACH M S,et al.A dynamic programming algorithm for binning microbial community profiles[J].Bioinformatics,2006,22(12): 1508-1514.
[23]CATRIONA A.Macdonald.Discrimination of soils at regional and local levels using bacterial and fungal TRFLP profiling[J].Journal of Forensic Sciences,2011,56(1):61-69.
(責(zé)任編輯 陳小明)
918.93
本文系吉林省科技廳科技發(fā)展計(jì)劃項(xiàng)目階段性研究成果(20110424)。
陳尚坤(1969—),女,吉林長(zhǎng)春人,吉林警察學(xué)院學(xué)報(bào)編輯部主任,編審。主要研究方向?yàn)槲⒘课镒C鑒定。
中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版)2014年4期