侯國(guó)森 張明乾 張文科 蘇曉泉
微生物是一種極小的生物體,廣泛地分布在人體、土壤、海洋等各種生態(tài)環(huán)境中,已成為自然界中重要的組成部分。絕大多數(shù)情況下,微生物不會(huì)孤立存在,而是以“微生物群落”(亦稱“菌群”)的形式,與其周圍的環(huán)境進(jìn)行著密切的相互作用。為了更好地描述菌群的特征,通常用“微生物組”來(lái)表示某個(gè)環(huán)境中所有微生物信息的總和?!叭祟惢蚪M計(jì)劃”(Human Genome Project)完成以后,人們意識(shí)到單純地解密人類自身的遺傳信息無(wú)法完全掌握疾病與健康之間的全部聯(lián)系。隨著測(cè)序技術(shù)以及生物信息學(xué)的發(fā)展,“人類微生物組計(jì)劃”(Human Microbiome Project)等研究發(fā)現(xiàn)微生物組與人體健康狀況的變化和疾病的發(fā)生發(fā)展密切相關(guān)。
微生物組研究中常使用β多樣性來(lái)反映不同群落之間的差異程度。β多樣性不僅是微生物組的重要特征之一,而且也是解碼復(fù)雜的微生物群落與其環(huán)境之間互作關(guān)系的紐帶,為微生物組技術(shù)在各個(gè)領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。利用β多樣性分析,科學(xué)家們能夠判斷出微生物組的結(jié)構(gòu)和功能是否與環(huán)境的某些狀態(tài)有著密切的關(guān)聯(lián),進(jìn)而根據(jù)β多樣性指標(biāo),對(duì)人體健康和疾病類型等特性進(jìn)行評(píng)估,使得微生物組能夠服務(wù)于疾病識(shí)別、干預(yù)策略制定、預(yù)后評(píng)估等領(lǐng)域。
如何計(jì)算微生物組兩兩之間的量化差異是β多樣性分析的核心。通常,微生物組之間的差異計(jì)算采用“全局比對(duì)”的模式,即利用群落中所有的組成成員來(lái)計(jì)算整體水平上的差異。一個(gè)微生物群落中可能包含數(shù)百種不同物種的微生物物種,它們各自的豐度(群落內(nèi)微生物物種的相對(duì)含量)也不盡相同,而且物種之間也存在著進(jìn)化層面的親緣關(guān)系。在“全局比對(duì)”模式下,對(duì)于兩個(gè)菌群,如果它們含有相同或親緣較近的微生物物種,并且其豐度也基本一致,那么這兩個(gè)樣本就具有很高的相似程度,差異也就越小。微生物組β多樣性分析中常用的Bray-Curtis距離、UniFrac距離[1-3]以及Meta-Storms[4-5]相似度等便是采用了這種思路。
利用“全局比對(duì)”,在計(jì)算出所有微生物組兩兩之間的β多樣性后,如果來(lái)自相同健康狀態(tài)的菌群之間差異很小,而不同健康狀態(tài)的菌群之間差異很大,就可以利用這種β多樣性特點(diǎn)來(lái)區(qū)分和識(shí)別疾病。目前已經(jīng)證實(shí),許多疾病,如炎癥性腸病[6]和結(jié)直腸癌[7]患者的腸道菌群中存在這種β多樣性模式,從而為基于微生物組的疾病檢測(cè)和早篩提供了基礎(chǔ)。
然而,對(duì)于某些疾病,例如自閉癥等只與腸道中的一小部分微生物成員有關(guān),難以在“整體層面”對(duì)菌群間的β多樣性產(chǎn)生影響,從而模糊了微生物組與疾病之間的關(guān)聯(lián),為微生物組的疾病檢測(cè)提出了新的挑戰(zhàn)。
為克服上述難題,筆者團(tuán)隊(duì)成功研發(fā)了面向微生物組的“局部比對(duì)”算法[8-9]。與常規(guī)的“全局比對(duì)”不同,“局部比對(duì)”算法僅根據(jù)特定的目標(biāo)微生物物種或生物標(biāo)記,計(jì)算菌群之間的局部相似性和差異,能夠更精準(zhǔn)地建立微生物組的復(fù)雜特征和疾病之間的聯(lián)系,使得檢測(cè)某些只與部分微生物成員相關(guān)的疾病成為可能。
理論上講,“局部比對(duì)”需要提取出與疾病相關(guān)的目標(biāo)物種進(jìn)行比較,但在實(shí)際研究中卻面臨兩個(gè)難題。一是生物標(biāo)記識(shí)別問(wèn)題,假如兩個(gè)菌群之間大多數(shù)物種相似,其β多樣性的差異僅與部分物種有關(guān),那么這類物種被稱為“精確標(biāo)記”。而如果微生物組測(cè)序錯(cuò)誤或者數(shù)據(jù)分析存在誤差,某個(gè)“精確標(biāo)記”很有可能被錯(cuò)誤地識(shí)別成其他近似物種,從而降低了比對(duì)的靈敏度。二是數(shù)據(jù)稀疏問(wèn)題,由于精確標(biāo)記物種的數(shù)量較少,且相對(duì)含量較低,菌群間用于計(jì)算量化差異的共同特征數(shù)量將會(huì)非常少。如兩個(gè)微生物組并不共享任何精確標(biāo)記。這樣的數(shù)據(jù)稀疏性會(huì)導(dǎo)致相似度接近于0,嚴(yán)重干擾比對(duì)的準(zhǔn)確度。
在筆者團(tuán)隊(duì)開發(fā)的“局部比對(duì)”算法中,采用“彈性特征提取”技術(shù)來(lái)解決上述問(wèn)題。除了精確標(biāo)記外,彈性特征提取同時(shí)也額外關(guān)注與精確標(biāo)記在進(jìn)化關(guān)系、代謝功能和生物學(xué)分類極其相似的微生物成員,即“近似標(biāo)記”。同時(shí),根據(jù)近似標(biāo)記和精準(zhǔn)標(biāo)記之間的親緣差異進(jìn)行加權(quán)合并分析。運(yùn)用前期研發(fā)的Meta-Storms算法[4-5]計(jì)算菌群之間β多樣性差異,從而完成“局部比對(duì)”,進(jìn)一步聚焦微生物組特定組成和疾病狀態(tài)之間的關(guān)聯(lián)。因此,該方法既能夠提高檢測(cè)靈敏度和準(zhǔn)確度,又能很大程度上避免了數(shù)據(jù)的稀疏性。
自閉癥,也稱為孤獨(dú)癥,是一種較為嚴(yán)重的發(fā)育障礙性疾病,會(huì)影響一個(gè)人的社交交往能力、語(yǔ)言溝通能力和行為模式。由于該疾病的癥狀表現(xiàn)非常復(fù)雜,因此臨床診斷非常困難。大量研究表明,自閉癥與腸道微生物組有著密切聯(lián)系,且僅與小部分腸道微生物有關(guān),例如乳桿菌屬(Lactobacillus)和副擬桿菌屬(Parabacteroides)等[10-12]。值得注意的是,自閉癥與健康對(duì)照組之間僅存在7個(gè)精確標(biāo)記,占整個(gè)微生物組總數(shù)的1.75%,因此會(huì)造成嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,極大地扭曲了菌群之間的β多樣性分布規(guī)律。常規(guī)的“全局比對(duì)”(如Bray-Curits算法、MetaStorms距離、UniFrac距離以及Phylo-RPCA算法)無(wú)法將自閉癥菌群與健康對(duì)照組區(qū)分開。而“局部比對(duì)”算法采用彈性特征提取,額外考慮了92個(gè)近似標(biāo)記物,建立起自閉癥與腸道微生物之間的隱藏聯(lián)系,可得到可靠的疾病分類信息。
結(jié)直腸癌是最常見的消化道癌癥之一。90%的早期結(jié)直腸癌患者可以存活至少5年。但由于早期癥狀不明顯,多數(shù)患者直到晚期才被確診為結(jié)直腸癌,因此結(jié)直腸癌的早期診斷具有重要的意義。相比于只影響少部分腸道微生物的自閉癥,結(jié)直腸癌會(huì)對(duì)腸道微生物組產(chǎn)生整體性影響[7]。那么,相比于“全局比對(duì)”算法,“局部比對(duì)算法”是否仍適用?筆者團(tuán)隊(duì)對(duì)來(lái)自結(jié)直腸癌研究的真實(shí)微生物組數(shù)據(jù)進(jìn)行分析后發(fā)現(xiàn),對(duì)于結(jié)直腸癌來(lái)說(shuō),大多數(shù)“全局比對(duì)”算法可成功捕捉到患者組和健康對(duì)照組之間β多樣性的分布規(guī)律。而“局部比對(duì)”算法通過(guò)靈活地從整個(gè)群落中提取精確和近似的標(biāo)記,能夠合理地放大不同組別之間的細(xì)微變化,其檢測(cè)效果相較于“全局比對(duì)”算法有明顯提升,這也為后續(xù)研發(fā)非侵入性的早篩方法打開了一扇新的大門。
“細(xì)節(jié)決定成敗”,相信在未來(lái)的微生物組研究中,聚焦局部細(xì)節(jié)的“局部比對(duì)”算法將扮演不可或缺的重要角色,更深刻地揭示微生物組與疾病之間的關(guān)系,為微生物的探索和人類健康的改善做出巨大貢獻(xiàn)。
[1]Lozupone C, Knight R. UniFrac: A new phylogenetic method for comparing microbial communities. Applied and Environmental Microbiology, 2005, 71(12): 8228-8235.
[2]Hamady M, Lozupone C, Knight R. Fast uniFrac: Facilitating high-throughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data. Isme Journal, 2010, 4(1): 17-27.
[3]McDonald D. Striped UniFrac: enabling microbiome analysis at unprecedented scale. Nat Methods, 2018, 15(11): 847-848.
[4]Xiaoquan S, Jian X,Kang N. Meta-storms: Efficient search for similar microbial communities based on a novel indexing scheme and similarity score for metagenomic data. Bioinformatics, 2012, 28(19): 2493.
[5]Su X, Wang X, Jing G, et al. GPU-Meta-storms: Computing the structure similarities among massive amount of microbial community samples using GPU. Bioinformatics, 2014(7): 1031-1033.
[6]Vazquez-Baeza, Yoshiki, Gonzalez, et al. Guiding longitudinal sampling in IBD cohorts. Gut Journal of the British Society of Gastroenterology, 2018, 67(9): 1743-1745.
[7]Wirbel J. Meta-analysis of fecal metagenomes reveals global microbial signatures that are specific for colorectal cancer. Nature Medicine, 2019, 25(4): 679.
[8]Su X. Elucidating the beta-diversity of the microbiome: from global alignment to local alignment. mSystems, 2021, 6(4).
[9]Zhang M, Zhang W, Chen Y, et al. Flex meta-storms elucidates the microbiome local beta-diversity under specific phenotypes. Bioinformatics, 2023, 39(4).
[10]Strati F, Cavalieri D, Albanese D, et al. New evidences on the altered gut microbiota in autism spectrum disorders. Microbiome, 2017, 5(24): 24.
[11]Liu J, Gao Z, Liu C, et al. Alteration of gut microbiota: New strategy for treating autism spectrum disorder. Frontiers in Cell and Developmental Biology, 2022, 10.
[12]Xiao L, Yan J, Yang T, et al. Fecal microbiome transplantation from children with autism spectrum disorder modulates tryptophan and serotonergic synapse metabolism and induces altered behaviors in germ-free mice. mSystems, 2021, 6(2).
關(guān)鍵詞:微生物組 β多樣性 局部比對(duì)算法 疾病檢測(cè) ■