亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基因組挖掘在天然產(chǎn)物發(fā)現(xiàn)中的應(yīng)用和前景

        2021-11-29 06:40:36楊謙程伯濤湯志軍劉文
        合成生物學(xué) 2021年5期
        關(guān)鍵詞:數(shù)據(jù)庫生物

        楊謙,程伯濤,湯志軍,劉文,2

        (1 中國科學(xué)院上海有機化學(xué)研究所,生命有機化學(xué)國家重點實驗室,上海 200032;2 中國科學(xué)院上海有機化學(xué)研究所,湖州生物制造中心,浙江 湖州 313000)

        自然界作為活性天然產(chǎn)物的重要來源孕育了數(shù)以萬計的生命有機體。在過去的幾十年里,絕大多數(shù)抗癌、抗感染和抗菌藥物都源于生命體所產(chǎn)生的天然產(chǎn)物及其衍生物,如青霉素、洛伐他汀、紫杉醇[1-2]。其中,許多來源于土壤、海洋及特殊環(huán)境的微生物由于能夠產(chǎn)生一系列活性顯著且具有成藥潛力的天然產(chǎn)物而備受關(guān)注,這些化合物的發(fā)現(xiàn)也為新藥創(chuàng)制開辟了新的思路。然而,人類疾病譜的變化以及多藥耐藥等一系列問題的出現(xiàn),使得開發(fā)新的藥物成為人類健康的迫切需求?;诨钚詫?dǎo)向藥物發(fā)現(xiàn)的方法雖然可以從植物、動物及微生物中分離獲得具有生物活性的小分子,但是這些篩選方法不僅耗時耗力,而且不能避免重復(fù)性、盲目性以及低效率等弊端。

        基因組時代的到來為我們提供了來源于不同有機體數(shù)以萬計的DNA(deoxyribo nucleic acid,脫氧核糖核酸)序列,這些數(shù)據(jù)不僅能夠為生物學(xué)各個分支學(xué)科提供豐富的物質(zhì)基礎(chǔ),同時也為天然藥物的發(fā)現(xiàn)帶來了新的曙光?;蚪M數(shù)據(jù)不僅可以用來識別潛在的藥物靶標(biāo)[3],還能用于尋找先前被忽視的次級代謝產(chǎn)物的生物合成途徑[4],定向發(fā)現(xiàn)新的天然產(chǎn)物藥物。每一個旨在預(yù)測生理或代謝特性的生物信息學(xué)研究都可以被認為是基因組挖掘(genome mining)。然而,在與天然產(chǎn)物相關(guān)的文獻中,“genome mining”經(jīng)常被賦予更特殊的意義,它不再局限于通過計算模擬的方法檢測生物合成基因,還涉及到它們的功能研究,最終闡明相關(guān)的化學(xué)機制。隨著基因組數(shù)據(jù)的豐富,次級代謝產(chǎn)物的基因簇不再匱乏,更大的挑戰(zhàn)轉(zhuǎn)向了如何高效快速地鎖定具有挖掘潛力的生物合成基因簇(biosynthetic gene clusters,BGCs),從而快速地獲得藥物實體分子。在生物信息學(xué)發(fā)展的同時,許多專業(yè)的網(wǎng)絡(luò)工具也被研究人員運用到基因組數(shù)據(jù)的挖掘過程中,目前已有許多綜述進行了報道[5-13]。本文綜述了基因組挖掘在天然產(chǎn)物發(fā)現(xiàn)中的運用,包括最新的生物信息學(xué)工具、常用的各類數(shù)據(jù)庫以及主要的挖掘方法,并對基因組挖掘在藥物發(fā)現(xiàn)和多個學(xué)科領(lǐng)域中的影響和發(fā)展進行了展望。

        1 基因組挖掘過程中的數(shù)據(jù)庫和網(wǎng)絡(luò)工具

        數(shù)字革命正在改變?nèi)藗儍Υ妗鞑ズ褪褂眯畔⒌姆绞?。隨著關(guān)聯(lián)數(shù)據(jù)、機器學(xué)習(xí)和大規(guī)模網(wǎng)絡(luò)推理等新技術(shù)的出現(xiàn),天然產(chǎn)物研究領(lǐng)域開始實現(xiàn)數(shù)字化實驗數(shù)據(jù)的實時共享和大規(guī)模分析。數(shù)據(jù)庫在這方面發(fā)揮了關(guān)鍵作用,因為它們允許對基本和高級應(yīng)用程序的數(shù)據(jù)進行系統(tǒng)的注釋和存儲[14]。

        1.1 天然產(chǎn)物數(shù)據(jù)庫

        2020 年,Maria Sorokina 等整理了 2000 年以來所有的天然產(chǎn)物數(shù)據(jù)庫,到目前正在使用的數(shù)據(jù)庫超過了120個,其中只有50個可以免費訪問[15]。在這些數(shù)據(jù)庫中,有3個在微生物領(lǐng)域運用最為廣泛,即NPASS、StreptomeDB 和The Natural Products Atlas。其余常用的數(shù)據(jù)庫還包括Dictionary of Natural Products(DNP)[16]、PubMed[17]、MarinLit、AntiBase、KNApSAcK[18]、Norine[19](非核糖體肽專門的數(shù)據(jù)庫)和MacrolactoneDB[20]等,這些數(shù)據(jù)庫包含了來源于植物、海洋微生物、真菌及細菌等生命有機體產(chǎn)生的天然產(chǎn)物。

        NPASS 是 2018 年發(fā)展起來的一個數(shù)據(jù)庫[21],旨在提供天然產(chǎn)物的來源及其生物活性。它包含了部分來自植物、無脊椎動物和微生物天然產(chǎn)物的化學(xué)結(jié)構(gòu),共含有超過35 000 種化合物,其中大約9000種來源于微生物。StreptomeDB是一個鏈霉菌屬天然產(chǎn)物的專門數(shù)據(jù)庫[22]。在2020 年的更新信息中,該數(shù)據(jù)庫包含了7100 多個化合物的來源、生物活性及其光譜信息。The Natural Products Atlas[23]是2019年建立的一個新的數(shù)據(jù)庫,它提供了所有微生物產(chǎn)生的天然產(chǎn)物衍生物的化學(xué)結(jié)構(gòu)。當(dāng)前該數(shù)據(jù)庫包含了超過25 500 個化合物,它具有一個特殊的檢索鏈接,能夠雙向連接到另外兩個天然產(chǎn)物資源庫:一是生物合成基因簇的MⅠBiG (Minimum Ⅰnformation about a Biosynthetic Gene cluster)[24]數(shù)據(jù)庫;另一個是天然產(chǎn)物質(zhì)譜數(shù) 據(jù) 的 GNPS (Global Natural Products Social Molecular Networking)[25]數(shù) 據(jù) 庫 。 Dictionary of Natural Products是一個非開源數(shù)據(jù)庫,主要收錄天然產(chǎn)物的來源、物理特性及其生物學(xué)數(shù)據(jù),目前已經(jīng)收錄了超過29 萬個條目。MarinLit 是一個海洋天然產(chǎn)物的文獻數(shù)據(jù)庫,包含超過35 000 個化合物的化學(xué)結(jié)構(gòu)、分類及其全合成數(shù)據(jù)。它是目前海洋天然產(chǎn)物最新和最全面的數(shù)據(jù)庫。值得一提的是,目前世界上最大的兩個非開放的天然產(chǎn)物數(shù)據(jù)庫:Scifinder和Reaxys。這兩個平臺包括了來自天然產(chǎn)物文獻的大多數(shù)天然產(chǎn)物及其衍生物、合成中間體。

        1.2 生物合成基因簇數(shù)據(jù)庫

        自2000 年以來,越來越多的基因組數(shù)據(jù)被報道,而在NCBⅠGenBank[26]中能夠找到“基因-結(jié)構(gòu)”相對應(yīng)的數(shù)據(jù)屈指可數(shù)。為了解決這一問題,研究者開發(fā)了一系列專門的生物合成基因簇數(shù)據(jù)庫,例如ClusterMine360[27]、DoBⅠSCUⅠT(Database of BⅠoSynthesis clusters CUrated and ⅠnTegrated)[28]、MⅠBiG 2.0[24]、ⅠMG-ABC[29]、antiSMASH Database[30]和Recombinant ClustScan Database[31]。ClusterMine360作為早期的生物合成基因簇分析平臺,將那些通過實驗證實的生物合成基因簇與其對應(yīng)的化合物進行了鏈接,主要聚焦于非核糖體肽(non-ribosomal peptide,NRP)和聚酮(polyketide,PK)類化合物,它包含了超過300個天然產(chǎn)物生物合成基因簇的信息。2015年,通過150多名天然產(chǎn)物科學(xué)家的共同努力發(fā)布了“生物合成基因簇的最小信息庫”(Minimum Ⅰnformation about a Biosynthetic Gene Cluster,MⅠBiG),對已被實驗證實天然產(chǎn)物的生物合成基因簇進行了人工注釋[32]。利用聯(lián)合基因研究所(Joint Genome Ⅰnstitute,JGⅠ)的細菌基因組平臺發(fā)布的 ⅠMG/M[29]和 ⅠMG-ABC[29],旨在發(fā)展成為一個最全面的細菌基因組數(shù)據(jù)庫,它包含已知天然產(chǎn)物的生物合成基因簇(有些信息間接地來源于MⅠBiG)的信息,并且能夠通過計算模擬預(yù)測未知生物合成基因簇的功能。到目前為止,該數(shù)據(jù)庫包含了來源于antiSMASH 和ClusterFinder算法模擬獲得的超過100萬個生物合成基因簇。由于JGⅠ的數(shù)據(jù)使用限制,部分數(shù)據(jù)目前處于未公開狀態(tài)。同樣由JGⅠ開發(fā)的真菌基因組門戶MycoCosm[33],包含超過1000 個真菌基因組信息,它通過提供交互式網(wǎng)絡(luò)工具,支持真菌基因組序列和其他“組學(xué)”(omics)數(shù)據(jù)的整合、分析和共享。2016 年, antiSMASH 的開發(fā)團隊發(fā)布了antiSMASH database[30-34](antiSMASH-DB),作為antiSMASH 運行的中央存儲庫。與ⅠMG-ABC 不同的是,antiSMASH-DB 旨在提供一個有限的、復(fù)雜的假定生物合成基因簇列表,這些生物合成基因簇來自最高質(zhì)量的細菌基因組。在2018 年發(fā)布的第二版中,antiSMASH-DB 包含了來源于24 000 多個細菌基因組的152 000 多個生物合成基因簇[35]。

        1.3 蛋白家族數(shù)據(jù)庫

        蛋白質(zhì)通常由一個或多個功能區(qū)域組成,識別這些功能區(qū)域有助于預(yù)測未知蛋白的功能。UniProtKB[36]是目前世界上最大的蛋白數(shù)據(jù)庫,囊括了超過2 億個非重復(fù)的條目。它分為兩個部分 : UniProtKB/SwissProt 和 UniProtKB/TrEMBL。其中,UniProtKB/SwissProt 帶有功能性的注釋,這些注釋來源于各類文獻中已經(jīng)被人工核實的數(shù)據(jù)。截至 2020 年 6 月,SwissProt 收錄了 563 972 個條目,由于人工注釋并不能做到面面俱到,因此它收錄的功能并不是全面的,但是SwissProt 能夠接受使用者輸入注釋數(shù)據(jù),從而達到數(shù)據(jù)庫的實時更新。在UniProtKB/TrEMBL 中,基于序列同源性的分析會進行自動分配注釋,系統(tǒng)會自動將滿足條件的注釋從儲存序列轉(zhuǎn)移到假定的同源序列中[37]。

        目前,常用的蛋白家族數(shù)據(jù)庫包括Pfam[38]和ⅠnterPro[39]。Pfam[38-40]是注釋信息最為全面的蛋白家族數(shù)據(jù)庫,每個家族都由多序列比對和隱馬爾可夫模型(HMMs)表示。在最新發(fā)布的版本Pfam 33.1 中,定義了18 259 個同源家族,有70%的條目與UniProtKB 密切相關(guān)。ⅠnterPro 是一個更大的蛋白家族數(shù)據(jù)庫。截至2020 年11 月,該數(shù)據(jù)庫定義了38 345個條目,包括3326個同源超家族、22 618 個家族、11 162 個功能域。但是,并不是所有的序列都能被Pfam和ⅠnterPro所包含,因此,在蛋白質(zhì)領(lǐng)域存在著大部分尚未注釋的基因組“暗物質(zhì)”,它們可能具有某些特殊的功能[5]。為此,生物學(xué)家開發(fā)出了一系列能夠有效挖掘蛋白和基因組數(shù)據(jù)的工具,稱為“基因組酶學(xué)計算機模擬工具”[5]。

        1.4 識別生物合成基因簇的網(wǎng)絡(luò)工具

        自從第一個鏈霉菌基因組被測序[41],基因組挖掘迅速成為發(fā)現(xiàn)天然產(chǎn)物的一種重要方式,人們發(fā)現(xiàn)神秘的生物合成基因簇為新穎天然產(chǎn)物的發(fā)現(xiàn)開啟了新的篇章?;蚪M挖掘利用遺傳/基因組信息來評估微生物產(chǎn)生新化合物的遺傳潛力,通過運用多種生物信息學(xué)工具在眾多的基因序列中識別具有潛在價值的生物合成基因簇,并根據(jù)基因簇中的信息來預(yù)測其產(chǎn)物,最終闡明生物合成過程。

        序列相似性搜索是一項非常重要的生物信息學(xué)任務(wù)。基于局部比對搜索工具BLAST(Basic Local Alignment Search Tool)[42]和利用隱馬爾可夫模型(hidden Markov model)進行蛋白序列分析的網(wǎng)絡(luò)工具HMMer[43]是目前最簡單的序列比對工具,它們使用人工構(gòu)建的基因列表作為查詢序列,對未知蛋白進行序列比對從而初步預(yù)測其功能。此外,DⅠAMOND[44]是一種基于雙索引的開源算法,速度比BLASTx快20 000倍,但靈敏度與其不相上下。如今,這些分析方法已經(jīng)變得越來越復(fù)雜,常用的分析工具包括:ClustScan(Cluster Scanner)[45]、 CLUSEAN (CLUster SEquence ANalyzer)[46]、np.searcher[47]、SMURF[48]和 anti SMASH[49-50]。ClustScan 是一個用于模塊化生物合成基因簇的半自動注釋和新型化學(xué)結(jié)構(gòu)的計算機模擬預(yù)測的集成程序包。該程序包用于快速、半自動地對編碼模塊化生物合成酶的DNA 序列進行注釋,包括聚酮合酶(PKS)、非核糖體肽合成酶(NRPS)和聚酮-非核糖體雜合酶(PKS/NRPS)。但由于版權(quán)限制目前只能提供用戶30 天的試用期,屬于半開放的程序包。CLUSEAN 是一個開放式的自動分析細菌次級代謝產(chǎn)物生物合成基因簇的計算機框架程序。它集成了標(biāo)準(zhǔn)的分析工具,如BLAST 和HMMer,以及能夠識別非核糖體肽合成酶(NRPS)/Ⅰ型聚酮合酶(TⅠPKS)功能域和基序的特定工具,并且能夠預(yù)測NRPS 的特異性。

        為了促進真菌基因組中次級代謝產(chǎn)物生物合成基因簇的系統(tǒng)定位,Natalie D. Fedorova 等開發(fā)了一個基于網(wǎng)絡(luò)的軟件工具——Secondary Metabolite Unique Regions Finder (SMURF)[48],它基于真菌次級代謝產(chǎn)物生物合成途徑的三個特征:①存在骨架基因;②成簇出現(xiàn);③含有特征蛋白的結(jié)構(gòu)域,對真菌基因組中的生物合成基因簇進行預(yù)測和歸類。2011 年,Eriko Takano 等開發(fā)一個強大的網(wǎng)絡(luò)工具,用于細菌和真菌基因組序列中次級代謝物生物合成基因簇的快速識別、注釋和分析,并命名為antiSMASH (antibiotics &Secondary Metabolite Analysis Shell)[49]。直至2019年,antiSMASH 5.0[50]增加了編碼?;被?、β-內(nèi)酯、真菌RiPPs等多種類型基因簇的檢測規(guī)則,尤其是對于編碼Ⅱ型PKS 生物合成基因簇提供了更多詳細的預(yù)測,同時在網(wǎng)頁運行方面也縮短了一些時間。

        近幾年一些新穎的分析工具相繼被開發(fā)使用,它們能夠解決上述算法中的缺陷:在檢測已知基因簇方面具有高特異性,但是并不會識別未知的生物合成基因簇。從基因組中預(yù)測未知類別基因簇應(yīng)該是最具優(yōu)先級的,因為這些基因簇可能編碼了全新骨架的分子[51]。根據(jù)文獻報道,目前實驗室可培養(yǎng)的微生物只占總數(shù)的1%[52],而這1%的微生物就含有超過200 萬株細菌或真菌(http://www.wfcc.info/ccinfo/),這意味著含有數(shù)量級的未被識別的生物合成基因簇有待開發(fā)和挖掘。這些基因簇被人們統(tǒng)稱為“微生物的暗物質(zhì)”,它們可能存在于未被開發(fā)的菌株中,也可能存在于像大腸桿菌這樣被研究成熟的微生物中。這就需要運用更為復(fù)雜的算法提供強有力的檢索能力來識別“暗物質(zhì)”,從而成功地獲取全新的天然產(chǎn)物分子。

        目前開發(fā)了3 個研究策略:①ClusterFinder[53]算法,它首先識別基因組序列中可能的基因編碼區(qū)域,利用Pfam 數(shù)據(jù)庫對編碼區(qū)域進行蛋白功能域注釋,然后依據(jù)Pfam 數(shù)據(jù)庫中的蛋白功能域在訓(xùn)練集生物合成基因簇中出現(xiàn)的頻率,利用HMM 將其設(shè)定為 BGC 或者 non-BGC 狀態(tài)。ClusterFinder 能夠識別出富含 BGC 狀態(tài) Pfam 數(shù)據(jù)庫功能域的基因組區(qū)域。這種策略能夠發(fā)現(xiàn)新類型的基因簇,因為不同分子的生物合成途徑往往利用相同家族的酶,如氧化還原酶、甲基轉(zhuǎn)移酶、CoA 連接酶和 P450 氧化酶[53]。②基于所有次級代謝酶都是初級代謝酶同源物這個觀點發(fā)展了EvoMining[54]方法,通過檢測基因組中“額外”的代謝酶,使用系統(tǒng)發(fā)育分析來識別進化上具有明顯差異的序列,并對其上下游基因進行功能分析,從而發(fā)現(xiàn)新的生物合成基因簇。③使用大規(guī)模的基因組序列比對。首先利用BLASTp 尋找不同基因組中的同源基因,從同源基因出發(fā)通過局部比對識別種子區(qū)域(seed regions),對種子區(qū)域進行擴張,鎖定基因簇邊界并進行共線性分析(synteny analysis),最終尋找到可能編碼新穎次級代謝產(chǎn)物的基因簇[55]。這三種策略的綜合運用可能成為未來識別生物合成基因簇最有效的方法[7]。

        核糖體合成和翻譯后修飾肽(RiPPs)是從基因編碼的前體肽衍生而來的一類天然產(chǎn)物,由于不同類別前體肽缺乏共同的序列特征,因此通過計算識別其生物合成基因簇一直是極具挑戰(zhàn)的任務(wù)。最近開發(fā)了幾種新的算法,專門進行RiPPs的生物合成基因簇的挖掘。Andrew W. Truman 等開發(fā)了一種用于識別不同家族RiPP 前體肽工具RiPPER,運用該方法在放線菌中找到了新的含有硫酰胺結(jié)構(gòu)的RiPPs[56]。許多RiPPs 后修飾的發(fā)生依賴于一個稱為RiPP 識別元件(RRE)的蛋白結(jié)構(gòu)區(qū)域。RRE 與前導(dǎo)肽(leader peptide)特異性結(jié)合,并引導(dǎo)翻譯后修飾酶作用于核心肽(core peptide)。Douglas A.Mitchell 等開發(fā)了一種基因組挖掘的工具 RRE-Finder[57],它從 UniProtKB 蛋白數(shù)據(jù)庫中調(diào)取25 000 條高可信度的RRE 蛋白序列作為樣本數(shù)據(jù)庫,進一步識別基因組中可能包含RRE 序列的生物合成基因簇。此外,還有一些新的挖掘工具也被開發(fā)出來,例如DeepRiPP[58]和RODEO (Rapid ORF Description and Evaluation Online)[59]?;蚪M挖掘過程中常用的數(shù)據(jù)庫及網(wǎng)絡(luò)工具見表1。

        表1 基因組挖掘的數(shù)據(jù)庫及網(wǎng)絡(luò)工具Tab.1 Database and web tools of genome mining

        2 基因組挖掘在天然產(chǎn)物發(fā)現(xiàn)中的應(yīng)用

        “基因組挖掘”,幾乎與每一個生物信息學(xué)研究相關(guān)聯(lián),它可以用于檢測生物活性天然產(chǎn)物的生物合成途徑。對天然產(chǎn)物研究領(lǐng)域而言,基因組挖掘就是在沒有化學(xué)結(jié)構(gòu)的前提下,基于遺傳信息來預(yù)測和分離活性天然產(chǎn)物。根據(jù)挖掘?qū)ο蟮牟煌?,可以大致分為基于核心骨架酶的挖掘、基于抗性基因的挖掘以及基于系統(tǒng)進化的挖掘。

        2.1 基于編碼核心骨架的酶進行挖掘

        以編碼合成核心骨架的酶出發(fā),挖掘具有特定結(jié)構(gòu)片段的天然產(chǎn)物,是一種經(jīng)典的基因組挖掘方法。盡管次級代謝產(chǎn)物的結(jié)構(gòu)多種多樣,但是同一類型代謝產(chǎn)物的生源途徑往往是非常保守的,這是由于許多核心骨架生物合成的酶在序列上具有高度的相似性。如聚酮類(polyketides)、非核糖體肽類(non-ribosomal peptides)以及氨基糖苷類(aminoglycosides)。利用天然產(chǎn)物結(jié)構(gòu)與其對應(yīng)的生物合成基因一一對應(yīng)的關(guān)系,在基因?qū)用姘l(fā)現(xiàn)含有特定結(jié)構(gòu)片段的天然產(chǎn)物,指導(dǎo)新化合物的發(fā)現(xiàn)。

        烯二炔類抗生素是迄今為止發(fā)現(xiàn)的抗腫瘤活性最高的天然化合物[64](圖1),其活性中心是雙鍵偶聯(lián)兩個炔鍵構(gòu)成的烯二炔核心結(jié)構(gòu),目前已有20 余例烯二炔天然產(chǎn)物陸續(xù)被報道,雖然它們的核心環(huán)不同(九元環(huán)或者十元環(huán)),但是核心的烯二炔單元卻由相同的生物合成邏輯合成,由包含編碼特殊Ⅰ型聚酮合成酶PKSE、硫酯水解酶TE和3 個未知功能蛋白在內(nèi)的5 個連續(xù)基因組成的基因盒催化完成[65-66]。聚酮合成酶PKSE 重復(fù)使用7 次,完成結(jié)構(gòu)獨特的九元(C-1027)或十元(Calicheamicin)烯二炔核心結(jié)構(gòu)的不飽和聚酮前體的合成,再由3 個未知功能的酶以及TE 催化完成核心烯二炔單元的合成。為了挖掘更多的烯二炔類天然產(chǎn)物,Shen Ben 研究組以PksE核心基因為探針,對4889個已經(jīng)測序的微生物基因組分析,又找到51 個基因組中含有合成烯二炔結(jié)構(gòu)特征的基因盒[67];此外,他們還基于實時PCR 技術(shù),開發(fā)了基于核心基因盒快速分析菌株是否含有合成烯二炔的基因簇的高通量方法,從3000 株菌株中找到81 株具有烯二炔生物合成基因簇[68]。以上結(jié)果表明,雖然目前發(fā)現(xiàn)的烯二炔類天然產(chǎn)物很少,但是大自然有巨大的潛力合成更多這類高活性化合物。隨著沉默基因激活技術(shù)的成熟、異源表達體系的完善、發(fā)酵分離技術(shù)的提高,有望利用基因組挖掘的方法,分離得到更多、活性更優(yōu)的烯二炔類天然產(chǎn)物。

        圖1 代表性的烯二炔類化合物Fig.1 Representative compounds of Enediyne

        脫水氨基酸是羊毛硫肽和硫肽類天然產(chǎn)物共同具備的特征結(jié)構(gòu)片段。Ⅰ型羊毛硫肽和硫肽的脫水氨基酸通過相同的化學(xué)機制引入[69-70]。LanB蛋白的谷氨?;Y(jié)構(gòu)域催化前體肽中絲氨酸/蘇氨酸側(cè)鏈羥基的谷氨?;罨劝彼嵯Y(jié)構(gòu)域催化谷氨酸離去形成脫水氨基酸(圖2)。Van der Donk 研究組對超過100 000 個細菌基因組進行LanB 蛋白搜索,尋找到超過600 個與LanB 谷氨?;Y(jié)構(gòu)域同源的基因,包含這些基因的基因簇或者基因組不包括LanB 谷氨酸消除結(jié)構(gòu)域同源基因[71]。他們利用來源于Pseudomonas syringaepv.maculicolaES4326 的tgl基因簇為研究對象,揭示了一類新的核糖體肽分子pearlin 的生物合成過程。tgl簇中包含LanB 同源蛋白TglB,其催化前體肽TglA 的羧基端半胱氨?;谇绑w肽上實現(xiàn)一分子半胱氨酸的延伸。在整個生物合成過程中,不涉及對前體肽TglA 的額外修飾,前體肽僅作為骨架,接受后修飾酶識別,承載修飾對象半胱氨酸。最終,半胱氨酸被轉(zhuǎn)化為thia-Glu成熟分子。

        圖2 LanB蛋白的催化機制及pearlin的生物合成過程Fig.2 Catalytic mechanism of LanB and the biosynthesis of pearlin

        polytheonamide(圖3)是一種具備高細胞毒性的核糖體肽類天然產(chǎn)物,成熟分子中含有DL-交替的氨基酸序列和AsmX5Asm 的天冬酰胺N-甲基化基序,保證成熟分子形成可插入細胞膜的穩(wěn)定β-螺旋構(gòu)象[72]。D構(gòu)型非天然氨基酸的引入由依賴于S-腺苷甲硫氨酸的PoyD 蛋白負責(zé)[73],天冬酰胺的側(cè)鏈N-甲基化則由N-甲基化酶PoyE 催化形成[74]。J?rn Piel 研究組以 polytheonamide 合成途徑的前體肽基因poyA、異構(gòu)酶基因poyD、N-甲基化酶poyE作為樣本序列,分別對非冗余蛋白序列數(shù)據(jù)庫進行BLASTp搜索,集合同時含有三者同源序列的基因組,挖掘到aer基因簇[75]。該簇導(dǎo)向發(fā)現(xiàn)了polytheonamide 類似結(jié)構(gòu)終產(chǎn)物aeronamide A(圖3),其同樣具備高細胞活性,針對HeLa 細胞的ⅠC50值為1.48 nmol/L。

        圖3 polytheonamide和aeronamide A的化學(xué)結(jié)構(gòu)Fig.3 Chemical structures of polytheonamide and aeronamide A

        蛋白功能總是處在不斷進化的過程中,盡管來源于相同的祖先序列,在經(jīng)歷如基因復(fù)制、水平基因轉(zhuǎn)移等生理過程后,基因的功能趨向差異化。因此,具備一定序列同源性的蛋白可能存在催化功能上的差異性。蛋白功能的差異導(dǎo)致天然產(chǎn)物結(jié)構(gòu)的差異。從催化特定反應(yīng)的蛋白出發(fā),建立其與同源蛋白之間的進化關(guān)系,可能尋找到催化差異反應(yīng)的同源蛋白,定位到具備新結(jié)構(gòu)的天然產(chǎn)物,表現(xiàn)出相似或者差異的生理功能。

        自由基SAM 酶(rSAM,圖4)普遍存在于核糖體肽合成途徑中,其利用[4Fe-4S]簇還原性裂解S-腺苷甲硫氨酸生成5'-脫氧腺苷自由基[76]。該自由基進一步從底物中提取氫原子,從而引發(fā)不同的反應(yīng)。Sactipeptide 分子中存在特征性的S—Cα硫醚鍵,該鍵由具有額外的C端[4Fe-4S]簇結(jié)合基序(SPASM)的自由基SAM 酶催化形成[77]。從6 個已知的催化前體肽S—Cα鍵形成的rSAM 酶出發(fā),Douglas A. Mitchell 研究組利用 PSⅠ-BLAST 建立蛋白序列文庫,并利用RODEO 注釋備選蛋白本地基因組序列,對潛在的前體肽序列進行打分,通過該流程,他們極大地擴展了Sactipeptides 類化合物的序列多樣性[78]。

        不僅如此,通過對獲得的蛋白文庫進行序列相似性網(wǎng)絡(luò)分析(sequence similarity networks,SSN),他們發(fā)現(xiàn)與QhpD 蛋白同源性較高的rSAM酶催化S—Cβ和S—Cγ的形成,不同于已知的S—Cα硫醚鍵。這一發(fā)現(xiàn)拓寬了rSAM 酶催化形成的硫醚結(jié)構(gòu)多樣性。Streptide是一類由鏈球菌產(chǎn)生的長度為9個氨基酸的核糖體肽,具有特征的賴氨酸Cβ和色氨酸吲哚C7 位碳碳鍵偶聯(lián)結(jié)構(gòu),該結(jié)構(gòu)由rSAM 蛋白 StrB 催化形成[79]。Streptide 的產(chǎn)生受到簇內(nèi)shp/rgg群集感應(yīng)系統(tǒng)的調(diào)控[80]。為了在鏈球菌中獲得更多類似的受到群集感應(yīng)系統(tǒng)調(diào)控的核糖體肽類天然產(chǎn)物,Mohammad R.Seyedsayamdost研究組對集合微生物基因組和微生物組[Ⅰntegrated Microbial Genomes and Microbiomes(ⅠMG/M) System]上的2875 個鏈球菌基因組進行了分析[81]。利用系統(tǒng)中的 Function Profile tool 進行搜索,列出所有包含Pfam04055(rSAM 蛋白)或者TⅠGR01716(Rgg/GadR/MutR family)的基因組。最終獲得592 個同時包含rSAM 和Rgg 蛋白的潛在基因簇。對所有的rSAM 蛋白建立序列相似性網(wǎng)絡(luò),并對相應(yīng)的前體肽生成序列標(biāo)識圖(sequence logo),以確定前體肽的保守序列區(qū)域。利用這種方法,他們獲得了一系列在shp/rgg群集感應(yīng)系統(tǒng)調(diào)控下可能產(chǎn)生的核糖體肽類產(chǎn)物。它們同樣由rSAM 蛋白修飾,產(chǎn)生多種類型的化學(xué)鍵,包括碳碳鍵[81-82]、碳氧鍵[83]、碳硫鍵[84-85]。這一發(fā)現(xiàn)極大地拓展了rSAM 在核糖體肽后修飾中催化形成的結(jié)構(gòu)類型及其酶學(xué)功能。

        2.2 基于抗性基因的挖掘

        活性導(dǎo)向天然產(chǎn)物的發(fā)現(xiàn)一直是高通量篩選活性化合物的重要方法。近年來,迅速發(fā)展的基因組測序技術(shù)使得天然產(chǎn)物的發(fā)現(xiàn)發(fā)生了革命性的變化。這種以基因組掃描為基礎(chǔ)發(fā)現(xiàn)天然產(chǎn)物的策略已經(jīng)成功地發(fā)現(xiàn)了許多新穎的代謝產(chǎn)物,并通過大量實驗證實了這些天然產(chǎn)物能夠極大地增加其化學(xué)結(jié)構(gòu)的多樣性[86]。盡管這些挖掘方法能夠發(fā)現(xiàn)獨特的生物合成酶和特異的化學(xué)物種,但在生物活性方面卻沒有一個明確的目標(biāo),如何利用基因組數(shù)據(jù)來預(yù)測天然產(chǎn)物生物活性成為基因組挖掘的一個熱點。為了避免被代謝產(chǎn)物所誤傷,微生物在產(chǎn)生活性天然產(chǎn)物的同時進化出了能夠抵抗其毒性的基因,使其能夠在產(chǎn)生防御機制的同時完整地保存自己。因此,基于抗性基因的挖掘,不僅能夠發(fā)現(xiàn)結(jié)構(gòu)多樣的天然產(chǎn)物,而且能夠預(yù)測其潛在的生物活性及其作用靶點,為新穎藥物的發(fā)現(xiàn)提供強有力的研究基礎(chǔ)。宿主的抗性或者自我保護機制主要包括以下幾種(圖5):其一,外排泵(主動運輸代謝產(chǎn)物到細胞外);其二,對天然產(chǎn)物本身進行修飾從而防御其帶來的傷害; 其三, 修飾宿主內(nèi)部的管家酶(housekeeping enzyme)來避免天然產(chǎn)物的抑制作用[87-89]。

        自然界用于自我保護的另一種策略是編碼一個功能等價的自抗性酶(self-resistance enzyme,SRE),它是管家酶的變體。自抗性酶在序列上與管家酶高度相似,它不僅擁有管家酶的功能,同時還能抵御代謝物對宿主的傷害。SRE 往往與天然產(chǎn)物生物合成基因成簇存在,也與天然產(chǎn)物生物合成基因同時轉(zhuǎn)錄。因此,利用SRE 的序列相似性挖掘策略能夠快速地定位細菌和真菌天然產(chǎn)物的生物合成基因簇[90-91]。DNA 的復(fù)制是一個基本的生命過程。然而,這種生命過程在細菌和真菌中卻不盡相同。由于這一過程在原核生物中是高度保守的,因此抑制細菌中DNA 的復(fù)制就成為抗生素篩選的一個理想靶點。G.M.Savage 等從葡萄球菌中首次發(fā)現(xiàn)了能夠抑制DNA 復(fù)制的抗生素novobiocin,研究表明該化合物的作用靶點是一個DNA 旋回酶(DNA gyrase),它屬于Ⅱ型拓撲異構(gòu)酶的一個亞型[92]。其生物合成研究顯示,該化合物的生物合成基因簇中存在的gyrB基因編碼一種對其不敏感的管家DNA 旋回酶的變種[93-94]。由于DNA 的復(fù)制在原核生物與真核生物之間的差異,尋找共同的、具有普適性的抗性基因挖掘策略成為微生物抗生素發(fā)現(xiàn)的關(guān)鍵?;厮莸缴锖铣苫虼?,參與蛋白質(zhì)生物合成的酶是開發(fā)抗生素的經(jīng)典靶點。在蛋白質(zhì)生物合成過程中,轉(zhuǎn)運RNA(tRNA)優(yōu)先被20 個氨基酰化-tRNA 合成酶(aminoacyl-tRNA synthetases,aaRSs)編碼的同源氨基酸進行酰化。有幾個重要的天然產(chǎn)物以此為靶點被挖掘,如 mupirocin[95]、thiomarinol A[96]和borrelidin[97]( 圖 6)。 在 這 些 天 然 抑 制 劑 中 ,mupirocin 被FDA 批準(zhǔn)用于治療皮膚感染性疾病膿皰瘡。

        許多參與脂類合成和降解的酶都是有機體所必需的,大部分天然產(chǎn)物的生物合成基因簇以脂肪酸生物合成路徑編碼的SRE 為靶標(biāo)來實現(xiàn)自抗。來源于真菌最為著名的天然產(chǎn)物洛伐他?。╨ovastatin),是一種被FDA 批準(zhǔn)治療高膽固醇的藥物,它針對的是甲羥戊酸途徑限速步驟中的3-羥基-3-甲基戊二酰輔酶 A 還原酶(HMGR)[98]。在土曲霉中,lovastatin 由lov生物合成基因簇編碼合成,推測該化合物可能是為了對抗真菌中其他的甾醇生物合成途徑而產(chǎn)生。在其基因簇中出現(xiàn)一個雙拷貝的HMGR,通過實驗證實該基因確實具有自抗能力[99-100]。

        活性天然產(chǎn)物不僅是人類治療藥物的重要來源,也是許多農(nóng)業(yè)藥物的主要來源。支鏈氨基酸生物合成途徑(branched-chain amino acid,BCAA)是植物生長的重要途徑,它不存在于動物中,因此是高度特異性除草劑的有效靶點[101]。植物中的BCAA生物合成途徑是由三種酶完成的:乙酰乳酸合成酶(acetolactate synthase,ALS)、乙酰羥基異構(gòu)還原酶(acetohydroxy acid isomeroreductase,KARⅠ) 以及二羥基酸脫水酶(dihydroxy-acid dehydratase,DHAD)。DHAD 是一種重要且高度保守的植物催化酶,它催化β-脫水反應(yīng)生成α-酮酸前體,進一步生成異亮氨酸、纈氨酸和亮氨酸,發(fā)展DHAD 的抑制劑成為制備除草劑的重要工業(yè)手段。為了鑒定可能編碼DHAD 抑制劑的天然產(chǎn)物生物合成基因簇,Tang Yi 等[102]利用SRE 策略,假定其目標(biāo)生物合成基因簇中包含一個對抑制劑不敏感的DHAD 拷貝,從DHAD 出發(fā)進行真菌基因組掃描,結(jié)合進化樹分析等方法從土曲霉(Aspergillus terreus)中挖掘到一個與其高度同源的基因astD,對其所在的基因簇進行異源表達獲得了新穎的天然產(chǎn)物分子,從而發(fā)現(xiàn)了一種天然除草劑aspterric acid(圖7),并確定了其作用機制。

        隨著天然產(chǎn)物生物合成基因簇的進化,與其共簇的SRE 也會隨之而進化,SRE 不僅能夠為抗生素的耐藥性提供新的見解,同時也為抗生素的靶點提供新的切入點。然而,從SRE 出發(fā)利用現(xiàn)有的知識和信息獲得的天然產(chǎn)物,有時并不是我們期待的目標(biāo)產(chǎn)物[103],因此,準(zhǔn)確地預(yù)測SRE 還是目前天然產(chǎn)物發(fā)現(xiàn)過程中一個極具挑戰(zhàn)性的工作。

        2.3 基于系統(tǒng)進化進行基因組挖掘

        天然產(chǎn)物的結(jié)構(gòu)多樣性是生物合成基因簇不斷進化的結(jié)果。分子系統(tǒng)發(fā)育是一種常用的跟蹤特定基因序列的進化足跡,并確定其與同源序列的進化關(guān)系的技術(shù)。以系統(tǒng)發(fā)育為導(dǎo)向發(fā)現(xiàn)新天然產(chǎn)物的基本思想是根據(jù)一個生物合成基因與其各自的生物合成基因簇共同進化,可以作為系統(tǒng)發(fā)育標(biāo)志,代表其整個生物合成基因簇的進化路徑,通過進化關(guān)系的遠近判斷天然產(chǎn)物的新穎程度[104](圖8)。

        圖8 利用標(biāo)記基因序列建立系統(tǒng)發(fā)育樹來指導(dǎo)新天然產(chǎn)物的發(fā)現(xiàn)[104]Fig.8 Phylogenetic tree built with marker gene sequences for guiding the discovery of novel natural products

        利用系統(tǒng)進化分析挖掘天然產(chǎn)物最成功的案例是芳香聚酮類化合物[105-108]。芳香族聚酮是由Ⅱ型聚酮合酶(PKS)基因簇編碼合成的,在Ⅱ型PKS 中最小的PKS 模塊包括酮基合酶α(KSα)、酮基合酶β(KSβ)和?;d體蛋白(ACP)[106]。這三個基因參與了芳香族聚酮生物合成過程的第一步,通過催化丙二酰輔酶A(malonyl-CoA)單元的重復(fù)縮合產(chǎn)生不同長度的線性聚酮鏈(圖9)。這些最小的PKS 基因可能與它們各自的生物合成基因簇共同進化,因此可以作為系統(tǒng)發(fā)育標(biāo)記。

        圖9 最小化的PKS參與不同長度的線性聚酮鏈的合成Fig.9 minPKS involved in the synthesis of diverse linear polyketide chains

        蒽醌類化合物(anthracyclines)是一類具有抗腫瘤活性的天然產(chǎn)物[109],其中具有代表性的多柔比星(doxorubicin)已用于臨床抗癌化療超過30 年[110]。在系統(tǒng)發(fā)育分析中,宏基因組 DNA 衍生的擴增子序列AZ129 與已知的蒽醌類化合物斯特菲霉素(steffimycin)生物合成基因簇的序列形成一個緊密的分支,Brady 等[111]利用 AZ129 擴增子序列作為探針從宏基因組中重新獲得的AZ129基因簇的信息學(xué)分析表明,與斯特菲霉素生物合成基因簇相比,還存在一組額外的糖生物合成基因。在白色鏈霉菌(Streptomyces albus)中對AZ129 基因簇進行異源表達獲得一個全新的天然產(chǎn)物arimetamycin A(圖10),在體外腫瘤細胞抗增殖實驗中,arimetamycin A 表現(xiàn)出比多柔比星更強的活性,并且對多柔比星耐藥的癌細胞也表現(xiàn)出中等的抗腫瘤活性[111]。

        系統(tǒng)進化分析除了利用上述編碼聚酮合成酶這類骨架形成相關(guān)的基因作為標(biāo)簽,還可以利用前體供應(yīng)基因、編碼后修飾蛋白的基因、抗性基因等特征基因作為標(biāo)簽,通過進化關(guān)系將其與相應(yīng)的代謝產(chǎn)物關(guān)聯(lián),指導(dǎo)新結(jié)構(gòu)、新活性天然產(chǎn)物的發(fā)現(xiàn)。

        3 展 望

        大自然從數(shù)十億年前就開始以“自然實驗師”的身份進行生物工程實驗。為了探究自然界神秘的面紗,人們開發(fā)了許多基于基因組與宏基因組的策略來剖析生物進化過程中涉及的途徑,并發(fā)現(xiàn)了許多新的藥物和高效的生物催化劑(酶),同時解析了這些新的反應(yīng)機制。天然產(chǎn)物及其衍生物一直都是藥物先導(dǎo)化合物的重要來源。在天然產(chǎn)物的獲取途徑中,傳統(tǒng)的分離分析方法無法避免重復(fù)性、滯后性等問題,這不僅耗時耗力而且無法突破代謝產(chǎn)物“黑箱子”的魔咒。隨著基因組測序技術(shù)的快速發(fā)展,以基因組學(xué)為導(dǎo)向的天然產(chǎn)物發(fā)現(xiàn)已經(jīng)成為藥物研究領(lǐng)域的重要組成部分。盡管持續(xù)更新的基因組數(shù)據(jù)為天然產(chǎn)物的研究和開發(fā)提供了源源不斷的資源,然而,如何利用現(xiàn)有的實驗條件和技術(shù)進行天然產(chǎn)物的挖掘還是一項極具挑戰(zhàn)的任務(wù)。就微生物領(lǐng)域而言,目前所報道的微生物種群和基因組數(shù)據(jù)遠遠超過已知代謝產(chǎn)物的數(shù)量,換言之,還有數(shù)以萬計的“沉默”基因簇等待著開發(fā)和利用。以數(shù)據(jù)為研究中心的方法正在從根本上改變自然科學(xué)的許多領(lǐng)域[112],多組學(xué)技術(shù)、系統(tǒng)生物學(xué)方法與合成生物學(xué)理論的聯(lián)合使用推動著基因組、轉(zhuǎn)錄組和代謝組數(shù)據(jù)的自動化高通量分析,從而更有效地將基因與有機分子連接起來?;谶@些理論的結(jié)合使用以及網(wǎng)絡(luò)工具的更新與發(fā)展,許多新穎的挖掘技術(shù)被開發(fā)出來,研究方法已經(jīng)從傳統(tǒng)上基于活性導(dǎo)向天然產(chǎn)物的發(fā)現(xiàn),轉(zhuǎn)向基于核心骨架基因、基于抗性基因以及基于系統(tǒng)進化的基因組挖掘,通過對化學(xué)結(jié)構(gòu)、基因組和代謝組學(xué)等數(shù)據(jù)的集成為我們提供了數(shù)據(jù)的優(yōu)先排序。這樣,基因組的挖掘不僅能發(fā)現(xiàn)“終點”藥物分子,而且對多個研究領(lǐng)域的發(fā)展也起到了非常關(guān)鍵的承接作用。同時,參與次級代謝的酶催化各種各樣的反應(yīng),這些反應(yīng)可以在合成生物學(xué)中進化和利用。天然產(chǎn)物本身在介導(dǎo)微生物-微生物相互作用、宿主-微生物相互作用以及影響疾病、生長發(fā)育等方面都發(fā)揮著重要作用。許多合成化學(xué)家通過合成結(jié)構(gòu)復(fù)雜、活性顯著的有機小分子從而開發(fā)了許多高效、綠色環(huán)保的合成路線,加快了藥物合成的步伐。生物學(xué)家通過研究生命體內(nèi)包括轉(zhuǎn)錄、調(diào)控以及相應(yīng)的酶學(xué)機制,闡明了生命傳承過程中許多重要的途徑。天然產(chǎn)物研究改革與創(chuàng)新正在創(chuàng)建一種多領(lǐng)域多學(xué)科交叉的研究模式,這種方式匯聚了多種學(xué)習(xí)方法、理論基礎(chǔ)以及實時更新的網(wǎng)絡(luò)信息學(xué)技術(shù)。如今,隨著科技的快速發(fā)展,人工智能(artificial intelligence)在各個領(lǐng)域都開始嶄露頭角,在科技時代如何把握技術(shù)的更新和運用將成為基因組挖掘研究領(lǐng)域發(fā)展的一大挑戰(zhàn)。

        猜你喜歡
        數(shù)據(jù)庫生物
        生物多樣性
        生物多樣性
        上上生物
        發(fā)現(xiàn)不明生物
        史上“最黑暗”的生物
        軍事文摘(2020年20期)2020-11-28 11:42:50
        第12話 完美生物
        航空世界(2020年10期)2020-01-19 14:36:20
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        丰满少妇在线播放bd| 人与嘼交av免费| 亚洲欧美日韩综合中文字幕| 亚洲精品综合在线影院| 亚洲国产最新免费av| 18国产精品白浆在线观看免费| 人妻无码aⅴ不卡中文字幕| 免费无码又爽又刺激高潮的视频网站 | 久久精品国产亚洲av无码偷窥| 国产精品久久久久久影视| 亚洲AV肉丝网站一区二区无码 | 成人国产精品999视频| 久久精品国产亚洲av热明星| 国产tv不卡免费在线观看| 少妇人妻在线无码天堂视频网| 欧美做受视频播放| 亚洲女同精品久久女同| 亚洲国产精品久久又爽av| 日本入室强伦姧bd在线观看| 亚洲免费不卡| 日本大片在线一区二区三区 | 无码字幕av一区二区三区| 成年人黄视频大全| 蜜桃视频中文字幕一区二区三区 | 亚洲一区二区免费日韩| 亚洲精品98中文字幕| 亚洲精品成人av在线| 国产免费资源高清小视频在线观看| 男女男在线精品免费观看 | 熟女少妇精品一区二区| 中文字幕天堂在线| 亚洲视一区二区三区四区| 国产性自爱拍偷在在线播放| 狠狠色噜噜狠狠狠狠色综合久| 亚洲嫩草影院久久精品| 人妻有码av中文幕久久| 国产无遮挡又爽又刺激的视频老师 | 在线看片免费人成视频电影 | 久久久无码人妻精品一区| 在线观看精品国产福利片100| 亚洲av一二三四五区在线|