丁淑金,楊彥萍,鄧茹友,馬福仙,尹拓,張漢堯
(西南林業(yè)大學(xué)林學(xué)院,西南地區(qū)生物多樣性保育國家林業(yè)局重點(diǎn)實(shí)驗(yàn)室,云南昆明 650224)
葡萄汁酵母(),是釀酒酵母的姊妹種,最初被認(rèn)為是貝酵母()酵母的同義詞,但現(xiàn)在被認(rèn)為是一個獨(dú)立的種,隨后成為從事應(yīng)用和基礎(chǔ)研究的科學(xué)家感興趣的對象。它與它的姊妹種,包括真貝酵母()、奇異酵母()和釀酒酵母()雜交,形成在啤酒工業(yè)中很重要的雜交菌種。葡萄汁酵母是一種耐低溫酵母,通常用于寒冷地區(qū)的白葡萄酒發(fā)酵,也與蘋果酒生產(chǎn)和一些傳統(tǒng)發(fā)酵有關(guān)。此外,葡萄汁酵母在較低溫度下發(fā)酵時具有更平衡的香氣特征。然而,對這種酵母的起源和遺傳多樣性和基因功能等領(lǐng)域的研究還非常少,需要對其進(jìn)行更多的研究。
生物信息學(xué)是在生命科學(xué)的研究中,以計算機(jī)為工具對生物信息進(jìn)行儲存、檢索和分析的科學(xué)。它是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,同時也將是21 世紀(jì)自然科學(xué)的核心領(lǐng)域之一。生物信息學(xué)是涉及多個領(lǐng)域的一門學(xué)科,主要是使用生物算法及相關(guān)軟件工具最終得到生物數(shù)據(jù);其研究重點(diǎn)主要在基因組學(xué)(Genomics)和蛋白質(zhì)組學(xué)(Proteomics)兩方面,即從核酸和蛋白質(zhì)序列出發(fā),分析序列的生物信息,推測其生物功能。
CCR4-NOT 蛋白復(fù)合體是多亞基蛋白復(fù)合體,從酵母到人類進(jìn)化高度保守,酵母中所含有的核心亞基,在人類中都有著相似的同源物。在酵母中,主要有九種核心亞基:CCR4、CAF1、CAF40、CAF130、NOT1、NOT2、NOT3、NOT4、NOT5,至少存在有1 MDa 和 2 MDa 兩種不同的組成形式。較小復(fù)合體組成形式可能只有核心亞基組成,較大的組成形式可能與其他細(xì)胞因子相互作用形成的復(fù)合體。NOT蛋白是TATA 框缺失的負(fù)調(diào)節(jié)因子。和最初被認(rèn)為是基因,即和,在限定溫度下,該基因突變能夠引起G1 期停滯。在CCR4-NOT 蛋白復(fù)合體結(jié)構(gòu)中,NOT1 蛋白作為支架蛋白,可與復(fù)合體中其他蛋白亞基結(jié)合,形成穩(wěn)定的復(fù)合物。除了復(fù)合體中的 CAF40 和CAF130外,其它主要成員均已通過遺傳選擇得到鑒定。CCR4-NOT 蛋白復(fù)合體中的成員CCR4 作為去酰基化酶,可阻遏抑制碳代謝,該基因的突變能使乙醇脫氫酶ADH2 基因的表達(dá)逃脫葡萄糖的抑制,與CAF1和NOT1 相互作用,形成一個核酸酶組件,行使功能。是CCR4 蛋白相關(guān)因子的基因,起初被鑒定為基因,對葡萄糖的解阻遏是必須的。蛋白質(zhì)降解的泛素化途徑,同樣備受近幾年的關(guān)注。NOT4 蛋白作為鋅指結(jié)構(gòu)E3 泛素連接酶,它的C 末端組件與NOT1 結(jié)合,N 末端結(jié)構(gòu)與Ubc4 結(jié)合,形成一個泛素化組件。
NOT5 蛋白亞基在轉(zhuǎn)錄和翻譯過程中參與 RNA聚合酶Ⅱ的組裝。真核生物RNA 聚合酶II(RNA Pol II)被發(fā)現(xiàn)對轉(zhuǎn)錄后RNA 處理事件有指導(dǎo)作用。它作為機(jī)器部件的著陸平臺,涉及基因帽蓋、拼接和基因輸出。最近,一種更具挑釁性的RNA Pol II 亞單位Rpb4 被認(rèn)為轉(zhuǎn)錄過程中不僅在細(xì)胞核中發(fā)揮作用而且在細(xì)胞質(zhì)中發(fā)揮作用,促進(jìn)RNA 降解和翻譯過程。NOT5 處于轉(zhuǎn)錄和翻譯雙向交流的中心位置。在細(xì)胞核和細(xì)胞質(zhì)中,NOT5 對核糖核酸聚合酶II 起著“橋梁”作用。在細(xì)胞質(zhì)中,NOT5與編碼RNA 聚合酶II 的mRNA 相互作用,支持共伴侶與新產(chǎn)生的蛋白質(zhì)的結(jié)合,以保持其可溶性和組裝能力。在細(xì)胞核中,NOT5 與聚合酶的Rpb4 亞單位相互作用,Rpb4 亞單位容易與聚合酶的其余部分解離,Rpb4 在轉(zhuǎn)錄完成時與mRNA 結(jié)合以促進(jìn)細(xì)胞質(zhì)中的翻譯和mRNA 降解。
已有研究表明,參與廣泛細(xì)胞過程的全轉(zhuǎn)錄調(diào)節(jié),但葡萄汁酵母基因的生物信息學(xué)分析報道較少,影響了對其功能的全面了解。因此,本文通過多種在線分析工具對基因的結(jié)構(gòu)和功能進(jìn)行生物信息學(xué)分析,為以后研究該基因在細(xì)胞轉(zhuǎn)錄和翻譯中的作用提供參考。
實(shí)驗(yàn)所用數(shù)據(jù)來自課題組前期的轉(zhuǎn)錄組測序所得數(shù)據(jù),利用NCBI 的BLAST 工具獲取與葡萄汁酵母基因同源性高的EST 序列;再用CAP3在線軟件拼接、組裝,獲得基因序列。首先,從NCBI(https://www.ncbi.nlm.nih.gov/)上獲取基因序列,用Nucleotide BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)得到6 個與基因相似性高的同源序列(表1)。序列的比對由ClusterW 程序完成。并用 MEGA7.0 軟件找出保守序列,再用保守序列從課題組前期的轉(zhuǎn)錄組測序數(shù)據(jù)中克隆得到葡萄汁酵母基因序列。
表1 物種名稱與相關(guān)信息表Table 1 Species name and related information table
克隆得到目的基因序列后,借助Open Reading Frame Finder 工具查找目的核苷酸序列中存有的開放閱讀框,預(yù)測基因的氨基酸序列。利用ExPASy中的ProtParam 預(yù)測NOT5 蛋白質(zhì)的分子式、分子質(zhì)量和不穩(wěn)定系數(shù)等理化性質(zhì)。蛋白質(zhì)的親水性、信號肽和亞細(xì)胞定位情況分別利用ProtScale、SignalP 5.0 server、Targetp 和CELL v2.5 等網(wǎng)站進(jìn)行預(yù)測(表2)。通過TMHMM 在線軟件研究蛋白質(zhì)跨膜區(qū)。借助Predict Protein 進(jìn)行蛋白質(zhì)的二級結(jié)構(gòu)分析。借助Smart 在線工具對蛋白的結(jié)構(gòu)域進(jìn)行分析。采用PROSITE 數(shù)據(jù)庫對蛋白質(zhì)作出Motif查詢,并運(yùn)用MEME 在線工具比較蛋白質(zhì)的保守元件。蛋白質(zhì)空間結(jié)構(gòu)模型通過Alpha Fold 網(wǎng)站建立。將所得到的氨基酸序列導(dǎo)入BLAST 中,獲得與該氨基酸序列同源性較高的10 條氨基酸序列,建立系統(tǒng)發(fā)育樹,分析親緣關(guān)系。將這些氨基酸序列導(dǎo)入Mega 7.0 中,對蛋白序列進(jìn)行多序列比對,然后用鄰接法(Neighbour-Joining,NJ)進(jìn)行建樹分析。
表2 NOT5 基因生物信息學(xué)分析內(nèi)容及相關(guān)軟件、網(wǎng)址Table 2 NOT5 gene bioinformatics analysis content,related software and website
Open Reading Frame Finder 查詢結(jié)果表明,起始密碼子和終止密碼子分別是ATG 和TAA,該核苷酸序列的開放閱讀框長1446 bp,可編碼481 個氨基酸(圖1)。
圖1 葡萄汁酵母NOT5 基因基因編碼出的蛋白質(zhì)序列Fig.1 Sequence of protein encoded by the NOT5 gene of Saccharomyces uvarum
將基因名輸入NCBI 功能基因數(shù)據(jù)庫查詢,得知其RNA 名稱CCR4-NOT core subunit NOT5,外顯子數(shù)為1,基因組序列是NC_001148.4,基因編號為856186,染色體定位如圖2,位于XVI 染色體690107~691789。
圖2 NOT5 基因染色體定位圖Fig.2 Chromosomal localization map of the NOT5 gene
從圖3 可知,葡萄汁酵母基因與NOT5 like protein XP018219088.1的基因親緣關(guān)系最為接近,二者同源性較高,說明此試驗(yàn)得到的基因序列無誤,同時也說明該基因與葡萄汁酵母編碼的蛋白質(zhì)功能可能相似。
圖3 NOT5 基因編碼蛋白系統(tǒng)進(jìn)化樹分析Fig.3 Analysis of genetic relationship of the NOT5 gene encoding protein
2.4.1 葡萄汁酵母基因編碼蛋白的理化性質(zhì)分析 蛋白質(zhì)分子式為CHNOS,分子質(zhì)量為56311.02,該蛋白質(zhì)的理論pI 值為4.89。在該條基因上,各氨基酸均有表達(dá),其中谷氨酸(Glu)和賴氨酸(Lys)含量較高,所占比例分別為10%和9.1%。蛋白質(zhì)不穩(wěn)定系數(shù)為57.62,脂肪系數(shù)為64.03,總平均親水性為?0.929,且N 端氨基酸為蛋氨酸(Met),因此判定其為不穩(wěn)定蛋白(蛋白質(zhì)不穩(wěn)定系數(shù)大于40.0)。
2.4.2 親疏水性分析 據(jù)圖4 可知,在73、74、75、170、171、244 氨基酸位點(diǎn)附近的分值分別是?3.3、?3.267、?3.267、?3.278、?3.278、?3.033,根據(jù)20 種氨基酸的親疏水性特性,氨基酸的正值越高則疏水性越強(qiáng),反之疏水性越弱,親水性越強(qiáng),由分析結(jié)果可知NOT5 蛋白在上述位點(diǎn)處具有較高親水性,推測此區(qū)域可能存在折疊。其最低分和最高分分別為-3.3 和1.667,可能存在跨膜區(qū)(Scare>1.5)。從整體分析來看,負(fù)值的比例遠(yuǎn)遠(yuǎn)大于正值的比例,因此可推測所編碼的蛋白為親水性蛋白,與理化性質(zhì)分析結(jié)果中平均親水系數(shù)為?0.929 相一致。
圖4 葡萄汁酵母NOT5 編碼蛋白質(zhì)的親水性Fig.4 Hydrophilicity of the protein encoded by the NOT5 gene of S.uvarum
2.4.3 信號肽預(yù)測 根據(jù)2.4.2 親疏水性分析結(jié)果顯示,基因編碼的蛋白質(zhì)為水溶性蛋白,推測該蛋白質(zhì)可能無信號肽。將該氨基酸序列提交到SignalP 5.0 server 中分析,結(jié)果如表3 與圖5 所示,與前文分析結(jié)果一致,該蛋白存在信號肽概率為0%。
圖5 NOT5 基因編碼蛋白質(zhì)的信號肽預(yù)測Fig.5 Signal peptide prediction of the protein encoded by the NOT5 gene
表3 葡萄汁酵母NOT5 基因編碼蛋白質(zhì)的信號號肽預(yù)測Table 3 Signal peptide prediction of protein encoded by the NOT5 gene
2.4.4 亞細(xì)胞定位預(yù)測 亞細(xì)胞定位與蛋白質(zhì)的功能存在著非常密切的聯(lián)系。PSORT Ⅱ在線軟件預(yù)測結(jié)果如表4 所示,該蛋白可能位于線粒體中的概率最大,因此該蛋白極有可能位于細(xì)胞質(zhì)中的線粒體上,是參與物質(zhì)代謝的調(diào)控因子。
表4 葡萄汁酵母NOT5 基因編碼蛋白質(zhì)的亞細(xì)胞定位預(yù)測Table 4 Prediction of subcellular localization of the protein encoded by the NOT5 gene
2.5.1 Coil 區(qū)分析 卷曲螺旋是左手超螺旋結(jié)構(gòu)的總稱,由兩個或多個纏繞在不同天然蛋白質(zhì)之間的-螺旋組成。使用COILS 在線分析工具,該工具以Lupas 算法為基礎(chǔ),預(yù)測該蛋白質(zhì)的卷曲螺旋,結(jié)果如圖6 所示,該蛋白質(zhì)殘基在3 個不同窗口(window14、21、28)均顯示有卷曲螺旋區(qū)域。
圖6 NOT5 基因編碼蛋白質(zhì)的Coil 區(qū)分析Fig.6 Analysis of the Coil region of the protein encoded by the NOT5 gene
2.5.2 跨膜結(jié)構(gòu)分析 結(jié)果如圖7 表明,該蛋白全部位于細(xì)胞膜外表面,未發(fā)現(xiàn)可能的跨膜區(qū),故該蛋白不跨膜,推測該蛋白是非脂溶性蛋白質(zhì),此分析結(jié)果與2.4.2 親疏水性分析結(jié)果一致。
圖7 NOT5 基因編碼蛋白質(zhì)的跨膜結(jié)構(gòu)分析Fig.7 Analysis of transmembrane structure of the protein encoded by the NOT5 gene
2.5.3 蛋白質(zhì)二級結(jié)構(gòu)預(yù)測 借助網(wǎng)站Predict Protein 進(jìn)行這組蛋白質(zhì)的二級結(jié)構(gòu)分析,預(yù)測結(jié)果如圖8 和表5 所示,據(jù)圖和表可知該蛋白質(zhì)二級結(jié)構(gòu)中各元件的占比;因此在NOT5 所編碼的蛋白質(zhì)二級結(jié)構(gòu)中,隨機(jī)卷曲和-螺旋是主要元件。
圖8 NOT5 基因編碼蛋白質(zhì)的二級結(jié)構(gòu)預(yù)測Fig.8 Secondary structure prediction of protein encoded by the NOT5 gene
表5 二級結(jié)構(gòu)中各元件的比例(%)Table 5 Proportion of components in a secondary structure (%)
2.6.1 葡萄汁酵母基因編碼蛋白質(zhì)Motif 搜索 將基因編碼的氨基酸序列提交到PROSITE 在線分析工具中,對該基因編碼的蛋白質(zhì)進(jìn)行的Motif 搜索。結(jié)果如圖9 所示,該蛋白在314~335位存在富含賴氨酸的區(qū)域。
圖9 NOT5基因編碼蛋白質(zhì)Motif 搜索和結(jié)構(gòu)域分析Fig.9 NOT5 gene encoding protein Motif search analysis
2.6.2 葡萄汁酵母基因編碼蛋白質(zhì)的結(jié)構(gòu)域分析 借助Smart 在線工具對NOT5 蛋白的結(jié)構(gòu)域進(jìn)行研究圖10 和表6,結(jié)果如圖,該氨基酸序列中,存在Pfam Not3 和Pfam NOT2_3_5 結(jié)構(gòu)域。
表6 NOT5 編碼蛋白的結(jié)構(gòu)域預(yù)測Table 6 Domain prediction of the NOT5 gene encoded proteins
圖10 NOT5 基因編碼蛋白質(zhì)的結(jié)構(gòu)域分析Fig.10 NOT5 gene encoding protein structural domain analysis
預(yù)測結(jié)果顯示(圖11),以白色念珠菌(strain SC5314/ATCC MYA-2876)(Yeast)為模板構(gòu)建NOT5蛋白的三級結(jié)構(gòu),橙色部分(較少)表示孤立的非結(jié)構(gòu)化區(qū)域,說明建模質(zhì)量較好。此圖清晰的表明該蛋白主要由卷曲、螺旋和折疊所構(gòu)成,與二級結(jié)構(gòu)預(yù)測相符。
圖11 NOT5 基因編碼蛋白質(zhì)的三級結(jié)構(gòu)預(yù)測Fig.11 Tertiary structure prediction of protein encoded by the NOT5 gene
NOT1 蛋白一級結(jié)構(gòu)由2108 個氨基酸組成,在其氨基酸序列1009~1058 和1294~1354 中,富含較多的谷氨酰胺;NOT2 蛋白一級結(jié)構(gòu)由191 個氨基酸組成,包含有兩個功能域,即C 末端功能域和N 末端功能域;NOT3 蛋白一級結(jié)構(gòu)由836 個氨基酸組成,在氨基酸序列的39~68、120~161、258~290 處有螺旋結(jié)構(gòu),其氨基酸序列的1~81 為HR1 組件,在信號轉(zhuǎn)導(dǎo)過程中能夠結(jié)合小G 蛋白;NOT4 蛋白的一級結(jié)構(gòu)由587 個氨基酸組成,在其氨基酸序列的33~77 間有環(huán)形的鋅指組件。人類NOT4 蛋白CNOT4 的體外泛素化實(shí)驗(yàn)證明,NOT4 蛋白是E3 泛素連接酶。它的螺旋卷曲結(jié)構(gòu)和Pham:rrm 基序能夠被RNA 結(jié)合蛋白識別,而且也能被一些單鏈的DNA 結(jié)合蛋白識別;NOT5 蛋白一級結(jié)構(gòu)中含有560 個氨基酸序列,它的N 末端1~150 位氨基酸序列上與NOT3 蛋白1~148 位有44%的同源性,同NOT3 蛋白一樣,在其氨基酸序列的39~66 和126~176 區(qū)段,也存在螺旋卷曲基序,NOT3 和NOT5高度相似性,且 NOT5 和NOT3 之間可能存在功能冗余。人類和果蠅只有一個同源域,被稱為 CNOT3。在人類細(xì)胞中,CNOT3 被可變剪切產(chǎn)生一個長的和短的蛋白,即 CNOT3L 和 CNOT3S。目前,沒有數(shù)據(jù)證明CNOT3 蛋白是酵母NOT3 的蛋白同源物,還是NOT5 蛋白的同源物。而且在酵母中,這兩個基因功能并不完全冗余,NOT5 缺失突變的表型比NOT3 的更明顯。本研究結(jié)果得到的NOT5 基因可編碼481 個氨基酸,該蛋白質(zhì)殘基在3 個不同窗口(Window14、21、28)均顯示有卷曲螺旋區(qū)域;與已報道的文獻(xiàn)部分相似,但也不完全一致,這或許是由于研究對象不同所導(dǎo)致。
NOT5 蛋白亞基在轉(zhuǎn)錄和翻譯過程中參與 RNA聚合酶Ⅱ的組裝。在細(xì)胞核中,該蛋白復(fù)合體主要參與染色質(zhì)修飾、轉(zhuǎn)錄延伸、轉(zhuǎn)錄偶聯(lián)過程中DNA損傷修復(fù)等。在細(xì)胞質(zhì)中,該復(fù)合物作為重要的去酰基化酶,在mRNA 的衰變、轉(zhuǎn)錄抑制和轉(zhuǎn)錄后調(diào)節(jié)過程中的翻譯抑制起重要作用。此外,CCR4-NOT 蛋白復(fù)合體也具有 E3 泛素連接酶活性,參與蛋白質(zhì)降解。每個功能的作用機(jī)制仍在討論中。要畫出一幅清晰的畫面有一定的困難,因?yàn)樗c許多調(diào)節(jié)細(xì)胞質(zhì)和細(xì)胞核中mRNAs 和蛋白質(zhì)的過程有關(guān)。