賈立君,李鳳霞,馬匯泉
(1.黑龍江省農(nóng)業(yè)科學(xué)院佳木斯分院 佳木斯;2.山東理工大學(xué)生命科學(xué)學(xué)院)
近年來,人們陸續(xù)通過宏基因組技術(shù),篩選到新的生物素合成操縱子、脂(酯)酶、瓊脂糖酶、甘油脫水酶、蛋白酶和抗菌化合物及合成酶基因簇等[1-2]。劉舒等人通過構(gòu)建番茄灰霉病病株根際土壤宏基因組文庫(kù),通過功能篩選法成功篩選到5 個(gè)(4#、9#、11#、15#、17#)對(duì)灰葡萄孢菌具有拮抗性的克隆子,其中9#克隆子的拮抗性最強(qiáng),并對(duì)其進(jìn)行測(cè)序,這為番茄灰霉病的生物防治提供了一條新的研究思路。
生物信息學(xué)分析是目前推測(cè)基因或蛋白質(zhì)功能的一個(gè)非常有利的手段[3],應(yīng)用生物信息學(xué)對(duì)基因結(jié)構(gòu)或功能進(jìn)行預(yù)測(cè),再加以實(shí)驗(yàn)驗(yàn)證,可以大大提高實(shí)驗(yàn)的準(zhǔn)確度和精確度?;诜鸦颐共〔≈旮H土壤宏基因文庫(kù)中的9#克隆子的測(cè)序結(jié)果,對(duì)其進(jìn)行生物信息學(xué)分析,為進(jìn)一步研究該基因?qū)移咸焰呔霓卓箼C(jī)理提供一定的理論基礎(chǔ)。
GGAGAACGCGGTGGCGGCCGCTCTAGACTAGT GGATCCCCCGGGCTGCAGGGTTTTGGAAAGTATATT CTCCTCTGTAATTTCAACAATTATGTGGAGCTGTTTG CAGGATGGCACAAGGTGAAGGTGATCGGAGAGGAC CGCCCCATGCAATGTGCCACGGCGGAAGGGATCAC CATTATCAATTTCGGCATGGGCAGTGCCAGCGCGGCCACCATCATGGACCTGCTCAGCGCCATCAAACCCAA GGCTGTCTTGTTTTTGGGAAAGTGCGGGGGCATCAA ACGGAAGAATAAGCTGGGGGACCTGATCCTCCCCA TTGCAGCCATCCGGGGAGAAGGCGCCTCGGACGAT TATTTCCC1GCCCGAGGTGCCGGCATTACCGGCCTTC GCGCTGCAAAAAGCCACTTCCACGGCCATTCGTGAT AACAACCGTGATTATTGGACCGGGACCTGCTACAGC ACTAACAGGCGTGTCTGGGAGCATGACGGTGAGTTC AAAAAATACCTTAATAAAATACGCGCGATGGCAGT GGACATGGAAACCGCCACGATCTTCACGGTGGGAT TTTACAACCACATCCCCACCGGCGCTCTCCTGCTGG TATCCGACCGGCCCATGATCGCCGAGGGCGTCAAG ACCGAGAATAGCGATAAAGGCATCACGGCTAACTA TGTGGAGCTTCACCTTAAGATTGGCATTGATTCACTG AAACATCTGATCAATAAAGGGTTGACGGTAAAGCA CCTCATATTCTGAATCTCCCGGAATAAGCCGAGGGT GATCAGCTTTCAACAGACCCTGCCTGATGAAGGGAC TTTAGAAACTTGCTTTAAACTGAACGTTTTACAACA AAAAAACAAGTATGCAACAGGTAGAACATATTGCG ATCGCCGTCAAATCCCTCGAACAAGGCCATTCAGCT TTATGAACGCTTGCTGAACAGAAAGTGCTATAAGAC GGAGCAGGTGAAATCCGACACGGTGAATACCGCTT GTTTTGAAGACGAGGAACACCCGTGATAAATTGAC TGT。
DNA 序列及編碼蛋白序列在NCBI 中進(jìn)行blastn 和blastp 同源性比對(duì),運(yùn)用ORFfinder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)尋找序列的最大開放閱讀框,用DNAMAN 翻譯序列的最大開放閱讀框,用EMBL-EBILK 中心開發(fā)的在線工具CpGPlot(http://www.ebi.ac.uk/emboss/cpgplot/index.html)預(yù)測(cè)該序列的CpG 島,用Neural Network Promoter Prediction 工 具(http://www.fruitfly.org/seq_tools/promoter.html) 預(yù)測(cè)該序列的啟動(dòng)子區(qū)域,用POLYAH(http://www.softberry.com/berry.phtml?topic=polyah&group=programs& subgroup=promoter)預(yù)測(cè)該序列的轉(zhuǎn)錄終止信號(hào),用工具CodonW(http://bioweb.pasteur.fr/seqanal/interfaces/codonw.html)計(jì)算編碼區(qū)密碼子的偏好性,用Expasy 提供的ProtParam、ProtScale、COIL 等工具(http://expasy.org/tools/)分別預(yù)測(cè)蛋白序列的基本理化性質(zhì)、親疏水性、卷曲螺旋區(qū) 域, 用 TMHMM(http://www.cbs.dtu.dk/services/TMHMM -2.0/) 預(yù) 測(cè) 蛋 白 的 跨 膜 區(qū) 域,用PredictProtein(http://www.predictprotein.org/)預(yù)測(cè)蛋白的二級(jí)結(jié)構(gòu),用InterProScan(http://www.ebi.ac.uk/InterProScan/)預(yù)測(cè)蛋白的結(jié)構(gòu)域,用Expasy 提供的SWISS-MODEL 和SWISS-PdbViewer 工具預(yù)測(cè)和觀察蛋白的三級(jí)結(jié)構(gòu)。
2.1.1 同源性
將該序列在Genebank 進(jìn)行blastn 同源性搜索,發(fā)現(xiàn)該基因序列與面包蟲編碼黑色素抑制蛋白的MIP mRNA 以及編碼Tm-肽聚糖蛋白-SA 前體的Tm-PGRP-SA mRNA 最高相似度可達(dá)100%,但是其覆蓋率很低,只有4%(表1)。因此,需要進(jìn)一步分析其編碼的蛋白質(zhì)研究其結(jié)構(gòu)與功能。
表1 Genebank 中的blastn 檢索結(jié)果Table 1 The search results of blastn in Genebank
2.1.2 最大開放閱讀框
該基因147~758 bp 有一個(gè)最大開放閱讀框(ORF),612 bp,翻譯結(jié)果是:MQCATAEGITIINFGMG SASAATIMDLLSAIKPKAVLFLGKCGGIKRKNKLGDL ILPIAAIRGEGASDDYFPPEVPALPAFALQKATSTAIR DNNRDYWTGTCYSTNRRVWEHDGEFKKYLNKIRA MAVDMETATIFTVGFYNHIPTGALLLVSDRPMIAEG VKTENSDKGITANYVELHLKIGIDSLKHLINKGLTVK HLIF。
2.1.3 轉(zhuǎn)錄調(diào)控序列
CpG 島預(yù)測(cè)結(jié)果顯示,在468~670 bp 處有一個(gè)203 bp 的CpG 島,序列各個(gè)位置G+C 含量觀察值/期望值(Obs/Exp)比率=0.6,(G+C)%>50%,CpG 島通常出現(xiàn)在基因的啟動(dòng)子和起始外顯子附近,因此推測(cè)在該CpG 島附近可能存在該基因的啟動(dòng)子和起始外顯子。
啟動(dòng)子區(qū)域預(yù)測(cè)結(jié)果顯示,在502~552 bp 和942~992 bp 區(qū)域有2 個(gè)啟動(dòng)子,但是第二個(gè)啟動(dòng)子位于轉(zhuǎn)錄終止信號(hào)的下游方向,所以502~552 bp 處的啟動(dòng)子區(qū)域才是可能的啟動(dòng)子區(qū)域。
轉(zhuǎn)錄終止信號(hào)預(yù)測(cè)結(jié)果顯示,在510 bp 和723 bp 處有2 個(gè)可能的polyA 位點(diǎn),因?yàn)樾蛄斜旧泶嬖谥貜?fù)序列,推測(cè)510 bp 處的polyA 位點(diǎn)為假陽(yáng)性。
2.1.4 編碼區(qū)密碼子的偏好性
編碼區(qū)密碼子的偏好性計(jì)算結(jié)果表明,該基因編碼區(qū)有效密碼子數(shù)目Nc 值50.49,說明該基因編碼區(qū)不存在特別明顯的密碼子偏好性。采用CUPS、CondonW 程序及密碼子數(shù)據(jù)庫(kù)對(duì)編碼區(qū)密碼子統(tǒng)計(jì)分 析,ACG、AGC、TTG、TTT、GGG、ATC、AAA、CGG、GAT、TAT、TTC 和CCG 這12 個(gè)密碼子為該基因使用頻繁的密碼子。通過不同物種或基因間密碼子使用頻率比對(duì),可擇優(yōu)選擇表達(dá)系統(tǒng)或改變密碼子,從而提高外源基因的表達(dá)。但外源基因的表達(dá)受到多種因素的共同作用,密碼子使用的影響只是其中之一。
2.2.1 編碼蛋白的基本理化性質(zhì)
該蛋白的理論分子量為22.186 7 KDa,G+C 含量51.4%,編碼203 個(gè)氨基酸,等電點(diǎn)為8.91,含堿性氨基酸(H,K,R)29 個(gè),酸性氨基酸(D,E)20 個(gè),疏水氨基酸(A,F(xiàn),I,L,M,P,V,W,Y)98 個(gè),極性氨基酸(S,T,N,Q,Y,C,D,E,H,K,R)94 個(gè),正電荷殘基(Asp+Glu)總數(shù)為22,負(fù)電荷殘基(Arg+Lys)總數(shù)為18,分子式為C1816H2722N424O480S26,不穩(wěn)定系數(shù)為18.95(小于40),歸為穩(wěn)定蛋白,脂肪系數(shù)為96.21,總平均疏水性為0.006,表明其為疏水性脂溶蛋白。
2.2.2 編碼蛋白的同源性
將蛋白序列在NCBI 中進(jìn)行blastp 比對(duì),發(fā)現(xiàn)該蛋白與黃桿菌菌株DSM2366 和鞘脂桿菌株21 的AMP 核苷酶序列的同源性較高(表2),與通過Swiss-Prot 同源搜索的結(jié)果一致,推測(cè)該編碼蛋白可能是一種新型的AMP 核苷酶。
表2 NCBI 中的blastp 檢索結(jié)果Table 2 The search results of blastp at NCBI
2.2.3 編碼蛋白的親疏水性
編碼蛋白親疏水性計(jì)算結(jié)果顯示,在13、27、39、57、79、137、149 氨基酸位點(diǎn)附近屬高疏水性區(qū)域,在44~50、91~100、104~122、164~171 氨基酸區(qū)域?qū)俑哂H水性區(qū)域(圖1)。蛋白質(zhì)折疊時(shí)會(huì)形成疏水內(nèi)核和親水表面,同時(shí)在潛在的跨膜區(qū)會(huì)出現(xiàn)高疏水值區(qū)域,因此推測(cè)在預(yù)測(cè)的7 個(gè)高疏水性區(qū)域可能存在跨膜區(qū)。
2.2.4 編碼蛋白的跨膜區(qū)
編碼蛋白跨膜區(qū)的預(yù)測(cè)結(jié)果顯示,1~8 氨基酸位于膜外,跨膜區(qū)位于9~31 氨基酸區(qū)域,32~203 氨基酸位于膜內(nèi)(圖2),結(jié)合該蛋白的親疏水性分析,跨膜區(qū)屬于疏水性區(qū)域,預(yù)測(cè)的編碼蛋白的二級(jí)結(jié)構(gòu)顯示,該跨膜區(qū)富含螺旋結(jié)構(gòu)。
圖1 編碼蛋白親疏水性分布圖Fig.1 Hydropathy profile of coding protein
圖2 編碼蛋白跨膜區(qū)預(yù)測(cè)Fig.2 Prediction of coding protein transmembrane region
圖3 編碼蛋白卷曲螺旋區(qū)預(yù)測(cè)Fig.3 Prediction of coding protein coiled-coil region
2.2.5 編碼蛋白的卷曲螺旋區(qū)
編碼蛋白卷曲螺旋區(qū)的預(yù)測(cè)結(jié)果顯示,在111~134 氨基酸區(qū)域內(nèi)存在一個(gè)卷曲螺旋(圖3),卷曲螺旋結(jié)構(gòu)存在于許多天然蛋白質(zhì)中,如轉(zhuǎn)錄因子、膜蛋白等,它們?cè)诨蛘{(diào)控、分子識(shí)別方面具有重要作用,結(jié)合對(duì)編碼蛋白的親疏水性分析,該卷曲螺旋區(qū)域與該蛋白的一個(gè)高親水性區(qū)域重疊,因此推測(cè)該基因可能在拮抗灰葡萄孢菌過程中識(shí)別病原菌產(chǎn)生的毒素方面起重要作用。
編碼蛋白的二級(jí)結(jié)構(gòu)的預(yù)測(cè)結(jié)果表明,該蛋白含有38.92%的α 螺旋,17.73%的β 折疊,43.35%的環(huán)狀結(jié)構(gòu)。結(jié)構(gòu)域預(yù)測(cè)結(jié)果顯示,該蛋白在9~160 氨基酸區(qū)域存在AMP 磷酸化酶結(jié)構(gòu)域,屬于PNPUDP-1 超家族(圖4)。模體搜索發(fā)現(xiàn)該蛋白含有5個(gè)蛋白激酶C 磷酸化位點(diǎn)(106~108、154~156、168~170、187~189、197~199),1 個(gè)酪蛋白激酶II 磷酸化位點(diǎn)(23~25),3 個(gè)N-豆蔻?;稽c(diǎn)(15~17、101~103、171~173),這些位點(diǎn)均與細(xì)胞內(nèi)信號(hào)傳導(dǎo)、蛋白定位以及黏附等過程有關(guān),推測(cè)該基因可能在拮抗灰葡萄孢菌過程的信號(hào)轉(zhuǎn)導(dǎo)中發(fā)揮重要作用。
圖4 編碼蛋白結(jié)構(gòu)域預(yù)測(cè)Fig.4 Prediction of coding protein domain
采用同源建模法預(yù)測(cè)編碼蛋白的三級(jí)結(jié)構(gòu)(圖5),編碼蛋白和1ybf 蛋白的A 鏈具有較高的相似度(65%),通過Anolea/Gromos/Verify3D 3 個(gè)評(píng)估程序檢測(cè)模型的健康度顯示預(yù)測(cè)的蛋白模型能量較低,健康度較高。
圖5 編碼蛋白三級(jí)結(jié)構(gòu)預(yù)測(cè)Fig.5 Predicton of coding protein tertiary structure
通過SWISS-PdbViewer 觀察編碼蛋白的三維模型(圖6),結(jié)果顯示有194 個(gè)氨基酸殘基(97.54%)的二面角落在允許的范圍內(nèi),175 個(gè)氨基酸殘基(86.21%)的二面角落在最允許的范圍內(nèi),只有9 個(gè)氨基酸殘基(4.43%)的二面角落在不允許的范圍,結(jié)果表明編碼蛋白的三維模型的二面角分布和立體構(gòu)象均較為合理,符合立體化學(xué)φ、ψ 二面角分布的要求,其空間結(jié)構(gòu)穩(wěn)定[4]。
圖6 編碼蛋白三維模型觀察Fig.6 Observation of coding protein tertiary structure
對(duì)基因序列進(jìn)行分析發(fā)現(xiàn),該基因編碼的蛋白質(zhì)僅與AMP 核苷酶(Accession No.YP_004318143.1 at NCBI)具有80%的同源性,推測(cè)其可能是一種新型的AMP 核苷酶。該基因可能編碼含有203 個(gè)氨基酸的小分子量、疏水性脂溶的穩(wěn)定蛋白質(zhì)。編碼蛋白的序列中含有5 個(gè)蛋白激酶C(PKC)磷酸化位點(diǎn),1 個(gè)酪蛋白激酶II 磷酸化位點(diǎn),3 個(gè)N-豆蔻?;稽c(diǎn)。蛋白質(zhì)磷酸化是調(diào)控蛋白質(zhì)功能和定位的主要的翻譯后修飾,蛋白質(zhì)的磷酸化狀態(tài)對(duì)信號(hào)傳導(dǎo)途徑是非常重要的,磷酸化能阻止某些激酶和激活磷酸酶,從而改變正常的轉(zhuǎn)錄方向。
PKC 是一個(gè)磷脂依賴的遍在蛋白,大量研究表明,PKC 在與細(xì)胞增殖、分化和細(xì)胞程序性死亡關(guān)聯(lián)的信號(hào)傳導(dǎo)中發(fā)揮重要作用[5]。酪蛋白激酶Ⅱ磷酸化位點(diǎn)和N-豆蔻酰化位點(diǎn)也均與細(xì)胞內(nèi)信號(hào)傳導(dǎo)、蛋白定位以及黏附等過程有關(guān)。據(jù)此推測(cè),該基因編碼的蛋白可能在拮抗灰葡萄孢菌過程的細(xì)胞黏附、信號(hào)傳導(dǎo)中發(fā)揮重要作用。它可能是細(xì)胞內(nèi)與分子識(shí)別有關(guān)的某個(gè)蛋白或其亞單位,卷曲螺旋結(jié)構(gòu)有助于它對(duì)灰葡萄孢菌毒素分子進(jìn)行識(shí)別。
灰葡萄孢菌產(chǎn)生的毒素在植物致病過程中是重要的致病因子,它能直接與寄主的DNA 結(jié)合,終止DNA 的合成,或者直接吸附于寄主的核糖體上,抑制蛋白質(zhì)的合成,由此推測(cè)AMP 核苷酶表面可能具有毒素可以識(shí)別并結(jié)合的特異性位點(diǎn),而且這種識(shí)別與結(jié)合程度在不同的生物體內(nèi)是不同的。
灰葡萄孢菌毒素的主要成分是botrydial 和dlihvdrobotrydial,基本骨架是雙環(huán)狀的、非類異戊二烯倍半萜烯類化合物,AMP 核苷酶存在于許多種生物體內(nèi),能夠催化水解核苷或核苷酸衍生物中N-糖苷鍵,由此推測(cè)灰葡萄孢菌毒素物質(zhì)的結(jié)構(gòu)中可能含有N-糖苷鍵。
AMP 核苷酶可能通過信號(hào)傳導(dǎo)、分子識(shí)別、特異性結(jié)合、或者水解毒素N-糖苷鍵而在拮抗灰葡萄孢菌的過程中發(fā)揮極其重要的作用,對(duì)于該基因的生物學(xué)功能還需要進(jìn)一步通過實(shí)驗(yàn)進(jìn)行驗(yàn)證,為研究灰葡萄孢菌的拮抗機(jī)理提供理論基礎(chǔ)。
[1]SF Brady and J Clardy.N-acyl derivatives of arginine and tryptophan isolated from environmental DNA expressed in Escherichia coli[J].Organic Letter,2005(7): 3613-3616.
[2]T Waschkowitz,S Rockstroh ,and R Daniel.Isolation and characterizeation of metalloproteases with a novel domain structure by construction and screening of metagenomic libraries [J].Applied and Environmental Microbiology,2009(75),2506-2516.
[3]于永忠,郭雯,吳欣媛,等.靶向ORFV-DNA ploymerase基因shRNA 表達(dá)載體的構(gòu)建[J].黑龍江八一農(nóng)墾大學(xué)學(xué)報(bào),2012,24(4):38-41.
[4]L Huang,J S Cao,Y C Zhang,et al.Identify of a new cabbage pollen development -related gene BcMF7[J].Science China,2007(37): 479-487.
[5]Z Y Liu and X P Cai.Homologous modeling and analysis of Cysticercus celluosae dUTPase[J].Vet Sci Chin,2007(9): 742-745.
[6]S A Clement,C C Tan,J L Guo,et al.Roles of protein kinase C and alpha-tocopherol in regulation of signal transduction for GATA-4 phosphorylation in HL-1 cardiac muscle cells[J].Free Radic Biol Med,2002(32):1344-1350.
黑龍江八一農(nóng)墾大學(xué)學(xué)報(bào)2013年1期