喻紅稠, 覃 悅, 韓長志
(1.西南林業(yè)大學生物多樣性保護學院;2.西南林業(yè)大學研究生院; 3.云南省森林災害預警與控制重點實驗室,云南 昆明 650224)
樹生黃單胞桿菌(Xanthomonasarboricola)屬于黃單胞菌屬細菌.該病菌與引起杧果細菌性黑斑病的病原——野油菜黃單胞桿菌杧果致病變種(X.campestrispv.mangiferaeindicae)在致病性、革蘭氏染色、形態(tài)特征和生理生化特征方面均基本一致,而在gyrB基因序列方面表現(xiàn)不同[1].國內外學者對樹生黃單胞桿菌及其致病變種的基因組進行了測序及分析,已經有107個菌株得到測序(https://www.ncbi.nlm.nih.gov/genome/?term=Xanthomonas+arboricola)[2],主要涉及核桃細菌性黑斑病菌(X.arboricolapv.juglandis)[3]和桃細菌性黑斑病菌(X.arboricolapv.pruni)[4]等.本研究小組前期對危害核桃的7個細菌性黑斑病菌的分泌蛋白及其理化性質等進行了分析[5],有助于進一步開展樹生黃單胞桿菌中分泌蛋白的預測及分析工作.
分泌蛋白在植物病原菌侵染植物的過程中發(fā)揮重要作用.具有脂蛋白信號肽的蛋白作為分泌蛋白中的一類,參與錨定蛋白的正確定位、修飾和轉運過程,從而對維持細胞膜的穩(wěn)定性、細胞分裂、信號轉導和營養(yǎng)獲取等生理功能具有非常重要的作用[6].原核生物脂蛋白最早在大腸桿菌(Escherichiacoli)中被發(fā)現(xiàn)[7].研究發(fā)現(xiàn),脂蛋白前體在胞質中合成,可以通過Sec分泌途徑以未折疊形式穿過胞質膜,也可通過雙精氨酸轉位TAT途徑或SecA突變體以折疊形式穿過胞質膜[8].前人對黃單胞菌中脂蛋白的研究主要集中在相關蛋白的表達、純化以及結晶等方面[9],有關脂蛋白信號肽蛋白的找尋及功能分析的研究較少.
本研究參考前人報道的樹生黃單胞桿菌全基因組序列[2],利用在線分析軟件獲取具有脂蛋白信號肽的蛋白序列,并對其進行生物信息學分析,為深入探索脂蛋白信號肽在樹生黃單胞桿菌中的作用提供參考.
通過NCBI下載樹生黃單胞桿菌全基因組序列[2],Assembly ID為GCF_000972745.1.同時,通過LipoP v1.0[10]和SignalP 5.0 Server[11]在線程序分析預測獲取具有脂蛋白信號肽的蛋白序列.
1.2.1 跨膜區(qū)結構預測 利用在線跨膜區(qū)結構預測網(wǎng)站HMMTOP v2.0[12]和TMHMM Server v2.0[11]對脂蛋白信號肽蛋白進行批量預測,參數(shù)選擇默認.
1.2.2 保守結構域預測 利用在線保守結構域特征分析軟件SMART[13]分別對單條脂蛋白信號肽蛋白序列進行分析,參數(shù)選擇默認.
1.2.3 亞細胞定位分析 利用亞細胞定位分析軟件ProtComp v9.0[14]對脂蛋白信號肽蛋白進行批量預測并繪制其定位圖,參數(shù)選擇默認.
1.2.4 理化性質分析 利用理化性質測定程序Protscale[15]分別對單條脂蛋白信號肽蛋白序列進行測定,參數(shù)選擇默認.
1.2.5 轉運肽預測 利用蛋白質轉運肽在線分析軟件TargetP 1.1 Server[16]對脂蛋白信號肽蛋白進行批量預測,參數(shù)選擇默認.
1.2.6 系統(tǒng)進化樹構建 在NCBI中在線進行Blast同源搜索獲取同源序列,并利用Clustal W[17]進行多重比對分析,然后通過MEGA X軟件[18]采用最大可能性法構建系統(tǒng)進化樹,系統(tǒng)可信度檢測采用自舉法重復500次.
圖1 脂蛋白信號肽蛋白的氨基酸序列長度Fig.1 Length of protein with lipoprotein signal peptide
通過LipoP在線程序分析,樹生黃單胞桿菌中共有175條具有脂蛋白信號肽的蛋白序列.氨基酸序列長度分析表明,144個脂蛋白中氨基酸序列長度集中于100~500個之間,其中,長度在150~200個的脂蛋白數(shù)量最多,共27個,所占比例為18.75%(圖1).這說明分泌蛋白的氨基酸序列長度較小,可以較為靈活地行使其功能.
利用TMHMM對跨膜結構域進行分析可知,具有1次及以上跨膜結構域的蛋白序列共15條,而具有2次及以上跨膜結構域的蛋白序列共3條,其ID分別為WP_046344080.1、WP_046344566.1、WP_046345322.1;進一步利用HMMTOP進行預測發(fā)現(xiàn),上述具有1次及以上跨膜結構域的蛋白序列共66條,而具有2次及以上跨膜結構域的蛋白序列共14條(表1).
表1 脂蛋白信號肽蛋白的跨膜情況1)Table 1 Prediction of transmembrane domain of protein with lipoprotein signal peptide
SMART在線分析表明,在175條具有脂蛋白信號肽的蛋白序列中,僅有13條蛋白序列具有明顯的保守結構域,其ID分別為WP_016902868.1、WP_046342102.1、WP_046342121.1、WP_046342179.1、WP_046342359.1、WP_046342719.1、WP_046342748.1、WP_046343429.1、WP_046345193.1、WP_046345312.1、WP_046345322.1、WP_046345676.1、WP_144410810.1(圖2).這些蛋白具有的保守結構域元件不盡相同,主要有Ycel、Tryp_SPc以及Autotransporter等.此外,功能分析結果顯示,175個脂蛋白共具有103種功能.其中:假設蛋白(hypothetical protein)的數(shù)量最多,達48個;外排轉運蛋白(efflux transporter outer membrane subunit)、外排 RND 轉運蛋白(efflux RND transporter periplasmic adaptor subunit)、α或β水解酶(alpha or beta hydrolase)和EexN家族脂蛋白(EexN family lipoprotein)次之,數(shù)量分別為7、6、3和3個;其余功能的蛋白,如α或β折疊水解酶(alpha or beta fold hydrolase)、腸桿菌素A或B族脂蛋白(entericidin A or B family lipoprotein)、P型結合轉移蛋白TrbG(P-type conjugative transfer protein TrbG)、山梨醇酮脫氫酶家族蛋白(sorbosone dehydrogenase family protein)、堿性磷酸酶(alkaline phosphatase)、酰胺酶(amidase)、苯甲醛脫氫酶(benzaldehyde dehydrogenase)等,僅有1或2個.
ProtComp預測顯示,有較多(90個)蛋白定位在線粒體,所占比例為51.43%,僅有少數(shù)定位在胞內細胞器(圖3),符合脂蛋白信號肽所具有的功能特征[19].這說明具有脂蛋白信號肽的蛋白實現(xiàn)其功能的位置集中在線粒體、胞外以及質膜等.
對樹生黃單胞桿菌中具有脂蛋白信號肽蛋白的氨基酸組成進行統(tǒng)計分析,結果顯示:A(丙氨酸)含量最高,平均達47個;L(亮氨酸)含量次之,平均為30個;而C(半胱氨酸)、H(組氨酸)、M(甲硫氨酸)、W(色氨酸)含量較低,平均僅為3、5、6和4個(圖4A).
理化性質分析顯示:理論等電點位于5.51~6.00的脂蛋白數(shù)量最多,達37個,所占比例為21.14%;等電點位于6.51~7.00和9.01~9.50的脂蛋白數(shù)量次之,分別為25和21個,所占比例分別為14.29%和12.00%(圖4B).就蛋白穩(wěn)定性而言,共84個蛋白不穩(wěn)定性系數(shù)大于40,所占比例為48%(圖4B).親水性總平均值小于0的蛋白數(shù)量大于親水性總平均值大于0的蛋白數(shù)量,且親水性總平均值總和為-32.08,平均為-0.183(圖4C),屬于親水性蛋白.就脂肪族氨基酸指數(shù)而言,共146個脂蛋白分布于70~100之間,所占比例為83.43%.其中,脂肪族氨基酸指數(shù)在80~90之間的脂蛋白數(shù)量最多,達63個,所占比例為36%(圖4C).
Ycel、Tryp_SPc、PDZ、Autotransporter、PbH1、LysM、PQQ、alkPPc、TPR、PLDc、HisKA、HATPase_c、Leuk-A4-hydro_C、VWA分別為Ycel結構域、 胰蛋白酶樣絲氨酸蛋白酶、PDZ結構域、轉運蛋白β結構域、β-螺旋平行重復域、溶素基序、β-螺旋重復域、堿性磷酸酶同源物、四三肽重復 序列、磷脂酶D活性位點基序、His激酶A(磷酸受體)結構域、組氨酸激酶樣ATP酶、白三烯A4水解酶C末端結構域、VWF因子A型域.圖2 脂蛋白信號肽蛋白的保守結構域預測Fig.2 Conserved domain prediction of protein with lipoprotein signal peptide
通過網(wǎng)站Protscale對樹生黃單胞桿菌中具有脂蛋白信號肽蛋白的親(疏)水性進行預測,結果表明,該菌脂蛋白信號肽在親(疏)水性最強氨基酸殘基及其位置方面存在較大的差異.其中:ID為WP_046342719.1的脂蛋白中位于113位的R(精氨酸)親水性最強,親水性系數(shù)為-3.856;而ID為WP_046341912.1的脂蛋白中位于10位的A(丙氨酸)疏水性最強,疏水性系數(shù)為3.633(圖5A).進一步對每個分泌蛋白的最強親(疏)水性氨基酸殘基進行統(tǒng)計分析,結果顯示:最強親水性氨基酸殘基為A(丙氨酸)和L(亮氨酸)的脂蛋白數(shù)量最多,分別為55和53個;而最強疏水性氨基酸殘基為D(天冬氨酸)和R(精氨酸)的脂蛋白最多,分別為22和35個(圖5B).
A.脂蛋白氨基酸組成;B.蛋白質理論等電點及不穩(wěn)定性系數(shù)分布情況;C.親水性總平均值及脂肪族氨基酸指數(shù)分布情況.圖4 脂蛋白信號肽蛋白的基本理化性質Fig.4 Physicochemical properties of protein with lipoprotein signal peptide
A.脂蛋白親(疏)水性氨基酸殘基分布情況;B.最強親(疏)水性氨基酸殘基分布情況.圖5 脂蛋白信號肽蛋白的親(疏)水性氨基酸殘基的分布Fig.5 Distribution of hydrophobic/hydrophilic amino acid residue in protein with lipoprotein signal peptide
TargetP分析表明:樹生黃單胞桿菌脂蛋白信號肽中,ID為WP_024938962.1的蛋白定位于線粒體,預測可靠性為25.4%;WP_046344080.1、WP_046344566.1、WP_046345322.1、WP_046345399.1、WP_046345670.1、WP_080931464.1蛋白轉運肽預測可靠性不高,未得到有效定位情況;其他脂蛋白均定位于信號肽.該菌脂蛋白信號肽中的轉運肽定位于20~25之間的蛋白數(shù)量最多,達84個,所占比例為48%;預測可靠性位于35%~55%之間的蛋白數(shù)量最多,達87個,所占比例為49.71%(圖6A).由于TMHMM和HMMTOP程序對于跨膜結構域和信號肽的預測存在重疊性,本研究利用SignalP 5.0對175條蛋白序列進行進一步分析,結果顯示,163條序列具有明顯的信號肽,其余均無明顯信號肽.信號肽切割位點位于20~25之間的蛋白數(shù)量最多,達88個,所占比例為50.29%;預測可靠性位于20%~45%之間的蛋白數(shù)量最多,達120個,所占比例為68.57%(圖6B).
A.轉運肽;B.信號肽.圖6 脂蛋白信號肽蛋白的轉運肽及信號肽特征Fig.6 Characteristics of transit peptides and signal peptides of protein with lipoprotein signal peptide
系統(tǒng)進化樹顯示,具有脂蛋白信號肽的175條蛋白序列分為18大類,表明樹生黃單胞桿菌中大部分脂蛋白信號肽蛋白之間的同源性并不高,少部分脂蛋白信號肽蛋白之間有較高的同源性以及較近的親緣關系(圖7).分支中Ⅰ類所含蛋白數(shù)量較少,僅有2個;所含蛋白數(shù)量最多的類群為ⅩⅦ類.這說明樹生黃單胞桿菌中具有脂蛋白信號肽的蛋白在進化過程中產生了較大的分化.
圖7 樹生黃單胞桿菌脂蛋白信號肽蛋白序列及其同源序列之間的遺傳關系Fig.7 Genetic relationship between sequences of protein with lipoprotein signal peptide in X.arboricola with homologous sequences
脂蛋白幾乎存在于所有細菌中,其通過N端脂質結構錨定在膜中,并參與諸多重要的代謝過程,包括營養(yǎng)吸收、信號轉導、黏附、結合和孢子形成、對抗生素抗性的生成、脂蛋白轉運和蛋白質的胞質折疊[19].脂蛋白是通過信號肽固定在細胞質膜上,而脂蛋白結構域存在于細胞周質或細胞外[20],因此,脂蛋白可作為靶標用于藥物開發(fā),同時其在維持細菌生理功能及增強細菌致病性和耐藥性等方面發(fā)揮重要作用[21].
本研究表明:樹生黃單胞桿菌中存在175個脂蛋白信號肽蛋白,大多數(shù)脂蛋白氨基酸長度集中于100~500個之間;13條蛋白序列具有明顯的保守結構域;175個脂蛋白共具有103種功能,其中,假設蛋白的數(shù)量最多,為48個; 163條蛋白序列具有信號肽,且其中丙氨酸殘基含量最高,平均為47個,而半胱氨酸、組氨酸、甲硫氨酸、色氨酸含量較低;90個蛋白定位在線粒體,所占比例為51.43%;同時,樹生黃單胞桿菌脂蛋白在親(疏)水性最強氨基酸殘基及位置方面存在較大的差異,親水性總平均值小于0的蛋白數(shù)量大于親水性總平均值大于0的蛋白數(shù)量;大部分脂蛋白信號肽之間的同源性并不高.
目前,蛋白跨膜結構域的預測方法較多,包括DAS、HMMTOP 2.0、MEMSAT 2.0、MPEX、PHD、PSORT(ALOM2)、SPLIT 4.0、TMAP、TM-Finder、TMHMM 2.0、TMpred、TOPPRED 2等.本研究采用HMMTOP和TMHMM兩種跨膜結構域分析軟件對樹生黃單胞桿菌脂蛋白開展分析,所得結果在跨膜結構域數(shù)量和位點方面存在一定差異,有待于今后通過生物學試驗進一步驗證.此外,由于天然狀態(tài)下生物多糖大分子的高聚合度和不可溶性,微生物的多糖降解酶需要分泌到胞外才能與底物接觸,實現(xiàn)多糖的降解.酶組分在胞質中被合成前體到分泌至胞外或與細胞膜結合的過程中,脂蛋白信號肽發(fā)揮了哪些作用,是否參與或影響胞吞作用,其在樹生黃單胞桿菌致病過程中占據(jù)怎樣的地位等問題,還有待進一步研究.