姚遠 馬勇
摘要SBP基因家族是植物體中特異性存在的一類重要轉錄因子,主要功能是調控生物生長以及細胞分化。此次研究采用生物信息學的方法,對擬南芥SBP蛋白序列進行系統進化分析,并為其構建了系統發(fā)育樹。由試驗結果可以得出,擬南芥SBP基因家族共包括30個成員,分布在4條染色體上,其分布比較集中,分成三大亞族。擬南芥SBP蛋白具有的生物功能是控制生物生長以及細胞分化,調節(jié)基因表達以及谷胱甘肽的分解代謝過程,在Cu2+跨膜轉運中也有一定作用。另外,有許多的蛋白序列還具有分子功能——調控轉錄因子活性。該研究所得結果均為擬南芥SBP轉錄因子的進一步功能分析提出了重要研究依據。
關鍵詞擬南芥;生物信息學;SBP基因家族;進化分析
中圖分類號Q943.2文獻標識碼A文章編號0517-6611(2020)15-0112-04
doi:10.3969/j.issn.0517-6611.2020.15.031
開放科學(資源服務)標識碼(OSID):
Bioinformatics Analysis of SBP Gene Family in Arabidopsis thaliana
YAO Yuan1,2, MA Yong3
(1.Department of Neurology, Inner Mongolia Peoples Hospital, Hohhot, Inner Mongolia 010017;2.School of Life Sciences, Inner Mongolia University, Hohhot, Inner Mongolia 010060;3.Department of Biological Science and Technology, Baotou Teachers College, Baotou, Inner Mongolia 014030)
AbstractThe SBP gene family which existed in the specificity of the plant corpus is a kind of important transcriptional factor and its main function is to regulate and control biological growth and cell differentiation. In this study, bioinformatics methods were used to systematically analyze the sequence of A. thaliana?SBP protein and build the phylogenetic tree for the sequence of A. thaliana?SBP protein. The result of the experiment shows that the family includes 30 members, which is distributed on four chromosomes intensively and are divided into three subtribe. The biological function of A. thaliana?SBP protein is a process of not only controlling biological growth and differentiation of cells, but also regulating gene expression and glutathione catabolism and it also plays an important role in the copper ions transport membrane.In addition,a great number of protein sequences have molecular functionregulating and controlling the activity of transcription factors.The results of this study provide important research basis for further functional analysis of A. thaliana?SBP transcription factors.
Key wordsArabidopsis thaliana;Bioinformatics;SBP gene family;Evolutionary analysis
基金項目內蒙古自然科學基金項目(2017BS0315);內蒙古人民醫(yī)院自然科學基金項目(2019YN09,2019BS01)。
作者簡介姚遠(1984—),男,內蒙古呼和浩特人,助理研究員,博士,從事生物化學與分子生物學研究。
*通信作者,副教授,從事植物分子生物學及基因工程研究。
收稿日期2020-01-05;修回日期2020-03-04
轉錄因子(transcription factor)又被稱作反式作用因子。轉錄因子在植物體內的作用部位位于細胞核內,它是一種可以與某一指定基因上游相結合的,特異核苷酸序列上的蛋白質[1]。通常,轉錄因子在植物中與它相對應的順式元件一起控制基因表達。也就是說轉錄因子進行著將基因翻譯為蛋白質這一工作。研究發(fā)現,改變轉錄因子的表達對多個逆境有關功能基因的表達也起到一定的效果,從而對植物體的生長和發(fā)育、次生代謝以及抗逆性起到一定的調控作用。人們通過對轉錄因子的調控可以起到改良植物抗逆性的目的,對農作物農藝性狀的改良以及新品種的培育都能獲得較為理想的綜合效果[2]。
在植物體中包含著數量巨大的轉錄因子,而在擬南芥(Arabidopsis thaliana)中就有將近27 000個基因,而這27 000個基因中有5.9%的基因都是編碼轉錄因子的。人們按照這些轉錄因子與DNA結合區(qū)域的特點,將它們分成若干個家族[3]。
很早以前,人們在低等的苔蘚植物中就已經發(fā)現一些轉錄因子家族。隨著自然的發(fā)展,由低等水生植物進化到高等陸生植物,轉錄因子同時也隨著植物的生長發(fā)育過程進行轉變,它們自身變化的同時,也增進了植物從低等進化到高等的演變歷程。對植物進化發(fā)育史以及基因的轉變發(fā)展情況進行總結可以發(fā)現,植物體內富含有大量的轉錄因子,其中擬南芥、大豆和水稻中就分別有2 016、3 546和2 856個轉錄因子,在這些轉錄因子中作用最為顯著,研究最多的有MADS、bZIP、WRKY和SBP等,這些轉錄因子之間也相互交錯著,織成了一個復雜的植物調控網絡,而這個SBP基因家族普遍存在于綠色植物中,別的生物上未見到有關的報道[4],因此SBP就被公認為是植物所獨有的一種轉錄因子,現在在擬南芥中發(fā)現該家族共30個成員,這其中大部分已有文獻報道。這類轉錄因子主要是參與植物的生長、發(fā)育,還有許多生理生化反應的信號傳導過程。
SBP基因家族是被發(fā)現比較晚的轉錄因子家族之一。1996年,德國科隆馬普研究所的Klein等[5]從金魚草中克隆得到了2個基因SBP1和SBP2,經過研究發(fā)現它們可以與金魚草花分生組織特征基因Squamosa啟動子相結合,并可以調節(jié)它的表達,于是就將它命名為Squamosa啟動子結合蛋白(squamosa promoter binding protein,SBP)。在這之后,Cardon等[6-7]又從擬南芥和玉米中陸續(xù)分離出了編碼類似SBP蛋白的基因,因其中眾多基因還沒進行功能鑒定,所以將它們命名為類SBP基因(SBL),又因為它們中都含有編碼DNA結合結構域的保守核苷酸序列,于是又將它們稱為SBP盒基因(SBP-BOX)。
該研究是在擬南芥全基因組水平上,通過使用生物信息學的方法,鑒別了SBP基因家族的成員,而且進一步結合擬南芥家族基因,研究植物中SBP蛋白序列的進化聯系,以期為更深入地研究擬南芥SBP基因家族的生物功能奠定基礎。
1材料與方法
1.1數據來源
研究所使用的擬南芥全基因組數據都是從植物轉錄因子數據庫Planttfdb(http:∥planttfdb.cbi.pku.edu.cn/)下載,并從該網站下載所需要的蛋白質數據包,保存至本地文件夾,建立擬南芥全基因組數據庫[8]。
1.2擬南芥SBP基因家族蛋白生物信息學分析
1.2.1擬南芥SBP基因家族蛋白的搜索與鑒定。
以擬南芥SBP轉錄因子家族蛋白序列作為探針序列,使用NCBI(https:∥www.ncbi.nlm.nih.gov/)數據庫中所包含的本地Blast功能對擬南芥蛋白質數據庫進行查找,之后再使用SMART(simple modular architecture research tool)(http:∥smart.embl-heidelberg.de/)在線分析工具對候選蛋白的保守結構域進行分析,排除SBP基因家族蛋白序列中不具有保守結構域的蛋白序列,留下所需要的蛋白序列進行下一步分析與研究。
1.2.2擬南芥SBP基因家族系統發(fā)生學分析。
根據擬南芥SBP的保守結構域蛋白序列進行進化樹分析,通過利用下載安裝的MEGA 5.2.0軟件里面的鄰位相接法(NJ),構建擬南芥SBP轉錄因子候選蛋白系統發(fā)生樹,鑒定擬南芥SBP家族蛋白成員之間的進化關系[9],默認的自舉值(Bootstrap analysis)設置為1 000個重復,其他參數均設置為默認值。自舉值與其可信度呈顯著相關[10]。
1.2.3擬南芥SBP蛋白的保守域序列分析。
利用序列分析軟件DNAMAN8.0對擬南芥SBP家族蛋白序列進行比對,參考Cardon等[6-7]的分類標準對所有的家族蛋白成員進行分析。
1.2.4擬南芥STRING蛋白網絡調控數據庫分析。
利用蛋白網絡調控系統(STRING)對擬南芥SBP蛋白序列進行生物功能以及分子功能的分析。
2結果與分析
2.1擬南芥SBP基因家族成員的鑒定
使用NCBI數據庫中所包含的本地Blast功能對擬南芥蛋白質數據庫進行查找后得到30條含有典型SBP結構域的非冗余的蛋白序列,再經過SMART在線工具[11]進行分析后,沒有發(fā)現不具有完整SBP結構域蛋白序列,由此認為30條序列均具有典型的SBP結構域(表1)。
30個SBP基因在染色體上分布情況如下:1號染色體15個(AT1G02065.1、AT1G02065.2、AT1G20980.1、AT1G27360.1、AT1G27360.2、AT1G27360.3、AT1G27360.4、AT1G27370.1、AT1G27370.2、AT1G27370.3、AT1G27370.4、AT1G53160.1、AT1G53160.2、AT1G69170.1、AT1G76580.1),2號染色體3個(AT2G33810.1、AT2G42200.1、AT2G47070.1),3號染色體3個(AT3G15270.1、AT3G57920.1、AT3G60030.1),5號染色體9個(AT5G18830.1、AT5G18830.2、AT5G18830.3、AT5G43270.1、AT5G43270.2、AT5G43270.3、AT5G50570.1、AT5G50570.2、AT5G50670.1)。
2.2擬南芥SBP基因家族的分類及系統發(fā)育分析
進化樹分析(圖1)表明,擬南芥SBP基因家族中AT5G50570.1、AT5G50570.2和AT5G50670.1;AT5G43270.1、AT5G43270.2和AT5G43270.3;AT1G53160.1和AT1G53160.2;AT1G02065.1和AT1G02065.2;AT1G27370.1、AT1G27370.2、AT1G27370.3和AT1G27370.4;AT1G27360.1、AT1G27360.2、AT1G27360.3和AT1G27360.4同源性較高,分別位于進化樹的同一個分支,分化程度較少,推測這幾組基因可能存在功能冗余現象。冗余現象是生命體在漫長的進化過程和適應環(huán)境過程中,為了降低外界惡劣環(huán)境對自身生長發(fā)育的不利影響而保存下來的生存對策。在生命系統中,生物為了維持它正常的生存以及繁衍,抵抗外界不利環(huán)境如病蟲害、雨雪、干旱、霜凍、動物的采摘和食用對它們產生的影響,有必要在加強系統穩(wěn)定性、可靠性的同時,準備好大量的備用元件,這是適應環(huán)境改變的一種生存策略。通常條件下,這些后備元件被稱為冗余元件。在生命系統中,從每一個細胞、組織、器官到個體、群落,生態(tài)系統的各個層次中都存在一定的冗余現象,甚至在分子水平上也存在許多的冗余現象[12]。擬南芥SBP基因家族中存在的冗余現象也許是為了更加適應環(huán)境。
進化分析樹表明,AT5G18830.1、AT5G18830.2與AT5G18830.3是SBP基因家族中親緣進化關系最為接近的一組。由進化樹可以直觀地看出,SBP基因家族可以分成3個亞族,即Ⅰ、Ⅱ、Ⅲ,第Ⅰ亞族包括AT1G27370.1、AT1G27370.2、AT1G27370.3、AT1G27370.4、AT1G27360.1、AT1G27360.2、AT1G27360.3和AT1G27360.4;第Ⅱ亞族包括AT5G50570.1、AT5G50570.2、AT5G50670.1、AT5G43270.1、AT5G43270.2和AT5G43270.3,其余的歸為第Ⅲ亞族。
2.3擬南芥SBP轉錄因子序列比對分析
通過DNAMAN8.0序列分析軟件對擬南芥SBP結構域蛋白序列進行鑒定和分析。結果顯示,擬南芥SBP中所有序列在第228位都具有絕對保守的氨基酸序列R*CQQC**F,在第189、194以及211位具有絕對保守的氨基酸序列C,在第204位具有絕對保守的氨基酸序列Y,在第208位具有絕對保守的氨基酸序列H(圖2)。
2.4擬南芥STRING蛋白網絡調控數據庫分析利用STRING蛋白網絡調控數據庫(http:∥www.string-db.org/)逐一對擬南芥SBP蛋白序列生物功能和分子功能進行分析。擬南芥SBP轉錄因子中的30個蛋白序列的生物功能與分子功能如表2、3所示。
采用STRING蛋白網絡調控系統對擬南芥SBP蛋白序列進行逐一分析試驗,發(fā)現擬南芥SBP基因家族的有些蛋白序列對其生長發(fā)育沒有作用,探究不到其參與的生物過程。通過數據分析,得到的初步結果為擬南芥SBP蛋白可能具有的生物功能是控制生物生長以及細胞分化,調節(jié)基因表達以及谷胱甘肽的分解代謝過程,在銅離子跨膜轉運中也有一定作用。另外,有許多的蛋白序列還具有分子功能——調控轉錄因子活性。
3討論
隨著植物分子生物學的進一步發(fā)展,未來植物的改良技術將達到基因水平。植物轉錄因子的研究是目前生命科學研究的熱點領域,使用生物信息學方法對其基因家族成員進行分析、鑒定、保守結構域分析、成員分類、系統進化樹構建以及STRING蛋白網絡系統的試驗,發(fā)現并且證明有相當一部分轉錄因子的基因家族與植物對自然環(huán)境的防御能力以及生長發(fā)育等有關。有許多調控低溫、高鹽、干旱以及與植物體發(fā)育有關的轉錄因子已相繼從高等植物中提取出來。SBP轉錄因子家族是一個發(fā)現比較晚的家族,對它進行生物學功能研究是一個十分重要的內容。現在,植物轉錄因子研究在擬南芥中進行得比較深入,而且已經構建了擬南芥轉錄因子數據庫DATF[13](http:∥datf.cbi.pku.edu.cn/),這也為此次數據分析提供了豐富的經驗和廣泛的信息資源。
與普通的利用實驗室進行的生物學研究相比較,生物信息學能夠用較低的成本和較高的效率獲得研究資源。通過對擬南芥中SBP基因家族序列的分析及其編碼的蛋白質功能的分析,為研究SBP特性及其條件提供理論參考,并對擬南芥SBP功能研究具有重要的指導意義。
參考文獻
[1] 劉強,張貴友,陳受宜.植物轉錄因子的結構與調控作用[J].科學通報,2000,45(14):1465-1474.
[2] 李潔.植物轉錄因子與基因調控[J].生物學通報,2004,39(3):9-11.
[3] 孫麗芳,邢少辰,張君,等.轉錄因子在植物進化和抗逆中的作用[J].基因組學與應用生物學,2009,28(3):569-577.
[4] 吳乃虎,刁豐秋.植物轉錄因子與發(fā)育調控[J].科學通報,1998,43(20):2133-2139.
[5] KLEIN J,SAEDLER H,HUIJSER P.A new family of DNA binding proteins includes putative transcriptional regulators of the Antirrhinum majus?floral meristem identity gene SQUAMOSA[J]. Molecular and general genetics,1996,250(1):7-16.
[6] CARDON G H,HHMANN S,NETTESHEIM K,et al.Functional analysis of the Arabidopsis thaliana?SBPbox gene SPL3:A novel gene involved in the floral transition[J].The plant journal,1997,12(2):367-377.
[7] CARDON G,HHMANN S,KLEIN J,et al.Molecular characterisation of the Arabidopsis SBPbox genes[J].Gene,1999,237(1):91-104.
[8] TIAN F,YANG D C,MENG Y Q,et al.PlantRegMap:Charting functional regulatory maps in plants[J].Nucleic acids research,2019,48:1-10.
[9] KUMAR S,TAMURA K,NEI M.MEGA:Molecular Evolutionary Genetics Analysis software for microcomputers[J].Bioinformatics,1994,10(2):189-191.
[10] 巴德仁貴,趙乾,任鳳蕊,等.甜瓜持綠蛋白基因家族的全基因組鑒定及進化分析[J].廣東農業(yè)科學,2014,41(13):136-139.
[11] RDEI G P.SMART(Simple modular architecture research tool)[M]//RDEI G P.Encyclopedia of genetics, genomics, proteomics and informatics.Netherlands:Springer,2008.
[12] 陳霞,羅世巧,段翠芳,等.高等植物轉錄因子研究進展[J].安徽農學通報,2008,14(9):48-52.
[13] GUO A Y,HE K,LIU D,et al. DATF:A database of Arabidopsis?transcription factors[J]. Bioinformatics,2005,21(10):2568-2569.