楊巍,唐兵,周麟筆,馬關(guān)鵬,譚國(guó)飛,瞿飛,王天文,曾慶鴻,王洪亮,鄧英*
基于GEO數(shù)據(jù)庫(kù)分析番茄干旱脅迫關(guān)鍵基因與信號(hào)通路
楊巍1,2,唐兵1,2,周麟筆1,2,馬關(guān)鵬1,2,譚國(guó)飛1,2,瞿飛1,2,王天文1,2,曾慶鴻3,王洪亮3,鄧英1,2*
1. 貴州省農(nóng)業(yè)科學(xué)院園藝研究所, 貴州 貴陽(yáng) 550000 2. 貴州省園藝工程技術(shù)研究中心, 貴州 貴陽(yáng) 550006 3. 貴州省農(nóng)業(yè)科技發(fā)展中心, 貴州 貴陽(yáng) 550000
為研究干旱脅迫對(duì)番茄生長(zhǎng)的影響,本研究利用生物信息學(xué)分析方法篩選番茄干旱脅迫的關(guān)鍵基因,通過(guò)檢索GEO數(shù)據(jù)庫(kù)中關(guān)于番茄干旱脅迫的基因芯片數(shù)據(jù),獲取GSE39894和GSE106317兩個(gè)數(shù)據(jù)集矩陣數(shù)據(jù),利用GEO2R分析工具進(jìn)行差異表達(dá)基因篩選,應(yīng)用DAVID在線數(shù)據(jù)庫(kù)對(duì)差異表達(dá)基因進(jìn)行GO功能分析和KEEG通路富集分析,運(yùn)用String數(shù)據(jù)庫(kù)和Cystoscopes軟件構(gòu)建差異表達(dá)基因的蛋白互作網(wǎng)絡(luò),并使用MCODE及Cytohubba插件篩選出參與干旱脅迫的最顯著模塊及關(guān)鍵基因。本實(shí)驗(yàn)篩選出1583個(gè)差異表達(dá)基因,其中748個(gè)上調(diào)基因,835個(gè)下調(diào)基因,GO功能分析和KEEG通路富集分析表明,這些差異基因在代謝通路、次生代謝產(chǎn)物的生物合成、植物激素信號(hào)轉(zhuǎn)導(dǎo)、苯丙烷生物合成等方面顯著富集,蛋白互作網(wǎng)絡(luò)分析篩選出K4C9D8_SOLLC、K4B0Q1_SOLLC、CB13_SOLLC、PSBP_SOLLC、K4BCF4_SOLLC等10個(gè)關(guān)鍵基因,這些差異表達(dá)基因很可能是番茄干旱脅迫潛在的生物標(biāo)志物。
GEO數(shù)據(jù)庫(kù); 番茄; 干旱脅迫; 生物信息學(xué)
番茄(L.或Mill.)屬于茄科(Solanaceae),在世界范圍內(nèi)廣泛種植[1],番茄果實(shí)熱量低,富含番茄紅素、維生素等營(yíng)養(yǎng)物質(zhì),深受大眾喜愛(ài)。然而番茄生長(zhǎng)極易受到干旱等非生物脅迫的影響,導(dǎo)致減產(chǎn)與品質(zhì)下降[2]。特別是貴州省地處云貴高原,厄爾尼諾現(xiàn)象頻發(fā),極易引起旱災(zāi),對(duì)農(nóng)業(yè)生產(chǎn)造成極為不利的影響[3]。從分子生物學(xué)水平研究干旱脅迫對(duì)番茄生長(zhǎng)的影響,對(duì)番茄實(shí)際生產(chǎn)中提高其耐旱性具有實(shí)際積極意義。
GEO數(shù)據(jù)庫(kù)全稱為Gene Expression Omnibus (GEO, http://www.ncbi.nlm. nih.gov/geo/),是一個(gè)公共功能基因組數(shù)據(jù)存儲(chǔ)庫(kù),收錄了世界各國(guó)研究機(jī)構(gòu)提交的高通量微陣列和高通量測(cè)序功能基因組數(shù)據(jù)集,并提供工具幫助用戶查詢和下載實(shí)驗(yàn)并策劃基因表達(dá)譜,該數(shù)據(jù)庫(kù)由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫(kù)[4]。GEO數(shù)據(jù)庫(kù)被廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域,如肺鱗狀細(xì)胞癌[5]、阿爾茨海默病[6]、乳頭狀甲狀腺癌[7]、肺癌[8]等疾病的研究。而在植物逆境脅迫方面,Razieh R等分析了擬南芥的鹽脅迫與干旱脅迫的基因芯片數(shù)據(jù),HSF、AP2/ERF和C2H2三個(gè)轉(zhuǎn)錄因子家族可能在擬南芥的鹽和干旱脅迫響應(yīng)機(jī)制中起關(guān)鍵作用,增強(qiáng)擬南芥的耐鹽性和耐旱性[9]。Tahmasebi A等整合棉花非生物脅迫GEO基因芯片數(shù)據(jù),通過(guò)meta分析與系統(tǒng)生物學(xué)分析表明,差異表達(dá)基因主要在泛素依賴性過(guò)程、次生代謝產(chǎn)物的生物合成、植物激素和信號(hào)轉(zhuǎn)導(dǎo)中顯著富集[10]。由此可見(jiàn)利用生物信息學(xué)分析成為研究植物逆境脅迫的新思路。
本實(shí)驗(yàn)通過(guò)整合GEO數(shù)據(jù)庫(kù)關(guān)于番茄干旱脅迫的基因芯片數(shù)據(jù),使用DAVID數(shù)據(jù)庫(kù)對(duì)篩選的差異表達(dá)基因(EDGs)進(jìn)行GO功能分析和KEEG信號(hào)通路富集分析。利用string數(shù)據(jù)與Cytoscape軟件構(gòu)建蛋白互作網(wǎng)絡(luò)(protein-protein interaction,PPI),利用MCODE及Cytohubba插件分析PPI網(wǎng)絡(luò),篩選出最顯著模塊與10關(guān)鍵基因,以期研究干旱脅迫對(duì)番茄生長(zhǎng)發(fā)育的影響的分子機(jī)制。
在基因表達(dá)數(shù)據(jù)庫(kù)GEO(Gene Expression Omnibus)中,采用Search for Studies at GEO DataSets檢索工具,以“drought stress”為關(guān)鍵字進(jìn)行檢索,然后以物種番茄與數(shù)據(jù)表達(dá)類(lèi)型為“Expression profiling by array”進(jìn)行篩選,并經(jīng)人工篩選出數(shù)據(jù)集GSE39894(48個(gè)樣本)與GSE106317(36個(gè)樣本),二者均基于GPL4741平臺(tái),根據(jù)試驗(yàn)內(nèi)容分別選取18個(gè)樣本與6個(gè)樣本進(jìn)行分組分析。
表1 實(shí)驗(yàn)數(shù)據(jù)采集與分組
采用GEO數(shù)據(jù)庫(kù)中的在線分析工具Analyze with GEO2R進(jìn)行在線分析,然后以<0.05與|logFC|≥2為標(biāo)準(zhǔn)進(jìn)行基因數(shù)據(jù)篩選。
利用在線數(shù)據(jù)庫(kù)DAVID(https://david.ncifcrf.gov/)對(duì)DEGs進(jìn)行GO功能分析與KEEG通路分析以及Gene ID轉(zhuǎn)換,以<0.05為篩選標(biāo)準(zhǔn)。
采用String數(shù)據(jù)庫(kù)(https://www.string-db.org)對(duì)DEGs進(jìn)行蛋白互作(PPI)網(wǎng)絡(luò)分析,然后將分析結(jié)果導(dǎo)入Cytosacape3.8.2軟件中進(jìn)行調(diào)整與分析,構(gòu)建PPI網(wǎng)絡(luò)圖。
利用Cytosacape的MCODE插件篩選最關(guān)鍵模塊,以Cytohubba插件篩選最關(guān)鍵模塊的關(guān)鍵基因。
采用GSE39894與GSE106317兩個(gè)數(shù)據(jù)集的24個(gè)樣本為研究對(duì)象,PCA分析見(jiàn)圖1,利用Analyze with GEO2分析工具進(jìn)行分析,該類(lèi)型基因芯片(GPL4741平臺(tái))含有分子探針10209個(gè),以<0.05與|logFC|≥2作為DEGs篩選標(biāo)準(zhǔn),獲得顯著DEGs1583個(gè),其中上調(diào)DEGs748個(gè),下調(diào)DEGs835個(gè),差異基因的分布火山圖見(jiàn)圖2。
圖 1 樣本PCA分析
圖 2 DEGs火山圖
表2 前20顯著DEGs
圖 3 前20顯著DEGs熱圖
利用DAVID數(shù)據(jù)庫(kù)對(duì)1583個(gè)DEGs進(jìn)行GO功能分析與KEEG通路富集分析結(jié)果顯示,這些DEGs主要參與了轉(zhuǎn)錄調(diào)控、氧化應(yīng)激反應(yīng)、過(guò)氧化氫分解代謝過(guò)程、細(xì)胞壁生物發(fā)生、防御響應(yīng)等生物學(xué)過(guò)程;主要細(xì)胞成分位于細(xì)胞外區(qū)域、細(xì)胞壁、質(zhì)外體、細(xì)胞膜等部位;主要分子功能涉及金屬離子結(jié)合、轉(zhuǎn)錄活性因子、DNA結(jié)合、血紅素結(jié)合、過(guò)氧化物酶活性等(圖4)。KEEG信號(hào)通路分析顯示,這些DEGs主要參與了代謝通路、次生代謝產(chǎn)物的生物合成、植物激素信號(hào)轉(zhuǎn)導(dǎo)、苯丙烷類(lèi)生物合成、淀粉與蔗糖的代謝等信號(hào)通路(圖5)。
圖 4 DEGs的GO功能富集圖
圖 5 DEGs的KEEG通路富集圖
圖 6 苯丙烷類(lèi)生物合成途徑(KEEG,map00940)
圖 7 DEGs蛋白互作網(wǎng)絡(luò)
注:a.利用string數(shù)據(jù)庫(kù)與Cytoscape構(gòu)建DEGs蛋白互作網(wǎng)絡(luò),b.利用MCODE插件從PPI網(wǎng)絡(luò)中篩選出最顯著模塊,c.利用Cytohubba插件篩選最顯著模塊中10個(gè)關(guān)鍵基因。圖a與圖b上調(diào)DEGs標(biāo)注為紅色,下調(diào)DEGs標(biāo)注為綠色。
Note: a. Use the STRING database and Cytoscape to construct protein interaction network of DEGs, b. Use the MCODE plug-in to screen out the most significant modules from the PPI network, c. Use the Cytohubba plug-in to screen the 10 key genes in the most significant modules. In Figures a and b, up-regulated DEGs are marked in red, and down-regulated DEGs are marked in green.
利用string數(shù)據(jù)庫(kù)與Cytoscape軟件對(duì)DEGs構(gòu)建PPI網(wǎng)絡(luò),最終獲得293個(gè)節(jié)點(diǎn),581條相互作用的網(wǎng)絡(luò)圖(圖7A)。通過(guò)Cytoscape中的MCODE插件從PPI網(wǎng)絡(luò)篩選出最關(guān)鍵模塊,設(shè)置參數(shù)為degree cutoff=2,node score cutoff=0.2,k-core=2和max. depth=100,最顯著模塊包含18個(gè)節(jié)點(diǎn)及117條相互作用(圖7B),運(yùn)用Cytohubba插件的MCC算法從最顯著模塊中篩選出排名前10位的關(guān)鍵基因,分別為K4C9D8_SOLLC、K4B0Q1_SOLLC、CB13_SOLLC、PSBP_SOLLC、K4BCF4_SOLLC、K4B7S8_SOLLC、K4CRD4_SOLLC、K4BLA0_SOLLC、K4CH43_SOLLC、K4BQ77_SOLLC(圖7C,表3),這些關(guān)鍵基因的基因熱圖分析見(jiàn)圖8。
表3 10個(gè)關(guān)鍵基因
圖8 10個(gè)關(guān)鍵基因熱圖
本實(shí)驗(yàn)基于GPL4741平臺(tái)的2個(gè)數(shù)據(jù)集GSE39894與GSE106317的24個(gè)樣本進(jìn)行基因表達(dá)數(shù)據(jù)分析,最終篩選出DEGs1583個(gè),其中上調(diào)DEGs748個(gè),下調(diào)DEGs835個(gè),通過(guò)分析前20個(gè)顯著DEGs,發(fā)現(xiàn)表達(dá)量顯著上調(diào)的K4BWK1、K4DBB7、UNKNOWN1、UNKNOWN4均與氧化還原代謝相關(guān),特別是K4BWK1、UNKNOWN1、UNKNOWN4均參與了谷胱甘肽代謝過(guò)程,該代謝過(guò)程在植物體內(nèi)具有抗氧化作用[11]。抗氧化作用基因表達(dá)上調(diào)可能是由于干旱脅迫引起細(xì)胞內(nèi)ROS含量增加,這與Thirumalaikumar VP等的研究結(jié)論相一致[12]。UNKNOWN3(AIG1-like蛋白)類(lèi)似于擬南芥中AIG1蛋白,是第一種被鑒定的IAN蛋白(immune-associated nucleotide-binding protein),可能在植物發(fā)育過(guò)程中發(fā)揮調(diào)節(jié)作用以及對(duì)生物和非生物脅迫的應(yīng)答[13]。K4C1U8作為BSDH?;D(zhuǎn)移酶家族成員,該酶類(lèi)是植物中所特有的,參與多種植物次生代謝物的合成和修飾,如類(lèi)黃酮、生物堿、萜類(lèi)、多胺、花青素和揮發(fā)性酯類(lèi)的?;揎椀?,其介導(dǎo)的?;揎椩谔烊划a(chǎn)物結(jié)構(gòu)改造中普遍存在,對(duì)豐富植物次生代謝產(chǎn)物結(jié)構(gòu)多樣性,提高化合物的穩(wěn)定性、脂溶性、改善生物利用度等方面均有重要意義[14,15]。K4BEQ5功能類(lèi)似于水稻的硅內(nèi)流轉(zhuǎn)運(yùn)蛋白,作為載體將硅從外部溶液轉(zhuǎn)運(yùn)到根細(xì)胞,硅有利于植物生長(zhǎng),提高植物抗生物和非生物脅迫能力[16,17]。而在顯著下調(diào)DEGs中,K4B340作為乙烯響應(yīng)因子,參與植物防御反應(yīng)與乙烯激活信號(hào)通路,乙烯在植物的生物與非生物脅迫應(yīng)答中具有重要作用。K4CEB2作為細(xì)胞膜的組成部分,表達(dá)量下調(diào)可能意味著細(xì)胞膜受損,K4AVR4被Yang ML等研究證明能顯著提高海棠的耐旱性[17],K4DGR0作為鋅指蛋白,對(duì)基因調(diào)控起著重要作用。K4BJ00是脫落酸(ABA)受體,參與激活A(yù)BA通路,ABA是重要的植物抗脅迫激素[18]。這些DEGs的顯著表達(dá)說(shuō)明干旱脅迫引起植物體內(nèi)氧化脅迫,導(dǎo)致ROS上升破壞細(xì)胞膜結(jié)構(gòu),對(duì)抗環(huán)境脅迫的應(yīng)激響應(yīng)通路受阻,同時(shí)植物體內(nèi)啟動(dòng)抗氧化與防御機(jī)制起到自我保護(hù)的作用。
通過(guò)對(duì)DEGs的GO功能富集分析表明,在轉(zhuǎn)錄調(diào)控、氧化應(yīng)激反應(yīng)、過(guò)氧化氫分解代謝過(guò)程、植物類(lèi)細(xì)胞壁、防御反應(yīng)等生物學(xué)過(guò)程中的相關(guān)基因參與了干旱脅迫的過(guò)程。KEEG信號(hào)通路富集分析結(jié)果顯示,代謝通路、次生代謝產(chǎn)物的生物合成、植物激素信號(hào)轉(zhuǎn)導(dǎo)、類(lèi)苯基丙酸合成、淀粉與蔗糖的代謝等代謝途徑均受到干旱脅迫的影響,以苯丙烷類(lèi)生物合成途徑(圖6)為例,它是是植物3條主要次生代謝途徑之一,丙氨酸經(jīng)多步催化反應(yīng)生成4-香豆酸輔酶A,進(jìn)入特異性合成途徑轉(zhuǎn)化成不同的苯丙烷類(lèi)代謝產(chǎn)物,如香豆素、類(lèi)黃酮、萜類(lèi)、木質(zhì)素、花青素等,在植物的生長(zhǎng)發(fā)育過(guò)程及應(yīng)答逆境脅迫中發(fā)揮重要作用[19]。DEGs的PPI網(wǎng)絡(luò)分析,篩選出10個(gè)關(guān)鍵DEGs均屬于葉綠體蛋白,說(shuō)明干旱脅迫直接影響了植物的光合作用。
本研究基于GEO數(shù)據(jù)庫(kù)的基因芯片數(shù)據(jù),使用生物信息學(xué)方法分析了番茄在干旱脅迫下的DEGs,通過(guò)GO功能富集與KEEG信號(hào)通路富集,在一定程度上闡明了干旱脅迫引起番茄代謝變化,由于生物信息學(xué)本身存在一定局限性,在后續(xù)的研究中,需要運(yùn)用Q-PCR、Western Blot等實(shí)驗(yàn)技術(shù)對(duì)關(guān)鍵DEGs做進(jìn)一步分析驗(yàn)證,同時(shí)結(jié)合蛋白質(zhì)組學(xué)與代謝組學(xué)研究番茄干旱脅迫的基因表達(dá)譜,有助于從分子生物學(xué)水平更全面深入地分析干旱脅迫對(duì)番茄生長(zhǎng)的影響。
[1] Klee HJ, Giovannoni JJ. Genetics and control of tomato fruit ripening and quality attributes [J]. Annual Review of Genetics, 2011,45:41-59
[2] Iovieno P, Punzo P, Guida G,. Transcriptomic changes drive physiological responses to progressive drought stress and rehydration in Tomato [J]. Front Plant Sci, 2016,7:371
[3] Lin Y, Liu F, Xu P. Effects of drought on infant mortality in China [J]. Health Economics, 2021,30(2):248-269
[4] Barrett T, Wilhite SE, Ledoux P,. NCBI GEO: archive for functional genomics datasets—update [J]. Nucleic Acids Research, 2013,41:991-995
[5] Li Y, Gu J, Xu FK,. Transcriptomic and functional network features of lung squamous cell carcinoma through integrative analysis of GEO and TCGA data [J]. Sci Rep, 2018,8:15834
[6] Ma GW, Liu MY, Du K,. Differential expression of mRNAs in the brain tissues of patients with Alzheimer's Disease based on GEO expression profile and its clinical significance [J]. BioMed Research Internationa, 2019(1):1-9
[7] Wan Y, Zhang XL, Leng HL,. Identifying hub genes of papillary thyroid carcinoma in the TCGA and GEO database using bioinformatics analysis [J]. Peer J, 2020,8(11):e9120
[8] Zhao J, Guo C, Ma Z,. Identification of a novel gene expression signature associated with overall survival in patients with lung adenocarcinoma: A comprehensive analysis based on TCGA and GEO databases [J]. Lung Cancer, 2020, 149:90-96
[9] Ghorbani R, Alemzadeh A, Razi H. Microarray analysis of transcriptional responses to salt and drought stress in[J]. Heliyon, 2019,5(11):e02614
[10] Tahmasebi A, Ashrafi-Dehkordi E, Shahriari AG,Integrative meta-analysis of transcriptomic responses to abiotic stress in cotton [J]. Progress in Biophysics and Molecular Biology, 2019,146:112-122
[11] Bachhawat AK, Yadav S. The glutathione cycle: Glutathione metabolism beyond the γ-glutamyl cycle [J]. Iubmb Life, 2018,70(7):585-592
[12] Thirumalaikumar VP, Devkar V, Mehterov N,. NAC transcription factor JUNGBRUNNE- N1 enhances drought tolerance in tomato [J]. Plant Biotechnology Journal, 2018,16:354-366
[13] Wang ZJ, Li X. IAN/GIMAPs are conserved and novel regulators in vertebrates and angiosperm plants [J]. Plant Signal Behav, 2009,4(3):165-167
[14] Panikashvili D, Shi JX, Schreiber L,. The Arabidopsis DCR encoding a soluble BAHD acyltransferase is required for cutin polyester formation and seed hydration properties [J]. Plant Physiol, 2009,151(4):1773-1789
[15] Manjasetty BA, Yu XH, Panjikar S,. Structural basis for modification of flavonol and naphthol glucoconjugates bymalonyltransferase (NtMaT1) [J]. Planta, 2012,236:781-793
[16] Ma JF, Tamai K, Yamaji N,A silicon transporter in rice [J]. Nature, 2006,440(7084):688-691
[17] Yang ML, Che SY, Zhang YX,. Universal stress protein inconfers enhanced drought tolerance [J]. J Plant Res, 2019,132(6):825-837
[18] Gaudet P, Livstone MS, Lewis SE,. Phylogenetic-based propagation of functional annotations within the Gene Ontology consortium [J]. Brief Bioinform, 2011,12(5):449-462
[19] Vogt T. Phenylpropanoid biosynthesis [J]. Molecular Plant, 2010,3(1):2-20
Analysis of Key Expressed Genes and Pathways in Tomato under Drought Stress Based on GEO Database
YANG Wei1,2, TANG Bing1,2, ZHOU Lin-bi1,2, MA Guang-peng1,2, TAN Guo-fei1,2, QU Fei1,2, WANG Tian-wen1,2, ZENG Qing-hong3, WANG Hong-liang3,DENG Ying1,2*
1.550000,2550006,3.550000,
In order to study the effect of drought stress on tomato growth, the key genes of drought stress in tomato were screened by bioinformatics analysis in this study. Retrieving the gene chip data of tomato under drought stress through GEO database, the matrix data of two datasets GSE39894 and GSE106317 were obtained. The differential expression genes were screened through GEO2R. The GO function and KEEG pathway enrichment analysis of differential expression genes were performed through DAVID online database. String database and Cytoscape software were used to construct protein interaction network of differentially expressed genes. The most significant modules and key genes involved in drought stress were screened by using MCODE and Cytohubba plug-in. In this study, 1583 differentially expressed genes were screened, including 748 up-regulated genes and 835 down-regulated genes. GO functional and KEEG pathway enrichment analysis showed that these differential genes were significantly enriched in metabolic pathways, biosynthesis of secondary metabolites, plant hormone signal transduction, and phenylpropanoid biosynthesis,10 key genes such as K4C9D8 _ SOLLC, K4B0Q1 _ SOLLC, CB13 _ SOLLC, PSBP _ SOLLC, K4BCF4 _ SOLLC were screened through protein interaction network analysis. These differentially expressed genes are likely to be potential biomarkers of drought stress in tomato.
GEO database; tomato; drought stress; bioinformatics
S641.2
A
1000-2324(2022)03-0355-07
10.3969/j.issn.1000-2324.2022.03.003
2021-06-17
2022-06-18
貴州省科技計(jì)劃項(xiàng)目(黔科合支撐[2020]1Y090號(hào));國(guó)家自然科學(xué)基金(31960595);貴州省基層農(nóng)技推廣體系改革與建設(shè)補(bǔ)助項(xiàng)目(GZNJTG-WN-2022-01);貴州省蔬菜現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系項(xiàng)目(GZCYTX2022-01);貴州省農(nóng)科院資源專項(xiàng)(黔農(nóng)科院種質(zhì)資源[2022]03號(hào));貴陽(yáng)市蔬菜種質(zhì)資源研究中心建設(shè)項(xiàng)目(筑科合同[2021]5-1號(hào))
楊巍(1985-),男,碩士,助理研究員,主要從事蔬菜育種與栽培. E-mail:yangwei139@sina.cn
Author for correspondence. E-mail:87928883@qq.com