趙冰雪,聶功平,張小惠,黃清俊
(1.上海應用技術大學生態(tài)技術與工程學院,上海 201418;2.長江大學園藝園林學院,湖北 荊州 434023)
植物在其生命周期中會受到多種環(huán)境條件的影響,主要的極端環(huán)境條件,如水分脅迫,鹽脅迫和溫度脅迫等,限制了全球植物的生長,發(fā)育,生產(chǎn)力和地理分布,并降低其潛在價值[1-2]。當植物受到生物和非生物脅迫時,植物會通過一系列調(diào)控誘導或抑制基因的表達,進而提高植物對脅迫的耐受性或躲避脅迫損傷,以適應脅迫環(huán)境。轉錄因子是植物體內(nèi)重要的環(huán)境響應調(diào)控因子[3],在植物逆境脅迫適應性中發(fā)揮重要作用。AP2/ERF(APETALA2/ethylene responsive factor)廣泛分布于各種植物體內(nèi),是一種能夠響應生物和非生物脅迫的重要轉錄因子,對于植物的生長發(fā)育與次級代謝起著重要作用。
AP2/ERF家族成員學包括至少1個AP2結構域,其結構域由60~70個氨基酸殘基組成[4]。AP2/ERF家族分為AP2、RAV、Soloist和ERF亞族[5],AP2亞族編碼2個AP2/ERF結構域[6-7],在調(diào)節(jié)植物生長發(fā)育中具有重要功能,包括葉表皮細胞特化[8]、花和胚珠發(fā)育[9-10]、小穗分生組織確定[11]和種子生長[12-13]等。RAV亞族編碼1個AP2/ERF結構域和1個B3結構域[14],在調(diào)節(jié)靶基因響應乙烯[15]、油菜素內(nèi)酯調(diào)控[16]、生物和非生物脅迫[17]中發(fā)揮重要作用。ERF是AP2/ERF轉錄因子家族的1個最大的亞族[18-19],編碼1個AP2/ERF結構域,在生物脅迫[20]、干旱[21]、低溫[22]、高鹽[23]、熱脅迫[24]、多重脅迫[25-26]等調(diào)控中發(fā)揮重要功能。
芝麻(Sesamum indicumL.)屬于胡麻科(Pedaliaceae)胡麻屬(Sesamum indicumLinn.),為傳統(tǒng)油料作物。目前,對于芝麻AP2/ERF轉錄因子家族的全基因組分析鮮有報道。本研究基于生物信息學方法對芝麻基因組中AP2/ERF轉錄因子家族成員進行全基因組鑒定,對其理化性質、結構特征、保守基序、染色體定位、物種共線性、不同組織的表達特異性以及基因表達對脅迫響應等信息進行研究,旨在為AP2/ERF的進一步功能研究提供重要參考,也為芝麻分子遺傳改良、抗逆育種研究奠定基礎。
從NCBI數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/genome/11560)下載芝麻基因組序列、編碼基因序列、蛋白序列和注釋文件等以供后續(xù)分析。從TAIR數(shù) 據(jù)庫(https://www.arabidopsis.org/)下載擬南芥AP2/ERF基因家族蛋白序列作為種子序列,運用本地blast軟件(https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)從芝麻蛋白序列數(shù)據(jù)庫查找芝麻AP2/ERF基因家族成員,通過Excel2000軟件去除冗余并整理候選基因家族成員。然后從Pfam數(shù)據(jù)庫(http://pfam.xfam.org/)下 載AP2/ERF基 因 家 族 的AP2(PF00847)和B3(PF02362)保守結構域隱馬爾可夫模型,運用HMMER 3.3(http://eddylab.org/software/hmmer/hmmer-3.3.tar.gz)再次提取芝麻AP2/ERF基因家族蛋白序列。結合本地blast和HMMER結果交叉驗證,并提交NCBI數(shù)據(jù)庫SMARTBLAST檢驗序列完整性(https://blast.ncbi.nlm.nih.gov/smartblast/),剔除不相關的假陽性序列、刪除重復的轉錄因子,最終確定芝麻AP2/ERF基因家族候選成員。提取芝麻AP2/ERF基因家族候選成員蛋白序列,運用在線分析工具(https://web.expasy.org/protparam/)預測蛋白理化性質。
使 用NCBI在 線 平 臺Batch CD-Search(https://www.ncbi.nlm.nih.gov/Structure/bwrps b/bwrpsb.cgi)進行芝麻候選AP2/ERF基因家族成員蛋白保守結構域的預測[27]。保守motif采用
MEME Suite(version 5.1.1)(http://memesuite.org/tools/meme)進行預測[28],motif預測參數(shù)設為20。使用Tbtools軟件對保守結構域和motif結構預測結果進行可視化[29]。
從芝麻基因組注釋信息中獲取AP2/ERF基因家族成員位置信息,然后運用Tbtools軟件進行可視化。大麥基因組數(shù)據(jù)庫(https://webblast.ipkgatersleben.de/barley_ibsc/downloads/)和 玉 米基因組數(shù)據(jù)庫(https://www.maizegdb.org/)下載基因組和注釋文件,采用MCScanX方法結合Tbtools軟件計算芝麻、大麥、玉米的AP2/ERF基因家族成員的共線性關系并進行可視化[30]。
芝麻表達譜數(shù)據(jù)GSE133186從GEO數(shù)據(jù)庫下載(https://www.ncbi.nlm.nih.gov/gds/),根據(jù)基因ID從表達譜數(shù)據(jù)中篩選出AP2/ERF家族成員表達譜數(shù)據(jù)[27]。運用Excel 2010軟件整理數(shù)據(jù),分別計算處理組與對照組平均值,采用熱圖對比淹水脅迫下AP2/ERF家族成員表達差異,熱圖可視化分析采用Tbtools軟件。
芝麻基因組中共鑒定出142個AP2/ERF家族基因成員,其編碼179條AP2/ERF蛋白序列。在這些基因中,LOC105156293、LOC105177845、LOC105176383、LOC105155699、LOC105165339、LOC105158575、LOC105180195、LOC105180208、LOC105170679、LOC105170345、LOC105177600、LOC105176219、LOC105167013、LOC105162917、LOC105157874、LOC105167791、LOC105168482基 因 分 別 編 碼2條AP2/ERF蛋 白 序 列;LOC105161130、LOC105175841基因分別編碼3條AP2/ERF蛋白序列;LOC105166874、LOC105170556、LOC105170138基因分別編碼4條AP2/ERF蛋白序列;LOC105166361基因分別編碼8條AP2/ERF蛋白序列;其他基因分別編碼1條AP2/ERF蛋白序列(見表1)。預測結果顯示,AP2/ERF蛋白氨基酸數(shù)量范圍121~697,分子量范圍13 428.04~76 020.09 kD,原子數(shù)范圍1872~10 367。其XP_020554228.1氨基酸數(shù)量、分子量和原子數(shù)最小,分別為697、76 020.09、10 367;XP_011077145.1氨基酸數(shù)量、分子量和原子數(shù)最大,分別為697、76 020.09、10 367;等電點范圍4.50-10.24,XP_011093871.1等 電 點 最 小,XP_020553968.1等電點最大。脂肪系數(shù)反映了蛋白熱穩(wěn)定性,芝麻AP2/ERF轉錄因子蛋白脂肪系數(shù)范圍47.98-70.60,總體熱穩(wěn)定性較高,Soloist亞家族的熱穩(wěn)定性均值最低,RAV亞家族的熱穩(wěn)定性均值最高。其中XP_011080300.1脂肪系數(shù)最小,XP_011096343.1脂肪系數(shù)最大。親水性范圍-1.091~-0.276,XP_011089073.1親水性值最小,XP_011094016.1親水性值最大,且平均系數(shù)均為負值,表明全部AP2/ERF蛋白均屬于親水性蛋白。
表 1(續(xù))
表 1(續(xù))
表 1(續(xù))
表 1(續(xù))
表 1芝麻AP2/ERF基因家族成員分類及性質Tab.1 Classification and properties of protein sequencesof sesame AP2/ERF gene family members
為對芝麻AP2/ERF家族成員進行精準分類,參考擬南芥分類結果[5],將擬南芥156條AP2/ERF家族成員蛋白序列與芝麻179條AP2/ERF家族成員蛋白序列進行比對并構建系統(tǒng)進化樹。進化分析結果顯示,鑒定的179條芝麻AP2/ERF蛋白序列聚為4個亞家族,分別為AP2、RAV、Soloist和ERF(見圖1)。其中,有45條蛋白序列與擬南芥AP2亞家族聚為一類,屬于AP2亞家族,占總數(shù)25.14%;10條蛋白序列與擬南芥RAV亞家族聚為一類,屬于RAV亞家族,占總數(shù)5.59%;8條序列與擬南芥Soloist亞家族聚為一類,屬于Soloist亞家族,占總數(shù)4.47%;116條序列與擬南芥ERF亞家族聚為一類,屬于ERF亞家族,占總數(shù)64.80%。進一步將芝麻ERF亞家族與擬南芥ERF亞家族的12個亞組進行進化分析,結果顯示,116條芝麻ERF蛋白序列分屬于11個亞組,未發(fā)現(xiàn)與擬南芥Xb-L亞組同源的蛋白序列。11個亞組分別為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ、Ⅶ、Ⅷ、Ⅸ、Ⅹ、VI-L,分別包含12、10、21、7、10、5、6、10、22、9、4條蛋白序列,分別占總數(shù)6.70%、5.59%、11.73%、3.91%、5.59%、2.79%、3.35%、5.59%、12.29%、5.03%、2.23%。ERF、RAV亞家族在芝麻基因組的占比與其在楊樹[31]、水稻[32]差異不大,但芝麻中AP2、Soloist亞家族占比相對較高。
圖1 芝麻AP2/ERF基因家族成員蛋白序列進化分析Fig.1 Phylogenetic tree analysis of the protein sequencesof Sesame AP2/ERF gene family members
利用MEME研究了芝麻AP2/ERF家族蛋白的保守基序,共發(fā)現(xiàn)20個保守基序(命名為motif1-20),如圖2所示,不同亞家族或亞組中的保守基序和基序數(shù)量不同,同一亞家族或同一亞組的蛋白序列含有相似基序,而不同的亞家族和亞組間的基序的種類和數(shù)量具有差異。AP2亞家族包含基序種類為motif 1、2、3、4、5、6、11、13、16、17、18、19,其中motif 1、3、4、5為AP2亞家族成員共有基序。RAV亞家族包含基序種類為motif 1、3、4、5、7、8、9、11、12,其中motif 1、3、4、5、7為RAV亞家族成員共有基序,motif 7為RAV亞家族成員特有基序。Soloist亞家族成員包含基序種類為motif 1、3、10、14、20,其中motif 1、10、14、20為Soloist共有基序,motif 14為Soloist特有基序。ERF亞家族成員包含基序種類為motif 3、5、10、14、15,其中motif 3、5為ERF亞家族共有基序。ERF不同亞組間基序差異較小。
圖2 AP2/ERF基因家族motif和保守結構域可視化Fig.2 Visualization of AP2/ERFgene family motifsand conserved domains
AP2/ERF基因家族成員蛋白序列保守結構域分析結果顯示,AP2亞家族成員蛋白序列包含兩個AP2/ERF結構域,RAV亞家族成員蛋白序列具有AP2/ERF結構域和B3結構域,Soloist和ERF亞家族成員蛋白序列均只含有1個AP2/ERF結構域,但Soloist亞家族成員與ERF亞家族成員序列同源性較低。
芝麻基因組中共鑒定出142條AP2/ERF家族編碼基因成員,通過基因組注釋獲取AP2/ERF基因在染色體上的位置信息,可視化分析結果顯示如圖3所示。
針對上述問題,設計了一種基于Arduino的車內(nèi)兒童防誤鎖報警系統(tǒng),系統(tǒng)可以在兒童被家長誤鎖車內(nèi)的情況下做出及時反應,保護兒童生命安全,以此避免悲劇發(fā)生。
圖3 芝麻AP2/ERF基因家族成員染色體定位分析Fig.3 Analysis of chromosome location of Sesame AP2/ERF gene family members
142條編碼基因中,136條AP2/ERF基因分布于芝麻16條染色體上,6條分布于測序片段上,未能精確定位到已知染色體上。136條AP2/ERF基因在染色體上分布無規(guī)律、不均勻,其中Chr1、Chr6、Chr3、Chr2、Chr4上分布較多,分別有20、16、14、13、13條 基 因,Chr14、Chr16、Chr13、Chr15分布最少,分別有1、1、4、4條基因。各亞家族成員在16條染色體上呈不均勻分布,Soloist亞家族主要分布在Chr9染色體上,RAV分布于Chr1、Chr2、Chr7染色體上,AP2亞家族主要分布于除Chr11、Chr14、Chr16外的13條染色體上,ERF亞家族在16條染色體上均有分布。并且,根據(jù)基因在染色體分布密度顯示,AP2/ERF家族基因成員多分布于染色體上基因密度較大區(qū)域。
為探究芝麻AP2/ERF家族基因成員與油料作物及糧食作物在物種演化過程中保守性和變異,將芝麻基因組與油料作物玉米、糧食作物大麥的基因組進行共線性分析,結果如圖4所示。芝麻AP2/ERF家族基因成員在演化過程中,與玉米之間的保守性高于大麥,而與大麥的變異性高于玉米,芝麻染色體上共發(fā)現(xiàn)49個AP2/ERF基因位點與玉米共線性,32個位點與大麥共線性。AP2/ERF基因共線性位點在染色體上的分布不均勻,芝麻LG1、LG3、LG4上AP2/ERF基因共線性位點最多,LG1上分別有6、10個AP2/ERF基因位點與大麥和玉米共線性,LG3上分別有4、8個AP2/ERF基因位點與大麥和玉米共線性,LG4上分別有5、7個AP2/ERF基因位點與大麥和玉米共線性,LG5、LG12上共線性位點最少,LG5上有1個位點與大麥共線性,LG12上有1個位點與玉米共線性,LG14、LG16兩條染色體上沒有AP2/ERF基因位點與大麥和玉米共線性。
圖4 芝麻、玉米、青稞AP2/ERF基因家族成員共線性分析Fig.4 Syntenty analysisof AP2/ERF gene family membersin sesame, maize and highland barley
GSE133186表達譜數(shù)據(jù)包含‘ZZM2541’和‘Ezhi-2’2個芝麻栽培品種[33],‘ZZM2541’具有較強的耐澇性,‘Ezhi-2’對淹水脅迫較為敏感[34]。芝麻AP2/ERF家族成員中共檢測到130條基因的表達,未檢測到LOC105157854、LOC110012885、LOC105160869、LOC105159734、LOC105166097、LOC105158389、LOC105156779、LOC105168313、LOC105171490、LOC105167788、LOC105174394、LOC105161018基因的表達。通過熱圖分析AP2/ERF家族成員表達譜結果顯示(見圖5),AP2/ERF家族大部分成員在2個芝麻品種中受淹水脅迫影響表達量下調(diào),表明淹水脅迫可能抑制了這部分基因的表達,從而影響芝麻生長發(fā)育過程中的其他生理調(diào)控過程。少量基因表達量上調(diào),說明AP2/ERF家族這部分成員參與了芝麻淹水脅迫響應調(diào)控。AP2/ERF家族中Ⅶ亞組在植物響應淹水脅迫過程中發(fā)揮重要作用[35-39],芝麻中基因組中共鑒定出4條Ⅶ亞組成員,分別為LOC105162917、LOC105163098、LOC105157874、LOC105171556,LOC105163098、LOC105171556在2個芝麻品種中均受淹水脅迫誘導下調(diào),LOC105162917在‘ZZM2541’中無顯著變化,在‘Ezhi-2’中顯著下調(diào),LOC105157874在2個芝麻品種中均上調(diào)。Ⅶ亞組中LOC105157874基因可能在芝麻響應淹水脅迫調(diào)控中發(fā)揮重要作用。
圖5 芝麻AP2/ERF基因家族成員響應淹水脅迫表達分析Fig.5 Expression analysis of AP2/ERF gene family members in response to flooding stress in sesame
本研究從芝麻基因組中系統(tǒng)整理鑒定出142條AP2/ERF基因,編碼179條AP2/ERF蛋白序列,其蛋白氨基酸數(shù)量范圍為121~697,分子量范圍13 428.04~76 020.09 kD,原子數(shù)范圍1 872~10 367,等電點范圍4.50~10.24,脂肪系數(shù)范圍47.98~70.60,親水性范圍-1.091~-0.276。
將179條芝麻AP2/ERF基因家族蛋白序列與擬南芥進行系統(tǒng)進化分析,根據(jù)擬南芥分類結果將芝麻AP2/ERF基因家族劃分為4個亞族:AP2,RAV,Soloist和ERF,結果與Nakano等研究結果相同,4個亞族分別包含45、10、8、116條蛋白序列。ERF亞族進一步劃分為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ、Ⅶ、Ⅷ、Ⅸ、Ⅹ、VI-L 11個亞組,分別包含12、10、21、7、10、5、6、10、22、9、4條蛋白序列。芝麻AP2/ERF基因家族保守結構域和保守基序預測結果顯示,相同亞族或亞組間蛋白序列保守結構域和保守基序數(shù)量結構上相似性較高,不同亞族或亞組間保守結構域和保守基序相似性較低。通過比較芝麻與擬南芥間AP2/ERF基因家族蛋白成員數(shù)目與序列,得出兩者AP2/ERF結構域間具有差異性,但其核心保守結構域相一致,結合前人對多種植物AP2/ERF轉錄因子的分布與數(shù)量研究,發(fā)現(xiàn)物種間該轉錄因子的結構和進化具有相對保守性。
136條芝麻AP2/ERF基因被精確定位到染色體上,6條AP2/ERF基因未定位到染色體上,芝麻AP2/ERF基因家族成員在芝麻16條染色體上分布不均勻,根據(jù)基因在染色體分布密度顯示,AP2/ERF家族基因成員多分布于染色體上基因密度較大區(qū)域,這可能與(非)生物脅迫響應基因的染色體分布狀況有關。共線性分析發(fā)現(xiàn)芝麻AP2/ERF家族基因成員在演化過程中,與玉米之間的保守性高于大麥,芝麻染色體上共發(fā)現(xiàn)49個AP2/ERF基因位點與玉米共線性,32個位點與大麥共線性。Ⅶ亞組中LOC105157874基因在2個芝麻品種中均上調(diào),可能具有與擬南芥等植物Ⅶ亞組轉錄因子相同的功能。
目前,對芝麻AP2/ERF基因的功能研究還不夠深入。本研究基于芝麻全基因組測序數(shù)據(jù),對其AP2/ERF基因家族成員進行生物信息學分析,其具體功能仍需利用基因克隆、表達分析等途徑進一步驗證。AP2/ERF轉錄因子家族包含多個抗逆相關基因,為研究非生物脅迫下該芝麻家族功能基因的挖掘及鑒定奠定基礎,有望在芝麻品種抗逆改良等研究中發(fā)揮作用。