張國俊,王婷婷,胡利宗,李書粉,高武軍
(1.新鄉(xiāng)醫(yī)學院 基礎醫(yī)學院,河南 新鄉(xiāng) 453003;2.河南師范大學 生命科學學院,河南 新鄉(xiāng) 453007;3.漯河職業(yè)技術學院 食品工程系,河南 漯河 462000)
蘋果Hsf家族成員的序列特征、表達與進化分析
張國俊1,2,王婷婷3,胡利宗2,李書粉2,高武軍2
(1.新鄉(xiāng)醫(yī)學院 基礎醫(yī)學院,河南 新鄉(xiāng) 453003;2.河南師范大學 生命科學學院,河南 新鄉(xiāng) 453007;3.漯河職業(yè)技術學院 食品工程系,河南 漯河 462000)
為全面了解蘋果基因組中熱激轉錄因子(Hsf)的序列特征及進化,采用生物信息學手段,在蘋果全基因組水平上鑒定出50個MdHsf基因,并對其系統(tǒng)發(fā)育關系、序列特征、表達情況以及選擇壓力進行詳細分析。系統(tǒng)發(fā)育與序列分析顯示:與擬南芥和水稻相似,50個MdHsf基因可分為A、B、C 3個亞族;2個或多個MdHsf基因位于同一個末端進化支,說明該基因家族在蘋果中發(fā)生了物種特異性擴增;盡管MdHsf基因的內含子數(shù)目和長度變異較大,但其蛋白的保守基序和功能結構域具有較高的保守性,這可能與功能約束有關?;贓ST數(shù)目,可推知:除了MdHsfA2a和MdHsfA3a/b/c等14個基因沒有相應的EST外,其余72%的基因都有轉錄活性。選擇壓力檢測和結構建模分析顯示:在36個MdHsf蛋白的選擇壓力檢測中,位點模型未鑒定到正選擇位點的存在;而在顯著水平下(P<0.05),分支-位點模型在d和e進化分支上,共檢測到5個正選擇位點,它們是28R、30L、35D、51M、67V,其中28R和30L位于Hsf結構域中,35D、51M和67V位于Hsf結構域之外,這說明除了MdHsfA4d/e和MdHsfC1a/b發(fā)生快速進化外,其他成員受控于純凈選擇,具有高度保守性。綜合以上研究結果,蘋果基因組中存在多種熱激轉錄因子,其蛋白的保守基序和功能結構域具有較高保守性,大多具有轉錄活性,在進化上該家族受純凈選擇主導。
蘋果;熱激轉錄因子;表達;進化
熱激轉錄因子(Heat shock transcription factor,Hsf)是一種反式作用因子,能與熱激元件相互作用,通過調控Hsp基因(Heat shock protein,Hsp)的表達,參與生物體的熱應激反應[1]。由于熱激蛋白基因的表達受到熱激轉錄因子的調控,因此,Hsf在植物抗擊熱脅迫反應中扮演著十分重要的角色[2]。基于足跡法和親和層析法,Wiederrecht等[3]于1988年首次在酵母(Saccharomycescerevisiae)中克隆得到第一個Hsf基因,隨后,有關Hsf基因的克隆與研究工作主要集中于少數(shù)模式動物,例如果蠅(Drosophilamelanogaster)[4]、小鼠(Musmusculus)[5]和人類(Homosapiens)[6]等。幾乎同時,Scharf等[7]以酵母Hsf的保守結構域為檢索序列,在番茄(Solanumlycopersicum)中克隆到了3個Hsf基因。此后,研究人員陸續(xù)在擬南芥(Arabidopsisthaliana)[8]和水稻(Oryzasativa)[9]等物種中,克隆并鑒定了多個Hsf基因。動物、植物和微生物Hsf基因數(shù)目的比較分析表明,植物Hsf基因不但成員數(shù)目多,而且具有功能的冗余性和多樣性等特點。與動物相比,由于固著生長的植物面對更為復雜的逆境脅迫,相應地需要更多功能多樣化的防御體系來維持生理穩(wěn)態(tài),可推測植物很可能具有更多的熱激轉錄因子成員參與熱激反應。因此,在基因組水平上,鑒定所有Hsf基因成員仍然是一項重要而艱巨的任務。
近年來,隨著測序技術的快速發(fā)展,越來越多的模式植物全基因組測序工作已經完成,這為鑒定與分析Hsf基因家族提供了便捷。在全基因組水平上,許多植物Hsf基因家族包括多個成員,每個成員都含有保守的DNA結合結構域,例如擬南芥、水稻、玉米(Zeamays)、高粱(Sorghumbicolor)、大豆、楊樹(Populustrichocarpa)、番茄、大白菜(Brassicarapassp.pekinensis)、胡蘿卜(Daucuscarota)和茶樹(Camelliasinensis)中分別至少有21,25,25,24,52,27,24,35,35,16個Hsf基因[10-16]。根據(jù)蛋白序列、結構和進化上的關系,植物中Hsf蛋白家族存在A、B、C共3類成員。其中,A類Hsf主要負責熱激基因表達的調控;B類Hsf雖然具有DNA結合活性但卻沒有熱激誘導的轉錄激活活性,可能與A類Hsf共同發(fā)揮作用,C類Hsf的作用尚不清楚[17-18]。
目前,對Hsf基因的研究主要集中在模式植物上,而對果樹的相關研究報道還比較少。蘋果(Malusdomestica)全基因組測序的完成為系統(tǒng)剖析MdHsf基因家族提供了便捷[19]。2012年,Giorno等[20]在蘋果基因組中鑒定了25個Hsfs,并進行了分類和表達分析。分析發(fā)現(xiàn),在蘋果基因組中存在著更多的Hsfs。為此,本研究圍繞基因結構、保守基序、功能結構域、蛋白三維結構、表達與快速進化等問題,對蘋果MdHsf家族基因的50個成員進行了全面而系統(tǒng)的分析,以期為克隆和鑒定蘋果MdHsf的生物學功能奠定基礎,為植物Hsf基因的系統(tǒng)發(fā)育關系與快速進化機制提供線索。
1.1 蘋果Hsf基因的鑒定和進化樹構建
根據(jù)已有報道,擬南芥和水稻Hsf基因家族成員的相關信息直接查文獻獲得[10-11],其相關序列主要來源于3個數(shù)據(jù)庫:Phytozome v8.0(http://www.phytozome.net/)、JGI(http://genome.jgi.doe.gov/programs/plants/index.jsf)和NCBI(http://www.ncbi.nlm.nih.gov/)。為獲取蘋果Hsf基因,本研究分別以擬南芥Hsf基因、水稻Hsf基因和植物Hsf結構域(PF00447)的一致性序列為檢索序列,對蘋果基因組數(shù)據(jù)庫進行了Blast搜索(E=0.01)。移走冗余序列,利用Pfam工具(http://pfam.sanger.ac.uk/)對所得Hsf蛋白序列進行分析,若存在Hsf結構域(PF00447),則認為該蛋白質屬于Hsf家族成員。如果同一個基因座有多個轉錄本,選擇最長的轉錄本作為代表,每個基因座只算作1個基因成員。為闡明蘋果Hsf基因的進化關系,構建了擬南芥、水稻和蘋果Hsf蛋白的進化樹。具體步驟如下:在默認參數(shù)下,利用MUSCLE軟件對Hsf蛋白序列進行多重比對分析[21];基于比對結果,采用極大似然法(Maximum likelihood method)構建系統(tǒng)發(fā)育樹,進化樹的構建和輸出均由MEGA軟件完成[22]。
1.2 蘋果Hsf基因的序列特征分析
通過Hsf基因的DNA和cDNA序列的比較,可確定Hsf基因的結構,其結構模式圖由GSDS軟件(http://gsds.cbi.pku.edu.cn/)繪制。利用MEME工具(http://meme.sdsc.edu/)對蘋果Hsf蛋白的保守基序進行分析。參數(shù)設置如下:同一基序在一條序列中出現(xiàn)的次數(shù)為0或者1,基序長度為6~200個氨基酸殘基,基序最大發(fā)現(xiàn)數(shù)目10個,其他參數(shù)為默認值。此外,利用Pfam工具(http://pfam.sanger.ac.uk/)對所有Hsf蛋白的功能結構域進行鑒定,并對結構域的排列方式進行分析。
1.3 蘋果Hsf基因的表達分析
不同組織來源EST數(shù)目的統(tǒng)計分析不僅能推測基因的轉錄活性,而且能反映基因的表達水平。以蘋果Hsf基因的編碼序列為檢索序列,利用Blast工具在GenBank中dbEST數(shù)據(jù)庫搜索相應的EST序列,參數(shù)設置為默認值?;谧罴哑ヅ涞腅ST序列,鏈接到UniGene,利用該UniGene的EST組織表達譜推測Hsf基因的表達情況。
1.4 蘋果Hsf基因選擇壓力的檢測
由于50個蘋果Hsf基因間的差異度較大,不便于進行選擇壓力研究,因此,有必要對這些基因進行分組。首先,利用ClustalX軟件對Hsf基因進行多重序列比對[23]。然后,根據(jù)3個標準進行分組:①氨基酸水平上組內的平均相似度大于30%;②組內每個成員氨基酸序列長度大于總長度的50%;③每個組內的成員數(shù)目大于3個基因。上述標準用在線工具BLASTclust(http://toolkit.tuebingen.mpg.de/blastclust)計算檢測,其中36個蘋果Hsf基因符合上述標準。最后,利用Gblock軟件[24]移走這些基因多序列比對中的高度分歧區(qū),對剩余的同源區(qū)進行進一步的選擇壓力分析。36個蘋果Hsf基因同源區(qū)的密碼子比對文件由Pal2nal工具[25]生成,其樹文件由TreeView軟件[26]產生。利用PAML3.15(http://abacus.gene.ucl.ac.uk/software/paml.html)軟件包中的CODEML程序對蘋果Hsf基因的選擇壓力進行分析,其中,位點特異模型用于每個組內的選擇壓力檢測,而位點分支模型用于每個分支的選擇壓力檢測[27]。為將MdHsfA4d、MdHsfA4e、MdHsfC1a和MdHsfC1b蛋白的正選擇位點定位在三維結構中,本研究基于同源建模方法,利用SWISS-MODEL服務器對4個蘋果Hsf蛋白的三維結構進行預測[28],其中MdHsfA4d、MdHsfC1a和MdHsfC1b以人類Hsf1蛋白(2lduA)為模板,而MdHsfA4e以乳酸克魯維酵母Hsf蛋白(3hsfA)為模板。同時,經Loop區(qū)優(yōu)化、能量最小化和動力學模擬等步驟,最后得到最佳三維構象。
2.1 蘋果Hsf基因的鑒定及其系統(tǒng)發(fā)育分析
分別以AtHsf、OsHsf和植物Hsf結構域(PF00447)的一致性序列為檢索序列,利用Blast同源搜索方法在蘋果基因組數(shù)據(jù)庫中挖掘Hsf候選基因,移走冗余序列后,利用Pfam對所有蛋白進行特征結構域掃描。最終,在蘋果基因組中共鑒定了50個Hsf基因,其中包括前人鑒定得到的23個Hsf基因。表1列舉了這些基因的名稱、類型、登錄號、疊連群與染色體位置。
為闡明不同植物Hsf基因的進化關系,對50個MdHsf以及具有代表性的21個AtHsf和25個OsHsf的蛋白序列進行親緣關系分析,獲得環(huán)狀進化樹(圖1)。其中,蘋果和擬南芥隸屬于雙子葉植物,而水稻屬于單子葉植物。結果表明:3種代表性植物的96個Hsf蛋白可分為3個亞家族,即A、B、C亞家族。根據(jù)MdHsf與AtHsf蛋白的系統(tǒng)發(fā)育關系,并參考擬南芥該家族的名稱,對每個MdHsf基因進行了編號和命名(表1、圖1)。從亞家族的成員數(shù)目看,蘋果的亞家族A包括37個基因,亞家族B包括11個基因,亞家族C僅包括2個基因。其中,23個基因為Giorno等[21]已經鑒定過的(表1)。通過對比該分類結果和Giorno等的分類結果,對這23個基因的分類是完全一致的。從親緣關系角度看,絕大多數(shù)蘋果Hsf蛋白優(yōu)先與擬南芥同源基因聚在一起,然后再與水稻相應同源基因聚為一簇,這與物種進化關系具有較高一致性(圖1)。
2.2 蘋果Hsf基因的序列與進化特征
本研究基于蘋果Hsf蛋白全長序列構建了該家族的進化樹(圖2-A),并對蘋果50個MdHsf基因的結構進行分析(圖2-B)。結果顯示,除了MdHSFA9g基因沒有內含子外,其余的MdHsf基因都至少有1個內含子。若以內含子數(shù)目為準,具有內含子的49個蘋果MdHsf基因的結構可分為6種類型,它們分別有1,2,3,4,6,10個內含子。不同類型的基因結構具有不同的頻率:1個內含子類型基因數(shù)目最多,包括MdHsfA6c等19個基因;2個內含子類型基因數(shù)目次之,包括MdHsfA3c等13個基因;3個內含子類型包括MdHsfA6e等10個基因;4個內含子類型包括Mdhsfa6a等5個基因;而6個內含子和10個內含子類型數(shù)目最少,僅各包含MdHsfAqe和MdHsfAbe(圖2-B).
注:Md.蘋果;Hsf.熱激轉錄因子;Chr.染色體。
Note:Md.Apple;Hsf.Heat shock factor;Chr. Chromosome.
其次,蛋白結構域分析顯示,絕大多數(shù)蘋果Hsf僅僅包括Hsf結構域。但MdHsfA6e、MdHsfA8a/b、MdHsfB1a、MdHsfA10b和MdHsfA10e不但含有典型Hsf結構域,而且還包括額外的功能結構域,例如MdHsfA6e包括1個ARD,MdHsfA8a/b各包括1個EF,MdHsfB1a包括RCC,MdHsfA10b包括4個串聯(lián)的HPR,MdHsfA10e包括2個串聯(lián)的WD結構域(圖2-C)。利用MEME軟件對50個蘋果Hsf蛋白保守基序進行預測,結果顯示,在該蛋白家族中共檢測到10個保守基序,依次編號為1~10(圖2-D)。在蘋果Hsf蛋白的A亞家族中,除了MdHsfA9g、MdHsfA9b、MdHsfA10d和MdHsfA10c只包含一個保守基序外,其他的蛋白都至少具有2個保守基序,其中包括MdHsfA6d等在內的23個蛋白都至少包含5個保守基序,這些保守序列的組成和排列順序具有較高的保守性。與A亞家族保守基序相比,蘋果Hsf蛋白的B亞家族蛋白最多僅包含5個保守基序,并且不包括保守基序3,5,6,7和8。C亞家族的保守基序模式與A亞家族十分相似,但該亞家族并不包括保守基序5,6,7和8,因此,可推測保守基序5,6,7和8是A亞家族所特有的。
為了解親緣關系比較近的蘋果Hsf基因是否具有相同或相似的序列特征,基于蘋果Hsf蛋白全長序列構建了該家族的進化樹(圖2-A)。一般而言,位于進化樹末端的同源基因對具有相同或相似的序列特征,例如MdHsfA2a/b、MdHsfA9c/d、MdHsfA4a/b、MdHsfB4a/b和MdHsfB2b/c等(圖2-B);但也有許多同源基因對的序列特征發(fā)生了較大的分化,尤其是基因結構,其差異非常明顯,例如MdHsfA6a/b、MdHsfA6c/e、MdHsfA10a/b、MdHsfA10e/f和MdHsfC1a/b等(圖2-B)。與基因結構相比,同源基因對的保守基序和功能結構域的組成與排列順序幾乎完全相同(圖2-C、D),具有非常高的保守性,這意味著內含子序列的變異是驅動基因分化的主要動力。
2.3 蘋果Hsf基因的表達譜分析
在50個MdHsf家族成員中,MdHsfA2a、MdHsfA3a/b/c、MdHsfA6c/d/e、MdHsfA9a/b/e、MdHsfA10c/e/g和MdHsfC1a共有14個基因未找到與Hsf基因編碼序列顯著匹配的EST序列,因此,這些基因是否具有轉錄活性有待進一步試驗驗證。其余的36個基因均具有轉錄活性,占基因總數(shù)的72%。由于MdHsfA5a/b、MdHsfB3a/b和MdHsfA10b相應的UniGene中EST并沒有進行正態(tài)化和統(tǒng)計處理,因此,不能推斷這些基因的表達水平。根據(jù)這些基因相應的EST或cDNA的組織器官來源,可推知:MdHsfA5a/b在花和果實中均有轉錄活性,MdHsfB3a/b在花中有轉錄活性,MdHsfA10b在果實中有轉錄活性。由于有些蘋果Hsf基因之間相似程度高,多個基因同時對應1個UniGene,因此,31個蘋果Hsf基因只能檢測到13個UniGene。這些UniGene的EST表達譜結果顯示:在蘋果根中,MdHsfB1a/b/c、MdHsfA4d/e和MdHsfC1a/c等基因均有表達,其中MdHsfA4d/e基因表達量最高;在蘋果莖中,MdHsfA4a/b/c、MdHsfA8a/b/c、MdHsfA9c/d/g、MdHsfB1a/b/c和MdHsfB2b/c/d等基因均有表達,其中B亞家族基因MdHsfB1a/b/c和MdHsfB2b/c/d表達量最高;在蘋果葉中,除了MdHsfA4a、MdHsfA9c/d、MdHsfB4a/b和MdHsfC1a/c等基因沒有轉錄活性外,其他基因均有表達,其中MdHsfB1a/b/c表達量最高;在蘋果花中,所有基因均沒有轉錄活性;在蘋果果實中,MdHsfA4d/e、MdHsfA9c/d/g、MdHsfB1a/b/c、MdHsfB2b/c/d、MdHsfA10f和MdHsfC1a/c等基因均有表達,其中MdHsfA4d/e表達水平最高;在蘋果芽中,MdHsfA8a/b/c、MdHsfB1a/b/c和MdHsfB4a/b等基因均未檢測到轉錄活性;在蘋果細胞培養(yǎng)組織中,只有MdHsfB1a/b/c等基因具有轉錄活性(圖 3)。
圖2 基于蘋果Hsf蛋白序列的進化樹及Hsf基因及其蛋白的序列特征
2.4 基于位點模型的正選擇位點檢測
M0和M3、M1a和M2a、M7和M8是3對位點特異模型,這些模型假設了ω值在不同分支之間是同質的,在不同位點是異質的。因此,它們常被用于檢測基因不同位點的選擇壓力。首先,準備序列比對文件和無根樹(圖4),然后用PAML軟件包中的Codeml程序對36個蘋果Hsf基因進行選擇壓力分析,進一步利用LRT測試所鑒定的正選擇位點是否達到顯著水平。結果顯示:與相應的假設模型M1a和M7相比,備擇模型M2a和M8均不具有優(yōu)勢,這一結論受到LRT檢測的支持;盡管M3和M0之間的LRT檢測支持蘋果Hsf基因經歷快速進化,但是這個模型對不推薦作為參考標準(表2)。這一結果揭示蘋果Hsf基因在進化過程中受到了負選擇,具有較高的保守性。
圖3 MdHsf家族基因在蘋果不同器官中的表達分析
2.5 基于分支-位點模型的正選擇位點檢測
在顯著水平上,位點模型沒有檢測到正選擇位點,這有可能是該模型并不適合于蘋果Hsf基因。由于分支-位點模型允許不同分支上不同位點具有不同的功能約束和進化速率,這就意味著不同分支不同位點的ω值具有異質性,因此,該模型可以評價不同分支上不同位點所受到的選擇壓力。
將所有包括2個或2個以上基因的進化支標記為前景支,剩余的其他分支標記為背景支,執(zhí)行檢測時用Model A的測驗2[29-30]。結果顯示:以a、b、c、d、e、f、g進化支為前景支時,它們的ω值均大于1,除了c進化支沒有檢測到正選擇位點以外,其余進化支均能檢測到此類位點;盡管a、b、f、g進化支的ω值大于1,并且能夠檢測到正選擇位點,但在顯著水平(P<0.05)上,LRT檢測并不支持這些正選擇位點的存在;d、e進化支為前景支時,它們不但ω值大于1,而且在顯著水平上,d、e進化支中分別包括3,2個正選擇位點(圖 4、表 3)。
2.6 蘋果熱激轉錄因子三維結構的建模
為闡明蘋果Hsf蛋白的立體結構以及正選擇位點在三維空間中的位置,以位于進化分支d和e中MdHsfA4e/d和MdHsfC1a/b蛋白作為研究對象,利用SWISS-MODEL工具對這4個蛋白結構進行同源模擬,經Loop區(qū)優(yōu)化、能量最小化和動力學模擬分別得到最佳三維構象(圖5)。結果顯示:MdHsfA4d(圖5-A)、MdHsfC1a(圖5-C)和MdHsfC1b(圖5-D)共享同一模板2lduA,它們與模板匹配序列區(qū)段的相似性分別為44.25%,42.48%,43.24%,它們的結構極其相似,主要結構包括3個α-螺旋、4個β-折疊和7或8個β-轉角;MdHsfA4e(圖5-B)的模板是3hsfA,其序列匹配序列區(qū)段的相似性為45.59%,它的結構明顯有別于另外3個蛋白結構,包括3個α-螺旋、2個β-折疊和5個β-轉角。由于模擬蛋白是部分序列的三維結構,而該序列C端包括正選擇位點28R和30L,但不包括正選擇位點35D、51M和67V,這說明該蛋白片段的C端在d和e進化支上均發(fā)生了快速進化。
粗線表示進化支的ω值大于1;箭頭表示進化支的ω值大于1且具有統(tǒng)計意義上的顯著性。
The thick line represents the ω value of the evolution branch is greater than 1;The arrow indicates that the ω value of the evolution branch is greater than 1 and also is significant statistically.
圖4 用于蘋果Hsf蛋白選擇壓力檢測的無根樹
Fig.4 The unrooted tree used in detection for selection pressures on Hsf proteins in apple
表2 基于位點模型的蘋果Hsf基因正選擇位點檢測
表3 基于分支-位點模型的蘋果Hsf基因選擇壓力檢測
基于生物信息學手段,本研究以Hsf保守結構域為檢索序列,鑒定了蘋果基因組中具有50個Hsf基因家族的成員,這比Giorno等[20]鑒定的成員數(shù)目多了1倍,這可能是由于所采用的鑒定方法有所不同。從基因結構、蛋白結構和進化分析上來看,筆者鑒定的基因都為Hsf基因家族的成員,所以,本研究是在蘋果全基因組水平上全面而系統(tǒng)的對Hsf基因家族的分析。根據(jù)系統(tǒng)分析結果,并參考在其他物種中Hsf基因的分類情況,將蘋果Hsf基因家族分為A、B和C 3個亞家族。該分類結果與Giorno等[20]的分類是一致的。目前在所研究的物種中,對于HSF的分類一般都采用A、B、C 3個亞家族的分類,其中B一般會形成單系,C在一些物種中會形成單系,在另外的物種是和A亞家族聚在一起的,而A亞家族包含的成員數(shù)量眾多,一般很少會形成單系[17,31-32]。系統(tǒng)進化分析顯示,2個或多個蘋果Hsf蛋白總是先聚在一起,然后與一個擬南芥同源基因再聚在一起,最后與水稻相應同源基因聚為一簇,這不僅說明Hsf基因在蘋果基因組中發(fā)生了擴增,也印證了這3個物種的演化過程。蘋果基因組測序分析揭示了該物種是由其祖先物種(與滅絕物種Gillenia相似)全基因加倍后,再經過二倍和非整倍體化過程,然后形成的新物種[19],因此,蘋果Hsf基因的擴增與全基因組加倍具有十分密切的關系。由于熱激轉錄因子特異識別熱激蛋白啟動子區(qū)的保守順式元件(HSE:AGAAnnTTCT),因此,它至少包括能與HSE元件特異結合的功能結構域。通常情況下,植物熱激轉錄因子主要包括:1個N端DNA結合區(qū)域(DNA binding domain,DBD)、1個雙向寡聚化區(qū)域(Heptads repeat of hydrophobic amino acid residues,HR-A/B)、1個細胞核定位信號(Nuclear localization signal,NLS)和細胞核輸出信號(Nuclear export signal,NES)[16];此外,少數(shù)植物Hsf蛋白還具有1個酸性C端的激活域(C terminal activator domain,CTAD)[16]。從基因結構角度看,蘋果Hsf基因具有多樣化的結構,尤其是內含子數(shù)目和長度,存在著豐富的變異。從蛋白水平看,該蛋白家族成員之間具有較高的相似性,這是因為Hsf蛋白保守基序與功能結構域之間相互重疊,例如DBD與Motif1/2,HR-A/B與Motif3/4等。Hsf蛋白為了正確行使功能,其序列的變異就會受限制,因而蛋白序列具有較高的保守性,但不同亞家族之間保守基序組成類型可能不同。
圖5 四個蘋果熱激轉錄因子蛋白的結構
就蘋果Hsf基因家族成員的表達而言,雖然UniGene中的EST或cDNA序列能推斷基因的轉錄活性,甚至表達的相對量,但是基于同一個UniGene的EST表達譜推斷多個同源基因表達是不精確的。這是因為進化過程中,作為非編碼區(qū)的啟動子發(fā)生變異較快,而啟動子序列又是基因表達調控的關鍵元件,因此,同源基因的表達或多或少會有差異,其精確表達有待試驗進一步驗證。
在選擇壓力檢測時,通常用ω=dN/dS值來衡量選擇壓力。若ω>1且似然比檢驗具有顯著性差異,則認為編碼序列在對應的分支或位點經受正選擇。本研究采用位點模型與分支-位點模型,針對36個蘋果Hsf基因進行選擇壓力分析。盡管位點模型沒有檢測到正選擇位點的存在,但分支-位點模型在d和e進化支上共檢測到5個正選擇位點,其中d進化支上正選擇位點是30L、35D和51M,e進化支上是28R和67V。為了確定這5個正選擇位點在Hsf蛋白三維結構中的位置,本研究在模擬了MdHsfA4d、MdHsfA4e、MdHsfC1a和MdHsfC1b(圖5-D)蛋白結構的基礎上,比較了正選擇位點與模擬結構區(qū)序列。結果顯示,d進化支上的30L和e進化支上的28R均被定位于保守的Hsf結構域中,這說明Hsf結構域不僅高度保守,而且在特定進化支的某些位點也發(fā)生了快速進化。D進化支上的35D和51M以及e進化支上的67V正選擇位點均遠離活性DNA結合區(qū)域(DNA binding domain,DBD),并且它們分布在不同的位置,這充分說明了正選擇很可能提高該蛋白家族特定進化支的適應性??傊?,純凈選擇主導了該家族的進化,尤其對于Hsf結構域而言,純凈選擇是該蛋白行使功能,維持酶活性的基礎。同時揭示快速進化可以發(fā)生特定進化支系的某些位點內,很可能為該酶結構演化和適應新環(huán)境提供原始動力。本研究結果為后續(xù)的Hsf功能研究和利用基因工程方法改良蛋白活性提供參考信息。
[1] ?kerfelt M, Morimoto R I, Sistonen L. Heat shock factors: integrators of cell stress, development and lifespan[J]. Nat Rev Mol Cell Bio, 2010, 11(8): 545-555.
[2] Ohama N, Sato H, Shinozaki K, et al. Transcriptional regulatory network of plant heat stress response[J]. Trends Plant Sci, 2016, 22(1): 53-65.
[3] Wiederrecht G,Seto D,Parker C S.Isolation of the gene encoding theS.cerevisiaeheatshock transcription factor [J]. Cell,1988,54(6):841-853.
[4] Clos J,Westwood J T,Becker P B,et al.Molecular cloning and expression of a heaxameric drosophila heat stress factor subject to negative regulation [J].Cell,1990,63(5):1085-1097.
[5] Fujimoto M, Hayashida N, Katoh, et al. A novel mouse HSF3 has a potential to activate nonclassical heat-shock genes during heat shock[J]. Mol Biol Cell, 2010, 21(1): 106-116.
[6] Rabindran S K,Giorgi G,Clos J,et al.Molecular cloning and expression of a human heat shock factor,HSF1 [J].Proc Natl Acad Sci USA,1991,88(16):6906-6910.
[7] Scharf K D,Rose S,Zott W,et al.Three tomato genes code for heat stress transcription factors with a region of remarkable homology to the DNA-binding domain of the yeast HSF [J].EMBO J,1990,9(13):4495-4501.
[8] Hü bel A,Sch? ffl F.Arabidopsisheat shock factor:isolation and characterization of the gene and the recombinant protein [J].Plant Mol Biol,1994,26(1):353-362.
[9] Yamanouchi U,Yano M,Lin H,et al.A rice spotted leaf gene,Spl7,encodes a heat stress transcription factor protein [J].Proc Natl Acad Sci USA,2002,99(11):7530-7535.
[10] Guo J,Wu J,Ji Q,et al.Genome-wide analysis of heat shock transcription factor families in rice andArabidopsis[J].J Genetics Genomics,2008,35(2):105-118.
[11] Chauhan H,Khurana N,Agarwal P,et al.Heat shock factors in rice(OryzasativaL.):genome-wide expression analysis during reproductive development and abiotic stress [J].Mol Genet Genomics,2011,286(2):171-187.
[12] Lin Y X,Jiang H Y,Chu Z X,et al.Genome-wide identification,classification and analysis of heat shock transcription factor family in maize [J].BMC Genomics,2011,12(1):76.
[13] Scharf K D,Berberich T,Ebersberger I,et al.The plant heat stress transcription factor(Hsf)family:structure,function and evolution [J].Biochimica et Biophysica Acta 2012,1819(2):104-119.
[14] Song X,Liu G,Duan W,et al.Genome-wide identification,classification and expression analysis of the heat shock transcription factor family in Chinese cabbage [J].Mol Genet Genomics,2014,289(4):541-551.
[15] Huang Y,Li M Y,Wang F,et al.Heat shock factors in carrot:genome-wide identification,classification,and expression profiles response to abiotic stress [J].Mol Biol Rep,2015,42(5):893-905.
[16] Liu Z W, Wu Z J, Li X H, et al. Identification, classification, and expression profiles of heat shock transcription factors in tea plant (Camelliasinensis) under temperature stress[J]. Gene, 2016, 576(1): 52-59.
[17] Guo M, Liu J H, Ma X, et al. The plant heat stress transcription factors (HSFs): structure, regulation, and function in response to abiotic stresses[J]. Front Plant Sci, 2016, 7(273): 114.
[18] Raxwal V. Structural and functional diversity of plant heat shock factors[J]. Plant Stress, 2012, 6: 89-96.
[19] Velasco R,Zharkikh A,Affourtit J,et al.The genome of the domesticated apple(MalusdomesticaBorkh.)[J].Nature Genetics,2010,42(10):833-839.
[20] Giorno F,Guerriero G,Baric S,et al.Heat shock transcriptional factors inMalusdomestica:identification,classification and expression analysis [J].BMC Genomics,2012,13(1):639.
[21] Edgar R C.MUSCLE:multiple sequence alignment with high accuracy and high throughput [J].Nucl Acids Res,2004,32(5):1792-1797.
[22] Tamura K, Stecher G, Peterson D, et al. MEGA6: Molecular evolutionary genetics analysis version 6.0[J]. Mol Biol Evol, 2013, 30(12): 2725-2729.
[23] Thompson J D,Gibson T J,Plewniak F,et al.The CLUSTAL_X windows interface:flexible strategies for multiple sequence alignment aided by quality analysis tools [J].Nucleic Acids Res,1997,25(25):4876-4882.
[24] Castresana J.Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis [J].Mol Biol Evol,2000,17(4):540-552.
[25] Suyama M,Torrents D,Bork P.PAL2NAL:robust conversion of protein sequence alignments into the corresponding codon alignments [J].Nucleic Acids Res,2006,34:609-612.
[26] Page R D.TreeView:an application to display phylogenetic trees on personal computers [J].Comput Appl Biosci,1996,12(4):357-358.
[27] Yang Z.PAML4:phylogenetic analysis by maximum likelihood [J].Mol Biol Evol,2007,24(8):1586-1591.
[28] Arnold K,Bordoli L,Kopp J,et al.The SWISS-MODEL workspace:a web-based environment for protein structure homology modelling [J].Bioinformatics,2006,22(2):195-201.
[29] Yang Z,Wong W S,Nielsen R.Bayes empirical Bayes inference of amino acid sites under positive selection [J].Mol Biol Evol,2005,22(4):1107-1118.
[30] Zhang J,Nielsen R,Yang Z.Evaluation of an improved branch-site likelihood method for detecting positive selection at the molecular level [J].Mol Biol Evol,2005,22(12):2472-2479.
[31] Wang F,Dong Q,Jiang H,et al.Genome-wide analysis of the heat shock transcription factors inPopulustrichocarpaandMedicagotruncatula[J].Mol Biol Rep,2012,39(2):1877-1886.
[32] Chung E,Kim K M,Lee J H.Genome-wide analysis and molecular characterization of heat shock transcription factor family inGlycinemax[J].J Genet Genomics,2013,40(3):127-135.
Sequence Characterization,Expression,and Evolutionary Analysis of Heat Shock Transcription Factors in Apple
ZHANG Guojun1,2,WANG Tingting3,HU Lizong2,LI Shufen2,GAO Wujun2
(1.Scoool of Basic Medical Sciences,Xinxiang Medical University,Xinxiang 453003,China;2.College of Life Sciences,Henan Normal University,Xinxiang 453007,China;3.Department of Food Engineering,Luohe Vocational Technology College,Luohe 462000,China)
To extensively understand the sequence feature and evolution of heat shock transcription factors(Hsf)in the genome of apple,fiftyMdHsfgenes were identified using bioinformatics methods at the whole-genome level of apple,and a series of analysis including sequence characterization,phylogenetic relationship,gene expression and selective pressure ofMdHsfgenes were further performed.Phylogenetic relationship and sequence characterization analysis showed that,like the model speciesArabidopsisand rice,50MdHsfgenes were divided into three subfamilies A,B and C.Additionally,at least two genes were found in the same end clades in the phylogenetic tree,indicating that the lineage-specific amplification had happened during evolutionary processes of appleHsfgene family.Although the intron numbers and sizes ofMdHsfgenes were relatively divergent,the conserved motifs and domains of MdHsf proteins were highly conserved because of functional constraints.Based on EST data,72% of the 50 genes(except 14 genes such asMdHsfA2aandMdHsfA3a/b/c)had transcription activities.Selective pressure signatures demonstrated that no positive selection site was identified in the cleaned codon alignments for 36MdHsfgenes based on site-specific model,suggesting that this protein family was controlled by purifying selection.However,branch-site model had identified a total of five positively selected sites in the d and e clade of the phylogenetic tree,i.e.28R,30L,35D,51M and 67V.28R and 30L were included in the Hsf domains,while 35D,51M and 67V were not mapped on the region of Hsf domains,suggesting that purifying selection was the main evolutionary dynamics of functional conservation Hsf domains except for 28R and 30L.In conclusion,various Hsfs existed in apple genome,and the conserved motifs and functional domains were conserved.The majority of them had transcription activity,and the evolution of this family was dominated by purifying selection.
Apple;Heat shock transcription factors(Hsf);Expression;Evolution
2016-08-12
國家自然科學基金項目(31300202;31470334)
張國俊(1980-),男,河南南陽人,講師,碩士,主要從事分子遺傳學研究。
高武軍(1973-),男,山西芮城人,教授,博士,主要從事分子細胞遺傳學研究。
Q78;S661.03
A
1000-7091(2017)02-0071-10
10.7668/hbnxb.2017.02.012