胡文冉,趙 準,邵武奎,黃全生
(新疆農(nóng)業(yè)科學(xué)院核技術(shù)生物技術(shù)研究所/新疆農(nóng)作物生物技術(shù)重點實驗室,烏魯木齊 830091)
【研究意義】作為植物中的一種重要轉(zhuǎn)錄因子,TCP蛋白參與調(diào)控植物生長發(fā)育進程。TCP家族成員已經(jīng)在玉米[1]、小麥[2]、擬南芥[3,4]、棉花[5]、水稻[6-8]等多個作物或植物中被鑒定出來。陸地棉(GossypiumhirsutumL.)是我國主要的栽培棉種,種植面積占棉花總種植面積90%以上[9],研究陸地棉TCP家族基因,找出調(diào)控陸地棉株型、纖維品質(zhì)等性狀的關(guān)鍵基因,對于棉花生產(chǎn)具有重要意義?!厩叭搜芯窟M展】TCP(teosinte branched1/cycloidea/proliferating cell factors)蛋白是植物特有的轉(zhuǎn)錄因子家族,最早發(fā)現(xiàn)的TCP家族成員包括玉米teosinte branched 1(TB1)基因、金魚草cycloidea(CYC)基因和水稻proliferrating cell factors1和2(PCF1/2)基因,TCP基因家族名稱取自于該3個成員的英文縮寫首字母。TCP家族都含有非典型的堿基螺旋-環(huán)-螺旋(bHLH)結(jié)構(gòu)。根據(jù)氨基酸序列的差異,TCP轉(zhuǎn)錄因子可被分為Class ITCP和Class ⅡTCP2個亞家族。Class Ⅱ的TCP結(jié)構(gòu)域包含59個氨基酸,而Class I的TCP結(jié)構(gòu)域包含55個氨基酸,相較與Class Ⅱ在其堿性區(qū)域缺失4個氨基酸殘基。其中Class ITCP以水稻中的PCF1與PCF2為代表;Class ⅡTCP以CYC與TB1為代表[6-9]。兩個亞家族之間的主要區(qū)別體現(xiàn)在核定位序列(NLS)的位置、bHLH結(jié)構(gòu)域中第2個螺旋的長度以及bHLH結(jié)構(gòu)域外是否含有1個功能未知的精氨酸富集R結(jié)構(gòu)域[10]。Class I成員中都不含有R結(jié)構(gòu)域[3,10]。Class Ⅱ TCP可依據(jù)TCP結(jié)構(gòu)域內(nèi)序列的差異進一步分為CYC/TB1類TCP與CINCINNATA(CIN)類TCP2個亞類[10]。目前已研究的物種中均同時具有Class ITCP和Class ⅡTCP2個亞家族成員?!颈狙芯壳腥朦c】在棉花中已經(jīng)發(fā)現(xiàn)了許多TCP轉(zhuǎn)錄因子,參與纖維發(fā)育、株型分支、非生物脅迫響應(yīng)等過程[11-17]。韓利紅[18]對四倍體陸地棉分析后得到了74個非冗余的GhTCP基因,不同的TCP基因在棉花各個器官和纖維發(fā)育的不同時期存在明顯的差異表達,其在棉花生長發(fā)育過程中具有關(guān)鍵作用。利用2019年最新組裝的陸地棉參考基因組[19],有文獻對擬南芥TCP基因的類型基因ID代表的基因名稱及其在植物體內(nèi)的功能進行了研究,例如基因類型Class I:AT5G41030.1(TCP6,在花器官中尤其是花粉中表達[20]);AT5G23280.1(TCP7,參與葉片發(fā)育[21]、開花時間的正調(diào)控[22]);AT1G58100.1(TCP8,參與葉片發(fā)育[21]);AT2G45680.1(TCP9,參與葉片發(fā)育[23]);AT2G37000.1(TCP11,參與花粉發(fā)育[24]、晝夜節(jié)律[25]、維管束后生木質(zhì)部導(dǎo)管分子的分化和形成[26]);AT3G47620.1(TCP14,參與植物防御進程[27]、控制發(fā)育葉片、特殊花器官、幼嫩節(jié)間細胞增殖,調(diào)控擬南芥節(jié)間和葉形發(fā)育[28-29]);AT1G69690.1(TCP15,參與晝夜節(jié)律[25]、植物防御進程[26]、非生物脅迫[30]、控制發(fā)育葉片、特殊花器官、幼嫩節(jié)間細胞增殖、擬南芥節(jié)間和葉形發(fā)育[28,31-33]);AT3G45150.1(TCP16,在花粉發(fā)育早期發(fā)揮作用,參與雄性配子發(fā)育[34]);AT5G51910.1(TCP19,參與植物防御進程[27]);AT3G27010.1(TCP20,參與調(diào)控植物生長及與發(fā)育相關(guān)基因的調(diào)控[22,35]);AT5G08330.1(TCP21,參與晝夜節(jié)律[36]、生物脅迫[27]);AT1G72010.1(TCP22,負調(diào)控葉片衰老[32]、葉片發(fā)育[21]);AT1G35560.1(TCP23,參與葉片發(fā)育[21])?;蝾愋虲lass Ⅱ:AT1G67260.1(TCP1,參與花發(fā)育[37]、結(jié)合油菜素內(nèi)酯合成關(guān)鍵基因促進植物生長[38-39]);AT1G68800.1(TCP12,參與分枝發(fā)育調(diào)控過程[40]);AT3G18550.1(TCP18,參與分枝發(fā)育調(diào)控過程[40]);AT4G18390.1(TCP2,參與葉發(fā)育[41-42]、晝夜節(jié)律[25]);AT1G53230.1(TCP3,參與葉發(fā)育[41]、晝夜節(jié)律[25]、調(diào)控器官發(fā)育相關(guān)基因的表達[43]);AT3G15030.1(TCP4,控制細胞分裂分化,參與葉發(fā)育[41,44]、早期胚胎發(fā)育[45]、抑制葉綠素合成[46]);AT5G60970.1(TCP5,參與葉發(fā)育[41]、調(diào)控植物的避蔭反應(yīng)[47]、熱形態(tài)建成[48]);AT2G31070.1(TCP10,參與葉發(fā)育[41]);AT3G02150.2(TCP13,參與葉發(fā)育[41]、植物防御進程[27]、調(diào)控植物的避蔭反應(yīng)[47]、熱形態(tài)建成[48]);AT5G08070.1(TCP17,參與葉發(fā)育[41]、在光信號通路和生長素調(diào)控下胚軸伸長過程中起連接因子的作用[49]、調(diào)控植物的避蔭反應(yīng)[47]、熱形態(tài)建成[48]);AT1G30210.1(TCP24,參與葉發(fā)育[41])。有關(guān)陸地棉TCP家族基因鑒定及組織表達分析文獻較少。需鑒定、分析陸地棉TCP家族基因?!緮M解決的關(guān)鍵問題】基于2019年最新組裝的陸地棉TM-1參考基因組,利用生物信息學(xué)手段對該家族基因進行染色體定位、多序列比對聚類分析、保守基序motif預(yù)測、基因結(jié)構(gòu)鑒定和TCP基因組織特異性表達分析,鑒定與陸地棉生長發(fā)育相關(guān)的TCP基因,為揭示棉花產(chǎn)量、品質(zhì)等重要性狀的遺傳調(diào)控機制及棉花分子育種提供基因資源和理論依據(jù)。
1.1.1 陸地棉TCP基因家族成員鑒定
陸地棉全基因組蛋白序列數(shù)據(jù)來自于CottonFGD網(wǎng)站(https://cottonfgd.net/about/download.html)[50],TCP家族HMM模型文件(PF03634)來自于Pfam網(wǎng)站(https://pfam.xfam.org/)[51],使用HMMER網(wǎng)站(http://www.hmmer.org/)[52]鑒定陸地棉TCP家族基因,設(shè)定閾值E<1e-5。利用SMART網(wǎng)站(http://smart.embl-heidelberg.de/)[53]確認所鑒定的TCP基因編碼蛋白的保守結(jié)構(gòu)域。
1.1.2TCP基因家族成員系統(tǒng)進化樹構(gòu)建
分別通過TAIR網(wǎng)站和基因組注釋信息獲得擬南芥和水稻TCP蛋白序列,并利用Pfam網(wǎng)站確認所獲得擬南芥和水稻TCP蛋白含有的結(jié)構(gòu)域[54]。用Clustal Omega 網(wǎng)站(https://www.ebi.ac.uk/Tools/msa/clustalo/)將棉花TCP蛋白序列與已經(jīng)分型的擬南芥和水稻TCP蛋白進行序列比對分析,利用軟件MEGA 7.0[55]構(gòu)建TCP基因家族成員系統(tǒng)進化樹。利用在線Evolview網(wǎng)站(http://www.evolgenius.info/evolview)美化構(gòu)建的系統(tǒng)進化樹。
1.2.1 陸地棉TCP基因家族成員染色體定位、保守基序(motif)預(yù)測及基因結(jié)構(gòu)
1.2.1.1 染色體定位
從CottonFGD網(wǎng)站(https://cottonfgd.net/jbrowse/)[50]獲取陸地棉TCP家族基因物理位置信息,TBtools軟件[56]繪制陸地棉TCP基因在染色體上的位置圖。
1.2.1.2 保守基序(motif)預(yù)測
使用MEME在線工具(http://meme-suite.org/)[57]進行保守基序motif預(yù)測,將motif最大發(fā)現(xiàn)數(shù)設(shè)定為5。
1.2.1.3 基因結(jié)構(gòu)
利用CottonFGD網(wǎng)站(https://cottonfgd.net/about/download.html)獲取TCP基因結(jié)構(gòu)注釋gff3文件。
運用TBtools可視化motif及基因結(jié)構(gòu)分析結(jié)果。
1.2.2TCP基因組織特異性表達
從Cotton Omics Database網(wǎng)站(http://cotton.zju.edu.cn/2.search_gene_locus.php) 獲得陸地棉標準系TM-1根、莖、葉、花托、雌蕊、雄蕊、花萼、花瓣、開花后5 d纖維、10 d纖維、20 d纖維以及25 d纖維共12個棉花組織的表達水平的RNA-seq數(shù)據(jù)標準化FPKM值[58]。運用TBtools軟件獲得TCP基因在陸地棉不同組織中的表達模式熱圖。
研究表明,利用最新組裝的陸地棉TM-1參考基因組,最終鑒定到63個陸地棉TCP基因家族成員。篩選24個擬南芥TCP蛋白序列,其中:13個Class I型,11個Class Ⅱ型,其中CIN型8個,CYC/TB1型3個;22個水稻TCP蛋白序列,其中:10個Class I型,12個Class Ⅱ型,其中CIN型9個,CYC/TB1型3個。擬南芥、水稻和陸地棉TCP蛋白系統(tǒng)進化樹顯示陸地棉63個TCP蛋白共被分為2個亞家族:Class I和Class Ⅱ,其中TCP Class I類有39個,TCP Class Ⅱ類24個,二者數(shù)量均稍高于擬南芥和水稻中TCP Class I和TCP Class Ⅱ蛋白數(shù)量。圖1,表1
表1 擬南芥、水稻和陸地棉TCP蛋白質(zhì)數(shù)目比較
陸地棉63個TCP基因家族成員中,Class I型TCP基因39個,占61.9%;Class Ⅱ型TCP基因共24個,包括7個CYC/TB1型和17個CIN型TCP基因,占38.1%。97.4%的Class I型TCP基因具有1個外顯子,GH_A08G2037.1編碼蛋白質(zhì)最小包含150個氨基酸殘基,GH_A01G1976.1編碼蛋白質(zhì)最大包含550個氨基酸殘基;Class I型TCP基因GH_A13G0787.1具有2個外顯子,編碼蛋白質(zhì)包含353個氨基酸殘基。3個CYC/TB1型TCP基因各含有1個外顯子,編碼白質(zhì)長度分別為367個氨基酸殘基(GH_A12G2854.1)和501氨基酸殘基(GH_A12G1898.1、GH_D12G1898.1);4個CYC/TB1型TCP基因各含有2個外顯子,編碼白質(zhì)長度從325個氨基酸殘基(GH_D11G0067.1)到414個氨基酸殘基(GH_A07G1909.1);82.4%的CIN型TCP基因含有1個外顯子,所編碼蛋白質(zhì)長度分布在285(GH_A09G0092.1)~463氨基酸殘基(GH_D10G0461.1和GH_A10G0437.1),3個CIN型TCP基因各含有2個外顯子,編碼白質(zhì)長度分別為266個氨基酸殘基(GH_D07G0752.1、GH_A07G0756.1)和451氨基酸殘基(GH_D05G3657.1);陸地棉TCP基因具有1~2個外顯子,TCP基因外顯子數(shù)目比較保守;相對于Class I型TCP基因,Class Ⅱ型TCP基因編碼蛋白質(zhì)長度相對比較保守。表2
圖 1 擬南芥、水稻、陸地棉TCP家族成員的系統(tǒng)進化
表2 陸地棉TCP基因外顯子數(shù)量及蛋白質(zhì)長度
研究表明,鑒定得到的63個TCP基因的物理位置信息,33個TCP基因分布在A組染色體上,30個TCP基因分布在D組染色體。除了A02、A06、D03和D06染色體,Class I型TCP基因在其余22條染色體上均有分布,在染色體A01、A03、A04、A08和A10上各有1個;在染色體A05、A07、A09、A11和A13上各有2個;在染色體D01、D02、D05、D08、D10和D11上各有1個;在染色體D04、D07、D09和D13上各有2個,在第12條染色體上,A組和D組染色體分布較多,均有5個基因分布。CIN型TCP基因在染色體A01、A04、A07、A09、A10、A12、A13、D01、D04、D07、D10、D12和D13上各有1個;均有2個基因在染色體A05和D05上分布。CYC/TB1型TCP基因在染色體A07、A11和D11上各分布1個,均有2個CYC/TB1型TCP基因在A12和D12染色體上分布。圖2
圖2 TCP基因在陸地棉染色體上的分布
研究表明,陸地棉63個TCP家族中,所有成員均具有TCP結(jié)構(gòu)域。其中39個Class I型TCP基因所編碼蛋白均含有TCP結(jié)構(gòu)域(motif 1)。Class Ⅱ型TCP編碼蛋白中,17個CIN蛋白均含有TCP結(jié)構(gòu)域(motif 6和motif 8);7個CYC/TB1型蛋白均含有TCP結(jié)構(gòu)域(motif 11)。
Class I型基因中GH_A13G0787.1包含2個外顯子,其余38個Class I型基因均有1個外顯子。Class Ⅱ型基因中,3個CIN型基因(GH_D05G3657.1、GH_D07G0752.1和GH_A07G0756.1)包含2個外顯子,其余14個基因均有1個外顯子;3個CYC/TB1型基因GH_A12G1898.1、GH_D12G1898.1、GH_A12G2854.1均含有1個外顯子,4個CYC/TB1型基因GH_A07G1909.1、GH_A11G0062.1、GH_D11G0067.1、GH_D12G2879.1各含有2個外顯子。Class I型TCP基因各亞族間最明顯的區(qū)別是基因長度的差異,其中GH_A13G0787.1長度超過7 000 bp(base pair,堿基對),其余基因均在500~2 000 bp;Class Ⅱ型基因中,CIN型基因長度在850~1 500 bp,CYC/TB1型基因長度在1 000~1500 bp。圖3,圖4
注:a.Class I TCP 型基因進化樹;b.Class I TCP 型蛋白motif預(yù)測結(jié)果;c.Class I TCP 型蛋白結(jié)構(gòu)域;d.Class I TCP型基因結(jié)構(gòu)
注:A.陸地棉CIN型基因進化樹、蛋白motif預(yù)測結(jié)果、蛋白結(jié)構(gòu)域及基因結(jié)構(gòu);B.陸地棉CYC/TB1型基因進化樹、蛋白motif預(yù)測結(jié)果、蛋白結(jié)構(gòu)域及基因結(jié)構(gòu)。a.CIN型基因進化樹;b.CIN型蛋白motif預(yù)測結(jié)果;c.CIN型蛋白結(jié)構(gòu)域;d.CIN型基因結(jié)構(gòu);e.CYC/TB1型基因進化樹;f.CYC/TB1型蛋白motif預(yù)測結(jié)果;g.CYC/TB1型蛋白結(jié)構(gòu)域;h.CYC/TB1型基因結(jié)構(gòu)
研究表明,將Class I型TCP基因分為11類,第1、2、6、7類基因主要在陸地棉纖維中表達,第3、4、11類基因主要在陸地棉營養(yǎng)器官:莖、葉中表達,第5、8、9、10類基因主要在陸地棉花器官:花托、雌蕊、萼片中表達。Class Ⅱ型TCP基因分為8類,第1、2、3、4、5、7、8類基因主要在陸地棉花器官:萼片、花瓣、花托、雌蕊中表達,第6類基因主要在陸地棉根中表達。Class I型TCP基因主要在陸地棉營養(yǎng)器官、花器官和纖維發(fā)育初期表達;Class Ⅱ型TCP基因主要在陸地棉根和花器官中表達。圖5
注:A:Class I型TCP基因在陸地棉不同組織中的表達;B:Class Ⅱ型TCP基因在陸地棉不同組織中的表達;右側(cè)標尺數(shù)值范圍代表均一化后表達量的變化范圍;紅色為高表達,藍色為低表達,白色為缺失值
3.1在進化過程中,處于同一分支的擬南芥TCP基因往往具有相似的生物學(xué)功能,這也預(yù)示著處于同一分支的其他植物的TCP基因在不同植物中具有相似的功能。因此,準確鑒定棉花TCP基因家族成員,并進行正確分類是研究棉花TCP基因功能的前提。李燕等[59]通過對二倍體雷蒙德氏棉和亞洲棉TCP基因家族的生物信息學(xué)分析,在2個棉種全基因組中分別鑒定出37個TCP基因家族成員,分別分布在10條染色體和13條染色體上;2個棉種中TCP基因大部分不含內(nèi)含子,結(jié)構(gòu)比較簡單;所有TCP轉(zhuǎn)錄因子具有高度保守的TCP結(jié)構(gòu)域;TCP基因家族分成2個亞族3個亞類。研究利用最新組裝的陸地棉參考基因組數(shù)據(jù),通過利用生物信息學(xué)方法鑒定出63個陸地棉TCP家族基因,鑒定出的TCP家族基因少于韓利紅[18]分析得到的74個非冗余GhTCP基因,可能是74個基因其中有部分TCP基因是同源基因或由于基因的倒位、缺失或位點突變等因素導(dǎo)致了基因失去了活性。研究鑒定到的63個TCP基因分為兩大亞類:39個基因?qū)儆贑lass I型,24個基因?qū)儆贑lass Ⅱ型,24個Class Ⅱ型基因包含分為17個CIN和7個CYC兩個亞類。陸地棉TCP基因結(jié)構(gòu)域高度保守,結(jié)構(gòu)比較簡單。該結(jié)果與TCP基因在雷蒙德氏棉、亞洲棉、擬南芥和其他植物中的特性類似[3,11],也預(yù)示TCP家族基因可能在陸地棉生長發(fā)育過程中發(fā)揮同樣重要的作用。
3.2TCP基因與細胞的增殖分化有關(guān),并對擬南芥花的對稱性、植株分枝等植物形態(tài)方面的控制和進化起到了關(guān)鍵的作用。將得到的陸地棉63個TCP基因與擬南芥TCP基因構(gòu)建系統(tǒng)進化樹,分析其進化分類關(guān)系,有助于推測TCP基因在陸地棉植物體內(nèi)的表達及功能。組織特異性表達分析表明陸地棉TCP基因在陸地棉營養(yǎng)器官、花器官和纖維中高水平表達,TCP基因可能參與陸地棉植株生長、開花和纖維發(fā)育的調(diào)控,具體功能還需通過遺傳轉(zhuǎn)化等進一步確認。
在棉花全基因組中鑒定到63個陸地棉TCP家族基因。TCP家族基因分布于陸地棉22條染色體上。陸地棉TCP蛋白分為Class I和Class Ⅱ 2個家族,Class Ⅱ 型TCP蛋白分為CIN和CYC兩個亞類。63個陸地棉TCP蛋白均含有TCP結(jié)構(gòu)域。TCP基因外顯子和內(nèi)含子結(jié)構(gòu)及長度在同一亞家族內(nèi)具有相似性。12個陸地棉器官組織中均有TCP基因參與表達,Class I型TCP基因主要在陸地棉營養(yǎng)器官、花器官和纖維發(fā)育初期表達量較高;Class Ⅱ型TCP基因主要在陸地棉根和花器官中表達量相對較高。