唐麗媛,蔡肖,王海濤,李興河,張素君,劉存敬,張建宏
棉花FLA基因家族的全基因組鑒定及在棉纖維發(fā)育中的功能分析
唐麗媛,蔡肖,王海濤,李興河,張素君,劉存敬,張建宏
河北省農(nóng)林科學(xué)院棉花研究所/農(nóng)業(yè)農(nóng)村部黃淮海半干旱區(qū)棉花生物學(xué)與遺傳育種重點(diǎn)實(shí)驗(yàn)室/國家棉花改良中心河北分中心,石家莊 050051
【背景】伴隨著棉紡織工藝水平的提升和人們對高品質(zhì)紡織品的追求,提升棉花纖維品質(zhì)日益重要。類成束阿拉伯半乳糖蛋白(fasciclin-like arabinogalactan proteins,F(xiàn)LAs)在棉纖維起始發(fā)育、次生壁合成等過程中可能具有重要作用?!灸康摹客ㄟ^對棉花FLA基因家族進(jìn)行全面鑒定與分析,研究該家族成員的共性特征及特異性表達(dá)模式,為FLA在棉纖維發(fā)育中的功能研究提供參考。【方法】根據(jù)棉花全基因組數(shù)據(jù),使用HMMER 3.0對棉花FLA基因家族成員進(jìn)行鑒定,并通過Pfam、Smart等軟件進(jìn)一步確認(rèn)。使用ExPASy、TMHMM分析蛋白理化性質(zhì)及跨膜結(jié)構(gòu)域,應(yīng)用MEGA、MCScanX、GSDS、MEME、TBtools、Jalview等工具進(jìn)行進(jìn)化樹構(gòu)建、染色體定位、共線性分析和蛋白保守結(jié)構(gòu)域序列比對等。通過轉(zhuǎn)錄組數(shù)據(jù)分析陸地棉FLA基因在不同組織中的表達(dá)情況。利用實(shí)時(shí)熒光定量聚合酶鏈?zhǔn)椒磻?yīng)(quantitative real-time polymerase chain reaction,qRT-PCR)檢測在不同纖維品質(zhì)材料的胚珠及不同發(fā)育時(shí)期纖維中的表達(dá)差異。利用病毒誘導(dǎo)的基因沉默(virus induced gene silencing,VIGS)技術(shù)驗(yàn)證的功能。【結(jié)果】在陸地棉、海島棉、亞洲棉和雷蒙德氏棉全基因組中分別鑒定出41、40、20和21個(gè)FLA家族成員,系統(tǒng)進(jìn)化樹顯示,棉花FLA蛋白可以分為4個(gè)群組。進(jìn)一步對陸地棉FLA家族蛋白進(jìn)行分析,41個(gè)成員均具有1—2個(gè)AGP-like糖基化區(qū)域和1—2個(gè)類成束蛋白結(jié)構(gòu)域(fasciclin-like domain,F(xiàn)AS),其中,37個(gè)含有信號肽(signal peptide,SP),25個(gè)含有糖基化磷脂酰肌醇(glycosylphosphatidy linositol anchored protein,GPI)錨定信號,基因結(jié)構(gòu)和基序組成在各組中相對保守。亞細(xì)胞定位顯示,GhFLA05_D可能定位在細(xì)胞質(zhì)的內(nèi)質(zhì)網(wǎng),呈聚集狀顆粒,GhFLA18_A和GhFLA22在細(xì)胞膜/壁、細(xì)胞質(zhì)和細(xì)胞核中均有表達(dá)。轉(zhuǎn)錄組測序結(jié)果表明,Group A和Group B中的FLA蛋白主要在纖維中高表達(dá),可能參與了棉纖維發(fā)育伸長和次生壁加厚等過程。在纖維品質(zhì)差異顯著的2個(gè)材料中,Group A和Group B成員具有相似的表達(dá)模式,并主要在纖維次生壁發(fā)育階段、尤其是20—25 DPA時(shí)期優(yōu)勢表達(dá);其中,在次生壁增厚期表現(xiàn)出特異性表達(dá),兩材料間存在顯著差異,在高比強(qiáng)的RIL229的次生壁階段更早達(dá)到最大值,推測可能在調(diào)控纖維比強(qiáng)度差異形成中發(fā)揮作用。利用VIGS技術(shù)沉默后,使棉纖維斷裂比強(qiáng)度降低?!窘Y(jié)論】在陸地棉、海島棉、亞洲棉和雷蒙德氏棉中鑒定出122個(gè)FLA家族成員,可分為4個(gè)群組,不同群組成員間具有較高的結(jié)構(gòu)和功能相似性,并從中鑒定了Group A和Group B成員,可能是主要與棉纖維發(fā)育相關(guān)的基因。明確家族中是次生壁合成階段優(yōu)勢表達(dá)基因,并與陸地棉不同材料纖維比強(qiáng)度差異形成密切相關(guān)。
棉花;FLA;纖維發(fā)育;基因家族;表達(dá)分析
【研究意義】棉花是世界上最重要的天然纖維作物,棉纖維是紡織工業(yè)的重要原料[1]。因棉花產(chǎn)量和纖維品質(zhì)呈負(fù)相關(guān),傳統(tǒng)育種選擇上產(chǎn)量優(yōu)于品質(zhì),育成品種的纖維品質(zhì)很難適應(yīng)當(dāng)前日益提高的棉紡織工藝的需求和人們對高品質(zhì)紡織品的追求[2],提升棉花纖維品質(zhì)已成為當(dāng)務(wù)之急。近年來,隨著棉花基因組學(xué)研究的迅猛發(fā)展[1],分子育種為提升棉花纖維品質(zhì)、加速育種進(jìn)程提供了有效的策略。部分研究表明,類成束阿拉伯半乳糖蛋白(fasciclin-like arabinogalactan proteins,F(xiàn)LAs)在棉纖維形成中發(fā)揮重要作用[3-8],因此,從全基因組水平鑒定分析棉花FLA基因家族,有助于快速鎖定基因家族內(nèi)纖維發(fā)育相關(guān)基因,豐富棉花纖維發(fā)育研究的基因網(wǎng)絡(luò),為優(yōu)質(zhì)棉精準(zhǔn)育種提供基因資源和理論基礎(chǔ)?!厩叭搜芯窟M(jìn)展】阿拉伯半乳聚糖蛋白(arabinogalactan-proteins,AGPs)是一類富含羥脯氨酸的細(xì)胞壁糖蛋白,影響植物生長、發(fā)育、繁殖和適應(yīng)環(huán)境等多種生物進(jìn)程[9]。根據(jù)核心蛋白骨架差異AGPs可分為6個(gè)亞類[10-11]。FLA蛋白是其中的一個(gè)亞類[12],不僅具有1—2個(gè)典型的AGP-like糖基化區(qū)域,還含有1—2個(gè)類成束蛋白結(jié)構(gòu)域(fasciclin-like domain,F(xiàn)AS)[13],且大多數(shù)FLA基因具有N端信號肽(signal peptide,SP)和C末端糖基化磷脂酰肌醇(glycosylphosphatidy linositol anchored protein,GPI)錨定信號[3, 14]。其中,AGP-like糖基化區(qū)域主要是由脯氨酸(Pro)、丙氨酸(Ala)、絲氨酸(Ser)及蘇氨酸(Thr)形成的(Ser/Thr/Ala)-Hyp-(Ser/Thr/Ala)-Hyp和(Ser/Thr/Ala)-Hyp-Hyp重復(fù)序列區(qū)域(proline-alanine-serine-threonine,PAST),經(jīng)典AGPs中PAST序列占比超過50%[15],而在FLA基因中PAST序列比例普遍低于35%[11]。FAS結(jié)構(gòu)域一般由110—150個(gè)氨基酸組成,序列相似性較低,但所有的FAS都含有2個(gè)高度保守的H1、H2區(qū)域,且中間有1個(gè)[Phe/Tyr]-His Motif[16]。蛋白具有AGP-like糖基化區(qū)域可能參與細(xì)胞間相互作用、細(xì)胞黏附和細(xì)胞壁生物合成,具有FAS結(jié)構(gòu)域通常在細(xì)胞外基質(zhì)間起到黏連作用[17],SP可能促使分子進(jìn)入內(nèi)質(zhì)網(wǎng),而GPI錨定信號可以將分子錨定到細(xì)胞膜上[14]。FLA是一個(gè)復(fù)雜的蛋白聚糖多基因家族,在植物生長發(fā)育過程中可能發(fā)揮重要作用,受到發(fā)育和應(yīng)激的共同調(diào)控[9]。利用生物信息學(xué)方法,目前,已經(jīng)在擬南芥[18]、水稻[19]、小麥[20]、楊樹[21]、桉樹[22]、梨樹[23]、香蕉[24]、黃麻[25]、紡織大麻[14]和甘藍(lán)[26]等作物中分別鑒定出21、24、34、35、18、38、30、19、23和33個(gè),He等[16]從藻類、苔類、苔蘚、石松類、裸子植物、雙子葉植物和單子葉植物的13種植物中鑒定出246個(gè)。FLA基因家族的鑒定加速了植物功能的解析。研究發(fā)現(xiàn),擬南芥、楊樹、桉樹、大麻、棉花等多種作物中在纖維或其他組織細(xì)胞的起始及伸長發(fā)育、次生壁(secondary cell wall,SCW)合成方面發(fā)揮作用。擬南芥與根伸長基因共表達(dá)[27],和能夠在厚壁組織中高強(qiáng)度表達(dá),在增加莖稈強(qiáng)度和彈性方面發(fā)揮作用[28],的H2區(qū)域密碼子突變會導(dǎo)致細(xì)胞壁變薄[29]。楊樹在成熟莖的木質(zhì)部中特異性表達(dá),并主要積累在莖木質(zhì)部纖維中[30]。桉樹和與纖維素微纖絲角和莖稈強(qiáng)度相關(guān)[22]。大麻、和參與韌皮纖維細(xì)胞的起始和伸長,、、、和參與次生細(xì)胞壁的生物合成[14]。棉花中多個(gè)編碼FLA蛋白的基因在棉花纖維中優(yōu)勢表達(dá)[3-4]。[5]和[6]與纖維伸長相關(guān),會影響棉花細(xì)胞的延伸及次生細(xì)胞壁發(fā)育時(shí)期的胞間交流[4]。海島棉在棉纖維SCW沉積階段的表達(dá)量顯著高于陸地棉,最終影響纖維強(qiáng)度[31]。除上述功能外,還可能參與維管束的形成與發(fā)育[32]、細(xì)胞通訊及分子信號傳導(dǎo)[26]、聚糖穩(wěn)定[33]和花粉育性[34-35]等過程,并可以響應(yīng)各種生物和非生物脅迫,如鹽脅迫、冷脅迫、干旱脅迫、熱脅迫及外源激素脫落酸和氟啶酮等[20, 29, 36-38]。【本研究切入點(diǎn)】Huang等[3]利用棉花纖維cDNA庫鑒定和分析了19個(gè)陸地棉FLA基因,但是,自棉花參考基因組公布后,對棉花FLA基因家族全面、系統(tǒng)地鑒定分析仍鮮見報(bào)道?!緮M解決的關(guān)鍵問題】本研究擬通過生物信息學(xué)手段鑒定異源四倍體陸地棉、海島棉和二倍體亞洲棉、雷蒙德氏棉的FLA基因家族成員,并重點(diǎn)對陸地棉FLA基因家族進(jìn)行特征分析,通過研究FLA基因在陸地棉不同組織中的表達(dá)特異性,挖掘該家族與纖維發(fā)育相關(guān)的基因;以前期利用優(yōu)質(zhì)雜交棉冀1518的親本構(gòu)建的高代重組近交系(recombinant inbred lines,RILs)群體[39]中纖維品質(zhì)性狀穩(wěn)定分離的RIL131和RIL229為研究對象,檢測在不同纖維品質(zhì)材料的胚珠及不同發(fā)育時(shí)期纖維中的表達(dá)差異,并對其中的進(jìn)行克隆分析和基因沉默驗(yàn)證,為研究棉花FLA基因的功能和在棉花纖維發(fā)育中的重要作用奠定基礎(chǔ)。
從Cottongen數(shù)據(jù)庫(https://www.cottongen.org/)下載異源四倍體陸地棉(,AD1)[40]、海島棉(,AD2)[40]和二倍體亞洲棉(,A2)[41]、雷蒙德氏棉(,D5)[41]的全基因組數(shù)據(jù)。從擬南芥TAIR數(shù)據(jù)庫(https:// www.arabidopsis.org/)下載擬南芥AtFLA蛋白序列信息。從Pfam數(shù)據(jù)庫(http://pfam.xfam.org/)[42]下載FLA蛋白的種子文件PF02469,并利用HMMER 3.0軟件的hmmsearch搜索程序鑒定含有FLA保守結(jié)構(gòu)域的陸地棉氨基酸序列(value<0.0001),去除無AGP-like糖基化區(qū)域的基因,將所有獲得的棉花FLA氨基酸序列通過Pfam(https://pfam.xfam.org/)、Smart(https://smart.embl-heidelberg.de/)及NCBI網(wǎng)站CDD(https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)數(shù)據(jù)庫[42-45]進(jìn)一步進(jìn)行保守結(jié)構(gòu)域確認(rèn),最后,將同時(shí)含有FAS結(jié)構(gòu)域和AGP-like糖基化區(qū)域的序列鑒定為FLA蛋白。利用在線網(wǎng)頁工具Softberry(https://www.softberry.com/berry.phtml?topic =fgenesh&group=programs&subgroup=gfind)對具有明顯結(jié)構(gòu)缺失基因重新預(yù)測基因模型,并對結(jié)構(gòu)域進(jìn)行校驗(yàn)推測。
通過ExPASy(https://web.expasy.org/protparam/)在線軟件[46]分析FLA家族成員編碼蛋白的相對分子質(zhì)量、理論等電點(diǎn)等。使用TMHMM Server v.2.0(https://services.healthtech.dtu.dk/service.php?TMHMM -2.0)[47]進(jìn)行跨膜結(jié)構(gòu)域預(yù)測。
利用MEGA7軟件[48]中的Muscle對陸地棉、海島棉、亞洲棉、雷蒙德氏棉、擬南芥FLA基因家族成員的蛋白序列進(jìn)行比對分析。采用鄰接法(neighbor joining,NJ)構(gòu)建系統(tǒng)發(fā)育進(jìn)化樹,Bootstrap值為1 000。使用在線工具iTOL(https://itol.embl.de/)[49]對進(jìn)化樹進(jìn)行可視化。
從陸地棉參考基因組中獲取各染色體FLA基因位置等信息,利用軟件MCScanX[50]檢測陸地棉全基因組復(fù)制基因?qū)?,并利用TBtools繪制染色體定位和共線性分析的circos圖[51]。利用KaKs_CalculatorL2.0軟件計(jì)算陸地棉復(fù)制基因?qū)Φ姆峭x突變率(non- synonymous mutation rate,Ka)、同義突變率(synonymous mutation rate,Ks)及Ka/Ks值。
利用基因組數(shù)據(jù)提取FLA基因內(nèi)含子、外顯子位置信息,采用MEME(https://meme-suite.org/meme/ tools/meme)[52]在線分析保守基序,Motif數(shù)量設(shè)置為10,利用TBtools v1.105可視化FLA家族的基因結(jié)構(gòu)和Motif分布[51]。利用GSDS2.0(https://gsds.gao- lab.org/)繪制保守結(jié)構(gòu)域位置圖[53]。根據(jù)前人提出的“Hyp連續(xù)性假說”[54],提取陸地棉FLA家族成員中的FAS結(jié)構(gòu)域,使用Clustal X進(jìn)行多序列比對,并使用Jalview2.10.3對比對的結(jié)果進(jìn)行可視化。
以前期利用優(yōu)質(zhì)雜交棉冀1518的親本構(gòu)建的RIL群體[39]中RIL229家系的纖維、根、莖及葉的cDNA為模板,使用Ⅰ酶切,運(yùn)用同源重組的方法,將、、、編碼區(qū)(coding sequence,CDS)區(qū)段構(gòu)建到帶有35S CaMV啟動子和GFP(green fluorescent protein)標(biāo)簽并改造過的pCAMBIA1302載體中(電子附圖1),載體購自武漢伯遠(yuǎn)科技有限公司,在GFP標(biāo)簽和目的基因C末端連有l(wèi)inker,減小直接連接GFP對GPI錨定序列定位可能存在的影響。引物設(shè)計(jì)相關(guān)信息見電子附表1,由金唯智生物科技有限公司合成。將構(gòu)建好的載體轉(zhuǎn)化GV3101農(nóng)桿菌,注射本氏煙葉片背面瞬時(shí)過表達(dá),以空載體為對照。注射后弱光培養(yǎng)48 h,用激光共聚焦顯微鏡(Leica TCS SP8)觀察葉片GFP熒光分布。GFP熒光激發(fā)波長488 nm,葉綠體激發(fā)波長640 nm。
從NCBI的SRA數(shù)據(jù)庫(http://www.ncbi.nlm.nih. gov/sra/)下載陸地棉TM-1根、莖、葉、苞葉、花托、萼片、花瓣、雄蕊、花絲、花藥等10個(gè)組織和不同發(fā)育時(shí)期胚珠、纖維的轉(zhuǎn)錄組測序數(shù)據(jù),序列號為PRJNA4906267,對FPKM(fragments per kilobase of transcript per million fragments mapped)數(shù)據(jù)進(jìn)行l(wèi)og2(1+FPKM)標(biāo)準(zhǔn)化處理,使用TBtools v1.105生成熱圖。
以前期構(gòu)建的RIL群體中纖維品質(zhì)性狀穩(wěn)定分離的RIL131和RIL229為研究對象,2017—2021年連續(xù)5年種植在河北省農(nóng)林科學(xué)院棉花研究所石家莊小安舍試驗(yàn)站進(jìn)行鑒定。取兩材料開花后0天(day post-anthesis,DPA)胚珠及5、10、15、20和25 DPA纖維,提取樣品總RNA,反轉(zhuǎn)錄合成第一鏈cDNA,以第一鏈cDNA為模板進(jìn)行實(shí)時(shí)熒光定量聚合酶鏈?zhǔn)椒磻?yīng)(quantitative real-time polymerase chain reaction,qRT-PCR)鑒定基因在各組織中的表達(dá)情況。對Group A和Group B中的設(shè)計(jì)特異引物(電子附表1),其中,和未設(shè)計(jì)出特異性引物。以陸地棉組蛋白基因?yàn)閮?nèi)參,在CFX96定量PCR儀(Bio-Rad)上進(jìn)行qRT-PCR。按照TB Green? Premix Ex Taq? II(Tli RNaseH Plus)推薦的反應(yīng)體系進(jìn)行PCR擴(kuò)增,每個(gè)樣品進(jìn)行3次生物學(xué)重復(fù),采用2-△△CT法對基因相對表達(dá)量進(jìn)行分析。
以RIL131和RIL229的20DPA纖維cDNA為模板,利用Primer Premier 5.0設(shè)計(jì)基因克隆引物(電子附表1),采用TaKaRa公司的PrimeSTAR HS高保真酶擴(kuò)增、的CDS區(qū)段,連接到?-Blunt(全式金)克隆載體并轉(zhuǎn)入1-T1感受態(tài)細(xì)胞,篩選陽性克隆并送測序。
通過病毒誘導(dǎo)的基因沉默(virus induced gene silencing,VIGS)技術(shù)驗(yàn)證的功能。利用SGN VIGS Tool(https://vigs.solgenomics.net/# opennewwindow)設(shè)計(jì)沉默片段,通過雙酶切(Ⅰ和Ⅰ)方法將中的目標(biāo)片段構(gòu)建到棉花葉皺縮病毒(cotton leaf crumple virus,CLCrV)載體[55]上,該體系經(jīng)多項(xiàng)研究證明病毒活力能夠持續(xù)到棉花纖維發(fā)育的伸長和次生壁加厚等階段[56-57]。試驗(yàn)所用引物見電子附表1。將構(gòu)建好的載體轉(zhuǎn)化LBA4404農(nóng)桿菌。試驗(yàn)涉及到的菌液主要有輔助質(zhì)粒CLCrVB、空載體CLCrVA、陽性對照載體CLCrVA-和目的基因載體CLCrVA-。
在河北省農(nóng)林科學(xué)院溫室內(nèi),以RIL229種子為材料,播種7 d后,取子葉剛剛完全平展的棉花幼苗,分別用含pCLCrVB:CLCrVA-、pCLCrVB: CLCrVA-重組載體的菌液和含有pCLCrVB: CLCrVA空載體的菌液按1﹕1的比例混合均勻后侵染整個(gè)子葉,注射面積保證在98%以上。注射后的植株避光生長12 h后轉(zhuǎn)入正常光溫條件(光照/黑暗=14 h/10 h,28 ℃)下培養(yǎng)。以陽性對照出現(xiàn)白化現(xiàn)象作為侵染成功的參考。在棉花植株現(xiàn)蕾初期對主莖葉腋處進(jìn)行二次注射以延長基因沉默時(shí)間、確保后期基因沉默效果。取試驗(yàn)植株20 DPA的棉鈴進(jìn)行qRT-PCR分析,計(jì)算沉默效率。待棉鈴成熟、自然吐絮后,單株收獲軋取棉纖維,因收獲單株纖維樣品量可能達(dá)不到測定重量,所以選取沉默效率高的6株,隨機(jī)將2株纖維樣品作為一組進(jìn)行混合,使用USTER HVI1000 M700大容量棉花檢測儀測定棉花纖維品質(zhì)指標(biāo),包括纖維的長度、斷裂比強(qiáng)度、馬克隆值、整齊度、伸長率等。
通過棉花全基因組蛋白序列信息分析,分別在陸地棉、海島棉、亞洲棉和雷蒙德氏棉中鑒定出41、40、20和21個(gè)FLA基因(表1,電子附表2—4)。按照其在染色體上的位置(圖1)排序進(jìn)行命名,對于四倍體棉,先以A亞組染色體上位置排序,A、D亞組根據(jù)基因同源性以A、D區(qū)分命名,D亞組未命名到的基因再按染色體順序繼續(xù)編號。其中,陸地棉中有文獻(xiàn)命名報(bào)道過的有21個(gè)(電子附表2),其他3個(gè)棉種FLA基因報(bào)道較少,因此,未做統(tǒng)計(jì)。理化性質(zhì)分析表明,棉花中FLA蛋白的氨基酸數(shù)量為239—515 aa,分子質(zhì)量為25.42—57.29 kDa,等電點(diǎn)變化為5.11—9.41。穩(wěn)定蛋白有65個(gè)(24.91—39.89),占53.28%,在陸地棉和海島棉中較二倍體棉比例高,分別為56.10%和55.00%。親水性平均系數(shù)表明,家族中疏水性蛋白75個(gè)(0.009—0.280),占61.48%。家族中跨膜結(jié)構(gòu)域數(shù)量為0—3個(gè),59.84%的FLA不存在跨膜結(jié)構(gòu)域,37.70%有1個(gè),僅GrFLA08有2個(gè),同為A亞組的GhFLA13和GaFLA13存在3個(gè)跨膜結(jié)構(gòu)域。
以122個(gè)棉花FLAs和21個(gè)擬南芥FLAs的氨基酸序列構(gòu)建FLA家族成員的系統(tǒng)發(fā)育樹(圖2)。所有FLA家族成員可以分為Group A—Group D 4個(gè)亞群,其中,Group A成員最多,有59個(gè)成員,6個(gè)來源于擬南芥,陸地棉和海島棉各有18個(gè),8個(gè)來自于亞洲棉,9個(gè)來自于雷蒙德氏棉;Group D成員最少,包含有9個(gè)成員,3個(gè)來自于擬南芥,陸地棉和海島棉各有2個(gè),亞洲棉和雷蒙德氏棉各有1個(gè);Group C中包含53個(gè)成員,內(nèi)部分枝較多,暗示其功能可能具有多樣性。棉花與擬南芥親緣關(guān)系相對較遠(yuǎn),分析發(fā)現(xiàn)只有2組直系同源關(guān)系:和、、直系同源,和、、、直系同源。
表1 陸地棉FLA基因家族成員的特性分析
陸地棉A亞組、陸地棉D(zhuǎn)亞組、亞洲棉、雷蒙德氏棉、海島棉A亞組、海島棉D(zhuǎn)亞組的染色體分別用綠色、深藍(lán)色、黃色、紅色、天藍(lán)色、粉色表示
染色體定位(圖3-A)結(jié)果表明,二倍體亞洲棉和雷蒙德氏棉的FLA基因分別分布在9、10條染色體上,四倍體陸地棉和海島棉均分布在19條染色體上。每條染色體上有1—6個(gè)FLA基因,不同基因(亞)組中均為第7染色體上最多,均有6個(gè)FLA基因。在四倍體的陸地棉和海島棉中,A、D亞組均有19對對應(yīng)拷貝基因,陸地棉在D亞組沒有拷貝,和在A亞組沒有拷貝,海島棉和在A亞組中沒有對應(yīng)拷貝。
對4個(gè)棉種基因組內(nèi)的FLA基因共線性分析(圖3-A)顯示,所有來自全基因組復(fù)制或片段復(fù)制,無串聯(lián)重復(fù),亞洲棉、雷蒙德氏棉、陸地棉和海島棉種內(nèi)分別有6、10、32和33對基因具有共線性關(guān)系。各個(gè)棉種內(nèi)D基因組的共線性關(guān)系基因?qū)?shù)量多于A基因組。對4個(gè)棉種基因組間的FLA基因共線性分析(圖3-B),陸地棉A亞組與亞洲棉的共線性基因?qū)?1對,比海島棉的多4對,D亞組與雷蒙德氏棉的共線性基因?qū)τ?4對,比海島棉多7對,說明與同樣多倍化后的海島棉相比,陸地棉FLA基因與二倍體棉具有更高的同源性。亞洲棉在雷蒙德氏棉和2個(gè)四倍體棉中均無共線性基因?qū)?,推測該基因可能在3個(gè)棉種的進(jìn)化中丟失。所有共線性關(guān)系中,的Ka/Ks=1,進(jìn)化中主要經(jīng)歷了中性選擇,、、、、的Ka/Ks>1,經(jīng)歷了正向選擇,其余基因?qū)a/Ks<1,說明棉花多數(shù)FLA基因經(jīng)歷了純化選擇,進(jìn)化較保守,暗示功能相對穩(wěn)定。
圖2 擬南芥和棉花FLA蛋白的系統(tǒng)進(jìn)化樹
外顯子-內(nèi)含子排列方式可能在基因家族的多樣化過程中發(fā)揮重要作用。通過分析陸地棉FLA基因外顯子和內(nèi)含子的排布情況(圖4-A)。發(fā)現(xiàn)與很多作物FLA基因相似,主要分為2種序列分布方式:一是僅有1個(gè)外顯子;二是有2個(gè)外顯子和1個(gè)內(nèi)含子。Group A中1個(gè)基因、Group B中7個(gè)基因、Group C中4個(gè)基因的外顯子被中間一段內(nèi)含子分隔,其他多數(shù)成員均只有1個(gè)外顯子。針對Group A中只有存在內(nèi)含子,通過與Cottongen數(shù)據(jù)庫中TM-1標(biāo)準(zhǔn)系其他版本參考基因組(WHU v1、HAU v1)比對,發(fā)現(xiàn)該基因在這兩個(gè)參考基因組中的ID分別為和,與D組對應(yīng)基因長度相同,不包含內(nèi)含子,編碼263 aa,推測基因結(jié)構(gòu)中前210 bp的CDS序列及內(nèi)含子區(qū)域不屬于該基因編碼序列(圖4),需要矯正去掉。
進(jìn)一步尋找陸地棉FLA蛋白的特異性區(qū)域,使用在線工具M(jìn)EME預(yù)測其保守基序,鑒定了10個(gè)不同的基序,每個(gè)基序長度從21到50 aa不等,GhFLAs的基序數(shù)目從4到9不等(圖4-B)。不同群組包含的保守基序具有特異性,其中,Motif 2隸屬于FAS結(jié)構(gòu)域,在所有GhFLAs中都存在。除此之外,Group A還包含Motif 1、Motif 3、Motif 4、Motif 5和Motif 9;Group B還包含Motif 1、Motif 4、Motif 6、Motif 7和Motif 9,其中,Motif 7為該組特有且保守性極高;Group C包含9個(gè)Motif,數(shù)量最多,Motif 10是該組中特有;Group D包含的Motif最少,僅有4個(gè)。以上結(jié)果表明,同組蛋白組成具有相同或相似的結(jié)構(gòu)特征,特別是Group B、Group D成員具有完全相同的基序,Group A、Group C只在個(gè)別Motif上有差異,推測同一群組中的GhFLA蛋白可能在依賴于結(jié)構(gòu)域/基序的生化等功能上具有保守性。
A:4個(gè)棉種基因組內(nèi)FLA基因定位及共線性關(guān)系;B:不同棉種棉花基因組之間的FLA共線性關(guān)系
此外,通過保守基序分析,發(fā)現(xiàn)GhFLA13(GH_A11G0846)的氨基酸長度為234 aa,Motif結(jié)構(gòu)與同組其他序列不同(圖4-B),缺少M(fèi)otif 3、Motif 4、Motif 6和Motif 10。因此,調(diào)取該基因前后各5 000 bp序列,利用Softberry軟件進(jìn)行預(yù)測矯正,預(yù)測該蛋白全長應(yīng)為366 aa(表1),補(bǔ)充該基因序列信息后,基因全長由704 bp增加為1 959 bp,外顯子區(qū)域由1個(gè)變?yōu)?個(gè)(圖4-B),CDS長度由704 bp變?yōu)? 101 bp。但與該組其他基因相比,GhFLA13在矯正預(yù)測后仍然有Motif 3和Motif 4的缺失。
實(shí)線矩形框選部分為基因矯正后刪除的序列結(jié)構(gòu),虛線矩形框選部分為基因矯正后添加的序列結(jié)構(gòu);CDS:編碼區(qū)序列
FLA蛋白通常具有典型的AGP-like糖基化區(qū)域、FAS結(jié)構(gòu)域,且多數(shù)FLA基因具有N端SP和(或)C末端GPI錨定信號。AGP-like和FAS結(jié)構(gòu)域與細(xì)胞黏附、胞間作用和細(xì)胞壁生物合成有關(guān),SP和GPI可分別促使FLA分子進(jìn)入內(nèi)質(zhì)網(wǎng)腔和錨定到細(xì)胞膜。將陸地棉FLA蛋白序列按群組分析其典型結(jié)構(gòu)域(圖5),挖掘不同群組的差異性特征。Group A成員均含有1個(gè)FAS結(jié)構(gòu)域,兩側(cè)各有1個(gè)AGP-like糖基化區(qū)域,且至少在N端有SP或在C端有GPI錨定信號;Group B的FLA蛋白有2個(gè)FAS結(jié)構(gòu)域,中間有1個(gè)AGP-like糖基化區(qū)域,N端均有SP,C端無GPI錨定信號;Group C為2個(gè)AGP-like糖基化區(qū)域中間有1個(gè)FAS結(jié)構(gòu)域或2個(gè)FAS結(jié)構(gòu)域的一側(cè)有一個(gè)AGP-like糖基化區(qū)域,Group A和Group C具有較相似的結(jié)構(gòu),但蛋白總長度和結(jié)構(gòu)域的位置具有較大差異,因此,未歸為一類;Group D的FLA蛋白僅包含1個(gè)AGP-like糖基化區(qū)域和一個(gè)FAS結(jié)構(gòu)域,且距離較遠(yuǎn),N端無SP,C端也無GPI錨定信號。FAS結(jié)構(gòu)域長度分為2種:一種是較短的92—107 aa;另一種為較長的131—139 aa,其中,包含2個(gè)FAS結(jié)構(gòu)域的8個(gè)蛋白均包含了這兩種類型。AGP-like糖基化區(qū)域則是5—49 aa長度不等,在Group B和Group D中比較一致,而在另外2組無明顯規(guī)律。37個(gè)(90.24%)GhFLAs蛋白含有SP,25個(gè)(60.98%)GhFLAs蛋白含有C端GPI錨定信號,5個(gè)(12.20%)GhFLAs蛋白信號肽SP和GPI錨定信號均不含。
Exon:外顯子,AGP:AGP-like糖基化區(qū)域,C-GPI:C末端糖基化磷脂酰肌醇錨定信號,N-SP:N端信號肽,F(xiàn)AS:類成束蛋白結(jié)構(gòu)域
提取GhFLAs的FAS結(jié)構(gòu)域序列進(jìn)行比對(圖6),結(jié)果顯示,該結(jié)構(gòu)域具有2個(gè)高度保守的區(qū)域H1和H2,并在兩區(qū)域間存在[Tyr-Phe]His([Y/F]H)基序。與擬南芥、楊樹、黃麻等多種作物一樣,GhFLA的H1區(qū)域Thr(五角星標(biāo)注)是絕對保守的,Thr后的第6個(gè)氨基酸殘基大部分為Asp(D),少部分為Asn(N),H1區(qū)域其余氨基酸殘基主要由Ala(A)、Ile(I)、Phe(F)、Pro(P)和Val(V)組成。H2區(qū)域含有較多保守的疏水性氨基酸,如Val(V)、Ala(A)、Leu(L)和Ile(I),其他部分具有相對保守的特點(diǎn)。在H1和H2區(qū)域之間,還有一個(gè)絕對保守的氨基酸殘基Leu(L)(五角星標(biāo)注),該位點(diǎn)在上述提到的其他物種中不存在如此高的保守性。陸地棉FLA的[Y/F]H基序保守性也較高,只有GhFLA01_ A/D、GhFLA08_A/D、GhFLA19_A/D這三組蛋白在此基序中His(H)變異為Phe(F)。GhFLA蛋白在FAS結(jié)構(gòu)域的這三個(gè)區(qū)域均具有相對較高的保守性,同時(shí)在其他氨基酸位點(diǎn),不同群組間具有明顯的特異性,暗示不同群組FLA蛋白可能從相同的祖先基因進(jìn)化而來,隨著在不同物種中的分化功能可能不同。
為進(jìn)一步研究陸地棉FLA家族蛋白的功能,在每個(gè)群組隨機(jī)選擇一個(gè)基因,進(jìn)行煙草葉片瞬時(shí)表達(dá),初步分析目的蛋白表達(dá)位置(圖7)。結(jié)果表明,GhFLA05_D為Group A成員,融合蛋白熒光分析其可能定位在細(xì)胞質(zhì)內(nèi)的內(nèi)質(zhì)網(wǎng),并呈現(xiàn)聚集狀顆粒;GhFLA18_A為Group B成員,可能位于細(xì)胞核和細(xì)胞膜/壁,同時(shí)在細(xì)胞質(zhì)中可能也有表達(dá);GhFLA22為Group C成員,較廣泛的表達(dá)于細(xì)胞膜/壁、細(xì)胞質(zhì)與細(xì)胞核;GhFLA02A/D是Group D的唯一成員,但由于其在各組織中表達(dá)量較低(圖7-A),利用棉花各組織cDNA均未克隆出該基因,因此,未能進(jìn)行亞細(xì)胞定位。
圖6 陸地棉FLAs蛋白FAS結(jié)構(gòu)域的多序列比對
圖7 陸地棉不同群組FLAs蛋白的亞細(xì)胞定位
為進(jìn)一步分析陸地棉FLA基因在棉花纖維發(fā)育進(jìn)程中的作用,利用轉(zhuǎn)錄組數(shù)據(jù)對41個(gè)在陸地棉TM-1根、莖、葉、苞葉、花托、萼片、花瓣、雄蕊、花絲、花藥等10個(gè)組織和不同發(fā)育時(shí)期胚珠、纖維的表達(dá)進(jìn)行分析(圖8)。在4個(gè)群組中,大部分Group A、Group B的基因在纖維發(fā)育期較高或高表達(dá),其中,、、、自纖維發(fā)育伸長期(3 DPA)已開始高表達(dá),而、、、、、、主要在次生壁增厚期(15—25 DPA)高表達(dá),在纖維發(fā)育起始階段(-3—1 DPA)相對較高表達(dá),只有在纖維發(fā)育時(shí)期無特異表達(dá);其他2組中,除在纖維起始、伸長時(shí)期(-3—10 DPA)相對高表達(dá),其他基因在纖維發(fā)育時(shí)期無明顯特異性表達(dá)。
在家族的4個(gè)亞群中,Group A、Group B的基因主要在纖維發(fā)育期較高或高表達(dá)。因此,利用纖維比強(qiáng)度和馬克隆值性狀穩(wěn)定分離的2個(gè)家系RIL131和RIL229(圖9-A),重點(diǎn)分析這兩個(gè)亞群成員在不同材料纖維中的基因表達(dá)情況(圖9-B)。因在A、D亞組對應(yīng)拷貝CDS區(qū)堿基差異較少,在qRT-PCR表達(dá)量檢測種中無法嚴(yán)格區(qū)分,所以不再標(biāo)注A、D區(qū)分。結(jié)果表明,兩亞群成員在不同品質(zhì)的RIL131和RIL229纖維中總體具有相似的表達(dá)模式,并與TM-1轉(zhuǎn)錄組測序結(jié)果(圖8)一致。除在10—15 DPA相對較高表達(dá),其他基因主要在SCW發(fā)育階段、尤其是20—25 DPA優(yōu)勢表達(dá);2個(gè)材料的20 DPA和25 DPA纖維中,、均極顯著差異表達(dá),均顯著差異表達(dá),且3個(gè)基因中,在SCW發(fā)育階段有較RIL229的20 DPA纖高的優(yōu)勢表達(dá),并在高比強(qiáng)材料纖維中的表達(dá)量最高,且極顯著高于同時(shí)期低比強(qiáng)材料RIL131,推測可能在調(diào)控纖維比強(qiáng)度中發(fā)揮作用。
圖8 陸地棉FLA基因在不同組織、不同發(fā)育時(shí)期胚珠和纖維中的表達(dá)分析
RIL131和RIL229:前期構(gòu)建的RIL群體中纖維品質(zhì)性狀穩(wěn)定分離的2個(gè)家系,*:差異顯著(p<0.05),**:差異極顯著(p<0.01),n.s.:無顯著差異。下同
在RIL131和RIL229中分別克隆和,經(jīng)比對,2個(gè)基因在2個(gè)材料中的序列一致,與參考基因組序列相同,無SNP差異,表明該組基因相對保守。和的CDS全長均為837 bp,2個(gè)基因間有21個(gè)SNP,序列相似性97.49%,造成14個(gè)氨基酸差異(電子附圖2)。
利用VIGS技術(shù)對功能進(jìn)行驗(yàn)證。以RIL229為材料,以為基因沉默對象,通過陽性對照組棉株的白化癥狀初步判斷沉默效果,取陰性對照和:植株20 DPA纖維,利用qRT-PCR檢測基因沉默效率。選擇家族中與其同源性最高的、(CDS比對相似性為55.02%—60.98%)(電子附圖2),分析基因沉默的特異性。結(jié)果(圖10-A)表明,陽性對照出現(xiàn)的白化癥狀會持續(xù)到棉鈴發(fā)育時(shí)期,使棉鈴苞葉、萼片、鈴殼等均出現(xiàn)白化現(xiàn)象,說明該病毒在棉鈴發(fā)育時(shí)期仍具有基因沉默作用。和植株在注射后的生長外部形態(tài)上與野生型(WT)無明顯差異。qRT-PCR結(jié)果(圖10-B)顯示,部分株系沉默效率為35.82%—68.60%,平均沉默效率53.19%,而對同源性最高的家族成員、的表達(dá)無顯著影響。纖維品質(zhì)檢測結(jié)果(圖10-C)中,與陰性對照相比,棉纖維斷裂比強(qiáng)度顯著降低,馬克隆值有所降低但差異不顯著,其他3個(gè)性狀差異均不顯著。上述結(jié)果表明,沉默使棉花纖維斷裂比強(qiáng)度下降,同時(shí)可能對馬克隆值也有一定影響,暗示可能主要在棉花纖維發(fā)育中后期尤其是SCW加厚期具有調(diào)控作用。
圖10 GhFLA05沉默后植株表型(A)、在纖維中基因表達(dá)分析(B)及纖維品質(zhì)性狀測定(C)
近年來,棉花基因組學(xué)研究飛速發(fā)展,基因組數(shù)據(jù)不斷完善[58],大大拓寬了育種者利用基因調(diào)控網(wǎng)絡(luò)提高育種效率的思路,而基于基因家族分析快速挖掘功能基因是豐富基因調(diào)控網(wǎng)絡(luò)的有效手段。FLA蛋白是一類廣泛分布于植物體內(nèi)的富含羥脯氨酸的糖蛋白,在植物生長、形態(tài)構(gòu)建等發(fā)育過程發(fā)揮著重要作用[59]。通過在全基因組水平系統(tǒng)的鑒定分析FLA蛋白,為更好地利用FLA蛋白奠定基礎(chǔ)。前人在擬南芥中鑒定出21個(gè)FLA蛋白[18],隨后陸續(xù)從小麥、水稻、楊樹等多種植物鑒定得到了FLA基因家族[19-26]。本研究在陸地棉、海島棉、亞洲棉和雷蒙德氏棉中共鑒定出122個(gè)FLA家族成員,其中,陸地棉41個(gè)。Huang等[3]曾基于棉花纖維cDNA庫鑒定和分析了19個(gè)陸地棉FLA基因,經(jīng)比對,發(fā)現(xiàn)17個(gè)與本研究相同,而其鑒定的()和()在本研究中未納入該家族,主要因?yàn)樵撗芯恐械臋z測評分較低,且在Smart驗(yàn)證中未檢測出FAS結(jié)構(gòu)域;的檢測閾值未達(dá)到本研究基因家族要求。
通過進(jìn)化樹分析,棉花FLA蛋白與擬南芥[18]及楊樹[21]、黃麻[25]、紡織大麻[14]、甘藍(lán)[26]等其他作物相同,均可分為4組,每組的FLA具有相似的基因結(jié)構(gòu)、基序和保守域。共線性分析顯示陸地棉的FLA基因比海島棉與二倍體棉種具有更多的同源基因?qū)?,推測在進(jìn)化過程中海島棉的一些FLA基因序列結(jié)構(gòu)可能產(chǎn)生更多的變異,并可能在形成優(yōu)異纖維品質(zhì)方面發(fā)揮作用。對陸地棉FLA蛋白的結(jié)構(gòu)域分析,41個(gè)成員均具有1—2個(gè)AGP-like糖基化區(qū)域和1—2個(gè)FAS結(jié)構(gòu)域,多數(shù)含有SP和(或)GPI錨定信號。在陸地棉FAS結(jié)構(gòu)域的研究中發(fā)現(xiàn),除了2個(gè)高度保守的區(qū)域H1、H2和兩區(qū)域之間的[Y/F]H基序這三段相對保守序列,與其他作物不同的是,在H1和[Y/F]H基序之間,有一個(gè)絕對保守的氨基酸殘基Leu,這在擬南芥[18]、楊樹[13]、香蕉[24]和黃麻[25]等物種FAS結(jié)構(gòu)域序列比對中并不存在,是棉花的特異保守位點(diǎn)。由于FLA特殊保守結(jié)構(gòu)域及SP信號肽、GPI錨定信號的存在,F(xiàn)LA經(jīng)常被報(bào)道定位在內(nèi)質(zhì)網(wǎng)或細(xì)胞膜。Huang等[2]研究表明(本研究中的基因名稱為,下同)主要定位在細(xì)胞壁上,且在2個(gè)細(xì)胞連接處信號很強(qiáng),可能這個(gè)蛋白對細(xì)胞間信息的交流有作用,而()可能定位于細(xì)胞壁和細(xì)胞質(zhì)膜上,并可能分泌到細(xì)胞外。煙草和均只定位于細(xì)胞膜中[58]。本研究通過對進(jìn)化樹不同組中3個(gè)蛋白的定位發(fā)現(xiàn),F(xiàn)LA蛋白的表達(dá)范圍可能較廣,不止在細(xì)胞膜部位,相似的結(jié)果也在其他一些研究中有過報(bào)道,如楊樹、、、廣泛分布在細(xì)胞質(zhì)和細(xì)胞膜,其中,、在細(xì)胞質(zhì)也呈顆粒狀亮點(diǎn)分布[13, 30],煙草存在于細(xì)胞膜和細(xì)胞核[13, 58]。
此外,通過同一組內(nèi)蛋白共性特征分析,可以發(fā)現(xiàn)結(jié)構(gòu)異常的基因,并對可能存在問題的基因進(jìn)行矯正。本研究通過對陸地棉FLA基因的結(jié)構(gòu)分析,發(fā)現(xiàn)本研究參考基因組中多了210 bp CDS序列及490 bp內(nèi)含子區(qū)域,經(jīng)過與其他版本參考基因組比對分析進(jìn)行矯正。通過對陸地棉FLA蛋白的保守基序分析發(fā)現(xiàn),() Motif結(jié)構(gòu)與同組其他序列相比,缺少部分Motif基序,因此,調(diào)取該基因上下游序列,進(jìn)行預(yù)測矯正,但其在矯正后仍有Motif 3和Motif 4的缺失,同時(shí)發(fā)現(xiàn),在陸地棉中D亞組無對應(yīng)拷貝,在整個(gè)基因組內(nèi)無同源基因,說明與家族中通常成對出現(xiàn)的其他成員相比,該基因在序列和結(jié)構(gòu)上可能存在特異性,其具體序列結(jié)構(gòu)仍需進(jìn)一步驗(yàn)證完善。通過對家族成員基因結(jié)構(gòu)的分析,發(fā)現(xiàn)異常的序列進(jìn)行預(yù)測矯正,對深入完善基因組信息具有一定意義。
棉花FLA的保守結(jié)構(gòu)域與擬南芥[18]、楊樹[21]及黃麻[25]等物種FLA蛋白相同,推測生理功能可能相似。據(jù)研究,可能參與擬南芥根伸長[27],楊樹調(diào)控木質(zhì)部纖維生長[30],桉樹和與纖維素微纖絲角和莖稈強(qiáng)度相關(guān)[22],大麻中多個(gè)FLA基因參與韌皮纖維細(xì)胞的起始、伸長和SCW的生物合成[14]。以上不同作物的研究均表明在植物木質(zhì)部特異表達(dá)或與細(xì)胞壁發(fā)育相關(guān)。本研究通過NCBI的SRA數(shù)據(jù)庫獲得轉(zhuǎn)錄組數(shù)據(jù),分析陸地棉在不同組織、不同發(fā)育時(shí)期胚珠和纖維中的表達(dá)情況,發(fā)現(xiàn)與纖維伸長、SCW加厚緊密關(guān)聯(lián)的FLA基因主要分布在Group A和Group B,暗示這兩組的FLA基因可能在陸地棉纖維發(fā)育中起到重要作用。在棉花中,該家族基因鑒定出、和(、和)在10 DPA棉纖維中優(yōu)勢表達(dá)[3],()對纖維伸長具有正調(diào)控作用[5];()和()在棉花5—20 DPA纖維中大量積累,()在纖維中大量積累[4],以上鑒定的FLA基因與纖維起始、伸長及SCW成熟密切相關(guān),與本研究轉(zhuǎn)錄組及基因定量表達(dá)分析鑒定結(jié)果一致,驗(yàn)證了本研究對FLA基因家族中棉纖維發(fā)育相關(guān)基因表達(dá)分析的準(zhǔn)確性。
前人分離克隆獲得海島棉,該基因CDS區(qū)為720 bp,編碼239個(gè)氨基酸,經(jīng)比對,與本研究(CDS全長837 bp)為同一基因,研究發(fā)現(xiàn)此基因在海島棉纖維SCW沉積階段表達(dá)量顯著高于陸地棉[29],對海島棉形成高強(qiáng)纖維起重要作用。有研究分析(和)和(和)分別是擬南芥和在棉花中的直系同源基因[60],敲除和導(dǎo)致莖稈強(qiáng)度和彈性變?nèi)鮗28]。本研究構(gòu)建的進(jìn)化樹顯示與為直系同源關(guān)系,與不是直系同源關(guān)系但在較近的分枝上,表明可能在陸地棉中也具有類似的功能。因此,本研究確定以陸地棉中未鑒定報(bào)道過的為對象,以陸地棉中纖維斷裂比強(qiáng)度和馬克隆值性狀差異顯著的RIL131和RIL229為試驗(yàn)材料,克隆并分析其在不同發(fā)育時(shí)期棉纖維中的表達(dá)情況。和分別在2個(gè)材料中序列一致,與參考基因組序列相同,無SNP差異,表明該組基因相對保守,而在SCW合成期(15—25 DPA)均優(yōu)勢表達(dá)并表現(xiàn)顯著差異,利用VIGS技術(shù)沉默后,棉纖維斷裂比強(qiáng)度顯著降低。根據(jù)以上研究結(jié)果分析是一個(gè)纖維SCW合成期相關(guān)的基因,尤其與陸地棉纖維品質(zhì)中纖維強(qiáng)度密切相關(guān)。陸地棉與海島棉[29]、陸地棉不同材料間該基因具有差異表達(dá),并調(diào)控纖維強(qiáng)度,但其編碼區(qū)序列在不同材料間保守,推測基因差異表達(dá)的主要原因不是由基因編碼序列本身造成,而主要受上游基因調(diào)控影響,進(jìn)一步推測在海島棉和高比強(qiáng)的陸地棉RIL229中可能有相似的基因網(wǎng)絡(luò)調(diào)控模式,使所在調(diào)控通路通過提前SCW加厚的起始時(shí)間,延長了SCW加厚期的累積時(shí)長,有效促進(jìn)纖維素合成,從而形成較高的棉纖維比強(qiáng)度。但該基因具體參與的調(diào)控途徑、作用方式和調(diào)控機(jī)制還有待進(jìn)一步研究,本研究下步計(jì)劃:一方面通過對不同材料中基因啟動子調(diào)控區(qū)域分析,明確上游互作蛋白,分析差異表達(dá)原因;另一方面通過過表達(dá)和基因敲除進(jìn)一步明確功能,解析其在棉纖維發(fā)育中所處的基因調(diào)控網(wǎng)絡(luò)及調(diào)控模式。
在四倍體陸地棉、海島棉和二倍體亞洲棉、雷蒙德氏棉中分別鑒定出了41、40、20和21個(gè)FLA家族成員,可分為4個(gè)群組,不同群組成員間具有較高的結(jié)構(gòu)和功能相似性,并從中篩選了在纖維發(fā)育特定時(shí)期發(fā)揮作用的基因,明確家族中是SCW合成階段特異性表達(dá)基因,并與陸地棉不同材料纖維比強(qiáng)度差異形成密切相關(guān)。
[1] WANG M J, LI J Y, QI Z Y, LONG Y X, PEI L L, HUANG X H, GROVER C E, DU X M, XIA C J, WANG P C, LIU Z P, YOU J Q, TIAN X H, MA Y Z, WANG R P, CHEN X Y, HE X, FANG D D, Sun Y Q, Tu L L, JIN S X, ZHU L F, WENDEL J F, ZHANG X L. Genomic innovation and regulatory rewiring during evolution of the cotton genus. Nature Genetics, 2022, 54(12): 1959-1971.
[2] CHEN Q, WANG W, WANG C X, ZHANG M, YU J W, ZHANG Y F, YUAN B T, DING Y Y, JONES D C, PATERSON A H, CHEE P W, WANG B H. Validation of QTLs for fiber quality introgressed fromby selective genotyping. G3 Genes |Genomes|Genetics, 2020, 10(7): 2377-2384.
[3] HUANG G Q, XU W L, GONG S Y, LI B, WANG X L, XU D, LI X B. Characterization of 19 novel cottongenes and their expression profiling in fiber development and in response to phytohormones and salt stress. Physiologia Plantarum, 2008, 134(2): 348-359.
[4] LIU D Q, TU L L, LI Y J, WANG L, ZHU L F, ZHANG X L. Genes encoding fasciclin-like arabinogalactan proteins are specifically expressed during cotton fiber development. Plant Molecular Biology Reporter, 2008, 26(2): 98-113.
[5] HUANG G Q, GONG S Y, XU W L, LI W, LI P, ZHANG C J, LI D D, ZHENG Y, LI F G, LI X B. A fasciclin-like arabinogalactan protein,, is involved in fiber initiation and elongation of cotton. Plant Physiology, 2013, 161(3): 1278-1290.
[6] MA J J, JIANG Y F, PEI W F, WU M, MA Q F, LIU J, SONG J K, JIA B, LIU S, WU J Y, ZHANG J F, YU J W. Expressed genes and their new alleles identification during fibre elongation reveal the genetic factors underlying improvements of fibre length in cotton. Plant Biotechnology Journal, 2022, 20(10): 1940-1955.
[7] 王雅琴,李艷軍, 張新宇, 劉永昌, 石淼, 孫杰. 棉花基因的克隆及表達(dá)分析. 新疆農(nóng)業(yè)科學(xué), 2013, 50(5): 785-793.
WANG Y Q, LI Y J, ZHANG X Y, LIU Y C, SHI M, SUN J. Cloning and expression analysis of cottongene. Xinjiang Agricultural Sciences, 2013, 50(5): 785-793. (in Chinese)
[8] 胡海燕, 劉迪秋, 李允靜, 李陽, 涂禮莉. 一個(gè)棉花纖維伸長期優(yōu)勢表達(dá)啟動子pGhFLA1的克隆與鑒定. 作物學(xué)報(bào), 2017, 43(6): 849-854.
Hu H Y, LIU D Q, LI Y J, LI Y, TU L L. Identification of promoter GhFLA1 preferentially expressed during cotton fiber elongation. Acta Agronomica Sinica, 2017, 43(6): 849-854. (in Chinese)
[9] TAN L, SHOWALTER A M, EGELUND J, HERNANDEZ- SANCHEZ A, DOBLIN M S, BACIC A. Arabinogalactan-proteins and the research challenges for these enigmatic plant cell surface proteoglycans. Frontiers in Plant Science, 2012, 3: 140.
[10] SEIFERT G J, ROBERTS K. The biology of arabinogalactan proteins. Annual Review of Plant Biology, 2007, 58: 137-161.
[11] SHOWALTER A M, KEPPLER B, LICHTENBERG J, GU D Z, WELCH L R. A bioinformatics approach to the identification, classification, and analysis of hydroxyproline-rich glycoproteins. Plant Physiology, 2010, 153(2): 485-513.
[12] XU F, CHEN Q, HUANG L, LUO M. Advances about the roles of membranes in cotton fiber development. Membranes, 2021, 11(7): 471.
[13] ZANG L N, ZHENG T C, CHU Y G, DING C J, ZHANG W X, HUANG Q J, SU X H. Genome-wide analysis of the fasciclin-like arabinogalactan protein gene family reveals differential expression patterns, localization, and salt stress response in. Frontiers in Plant Science, 2015, 6: 1140.
[14] GUERRIERO G, MANGEOT-PETER L, LEGAY S, BEHR M, LUTTS S, SIDDIQUI K S, HAUSMAN J F. Identification of fasciclin-like arabinogalactan proteins in textile hemp (L.): in silico analyses and gene expression patterns in different tissues. BMC Genomics, 2017, 18(1): 741.
[15] TAN L, LEYKAM J F, KIELISZEWSKI M J. Glycosylation motifs that direct arabinogalactan addition to arabinogalactan-proteins. Plant Physiology, 2003, 132(3): 1362-1369.
[16] HE J D, ZHAO H, CHENG Z L, KE Y W, LIU J X, MA H L. Evolution analysis of the fasciclin-like arabinogalactan proteins in plants shows variable fasciclin-AGP domain constitutions. International Journal of Molecular Sciences, 2019, 20(8): 1945.
[17] KIM D, LANGMEAD B, SALZBERG S L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods, 2015, 12(4): 357-360.
[18] JOHNSON K L, JONES B J, BACIC A, SCHULTZ C J. The fasciclin-like arabinogalactan proteins of. A multigene family of putative cell adhesion molecules. Plant Physiology, 2003, 133(4): 1911-1925.
[19] MA H L, ZHAO J. Genome-wide identification, classification, and expression analysis of the arabinogalactan protein gene family in rice (L.). Journal of Experimental Botany, 2010, 61(10): 2647-2668.
[20] FAIK A, ABOUZOUHAIR J, SARHAN F. Putative fasciclin-like arabinogalactan-proteins (FLA) in wheat () and rice (): identification and bioinformatic analyses. Molecular Genetics and Genomics, 2007, 277(1): 97.
[21] SHOWALTER A M, KEPPLER B D, LIU X, LICHTENBERG J, WELCH L R. Bioinformatic identification and analysis of hydroxyproline-rich glycoproteins in. BMC Plant Biology, 2016, 16(1): 229.
[22] MACMILLAN C P, TAYLOR L, BI Y D, SOUTHERTON S G, EVANS R, SPOKEVICIUS A. The fasciclin-like arabinogalactan protein family ofcontains members that impact wood biology and biomechanics. The New Phytologist, 2015, 206(4): 1314-1327.
[23] LI X Q, CHENG M Y, TANG C R, ZHU X X, QI K, ZHANG S L, WU J Y, WANG P. Identification and function analysis of fasciclin-like arabinogalactan protein family genes in pear (). Plant Systematics and Evolution, 2021, 307: 48.
[24] MENG J, HU B, YI G J, LI X Q, CHEN H B, WANG Y Y, YUAN W N, XING Y Q, SHENG Q M, SU Z X, XU C X. Genome-wide analyses of banana fasciclin-likegenes and their differential expression under low-temperature stress in chilling sensitive and tolerant cultivars. Plant Cell Reports, 2020, 39(6): 693-708.
[25] HOSSAIN M S, AHMED B, ULLAH M W, AKTAR N, HAQUE M S, ISLAM M S. Genome-wide identification of fasciclin-like arabinogalactan proteins in jute and their expression pattern during fiber formation. Molecular Biology Reports, 2020, 47(10): 7815-7829.
[26] LI J, WU X M. Genome-wide identification, classification and expression analysis of genes encoding putative fasciclin-like arabinogalactan proteins in chinese cabbage (L.). Molecular Biology Reports, 2012, 39(12): 10541-10555.
[27] AALLELIGN SHAGRE H, ZALTZMAN D, IDAN-MOLAKANDOV A, ROMANO H, TZFADIA O, HARPAZ-SAAD S. FASCICLIN-LIKE 18 is a new player regulating root elongation in. Frontiers in Plant Science, 2021, 12: 645286.
[28] MACMILLAN C P, MANSFIELD S D, STACHURSKI Z H, EVANS R, SOUTHERTON S G. Fasciclin-like arabinogalactan proteins: specialization for stem biomechanics and cell wall architecture in Arabidopsis and. The Plant Journal, 2010, 62(4): 689-703.
[29] SHI H Z, KIM Y, GUO Y, STEVENSON B, ZHU J K. Thelocus encodes a putative cell surface adhesion protein and is required for normal cell expansion. The Plant Cell, 2003, 15(1): 19-32.
[30] WANG H H, JIANG C M, WANG C T, YANG Y, YANG L, GAO X Y, ZHANG H X. Antisense expression of the fasciclin-like arabinogalactan proteingene ininhibits expression of its homologous genes and alters stem biomechanics and cell wall composition in transgenic trees. Journal of Experimental Botany, 2015, 66(5): 1291-1302.
[31] LIU H W, SHI R F, WANG X F, PAN Y X, LI Z K, YANG X L, ZHANG G Y, MA Z Y. Characterization and expression analysis of a fiber differentially expressed fasciclin-like arabinogalactan protein gene in sea island cotton fibers. PloS ONE, 2013, 8(7): e70185.
[32] MAJEWSKA-SAWKA A, NOTHNAGEL E A. The multiple roles of arabinogalactan proteins in plant development. Plant Physiology, 2000, 122(1): 3-10.
[33] XUE H, VEIT C, ABAS L, TRYFONA T, MARESCH D, RICARDI M M, ESTEVEZ J M, STRASSER R, SEIFERT G J.functions as a glycan-stabilized soluble factor via its carboxy-proximal Fasciclin 1 domain. The Plant Journal, 2017, 91(4): 613-630.
[34] ZHANG M, WEI H L, LIU J, BIAN Y J, MA Q, MAO G Z, WANG H T, WU A M, ZHANG J J, CHEN P Y, MA L, FU X K, YU S X. Non-functionalare responsible for the male sterility caused by hybrid breakdown in cotton (spp.). The Plant Journal, 2021, 107(4): 1198-1212.
[35] LI J, YU M, GENG L L, ZHAO J. The fasciclin-like arabinogalactan protein gene,, is involved in microspore development of. The Plant Journal, 2010, 64(3): 482-497.
[36] ZHANG Z Y, XIN W W, WANG S F, ZHANG X, DAI H F, SUN R R, FRAZIER T, ZHANG B H, WANG Q L. Xylem sap in cotton contains proteins that contribute to environmental stress response and cell wall development. Functional & Integrative Genomics, 2015, 15(1): 17-26.
[37] TAKAHASHI D, KAWAMURA Y, UEMURA M. Cold acclimation is accompanied by complex responses of glycosylphosphatidylinositol (GPI)-anchored proteins in. Journal of Experimental Botany, 2016, 67(17): 5203-5215.
[38] SEIFERT G J, XUE H, ACET T. Thefasciclin like arabinogalactan protein 4gene acts synergistically with abscisic acid signalling to control root growth. Annals of Botany, 2014, 114(6): 1125-1133.
[39] 張素君, 周曉棟, 唐麗媛, 李興河, 王海濤, 劉存敬, 蔡肖, 張香云, 張建宏. 雜交棉‘冀1518’纖維品質(zhì)性狀的QTL定位及遺傳分析. 分子植物育種, 2021, 19(11): 3627-3637.
ZHANG S J, ZHOU X D, TANG L Y, LI X H, WANG H T, LIU C J, CAI X, ZHANG X Y, ZHANG J H. QTL Mapping and genetic analysis of fiber quality traits in hybrid cotton ‘Ji1518’. Molecular Plant Breeding, 2021, 19(11): 3627-3637. (in Chinese)
[40] HU Y, CHEN J D, FANG L, ZHANG Z Y, MA W, NIU Y C, JU L Z, DENG J Q, ZHAO T, LIAN J M, BARUCH K, FANG D, LIU X, RUAN Y L, RAHMAN M U, HAN J L, WANG K, WANG Q, WU H T, MEI G F, ZANG Y H, HAN Z G, XU C Y, SHEN W J, YANG D F, SI Z F, DAI F, ZOU L F, HUANG F, BAI Y L, ZHANG Y G, BRODT A, BEN-HAMO H, ZHU X F, ZHOU B L, GUAN X Y, ZHU S J, CHEN X Y, ZHANG T Z.andgenomes provide insights into the origin and evolution of allotetraploid cotton. Nature Genetics, 2019, 51(4): 739-748.
[41] WANG M J, LI J Y, WANG P C, LIU F, LIU Z P, ZHAO G N, XU Z P, PEI L L, GROVER C E, WENDEL J F, WANG K B, ZHANG X L. Comparative genome analyses highlight transposon-mediated genome expansion and the evolutionary architecture of 3D genomic folding in cotton. Molecular biology and evolution, 2021, 38(9): 3621-3636.
[42] FINN R D. Pfam: clans, web tools and services. Nucleic Acids Research, 2006, 34(90001): D247-D251.
[43] FINN R D, CLEMENTS J, EDDY S R. HMMER web server: interactive sequence similarity searching. Nucleic Acids Research, 2011, 39(suppl_2): W29-W37.
[44] LETUNIC I, DOERKS T, BORK P. SMART 7: recent updates to the protein domain annotation resource. Nucleic Acids Research, 2012, 40(D1): D302-D305.
[45] LU S N, WANG J Y, CHITSAZ F, DERBYSHIRE M K, GEER R C, GONZALES N R, GWADZ M, HURWITZ D I, MARCHLER G H, SONG J S, THANKI N, YAMASHITA R A, YANG M Z, ZHANG D C, ZHENG C J, LANCZYCKI C J, MARCHLER-BAUER A. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research, 2020, 48(D1): D265-D268.
[46] GASTEIGER E, HOOGLAND C, GATTIKER A, DUVAUD S, WILKINS M R, APPEL R D, BAIROCH A. Protein Identification and Analysis Tools on the Expasy Server. The Proteomics Protocols Handbook, Humana Press, 2005: 571-607.
[47] EDDY S R. Profile hidden Markov models. Bioinformatics, 1998, 14(9): 755-763.
[48] KUMAR S, STECHER G, TAMURA K. MEGA7: Molecular evolutionary genetics analysis version 7.0 for bigger datasets. Molecular Biology and Evolution, 2016, 33(7): 1870-1874.
[49] LETUNIC I, BORK P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research, 2021, 49(W1): W293-W296.
[50] WANG Y P, TANG H B, DEBARRY J D, TAN X, LI J P, WANG X Y, LEE T H, JIN H Z, MARLER B, GUO H, KISSINGER J C, PATERSON A H. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Research, 2012, 40(7): e49,
[51] CHEN C J, CHEN H, ZHANG Y, THOMAS H R, FRANK M H, HE Y H, XIA R. TBtools: an integrative toolkit developed for interactive analyses of big biological data. Molecular Plant, 2020, 13(8): 1194-1202.
[52] BAILEY T L, JOHNSON J, GRANT C E, NOBLE W S. The MEME suite. Nucleic Acids Research, 2015, 43(W1): W39-W49.
[53] HU B, JIN J P, GUO A Y, ZHANG H, LUO J C, GAO G. GSDS 2.0: an upgraded gene feature visualization server. Bioinformatics, 2015, 31(8): 1296-1297.
[54] SCHULTZ C J, RUMSEWICZ M P, JOHNSON K L, JONES B J, GASPAR Y M, BACIC A. Using genomic resources to guide research directions. the arabinogalactan protein gene family as a test case. Plant Physiology, 2002, 129(4): 1448-1463.
[55] GU Z H, HUANG C J, LI F F, ZHOU X P. A versatile system for functional analysis of genes and microRNAs in cotton. Plant Biotechnology Journal, 2014, 12(5): 638-649.
[56] TIAN Z L, ZHANG Y Z, ZHU L P, JIANG B, WANG H Q, GAO R X, FRIML J, XIAO G H. Strigolactones act downstream of gibberellins to regulate fiber cell elongation and cell wall thickness in cotton ()., 2022, 34(12): 4816-4839.
[57] LIU G Y, LIU J, PEI W F, LI X H, WANG N H, MA J J, ZANG X S, ZHANG J F, YU S X, WU M, YU J W. Analysis of thegene family and the role ofPlanta, 2019, 250(6): 2147-2158.
[58] YANG Z E, GAO C X, ZHANG Y H, YAN Q D, HU W, YANG L, WANG Z, LI F G. Recent progression and future perspectives in cotton genomic breeding. Journal of Integrative Plant Biology, 2023, 65(2): 548-569.
[59] WU X Y, LAI Y C, LV L Q, JI M F, HAN K L, YAN D K, LU Y W, PENG J J, RAO S F, YAN F, ZHENG H Y, CHEN J P. Fasciclin-like arabinogalactan gene family in: genome-wide identification, classification and expression in response to pathogens. BMC Plant Biology, 2020, 20(1): 305.
[60] WANG C, LV Y D, XU W, ZHANG T Z, GUO W Z. Aberrant phenotype and transcriptome expression during fiber cell wall thickening caused by the mutation of the Im gene in immature fiber (im) mutant inL.. BMC genomics, 2014, 15: 94.
Genome-Wide Identification of Cotton FLA Gene Family and Functional Analysis of
TANG LiYuan, CAI Xiao, WANG HaiTao, LI XingHe, ZHANG SuJun, LIU CunJing, ZHANG JianHong
Institute of Cotton, Hebei Academy of Agriculture and Forestry Sciences/Key Laboratory of Cotton Biology and Genetic Breeding in Huanghuaihai Semiarid Area, Ministry of Agriculture and Rural Affairs/National Cotton Improvement Center Hebei Branch, Shijiazhuang 050051
【Background】It is of great importance to improve the quality of cotton fiber to meet the improvement of cotton textile production and the pursue of people for high quality cotton. Fasciclin-like arabinogalactan proteins (FLAs) play an important role in the initial development of cotton fibers and secondary wall synthesis. 【Objective】Comprehensive identification and analysis of cotton FLA gene family members to reveal their common characteristics and specific expression patterns, provided a reference for the function study of FLAs in cotton fiber development.【Method】According to the whole genome data of cotton, members of FLA gene family were identified by HMMER3.0 and further verified by online softwares of Pfam and Smart. Physical and chemical properties and transmembrane domains of these proteins were analyzed by ExPASy and TMHMM. Phylogenetic tree construction, chromosome localization, collinearity analysis and protein conserved domain sequence alignment were conducted and displayed using GSDS, MCScanX, MEGA, MEME, TBtools and Jalview. Expression of FLA genes in different tissues were analyzed by cotton transcriptome data. Expression differences ofin different developmental stages of ovules and fibers between different fiber quality materials was analyzed by quantitative real-time polymerase chain reaction (qRT-PCR). Function ofwas verified by virus induced gene silencing (VIGS). 【Result】A total of 41, 40, 20 and 21 FLA family members were identified in,,and, respectively. The phylogenetic tree showed that cotton FLA proteins could be divided into four groups. Gene structure and motif composition were relatively conserved in each group. Further analysis of FLA proteins inshowed that all 41 FLA members had 1-2 AGP-like glycosylation regions and 1-2 fasciclin-like domains (FAS), 37 of which contained signal peptide (SP) and 25 contained glycosylphosphatidylinositol anchored protein (GPI) anchoring signals. Subcellular localization showed that GhFLA05_D showing aggregated granules in the cytoplasm was probably localized in endoplasmic reticulum, and GhFLA18_A and GhFLA22 were expressed in cell membrane/wall, cytoplasm and nucleus. Transcriptome sequencing results showed that FLA proteins in Group A and B were mainly highly expressed in fibers, which may be involved in the process of cotton fiber elongation development and secondary wall thickening. In general, group A and B members had a similar expression pattern in two materials with significant differences in fiber quality and expressed mainly in the secondary wall development stage, especially in 20-25 DPA period.exhibited specific expression at the secondary wall thickening stage with significant differences between two materials, which expressed with a high maximum value in earlier stage of secondary wall thickening stage in high specific strength material RIL229, suggestingmay take a part in the regulation of cotton fiber strength difference formation. The fiber strength and micronaire value decreased ingene-silenced cotton plants by VIGS.【Conclusion】A sum of 122 FLA family members were identified in,,and, which could be divided into four groups. Members of different groups had high structural and functional similarities, and the genes related to cotton fiber development were identified. It was clarified thatspecifically expressed in the secondary wall synthesis stage, and closely related to the difference in fiber strength of different upland cotton materials.
cotton; FLA; fiber development; gene family; expression analysis
10.3864/j.issn.0578-1752.2023.23.004
2023-02-16;
2023-04-20
河北省農(nóng)林科學(xué)院基本科研業(yè)務(wù)費(fèi)(2021070205)、河北省農(nóng)林科學(xué)院科技創(chuàng)新專項(xiàng)課題(2022KJCXZX-MHS-1,2023KJCXZX-MHS-11)
唐麗媛,E-mail:liyuaner05@163.com。通信作者張建宏,E-mail:mhszjh@126.com
(責(zé)任編輯 李莉)