許園園, 李曉剛, 李 慧, 藺 經(jīng), 常有宏
(江蘇省農(nóng)業(yè)科學院園藝研究所,江蘇省高效園藝作物遺傳改良重點實驗室,江蘇 南京210014)
梨是重要的溫帶果樹之一,屬于薔薇科蘋果亞科,大多數(shù)的栽培品種都是二倍體(2n =34)。作為國際市場上受歡迎的水果之一,梨在6 個大洲都有廣泛的種植,梨的主產(chǎn)國家有中國、美國、意大利、阿根廷、西班牙、韓國、土耳其、南非、日本和比利時,其中,中國為梨世界第一大生產(chǎn)國,年產(chǎn)量超過世界總產(chǎn)量的60%[1-3]。
鈣依賴性蛋白激酶(CDPK)是植物和一些原生生物所特有的一類絲氨酸/蘇氨酸蛋白激酶,可不需鈣調(diào)素而被鈣信號直接激活,在植物中,CDPK基因以翻譯后形成的單肽鏈形式存在,典型的CDPK 蛋白分子由1 條多肽鏈組成,從N 端到C端存在4 個功能域[4-6]。在植物的器官水平上,CDPK基因廣泛存在于根、莖、葉、果實和種子等器官,在植物鈣信號轉導中具有重要作用,在細胞水平上,分生細胞、木質部細胞、花粉細胞、保衛(wèi)細胞和胚細胞中也均發(fā)現(xiàn)CDPK 蛋白組分的存在,且越來越多的研究結果表明,在植物碳氮代謝、離子和水分跨膜運輸、氣孔運動、細胞骨架與生長發(fā)育調(diào)節(jié)中均有CDPK 基因的參與,CDPK 在植物耐非生物脅迫的傷害應答和抗真菌的防衛(wèi)應答中也發(fā)揮重要作用[7]。CDPK 基因在植物中數(shù)量眾多,在模式植物擬南芥的基因組中,迄今已鑒定了34 個CDPK 基因,分布位于所有5 條染色體上[8];在水稻中,也已鑒定出29 ~31 個CDPK 家族成員[9];據(jù)推測,小麥基因組中也至少存在20 個CDPK 基因[10];另外,在大豆[11]、玉米[12]、番茄[13]、煙草[14]和棉花[7]中也鑒定了一些CDPK 基因;盡管對CDPK 基因的研究有了重大進展,但大多局限于模式植物中,而且仍有大部分的CDPK 基因未得到分離與功能鑒定。梨基因組序列的公布為利用生物信息學手段研究該重要果樹作物成為可能,但是目前在全基因組水平上對梨CDPK 基因家族成員進行分離鑒定的工作尚未見報道。
本研究利用生物信息學分析方法,基于已公布的梨基因組全序列信息,分離鑒定出全部CDPK 基因家族成員,從基因組水平上分析了梨CDPK 基因的數(shù)目,基因結構與進化,為在基因組范圍內(nèi)研究CDPK 基因家族的生物學功能奠定基礎。
梨全基因組序列,基因及其注釋信息均下載于梨基因組數(shù)據(jù)庫(http://peargenome. njau. edu. cn:8004/)。擬南芥CDPK 基因(34 個)序列和蛋白序列下載于TAIR(http://www. arabidopsis. org/)。水稻CDPK 基因根據(jù)Asano 等[15]的研究結果,下載自http://rgp. dna. affrc. go. jp/E/IRGSP/rap-db1. html數(shù)據(jù)庫,共得到31 條CDPK 蛋白序列。
試驗于2014 年在江蘇省農(nóng)業(yè)科學院園藝研究所高效園藝作物遺傳改良重點實驗室進行。
利用現(xiàn)有梨注釋基因的蛋白序列,與擬南芥、水稻CDPK 蛋白序列進行本地blastp 比對,E-value值為le-5,輸出最優(yōu)比對結果,根據(jù)比對長度(>400 aa)和相似度(>40%)篩選梨候選CDPK基因。同時結合Pfam 數(shù)據(jù)庫,采用hmmscan 鑒定候選CDPK 基因蛋白結構域,篩選含有CDPK 蛋白典型結構域絲氨酸/蘇氨酸蛋白激酶區(qū)以及EF-手型結構區(qū)(PF07714,PF00036)的蛋白序列[16]。綜合上述結果,去除重復基因,得到26 條梨CDPK基因,根據(jù)其與擬南芥CDPK基因的相似性來命名。利用ExPASy Proteomics Sever (http://expasy.org/)對所有的CDPK 蛋白氨基酸序列進行分子量、等電點預測[17]。氨基酸修飾,同樣采用在線工具進 行,Myristoylator 工具(http://prosite. expasy.org/scanprosite/)用于進行N-myristoylation 預測(http://prosite. expasy. org/scanprosite/)[18],palmitoylation 預測工具為CSS-Plam program[19],在線工具http://www. ebi. ac. uk/Tools/pfa/ps_scan/用于進行EF-手型結構預測[20]。
在梨26 個CDPK 基因中進行重復基因對篩選,篩選標準為:(1)比對長度大于兩個基因中最長基因序列長度的80%;(2)比對相似性>80%;(3)只有一個重復事件才被認為是緊密關聯(lián)的基因對。重復CDPK 基因對的Ka、Ks 值計算采用DnaSP5.0 軟件,最后根據(jù)Ka/Ks 值來判斷每對基因的選擇壓力[21]。
通過ClustalW 模塊對擬南芥、水稻、梨CDPK 蛋白進行多序列聯(lián)配比對分析,多序列比對結果使用MEGA6.0(http://megasoftware. net)程序[22]采用鄰接法(Neighbor-Joining,NJ)生成CDPK 基因的無根系統(tǒng)進化樹,校驗參數(shù)Bootstrap 重復1 000 次。CDPK基因家族保守性分析采用ClustalX 生物學軟件進行多序列比對,并參照Schneider 等[23]的方法進行蛋白序列保守性分析。
根據(jù)預測結果,利用perl 程序從梨基因組注釋信息(pear. gene. gff)中提取梨CDPK 基因的基因組注釋信息(gff),得到梨CDPK 基因的基因組(Scaffold)位置信息。基于CDPK 的基因和CDS序列,選取GSDS(http://gsds. cbi. pku. edu. cn/)工具進行基因結構分析,繪制外顯子-內(nèi)含子結構圖。
采用MEGA6.0 程序中的ClustalW 模塊對梨、擬南芥和水稻的CDPK 蛋白序列進行多序列比對,采用鄰接法(Neighbor-Joining,NJ)生成無根進化樹。
利用生物信息學方法,從梨全基因組中鑒定獲得26 個候選CDPK 基因家族成員,根據(jù)與擬南芥CDPK 基因的同源性分別命名為PbCDPK1 ~PbCDPK26(表1)。通過ExPASy 工具,對梨CDPK 基因進行了蛋白質長度、分子量及等電點等生化屬性分析?;蚪M序列分析結果表明梨CDPK 基因非常保守,最長的梨CDPK 蛋白(PbCDPK6,Pbr010446.1)編碼811 個氨基酸,最短的CDPK 蛋白(PbCDPK24,Pbr027545.1)僅編碼499 個氨基酸。蛋白質生化屬性分析發(fā)現(xiàn),其等電點范圍從4. 79(PbCDPK22,Pbr028710.1)到8. 77(PbCDPK16,Pbr007825. 1)(表1)。
利用PFAM 及NCBI-CDD 工具對CDPK 家族成員進行蛋白質結構分析發(fā)現(xiàn),在與Ca2+結合的調(diào)控區(qū),CDPK 成員均含有一段結構和功能類似于CaM 的氨基酸序列,這段序列中除PbCDPK16 含有3 個與Ca2+結合的EF-手型結構,其余均包含4 個EF 手型結構(圖1)。此外,部分CDPK 成員N 端還發(fā)現(xiàn)了含有與蛋白質定位(膜定位)相關的豆蔻?;褪轷;璧谋J匦蛄蠱GXXC(S/Q)XXT 位點(表1)。
為了解梨CDPK 蛋白系統(tǒng)進化關系,利用梨CDPK 蛋白全長序列構建了系統(tǒng)進化樹,結果顯示,26 個CDPK 基因可以分為4 類,參考擬南芥的研究結果,將4 類亞家族命名為Class Ⅰ、Class Ⅱ、Class Ⅲ和Class Ⅳ,分別含10 個、4 個、10 個和2 個CDPK 基因。此外,26 個CDPK 基因形成11 個旁系同源基因對,其中只有1 對基因步長值低于90,為PbCDPK17/PbCDPK15(圖2)。對家族成員的基因結構分析顯示,梨CDPK 基因結構相對復雜,有18 個CDPK 基因內(nèi)含子數(shù)目為6 ~7 個,僅有1 個成員含有5 個內(nèi)含子(PbCDPK3),1 個 成 員 含 有 10 個 內(nèi) 含 子(PbCDPK16),3 個 成 員 含 有 8 個 內(nèi) 含 子(PbCDPK6、PbCDPK14),2 個成員含有9 個內(nèi)含子(PbCDPK1、PbCDPK22),另有2 個CDPK 基因不含內(nèi)含子(PbCDPK7、PbCDPK24)。對CDPK成員聚類結果的進一步分析發(fā)現(xiàn),位于同一旁系同源基因對中的基因其結構同樣類似(圖2)。另外,對PbCDPK 家族成員編碼序列與基因組序列進行比較分析發(fā)現(xiàn),在9 個PbCDPK 家族成員基因序列中存在UTR 非翻譯區(qū)域(圖2)。
為了深入分析梨與其他物種的同源進化關系,構建了梨與擬南芥、水稻的CDPK 基因系統(tǒng)進化樹(圖3),根據(jù)進化樹聚類,可將所有的CDPK蛋白分為四類,分別為CDPK I,CDPK II,CDPK III,CDPK IV。CDPK I 包含了10 個AtCDPK,8 個OsCDPK 和10 個PbCDPK;CDPK II 中分別包含13個AtCDPK,5 個OsCDPK 和4 個PbCDPK;CDPK III 中分別包含8 個AtCDPK,8 個OsCDPK 和10 個PbCDPK;CDPK IV 中在四類分組中含有基因數(shù)目最少,分別包含3 個AtCDPK,2 個OsCDPK 和2 個PbCDPK。
表1 梨CDPK 基因家族成員信息Table 1 The information of CDPK gene family in pear
目前,基因家族分析已在多種作物中有類似報道,如蘋果SDH 和IPT 基因家族[24-25],大豆LEA 與ARF 基因家族[26-27],番茄LBD 基因家族等[28],為各個基因家族的功能分析提供了理論基礎。CDPK 是植物體內(nèi)含有Ser/Thr 激酶活性的一類蛋白激酶,研究結果表明,CDPK 是介導植物生長發(fā)育與逆境信號的關鍵信號傳遞體[7,29-30]。在植物體內(nèi),CDPK基因以家族基因的形式存在,在對模式植物擬南芥基因組的搜索中發(fā)現(xiàn)CDPK 含有34 個成員,楊樹基因組中被鑒定含有30 個成員[31],在其他植物如馬鈴薯、豌豆等作物中也發(fā)現(xiàn)了部分CDPK 基因家族成員。梨作為一種重要的果樹作物,基因組測序完成后,有關梨CDPK 家族基因的分析研究尚未見報道。本研究通過對梨進行全基因組掃描分析,從梨基因組中成功鑒定出26 個CDPK 家族成員,通過對其進行基因結構、系統(tǒng)進化等生物信息學分析,以期為深入揭示該基因家族在梨生長發(fā)育與信號轉導中的功能和作用機制奠定基礎。
圖2 梨CDPK 基因內(nèi)含子外顯子結構與家族進化樹分析Fig.2 The intron-exon structures and the phylogenetic tree of CDPK genes in pear
總體來說,梨CDPK 基因結構較為復雜,外顯子數(shù)目較多(6 ~11 個),這種復雜的基因結構可能會導致基因結構不穩(wěn)定,且復制時容易產(chǎn)生可變剪切。研究報道,大多數(shù)的CDPK 基因在調(diào)控區(qū)含有4 個保守的與Ca2+結合的EF-手型結構,少數(shù)CDPK 含有3 個EF-手型結構,本研究中,還發(fā)現(xiàn)了2 個CDPK成員含有6 個EF-手型結構。通過這些手型結構可使CDPK 在不依賴于CaM 的條件下與Ca2+高度親和。另外,部分CDPK 成員N 端存在與蛋白質定位(膜定位)相關的豆蔻?;褪轷;璧谋J匦蛄蠱GXXC(S/Q)XXT 位點,推測這些結構可能在參與蛋白質與質膜的可逆結合或蛋白間相互作用過程中發(fā)揮重要作用。
通過系統(tǒng)進化樹的構建,可以分析基因之間的起源關系,預測基因的功能。同一亞家族或小的分枝往往具備相似的功能,依據(jù)聚類分析,梨26 個CDPK 蛋白成員劃分為4 組(CDPK I、CDPK II、CDPK III 和CDPK IV),表明梨CDPK 蛋白來自于不同的祖先,另外研究結果顯示,CDPK I、CDPK III 和CDPK IV 在3 個物種(梨、擬南芥和水稻)中分別含有大致相同數(shù)量的CDPK,而較另外兩個物種(梨和水稻),CDPK II 則僅在擬南芥中含有數(shù)量較多的CDPK 成員,該聚類結果與棉花CDPK 蛋白分類相一致[7],由于植物種屬的CDPK 可能來自于蛋白激酶和CaM 基因的融合,因此,CDPK 各成員的結構與序列組成上的較大差異,可能與蛋白激酶或CaM 在序列上存在的差異有關。3 個物種的親緣關系聚類分析結果表明,所有的CDPK 蛋白在3 個物種中均被分成不同的4 個類別,暗示這些分組在單子葉植物與雙子葉植物分化前就已存在,該結論同樣支持了在藻類和陸生植物分化前CDPK 家族基因就已被分為4 類的假設[32]。
圖3 梨CDPK 蛋白與擬南芥、水稻CDPK 蛋白的親緣關系Fig.3 Phylogenetic relationships of CDPK proteins in Arabidopsis,rice and pear
隨著研究深入,可能會發(fā)現(xiàn)更多的梨CDPK同源基因,這些CDPK 家族基因如何響應激素信號調(diào)控梨生長發(fā)育,如何參與對逆境反應的信號傳導等都將成為今后研究的重點。
[1] 李剛波,李 慧,叢 郁,等. 非生物脅迫下杜梨PbCBL4 基因的表達[J]. 江蘇農(nóng)業(yè)學報,2014,30(5):1132-1138.
[2] 藺 經(jīng),李曉剛,李 慧,等.沙梨新品種蘇翠1 號組培快繁體系研究[J].江蘇農(nóng)業(yè)科學,2014,42(11):66-67.
[3] 王程亮,徐麗君,倪 萌,等.無錫地區(qū)桃園梨小食心蟲發(fā)生規(guī)律[J].江蘇農(nóng)業(yè)科學,2014,42(9):117-119.
[4] HARMON A C,GRIBSKOV M,GUBRIUM E,et al. The CDPK superfamily of protein kinases[J]. New Phytologist,2001,151:175-183.
[5] HARPER J F,SUSSMAN M R,SCHALLER G E,et al. A calcium-dependent protein kinase with a regulatory domain similar to calmodulin[J]. Science,1991,252:951-954.
[6] HRABAK E M,CHAN C W,GRIBSKOV M,et al. The arabidopsis CDPK-SnRK superfamily of protein kinases [J]. Plant Physiology,2003,132:666-680.
[7] LIU W,LI W,HE Q,et al. Genome-wide survey and expression analysis of calcium-dependent protein kinase in Gossypium raimondii[J]. PLoS One,2014,9(6):e98189.
[8] CHENG S H,WILLMANN M R,CHEN H C,et al. Calcium signaling through protein kinases the Arabidopsis calcium-dependent protein kinase gene family[J]. Plant Physiology,2002,129(2):469-485.
[9] RAY S,AGARWAL P,ARORA R,et al. Expression analysis of calcium-dependent protein kinase gene family during reproductive development and abiotic stress conditions in rice (Oryza sativa L.ssp. indica)[J]. Molecular Genetics and Genomics,2007,278:493-505.
[10] LI A L,ZHU Y F,TAN X M,et al. Evolutionary and functional study of the CDPK gene family in wheat (Triticum aestivum L.)[J]. Plant Molecular Biology,2008,66:429-443.
[11] LEE J Y,YOO B C,HARMON A C. Kinetic and calcium-binding properties of three calcium-dependent protein kinase isoenzymes from soybean [J]. Biochemistry,1998,37:6801-6809.
[12] KONG X,LV W,JIANG S,et al. Genome-wide identification and expression analysis of calcium-dependent protein kinase in maize[J]. BMC Genomics,2013,14:433.
[13] CHICO J M,RAICES M,TERESA M T,et al. A calcium-dependent protein kinase is systemically induced upon wounding in tomato plants[J]. Plant Physiology,2002,128:256-270.
[14] 太帥帥,劉貫山,孫玉合,等. 普通煙草CDPK 基因家族的克隆及表達分析[J].中國農(nóng)業(yè)科學,2009,42(10):3600-3608.
[15] ASANO T,TANAKA N,YANG G,et al. Genome-wide identification of the rice calcium-dependent protein kinase and its closely related gene families:comprehensive analysis of the CDPKs gene family in rice[J]. Plant Cell Physiology,2005,46(2):356-366.
[16] XU Q,DUNBRACK R L. Assignment of protein sequences to existing domain and family classification systems:Pfam and the PDB[J]. Bioinformatics,2012,28(21):2763-2772.
[17] ARTIMO P,JONNALAGEDDA M,ARNOLD K,et al. ExPASy:SIB bioinformatics resource portal[J]. Nucleic Acids Research,2012,40(Web Server issue):597-603.
[18] BOLOGNA G,YVON C,DUVAUD S,et al. N-Terminal myristoylation predictions by ensembles of neural networks[J]. Proteomics,2004,4:1626-1632.
[19] REN J,WEN L,GAO X,et al. CSS-Palm 2.0:an updated software for palmitoylation sites prediction[J]. Protein Engineering Design Selection,2008,21:639-644.
[20] DE CASTRO E,SIQRIST C J,GATTIKER A,et al. ScanProsite:detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J]. Nucleic Acids Research,2006,34 (Web Server issue):362-365.
[21] LIBRADO P,ROZAS J. DnaSP v5:a software for comprehensive analysis of DNA polymorphism data[J]. Bioinformatics,2009,25:1451-1452.
[22] TAMURA K,STECHER G,PETERSON D,et al. MEGA6:Molecular evolutionary genetics analysis version 6.0[J]. Molecular Biology Evolution,2013,30(12):2725-2729.
[23] SCHNEIDER T D,STEPHENS R M. Sequence logos:a new way to display consensus sequences [J]. Nucleic Acids Research,1990,18:6097-6100.
[24] 梁 東,吳 釤,王素芳,等. 蘋果山梨醇脫氫酶基因家族的克隆及表達分析[J]. 中國農(nóng)業(yè)科學,2012,45(1):102-110.
[25] 李 皓,張 文,趙旭勉,等. 蘋果異戊烯基轉移酶基因家族(MdIPTs)的克隆與MdIPT5a 功能分析[J]. 中國農(nóng)業(yè)科學,2011,44(19):4029-4036.
[26] 李 樂,許紅亮,楊興露,等. 大豆LEA 基因家族全基因組鑒定、分類和表達[J]. 中國農(nóng)業(yè)科學,2011,44(19):3945-3954.
[27] HA C V,LE D T,NISHIYAMA R,et al. The auxin response factor transcription factor family in soybean:genome-wide identification and expression analyses during development and water stress[J]. DNA Research,2013,20(5):511-524.
[28] 王小非,劉 鑫,蘇 玲,等. 番茄LBD 基因家族的全基因組序列鑒定及其進化和表達分析[J]. 中國農(nóng)業(yè)科學,2013,46(12):2501-2513.
[29] DUBROVINA A S,KISELEV K V,KHRISTENKO V S. Expression of calcium-dependent protein kinase (CDPK)genes under abiotic stress conditions in wild-growing grapevine Vitis amurensis[J]. Journal Plant Physiology,2013,170:1491-1500.
[30] WITTE C P,KEINATH N,DUBIELLA U,et al. Tobacco calcium-dependent protein kinases are differentially phosphorylated in vivo as part of a kinase cascade that regulates stress response[J].Journal Biological Chemistry,2010,285:9740-9748.
[31] ZUO R,HU R,CHAI G,et al. Genome-wide identification,classification,and expression analysis of CDPK and its closely related gene families in poplar (Populus trichocarpa)[J]. Molecular Biology Reporter,2013,40:2645-2662.
[32] CHEN F,F(xiàn)ASOLI M,TORNIELLI G B,et al. The evolutionary history and diverse physiological roles of the grapevine calcium-dependent protein kinase gene family [J]. PLoS One,2013,8:80818.