譚 暉,官春云
(湖南農(nóng)業(yè)大學(xué)農(nóng)學(xué)院/國家油料改良中心湖南分中心,長沙410128)
甘藍(lán)型油菜PPR家族生物信息學(xué)分析與新疆野生油菜候選育性基因克隆
譚 暉,官春云*
(湖南農(nóng)業(yè)大學(xué)農(nóng)學(xué)院/國家油料改良中心湖南分中心,長沙410128)
通過隱馬爾可夫模型從甘藍(lán)型油菜基因組中獲取1079條PPR家族蛋白序列,使用擬南芥PPR家族特征模型對其進(jìn)行分類,同時(shí)進(jìn)行聚類、染色體分布、亞細(xì)胞定位預(yù)測、功能注釋等分析。結(jié)合不育系與恢復(fù)系分子標(biāo)記篩選了定位于C09染色體的PPR基因GSBRNA2T00094406001(命名為BnPPR_C09)為新疆野生油菜潛在育性調(diào)節(jié)基因。通過分子克隆的方法從新疆野生油菜不育系1193A和恢復(fù)系1193R中分別克隆獲得了長度為2514 bp的cDNA序列,序列分析顯示來源于1193A的BnPPR_C09基因(BnPPR_C09b)相對源于1193R的BnPPR_C09a在+1725 bp位置存在單堿基缺失,造成移碼突變,二者預(yù)測蛋白的生物信息學(xué)分析顯示BnPPR_C09b蛋白的N端因?yàn)橐拼a突變導(dǎo)致翻譯過程在+1800位置終止,后續(xù)大量功能元件缺失,該位點(diǎn)的突變可能決定新疆野生油菜育性。
新疆野生油菜;生物信息學(xué);育性;基因克隆
油菜是全球第二大油料作物,同時(shí)是我國種植面積最大,總產(chǎn)最高的油料作物,是我國最主要的食用油料來源,保障油菜產(chǎn)量對于我國糧油供給具有重要作用。細(xì)胞質(zhì)雄性不育系(Cytoplasmic Male Sterility,CMS)是油菜雜種優(yōu)勢利用最有效、便捷的方式,對油菜的生產(chǎn)利用具有重要意義。油菜上較常見的胞質(zhì)不育系有pol CMS,NCa CMS,Jun CMS,Hau CMS,Cam CMS,Nap CMS,Ogu CMS,Shanan2A CMS等。新疆野生油菜胞質(zhì)不育系1193A(即本文中xy869與xy870)是以優(yōu)良種質(zhì)資源新疆野生油菜為母本,甘藍(lán)型油菜湘油15號(hào)為父本屬間雜交獲得的異源胞質(zhì)雄性不育株,后繼續(xù)以湘油15號(hào)為輪回親本回交多代創(chuàng)制而成的細(xì)胞質(zhì)雄性不育系,胞質(zhì)類型鑒定為新疆野油菜,與pol等有明顯不同,是一種新型的胞質(zhì)不育類型材料,在其姊妹系內(nèi)得到恢復(fù)性穩(wěn)定的恢復(fù)系1193R1[1](即本文中的xy1108、xy1109和xy1110)。
對育性恢復(fù)基因的克隆是細(xì)胞質(zhì)雄性不育研究的重要內(nèi)容,近年來越來越受到大家的關(guān)注。在已克隆的恢復(fù)基因中,除玉米R(shí)f2、Rf4[2,3]和水稻Rf2、Rf17[4,5]外,其他恢復(fù)基因均屬于PPR基因家族,具有PPR基因序列,這些證據(jù)對于CMS恢復(fù)基因的快速發(fā)掘與克隆具有重要作用。PPR(Pentatricopeptide repeats)是一類含有35個(gè)氨基酸重復(fù)序列的特殊蛋白家族,在植物中廣泛分布,并在細(xì)胞質(zhì)基因轉(zhuǎn)錄后加工、細(xì)胞質(zhì)雄性不育相關(guān)基因的表達(dá)調(diào)控、胚胎形成和植物生長發(fā)育調(diào)控等方面發(fā)揮重要功能[6,7]。典型的PPR蛋白包含2~27個(gè)串聯(lián)重復(fù)的含有35個(gè)氨基酸殘基的PPR結(jié)構(gòu)域或PPR相關(guān)結(jié)構(gòu)域,占序列長度的三分之二左右;在其序列N端一般有長度可變、不保守的細(xì)胞器定位序列;部分序列C端含有3個(gè)可選擇的非PPR結(jié)構(gòu)域[8~10]。PPR基因編碼蛋白具有RNA結(jié)合活性,幾乎參與RNA代謝的整個(gè)過程,在細(xì)胞器RNA加工過程中發(fā)揮重要作用。
本研究基于已克隆恢復(fù)基因基本都編碼PPR蛋白的特點(diǎn),利用生物信息學(xué)對甘藍(lán)型油菜PPR基因家族進(jìn)行分析,結(jié)合新疆野生油菜不育系1193A已有的分子標(biāo)記,篩選其候選恢復(fù)基因,并對其進(jìn)行克隆和分析。
1.1 受試油菜
用于基因克隆與分析的新疆野生油菜品系(不育系xy869、xy870,恢復(fù)系xy1108、xy1109和xy1110),由國家油料改良中心湖南分中心保存并提供。
1.2 生物信息學(xué)工具
1.2.1 數(shù)據(jù)庫
從BRAD數(shù)據(jù)庫(http://brassicadb.org/brad/)獲取甘藍(lán)型油菜基因組數(shù)據(jù),全部預(yù)測編碼序列和全部預(yù)測蛋白數(shù)據(jù);從Pfam[11]數(shù)據(jù)庫(http://pfam.xfam.org/)獲取PPR種子序列(PF01535);從TAIR數(shù)據(jù)庫(http://www.arabidopsis.org/)獲取擬南芥PPR蛋白家族PPR(P)、L、L2、E、E+、S和DYW 7種結(jié)構(gòu)域序列。
1.2.2 本地化分析平臺(tái)
基于Windows32位操作系統(tǒng),搭建用于PPR基因家族的生物信息學(xué)分析平臺(tái)。從NCBI網(wǎng)站(http://www.ncbi.nlm.nih.gov/)獲取本地blast程序;從HMMER網(wǎng)站(http://hmmer.janelia.org/)獲取HMMER3程序包;從Blast2GO網(wǎng)站(https://www.blast2go.com/)獲取Blast2GO程序包;安裝ANTHEPROT6.4、ClustalW、Fasttree等軟件用于后續(xù)序列分析;安裝并調(diào)試上述所有程序。
1.2.3 在線分析平臺(tái)
在線工具ProtComp 9.0(http://linux1.softberry.com/)和PSORTⅡ(http://www.genscript.com/wolf-psort.html)用于亞細(xì)胞定位預(yù)測;EvolView在線工具(http://www.evolgenius.info/evolview)用于可視化樹文件[12];在線工具M(jìn)otifsearch(http://www.genome.jp/tools/motif/)進(jìn)行蛋白功能域預(yù)測與篩選。
1.3 甘藍(lán)型油菜PPR基因家族生物信息學(xué)分析與候選育性基因(BnPPR_C09)篩選
1.3.1 甘藍(lán)型油菜PPR基因家族生物信息學(xué)分析
1.3.1.1 BnPPR蛋白家族篩選與鑒定
通過隱馬爾可夫模型(profilehidden Markov models,profile HMMs)軟件包HMMER3[13]綜合分析甘藍(lán)型油菜預(yù)測蛋白數(shù)據(jù)庫,獲得BnPPR蛋白家族候選序列。
通過hmmbuild程序構(gòu)建PPR家族蛋白種子序列的隱馬爾可夫模型矩陣(HMMER matrices);使用hmmbuild構(gòu)建擬南芥7種PPR蛋白結(jié)構(gòu)域序列定義的HMMER矩陣并通過hmmpress程序格式化;選擇PPR家族蛋白種子序列定義的HMMER矩陣,使用hmmsearch程序檢索甘藍(lán)型油菜101 040條預(yù)測蛋白序列,定義閾值為1e-10,篩選候選BnPPR蛋白;選擇擬南芥7種PPR結(jié)構(gòu)域定義的HMMER矩陣,通過hmmscan程序檢索候選BnPPR蛋白的PPR結(jié)構(gòu)域分布,定義閾值為1e-10。PPR家族蛋白具有2~27個(gè)PPR結(jié)構(gòu)域且不含其他類型結(jié)構(gòu)域[5],篩選7種結(jié)構(gòu)域數(shù)目在2~27之間的候選蛋白,獲得BnPPR蛋白家族全部序列,對獲得的BnPPR蛋白進(jìn)行結(jié)構(gòu)分析并分類。
1.3.1.2 多序列比對與進(jìn)化樹構(gòu)建
通過ClustalW程序?qū)nPPR蛋白家族序列進(jìn)行多序列比對,通過Fasttree程序[14]對比對結(jié)果分析并構(gòu)建序列進(jìn)化樹,通過EvolView(http://www.evolgenius.info/evolview)可視化作圖。
1.3.1.3 BnPPR基因的染色體定位分析
通過本地blastn程序?qū)蜻xBnPPR基因序列在甘藍(lán)型油菜基因組數(shù)據(jù)庫進(jìn)行比對,在甘藍(lán)型油菜基因組中定位各候選BnPPR基因,分析甘藍(lán)型油菜PPR基因在染色體上的分布。
1.3.1.4 PPR蛋白亞細(xì)胞定位預(yù)測
通過Softberry網(wǎng)站(http://linux1.softberry. com/)在線工具ProtComp 9.0[15]和WoLF PSORT(http://www.genscript.com/wolf-psort.html)在線工具[16]對甘藍(lán)型油菜PPR蛋白進(jìn)行亞細(xì)胞定位預(yù)測,統(tǒng)計(jì)分析兩次亞細(xì)胞定位預(yù)測的結(jié)果。
1.3.1.5 PPR基因GO分析
使用Blast2GO軟件[17]分析BnPPR基因家族全部成員,獲得BnPPR基因家族的全部功能注釋并進(jìn)行統(tǒng)計(jì)分析。
1.3.2 候選育性基因(BnPPR_C09)篩選
尹明智[1]通過SNP芯片分析表明3個(gè)與恢復(fù)基因可能連鎖的標(biāo)記中有2個(gè)標(biāo)記位于C09染色體上,該區(qū)域存在多個(gè)PPR蛋白基因。由于1193R之一(xy1109)系從1193A姊妹系中獲得,通過雜交獲得后代分離比接近3∶1,有理由推測1193A的育性為單基因控制,或者育性控制基因完全連鎖,結(jié)合1193A育性基因的分子標(biāo)記研究,有理由推測1193A育性控制基因可能為等位基因。提取1.3.1.3中獲得的C09染色體上全部PPR基因序列與蛋白序列,并獲取其blast2GO功能注釋的分析結(jié)果。根據(jù)其功能注釋篩選出野油胞質(zhì)不育系1193A候選恢復(fù)基因。
1.4 新疆野生油菜候選育性基因BnPPR_C09 cDNA克隆
1.4.1 RNA提取與cDNA合成
取野油胞質(zhì)不育系1193A材料xy869、xy870和恢復(fù)系材料xy1108、xy1109、xy1110生長過程中根、莖、葉、蕾1(2.5 mm以下小花蕾)、蕾2(2.5~3.5 mm花蕾)、蕾3(3.5 mm以上大花蕾)和花各組織放入液氮中速凍,-80℃冰箱保存。加液氮充分研磨后,使用TRIzol RNA提取試劑盒(TransGen生物技術(shù)有限公司)按照試劑盒所示方法提取總RNA,以此RNA為模板合成第1鏈cDNA。cDNA合成的具體方法參見Easy Script First-Strand cDNA Synthesis SuperMix試劑盒(TransGen生物技術(shù)有限公司)說明書。
1.4.2 BnPPR_C09基因的克隆
從BRAD數(shù)據(jù)庫(http://brassicadb.org/brad/)獲取GSBRNA2T00094406001基因(BnPPR_C09)序列。根據(jù)序列特征設(shè)計(jì)克隆引物,送擎科生物合成備用。設(shè)計(jì)的引物序列如下:
BnPPR_C09-F:5′-ATGAGTGATCAAAAAAT CAAGCGTTG-3′;
BnPPR_C09-R:5′-CTATAGCCAAACAACTC TACATGGAT-3′。
以1.3.1所述cDNA為模板進(jìn)行PCR擴(kuò)增。PCR體系含50 ng/μL模板1μL,10 mmol/L dNTPs 0.5μL,10μmol/L BnPPR_C09-F 0.5μL,10 μmol/L BnPPR_C09-R 0.5μL,5×反應(yīng)緩沖液10 μL,TaKaRa高保真DNA聚合酶0.5μL和ddH2O 37μL。程序?yàn)轭A(yù)變性94℃5 min,94℃50 s,56℃45 s,72℃5 min,35個(gè)循環(huán),72℃后延伸10 min。PCR產(chǎn)物經(jīng)1.5%瓊脂糖凝膠電泳,用凝膠成像系統(tǒng)(Bio-Rad)檢測和記錄結(jié)果。將PCR產(chǎn)物回收后與pMD18-T載體(TaKaRa生物技術(shù)有限公司)連接,轉(zhuǎn)化大腸桿菌感受態(tài)細(xì)胞Trans1-T1(Trans-Gen生物技術(shù)有限公司),篩選陽性克隆進(jìn)行基因測序。通過BRAD數(shù)據(jù)庫(http://brassicadb.org/brad/)對獲得的克隆序列進(jìn)行blast分析。
1.5 BnPPR_C09序列特征生物信息學(xué)分析
1.5.1 BnPPR_C09氨基酸序列特征與二級(jí)結(jié)構(gòu)預(yù)測
通過ANTHEPROT 6.2軟件分析BnPPR_C09蛋白序列,統(tǒng)計(jì)編碼蛋白的氨基酸殘基組分,分析編碼蛋白的等電點(diǎn)、信號(hào)肽序列和親疏水特征并使用Gariner模型進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測。
1.5.2 BnPPR_C09蛋白結(jié)構(gòu)域分析
使用在線工具M(jìn)otifsearch(http://www.genome.jp/tools/motif/)分析BnPPR_C09蛋白序列中的特殊結(jié)構(gòu)域。
1.6 甘藍(lán)型油菜中BnPPR_C09基因時(shí)空表達(dá)分析
仔細(xì)分析1.4.2中克隆獲得的BnPPR_C09序列并設(shè)計(jì)qRT-PCR引物,以actin作為內(nèi)參基因,用于BnPPR_C09的時(shí)空表達(dá)分析,每樣品重復(fù)3次。qRT-PCR在ABI 7500熒光定量PCR系統(tǒng)上運(yùn)行。PCR體系包含:1μL cDNA、10μL 2×Fast-Start Universal SYBR GreenMaster with ROX、10 μmol/L正向引物和反向引物各0.5μL、8μL ddH2O。PCR程序?yàn)椋?5℃10 min;95℃15 s,60℃15 s,72℃32 s,35個(gè)循環(huán)。反應(yīng)完成后進(jìn)行95℃20 s,60℃20 s,95℃20 s,59℃20 s以繪制融解曲線,檢測擴(kuò)增產(chǎn)物的正確性和引物二聚體。
2.1 甘藍(lán)型油菜PPR基因家族生物信息學(xué)分析
2.1.1 BnPPR蛋白家族篩選與鑒定
定義PPR家族種子序列(PF01535)的HMMER矩陣,應(yīng)用hmmsearch程序檢索甘藍(lán)型油菜預(yù)測蛋白庫,閾值定義為1e-10,共檢索得1205條序列,排除等閾值序列后共1099條候選序列,從油菜預(yù)測蛋白序列庫中提取出相應(yīng)序列備用于下游分析。
以擬南芥數(shù)據(jù)庫獲得的PPR-P、L、L2、E、E+、S、DYW 7種結(jié)構(gòu)域定義一個(gè)HMMER矩陣[18],使用hmmsearch重復(fù)檢索1099條候選序列,排除其中僅含1個(gè)PPR結(jié)構(gòu)域和超過27個(gè)PPR結(jié)構(gòu)域的樣本,共獲得1079條蛋白序列。通過相同矩陣,并經(jīng)由hmmscan程序檢索1079條BnPPR蛋白序列,分析各序列中PPR結(jié)構(gòu)域分布狀況,并據(jù)此分為兩個(gè)亞家族:P亞家族(PPR重復(fù)序列均為P結(jié)構(gòu))和PLS亞家族(PPR重復(fù)序列含有L,S結(jié)構(gòu)域)。PLS亞家族又根據(jù)PPR-E、E+、DYW 3種結(jié)構(gòu)域的分布分為PLS(不含E、E+、DYW結(jié)構(gòu)域),E(含有E結(jié)構(gòu)域),E+(含有E+結(jié)構(gòu)域),DYW(含有DYW結(jié)構(gòu)域)4個(gè)亞家族。分類統(tǒng)計(jì)結(jié)果如表1所示。
表1 藍(lán)型油菜BnPPR蛋白家族分類Table 1 Classification of BnPPR protein family
由表1可見,BnPPR蛋白以PLS亞家族類型居多,共734條序列,占全部BnPPR蛋白的68%,表明BnPPR蛋白非P型結(jié)構(gòu)域數(shù)目較多,分化程度較高。
甘藍(lán)型油菜含有1079條BnPPR蛋白,是目前已知多種陸生植物中PPR家族成員最多的,接近大豆PPR蛋白數(shù)量(629)的兩倍[19],這可能與甘藍(lán)型油菜近緣亞基因組的演化有直接關(guān)聯(lián)。甘藍(lán)型油菜A、C亞基因組間有大量基因多拷貝存在,可能是BnPPR蛋白數(shù)量遠(yuǎn)多于其他陸生植物的原因。通過結(jié)構(gòu)域掃描,從1079條BnPPR蛋白家族中共鑒定出9282個(gè)各類型的PPR結(jié)構(gòu)域,平均每個(gè)Bn-PPR蛋白含有10.2個(gè)PPR特征結(jié)構(gòu)域。
2.1.2 多序列比對與進(jìn)化樹構(gòu)建
將1079條預(yù)測蛋白序列通過clustalW比對,使用Fasttree軟件進(jìn)行進(jìn)化樹分析,輸出Newick tree格式文件,通過EvolView(http://www.evolgenius. info/evolview)進(jìn)行可視化作圖(圖1)。通過分析Fasttree構(gòu)建所得進(jìn)化樹文件中分枝值統(tǒng)計(jì)分析BnPPR各亞家族蛋白的進(jìn)化關(guān)系。
BnPPR蛋白家族進(jìn)化樹相對較離散,保守性較差,P亞家族與PLS亞家族之間處于不同進(jìn)化枝,兩亞家族內(nèi)均具有數(shù)目較多的離群序列,反應(yīng)了BnPPR蛋白家族的高度多態(tài)性。其中GSBRNA2T 00151759001(P亞家族)、GSBRNA2T00080809001(P亞家族)和GSBRNA2T00155318001(PLS亞家族)均單獨(dú)離散成一枝,但3條序列的PPR結(jié)構(gòu)域均具有較完整的保守序列,顯示其進(jìn)化樹中單獨(dú)離散的原因在于其非PPR結(jié)構(gòu)域。高度保守的PPR結(jié)構(gòu)域?yàn)殡[馬爾可夫模型準(zhǔn)確鑒定BnPPR蛋白提供了基礎(chǔ),聚類分析通過結(jié)合保守的PPR結(jié)構(gòu)域和構(gòu)成差異大的非PPR結(jié)構(gòu)域能更好地將BnPPR蛋白家族進(jìn)行聚類。
圖1 甘藍(lán)型油菜PPR蛋白家族進(jìn)化樹Fig.1 Evolutionary tree of BnPPR protein family
分析clustalW比對結(jié)果發(fā)現(xiàn),BnPPR家族蛋白的保守序列均集中于PPR結(jié)構(gòu)域,序列中非PPR結(jié)構(gòu)域的序列構(gòu)成差異很大,變異多,分化程度高,構(gòu)成了BnPPR蛋白家族多態(tài)性的基礎(chǔ)。Fasttree樹文件顯示,BnPPR蛋白家族的進(jìn)化樹節(jié)點(diǎn)豐富,各節(jié)點(diǎn)下分枝數(shù)目較多且差異較大,節(jié)點(diǎn)級(jí)數(shù)也較多,進(jìn)化樹分級(jí)次數(shù)多,充分反映了其序列構(gòu)成的復(fù)雜性,這種結(jié)構(gòu)復(fù)雜性可能是構(gòu)成BnPPR基因家族功能多態(tài)性的分子基礎(chǔ)。
2.1.3 BnPPR基因的染色體定位分析
通過鑒定獲得的BnPPR蛋白序列號(hào)提取對應(yīng)的BnPPR基因編碼序列(Coding sequences,CDS),通過blastn程序檢索本地甘藍(lán)型油菜基因組數(shù)據(jù)庫,將1079個(gè)BnPPR基因定位到A、C兩個(gè)亞基因組19條染色體上,如表2所示,共4個(gè)BnPPR基因無明確定位信息,其中GSBRNA2T00040899001定位于A亞基因組(ChrAnn),GSBRNA2T00027616001,GSBRNA2T0086969001和GSBRNA2T00027567001定位于C亞基因組(ChrCnn)。
由表2可見,甘藍(lán)型油菜A亞基因組含有556個(gè)BnPPR基因,C亞基因組含523個(gè)BnPPR基因,亞基因組間BnPPR基因總數(shù)大致相當(dāng),但C亞基因組中BnPPR基因密度明顯低于A亞基因組,密度最高的是A06號(hào)染色體,平均每百萬堿基含3.7個(gè)BnPPR基因,密度最低的是C02號(hào)染色體,每百萬堿基含0.7個(gè)BnPPR基因。
表2 甘藍(lán)型油菜BnPPR基因的染色體分布Table 2 Chromosome destribution of BnPPR genes
2.1.4 BnPPR蛋白亞細(xì)胞定位預(yù)測
通過Softberry網(wǎng)站(http://linux1.softberry. com/)在線工具ProtComp 9.0[13]和WoLF PSORT(http://www.genscript.com/wolf-psort.html)在線工具[16]對甘藍(lán)型油菜PPR蛋白進(jìn)行亞細(xì)胞定位預(yù)測,統(tǒng)計(jì)分析兩次亞細(xì)胞定位預(yù)測的結(jié)果。
通過兩種不同迭代算法的在線工具進(jìn)行了Bn-PPR各亞家族蛋白的亞細(xì)胞定位預(yù)測,結(jié)果如表3和表4。
表3 甘藍(lán)型油菜PPR蛋白亞細(xì)胞定位預(yù)測(ProtComp9.0)Table 3 Subcellular localization of BnPPR proteins(Prot Comp9.0)__________
表4 甘藍(lán)型油菜BnPPR蛋白亞細(xì)胞定位預(yù)測(W oLF PSORTT)Table 4 Subcellular localization of BnPPR proteins(W oLF PSORTT)____________
由表可見,兩種算法的預(yù)測結(jié)果總體上大致相當(dāng),定位于線粒體和葉綠體的BnPPR蛋白總數(shù)基本一致(800條左右)。經(jīng)仔細(xì)分析兩種預(yù)測結(jié)果發(fā)現(xiàn),定位于線粒體與葉綠體的全部序列是基本相同的,但分配比例有較大差異,基于ProComp9.0內(nèi)核的預(yù)測結(jié)果中線粒體定位序列較多,基于PSORT內(nèi)核的預(yù)測結(jié)果以葉綠體定位序列較多。各亞家族之間的亞細(xì)胞定位預(yù)測結(jié)果基本相似(定位于各亞細(xì)胞結(jié)構(gòu)中BnPPR蛋白的比例基本相當(dāng)),均以線粒體、葉綠體定位為主。
總體來看,兩種不同算法的亞細(xì)胞定位預(yù)測結(jié)果都顯示,超過75%的BnPPR蛋白定位于半自主細(xì)胞器,其次超過15%的序列定位于細(xì)胞質(zhì),極少數(shù)序列定位于細(xì)胞核或內(nèi)質(zhì)網(wǎng)等其它區(qū)域。以上結(jié)果充分顯示BnPPR蛋白盡管具有極高頻的分化,結(jié)構(gòu)上具有較高的復(fù)雜性,但仍具有典型的定位于半自主細(xì)胞器的特點(diǎn),與其他植物中PPR蛋白亞細(xì)胞定位一致。
2.1.5 PPR基因GO分析
通過blast2GO程序?qū)nPPR基因家族1079條CDS序列按亞家族分類進(jìn)行功能注釋,并對功能注釋結(jié)果進(jìn)行作圖分析。
使用NCBI庫為序列檢索庫,使用blastx分別對甘藍(lán)型油菜PPR-P、PLS、E、E+和DYW 5個(gè)亞家族CDS序列進(jìn)行“blasting”,使用nr數(shù)據(jù)庫,設(shè)定閾值為1e-5,完成blast后通過“Gene Ontology”進(jìn)行“mapping”,隨后進(jìn)行“annotation”,設(shè)定閾值1e-6,其它使用缺省值,最后對分子功能、生物過程與細(xì)胞組分三種不同GO注釋結(jié)果進(jìn)行統(tǒng)計(jì)分析(表5)。
表5 BnPPR基因家族GO注釋Table 5 GO annotation of BnPPR gene family
(續(xù)表5)
由表5可見,BnPPR基因家族功能注釋顯示BnPPR基因家族具有復(fù)雜的生物學(xué)功能,涉及到細(xì)胞組織調(diào)控、生長發(fā)育、繁殖、植物信號(hào)、植物免疫和參與細(xì)胞結(jié)構(gòu)組成等多個(gè)方面。BnPPR基因家族的生物過程GO注釋多態(tài)性最高,涉及單細(xì)胞、多細(xì)胞、單細(xì)胞器、多細(xì)胞器、免疫和細(xì)胞結(jié)構(gòu)的組織等不同方面的多個(gè)層次,各亞家族之間沒有明顯差異;細(xì)胞組分GO注釋相對而言比較粗放,僅注釋至細(xì)胞或細(xì)胞器層面,沒有進(jìn)一步的功能注釋,僅PLSE+亞家族GO注釋為線粒體與葉綠體組分,這與其亞細(xì)胞定位預(yù)測吻合。由于GO注釋是基于序列與數(shù)據(jù)庫的同源比對產(chǎn)生,這提示PLS-E+亞家族的細(xì)胞器定位序列可能位于PPR-E+結(jié)構(gòu)域區(qū)段或者與之共同出現(xiàn)的非PPR結(jié)構(gòu)域序列;分子功能GO注釋主要為催化活性與結(jié)合活性兩方面,在不同的亞家族之間沒有明顯差異。
2.2 候選育性基因BnPPR_C09 cDNA克隆
根據(jù)甘藍(lán)型油菜PPR基因的染色體定位與功能注釋,篩選GSBRNA2T00094406001為候選育性基因,根據(jù)其序列特征設(shè)計(jì)克隆引物。分別從不育系xy869和恢復(fù)系xy1109中擴(kuò)增出長度為2514 bp的cDNA片段,分別命名為BnPPR_C09b和BnPPR_C09a(圖2)。
圖2 BnPPR_C09 cDNA擴(kuò)增結(jié)果Fig.2 cDNA am ip lification of BnPPR_C09 gene
將克隆獲得的BnPPR_C09b和BnPPR_C09a連接TA克隆載體,送擎科生物測序,發(fā)現(xiàn)BnPPR_C09b在1695位出現(xiàn)3堿基替換,1725位出現(xiàn)單個(gè)T堿基缺失,造成后續(xù)序列移碼突變。
2.3 BnPPR_C09蛋白序列分析
BnPPR_C09b和BnPPR_C09a基因分別編碼長度599個(gè)和837個(gè)氨基酸殘基的蛋白,分別命名為BnPPR_C09b和BnPPR_C09a。分析這2個(gè)預(yù)測的BnPPR_C09蛋白的氨基酸組成、摩爾質(zhì)量和等電點(diǎn)于表6。
表6 BnPPR_C09蛋白信息匯總表Table 1 Summary of the deduced BnPPR_C09 proteins
分析顯示BnPPR_C09b由于1725位的缺失突變導(dǎo)致編碼蛋白提前終止,編碼產(chǎn)生的序列長度比BnPPR_C09a少238個(gè)氨基酸殘基。
通過ANTHEPROT 6.2軟件預(yù)測了BnPPR_C09a\b蛋白的信號(hào)肽剪切位置(圖3)和二級(jí)結(jié)構(gòu)。為方便比較蛋白結(jié)構(gòu)差異,將BnPPR_C09b基因1725位單堿基缺失突變后,在后續(xù)序列中間產(chǎn)生的終止密碼移除,由此翻譯一條預(yù)測蛋白命名為Bn-PPR_C09b1(圖4)。
圖3 BnPPR_C09蛋白信號(hào)肽預(yù)測Fig.3 Signal peptide prediction of BnPPR_C09 protein
由圖3可見,在BnPPR_C09a約700氨基酸位置存在一個(gè)可能的信號(hào)肽剪切位點(diǎn),而BnPPR_ C09b由于突變導(dǎo)致后續(xù)序列不能編碼,丟失該信號(hào)肽剪切位點(diǎn)。
圖4 BnPPR_C09蛋白二級(jí)結(jié)構(gòu)Fig.4 The secondary structure of BnPPR_C09 protein
由圖4可見,BnPPR_C09b1與BnPPR_C09a二級(jí)結(jié)構(gòu)差異在約550氨基酸之后大量出現(xiàn)。二級(jí)結(jié)構(gòu)差異可能會(huì)大幅影響蛋白的正確折疊,可以大膽推測BnPPR_C09a堿基移碼突變之后所翻譯的蛋白可能會(huì)因?yàn)榻Y(jié)構(gòu)變異而失去功能。
使用在線工具M(jìn)otifsearch(http://www.genome.jp/tools/motif/)對BnPPR_C09a\b蛋白存在的保守功能結(jié)構(gòu)域進(jìn)行預(yù)測,結(jié)果如圖5。
圖5 BnPPR_C09功能結(jié)構(gòu)域分析Fig.5 Functional domain analysis of BnPPR_C09
由圖5可見,BnPPR_C09b相較BnPPR_C09a所缺失的238個(gè)氨基酸殘基中包含了一個(gè)ATP13結(jié)構(gòu)和多個(gè)不同類型的PPR結(jié)構(gòu)元件。ATP13是線粒體ATP酶的組成亞基,其在線粒體結(jié)構(gòu)形成和功能發(fā)揮中均具有重要作用[20]。由此推測BnPPR_C09b蛋白翻譯提前終止造成N端序列缺失引起功能異常,造成1193A花粉敗育。
2.4 甘藍(lán)型油菜中BnPPR_C09基因時(shí)空表達(dá)分析
采用qRT-PCR法檢測BnPPR_C09基因(根據(jù)5′端設(shè)計(jì)引物,BnPPR_C09a/b通用引物對)在新疆野生油菜不育系(xy869和xy870)、恢復(fù)系(xy1108、xy1109和xy1110)的根、莖、葉、蕾1、2、3和花中相對表達(dá),結(jié)果如圖6。
圖6 BnPPR_C09表達(dá)分析Fig.6 Expression analysis of BnPPR_C09
總體來看,BnPPR_C09在不育系和恢復(fù)系各組織中均有表達(dá),在營養(yǎng)器官根、莖、葉中的表達(dá)低于在生殖器官花和花蕾中的表達(dá),其中在根中的表達(dá)量最低。不育系中BnPPR_C09在營養(yǎng)生長期有高于恢復(fù)系的表達(dá),而在幼嫩花蕾中表達(dá)量則低于恢復(fù)系,最后在花中表達(dá)量高于恢復(fù)系。不育系中BnPPR_C09表達(dá)相對較穩(wěn)定,而恢復(fù)系中則表現(xiàn)為隨著生殖生長過程的推進(jìn)表達(dá)量先上升后下降,在花蕾中表現(xiàn)為明顯的高表達(dá)。
新疆野生型油菜具有與傳統(tǒng)pol不育系不同的不育模式,其在姊妹系中能找到穩(wěn)定恢復(fù)源,表明其育性控制可能是單位點(diǎn)的等位基因控制。本研究發(fā)現(xiàn)候選育性基因BnPPR_C09在1193A與1193R中存在序列差異,不育系1193A中的BnPPR_C09在+1725位出現(xiàn)堿基缺失,導(dǎo)致蛋白翻譯提前終止,可能該位點(diǎn)突變即1193A育性變化的原因,但尚需要進(jìn)一步對BnPPR_C09在新疆野生油菜中的功能進(jìn)行驗(yàn)證。BnPPR_C09在不育系與恢復(fù)系中表現(xiàn)不同的表達(dá)模式,在恢復(fù)系中呈現(xiàn)誘導(dǎo)表達(dá),隨生育期進(jìn)程表現(xiàn)為先上升后下降的模式,不育系中則表達(dá)較穩(wěn)定且在營養(yǎng)器官中相對高表達(dá),這也顯示了正常的BnPPR_C09蛋白可能在生殖生長期間產(chǎn)生功能,因此在花蕾中出現(xiàn)誘導(dǎo)高表達(dá)的特性。
生物信息學(xué)作為分子育種的輔助手段具有高通量的優(yōu)勢,是一種重要的輔助育種手段,值得研究和推廣。本研究通過分子克隆獲得了兩條候選育性基因序列,是對新疆野生油菜育性研究的重要補(bǔ)充,但針對該基因在新疆野生油菜中的功能尚缺乏研究,需要進(jìn)一步在不育系中導(dǎo)入正確拷貝,在恢復(fù)基因中突變或敲出正確拷貝,來進(jìn)一步驗(yàn)證其功能。
[1] 尹明智.野油胞質(zhì)雄性不育系1193A的研究[D].長沙:湖南農(nóng)業(yè)大學(xué)博士學(xué)位論文,2014.
[2] Liu F,Cui XC,Horner HT,et al.Mitochondrial aldehyde dehydrogenase activity is required for male fertility in maize[J].Plant Cell,2001,13:1063-1078.
[3] Cui X,Wise RP,Schnable PS.The rf2 nuclear restorer gene ofmale-sterile T-cytoplasm maize[J].Science,1996,272:1334-1336.
[4] Fujii S,Toriyama K.Suppressed expression of RETROGRADE-REGULATED MALE STERILITY restores pollen fertility in cytoplasmic male sterile rice plants[J]. Proceedings of the National Academy of Sciences,2009,106(23):9513-9518.
[5] Itabashi E,Iwata N,F(xiàn)ujii S,et al.The fertility restorer gene,Rf2,for Lead Rice-type cytoplasmic male sterility of rice encodes a mitochondrial glycine-rich protein[J].The Plant Journal,2011,65(3):359-367.
[6] 何 鵬,陳海燕,俞嘉寧.PPR蛋白參與RNA編輯機(jī)制的研究進(jìn)展[J].西北植物學(xué)報(bào),2013,33(2):415-421.
[7] Wang Z,Zou Y,Li X,et al.Cytoplasmicmale sterility of rice with boro II cytoplasm is caused by a cytotoxic peptide and is restored by two related PPR motif genes via distinctmodes ofmRNA silencing[J].Plant Cell,2006,18(3):676-687.
[8] Lurin C,Andrés C,Aubourg S,et al.Genome-wide analysis of Arabidopsis pentatricopeptide repeat proteins reveals their essential role in organelle biogenesis[J].The Plant Cell,2004,16(8):2089-2103.
[9] Saha D,Prasad AM,Srinivasan R.Pentatricopeptide repeat proteins and their emerging roles in plants[J].Plant Physiology and Biochemistry,2007,45(8):521-534.
[10]Schmitz-Linneweber C,Small I.Pentatricopeptide repeat proteins:a socket set for organelle gene expression[J]. Trends in Plant Science,2008,13(12):663-670.
[11]Punta M,Coggill PC,Eberhardt RY,et al.The Pfam protein fam ilies database[J].Nucleic Acids Res,2012,40(1):290-301.
[12]Zhang H,Gao S,Lercher MJ,et al.EvolView,an online tool for visualizing,annotating and managing phylogenetic trees[J].Nucleic Acids Research,2012,40(1):569-572.
[13]Finn RD,Clements J,Eddy SR.HMMER web server:interactive sequence similarity searching[J].Nucleic Acids Res,2011,39(Web Server issue):29-37.
[14]Price MN,Dehal PS,Arkin AP.FastTree:computing large minimum evolution trees with profiles instead of a distancematrix[J].Molecular Biology and Evolution,2009,26(7):1641-1650.
[15]Hategan A,Tabus I.Protein is compressible[C].Proceedings of the 6th Nordic Signal Processing Symposium,NORSIG,2004.192-195.
[16]Horton P,Park KJ,Obayashi T,et al.WoLF PSORT:protein localization predictor[J].Nucleic Acids Research,2007,35(S2):W585-W587.
[17]Conesa A,G?tz S,García-Gómez JM,etal.Blast2GO:a universal tool for annotation,visualization and analysis in functional genomics research[J].Bioinformatics,2005,21(18):3674-3676.
[18]丁安明,李 凌,屈 旭,等.番茄PPR基因家族的鑒定與生物信息學(xué)分析[J].遺傳,2013,36(1):77-84.
[19]Fujii S,Small I.The evolution of RNA editing and pentatricopeptide repeat genes[J].New Phytologist,2011,191(1):37-47.
[20]Ackerman SH,Gatti DL,Gellefors P,et al.ATP13,a nuclear gene of Saccharomyces cerevisiae essential for the expression of subunit9 of themitochondrial ATPase[J]. FEBSLetters,1991,278(2):234-238.
Bioinformatics Analysis of PPR family in Brassica napus L.and Cloning of Candidate Restorer Gene of Xinjiang W ild Rapeseed
TAN Hui,GUAN Chunyun*
(College of Agronomy,Hunan Agricultural University/National Oil Crop Improvement Center in Hunan,Changsha,Hunan 410128,China)
In this study,1079 protein sequences of PPR family were obtained from the genome of Brassica napus by Hidden Markov model.Themotifs defined in the PPR family of Arabidopsis thaliana was used to classify them.The clustering,chromosome distribution,subcellular localization prediction,function Comments and so on were analyzed.Combining themolecularmarkers of the CMS line and the restorer line,the PPR gene GSBRNA2T00094406001(named BnPPR_C09)located on C09 chromosome was screened for the potential fertility regulation gene of Xinjiang wild rapeseed.A cDNA sequence with length of 2514 bp was cloned from the CMS line 1193A of Xinjiang wild rapeseed and the restorer line 1193R bymolecular cloning.Sequence analysis showed that the BnPPR_C09 gene(BnPPR_C09b)derived from 1193A had a single base deletion at+1725 bp compared with the BnPPR_C09a derived from 1193R,resulting in frameshiftmutations.The bioinformatics analysis about predicted protein showed that the frameshiftmutations caused term ination of the translation process at+1800 in the N-terminal of the BnPPR_C09b protein,and the subsequent deletion of a large number of functional components,themutationmay determine the fertility of Xinjiang wild rapeseed.
Xinjiang wild rapeseed;bioinformatics;fertility;gene clone
Q78
A
1001-5280(2017)03-0246-10 DO I:10.16848/j.cnki.issn.1001-5280.2017.03.08
2017- 03- 09
譚 暉(1992-),女,碩士研究生,Email:1132281904@qq.com。*通信作者,官春云,教授,中國工程院院士。
國家重點(diǎn)研發(fā)計(jì)劃(2016YFD010301);湖南省省長專項(xiàng)(湘財(cái)農(nóng)指2016114號(hào));湖南省科技計(jì)劃(2013FJ4025)。