王青青, 陸文康, 王 萍, 蔣 瀾, 吳 璇, 王 瑩, 章 勤, 丁恒武, 劉必融, 闞顯照
(安徽師范大學(xué) 生命科學(xué)學(xué)院 生物信息研究所, 蕪湖 241000)
5種鳥類FoxP2的分子進(jìn)化分析
王青青, 陸文康, 王 萍, 蔣 瀾, 吳 璇, 王 瑩, 章 勤, 丁恒武, 劉必融, 闞顯照
(安徽師范大學(xué) 生命科學(xué)學(xué)院 生物信息研究所, 蕪湖 241000)
FoxP2是第一個(gè)被發(fā)現(xiàn)的和人類言語(yǔ)相關(guān)的基因。該基因在鳥類中也存在,在發(fā)育、成長(zhǎng)、鳴曲學(xué)習(xí)等方面起著關(guān)鍵性作用。研究從NCBI和Ensembl中提取5種鳥類及相近物種FoxP2的序列,探討FoxP2的序列結(jié)構(gòu)特點(diǎn)和進(jìn)化速率。以人和小鼠為外類群,對(duì)5種鳥類和兩種爬行類進(jìn)行系統(tǒng)發(fā)育樹的構(gòu)建。采用最大簡(jiǎn)約法、最大似然法和貝葉斯法進(jìn)行分析,結(jié)果表明5種鳥類構(gòu)成很強(qiáng)的單系群。結(jié)果將為鳥類FoxP亞家族的進(jìn)化研究提供有用的信息。
FoxP2; 序列特征; 進(jìn)化速率; 系統(tǒng)發(fā)育
AbstractFoxP2 is the first gene involved in human speech. This gene also exists in birds and plays pivotal roles in development, adulthood, and avian vocal learning. The sequences ofFoxP2 in five avian species and their related species were retrieved from GenBank and Ensembl. The sequence characterization, evolutionary rate ofFoxP2 were analyzed. The phylogenetic analyses of five avian species and two reptile species, with two mammalian species as outgroup, were conducted. Using maximum parsimony (MP),maximum likelihood (ML), and Bayesian inference (BI) methods based on the nucleotide sequence ofFoxP2, the monophyly of five avian species was confirmed. Our results may provide useful information about the evolution of FoxP subfamily in birds.
KeywordsFoxP2; sequence characterization; evolutionary rate; phylogeny
FOX家族(Forkhead box family,叉頭框家族)是一類從低等真核生物、爬行類、鳥類到哺乳類都廣泛存在的轉(zhuǎn)錄因子,屬于“螺旋-轉(zhuǎn)角-螺旋”類蛋白的一個(gè)亞群。大量研究表明FOX蛋白在胚胎發(fā)育、細(xì)胞凋亡、細(xì)胞免疫、細(xì)胞代謝、細(xì)胞衰老等生物學(xué)過(guò)程中發(fā)揮作用[1-6]。FoxP2是人類發(fā)現(xiàn)的第一個(gè)言語(yǔ)相關(guān)基因,位于第7號(hào)染色體長(zhǎng)臂的31位點(diǎn),屬于FOX基因家族、FoxP亞家族。近年來(lái),人們對(duì)于FoxP2對(duì)鳴禽神經(jīng)回路發(fā)育和出生后的鳴唱學(xué)習(xí)進(jìn)行了一系列研究[7-11]。然而,關(guān)于FoxP2在鳥類中的分子進(jìn)化研究較少。本文選取了基因組注釋較完善的5種鳥類[12-16]作為研究對(duì)象,對(duì)其基因組結(jié)構(gòu)與特征、基因進(jìn)化速率、系統(tǒng)發(fā)育關(guān)系進(jìn)行分析,為鳥類FoxP亞家族的進(jìn)一步研究提供有用的信息。
FoxP2的序列來(lái)源于公共基因數(shù)據(jù)庫(kù)NCBI(www.ncbi.nlm.nih.gov)和國(guó)際基因組數(shù)據(jù)庫(kù)Ensembl (www.ensembl.org),見表1。本研究選取了基因組注釋較完善的5種鳥類作為研究對(duì)象,另選取兩種爬行類和兩種哺乳類進(jìn)行FoxP2的比較研究。物種拉丁名參照整合分類信息系統(tǒng)ITIS(Integrated Taxonomic Information System, www.itis.gov)。
表1 本研究物種的來(lái)源及FoxP2的GenBank登錄號(hào)
1.2.1 基因的結(jié)構(gòu)與特征分析
利用Genscan在線分析平臺(tái)(http://genes.mit.edu/GENSCAN.html)對(duì)從GenBank或Ensembl數(shù)據(jù)庫(kù)獲取的FoxP2序列進(jìn)行外顯子和內(nèi)含子分區(qū)。以家雞FoxP2的外顯子和內(nèi)含子序號(hào)為參照進(jìn)行基因區(qū)域的編號(hào)。使用BioEdit 7.1.3統(tǒng)計(jì)基因的堿基組成;堿基偏選使用的公式為:AT skew = (A-T)/(A+T), GC skew=(G-C)/(G+C)。
1.2.2 基因序列的比對(duì)及堿基替代模型的分析
通過(guò)MAFFT 7 在線分析平臺(tái)(mafft.cbrc.jp/alignment/software/)對(duì)核苷酸和氨基酸進(jìn)行序列比對(duì)。使用ModelGenerator V. 0.851軟件對(duì)核苷酸替代最適模型進(jìn)行分析,通過(guò)Bayesian Information Criterion(BIC)統(tǒng)計(jì)后估算。
1.2.3 基因進(jìn)化速率分析
本研究中,由于絕大多數(shù)基因區(qū)域?yàn)閮?nèi)含子,所以采用核苷酸多樣性指數(shù)(π值)來(lái)探討基因進(jìn)化速率的快慢。π值表示兩條核苷酸序列之間每位點(diǎn)發(fā)生變異的平均數(shù)。我們構(gòu)建了兩組數(shù)據(jù)用以分析:1)選取5種鳥類作為材料,探討FoxP2在鳥類內(nèi)部的核苷酸多樣性;2)選取5種鳥類和兩種爬行類動(dòng)物作為材料,探討FoxP2在鳥類、爬行類組合的核苷酸多樣性。編碼區(qū)及17種內(nèi)含子數(shù)據(jù)作為研究對(duì)象,采用DnaSP v5.10.01軟件。對(duì)于內(nèi)含子13,設(shè)置Sliding Window長(zhǎng)度為100 sites,Step size為25 sites;對(duì)于其他16個(gè)內(nèi)含子及編碼區(qū),Sliding Window長(zhǎng)度為300 sites。
1.2.4 系統(tǒng)發(fā)育樹的構(gòu)建
最大簡(jiǎn)約法 (MP) 分析,使用PAUP*4.0b10軟件。采用啟發(fā)式 (heuristic) 搜索最大簡(jiǎn)約樹 (MP),序列添加方式選用100次的隨機(jī)分類群重復(fù),樹等分與重連分支交換法 (TBR)獲取系統(tǒng)樹。自展法(bootstrap)重復(fù)檢驗(yàn)1000次,用以分析系統(tǒng)發(fā)育樹拓?fù)浣Y(jié)構(gòu)的可靠性。
最大似然法(ML)分析,使用RaxML GUI v.1.3.1軟件。核苷酸替代模型采用GTRCAT,ML + slow bootstrap,run 10次,通過(guò)1000次重復(fù)的自展法評(píng)估ML樹上分支的可靠性。
貝葉斯法(BI)分析,使用MrBayes 3.2.2軟件。對(duì)不同的基因區(qū)域,由于進(jìn)化速率不同,采取分段計(jì)算。核苷酸替代最適模型采用ModelGenerator V. 0.851分析的結(jié)果。4條馬爾科夫鏈 (Markov Chain Monte Carlo, MCMC) 共運(yùn)行10 000 000代,每100代抽樣一次。25%的樹被摒棄 (burnin), 剩下的75%的樹用來(lái)推測(cè)支持率大于50%的一致樹和后驗(yàn)概率 (Posterior probability, PP)。所有的馬爾科夫鏈運(yùn)算都重復(fù)2次,以確保得到可靠的后驗(yàn)概率。
5種鳥類FoxP2全長(zhǎng)的長(zhǎng)度從338 773 bp (火雞) 到 414 549 bp (白領(lǐng)姬鹟),見表2。17個(gè)內(nèi)含子中,內(nèi)含子1~4和內(nèi)含子17的序列較長(zhǎng),均在50 kb以上。從A+T百分含量看,編碼區(qū)明顯低于內(nèi)含子。以家雞為例,編碼區(qū)AT%為52.1,17個(gè)內(nèi)含子AT%范圍為56.0(內(nèi)含子6)到 69.8(內(nèi)含子13)。
我們對(duì)本研究9個(gè)物種FoxP2編碼區(qū)的核苷酸和其翻譯的氨基酸序列進(jìn)行了比對(duì),分別得到2229 bp(核苷酸)和795Aa(氨基酸)的序列矩陣。表3為本研究9個(gè)物種FoxP2編碼區(qū)氨基酸序列突變位點(diǎn)(不包括氨基酸的插入和缺失)。從表3可以看出,序列矩陣的383位的纈氨酸(V)為本研究中鳥類特有的氨基酸,42位的酪氨酸(T)、262位的天冬酰胺(N)、276位的絲氨酸(S)為本研究中鳥類、爬行類所共有的氨基酸。
表2 5種鳥類FoxP2的分區(qū)、長(zhǎng)度及AT含量
A:鳥類FoxP2區(qū)域的劃分是以原雞的外顯子和內(nèi)含子為參照,選擇與其相對(duì)應(yīng)的序列同源區(qū)域;編碼區(qū)的劃分是以ensembl數(shù)據(jù)庫(kù)相對(duì)應(yīng)的CDS數(shù)據(jù)為準(zhǔn)。b:全基因包括所有內(nèi)含子、編碼區(qū)、5′非翻譯區(qū)和3′非翻譯區(qū)
表3 9物種FoxP2編碼區(qū)氨基酸序列突變位點(diǎn)
Table 3 The mutation sites of amino acid sequences ofFoxP2 CDS in nine species
從堿基偏選看,所有的內(nèi)含子和編碼區(qū)顯示明顯的正AT skew值(圖1)。除白領(lǐng)姬鹟內(nèi)含子14外,其余的內(nèi)含子和編碼區(qū)均顯示明顯的負(fù)GC skew值(圖1)。白領(lǐng)姬鹟內(nèi)含子14共有3130 bp,從1399 bp位置開始,有696個(gè)G重復(fù)堿基,這是造成其GC skew正值的原因。
在5種鳥類內(nèi)部,內(nèi)含子13的π值最低,為0.015 83;編碼區(qū)的π值次之,為0.019 74;內(nèi)含子12最高,為0.237 3(圖2)。內(nèi)含子13的長(zhǎng)度在5種鳥類中高度保守,非常短,均為139 bp,且核苷酸多樣性低。說(shuō)明在5種鳥類中,內(nèi)含子13最為保守,內(nèi)含子12變異最大。
圖1 5種鳥類FoxP2的堿基偏選
在鳥類和爬行類組合中,編碼區(qū)的π值最低,為0.035 54,內(nèi)含子14次之(0.056 94)。內(nèi)含子13的π值為倒數(shù)第3(0.118 34)。內(nèi)含子1變異最大,π值為0.383 5;內(nèi)含子12次之(0.358 42)。
經(jīng)過(guò)Mafft軟件序列比對(duì),我們得到了用于系統(tǒng)發(fā)育分析的數(shù)據(jù)矩陣:1)CDS序列長(zhǎng)度為2229 bp;2)內(nèi)含子9序列長(zhǎng)度為1505 bp;3)內(nèi)含子11序列長(zhǎng)度為4893 bp;4)內(nèi)含子14為2321 bp;5)CDS和內(nèi)含子整合序列組長(zhǎng)度為10 948 bp。用Bayesian Information Criterion(BIC)法確定Foxp2的CDS序列和內(nèi)含子9的最佳模型為HKY+G,內(nèi)含子11為TVM+G,內(nèi)含子14為TrN+G。系統(tǒng)發(fā)育樹圖的枝長(zhǎng)和拓?fù)浣Y(jié)構(gòu)來(lái)自最大似然圖。人和小鼠作為外類群,其余物種作為內(nèi)類群。節(jié)點(diǎn)上的數(shù)字按順序分別表示MP、ML的bootstrap支持率及BI法的后驗(yàn)概率。用MP、ML和BI 3種方法對(duì)5種數(shù)據(jù)組進(jìn)行分析,均得到相同或相似的拓?fù)浣Y(jié)構(gòu)圖,不同之處是節(jié)點(diǎn)的支持率(或后驗(yàn)概率)及枝長(zhǎng)(圖3~7)。在所有的系統(tǒng)發(fā)育分析中,5種鳥類均構(gòu)成很強(qiáng)的單系群。
圖2 5種鳥類FoxP2的核苷酸多樣性
圖中黑色實(shí)心框表示FoxP2在5種鳥類中的核苷酸多樣性π值,紅色實(shí)心框表示其在鳥類和爬行類組合(共7個(gè)物種)中核苷酸多樣性π值在3個(gè)內(nèi)含子分別構(gòu)建的系統(tǒng)發(fā)育樹圖中(圖4~6),中華鱉和5種鳥類構(gòu)成姐妹群的拓?fù)浣Y(jié)構(gòu)相同,但支持率和后驗(yàn)概率不同。對(duì)于內(nèi)含子9,MP和ML的bootstrap值分別為54和53,BI后驗(yàn)概率為0.78;對(duì)于內(nèi)含子11,相對(duì)應(yīng)的MP、ML、BI的值分別為100、100和0.98;對(duì)于內(nèi)含子14,與之對(duì)應(yīng)的值分別為96、76和0.97。其他系統(tǒng)發(fā)育關(guān)系,3個(gè)內(nèi)含子用3種方法得出的結(jié)果非常相似。
圖3 基于FoxP2編碼序列構(gòu)建的系統(tǒng)發(fā)育樹
對(duì)于CDS和內(nèi)含子整合序列組得到的樹圖,所有節(jié)點(diǎn)的支持率和后驗(yàn)概率都非常高,MP、ML和BI的值分別為100、100和1.00(圖7)。
圖4 基于FoxP2的內(nèi)含子9序列構(gòu)建的系統(tǒng)發(fā)育樹
圖5 基于FoxP2的內(nèi)含子11序列構(gòu)建的系統(tǒng)發(fā)育樹
圖6 基于FoxP2的內(nèi)含子14序列構(gòu)建的系統(tǒng)發(fā)育樹
原雞[12]和火雞[13]的編碼區(qū)核苷酸序列有14個(gè)堿基替代,但氨基酸序列完全相同。鴨[14]和原雞的編碼核苷酸序列相比,有一個(gè)54 bp 的堿基插入,此外還有25個(gè)位點(diǎn)發(fā)生堿基替代,不過(guò),這25個(gè)位點(diǎn)的突變均是同義替代。和哺乳類、爬行類編碼區(qū)氨基酸序列相比,383位的異亮氨酸突變?yōu)槔i氨酸(V),5種鳥類共享這個(gè)突變位點(diǎn)。和人相比,Ser79Thr突變?yōu)樵u、火雞、鴨共有,這三者均屬于雞雁小綱;Asp80Glu突變?yōu)榘咝夭萑竅15]和白領(lǐng)姬鹟[16]共有,這二者屬于鳥類最大的目——雀形目。在本研究的5種鳥類中,雞雁小綱和雀形目為姐妹群關(guān)系。
圖7 基于FoxP2的編碼區(qū)和內(nèi)含子9、11、14序列構(gòu)建的系統(tǒng)發(fā)育樹
此外,內(nèi)含子在不同鳥類之間的序列變異較大。例如,火雞內(nèi)含子1長(zhǎng)度為54 563 bp,鴨內(nèi)含子1長(zhǎng)度比火雞約長(zhǎng)12.5 kb。在所有內(nèi)含子中,內(nèi)含子17的長(zhǎng)度最長(zhǎng),范圍從25 488 bp(鴨)到27 911 bp(原雞)。內(nèi)含子13長(zhǎng)度最小,5種鳥類均為139 bp。
在編碼區(qū)序列的系統(tǒng)發(fā)育分析中,有鱗目的北美綠蜥蜴[18]位于本研究?jī)?nèi)類群中的基部位置,中華鱉[17]和5種鳥類構(gòu)成姐妹群,但3種分析方法的支持率均很低(MP和ML的bootstrap值分別為49和44,BI后驗(yàn)概率為0.55),見圖3。5種鳥類聚成一支,獲得了較高的支持率(MP和ML的bootstrap值分別為97和99,BI后驗(yàn)概率為1.00)?;痣u和原雞聚成一支,和鴨構(gòu)成姐妹群,這樣雞形目和雁形目共同組成雞雁小綱,獲得較高的支持率(MP和ML的bootstrap值分別為96和97,BI后驗(yàn)概率為1.00)。此外,斑胸草雀和白領(lǐng)姬鹟互為姐妹群,聚成一支,見圖3。對(duì)于CDS和內(nèi)含子整合序列組得到的樹圖,能夠很好地反映物種進(jìn)化的歷史,這說(shuō)明FoxP2具有較強(qiáng)的系統(tǒng)發(fā)育意義,可以作為鳥類進(jìn)化研究理想的分子標(biāo)記。
[1]MORRIS G, FANUCCHI S. A key evolutionary mutation enhances DNA binding of the FOXP2 forkhead domain[J]. Biochemistry, 2016, 55(13): 1959-1967.
[2]MOZZI A, FORNI D, CLERICI M, et al. The evolutionary history of genes involved in spoken and written language: beyond FOXP2 [J]. Scientific reports, 2016, 6: 22157.
[3]ESTRUCH S B, GRAHAM S A, DERIZIOTIS P, et al. The language-related transcription factor FOXP2 is post-translationally modified with small ubiquitin-like modifiers [J]. Scientific Reports, 2016, 6: 20911.
[4]CESARIO J M, ALMAIDHAN A A, JEONG J. Expression of forkhead box transcription factor genesFoxp1 andFoxp2 during jaw development [J]. Gene Expr Patterns, 2016, 20(2): 111-119.
[5]CASTELLUCCI G A, MCGINLEY M J, MCCORMICK D A. Knockout of Foxp2 disrupts vocal development in mice [J]. Scientific Reports, 2016, 6: 23305.
[6]SIN C, LI H, CRAWFORD D A. Transcriptional regulation byFOXP1,FOXP2, andFOXP4 dimerization [J]. J Mol Neurosci, 2015, 55 (2): 437-448.
[7]MENDOZA E, TOKAREV K, DURING D N, et al. Differential coexpression ofFoxP1,FoxP2, andFoxP4 in the Zebra Finch (Taeniopygiaguttata) song system [J]. J Comp Neurol, 2015, 523(9):1318-1340.
[8]HESTON J B, WHITE S A. Behavior-linkedFoxP2 regulation enables zebra finch vocal learning [J]. J Neurosci, 2015, 35(7): 2885-2894.
[9]HARA E, PEREZ J M, WHITNEY O, et al. NeuralFoxP2 andFoxP1 expression in the budgerigar, an avian species with adult vocal learning [J]. Behav Brain Res, 2015, 283: 22-29.
[10]WOHLGEMUTH S, ADAM I, SCHARFF C. FoxP2 in songbirds [J]. Curr Opin Neurobiol, 2014, 28: 86-93.
[11]WHITE S A, FISHER S E, GESCHWIND D H et al. Singing mice, songbirds, and more: models for FOXP2 function and dysfunction in human speech and language [J]. J Neurosci, 2006, 26(41): 10376-10379.
[12]HILLIER L D W, MILLER W, BIRNEY E, et al. Sequence and comparative analysis of the chicken genome provide unique perspectives on vertebrate evolution [J]. Nature, 2004, 432(7018): 695-716.
[13]DALLOUL R A, LONG J A, ZIMIN A V, et al. Multi-platform next-generation sequencing of the domestic turkey (Meleagrisgallopavo): genome assembly and analysis [J]. PLoS Biol, 2010, 8(9): 1000475.
[14]HUANG Y, LI Y, BURT DW, et al. The duck genome and transcriptome provide insight into an avian influenza virus reservoir species [J]. Nature Genetics, 2013,45(7): 776-783.
[15]WARREN W C, CLAYTON D F, ELLEGREN H, et al. The genome of a songbird [J]. Nature, 2010, 464(7289): 757-762.
[16]ELLEGREN H, SMEDS L, BURRI R, et al. The genomic landscape of species divergence in Ficedula flycatchers [J]. Nature, 2012, 491(7426): 756-760.
[17]WANG Z, PASCUAL-ANAYA J, ZADISSA A, et al. The draft genomes of soft-shell turtle and green sea turtle yield insights into the development and evolution of the turtle-specific body plan [J]. Nature Genetics, 2013, 45(6): 701-706
[18]ALFOLDI J, DI PALMA F, GRABHERR M, et al. The genome of the green anole lizard and a comparative analysis with birds and mammals [J]. Nature, 2011, 477(7366): 587-591.
[19]MURAL R J, ADAMS MD, MYERS E W, et al. A comparison of whole-genome shotgun-derived mouse chromosome 16 and the human genome [J]. Science, 2002,296(5573):1661-1671
[20]STROUD J C, WU Y, BATES D L, et al. Structure of the forkhead domain of FOXP2 bound to DNA [J]. Structure. 2006, 14(1): 159-166.
Molecular evolution ofFoxP2infiveavianspecies
WANGQing-qing,LUWen-kang,WANGPing,JIANGLan,WUXuan,WANGYing,ZHANGQing,DINGHeng-wu,LIUBi-rong,KANXian-zhao
(The Institute of Bioinformatics, College of Life Sciences, Anhui Normal University, Wuhu 241000, China)
Q951.3;Q959.7
A
2095-1736(2017)05-0029-05
2016-08- 11;
2016-08-20
安徽高校自然科學(xué)研究重大項(xiàng)目(KJ2016SD22);安徽省高等教育振興計(jì)劃重大教學(xué)改革項(xiàng)目(2015zdjy035);安徽師范大學(xué)研究生教育教學(xué)改革研究重點(diǎn)項(xiàng)目(2015yjg017zd)
王青青,碩士研究生,研究方向?yàn)轼B類基因組學(xué),E-mail:wangqingqing@ahnu.edu.cn
闞顯照,教授,博士生導(dǎo)師,研究方向?yàn)閯?dòng)物分子系統(tǒng)與進(jìn)化,E-mail:xianzhao@ahnu.edu.cn
doi∶10.3969/j.issn.2095-1736.2017.05.029