趙琪張琪李浩玲蘭月鄢行安趙貴軍*戚文華*
(1重慶三峽學(xué)院生物與食品工程學(xué)院,重慶 404100)(2四川大學(xué)生命科學(xué)學(xué)院,成都 610064)(3重慶市藥物種植研究所,重慶 408435)
麝屬動(dòng)物(Moschusspp.)是鯨偶蹄目(Cetartiodactyla)反芻亞目(Ruminantia)麝科(Moschidae)中型哺乳動(dòng)物(Montgelardet al.,1997)。麝屬動(dòng)物雌雄分化明顯,始終保持較原始的特征,兼有原始型的鼷鹿科和進(jìn)化型的鹿科的特征。麂屬動(dòng)物(Muntiacusspp.)屬鹿科(Cervidae)麂亞科(Muntiacinae),主要分布于中國(guó)南部、南亞、東南亞(Ohtaishi and Gao,1990)。在我國(guó),林麝(Moschus berezovskii)數(shù)量較多,分布范圍廣,主要分布于陜西、四川、青海、寧夏等地的針闊混交林、闊葉林或次生灌林;原麝(Moschus moschiferus)主要分布在黑龍江、吉林、內(nèi)蒙古等地的針闊混交林(劉志霄和盛和林,2000)。最近,我國(guó)首次完成了林麝和原麝全基因組序列測(cè)序,并繪制了林麝和原麝全基因組圖譜(Fanet al.,2018;Yiet al.,2020)。研究表明,我國(guó)林麝和原麝種群遺傳多樣性低,有待進(jìn)一步加強(qiáng)種內(nèi)基因交流,防止近親繁 育(Fanet al.,2018;Yiet al.,2020)。小 麂(Muntiacus reevesi)在麂屬中體型最小,是我國(guó)特有的物種,主要分布于中國(guó)的亞熱帶地區(qū);赤麂(Muntiacus vaginalis)體型較大,也是我國(guó)重點(diǎn)保護(hù)野生動(dòng)物,主要分布于中國(guó)東南、華南、西南等南部地區(qū),在東南亞國(guó)家也有分布(Ohtaishi and Gao,1990)。這些麂屬動(dòng)物具有多變的染色體數(shù)目和核型,是由鹿科祖先染色體反復(fù)串聯(lián)融合而導(dǎo)致,但其分子機(jī)制尚不清楚(Yinet al.,2021)。隨著馬鹿(Cervus elaphus)基因組測(cè)序的完成,Bana等(2018)從馬鹿全基因組水平探索其與其他鹿科動(dòng)物的系統(tǒng)進(jìn)化關(guān)系。
微衛(wèi)星(Microsatellite),又稱簡(jiǎn)單重復(fù)序列(Simple sequences repeats,SSRs),廣泛存在于真核生物中,也存在于原核生物和細(xì)菌的基因組中,多數(shù)分布于非編碼區(qū),少數(shù)分布于編碼區(qū)(戚文華等,2013)。SSRs具有高重復(fù)性、高多態(tài)性,參與染色體組成、蛋白質(zhì)功能、基因轉(zhuǎn)錄、表達(dá)與調(diào)控等過(guò)程。此外,SSRs與動(dòng)物疾病的發(fā)生發(fā)展密切聯(lián)系,如三核苷酸SSRs與人類疾病密切相關(guān)(王希恒等,2016)。麝科和鹿科動(dòng)物具有重要的經(jīng)濟(jì)價(jià)值,目前關(guān)于林麝全基因組以及外顯子區(qū)和基因間隔區(qū)SSR分布規(guī)律已有相關(guān)的研究(盧婷等,2017;Qiet al.,2020),原麝、小麂、赤麂和馬鹿全基因組以及編碼區(qū)SSR分布規(guī)律尚未有相關(guān)報(bào)道。因此,本文以林麝、原麝、小麂、赤麂和馬鹿為代表物種,利用生物信息學(xué)方法提取其基因組中的編碼區(qū)序列,從基因組水平分析編碼區(qū)SSR分布規(guī)律,比較其編碼區(qū)SSR分布規(guī)律的相似性和差異性,并對(duì)林麝及其近緣物種的CDS區(qū)SSR序列進(jìn)行GO富集分析和KEGG通路分析,旨在從基因組水平探索林麝及其近緣物種的進(jìn)化關(guān)系及進(jìn)化特征,揭示富含微衛(wèi)星序列的基因功能及其富集的信號(hào)通路,并探索含SSR序列的關(guān)鍵免疫基因與疾病的關(guān)聯(lián)性。
林麝基因組序列和注釋文件由本實(shí)驗(yàn)室提供,原麝、馬鹿、赤麂、小麂基因組序列從Ensembl Genome Browser數(shù)據(jù)庫(kù)(https://grch37.ensembl.org)下載,均以FASTA格式保存。使用Perl和R語(yǔ)言編程從林麝、原麝、小麂、赤麂和馬鹿基因組中提取CDSs序列,以FASTA格式保存。
1.2.1 微衛(wèi)星識(shí)別與鑒定
利用MSDBv2.4(Microsatellite search and building database)(Duet al.,2013)和Krait(Duet al.,2017)軟件對(duì)林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)中完整型微衛(wèi)星序列進(jìn)行識(shí)別和鑒定,并分析其特征。搜索和統(tǒng)計(jì)標(biāo)準(zhǔn)為單核苷酸(Mononucleotide,Mono-)重復(fù)至少12次,二核苷酸(Dinucleotide,Di-)重復(fù)至少7次,三核苷酸(Trinucleotide,Tri-)重復(fù)至少5次,四核苷酸(Tetranucleotide,Tetra-)、五核苷酸(Pentanucleotide,Penta-)、六核苷酸(Hexanucleotide,Hexa-)重復(fù)至少4次;重復(fù)序列兩端的側(cè)翼序列為200 bp;因?yàn)?個(gè)氨基酸由3個(gè)堿基翻譯而來(lái),所以我們將三核苷酸和六核苷酸稱為三倍體核苷酸,單核苷酸、二核苷酸、四核苷酸、五核苷酸稱為非三倍體核苷酸。其他統(tǒng)計(jì)標(biāo)準(zhǔn)及SSRs序列統(tǒng)計(jì)術(shù)語(yǔ)參考相關(guān)報(bào)道(戚文華等,2013;蔣雪梅等,2015)。
1.2.2 GO功能富集分析
將林麝及其近緣物種編碼區(qū)含有SSR的基因進(jìn)行序列提取,保存為FASTA格式,并對(duì)這些序列進(jìn)行同源性分析。使用TBtools(Chenet al.,2020)將含有SSR的基因與Swissprot蛋白質(zhì)庫(kù)進(jìn)行比對(duì),設(shè)置E-value<1E-5,其比對(duì)結(jié)果利用TBtools進(jìn)行GO功能注釋。按照分子功能(Molecular function,MF)、細(xì)胞組成(Cellular component,CC)和生物學(xué)過(guò)程(Biological process,BP)進(jìn)行GO功能富集分析。
1.2.3 KEGG通路分析
以分配到KEGG通路所有哺乳動(dòng)物基因?yàn)楸尘?,使用KAAS(Yukiet al.,2007)進(jìn)行KEGG注釋,得到的ko文件再使用TBtools進(jìn)行KEGG通路富集分析。將富集統(tǒng)計(jì)的P值進(jìn)行Bonferroni校正,以矯正后P值為標(biāo)準(zhǔn),當(dāng)P<0.05時(shí)認(rèn)定此KEGG通路為顯著富集,并具有統(tǒng)計(jì)學(xué)意義。從而將含有SSR的基因與相關(guān)通路關(guān)聯(lián)在一起,探討含SSR的基因參與的相關(guān)生物功能過(guò)程。
在林麝編碼區(qū)共計(jì)識(shí)別和鑒定24 352個(gè)基因,其中有1 696個(gè)基因包含完整型SSR序列,最多一個(gè)基因含有72個(gè)SSR位點(diǎn),大多數(shù)基因包含1個(gè)SSR位點(diǎn)(1 327個(gè),78.24%),較少基因包含2個(gè)及以上SSR位點(diǎn)(369個(gè),21.76%)。在原麝編碼區(qū)識(shí)別和鑒定的29 305個(gè)基因中,有2 389個(gè)基因包含完整型SSR序列,其中最多一個(gè)基因含有11個(gè)SSR位點(diǎn),大多數(shù)基因包含1個(gè)SSR位點(diǎn)(1 924個(gè),80.54%),較少基因包含2個(gè)及以上SSR位點(diǎn)(465個(gè),19.46%)。在小麂編碼區(qū)識(shí)別和鑒定的26 044個(gè)基因中,有1 916個(gè)基因包含完整型SSR序列,其中最多一個(gè)基因含有14個(gè)SSR位點(diǎn),大多數(shù)基因包含1個(gè)SSR位點(diǎn)(1 510個(gè),78.81%),較少基因包含2個(gè)及以上SSR位點(diǎn)(406個(gè),21.19%)。在赤麂編碼區(qū)識(shí)別和鑒定的25 737個(gè)基因中,有1 924個(gè)基因包含完整型SSR序列,其中最多一個(gè)基因含有26個(gè)SSR位點(diǎn),大多數(shù)基因包含1個(gè)SSR位點(diǎn)(1 545個(gè),80.30%),較少基因包含2個(gè)及以上SSR位點(diǎn)(379個(gè),19.70%)。在馬鹿編碼區(qū)共計(jì)識(shí)別和鑒定的28 103個(gè)基因中,有3 005個(gè)基因包含完整型SSR序列,其中最多一個(gè)基因含有9個(gè)SSR位點(diǎn),大多數(shù)基因包含1個(gè)SSR位點(diǎn)(2 478個(gè),82.46%),較少基因包含2個(gè)及以上SSR位點(diǎn)(527個(gè),17.54%)(表1)。林麝編碼區(qū)序列數(shù)量、SSR序列的數(shù)量和長(zhǎng)度、豐度和密度與其近緣物種有一定差異(P<0.05,ttest),而五者GC含量和SSR序列占編碼區(qū)基因組長(zhǎng)度的比例基本一致。
表1 林麝及其近緣物種編碼區(qū)基因概況Table 1 Overview of the CDS of Moschus berezovskii and its closely related species
林麝和原麝編碼區(qū)完整型SSR豐度分布模式基本一致,均是三核苷酸SSR最多(93.47%vs.91.34%),其 次 是 六 核 苷 酸SSR(3.38%vs.3.53%),較少的均是單核苷酸(1.02%vs.1.80%)、二核苷酸(0.63%vs.1.96%)、四核苷酸(0.79%vs.0.96%)、五核苷酸(0.71%vs.0.41%)。小麂、赤麂和馬鹿編碼區(qū)完整型SSR豐度分布模式基本一致,均是三核苷酸SSR最多(63.46%vs.62.14%vs.85.55%),其次是二核苷酸(19.25%vs.18.82%vs.3.03%),較少的均是單核苷酸(11.48%vs.12.84%vs.6.60%)、四核苷酸(3.28%vs.3.30%vs.1.96%)、五核苷酸(0.54%vs.0.81%vs.0.37%)、六核苷酸(1.99%vs.2.09%vs.2.09%)。由此可見(jiàn),林麝、原麝、小麂、赤麂和馬鹿的三倍體核苷酸SSRs(三核苷酸和六核苷酸SSRs)占比最高,分別為96.85%、94.87%、65.44%、64.23%和88.04%,非三倍體核苷酸SSRs(單核苷酸、二核苷酸、四核苷酸和五核苷酸SSRs)占比分別為3.15%、5.13%、34.56%、5.77%和11.96%(圖1)。
圖1 林麝及其近緣物種蛋白質(zhì)編碼區(qū)不同重復(fù)拷貝類別SSRs豐度比較Fig.1 Comparison of SSR frequency of different repeat types in the CDS regions of the Moschus berezovskii and its closely related species
在林麝及其近緣物種CDS區(qū),不同重復(fù)類型SSR序列GC含量的分布模式有所差別。林麝的GC含量的分布模式為三核苷酸SSRs(73.45%)>五核苷酸SSRs(72.39%)>六核苷酸SSRs(69.47%)>四核苷酸SSRs(72.31%)>二核苷酸SSRs(51.83%)>單核苷酸SSRs(38.95%)。原麝的GC含量的分布模式為六核苷酸SSRs(81.53%)>三核苷酸SSRs(75.97%)>四核苷酸SSRs(72.00%)>五核苷酸SSRs(63.70%)>二核苷酸SSRs(52.21%)>單核苷酸SSRs(6.66%)。小麂與赤麂的GC含量的分布模式相同,均為六核苷酸SSRs(79.50%vs.76.61%)>三核苷酸SSRs(73.44%vs.72.51%)>五 核 苷 酸SSRs(53.11%vs.54.95%)>二核苷酸SSRs(48.59%vs.48.72%)>四核苷酸SSRs(47.18%vs.46.10%)>單核苷酸SSRs(26.41%vs.33.76%)。馬鹿的GC含量的分布模式為六核苷酸SSRs(77.54%)>五核苷酸SSRs(74.24%)>三核苷酸SSRs(72.94%)>四核 苷 酸SSRs(63.06%)>二 核 苷 酸SSRs(52.66%)>單核苷酸SSRs(41.50%)。由此可知,在林麝及其近緣物種的CDS區(qū),SSR序列的豐度在三核苷酸SSR序列趨于最高,林麝的GC含量在三核苷酸SSR序列趨于最高,而原麝、小麂、赤麂和馬鹿的GC含量均在六核苷酸SSR序列趨于最高。
在林麝及其近緣物種CDS區(qū),單核苷酸至六核苷酸SSR序列重復(fù)拷貝類別的豐度有明顯差異(圖2,圖3)。在單核苷酸SSR重復(fù)拷貝類別中,A重復(fù)類別的豐度稍高于C重復(fù)類別的豐度;在二核苷酸SSR中,AC重復(fù)類別的豐度最高,林麝、原麝和馬鹿AT的重復(fù)類別的豐度最少,而小麂和赤麂CG重復(fù)類別的豐度最少。在三核苷酸SSR中,CCG重復(fù)類別的豐度最高,AAC重復(fù)類別的豐度最少;在四核苷酸SSR中,林麝、原麝和馬鹿豐度差異不大,赤麂和小麂CCCG重復(fù)類別的豐度為0(圖2,圖3)??傮w上,在CDS區(qū),林麝大部分重復(fù)拷貝類別的豐度高于其近緣物種,并且林麝和原麝的重復(fù)類別豐度更為相似,小麂、赤麂、馬鹿的重復(fù)類別豐度更為相似。
圖2 林麝和原麝蛋白質(zhì)編碼區(qū)不同重復(fù)拷貝類別SSRs豐度比較Fig.2 Comparison of SSR frequency of different repeat category in the CDS regions of the Moschus berezovskii and Moschus moschiferus
圖3 馬鹿、赤麂和小麂蛋白質(zhì)編碼區(qū)不同重復(fù)拷貝類別SSRs豐度比較Fig.3 Comparison of SSR frequency of different repeat category in the CDS regions of the Cervus elaphus,Muntiacus vaginalis and Muntiacus reeves
2.4.1 GO注釋和富集分析
GO富集分析表明,林麝、原麝、小麂、赤麂和馬鹿大部分GO功能主要集中在生物學(xué)過(guò)程,分別 為85.94%、83.52%、82.52%、83.91%和82.32%。具體如下:林麝GO功能富集結(jié)果共634條,其中涉及分子功能的有48條(占7.58%),主要涉及細(xì)胞核不同結(jié)構(gòu)的結(jié)合、DNA結(jié)合和DNA結(jié)合轉(zhuǎn)錄激活因子活性等;涉及細(xì)胞組成的有42條(占6.64%),主要有具膜細(xì)胞器、染色質(zhì)和染色體、轉(zhuǎn)錄調(diào)節(jié)復(fù)合物等;涉及生物學(xué)過(guò)程的有544條(占85.94%),主要包括生長(zhǎng)發(fā)育、各種細(xì)胞的分化、代謝過(guò)程的調(diào)控和正負(fù)反饋調(diào)節(jié)等。原麝GO功能富集結(jié)果共634條,其中涉及分子功能的有170條(占9.87%),涉及細(xì)胞組成的有114條(占6.62%),涉及生物學(xué)過(guò)程的有544條(占83.52%)。小麂GO功能富集結(jié)果共727條,其中涉及分子功能的有64條(占8.80%),涉及細(xì)胞組成的有53條(占7.29%),涉及生物學(xué)過(guò)程的有610條(占83.91%)。赤麂GO功能富集結(jié)果共758條,其中涉及分子功能的有73條(占9.63%),涉及細(xì)胞組成的有61條(占8.05%),涉及生物學(xué)過(guò)程的有624條(占82.32%)。馬鹿GO功能富集結(jié)果共2 054條,其中涉及分子功能的有189條(占9.20%),涉及細(xì)胞組成的有170條(占8.28%),涉及生物學(xué)過(guò)程的有1 695條(占82.52%)。各類編碼區(qū)SSR序列的主要功能與林麝的相似,GO條目的顯著性有微小的差別。
通過(guò)林麝及其近緣物種蛋白質(zhì)編碼區(qū)SSR序列進(jìn)行功能分析表明,在分子功能方面,林麝與原麝最顯著富集的轉(zhuǎn)錄調(diào)控區(qū)序列特異性DNA結(jié)合(Transcription regulatory region sequence-specific DNA binding)、順式調(diào)控區(qū)序列特異性DNA結(jié)合(Cis-regulatory region sequence-specific DNA binding)、調(diào)控區(qū)核酸結(jié)合(Regulatory region nucleic acid binding)等30個(gè)GO功能條目具有高度一致性,而這些功能條目在小麂、赤麂和馬鹿中僅有轉(zhuǎn)錄調(diào)控區(qū)序列特異性DNA結(jié)合、調(diào)控區(qū)核酸結(jié)合、分子功能監(jiān)管機(jī)制(Molecular function regulator)不顯著;與林麝、原麝相比較,小麂、赤麂和馬鹿在這30個(gè)最顯著富集GO功能條目中更具相似性。
在細(xì)胞組成方面,林麝與原麝最顯著富集的30個(gè)GO功能條目中僅在Viral outer capsid(GO:0039624)不顯著,其余29個(gè)顯著富集的GO功能條目完全一致;與林麝、原麝相比較,小麂、赤麂和馬鹿在核染色體(Nuclear chromosome)、生長(zhǎng)錐(Growth cone)、樹突細(xì)胞質(zhì)(Dendrite cytoplasm)、樹突(Dendritic spine)、多線染色體(Polytene chromosome)和神經(jīng)元棘(Neuron spine)GO功能條目中不顯著,其余23個(gè)顯著富集的GO功能條目高度一致。
在生物學(xué)過(guò)程中,林麝與原麝最顯著富集的氮化合物代謝過(guò)程的正調(diào)控(Positive regulation of nitrogen compound metabolic process)、RNA生 物合成過(guò)程的正調(diào)控(Positive regulation of RNA biosynthetic process)、RNA生物合成過(guò)程的負(fù)調(diào)控(Negative regulation of RNA biosynthetic process)等30個(gè)GO功能條目在原麝中均顯著富集;與林麝、原麝相比較,小麂、赤麂和馬鹿在這30個(gè)顯著富集的GO功能條目高度一致,但有細(xì)微差別(表2)。由此可見(jiàn),林麝與原麝更具親緣關(guān)系,小麂、赤麂和馬鹿親緣關(guān)系更近,這與生物學(xué)分類相符。
表2 林麝及其近緣物種蛋白質(zhì)編碼區(qū)SSR序列的生物學(xué)過(guò)程的功能富集(top 30)Table 2 The most significantly enriched biological process GO terms of coding SSRs of Moschus berezovskii and its closely related species(top 30)
續(xù)表2 Continued from table 2
2.4.2 KEGG富集分析
KEGG富集分析表明,林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)SSR序列富集到43個(gè)KEGG通路上,這些通路被分成5大類:遺傳信息調(diào)控(Genetic information processing)、環(huán)境信息調(diào)控(Environmental information processing)、機(jī)體系統(tǒng)(Organismal systems)、新陳代謝(Metabolism)和疾病(Diseases)。在遺傳信息調(diào)控通路中,這5種動(dòng)物編碼區(qū)SSR序列共同顯著富集的通路是遺傳信息調(diào)控蛋白家族(Protein families:genetic information processing)、轉(zhuǎn)錄因子(Transcription factors)、染色體及相關(guān)蛋白(Chromosome and associated proteins)、剪接體(Spliceosome)和轉(zhuǎn)錄機(jī)制(Transcription machinery)。在環(huán)境信息通路中,這5種動(dòng)物編碼區(qū)SSR序列共同顯著富集的通路僅有Notch信號(hào)通路(Notch signaling pathway)。在新陳代謝中,這5種動(dòng)物編碼區(qū)SSR序列沒(méi)有共同顯著富集的通路,林麝、原麝、小麂和馬鹿共同顯著富集的通路是促性腺激素通路(GnRH secretion),而在赤麂中不顯著;在林麝、原麝、赤麂和馬鹿編碼區(qū)SSR序列共同顯著富集的通路是賴氨酸降解通路(Lysine degradation),而在小麂中不顯著;在原麝和小麂編碼區(qū)SSR序列中共同顯著富集的通路是甲狀旁腺激素的合成、分泌和作用通路(Parathyroid hormone synthesis,secretion and action),但在林麝、赤麂和馬鹿中不顯著;在小麂和馬鹿編碼區(qū)SSR序列顯著富集的通路是皮質(zhì)醇的合成和分泌通路(Cortisol synthesis and secretion),在林麝、原麝和赤麂中不顯著;在小麂和馬鹿編碼區(qū)SSR序列顯著富集的通路是胰島素分泌通路(Insulin secretion),但在林麝、原麝和赤麂中不顯著。在機(jī)體系統(tǒng)通路中,原麝和馬鹿編碼區(qū)SSR序列顯著富集的通路是細(xì)胞粘連通路(Cell adherens junction),而在林麝、小麂和赤麂中不顯著。在疾病通路中,這5種動(dòng)物編碼區(qū)SSR序列共同顯著富集的通路是成體糖尿病(Maturity onset diabetes of the young)(表3)。由此可見(jiàn),林麝及其近緣物種蛋白質(zhì)編碼區(qū)SSR序列具有共同顯著富集的KEGG通路,通過(guò)進(jìn)一步比較發(fā)現(xiàn),林麝與原麝的編碼區(qū)SSR序列共有顯著富集的KEGG通路較多,小麂和赤麂的也較多,但馬鹿的編碼區(qū)SSR序列顯著富集的KEGG通路與其他4種動(dòng)物相比差別較大,這與生物學(xué)分類相符合。
表3 林麝及其近緣物種編碼區(qū)SSR序列的KEGG通路富集(top 30)Table 3 The most significantly enriched KEGG pathway of coding SSRs of Moschus berezovskii and its closely related species(top 30)
通過(guò)對(duì)林麝編碼區(qū)含SSR關(guān)鍵免疫基因及其相關(guān)聯(lián)的KEGG通路進(jìn)行分析,發(fā)現(xiàn)有10個(gè)含微衛(wèi)星序列的關(guān)鍵免疫基因?qū)?yīng)的KEGG通路與疾病密切相關(guān)。其中CEBPB、ZEB1和Bcl2基因參與癌癥中的轉(zhuǎn)錄失調(diào)通路(Transcriptional misregulation in cancer,map05202),ZEB1、Bcl2、HDAC5和Notch4基因參與癌癥中的miRNA通路(MicroRNAs in cancer,map05206),Bcl2、JAG2和NOTCH4基因參與癌癥通路(Pathways in cancer,map05200)。在這10個(gè)基因中,Bcl2基因關(guān)聯(lián)的疾病相關(guān)通路較多,包括多重神經(jīng)退行性疾病通路(Map05022)、癌癥中的轉(zhuǎn)錄誤調(diào)節(jié)(Map05202)、結(jié)直腸癌(Map05210)、胰腺癌(Map05212)、小細(xì)胞肺癌(Map05222)、前 列 腺 癌(Map05215)、胃 癌(Map05226)和慢性骨髓白血病(Map05220)等通路(表4)。由分析推測(cè),免疫基因中SSR的重復(fù)類型和重復(fù)次數(shù)與免疫疾病密切相關(guān),這可能由于SSR重復(fù)次數(shù)的增加或縮減導(dǎo)致原表達(dá)蛋白質(zhì)的功能喪失,從而產(chǎn)生相應(yīng)疾病。
表4 林麝關(guān)鍵免疫基因所含SSR類型及其KEGG通路Table 4 SSR types of key immune genes in Moschus berezovskii and their KEGG pathways
本研究利用生物信息學(xué)方法測(cè)定和統(tǒng)計(jì)了林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)SSR序列的特征,并對(duì)CDS區(qū)的SSR序列的功能進(jìn)行了系統(tǒng)分析。林麝、原麝、馬鹿、小麂和赤麂編碼區(qū)含SSR序列的基因數(shù)量分別是2 588個(gè)、5 772個(gè)、3 821個(gè)、9 397個(gè)和6 590個(gè),其SSR序列所占的比例基本一致,分別為0.15%、0.12%、0.10%、0.12%和0.11%。林麝、原麝、小麂、赤麂和馬鹿編碼區(qū)均以三倍體核苷酸SSRs最多,分別為96.85%、94.87%、65.44%、64.23%和88.04%,這與大熊貓(Ailuropoda melanoleuca)、北極熊(Ursus maritimus)(李午佼等,2014)、牛、綿羊(戚文華等,2013)、肩突硬蜱(Ixodes scapularis)(汪自立等,2013)、人類(Subramanianet al.,2003;O’Dushlaineet al.,2005)等物種編碼區(qū)中SSR序列研究基本一致。林麝編碼區(qū)SSRs的分布特征與盧婷等(2017)的研究基本一致。在三倍體核苷酸SSRs中,最多的是三核苷酸SSRs,重復(fù)拷貝類別多為AAC、ACC、ACG、AGC、AGG和CCG等,有利于RNA的轉(zhuǎn)錄和翻譯,可能與防止移碼突變的發(fā)生有關(guān);六核苷酸SSRs數(shù)量較少,可能是由于微衛(wèi)星長(zhǎng)度越長(zhǎng)越不穩(wěn)定,容易發(fā)生變異,承受較大的選擇壓力;而非三倍體核苷酸(即單核苷酸、二核苷酸、四核苷酸、五核苷酸)SSRs極少,非三倍體核苷酸SSRs可能受到強(qiáng)烈的選擇壓力,與已有研究認(rèn)為的編碼區(qū)非三倍體核苷酸SSRs對(duì)移碼突變的選擇壓力影響較大相符(Metzgar and Wills,2000)。在CDS區(qū),林麝大部分重復(fù)拷貝類別的豐度高于其近緣物種,并且林麝和原麝的重復(fù)類別豐度更為相似,小麂、赤麂和馬鹿的重復(fù)類別豐度更為相似,由此可見(jiàn)林麝和原麝同屬麝科,小麂、赤麂和馬鹿同屬鹿科,具有一定的親緣性,但是不同物種在長(zhǎng)期環(huán)境變化的適應(yīng)中,遺傳物質(zhì)也發(fā)生了演化,逐漸產(chǎn)生差異。
隨著微衛(wèi)星研究的深入,發(fā)現(xiàn)微衛(wèi)星序列與蛋白質(zhì)的表達(dá)、功能以及疾病的發(fā)生有一定的關(guān)聯(lián)。微衛(wèi)星可作為染色質(zhì)折疊的密碼。由于核苷酸的差異,不同DNA序列形成的二級(jí)結(jié)構(gòu)形狀會(huì)有差異,一定條件下的GC/CG與甲基化的胞嘧啶及二核苷酸重復(fù)的CA/GT易形成Z-DNA結(jié)構(gòu),執(zhí)行重要的功能,如結(jié)構(gòu)基因的啟動(dòng)子和重組熱點(diǎn)均富含ZDNA結(jié)構(gòu)(楊述林等,2003)。為研究林麝、原麝、小麂、赤麂和馬鹿5個(gè)物種的編碼區(qū)SSR序列的功能相似性,對(duì)其進(jìn)行了GO功能富集分析和KEGG富集分析,結(jié)果表明編碼區(qū)SSR序列在林麝及其近緣物種遺傳效應(yīng)上均具有重要的作用:在GO功能中顯著富集的均與核系統(tǒng)、遺傳物質(zhì)的成分與進(jìn)程、機(jī)體系統(tǒng)的結(jié)構(gòu)與功能密切相關(guān);KEGG通路富集分析表明,在遺傳信息調(diào)控通路得到的通路共同顯著富集的最多,有遺傳信息調(diào)控蛋白家族、轉(zhuǎn)錄因子、染色體及相關(guān)蛋白、剪接體和轉(zhuǎn)錄機(jī)制,發(fā)現(xiàn)編碼區(qū)SSR序列在遺傳信息調(diào)控方面發(fā)揮重要的作用,可能是由于微衛(wèi)星序列可以產(chǎn)生多樣化的蛋白質(zhì)功能,影響相應(yīng)蛋白質(zhì)的綁定性能(Kashiet al.,1997;Li,2004),進(jìn)而影響其下游基因的表達(dá),形成可調(diào)的功能變化和環(huán)境適應(yīng)。
有研究表明,SSRs重復(fù)次數(shù)的增加或減少直接影響相關(guān)基因的表達(dá),如CDS區(qū)域失活修復(fù)(MMR)基因(Duval and Hamelin,2002;Vassilevaet al.,2002)、轉(zhuǎn)錄調(diào)控基因(Duvalet al.,1999)、細(xì)胞凋亡基因(Schwartzet al.,1999)。在人類基因中,三核苷酸SSRs重復(fù)次數(shù)的增加與幾種神經(jīng)系統(tǒng)疾病有關(guān),例如脆性X綜合征(Jin and Warren,2000)、肌強(qiáng)直性營(yíng)養(yǎng)不良(Timchenkoet al.,2001)、亨廷頓氏病和幾種共濟(jì)失調(diào)(Sermonet al.,2001)。蛋白質(zhì)翻譯過(guò)程中每3個(gè)核苷酸形成1個(gè)三聯(lián)體密碼,當(dāng)編碼區(qū)SSR重復(fù)序列增加,會(huì)使其基因功能喪失,從而導(dǎo)致產(chǎn)生相關(guān)疾病。通過(guò)對(duì)林麝編碼區(qū)含SSR關(guān)鍵免疫基因及其相關(guān)聯(lián)的KEGG通路進(jìn)行分析,發(fā)現(xiàn)有10個(gè)含SSR的關(guān)鍵免疫基因?qū)?yīng)的KEGG通路與疾病密切相關(guān)。其中Bcl2基因關(guān)聯(lián)的疾病相關(guān)通路較多,包括多重神經(jīng)退行性疾病通路(Map05022)、癌癥中的轉(zhuǎn)錄誤調(diào)節(jié)(Map05202)、結(jié)直腸癌(Map05210)、胰腺癌(Map05212)、小細(xì)胞肺癌(Map05222)、前列腺癌(Map05215)、胃癌(Map05226)和慢性骨髓白血病(Map05220)等。此外,微衛(wèi)星與端粒和著絲粒相關(guān)(丁戈等,2008)。真核生物染色體端粒為重復(fù)序列,保護(hù)染色體末端。目前關(guān)于微衛(wèi)星功能的研究比較淺顯,沒(méi)有深入研究其中的分子機(jī)理,應(yīng)采用多學(xué)科交叉協(xié)作,結(jié)合遺傳學(xué)、生物化學(xué)、分子生物學(xué)等學(xué)科知識(shí),融會(huì)貫通深入研究其中機(jī)理。
致謝:感謝中國(guó)科學(xué)院成都生物研究所嚴(yán)超超助理研究員提供的幫助。