黃婭琳 黃 捷 時 玉 徐燕紅 周用武 侯森林
(1.南京森林警察學院刑事科學技術(shù)學院,南京,210023;2.野生動植物物證技術(shù)國家林業(yè)與草原局重點實驗室,南京,210023;3.廣西壯族自治區(qū)森林公安局物證鑒定所,南寧,530028)
塔里木兔(Lepusyarkandensis),屬于兔形目(Lagomorpha),兔科(Leporidae),兔屬,又名莎車兔、南疆兔,為我國特有物種,僅分布于新疆塔克拉瑪干沙漠塔里木盆地周圍分散的綠洲及荒漠地帶[1]。隨著當?shù)亟?jīng)濟的發(fā)展、石油開采業(yè)的發(fā)展以及非法狩獵活動的增加,塔里木兔的數(shù)量急劇下降,于1989年被列為國家Ⅱ級重點保護野生動物。與其他受保護物種相比,塔里木兔受關(guān)注程度較低,相關(guān)遺傳學研究較為匱乏。
mtDNA 在細胞中拷貝數(shù)多,沒有基因重組現(xiàn)象,嚴格遵循母系遺傳,其進化速率是單拷貝核基因的 5—10 倍,因此它是動物系統(tǒng)發(fā)育分析和物種識別的常用工具。本研究擬基于本研究組前期通過二代測序技術(shù)獲得的塔里木兔線粒體全基因組序列[2],對其線粒體DNA全基因組序列結(jié)構(gòu)特征及系統(tǒng)進化進行進一步研究,以期為研究其遺傳多樣性、分類地位,為保護塔里木兔這一我國特有的瀕危物種奠定分子遺傳學研究基礎(chǔ)。
塔里木兔樣本于2019年2月采自新疆阿克蘇庫車縣。樣本采集后保存于南京森林警察學院DNA檢驗室標本庫。通過Illumina MiSeq測序分析獲得全長為17 011 bp的線粒體全基因組序列[3],該序列已提交NCBI基因數(shù)據(jù)庫(GenBank 登錄號:MN450151)。另有下載自NCBI的GenBank的12份兔屬其他物種線粒體全基因組序列和2份外群物種鼠兔科(Ochotonidae)物種(高原鼠兔Ochotonacurzoniae和達烏爾鼠兔Ochotonadauurica)線粒體全基因組序列,實驗材料信息詳見表1。
表1 用于系統(tǒng)進化分析的物種線粒體DNA序列信息Tab.1 Mitochondrial DNA sequence information for phylogenetic analysis
使用Editseq7.1統(tǒng)計堿基組成、GC含量及氨基酸偏好性。通過Blast同源序列檢索及DNAStar和Genetyx軟件分析蛋白編碼基因、tRNA基因、rRNA基因和非編碼區(qū)基因。使用MEGA 7.0分析蛋白質(zhì)編碼基因的堿基組成和密碼子使用情況,并分析蛋白質(zhì)編碼基因的氨基酸使用情況[4]。使用在線軟件RNAstructure對tRNA二級結(jié)構(gòu)進行預測,使用RNAfold在線預測網(wǎng)站(http://rna.urmc.rochester.edu/RNAstructureWeb/index.html)對rRNA二級結(jié)構(gòu)進行預測[5]。
基于測序所得的塔里木兔線粒體全基因組序列和所下載的12種兔屬物種、2種外群鼠兔科物種線粒體基因組全序列,采用Mega 7.0軟件,分別使用最大似然法(maximum likelihood method,ML)和鄰接法(neighbor-joining method,NJ)構(gòu)建系統(tǒng)進化樹。
塔里木兔線粒體基因組全序列總長為17 011 bp,呈雙鏈閉合環(huán)狀結(jié)構(gòu)(圖1)。通過分析表明:塔里木兔線粒體基因組包括13蛋白質(zhì)編碼基因、22個tRNA基因、2個rRNA基因(分別為rrnL、rrnS)和1個非編碼控制區(qū)(D-loop區(qū))。且基因排列順序和已報道的兔屬其他物種[6-8]相似,基因排列緊密,相鄰基因之間存在基因重疊現(xiàn)象。
塔里木兔線粒體全基因組序列中A、T、C、G的堿基含量分別為28.13%,27.67%、22.02%和22.17%,A+T的堿基含量為55.8%,C+G的含量為44.20%,表現(xiàn)出明顯的AT偏好性。
不同物種其線粒體基因的種類、位置和大小存在差異,表2所示為塔里木兔線粒體DNA上的RNA基因、蛋白編碼基因所在的位置,蛋白編碼基因的密碼子、起始密碼子、終止密碼子,以及tRNA的反密碼子。
表2 塔里木兔線粒體基因組注釋Tab.2 Characteristics of Lepus yarkandensis mitochondrial DNA genome
續(xù)表2
塔里木兔線粒體基因組共有13個蛋白質(zhì)編碼基因(cox1,cox2,cox3,atp6,atp8,nad1,nad2,nad3,nad4,nad4l,nad5,nad6,cob)。在塔里木兔線粒體基因組中,L鏈和H鏈上都有蛋白質(zhì)編碼基因,但是除了nad6以外,其他的蛋白質(zhì)編碼基因都在H鏈上。
除了nad2,nad3,nad5這3個蛋白質(zhì)編碼基因以ATT為起始密碼子,其余蛋白質(zhì)編碼基因(cox1,cox2,cox3,atp6,atp8,nad1,nad4,nad4l,nad6,cob)均以ATG作為起始密碼子。7個蛋白質(zhì)編碼基因(cox1,cox2,atp6,atp8,nad2,nad4l,nad5)共享相同的終止密碼子,3個蛋白質(zhì)編碼基因(cox3,nad1,nad6)共享相同的終止密碼子,其余3個蛋白質(zhì)編碼基因分別以TGA(nad3)、TCT(nad4)、AGG(cob)作為終止密碼子。塔里木兔線粒體DNA上的蛋白質(zhì)編碼基因的起始密碼子和終止密碼子均是完整的,不存在缺失狀況,這是進化的一種象征[9]。
在其13個蛋白編碼基因中,每一個蛋白編碼基因的A+T含量均高于50%(表3),且13個蛋白編碼基因的A+T總含量為61.48%,可見其在蛋白編碼基因組中也具有AT偏好性。
表3 塔里木兔線粒體DNA蛋白質(zhì)編碼基因核苷酸含量Tab.3 Nucleotide content of the protein-coding genes of Lepus yarkandensis mitochondrial DNA
塔里木兔線粒體基因組中各蛋白質(zhì)編碼基因氨基酸使用情況如圖2所示,結(jié)果表明13個蛋白質(zhì)編碼基因中氨基酸使用最頻繁的依次包括Leu、Ile和Ser(Count>100),而Trp、Cys、Met和Arg的使用相對較少(Count<或=25)。
塔里木兔線粒體基因組上共檢測到22個tRNA基因,總長度為1 504 bp,長度范圍為6 471 bp,在線粒體基因組上的排列順序與其他兔形目動物相同。其中8個tRNA基因(trnQ、trnA、trnN、trnC、trnY、trnS2、trnE、trnP)位于L鏈上,其余14個tRNA基因在H鏈上。
通過生物信息學分析對塔里木兔線粒體基因組編碼的22個tRNA的二級結(jié)構(gòu)進行預測,結(jié)果表明:除了trnM和trnS1以外,其余tRNA都有經(jīng)典的三葉草二級結(jié)構(gòu)(圖3)。在22個tRNA基因的二級結(jié)構(gòu)中出現(xiàn)了26對堿基錯配現(xiàn)象。其中G-T錯配25個,A-A錯配1個。A-A錯配出現(xiàn)在trnF的氨基酸臂上。25個G-T錯配在氨基酸臂、反密碼子臂、二氫尿嘧啶臂和TΨC臂上均有出現(xiàn)。這些錯配是符合擺動配對原則的,對于維持tRNA二級結(jié)構(gòu)的穩(wěn)定十分重要[10]。
rRNA是一類相對分子量較大的RNA[11],可為多種蛋白質(zhì)合成因子提供結(jié)合位點,在蛋白質(zhì)合成起始時,參與同mRNA選擇性的結(jié)合以及在肽鏈的延伸中與mRNA結(jié)合,與蛋白質(zhì)結(jié)合形成核糖體,并且可為tRNA提供結(jié)合位點。塔里木兔線粒體DNA的核糖體小亞基rrnS基因長度為955 bp,位于trnF-ttc(GAA)與trnV-gta(TAC)之間;核糖體大亞基rrnL基因為1 582 bp,位于A+T富含區(qū)與trnV-gta(TAC)和trnL2-tta(TAA)之間。兩個基因的位置十分靠近,中間只隔著一個trnV基因(圖1)。
通過生物信息學分析對塔里木兔線粒體基因組編碼的2個rRNA的二級結(jié)構(gòu)進行預測,結(jié)果表明:rRNA的二級結(jié)構(gòu)較為復雜,形成了較多的莖環(huán)結(jié)構(gòu),具體情況如圖4所示,rrnS的二級結(jié)構(gòu)如圖4A所示,rrnL的二級結(jié)構(gòu)如圖4B所示。
兔形目一共只有兔科和鼠兔科兩個科,分化程度不高,且兩個科的物種在外形上具有高度的相似性。本研究以兩種在我國有分布的鼠兔科物種(高原鼠兔和達烏爾鼠兔)為外群物種,基于塔里木兔和兔屬其他12個物種線粒體全基因組序列,分別用最大似然法(maximum likelihood method,ML)和鄰接法(Neighbor-Joining method,NJ)構(gòu)建系統(tǒng)進化樹。結(jié)果如圖5、圖6所示,結(jié)果表明兩種方法構(gòu)建的分子系統(tǒng)進化樹基本一致,外群物種高原鼠兔和達烏爾鼠兔單獨聚為一支,兔屬13個物種大致聚為4大支,華南兔單獨為一支,表明華南兔和兔屬其他12個物種親緣關(guān)系稍遠一些。塔里木兔與蒙古兔聚為一支,表明塔里木兔與蒙古兔親緣關(guān)系最近。此結(jié)果與單獨基于線粒體cytb基因位點的聚類分析結(jié)果[2]不一致,表明僅基于單一位點進行系統(tǒng)進化關(guān)系分析容易造成偏差。
隨著基因領(lǐng)域的探索日益深入,由物種單個基因構(gòu)建的系統(tǒng)發(fā)生樹已經(jīng)不足以滿足研究者們對更加詳細、精確數(shù)據(jù)的需求。因此,通過使用更長的線粒體DNA序列,甚至是基因組全序列來構(gòu)建更精確、可靠的系統(tǒng)發(fā)生樹,以獲得能夠更加全面反映生物分子進化水平的系統(tǒng)發(fā)育信息,逐漸成為研究者的共識與主流[12-13]。NCBI數(shù)據(jù)庫公布的兔屬其他物種線粒體基因組全序列大部分相似:全序列長度在17 kbp左右,結(jié)構(gòu)為雙鏈的閉合結(jié)構(gòu),通常包括13個蛋白編碼基因、22個tRNA基因、2個rRNA基因和1個非編碼控制區(qū)(D-loop區(qū))。
本研究分析了塔里木兔線粒體基因組特征,全長17 011 bp,AT含量為55.8%,呈現(xiàn)AT堿基偏好性,無基因重排的現(xiàn)象。在塔里木兔線粒體基因組中,L鏈和H鏈上都有蛋白質(zhì)編碼基因,但是除了nad6以外,其他的蛋白質(zhì)編碼基因都在H鏈上。Brown等[14]研究顯示,分布在H鏈上的線粒體基因容易形成沒有保護的單鏈,更易發(fā)生水解和氧化。塔里木兔線粒體基因組的蛋白編碼基因和RNA編碼基因主要分布于H鏈上,這說明塔里木兔線粒體基因組也易發(fā)生氧化和水解,而單獨位于L鏈上的nad6基因則相對穩(wěn)定,突顯出nad6基因的重要性與獨特性。
遺傳多樣性是物種適應環(huán)境變化、形成生物多樣性的基礎(chǔ)之一,對于種群維持繁衍、適應生境變化和抵抗疾病具有重要意義。遺傳多樣性的下降,可能會導致物種對環(huán)境適應能力降低,這對生活在野外多變環(huán)境中的群體來說是一個極大的威脅[12]。線粒體DNA對分析遺傳多樣性具有重要參考價值。本研究基于線粒體全基因組序列構(gòu)建系統(tǒng)進化樹,發(fā)現(xiàn)在兔屬13個物種中,塔里木兔和蒙古兔親緣關(guān)系最近,從線粒體基因結(jié)構(gòu)上看,兩者非常類似,線粒體基因組全長分別為17 011 bp和17 472 bp,AT含量分別為55.8%和57.3%[7],結(jié)合兩者地理分布較為接近的情況,推測塔里木兔和蒙古兔可能由共同的祖先演化而來。本研究的分析結(jié)果將為進一步研究塔里木兔的遺傳特性、起源、演化和分類,為塔里木兔遺傳資源的保護與利用奠定基礎(chǔ)。