邱忠營,黃 原,茹凝玉,崔媛媛
(1.西安醫(yī)學院基礎醫(yī)學部,陜西西安 710021;2.陜西師范大學生命科學學院,陜西西安 710062)
昆蟲線粒體基因組是長度約15 kb 的環(huán)狀雙鏈共價閉合分子,具有結構簡單、基因重排少及基因進化速率快等特點[1],是分子系統(tǒng)發(fā)生學、物種鑒定、譜系地理學以及種群遺傳結構領域等重要的分子標記[2-4]。隨著高通量測序技術的發(fā)展,測序時間大大縮短,線粒體基因組數據增長速度很快。截至2020年7月,NCBI數據庫公布的直翅目(Orthoptera)昆蟲線粒體基因組序列有218 個,蝗亞目(Locustodea)138 個,螽亞目(Ensifera)80 個,但關于橄蝗屬(Tagasta)昆蟲未見報道。直翅目昆蟲的線粒體基因組由37 個基因組成,包括13 個蛋白編碼基因(PCGs)、22 個轉運RNA(tRNAs)、2 個核糖體RNA(rRNAs)和非編碼區(qū),也稱為A + T 富集區(qū)或控制區(qū)。印度橄蝗(Tagasta indica)隸屬于橄蝗屬,橄蝗亞科(Tagastinae),瘤錐蝗科(Chrotogonidae),蝗總科(Acridoidea),直翅目。在中國,印度橄蝗主要分布在福建、廣東和廣西等地,國外分布在印度和泰國等地。從形態(tài)上看,瘤錐蝗科的頭型與錐頭蝗科(Pyrgomorphidae)基本一致,均為錐型,體型也均呈紡錘形;兩者的不同之處主要在于瘤錐蝗科昆蟲的觸角為絲狀,錐頭蝗科昆蟲的觸角為劍狀。根據22個形態(tài)學性狀,無法區(qū)分瘤錐蝗科和錐頭蝗科,許升全等[5]建議將二者合為一個科;劉殿鋒等[6]應用18S rDNA 序列構建蝗總科系統(tǒng)發(fā)生關系,也認為將瘤錐蝗科和錐頭蝗科合為一個科較合適。目前,關于直翅目昆蟲系統(tǒng)發(fā)生關系的研究已有很多[2-4,7-8],但涉及的瘤錐蝗科昆蟲較少,僅有4 條全線粒體基因組序列被測出。為更好地確定瘤錐蝗科與錐頭蝗科的分類地位及系統(tǒng)發(fā)生關系,本研究測定了瘤錐蝗科印度橄蝗的全線粒體基因組,并初步構建了蝗總科的系統(tǒng)進化樹,為瘤錐蝗科的分類地位和系統(tǒng)發(fā)生關系提供數據支持和分子證據。
印度橄蝗標本于2009年9月17日采自廣西桂林三里店(110°32’E,25°27’N),現保存于陜西師范大學分子進化生物學實驗室。取單頭蟲后足股節(jié)肌肉,采用DNA 提取試劑盒(QIAGEN 公司生產)提取總DNA。測序策略是將整個線粒體基因組分成2個大片段,以此為模板,參考通用引物序列[9-10],以長PCR 產物為模板,擴增500 ~1 000 bp 長度片段,最終擴增出覆蓋線粒體基因組全長的序列;短的PCR片段直接送華大科技測序公司測序。
應用拼接軟件Standen package對測序所得序列進行拼接,序列注釋應用Geneious 9.1.2 軟件[11]完成。應用在線軟件tRNAscan-SE(http://lowelab.ucsc.edu/tRNAscan-SE/)[11]進行tRNA 基因的預測。以短額負蝗(Atractomorpha sinensis)線粒體基因組為參考基因組進行序列比對,確定蛋白編碼基因和核糖體rRNAs的基因位置。
選取包括印度橄蝗在內的蝗總科的20 個物種及1 個外群物種摩門螽斯(Anabrus simplex)共21 個物種的線粒體基因組序列,構建系統(tǒng)發(fā)生樹。所選物種的GenBank 序列號及分類信息見表1。應用Geneious 9.1.2 軟件對21 個物種線粒體基因組序列的13 個PCGs 及2 個rRNAs 進行提取和比對[12]。應用軟件SequenceMatrix 1.7.8將單個基因比對結果連接成1 個聯合數據集,并利用MrBayes 3.1.2 軟件構建貝葉斯(BI)樹[13]。
表1 系統(tǒng)發(fā)育分析中線粒體基因組的分類信息Tab.1 Taxonomic information of mitochondrial genomes for phylogenetic analysis
續(xù)表1 Continued
試劑盒提取的DNA 中包括核DNA 和線粒體DNA,由于線粒體DNA所占比例較小,本研究通過2對直翅目昆蟲線粒體基因組通用引物擴增出覆蓋線粒體基因組序列全長的片段,再以此長片段為模板,擴增出500 ~1 000 bp 長度的片段進行測序,并應用軟件Standen Package 進行組裝,去除兩端冗余序列,獲得線粒體基因組全長序列。
印度橄蝗線粒體基因組全長序列15 531 bp(GenBank 登陸號:MK080200),共編碼37 個基因,包 括13 個PCGs(atp6, atp8,cox1-3,cytb,nad1-6,nad4l)、2個rRNAs(rrnS和rrnL)和22個tRNAs,以及1 個控制區(qū)(control region,CR)(圖1)。其中,N 鏈編碼14 個基因(4 個PCGs、8 個tRNAs 和2 個rRNAs),J鏈編碼剩余基因(9 個PCGs 和14 個tRNAs)。印度橄蝗線粒體基因組結構緊湊,基因間隔區(qū)長度為0~30 bp,沒有基因缺失;基因排列順序與蝗亞目昆蟲線粒體基因典型排列順序相同,沒有基因重排現象(表2)。
圖1 印度橄蝗線粒體全基因組結構Fig.1 Structure of T.indica mitochondrial genome
表2 印度橄蝗線粒體全基因組Tab.2 Organization of T.indica mitochondrial genome
續(xù)表2 Continued
2.2.1 蛋白編碼基因和核苷酸組成
印度橄蝗線粒體基因組全序列堿基組成為A(42.3%)、T(31.1%)、C(16.0%)和G(10.6%),AT含量(73.4%)明顯大于CG 含量(26.6%),存在明顯的AT 偏斜,與其他直翅目昆蟲堿基組成類似(表3)?;蚪M中,rRNAs、tRNAs、PCGs 和AT 富集區(qū)的AT 含量分別為75.7%、75.4%、72.4%和81.0%,存在明顯的AT-skew。從核苷酸組成密碼子偏好性上,蛋白編碼基因密碼子第3 位點的AT 含量最高(82.0%),其次是蛋白編碼基因密碼子第1 位點(69%.0),蛋白編碼基因密碼子第2 位點最低(66.2%)。AT 偏向性最顯著的是蛋白編碼基因密碼子第2 位點,AT-skew 值為-0.39(T 含量遠大于A)。
表3 印度橄蝗線粒體基因核苷酸組成Tab.3 Nucleotide composition of T.indica mitochondrial genome
印度橄蝗線粒體基因排列相對緊密,存在少量的基因重疊和間隔區(qū)。在線粒體基因組的37 個基因中,有11 處重疊,其中兩處存在于蛋白編碼基因間,分別是nad4L/nad4(7 bp)和atp8/atp6(7 bp),其余9 處存在于tRNA 與蛋白編碼基因組和tRNA 之間。基因間隔區(qū)有15處,長度為1 ~31 bp,其中trn-SUCN(Ser)和nad1基因間隔區(qū)最長(31 bp),剩余9 個基因緊密相連。
13個蛋白編碼基因中,起始密碼子有3個蛋白編碼基因為非標準起始密碼子,分別是nad2為GTG、cox1為ACT及nad6為TTG;其余10個蛋白編碼基因均為標準的ATN。終止密碼子中,除nad4和cox3分別為TAG和TA外,其余均為TAA。不完整的終止密碼子普遍存在于直翅目昆蟲的mtDNA 中,研究表明終止密碼子受選擇壓力小,縮短的終止密碼子可通過轉錄后多腺苷酸化補充[31]。印度橄蝗的13個蛋白編碼基因密碼子有3 716個,使用頻率最高的密碼子為UUA,n(RSCU)值為312(3.54),使用頻率最低的是UGC和CGG,僅3次(圖2)。在編碼的3 716個氨基酸中,使用頻率最高的為Leu,占所有氨基酸的14.24%。
圖2 印度橄蝗全線粒體基因組蛋白編碼基因密碼子使用情況Fig.2 Codon usage of all PCGs in T.indica mitochondrial genome
2.2.2 RNA和控制區(qū)
通過tRNAScan-SE軟件預測印度橄蝗粒體基因組tRNAs的位置和二級結構,未預測出的tRNAs通過與近緣物種序列比對確定位置。印度橄蝗線粒體基因包括22個tRNAs,長度為64 ~72 bp;trnSAGN二氫尿嘧啶臂缺失,二級結構不是典型的三葉草結構;其余21個tRNAs的二級結構均形成典型的三葉草結構[32]。三葉草結構包含4個臂,上方為氨基酸接受臂,下方為反密碼子臂,左邊為雙氫尿嘧啶臂(DHU),右方為T&C環(huán)(圖3)。22個tRNAs在折疊過程中,共存在23處錯配,其中G-U 錯配20 處;A-G 錯配1 處,位于trnW的氨基酸接受臂上;U-U 錯配2 處,分別位于trnC的DHU臂和trnH的反密碼子臂上。印度橄蝗線粒體基因組含有rrnL和rrnS,分別位于trnLCUN和trnV之間以及trnV和控制區(qū)之間。rrnS長度為793 bp,rrnL長度為1 308 bp。線粒體基因組的控制區(qū)介于rrnS與trnI基因之間,長度731 bp,A + T 含量高達81%,高于PCGs、rRNAs和tRNAs區(qū)域的A+T含量。
直翅目昆蟲線粒體基因組為環(huán)狀雙鏈閉合結構,一般在15 kb左右,包含37個基因。印度橄蝗線粒體基因組全長15 531 bp,介于已報道的直翅目昆蟲線粒體基因組長度范圍內(13 ~18 kb)[33]。
直翅目昆蟲的線粒體蛋白編碼基因中,幾乎都以ATN為標準起始密碼子,但有個別基因起始密碼子會出現非標準情況,尤以cox1起始密碼子變化較多(CCG、AAA、CAA、TTA、ACG、ATT和CTA等)[34],還有四聯密碼子ATGA、ATAA 和GTGA 等都是可能的cox1起始密碼子[35]。這些非正常起始密碼子可轉錄后經過RNA 編輯轉換成正常的密碼子,從而完成翻譯。印度橄蝗的線粒體蛋白編碼基因中nad2、cox1和nad6基因均為非標準起始密碼子,分別為GTG、ACT和TTG;其余均為標準起始密碼子ATN。
圖3 印度橄蝗線粒體基因組tRNAs的二級結構Fig.3 Secondary structure of tRNAs in T.indica mitochondrial genome
直翅目昆蟲線粒體蛋白編碼基因的終止密碼子較為一致,大多數蛋白編碼基因以TAA 或TAG 為完整終止密碼子,少數基因以T或TA 為不完整終止密碼子。印度橄蝗的線粒體蛋白編碼基因中,除cox3的終止密碼子為TA終止密碼子外,其他蛋白編碼基因的終止密碼子均為TAA 或TAG。RNA 加工過程中添加polyA尾巴可將不完整T或TA轉變?yōu)橥暾慕K止密碼子。
目前已測出的直翅目昆蟲線粒體基因組編碼的22 個tRNAs 中,大部分的trnSAGN為不完整的三葉草結構,缺少DHU 臂;其余21 個tRNAs 可折疊形成典型的三葉草結構。tRNA形成三葉草結構時,會發(fā)生錯配,大部分錯配為G-U 錯配,也有少量的A-A、A-G、C-A 或U-U 錯配等,這些錯配通過編輯可以校正過來,不會影響轉運功能[36]。印度橄蝗的線粒體中,22個tRNAs的二級結構都較保守,除trnSAGN缺少DHU 臂外,其余均為典型的三葉草結構;錯配方式主要為G-U錯配。
核糖體RNA 有rrnL和rrnS,其二級結構較為保守,分為莖區(qū)和環(huán)區(qū)。核糖體rrnL二級結構包含6個結構(I,II,III,IV,V 和VI)。結構區(qū)III 缺失,結構區(qū)IV 和V 高度保守,其他結構部分變化較大。核糖體rrnS二級結構有4 個結構,變化較大的是結構一和結構二,相對保守的是結構三和結構四。
有中國學者將蝗總科分成9個科,其中8個科在中國分布,分別為斑腿蝗科(Catantopidae)、斑翅蝗科(Oedipodidae)、網翅蝗科(Arcypteridae)、劍角蝗科(Acrididae)、癩蝗科(Pamphagidae)、槌角蝗科(Gomphoceridea)、瘤錐蝗科和錐頭蝗科。在直翅目昆蟲分類地位上,中國與國外的分類系統(tǒng)區(qū)別較大。Otte分類系統(tǒng)中將蝗總科分為11科,確立了瘤蝗科(Dericorythidae)和Lithidiidae。本研究選取摩門螽斯作為外群,與測得的印度橄蝗和Genbank已公布的蝗總科19 個物種的全線粒體基因組中的13 個蛋白編碼基因和2個核糖體RNA基因構建貝葉斯樹(圖4),結果顯示蝗總科內部分支進化關系中,四川鄉(xiāng)城湄公蝗(Mekongiana xiangchengensis)和印度橄蝗聚為一支形成姐妹群,金瀾滄蝗(Mekongiell akingdoni)和西藏瀾滄蝗(M.xizangensis)聚為一支形成姐妹群,之后這4個物種再聚為一支共同構成了瘤錐蝗科,支持瘤錐蝗科的單系性;錐頭蝗科只有1 個物種短額負蝗(Atractomorpha sinensis),與瘤錐蝗科的4個物種最先聚在一起,提示瘤錐蝗科和錐頭蝗科親緣關系較近。本研究中,瘤錐蝗科與錐頭蝗科的系統(tǒng)發(fā)生關系與常會會等[37]用線粒體基因組蛋白編碼基因構建的系統(tǒng)樹一致;白潔等[38]應用80 種直翅目昆蟲的線粒體nad2基因構建系統(tǒng)發(fā)育樹,認為瘤錐蝗科和錐頭蝗科親緣關系較近;印紅等[39]應用18S rDNA 構建蝗總科系統(tǒng)發(fā)生關系,也支持瘤錐蝗科和錐頭蝗科親緣關系較近的結論,其位于蝗總科的基部,是蝗總科最原始的類群。由于錐頭蝗科物種只有短額負蝗1種,錐頭蝗科物種是否具有單系性還需增加物種進行確認。本研究測定的印度橄蝗共有4種瘤錐蝗科物種線粒體基因組序列,數據稍顯單薄,瘤錐蝗科和錐頭蝗科分類地位的進一步確認還需增加物種。
圖4 基于PCGs+rRNAs數據集的蝗總科貝葉斯系統(tǒng)樹Fig.4 BI phylogenetic tree of Acridoidea based on mitochondrial PCGs and rRNAs concatenated data set