鄭帥, 周闖, 范振鑫, 李靜, 岳碧松, 孟楊, 2*
(1. 生物資源與生態(tài)環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,四川大學(xué)生命科學(xué)學(xué)院,成都610065; 2. 四川大學(xué)自然博物館,成都610065)
內(nèi)源性逆轉(zhuǎn)錄病毒(endogenous retrovirus,ERV)起源于逆轉(zhuǎn)錄病毒,是當(dāng)逆轉(zhuǎn)錄病毒感染宿主的生殖細(xì)胞并將基因組插入到生殖細(xì)胞基因組中,傳遞給下一代所形成。因此,ERV是位于宿主基因組中的病毒基因組,具有如下結(jié)構(gòu):5’ LTR-gag-pol-env-LTR 3’。長(zhǎng)末端重復(fù)是位于ERV序列兩端的2段相同DNA序列,含有啟動(dòng)子、聚腺苷酸化位點(diǎn)等調(diào)控元件。gag、pol和env分別代表3個(gè)蛋白質(zhì)的編碼基因。雖然在漫長(zhǎng)的演化過(guò)程中,其結(jié)構(gòu)會(huì)發(fā)生一些變異,但仍然具有很高的保守性,識(shí)別基因組中ERV也主要是根據(jù)其結(jié)構(gòu)特征和蛋白質(zhì)編碼基因的序列相似性。
ERV插入宿主基因組中的位置是隨機(jī)的(Bolisettyetal.,2012),如果插入到基因附近或基因內(nèi)部,就會(huì)改變基因原有結(jié)構(gòu),影響基因表達(dá),可能產(chǎn)生有害的結(jié)果。但對(duì)宿主不利的ERV在負(fù)選擇作用下會(huì)被逐漸清除出宿主基因組,而不妨礙宿主正常的生理活動(dòng),而對(duì)宿主有利的ERV就會(huì)被保留下來(lái)。ERV在宿主基因組中并非靜止,它可以通過(guò)自我復(fù)制產(chǎn)生新的拷貝,插入到基因組中的其他位置。病毒的再次感染也會(huì)形成新的ERV,這樣宿主基因組中就存在很多來(lái)源于同一種逆轉(zhuǎn)錄病毒的ERV拷貝,形成ERV家族(Gifford & Tristem,2003)。除了垂直傳遞外,ERV還可以在宿主間進(jìn)行水平傳遞,從一個(gè)宿主中釋放出來(lái),感染另一個(gè)宿主。ERV與同源的外源性逆轉(zhuǎn)錄病毒之間也存在交互,它們可以相互交換基因組片段,形成新的重組病毒(Payne & Nair,2012)。ERV具有許多重要的生物學(xué)功能,比如參與人類胎盤(pán)的形態(tài)發(fā)生,避免宿主被同源的外源性病毒感染,調(diào)節(jié)插入位點(diǎn)附近的基因表達(dá)等(武元峰,欒洋,2014)。
由ERV衍生的重復(fù)序列在鳥(niǎo)類基因組中廣泛存在,其含量為0.17%~4.11%(Zhangetal.,2014),但大多數(shù)都是不完整的ERV片段或單獨(dú)出現(xiàn)的長(zhǎng)末端重復(fù)。很多鳥(niǎo)類的性狀都與ERV的插入有關(guān),例如雌相羽(Matsumineetal.,1991)、白羽雞(Changetal.,2006)、綠殼蛋(Wangetal.,2013)等。某些種類的ERV還具有致癌性,如ALV-J能夠引起家雞Gallusgullusdomesticus發(fā)生腫瘤(Gaoetal.,2010)。
四川山鷓鴣Arborophilarufipectus是中國(guó)西南山區(qū)特有的珍稀雉科Phasianidae鳥(niǎo)類,被世界自然保護(hù)聯(lián)盟(IUCN)列為瀕危(EN)物種,也是國(guó)家Ⅰ級(jí)重點(diǎn)保護(hù)野生動(dòng)物。受捕獵、生境喪失等影響,其成熟個(gè)體的數(shù)量?jī)H為1 000~2 499只,且在持續(xù)下降中(IUCN,2018)。其生態(tài)習(xí)性(廖文波,胡錦矗,2010)、行為特征(廖文波,2011)、基因組中的微衛(wèi)星(Huangetal.,2015)、Chicken Repeat 1轉(zhuǎn)座子(Cuietal.,2016)等已有研究,對(duì)山鷓鴣屬Arborophila鳥(niǎo)類的系統(tǒng)發(fā)生關(guān)系和演化歷史的研究也取得了很大進(jìn)展(李雪娟等,2014;Yanetal.,2017)。但對(duì)四川山鷓鴣基因組中的ERV仍然知之甚少,本文比較全面地呈現(xiàn)了四川山鷓鴣基因組中ERV的分布情況,對(duì)全面了解這一瀕危物種,采取更好的保護(hù)策略具有重要意義。
測(cè)序樣品來(lái)源于四川老君山國(guó)家級(jí)自然保護(hù)區(qū)的1只四川山鷓鴣。相關(guān)項(xiàng)目信息和原始數(shù)據(jù)已上傳至NCBI(PRJNA419836)。測(cè)序采用paired-end共構(gòu)建了8種不同插入長(zhǎng)度的DNA文庫(kù),包括小片段文庫(kù)(插入長(zhǎng)度為250 bp、500 bp與800 bp)和大片段文庫(kù)(插入長(zhǎng)度為2 kb、5 kb、10 kb、15 kb與20 kb)。對(duì)小片段文庫(kù),測(cè)序采用Illumina HiSeq X Ten平臺(tái),大片段文庫(kù)采用Illumina HiSeq 2500平臺(tái),測(cè)序深度達(dá)~274×,讀長(zhǎng)均為150 bp,獲得的數(shù)據(jù)總量為347.94 Gb。
首先使用SOAPdenovo 2 2.04-r240(SOAPdenovo-63mer;Luoetal.,2012)將讀長(zhǎng)組裝成contig和scaffold。小片段文庫(kù)用于組裝contig,大片段文庫(kù)用于將contig連接為scaffold,運(yùn)行參數(shù)為:SOAPdenovo-63mer all-s config_file-o out_prefix-K 27-p 30-d 5-M 3-F;然后使用SSPACE 3.0(Boetzeretal.,2011)根據(jù)大片段文庫(kù)將SOAPdenovo2輸出的scaffold進(jìn)一步連接,運(yùn)行參數(shù)為:SSPACE_Standard_v3.0.pl-l library.txt-s scaffold_file.fa-T 30-v 1-g 0-k 7;最后使用GapCloser 1.12(Luoetal.,2012)根據(jù)小片段文庫(kù)對(duì)scaffold中的缺口(連續(xù)的N)進(jìn)行填補(bǔ),采用默認(rèn)的參數(shù)運(yùn)行。最終獲得1.09 Gb的基因組序列,scaffold N50長(zhǎng)度為4.57 Mb。
采用LTRharvest 1.5.10(Ellinghausetal.,2008)確定基因組中的ERV,主要參數(shù)設(shè)置為:minlenltr=100,maxlenltr=1 000,similar=90,overlaps=no。注釋采用LTRdigest 1.5.10(Steinbissetal.,2009),采用關(guān)鍵詞“retro”搜索Pfam數(shù)據(jù)庫(kù),找到了與ERV蛋白質(zhì)相關(guān)的41個(gè)條目,又包括了Steinbiss等(2009)構(gòu)建的Pfam文庫(kù),最終確定了1個(gè)含有53個(gè)Pfam條目的文庫(kù),作為L(zhǎng)TRdigest的輸入,用于檢測(cè)gag、pol和env基因所編碼蛋白質(zhì)的結(jié)構(gòu)域。
首先使用Usearch 1.0.667_i86linux32(Edgar,2010)聚類,主要參數(shù)設(shè)置為:cluster_fast id=0.80,query_cov=0.80,maxaccepts=5,maxrejects=105;然后使用RAxML 8.2.12(Stamatakis,2014)構(gòu)建系統(tǒng)發(fā)生樹(shù),主要參數(shù)設(shè)置為:raxml-f a-x 1237-p 1237-# autoMRE-m GTRGAMMA-T 4;最后進(jìn)行手工檢驗(yàn),若有2個(gè)或多個(gè)Usearch家族處于系統(tǒng)發(fā)生樹(shù)的同一分支,則將這些家族合并,形成一個(gè)新的家族。
年齡估算使用公式T=D/2R,式中,T代表ERV的年齡,D是2個(gè)長(zhǎng)末端重復(fù)序列的演化距離,采用MEGA X(Kumaretal.,2018)計(jì)算,R是每百萬(wàn)年的堿基替換率,采用紅原雞Gallusgallus和火雞Meleagrisgallopavo的常染色體年替換率:3.6×10-9(Axelsson,2004)計(jì)算。
位于ERV序列兩端的長(zhǎng)末端重復(fù)長(zhǎng)度一般為100~1 000 bp,是識(shí)別基因組中ERV的重要特征。具有2個(gè)可識(shí)別的長(zhǎng)末端重復(fù)的ERV稱為全長(zhǎng)ERV,2個(gè)長(zhǎng)末端重復(fù)之間的序列稱為ERV的內(nèi)部序列。通過(guò)denovo從四川山鷓鴣基因組中確定了3 962 個(gè)全長(zhǎng)ERV拷貝,總長(zhǎng)度為18.01 Mb,占基因組的1.65%。利用LTRdigest對(duì)ERV的引物結(jié)合位點(diǎn),多嘌呤序列,gag、pol和env3個(gè)基因編碼的蛋白質(zhì)結(jié)構(gòu)域進(jìn)行注釋。發(fā)現(xiàn)有4個(gè)拷貝同時(shí)具有這5種特征,即具有完整的結(jié)構(gòu);11個(gè)拷貝同時(shí)含有3種蛋白質(zhì)結(jié)構(gòu)域;72個(gè)拷貝同時(shí)具有引物結(jié)合位點(diǎn)和多嘌呤序列,表明它們具有自我復(fù)制的能力;554個(gè)拷貝含有至少1個(gè)蛋白質(zhì)結(jié)構(gòu)域,其中,約73%(404個(gè)拷貝)含有逆轉(zhuǎn)錄酶域(Pfam ID:RVT_1)。
在排除了重復(fù)的、長(zhǎng)度<80 bp、未知堿基N的含量>80%和被Chicken Repeat 1污染的拷貝后,共獲得2 579個(gè)高質(zhì)量的全長(zhǎng)ERV拷貝,其中318個(gè)含有逆轉(zhuǎn)錄酶域被用于定義ERV家族。
根據(jù)Wicker等(2007)提出的轉(zhuǎn)座子家族的定義方法,基于逆轉(zhuǎn)錄酶序列的相似性,將318個(gè)含有逆轉(zhuǎn)錄酶域的ERV拷貝分成了48個(gè)不同的家族。其中11個(gè)家族的拷貝數(shù)>3,2個(gè)家族的拷貝數(shù)為2,其余35個(gè)家族的拷貝數(shù)為1。為了確定四川山鷓鴣基因組中的ERV與已發(fā)現(xiàn)其他物種的關(guān)系,將拷貝數(shù)>3的11個(gè)家族中所有拷貝的內(nèi)部序列作為查詢序列,用BLASTN搜索了Repbase數(shù)據(jù)庫(kù)(Baoetal.,2015),結(jié)果發(fā)現(xiàn),仍然有4個(gè)家族的序列中含有Chicken Repeat 1。為了盡可能避免Chicken Repeat 1對(duì)ERV家族的污染,將這4個(gè)家族移出分類系統(tǒng),最終獲得7個(gè)ERV家族,并依據(jù)BLASTN結(jié)果中的Repbase條目名稱,力求反映與其他物種ERV的親緣關(guān)系,對(duì)這7個(gè)ERV家族分別進(jìn)行了命名(表1):每個(gè)家族名都由2個(gè)部分組成:第一部分為代表四川山鷓鴣這一物種的“Aru”前綴,第二部分為代表家族歸屬的類別名。
表1 ERV家族Table 1 Assigned ERV families
注: BLASTN結(jié)果中匹配到對(duì)應(yīng)的Repbase條目的ERV拷貝數(shù)
Note: Number of matched ERV copies corresponding to the Repbase entry by BLASTN
AruERV-L是四川山鷓鴣基因組中最大的ERV家族,包含了122個(gè)拷貝。為了確定其他鳥(niǎo)類中是否也含有ERV-L拷貝,將AruERV-L家族所有拷貝的內(nèi)部序列作為查詢序列,用BLASTN(identity≥80%,coverage≥80%)分別搜索了紅原雞、綠尾虹雉Lophophoruslhuysii、日本鵪鶉Coturnixjaponica、火雞、非洲鴕鳥(niǎo)Struthiocamelus、原鴿Columbalivia和斑胸草雀Taeniopygiaguttata7種具有代表性的鳥(niǎo)類基因組。結(jié)果在后3種鳥(niǎo)中未發(fā)現(xiàn)ERV-L的拷貝,前4種鳥(niǎo)的ERV-L拷貝數(shù)分別是159個(gè)、137個(gè)、70個(gè)和35個(gè)。
在ERV插入基因組的事件發(fā)生時(shí),其兩端的長(zhǎng)末端重復(fù)序列相同,但隨著時(shí)間的增加,基因突變使2個(gè)長(zhǎng)末端重復(fù)之間產(chǎn)生差異。因此可以通過(guò)比較全長(zhǎng)ERV 5’端和3’端的長(zhǎng)末端重復(fù)的差異來(lái)估算ERV的年齡,即該ERV的插入事件發(fā)生在多少時(shí)間以前(Hudaetal.,2008)。
上述7個(gè)家族中有5個(gè)家族含有年齡為0的ERV拷貝,即2個(gè)長(zhǎng)末端重復(fù)完全相同的拷貝(圖1)。也就是說(shuō)這些ERV拷貝的插入事件發(fā)生在最近,即這些家族的某些拷貝在最近有活動(dòng),進(jìn)行了自我復(fù)制,產(chǎn)生了新的拷貝。5個(gè)家族中,AruDawg中年齡為0的拷貝含有9個(gè),AruERV-K1含有3個(gè),AruERV-L含有2個(gè),AruERV-4、AruERV-20各含有1個(gè)。
將年齡在1百萬(wàn)年以內(nèi)的ERV拷貝稱為年輕拷貝。7個(gè)家族中,除AruERV-K2外,其余的均含有年輕拷貝,AruERV-K1含有年輕拷貝的比例最高,約86%(6/7),AruDawg含有年輕拷貝的數(shù)量最多,為45個(gè)(約54%)。可以推測(cè),這2個(gè)ERV家族至今仍處于活躍狀態(tài)(圖1)。
圖1 ERV家族年齡分布Fig. 1 Distribution of the ages of ERV families
雖然四川山鷓鴣基因組中全長(zhǎng)ERV拷貝的總量接近4 000個(gè),但大多數(shù)拷貝都缺少進(jìn)行自我復(fù)制所必需的引物結(jié)合位點(diǎn)、多嘌呤序列等調(diào)控元件,只有約2%的拷貝保留有進(jìn)行自我復(fù)制產(chǎn)生新拷貝的能力,這些拷貝是演化過(guò)程中維系ERV家族存在的關(guān)鍵。
AruERV-L是四川山鷓鴣基因組中含量最豐富的ERV家族,其年齡分布范圍也非常廣泛,最遠(yuǎn)可追溯到12百萬(wàn)年以前,可見(jiàn)AruERV-L在四川山鷓鴣中具有悠久的演化歷史。ERV-L是一個(gè)值得注意的ERV家族,Bénit等(1999)發(fā)現(xiàn)該家族普遍存在于胎盤(pán)哺乳動(dòng)物中。而紅原雞、綠尾虹雉、四川山鷓鴣、日本鵪鶉和火雞也都含有ERV-L,且四川山鷓鴣分支在雉科鳥(niǎo)類的系統(tǒng)發(fā)生樹(shù)中出現(xiàn)的最早(李雪娟等,2014),因此有理由推測(cè),ERV-L普遍存在于雉科鳥(niǎo)類中。在非洲鴕鳥(niǎo)、原鴿和斑胸草雀3種非雉科鳥(niǎo)類中并未發(fā)現(xiàn)ERV-L,這說(shuō)明ERV-L在鳥(niǎo)類中的存在并不具有普遍性。那么ERV-L在哺乳動(dòng)物和鳥(niǎo)類中的引進(jìn)就很可能是獨(dú)立發(fā)生的。
四川山鷓鴣基因組中最年輕的ERV家族是AruERV-K1。年輕的ERV一般具有比較完整的結(jié)構(gòu),能夠自主轉(zhuǎn)錄與復(fù)制,對(duì)宿主的各項(xiàng)生理功能產(chǎn)生影響的可能性更大。ERV插入基因組中位置的隨機(jī)性,也使得其具有影響宿主生理活動(dòng)各個(gè)方面的潛能(Bolisettyetal.,2012)。經(jīng)過(guò)漫長(zhǎng)的演化,四川山鷓鴣表現(xiàn)出了特殊的環(huán)境適應(yīng)性(Fuetal.,2017),而ERV始終動(dòng)態(tài)地存在于基因組中,很可能在其適應(yīng)性演化中扮演著重要角色。因此,深入了解這些ERV的生理功能,對(duì)采取更加科學(xué)的方法保護(hù)四川山鷓鴣具有十分重要的意義。