張帥團(tuán),邵俊紅,白俊艷,樊紅燈,陳夢柯,牛程煒,王龍威,李靜云,王新樂,王 亮
(1.汝州市動物衛(wèi)生監(jiān)督所,河南 汝州 467500;2.河南科技大學(xué)動物科技學(xué)院,河南 洛陽 4710233;3.洛陽市瀍河回族區(qū)動物衛(wèi)生監(jiān)督所,河南 洛陽 471023)
熊貓是我國的國寶,是生物界的“活化石”,但是由于種種原因,熊貓的數(shù)量逐漸減少,其中繁殖率低是一個很重要的因素。所以,通過各種方法提高熊貓的繁殖率就顯得尤為重要,而熊貓基因組序列圖譜的繪制不失為解決這一問題的好辦法之一。本研究運(yùn)用生物信息學(xué)方法分析了公共數(shù)據(jù)庫中熊貓EST序列,以期為熊貓基因組學(xué)研究提供科學(xué)依據(jù)。雖然微衛(wèi)星具有多態(tài)性豐富、容易操作和自動化測序程度高等優(yōu)點(diǎn),但是微衛(wèi)星的開發(fā)仍然是很難和很昂貴的,所以克服SSR開發(fā)費(fèi)用問題的方法之一是挖掘公共數(shù)據(jù)庫中大量有用序列。近年來隨著EST計(jì)劃在不同物種間的擴(kuò)展和研究內(nèi)容的深入,在很多生物中都積累了大量的EST,快速增長的EST數(shù)據(jù)為SSR標(biāo)記的開發(fā)提供了豐富的來源。從ESTs開發(fā)SSR已經(jīng)有一些報(bào)道,如斑馬魚[1]、中國對蝦[2]、鯰魚[3]、火雞[4]和人[5]等。 本研究是從現(xiàn)有熊貓的EST數(shù)據(jù)庫中篩選包含SSR的序列,分析EST-SSR的分布情況,從而為熊貓的基因組研究奠定基礎(chǔ)。
登陸美國國立生物信息中心 (NCBI)網(wǎng)站,從dbEST數(shù)據(jù)庫下載熊貓的EST(http//www.ncbi.nlm.nih.gov/dbEST),共 709 條。
利用EST—trimmer可去除“尾巴”和屏蔽載體序列。所以用在線軟件Cap3對EST進(jìn)行拼接和聚類。
用SSRIT在線軟件進(jìn)行SSR預(yù)測,預(yù)測標(biāo)準(zhǔn)為二至六核苷酸重復(fù)次數(shù)在4次或4次以上。
在包含SSR的EST序列中,選取SSR重復(fù)次數(shù)大于等于5和部分重復(fù)次數(shù)為4的EST序列,利用DNASTAR軟件找到開放閱讀框,然后把開放閱讀框轉(zhuǎn)化為蛋白,針對轉(zhuǎn)化后的蛋白進(jìn)行氨基酸種類及分子量等分。
對來自dbEST數(shù)據(jù)庫中共709條熊貓的EST經(jīng)過預(yù)處理后,獲得636條理想的EST序列和73條空序列。把636條理想的EST序列經(jīng)拼接后共得到573條uni—EST,平均長度為480 bp。其中contigs 46條,singlets 527條。
用SSRIT在線軟件對573條uni—EST序列進(jìn)行SSR篩選分析,共檢測到150個SSR,出現(xiàn)頻率(SSR數(shù)目與uni—EST數(shù)目的比值)為26.17%,平均每1.79 kb就出現(xiàn)一個SSR。SSR的長度介于8~20 bp之間,平均長度為19.22 bp。不同重復(fù)基元SSR的分布見表1??梢?,熊貓的EST—SSR以二核苷酸SSR為主,共有124條,占總數(shù)的82.67%。其余為三、四核苷酸SSR,分別為21條和5條,分別占總數(shù)的14.00%和3.33%。
表1 不同重復(fù)基元SSR的分布
150條SSR的重復(fù)次數(shù)分布情況見圖1。這些SSR中,核苷酸序列重復(fù)基元的重復(fù)次數(shù)為4次的有117條,重復(fù)5次的有19條,重復(fù)6次的有8條,重復(fù)7次的有1條,重復(fù)8次的有3條,重復(fù)9次的有2條??傮w來看,熊貓SET-SSR的核苷酸序列重復(fù)基元的重復(fù)次數(shù)多為4次。
圖1 SSR的重復(fù)次數(shù)分布
熊貓二核苷酸SSR和四核苷酸SSR的分布見圖2。在二核苷酸SSR的重復(fù)基元中出現(xiàn)最多的是AG/CT和AT/AT,均占二核苷酸SSR的12.90%。其次是CA/TG(12.10%)、TA/TA(10.48%)、TC/GA(10.48%)、TG/CA(9.677%)、GA/TC(8.871%)、AC/GT(8.065%)、CT/AG(5.645%)和 GT/AC(5.645%),最少的是 CG/CG 和 GC/GC,各比例不足二核苷酸SSR的2%。熊貓四核苷酸SSR 中 ,TTTC/GAA 出 現(xiàn) 2 次 ,ATAA/TTAT、TTCA/TGAA和TTTA/TAAA各出現(xiàn)了1次。
圖2 二核苷酸和四核苷酸重復(fù)中不同重復(fù)基元SSR的分布
熊貓三核苷酸SSR的分布見圖3。在熊貓三核苷酸SSR中,AAC/GTT占14.29%,其次 CTC/GAG、CTG/CAG、GAT/ATC和 TTA/TAA均占三核苷酸 SSR的9.524%,最少的為AGA/TCT、ATA/TAT、ATT/AAT、CAA/TTG、CAG/CTG、CAT/ATG、GAG/CTC、GCA/TGC、TCA/TGA和TCT/ACA,均占4.7614%。
圖3 三核苷酸重復(fù)中不同重復(fù)基元SSR的分布
在包含SSR的150個EST序列中,選取SSR的重復(fù)次數(shù)大于等于5和部分等于4的共58條EST先進(jìn)行開放閱讀框查找,發(fā)現(xiàn)在這些EST中除6條外,其余52條均能查找到其各自的開放閱讀框。然后將這52條EST的開放閱讀框翻譯成蛋白,針對其蛋白的二級結(jié)構(gòu)進(jìn)行預(yù)測,發(fā)現(xiàn)有4條蛋白沒有螺旋結(jié)構(gòu),4條蛋白沒有折疊結(jié)構(gòu),7條蛋白沒有無規(guī)則卷曲,17條沒有環(huán)區(qū)結(jié)構(gòu),其余未列出的均有螺旋、折疊、無規(guī)則卷曲和環(huán)區(qū)。
gi|242267036|翻譯蛋白的二級結(jié)構(gòu),其中第1~12個氨基酸為螺旋(A),第13~22個氨基酸為環(huán)區(qū)(T),第23~52個氨基酸為折疊(B),第53個氨基酸為環(huán)區(qū)(T),第 54~55個氨基酸為無規(guī)則卷曲(C),第 56~67為折疊(B),第 68個氨基酸為環(huán)區(qū)(T),第69個氨基酸為螺旋(A),第 70個氨基酸為環(huán)區(qū)(T),第 71~73為折疊(B)??傆?jì)是73個氨基酸,其中包括終止密碼子的氨基酸。其中螺旋(A)總計(jì)13個氨基酸,折疊(B)總計(jì)45個氨基酸,環(huán)區(qū)(T)總計(jì)13個氨基酸,無規(guī)則卷曲(C)總計(jì)2個氨基酸。其他蛋白也都有相似的二級結(jié)構(gòu),只是其氨基酸分布不同而已。采用Alpha Regions預(yù)測了gi|242267036|的 螺旋區(qū)域并給出了各種氨基酸的排列順序,如下:
本研究從NCBIdbEST數(shù)據(jù)庫下載熊貓的EST,并對其進(jìn)行處理和SSR篩選,共發(fā)現(xiàn)150個SSR,出現(xiàn)頻率為26.17%。這與許多其他物種ESTs數(shù)據(jù)庫中篩選的微衛(wèi)星序列比例相比較高,如梅花鹿SSR的出現(xiàn)頻率為15.54%[6],山羊SSR出現(xiàn)的頻率為6.73%[7],綿羊皮膚中SSR的出現(xiàn)頻率為6.3%[8],這可能是由于物種不同的原因所致,也可能是SSR篩選時重復(fù)次數(shù)設(shè)置不同所致。此外,在對熊貓的EST序列進(jìn)行分析時,發(fā)現(xiàn)SSR的重復(fù)基元以二核苷酸最多,共有124個,占總SSR的82.67%,這與大多數(shù)動物的EST-SSR以二核苷酸為主的規(guī)律一致。在這些二核苷酸重復(fù)基元中出現(xiàn)最多的是AG/CT和AT/AT,均占二核苷酸SSR的12.90%,平均每15kb就出現(xiàn)一次。而在人和綿羊的基因組中AC/GT是分布頻率最高的SSR,在人的基因組中平均每30 kb就可能出現(xiàn)AC/GT的SSR標(biāo)記,綿羊平均為65kb出現(xiàn)一次,豬每隔30~50 kb出現(xiàn)一次[9,10]。除二核苷酸以外,熊貓的EST序列中還包含三、四核苷酸重復(fù)基元,其中在三核苷酸中AAC/GTT出現(xiàn)的最多,占三核苷酸SSR的14.29%,這與許多植物的情況有所不同。例如,在柑橘中AAG/CTT是最豐富的三核苷酸SSR的重復(fù)基元[11],在狗尾草中最豐富的三核苷酸SSR的重復(fù)基元是CAG/TCT[12]。在四核苷酸中TTTC/GAAA出現(xiàn)相對較多,富含A/T,這與其他動物如鯰魚、斑馬魚和牛的結(jié)果相似[13],即四、五、六核苷酸SSR都以富含A/T的重復(fù)基元為主要基序。本研究明確了熊貓基因組中EST-SSR的分布特征,熊貓EST-SSR不但基元類型豐富、密度大,而且多態(tài)性潛能較高,說明大規(guī)模開發(fā)EST-SSR的可能性較大。利用熊貓表達(dá)序列標(biāo)簽建立微衛(wèi)星標(biāo)記,將對進(jìn)一步開發(fā)熊貓衛(wèi)星標(biāo)記數(shù)量、標(biāo)記輔助選擇、遺傳多樣性評價、構(gòu)建遺傳圖譜以及與其他物種基因組的比較研究都有重要意義。