摘要 生物基因序列中,重復(fù)序列作用重大,現(xiàn)階段,生物學(xué)領(lǐng)域研究的熱點(diǎn)問題之一即為重復(fù)序列,研究目的在于將生物進(jìn)化機(jī)制等相關(guān)信息反映出來。在本文中,首先介紹了的生物基因序列及重復(fù)序列,接著研究了tRNA序列及HIV全序列中的重復(fù)序列。
關(guān)鍵詞 生物基因序列;重復(fù)序列;tRNA;HIV
中圖分類號 Q1 文獻(xiàn)標(biāo)識碼 A 文章編號 2095-6363(2016)14-0006-02
蛋白質(zhì)合成過程中,tRNA的作用非常重要,引起了大量研究者的注意,再加上AIDS對社會及人類健康的嚴(yán)重威脅,研究者們開始研究生物基因序列中的重復(fù)序列,旨在通過研究,了解生物進(jìn)化機(jī)制,并掌握相應(yīng)的功能與特征。
1生物基因序列及重復(fù)序列概述
1.1生物基因序列
tRNA的全稱為Transfer-RNA,為小分子核糖核酸。核苷酸為構(gòu)成tRNA的物質(zhì),通常,在一個tRNA中,核苷酸的數(shù)量為70到90幾個,分子量25000~30000左右,主要功能為向核糖體轉(zhuǎn)運(yùn)氨基酸,同時,發(fā)揮轉(zhuǎn)接器作用,解讀mRNA信息,因此,將其稱之為轉(zhuǎn)運(yùn)RNA。tRNA在蛋白質(zhì)合成中首次被發(fā)現(xiàn)的時間為1958年,隨后,越來越多的學(xué)者開始研究tRNA序列結(jié)構(gòu)。縱觀學(xué)者研究結(jié)果可知,tRNA序列結(jié)構(gòu)包含三級,線性排列結(jié)構(gòu)為一級結(jié)構(gòu),具備一定恒定性,而且修飾性堿基的數(shù)量比較多;三葉草結(jié)構(gòu)為二級結(jié)構(gòu),其中,手臂共四條,分別為受臂體、D臂、反密碼子臂、TIVC臂,多余臂一條;與倒立的L結(jié)構(gòu)相類似的為三級結(jié)構(gòu)。tRNA序列結(jié)構(gòu)具備恒定性,因此,基本不會改變堿基的位置,而堿基數(shù)量發(fā)生改變時,多發(fā)生在D臂和多余臂中。近年來,人類健康受到艾滋?。ˋIDS)的嚴(yán)重威脅,世界各國都廣泛的關(guān)注該疾病的防治工作。引起AIDS的主要原因即為人感染人類免疫缺陷病毒(HIV),感染后,免疫系統(tǒng)受到影響,功能紊亂,影響人的身體健康,甚至導(dǎo)致其死亡。HIV包含HIV-1和HIV-2兩種,其中,HIV-I為當(dāng)前世界中主要流行的。在變異性與毒性方面,HIV-1要強(qiáng)于HIV-2。在世界范圍內(nèi),AIDS的死亡率都比較高,至今為止,AIDS疫苗尚未被研制出。
1.2重復(fù)序列
生物基因組中,序列片段重復(fù)出現(xiàn)即稱之為重復(fù)序列。研究顯示,在生物基因組序列中,重復(fù)序列的存在非常廣泛,尤其是真核生物,80%以上為重復(fù)序列,甚至部分生物超過90%,不過重復(fù)序列通常無表達(dá),預(yù)測基因時,多會屏蔽掉重復(fù)序列,因此,有學(xué)者將其稱之為“垃圾基因”。后來,有學(xué)者研究證實(shí),在基因組中,重復(fù)序列所占據(jù)的比重非常大,而且其在生物體中的作用非常重要,由此促使越來越多的學(xué)者開始關(guān)注作者簡介:楊漢銘,河南師范大學(xué)附屬中學(xué)。重復(fù)序列。依照出現(xiàn)頻率,重復(fù)序列包含高度、中度及單一三類,高度重復(fù)序列是指多次進(jìn)行重復(fù)。通常,重復(fù)次數(shù)超過百萬次,中度重復(fù)序列重讀的次數(shù)少于高于重復(fù)序列,次數(shù)多為數(shù)十次至數(shù)萬次之間,而單一序列是指序列片段在基因組中出現(xiàn)1次或幾次,也被稱之為非重復(fù)序列。
2生物基因序列中重復(fù)序列研究
2.1tRNA序列中重復(fù)序列
基因組中,廣泛的存在重復(fù)序列,基于其在基因組中的重要作用,本節(jié)中,以3420條tRNA序列作為一個整體,統(tǒng)計(jì)其中的重復(fù)序列。研究時,所使用的tRNA序列均來源于相應(yīng)的數(shù)據(jù)庫中,經(jīng)過處理后剩余3420條。在進(jìn)行重復(fù)序列統(tǒng)計(jì)工作過程中,首先選擇一個序列,該序列固定長度為K個堿基,接著以tRNA序列為基礎(chǔ),統(tǒng)計(jì)每條序列中的K串序列、缺失序列(需真實(shí)出現(xiàn))。K串序列中,重疊會存在,而且一種編碼信息可能由3個堿基代表,因此,以3個堿基作為K串序列統(tǒng)計(jì)時的步長。
由統(tǒng)計(jì)結(jié)果可知,序列長度K不斷增加過程中,重復(fù)序列的出現(xiàn)次數(shù)由大逐漸變小,這與tRNA序列中減少K總數(shù)相關(guān)。重復(fù)序列長度K為2時,出現(xiàn)次數(shù)最多的重復(fù)序列為TT;為3時,出現(xiàn)次數(shù)最多的重復(fù)序列為GTT;為4時,出現(xiàn)次數(shù)最多的重復(fù)系列為GTTC,對這些重復(fù)序列進(jìn)行仔細(xì)的觀察可以發(fā)現(xiàn),隨著序列長度的增加,出現(xiàn)次數(shù)最多的序列只是在原來的基礎(chǔ)上增加b個堿基(1
2.2HIV全序列中重復(fù)序列
在統(tǒng)計(jì)HIV全序列中的重復(fù)序列數(shù)量時,下載的HIV全序列均來源于NCBI。下載完成后,進(jìn)行相應(yīng)的處理,將其中完全相同序列去除,之后再進(jìn)行統(tǒng)計(jì)工作。由于重疊部分可能存在于K串序列中,而且為了保證生物信息的全面性,以1個堿基作為K串序列統(tǒng)計(jì)時的步長,每次統(tǒng)計(jì)間隔1個堿基進(jìn)行。對于HIV全序列的重復(fù)序列來說,滿足power-law分布,由此可知,多次重復(fù)出現(xiàn)的重復(fù)序列在HIV全序列中比較少,多數(shù)重復(fù)序列的出現(xiàn)次數(shù)并不多。通過回文序列總數(shù)與頻數(shù)的重復(fù)序列關(guān)系圖可知,當(dāng)重復(fù)序列的長度分別為6、10、16、20時,總數(shù)與頻數(shù)的分布均滿足power-law分布。由不同長度含量最多的重復(fù)序列統(tǒng)計(jì)結(jié)果可知,序列長度為2~30時,重復(fù)序列出現(xiàn)的次數(shù)最多,考慮在HIV進(jìn)化與變異過程中,這些重復(fù)序列有重要作用。此外,在HIV全序列中,Gc堿基總含量明顯低于AT堿基,而且在K值相同情況下,100%AT含量的重復(fù)序列會多于100%GC含量,這說明,在HIV進(jìn)化期間,對AT堿基的偏好更大,或承受更大的AT堿基壓力。
3結(jié)論
對于tRNA序列與HIV序列中重復(fù)序列的研究,從內(nèi)容上看,歸屬于生物信息學(xué)研究,通過該項(xiàng)研究的開展,有利于人們更好地了解在生物進(jìn)化、發(fā)展中重復(fù)序列的作用,但由于生物信息學(xué)的研究時間尚比較短,加之生物數(shù)據(jù)不斷增多,還需要進(jìn)一步加大重復(fù)序列的研究力度,從而更為全面地了解其產(chǎn)生機(jī)制及功能,發(fā)揮重復(fù)序列的作用。