丁雪梅
(曲靖師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,云南 曲靖 655011)
含內(nèi)含子的核糖體蛋白基因轉(zhuǎn)錄起始位點(diǎn)情況分析
丁雪梅
(曲靖師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,云南 曲靖 655011)
選取69個(gè)含內(nèi)含子的核糖體蛋白基因,抽取其中每個(gè)基因轉(zhuǎn)錄起始位點(diǎn)附近長(zhǎng)度為100個(gè)堿基的序列,發(fā)現(xiàn)轉(zhuǎn)錄起始位點(diǎn)為堿基A的占92.8%,給出由位點(diǎn)狀態(tài)轉(zhuǎn)移到位點(diǎn)后與位點(diǎn)相鄰狀態(tài)的一步轉(zhuǎn)移概率矩陣P以及由位點(diǎn)前與位點(diǎn)相鄰狀態(tài)轉(zhuǎn)移到位點(diǎn)狀態(tài)的一步轉(zhuǎn)移概率矩陣 .含內(nèi)含子的核糖體蛋白基因中富含堿基A,T的序列可能有利于基因的轉(zhuǎn)錄.
內(nèi)含子;核糖體蛋白基因;轉(zhuǎn)錄起始位點(diǎn)
合成基因的RNA(核糖核酸)拷貝的過(guò)程就是轉(zhuǎn)錄(transcription),轉(zhuǎn)錄起始(initiation of transcription)是指在基因上游負(fù)責(zé)將基因拷貝成RNA的蛋白復(fù)合物的組裝過(guò)程,位點(diǎn)(locus)是染色體上遺傳標(biāo)記或DNA標(biāo)記的位置,轉(zhuǎn)錄起始位點(diǎn)(TSS)是研究真核生物轉(zhuǎn)錄調(diào)控的一個(gè)重要方面.我們對(duì)含內(nèi)含子的核糖體蛋白基因轉(zhuǎn)錄起始位點(diǎn)情況進(jìn)行分析.
2.1 選取樣本
我們從酵母內(nèi)含子數(shù)據(jù)庫(kù)(YIDB,http://www. imb-jcna.de/RNA.html)中選出含內(nèi)含子的核糖體蛋白基因,共計(jì)69個(gè)基因.為了探尋轉(zhuǎn)錄起始位點(diǎn),人們已做了多次實(shí)驗(yàn),每個(gè)核糖體蛋白基因至少給出了一個(gè)可能的轉(zhuǎn)錄起始位點(diǎn),選取其中每個(gè)基因?qū)嶒?yàn)結(jié)果為出現(xiàn)次數(shù)最多的轉(zhuǎn)錄起始位點(diǎn)附近長(zhǎng)度為100個(gè)堿基的序列,該位點(diǎn)位于這100個(gè)堿基序列的第51個(gè)位置,若每個(gè)基因?qū)嶒?yàn)出現(xiàn)次數(shù)最多的轉(zhuǎn)錄起始位點(diǎn)不止一個(gè),只取其中的一個(gè)位點(diǎn),抽取情況見(jiàn)表1.表1中sample表示樣本,gene表示基因,experiment number表示實(shí)驗(yàn)次數(shù),TSS(frequency)表示實(shí)驗(yàn)中核糖體蛋白基因上游(upstrean)的轉(zhuǎn)錄起始位點(diǎn)(轉(zhuǎn)錄起始位點(diǎn)出現(xiàn)的次數(shù)).
表1 含內(nèi)含子的核糖體蛋白基因及轉(zhuǎn)錄起始位點(diǎn)
表1 含內(nèi)含子的核糖體蛋白基因及轉(zhuǎn)錄起始位點(diǎn)
2.2 一步轉(zhuǎn)移概率矩陣
我們選取的69個(gè)基因中,轉(zhuǎn)錄起始位點(diǎn)出現(xiàn)堿基A的有64個(gè)基因,轉(zhuǎn)錄起始位點(diǎn)出現(xiàn)堿基T的有3個(gè)基因,轉(zhuǎn)錄起始位點(diǎn)出現(xiàn)堿基C的有2個(gè)基因.為了敘述方便,我們給出堿基“前”與“后”的定義,如有序列5'-ATG-3',堿基T前面是堿基A,堿基T后面是堿基G.表2給出了抽取出的69個(gè)基因序列樣本中轉(zhuǎn)錄起始位點(diǎn)及位點(diǎn)前后與位點(diǎn)相鄰的堿基分布情況.表2中site before site表示位點(diǎn)前與位點(diǎn)相鄰堿基,TSS表示轉(zhuǎn)錄起始位點(diǎn),site after site表示位點(diǎn)后與位點(diǎn)相鄰堿基,sample number表示樣本個(gè)數(shù).
表2 轉(zhuǎn)錄起始位點(diǎn)及位點(diǎn)前后與位點(diǎn)相鄰的堿基分布情況
若Xm表示位點(diǎn)的狀態(tài),Xm-1表示位點(diǎn)前與位點(diǎn)相鄰的狀態(tài),xm+1表示位點(diǎn)后與位點(diǎn)相鄰的狀態(tài),引入轉(zhuǎn)移概率
Pij表示在位點(diǎn)處于狀態(tài)i的條件下,位點(diǎn)后與位點(diǎn)相鄰的狀態(tài)為j的轉(zhuǎn)移概率,例如
類(lèi)似地,可以計(jì)算PAG,PTA,PTT,PTG,PCA,由它們組成的一步轉(zhuǎn)移概率矩陣P為
矩陣P反映了由位點(diǎn)的狀態(tài)i經(jīng)一步轉(zhuǎn)移到位點(diǎn)后與位點(diǎn)相鄰的狀態(tài)j的概率.引入轉(zhuǎn)移概率
P'ij表示在位點(diǎn)前與位點(diǎn)相鄰的狀態(tài)為i的條件下,位點(diǎn)的狀態(tài)為j的轉(zhuǎn)移概率,例如
類(lèi)似地,可以計(jì)算P'TA,P'TT,P'GA,P'GT,P'GC,由它們組成的一步轉(zhuǎn)移概率矩陣P'為
矩陣P'反映了由位點(diǎn)前與位點(diǎn)相鄰的狀態(tài)i經(jīng)一步轉(zhuǎn)移到位點(diǎn)的狀態(tài)j的概率.
我們選取了69個(gè)含內(nèi)含子的核糖體蛋白基因,抽取其中每個(gè)基因轉(zhuǎn)錄起始位點(diǎn)附近長(zhǎng)度為100個(gè)堿基的序列,發(fā)現(xiàn)轉(zhuǎn)錄起始位點(diǎn)為堿基A的占了92.8%,給出了由位點(diǎn)狀態(tài)轉(zhuǎn)移到位點(diǎn)后與位點(diǎn)相鄰狀態(tài)的一步轉(zhuǎn)移概率矩陣P,以及由位點(diǎn)前與位點(diǎn)相鄰狀態(tài)轉(zhuǎn)移到位點(diǎn)狀態(tài)的一步轉(zhuǎn)移概率矩陣P'.這可能預(yù)示著含內(nèi)含子的核糖體蛋白基因中富含堿基A,T的序列有利于基因的轉(zhuǎn)錄.
〔1〕張新生,王梓坤.生命信息遺傳中的若干數(shù)學(xué)問(wèn)題[J].科學(xué)通報(bào),2000,45(2):113~119.
〔2〕[英]T.A.布朗.基因組[M].北京:科學(xué)出版社,2004.
〔3〕盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)(第三版)[M].北京:高等教育出版社,2004.
〔4〕復(fù)旦大學(xué).概率論[M].北京:高等教育出版社,1995.
〔5〕張靜,石秀凡.酵母基因中轉(zhuǎn)錄正調(diào)控內(nèi)含子序列特征的統(tǒng)計(jì)分析[J].生物化學(xué)與生物物理進(jìn)展,2003,30(2):231~238.
Q 503;Q 522
A
1673-260X(2013)02-0005-03