潘琳玉 馬弘 呂龍君 李春 渤海大學(xué)數(shù)學(xué)系 121000
DNA序列廣義3-D耦合數(shù)及其應(yīng)用
潘琳玉 馬弘 呂龍君 李春 渤海大學(xué)數(shù)學(xué)系 121000
本文在Z-曲線基礎(chǔ)之上,通過(guò)擴(kuò)大化的節(jié)點(diǎn)間的鄰接關(guān)系,構(gòu)造DNA序列的廣義的3-D耦合數(shù),并將其應(yīng)用到DNA序列的刻畫(huà)與比較研究中,對(duì)13個(gè)物種的 -球蛋白基因第一個(gè)外顯子序列的相似性分析證實(shí)了這種方法的有用性。
DNA Z-曲線; 廣義3-D耦合數(shù); 相似性分析
在DNA序列的圖形表示中,很多圖形表示伴隨著一定程度上的簡(jiǎn)并/退化(指圖形的交叉或重疊),這種簡(jiǎn)并現(xiàn)象則可能會(huì)伴隨某些信息的丟失,因而許多學(xué)者都致力于非簡(jiǎn)并的圖形表示研究,并且取得了很好的結(jié)果。但退化的圖形表示并非不可利用,關(guān)鍵在于能否借其退化的形式引入更多的數(shù)學(xué)工具,進(jìn)而挖掘其潛在的價(jià)值。本文正是以其為橋梁,通過(guò)擴(kuò)大化的節(jié)點(diǎn)間的鄰接關(guān)系,構(gòu)造DNA序列的廣義3-D耦合數(shù)。并將其應(yīng)用到13個(gè)物種的相似性分析中。
(a)0Q是一個(gè)列向量,,其中n表示圖中節(jié)點(diǎn)的個(gè)數(shù),它小于或等于序列中氨基酸的個(gè)數(shù)。qj為節(jié)點(diǎn)i所包含的電荷總量或權(quán)值,它等于在i點(diǎn)處的所有氨基酸的電量之和。
(b)0.這個(gè)向量的分量表示絕對(duì)初始概率,即,這里。
(c) 在文獻(xiàn)1Π被稱為一階隨機(jī)電子轉(zhuǎn)移矩陣,它是一個(gè)n階方陣,其中元素1pij表示為:步長(zhǎng)k=1,從帶電量為qi的節(jié)點(diǎn)ni移動(dòng)到帶電量為qi的節(jié)點(diǎn)ni的概率。
為截?cái)嗪瘮?shù)。Gonzalez-diaz等人[5]曾指出,在1Π中,忽略距離較遠(yuǎn)的氨基酸之間的直接相互作用,并不是否認(rèn)它們會(huì)以一種間接地方式相互作用。事實(shí)上,這種長(zhǎng)程相互作用也是可能發(fā)生的(非禁止)。鑒于此,本文對(duì)aij做如下規(guī)定:如果ni與nj為同一節(jié)點(diǎn)或鄰接兩個(gè)節(jié)點(diǎn)則令aij=1,不然令aij=1/|i-j|。
我們知道,每一條DNA序列可分成三條“編碼位置序列”,亦即相位序列,這三條序列分別由DNA序列中第1,4,7…;2, 5, 8…;3, 6, 9…位置上的堿基組成。按照文獻(xiàn)[6],我們將每條相位序列轉(zhuǎn)化為一條Z-曲線,進(jìn)而,每一條相位序列對(duì)應(yīng)一個(gè)點(diǎn)列。在向量0Q的構(gòu)造中,本文并不是直接取核苷酸的電荷,而是將其推廣到數(shù)學(xué)上的某種量,并從形式上稱之為廣義的“電荷”,這個(gè)所謂的“電荷”可以按照公式(4)確定:
值得注意的是,Z曲線并不是DNA的真實(shí)3維空間結(jié)構(gòu),在這個(gè)3-D圖中節(jié)點(diǎn)的個(gè)數(shù)小于或等于DNA序列中核苷酸堿基的實(shí)際個(gè)數(shù)??紤]到這點(diǎn),我們用來(lái)代替ζk,其定義如下:
其中n為相位序列的Z曲線中的節(jié)點(diǎn)數(shù),t為該相位序列中的堿基的實(shí)際個(gè)數(shù)。
綜上所述,由任意一條DNA序列可得到三個(gè)不同的點(diǎn)列,同時(shí)每個(gè)點(diǎn)列對(duì)應(yīng)4個(gè)耦合數(shù)。這樣,一條DNA序列可以用一個(gè)12元的向量來(lái)刻畫(huà),這個(gè)向量的分量是相應(yīng)的廣義3-D耦合數(shù)。
生物序列一旦以向量的形式表示出來(lái),序列間的比較就可以轉(zhuǎn)化為向量間的比較。通常認(rèn)為,如果兩個(gè)向量方向相近并且具有相近的量級(jí),那么由這兩個(gè)向量所代表的兩條序列就是相似的[7]。因此,兩個(gè)向量vi和vj之間的相似度可以由公式(5)計(jì)算得出:
其中d(vi,vj)是向量vi和vj之間的歐式距離,cos(vi,vj)是向量vi和vj之間的夾角余弦值。顯然,D(vi,vj)越小,兩條序列越相似。
為了驗(yàn)證我們的方法的有用性,我們?nèi)個(gè)不同物種的β-球蛋白基因的第一個(gè)外顯子序列進(jìn)行比較,它們被認(rèn)為是非常保守的序列,即進(jìn)化很慢的序列,能夠較穩(wěn)定的保持生物體的遺傳性狀。因此,許多相似性分析的文獻(xiàn)都以此為例。
根據(jù)公式(5),我們計(jì)算出13個(gè)物種彼此間的距離,并用MEGA軟件構(gòu)造出13個(gè)物種之間的系統(tǒng)發(fā)育樹(shù)(見(jiàn)圖1)。
從圖1可以看出,Gallus位于獨(dú)立的一個(gè)分支,這表明gallus與其它物種間的相似程度都比較低,這與Gallus是非哺乳動(dòng)物而其它物種都是哺乳動(dòng)物相吻合。仔細(xì)觀察哺乳動(dòng)物所對(duì)應(yīng)的子樹(shù),我們可以看到human, gorilla, and chimpanzee聚集在一起,同樣有(Opossum,mouse,rat)和(goat,sheep,mouflon and bovine)也各自聚集在一起。本章所得結(jié)果與文獻(xiàn)[7,8]中的結(jié)果基本一致。
圖1 13個(gè)物種 -球蛋白基因第一個(gè)外顯子序列的關(guān)系樹(shù)Fig.1: the relationship tree of the first exon of -globin genes of 13 species
[1] 楊柳.蛋白質(zhì)序列的圖形表示及其應(yīng)用.渤海大學(xué)碩士學(xué)位論文.2009.
[2] G.Aguero-Chapin, H.Gonzalez-Diaz, R.Molina, J.Varona-Santos, E.Uriarte, Y.Gonzalez-Diaz, FEBS Lett.580 (2006) 723_730.
[3] E.R.Collantes, W.J.Dunn, Amino acid chain descriptors for QSAR studies of peptides analogues, Journal of medicinal chemistry, 38, 1995, 2705-2713.
[4] Z.H.Lin, Y.Wu, Y.Wei, B.Ni, B.Zhu, L.Wang, A rapid method for quantitativeprediction of high affinity CTL epitopes∶ QSAR studies on peptides having affinity with the class I MHC molecular HLAA0201, Letters in peptide science,10, 2003, 15-23.
[5] H.Gonzalez-Diaz, R.Molina, E.Uriarte, Markov entropy backbone electrostatic descriptors for predicting proteins biological activity,Bioorganic& Medicinal chemistry letter, 14, 2004,4691-4695.
[6] R.Zhang, C.T.Zhang, Z curves, an intuitive tool for visualizing and analyzing DNA sequences, J.Biomol.Str.Dyn., 11, 1994, 767-782.
[7] M.Randic, M.Vracko, N.Lers, D.Plavsic, Analysis of similarity/dissimilarity of DNA sequences based on novel 2-D graphical representation, Chem.Phys.Lett., 371, 2003, 202-207.
[8] M.Randic, M.Vracko, N.Lers, D.Plavsic, Novel 2-D graphical representation of DNA sequences and their numerical characterization, Chem.Phys.Lett., 368, 2003, 1-6.
10.3969/j.issn.1001-8972.2010.11.012
潘琳玉 出生日期:1983年5月6日
性別:女 籍貫:吉林省公主嶺市
渤海大學(xué)在讀研究生 專業(yè):應(yīng)用數(shù)學(xué)
研究方向:生物信息學(xué)