劉旻昊
摘 要:以Shannon熵理論結(jié)合Mark等人提出的AMI圖形的算法包含了基因組的特有信息。生物在漫長(zhǎng)的進(jìn)化過程中要適應(yīng)多種多樣的環(huán)境,進(jìn)而發(fā)生基因突變,這是生物進(jìn)化的基礎(chǔ)。通過提取基因序列的AMI變化結(jié)果來(lái)描述其在群體中的進(jìn)化程度。本文選取了具有代表性的64種脊椎動(dòng)物線粒體的基因數(shù)據(jù),構(gòu)建了生物進(jìn)化樹,取得了較為準(zhǔn)確的結(jié)果。
關(guān)鍵詞:基因突變;多樣性;生物進(jìn)化樹
根據(jù)已知的DNA序列來(lái)構(gòu)造生物進(jìn)化樹是伴隨著計(jì)算機(jī)技術(shù)和信息科學(xué)的發(fā)展而成長(zhǎng)起來(lái)的新興學(xué)科。通過近幾年的發(fā)展,發(fā)開出一系列軟件如PAUP、PHYLIP和MEGA等。但是通常在運(yùn)用這些方法之前,都要對(duì)序列進(jìn)行對(duì)比(sequence alignment),常用的軟件有CLUSTRALW等軟件。
本文擬提取出不同DNA序列的平均互信息AMI作為特征參數(shù),通過統(tǒng)計(jì)學(xué)對(duì)其進(jìn)行聚類,從而得到它們的進(jìn)化關(guān)系。此種方法沒有對(duì)序列的排列進(jìn)行分析對(duì)比,計(jì)算簡(jiǎn)單且速度較快,對(duì)大量數(shù)據(jù)的處理非常方便且準(zhǔn)確率較高。
一、理論與方法
1.平均互信息AMI
DNA序列為4種核苷酸A、C、G、T的集合,如果固定X在基因序列上的某一位置,則Y為X下游方向間隔k個(gè)位置的核苷酸。p(X)和p(Y)是核苷酸為X和Y的概率。其中表示nk(X,Y)前一個(gè)核苷酸為X,下游方向間隔k個(gè)位置為Y的組合的個(gè)數(shù),這樣pk(X,Y)就表示X和Y間隔為k的聯(lián)合分布概率。當(dāng)k=0時(shí),就表示了緊鄰二聯(lián)體核苷酸的概率,k=1時(shí)表示次緊鄰二聯(lián)體核苷酸的分布率[1]。
根據(jù)上述算法,我們可以計(jì)算出基因序列的平均互信息[2](AMI):Ik,不同的k值對(duì)應(yīng)不同的Ik,對(duì)于每一個(gè)基因組,我們都能夠得到一組向量I0,I1,I2,…,Ik,不同的基因序列,我們則可以得到不同的向量Ik,Jk,Lk…。
2.相關(guān)系數(shù)
在本文中我們選擇的是pearson相關(guān)系數(shù),它能反映兩個(gè)數(shù)據(jù)集之間的線性相關(guān)程度。這是一個(gè)范圍在[-1,+1]之間的數(shù)值,若相關(guān)系數(shù)為+1,表示兩個(gè)數(shù)據(jù)集合之間呈現(xiàn)完美的正線性相關(guān);若相關(guān)系數(shù)為-1,則表示量數(shù)據(jù)集之間是負(fù)線性相關(guān);若相關(guān)系數(shù)為0,則表示兩組數(shù)據(jù)之間沒有線性相關(guān)性。
3.距離計(jì)算
根據(jù)相關(guān)系數(shù),我們定義兩種基因的AMI之間的距離為:DIJ=1-CIJ。通過計(jì)算的距離可以看出各個(gè)物種與自己的距離為0,與其他物種的距離則根據(jù)進(jìn)化關(guān)系的遠(yuǎn)近而不同。
4.聚類分析
通過計(jì)算不同物種兩兩之間的AMI距離,可以得到一個(gè)距離矩陣。對(duì)于這個(gè)距離,選用“ward”法即離差平方的方法進(jìn)行聚類[3]。
二、數(shù)據(jù)與計(jì)算
1. 64種脊椎動(dòng)物的線粒體基因組[4]
線粒體是真核生物的能量發(fā)生器并編碼一些RNA與蛋白質(zhì)。線粒體編碼與細(xì)胞器翻譯有關(guān)的rRNAs與tRNAs,大部分由核編碼,在細(xì)胞質(zhì)中合成后轉(zhuǎn)運(yùn)給細(xì)胞器。所以線粒體的基因組結(jié)構(gòu)、多樣性以及進(jìn)化受到廣泛的研究。
本文選取的數(shù)據(jù)為從NCBI(http://www.ncbi.nlm.nih.gov)網(wǎng)站獲取的線粒體DNA完全基因組,共64種線粒體完全基因組。脊椎動(dòng)物線粒體長(zhǎng)度比較統(tǒng)一,大約為17000個(gè)核苷酸左右。這64種脊椎動(dòng)物主要包括了哺乳類(Mammalia)、魚類(Fish)和初龍下綱(Archosauria)三類。
2. 數(shù)據(jù)計(jì)算
對(duì)于這64種線粒體基因組,首先提取各自序列的AMI的值,對(duì)于k值大小的選取,通過選取不同的值,我們認(rèn)為取0到500是比較合適的。這樣,每種生物就得到一個(gè)向量,共有501個(gè)分量。對(duì)于這64種生物的AMI向量,計(jì)算相關(guān)系數(shù)得到距離,兩兩相比較距離得到一個(gè)距離矩陣,對(duì)距離矩陣通過ward法聚類,最后得到與生物遺傳學(xué)相近似的結(jié)果。
參考文獻(xiàn):
[1]羅遼復(fù).生命進(jìn)化的物理觀[M].上海:上??茖W(xué)技術(shù)出版社,2000: 168—183.
[2]Mark Bauer,Sheldon M Schuster,Khalid Sayood.The Average Mutual Information Profile as a Genomic Signature[J].BMC Bioinformatics,2008(01).
[3]張楚潤(rùn).多元統(tǒng)計(jì)分析[M].北京:科學(xué)出版社,2006.
[4]劉 軍,許甫榮.基于相對(duì)熵原理構(gòu)建生物進(jìn)化系統(tǒng)樹[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2003(S1): 76—81.
(作者單位:武警山東省總隊(duì)訓(xùn)練基地)