王楚雯 方寶琦 許 瑤
(大連民族大學(xué)理學(xué)院,遼寧 大連116600)
生物學(xué)的相關(guān)信息量革命性的爆炸,產(chǎn)生了對(duì)海量生物信息進(jìn)行處理的需求,而計(jì)算機(jī)技術(shù)的革命性發(fā)展,形成了處理海量生物信息的能力。生物信息學(xué)是從大量生物信息中提取生物學(xué)知識(shí)的學(xué)科,其研究了DNA、RNA 和蛋白質(zhì)分子,這些大分子包含了所有物種遺傳及其進(jìn)化的信息。如何在DNA 中探索更多的生物信息是有難度的,堿基在基因庫中的增長是迅速的,利用線粒體DNA 進(jìn)行分析是最有效、最快速的方法,線粒體DNA 是在生物系統(tǒng)研究中應(yīng)用最為廣泛的遺傳物質(zhì)之一。線粒體DNA 較核DNA 進(jìn)化速率快,并在遺傳過程不發(fā)生基因重組、倒位、易變等突變,嚴(yán)格遵守母系遺傳方式的特點(diǎn)。在此本文對(duì)線粒體中攜帶的mtDNA 的一般屬性進(jìn)行分析,隨機(jī)選取30 個(gè)哺乳動(dòng)物的線粒體DNA 序列,利用短記憶ARIMA 模型進(jìn)行建模,探究不同物種間的系統(tǒng)關(guān)系及特征。
短記憶ARIMA 模型:
具有如下結(jié)構(gòu)的模型稱為求和自回歸移動(dòng)平均模型,簡稱為ARIMA(p,d,q)模型:
其中,非負(fù)整數(shù)d 為求和階數(shù),Φ(B)=1-φ1B-…-φpBp,為平穩(wěn)可逆ARMA(p,q) 模型的自回歸系數(shù)多項(xiàng)式;Θ(B)=1-θ1B-…-θqBq為平穩(wěn)可逆ARMA 模型的移動(dòng)平均系數(shù)多項(xiàng)式。
d 階差分算子:
顯然,ARIMA 模型實(shí)質(zhì)就是差分運(yùn)算與ARMA 模型的組合,說明只要任意序列只要通過適當(dāng)階數(shù)的差分實(shí)現(xiàn)差分后平穩(wěn),就可以對(duì)差分序列進(jìn)行ARMA 模型擬合了。
ARIMA 模型建模的基本步驟為:①判斷觀察值序列的平穩(wěn)性。②對(duì)原序列進(jìn)行一階差分運(yùn)算。對(duì)序列進(jìn)行平穩(wěn)性檢驗(yàn)、白噪聲檢驗(yàn)、殘差序列檢驗(yàn)、模型預(yù)測。如果序列非平穩(wěn)則重新建立模型。
隨機(jī)抽取30 個(gè)哺乳動(dòng)物的線粒體DNA,對(duì)于線粒體DNA攜帶的mtDNA 序列進(jìn)行研究。首先對(duì)選取的數(shù)據(jù)進(jìn)行初步處理:抽取mtDNA 序列中第四個(gè)位置的堿基為研究對(duì)象,將DNA中的四種核苷酸A、T、C、G,分別用編號(hào)為1,2,3,4 進(jìn)行堿基的替換,將DNA 字符串轉(zhuǎn)換為數(shù)值型變量,即DNA 序列時(shí)序化。對(duì)30 個(gè)哺乳動(dòng)物中的人類、馬、長須鯨、大猩猩、猩猩五種線粒體DNA 攜帶的mtDNA,建立短記憶ARIMA 模型進(jìn)行DNA 序列的擬合。下面以人為例。
對(duì)human 的mtDNA 序列時(shí)序化后的時(shí)間序列,進(jìn)行繪制時(shí)序圖觀察序列的平穩(wěn)性,如圖1 所示,70 個(gè)數(shù)據(jù)的時(shí)序圖上下波動(dòng)較大,波動(dòng)范圍有界,但波動(dòng)有明顯趨勢性而無周期性,可知為非平穩(wěn)序列。再對(duì)其進(jìn)行1 階差分,可看到圖二為human 的一階差分時(shí)序圖,可看出有平穩(wěn)性;如圖3,4 所示的是human 的mtDNA 序列的自相關(guān)圖和偏自相關(guān)圖,可以看出的是差分后的時(shí)序圖上下波動(dòng),但自相關(guān)系數(shù)、偏自相關(guān)系數(shù)始終非零,均具有拖尾性。DNA 序列的純隨機(jī)檢驗(yàn)p 值在延遲6 階和12 階后分別為7.543e-06,3.01e-08,均小于顯著性水平0.05,故拒絕原假設(shè),認(rèn)為差分后的human 的DNA 序列為平穩(wěn)非白噪聲序列。
圖1 人的時(shí)序圖
圖2 人的一階差分的時(shí)序圖
圖3 一階差分自相關(guān)圖
圖4 一階差分偏自相關(guān)圖
對(duì)于平穩(wěn)非白噪聲序列的人的mtDNA 序列,進(jìn)行短記憶ARIMA(p,d,q)模型的識(shí)別,其中d=1,由1 階差分序列的時(shí)序圖、自相關(guān)圖和偏自相關(guān)圖都表明,差分后的數(shù)據(jù)具有平穩(wěn)性,且能看出的是自相關(guān)系數(shù)在延遲1 階后都具有拖尾性,故我們首先初步確定ARTMA(1,1,1)模型來擬合mtDNA 的時(shí)間序列,擬合的模型結(jié)果為:
其中aic 值為210.95,再對(duì)殘差序列做白噪聲檢驗(yàn),白噪聲檢驗(yàn)結(jié)果表明, 延遲 6 階和 12 階的p 值分別為0.4465,0.09382,其值均大于0.05,因此模型成立,即ARIMA(1,1,1)模型擬合成功,但并不是最優(yōu)模型,重新建立ARIMA(3,1,1)模型,得到擬合模型為:
其中aic 值為209.73<210.95,再做殘差序列的白噪聲檢驗(yàn),其結(jié)果表明,延遲延遲6 階和12 階的p 值分別為0.9999,0.1856,其值均大于0.05,因此模型成立,通過aic 值可以看出,ARIMA(3,1,1)模型為最優(yōu)模型。
對(duì)于我們隨機(jī)選取的其他4 個(gè)物種線粒體DNA 攜帶的mtDNA 進(jìn)行同樣的模型建立,看是ARIMA 模型是否同樣能夠適用并且高度擬合,其他的4 個(gè)物種分別是馬、長須鯨、大猩猩、猩猩,對(duì)于這四個(gè)物種的mtDNA 序列時(shí)序化后的時(shí)間序列,進(jìn)行模型識(shí)別、參數(shù)估計(jì)、模型檢驗(yàn)。首先同樣先用ARIMA(1,1,1)模型來擬合其他四個(gè)物種的mtDNA 的時(shí)間序列,再建立ARIMA(3,1,1)模型來逼近ARIMA(1,1,1)模型,可以得到是ARIMA(3,1,1)模型依舊是最優(yōu)模型,其模型擬合結(jié)果為表1。其中模型殘差檢驗(yàn)在延遲6 階和12 階的p 值均大于顯著水平0.05,即模型擬合成功,說明利用短記憶ARIMA 模型進(jìn)行建模,可以探究不同物種間的系統(tǒng)關(guān)系及mtDNA 序列特征。
表1 4 條不同物種mtDNA 序列ARIMA 模型
表2 5 條不同物種mtDNA 序列預(yù)測值與真實(shí)值對(duì)比表
對(duì)于上述5 個(gè)擬合成功的ARIMA(p,d,q)模型,我們對(duì)其mtDNA 序列的后五個(gè)堿基(71-75)進(jìn)行預(yù)測,來驗(yàn)證短記憶ARIMA(p,d,q)模型是否對(duì)線粒體DNA 攜帶的mtDNA 具有有效性。對(duì)于模型的預(yù)測值我們將其與真實(shí)值進(jìn)行比對(duì),來檢驗(yàn)ARIMA 模型是否高度擬合。下表為五個(gè)物種mtDNA 的預(yù)測值與真實(shí)值對(duì)比表??梢砸姷梦鍌€(gè)物種的mtDNA 序列的平均誤差分別是(見表2)。
本文通過運(yùn)用短記憶ARIMA 模型,能清楚看到對(duì)于物種之間線粒體DNA 攜帶mtDNA 的特征,結(jié)構(gòu)以及之間的物種聯(lián)系。
表3 30 個(gè)物種mtDNA - ARIMA 模型表
對(duì)于30 個(gè)物種的mtDNA 再次進(jìn)行建模分析之間是否有親屬關(guān)系以及物種間的相似度,下表為30 條mtdna 根據(jù)模型ARIMA 擬合所得參數(shù)結(jié)果。從表中我們得出30 個(gè)線粒體DNA大致分為五大類:
①貓、大猩猩、狒狒、人、猩猩、小黑猩猩、長臂猿、普通黑猩猩、兔子、老鼠、藍(lán)鯨、長須鯨、睡鼠、鴨嘴獸、大袋鼠、鼠;其中大猩猩、狒狒、人類、猩猩、小黑猩猩、長臂猿、普通黑猩猩是有共同特性的。根據(jù)生物學(xué)知識(shí),人和猩猩的基因差異只有0.75%,按照生物的形態(tài)結(jié)構(gòu)、功能以及親緣關(guān)系,它們都被分屬于動(dòng)物界脊椎動(dòng)物門哺乳綱靈長目類。對(duì)于其他物種因?yàn)槲覀兯x取的是DNA 片段并不全面,會(huì)有片面的判斷,因而會(huì)造成錯(cuò)誤分類,出現(xiàn)誤差。
②馬、羊、印度犀牛、驢;其中除了羊、馬、印度犀牛以及驢都屬于動(dòng)物界脊椎動(dòng)物門哺乳綱奇蹄目類。
③豚鼠、松鼠;其中豚鼠、松鼠都被分屬于動(dòng)物界脊椎動(dòng)物門哺乳綱嚙齒目類。
④白犀牛、狗、豬、負(fù)鼠、河馬、灰海豹、斑海豚、牛。第四類沒有顯著特性,這8 個(gè)物種也不具備相似的親緣關(guān)系。
從上述結(jié)果分析來看,30 個(gè)物種都可以用ARIMA(p,d,q)模型進(jìn)行有效合理的擬合,不排除個(gè)別個(gè)體的差異性,擬合結(jié)果都較好,則表明模型建立的合理,如此一來,我們可以利用此模型更準(zhǔn)確地估計(jì)隨機(jī)時(shí)序發(fā)展變化的規(guī)律并且對(duì)其進(jìn)行研究,利于我們生物學(xué)進(jìn)行根深一步的發(fā)展和探索。
對(duì)于物種之間DNA 的檢驗(yàn)不僅僅只局限于線粒體DNA 的研究,也不僅僅局限于這30 個(gè)物種,生物信息學(xué)所含括的還有很多,都可以運(yùn)用時(shí)間序列建立模型進(jìn)行探索。物種間的遺傳和進(jìn)化還存在于RNA,蛋白質(zhì)等大分子中,同樣可以利用短記憶模型。本文基于時(shí)間序列對(duì)DNA 特性的分析,其結(jié)果是DNA分子具有短記憶性,在物種間的聯(lián)系可將生物圈分為不同類別。