亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時(shí)間序列的DNA 特征分析

2020-06-22 03:52:20王楚雯方寶琦

科學(xué)技術(shù)創(chuàng)新 2020年12期

王楚雯方寶琦許瑤

（大連民族大學(xué)理學(xué)院，遼寧大連116600）

1 概述

生物學(xué)的相關(guān)信息量革命性的爆炸，產(chǎn)生了對(duì)海量生物信息進(jìn)行處理的需求，而計(jì)算機(jī)技術(shù)的革命性發(fā)展，形成了處理海量生物信息的能力。生物信息學(xué)是從大量生物信息中提取生物學(xué)知識(shí)的學(xué)科，其研究了DNA、RNA 和蛋白質(zhì)分子，這些大分子包含了所有物種遺傳及其進(jìn)化的信息。如何在DNA 中探索更多的生物信息是有難度的，堿基在基因庫中的增長是迅速的，利用線粒體DNA 進(jìn)行分析是最有效、最快速的方法，線粒體DNA 是在生物系統(tǒng)研究中應(yīng)用最為廣泛的遺傳物質(zhì)之一。線粒體DNA 較核DNA 進(jìn)化速率快，并在遺傳過程不發(fā)生基因重組、倒位、易變等突變，嚴(yán)格遵守母系遺傳方式的特點(diǎn)。在此本文對(duì)線粒體中攜帶的mtDNA 的一般屬性進(jìn)行分析，隨機(jī)選取30 個(gè)哺乳動(dòng)物的線粒體DNA 序列，利用短記憶ARIMA 模型進(jìn)行建模，探究不同物種間的系統(tǒng)關(guān)系及特征。

2 模型介紹

短記憶ARIMA 模型：

具有如下結(jié)構(gòu)的模型稱為求和自回歸移動(dòng)平均模型，簡稱為ARIMA（p，d，q）模型：

其中，非負(fù)整數(shù)d 為求和階數(shù)，Φ（B）=1-φ1B-…-φpBp，為平穩(wěn)可逆ARMA（p，q）模型的自回歸系數(shù)多項(xiàng)式；Θ（B）=1-θ1B-…-θqBq為平穩(wěn)可逆ARMA 模型的移動(dòng)平均系數(shù)多項(xiàng)式。

d 階差分算子：

顯然，ARIMA 模型實(shí)質(zhì)就是差分運(yùn)算與ARMA 模型的組合，說明只要任意序列只要通過適當(dāng)階數(shù)的差分實(shí)現(xiàn)差分后平穩(wěn)，就可以對(duì)差分序列進(jìn)行ARMA 模型擬合了。

ARIMA 模型建模的基本步驟為：①判斷觀察值序列的平穩(wěn)性。②對(duì)原序列進(jìn)行一階差分運(yùn)算。對(duì)序列進(jìn)行平穩(wěn)性檢驗(yàn)、白噪聲檢驗(yàn)、殘差序列檢驗(yàn)、模型預(yù)測。如果序列非平穩(wěn)則重新建立模型。

3 線粒體DNA 的研究分析

隨機(jī)抽取30 個(gè)哺乳動(dòng)物的線粒體DNA，對(duì)于線粒體DNA攜帶的mtDNA 序列進(jìn)行研究。首先對(duì)選取的數(shù)據(jù)進(jìn)行初步處理：抽取mtDNA 序列中第四個(gè)位置的堿基為研究對(duì)象，將DNA中的四種核苷酸A、T、C、G，分別用編號(hào)為1，2，3，4 進(jìn)行堿基的替換，將DNA 字符串轉(zhuǎn)換為數(shù)值型變量，即DNA 序列時(shí)序化。對(duì)30 個(gè)哺乳動(dòng)物中的人類、馬、長須鯨、大猩猩、猩猩五種線粒體DNA 攜帶的mtDNA，建立短記憶ARIMA 模型進(jìn)行DNA 序列的擬合。下面以人為例。

3.1 mtDNA 序列的平穩(wěn)性及隨機(jī)性檢驗(yàn)

對(duì)human 的mtDNA 序列時(shí)序化后的時(shí)間序列，進(jìn)行繪制時(shí)序圖觀察序列的平穩(wěn)性，如圖1 所示，70 個(gè)數(shù)據(jù)的時(shí)序圖上下波動(dòng)較大，波動(dòng)范圍有界，但波動(dòng)有明顯趨勢性而無周期性，可知為非平穩(wěn)序列。再對(duì)其進(jìn)行1 階差分，可看到圖二為human 的一階差分時(shí)序圖，可看出有平穩(wěn)性；如圖3，4 所示的是human 的mtDNA 序列的自相關(guān)圖和偏自相關(guān)圖，可以看出的是差分后的時(shí)序圖上下波動(dòng)，但自相關(guān)系數(shù)、偏自相關(guān)系數(shù)始終非零，均具有拖尾性。DNA 序列的純隨機(jī)檢驗(yàn)p 值在延遲6 階和12 階后分別為7.543e-06，3.01e-08，均小于顯著性水平0.05，故拒絕原假設(shè)，認(rèn)為差分后的human 的DNA 序列為平穩(wěn)非白噪聲序列。

圖1 人的時(shí)序圖

圖2 人的一階差分的時(shí)序圖

圖3 一階差分自相關(guān)圖

圖4 一階差分偏自相關(guān)圖

3.2 模型識(shí)別及檢驗(yàn)

對(duì)于平穩(wěn)非白噪聲序列的人的mtDNA 序列，進(jìn)行短記憶ARIMA（p，d，q）模型的識(shí)別，其中d=1，由1 階差分序列的時(shí)序圖、自相關(guān)圖和偏自相關(guān)圖都表明，差分后的數(shù)據(jù)具有平穩(wěn)性，且能看出的是自相關(guān)系數(shù)在延遲1 階后都具有拖尾性，故我們首先初步確定ARTMA（1，1，1）模型來擬合mtDNA 的時(shí)間序列，擬合的模型結(jié)果為：

其中aic 值為210.95，再對(duì)殘差序列做白噪聲檢驗(yàn)，白噪聲檢驗(yàn)結(jié)果表明，延遲 6 階和 12 階的p 值分別為0.4465，0.09382，其值均大于0.05，因此模型成立，即ARIMA（1，1，1）模型擬合成功，但并不是最優(yōu)模型，重新建立ARIMA（3，1，1）模型，得到擬合模型為：

其中aic 值為209.73＜210.95，再做殘差序列的白噪聲檢驗(yàn)，其結(jié)果表明，延遲延遲6 階和12 階的p 值分別為0.9999，0.1856，其值均大于0.05，因此模型成立，通過aic 值可以看出，ARIMA（3，1，1）模型為最優(yōu)模型。

3.3 其他物種DNA 的數(shù)據(jù)分析

對(duì)于我們隨機(jī)選取的其他4 個(gè)物種線粒體DNA 攜帶的mtDNA 進(jìn)行同樣的模型建立，看是ARIMA 模型是否同樣能夠適用并且高度擬合，其他的4 個(gè)物種分別是馬、長須鯨、大猩猩、猩猩，對(duì)于這四個(gè)物種的mtDNA 序列時(shí)序化后的時(shí)間序列，進(jìn)行模型識(shí)別、參數(shù)估計(jì)、模型檢驗(yàn)。首先同樣先用ARIMA（1，1，1）模型來擬合其他四個(gè)物種的mtDNA 的時(shí)間序列，再建立ARIMA（3，1，1）模型來逼近ARIMA（1，1，1）模型，可以得到是ARIMA（3，1，1）模型依舊是最優(yōu)模型，其模型擬合結(jié)果為表1。其中模型殘差檢驗(yàn)在延遲6 階和12 階的p 值均大于顯著水平0.05，即模型擬合成功，說明利用短記憶ARIMA 模型進(jìn)行建模，可以探究不同物種間的系統(tǒng)關(guān)系及mtDNA 序列特征。

表1 4 條不同物種mtDNA 序列ARIMA 模型

表2 5 條不同物種mtDNA 序列預(yù)測值與真實(shí)值對(duì)比表

3.4 模型預(yù)測

對(duì)于上述5 個(gè)擬合成功的ARIMA（p，d，q）模型，我們對(duì)其mtDNA 序列的后五個(gè)堿基（71-75）進(jìn)行預(yù)測，來驗(yàn)證短記憶ARIMA（p，d，q）模型是否對(duì)線粒體DNA 攜帶的mtDNA 具有有效性。對(duì)于模型的預(yù)測值我們將其與真實(shí)值進(jìn)行比對(duì)，來檢驗(yàn)ARIMA 模型是否高度擬合。下表為五個(gè)物種mtDNA 的預(yù)測值與真實(shí)值對(duì)比表?？梢砸姷梦鍌€(gè)物種的mtDNA 序列的平均誤差分別是（見表2）。

4 結(jié)果分析

本文通過運(yùn)用短記憶ARIMA 模型，能清楚看到對(duì)于物種之間線粒體DNA 攜帶mtDNA 的特征，結(jié)構(gòu)以及之間的物種聯(lián)系。

表3 30 個(gè)物種mtDNA - ARIMA 模型表

對(duì)于30 個(gè)物種的mtDNA 再次進(jìn)行建模分析之間是否有親屬關(guān)系以及物種間的相似度，下表為30 條mtdna 根據(jù)模型ARIMA 擬合所得參數(shù)結(jié)果。從表中我們得出30 個(gè)線粒體DNA大致分為五大類：

①貓、大猩猩、狒狒、人、猩猩、小黑猩猩、長臂猿、普通黑猩猩、兔子、老鼠、藍(lán)鯨、長須鯨、睡鼠、鴨嘴獸、大袋鼠、鼠；其中大猩猩、狒狒、人類、猩猩、小黑猩猩、長臂猿、普通黑猩猩是有共同特性的。根據(jù)生物學(xué)知識(shí)，人和猩猩的基因差異只有0.75%，按照生物的形態(tài)結(jié)構(gòu)、功能以及親緣關(guān)系，它們都被分屬于動(dòng)物界脊椎動(dòng)物門哺乳綱靈長目類。對(duì)于其他物種因?yàn)槲覀兯x取的是DNA 片段并不全面，會(huì)有片面的判斷，因而會(huì)造成錯(cuò)誤分類，出現(xiàn)誤差。

②馬、羊、印度犀牛、驢；其中除了羊、馬、印度犀牛以及驢都屬于動(dòng)物界脊椎動(dòng)物門哺乳綱奇蹄目類。

③豚鼠、松鼠；其中豚鼠、松鼠都被分屬于動(dòng)物界脊椎動(dòng)物門哺乳綱嚙齒目類。

④白犀牛、狗、豬、負(fù)鼠、河馬、灰海豹、斑海豚、牛。第四類沒有顯著特性，這8 個(gè)物種也不具備相似的親緣關(guān)系。

從上述結(jié)果分析來看，30 個(gè)物種都可以用ARIMA（p，d，q）模型進(jìn)行有效合理的擬合，不排除個(gè)別個(gè)體的差異性，擬合結(jié)果都較好，則表明模型建立的合理，如此一來，我們可以利用此模型更準(zhǔn)確地估計(jì)隨機(jī)時(shí)序發(fā)展變化的規(guī)律并且對(duì)其進(jìn)行研究，利于我們生物學(xué)進(jìn)行根深一步的發(fā)展和探索。

對(duì)于物種之間DNA 的檢驗(yàn)不僅僅只局限于線粒體DNA 的研究，也不僅僅局限于這30 個(gè)物種，生物信息學(xué)所含括的還有很多，都可以運(yùn)用時(shí)間序列建立模型進(jìn)行探索。物種間的遺傳和進(jìn)化還存在于RNA，蛋白質(zhì)等大分子中，同樣可以利用短記憶模型。本文基于時(shí)間序列對(duì)DNA 特性的分析，其結(jié)果是DNA分子具有短記憶性，在物種間的聯(lián)系可將生物圈分為不同類別。