亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ED算法和SNP-index算法計(jì)算SNP位點(diǎn)的比較分析
        ——以擬南芥為例*

        2022-04-21 04:43:18甘秋云
        關(guān)鍵詞:堿基擬南芥染色體

        甘秋云

        (福州理工學(xué)院應(yīng)用科學(xué)與工程學(xué)院,福建 福州 350014)

        1 引言

        在基因組中,單核苷酸多態(tài)性SNP(Single Nucleotide Polymorphism)是由單個(gè)核苷酸的變異產(chǎn)生的DNA序列多態(tài)性,是生物群體中最為常見的一種可遺傳變異。研究發(fā)現(xiàn),在人類基因組中,SNP數(shù)量可達(dá)300萬個(gè)甚至更多,幾乎每1 000個(gè)堿基對就會有1個(gè)SNP發(fā)生。SNP作為重要的分子標(biāo)記在遺傳研究中具有重要的研究價(jià)值,它為我們提供了一個(gè)強(qiáng)有力的工具,為進(jìn)一步研究不同生物個(gè)體之間遺傳差異,分析影響不同個(gè)體性狀的生物學(xué)基礎(chǔ)、定位相關(guān)疾病及藥物反應(yīng)的基因提供了科學(xué)依據(jù)。

        但是,隨著高通量測序技術(shù)的發(fā)展,DNA數(shù)據(jù)庫中的核酸序列呈幾何增長,如何將數(shù)據(jù)的積累向數(shù)據(jù)分析進(jìn)行轉(zhuǎn)變,成為一門新的課題。海量的生物信息數(shù)據(jù)不僅促進(jìn)了生物信息學(xué)的發(fā)展,同時(shí)也給數(shù)據(jù)挖掘提出了新的挑戰(zhàn)。因此,使用計(jì)算機(jī)工具,結(jié)合統(tǒng)計(jì)學(xué)和數(shù)學(xué)的研究方法,將計(jì)算機(jī)算法應(yīng)用于生物大數(shù)據(jù)分析,深入理解DNA序列的結(jié)構(gòu)和生物學(xué)功能,是生物信息學(xué)、生物統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等多門學(xué)科的綜合運(yùn)用,它體現(xiàn)了當(dāng)代科技的進(jìn)步[1]。

        本文通過分析ED(Euclidean Distance)算法和SNP-index算法,以擬南芥為例,通過DNA測序獲取序列讀段(reads),基于 Linux平臺,對測序數(shù)據(jù)進(jìn)行過濾、篩選,使用SOAPaligner短序列比對軟件對序列進(jìn)行比對,最后通過算法實(shí)現(xiàn),計(jì)算在不同算法下的SNP位點(diǎn)數(shù)量及各個(gè)SNP基因型比例。

        2 SNP計(jì)算算法

        當(dāng)今較為常用的檢測SNP軟件包括soapSNP[2]、GATK(Genome Analysis ToolKit)[3]、samtools(sequence alignment/map tools)[4]和bcftools(utilities for variant calling and manipulating VCFs and BCFs)[5]等。目前用于計(jì)算子代混池中SNP的主要有ED算法和SNP-index算法。

        2.1 ED算法

        ED算法在無親本的情況下即可定位SNP,具有很強(qiáng)的去除背景噪聲的能力。它的主要思想是通過計(jì)算不同混池中各個(gè)突變型的基因頻率距離,即ED值,利用距離差異來反映標(biāo)記與目標(biāo)區(qū)域的連鎖強(qiáng)度。ED值的計(jì)算公式如式(1)所示:

        ED=(Amut-Awt)2+(Cmut-Cwt)2+

        (Gmut-Gwt)2+(Tmut-Twt)2)1/2

        (1)

        其中,A,C,G,T為4種堿基符號,mut與wt分別表示突變型和野生型。根據(jù)序列比對結(jié)果(包括SNP位點(diǎn)集合測序深度),計(jì)算當(dāng)前位點(diǎn)中各突變型堿基占測序讀段(reads)的比例,通過式(1)計(jì)算混池間的突變型基因頻率差異,即ED值。ED值計(jì)算方法示意圖如圖1所示。

        Figure 1 Schematic diagram of ED algorithm calculating gene frequency distance

        由于SNP位點(diǎn)集中可能存在SNP位點(diǎn)的偏差,出現(xiàn)假陽性位點(diǎn),因此需要對計(jì)算所得的ED值進(jìn)行擬合。按照ED值從小到大排序,將前1%的ED值作為篩選SNP位點(diǎn)的閾值[6]。

        2.2 SNP-index算法

        SNP-index算法以某一親本或參考基因組為參考序列,統(tǒng)計(jì)在某位點(diǎn)上含有突變基因型的reads占總reads的比例,該算法需要親本或參考序列。該算法的計(jì)算方法如式(2)和式(3)所示:

        SNP-index(ab)=Mab/(Pab+Mab)

        (2)

        SNP-index(aa)=Maa/(Paa+Maa)

        (3)

        其中,Mab表示ab群體來自于突變型的深度;Pab表示ab群體來自于父本的深度;Maa表示aa群體來自于突變型的深度;Paa表示aa群體來自于父本的深度。圖2所示為SNP-index算法計(jì)算基因頻率示意圖。

        Figure 2 Schematic diagram of SNP-index algorithm to calculate gene frequency

        為了尋找混池之間基因型頻率的差異,需要通過計(jì)算混池間的基因型頻率差異進(jìn)行標(biāo)記關(guān)聯(lián)分析,用Δ(SNP-index)表示,若Δ(SNP-index)值越接近1,說明標(biāo)記與目標(biāo)區(qū)域的關(guān)聯(lián)性越強(qiáng),反之越弱。Δ(SNP-index)的計(jì)算方法如式(4)所示:

        Δ(SNP-index)=

        SNP-index(ab)-SNP-index(aa)

        (4)

        SNP-index算法需要親本的測序序列信息,這樣可以排除2個(gè)親本相對參考基因組共有的SNP,即去除背景噪聲。此外,親本檢測出來的SNP是和目標(biāo)性狀直接對應(yīng)的,這樣可以排除一些假陽性的SNP位點(diǎn),即Δ(SNP-index)趨于1但是并非與目標(biāo)性狀有關(guān)聯(lián)的標(biāo)記位點(diǎn)[7]。

        3 實(shí)驗(yàn)過程

        3.1 前期數(shù)據(jù)處理

        (1)數(shù)據(jù)來源。

        實(shí)驗(yàn)前期主要通過對擬南芥F1代野生型與突變型進(jìn)行雜交,在F2代群體中分別構(gòu)建突變型與野生型DNA池,并對混池樣品進(jìn)行深度測序,最終獲得平均長度為76 bp的測序序列讀段(reads)共29 264 012條。

        Figure 3 Format of sequence reads

        Figure 4 Format of sequence alignment results

        (2)過濾、篩選。

        測序獲得的野生型與突變型2個(gè)樣本的測序序列讀段格式如圖3所示。從圖3中可知序列最后一列以0和1標(biāo)記,代表測序質(zhì)量。為了保證后期檢測SNP位點(diǎn)的reads可靠,實(shí)驗(yàn)中剔除了測序質(zhì)量較低的reads,即測序結(jié)果中最后一列以0為標(biāo)記的讀段。

        (3)比對。

        在Linux系統(tǒng)下,使用SOAPaligner軟件進(jìn)行序列比對。參考序列從擬南芥數(shù)據(jù)庫TAIR(http://www.arabidopsis.org/)中得到,將比對結(jié)果文件按染色體及染色體的ID號進(jìn)行排序,根據(jù)比對結(jié)果文件提取有效數(shù)據(jù)進(jìn)行算法實(shí)現(xiàn)。比對結(jié)果文件格式如圖4所示。

        圖4所示的比對結(jié)果最后幾列信息中,“chr1”表示1號染色體;“6”表示reads第1個(gè)堿基比對到染色體上的位置;“C→33G4” 表示在參考序列染色體的第34位(0開始算第1位)有1個(gè)錯(cuò)配堿基,即參考序列上的堿基為C,而比對序列對應(yīng)位置的堿基是G;“44M”表示匹配的數(shù)目為44個(gè)堿基數(shù); “33C10”表示比對序列的前33個(gè)堿基是匹配的,第34個(gè)堿基是錯(cuò)配的,參考序列上的堿基應(yīng)為C,隨后又有10個(gè)堿基是匹配的。

        (4)比對結(jié)果處理。

        將比對的結(jié)果文件作為SNP查找的文件來源。因此,根據(jù)比對結(jié)果,主要獲取堿基匹配信息。本文實(shí)驗(yàn)中主要獲取染色體號(每條染色體號對應(yīng)一個(gè)結(jié)果文件)、堿基在染色體上的位置、參考堿基和堿基配對信息(包括正確配對和錯(cuò)配)。例如(3)中比對結(jié)果中獲取得到的數(shù)據(jù)為“Chr1 39 C G”,表示在1號染色體的第39個(gè)(reads第1個(gè)堿基比對到染色體上的位置是6,錯(cuò)配堿基在reads上的位置為33,最終定位到染色體上的位置為39)位點(diǎn)上參考堿基為C,錯(cuò)配堿基為G。最后,統(tǒng)計(jì)同一條染色體同一位置上的堿基配對情況,同時(shí)記錄當(dāng)前位置的覆蓋深度(這里主要指短序列比對到參考序列的數(shù)量,在本文實(shí)驗(yàn)中以染色體同一個(gè)位置的記錄數(shù)量作為覆蓋深度)。

        圖5a是1號染色體在第39個(gè)位點(diǎn)處的堿基配對情況,第4列為參考序列堿基,第5列為配對堿基。對配對結(jié)果文件進(jìn)行統(tǒng)計(jì),最終獲取當(dāng)前位點(diǎn)的堿基配對數(shù)目及錯(cuò)配堿基數(shù)目,結(jié)果如圖5b所示,其中第3列表示參考堿基,第4列表示從圖5a結(jié)果中統(tǒng)計(jì)得到的與參考堿基配對上的堿基數(shù)為10,即覆蓋深度為10×,第5列和第6列表示該位點(diǎn)上的錯(cuò)配堿基為G,數(shù)目為4。

        Figure 5 Base pairing on chromosomal sites and statistical results

        3.2 實(shí)現(xiàn)過程

        為了更好地比較2種算法的SNP計(jì)算結(jié)果,實(shí)驗(yàn)中將位點(diǎn)堿基配對結(jié)果分別使用ED和SNP-index 2種算法進(jìn)行實(shí)現(xiàn)。在ED算法中,分別計(jì)算野生型和突變型的4種堿基的基因頻率,根據(jù)式(1)計(jì)算ED值。在SNP-index算法中,根據(jù)式(2)和式(3)計(jì)算對應(yīng)位點(diǎn)SNP-index值。圖6為計(jì)算結(jié)果。

        Figure 6 SNP calculation results

        圖6中,第1列為染色體號;第2列表示當(dāng)前計(jì)算的ED值或SNP-index結(jié)果;第3列和第4列用于判斷潛在的SNP位點(diǎn);若2列的堿基型不相同,則認(rèn)為當(dāng)前位點(diǎn)為潛在的SNP位點(diǎn);第5列為當(dāng)前測序深度;最后1列表示染色體位點(diǎn)位置。由于可能存在測序錯(cuò)誤和比對錯(cuò)誤等其他因素,導(dǎo)致一些不可靠的多態(tài)性位點(diǎn)存在,實(shí)驗(yàn)中對測序深度值進(jìn)行了篩選,主要過濾了深度小于或等于2或大于或等于50的SNP位點(diǎn),以便提高SNP檢測的準(zhǔn)確性。

        由于某些SNP位點(diǎn)可能存在偏差,設(shè)定一個(gè)閾值作為篩選可靠SNP位點(diǎn)的標(biāo)準(zhǔn)。根據(jù)計(jì)算結(jié)果,將前1%的ED結(jié)果作為篩選SNP位點(diǎn)的閾值,統(tǒng)計(jì)在ED算法下各個(gè)染色體的SNP位點(diǎn)數(shù)量,并輸出對應(yīng)位點(diǎn)堿基符號的差異。在實(shí)現(xiàn)SNP-index算法前,需要計(jì)算對應(yīng)位點(diǎn)的SNP- index值,實(shí)驗(yàn)中將基因頻率低于0.3的位點(diǎn)進(jìn)行剔除。但是,由于測序深度有限以及測序的隨機(jī)性帶來的波動,對單個(gè)SNP計(jì)算SNP-index值往往不穩(wěn)定。為了降低不可靠的SNP位點(diǎn)帶來的偏差,本文實(shí)驗(yàn)主要計(jì)算某個(gè)區(qū)間內(nèi)的SNP-index平均值,實(shí)驗(yàn)中選用1 Mb的窗口為一個(gè)區(qū)間,以10 kb為步長進(jìn)行滑動,采用滑動窗口的方式統(tǒng)計(jì)某個(gè)窗口區(qū)間中所有SNP的SNP-index平均值作為當(dāng)前區(qū)間的SNP-index結(jié)果[7],同時(shí)計(jì)算各個(gè)染色體的SNP位點(diǎn)數(shù)量,并輸出對應(yīng)位點(diǎn)堿基符號的差異。

        4 實(shí)驗(yàn)結(jié)果分析

        4.1 平均覆蓋深度

        通過對不同染色體同一位點(diǎn)的覆蓋深度進(jìn)行統(tǒng)計(jì),分別計(jì)算2種算法下,1~5號染色體的覆蓋深度及全基因組平均覆蓋深度。從表1中可得,ED算法得到的1~5號染色體的平均覆蓋深度分別為8.6×,12.3×,10.4×,12.5×和11.6×,全基因組平均覆蓋深度為9×。SNP-index算法得到的1~5號染色體的平均覆蓋深度分別為10.2×,14.5×,13.4×,11.3×和10.8×,全基因組平均覆蓋深度為12×。圖7是2種算法得到5條染色體平均覆蓋深度圖。

        Table 1 Average coverage depth of arabidopsis thaliana genome with different algorithms

        Figure 7 Average coverage depth of arabidopsis thaliana genome with different algorithms

        4.2 SNP位點(diǎn)統(tǒng)計(jì)

        由于測序中存在許多不確定的因素可能造成測序錯(cuò)誤的發(fā)生,最終導(dǎo)致檢測結(jié)果出現(xiàn)虛假SNP位點(diǎn)。為保證SNP位點(diǎn)數(shù)據(jù)的可靠性,在前期的數(shù)據(jù)處理中對測序讀段進(jìn)行過濾、篩選,同時(shí)通過不同算法分別對樣本序列進(jìn)行SNP位點(diǎn)檢測,最終取得全基因組范圍內(nèi)的潛在SNP位點(diǎn)。表2是分別基于ED算法和SNP-index算法,計(jì)算擬南芥1~5號染色體SNP位點(diǎn)的結(jié)果。

        從表2中可以發(fā)現(xiàn),2種算法得到的擬南芥各個(gè)染色體對應(yīng)的SNP位點(diǎn)接近。其中,5號染色體SNP數(shù)目最多,平均達(dá)到70 000個(gè),其余4條染色體的SNP位點(diǎn)均為50 000左右。但是,ED算法得到的SNP數(shù)目相對于SNP-index算法的更多,分布更廣。通過ED算法得到的擬南芥全基因組SNP分布密度約為1.68 kb-1,通過SNP-index算法得到的擬南芥全基因組SNP分布密度約為1.62 kb-1。不論哪種算法,從結(jié)果中可以發(fā)現(xiàn)平均每1 kb即有1~2個(gè)SNP發(fā)生,圖8是2種算法下擬南芥全基因組SNP數(shù)目對比圖。

        Table 2 Statistics of SNP number and distribution density of arabidopsis thaliana genome with different algorithms

        Figure 8 Comparison of SNP numbers in arabidopsis thaliana genome with different algorithms

        4.3 SNP基因型統(tǒng)計(jì)

        常見的SNP為二等位多態(tài)性,主要包括轉(zhuǎn)換和顛換2種類型。正常堿基的配對為A-T和C-G,由于錯(cuò)配導(dǎo)致的堿基錯(cuò)誤可分為6種類型,分別為A/G、A/T、A/C、C/T、C/G和G/T,根據(jù)SNP篩選結(jié)果,統(tǒng)計(jì)分析這6種SNP類型在全基因組范圍內(nèi)所占的百分比。表3和表4分別是2種算法下每條染色體的SNP基因型比例,表5是不同算法下擬南芥全基因組SNP基因型的統(tǒng)計(jì)結(jié)果。

        從表3和表4中可以發(fā)現(xiàn),同一種算法下,不同染色體對應(yīng)的相同的SNP基因型比例大致相同。從表5中可以發(fā)現(xiàn),基于不同的2種算法計(jì)算得到的同一種SNP類型的發(fā)生比例無明顯差異。全基因組中,6種SNP基因型分布比例各不相同,

        Table 3 SNP genotype proportion per chromosome based on ED algorithm

        Table 4 SNP genotype proportion per chromosome based on SNP-index algorithm

        Table 5 Distribution proportion of SNP genotypes obtained by different algorithms

        A-G和C-T發(fā)生概率最大,平均比例高達(dá)28%以上,說明SNP類型中轉(zhuǎn)換發(fā)生的頻率大于顛換。在轉(zhuǎn)換中,C-T的概率略高于A-G,以C-T轉(zhuǎn)換為主,其原因可能是由于CpG的C堿基是甲基化的,最容易發(fā)生突變,容易自發(fā)脫氨基形成胸腺嘧啶T,因此CpG也變?yōu)橥蛔儫狳c(diǎn)[8]。其中,C/G的基因型是所有SNP類型中比例最低的,約為8.0%,這可能是因?yàn)镚/C與生物DNA的許多結(jié)構(gòu)特征有密切的聯(lián)系,在基因組中的含量最重,因此基因組中C-G比例偏低[9]。雖然不同算法下得到的SNP數(shù)量存在差異,但通過實(shí)驗(yàn)結(jié)果得到的SNP類型的數(shù)據(jù)統(tǒng)計(jì)結(jié)果與現(xiàn)已知的生物SNP型研究結(jié)果相近,表明當(dāng)前計(jì)算分析得到的擬南芥測序數(shù)據(jù)SNP位點(diǎn)檢測結(jié)果是可靠的。圖9是不同算法下擬南芥全基因組SNP基因型分布比例圖。

        Figure 9 Distribution of SNP genotypes in arabidopsis thaliana genome with different algorithms

        5 結(jié)束語

        通過測序擬南芥野生型和突變型樣本DNA,分析統(tǒng)計(jì)基于ED算法和SNP-index算法得到的擬南芥潛在的SNP位點(diǎn),結(jié)果發(fā)現(xiàn)ED算法得到的SNP位點(diǎn)數(shù)量更多,分布更廣,相對分布密度大于SNP-index算法的,但是2種算法得到的SNP分析結(jié)果接近。ED算法無需親本,因此當(dāng)無親本時(shí),可以選擇ED算法進(jìn)行計(jì)算。若有親本序列時(shí),2種算法都可以選擇,但是以SNP-index算法結(jié)果為準(zhǔn)。通過本文的前期數(shù)據(jù)分析,以SNP位點(diǎn)為分子標(biāo)記,為后期的突變基因的定位提供了可靠的數(shù)據(jù)基礎(chǔ)和理論依據(jù)。

        隨著時(shí)代的發(fā)展及人類基因組計(jì)劃的逐步實(shí)施,海量的生物學(xué)數(shù)據(jù)促進(jìn)了生物信息學(xué)的發(fā)展,同時(shí)也給數(shù)據(jù)挖掘工作提出了新的課題和挑戰(zhàn)。通過計(jì)算機(jī)對生物測序數(shù)據(jù)SNP進(jìn)行檢測分析,是一種新型、快速、簡便和低廉的方法,為揭示不同個(gè)體之間遺傳差異,分析影響不同的生物性狀、疾病及藥物反應(yīng)的相關(guān)基因定位提供了科學(xué)依據(jù)和技術(shù)支持。

        猜你喜歡
        堿基擬南芥染色體
        擬南芥:活得粗糙,才讓我有了上太空的資格
        應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
        中國科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
        生命“字母表”迎來4名新成員
        多一條X染色體,壽命會更長
        生命“字母表”迎來4名新成員
        為什么男性要有一條X染色體?
        尿黑酸對擬南芥酪氨酸降解缺陷突變體sscd1的影響
        兩種LED光源作為擬南芥生長光源的應(yīng)用探究
        擬南芥干旱敏感突變體篩選及其干旱脅迫響應(yīng)機(jī)制探究
        亚洲三级视频一区二区三区| 亚洲午夜看片无码| 女优视频一区二区三区在线观看| 国产视频网站一区二区三区| 亚洲A∨日韩Av最新在线| 亚洲一区二区三区免费的视频| 中文字幕午夜精品久久久| 大地资源网在线观看免费官网| 久久狠狠色噜噜狠狠狠狠97| 无码国产精品一区二区vr老人| 亚洲AV无码成人精品区日韩密殿| 亚洲性日韩一区二区三区| av素人中文字幕在线观看| 高清精品一区二区三区| 国产欧美一区二区精品性色| 亚洲一区二区情侣| 亚洲激情一区二区三区不卡| 国产永久免费高清在线| 99热免费观看| 午夜黄色一区二区不卡| 草草影院ccyy国产日本欧美| 热久久美女精品天天吊色| 伊人久久综合影院首页| av少妇偷窃癖在线观看| 亚洲国产一区二区视频| 欧美老肥妇做爰bbww| 7777精品久久久大香线蕉| 午夜久久精品国产亚洲av| 国产又大大紧一区二区三区| 成年女人a级毛片免费观看| 久久国产成人精品国产成人亚洲| 激情视频在线观看国产中文 | 国产精品人成在线观看免费 | 中文无码成人免费视频在线观看 | 91自拍视频国产精品| 久久国产劲暴∨内射| 亚洲ⅤA中文字幕无码| 手机在线看片在线日韩av| 欧美高清精品一区二区| 精品无码中文视频在线观看| 黄 色 成 年 人 网 站免费|