亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        通過DFT變換提取DNA序列特征聚類物種

        2018-03-27 03:41:10攀,鐘
        小型微型計算機系統(tǒng) 2018年3期
        關(guān)鍵詞:物種

        昌 攀,鐘 誠

        (廣西大學 計算機與電子信息學院 廣西高校并行分布式計算技術(shù)重點實驗室,南寧 530004)

        1 引 言

        隨著后基因時代(Post-genome era)的到來,越來越多的DNA序列信息被挖掘出來.使用傳統(tǒng)的生物測序?qū)嶒灧治鯠NA序列已經(jīng)變得越來越復雜和低效.聚類分析技術(shù)為分析快速增長的DNA序列提供了切實可行的方法,使預測同類別基因的功能變得方便[1].屬于同一類別的DNA序列彼此間的差異性較小,生物學上的功能彼此相似,有利于分析物種間的進化關(guān)系[2,3].

        物種聚類需要計算DNA序列之間的相似度.目前有兩種常用的測量序列之間相似度的方法.一種是基于序列比對的DNA序列相似度計算方法,它通過獲得序列間的全局比對信息來評判DNA序列間的相似度,常用算法有BLAST[4]、FASTA[5]、UCLUST[6]和CD-HIT[7].盡管序列比對可以獲得較好的結(jié)果,但當處理海量DNA序列時,不僅消耗大量的內(nèi)存和計算時間,而且很難獲得一個讓人滿意的比對結(jié)果[8].另一種是無需比對的DNA序列相似度計算方法,其基本思想是將任一條DNA序列轉(zhuǎn)化成一個特定長度的特征向量,以快速計算出DNA序列之間的相似度.

        已有的一些無需比對的DNA序列相似度計算方法結(jié)合統(tǒng)計學模型生成特征向量,典型的馬爾可夫模型(Markov Model)[9,10]被廣泛應用于生物信息學的研究中.然而,馬爾可夫模型存在著一些不足.Lu等人在文獻[11]中指出:無需比對的馬爾可夫模型的假設削弱了模型的適用性.K元組方法[12,13]是一種常用的無需比對的DNA序列相似度計算方法,它通過一個長度為K的滑動窗口對DNA序列進行分割,統(tǒng)計每個元組出現(xiàn)的頻數(shù),構(gòu)造一個基于元組頻數(shù)值的4K維特征向量,然后利用特征向量計算DNA序列之間的相似度.運用K元組方法可以將任一條DNA序列轉(zhuǎn)化成一個定長的特征向量,有助于解決不同DNA序列長度不等長的問題.K元組方法的不足是:不能完全描述DNA序列的全部特征,對于子序列特征的提取也未能考慮到子序列的位置特征信息.文獻[14]提出的DMK算法融入K元組的位置特征,使用“信息熵”重新計算K元組的特征值,使計算得到的DNA序列相似度優(yōu)于K元組算法計算得到的DNA序列相似度.文獻[15]的CPF算法采用“信息熵”的方法,按照生物信息學的知識將DNA序列堿基進行分類,通過發(fā)掘DNA序列的局部特征計算DNA序列的相似度對物種聚類.相對于K元組方法,CPF算法提高了聚類結(jié)果的準確度.近年來,文獻[16,17] 將DNA序列的信息數(shù)值化,利用離散傅里葉變換(DFT)思想來處理DNA數(shù)值化序列,使測量DNA序列的突變率的效率更高,為度量物種的親緣性關(guān)系提供了一種新思路.文獻[16,17]的方法只考慮了組成DNA序列的4種堿基{A,T,C,G}各自的二進制指示序列,忽略了DNA序列子序列所固有的種類、含量和位置等生物特征,生成的系統(tǒng)進化樹未能準確呈現(xiàn)物種的進化關(guān)系.

        本文通過離散傅里葉變換提取DNA序列中子序列種類、含量和位置3種重要生物特征,給出一種改進的應用于物種聚類的無需比對的DNA序列相似度計算算法AFCS_DFT.AFCS_DFT算法能計算出更準確的DNA序列相似度和更準確聚類物種.

        2 DNA序列相似度計算

        2.1 傅里葉變換與功率譜

        在信號處理過程中,離散傅里葉變換(Discrete Fourier Transformation,DFT)將時間域上的序列轉(zhuǎn)換成頻率域,使時間域上的一些重要信息顯現(xiàn)出來.DFT變換被廣泛應用于DNA研究(例如基因功能預測、編碼蛋白質(zhì)區(qū)域檢測、層次聚類等)中[18].離散傅里葉變換的功率譜可以揭示DNA核苷酸的位置分布和頻率的狀況.

        在信號處理過程中,對于一段長度為N的信號序列χ(n)在特定的k頻率下進行離散傅里葉變換轉(zhuǎn)換成序列X(k)[19]:

        (1)

        PS(k)=|Χ(k)|2,k=0,1,…,N-1

        (2)

        根據(jù)式(1)和(2),當k=0時,計算出頻率為0時的特定功率譜PS(0):

        (3)

        當χ(n)為二進制指示序列時,PS(0)的值等于二進制指示序列中1 的個數(shù)總和的平方.

        2.2 AFCS_DFT算法

        本文給出的改進的應用于物種聚類的DNA序列相似度計算方法AFCS_DFT(Alignment- Free Computing Similarity using Discrete Fourier Transformation)的思想是:首先,按照組成DNA序列的堿基生物特性[15],將任一條DNA序列生成3條等長的特征序列,從特征序列中辨別出子序列的種類、含量和位置3種重要生物特征,將這3條等長的特征序列映射成相應的12條二進制指示序列,利用離散傅里葉變換和后面給出的式(14),從功率譜(能量)中提取出這12條二進制指示序列的生物特征向量值,從而將一條DNA序列轉(zhuǎn)換成一個24維的特征向量,最后使用歐式距離計算得到更準確的DNA序列相似度.

        通過分析組成DNA序列的4種堿基:胞嘧啶(C)、鳥嘌呤(G)、腺嘌呤(A)、胸腺嘧啶(T)的化學特性,將這4種堿基分成如下3類[14]:

        1)嘌呤集R={A,G},嘧啶集Y={C,T};

        2)胺基集M={A,C},酮基集K={G,T};

        3)弱氫鍵集W={A,T},強氫鍵集S={C,G}.

        對于某一個特定的堿基集,任一條DNA序列都可以映射成特定堿基集合組成的序列S(n)[14].例如,對于序列S:ACAGACACCATGGTGCACCTCCT,將S映射到嘌呤集R和嘧啶集Y中得到S1序列:

        S1:RYRRRYRYYRYRRYRYRYYYYYY

        將S映射到胺基集M與酮基集K中,得到S2序列:

        S2:MMMKMMMMMMKKKKKMMMMKMMK

        將S映射到弱氫鍵集W與強氫鍵集S中,得S3序列:

        S3:WSWSWSWSSWWSSWSSWSSWSSW.

        對于映射到特定集合上的序列S(n),采用K元組(這里K=2)算法[12,13],參照文獻[14]的方法生成相應子序列的二進制指示序列fα(n):

        (4)

        其中子序列α對應于嘌呤集R和嘧啶集Y的{RR,RY,YR,YY}序列集合、對應于胺基集M與酮基集K的{MM,MK,KM,KK}序列集合以及對應于弱氫鍵集W與強氫鍵集S的{WW,WS,SW,SS}序列集合,亦即子序列α∈{RR,RY,YR,YY,MM,MK,KM,KK,WW,WS,SW,SS}集合.例如,對于S1序列可以分解成4條獨立的二進制序列:

        RR型的fRR序列,fRR=0011000000010000000000;

        RY型的fRY序列,fRY=1000101001001010100000;

        YR型的fYR序列,fYR=0100010010100101000000;

        YY型的fYY序列,fYY=0000000100000000011111.

        于是,可以將任一條長度為N的DNA序列分解成長度為L=(N-1)的12條二進制指示序列fα(n),n=1,…,(N-1),fα(n)∈{fRR,fRY,fYR,fYY,fMM,fMK,fKM,fKK,fWW,fWS,fSW,fSS}.

        通過進一步分析序列fα(n)的組成,我們可以發(fā)現(xiàn)fα(n)可以保留了DNA序列子序列的種類、含量和位置3種重要生物特征.然后,利用離散傅里葉變換對fα(n)進行子序列特征值的提取,特征值中將保留DNA序列子序列的種類、含量和位置3種重要生物特征.

        為了提取DNA序列子序列的含量,我們給出式(5)以計算出每種特定的子序列α在二進制指示序列fα中的含量C(α)計算如下:

        (5)

        其中Nα為二進制指示序列fα(n)中相應子序列α的數(shù)量,即二進制指示序列fα(n)中“1”的數(shù)量.

        利用離散傅里葉變換對fα(n)中的12條二進制指示序列{fRR,fRY,fYR,fYY,fMM,fMK,fKM,fKK,fWW,fWS,fSW,fSS}提取得到的特征值保留了DNA序列子序列的種類、含量和位置3種重要生物特征,這將比采用K元組算法[11,12]提取出更多的DNA序列信息,克服了文獻[15,16]提取單一生物特征的不足,解決了CPF算法[14]計算復雜的問題.

        以下是運用離散傅里葉變換提取12條二進制指示序列

        1www.ncbi.nlm.nih.gov

        中DNA序列子序列的種類、含量和位置3種特征值的具體方法.

        根據(jù)式(1),將二進制指示fα(k)進行DFT變換后得到序列Fα(k):

        (6)

        其中L=N-1為二進制指示序列fα(n)的長度.根據(jù)式(2),Fα(k)在特定頻率k下的DFT功率譜PSα(k)表示為:

        PSα(k)=|Fα(k)|2,k=0,1,…,L-1

        (7)

        (8)

        根據(jù)廣義帕賽瓦爾定理(Parseval's theorem):一個信號所含有的能量(功率)恒等于此信號在完備正交函數(shù)集中各分量能量(功率)之和[19].將帕賽瓦爾定理運用在離散傅里葉變換中得到[19]:

        (9)

        (10)

        (11)

        (12)

        離散傅里葉變換(DFT)存在對稱性[19].于是,式(12)可以調(diào)整為:

        (13)

        (14)

        為了計算各序列特征向量之間的相似度,需要考慮以下約束條件:對于給定DNA序列集合S,序列x,y∈S,x與y之間的相似度d(x,y)需要滿足以下3個性質(zhì)[20]:(1)非負性:d(x,y)≥0,d(x,y)=0,當且僅當x=y;(2)對稱性:d(x,y)=d(y,x)恒成立;(3)滿足三角不等式:對于z∈S,d(x,y)≤d(x,z)+d(z,y).

        采用歐氏距離計算任意2條DNA序列x和y特征向量之間的距離:

        (15)

        計算得到的距離d(x,y)滿足上述3個性質(zhì).

        3 實 驗

        實驗使用的計算機為4核AMD Athlon (tm)ⅡX4 645 3.10GHz處理器、內(nèi)存容量4GB.運行操作系統(tǒng)Windows 7.軟件運行環(huán)境是Visual studio 2012.采用C++語言編程實現(xiàn)算法.

        2組實驗數(shù)據(jù)分別是:10個物種的全β-球蛋白基因序列[21]和美國國立生物技術(shù)信息中心NCBI1提供的30種甲型流感病毒的神經(jīng)氨酸苷酶基因序列.實驗首先運用AFCS_DFT算法將任一條DNA序列映射成相應的特征向量,然后根據(jù)式(15)計算任意個物種DNA序列之間特征向量的相似度,最后將DNA序列之間的相似度矩陣導入應用軟件MEGA 6[17]中,使用構(gòu)造UPGMA樹[22]的方法構(gòu)建系統(tǒng)進化樹進行DNA序列的聚類.實驗將本文給出的AFCS_DFT算法與已有的同類算法CPF[15]和DFT[17]構(gòu)建的系統(tǒng)進化樹進行比對分析.

        3.1 10個物種的全β-球蛋白基因序列構(gòu)建的系統(tǒng)進化樹

        文獻[21]中給出的10個物種的全β-球蛋白基因序列常用作測試物種之間的進化關(guān)系.運行AFCS_DFT、DFT和CPF算法分別計算得到10個物種全β-球蛋白基因序列之間的相似度.依據(jù)得到的全β-球蛋白質(zhì)基因序列之間的相似度,利用軟件MEGA 6[17],使用構(gòu)造UPGMA樹[22]方法構(gòu)建10個物種的全β-球蛋白基因序列的系統(tǒng)進化樹如圖1-圖3所示,圖中橫坐標代表物種相似度的度量的標尺.

        從生物信息學的角度分析,物種 Human與Gorilla、Chimpanzee的親緣關(guān)系遠大于Human與Goat、Bovine的親緣關(guān)系[21].從圖1-圖3的結(jié)果可知,AFCS_DFT與CPF構(gòu)建的系統(tǒng)進化樹符合這一特征,而DFT構(gòu)建的系統(tǒng)進化樹結(jié)果卻相反.AFCS_DFT與CPF可以將哺乳動物與非哺乳動物(Gallus是非哺乳動物,其他物種是哺乳動物)區(qū)分開來同時與Bovine和Goat物種相比,Human、Gorilla、Chimpanzee和Lemur物種的相似度與Mouse和Rat物種更接近,這些結(jié)果與文獻[21,23]的研究結(jié)果一致.而DFT構(gòu)建的系統(tǒng)進化樹未能將卵生動物Gallus與胎生動物Human、Lemur、Gorilla、Chimpanzee、Goat、Bovine、Mouse、Rat物種區(qū)分.

        圖1 AFCS_DFT算法構(gòu)建的系統(tǒng)進化樹Fig.1 Phylogenetic tree constructed by AFCS_DFT

        圖2 DFT算法構(gòu)建的系統(tǒng)進化樹Fig.2 Phylogenetic tree constructed by DFT

        圖3 CPF算法構(gòu)建的系統(tǒng)進化樹Fig.3 Phylogenetic tree constructed by CPF

        另一方面,與CPF相比,AFCS_DFT符合生物信息學上具有高度親緣關(guān)系的物種DNA序列之間差異較小的特征.此外,AFCS_DFT增大了親緣關(guān)系稀薄的物種DNA序列之間的差異.

        上述結(jié)果表明:AFCS_DFT、CPF在10個物種的全β-球蛋白基因序列數(shù)據(jù)實驗中,發(fā)掘物種之間進化關(guān)系的性能優(yōu)于DFT;另一方面,AFCS_DFT在顯現(xiàn)物種之間的進化關(guān)系上優(yōu)于CPF.

        3.2 30種甲型流感病毒的神經(jīng)氨酸苷酶基因序列的系統(tǒng)進化樹

        為了測試AFCS_DFT、DFT和CPF算法聚類神經(jīng)氨酸苷酶全基因序列的準確性,我們從美國國立生物技術(shù)信息中心NCBI中隨機選取了30種H1N1-H1N6的神經(jīng)氨酸苷酶全基因序列(NA基因)作為測試序列.根據(jù)AFCS_DFT、DFT和CPF計算得到的DNA序列之間的相似度,應用MEGA 6軟件,使用構(gòu)造的0種H1N1-H1N6的神經(jīng)氨酸苷酶全基因序列的系統(tǒng)進化樹分別如圖4-圖6所示,圖中的橫坐標代表物種相似度的度量的標尺.

        圖4 AFCS_DFT構(gòu)建的系統(tǒng)進化樹Fig.4 Phylogenetic tree constructed by AFCS_DFT

        圖5 DFT構(gòu)建的系統(tǒng)進化樹Fig.5 Phylogenetic tree constructed by DFT

        從圖4-圖6的結(jié)果可知,AFCS_DFT、CPF可以正確地將30種甲型流感病毒H1N1-H1N6的神經(jīng)氨酸苷酶基因序列聚類,而DFT未能將30種甲型流感病毒H1N1-H1N6的神經(jīng)氨酸苷酶基因序列中第2、11、21、24、25號的DNA序列正確聚類,聚類錯誤率達16.7%.此外,從圖4、圖6可知,與CPF相比,AFCS_DFT更能反映了親緣關(guān)系密切的物種DNA序列之間的差異性較小、進化關(guān)系較接近的特征.

        這些結(jié)果表明,AFCS_DFTCPF對物種聚類的準確性高于DFT;在對同一類別物種的聚類中,與CPF相比,AFCS_DFT縮小了親緣關(guān)系較為密切的物種之間DNA序列的差異性,能正確地聚類DNA序列,符合進化水平越相近的物種的序列越接近的特征,顯現(xiàn)物種之間的進化關(guān)系與類別差異.

        圖6 CPF構(gòu)建的系統(tǒng)進化樹Fig.6 Phylogenetic tree constructed by CPF

        4 結(jié)束語

        本文給出的改進的AFCS_DFT算法提取了DNA子序列種類、含量和位置3種生物特征,利用提取的特征信息,可以更準確地計算DNA序列之間的相似度、更準確地生成系統(tǒng)進化樹,更準確地聚類物種,揭示了生物的進化特性.在同一類別聚類中,AFCS_DFT算法縮小了親緣關(guān)系較為密切的物種之間DNA序列的差異性,能夠準確聚類DNA序列.離散傅里葉變換和對功率譜提取特征向量的計算比較耗時,下一步工作將研究并行化AFCS_DFT算法,以提高效率;以及研究將本文給出的方法應用于DNA序列模糊聚類.

        [1] Demuth J P,De Bie T,Stajich J E,et al.The evolution of mammalian gene families [J].PLoS One,2006,1(1):e85.doi:10.1371/journal.pone.0000085

        [2] Zhao B,Duan V,Yau S S.A novel clustering method via nucleotide-based Fourier power spectrum analysis [J].Journal of Theoretical Biology,2011,279(1):83-89.

        [3] Eisen J A.Phylogenomics:improved functional predictions for uncharacterized genes by evolutionary analysis [J].Genome Research,1998,8(3):163-167.

        [4] Altschul S F,Gish W,Miller W,et al.Basic local alignment search tool [J].Journal of Molecular Biology,1990,215(3):403-410.

        [5] Lipman D J,Pearson W R.Rapid and sensitive protein similarity searches[J].Science,1985,227(4693):1435-1441.

        [6] Edgar R C.Search and clustering orders of magnitude faster than BLAST [J].Bioinformatics,2010,26(19):2460-2461.

        [7] Pham T D,Zuegg J.A probabilistic measure for alignment-free sequence comparison [J].Bioinformatics,2004,20(18):3455-3461.

        [8] Yin Chang-chuan,Stephen S T Yau.An improved model for whole genome phylogenetic analysis by Fourier transform [J].Journal of Theoretical Biology,2015,382:99-110.

        [9] Kantorovitz M R,Robinson G E,Sinha S.A statistical method for alignment-free comparison of regulatory sequences [J].Bioinformatics,2007,23(13):249-255.

        [10] Freno A.Selecting features by learning markov blankets [C].Proceedings of 11th International Conference on Knowledge-Based Intelligent Informational and Engineering Systems/17th Italian Workshop on Neural Networks,Lecture Notes in Computer Science,2007,4692:69-76.

        [11] Lu G,Zhang S,Fang X.An improved string composition method for sequence comparison [J].BMC Bioinformatics,2008,9(Sup.6):S15.

        [12] Blaisdell B E.A measure of the similarity of sets of sequences not requiring sequence alignment [J].Proceedings of the National Academy of Sciences of the United States of America,1986,83(14):5155-5159.

        [13] Vinga S,Almeida J.Alignment-free sequence comparison-a review[J].Bioinformatics,2003,19(4):513-523.

        [14] Wei D,Jiang Q S,Wei Y J,et al.A novel hierarchical clustering algorithm for gene sequences [J].BMC Bioinformatics,2012,13:174.

        [15] Bao Jun-peng,Yuan Rui-yu,Bao Zhe.An improved alignment-free model for DNA sequence similarity metric[J].BMC Bioinformatics,2014,15:321.

        [16] Yin Chang-chuan,Chen Ying,Stephen S T Yau.A measure of DNA sequnece similarity by Fourier Transform with applications on hierarchical clustering[J].Journal of Theoretical Biology,2014,359(24):18-28.

        [17] Hoang Tung,Yin Chang-chuan,Zheng Hui,et al.A new method to cluster DNA sequence using Fourier power spectrum[J].Journal of Theoretical Biology,2015,372:135-145.

        [18] Tenreiro Machado J,Costa A C,Quelhas M D.Fractional dynamics in DNA[J].Communications in Nonlinear Science and Numerical Simulation,2011,16 (8):2963-2969.

        [19] Oppenheim A V,Schafer R W,Buck.L R.,et al.Discrete-time signal processing [M].Englewood Cliffs:Prentice-hall,2010.

        [20] Otu H H,Sayood K.A new sequence distance measure for phylogenetic tree construction[J].Bioinformatics,2003,19 (16):2122-2130.

        [21] Feng J,Hu Y,Wan P,et al.New method for comparing DNA primary sequences based on a discrimination measure [J].Journal of Theoretical Biology,2010,266(4):703-707.

        [22] Sokal R R.A statistical method for evaluating systematic relationships[J].The University of Kansas Science Bulletin,1958,38:1409-1438.

        [23] Cao Y,Janke A,Waddell P J,et al.Conflict among individual mitochondrial proteins in resolving the phylogeny of eutherian orders [J].Journal of Molecular Evolution,1998,47(3):307-322.

        猜你喜歡
        物種
        物種大偵探
        物種大偵探
        物種大偵探
        吃光入侵物種真的是解決之道嗎?
        英語世界(2023年10期)2023-11-17 09:18:18
        生日禮物種草合集
        中學生博覽(2022年7期)2022-06-21 21:48:14
        物種大滅絕
        麗水發(fā)現(xiàn)新物種
        誰在“摧毀”澳大利亞——可怕的物種入侵
        一億年后,地球上可能出現(xiàn)哪些新物種
        學生天地(2019年36期)2019-08-25 08:59:32
        回首2018,這些新物種值得關(guān)注
        亚洲精品网站在线观看你懂的| 国产av在线观看一区二区三区 | 精品国产一区二区三区毛片| 自由成熟女性性毛茸茸应用特色| 国产精品毛片一区二区三区| 国产极品久久久久极品| 午夜国产精品久久久久| 国产欧美日韩午夜在线观看| 亚洲福利av一区二区| 亚洲激情综合中文字幕| 六月丁香综合在线视频| 大地资源网最新在线播放| 视频二区 无码中出| 亚洲综合中文字幕日韩| 少妇激情一区二区三区视频 | 国产精品福利视频一区| 国产黄a三级三级三级av在线看| 亚洲av成人一区二区三区网址| 亚洲天堂一二三四区在线| 强d乱码中文字幕熟女免费| 久久久久亚洲av片无码v| 精品囯产成人国产在线观看| 国产av三级精品车模| 一 级做人爱全视频在线看| 日本边添边摸边做边爱的网站| 国产一级淫片免费大片| 日本午夜艺术一区二区| 不卡一卡二卡三乱码免费网站| 久久久久99精品成人片试看| 一区二区三区国产精品| 亚洲国产一区二区三区| 欧美一区二区三区激情| 国产成人亚洲精品电影| 手机在线播放成人av| 亚洲乳大丰满中文字幕| 国产高潮刺激叫喊视频| 国产女主播在线免费观看| 国产精品偷窥熟女精品视频| 激情 人妻 制服 丝袜| 精品丝袜国产在线播放| 国产精品高清视亚洲乱码|