亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖形表示的減數(shù)分裂重組位點(diǎn)識別

        2017-12-19 10:49:08李雪琴
        生物學(xué)雜志 2017年6期
        關(guān)鍵詞:方法

        張 一, 李雪琴, 李 春

        (渤海大學(xué) 數(shù)理學(xué)院, 錦州 121013)

        基于圖形表示的減數(shù)分裂重組位點(diǎn)識別

        張 一, 李雪琴, 李 春

        (渤海大學(xué) 數(shù)理學(xué)院, 錦州 121013)

        減數(shù)分裂重組并非以統(tǒng)一的頻率發(fā)生在基因組上, 而是在某些區(qū)域重組頻率較高, 在另一些區(qū)域重組頻率較低。減數(shù)分裂重組位點(diǎn)的刻畫與識別對于認(rèn)識重組機(jī)制具有重要意義。提出了一種新的DNA序列的3-D圖形表示,并將其與Z-曲線相結(jié)合,借助正規(guī)化的ALE指標(biāo),用13維特征向量來刻畫DNA序列進(jìn)而進(jìn)行減數(shù)分裂重組位點(diǎn)識別。以支持向量機(jī)作為分類器,利用夾克刀方法進(jìn)行交互驗(yàn)證,所提方法的總精確度Acc達(dá)到了 93.70%,相關(guān)系數(shù)MCC達(dá)到了 0.873。這個(gè)結(jié)果表明此方法可作為減數(shù)分裂重組位點(diǎn)識別領(lǐng)域的一個(gè)有力工具。

        3-D圖形表示;ALE指標(biāo);減數(shù)分裂重組;支持向量機(jī)

        減數(shù)分裂是發(fā)生在有性生殖生物中的一種特殊的細(xì)胞分裂過程,減數(shù)分裂重組是該過程的重要特征之一。 通過有序形成和修復(fù)DNA雙鏈斷裂(double-strand break, DSB)的過程, 重組在保留親本同源片段的同時(shí)對等位基因進(jìn)行重排, 從而增加后代的遺傳多樣性[1-3]。 全局映射方法已經(jīng)被用來映像染色體上的DSB位點(diǎn),從而考察重組區(qū)域在基因組上的分布模式。研究表明,減數(shù)分裂重組事件并非隨機(jī)發(fā)生,而是具有序列選擇性。因此,準(zhǔn)確確定重組位點(diǎn)對認(rèn)識減數(shù)分裂重組發(fā)生的分子機(jī)制以及基因組進(jìn)化規(guī)律具有重要意義。通常,基因組中重組發(fā)生頻率較高的區(qū)域被稱為重組熱點(diǎn)(recombination hotspot),而那些重組發(fā)生頻率較低的區(qū)域則被稱為重組冷點(diǎn)(recombination coldspot)[1-2,4-6]。 相比之下,重組熱點(diǎn)更加引人關(guān)注,因?yàn)橹亟M頻率高,有利于人們記錄重組發(fā)生的次數(shù)和重組過程中的特征[7]。實(shí)驗(yàn)是鑒定減數(shù)分裂重組冷/熱點(diǎn)的最直接的方法,但實(shí)驗(yàn)技術(shù)自身的缺陷,比如對時(shí)間、資金和人力的巨大消耗,使得實(shí)驗(yàn)方法難以滿足大規(guī)?;蚪M數(shù)據(jù)處理的實(shí)際需求。 所以,發(fā)展有效的理論計(jì)算方法對減數(shù)分裂重組位點(diǎn)進(jìn)行識別是非常必要的。

        對于減數(shù)分裂重組冷/熱點(diǎn)這樣的模式識別問題,如何從DNA序列提取特征是一個(gè)非常重要的環(huán)節(jié)。2013年,Chen等[1]將Chou的擬氨基酸組成與雙核苷酸表示相結(jié)合構(gòu)造了19-維特征向量,并將其應(yīng)用到減數(shù)分裂重組位點(diǎn)的識別工作。2014年,Qiu等[2]進(jìn)一步利用三核苷酸組成以及三聯(lián)體密碼子與氨基酸間的對應(yīng)關(guān)系來提取特征;同年,Li等[4]則考慮了更一般的“擬k-核苷酸組成”構(gòu)造了96-維向量,并對文獻(xiàn)[1-2]中所使用的減數(shù)分裂重組位點(diǎn)數(shù)據(jù)集進(jìn)行分類,預(yù)測結(jié)果提高到了84.09%。2016年,Li等[5]基于相位序列和BW轉(zhuǎn)換提取特征并對上述數(shù)據(jù)集進(jìn)行分類識別,精度進(jìn)一步得到了提高。

        上述這些方法有一個(gè)共同的特點(diǎn),即都可以歸為k-串統(tǒng)計(jì)方法,圖形表示是DNA序列分析的另一個(gè)強(qiáng)有力的工具。1983年,Hamori and Ruskin[8]提出了DNA序列的H-曲線,這是DNA序列圖形表示方面較早的工作。1994年,Zhang等[9]提出了DNA序列的Z曲線,2000年,Randic等[10]將Gates[11], Nandy[12], Leong和Morgenthaler[13]等2維平面圖形表示推廣到3維空間。 受Randic等[10]的啟發(fā),我們提出了DNA序列的一種新的3-D圖形表示方法,并將其與Z曲線相集合,利用我們在文獻(xiàn)[14]中提出的ALE指標(biāo)構(gòu)造了DNA序列的13維向量表示。以支持向量機(jī)作為分類器,我們對文獻(xiàn)[1-2,4-5]所用的數(shù)據(jù)集進(jìn)行分類預(yù)測,通過夾克刀交叉驗(yàn)證,我們所提方法的識別率達(dá)到了93.70%。

        1 數(shù)據(jù)集

        本文所涉及的數(shù)據(jù)來自于文獻(xiàn)[1-2],該數(shù)據(jù)集共包含1081 條 DNA序列,為方便起見,本文稱之為“數(shù)據(jù)集1081”。其中,490 條為減數(shù)分裂重組熱點(diǎn)序列,它們構(gòu)成正樣本集;另外的 591 條為減數(shù)分裂重組冷點(diǎn)序列,它們構(gòu)成負(fù)樣本集。

        2 新的DNA序列3-D圖形表示

        對于4種核苷酸堿基A,C,G,T現(xiàn)在分別賦予它們4個(gè)三維空間中的向量:

        A=(2,-1,0),C=(1,0,2),G=(-1,-2,0),T=(-2,0,1)

        假設(shè)S=S1S2S3…SK是一條給定的DNA序列。從第一個(gè)堿基開始依次考察此序列的每一個(gè)堿基,對于第i個(gè)堿基(i=1,2,…,K),可以由下列公式得到一個(gè)三維空間的點(diǎn)Qi(li,mi,ni)

        圖1 序列S的3-D圖形表示

        上述3-D圖形表示具有如下性質(zhì):

        性質(zhì):3-D圖形表示不存在圈,即非退化。

        證明:假設(shè):1)曲線中任意圈的長度為n;2)該圈中A,C,G,T的數(shù)目分別為Ak,Ck,Gk,Tk,則Ak+Ck+Gk+Tk=n。

        由于Ak個(gè)A,Ck個(gè)C,Gk個(gè)G,Tk個(gè)T可以構(gòu)成一個(gè)圈,所以有Ak(2,-1,0)+Ck(1,0,2)+Gk(-1,-2,0)+Tk(-2,0,1)=0,即

        解得Ak=Ck=Gk=Tk=0,進(jìn)而,n=0, 即圈長為0。

        需要指出的是,上述圖形表示是在三維空間中,將4個(gè)向量(2,-1,0), (1,0,2), (-1,-2,0)和(-2,0,1)分別賦予4個(gè)堿基A,C,G,T而得到的。如果改為將向量(2,-1,0), (1,0,2), (-1,-2,0)和(-2,0,1)分別賦予堿基A,T,G,C,則將得到另一條3-D曲線。不難發(fā)現(xiàn),通過將這樣的4個(gè)向量賦予4個(gè)堿基,由一條DNA序列可以得到12種本質(zhì)上不同的3-D曲線。

        3 DNA序列的數(shù)值刻畫

        圖形表示作為一種可視化工具,為挖掘DNA原始序列信息提供了一種定性的研究方法。與之對應(yīng),數(shù)值刻畫則提供了一種定量地分析DNA序列的方法。對于如上每一條3-D曲線,這里構(gòu)造其L/L矩陣。L/L矩陣定義如下[15-16]:

        其中d(i,j)是曲線上兩點(diǎn)vi,vj之間的歐式距離。

        一旦DNA序列的矩陣形式給出后,就可以通過矩陣不變量來刻畫這個(gè)DNA序列。 文獻(xiàn)中常用的矩陣不變量有:Wiener數(shù)、平均矩陣元素、平均行和與平均列和、最大特征值等。其中,最大特征值可以很好地反映出矩陣的有關(guān)信息并在化學(xué)和生命科學(xué)等領(lǐng)域得到了廣泛應(yīng)用[10,14-18]。 然而,隨著矩陣階的增加,特征值的計(jì)算會變得越來越困難。 為了克服這個(gè)問題,Li和Wang[14]在2005年提出了ALE指標(biāo), ALE指標(biāo)可視為相應(yīng)矩陣最大特征值的一個(gè)近似值,但它的計(jì)算要比最大特征值容易得多。 因此這里采用的不變量是ALE指標(biāo),其定義如下:

        其中n為矩陣的階, ‖·‖m1和‖·‖F(xiàn)為矩陣的m1-范數(shù)和F-范數(shù)。為了避免不同矩陣大小不同造成的影響,可以考慮使用正規(guī)化的ALE指標(biāo)χ/n來作為矩陣不變量。于是,與上述12條3-D曲線相對應(yīng),可以得到12個(gè)正規(guī)化的ALE指標(biāo)。

        此外, Z-曲線是張春霆等早在1994年提出的一種DNA序列3-D圖形表示。其三維空間中點(diǎn)與相應(yīng)序列片段中堿基出現(xiàn)的個(gè)數(shù)An,Cn,Gn,Tn之間的對應(yīng)關(guān)系如下[9]:

        Z-曲線和本文提出的3-D曲線是從不同角度對DNA序列進(jìn)行圖形表示的。一條DNA序列的Z-曲線中可能會出現(xiàn)圈,但它能突顯嘌呤/嘧啶、氨基/酮基、弱氫鍵/強(qiáng)氫鍵之間的關(guān)系。 在某種意義上講,二者能夠相互補(bǔ)充。 基于這一點(diǎn),本文應(yīng)用相同的方法計(jì)算Z-曲線的正規(guī)化的ALE指標(biāo)。

        最終,本文采用由上述13個(gè)正規(guī)化的ALE指標(biāo)構(gòu)成的13維向量VALE=(v1,…,v12,v13)來刻畫DNA序列。 其中,v1~v12是本文提出的3-D曲線對應(yīng)的12個(gè)ALE指標(biāo),v13是Z-曲線對應(yīng)的ALE指標(biāo)。 例如, 序列S=ATGCTGACTGCTGAGGAGAAGGCTGCCGTCACCGCT的13維向量為:

        VALE=(0.5786,0.5870,0.5819,0.5550,0.5377,0.5736,0.6118,0.6020,0.5957,0.5350,0.5435,0.5938,0.3763)

        5 分類器的選擇及其預(yù)測性能的評估

        在機(jī)器學(xué)習(xí)和模式識別領(lǐng)域,支持向量機(jī)(SVM)作為一個(gè)很有效的機(jī)器學(xué)習(xí)方法被廣泛使用。 本文將選擇SVM作為分類器,并利用LIBSVM(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)軟件包來執(zhí)行SVM分類。

        表1是兩類數(shù)據(jù)的混合矩陣,它是二分類問題中預(yù)測評價(jià)分類性能的常用模型。

        表1 兩類數(shù)據(jù)的混合矩陣

        其中,TP和TN分別表示分類正確的正類數(shù)據(jù)和負(fù)類數(shù)據(jù)的個(gè)數(shù),FP和FN分別表示分類錯(cuò)誤的正類數(shù)據(jù)和負(fù)類數(shù)據(jù)的個(gè)數(shù)。本文采用敏感度(Sn)、特異性(Sp)、準(zhǔn)確度(Acc)和相關(guān)系數(shù)(Mcc)這4個(gè)文獻(xiàn)中常用的指標(biāo)來評價(jià)我們方法的預(yù)測性能。這些指標(biāo)的定義如下[19]。

        1)敏感度(Sn):敏感度表示的是分類正確的正類樣本個(gè)數(shù)與正類測試集大小的比值,即

        2)特異性(Sp):特異性表示的是分類正確的負(fù)類樣本個(gè)數(shù)與負(fù)類測試集大小的比值,即

        3)準(zhǔn)確度(Acc):準(zhǔn)確度表示的是分類正確的樣本個(gè)數(shù)與測試集大小的比值,即

        4)相關(guān)系數(shù)(Mcc):相關(guān)系數(shù)表示的是正負(fù)測試集比率的一個(gè)平衡,可表示為

        從定義的形式上可以看出: Acc 及 Mcc的值越大,說明預(yù)測總精度越高,且兩類預(yù)測正確的樣本個(gè)數(shù)都達(dá)到了一個(gè)較為理想的水平,相應(yīng)分類性能也就越好。

        5 結(jié)果與討論

        對于數(shù)據(jù)集1081中的每條序列,我們首先將其轉(zhuǎn)化為一個(gè)13維特征向量,然后將這1081個(gè)向量規(guī)范化后輸入到支持向量機(jī)中。本文采用徑向基核函數(shù)方法,并利用LIBSVM軟件包中的grid搜索策略,獲得最優(yōu)參數(shù)對(C=32 768,g=2.0)。眾所周知,在幾種交互驗(yàn)證方法中,夾克刀方法被認(rèn)為是最有效的[1-2,4-5,19],所以本文采用夾克刀法進(jìn)行交互驗(yàn)證。結(jié)果發(fā)現(xiàn)TP=454,FN=36,TN=559,FP=32,從而得到敏感度Sn=92.65%,特異性Sp=94.58%,準(zhǔn)確度Acc=93.70%,相關(guān)系數(shù)Mcc=0.873(見表2)。為了方便比較,本文將近年來針對同一數(shù)據(jù)集1081并使用夾克刀進(jìn)行預(yù)測的結(jié)果也列在表2。

        表2 與現(xiàn)有的方法進(jìn)行比較

        [a]取自Li等[5];[b] 取自Li等[4];[c] 取自Qiu等[2];[d] 取自Chen等[1]

        從表2可以看出:我們提出的方法的Sn比其他4種方法高出5.51%~22.24%,Sp比其他4種方法高出3.89%~14.99%,Acc比其他4種方法高出8.78%~13.31%,Mcc比其他4種方法高出0.178~0.268。這個(gè)結(jié)果表明我們所提方法可視為減數(shù)分裂重組位點(diǎn)識別領(lǐng)域的一個(gè)有用的工具。

        6 結(jié)論

        通過將4個(gè)三維空間中的向量(2,-1,0),(1,0,2),(-1,-2,0),(-2,0,1)賦予4種核苷酸堿基,本文提出了一種新的DNA序列的3-D圖形表示。進(jìn)一步,將其與Z-曲線相結(jié)合,借助正規(guī)化的ALE指標(biāo),用13維特征向量來刻畫DNA序列并進(jìn)行減數(shù)分裂的重組位點(diǎn)識別。本文以支持向量機(jī)作為分類器,利用夾克刀方法進(jìn)行交互驗(yàn)證。與現(xiàn)有方法相比,本文所提方法在敏感度、特異性、準(zhǔn)確度和相關(guān)系數(shù)這4個(gè)指標(biāo)上均有較明顯的提高。

        [1]CHEN W, FENG P M, LIN H, et al. iRSpot-PseDNC: identify recombination spots with pseudo dinucleotide composition[J]. Nucleic Acids Research, 2013, 41(6): e68.

        [2]QIU W R, XIAO X, CHOU K C. iRSpot-TNCPseAAC: identify recombination sports with trinucleotide composition and pseudo amino acid components[J]. Molecular Sciences, 2014, 15(2): 1746-1766.

        [3]孫曉光. 粗糙脈胞菌減數(shù)分裂重組和突變的研究[D]. 南京:南京大學(xué), 2016.

        [4]LI L Q, YU S J, XIAO W D, et al. Sequence-based identification of recombination spots using pseudo nucleic acid representation and recursive feature extraction by linear kernel SVM[J]. BMC Bioinformatics, 2014, 15: 340-358.

        [5]LI C, HAN M M, YANG Y, et al. Identification of meiotic recombination spots based on phase-specific sequence and Burrows Wheeler transform[J]. Journal of Computational and Theoretical Nanoscience, 2016, 13(7): 4131-4135.

        [6]張冰潔. 減數(shù)分裂重組對DNA序列和染色質(zhì)結(jié)構(gòu)的依賴性[D]. 包頭:內(nèi)蒙古科技大學(xué), 2013.

        [7]高 玲, 慕小倩, 林 煜, 等. 真核生物減數(shù)分裂重組熱點(diǎn)的研究進(jìn)展[J]. 遺傳, 2005, 27 (4): 641-650.

        [8]HAMORI E, RUSKIN J. H curves, a novel method of representation of nucleotide series especially suited for long DNA sequences [J]. Journal of Biological Chemistry, 1983, 258 (2): 1318-1327.

        [9]ZHANG R, ZHANG C T. Z curves, an intuitive tool for visualizing and analyzing DNA sequences [J]. Journal of Biomoecular Structure and Dynamics, 1994, 11 (4): 767-782.

        [10]RANDIC M, VRACKO M, NANDY A, et al. On 3-D graphical representation of DNA primary sequences and their numerical characterization [J]. Chem Inf Comput Sci, 2000, 40 (5): 1235-1244.

        [11]GATES M A. A simple way to look at DNA [J]. Journal of Theoretical Biology, 1986, 119 (3): 319-328.

        [12]NANDY A. Graphical representation of long DNA sequences [J]. Current Science, 1994, 66: 821.

        [13]LEONG P M, MORGENTHALER S. Random walk and gap plots of DNA sequences [J]. Computer Applications in the Biosciences, 1995, 11 (5): 503-507.

        [14]LI C, WANG J. New invariant of DNA sequences [J]. Journal of Chemical Information and Modeling, 2005, 45: 115-120.

        [15]LI C, LI X Q, LIN Y X. Numerical characterization of protein sequences based on the generalized Chou′s pseudo amino acid composition[J]. Appl Sci, 2016, 6 (12): 406.

        [16]RANDIC M, VRACKO M, LERN, et al. Analysis of similarity/dissimilarity of DNA sequences based on novel 2-D graphical representation[J]. Chem Phys Lett, 2003, 371: 202-207.

        [17]RANDIC M, GUO X F, BASAK S C. On the characterization of DNA primary sequences by triplet of nucleic acid bases[J]. J Chem Inf Comput Sci, 2001, 41(3): 619-626.

        [18]RANDIC M, NOVIC M, VRACKO M, et al. Study of proteome maps using partial ordering[J]. Journal of Theoretical Biology, 2010, 266(1):21-28.

        [19]YU X Q, GAO H Y, ZHENG X Q, et al. A computational method of predicting regulatory interactions in Arabidopsis based on gene expression data and sequence information[J]. Computational Biology and Chemistry, 2014, 51: 36-41.

        Identificationofmeioticrecombinationspotsbasedonthegraphicalrepresentation

        ZHANG Yi, LI Xue-qin, LI Chun

        (College of Mathematics and Physics, Bohai University, Jinzhou 121013, China)

        The meiotic recombination events do not occur with a uniform frequency throughout the genome but with a higher rate in some regions and lower in others. Characterization and identification of meiotic recombination spots is critical for our understanding of the recombination mechanism. In this paper, we first propose a new 3-D graphical representation for a DNA sequences. Then, combining the 3-D graphical representaion with Z-curve, we characterize a DNA sequence by a 13-D vector whose components are the corresponding normalized ALE indices. Support vector machine (SVM) and Jackknife cross-validation test are employed to perform our method on a benchmark dataset for recombination spots. Results show that our method achieved an overall accuracy of 93.70% with the Matthew′s correlation coefficient (MCC) of 0.873, which suggests that the proposed method can serve as a useful tool for identifying the recombination spots.

        3-D graphical representation; ALE-index; meiotic recombination; support vector machine

        2016-12-20;

        2017-01-20

        遼寧省自然科學(xué)基金項(xiàng)目(201602005);遼寧省高等學(xué)校創(chuàng)新團(tuán)隊(duì)(LT2014024);遼寧省食品安全重點(diǎn)實(shí)驗(yàn)室開放課題(LNSAKF2011034)

        張 一,碩士,主要研究方向?yàn)橛?jì)算分子生物學(xué),E-mail:798332334@qq.com

        李 春,博士,教授,主要研究方向?yàn)槭称钒踩c生物信息學(xué),E-mail:lichwun@163.com

        10.3969/j.issn.2095-1736.2017.06.101

        Q71

        B

        2095-1736(2017)06-0101-04

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲国产美女精品久久久 | 亚洲尺码电影av久久| 中文无码日韩欧免费视频| 久久精品国产亚洲av专区| 东北女人啪啪对白| 好看的欧美熟妇www在线| 久草午夜视频| 精品一区二区亚洲一二三区| 手机在线免费av资源网| 专干老肥熟女视频网站300部| 亚洲性久久久影院| 色婷婷精久久品蜜臀av蜜桃| 99国产精品欲av麻豆在线观看| 麻豆国产精品一区二区三区| 人妻少妇精品视频三区二区一区| 亚洲色自偷自拍另类小说| 91成人午夜性a一级毛片| 我想看久久久一级黄片| 久久精品国产亚洲av无码偷窥| 亚洲 自拍 另类 欧美 综合| 亚洲精品自拍视频在线观看| 精品少妇一区二区三区入口| 亚洲日韩激情无码一区| 精品国产a∨无码一区二区三区 | 日本一区二区三区一级免费| 久久九九精品国产av| 色多多a级毛片免费看| 国产成人精品日本亚洲专区6| 国产午夜精品综合久久久| 亚洲色偷偷综合亚洲avyp| 女女女女bbbbbb毛片在线| 亚洲av午夜成人片精品| 亚洲丰满熟女一区二亚洲亚洲| 成年女人a毛片免费视频| 亚洲欧美另类自拍| 黑人一区二区三区高清视频| 国产成人av一区二区三区不卡| 67194熟妇在线永久免费观看| 99re国产电影精品| 青青草原综合久久大伊人精品 | 久久久久成人片免费观看蜜芽|