亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)場(chǎng)與3-D圖形表示的DNA序列分析

        2020-12-24 07:59:09鄭卓趙佳玲李春
        科技資訊 2020年21期
        關(guān)鍵詞:序列分析

        鄭卓 趙佳玲 李春

        摘? 要:該文提出了DNA序列的一種3-D圖形表示,并且針對(duì)此圖形表示的非退化性給出了數(shù)學(xué)證明。然后計(jì)算所提3維圖形表示的L/L矩陣的ALE指標(biāo),并給出了所提3維圖形的圖半徑,從而對(duì)DNA序列進(jìn)行數(shù)值刻畫(huà)。結(jié)合物理學(xué)中重力場(chǎng)勢(shì)函數(shù)的思想,構(gòu)造了向量形式的數(shù)據(jù)對(duì)象間的勢(shì)函數(shù),進(jìn)而以K-近鄰算法為分類(lèi)器,對(duì)208個(gè)RIG-I基因進(jìn)行了分類(lèi)識(shí)別。實(shí)驗(yàn)結(jié)果證明了該文所提的分類(lèi)辦法是有效的。

        關(guān)鍵詞:圖形表示? 數(shù)值刻畫(huà)? 數(shù)據(jù)場(chǎng)? RIG-I基因? 序列分析

        中圖分類(lèi)號(hào):Q78 ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2020)07(c)-0027-03

        DNA Sequence Analysis Based on Data Field and 3-D Graphical Representation

        ZHENG Zhuo1? ZHAO Jialing1? LI Chun2*

        (1.School of Mathematics and Physics, Bohai University, Jinzhou, Liaoning Province, 121000 China; 2.College of Mathematics and Statistics, Hainan Normal University, Haikou, Hainan Province, 570000 China)

        Abstract: This paper presents a 3-D graphical representation of the DNA sequence, and gives a mathematical proof for the non-degenerate nature of the graphical representation. Then calculate the ALE index of the L/L matrix represented by the proposed 3-dimensional graph, and give the graph radius of the proposed 3-dimensional graph, thereby numerically characterizing the DNA sequence. Combining the idea of the potential function of gravity field in physics, the potential function between data objects in the form of vectors is constructed, and then 208 RIG-I genes are classified and identified using the K-nearest neighbor algorithm as the classifier. The experimental results prove that the classification method proposed in this paper is effective.

        Key Words: Graphical representation; Numerical characterization; Data field; RIG-i gene; Sequence analysis

        隨著現(xiàn)代測(cè)序技術(shù)的發(fā)展和生物序列數(shù)據(jù)的急劇積累,序列分析已成為生物信息學(xué)中的一項(xiàng)重要任務(wù)。圖形表示為序列數(shù)據(jù)的定性和定量研究提供了強(qiáng)有力的工具。Gates[1]通過(guò)將x軸的正負(fù)方向賦予C和G,y軸正負(fù)方向賦予T和A,提出了DNA序列的一種2-D圖形表示(見(jiàn)圖1(a))。類(lèi)似地,Nandy[2]提出了一種DNA序列的AG/CT圖;Leong and Morgenthaler[2]則給出了AC/GT圖(見(jiàn)圖1)。上述圖形表示在生命科學(xué)的很多研究領(lǐng)域都得到了應(yīng)用,然而遺憾的是這些方法都存在嚴(yán)重退化現(xiàn)象。結(jié)合Nandy的2-D圖,Guo等[3]通過(guò)將4個(gè)方向翹起一個(gè)小的角度進(jìn)行改進(jìn),即進(jìn)行如下的賦向:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?這里d取正整數(shù)(見(jiàn)圖1(d))。文中證明了當(dāng)d是偶數(shù)時(shí),圈的最小長(zhǎng)度為4d;當(dāng)d是奇數(shù)時(shí),圈的最小長(zhǎng)度為2d。這表明Guo等的改進(jìn)圖形表示并未能完全避免退化現(xiàn)象。

        受Guo等改進(jìn)思想的啟發(fā),該文提出了DNA序列的一種3-D圖形表示,證明了此種圖形表示是非退化的,并給出了其在DNA序列分析中的應(yīng)用。

        1? 方法

        1.1 DNA序列3-D圖形表示及其性質(zhì)

        在3維空間中,將DNA序列4種堿基A、G、C、T分別賦予4個(gè)方向向量(見(jiàn)圖1(e)):

        對(duì)任一給定的長(zhǎng)度為n的DNA序列? ? ? ? ? ? ? ? ? ?1從左到右每次觀察一個(gè)堿基,遇到哪個(gè)堿基就按上述規(guī)則在當(dāng)前位置沿著相應(yīng)方向行走。這樣,遍歷n個(gè)堿基后就得到3維空間中n個(gè)點(diǎn)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?1將各點(diǎn)依次連接,于是序列S便轉(zhuǎn)化為一條3-D曲線。其中,點(diǎn)1? ? ? ? ? ? ? ? ? ? ? 可以按照如下公式得到:

        這里? ? ? ? ? ? ? ? ? ? ? 為堿基SK對(duì)應(yīng)的向量的第i個(gè)分量。

        性質(zhì)1:該3-D圖形表示是無(wú)圈的,即非退化。

        證明:假設(shè)圖中存在圈,設(shè)圈長(zhǎng)為m,且用m、cm、m、tm別表示4種堿基A、C、G、T在該圈中出現(xiàn)的數(shù)目,則有:

        即:

        從而圈長(zhǎng)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 即無(wú)圈。性質(zhì)1得證。

        1.2 DNA序列的數(shù)值刻畫(huà)

        對(duì)于每一個(gè)3-D圖形表示來(lái)說(shuō),與Nandy 2-D圖形表示類(lèi)似,可提取其圖半徑我們規(guī)定相應(yīng)定義如下:

        一旦序列的圖形表示被給出,文獻(xiàn)中另一個(gè)進(jìn)行數(shù)值刻畫(huà)的途徑是將圖轉(zhuǎn)化為矩陣,然后提取有關(guān)不變量[4,5]。該文考慮L/L矩陣,其矩陣元素定義如下:

        其中,為圖中第i, j兩點(diǎn)間的歐式距離,表示它們的圖論距離。L/L矩陣有一個(gè)很好的特點(diǎn),就是其元素都被規(guī)范到[0,1]區(qū)間。在此基礎(chǔ)上,該文選擇我們提出的ALE指標(biāo)作為不變量[6]:

        其中:

        上面我們是把4個(gè)方向向量依次賦予A、C、G、T而得到的3-D圖形。不難發(fā)現(xiàn),若將這4個(gè)方向向量依次賦予G、T、A、C,在對(duì)稱(chēng)的意義上,所得的圖形是同一個(gè)。事實(shí)上,基于這樣的4個(gè)方向向量,本質(zhì)上有12種不同的3-D曲線與同一條DNA序列相對(duì)應(yīng)。從每一個(gè)3-D曲線提取1個(gè)ALE指標(biāo)和1個(gè)圖半徑。于是,一條DNA序列S便與一個(gè)24維向量相對(duì)應(yīng),其中有12個(gè)ALE指標(biāo),12個(gè)。為了方便,將這個(gè)24維向量記為特別的,在實(shí)際問(wèn)題中為了剔除序列長(zhǎng)度的背景影響,可進(jìn)一步令

        此外,被認(rèn)為是DNA序列分析中一個(gè)重要的量[7]。其中a、c、g、t分別表示序列中堿基A、C、G、T出現(xiàn)的頻率。從而,我們便將一條DNA序列S轉(zhuǎn)化為一個(gè)帶有ρ值的24維向量:

        2? 應(yīng)用

        2.1 數(shù)據(jù)場(chǎng)與數(shù)據(jù)對(duì)象間的勢(shì)函數(shù)

        場(chǎng)的概念最早是由英國(guó)物理學(xué)家法拉第于1837年提出,用來(lái)描述物質(zhì)粒子間的非接觸性相互作用[8]。參照物理場(chǎng),如果我們把24維空間中的每一個(gè)點(diǎn)都視為一個(gè)粒子,便有數(shù)據(jù)場(chǎng)的概念,進(jìn)而可定義數(shù)據(jù)對(duì)象X對(duì)Y(理解成在Y處)的勢(shì)函數(shù)。參考重力場(chǎng)勢(shì)函數(shù),并借鑒簡(jiǎn)艷等[9]的思想,該文定義兩個(gè)數(shù)據(jù)對(duì)象X、Y之間的勢(shì)函數(shù)關(guān)系如下:

        其中

        顯然,二者間的關(guān)系越密切,它們的勢(shì)值越大。

        2.2 RIG-I基因的分類(lèi)識(shí)別

        當(dāng)機(jī)體感染病毒時(shí),會(huì)誘導(dǎo)產(chǎn)生相應(yīng)免疫反應(yīng)。RIG-I (維甲酸誘導(dǎo)基因I)是細(xì)胞質(zhì)中的模式識(shí)別受體,能夠識(shí)別病毒復(fù)制產(chǎn)生的雙鏈RNA和5三磷酸基團(tuán)的單鏈RNA,并通過(guò)激活Ⅰ型干擾素來(lái)引發(fā)抗病毒免疫反應(yīng)[10]。該文所使用的數(shù)據(jù)集包括208個(gè)RIG-I序列數(shù)據(jù),其中147個(gè)是脊索動(dòng)物,其余61個(gè)為無(wú)脊椎動(dòng)物。所有數(shù)據(jù)均來(lái)自NCBI數(shù)據(jù)庫(kù)。為了敘述方便,我們稱(chēng)數(shù)據(jù)集中147個(gè)脊索動(dòng)物基因?yàn)檎龢颖炯?,記作S+;稱(chēng)其余61個(gè)基因?yàn)樨?fù)樣本集,記作S-。

        由于兩個(gè)基因間的勢(shì)函數(shù)值越大,二者間的關(guān)系越密切,所以可以根據(jù)勢(shì)函數(shù)值大小確定“鄰近”關(guān)系。該文在前述所構(gòu)造的勢(shì)函數(shù)的基礎(chǔ)上,采用K近鄰(K-NN)算法進(jìn)行分類(lèi)識(shí)別。我們從S+、S-中分別隨機(jī)選取55%的樣本作為訓(xùn)練集,其余45%作為測(cè)試集(共93條序列)。實(shí)驗(yàn)中有兩個(gè)待定參數(shù):最近鄰居數(shù)K和勢(shì)函數(shù)中的。依次給定K=1,3,5,7,然后測(cè)試的不同取值。結(jié)果發(fā)現(xiàn),當(dāng)時(shí),分類(lèi)識(shí)別可達(dá)到較理想效果。我們進(jìn)行了10次交互驗(yàn)證,實(shí)驗(yàn)結(jié)果見(jiàn)表1。從表1可以看出,每次的識(shí)別率(AC)在97%以上。10次實(shí)驗(yàn)的平均精度達(dá)到了98.51%。

        參考文獻(xiàn)

        [1] 產(chǎn)院東.基于多核和眾核平臺(tái)的并行DNA序列比對(duì)算法[D].山東大學(xué),2019.

        [2] Dwaipayan Sen,Proyasha Roy,Ashesh Nandy,etal. Graphical representation methods: How well do they discriminate between homologous gene sequences?[J]. Chemical Phgsizs,2018(513):156-164.

        [3] GUO XF, RANDIC M, BASAK SC. A novle 2-D graphical representation of DNA sequences of low degeneracy[J].Chemical Physics Letters,2001, 350:106-112.

        [4] 向其林.基于新型表達(dá)模式的序列特征獲取方法及應(yīng)用研究[D].湖南大學(xué),2017.

        [5] 崔穎,徐澤龍,李建中.基于綜合DNA序列特征的支持向量機(jī)方法識(shí)別核小體定位[J].生物醫(yī)學(xué)工程學(xué)雜志,2020,37(31):1-6.

        [6] LiChun,Lz Xueqm,Lin Yan-xia. Numerical Characterization of Protein Sequences Based on the Generalized Chou's Pseudo Amino Acid Composition[J]. APPLied Scouces,2016,6(12):406.

        [7] Chun Li,Nadia Helal,Jun Wang. Recognition of protein coding genes in the yeast genome based on the relative-entropy of DNA[J].COmbunatorial Chemistry 8c Higt Throughput Screening,2006,9(1): 49-54.

        [8] 仲茜,李涓子,唐杰,等.基于數(shù)據(jù)場(chǎng)的大規(guī)模本體映射[J].計(jì)算機(jī)學(xué)報(bào),2010,33(6):955-965.

        [9] 簡(jiǎn)艷,賈洪勇.一種基于數(shù)據(jù)場(chǎng)的K-均值算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(12):4498-4501.

        [10] 程玉強(qiáng).雞MDA5-STING-IFN-β抗病毒天然免疫通路的發(fā)現(xiàn)及其信號(hào)轉(zhuǎn)導(dǎo)機(jī)制[D].上海交通大學(xué),2016.

        [11] 費(fèi)文超.DNA序列的圖形表示及其應(yīng)用[D].渤海大學(xué)大學(xué),2016.

        [12] 王科.基于圖形表示的DNA序列相似性分析[D].河北科技大學(xué),2016.

        猜你喜歡
        序列分析
        石榴果皮DHQ/SDH基因的克隆及序列分析
        三個(gè)小麥防御素基因的克隆及序列分析
        山葡萄DFR基因全長(zhǎng)cDNA的克隆與序列分析
        麻風(fēng)樹(shù)油質(zhì)蛋白JcOle16.6基因克隆及序列分析
        人參CYP716A53v2基因的克隆與序列分析
        木薯MeCWINV4啟動(dòng)子的克隆及其活性分析
        黃粉甲翅芽生長(zhǎng)因子基因的克隆及表達(dá)分析
        纖維素酶系基因的克隆與序列分析
        阿勒泰羊脂肪酸合成酶及脂蛋白酯酶基因的序列分析
        柴達(dá)木盆地梭梭耐鹽相關(guān)基因PrxQ的克隆及其蛋白結(jié)構(gòu)預(yù)測(cè)
        男人的天堂av你懂得| 2021国产成人精品国产| 2022精品久久久久久中文字幕| 国产不卡在线播放一区二区三区| www国产亚洲精品久久麻豆| 好日子在线观看视频大全免费动漫| 亚洲欧洲国产日产国码无码| 亚洲国产线茬精品成av| av在线免费观看蜜桃| 欧美肥胖老妇做爰videos| 亚洲色欲Aⅴ无码一区二区| 久久综合加勒比东京热| 国产女人好紧好爽| 熟妇高潮一区二区三区| 久久久久久99精品| 日韩精品一区二区亚洲专区| 天堂中文а√在线| 男人和女人高潮免费网站| 青榴社区国产精品| 久久综合国产精品一区二区| 国产二级一片内射视频播放| 日韩欧美一区二区三区中文精品| 免费在线观看亚洲视频| 国产免费在线观看不卡| 美女把尿囗扒开让男人添| 毛片毛片免费看| 视频一区中文字幕日韩| 国产午夜精品无码| 亚洲精品国偷拍自产在线观看蜜臀| 国产精品国产午夜免费看福利| 人妻少妇猛烈井进入中文字幕| 精品久久久久久无码人妻热| 日韩av在线毛片| 日本高清一区二区在线播放| 无码无套少妇毛多18pxxxx| 国产亚洲婷婷香蕉久久精品| 蜜臀av国内精品久久久人妻| 国产内射一级一片内射视频| 久久久精品人妻一区二区三区四| 动漫av纯肉无码av在线播放| 人妖一区二区三区视频|