亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類(lèi)分析法的DNA序列分類(lèi)

        2017-12-19 11:53:17陳靜李家興
        科學(xué)與財(cái)富 2017年33期

        陳靜+李家興

        摘 要: 從DNA序列的堿基分布出發(fā),以AGT作為標(biāo)準(zhǔn),用8種坐標(biāo)表示堿基組,根據(jù)每組DNA序列中各坐標(biāo)的密度進(jìn)行聚類(lèi)分析,得到分類(lèi)結(jié)果。此算法避免密碼子密度繁瑣的計(jì)算,算法更簡(jiǎn)便。

        從DNA序列的堿基排列順序出發(fā),以(A,T,C)作為標(biāo)準(zhǔn),將每組DNA序列用多個(gè)坐標(biāo)點(diǎn)來(lái)表示,根據(jù)兩組DNA序列對(duì)應(yīng)堿基組坐標(biāo)點(diǎn)的距離來(lái)分類(lèi)。此算法考慮到DNA序列中堿基的排列順序,算法科學(xué)性更強(qiáng)。

        關(guān)鍵詞: 聚類(lèi)分析;密碼子;坐標(biāo)點(diǎn)

        1 引言

        DNA序列由堿基A、T、G、C排列而成,DNA序列的分類(lèi)一直是基因工程研究的重要課題之一。本文將探討運(yùn)用聚類(lèi)分析法對(duì)DNA序列進(jìn)行分類(lèi),參考例題為2000全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽題。根據(jù)一定的規(guī)則準(zhǔn)則提取數(shù)據(jù),所給數(shù)據(jù)共有40組,其中前10組數(shù)據(jù)屬于A類(lèi),11-20組數(shù)據(jù)屬于B類(lèi),20-40為20組未知數(shù)據(jù),需要將該20組數(shù)據(jù)進(jìn)行分類(lèi),即判斷未知的20組數(shù)據(jù)中哪些屬于A類(lèi),哪些屬于B類(lèi)。

        2 問(wèn)題的分析與假設(shè)

        查找相關(guān)文獻(xiàn)可知,已有多種方法分析該類(lèi)問(wèn)題。主要的分類(lèi)算法仍為聚類(lèi)分析,但是存在不同的分析方法。岳曉寧、徐寶樹(shù)、王競(jìng)波的基于聚類(lèi)分析的DNA序列分類(lèi)研究[1],對(duì)密碼子出現(xiàn)的概率進(jìn)行分類(lèi);顧俊華、盛春楠、韓正忠的模糊聚類(lèi)分析方法在DNA序列分類(lèi)中的應(yīng)用[2],對(duì)單個(gè)堿基出現(xiàn)的概率進(jìn)行分類(lèi),大量論文都對(duì)堿基或堿基組出現(xiàn)的概率為分類(lèi)標(biāo)準(zhǔn)進(jìn)行聚類(lèi)分析處理,字母的聚類(lèi)會(huì)使算法繁瑣,同時(shí)單一的概率分析忽略了堿基或堿基組在DNA序列出現(xiàn)的順序。

        同樣,本文用兩種分層聚類(lèi)分析方法來(lái)對(duì)DNA序列進(jìn)行分類(lèi),但兩種方法中的分類(lèi)標(biāo)準(zhǔn)均用坐標(biāo)點(diǎn)來(lái)表示DNA序列中的堿基,將字母數(shù)字化,既簡(jiǎn)化了算法,避免了上述算法所產(chǎn)生的缺點(diǎn),又使得該算法對(duì)DNA序列的分類(lèi)更加科學(xué)合理。

        3 分層聚類(lèi)分析法

        3.1 模型建立

        (1) 數(shù)據(jù)坐標(biāo)化處理

        理論上密碼子的種類(lèi)有64種,分別分析64種密碼子出現(xiàn)的概率,容易使得算法過(guò)于繁瑣,本文找出一種分類(lèi)方法,簡(jiǎn)化了密碼子的種類(lèi)。以AGT作為標(biāo)準(zhǔn),AGT對(duì)應(yīng)坐標(biāo)點(diǎn)表示(1, 1, 1),當(dāng)坐標(biāo)點(diǎn)中x軸對(duì)應(yīng)密碼子第一個(gè)堿基為A時(shí),x軸對(duì)應(yīng)數(shù)值為1,否則為0,y、z軸表示方法類(lèi)似,具體表示如表1所示。

        (2) 建立模糊相似矩陣

        確定分類(lèi)標(biāo)準(zhǔn)后,對(duì)每組DNA序列中對(duì)8種坐標(biāo)點(diǎn)出現(xiàn)的概率進(jìn)行統(tǒng)計(jì)分類(lèi),本文使用海明距離法建立模糊相似矩陣A=(xij)n×m。其中,第i組DNA序列和第j組DNA序列Xj的相似程度用相似系數(shù)rij=R(Xi,Xj)表示,Xik為第i組DNA序列中第k個(gè)坐標(biāo)點(diǎn)的出現(xiàn)的概率,H的取值為使rij∈[0,1](i=1,2,...,n)的常數(shù),此處H=1。

        (3) 聚類(lèi)分析

        運(yùn)用數(shù)學(xué)軟件MATLAB對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分類(lèi),得到模糊相似矩陣A=(xij),再根據(jù)模糊相似矩陣來(lái)構(gòu)造一個(gè)模糊等價(jià)矩陣A*,其方法就是用平方法求出A的傳遞包t(A),則t(A)= A*,然后由大到小取λ,最后確定一個(gè)的取值。

        3.2 模型求解

        針對(duì)例題,上述算法中取λ=0.81,得到一個(gè)大小為40x40的0、1矩陣,對(duì)所得矩陣進(jìn)行分析得到分類(lèi)結(jié)果如表2。題目給出的條件為1-10組為A類(lèi),11-20組為B類(lèi),所得結(jié)果未將1-10組與11-20組分在一類(lèi)中,故分類(lèi)結(jié)果科學(xué)合理性良好。最終得到結(jié)果,DNA序列22、23、25、27、29、30、32、34、35、36、37、39組屬于A類(lèi),21、24、26、28、31、33、38、40組屬于B類(lèi)。

        4 改進(jìn)分層聚類(lèi)分析法

        4.1 模型建立

        (1) 數(shù)據(jù)坐標(biāo)化處理

        以(A,T,C)對(duì)應(yīng)初始坐標(biāo)(0,0,0)作為數(shù)據(jù)坐標(biāo)的標(biāo)準(zhǔn),首先表示DNA序列中的第一個(gè)堿基,若第一個(gè)堿基為A,坐標(biāo)的x軸對(duì)應(yīng)數(shù)值加1,否則不變,y、z軸表示方法類(lèi)似。按此方法從第一個(gè)堿基組開(kāi)始依次向后移一個(gè)堿基單位,直至表示該DNA序列中的所有堿基,例子如下所示。

        (2) 建立模糊相似矩陣

        根據(jù)上述方法對(duì)DNA序列進(jìn)行搜索,第i組DNA序列可以得到多個(gè)坐標(biāo)點(diǎn)Xi(i=1,2,...n)(xi,yi,zi),整合n組DNA序列,可以得到由坐標(biāo)點(diǎn)構(gòu)成的模糊相似矩陣A=(xij)n×m。其中,第i組DNA序列和第j組DNA序列之間的相似程度用相似系數(shù)ri,j=R(Xi,Xj)表示。(xik,yik,zik)為第i組DNA序列中第k個(gè)堿基組的坐標(biāo)表示,d(Xi,Xj)為第i組DNA序列和第j組DNA序列對(duì)應(yīng)坐標(biāo)點(diǎn)的距離。

        (3) 聚類(lèi)分析

        同樣,運(yùn)用數(shù)學(xué)軟件MATLAB進(jìn)行直接聚類(lèi)分析,待分類(lèi)的DNA序列與已知的DNA序列進(jìn)行比較分類(lèi)。由例題可知0-10組為A類(lèi)DNA序列,11-20組為B類(lèi)DNA序列,待分類(lèi)的DNA序列與分別于A、B類(lèi)DNA序列計(jì)算相似度系數(shù),比較平均相似系數(shù)riA、riB大小,相似系數(shù)值越小,則相似度越高。即若riA>riB,則第i組DNA序列屬于B類(lèi),反之屬于A類(lèi)。

        4.2 模型求解

        根據(jù)例題條件,可知每組DNA序列均由117個(gè)堿基組成,三個(gè)堿基組成的堿基組依次向后移動(dòng)堿基單位長(zhǎng)度,每組DNA序列可以得到117個(gè)坐標(biāo)點(diǎn),于是得到一個(gè)由坐標(biāo)點(diǎn)組成的40x117的模糊相似矩陣。按照上述算法求坐標(biāo)點(diǎn)距離進(jìn)行分類(lèi),最終得到結(jié)果如下表所示。

        5 模型評(píng)價(jià)

        本文對(duì)運(yùn)用兩種聚類(lèi)分析法研究DNA序列的分類(lèi)問(wèn)題,在第一種分析方法中以AGT作為標(biāo)準(zhǔn)用坐標(biāo)表示堿基組,共有8種坐標(biāo)表示方式,計(jì)算每組DNA序列中各種類(lèi)坐標(biāo)的密度,然后運(yùn)用海明距離法建立模糊相似矩陣,并用平方法求出傳遞包矩陣,確定系數(shù),得到分類(lèi)結(jié)果。此結(jié)果精度較高,并且減少了堿基組的種類(lèi),使算法更簡(jiǎn)便。

        在改進(jìn)的分層模糊分析算法中,以(A,T,C)作為標(biāo)準(zhǔn)用坐標(biāo)表示堿基組,每組DNA序列有多個(gè)坐標(biāo)點(diǎn)表示,根據(jù)兩組DNA序列對(duì)應(yīng)堿基組坐標(biāo)點(diǎn)的距離來(lái)判斷兩組或兩類(lèi)DNA序列是否為同類(lèi)。此結(jié)果不僅用堿基的分布進(jìn)行分類(lèi),還考慮到了堿基的排列順序,使算法科學(xué)性更強(qiáng)。

        兩種聚類(lèi)分析算法各有的優(yōu)勢(shì),將兩算法的計(jì)算結(jié)果進(jìn)行對(duì)比,也無(wú)太大出入,在誤差范圍之內(nèi),故兩算法都合理可靠,均可用于DNA序列的分類(lèi)研究中。

        參考文獻(xiàn)

        [1] 岳曉寧,徐寶樹(shù),王競(jìng)波.基于聚類(lèi)分析的DNA序列分類(lèi)研究[J].沈陽(yáng)大學(xué)學(xué)報(bào),2008,20(6):104-106.

        [2] 顧俊華,盛春楠,韓正忠.模糊聚類(lèi)分析方法在DNA序列分類(lèi)中的應(yīng)用[J].計(jì)算機(jī)仿真,2005,20(10):108-111.endprint

        亚洲无码vr| 无码国模国产在线观看| 欧美性猛交xxxx乱大交丰满| 亚洲午夜看片无码| 日本在线一区二区免费| 亚洲av综合色区无码专区桃色| 亚洲国产精品日韩av专区| 精品99在线黑丝袜| 国产激情在线观看视频网址| 色综合久久中文字幕综合网| 鲁鲁鲁爽爽爽在线视频观看| 国产AV国片精品有毛| 日韩精品极品免费在线视频| 插鸡网站在线播放免费观看| 精品日韩欧美一区二区在线播放 | 国产一区二区三区小向美奈子| 深夜放纵内射少妇| 精品久久久噜噜噜久久久| 久久久国产不卡一区二区| 自拍偷区亚洲综合第一页| 奇米影视7777久久精品| 中国极品少妇videossexhd| 精品午夜福利无人区乱码一区| 久久波多野结衣av| 91精品国产综合久久国产| 丰满熟妇乱又伦精品| 99久久国产综合精品麻豆| 中文字幕一区韩国三级| 精品久久综合日本久久综合网| 欧美亚洲熟妇一区二区三区| 国产成人亚洲综合一区| 日日麻批视频免费播放器| 亚洲一区二区三区小说| 熟妇人妻无码中文字幕| 2021最新久久久视精品爱| 沐浴偷拍一区二区视频| 日本最大色倩网站www| 亚洲AV激情一区二区二三区| 81久久免费精品国产色夜| 精品无人码麻豆乱码1区2区| 国产精品美女久久久久久2018|