亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        最大生成樹聚類算法研究

        2015-06-01 13:27:38劉芳
        軟件導刊 2015年5期
        關鍵詞:模糊聚類相關系數(shù)基因

        摘 要:在生物學研究中,需要對基因進行分類,以獲得對種群固有結構的認識,有效鑒別基因表示數(shù)據(jù)的模式是研究DNA序列的重要基礎。在已有最大樹聚類理論基礎上,引入模糊聚類思想,提出了最大樹基因聚類算法,同時將該方法用于基因的聚類分析,實驗結果表明它們是有效可行的。

        關鍵詞:最大生成樹;模糊聚類;簇;相關系數(shù);基因

        中圖分類號:TP311

        文獻標識碼:A 文章編號:1672-7800(2015)005-0068-02

        作者簡介:劉芳(1979-),女,遼寧沈陽人,碩士,沈陽理工大學理學院講師,研究方向為應用數(shù)學與計算機輔助幾何設計。

        0 引言

        近年來,隨著人們對生命科學的深入研究,開發(fā)出許多用于基因分析的工具[2]。利用這些工具,在不同的試驗條件下,人們能夠?qū)Τ汕先f個基因進行實時監(jiān)控,以研究由于環(huán)境變化引起的基因變化。因此,首先對大量的基因表示數(shù)據(jù)進行分類,有效地鑒別基因表示數(shù)據(jù)的模式是研究DNA序列的重要基礎。

        聚類分析是統(tǒng)計學的一個分支,聚類算法能從空間數(shù)據(jù)庫中直接發(fā)現(xiàn)一些有意義的聚類結構。聚類分析以相似性為基礎,在一個聚類中的模式比不在同一聚類中的模式之間具有更多相似性。聚類分析算法有劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等。但傳統(tǒng)的聚類分析把每個待辨識的對象嚴格地劃分到某個類中,這種硬劃分的界線是分明的。而客觀世界中存在大量界限不分明的聚類問題,它們的類屬和性態(tài)存在著中介性,適合軟劃分。Zadeh提出的模糊集理論[3]為這種軟劃分提供了有力的分析工具,人們開始用模糊方法處理聚類問題,并稱之為模糊聚類分析。常用的模糊聚類方法有傳遞閉包法、動態(tài)直接聚類法、最大樹法[2]、基于攝動的模糊聚類方法FCMBP、系統(tǒng)聚類法、模糊C-均值法和模糊ISODATA算法。

        本文把最大生成樹法用于模糊聚類分析,最大生成樹可以將數(shù)據(jù)聚類轉換成樹分割問題,通過刪除最大生成樹中某些具有最短距離的邊,將最大生成樹分為若干子樹。本文討論數(shù)據(jù)集的最大生成樹表示,以及相應的聚類分析方法,并將其用于基因分類。

        1 用生成樹表示數(shù)據(jù)

        2 最大生成樹聚類算法

        楊國惠[4]等人提出改進的中心聚類算法,本文在此基礎上又提出最大生成樹的基因聚類算法,同時通過實例驗證了此算法可以得到較好結果。算法描述如下:具有較長邊的兩個點應屬于同一個簇,具有較短邊的兩個點應屬于不同的簇,并將被分割。由推論1,通過清除最大生成樹中具有最小距離的k-1條邊可得到k個簇,只要不同簇之間點的邊距離小于簇內(nèi)點的邊距離,這k個簇則是全局最優(yōu)解。但是,當不同簇沒有用短距離邊而是一系列長距離邊連接,或者當存在“噪聲”和孤立點數(shù)據(jù)時,該方法可能得不到最好的聚類結果。為了自動決定應該進行多少次有效分割,可在分割算法中檢測新產(chǎn)生的子樹是否為孤立點,通過消除孤立點并增加有效分割次數(shù),最終獲得正確的k個簇。

        2.1 算法程序?qū)崿F(xiàn)

        開始

        輸入:數(shù)據(jù)集data和聚類數(shù)目K

        begin

        weight←compute_weight(data);{計算距離矩陣}

        t←{1,2,3,…,data_number};

        m=0;

        查找weight中的最大值所在的行列值(x,y);

        while(m~= data_number-cluster_number)

        begin

        if(t(x)~=t(y))

        begin

        m=m+1;

        tree(1,m)=x(1);

        tree(2,m)=y(1);

        tmin=min(t(x(1)),t(y(1)));

        tmax=max(t(x(1)),t(y(1)));

        for j=1:datanumber

        if(t(j)==tmax)

        t(j)=tmin;

        end

        weight(x,y) ←∞;

        查找weight中的最大值所在的行列值(x,y);

        end

        由tree得到聚類結果cluster;

        計算聚類誤差平方和cluster_err;

        計算q值;

        end

        輸出:聚類cluster、誤差平方和cluster_err,q值;

        結束

        3 實驗結果與評價

        現(xiàn)選擇酵母數(shù)據(jù)集[5],此數(shù)據(jù)集中每個基因有79個屬性(或79維),選擇4個聚類共68個基因,這4個聚類分別為protein degradation(聚類C)、glycolysis(聚類E)、protein synthesis(聚類F)、 protein chromatin(聚類H)。

        這個實驗的目的是將最大生成樹基因聚類算法應用到基因聚類中,同時說明該算法是可行、有效的。為了評價計算結果,使用以下定義。

        誤差平方和J(k)的定義如下:

        J(k)=∑ki=1∑d∈Tid-center(Ti)2(5)

        對于用戶選擇的目標函數(shù)和一個整數(shù)值K,計算最優(yōu)k聚類k∈[1,K],然后比較這些值。設J(k)代表選擇的目標函數(shù)最佳k聚類的值,里面的k∈[2,K-1],q(k)的最大值作為最自然的聚類數(shù):

        q(k)=J(k-1)-J(k)J(k)-J(k+1)(6)

        距離測度采用公式(2)。

        從圖像中可以看到最大生成樹基因聚類算法的最佳聚類數(shù)是4,分類的結果完全一致(見圖1)[1]。

        4 結語

        本文在已有最大樹聚類理論基礎上,引入模糊聚類思想,提出了最大樹基因聚類算法,對基因數(shù)據(jù)的聚類分析有重要的實踐價值。特別對于生物學DNA序列信息、蛋白質(zhì)結構信息的分類更具有意義。

        參考文獻:

        [1] YING XU, VICTOR OLMAN, DONG XU.Clustering gene expression data using a graph-theoretic approach: an application of minimum spanning trees[J]. Bioinformatics, 2002, 18(4):526-545.

        [2] HATHAWAY R J,BEZDEK J C.Optimization of clustering criteria by reformulation[J].IEEE Transactions Fuzzy Systems,1995,3(2):241-245.

        [3] ZADEH L A. Fuzzy sets [J].Information and contral,1965(8):338-353.

        [4] 楊國惠,周春光,等. 最小生成樹用于基因表示數(shù)據(jù)的聚類算法[J].計算機研究與發(fā)展,2003,40(10):1431-1435.

        [5] M B EISEN,P T SPELLMAN,P O BROWN,et al.Cluster analysis and display of gene-wide expression patterns[J]. The National Academic of Science,N W,1998.

        (責任編輯:黃 ?。?

        猜你喜歡
        模糊聚類相關系數(shù)基因
        Frog whisperer
        修改基因吉兇未卜
        奧秘(2019年8期)2019-08-28 01:47:05
        創(chuàng)新基因讓招行贏在未來
        商周刊(2017年7期)2017-08-22 03:36:21
        人口老齡化對我國消費結構影響研究
        南京市能見度變化趨勢及其影響因素
        基于MATLAB回采巷道圍巖分類可視化系統(tǒng)開發(fā)及應用
        模糊聚類在區(qū)域環(huán)境質(zhì)量評價中的運用
        公路貨運樞紐布局方法研究
        科技視界(2016年13期)2016-06-13 10:14:21
        基因
        秦皇島海域夜光藻種群密度與環(huán)境因子的關系
        亚洲无AV码一区二区三区| 成人av鲁丝片一区二区免费| 欧妇女乱妇女乱视频| 亚洲国产成人手机在线观看| 99精品欧美一区二区三区| 少妇人妻大乳在线视频不卡| 国产精品国产成人国产三级| 老熟女毛茸茸浓毛| 成人无码a级毛片免费| 日本免费三片在线播放| 国产偷国产偷亚洲欧美高清| 国产一区二区三区涩涩涩| 日韩精品免费一区二区三区观看| 综合图区亚洲另类偷窥| 性激烈的欧美三级视频| 国产AV无码专区亚洲AV桃花庵 | 久久人妻少妇嫩草av蜜桃| 久久精品国产99久久无毒不卡| 理论片87福利理论电影| 成人综合亚洲欧美一区h| 国产夫妻精品自拍视频| 亚洲精品国产精品国自产| 99久久久无码国产aaa精品| 99久久无色码中文字幕鲁信| 亚洲毛片一区二区在线| 免费看黄色电影| 国产欧美另类精品久久久| 亚洲天堂男人的av天堂| 国产成人精品日本亚洲11| 777久久| 日本av一级视频在线观看| 三年片免费观看影视大全视频| 最新亚洲人成无码网站| 按摩师玩弄少妇到高潮hd| 国产一区二区三区在线观看完整版| 又爽又黄又无遮挡网站动态图| 亚洲国产精品午夜电影| 久久爱91精品国产一区| 麻豆精品一区二区av白丝在线 | 日韩精品无码区免费专区| 亚洲人成伊人成综合网中文|