亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        最大生成樹聚類算法研究

        2015-06-01 13:27:38劉芳
        軟件導刊 2015年5期
        關鍵詞:模糊聚類相關系數(shù)基因

        摘 要:在生物學研究中,需要對基因進行分類,以獲得對種群固有結構的認識,有效鑒別基因表示數(shù)據(jù)的模式是研究DNA序列的重要基礎。在已有最大樹聚類理論基礎上,引入模糊聚類思想,提出了最大樹基因聚類算法,同時將該方法用于基因的聚類分析,實驗結果表明它們是有效可行的。

        關鍵詞:最大生成樹;模糊聚類;簇;相關系數(shù);基因

        中圖分類號:TP311

        文獻標識碼:A 文章編號:1672-7800(2015)005-0068-02

        作者簡介:劉芳(1979-),女,遼寧沈陽人,碩士,沈陽理工大學理學院講師,研究方向為應用數(shù)學與計算機輔助幾何設計。

        0 引言

        近年來,隨著人們對生命科學的深入研究,開發(fā)出許多用于基因分析的工具[2]。利用這些工具,在不同的試驗條件下,人們能夠?qū)Τ汕先f個基因進行實時監(jiān)控,以研究由于環(huán)境變化引起的基因變化。因此,首先對大量的基因表示數(shù)據(jù)進行分類,有效地鑒別基因表示數(shù)據(jù)的模式是研究DNA序列的重要基礎。

        聚類分析是統(tǒng)計學的一個分支,聚類算法能從空間數(shù)據(jù)庫中直接發(fā)現(xiàn)一些有意義的聚類結構。聚類分析以相似性為基礎,在一個聚類中的模式比不在同一聚類中的模式之間具有更多相似性。聚類分析算法有劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等。但傳統(tǒng)的聚類分析把每個待辨識的對象嚴格地劃分到某個類中,這種硬劃分的界線是分明的。而客觀世界中存在大量界限不分明的聚類問題,它們的類屬和性態(tài)存在著中介性,適合軟劃分。Zadeh提出的模糊集理論[3]為這種軟劃分提供了有力的分析工具,人們開始用模糊方法處理聚類問題,并稱之為模糊聚類分析。常用的模糊聚類方法有傳遞閉包法、動態(tài)直接聚類法、最大樹法[2]、基于攝動的模糊聚類方法FCMBP、系統(tǒng)聚類法、模糊C-均值法和模糊ISODATA算法。

        本文把最大生成樹法用于模糊聚類分析,最大生成樹可以將數(shù)據(jù)聚類轉換成樹分割問題,通過刪除最大生成樹中某些具有最短距離的邊,將最大生成樹分為若干子樹。本文討論數(shù)據(jù)集的最大生成樹表示,以及相應的聚類分析方法,并將其用于基因分類。

        1 用生成樹表示數(shù)據(jù)

        2 最大生成樹聚類算法

        楊國惠[4]等人提出改進的中心聚類算法,本文在此基礎上又提出最大生成樹的基因聚類算法,同時通過實例驗證了此算法可以得到較好結果。算法描述如下:具有較長邊的兩個點應屬于同一個簇,具有較短邊的兩個點應屬于不同的簇,并將被分割。由推論1,通過清除最大生成樹中具有最小距離的k-1條邊可得到k個簇,只要不同簇之間點的邊距離小于簇內(nèi)點的邊距離,這k個簇則是全局最優(yōu)解。但是,當不同簇沒有用短距離邊而是一系列長距離邊連接,或者當存在“噪聲”和孤立點數(shù)據(jù)時,該方法可能得不到最好的聚類結果。為了自動決定應該進行多少次有效分割,可在分割算法中檢測新產(chǎn)生的子樹是否為孤立點,通過消除孤立點并增加有效分割次數(shù),最終獲得正確的k個簇。

        2.1 算法程序?qū)崿F(xiàn)

        開始

        輸入:數(shù)據(jù)集data和聚類數(shù)目K

        begin

        weight←compute_weight(data);{計算距離矩陣}

        t←{1,2,3,…,data_number};

        m=0;

        查找weight中的最大值所在的行列值(x,y);

        while(m~= data_number-cluster_number)

        begin

        if(t(x)~=t(y))

        begin

        m=m+1;

        tree(1,m)=x(1);

        tree(2,m)=y(1);

        tmin=min(t(x(1)),t(y(1)));

        tmax=max(t(x(1)),t(y(1)));

        for j=1:datanumber

        if(t(j)==tmax)

        t(j)=tmin;

        end

        weight(x,y) ←∞;

        查找weight中的最大值所在的行列值(x,y);

        end

        由tree得到聚類結果cluster;

        計算聚類誤差平方和cluster_err;

        計算q值;

        end

        輸出:聚類cluster、誤差平方和cluster_err,q值;

        結束

        3 實驗結果與評價

        現(xiàn)選擇酵母數(shù)據(jù)集[5],此數(shù)據(jù)集中每個基因有79個屬性(或79維),選擇4個聚類共68個基因,這4個聚類分別為protein degradation(聚類C)、glycolysis(聚類E)、protein synthesis(聚類F)、 protein chromatin(聚類H)。

        這個實驗的目的是將最大生成樹基因聚類算法應用到基因聚類中,同時說明該算法是可行、有效的。為了評價計算結果,使用以下定義。

        誤差平方和J(k)的定義如下:

        J(k)=∑ki=1∑d∈Tid-center(Ti)2(5)

        對于用戶選擇的目標函數(shù)和一個整數(shù)值K,計算最優(yōu)k聚類k∈[1,K],然后比較這些值。設J(k)代表選擇的目標函數(shù)最佳k聚類的值,里面的k∈[2,K-1],q(k)的最大值作為最自然的聚類數(shù):

        q(k)=J(k-1)-J(k)J(k)-J(k+1)(6)

        距離測度采用公式(2)。

        從圖像中可以看到最大生成樹基因聚類算法的最佳聚類數(shù)是4,分類的結果完全一致(見圖1)[1]。

        4 結語

        本文在已有最大樹聚類理論基礎上,引入模糊聚類思想,提出了最大樹基因聚類算法,對基因數(shù)據(jù)的聚類分析有重要的實踐價值。特別對于生物學DNA序列信息、蛋白質(zhì)結構信息的分類更具有意義。

        參考文獻:

        [1] YING XU, VICTOR OLMAN, DONG XU.Clustering gene expression data using a graph-theoretic approach: an application of minimum spanning trees[J]. Bioinformatics, 2002, 18(4):526-545.

        [2] HATHAWAY R J,BEZDEK J C.Optimization of clustering criteria by reformulation[J].IEEE Transactions Fuzzy Systems,1995,3(2):241-245.

        [3] ZADEH L A. Fuzzy sets [J].Information and contral,1965(8):338-353.

        [4] 楊國惠,周春光,等. 最小生成樹用于基因表示數(shù)據(jù)的聚類算法[J].計算機研究與發(fā)展,2003,40(10):1431-1435.

        [5] M B EISEN,P T SPELLMAN,P O BROWN,et al.Cluster analysis and display of gene-wide expression patterns[J]. The National Academic of Science,N W,1998.

        (責任編輯:黃 ?。?

        猜你喜歡
        模糊聚類相關系數(shù)基因
        Frog whisperer
        修改基因吉兇未卜
        奧秘(2019年8期)2019-08-28 01:47:05
        創(chuàng)新基因讓招行贏在未來
        商周刊(2017年7期)2017-08-22 03:36:21
        人口老齡化對我國消費結構影響研究
        南京市能見度變化趨勢及其影響因素
        基于MATLAB回采巷道圍巖分類可視化系統(tǒng)開發(fā)及應用
        模糊聚類在區(qū)域環(huán)境質(zhì)量評價中的運用
        公路貨運樞紐布局方法研究
        科技視界(2016年13期)2016-06-13 10:14:21
        基因
        秦皇島海域夜光藻種群密度與環(huán)境因子的關系
        亚洲综合av一区在线| 国产又色又爽又刺激在线播放| 青青草视频网站在线观看| 亚洲a无码综合a国产av中文| 国产男女免费完整视频| 真实国产乱啪福利露脸| 国产亚洲欧美日韩国产片| 久久亚洲精精品中文字幕早川悠里 | 国产一起色一起爱| 日韩av一区二区在线观看| av中国av一区二区三区av| 成年免费a级毛片免费看| 三男一女吃奶添下面| 成人亚洲欧美久久久久| 亚洲国产av中文字幕| 午夜国产精品视频在线观看| 日韩av毛片在线观看| 人妻少妇久久中文字幕| 中文字幕久无码免费久久| 日本精品一区二区三本中文| 精品国产一区二区三广区| 日本免费一区二区三区影院| 性做久久久久久久| 亚洲成a人v欧美综合天堂麻豆| 亚洲大尺度动作在线观看一区| 中文字幕人乱码中文字幕乱码在线| 麻豆国产一区二区三区四区| 曰本大码熟中文字幕| 国产精品流白浆喷水| 国产偷拍盗摄一区二区| 美女人妻中出日本人妻| 99精品国产一区二区三区不卡| 国产成人无码区免费网站| 一区二区三区国产精品| 亚洲国产av中文字幕| 男女18视频免费网站| 国产无遮挡又黄又爽免费网站| 国产成人av综合亚洲色欲| 在线观看人成网站深夜免费| 国产成人一区二区三区乱| 色爱无码av综合区|