亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基因表達譜中特征基因選擇的幾種方法比較研究

        2012-01-27 20:43:25何蘭范繼紅滕輝潘洪明
        中國科技信息 2012年14期
        關鍵詞:基因芯片齊齊哈爾特征選擇

        何蘭范繼紅滕輝潘洪明

        1.齊齊哈爾醫(yī)學院基礎醫(yī)學院數(shù)學教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學院現(xiàn)代教育技術中心計算機教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學院醫(yī)學技術學院生化教研室,齊齊哈爾,161006

        基因表達譜中特征基因選擇的幾種方法比較研究

        何蘭1范繼紅2滕輝1潘洪明3

        1.齊齊哈爾醫(yī)學院基礎醫(yī)學院數(shù)學教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學院現(xiàn)代教育技術中心計算機教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學院醫(yī)學技術學院生化教研室,齊齊哈爾,161006

        基因表達譜芯片技術的產生,為復雜疾病致病機理的研究提供了一個全方位的視角。從大量的基因表達譜芯片數(shù)據(jù)中挖掘有用的信息,特征選擇技術起到了關鍵的作用。對當前基因芯片數(shù)據(jù)的特征選擇方法和各種學習器效能進行了綜述,并通過說明各種特征選擇方法的具體情況來比較它們的優(yōu)劣性,最終得出從特征自身特點出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學的應用。

        基因表達譜;特征選擇;聚類分析;t檢驗;決策樹;支持向量機

        引言

        隨著人類基因組計劃的逐步實施以及分子生物學等學科的迅猛發(fā)展,越來越多的基因組序列得以測定,人類對基因組研究的重心也進入了后基因組時代,即從基因序列的研究轉向到基因組功能的研究?;蛐酒夹g就是順應這一發(fā)展要求的高科技產物?;蛐酒歉鶕?jù)堿基互補的原理,通過檢測雜交信號的強度及分布來進行分析的?;蛐酒夹g經(jīng)過近二十年的發(fā)展,已成為一個非常穩(wěn)定和可信度極高的實驗技術[1-2]?;蛐酒夹g的產生是功能基因組研究的一個重大突破,運用基因芯片技術可以進行正常和異常細胞中基因的表達檢測,基因突變檢測,分析復雜疾病的致病機理,為疾病的個性化診斷和治療提供指導,同時在藥物篩選和開發(fā)、環(huán)境保護、司法鑒定等方面也有重要的應用。

        面對人類約3萬個基因的30億個堿基對序列,近年來,通過基因芯片技術進行生物研究時也產生了浩如煙海的表達譜數(shù)據(jù),研究如此海量的基因在生命過程中所擔負的功能就成了新的課題?;虮磉_譜是一組表達數(shù)據(jù),通常用矩陣表示,行代表基因,列代表樣本,矩陣中的元素代表基因在特定樣本中的表達水平和豐度信息。據(jù)研究表明,并不是所有基因對疾病遺傳、診斷、治療或醫(yī)學研究都有決定性作用[3]。因此,為了從大量的表達數(shù)據(jù)中挖掘有重要應用價值和研究意義的基因,發(fā)現(xiàn)對疾病診斷、預測具有很強鑒別力的基因組,如何有效地提取與疾病有關的特征基因,降低特征基因的維數(shù)是基因表達譜數(shù)據(jù)分析的核心問題,也對樣本分類起到關鍵性的作用[4-6]。

        目前,很多科技工作者在研究中提出了特征基因提取的方法和理論,較早獲得的有聚類分析法、人工神經(jīng)網(wǎng)絡等特征基因選擇法,近年來又有集成數(shù)據(jù)選擇法[7]、非線性降維選擇法[8],應用t檢驗、決策樹、支持向量機等特征基因選取方法。本文針對幾種特征基因選擇方法進行介紹,并用不同的分類器比較評價其效能。

        1 特征基因選擇法

        1.1 聚類分析法

        最常用的是層次聚類法,這種方法是通過計算各數(shù)據(jù)點間的距離,然后把最近距離聚為一組,再計算各組之間的距離,然后把它們合并成一個更大的組,不斷重復該過程直到最后聚成一組以樹狀結構的數(shù)據(jù)。這種做法的結果非常直觀,而且還可以根據(jù)樹狀結構分支的長短來評價基因的相似性。

        在用K-means聚類法進行分析時,因為缺乏先驗知識,所以事先不能確定k值。把k作為一個變量處理,從2開始遞增,對每個k值都根據(jù)模式質量對特征基因進行評估,然后遴選出最優(yōu)的基因集作為特征基因集。不斷重復這一過程,k值遞增,直到找出一個模式質量最大的k值為止。

        1.2 t檢驗法

        數(shù)據(jù)采用美國Affymetrix(昂飛)公司的結腸癌基因表達實驗數(shù)據(jù)(www.sph.uth. tmc.edu/hgc),原實驗點有65000個寡聚核苷酸探針組的基因芯片,樣本包括40例結腸癌組織和22例正常結腸組織。我們僅采用U.ALON等篩選出的2000個基因表達譜數(shù)據(jù)進行分析[9]。

        這種方法主要是運用統(tǒng)計學上的兩組獨立樣本t檢驗,此方法的零假設H0是兩總體的均值相等,備擇假設H1為均值不等。應用檢驗結果可以尋找兩組數(shù)據(jù)間表達有差異的基因,又由于在實驗中進行了多次假設檢驗,從而涉及多重檢驗問題,第一類錯誤會上升,所以可根據(jù)具體情況對每個基因的值進行相應調整,確定檢驗的顯著性水平為0.05。通過統(tǒng)計軟件SAS對兩總體做t檢驗,計算每一個基因的t值,并降序排列,分別篩選t值最大的前5至10個基因。最后引入n重交叉驗證法[10],來驗證所選特征基因的樣本識別率。

        1.3 決策樹

        決策樹是以實例為基礎的歸納學習方法。它通常是利用已知類別的樣本信息,采用自上而下的方式來生成的。決策樹的內部節(jié)點表示在一個屬性上的測試,通過比較不同節(jié)點的屬性值來判斷下一個節(jié)點的分支,直到找到的節(jié)點中包含的樣本滿足某個條件為止。這樣,當一個決策樹生成時,它的每一個內部節(jié)點的分割都對應著一個特征屬性。

        如選定一個p維樣本,將樣本集分為訓練集和試驗集。為尋求一個最能改善分類正確率的特征屬性,從所有訓練集的根節(jié)點開始,為了選擇一個最好的特征,在特征空間做一次窮盡搜索,尋找一個特征屬性和相應的閥值,使得最大程度地減少類別節(jié)點的雜質度。重復以上分支遞歸過程,可得到?jīng)Q策樹上的一套特征子集[11]。試驗證明,決策樹特征基因選擇法對支持向量機具有良好的有效性。

        1.4 支持向量機

        支持向量機分類方法是建立在統(tǒng)計學習理論基礎上的,在有限的樣本信息和學習能力之間尋求最佳,使復雜度和結構風險達到最小,以期獲得最好的推廣能力[12]。在有監(jiān)督分析獲取特征基因的過程中,不僅要使分類器的VC維低,同時也要使經(jīng)驗風險最小。支持向量機可以這樣表述,首先將已知向量映射到一個高維空間里,使得向量在高維空間里可分,并且線性函數(shù)只需在高維空間進行內積運算,這樣就避開了高維變換計算問題。然后再尋找一個最佳超平面,讓這個超平面把數(shù)據(jù)分開在兩邊,并且使每一類別數(shù)據(jù)之間的分類間隔最大,這樣可以降低結構風險。通過大量試驗證明,支持向量機在解決小樣本、非線性問題中表現(xiàn)出特有的優(yōu)勢,且分類精度高,抗噪能力強。同時支持向量機對高維模式識別具有很強的泛化能力[13]。

        2 特征基因的分類效能評價

        根據(jù)特征選擇技術和特征集成技術找出的特征基因分類效能如何,可用下面四種分類器進行評價[14]。

        2.1 Fisher線性判別分類器

        這種方法把p維空間的樣本投影到一條直線上,形成一維空間,即把維數(shù)壓縮為一維。通過尋找最佳的投影方向,使樣本在一維空間達到較好的分離效果。

        2.2 Logit非線性分類器

        這種方法主要是運用Logistic回歸模型,計算疾病發(fā)生的概率p及疾病不發(fā)生的概率q,通過比較p和q的大小來判別樣本所屬類型。

        2.3 基于最小距離的分類器

        該方法是把均值作為各類的代表點,用距離作為判別函數(shù)進行分類,即通過比較檢驗樣本與代表點的距離來判別樣本所屬類別的一種方法。

        2.4 K 最近鄰法分類器

        該方法對于每個檢驗樣本都找出與之距離最近的K個鄰居,以這K個鄰居中占主導的類別作為檢驗樣本的類別。而對于基因表達譜數(shù)據(jù),較合理的衡量基因之間距離的方法是Pearson相關系數(shù)。鄰居數(shù)K可用交叉證實的方法確定。

        3 結語

        基因芯片數(shù)據(jù)對疾病進行分類診斷是生物醫(yī)學中重要的應用領域,但是基因芯片的特征選擇面臨的是海量的檢測數(shù)據(jù),從成千上萬的數(shù)據(jù)中尋找特征基因的方法和效能檢驗就顯得尤為重要。

        對于不同的基因芯片數(shù)據(jù)集,不同的特征選擇算法的性能優(yōu)勢也不盡相同。有的算法分類正確率高,但是所需基因數(shù)較多;有的算法需要較少的基因,但是復雜度高;有的所需基因較少,分類正確率也不低,但是結果卻和疾病的機理相關性小。因此,考慮到一個好的基因芯片數(shù)據(jù)的特征選擇法應具有的條件,把上述多種算法有效地相結合[15],綜合每種方法的優(yōu)勢,可得到分類、性能各方面都令人滿意的結果,即從特征自身特點出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學的應用。

        [1]李霞.生物信息學[M].北京:人民衛(wèi)生出版社,2010:110~128.

        [2]孫繼勇.基因表達譜的數(shù)據(jù)分析[J].國際病理科學與臨床雜志,2005,25(5),386~389.

        [3]余偉峰,王廣倫,錢夕元.基于GA/SVM的微陣列數(shù)據(jù)特征的選擇和分類[J].計算機工程,2007,33(19),204~206.

        [4]張玉春,郝平波,王明宇,等.確定腫瘤基因表達譜特征基因方法的研究[J].沈陽理工大學學報,2011,30(1),34~38.

        [5]A Buness, M. Ruschhaupt, and R. Kuner,Classification across gene expression microarray studies[J]. BMC Bioinformatics, 2009,(10):453.

        [6]呂颯麗,汪強虎,李霞,等.基于決策森林特征基因的兩種識別方法[J].生物信息學,2004,(3):19~22.

        [7]王海鵬,楊昆.集成數(shù)據(jù)選擇特征基因[J]杭州電子科技大學學報,2010,30(6),17-20.

        [8]楊廣源,付旭平,黃燕等.一種非線性降維和Procrustes分析的基因選取方法[J].復旦學報(自然科學版),2009,48(3),338~347.

        [9]Alon U,Barka I , Notterman D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonucleotide arrays[J]. Cell Biology, 1999,(96)∶6745~6750.

        [10]趙肖肖,朱寧,黃云騰.Logistic回歸和T檢驗在基因特征提取中的應用[J].桂林電子科技大學學報,2012,32(1),69~71,81.

        [11]李霞,饒紹奇,張?zhí)镂?,?應用DNA芯片數(shù)據(jù)挖掘復雜疾病相關基因的集成決策方法[J].中國科學 C輯 生命科學,2004,34(2):195~202.

        [12]. 李霞,張?zhí)镂?李麗,等.決策樹特征基因選擇方法對SVM有效性的研究[J].中國生物醫(yī)學工程學報,2004,23(1),66~23.

        [13]. 楊俊麗,劉田福,李祥生.樣本類型無關的多類特征基因選擇方法[J].計算機工程與應用(優(yōu)先出版),2012,1~5.

        [14]王海蕓,李霞,郭政,等.四種模式分類方法應用于基因表達譜分析的比研究[J].生物醫(yī)學工程雜志,2005,22(3),505~509.

        [15]周!,何潔月.生物信息學中基因芯片的特征選擇技術綜述[J].計算機科學,2007,34(12),143~150.

        A

        R311;R319

        10.3969/j.issn.1001-8972.2012.14.064

        齊齊哈爾市科學技術局科學技術計劃項目資助

        何蘭(1970-),女,碩士,副教授,研究方向:生物信息學

        范繼紅(1968-),女,碩士,副教授,研究方向:生物信息學

        滕輝(1977-),女,碩士,講師,研究方向:生物信息學

        潘洪明(1969-),男,碩士,教授,研究方向:表觀遺傳學和細胞信號轉導。

        猜你喜歡
        基因芯片齊齊哈爾特征選擇
        齊齊哈爾老年大學校歌
        齊齊哈爾地區(qū)一例鵝圓環(huán)病毒的PCR診斷
        出生時即可預判發(fā)育潛力 基因芯片精準篩選肉牛良種
        The benefits and drawbacks of AI
        A Study of Blended-teaching Model in Medical English
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        雙管單色熒光PCR法與基因芯片法檢測CYP2C19基因多態(tài)性的比較研究
        聯(lián)合互信息水下目標特征選擇算法
        應用基因芯片技術檢測四種結核藥物敏感試驗的研究
        基于提升小波的基因芯片數(shù)據(jù)的分類預測
        日本中文字幕有码在线播放| 欧洲午夜视频| 亚洲中文一本无码AV在线无码| 日本高清aⅴ毛片免费| 久久99国产乱子伦精品免费| 99在线国产视频| 久久精品国产亚洲av日韩一 | 中文字幕人妻熟女人妻| 国产70老熟女重口小伙子| 日本熟妇hd8ex视频| 女同成片av免费观看| 精品国产黄一区二区三区| 四虎影视成人永久免费观看视频| 极品粉嫩嫩模大尺度无码| 一区二区三区四区亚洲综合| 人妖一区二区三区视频| 女人被弄到高潮的免费视频| 蜜臀av无码精品人妻色欲| 亚洲人成人99网站| 亚洲国产成人久久精品美女av | 精品亚亚洲成av人片在线观看| 国产精品黑丝高跟在线粉嫩 | 国产精品又污又爽又色的网站| 未满十八18禁止免费无码网站| 亚洲国产美女精品久久久| 91麻豆国产香蕉久久精品| 91精品久久久久含羞草| 亚洲av极品尤物不卡在线观看| 日韩人妻少妇一区二区三区| 台湾无码av一区二区三区| 久久频这里精品99香蕉| 免费观看一区二区三区视频| 国产又大又黑又粗免费视频| 久久国产精品久久精品国产| 黑丝美女被内射在线观看| 亚洲精品一区二区高清| 亚洲国产精品va在线看黑人| 亚洲午夜无码久久yy6080| 丝袜人妻中文字幕首页| 欧美熟妇另类久久久久久不卡| 熟妇与小伙子matur老熟妇e|