亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        逐步判別分析法在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用

        2011-02-10 01:56:44楊,陳
        關(guān)鍵詞:判別函數(shù)協(xié)方差總體

        鄒 楊,陳 忠

        (長江大學(xué)信息與數(shù)學(xué)學(xué)院,湖北荊州434023)

        謝俊宇

        (洪湖賀龍高級中學(xué),湖北洪湖433200)

        利用基因芯片技術(shù)測定的基因表達(dá)值是一組多變量的高維數(shù)據(jù)。這些數(shù)據(jù)可以用于對組織細(xì)胞進(jìn)行分類,也可以用于挖掘?qū)膊∮需b別意義的特征基因,進(jìn)而為醫(yī)學(xué)診斷和治療提供參考。目前,對于此類基因表達(dá)數(shù)據(jù)分類問題有很多研究方法,如線性判別分析法和支持向量機(jī)等,線性判別分析比復(fù)雜的預(yù)測方法效果要好[1]。

        在進(jìn)行判別分類時,不同基因的表達(dá)值對于分類結(jié)果影響不同。因此,變量 (基因表達(dá)值)的選擇是一個決定判別效果的關(guān)鍵問題。下面,筆者利用多元統(tǒng)計分析中的逐步判別分析法對基因表達(dá)水平數(shù)據(jù)進(jìn)行分析。首先,用逐步判別法篩選出了能夠區(qū)分2個總體的特征基因。然后,基于這些特征基因的表達(dá)值數(shù)據(jù),利用Bayes判別法建立判別函數(shù),對未知類型的基因表達(dá)值數(shù)據(jù)進(jìn)行分類。

        1 逐步判別分析原理

        1.1 判別函數(shù)的建立

        逐步判別是一種篩選變量的方法。篩選的過程其實(shí)就是作假設(shè)檢驗(yàn)的過程,通過檢驗(yàn)找出顯著性變量,剔除不顯著變量[2,3]。所建立的判別函數(shù)中僅保留了對分類判別能力顯著的變量。

        1.2 判別結(jié)果的檢驗(yàn)

        1)總體均值的檢驗(yàn) 假設(shè)2總體Gi~N(μi,∑i)(i=1,2),為檢驗(yàn)2總體的均值是否有顯著性差異(H 0:μ(1)=μ(2)),可以構(gòu)造F 統(tǒng)計量[4]:

        式中,d2(1,2)=(ˉX(1)-ˉX(2))′S-1(ˉX(1)-ˉX(2));ni是第i個總體的樣品個數(shù)(i=1,2)。

        計算F統(tǒng)計量的值f,得p=P{F≥f}。若p小于給定的顯著性水平a(常取a=0.05),則否定2總體均值相等的假設(shè),即對這2個總體討論判別問題是有意義的。

        2)錯判率的估計 利用舍一法 (或稱交叉確認(rèn)法)對錯判率進(jìn)行估計。

        2 實(shí)例分析

        以2001年北京大學(xué)校內(nèi)數(shù)學(xué)建模競賽試題 (B題)為實(shí)例進(jìn)行分析。原始數(shù)據(jù)共60行114列,分別代表60個人和114條基因。其中,有4條基因的表達(dá)值完全相同 (分別為原始數(shù)據(jù)的第37、38、39和40列),這里僅保留其中的一列,故有效檢測基因應(yīng)為111條(記為向量x1~x111)。

        數(shù)據(jù)中,前20行是20個癌癥病人的基因表達(dá)水平的樣本 (記為第0~19組),為分析需要,記其為第1類樣本;其后的20行是20個正常人的基因表達(dá)信息樣本,對應(yīng)于第20~39組,記為第2類樣本;剩余的第40~59組表達(dá)值為20個待檢測的樣本 (未知它們是否正常)。假設(shè)原問題所提供的2類樣本均來自于正態(tài)分布的總體。

        2.1 依據(jù)特征基因的判別分類

        1)特征基因的選取 利用SAS中逐步判別法的命令 “proc stepdisc”完成變量篩選的工作[5]。設(shè)定引入變量到判別式的顯著性水平為0.10,剔除變量的顯著性水平為0.15。通過逐步篩選,最終選出了 32 個 變量, 其序號 為:x1、x5、x8、x12、x18、x20、x24、x25、x27、x36、x37、x39、x57、x58、x60、x67、x69、x71、x72、

        x75、x76、x79、x 92、x93、x95、x97、x99、x102、x104、x105、x109和 x111。它們就是能夠區(qū)分 2 類樣本的特征基因。

        2)判別過程的實(shí)現(xiàn) 在建立判別函數(shù)之前,要先對2總體協(xié)方差矩陣是否相等進(jìn)行檢驗(yàn)(H0:∑1=∑2)。其中,∑i表示第i個總體Gi~N(μi,∑i)(i=1,2)的協(xié)方差矩陣。

        利用SAS中的命令 “pool=test”實(shí)現(xiàn)對2總體協(xié)方差矩陣是否相等進(jìn)行檢驗(yàn)。結(jié)果表明,在顯著性水平α=0.10時接受了原假設(shè)??梢岳煤喜f(xié)方差陣建立判別函數(shù)。

        依據(jù)篩選出的特征基因構(gòu)成2個新的總體 (其中每一組表達(dá)值僅有32個變量)。利用Bayes判別法建立判別函數(shù),對未分類的表達(dá)值 (第40~59組)進(jìn)行判別分類。利用SAS中判別分析的命令 “proc discrim”實(shí)現(xiàn)這一過程。該程序輸出了Bayes判別函數(shù)的系數(shù),則隸屬第1(2)類總體的判別函數(shù)y1(y 2)分別為:

        依據(jù)上述判別函數(shù),計算后驗(yàn)概率,對未知類別的基因表達(dá)值數(shù)據(jù)分類。經(jīng)計算可知,在未知類別的第40~59組基因表達(dá)值中,屬于第1類總體 (癌癥病人)的共有13個,其序號為 {40,42,45,46,47,48,49,51,52,53,54,57,58};屬于第2類總體 (正常人)的共有7個,其序號為 {41,43,44,50,55,56,59}。

        2.2 判別結(jié)果的檢驗(yàn)

        2個新總體之間的平方距離為385783,其F統(tǒng)計量為22208,相應(yīng)的p小于0.0001(<0.01)。這說明利用特征基因構(gòu)造的2個新的總體,其基因的表達(dá)值有顯著性差異,討論判別分類問題是有意義的。利用SAS程序中的 “crosslist”命令對判別分類的結(jié)果進(jìn)行交叉驗(yàn)證 (舍一法),用以估計錯判造成的損失。輸出結(jié)果顯示,其錯判率為0。

        作為對比,利用所有基因的表達(dá)值數(shù)據(jù)構(gòu)造判別函數(shù),觀察其對原訓(xùn)練樣本交叉驗(yàn)證的錯誤率。結(jié)果顯示,其錯誤率為20%。

        [1]Dodoit S,Fridlyand J,Speed T P.Comparison of discrimination methods for the classification of tumor susing gene expression data[J].Am Stat Assoc,2002,457(97):77-87.

        [2]高惠璇.應(yīng)用多元統(tǒng)計分析[M].北京:北京大學(xué)出版社,2005:205-211.

        [3]賈云青,侯木舟.Bayes判別分析在醫(yī)療數(shù)據(jù)處理中的應(yīng)用[J].數(shù)學(xué)理論與實(shí)踐,2009,29(2):117-119.

        [4]高惠璇.實(shí)用統(tǒng)計方法與SAS系統(tǒng) [M].北京:北京大學(xué)出版社,2001:176-178.

        [5]何寧,吳黎兵.統(tǒng)計分析系統(tǒng)SAS[M].武漢:武漢大學(xué)出版社,2005:261-271.

        猜你喜歡
        判別函數(shù)協(xié)方差總體
        用樣本估計總體復(fù)習(xí)點(diǎn)撥
        2020年秋糧收購總體進(jìn)度快于上年
        游樂設(shè)施事故與危險量化判別函數(shù)的構(gòu)建
        外匯市場運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
        中國外匯(2019年6期)2019-07-13 05:44:06
        探究上市公司財務(wù)預(yù)警的數(shù)學(xué)模型
        直擊高考中的用樣本估計總體
        不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報器
        一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
        基于Fisher判別函數(shù)的酒店員工離職預(yù)警研究
        縱向數(shù)據(jù)分析中使用滑動平均Cholesky分解對回歸均值和協(xié)方差矩陣進(jìn)行同時半?yún)?shù)建模
        亚洲国产av一区二区三区四区| 在线观看午夜视频一区二区| 女人被狂躁c到高潮视频 | 久久久精品国产性黑人| 久久青青草原亚洲av无码麻豆| 男女男在线精品网站免费观看| 漂亮的小少妇诱惑内射系列| 国产av熟女一区二区三区密桃 | 少妇又骚又多水的视频| 欧美丰满熟妇bbbbbb| 免费黄色电影在线观看| AV无码最在线播放| 最新国产乱视频伦在线| 亚洲va精品va国产va| 二区免费在线视频观看| 无码成人一区二区| 久久AV中文一区二区三区| 人妻少妇无乱码中文字幕| 日韩乱码中文字幕在线| 国产精品_国产精品_k频道w| 国产精品大屁股1区二区三区| 亚洲中文字幕乱码免费看| 一本到在线观看视频| 中国丰满熟妇xxxx| 日本加勒比东京热日韩| 亚洲精品国产av成拍| 丰满少妇被粗大猛烈进人高清| 国产suv精品一区二区69| 免费观看视频在线播放| 亚洲男人综合久久综合天堂| 毛片a级毛片免费观看| 亚洲精品国产一二三无码AV| 精品亚洲av一区二区| 久久偷看各类wc女厕嘘嘘偷窃| 又黄又爽的成人免费视频 | 91麻豆精品久久久影院| 国产极品视觉盛宴| 老少配老妇老熟女中文普通话 | 午夜无码片在线观看影视| 九九九影院| 久久精品亚洲一区二区三区画质|