亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于判別分析的基因分類

        2014-02-21 02:16:37林薇李勝曹治清
        關(guān)鍵詞:判別函數(shù)判別式指標(biāo)值

        林薇, 李勝, 曹治清

        (成都中醫(yī)藥大學(xué)管理學(xué)院, 四川 成都 611137)

        基于判別分析的基因分類

        林薇, 李勝, 曹治清

        (成都中醫(yī)藥大學(xué)管理學(xué)院, 四川 成都 611137)

        利用基因表達序列識別腫瘤亞型, 具有非常重要的臨床意義. 根據(jù)大腸桿菌基因圖譜篩選出的信息基因, 采用判別分析法, 得到典型判別式函數(shù), 以閾值θ=-0.6935來進行分類, 進而確定腫瘤基因“標(biāo)簽”.

        判別分析; 基因分類; 典則判別函數(shù)

        DNA微陣列(DNA microarray)也叫做基因芯片(Gene chip), 是在一種特殊玻璃片上安裝成千上萬個核酸探針, 最終獲取關(guān)于基因序列的信息, 使用基因芯片便于定量分析基因的表達水平, 在生物分析檢驗?zāi)芰Ψ矫? 能做到快速、高效、低成本. 如果利用基因表達序列來識別腫瘤亞型, 這將具有非常重要的臨床意義.

        蔡立君[1](2006)提出了一種基于遺傳算法的基因分類算法, 其基本思想是利用遺傳算法代替獨立分量分析中的傳統(tǒng)的估計分離矩陣算法,對基因表達式數(shù)據(jù)進行分類, 從而克服了結(jié)果不精確的問題.蔣紅衛(wèi)[2](2007)等人探討了基于基因表達譜的疾病分型識別模型建模方法. 方法結(jié)合白血病基因表達譜數(shù)據(jù)分析,利用偏最小二乘判別分析(PLS-DA)對利用基因微陣列數(shù)據(jù)予以建立白血病分型模型, 通過驗證, 偏最小二乘判別分析的白血病識別模型的擬合準確度和預(yù)測準確度均達到100%. 羊四清[3](2009)提出基于ICA的模式表達空間的概念,并且在此基礎(chǔ)上, 對數(shù)據(jù)的表達形式進行了重新構(gòu)造, 并根據(jù)此表達形式進行了基因的分類, 通過實驗驗證了此類方法的可行性. 基因表達譜的回歸分析是可以處理多個基因變量間線性依存關(guān)系的統(tǒng)計方法, 于是研究者們提出了使用回歸分析基因表達譜數(shù)據(jù), 如Huang[4](2003)在將線性回歸方法應(yīng)用于腫瘤的分類研究中使用了線性回歸的方法;Li.H[5](2004)等人使用互變量(Cox)回歸方法分析基因表達譜數(shù)據(jù), 用于患者的生存率預(yù)判.

        判別分析又稱“分辨法”, 是在分類確定的條件下, 根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法. 本文主要應(yīng)用判別分析的思想, 將大腸桿菌的基因表達譜中的致癌基因篩選出來,利用典則判別函數(shù)對初始分組案例中的基因進行正確分類, 進而確定了基因“標(biāo)簽”.

        1 基因判別函數(shù)的建立

        典則判別函數(shù)基于Bayes判別思想建立, 主要用于考察各類別的觀測值之間的相關(guān)關(guān)系, 然后根據(jù)建立的分類規(guī)則對原始樣本重新進行分類, 通過比較預(yù)測分類與原始分類, 確定對初始樣本的判別準確率.

        1.1 樣本的方差解釋及檢驗

        就一維總體而言, 取值的分散性可以用方差刻畫. 因此用歐氏距離除以方差作為點到總體的遠近, 對判別分析而言就比較合理.但是就本文在處理p維總體的判別問題時, 對應(yīng)于總體方差的是協(xié)差陣∑, 為此定義

        度量總體Gi中兩點x,y之間的距離;

        作為樣本x到總體Gi的距離.

        其中μi、∑i分別為總體Gi的均值向量和協(xié)差陣. 若D(x,G1)<D(x,G1), 則x∈G1; 若D(x,G1)>D(x,G1), 則x∈G2; 若D(x,G1)=D(x,G1), 則不判.

        根據(jù)數(shù)據(jù)篩選出信息基因28個, 采用判別分析法, 可知判別函數(shù)的方差解釋和顯著性檢驗, 如表1, 表2

        表1 特征值

        a: 分析中使用了前一個典則判別函數(shù).

        表2 Wilks的Lambda

        特征值表格給出了典則判別函數(shù)所能解釋的方差變異, 表1說明該函數(shù)解釋了所有變異. ”Wilks的Lambda”用于檢驗該判別函數(shù)是否具有統(tǒng)計學(xué)上意義, 表2從Sig值看, 在0.1的顯著性水平上是比較顯著的, 從而可以接受由此建立的判別規(guī)則.

        1.2 典則判別函數(shù)

        利用SPSS軟件求出判別函數(shù), 得到標(biāo)準化的典型判別式函數(shù)f(e)為:

        其中,ei(i=1,2,…,28)為篩選的信息基因.

        將62個樣本對應(yīng)的的信息基因數(shù)據(jù)代入判別函數(shù)求出對應(yīng)的62個指標(biāo)值(見圖1、圖2)

        圖1 VAR00001=0的典則判別函數(shù)1

        圖1說明22個致癌基因的均值為-3.04, 標(biāo)準偏差為0.973.

        圖2 VAR00001=1的典則判別函數(shù)1

        圖2說明隨機抽取的40個基因的均值為1.67, 標(biāo)準偏差為1.014.

        2 基因分類結(jié)果

        通過觀察, 22個正常的樣本的指標(biāo)值都為負, 而40個癌癥樣本對應(yīng)的指標(biāo)值絕大部分都是正數(shù), 可以發(fā)現(xiàn),若指標(biāo)值越小, 就越能說明此人的基因未發(fā)生突變; 若指標(biāo)值越大, 就越能說明此人是癌癥病人. 采用取各自中間值的方法, 將閾值θ定義為:

        i為22個正常樣本中的最大值,j為40個癌癥樣本中的最小值

        最后根據(jù)樣本的判別式得分與θ的關(guān)系進行判斷:

        (1)當(dāng)樣本的判別式f(e)>θ時, 樣本的基因標(biāo)簽定為癌變;

        (2)當(dāng)樣本的判別式f(e)<θ時, 樣本的基因標(biāo)簽定為正常;

        (3)當(dāng)樣本的判別式f(e)=θ時, 樣本的基因標(biāo)簽不作判斷.

        利用SPSS軟件, 采用判別分析法, 按照案例順序的統(tǒng)計量, 可以知道i=-1.448,j=0.061,那么閥值θ=-0.6935,

        對分析中的樣本進行驗證, 詳情見表3的分類結(jié)果.

        表3 分類結(jié)果

        表3說明: 在腫瘤基因分類中, 對初始分組案例進行了完全正確的分類, 在進行交叉分組驗證時, 對樣本的82.3%進行分類.

        3 結(jié)論

        [1] 蔡立軍, 林亞平, 盧新國, 等. 基于遺傳算法的基因分類[J]. 電子學(xué)報, 2006, 34(11): 2115-2119.

        [2] 蔣紅衛(wèi), 夏結(jié)來, 李園, 等. 偏最小二乘判別分析在基因微陣列分型中的應(yīng)用[J]. 中國衛(wèi)生統(tǒng)計, 2007, 24(4): 372-374.

        [3] 羊四清, 盧新國, 易葉青. 基于 ICA 模式空間的基因分類[J].計算機工程與應(yīng)用, 2009, 45(23): 40-43.

        [4] HUANG X, PAN W. Linear Regression and Two-class Classification with Gene Expression Data[J]. Bioinformatics, 2003, 19: 2072-2078.

        [5] LI H, GUI J. Partial Coxregression analysis for Highdimensional Microarray Gene Expression Data[J]. Bioinformatics, 2004, 20: I208-I215.

        [6] 林杰斌, 林川雄. SPSS12統(tǒng)計建模與應(yīng)用實務(wù)[M]. 北京: 中國鐵道出版社, 2006.

        [7] 袁新生, 邵大宏. LINGO和EXCEL在數(shù)學(xué)建模中的應(yīng)用[M]. 北京: 科學(xué)出版社, 2007.

        Gene classification based on discriminate analysis

        LIN Wei, LI Sheng, CAO Zhi-qing
        (School of Management, Chengdu University of TCM, Chengdu 611137, P.R.C.)

        There is important clinical significance for gene expression sequences to identify cancer subtypes. According to E.coli genome information genes, the paper uses discriminate analysis to obtain canonical discriminate function and classify with threshold θ=-0.6935. And then the cancer gene label is determined.

        discriminate analysis; gene classification; canonical discriminate function

        O29

        A

        1003-4271(2014)01-0097-04

        10.3969/j.issn.1003-4271.2014.01.20

        2013-11-18

        林薇(1987-), 女, 助教, 碩士, 研究方向: 可靠性理論與應(yīng)用; 郵箱: linwei2321@163.com.

        成都中醫(yī)藥大學(xué)科技發(fā)展基金.

        猜你喜歡
        判別函數(shù)判別式指標(biāo)值
        判別式在不定方程中的應(yīng)用
        游樂設(shè)施事故與危險量化判別函數(shù)的構(gòu)建
        根的判別式的應(yīng)用問題
        探究上市公司財務(wù)預(yù)警的數(shù)學(xué)模型
        判別式四探實數(shù)根
        淺談食品中大腸菌群檢測方法以及指標(biāo)值的對應(yīng)關(guān)系
        維修性定性要求評價指標(biāo)融合模型研究
        基于Fisher判別函數(shù)的酒店員工離職預(yù)警研究
        判別式的常見錯用、誤用辨析
        1995年—2013年地方預(yù)算內(nèi)財力、中央返還及上解情況
        久久精品熟女不卡av高清| 国产精品久久久久9999吃药| 天天射综合网天天插天天干| 日本熟妇色xxxxx日本妇| 区久久aaa片69亚洲| 亚洲电影久久久久久久9999| 97女厕偷拍一区二区三区| 国产免费又色又爽粗视频| 免费网站看av片| 99精品视频69V精品视频| 精品不卡久久久久久无码人妻| 国产一区二区三区视频大全| 顶级高清嫩模一区二区| 亚洲成aⅴ人片久青草影院| 国产av国片精品| 精品中文字幕制服中文| 国产av三级精品车模| 亚洲av一区二区三区蜜桃| 国产乱了真实在线观看| 水蜜桃久久| 手机在线看片在线日韩av| 亚洲国产av一区二区三区| 日韩aⅴ人妻无码一区二区| 成年无码av片完整版| 亚洲乱码少妇中文字幕| 一本色道加勒比精品一区二区 | 亚洲色图视频在线观看,| 中文字幕一区二区人妻秘书| 欧美在线 | 亚洲| 日本VA欧美VA精品发布| 日本免费一区精品推荐| 日韩少妇人妻中文字幕| av香港经典三级级 在线| 无码国产精品色午夜| 国产精品一区二区熟女不卡| 忘忧草社区www日本高清| 无码日韩AⅤ一区二区三区| 亚洲天堂av社区久久| 亚洲tv精品一区二区三区| 国产精品va无码一区二区| 国产剧情福利AV一区二区|