亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多階段的微陣列數(shù)據(jù)特征基因集選取

        2014-09-11 09:09:35問亮軍長春工業(yè)大學(xué)計算機(jī)科學(xué)與工程學(xué)院長春130012
        關(guān)鍵詞:分類特征實驗

        問亮軍, 鄭 虹(長春工業(yè)大學(xué) 計算機(jī)科學(xué)與工程學(xué)院, 長春 130012)

        ?

        多階段的微陣列數(shù)據(jù)特征基因集選取

        問亮軍, 鄭 虹
        (長春工業(yè)大學(xué) 計算機(jī)科學(xué)與工程學(xué)院, 長春 130012)

        為解決微陣列數(shù)據(jù)中因樣本量少且每個樣本的維度高而帶有大量干擾信息和冗余信息的問題, 通過分階段的步驟對特征基因集進(jìn)行全方位的選取和優(yōu)化??紤]到單個基因在不同環(huán)境中的差異性, 從中選擇出只在特定條件下差異較大的基因構(gòu)成候選特征集; 剔除候選特征集中相關(guān)性較小的基因; 采用遺傳算法對所得特征集的任意子集的整體分類性能進(jìn)行考查, 選出較優(yōu)的子集。實驗結(jié)果表明, 該算法對逐步選取特征基因具有可行性和有效性, 而特征基因集在分類適應(yīng)度(分類能力度量)和分類準(zhǔn)確率均比原始數(shù)據(jù)更好。

        微陣列數(shù)據(jù); 特征基因; 相關(guān)性; 遺傳算法

        0 引 言

        伴隨高通量基因芯片技術(shù)的發(fā)展, 基因表達(dá)實驗獲得了大量的微陣列數(shù)據(jù)[1,2]。目前, 人們可從公共數(shù)據(jù)庫中獲得需要的相關(guān)數(shù)據(jù), 這些數(shù)據(jù)庫尤其以Array Express和GEO(the Gene Expression Omnibus)為代表。Array Express(http://www.ebi.ac.uk/arrayexpress)由歐洲生物信息研究所于2003年建立, 并遵循MIAME(Minimal Information About a Microarray Experiment)規(guī)則。GEO(http://www.ncbi.nlm.nih.gov/geo/)建于1999年, 是目前最大的公開基因表達(dá)數(shù)據(jù)庫, 該數(shù)據(jù)庫包含來自單通道和雙通道的芯片檢測mRNA、 miRNA和基因組DNA等, 當(dāng)然也遵循MIAME規(guī)則。

        然而, 微陣列實驗的高昂成本使大多數(shù)基因表達(dá)數(shù)據(jù)集只包含很少數(shù)量的樣本, 而且單個樣本的維度(即基因數(shù)目)往往是數(shù)以萬計。顯然, 樣本量小而樣本維度極高的狀況使筆者不能使用成熟的統(tǒng)計學(xué)方法研究, 否則會嚴(yán)重阻礙從微陣列數(shù)據(jù)中獲取信息的效率。因此, 研究有效的方法[3,4], 選擇出最優(yōu)或近似最優(yōu)的基因子集[5,6]是解決問題的關(guān)鍵所在, 筆者將該子集中的每個基因稱為特征基因。

        1 分階段特征基因選擇

        1.1 候選特征基因的提取

        將基因芯片數(shù)據(jù)形式化描述為: 對于實驗數(shù)據(jù)集εi, 其樣本數(shù)為ni, 基因數(shù)為N, 在εi中對任意一個基因gj, 可根據(jù)樣本情況將其表達(dá)值分為可對照的兩組

        定義εi上gj的變化系數(shù)[7]為

        除待測數(shù)據(jù)集ε0外, 收集m個數(shù)據(jù)集, 且與ε0的基因芯片平臺完全相同。記這些數(shù)據(jù)集構(gòu)成的集合為E={ε1,…,εm}, 利用式(4)中νi(j)可以估計ε0中的基因gj是否在E內(nèi)顯著表達(dá)。

        算法1(基于總體數(shù)據(jù)集集合E的候選特征基因提取算法)

        //輸入數(shù)據(jù):E={ε1,…,εm}和ε0, 給定顯著性參數(shù)γ, 分組方案數(shù)w;

        //輸出數(shù)據(jù):ε0的候選特征基因集G0={g1,…,gN′}, 1≤N′

        forG0=?;j=1,…,N

        forεi∈E,i=1,…,m

        ;

        end

        end

        p=n/mw;//n為ν0(j)在νi(j)中的排名;

        ifp≤γthenG0←{gj}∪G0; end

        end

        returnG0

        1.2 相關(guān)性較大的基因提取

        εi上GGroup1與GGroup2中基因gj的表達(dá)值標(biāo)準(zhǔn)差定義為

        則定義εi上的基因gj的相關(guān)性[8]為

        算法2(剔除ε0上的無關(guān)基因)

        //輸入數(shù)據(jù):G0和ε0, 選取特征基因的個數(shù)Tg;

        //輸出數(shù)據(jù):G1={g1,…,gTg}, 1≤Tg

        G1=?;

        forgj∈G0,j=1,…,N′

        end

        φ=sort({φ0(j)|j=1,…,N′});//降序排列φ0(j)并依次記錄其原始編號;

        returnG1={gk|k←φ(i),i=1,…,Tg}/*k表示集合φ中第i個元素φ(i)的原始編號;*/

        1.3 基于遺傳算法剔除冗余基因和噪聲基因

        適應(yīng)度就相當(dāng)于選擇的特征基因分類能力強(qiáng)弱的判據(jù), 筆者采用基于信息熵的分類[9,10]能力判據(jù)。定義Gini(x)差異性指標(biāo), 它由Shannon熵

        在一定情況下得到的平方熵

        于是

        定義適應(yīng)度函數(shù)

        其中C為調(diào)節(jié)f(xi)取值的常數(shù),

        算法3(基于遺傳的特征基因集優(yōu)化)

        /*輸入數(shù)據(jù):ε0及其初始分類ω1,…,ωK、G1、初始種群大小N0、 子集中特征基因個數(shù)M、 最大遺傳代數(shù)T、 終止條件判據(jù)d、 交叉概率pc和變異概率pm;*/

        //輸出數(shù)據(jù): 擇優(yōu)特征子集G2;

        X(t)={x1,x2,…,xN0};//t=0時, 跟據(jù)M和G1產(chǎn)生初始群體X(0);

        do

        fori=1,2,…,N0

        end

        X′(t)=Φ({f(xi)|i=1,…N0},X(t));//Φ為蒙特卡羅選擇算子;

        X″(t)=Γ(X′(t),pc);//Γ為交叉算子;

        X?(t)=Ψ(X″(t),pm);//Ψ為變異算子;

        F=sort({f(xi)|xi∈X(t)∪X?(t)});//降序排列f(xi);

        X(t+1)={xi|f(xi)∈f={F(1),F(2),…,F(N0)}};//F(j)為F的元素;

        D=var(f);//D為f的方差;

        t←t+1;

        While(D>d&&t≤T);

        forf(xi)∈f,i=1,…,N0

        iff(xi)=max(f) thenx=xi; break; end

        end

        forG2=?;gj∈G1,j=1,…,Tg

        ifx(j)=1 thenG2←{gj}∪G2; end//x(j)為x的第j個元素;

        end

        returnG2

        2 實驗結(jié)果分析

        2.1 實驗數(shù)據(jù)集

        實驗數(shù)據(jù)選用GEO數(shù)據(jù)庫中Affymetrix公司的GPL8300芯片平臺數(shù)據(jù)集: GDS532、GDS711、GDS894、GDS963、GDS1059、GDS1221、GDS1407、GDS1681、GDS1847、GDS2048、GDS2785、GDS3345、GDS3602、GSE6631, 基因探針有12 625個。其中GSE663(頭頸癌數(shù)據(jù)集)為測試數(shù)據(jù)集, 共44個樣本, 22個癌癥樣本, 22個正常組織樣本。在GSE663中選取癌癥樣本與正常樣本各11個參與訓(xùn)練, 余下的作后續(xù)測試。

        2.2 實驗過程

        3個算法的參數(shù)理論上都可調(diào)整優(yōu)化, 設(shè)定參數(shù):γ=0.2,w=100,Tg=100,N0=100,M=10或M=20,d=0.001,pc=0.8,pm=0.1, 在完成前兩步計算后, 通過增加遺傳代數(shù), 根據(jù)評價確定較合適的T。T確定后對特征子集M可根據(jù)評價進(jìn)行優(yōu)化。

        2.3 實驗結(jié)果分析

        1) 遺傳終止代數(shù)的選擇。圖1顯示, 遺傳代數(shù)T選擇1 000時, 分類準(zhǔn)確率較高, 所以確定參數(shù)T=1 000。

        2) 特征子集的確定。圖2顯示, 當(dāng)選擇特征基因個數(shù)M為40時, 適應(yīng)度(分類能力)較強(qiáng), 所以確定參數(shù)M=40。

        3) 在GSE663的測試數(shù)據(jù)集上, 用上述優(yōu)化參數(shù)及對應(yīng)選出的特征基因集分類并與原數(shù)據(jù)分類作對比(見表1)。

        圖1 T的評價趨勢圖Fig.1 Evaluation trend of T

        圖2 M的趨勢圖Fig.2 Trend of M

        經(jīng)過10次實驗可以看出, 總體上通過筆者優(yōu)化算法選出的特征基因集在分類適應(yīng)度(分類能力度量)和分類準(zhǔn)確率兩方面都比原始數(shù)據(jù)更好。

        3 結(jié) 語

        筆者并非建立一個統(tǒng)一模型, 而是為更好地提取特征基因提供一種可行的指導(dǎo)性思路。比支持向量機(jī)簡單易行, 分3個步驟提取并優(yōu)化特征基因集, 又具有較大可調(diào)整性及可操作性。

        [1]徐春歸. 基于微陣列數(shù)據(jù)分析的腫瘤分類方法研究 [D]. 合肥: 中國科學(xué)技術(shù)大學(xué)生命科學(xué)學(xué)院, 2009. XU Chungui. Study of Tumor Classification Method Based on Microarray Data Analysis [D]. Hefei: School of Life Science, University of Science and Technology of China, 2009.

        [2]于化龍, 顧國昌, 趙靖, 等. 基于DNA微陣列數(shù)據(jù)的癌癥分類問題研究進(jìn)展 [J]. 計算機(jī)科學(xué), 2010, 37(10): 16-22. YU Hualong, GU Guochang, ZHAO Jing, et al. Advances in Classification of Cancer Based on DNA Microarray Data [J]. Computer Science, 2010, 37(10): 16-22.

        [3]張玲, 伍亞舟, 陳軍, 等. 小波-神經(jīng)網(wǎng)絡(luò)方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究 [J]. 重慶醫(yī)學(xué), 2010, 39(17): 2246-2247. ZHANG Ling, WU Yazhou, CHEN Jun, et al. Wavelet Neural Network Application in the Analysis of Gene Expression Data [J]. Chongqing Medicine, 2010, 39(17): 2246-2247.

        [4]吳希賢. 基于優(yōu)化算法的基因選擇與癌癥分類 [D]. 長沙: 湖南大學(xué)電氣與信息工程學(xué)院, 2008. WU Xixian. Genetic Selection and Cancer Classification Based on Optimization Algorithm [D]. Changsha: School of Electrical and Information Engineering, Hunan University, 2008.

        [5]張麗娟, 李舟軍. 微陣列數(shù)據(jù)癌癥分類問題中的基因選擇 [J]. 計算機(jī)研究與發(fā)展, 2008(5): 794-802. ZHANG Lijuan, LI Zhoujun. The Gene Selection in Microarray Data and Cancer Classification Problem [J]. Computer Research and Development, 2008(5): 794-802.

        [6]孫晶京, 王力波, 羅偉. 腫瘤診斷中的特征基因提取 [J]. 計算機(jī)工程與應(yīng)用, 2010, 46(7): 218-220. SUN Jingjing, WANG Libo, LUO Wei. The Feature Genes Extraction in Tumor Diagnosis [J]. Computer Engineering and Applications, 2010, 46(7): 218-220.

        [7]HOU Yongli, XU Meirong, ZHAO Mingfu, et al. Genome-Wide Gene Responses in a Transgenic Rice Line Carrying the Maize Resistance Gene Rxo1 to the Rice Bacterial Streak Pathogen, Xanthomonas Oryzae Pv. Oryzicola [J]. BMC Genomics, 2010, 11(1): 78.

        [8]梁艷春, 張琛, 杜偉, 等. 生物信息學(xué)中的數(shù)據(jù)挖掘方法及應(yīng)用 [M]. 北京: 科學(xué)出版社, 2011. LIANG Yanchun, ZHANG Chen, DU Wei, et al. Bioinformatics Data Mining Methods and Application [M]. Beijing: Science Press, 2011.

        [9]王勇獻(xiàn), 王正華. 生物信息學(xué)導(dǎo)論----面向高性能計算的算法與應(yīng)用 [M]. 北京: 清華大學(xué)出版社, 2011. WANG Yongxian, WANG Zhenghua. Introduction to Bioinformatics-Algorithms and Applications for High-Performance Computing [M]. Beijing: Tsinghua University Press, 2011.

        [10]鐘金貝. 神經(jīng)網(wǎng)絡(luò)集成技術(shù)及其在癌癥基因分類中的應(yīng)用研究 [D]. 長沙: 湖南大學(xué)軟件學(xué)院, 2009. ZHONG Jinbei. Neural Network Integration Technology and Its Application in Cancer Gene Classification [D]. Changsha: School of Software, Hunan University, 2009.

        (責(zé)任編輯: 劉俏亮)

        Multi-Stages Informative Gene Set Selection Algorithm in Microarray Expression Profiles

        WEN Liangjun, ZHENG Hong
        (College of Computer Science and Engineering, Changchun University of Technology, Changchun 130012, China)

        To solve the microarray data problem that the data has small sample size and each dimension of the sample is high, therefor there is a lot of interfering information with redundant information in the data. The multi-stage algorithm of informative gene set selection is discussed in this paper. First, the difference of single gene in different condition is considered, genes with more differences in special condition are selected as candidate gene set. Then, the genes with less correlation are rejected. Finally, the better gene sets based on the global classification performance of any set are selected. The experiment result shows that the algorithm is feasible and effective for informative gene set selection. The feature set of genes in both fitness of classification (classification capability metrics) and classification accuracy is more accurate, and more efficient than the raw data.

        microarray expression profiles; informative gene; correlation; genetic algorithm

        1671-5896(2014)05-0550-06

        2014-01-14

        吉林省科技廳自然科學(xué)基金資助項目(20130101060JC); 吉林省教育廳“十二五”科學(xué)技術(shù)研究基金資助項目(2014132; 2014125)

        問亮軍(1984— ), 男, 寧夏固原人, 長春工業(yè)大學(xué)碩士研究生, 主要從事搜索引擎、 智能系統(tǒng)研究, (Tel)86-13610742712(E-mail)wenliangjun_2008@126.com;

        鄭虹(1974— ), 女, 長春人, 長春工業(yè)大學(xué)副教授, 博士, 碩士生導(dǎo)師, 主要從事智能計算、 搜索引擎研究, (Tel)86-13039301323(E-mail)zhenghong@mail.ccut.edu.cn。

        TP399

        : A

        猜你喜歡
        分類特征實驗
        記一次有趣的實驗
        分類算一算
        如何表達(dá)“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
        狠狠躁夜夜躁av网站中文字幕| yy111111少妇影院| 色哟哟精品中文字幕乱码| 一本久道高清视频在线观看| aa片在线观看视频在线播放| 欧美成人一区二区三区在线观看| 国产亚洲精品hd网站| 视频一区精品中文字幕| 亚洲va中文字幕无码一二三区| 欧美国产一区二区三区激情无套| 91久久精品无码人妻系列| 亚洲精品在线观看自拍| 在线人成视频播放午夜| 精品国产一区二区三区免费| 人妻无码一区二区在线影院| 日本一区二区精品色超碰| 超碰国产精品久久国产精品99| 亚洲熟妇无码八av在线播放| 无码中文av有码中文av| 亚洲无人区乱码中文字幕| 国产情侣一区二区| 欧美人与动牲猛交xxxxbbbb| 999精品免费视频观看| 国产91久久精品成人看网站 | 日本一区二区在线看看| 中文字幕日韩人妻少妇毛片| 精品国产人成亚洲区| 麻豆密入视频在线观看| 国产精品自拍视频在线| 国内精品久久久人妻中文字幕| 国产精品亚洲日韩欧美色窝窝色欲 | 99精品国产99久久久久久97| 999精品免费视频观看| 青青青爽在线视频免费播放| 国产精久久一区二区三区| 亚洲熟妇20| 午夜少妇高潮免费视频| 在厨房拨开内裤进入毛片| 国产老熟女狂叫对白| 久久精品国产久精国产69| 亚洲熟女少妇精品综合|