亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CFS算法研究腎癌中的關(guān)鍵基因

        2017-07-06 12:41:01張夢瑩上海大學(xué)生命科學(xué)學(xué)院上海200444
        關(guān)鍵詞:分類特征分析

        張夢瑩,盧 易,鈕 冰,蘇 強(qiáng) (上海大學(xué)生命科學(xué)學(xué)院,上海 200444)

        ·基礎(chǔ)與轉(zhuǎn)化醫(yī)學(xué)·

        基于CFS算法研究腎癌中的關(guān)鍵基因

        張夢瑩,盧 易,鈕 冰,蘇 強(qiáng) (上海大學(xué)生命科學(xué)學(xué)院,上海 200444)

        目的:識別腎細(xì)胞癌(RCC)中的關(guān)鍵基因,并揭示其在腫瘤中的作用機(jī)理.方法:從GEO數(shù)據(jù)庫下載芯片數(shù)據(jù)GSE53757,篩選它們之間的差異表達(dá)基因(DEGs).使用DAVID在線工具對DEGs進(jìn)行GO功能注釋和KEGG富集分析,然后使用基于特征子集相關(guān)性(CFS)的變量篩選方法篩選DEGs的關(guān)鍵基因,并根據(jù)篩選出的關(guān)鍵基因,使用支持向量機(jī)(SVM)方法建立篩選RCC樣本和正常對照樣本的分類預(yù)測模型.結(jié)果:共篩選到541個DEGs,包括312個上調(diào)基因和229個下調(diào)基因.選擇21個作為特征基因,通過SVM方法建立RCC樣本和正常對照樣本之間的分類模型,其預(yù)測精度為97.2%.此外,STRING數(shù)據(jù)庫篩選的Top10Hub基因中也發(fā)現(xiàn)了4個與CFS算法篩選出的特征基因重合的Hub基因(CD40,EGFR,CAV1和TGFA).結(jié)論:CFS是用于篩選RCC中關(guān)鍵基因的有用工具.并且,CD40,EGFR,CAV1和TGFA這4個基因很可能為診斷RCC的目標(biāo)基因.

        基因表達(dá)譜;癌癥分類;基因選擇;腎癌;CFS算法

        0 引言

        腎細(xì)胞癌(renal cell carcinoma,RCC)是成人腎臟中最常見的一種惡性腫瘤,約占成人惡性腫瘤的3%[1].2012年,美國的患RCC的人數(shù)超過64 770人,且有13 570例患者死于該疾?。?].且RCC對放射治療和化療的抵抗力較強(qiáng),為此需要開發(fā)新的治療策略和藥物.

        在本研究中,首先篩選RCC樣本和正常對照樣本之間的差異表達(dá)基因(differentially expressed genes,DEGs),使用DAVID對DEGs進(jìn)行GO功能注釋和KEGG富集分析.然后,使用基于特征子集相關(guān)性(correlation?based feature subset,CFS)的變量篩選方法篩選 DEGs的關(guān)鍵基因,使用支持向量機(jī)(support vector machine,SVM)建立RCC樣本和正常對照樣本之間的分類模型.

        1 材料和方法

        1.1 芯片數(shù)據(jù)來源 從美國國立生物技術(shù)信息中心(National Center of Biotechnology Information,NCBI)的基因表達(dá)譜數(shù)據(jù)庫(gene expression omnibus,GEO)下載芯片數(shù)據(jù)GSE53757,芯片平臺為GPL570([HGU133Plus2]Affymetrix Human Genome U133 Plus 2.0 Array),下載該芯片數(shù)據(jù)和注釋文件,選取其中的72例RCC樣本和72例正常對照樣本進(jìn)行分析.

        1.2 數(shù)據(jù)預(yù)處理與差異基因的計(jì)算 獲得原始數(shù)據(jù)后,使用R軟件分別對兩組數(shù)據(jù)進(jìn)行分析,用Affy包中的 GCRMA(GeneChip robust multiarray average)法[3]對芯片數(shù)據(jù)進(jìn)行歸一化處理,獲得標(biāo)準(zhǔn)化后的芯片表達(dá)譜,然后使用線性回歸模型軟件包Limma包中的 T?test法[4]計(jì)算兩組數(shù)據(jù)中的 DEGs,選?。黮ogFC|>2.0和P<0.05作為顯著性閾值,從而得到疾病組的差異表達(dá)情況.

        1.3 基因本體和通路富集分析 基因本體(geneontology,GO)[5-6]是一種用于注釋所有基因及基因產(chǎn)物特征生物學(xué)屬性的一種有效方法.KEGG(Kyoto encyclopedia of genes and genomes)[7-8]是將基因、基因組信息以及更高層次的功能信息結(jié)合起來進(jìn)行系統(tǒng)化分析的數(shù)據(jù)庫.在本研究中,使用DAVID在線工具[9]對DEGs進(jìn)行GO富集和KEGG通路富集分析,以P<0.05作為顯著性閾值,從而得到DEGs參與的主要功能信息和通路信息.

        1.4 蛋白質(zhì)?蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)構(gòu)建STRING數(shù)據(jù)庫[10-11]是用于評估蛋白質(zhì)?蛋白質(zhì)相互作用(protein?protein interaction,PPI)的一種在線工具.為了評估DEGs之間的相互作用關(guān)系,DEGs被上傳到STRING數(shù)據(jù)庫中進(jìn)行計(jì)算,在STRING的計(jì)算結(jié)果中選取相互作用得分在0.4以上的基因作為顯著性基因.

        1.5 CFS的變量篩選方法 CFS變量篩選方法[12-13]的原理是在進(jìn)行變量篩選時,主要考慮特征之間的相關(guān)性.通過計(jì)算特征子集中全部特征對于分類的聯(lián)合貢獻(xiàn)來判斷特征子集的類間辨別能力大小,不再僅考慮單個特征對于分類的貢獻(xiàn).將與類的相關(guān)性很低的不相關(guān)的特征忽略,將與一個或多個特征高度相關(guān)的冗余特征去掉.特征的選取將僅僅取決于其在實(shí)例空間中與其他特征相關(guān)的程度.

        1.6 SVM SVM[14-15]是Vapnik等于1995年首先提出的一種新型的機(jī)器學(xué)習(xí)方法.SVM將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面,在分開數(shù)據(jù)的超平面的兩邊各有兩個互相平行的超平面.SVM算法建立方向合適的分類超平面,使兩個與之平行的超平面間的距離最大化,使得所屬不同類別的樣本有一個盡可能大的明顯的差距.新的樣本實(shí)例則映射到相同的空間中,并基于它們落在所屬間隙的哪一側(cè)來預(yù)測屬于哪一個類別.

        圖1 DEGs的GO富集分析,縱坐標(biāo)為GO term

        2 結(jié)果

        2.1 DEGs的篩選 通過使用R軟體中的Limma包來篩選RCC樣本和正常對照樣本之間的DEGs,以|logFC|>2.0及P<0.05為顯著性閾值,從而篩選出541個DEGs,其中包括312個上調(diào)基因和229個下調(diào)基因.

        2.2 DEGs的GO富集分析 如圖1所示,GO分析分別針對上調(diào)基因和下調(diào)基因的3個不同方面(即生物過程(biological process,BP),細(xì)胞組分(cellular component,CC)和分子功能(molecular function,MF))進(jìn)行分析.選擇P<0.05作為顯著性的閾值,并按照富集倍數(shù)或富集得分(?log 10(P?value))對結(jié)果進(jìn)行排序.結(jié)果顯示,在所有比較組中,有459個BP、54個CC和116個MF上調(diào)(P<0.05),同時,有715 BP、53個CC和67個MF下調(diào)(P<0.05).根據(jù)倍數(shù)富集或富集得分排列的按BP,CC和MF分類的所有比較組中的前10個一般改變的GO項(xiàng)見圖1.

        2.3 DEGs的KEGG途徑分析 KEGG富集分析的結(jié)果見表1,上調(diào)的DEGs在代謝途徑、抗生素生物合成、纈氨酸、亮氨酸和異亮氨酸的降解、收集管道酸分泌和碳代謝等Pathway顯著富集,而下調(diào)的DEGs在病毒性心肌炎、HIF?1信號通路、粘著斑、吞噬體和用于IgA生產(chǎn)腸免疫網(wǎng)絡(luò)等pathway顯著富集.

        表1 DEGs的KEGG Pathway富集分析結(jié)果(A) 上調(diào)DEGs的KEGG Pathway富集分析結(jié)果

        2.4 使用CFS算法篩選特征基因 采用CFS方法篩選特征基因,通過計(jì)算共篩選出21個基因(UMOD,KNG1,CALB1,SLC12A1,ALB,DIO1,SLC22A8,F(xiàn)ABP1,HPD,ALDOB,KCNJ1,NPHS2,XPNPEP2,CLCNKB,SLC13A3,TMEM52B,CD40,EGFR,CAV1,ABAT和TGFA),并基于篩選出的基因建立分類預(yù)測模型.

        2.5 癌癥樣本和正常對照樣本的分類 基于上述結(jié)果,使用SVM建立疾病組與正常組的分類模型.將SVM中的核函數(shù)設(shè)置為ε=0.01,C=1,然后使用留一交叉驗(yàn)證法(leave?one?out cross?validation,LOOCV)進(jìn)行驗(yàn)證[16],評估該模型的準(zhǔn)確度.留一法結(jié)果顯示該分類模型的預(yù)測準(zhǔn)確度為97.2%.

        3 討論

        3.1 CFS方法與其他變量篩選方法的比較 將CFS算法的篩選結(jié)果與其他 3種基因篩選算法(Re?liefF[17-18],mRMR[19-20]和 Random Forest[21-22])進(jìn)行比較,結(jié)果見表2,CFS算法在這4種特征變量篩選方法中,篩選的特征基因數(shù)量最少且預(yù)測準(zhǔn)確度最高.

        表2 mRMR,ReliefF,Random Forest和CFS 4種算法的比較

        3.2 通過PPI網(wǎng)絡(luò)篩選的Hub基因 基于STRING數(shù)據(jù)庫中的信息,我們篩選出得分最高的Top10 Hub基因(CD40,ATP6V0D2,EGFR,NPHS1,F(xiàn)YB,CAV1,VEGFA,PCCB,TGFA和 KLHL3),在這些Hub基因中,包含有4個 CFS篩選出的特征基因(CD40,EGFR,CAV1和TGFA).

        CD40是參與免疫調(diào)節(jié)的細(xì)胞表面受體,其配體在活化的T細(xì)胞上表達(dá)[23].CD40在腎臟中的作用可能是增強(qiáng)細(xì)胞因子和趨化因子的產(chǎn)生[24].

        EGFR(epidermal growth factor receptor)自分泌途徑在許多癌癥發(fā)展過程中發(fā)揮著重要作用,包括細(xì)胞增殖,細(xì)胞凋亡,血管生成和轉(zhuǎn)移擴(kuò)散[25].

        Cav1(Caveolin?1)是caveolae的主要結(jié)構(gòu)蛋白,在胞吞、細(xì)胞轉(zhuǎn)運(yùn)、細(xì)胞信號轉(zhuǎn)導(dǎo)中發(fā)揮著重要作用[26].

        TGFA(Transforming growth factor?α)[27]被認(rèn)為是EGF/TGF?α受體的配體,因?yàn)樗谠缙诎l(fā)育中廣泛存在于各種胚胎組織中[28].TGFA可能是控制發(fā)育過程的關(guān)鍵分子,會影響原始腎細(xì)胞的早期分化和生長以及成人腎細(xì)胞中腫瘤的轉(zhuǎn)化.本研究DEGs分析的結(jié)果表明,上述4個基因在腫瘤樣本中均出現(xiàn)明顯的下調(diào)趨勢.

        根據(jù)前面的結(jié)果進(jìn)行分析,CD40,EGFR,CAV1和TGFA很可能是診斷RCC的靶基因,因?yàn)樗鼈冊诜诸愵A(yù)測模型和PPI網(wǎng)絡(luò)中都起到了重要作用.

        4 結(jié)論

        本研究中,CFS基因篩選方法提供了一種對DEGs生物信息學(xué)分析結(jié)果進(jìn)行進(jìn)一步分析的方法,可以篩選出RCC中的關(guān)鍵基因.此外,計(jì)算結(jié)果還表明CD40,EGFR,CAV1和TGFA 4個基因可能為診斷RCC的目標(biāo)基因.

        [1]Ouzaid I.Kidney cancer[J].Prog Urol,2015,25:85.

        [2]Stewart B,Wild C.World cancer report 2014[M].Int Agency Res Cancer,2014.

        [3]Aoki Y,Watanabe T,Saito Y,et al.Identification of CD34+and CD34-leukemia?initiating cells in MLL?rearranged human acute lym?phoblastic leukemia[J].Blood,2015,125(6):967-980.

        [4]Mallik S,Bhadra T,Maulik U.Identifying epigenetic biomarkers using maximal relevance and minimal redundancy based feature selec?tion for multi?omics data[J].IEEE Trans Nanobiosci,2017,16(1):3-10.

        [5]Harris MA,Clark J,Ireland A,et al.The gene ontology(GO)database and informatics resource[J].Nucleic Acids Res,2004,32:D258-D261.

        [6]Blake JA,Dolan M,Drabkin H,et al.Gene ontology annotations and resources[J].Nucleic Acids Res,2013,41(D1):530-535.

        [7]Richter S,F(xiàn)etzer I,Thullner M,et al.Towards rule?based metabolic databases:a requirement analysis based on KEGG[J].Int J Data Min Bioinform,2015,13(3):289-319.

        [8]Maiorano F,Ambrosino L,Guarracino MR.The MetaboX library:building metabolic networks from KEGG database[J].Quantitative Biol,2014.

        [9]Jiao X,Sherman BT,Huang da W,et al.DAVID?WS:a stateful web service to facilitate gene/protein list analysis[J].Bioinformatics,2012,28(13):1805-1806.

        [10]Szklarczyk D,F(xiàn)ranceschini A,Kuhn M,et al.The STRING database in 2011:functional interaction networks of proteins,globally integrat?ed and scored[J].Nucleic Acids Res,2011,39(Database issue):D561-D568.

        [11]Szklarczyk D,F(xiàn)ranceschini A,Wyder S,et al.STRING v10:pro?tein?protein interaction networks,integrated over the tree of life[J].Nucleic Acids Res,2015,43(D1):D447-D452.

        [12]Senliol B,Gulgezen G,Yu L,et al.Fast correlation based filter(FCBF)with a different search strategy[M].https://doi.org/10.1109/ISCIS.2008.4717949.

        [13]Cataltepe Z,Uluya?mur M,Tayfur E.Feature selection for movie recommendation[J].Turkish J Electric Eng&Computer Sci,2016,24(3):833-848.

        [14]Ben?Hur A,Horn D,Siegelmann HT,et al.Support vector clustering[J].J Mach Learn Res,2002,2(2):125-137.

        [15]Cortes C,Vapnik V.Support?Vector Networks[J].Mach Learning,1995,20(3):273-297.

        [16]Kohavi R.A study of cross?validation and bootstrap for accuracy esti?mation and model selection[J].Int joint conference artificial intelli?gence,1995:1137-1143.

        [17]Robnik??ikonja M,Kononenko I.Theoretical and empirical analysis of ReliefF and RReliefF[J].Mach Learning,2003,53(1):23-69.

        [18]Xue ZY,Liu XQ.Feature selection method for object?oriented build?ing targets recognition based on ReliefF,GA and SVM[J].Eng Sur?veying&Mapping,2017.

        [19]Peng H,Long F,Ding C.Feature selection based on mutual information:criteria of max?dependency,max?relevance,and min?redundancy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.

        [20]Li BQ,Zheng LL,F(xiàn)eng KY,et al.Prediction of linear B?cell epitopes with mRMR feature selection and analysis[J].Curr Bioin?form,2016,11(1):22-31.

        [21]Díaz?Uriarte R,Alvarez de Andrés S.Gene Selection and Classifica?tion of Microarray Data Using Random Forest[J].BMC Bioinformat?ics,2006,7:3.

        [22]Pashaei E,Ozen M,Aydin N.Gene selection and classification approach for microarray data based on Random Forest Ranking and BBHA[C]//IEEE?EMBS International Conference on Biomedical and Health Informatics.IEEE,2016:308-311.

        [23]Byrne KT,Vonderheide RH.CD40 stimulation obviates innate sensors and drives T cell immunity in cancer[J].Cell Rep,2016,15(12):2719-2732.

        [24]Woltman AM,de Haij S,Boonstra JG,et al.Interleukin?17 and CD40?ligand synergistically enhance cytokine and chemokine produc?tion by renal epithelial cells[J].J Am Soc Nephrol,2000,11(11):2044-2055.

        [25]Bartholomew C,Eastlake L,Dunn P,et al.EGFR targeted therapy in lung cancer;an evolving story[J].Respir Med Case Rep,2017,20:137-140.

        [26]Qin L,Zhu N,Ao BX,et al.Caveolae and Caveolin?1 Integrate Re?verse Cholesterol Transport and Inflammation in Atherosclerosis[J].Int J Mol Sci,2016,17(3):429.

        [27]Junaid M,Narayanan MB,Jayanthi D,et al.Association between maternal exposure to tobacco,presence of TGFA gene,and the occur?rence of oral clefts.A case control study[J].Clin Oral Investig,2017.

        [28]Mattii L,Bianchi F,Da Prato I,et al.Renal cell cultures for the study of growth factor interactions underlying kidney organogenesis[J].In Vitro Cell Dev Biol Anim,2001,37(4):251-258.

        Identification of key genes in renal cell carci?noma based on CFS gene selection algorithm

        ZHANG Meng?Ying,LU Yi,NIU Bing,SU Qiang College of Life Science,Shanghai University,Shanghai 200444,China

        AIM:To identify key genes signatures in renal cell carcinoma(RCC) and uncover their potentialmechanisms.METHODS:Firstly,the gene expression profiles of GSE53757,which contained 144 samples,including 72 RCC samples and 72 controls,was downloaded from GEO database.And then differen?tially expressed genes(DEGs)between the RCC samples and the controls were identified.After that,GO and KEGG enrichment analyses of DEGs were performed by DAVID.Furthermore,corre?lation?based feature subset(CFS)method was applied to the se?lection of key genes of DEGs.In addition,the classification model between the RCC samples and the controls was built by support vector machines(SVM) based on selection of key genes.RESULTS:DEGs contained 541 genes,including 312 up?regu?lated and 229 down?regulated genes.A total of 21 DEGs were selected as the feature genes to build the classification model between the RCC samples and the controls by CFS method.The accuracy of the classification model is 97.2%.Besides,four feature genes(CD40,EGFR,CAV1 and TGFA)also can been found in the top 10 hub genes screened by STRING database.CONCLUSION:It indicats that CFS is a useful tool to identify key genes in RCC.Besides,we also predicts genes such as CD40,EGFR,CAV1 and TGFA might be target genes for diagno?sing the RCC.

        gene expression profiles; cancer classification;gene selection;renal cell carcinoma;CFS

        2095?6894(2017)06?16?04

        R737.11

        A

        2017-04-05;接受日期:2017-04-20

        張夢瑩.E?mail:18800208364@163.com

        蘇 強(qiáng).博士,研究員.研究方向:生物信息學(xué).E?mail:su@shu.edu.cn

        猜你喜歡
        分類特征分析
        分類算一算
        隱蔽失效適航要求符合性驗(yàn)證分析
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        白白色福利视频在线观看| 99久久精品在线视频| 国产一区二区三区青青草| 无码喷潮a片无码高潮| 18分钟处破好疼哭视频在线观看| 草莓视频一区二区精品| 亚洲区1区3区4区中文字幕码| 五月激情在线视频观看| 国产白浆在线免费观看| 午夜时刻免费入口| 免费观看黄网站| 精品三级久久久久久久电影| 国产在线不卡AV观看| 国产自产自现在线视频地址| 国产在线一区二区三精品乱码| 无人高清电视剧在线观看| 亞洲綜合無碼av一區二區| 成人午夜免费福利| 日本一区不卡高清在线观看| 少妇被黑人嗷嗷大叫视频| 无码 人妻 在线 视频| 少妇内射兰兰久久| 一区二区传媒有限公司| 天堂最新在线官网av| 国产在线观看女主播户外| 无码a级毛片免费视频内谢| 学生妹亚洲一区二区| 色人阁第四色视频合集网| 一区二区三区国产黄色| 国产在热线精品视频| 亚洲欧洲日产国码高潮αv| 无码人妻少妇久久中文字幕蜜桃| 澳门精品一区二区三区| 国产情侣一区二区| 99精品国产综合久久久久五月天| 国产高潮流白浆免费观看不卡| 给我播放的视频在线观看| av免费观看网站大全| 日韩精品一区二区午夜成人版| 国产精品自在线免费| 人妻丰满熟妇av一区二区|