亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進(jìn)的基因功能相似度計(jì)算方法

        2017-11-08 22:52:04田偵郭茂祖

        田偵 郭茂祖

        摘要:近年來(lái),基于基因本體比較基因之間的功能相似度成為一個(gè)研究熱點(diǎn)。當(dāng)前,基因功能相似度計(jì)算方法可以分為2種類(lèi)型:逐對(duì)(pair-wise)比較法和成組(group-wise)比較法。然而,由于基因本體注釋數(shù)據(jù)的豐度問(wèn)題,造成大量的基因具有相同的本體注釋數(shù)據(jù),從而導(dǎo)致基因功能相似度計(jì)算方法的結(jié)果存在偏差。本文提出一種改進(jìn)的基因功能相似度計(jì)算方法,對(duì)注釋集合的語(yǔ)義信息量進(jìn)行歸一化,達(dá)到準(zhǔn)確度量基因之間的功能相似度的目的。實(shí)驗(yàn)結(jié)果表明:本文提出的方法可以消除相同注釋對(duì)基因功能相似度計(jì)算方法的影響,且在測(cè)試平臺(tái)上獲得非常優(yōu)秀的結(jié)果。

        關(guān)鍵詞: 基因本體; 基因功能相似度; 相同注釋?zhuān)?相似度歸一化

        中圖分類(lèi)號(hào): TP391.41

        文獻(xiàn)標(biāo)志碼: A

        文章編號(hào): 2095-2163(2017)05-0123-04

        Abstract: In recent years, comparing the functional similarity of genes based on Gene Ontology has become a research hotspot. Currently, gene functional similarity calculation methods can be mainly divided into two types: pairwise approaches and groupwise approaches. However, due to the abundance of annotation data of genes, large number of genes has the identical ontology annotation, resulting in the deviation of results for these gene functional similarity calculation methods. This paper proposes an improved method for measuring the functional similarity of genes. The semantic information content of the annotated term set is normalized for the sake of measuring the functional similarity between genes more accurately. The experimental results show that the proposed method can eliminate the influence of the identical annotation on gene functional similarity calculation methods, and obtain a very good performance on the test platform.

        Keywords: Gene Ontology; gene functional similarity; identical annotation; similarity normalization

        0引言

        基因本體(Gene Ontology,GO)聯(lián)合會(huì)建立的數(shù)據(jù)庫(kù),其目標(biāo)是能夠滿足跨數(shù)據(jù)庫(kù)對(duì)基因和基因產(chǎn)物進(jìn)行一致描述。GO是一個(gè)標(biāo)準(zhǔn)化、精確定義和控制(controlled vocabulary)的詞匯庫(kù)。當(dāng)前,主要包括3個(gè)本體子結(jié)構(gòu):細(xì)胞成分(Cellular Component,CC)、分子功能(Molecular Function,MF)和生物過(guò)程(Biological Process,BP)[1]。3種子結(jié)構(gòu)之間彼此是獨(dú)立的,也就是說(shuō)可以從BP、CC和MF三個(gè)方面對(duì)基因進(jìn)行描述。

        在后基因組時(shí)代,基于基因本體比較和分析基因之間的功能相似性,具有重要的研究意義[2]。當(dāng)前,基因功能相似度的計(jì)算方法已經(jīng)在各種研究中得到廣泛的應(yīng)用,例如蛋白質(zhì)相互作用預(yù)測(cè)[3-4]、蛋白質(zhì)復(fù)合體識(shí)別[5-6]以及基因功能預(yù)測(cè)[7]、網(wǎng)絡(luò)預(yù)測(cè)(network prediction)[8]、疾病基因優(yōu)先排序(disease gene prioritization)[9-10]等。基于基因本體和基因的功能注釋數(shù)據(jù),分析和比較基因之間的功能相似度,受到越來(lái)越多的關(guān)注。

        1研究方法綜述

        近年來(lái),研究人員提出許多基于基因本體的計(jì)算基因功能相似性的方法[11-15]。整體上這些方法可以分為兩大類(lèi):逐對(duì)(pair-wise)比較法和成組(group-wise)比較法[16]。前者重點(diǎn)關(guān)注術(shù)語(yǔ)對(duì)之間的關(guān)系,即首先計(jì)算術(shù)語(yǔ)對(duì)之間的語(yǔ)義相似度,然后整合術(shù)語(yǔ)對(duì)之間的語(yǔ)義相似度,從而得到基因之間的功能相似度;后者則從術(shù)語(yǔ)集合的角度出發(fā),借助術(shù)語(yǔ)集合的語(yǔ)義相似度計(jì)算基因之間的功能相似度[17]。接下來(lái)將簡(jiǎn)單回顧這2種方法的研究發(fā)展歷程。

        [BT5]1.1逐對(duì)比較法

        逐對(duì)比較法度量基因的功能相似性時(shí),整體上可以分為2步。第一步計(jì)算GO術(shù)語(yǔ)之間的語(yǔ)義相似性;第二步將術(shù)語(yǔ)之間的語(yǔ)義相似性整合,最終獲得基因之間的功能相似性。計(jì)算術(shù)語(yǔ)之間語(yǔ)義相似性方法有3種類(lèi)型:基于點(diǎn)(node-based)方法、基于邊(ege-based)方法和混合(hybrid)法。Resnik[18]在計(jì)算2個(gè)術(shù)語(yǔ)的語(yǔ)義相似度時(shí),利用2個(gè)術(shù)語(yǔ)的最有信息公共祖先(most informative common ancestor,MICA)的語(yǔ)義信息量,作為二者的語(yǔ)義相似度。有時(shí)最有信息公共祖先也稱最低公共祖先節(jié)點(diǎn)(lowest common ancestor, LCA)。由于該方法相對(duì)簡(jiǎn)單,在實(shí)際的計(jì)算過(guò)程中發(fā)現(xiàn),該方法會(huì)導(dǎo)致很多術(shù)語(yǔ)之間的語(yǔ)義相似度相同。后來(lái),Jiang[13]及Lin[19] 在計(jì)算2個(gè)術(shù)語(yǔ)的語(yǔ)義相似度時(shí),不僅考慮術(shù)語(yǔ)的最有公共祖先節(jié)點(diǎn),還考慮2個(gè)術(shù)語(yǔ)自身的語(yǔ)義信息,分別提出各自的方法。上述這些方法均存在“淺注釋”(shallow annotation)的問(wèn)題,即距離根節(jié)點(diǎn)較近的2個(gè)術(shù)語(yǔ)節(jié)點(diǎn)也可能獲得較高的語(yǔ)義相似度。Couto[20]通過(guò)考慮術(shù)語(yǔ)所有祖先節(jié)點(diǎn)的語(yǔ)義信息量,而不是最有信息公共祖先節(jié)點(diǎn)的語(yǔ)義信息量來(lái)計(jì)算術(shù)語(yǔ)之間的語(yǔ)義相似度。該方法的計(jì)算復(fù)雜度相對(duì)較高,在術(shù)語(yǔ)節(jié)點(diǎn)的子結(jié)構(gòu)(subgraph)簡(jiǎn)單時(shí),實(shí)驗(yàn)結(jié)果不夠突出?;谶叺姆椒ㄍㄟ^(guò)計(jì)算連接2個(gè)術(shù)語(yǔ)邊的特性來(lái)計(jì)算術(shù)語(yǔ)之間的相似度。Pekar[21]利用最有信息祖先節(jié)點(diǎn)到根節(jié)點(diǎn)的距離以及術(shù)語(yǔ)分別到最有信息祖先節(jié)點(diǎn)距離,計(jì)算術(shù)語(yǔ)之間的語(yǔ)義相似度。但是該方法沒(méi)有考慮到本體結(jié)構(gòu)中語(yǔ)義關(guān)系的傳遞性,而是將其設(shè)定為同等看待。Cheng [22]將術(shù)語(yǔ)距離葉節(jié)點(diǎn)的距離引入語(yǔ)義相似度計(jì)算中。研究指出節(jié)點(diǎn)距離葉節(jié)點(diǎn)越近,其特異性越強(qiáng),語(yǔ)義信息量越大。Wang[23]提出了綜合計(jì)算的方法,提出語(yǔ)義貢獻(xiàn)因子(semantic contribution factor)的概念。過(guò)程中既考慮術(shù)語(yǔ)的語(yǔ)義信息有一部分要通過(guò)語(yǔ)義關(guān)系傳遞給子孫節(jié)點(diǎn),又考慮了在傳遞過(guò)程中,不同語(yǔ)義傳遞的強(qiáng)度不同。由此,最終提出既考慮術(shù)語(yǔ)節(jié)點(diǎn)本身、又考慮語(yǔ)義關(guān)系的綜合計(jì)算方法。Othman[24]等考慮術(shù)語(yǔ)關(guān)系所在區(qū)域的連接密度、節(jié)點(diǎn)之間語(yǔ)義信息量差異以及節(jié)點(diǎn)的深度等信息,計(jì)算術(shù)語(yǔ)之間的語(yǔ)義相似度。endprint

        [BT5]1.2成組比較法

        成組比較法將基因的GO注釋術(shù)語(yǔ)看成一個(gè)整體,也就說(shuō)從集合的角度分析2個(gè)注釋集合的相似度,從而得到基因之間的功能相似度。成組比較法又有3種常見(jiàn)的類(lèi)型[16]:基于集合(set-based)方法、基于圖方法和基于向量的方法。其中,基于集合的方法將基因的所有術(shù)語(yǔ)注釋作為一個(gè)集合,用傳統(tǒng)的集合之間的相似度作為基因之間的功能相似度。Gentleman [15]利用2個(gè)集合之間交集和并集的比率作為2個(gè)集合的相似度;方法simGIC[25]將術(shù)語(yǔ)的語(yǔ)義信息量引入到集合內(nèi)。該方法主要通過(guò)計(jì)算集合并集的語(yǔ)義信息量和集合交集的語(yǔ)義信息量,而后綜合求得集合之間的相似度。Teng則發(fā)現(xiàn)方法simGIC在計(jì)算術(shù)語(yǔ)集合語(yǔ)義信息量時(shí),存在重復(fù)計(jì)算的問(wèn)題,因此Teng[17]提出SORA方法,更加準(zhǔn)確度量術(shù)語(yǔ)集合的語(yǔ)義相似度,從而提高基因功能相似度計(jì)算方法的效果?;趫D的方法利用基因本體結(jié)構(gòu)和基因的所有注釋術(shù)語(yǔ),獲取這些注釋術(shù)語(yǔ)的圖形結(jié)構(gòu);通過(guò)圖形比對(duì)方法,計(jì)算2個(gè)圖形之間的相似度作為基因之間的功能相似度。基于向量的方法首先將基因的術(shù)語(yǔ)集合按照一定順序,表示成0-1向量(如果基因被該位置的術(shù)語(yǔ)注釋?zhuān)瑒t用1表示,反之亦然);用2個(gè)向量之間的余弦相似度作為2個(gè)基因之間的功能相似度。這些方法在文章[26]中已經(jīng)得到詳細(xì)的探討論述。

        2問(wèn)題描述

        近年來(lái),雖然基因本體數(shù)據(jù)庫(kù)獲得了巨大的發(fā)展,基因功能注釋數(shù)據(jù)也越來(lái)越豐富,科研人員可以獲得更為豐富的生物數(shù)據(jù)。然而,當(dāng)前對(duì)基因的本體注釋信息還是存在一定的問(wèn)題。其中,最突出的一個(gè)問(wèn)題就是相同注釋?zhuān)╥dentical annotation)問(wèn)題。該問(wèn)題可以簡(jiǎn)單描述為:當(dāng)2個(gè)基因具有相同的基因功能注釋信息,基因功能相似度的計(jì)算出現(xiàn)偏差(bias)。表1列舉了基因相同注釋在4種模式生物中的情況,這些數(shù)據(jù)均來(lái)自于最新的Uniprot-GOA數(shù)據(jù)庫(kù)(http://www.ebi.ac.uk/GOA/downloads)。

        而對(duì)于基因功能相似度計(jì)算方法來(lái)說(shuō),只要2個(gè)基因具有相同功能注釋?zhuān)敲炊叩幕蚬δ芟嗨贫染蜑?.0,顯然這樣是不合理的。目前,對(duì)不同生物的研究程度不同,從而導(dǎo)致對(duì)某些基因的功能注釋信息較少;另一方面,研究相對(duì)成熟的基因也可能具有相同的功能注釋信息。因此,對(duì)于這2種情況的相同注釋問(wèn)題應(yīng)該區(qū)別對(duì)待。從表1中可以看出,相同注釋在各個(gè)物種的功能注釋數(shù)據(jù)庫(kù)中普遍存在,在酵母和老鼠的功能注釋數(shù)據(jù)庫(kù)中,相同注釋出現(xiàn)的頻率非常高。所以,改進(jìn)基因功能相似度計(jì)算方法去克服相同注釋是非常必要的。

        圖1具體描述了相同注釋對(duì)于基因功能相似度計(jì)算方法的影響。在圖1中,基因1(gene1)和基因2(gene2)分別被3個(gè)相同的GO注釋?zhuān)謩e是GO1、GO2和GO3;基因3(gene3)和基因4(gene4)分別被3個(gè)相同的GO注釋?zhuān)謩e是GO4、GO5、GO6。如果采用GIC[25]方法,那么基因1和基因2的功能相似度為1.0,而基因3和基因4的功能相似度也為1.0。顯然,不同基因之間的這種相同注釋?zhuān)瑫?huì)造成明顯的誤差,存在一定的不合理性。這是因?yàn)楫?dāng)前對(duì)基因1、基因2、基因3和基因4研究的詳細(xì)程度各有不同而造成的。

        表2總共包含3種本體類(lèi)型的12組實(shí)驗(yàn)。其中,本文提出的方法(SimGICNorm)在MF的Seq實(shí)驗(yàn)、BP的Seq實(shí)驗(yàn)和CC的Pfam、Seq實(shí)驗(yàn)中分別獲得了第一,實(shí)驗(yàn)結(jié)果分別為0.670 2、0.797 6、0.512 5和0.736 4。與之對(duì)應(yīng)的SimGIC方法在MF的ECC和Pfam實(shí)驗(yàn)中獲得了第一名,實(shí)驗(yàn)結(jié)果分別為0.587 4和0.582 4。除此之外,Lin方法在3組實(shí)驗(yàn)中獲得第一名,而Resnik方法和SimUI方法也分別獲得了2組第一和1組第一。表2中最好的實(shí)驗(yàn)結(jié)果用粗體表示。

        從上述結(jié)果中可以看出,本文提出的方法在Seq度量指標(biāo)上的性能非常出色,說(shuō)明該方法和基因的序列相似性保持高度一致;由于本文提出的方法對(duì)基因之間的功能相似度進(jìn)行歸一化操作,因此可以有效克服相同注釋對(duì)相似度計(jì)算結(jié)果的影響,從而使得該方法在CESSM測(cè)試平臺(tái)上獲得了較好的實(shí)驗(yàn)結(jié)果。

        5結(jié)束語(yǔ)

        基于基因本體和基因功能注釋數(shù)據(jù),計(jì)算基因之間的功能相似度具有重要的研究意義。與基因的結(jié)構(gòu)相似度和序列相似度類(lèi)似,功能相似度可以從一個(gè)全新的角度理解基因之間的關(guān)系。本文針對(duì)基因的相同注釋問(wèn)題提出一種改進(jìn)的方法,從而準(zhǔn)確度量基因之間的功能相似度。該方法主要基于術(shù)語(yǔ)注釋集合,使用統(tǒng)一的相似度歸一化操作,從而使基因功能相似度計(jì)算方法可以區(qū)分不同的相同注釋?zhuān)罱K提高計(jì)算方法的效果。具體的實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)方法在CESSM平臺(tái)上獲得非常出色的實(shí)驗(yàn)結(jié)果,從而證實(shí)本文提出方法的有效性和合理性。

        參考文獻(xiàn)

        ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: Tool for the unification of biology[J]. Nature genetics, 2000, 25(1): 25-29.

        [2] MALLADI V S, ERICKSON D T, PPDDUTURI N R, et al. Ontology application and use at the ENCODE DCC[J]. Database, 2015, 2015:bav010.

        [3] BRAMEIER M, WIUF C. Coclustering and visualization of gene expression data and gene ontology terms for Saccharomyces cerevisiae using selforganizing maps[J]. Journal of biomedical informatics, 2007, 40(2): 160-173.endprint

        [4] YANG Da, LI Yanhui, XIAO Hui, et al. Gaining confidence in biological interpretation of the microarray data: The functional consistence of the significant GO categories[J]. Bioinformatics, 2008, 24(2): 265-271.

        [5] KING A D, PRULJ N, JURISICA I. Protein complex prediction via costbased clustering[J]. Bioinformatics, 2004, 20(17): 3013-3120.

        [6] WU Xiaomei, ZHU Lei, GUO Jie, et al. Prediction of yeast proteinprotein interaction network: Insights from the Gene Ontology and annotations[J]. Nucleic acids research, 2006, 34(7): 2137-2150.

        [7] [JP3]MI Huaiyu, HUANG Xiaosong, MURUGANUJAN A, et al. PANTHER version 11: Expanded annotation data from Gene Ontology and Reactome pathways, and data analysis tool enhancements[J]. Nucleic acids research, 2017, 45:D183-189.[JP]

        [8] LEE P H, LEE D. Modularized learning of genetic interaction networks from biological annotations and mRNA expression data[J]. Bioinformatics, 2005, 21(11): 2739-2747.

        [9] CHENG Liang, LI Jie, JU Peng, et al. SemFunSim: A new method for measuring disease similarity by integrating semantic and gene functional association[J]. PLoS One,2014,9(6):e99415.

        [10]TRANCHEVENT L C, ARDESHIRDAVANI A, ELSHAL S, et al. Candidate gene prioritization with Endeavour[J]. Nucleic acids research, 2016, 44(W1): W117-W21.

        [11]XU Yungang, GUO Maozu, SHI Wenli, et al. A novel insight into Gene Ontology semantic similarity[J]. Genomics, 2013, 101(6): 368-375.

        [12]SCHLICKER A, DOMINGUES F S, RAHNENFHRER J, et al. A new measure for functional similarity of gene products based on Gene Ontology[J]. BMC bioinformatics, 2006, 7:302.

        [13]JIANG J J, CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy[J]. arXiv preprint cmp-lg/9709008, 1997.

        [14]PESQUITA C, FARIA D, BSATOS H, et al. Metrics for GO based protein semantic similarity: A systematic evaluation[J]. BMC bioinformatics, 2008, 9(S5):S4.

        [15]GENTLEMAN R, CAREY V J, HUBER W, et al. Bioinformatics and computational biology solutions using R and Bioconductor[M]//Statistics for Biology and Health. NewYork: Springer Science & Business Media, 2005:388-389.

        [16]PESQUITA C, FARIA D, FALCO A O, et al. Semantic similarity in biomedical ontologies[J]. PLoS computational biology, 2009, 5(7): e1000443.

        [17]TENG Zhixia, GUO Maozu, LIU Xiaoyan, et al. Measuring gene functional similarity based on groupwise comparison of GO terms[J]. Bioinformatics, 2013, 29(11): 1424-1432.endprint

        [18]RESNIK P. Semantic similarity in a taxonomy: An informationbased measure and its application to problems of ambiguity in natural language[J]. Journal of Artifical Intelligence Research, 1999, 11:95-130.

        [19]LIN Dekang. An informationtheoretic definition of similarity[C]//ICML '98 Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1998: 296-304.

        [20]COUTO F M, SILVA M J, COUTINHO P M. Semantic similarity over the gene ontology: Family correlation and selecting disjunctive ancestors[C]//CIKM '05 Proceedings of the 14th ACM international conference on Information and knowledge management.Bremen, Germany: ACM, 2005: 343-344.

        [21]PEKAR V, STAAB S. Taxonomy learning: Factoring the structure of a taxonomy into a semantic classification decision[C]//COLING '02 Proceedings of the 19th international conference on Computational linguistics. Taipei: ACM, 2002: 1-7.

        [22]CHENG J, CLINE M, MARTIN J, et al. A knowledgebased clustering algorithm driven by gene ontology[J]. Journal of biopharmaceutical statistics, 2004, 14(3): 687-700.

        [23]WANG J Z, DU Z, PAYATTAKOOL R, et al. A new method to measure the semantic similarity of GO terms[J]. Bioinformatics, 2007, 23(10): 1274-1281.

        [24]OTHMAN R M, DERIS S, ILLIAS R M. A genetic similarity algorithm for searching the Gene Ontology terms and annotating anonymous protein sequences[J]. Journal of biomedical informatics, 2008, 41(1): 65-81.

        [25]PESQUITA C, FARIA D, BASTOS H, et al. Evaluating GObased semantic similarity measures[C]//Proceedings of 10th Annual BioOntologies Meeting. [S.l.]: ISCB, 2007: 37-40.

        [26]MAZANDU G K, CHIMUSA E R, MULDER N J. Gene ontology semantic similarity tools: Survey on features and challenges for biological knowledge discovery[J]. Briefings in bioinformatics, 2016: bbw067.

        [27]PESQUITA C, PESSOA D, FARIA D, et al. CESSM: Collaborative evaluation of semantic similarity measures[J]. JB2009: Challenges in Bioinformatics, 2009, 157(190):1-5.endprint

        纯肉无遮挡H肉动漫在线观看国产 国产精品自产拍在线观看免费 | 国产精品无码一区二区三级| 在线播放免费播放av片| 亚洲综合网在线观看首页| 日本av一区二区播放| 日本人妻精品有码字幕| 亚洲av成人噜噜无码网站| 色猫咪免费人成网站在线观看| 国产午夜亚洲精品一级在线| 在线亚洲精品中文字幕美乳色| 国产免费久久精品99久久| 国产剧情麻豆女教师在线观看 | 亚洲日本一区二区在线| 波多野结衣爽到高潮大喷| 国产一在线精品一区在线观看| 国产精品成人无码a 无码| 大香蕉国产av一区二区三区| 亚洲人成无码区在线观看| 99这里只有精品| 免费美女黄网站久久久| 国产剧情一区二区三区在线| 最近在线更新8中文字幕免费| 亚洲天堂成人在线| 久久精品国语对白黄色| 丰满少妇高潮惨叫久久久| 少妇特黄a一区二区三区| 69国产成人综合久久精| 国产黄色一区二区在线看 | 国产免费av片无码永久免费 | 精品久久久无码不卡| 91九色最新国产在线观看| 亚洲av无码久久精品狠狠爱浪潮| 综合网五月| 91青青草手机在线视频| 风流老太婆大bbwbbwhd视频| 亚洲综合一区无码精品| 国产综合一区二区三区av| 久久精品国产亚洲av网| 蜜桃视频一区二区三区在线观看| 丰满熟妇人妻无码区| 人妻精品人妻一区二区三区四区|