亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種癌癥蛋白質(zhì)作用網(wǎng)絡(luò)分析的方法

        2013-10-15 07:38:30胡心宇
        計(jì)算機(jī)與現(xiàn)代化 2013年11期
        關(guān)鍵詞:數(shù)據(jù)庫信息研究

        胡心宇,朱 斐

        (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

        0 引言

        近年來大量的物種全基因組序列被測(cè)序出來,使得生物研究進(jìn)入了后基因組時(shí)代[1],由單個(gè)的基因研究轉(zhuǎn)入大規(guī)模的蛋白質(zhì)功能領(lǐng)域的研究[2]。蛋白質(zhì)-蛋白質(zhì)相互作用作為最基本內(nèi)容已經(jīng)成為了研究的基礎(chǔ)和重點(diǎn)[3]。蛋白質(zhì)相互作用的信息有助于進(jìn)一步理解蛋白質(zhì)的功能,以及建立整體蛋白質(zhì)相互作用的通路,并且可用于發(fā)現(xiàn)新的藥物靶點(diǎn)。

        癌癥是由基因異常,如癌基因或抑癌基因的突變,改變下游的信號(hào)轉(zhuǎn)導(dǎo)通路和蛋白質(zhì)之間的相互作用[4]。蛋白質(zhì)在癌細(xì)胞與正常細(xì)胞之間的相互作用比較可以揭示致癌機(jī)理[5]。瓦西列夫和他的同事的研究表明,根據(jù)作用原理的證明,蛋白質(zhì)-蛋白質(zhì)相互作用的抑制劑可以作為有效的抗癌藥物。

        如今大量使用的實(shí)驗(yàn)和數(shù)據(jù)庫的方法常常會(huì)產(chǎn)生“假陽性”[6]。酵母雙雜交技術(shù)可以產(chǎn)生假陽性(雜散相互作用檢測(cè),因?yàn)楦咄亢Y選過程的性質(zhì))和假陰性。然而計(jì)算方法網(wǎng)絡(luò)分析可以提煉蛋白-蛋白相互作用網(wǎng)絡(luò),并導(dǎo)致更少的假陽性,因此有很大研究開發(fā)的潛能[7]。

        在基礎(chǔ)研究方面,近2年來蛋白質(zhì)相互作用的研究技術(shù)已被應(yīng)用到各種生命科學(xué)領(lǐng)域,如細(xì)胞生物學(xué)、神經(jīng)生物學(xué)等。在研究對(duì)象上,覆蓋了原核微生物、真核微生物、植物和動(dòng)物等范圍,涉及各種重要的生物學(xué)現(xiàn)象,如信號(hào)轉(zhuǎn)導(dǎo)、細(xì)胞分化、蛋白質(zhì)折疊等。在未來的發(fā)展中,蛋白質(zhì)相互作用的研究領(lǐng)域?qū)⒏訌V泛。

        在應(yīng)用研究方面,蛋白質(zhì)相互作用的研究將成為尋找疾病分子標(biāo)記和藥物靶標(biāo)有效的方法[8]。對(duì)癌癥的臨床診斷和治療方面癌癥蛋白質(zhì)作用網(wǎng)絡(luò)分析也有十分誘人的前景,目前國際上許多大型藥物公司正投入大量的人力和物力進(jìn)行蛋白質(zhì)組學(xué)方面的應(yīng)用性研究[9]。

        由此,筆者提出一種癌癥蛋白質(zhì)作用網(wǎng)絡(luò)分析方法。本項(xiàng)目主要是開發(fā)一個(gè)系統(tǒng),該系統(tǒng)能夠從生物文本中提取出蛋白質(zhì)的相關(guān)信息,進(jìn)行蛋白質(zhì)功能聚類,并構(gòu)建蛋白質(zhì)間相互作用的網(wǎng)絡(luò),預(yù)測(cè)癌癥。

        1 相關(guān)研究

        對(duì)于癌癥蛋白質(zhì)的相關(guān)研究,Yu G.,Wang J.,Chen Y.等人分別分析了1072例中國籍胃癌患者的初期腫瘤、淋巴結(jié)轉(zhuǎn)移灶、鄰近的黏膜組織樣本的微陣列,發(fā)現(xiàn)當(dāng)胃癌發(fā)展和轉(zhuǎn)移時(shí)目標(biāo)膜聯(lián)蛋白A1的表達(dá)顯著降低,推測(cè)目標(biāo)膜聯(lián)蛋白A1可作為一種陰性的標(biāo)志物用來預(yù)測(cè)胃癌的發(fā)生和進(jìn)展[10]。

        Choi P.,Jordan C.D.,Mendez E.等人為了進(jìn)一步驗(yàn)證口腔鱗狀細(xì)胞癌DNA微陣列實(shí)驗(yàn)中可能作為的潛在生物標(biāo)記的基因亞型,采用微陣列分析了標(biāo)志物的蛋白質(zhì)水平,發(fā)現(xiàn)與健康對(duì)照組相比腫瘤組織中的蛋白質(zhì)(富含半胱氨酸的酸性分泌蛋白、成骨細(xì)胞特異性因子、結(jié)合黏蛋白C)表達(dá)增加,而且它們的表達(dá)主要集中在與腫瘤相關(guān)的基質(zhì)中而非腫瘤上皮細(xì)胞,相反地,轉(zhuǎn)谷氨酰胺酶3的蛋白表達(dá)僅在健康對(duì)照組的角質(zhì)化細(xì)胞中出現(xiàn),在癌細(xì)胞中則顯著下調(diào)[11]。

        袁芳、李靖等人基于現(xiàn)有的蛋白質(zhì)相互作用數(shù)據(jù),提出利用鄰居曲線方法來分析癌癥基因產(chǎn)物在蛋白質(zhì)相互作用網(wǎng)絡(luò)中的中心度和聚集度,據(jù)此獲取與癌癥高度相關(guān)的候選致病基因。癌癥基因大規(guī)模測(cè)試顯示,有26%的目標(biāo)基因在候選基因中排名前5%,90%的目標(biāo)基因在候選基因中排名前50%,該方法能有效地識(shí)別癌癥致病基因[12]。

        對(duì)于數(shù)據(jù)提取與蛋白質(zhì)網(wǎng)絡(luò)分析方面,2009年,Liu等人結(jié)合迭代的加權(quán)計(jì)分方法提出了應(yīng)用于加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò)聚類算法CMC(Clustering based on Maximal Cliques,CMC)[13]。

        Navlakha等人引用 GS(Graph Sum-marization,GS)技術(shù)對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類分析以挖掘蛋白質(zhì)復(fù)合物和功能模塊[14]。

        2010年,Liang等人又提出了雙雜交聚類算法(Hybrid Clustering Algorithm)和基于局部密度與隨機(jī)游走的算法分別挖掘蛋白質(zhì)相互作用網(wǎng)絡(luò)中的功能模塊和蛋白質(zhì)復(fù)合物。

        Jongkwang等人提出了參數(shù)化局部相似性蛋白質(zhì)復(fù)合物挖掘算法miPALM(Module Inference by Parametc LocalModularity,miPALM)。

        同時(shí),Olson B.,Molloy K.,Hendi S.F.,Shehu A.也進(jìn)行了提高搜索蛋白質(zhì)結(jié)構(gòu)空間的效率的研究工作[17]。

        2 方法

        本項(xiàng)目主要是開發(fā)一個(gè)系統(tǒng),該系統(tǒng)能夠從生物文本中提取出蛋白質(zhì)的相關(guān)信息,并進(jìn)行蛋白質(zhì)功能聚類,并構(gòu)建蛋白質(zhì)間相互作用的網(wǎng)絡(luò),預(yù)測(cè)癌癥。

        其中對(duì)癌癥蛋白質(zhì)相互作用的研究將主要包括以下幾個(gè)方面:

        (1)一種面向多物種的通用預(yù)測(cè)模型的建立;

        (2)機(jī)器學(xué)習(xí)訓(xùn)練集反例的不斷擴(kuò)充與完善;

        (3)基于精確的蛋白質(zhì)結(jié)構(gòu)模型的蛋白質(zhì)團(tuán)間相互作用預(yù)測(cè);

        (4)蛋白質(zhì)功能簇間相互作用網(wǎng)絡(luò)預(yù)測(cè)研究有待深入;

        (5)蛋白質(zhì)功能簇間相互作用數(shù)據(jù)集的驗(yàn)證與完善。

        詳細(xì)流程說明如圖1所示。

        圖1 方案詳細(xì)流程

        步驟1 從癌癥蛋白質(zhì)相關(guān)文本中提取數(shù)據(jù),并進(jìn)行特征向量提取與KEGG檢索。過程如圖2所示。

        圖2 信息提取過程

        KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書)是一套關(guān)于基因組、酶促途徑以及生物化學(xué)物質(zhì)的在線數(shù)據(jù)庫。在給出染色體中一套完整的基因的情況下,它可以對(duì)蛋白質(zhì)交互(互動(dòng))網(wǎng)絡(luò)在各種細(xì)胞活動(dòng)起的作用作出預(yù)測(cè)[18]。

        KEGG的PATHWAY數(shù)據(jù)庫整合當(dāng)前在分子互動(dòng)網(wǎng)絡(luò)(比如通道,聯(lián)合體)的知識(shí),KEGG的GENES/SSDB/KO數(shù)據(jù)庫提供關(guān)于在基因組計(jì)劃中發(fā)現(xiàn)的基因和蛋白質(zhì)的相關(guān)知識(shí),KEGG的COMPOUND/GLYCAN/REACTION數(shù)據(jù)庫提供生化復(fù)合物及反應(yīng)方面的知識(shí)[19]。與其他數(shù)據(jù)庫相比,KEGG的一個(gè)顯著特點(diǎn)就是具有強(qiáng)大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關(guān)系,這樣可以使研究者能夠?qū)ζ渌芯康拇x途徑有一個(gè)直觀全面的了解。

        選擇KEGG主要是因?yàn)樗腥缦聨讉€(gè)特征:

        (1)各個(gè)數(shù)據(jù)庫中包含了大量的有用信息。基因組信息存儲(chǔ)在GENES數(shù)據(jù)庫里,包括完整和部分測(cè)序的基因組序列;更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息[20]。

        (2)通過與世界上其它一些大型生物信息學(xué)數(shù)據(jù)庫的連接,KEGG可以為研究者提供更為豐富的生物學(xué)信息(LinkDB)。

        (3)KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取。

        首先,獲取蛋白質(zhì)名字詞典和蛋白質(zhì)-蛋白質(zhì)相互作用詞典、PubMed摘要實(shí)現(xiàn)信息,同時(shí)進(jìn)行基因提取、蛋白質(zhì)提取與KEGG數(shù)據(jù)庫檢索。蛋白質(zhì)提取結(jié)果顯示為一個(gè)基于多源驗(yàn)證的蛋白質(zhì)相互作用文本信息以及一個(gè)基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的文本。詳細(xì)流程如圖3所示。

        圖3 數(shù)據(jù)提取流程圖

        以己糖激酶hexokinase為例,在KEGG Orthology中任找一個(gè)代謝通路圖,點(diǎn)擊pathway entry,進(jìn)入Orthology table頁面。此頁面中,行與物種對(duì)應(yīng),has表示Homo sapiens,mcc表示Macaca mulatta;列表示相應(yīng)的Ortholog分類,K00844就表示生物體內(nèi)的己糖激酶hexokinase這一類序列和功能相似的蛋白質(zhì)類(酶類)。根據(jù)KEGG數(shù)據(jù)顯示,在人類細(xì)胞中存在3種不同的己糖激酶,它們分別由3101,3098,3099這3組數(shù)字代表的基因所編碼,這3組數(shù)字是這3個(gè)基因的登錄號(hào)??瞻讋t表示在該物種中不存在這種酶。

        步驟2 抽取特征向量,構(gòu)建特征向量數(shù)據(jù)集。特征選取的任務(wù)就是將信息量小的特征項(xiàng)去除,在降低特征向量維數(shù)的同時(shí),又不影響信息檢索的質(zhì)量。這里,采用了X2統(tǒng)計(jì)量法(CHI)來計(jì)算特征項(xiàng)t和文檔c之間的相關(guān)性。

        步驟3 利用貝葉斯網(wǎng)絡(luò)學(xué)習(xí)技術(shù)優(yōu)化特征信息,進(jìn)一步處理數(shù)據(jù),消除冗余。

        貝葉斯網(wǎng)絡(luò)是基于概率推理的數(shù)學(xué)模型,是為了解決不定性和不完整性問題而提出的,它對(duì)于解決復(fù)雜設(shè)備不確定性和關(guān)聯(lián)性引起的故障有很大的優(yōu)勢(shì),可用來表示疾病和其相關(guān)癥狀間的概率關(guān)系[21];倘若已知某種癥狀下,貝葉斯網(wǎng)絡(luò)就可用來計(jì)算各種可能罹患疾病的發(fā)生概率。在生物信息學(xué)應(yīng)用廣泛。

        采用貝葉斯網(wǎng)絡(luò)主要因?yàn)樗腥缦乱恍﹥?yōu)點(diǎn):

        (1)貝葉斯網(wǎng)絡(luò)本身是一種不定性因果關(guān)聯(lián)模型。它本身是將多元知識(shí)圖解可視化的一種概率知識(shí)表達(dá)與推理模型[22]。

        (2)貝葉斯網(wǎng)絡(luò)具有強(qiáng)大的不確定性問題處理能力。

        (3)貝葉斯網(wǎng)絡(luò)能有效地進(jìn)行多源信息表達(dá)與融合,按信息的相關(guān)關(guān)系進(jìn)行融合。

        步驟4 將經(jīng)過處理的搜索結(jié)果按照名稱、別名、分子大小、分子結(jié)構(gòu)、作用等方面顯示在界面的輸出框中,返回給用戶。

        目前已經(jīng)實(shí)驗(yàn)確定的人類蛋白質(zhì)相互作用不多,進(jìn)一步挖掘未知的蛋白質(zhì)相互作用非常必要。將來可以通過人類蛋白質(zhì)芯片組技術(shù),完整分析人類蛋白質(zhì)相互作用,進(jìn)一步完善相互作用網(wǎng)絡(luò)的建立。

        與只分析基因表達(dá)數(shù)據(jù)的傳統(tǒng)方法不同,筆者結(jié)合人類蛋白質(zhì)相互作用網(wǎng)絡(luò)和基因表達(dá)數(shù)據(jù)的信息,基于網(wǎng)絡(luò)結(jié)構(gòu)和基因表達(dá)2類數(shù)據(jù),針對(duì)癌癥的初步作用途徑和機(jī)制,進(jìn)行較準(zhǔn)確的網(wǎng)絡(luò)分析。實(shí)現(xiàn)生物信息學(xué)、蛋白質(zhì)組信息學(xué)、腫瘤蛋白質(zhì)組學(xué)的完美結(jié)合,為進(jìn)一步理解癌癥發(fā)生和發(fā)展的分子機(jī)理,進(jìn)一步探究癌癥發(fā)生和轉(zhuǎn)移的基因變異機(jī)理做出貢獻(xiàn)[23]。

        蛋白質(zhì)間相互作用是一個(gè)十分復(fù)雜的現(xiàn)象,受到多種因素的影響,要取得完美的預(yù)測(cè)效果仍面臨諸多困難。相信隨著各種預(yù)測(cè)方法的不斷完善,它將為實(shí)驗(yàn)方法提供切實(shí)有效的指導(dǎo)線索,而實(shí)驗(yàn)方法又能為之提供富足必要的先驗(yàn)知識(shí)和結(jié)果驗(yàn)證,二者共同為促進(jìn)蛋白質(zhì)功能簇間相互作用標(biāo)準(zhǔn)數(shù)據(jù)的形成各盡其力。

        3 結(jié)束語

        筆者設(shè)計(jì)出一種方法,該方法能夠從生物文本中提取出蛋白質(zhì)的相關(guān)信息,并進(jìn)行蛋白質(zhì)功能聚類,并構(gòu)建蛋白質(zhì)間相互作用的網(wǎng)絡(luò),預(yù)測(cè)癌癥。對(duì)于理解細(xì)胞生命、生物致病機(jī)理以及新藥物靶點(diǎn)發(fā)現(xiàn)和藥物設(shè)計(jì)等都具有重要的科學(xué)價(jià)值和應(yīng)用前景。

        [1]Sava G,Bergamo A,Dyson P J.Metal-based antitumour drugs in the post-genomic era:What comes next?[J].Dalton Transactions,2011,40(36):9069-9075.

        [2]Brustad E M,Arnold F H.Optimizing non-natural protein function with directed evolution[J].Current Opinion in Chemical Biology,2011,15(2):201-210.

        [3]Heo M,Maslov S,Shakhnovich E.Topology of protein interaction network shapes protein abundances and strengths of their functional and nonspecific interactions[J].Proceedings of the National Academy of Sciences,2011,108(10):4258-4263.

        [4]William C S Cho.蛋白質(zhì)組學(xué)與轉(zhuǎn)化醫(yī)學(xué):用以癌癥診斷,預(yù)后和療效預(yù)測(cè)的分子生物標(biāo)記物[J].南娟譯.中國肺癌雜志,2011,14(8):I0003-I0004.

        [5]Reva B,Antipin Y,Sander C.Predicting the functional impact of protein mutations:Application to cancer genomics[J].Nucleic Acids Research,2011,39(17):e118.

        [6]翁改志,路軍梅,唐耀庭,等.代謝綜合征合并非酒精性脂肪性肝病血糖,血脂,尿酸,丙氨酸轉(zhuǎn)移酶相關(guān)性分析[J].國際檢驗(yàn)醫(yī)學(xué)雜志,2012,33(1):94-96.

        [7]Stynen B,Tournu H,Tavernier J,et al.Diversity in genetic in vivo methods for protein-protein interaction studies:From the yeast two-hybrid system to the mammalian split-luciferase system[J].Microbiology and Molecular Biology Reviews,2012,76(2):331-382.

        [8]周紅光,陳海彬,周學(xué)平,等.蛋白質(zhì)組學(xué)是中醫(yī)病機(jī)研究的重要技術(shù)平臺(tái)[J].中國中西醫(yī)結(jié)合雜志,2012,32(7):990-993.

        [9]Raimondo F,Morosi L,Chinello C,et al.Advances in membranous vesicle and exosome proteomics improving biological understanding and biomarker discovery[J].Proteomics,2011,11(4):709-720.

        [10]Yu G,Wang J,Chen Y,et al.Tissue microarray analysis reveals strong clinical evidence for a close association between loss of annexin A1 expression and nodal metastasis in gastric cancer[J].Clinical & Experimental Metastasis,2008,25(7):695-702.

        [11]Choi P,Jordan C D,Mendez E,et al.Examination of oral cancer biomarkers by tissue microarray analysis[J].Archives of Otolaryngology—Head & Neck Surgery,2008,134(5):539.

        [12]袁芳,李靖,周艷紅.基于蛋白質(zhì)相互作用網(wǎng)絡(luò)預(yù)測(cè)癌癥致病基因[J].計(jì)算機(jī)應(yīng)用研究,2012,29(9):3221-3223.

        [13]Liu G,Wong L,Chua H N.Complex discovery from weighted PPI networks[J].Bioinformatics,2009,25(15):1891-1897.

        [14]Navlakha S,Schatz M C,Kingsford C.Revealing biological modules via graph summarization[J].Journal of Computational Biology,2009,16(2):253-264.

        [15]Dittrich M T,Klau G W,Rosenwald A,et al.Identifying functional modules in protein-protein interaction networks:An integrated exact approach[J].Bioinformatics,2008,24(13):223-231.

        [16]Kim J,Tan K.Discover protein complexes in protein-protein interaction networks using parametric local modularity[J].BMC Bioinformatics,2010,11(1):521.

        [17]Olson B,Molloy K,Hendi S F,et al.Guiding probabilistic search of the protein conformational space with structural profiles[J].Journal of Bioinformatics and Computational Biology,2012,10(3):1242005.

        [18]Kanehisa M,Goto S.KEGG:Kyoto encyclopedia of genes and genomes[J].Nucleic Acids Research,2000,28(1):27-30.

        [19]Kanehisa M,Araki M,Goto S,et al.KEGG for linking genomes to life and the environment[J].Nucleic Acids Research,2008,36(s1):D480-D484.

        [20]Kanehisa M,Goto S,Sato Y,et al.KEGG for integration and interpretation of large-scale molecular data sets[J].Nucleic Acids Research,2012,40(D1):D109-D114.

        [21]Silander T,Myllymaki P.A simple approach for finding the globally optimal Bayesian network structure[C]//Proceedings of the 22nd Conference on Uncertainty in Artificial Intelligence.2006.

        [22]Steck H.Learning the Bayesian network structure:Dirichlet prior versus data[C]//Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence.2008.

        [23]Yook S H,Oltvai Z N,Barabási A L.Functional and topological characterization of protein interaction networks[J].Proteomics,2004,4(4):928-942.

        猜你喜歡
        數(shù)據(jù)庫信息研究
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        展會(huì)信息
        人人澡人人澡人人看添av| 国产麻豆一区二区三区在| 亚洲天堂成人av影院| 久久精品国产亚洲av无码娇色| 超薄肉色丝袜一区二区| 国产特级毛片aaaaaa视频| 真实国产乱啪福利露脸| 在线国产视频精品视频| 后入少妇免费在线观看| 久久国内精品自在自线| 国产又a又黄又潮娇喘视频| 毛片网站视频| 国内色精品视频在线网址| 国产自产二区三区精品| 人妻聚色窝窝人体www一区| 婷婷丁香91| 成年人视频在线播放麻豆| 久久亚洲精品中文字幕| 思思久久96热在精品国产| 亚洲一区二区三区av在线免费| 97人妻中文字幕总站| 成人欧美一区二区三区在线观看| 欧美xxxx黑人又粗又长精品| 色综合久久久久综合一本到桃花网| 午夜免费观看国产视频| 国产ww久久久久久久久久| 欧美国产亚洲日韩在线二区| av有码在线一区二区| 亚洲成av人片一区二区密柚| 亚洲精品aa片在线观看国产| 在线观看国产三级av| 今井夏帆在线中文字幕| 国产午夜福利久久精品| 国产中出视频| 东京道一本热码加勒比小泽| 中文有码亚洲制服av片| a级国产乱理论片在线观看 | 波多野结衣一区二区三区视频| 丝袜美腿诱惑区在线播放| 国产精品久久久久久一区二区三区| 波多野结衣亚洲一区二区三区|