【摘要】生物信息學(xué)的快速發(fā)展使其成為生命科學(xué)發(fā)展的重要組成部分,是當(dāng)今生物科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,其研究重點(diǎn)主要體現(xiàn)在基因組學(xué)和蛋白質(zhì)組學(xué)等方面。本文對生物信息學(xué)的產(chǎn)生背景、研究進(jìn)展及在蛋白質(zhì)組學(xué)研究中的應(yīng)用等方面進(jìn)行闡述。
【關(guān)鍵詞】生物信息學(xué) 研究進(jìn)展 蛋白質(zhì)組學(xué) 應(yīng)用
【中圖分類號】Q51-33 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2016)10-0061-02
1.引言
生物信息學(xué)是在計算機(jī)科學(xué)、數(shù)學(xué)與生命科學(xué)等多門學(xué)科的基礎(chǔ)上發(fā)展形成的一門新興交叉學(xué)科。人類基因組計劃(HGP, human genome project)的圓滿完成極大地推動了生物信息學(xué)的發(fā)展,與此同時,多種模式生物如大腸桿菌、酵母、線蟲、擬南芥、水稻、玉米等的基因組計劃也都相繼完成。隨之而來的是包括DNA、RNA及蛋白質(zhì)片段等在內(nèi)的分子數(shù)據(jù)的爆炸性增長,這一切形成了生物學(xué)數(shù)據(jù)的海洋。我們需要從大量的生物數(shù)據(jù)中挖掘出為我們所用的知識和信息,由此催生了生物信息學(xué)這門學(xué)科的產(chǎn)生和發(fā)展。
生物信息學(xué)包含了生物信息的獲取、處理、儲存、分析和解釋等方面,集合數(shù)學(xué)、統(tǒng)計、計算機(jī)與生物醫(yī)學(xué)等工具研究,闡明大量生物學(xué)數(shù)據(jù)所包含的生物學(xué)意義。通過對生物信息的查詢、搜索、比較、分析,從中獲取基因編碼及調(diào)控、核酸和蛋白質(zhì)結(jié)構(gòu)功能及其相互關(guān)系等知識,從而探索生命的奧秘。
蛋白質(zhì)組(proteome)的概念于1994年被提出[1],指全部基因表達(dá)的全部蛋白質(zhì)及其存在方式,是一種細(xì)胞、組織或完整生物體在特定時空上所擁有的全套蛋白質(zhì)[2]。蛋白質(zhì)組具有復(fù)雜多變的特點(diǎn),蛋白質(zhì)的種類數(shù)量即使在同一生物體相同細(xì)胞中在不同時期和環(huán)境下也是不同的。蛋白質(zhì)組學(xué)是研究蛋白質(zhì)組及大范圍蛋白質(zhì)的分離、分析、應(yīng)用的學(xué)科。早期蛋白質(zhì)組學(xué)的研究范圍主要指蛋白質(zhì)的表達(dá)模式,如今,蛋白質(zhì)翻譯后修飾研究已成為蛋白質(zhì)組研究中的重要部分和巨大挑戰(zhàn),蛋白質(zhì)與蛋白質(zhì)相互作用的研究也已被納入蛋白質(zhì)組學(xué)的研究范疇。
2.生物信息學(xué)的發(fā)展
生物信息學(xué)的發(fā)展基礎(chǔ)是各種數(shù)據(jù)庫的建立和不斷完善。目前國際上有三個主要的關(guān)于蛋白質(zhì)和核酸的公共數(shù)據(jù)庫,它們分別是美國國立生物技術(shù)信息中心(NCBI,http://www.ncbi.nlm.nib.gov)、歐洲生物信息學(xué)研究所(EBI,http://www.ebi.ac.uk)和日本信息生物學(xué)中心(CIB,http://www.ddbj.nig.ac.jp)。這三個重要數(shù)據(jù)庫隨著生物信息學(xué)的發(fā)展及時更新,為生物信息學(xué)的發(fā)展提供數(shù)據(jù)平臺。后基因組時代的到來引導(dǎo)人們研究重點(diǎn)向功能基因組的轉(zhuǎn)移。研究內(nèi)容也擴(kuò)展到生命現(xiàn)象的核心,即從基因、蛋白質(zhì)研究生命的本質(zhì),理解功能、發(fā)育與疾病的關(guān)系[3]。計算機(jī)技術(shù)的進(jìn)步,導(dǎo)致根據(jù)不同的科研需要構(gòu)建相應(yīng)的網(wǎng)絡(luò)資源平臺、生物分析軟件應(yīng)運(yùn)而生,為生物信息學(xué)的發(fā)展提供新技術(shù)支持。
3.生物信息學(xué)的研究內(nèi)容
3.1 序列比對
序列比對是兩個或者兩個以上序列進(jìn)行比較發(fā)現(xiàn)其間的相似性或者不相似性。生物信息大多通過自身的序列表現(xiàn)出來,人類由于生理條件限制,對龐雜數(shù)據(jù)的分析是有限的,需要借助于計算機(jī)的程序來進(jìn)行序列間的比對,由此發(fā)現(xiàn)生物規(guī)律。例如,氨基酸序列的比對可以分析特定位置氨基酸的差異和整個序列中不同氨基酸的比例,統(tǒng)計氨基酸序列的突變率和替代率,比較序列之間的同源性和一致度。核酸序列(DNA和RNA)比對可以顯示序列間核苷酸的差異,估計進(jìn)化距離[4]。氨基酸序列和核苷酸序列都可以進(jìn)行基于計算機(jī)程序的序列比對,不僅有助于我們進(jìn)行序列同源性的分析,還可以研究某一物種的進(jìn)化。
序列比對是生物研究的基礎(chǔ)。對于不同的序列比對有不同的算法和模型,實際應(yīng)用中應(yīng)根據(jù)不同的研究目的進(jìn)行選擇。兩兩序列比對已有較成熟的動態(tài)規(guī)劃算法,以及在此基礎(chǔ)上編寫而成的比對軟件包BLAST和FASTA。有時兩序列整體相似性不高,但是局部區(qū)域很相似。Smith-Waterman算法是解決局部比對的好算法。
3.2蛋白質(zhì)分析及結(jié)構(gòu)預(yù)測
生物大分子蛋白質(zhì)是生命活動重要的物質(zhì)基礎(chǔ)。蛋白質(zhì)的生物信息學(xué)研究,主要集中在蛋白質(zhì)的理化性質(zhì)分析、序列分析、高級結(jié)構(gòu)預(yù)測、蛋白質(zhì)功能分析以及蛋白質(zhì)與蛋白質(zhì)之間的相互作用。蛋白質(zhì)理化性質(zhì)的分析主要包括等電點(diǎn)預(yù)測、疏水性和跨膜區(qū)分析以及二級結(jié)構(gòu)(α螺旋、β折疊、無規(guī)卷曲等)預(yù)測,這些性質(zhì)可以在瑞士生物信息研究所(http://www.expasy.ch/)的相關(guān)網(wǎng)站進(jìn)行分析和預(yù)測。蛋白質(zhì)的三級結(jié)構(gòu)可以用X射線衍射技術(shù)、核磁共振技術(shù)、三維電鏡重構(gòu)技術(shù)來進(jìn)行測定,但是這些技術(shù)耗時長,代價高,并不能成為生物實驗室的常規(guī)研究手段。生物信息學(xué)的發(fā)展極大地提高了蛋白質(zhì)的三維結(jié)構(gòu)測定效率。從方法來看有演繹法和歸納法兩種。演繹法主要是從一些基本原理或假設(shè)出發(fā)來預(yù)測蛋白質(zhì)的結(jié)構(gòu)。后者主要是從觀察和總結(jié)已知結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)規(guī)律來預(yù)測未知的蛋白質(zhì)結(jié)構(gòu)。同源建模屬于這一范疇。人們可以根據(jù)軟件進(jìn)行預(yù)測,根據(jù)同源建模的原理,根據(jù)已通過實驗測定的蛋白質(zhì)結(jié)構(gòu)來預(yù)測未知的蛋白質(zhì)結(jié)構(gòu)。雖然經(jīng)歷了漫長的時間和努力,蛋白質(zhì)的結(jié)構(gòu)預(yù)測現(xiàn)狀還仍然滿足不了如今的科研需要。生物信息技術(shù)的發(fā)展為實驗提供了簡單快速的研究方法,開創(chuàng)了新的研究道路,研究蛋白質(zhì)與蛋白質(zhì)相互作用也為新藥的研發(fā)、探明微生物的致病機(jī)理提供研究思路[5]。
3.3系統(tǒng)發(fā)育分析
系統(tǒng)發(fā)育分析是生物信息學(xué)的重要分支之一,它根據(jù)大量的分子數(shù)據(jù),對不同基因或DNA片段分析發(fā)現(xiàn)它們之間的進(jìn)化速率所存在的差異,利用這些差異來研究物種的形成或進(jìn)化歷史,以及有機(jī)體之間的進(jìn)化關(guān)系[6]。由于分子數(shù)據(jù)的獲取比生物化石的數(shù)據(jù)容易,而且計算機(jī)的強(qiáng)大功能為處理龐大數(shù)據(jù)提供了可能,因此隨著分子數(shù)據(jù)的大量積累,各國的研究人員都利用克隆分子片段,結(jié)合形態(tài)學(xué)分析對科、屬、種以及種內(nèi)的物種進(jìn)行鑒定,并進(jìn)行系統(tǒng)發(fā)育的分析研究。但是,完全通過計算機(jī)來研究整個自然界中準(zhǔn)確的物種進(jìn)化是不現(xiàn)實的,構(gòu)建的系統(tǒng)發(fā)育樹有時甚至存在嚴(yán)重錯誤,所做的也只是一個模擬,并不是絕對的真實情況。
4.生物信息學(xué)在蛋白質(zhì)組學(xué)上的應(yīng)用
4.1蛋白質(zhì)的理化性質(zhì)分析
從蛋白質(zhì)的一級序列出發(fā),預(yù)測蛋白質(zhì)的許多理化性質(zhì),包括分子量、等電點(diǎn)、酶切特性、疏水性、電荷分布、穩(wěn)定性等。相關(guān)工具有:1)Compute pI/MW(預(yù)測等電點(diǎn)和分子量)。對等電點(diǎn)pI的預(yù)測是根據(jù)早期研究中將蛋白質(zhì)從中性到酸性變性條件下遷移過程所獲的PK值。但是該種預(yù)測對堿性蛋白有限制,計算出的等電點(diǎn)可能不準(zhǔn)確。2)PeptideMass(分析酶切特性)。主要針對肽段圖譜的分析試驗,分析蛋白質(zhì)在各種蛋白酶和化學(xué)試劑處理之后的內(nèi)切產(chǎn)物。3)SAPS(分析蛋白質(zhì)電荷分布)。蛋白質(zhì)序列統(tǒng)計分析,對提交的序列給出大量全面的分析數(shù)據(jù)。最后給出高疏水性和跨膜區(qū)域、重復(fù)結(jié)構(gòu)和多重態(tài)以及周期性分析。
4.2蛋白質(zhì)的結(jié)構(gòu)分析預(yù)測
蛋白質(zhì)的結(jié)構(gòu)分析包括二級結(jié)構(gòu)分析和三維結(jié)構(gòu)預(yù)測。蛋白質(zhì)的二級結(jié)構(gòu)是指α螺旋和β折疊等規(guī)則的蛋白質(zhì)局部結(jié)構(gòu)元件。一段氨基酸殘基根據(jù)其自身的理化性質(zhì)具有形成不同二級結(jié)構(gòu)元件的傾向和規(guī)律。也就是說,蛋白質(zhì)二級結(jié)構(gòu)的分析和預(yù)測就是找出這種傾向或規(guī)律。一般來說,二級結(jié)構(gòu)預(yù)測中,α螺旋的預(yù)測效果相對較好,比較準(zhǔn)確,而對β折疊的預(yù)測精準(zhǔn)度要低很多。蛋白質(zhì)三級結(jié)構(gòu)預(yù)測是結(jié)構(gòu)預(yù)測過程中最復(fù)雜、最困難的一步。雖然蛋白質(zhì)三級結(jié)構(gòu)是在一級結(jié)構(gòu)及二級結(jié)構(gòu)的基礎(chǔ)上進(jìn)行折疊的,但是其折疊機(jī)制并沒有被研究透徹。一級氨基酸序列差異較大的蛋白質(zhì)也能折疊形成相似的三維結(jié)構(gòu),例如,泛素和Sumo蛋白,兩者的氨基酸序列相似度很低,但是具有高度類似的三維結(jié)構(gòu)。但是,蛋白質(zhì)的折疊也不是沒有規(guī)律可循。生物信息學(xué)技術(shù)的發(fā)展使得一些預(yù)測蛋白質(zhì)三級結(jié)構(gòu)的方法越來越成熟。通過與已知結(jié)構(gòu)的氨基酸序列比較,來預(yù)測未知蛋白的結(jié)構(gòu)。常見的預(yù)測方法:SWISS-MODEL、CPH模型等。
4.3蛋白質(zhì)功能分析
生物信息學(xué)的迅速發(fā)展不僅體現(xiàn)在對蛋白質(zhì)數(shù)據(jù)的分析和預(yù)測方面,而且可以對蛋白質(zhì)的功能進(jìn)行較全面的分析和預(yù)測。蛋白質(zhì)功能分析主要基于序列中含有的特征性結(jié)構(gòu)域來識別蛋白質(zhì)的相關(guān)功能。以未知蛋白為例,可以通過序列比對,分析其序列中的經(jīng)典結(jié)構(gòu)域或基序,然后在已知蛋白質(zhì)的相關(guān)數(shù)據(jù)庫中進(jìn)行結(jié)構(gòu)域或基序的搜索,借此來確定未知蛋白的類型及功能預(yù)測[7]。
蛋白質(zhì)調(diào)控著細(xì)胞內(nèi)大部分的生理過程,而作為基因產(chǎn)物的蛋白質(zhì)并不總是被表達(dá)翻譯出來,因為部分基因只有在特定生理環(huán)境和細(xì)胞周期階段才能表達(dá),并合成蛋白質(zhì)。而有些基因在人工模擬環(huán)境下是不能表達(dá)的,那么其蛋白質(zhì)產(chǎn)物就無法被經(jīng)典的實驗技術(shù)研究。但是,運(yùn)用生物信息學(xué)技術(shù)可以對這類未知蛋白質(zhì)進(jìn)行計算分析和預(yù)測,從而獲得其生物學(xué)功能[8]。
參考文獻(xiàn):
[1]Wilkins MR, Pasquali C, Appel RD, et al. From proteins to proteomes: large scale protein identification by twodimensional electrophoresis and amino acid analysis. Biotechnology(NY).1996 Jan;14(1):61-5.
[2]Gould KL, Ren L, Feoktistova AS, et al. Tandem affinity purification and identification of protein complex components. Methods. 2004 Jul; 33(3):239-44.
[3]喬納森.佩夫斯納,著,張之榮,譯. 生物信息學(xué)與功能基因組學(xué)[M].北京:化學(xué)工業(yè)出版社, 2006.
[4]Masatoshi Nei, Sudhir Kumar,呂寶忠,譯. 分子進(jìn)化與系統(tǒng)發(fā)育[M]. 北京: 高等教育出版社, 2006.
[5]任仙文,李北平. 蛋白質(zhì)相互作用的生物信息學(xué)研究進(jìn)展[J]. 生物技術(shù)通訊, 2006, 17(6): 976-980.
[6]張樹波,賴劍煌. 分子系統(tǒng)發(fā)育分析的生物信息學(xué)方法[J]. 計算機(jī)科學(xué), 2010, 37(8): 47-51.
[7]黃麗俊,王建華. 蛋白質(zhì)組研究技術(shù)及進(jìn)展[J]. 生物學(xué)通報, 2005(8): 4-6.
[8]Hagen JB. The origins of bioinformatics. Nat Rev Genet. 2000 Dec; 1(3):231-6.
作者簡介:
李靜,女,安徽醫(yī)科大學(xué)生命科學(xué)學(xué)院生物系教師。2013年于中國科學(xué)技術(shù)大學(xué)生命科學(xué)學(xué)院結(jié)構(gòu)生物學(xué)專業(yè)博士畢業(yè)。主要研究領(lǐng)域是蛋白質(zhì)結(jié)構(gòu)生物學(xué)研究。