邵明峰,雷 凱,陳俐娟,向明禮
(四川大學(xué) 華西醫(yī)院生物治療國(guó)家重點(diǎn)實(shí)驗(yàn)室,成都 610041)
蛋白質(zhì)是生命體中不可或缺的組成成分。除具有諸多生物化學(xué)功能外,蛋白質(zhì)還參與新陳代謝、運(yùn)輸、免疫響應(yīng)、信號(hào)傳導(dǎo)、細(xì)胞周期等生理過程并發(fā)揮重要作用。蛋白質(zhì)的三維結(jié)構(gòu),不僅有助于從分子水平上了解其功能和作用,而且在基于靶點(diǎn)的藥物設(shè)計(jì)中更有舉足輕重的作用。根據(jù)疾病治療靶點(diǎn)的三維結(jié)構(gòu),可以設(shè)計(jì)出針對(duì)該靶點(diǎn)的特異性抑制劑[1]。但僅依賴實(shí)驗(yàn)測(cè)定的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù),難以滿足藥物設(shè)計(jì)的需要。因此在蛋白質(zhì)的氨基酸序列與空間結(jié)構(gòu)甚至是功能相關(guān)區(qū)域間建立聯(lián)系,從理論上預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)便成為滿足上述要求的唯一途徑[2]。在所有經(jīng)氨基酸序列預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)的方法中,同源建模被認(rèn)為是預(yù)測(cè)最準(zhǔn)確[3]、結(jié)果最可靠[4]、應(yīng)用最成功[5]、使用得最廣泛[6]的一種方法,其大致流程[7]如圖1所示。而序列比對(duì)是同源建模的關(guān)鍵步驟之一,在很大程度上決定著同源建模的準(zhǔn)確性[8]。
圖1 同源建模流程
序列比對(duì)試圖準(zhǔn)確地重現(xiàn)目標(biāo)蛋白與模板蛋白在結(jié)構(gòu)相似區(qū)域的氨基酸殘基之間的對(duì)應(yīng)關(guān)系。但除非在兩者間有著非常緊密的親緣關(guān)系,否則就可能存在結(jié)構(gòu)差異很大的區(qū)域[7]。由于這樣的區(qū)域的存在,序列比對(duì)需要找出目標(biāo)蛋白與模板蛋白間所有在結(jié)構(gòu)關(guān)系和進(jìn)化關(guān)系上相對(duì)應(yīng)的氨基酸,且不考慮有結(jié)構(gòu)差異的區(qū)域[7]。因此要得到一個(gè)準(zhǔn)確的序列比對(duì)結(jié)果并不容易。本文對(duì)不同情況下的蛋白質(zhì)序列比對(duì)方法、比對(duì)結(jié)果評(píng)價(jià)、比對(duì)結(jié)果優(yōu)化等方面進(jìn)行詳細(xì)論述,并介紹相關(guān)方面的最新進(jìn)展。
如果目標(biāo)蛋白的氨基酸序列與模板蛋白的氨基酸序列在統(tǒng)計(jì)學(xué)上顯著相似,那么可以認(rèn)為它們始于共同的進(jìn)化源(evolutionary origin),有相似的三維結(jié)構(gòu)[9]。蛋白間進(jìn)化距離(evolutionary distance)的遠(yuǎn)近,可以用它們間的序列同源性(sequence identity)來定量表示,也可以定性描述。把序列間的同源性關(guān)系劃分成3個(gè)區(qū)域[3]:同源性高于25%的區(qū)域叫作“白晝(daylight)區(qū)”,介于10% ~25%間的區(qū)域叫作“黃昏(twilight)區(qū)”,而同源性低于10%的區(qū)域叫作“午夜(midnight)區(qū)”。根據(jù)序列同源性所在的區(qū)域來定性描述蛋白進(jìn)化遠(yuǎn)近關(guān)系。
探尋蛋白質(zhì)間不同親疏的進(jìn)化關(guān)系需要復(fù)雜程度各異的序列比對(duì)方法。當(dāng)目標(biāo)蛋白與模板蛋白氨基酸序列間的同源性落在白晝區(qū)時(shí),采用雙序列(pairwise sequence)比對(duì)。雙序列比對(duì)是最簡(jiǎn)單的序列比對(duì)方法。當(dāng)同源性達(dá)到40%以上且比對(duì)的序列間沒有因“插入”或“刪除”操作而導(dǎo)致的空隙(gap)時(shí),可以得到很準(zhǔn)確的比對(duì)結(jié)果。在雙序列比對(duì)中,應(yīng)用最廣的比對(duì)搜索工具當(dāng)屬BLAST(Basic Local Alignment Search Tool)。BLAST不僅運(yùn)行速度快,而且其同源推論具有堅(jiān)實(shí)的統(tǒng)計(jì)基礎(chǔ)[10]。FASTA和Search在序列比對(duì)和序列數(shù)據(jù)庫(kù)搜索中也有著廣泛的應(yīng)用。針對(duì)BLAST孤立地考慮序列中各個(gè)殘基的情況,近年來發(fā)展了新的CS-BLAST方法[11]。該方法根據(jù)前后臨近殘基的情況考慮了在特定位置進(jìn)行取代的可能性。這使得CSBLAST方法不僅對(duì)于同源性的檢測(cè)更加敏感,而且能顯著提高序列比對(duì)結(jié)果的質(zhì)量。
當(dāng)目標(biāo)蛋白與模板蛋白序列間的同源性落在黃昏區(qū),它們間的進(jìn)化關(guān)系更為疏遠(yuǎn)時(shí),雙序列比對(duì)不足以可靠地鑒別其間的同源性并給出準(zhǔn)確的比對(duì)結(jié)果。此時(shí)需采用借助了多序列比對(duì)信息的輪廓-序列(profile-sequence)[12]比對(duì)方法。這類方法為參與比對(duì)的一組同源相關(guān)序列構(gòu)建了綜合統(tǒng)計(jì)模型,能夠顯示哪些位置是保守的,哪些位置是變化的,在哪里最可能發(fā)生“插入”或“刪除”。根據(jù)保守位置可以定義蛋白家族的成員;非保守的位置上殘基的變化,則用于區(qū)分蛋白家族成員。PSI-BLAST是目前應(yīng)用最廣的輪廓—序列比對(duì)方法。它用BLAST作初始比對(duì)搜索,然后將比對(duì)結(jié)果返回,再用最高得分匹配的多序列比對(duì)構(gòu)建一個(gè)特定位置得分矩陣(PSSM)。在新一輪的BLAST搜索中,用剛構(gòu)建的PSSM去置換普通的替換矩陣。根據(jù)BLAST比對(duì)搜尋返回的結(jié)果,再重新構(gòu)建新的PSSM。每循環(huán)一次,新獲得的得分高于預(yù)定閾值的氨基酸序列被補(bǔ)充進(jìn)來,輪廓調(diào)整一次。如此循環(huán)多次后,越來越多的遠(yuǎn)親序列(distantly related sequences)被補(bǔ)充進(jìn)來,在豐富了輪廓的同時(shí),還繼續(xù)保持輪廓對(duì)氨基酸序列家族的特殊性。這使得PSI-BLAST成為強(qiáng)大的序列比對(duì)搜索工具。
隱馬爾可夫模型(HMM)也屬于基于輪廓的方法[3],其區(qū)別在于它用概率理論來引導(dǎo)如何設(shè)置所有的得分參數(shù)[3]。此外HMM為在輪廓的每一個(gè)位置的“插入”和“刪除”提供了額外的概率數(shù)據(jù)。在所有輪廓—序列比對(duì)方法中,HMM表現(xiàn)最好[3]。最知名的HMM—序列比對(duì)搜索軟件有HMMER和SAM等。然而,HMM—序列方法也有很大的局限性。如同PSI-BLAST,HMM也是孤立地考慮序列中各個(gè)殘基的情況,這就無法捕獲蛋白序列中可能存在的高階相關(guān)性。同時(shí),由于比PSI-BLAST更慢且無法設(shè)計(jì)一個(gè)像在PSIBLAST中那樣流暢運(yùn)行的迭代流程,所以基于HMM—序列的序列比對(duì)搜索還沒有被廣泛運(yùn)用。
當(dāng)目標(biāo)蛋白與模板蛋白序列間的同源性位于午夜區(qū)時(shí),表明二者間的進(jìn)化距離相當(dāng)遙遠(yuǎn)。對(duì)此用雙序列比對(duì)、輪廓—序列比對(duì)或HMM—序列比對(duì)等方法都無法檢測(cè)其進(jìn)化關(guān)系。而基于輪廓—輪廓或HMMHMM的方法則能對(duì)其進(jìn)行辨別[12]。這類方法試圖通過2個(gè)序列輪廓間的比較來回答2個(gè)序列家族是否進(jìn)化相關(guān)的問題。這使得對(duì)序列同源性的檢測(cè)具有了非常高的靈敏度,而且能在一定程度上提高序列比對(duì)的準(zhǔn)確性[13]。基于輪廓—輪廓比較的表現(xiàn)最好有 COMPASS、COMA 和 PROCAIN[12-13];而 HHsearch和 PRC是基于HMM-HMM方法的代表[12-13]。目前,基于輪廓的方法和基于HMM的方法都在發(fā)展中,其間的表現(xiàn)難分伯仲。如前所述,基于輪廓—輪廓和HMM-HMM的方法都是孤立地考慮序列中各個(gè)殘基的情況,這顯然不是蛋白序列信息的最優(yōu)表征。而從CS-BLAST相對(duì)于BLAST的表現(xiàn)來看,如果在基于輪廓—輪廓和基于HMM-HMM的方法中,考慮前后臨近殘基的環(huán)境因素,將會(huì)進(jìn)一步增加其同源性檢測(cè)的靈敏度,提高序列比對(duì)的準(zhǔn)確性[14]。
與基于序列的比對(duì)方法不同,元數(shù)據(jù)(meta)方法[15-17]試圖通過整合不同算法的結(jié)果,為目標(biāo)蛋白序列找到最恰當(dāng)?shù)娜S結(jié)構(gòu)模板,從而得到最準(zhǔn)確的序列比對(duì)。這類方法是伴隨著CASP蛋白結(jié)構(gòu)預(yù)測(cè)比賽(The Critical Assessment of protein Structure Prediction)的舉行而誕生的。始于1994年的該比賽,每2年舉辦一次。在前四屆的比賽中發(fā)現(xiàn)了一些有趣的現(xiàn)象[15]:如正確的蛋白質(zhì)折疊構(gòu)象的預(yù)測(cè)結(jié)果通常出現(xiàn)在一個(gè)參賽服務(wù)器中;沒有任何一個(gè)參賽服務(wù)器能夠可靠地將錯(cuò)誤預(yù)測(cè)與較差預(yù)測(cè)(得分低于某個(gè)閾值的預(yù)測(cè))區(qū)分開來;正確模型混雜在高得分模型中但其得分卻低于許多錯(cuò)誤模型的得分等。預(yù)測(cè)專家從中認(rèn)識(shí)到:為了得到更好的預(yù)測(cè)結(jié)果,必須對(duì)大量相互獨(dú)立的預(yù)測(cè)方法的預(yù)測(cè)結(jié)果進(jìn)行分析。不同的預(yù)測(cè)方法適合于不同的靶點(diǎn)[15],而到底哪些方法適合哪些靶點(diǎn),卻是無法預(yù)先確定的。預(yù)測(cè)專家希望通過對(duì)結(jié)果的分析,從不同預(yù)測(cè)方法所得到的結(jié)果中提取有用信息,以確定到底是最高得分的模型是正確模型呢,還是得分稍低的模型更為準(zhǔn)確,或者在某種方法所對(duì)應(yīng)的結(jié)果里根本就沒有正確模型。這種想法通過自動(dòng)化計(jì)算加人工干預(yù)的策略得以實(shí)現(xiàn)并在CASP比賽中獲得了成功[16]。這表明,把各服務(wù)器的計(jì)算結(jié)果作為整體綜合考慮的“元數(shù)據(jù)”方法效果更佳,“元數(shù)據(jù)”方法從此成為最成功的預(yù)測(cè)方法[15-17]。I-TASSER[18]是這類方法的代表,它將多個(gè)輪廓—輪廓比較算法的結(jié)果進(jìn)行整合,用于檢測(cè)恰當(dāng)?shù)娜S結(jié)構(gòu)模板集,并得到一系列序列比對(duì)結(jié)果。之后經(jīng)過結(jié)構(gòu)構(gòu)建、模型評(píng)價(jià)和模型優(yōu)化的循環(huán)迭代,將初始比對(duì)得到的連續(xù)片段重新集合成完整模型[7]。從一定程度上講,I-TASSER代表的不僅是元數(shù)據(jù)方法,更是一類用于遠(yuǎn)同源性檢測(cè)(for distant homology detection),并具有結(jié)構(gòu)模擬和評(píng)價(jià)功能的元數(shù)據(jù)服務(wù)器(meta-server)的代表。在最近的幾次CASP蛋白結(jié)構(gòu)預(yù)測(cè)比賽中,I-TASSER均進(jìn)入最優(yōu)秀的預(yù)測(cè)服務(wù)器行列[18]。
通常,經(jīng)搜索序列數(shù)據(jù)庫(kù)得到的蛋白質(zhì)序列比對(duì)結(jié)果都稍有不足。除非目標(biāo)蛋白與模板蛋白間序列同源性超過40%且?guī)缀鯖]有因“插入”或“刪除”操作而導(dǎo)致的空隙。否則序列比對(duì)結(jié)果的可靠性都需要謹(jǐn)慎評(píng)價(jià)[7]。隨著進(jìn)化距離的不斷增大,同源蛋白間在結(jié)構(gòu)和序列方面的相似度越來越低,因而其同源性檢測(cè)難度越來越大。表面上看,目標(biāo)蛋白與模板蛋白間的序列相似度越低,據(jù)此所得的序列比對(duì)結(jié)果準(zhǔn)確性越差。但事實(shí)上,在序列相似性、比對(duì)的統(tǒng)計(jì)學(xué)顯著性以及比對(duì)結(jié)果的準(zhǔn)確性之間,沒有這么簡(jiǎn)單的關(guān)聯(lián)關(guān)系。特別是在遠(yuǎn)同源性個(gè)例中,目標(biāo)蛋白與模板蛋白間序列間的相似度不能作為衡量序列比對(duì)結(jié)果準(zhǔn)確性的指標(biāo),比對(duì)的統(tǒng)計(jì)學(xué)高度顯著也不意味著比對(duì)結(jié)果的高度準(zhǔn)確。
序列比對(duì)結(jié)果本身不能告訴我們哪個(gè)序列區(qū)域的比對(duì)是可靠比對(duì),哪個(gè)區(qū)域的比對(duì)需要調(diào)整。但為了提高序列比對(duì)的質(zhì)量,必須弄清楚在比對(duì)結(jié)果中哪些比對(duì)區(qū)域是可靠的、哪些區(qū)域需要優(yōu)化、或者用不同的模板或模板片段重新比對(duì)。早期的用于鑒別可靠比對(duì)區(qū)域的方法,主要用于雙序列比對(duì)。如Mevissen等[19]用算法的魯棒性參數(shù),將包含某個(gè)殘基對(duì)的最佳序列比對(duì)得分與去掉某個(gè)殘基對(duì)后的最佳序列比對(duì)得分進(jìn)行比較,來檢驗(yàn)序列比對(duì)結(jié)果的可靠性。對(duì)基于輪廓或基于HMM方法所進(jìn)行的序列比對(duì),最簡(jiǎn)單的判別方法是對(duì)輪廓—輪廓比對(duì)或HMM-HMM比對(duì)中的每個(gè)位置進(jìn)行打分。研究表明[20],包含高得分位置的區(qū)域?qū)?yīng)于正確的比對(duì)。對(duì)比對(duì)結(jié)果的正確性進(jìn)行評(píng)判的常用方法是評(píng)估特定區(qū)域的比對(duì)穩(wěn)定性[21],這可以通過生成足夠多的比對(duì)變異來實(shí)現(xiàn)。生成比對(duì)變異,可以用單一方法從同一個(gè)序列數(shù)據(jù)集衍生出眾多次優(yōu)比對(duì),或者對(duì)現(xiàn)有同源序列空間采樣實(shí)現(xiàn)比對(duì)多樣化;也可以用多種方法得到多種相應(yīng)的比對(duì)結(jié)果[7]。無論用哪種方法來產(chǎn)生比對(duì)變異,結(jié)果一致的區(qū)域就是比對(duì)結(jié)果可靠的區(qū)域。導(dǎo)致結(jié)果不一致的因素很多,同源性差、有插入/刪除或者明顯的構(gòu)象變化等,都能導(dǎo)致比對(duì)結(jié)果的不一致。
序列比對(duì)結(jié)果的改進(jìn)有多種方法。多序列比對(duì)(MSA)是其中之一[3,14],它不是用來檢測(cè)同源序列,而是用來比對(duì)用其他方法已經(jīng)鑒別出來的同源序列。給定一組同源氨基酸序列,MSA方法就構(gòu)建一個(gè)多序列比對(duì),將進(jìn)化關(guān)系上相一致的氨基酸殘基排成一列。通過多序列比對(duì),建立同源性搜索和序列比對(duì)的輪廓或HMM[13]。許多基于MSA的方法采用漸進(jìn)比對(duì)策略,把多序列比對(duì)變成了一系列雙序列比對(duì)。它先基于雙序列間的相似性構(gòu)建近似比對(duì)引導(dǎo)樹(guide tree),優(yōu)先比對(duì)那些進(jìn)化關(guān)系最近的序列,然后這些被比對(duì)的序列再相互逐一比對(duì)。漸進(jìn)比對(duì)策略的不足之處是在初始的雙序列比對(duì)階段或在構(gòu)建引導(dǎo)樹時(shí)的錯(cuò)誤得不到糾正而且還會(huì)在整個(gè)比對(duì)過程中繼續(xù)傳播。利用一致性信息或采用迭代優(yōu)化,是克服上述不足的一種方法。T-Coffee[22]是一個(gè)采用一致性打分方法的例子。一般來講,基于一致性打分的方法比基于迭代優(yōu)化的方法更準(zhǔn)確,但需要更大的計(jì)算資源。
用多種方法的組合或引入附加的信息,也是提高序列比對(duì)質(zhì)量的一種有效方法。附加信息可以是進(jìn)化信息,也可以是結(jié)構(gòu)信息。M-Coffee[22]是采用多種方法組合用以提高比對(duì)質(zhì)量的一個(gè)例子。它將其他多序列比對(duì)方法的比對(duì)結(jié)果收集起來,組成一個(gè)庫(kù),再進(jìn)行比較和組合,得到一個(gè)新的一致性的序列比對(duì)結(jié)果。PROMALS[23]是采用一系列附加信息以提高比對(duì)質(zhì)量的例子:它是先用PSI-BLAST檢測(cè)序列的同源性獲得“輪廓”,并據(jù)此預(yù)測(cè)序列的二維結(jié)構(gòu),然后反過來用所預(yù)測(cè)的二維結(jié)構(gòu)信息強(qiáng)化輪廓—輪廓比較,從而提高序列比對(duì)質(zhì)量。
序列比對(duì)是否準(zhǔn)確,還將在目標(biāo)蛋白的三維結(jié)構(gòu)構(gòu)建后接受進(jìn)一步驗(yàn)證。事實(shí)上,序列比對(duì)一直是蛋白質(zhì)三維結(jié)構(gòu)同源建模的一個(gè)瓶頸。如何在序列比對(duì)的不可靠區(qū)域得到正確的序列比對(duì)結(jié)果,仍然是一項(xiàng)艱難的工作,相應(yīng)的探索研究也從來沒有停下。
2011年,Di Tommaso等[13,22]在T-Coffee服務(wù)器上運(yùn)用同源性延伸(homology extension)的方法對(duì)跨膜蛋白遠(yuǎn)親序列進(jìn)行了準(zhǔn)確比對(duì)。同源性延伸是一種涉及數(shù)據(jù)庫(kù)搜索的方法[13]。在這種方法中,常規(guī)的每一個(gè)序列都用從近同源序列獲得的輪廓來代替。這樣,每個(gè)序列的每個(gè)位置都變成了多序列比對(duì)的一列。Di Tommaso等認(rèn)為,他們的比對(duì)結(jié)果的準(zhǔn)確度之所以比當(dāng)時(shí)最準(zhǔn)確的比對(duì)方法如PROMALS[23]等都還高,那是因?yàn)镻SI-Coffee的功勞[22]。PSI-Coffee是T-Coffee基于同源性延伸的另一個(gè)版本。
最近,Khazanov等[24]從消除初始比對(duì)中的比對(duì)錯(cuò)誤入手,把高斯加權(quán) RMSD技術(shù)與播種(seed extension)算法運(yùn)用到序列比對(duì)中,發(fā)展了同源蛋白的結(jié)構(gòu)疊合和序列比對(duì)HwRMSD技術(shù)。在常規(guī)方法中,初始比對(duì)階段出現(xiàn)的序列比對(duì)錯(cuò)誤會(huì)在后續(xù)的比對(duì)過程中繼續(xù)傳播。運(yùn)用高斯加權(quán)RMSD進(jìn)行結(jié)構(gòu)疊合。根據(jù)這種疊合,用播種算法能夠得到正確的序列比對(duì)。對(duì)于那些基于序列和基于結(jié)構(gòu)的比對(duì)方法都無法得出正確比對(duì)結(jié)果的遠(yuǎn)同源序列以及構(gòu)象差異較大的序列,HwRMSD能給出正確的比對(duì)結(jié)果。
Dickson等[25]從尋找初始比對(duì)中的比對(duì)錯(cuò)誤著手提高序列比對(duì)的質(zhì)量。要找出序列比對(duì)中的錯(cuò)誤是很困難的。因?yàn)樾蛄斜葘?duì)和對(duì)比對(duì)質(zhì)量的評(píng)價(jià),都是基于序列保守這一原理的。Dickson等采用了與序列保守不相關(guān)的局域共變(local covariation)的統(tǒng)計(jì)方法來鑒別序列比對(duì)中的錯(cuò)誤。共變統(tǒng)計(jì)被用來表征2個(gè)氨基酸殘基是否是共同進(jìn)化的。共同進(jìn)化的氨基酸殘基受控于一種被約束的氨基酸變化機(jī)制。高的局域共變得分意味著2個(gè)位置是等同的。通過將錯(cuò)誤比對(duì)的片段重新比對(duì),減小局域共變,得到了有結(jié)構(gòu)證據(jù)支撐的新的比對(duì)結(jié)果。
蛋白質(zhì)三維結(jié)構(gòu)特別是重要疾病靶點(diǎn)的三維結(jié)構(gòu)對(duì)于基于靶點(diǎn)的藥物設(shè)計(jì)至關(guān)重要。它是靶向性藥物設(shè)計(jì)的關(guān)鍵。同源建模是最可靠的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)方法。目標(biāo)蛋白與模板蛋白間的序列比對(duì),是同源建模流程中的關(guān)鍵環(huán)節(jié)。
根據(jù)目標(biāo)蛋白與模板蛋白序列間的同源性高低,選擇不同的比對(duì)方法,并在評(píng)價(jià)比對(duì)結(jié)果的基礎(chǔ)上進(jìn)一步優(yōu)化序列比對(duì)比對(duì),可以得到合理的比對(duì)結(jié)果。
如果目標(biāo)蛋白與模板蛋白間的進(jìn)化關(guān)系相當(dāng)疏遠(yuǎn),序列間的同源性落在“午夜區(qū)”,那么要獲得準(zhǔn)確的比對(duì)結(jié)果是很難的。對(duì)于這樣的目標(biāo)蛋白,基于輪廓—輪廓或HMM-HMM的方法,以及元數(shù)據(jù)方法有較好的表現(xiàn)。
在對(duì)序列比對(duì)結(jié)果進(jìn)行優(yōu)化時(shí),增加額外的進(jìn)化信息或結(jié)構(gòu)信息,可以提高比對(duì)質(zhì)量。而新的方法,如同源性延伸搜索[22],用高斯加權(quán)RMSD結(jié)合播種算法[24]消除序列初始比對(duì)中存在的錯(cuò)誤,用與序列保守不相關(guān)的局域共變[25]統(tǒng)計(jì)方法鑒別出初始比對(duì)中的錯(cuò)誤再重新比對(duì)等,都在為獲得高質(zhì)量的序列比對(duì)結(jié)果做出令人期待的貢獻(xiàn)。
[1]GARCIN E D,ARVAI A S,ROSENFELD R J,et al.Anchored plasticity opens doors for selective inhibitor design in nitric oxide synthase[J].Nat Chem Biol,2008,4(11):700 -707.
[2]HOSSAIN M M.Fish antifreeze proteins:Computational analysis and physicochemical characterization[J].Int Curr Pharm J,2012,1(2):18 - 26.
[3]LIU T,TANG G W,CAPRIOTTI E.Comparative modeling:the state of the art and protein drug target structure prediction[J].Comb Chem High Throughput Screen,2011,14(6):532 -547.
[4]VINO S,DILSHAD J,SUKHWAL A.Evolutionary analysis of SEC23A Gene and homology modeling in Zebrafish[J].Drug Invention Today,2011,3(3):22-25.
[5]ANDRADE D V G,G ES-NETO A,JUNIOR M C,et al.Comparative modeling and QM/MM studies of cysteine protease mutant of Theobroma cacao[J].Int J Quantum Chem,2012,112(9):3164 -3168.
[6]BHATTACHARYA D,CHENG J.3Drefine:Consistent protein structure refinement by optimizing hydrogen bonding network and atomic-level energy minimization[J].Proteins,2012:DOI:10.1002/prot.24167.
[7]VENCLOVAS C.Methods for Sequence-Structure Alignment[M].Clifton,NJ:Springer,2012:55 -82.
[8]S DING J.Protein homology detection by HMM-HMM comparison[J].Bioinformatics,2005,21(7):951 -960.
[9]LENGAUER T,ZIMMER R.Protein structure prediction methods for drug design[M].Oxford:Oxford Univ Press,2000:275 -288.
[10]KARLIN S,ALTSCHUL S F.Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes[J].Proc Nati Acad Sci USA,1990,87(6):2264 -2268.
[11]BIEGERT A,S DING J.Sequence context-specific profiles for homology searching[J].Proc Nati Acad Sci USA,2009,106(10):3770 -3775.
[12]BRAMUCCI E,PAIARDINI A,BOSSA F,et al.PyMod:sequence similarity searches,multiple sequence-structure alignments,and homology modeling within PyMOL[J].BMC Bioinformatics,2012(13)1 -6.
[13]CHANG J M,DI TOMMASO P,TALY J F,et al.Accurate multiple sequence alignment of transmembrane proteins with PSI-Coffee[J].BMC Bioinformatics,2012,13(S4):1-7.
[14]DAGA P R,PATEL R Y,DOERKSEN R J.Template-based protein modeling:recent methodological advances[J].Curr Top Med Chem,2010,10(1):84-94.
[15]BUJNICKI J M,F(xiàn)ISCHER D.‘Meta’Approaches to Protein Structure Prediction[M].Berlin:Springer-Verlag,2004:23 -34.
[16]BUJNICKI J M,ELOFSSON A,F(xiàn)ISCHER D,et al.Structure prediction meta server[J].Bioinformatics,2001,17(8):750 -751.
[17]BUJNICKI J M.Protein-structure prediction by recombination of fragments[J].ChemBioChem,2006,7(1):19 -27.
[18]ROY A,KUCUKURAL A,ZHANG Y.I-TASSER:a unified platform for automated protein structure and function prediction[J].Nat Protoco,2010,5(4):725-738.
[19]MEVISSEN H T,VINGRON M.Quantifying the local reliability of a sequence alignment[J].Protein Eng,1996,9(2):127 -132.
[20]TRESS M L,JONES D,VALENCIA A.Predicting reliable regions in protein alignments from sequence profiles[J].J Mol Biol,2003,330(4):705 -718.
[21]CHEN H,KIHARA D.Estimating quality of template-based protein models by alignment stability[J].Protein,2008,71(3):1255 -1274.
[22]DI TOMMASO P,MORETTI S,XENARIOS I,et al.T-Coffee:a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension[J].Nucleic acids research,2011,39(S2):13-17.
[23]PEI J,GRISHIN N V.PROMALS:towards accurate multiple sequence alignments of distantly related proteins[J].Bioinformatics,2007,23(7):802-808.
[24]KHAZANOV N A,DAMM‐GANAMET K L,QUANG D X,et al.Overcoming sequence misalignments with weighted structural superposition[J].Protein,2012:DOI:10.1002/prot.24134.
[25]DICKSON R J,GLOOR G B.Protein Sequence Alignment Analysis by Local Covariation:Coevolution Statistics Detect Benchmark Alignment Errors[J].PLoS one,2012,7(6):e37645.