周仁斌,盧慧甍,尹大川
西北工業(yè)大學生命學院 空間生物實驗模擬技術國防重點學科實驗室,陜西 西安 710072
目前,蛋白質晶體學越來越受到廣大研究者的青睞。因為蛋白質的結構解析是其功能研究[1]、疾病治療[2]和藥物設計[3-4]等的基礎。在解析蛋白質結構的兩種主要方法 (X-射線晶體學衍射技術[5]和核磁共振技術[6])中,X-射線衍射技術 (X-ray diffraction measurement,XRD)是蛋白質結構解析的主要手段。到目前為止,PDB數(shù)據(jù)庫中88.4%的蛋白質結構是用XRD方法獲得的 (數(shù)據(jù)統(tǒng)計截止2013年12月)。用XRD方法確定蛋白質三維結構的實驗過程包含多個環(huán)節(jié),在各個階段都有較高的失敗率,這就會增加蛋白質結構獲得的平均花費[7]。其中兩個主要的步驟是蛋白質的純化和結晶。據(jù)統(tǒng)計,僅僅只有42%的可溶純化蛋白質能夠得到晶體[8]。因此,研究者提出影響蛋白質結晶成功率的內在因素是蛋白質本身所具有的可結晶性[9]。如果有一種預測方法,有允許的準確度,可以預測某個蛋白質的可結晶性,那么就可以顯著地降低蛋白質結構解析的成本并提高成功率。因此,在開展結晶實驗之前,基于蛋白質的序列及其特性,用計算機模擬的方法來預測蛋白質的可結晶性是非常必要的。隨著網(wǎng)絡數(shù)據(jù)庫的不斷完善與各種生物信息學軟件的不斷發(fā)展,我們可以方便地利用計算機模擬技術處理蛋白質結晶的相關問題。本文將對目前已有的預測蛋白質可結晶性的方法進行分析和總結。
首次基于蛋白質氨基酸組成來預測蛋白質可結晶性的方法是由Smialowski及其同事提出的SECRET方法[10]。他們發(fā)現(xiàn)蛋白質序列中氨基酸的組成和蛋白質的結構密切相關。他們首先從PDB 數(shù)據(jù)庫[11]中提取出序列長度為 30?200個氨基酸的蛋白質的序列信息。以氨基酸的序列和氨基酸的疏水性為特征,并挑選出與蛋白質結晶密切相關的12個氨基酸 (R、N、D、Q、E、H、L、F、S、T、W 和 V)來構建預測模型,在文中作者稱為這些氨基酸為單字符 (Oneword size)特征。并且假設如果一個蛋白質序列中這些氨基酸的比重比較大,那么該蛋白質結晶的可能性就比較高。另外他們假設用XRD方法解析其結構的蛋白質是可以結晶的,而采用核磁共振方法解析其結構的蛋白質是無法結晶或難以結晶的。這種假設的基礎是核磁共振方法解析蛋白質結構時價格昂貴,周期長,分辨率較低。而XRD是首選的蛋白質結構解析方法。雖然,后一種假設是值得懷疑的,但是PDB數(shù)據(jù)庫中缺乏不可結晶蛋白質的相關信息,所以這種假設不可避免,也具有一定的可靠性。該假設是SECRET方法的基礎,因為需要有正數(shù)據(jù)集 (可結晶的蛋白質)和負數(shù)據(jù)集 (不可結晶的蛋白質)對預測結果進行評價。SECRET的分類方法采用的是SVM作為一級分類器[12],貝葉斯網(wǎng)絡 (Bayesian network)作為多元分類器[13]。用十倍的交叉驗證試驗表明,SECRET的預測準確率為66.9%。這個結果盡管不是很理想,但是它是用計算機模擬方法預測蛋白質可結晶性的首次嘗試。
2007年,Chen等提出了另外一個預測模型——CRYSTALP[8]。他們假定蛋白質的可結晶性和氨基酸的堿基對組成相關。和SECRET方法的假設一樣,如果蛋白質序列中這些堿基對的含量比較高,那么該蛋白質的可結晶性就越高。文中還考慮了一個堿基對之間被0、1、2、3和4個氨基酸隔開的情況。這樣的話,構建模型時輸入的特征就比較多,不利于建模。所以CRYSTALP方法運用相關特征選擇方法和貪婪算法[14]在2 020 (400(4 + 1)+ 20 = 2 020)個氨基酸堿基對中挑選出45個與結晶最相關的氨基酸對,作者把這些特征稱為雙字符 (Two-word size)特征。CRYSTALP的數(shù)據(jù)來源也使用了SECRET所使用的PDB數(shù)據(jù)庫。最終,CRYSTALP的預測準確率為 77.5%,該結果優(yōu)于 SECRET方法。但是CRYSTALP的特異性僅僅為71.3%,主要原因是該方法沒有處理好正負數(shù)據(jù)集不平衡的問題,其中負的數(shù)據(jù)集 (不可結晶的蛋白質)比正的數(shù)據(jù)集 (能夠結晶的數(shù)據(jù)集)要少的多。
除了蛋白質序列的氨基酸組成,其他研究者也注重用氨基酸的物理化學特性來預測蛋白質的可結晶性。氨基酸的這些特性對蛋白質的可結晶性有很大的影響。因此,2006年,Overton和Barton提出了另外一個預測方法——OB-Score[15]。該方法主要是對目標蛋白質的可結晶性進行排序。它是以蛋白質的等電點 (PI值)和總體平均疏水性 (Grand average of hydropathy, GRAVY值)作為預測特征。用R軟件包[16]來處理這些特征,得到預測的模型。OB-Score可以用來比較目標蛋白質的 PI-GRAVY和先前已結晶的蛋白質之間的相似性。對目標蛋白質所計算出的OB-Score值越高,則表明該蛋白質從克隆、表達、純化到結構確定各個過程的成功率越大。OB-Score對PfamA家族[17]的蛋白質的預測準確率為73.4%。因此OB-Score可以用來挑選出更容易成功結晶的蛋白質。但是該方法沒有給出具體的分類準則。
2007年Slabinski等又研發(fā)了一種基于網(wǎng)絡的預測系統(tǒng)——XtalPred[18]。該方法一次性最多可以運行10個蛋白質序列,另外它對蛋白質的序列長度限制擴大到 50?1 000。該預測方法主要是把各個獨立的預測特征整合成單個的可結晶性評分。根據(jù)評分可以把結晶可能性分為5類:最優(yōu)、次優(yōu)、平均、困難和非常困難。XtalPred運用了幾個在線的生物信息學軟件來計算蛋白質結晶可能性的評分。但是該方法的預測準確率還沒有被證實,因為某些在線的生物學工具無法給出某個特征的準確值。
2008年,Overton提議了另一種蛋白質可結晶性預測方法——ParCrys[19],一種Parzen法來評估蛋白質產(chǎn)生衍射質量晶體的特性。PDB數(shù)據(jù)庫提供訓練集,同時TargetDB[20]和PepcDB[21]數(shù)據(jù)集用來確定特征選擇數(shù)據(jù)集和測試數(shù)據(jù)集。結果表明ParCrys法優(yōu)于OB-Score、SECRET和CRYSTALP法,該方法的準確率和MCC的值分別為79.1%和0.582。
2009年,研究者在CRYSTALP的基礎上發(fā)展出新的預測方法CRYSTALP2[22]。它是利用蛋白質氨基酸的組成和氨基酸的組合,等電點和疏水性來預測蛋白質可結晶性的。預測的蛋白質序列的大小不受限制,預測的準確率也進一步提高。結果表明,CRYSTALP2的預測準確率、MCC 和 AROC 比 CRYSTALP、OB-Score、SECRET方法高,和ParCrys與XtalPred方法接近。說明 CRYSTALP2也是一種較好的預測蛋白質可結晶性的方法。
2010年,Kandaswamy等提出另外一個預測方法 SVMCRYS[23]。該方法綜合考慮了影響蛋白質結晶的各種因素特征,最后用著名的數(shù)據(jù)最小化軟件包WEKA[24]選擇出最優(yōu)的特征。SVMCRYS方法是利用支持向量機SVM把蛋白質分為兩類:能夠結晶 (Amenable to crystallization)和難以結晶 (Resistant to crystallization)。SVMCRYS方法對蛋白質序列的大小沒有限制,用了幾個具有代表性的特征來預測蛋白質的可結晶性,與其他預測方法相比,具有較高的準確率。
如何選擇最相關的特征集是預測準確率的關鍵。因此2013年,Hsieh等[25]首先收集了前面幾個預測方法中所使用的蛋白質一級結構的74個特征,采用了 F-score和信心增益(Information gain, IG)兩個特征選擇模型[26]來選擇出與蛋白質結晶最相關的48個特征。這48個特征用 AdaBoost[27]來建模,此外也用 SVM作為對比的預測模型。TargetDB數(shù)據(jù)庫評估這兩種分類模型的實驗結果表明五倍交叉驗證的準確率為 93%,敏感性為 95.5%,特異性為86.1%。但是該方法只考慮了來源于蛋白質序列中的特征,實際上蛋白質純化和結晶的條件也影響X-衍射的結果。由于TargetDB數(shù)據(jù)庫的限制,這些特征沒有考慮。
除此之外,基于蛋白質的序列和物理化學特征還發(fā)展了其他許多的計算機模擬方法(PPCinter[28]、FRCRYS[29]、CRYSpred[30]、PPCpred[31]、HyXG-1[32]等)。而且上述的某些預測方法已經(jīng)成功應用于結晶實驗中。例如OB-Score 和XtalPred方法已經(jīng)成功應用于結構基因組學 (Structural genomics, SG)對于目標蛋白的選擇上[30]。特別是 XtalPred方法,已經(jīng)有多篇文章報道了其應用。Dom Bellini應用XtalPred預測方法成功解析出了酶激活HD-GYP結構域 (Enzymatically active HD-GYP domain)蛋白的結構[33];Gómez-García 通過XtalPred方法分析出 cyclin M2 (CNNM2)的CNNM2429–584,CNNM2429–589片段的結晶可能性很大,從而成功純化結晶獲得兩個片段的晶體,獲得初步的衍射數(shù)據(jù)[34];Abhinav Kumar在研究核因子相關 K-B結合蛋白 (Nuclear factor related to kappa-B-binding protein, NFRKB)時,由于全長的蛋白無序區(qū)域太多,難以獲得晶體。所以他們利用XtalPred方法預測出了16個包含目的結構域而且比較容易結晶的片段,最終其中一個片段成功得到高質量的晶體,從而解析出其結構[35]。
在上述各種預測蛋白質可結晶性方法思路的基礎上,本實驗室也提出了一種預測蛋白質結晶沉淀劑的方法。首先我們通過數(shù)據(jù)挖掘,發(fā)現(xiàn)蛋白質序列相似性和蛋白質結晶沉淀劑之間存在顯著的相關性[36]。有了這個理論基礎,我們從PDB數(shù)據(jù)庫中提取出所有用X-射線衍射方法解析出結構的蛋白質的序列信息和結晶沉淀劑信息,按照蛋白質序列相似性和結晶沉淀劑之間的相關性構建了預測模型,最后通過嚴格驗證,我們該模型的預測準確率為66.7%。而且我們還構建了網(wǎng)絡服務器來實現(xiàn)這一方法的在線使用。這充分說明了我們可以嘗試用計算機模擬的方法來解決蛋白質結構解析過程中遇到的各種難題。
總之用計算機預測蛋白質結晶相關問題時,一般分為 3個步驟:1) 獲取數(shù)據(jù) (訓練數(shù)據(jù)集、測試數(shù)據(jù)集和驗證數(shù)據(jù)集),并確定預測特征;2)構建預測模型;3)評估構建模型的性能。后文將對這 3個步驟所涉及的具體問題逐一介紹。
對于計算機模擬方法和數(shù)據(jù)挖掘工作而言,數(shù)據(jù)的來源至關重要。為了解決用XRD方法來解析蛋白質結構過程中的難題,早期采取的措施是建立一個完整的數(shù)據(jù)庫,該數(shù)據(jù)庫既要包含成功解析出結構的蛋白質的信息,也要包含嘗試后失敗的蛋白質信息。該思想是2000年Stevens提出的[37]。2003年,Rodrigues和Hubbard又提出,隨著結構基因組學的發(fā)展,有價值的實驗數(shù)據(jù)不斷積累,研究者可以利用這些數(shù)據(jù)來改進基于氨基酸序列而構建的相關預測方法[38]。
第一個比較完整的數(shù)據(jù)庫是 PRESAGE數(shù)據(jù)庫,它詳細記錄了每個蛋白質的實驗狀態(tài)、結構預測和建議[39]。還有一些結構基因組學聯(lián)盟建立了在線的數(shù)據(jù)庫,其中詳細記錄了他們目標蛋白的實驗狀態(tài)。比如說 ZebaView[40]、SPINE[41]和ReportDB數(shù)據(jù)庫。對于結構基因組學而言,最大最全面的數(shù)據(jù)庫是TargetDB數(shù)據(jù)庫。它是2001年在PRESAGE數(shù)據(jù)庫的基礎上建立的。該數(shù)據(jù)庫整合了來源于美國、加拿大、德國、以色列、日本、法國和英國的28個機構基因組中心的所有蛋白質數(shù)據(jù)。另外一個全面的數(shù)據(jù)庫為蛋白表達純化和結晶數(shù)據(jù)庫(PepcDB),它創(chuàng)建于2004年,是TargetDB數(shù)據(jù)庫的延伸。該數(shù)據(jù)庫收集了蛋白質結構解析過程中詳細的實驗狀態(tài)和每一步的實驗細節(jié)。還記錄了實驗過程,實驗終止條件,可以重復利用的教程和美國15個結構基因組中心的交互信息[21]。隨著結構基因組學的快速發(fā)展,有價值的實驗數(shù)據(jù)積累的越來越多,為進行數(shù)據(jù)挖掘工作的研究者提供了充足的信息來提高預測方法的準確性。
一般而言,蛋白質的特征及功能信息蘊藏在序列信息之中。所以我們可以用蛋白質的序列信息來作為預測方法的首選輸入特征,用以計算其特性并預測可結晶性。
首先,最常用的蛋白質特征是等電點與疏水性。等電點和疏水性一般會影響蛋白質結晶過程的組裝和折疊及相互作用等,所以對蛋白質的結晶性至關重要。蛋白質等電點的計算可以用EMBOSS軟件包提供的Bioperl語言模塊[42]來完成。而蛋白質的疏水性可以用 GRAVY值表示,其計算方法為:每一個蛋白的 GRAVY的值用序列中所有氨基酸的Kyte-Doolittle疏水值[43]的總和除以序列的長度。這兩個特征都可以直接用相應的生物學軟件獲得[44],非常方便快捷。
其次,用得較多的特征為蛋白質序列中氨基酸的組合,可以用組成向量[45]來表示氨基酸的組成。其中有二肽的組成、三肽的組成等。其計算方法都一樣:20種氨基酸依次按字母排列,表示為AA1、AA2、…、AA19和AA20。序列中 AAi出現(xiàn)的次數(shù)記做 ni,那么組成向量則可用下面公式來表示:
其中k為蛋白質序列的長度。
在特征表示時,可以這樣理解:例如,如果某個氨基酸在序列中出現(xiàn)了 4次,那么公式中ni對應的值就為4;如果該氨基酸在序列中沒有出現(xiàn),那么公式中ni對應的值就為0,以此類推。由于氨基酸短范圍的相互作用也可以影響蛋白的折疊[46]。因此還可以考慮氨基酸對被P個其他氨基酸所隔開的情況。可以考慮P=0、1、2、3、4五種情況。當P=0時,氨基酸對為二肽。其余的氨基酸對可以理解為二肽有缺口。也可以考慮三肽的組合及三肽之間被一個其他氨基酸隔開的情況。這樣下來,蛋白質的特征會非常多,不利于計算、建模,而且準確率也不是很高。一般情況下,可以用特征選擇方法來減少特征的幅度。常用的方法為:基于相關性特征子集的選擇方法 (CFSS)。CFSS通過考慮每個特征和它們之間的冗余度單獨的預測能力評估了每個特征子集的值。搜索子集的策略是最佳優(yōu)先搜索 (Best-first-search)方法。該方法探索特定子集的間距用貪婪爬山算法(Hill-climbing)。用該方法過濾后,所剩的特征不多且非常具有代表性,而且也大大提高了預測的準確性。
除此之外,蛋白質的物理化學信息 (分子量、疏水性、親水性、折射率、平均可及表面積、柔韌性、熔點、側鏈體積、側鏈的疏水性、α螺旋與β折疊的歸一化率、極性、熱容、等電點)都可以用來對蛋白質可結晶性進行預測。
用計算機模擬方法進行蛋白質可結晶性預測時,需要選擇合適的分類器。簡單的說,就是運用該分類器中的算法,將我們輸入的可以影響蛋白質結晶的典型特征分為兩類 (可結晶或者不可結晶)。當輸入代表目標蛋白的新特征時,就可以預測出該蛋白質將要分到哪一類去。目前應用與蛋白質可結晶性預測的分類器有支持向量機 (Support vector machine, SVM)、懷卡托智能分析環(huán)境 (Waikato environment for knowledge analysis,WEKA)、R軟件包和自適應增強 (Adaptive boosting, AdaBoost)分類器。
3.2.1 支持向量機 (SVM)
目前應用最廣泛的蛋白質可結晶性預測工具是支持向量機 (SVM)[47]。SVM是目前較為流行的分類軟件。首先需要將數(shù)據(jù)庫中的數(shù)據(jù)劃分成訓練集和測試集。訓練集的每個特征,轉化成SVM識別的格式 (目標值和屬性,有相關軟件可以直接轉換)。SVM的目標是基于訓練數(shù)據(jù)產(chǎn)出一個模型 (Model),用來預測只給出屬性的測試數(shù)據(jù)的目標值。SVM是基于統(tǒng)計學習理論的一種機器學習方法,通過尋求結構化風險最小來提高學習機泛化能力,實現(xiàn)經(jīng)驗風險和置信范圍的最小化,從而達到在統(tǒng)計樣本量較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的目的。應用 SVM 的一般步驟為:1)將數(shù)據(jù)轉換成SVM格式包的格式;2)對數(shù)據(jù)進行簡單的縮放處理 (Scaling);3)考慮高斯徑向基核函數(shù)(Radial basis function kernel, RBF);4)使用交叉驗證 (Cross validation)尋找最佳參數(shù)C和Υ;5)使用最佳參數(shù) C和 Υ來訓練整個訓練集;6)測試。一般也可以用程序自帶的腳本快速執(zhí)行以上所有步驟。
3.2.2 懷卡托智能分析環(huán)境 (WEKA)
其次較為流行的預測蛋白質可結晶性軟件是WEKA[48]。WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務的機器學習算法,包括對數(shù)據(jù)進行預處理、分類、回歸、聚類、關聯(lián)規(guī)則以及在新的交互式界面上的可視化。用戶還可以通過WEKA的接口文檔實現(xiàn)自己的數(shù)據(jù)挖掘算法。在使用WEKA時,還是首先把我們的目標數(shù)據(jù)轉換成可識別的格式,即一個二維的表格。表格里的一個橫行稱作一個實際特征,豎行稱作一個屬性 (Attribute),相當于統(tǒng)計學中的一個變量。這樣一個表格或者叫數(shù)據(jù)集,在WEKA看來,呈現(xiàn)了屬性之間的一種關系 (Relation)。應用WEKA,分為以下幾步:1)對目標數(shù)據(jù)進行預處理 (Preprocess);2)對輸入特征進行分類 (Classify)和聚類 (Cluster);3)用關聯(lián) (Associate)功能發(fā)掘前面導入的數(shù)據(jù)的隱藏關系;4)選擇屬性 (Select attributes);5)結果可視化 (Visualize)。
3.2.3 R程序包
還可以通過 R程序包實現(xiàn)蛋白質可結晶性預測的功能。R是一個程式語言和統(tǒng)計計算與繪圖的整合環(huán)境。其語法與S語言 (S-Plus)非常像,提供了非常多的統(tǒng)計工具。包括線性與非線性模型、統(tǒng)計檢定、時間序列分析、分類分析、群集分析等相關工具。它具有很多優(yōu)點:免費、開放、占有率高、跨平臺、彈性大和互動式等。此方法不是很常用。
3.2.4 自適應增強分類器 (AdaBoost)
AdaBoost也是一個應用廣泛的分類工具,也稱為 RAB。其核心思想是針對同一個訓練集訓練不同的分類器 (弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。使用 Adaboost分類器可以排除一些不必要的訓練數(shù)據(jù)特征,并將重心放在關鍵的訓練數(shù)據(jù)上面。其一般步驟為:1)給定訓練樣本集;2)初始化樣本;3)迭代:訓練樣本的概率分布,訓練弱分類器;計算弱分類器的錯誤率;選取合適閾值,使得錯誤率最?。桓聵颖緳嘀?;最終得到的強分類器。
當我們構建好預測模型后,就需要對該模型的性能進行評估。在生物信息學領域一般用準確率、特異性、敏感性和MCC 4個指標來評估預測模型的性能。在檢驗之前,我們首先要獲得陽性數(shù)據(jù) (可結晶的蛋白)和陰性數(shù)據(jù)(不可結晶的蛋白)。下面則是這 4個指標的定義,靈敏度 (Sensitivity, Sn):對于真實的數(shù)據(jù),能夠預測成“真的”比例;特異性 (Specificity,Sp):對于陰性的數(shù)據(jù),能夠預測成“假”的比例;準確性 (Accuracy, Ac):對于整個數(shù)據(jù)集(包括陽性和陰性數(shù)據(jù)),預測總共的準確比例;馬修斯相關系數(shù) (Mathew correlation coefficient,MCC):當陽性數(shù)據(jù)的數(shù)量與陰性數(shù)據(jù)的數(shù)量差別較大時,能夠更為公平地反映預測能力。它們的計算公式為:
其中,真陽性 (TP):陽性數(shù)據(jù)中被預測為陽性的數(shù)據(jù);假陽性 (FP):陰性數(shù)據(jù)中被預測為陽性的數(shù)據(jù);真陰性 (TN):陰性數(shù)據(jù)中被預測為陰性的數(shù)據(jù);假陰性 (FN):陽性數(shù)據(jù)中被預測為陰性的數(shù)據(jù)。
其中MCC的值越高,預測的可靠性越強。此外,還定義了接收者操作特征曲線 (Receiveroperator characteristics, ROC)。ROC是對TP rate和作圖得到的曲線,用ROC曲線下的面積AROC來評估預測的可靠性。AROC越大,預測方法越可靠。
解析蛋白質結構具有重要的意義。但是實驗方法進行蛋白質結晶研究工作費時費力,且不一定能得到滿意的實驗結果。計算機模擬方法可以提前對目標蛋白質進行相關分析,獲得一定有用的結果 (等電點、疏水性、能否結晶和結晶沉淀劑等)。再加上網(wǎng)絡數(shù)據(jù)庫的不斷完善,特別是PSI組織建立的TargetDB數(shù)據(jù)庫。該數(shù)據(jù)庫不但包含了成功的實驗數(shù)據(jù),也包含了失敗的實驗數(shù)據(jù)。失敗的實驗數(shù)據(jù)對于數(shù)據(jù)挖掘工作是非常重要的。若是沒有這些數(shù)據(jù),往往預測模型的正負數(shù)據(jù)不平衡問題就不好處理。因此,我們可以對這些數(shù)據(jù)庫進行數(shù)據(jù)挖掘,找到一定的關系來構建預測模型,來預測有關蛋白質的結晶問題。目前已經(jīng)利用這些資源發(fā)展起來很多蛋白質結晶預測的網(wǎng)絡服務器。這些方法簡單方便,能節(jié)省大量的時間和資源。并且預測也具有一定的可靠性,已經(jīng)被廣大研究者所接受,成功應用于結構生物學領域。隨著計算機算法的發(fā)展、生物學軟件的完善和蛋白質數(shù)據(jù)庫的增長,計算機模擬的方法會越來越多,也越來越可靠。計算機模擬方法將會成為結構生物學領域不可缺少的一部分。
[1]Bethel CM, Lieberman RL. Protein structure and function: an interdisciplinary multimedia-based guided-inquiry education module for the high school science classroom. J Chem Educ, 2014,91(1): 52–55.
[2]Xue YZ, Li XX, Pang SL, et al. Efficacy and safety of computer-assisted stereotactic transplantation of human retinal pigment epithelium cells in the treatment of parkinson disease. J Comput Assist Tomo, 2013, 37(3): 333–337.
[3]Chen CY. A novel integrated framework and improved methodology of computer-aided drug design. Curr Top Med Chem, 2013, 13(9):965–988.
[4]Cordeiro MN, Speck-Planche A. Computer-aided drug design, synthesis and evaluation of new anti-cancer drugs. Curr Top Med Chem, 2012,12(24): 2703–2704.
[5]Gulerez IE, Gehring K. X-ray crystallography and NMR as tools for the study of protein tyrosine phosphatases. Methods, 2014, 65(2): 175–183.
[6]Tyszka JM, Fraser SE, Jacobs RE. Magnetic resonance microscopy: recent advances and applications. Curr Opin Biotech, 2005, 16(1):93–99.
[7]Yee A, Pardee K, Christendat D, et al. Structural proteomics: toward high-throughput structural biology as a tool in functional genomics. Accounts Chem Res, 2003, 36(3): 183–189.
[8]Chen K, Kurgan L, Rahbari M. Prediction of protein crystallization using collocation of amino acid pairs. Biochem Bioph Res Co, 2007, 355(3):764–769.
[9]Sanchez-Puig N, Sauter C, Lorber B, et al.Predicting protein crystallizability and nucleation.Protein Peptide Lett, 2012, 19(7): 725–731.
[10]Smialowski P, Schmidt T, Cox J, et al. Will my protein crystallize? A sequence-based predictor.Proteins, 2006, 62(2): 343–355.
[11]Bourne PE, Westbrook JD, Berman HM, et al. The protein data bank (PDB)as a research tool. Abstr Pap Am Chem S, 2003, 226: U302–U302.
[12]Kuan TW, Wang JF, Wang JC, et al. VLSI design of an SVM learning core on sequential minimal optimization algorithm. Ieee T Vlsi Syst, 2012,20(4): 673–683.
[13]Hernandez-Gonzalez J, Inza I, Lozano JA.Learning Bayesian network classifiers from label proportions. Pattern Recogn, 2013, 46(12):3425–3440.
[14]Saeys Y, Inza I, Larranaga P. A review of feature selection techniques in bioinformatics.Bioinformatics, 2007, 23(19): 2507–2517.
[15]Overton IM, Barton GJ. A normalised scale for structural genomics target ranking: the OB-Score.Febs Lett, 2006, 580(16): 4005–4009.
[16]Schmidberger M, Mansmann U. Parallel Computing with the R Language in a Supercomputing Environment. Berlin Heidelberg:Springer, 2009: 769–780.
[17]Bateman A, Coin L, Durbin R, et al. The Pfam protein families database. Nucleic Acids Res, 2004,32: D138–D141.
[18]Slabinski L, Jaroszewski L, Rychlewski L, et al.XtalPred: a web server for prediction of protein crystallizability. Bioinformatics, 2007, 23(24):3403–3405.
[19]Overton IM, Padovani G, Girolami MA, et al.ParCrys: a Parzen window density estimation approach to protein crystallization propensity prediction. Bioinformatics, 2008, 24(7): 901–907.
[20]Chen L, Oughtred R, Berman HM, et al. TargetDB:a target registration database for structural genomics projects. Bioinformatics, 2004, 20(16):2860–2862.
[21]Kouranov A, Xie L, De la Cruz J, et al. The RCSB PDB information portal for structural genomics.Nucleic Acids Res, 2006, 34: D302–D305.
[22]Kurgan L, Razib AA, Aghakhani S, et al.CRYSTALP2: sequence-based protein crystallization propensity prediction. Bmc Struct Biol, 2009, 9(1):50.
[23]Kandaswamy KK, Pugalenthi G, Suganthan PN, et al. SVMCRYS: an SVM approach for the prediction of protein crystallization propensity from protein sequence. Protein Peptide Lett, 2010,17(4): 423–430.
[24]Frank E, Hall M, Trigg L, et al. Data mining in bioinformatics using Weka. Bioinformatics, 2004,20(15): 2479–2481.
[25]Hsieh CW, Hsu HH, Pai TW. Protein crystallization prediction with AdaBoost. Int J Data Min Bioin,2013, 7(2): 214–227.
[26]Liu N, Wang H. Improving predictive accuracy by evolving feature selection for face recognition.Ieice Electron Expr, 2008, 5(24): 1061–1066.
[27]Niu B, Cai YD, Lu WC, et al. Predicting protein structural class with AdaBoost learner. Protein Peptide Lett, 2006, 13(5): 489–492.
[28]Gao JZ, Hu G, Wu ZH, et al. Improved prediction of protein crystallization, purification and production propensity using hybrid sequence representation. Curr Bioinform, 2014, 9(1): 57–64.
[29]Jahandideh S, Mahdavi A. RFCRYS:Sequence-based protein crystallization propensity prediction by means of random forest. J Theor Biol,2012, 306: 115–119.
[30]Mizianty MJ, Kurgan LA. CRYSpred: accurate sequence-based protein crystallization propensity prediction using sequence-derived structural characteristics. Protein Peptide Lett, 2012, 19(1):40–49.
[31]Mizianty MJ, Kurgan L. Sequence-based prediction of protein crystallization, purification and production propensity. Bioinformatics, 2011,27(13): I24–I33.
[32]Zucker FH, Stewart C, dela Rosa J, et al. Prediction of protein crystallization outcome using a hybrid method. J Struct Biol, 2010, 171(1): 64–73.
[33]Bellini D, Caly DL, McCarthy Y, et al. Crystal structure of an HD-GYP domain cyclic-di-GMP phosphodiesterase reveals an enzyme with a novel trinuclear catalytic iron centre. Mol Microbiol,2014, 91(1): 26–38.
[34]Gomez-Garcia I, Stuiver M, Ereno J, et al.Purification, crystallization and preliminary crystallographic analysis of the CBS-domain pair of cyclin M2 (CNNM2). Acta Crystallogr F, 2012,68: 1198–1203.
[35]Kumar A, Mocklinghoff S, Yumoto F, et al.Structure of a novel winged-helix like domain from human NFRKB protein. PLoS ONE, 2012, 7(9):e43761.
[36]Lu HM, Yin DC, Liu YM, et al. Correlation between protein sequence similarity and crystallization reagents in the biological macromolecule crystallization database. Int J Mol Sci, 2012, 13(8): 9514–9526.
[37]Stevens RC. High-throughput protein crystallization. Curr Opin Struc Biol, 2000, 10(5):558–563.
[38]Rodrigues A, Hubbard RE. Making decisions for structural genomics. Brief Bioinform, 2003, 4(2):150–167.
[39]Brenner SE, Barken D, Levitt M. The PRESAGE database for structural genomics. Nucleic Acids Res, 1999, 27(1): 251–253.
[40]Wunderlich Z. ZebaView: a database tool for structural genomics. Undergraduate Laboratory Res,2002, 694: 382–387.
[41]Bertone P, Kluger Y, Lan N, et al. SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics. Nucleic Acids Res, 2001, 29(13): 2884–2898.
[42]Olson SA. EMBOSS opens up sequence analysis.European molecular biology open software suite.Brief Bioinform, 2002, 3(1): 87–91.
[43]Kyte J, Doolittle RF. A simple method for displaying the hydropathic character of a protein. J Mol Biol, 1982, 157(1): 105–132.
[44]Chen K, Kurgan L, Ruan J. Optimization of the sliding window size for protein structure prediction.2006 International Conference on Computational Intelligence in Bioinformatics and Computational Biology, 2006: 366–372.
[45]Chen C, Tian YX, Zou XY, et al. Using pseudo-amino acid composition and support vector machine to predict protein structural class. J Theor Biol, 2006, 243(3): 444–448.
[46]Chen K, Kurgan L, Ruan J. Optimization of the sliding window size for protein structure prediction.IEEE, 2006: 1–7.
[47]Chang CC, Lin CJ. LIBSVM: a library for support vector machines. ACM TIST, 2011, 2(3): 27.
[48]Hall M, Frank E, Holmes G, et al. The WEKA data mining software: an update. ACM SIGKDD Explorations Newsletter, 2009, 11(1): 10–18.