亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        蛋白質(zhì)結構域劃分方法及在線服務綜述

        2019-05-07 01:33:26
        廣州大學學報(自然科學版) 2019年1期
        關鍵詞:同源結構域邊界

        (華中科技大學 a.生命學院; b.軟件學院, 湖北 武漢 430074)

        隨著大量物種全基因組測序的完成,以測定蛋白質(zhì)結構為目的的結構基因組學和以研究蛋白質(zhì)功能為目的的蛋白質(zhì)組學成為當前研究熱點之一.根據(jù)蛋白質(zhì)三級結構的測定和功能研究,有利于增深對疾病發(fā)生的分子機制理解,從而有助于開發(fā)新的手段與方法來預防、診斷疾病和新藥研發(fā)[1-2].

        結構域是蛋白質(zhì)的一個結構層次, 可以看作是蛋白質(zhì)結構、折疊、功能、進化和設計的基本單位.根據(jù)PDB數(shù)據(jù)庫統(tǒng)計[3-4],已知結構蛋白質(zhì)中約40%為多結構域蛋白[5].結構域的不同組合使多結構域蛋白質(zhì)具有不同的三級結構和功能.準確識別蛋白質(zhì)結構域對結構基因組學選擇目標序列、結構解析至關重要,也是預測和理解蛋白質(zhì)功能關鍵的一步.自1973年以來,若干研究者就蛋白質(zhì)結構域劃分問題進行研究,可歸納為從實驗測定三維結構著手的結構域劃分方法和不依賴三維結構僅從序列出發(fā)的結構域劃分方法.前者的代表性工作包括 Wetlaufer[6]首次提出的基于原子間接觸密度劃分結構域的方法,以及后期Domain Parser[7-9]、PDP等方法[10];后者的代表性工作包括DROP[11-12]、Dompro[13]、DOBO[14]、ThreaDom等[15].

        目前已建立一些結構域數(shù)據(jù)和在線預測的服務系統(tǒng),例如,Pfam[16-17]、SMART[18-19]、SCOP[20-21]、CATH[22-23]、InterPro[24]、ThreaDomEx[25]等.據(jù)2016年2月份的數(shù)據(jù)統(tǒng)計,當前最完整的蛋白質(zhì)序列數(shù)據(jù)庫(UniProt)中去掉重復序列后有74 897 059條序列,該數(shù)據(jù)庫的結構域注釋主要來自Pfam、SMART、SCOP、CATH以及InterPro等結構域數(shù)據(jù)庫,其中只有36 449 183(48.7%)的序列有結構域注釋.其中被研究工作者熟知、并廣泛使用的Pfam結構域數(shù)據(jù)庫注釋了33 529 428條序列.究其主要原因:已解析三級結構的蛋白質(zhì)及其近同源蛋白質(zhì)序列只占有較小的比例,當前技術還無法較大規(guī)模地從序列注釋遠同源蛋白質(zhì)結構域.本文從蛋白質(zhì)結構域識別問題的提出、結構域邊界預測、不連續(xù)結構域檢測及相關在線服務情況進行介紹,供相關研究者參考.

        1 結構域識別問題

        蛋白質(zhì)結構域識別問題不僅要準確識別蛋白質(zhì)結構域劃分邊界,還要準確檢測出組成蛋白質(zhì)結構域的序列片段(即不連續(xù)結構域).

        以多結構域蛋白4-α-葡聚糖轉移酶(PDB:1LWH)為例來說明結構域識別過程,從序列出發(fā)的結構域識別過程包括結構域邊界預測和不連續(xù)結構域檢測2個步驟.圖1a 是4-α-葡聚糖轉移酶的蛋白質(zhì)結構圖,圖1b是該蛋白結構域示意圖.從圖1a可以看出該蛋白包含3個結構域:[1~93(紫紅色)|159~391(紅色)]、[94~158(黃色)]、[392~441(藍色)].識別該蛋白的結構域的過程:首先確定結構域邊界HIS93、ASN158、ARG391,這3個殘基將該蛋白分為4段; 然后檢測不連續(xù)結構域.對該蛋白, 第1段[1~93]與第3段[159~391]構成不連續(xù)結構域,這從圖1b中可以更清晰的看出,A1[1~93]和A2[159~391]在序列上不臨近,但在三級結構上是一個結構域(即不連續(xù)結構域).

        圖1 4-α-葡聚糖轉移酶結構與結構域示意圖Fig.1 Schematic diagram of structure and domain of 4-α-glucanotransferase

        一個優(yōu)秀的結構域劃分工具需要準確的判斷出在氨基酸序列位置93(94)、158(159)、391(392)3個位置附近存在結構域劃分邊界,即把序列劃分為(1~93))(94~158)(159~391)(392~441)4個片段;同時要應該具有將片段(1~93)和片段(159~391)組裝成一個結構域的能力(不連續(xù)結構域檢測).對不具備這2種能力的結構域劃分的工具來說,至少是不完美的.

        結構域劃分問題又分為從結構出發(fā)的結構域劃分和從序列出發(fā)的結構域劃分.對從結構出發(fā)的結構域劃分是根據(jù)序列對應的3D結構進行空間上的結構域劃分;對于從序列出發(fā)的結構域劃分,則不使用3D結構,只根據(jù)序列信息進行預測或檢測,以進行結構域劃分.多數(shù)基于結構的結構域劃分空間考慮了不連續(xù)結構域劃分,而只有少數(shù)幾個從序列出發(fā)的結構域劃分工具考慮了不連續(xù)結構域檢測問題.

        2 從結構出發(fā)的蛋白質(zhì)結構域劃分方法

        從通過實驗獲得蛋白質(zhì)三維結構開始,通過把蛋白質(zhì)分子劃分為小的域進行研究,可以降低研究的復雜程度.而多數(shù)情況下,蛋白質(zhì)域的定義是指從結構上講的域,即結構域.結構域是一個具有以下特征的蛋白質(zhì)結構單元[26]:①是緊密的;②是穩(wěn)定的;③含有一個疏水核心;④可以獨立蛋白質(zhì)的其他部分進行單獨折疊;⑤可以跟其它結構域結合并出現(xiàn)在其他蛋白質(zhì)中;⑥行使特定的功能.根據(jù)這一定義,不僅有專家手工定義的結構域劃分數(shù)據(jù)庫如SCOP[20,27-28]、CATH[29]等,還有其他自動劃分工具.Rossman等[30]根據(jù)給出結構Cα-Cα距離圖進行結構域劃分;Crippen[31]采用聚類的方法進行結構域劃分;Rose[32]采用將3D空間投影到2D空間的方法進行結構域劃分;Wodak等[33]通過發(fā)現(xiàn)2個結構域間最小接觸界面進行結構域劃分;Holm等[34]使用剛體震動構建的接觸矩陣開發(fā)PUU方法;Swindells[35]通過構建疏水核心進行結構域劃分;Islam等[36]采用發(fā)現(xiàn)結構域間最小接觸進行結構域劃分;Siddiqui等[37]通過計算結構域內(nèi)外最大比值進行結構域劃分;Sowdhamini等[38]通過二級結構域聚類的方法進行結構域劃分;Taylor[39]采用殘基間空間接近度模型進行劃分;Wernisch 等[40]利用Kernighan-lin圖啟發(fā)式算法,發(fā)現(xiàn)結構域間最小接觸進行結構域劃分;Xu等[8]利用圖論中最大流和最小割方法,發(fā)現(xiàn)結構域最小接觸進行切割;Xuan等[41]使用模糊聚類對基礎片段組裝的方法進行結構域劃分;Alexandrov等[10]利用結構域接觸最小數(shù)量進行結構域劃分;Berezovsky[42]使用原子間范德華接觸進行聚類的方法進行結構域劃分;Kundu等[43]利用高斯網(wǎng)絡模型進行結構域劃分.這些方法可以歸納為自下向上的方法或自上向下的方法,指用從小的基本片段開始組裝,或者總體進行劃分,再由某種準則判斷劃分.很明顯,通過原子間接觸作為量度,成為從結構進行結構域劃分的主要手段.圖2 給出了Xu等[8]開發(fā)的Domain Parser以原子間相互作用為量度的從上到下的一種方法,其將蛋白質(zhì)結構用一個網(wǎng)絡表示,網(wǎng)絡的節(jié)點為氨基酸殘基,邊表示殘基間相互作用,然后用最大流最小割的方法進行結構域劃分.2個氨基酸相互作用的強度可以視為邊的容量,并是如下量的函數(shù):殘基間原子的接觸數(shù)量、殘基間主鏈接觸數(shù)、跨β折疊的相互作用、是否屬于同一個β折疊.

        圖2 Domain Parser 蛋白質(zhì)圖表示
        Fig.2 Protein representation based on graph in Domain Parser

        采用最大流最小割的方法進行的基本過程:給圖增加一個虛擬的源s和槽節(jié)點t,采用最大流最小割原理尋找將蛋白質(zhì)分成2個結構域的瓶頸邊,然后刪除這些邊,網(wǎng)絡被表示為一個跟源s相連接的網(wǎng)絡,一個跟槽t相連接的網(wǎng)絡,并各自代表了被劃分出來的結構域.重復此過程,直到滿足終止條件結束.

        基于結構的蛋白質(zhì)結構域邊界劃分思路和方法,也可以結合預測特征應用到從序列劃分結構域問題.

        3 從序列預測結構域邊界

        從序列預測/劃分結構域邊界主要包括基于同源比對、三級結構預測和機器學習等3類方法.

        同源比對方法是識別結構域邊界的最基本方法.例如Pfam等采用多序列比對,搜索序列間相似度高的蛋白質(zhì)結構域家族,從而確定結構域邊界.再如FIEFDOM通過PSI-blast搜索已知結構近同源模板,推知結構域邊界[44].該類方法在不存在已知結構的近同源蛋白的情況下,無法完成結構域識別.Xue等[15]開發(fā)的ThreaDom,探索基于遠同源比對方法進行蛋白質(zhì)結構域預測研究,取得較好的結果.

        采用預測的三級結構識別結構域,是一種很直觀的方法,可以采用諸如Modeller[45-46]、I-Tasser[47]等三級結構建模軟件進行結構建模,再使用諸如Domain parser等從結構出發(fā)的結構域劃分工具進行結構域劃分,如SnapDRAGON[48]、 RosettaDom[49]、 OPUS-DOM[50]等.此類方法不僅依賴于找到近同源模板,而且會受到目標序列長度的限制.況且,結構域識別的重要應用之一就是支持結構預測,因而這種方法也有諸多限制.

        在沒有近同源模板的情況下,研究者主要使用基于統(tǒng)計或機器學習的方法預測蛋白質(zhì)結構域的邊界.DGS根據(jù)序列長度估計蛋白質(zhì)結構域位置[51];DomCut利用結構域邊界的連接區(qū)域的傾向性統(tǒng)計[52],判斷結構域邊界;Armadillo利用氨基酸在結構域及結構域邊界出現(xiàn)的傾向性預測邊界[53].自2005年開始,研究集中在采用機器學習的方法預測蛋白質(zhì)結構域,如DROP[11-12]、DOMPro[13]、DOBO[14]、PPRODO[54]和DomNet[55]等.這些方法利用局部或整體的殘基的統(tǒng)計特征,及psi-blast序列比對的特異矩陣等構成特征向量,再使用神經(jīng)網(wǎng)絡、支持向量機、隨機森林等方法進行學習分類.我國吉林大學Zou等[56-57]采用距離最大熵和支持向量機的方法,上海大學Li等[58]結合最大相關最小冗余特征選擇方法,同濟大學Zhang等[59]采用條件隨機場的開發(fā)的DomHR方法等都屬于這一類.還有一些方法,組合多個或多種方法對蛋白質(zhì)結構域進行綜合預測.例如DOMAC組合了基于同源比對方法和機器學習方法[60];Meta_DP使用了10 個預測器[61],根據(jù)“多數(shù)”的投票原則,給出一致性預測.這些方法是對沒有近同源模板序列進行結構域預測有價值的探索.

        這些從序列出發(fā)的方法中,通過高序列相似度的同源模板拷貝結構域劃分邊界具有較高的可信度.ThreaDom是一個使用多個遠同源比對的結構域劃分方法[15],較以往方法有較大的性能優(yōu)勢.經(jīng)過benchmark測試,在缺乏序列相似度>30%模板的情況下,ThreaDom的邊界預測準確性較以往同源比對或機器學習方法均有明顯的提高.

        ThreaDom流程及邊界劃分見圖3.

        圖3 ThreaDom 流程及邊界劃分示意圖Fig.3 The flowchart and boundary decision of ThreaDom

        從圖3a可見,輸入序列通過LOMET進行遠同源比對后,得到多個已知3D結構的蛋白質(zhì)序列模板,然后對這些模板與標準數(shù)據(jù)庫進行位置映射,再通過計算結構域邊界或比對缺失懲罰分數(shù)計算出結構域保守分數(shù),最后通過全局門檻值方法確定結構域邊界的位置(圖3b).在對用戶提交的序列的預測結果分析發(fā)現(xiàn),ThreaDom在針對“Hard”類型、長序列及包含不連續(xù)結構域的結構域預測方面存在不足,在方法的模板選擇、保守分數(shù)的設計、決策規(guī)則設計等領域還有很多未解決的問題.

        4 從序列檢測不連續(xù)結構域

        根據(jù)PDB數(shù)據(jù)統(tǒng)計,約45%的多結構域蛋白質(zhì)包括一個或多個不連續(xù)結構域.在基于結構劃分結構域的方法中,已經(jīng)有多個方法可以劃分不連續(xù)結構域,如Domain Parser、PDP等.然而從序列出發(fā)的不連續(xù)結構域檢測嚴重依賴于發(fā)現(xiàn)高序列相似度模板.三級結構建模的方法,在沒有高序列相似度模板的情況下,很難完成對包含不連續(xù)結構域的多結構域蛋白的建模.基于統(tǒng)計與機器學習的方法更側重于結構域邊界的預測,很少涉及到不連續(xù)結構域檢測.目前,Sikder等[62]采用基于預測原子接觸方法、Xue等[5,15]的Threadom和DomEx,以及ThreaDomEx[25]是少數(shù)幾個具備從序列檢測不連續(xù)結構域的方法.

        Sikder等基于預測的原子間接觸間接預測不連續(xù)結構域,只能對極少部分蛋白質(zhì)是否包含不連續(xù)結構域進行判斷,無法報告準確的不連續(xù)結構域及邊界.

        ThreaDom具有檢測不連續(xù)結構域的功能,是通過將LOMET返回模板的結構域邊界聚類來實現(xiàn)的,該方法簡單、直觀,但依然依賴于Threading程序給出的遠同源模板的準確性.ThreaDom檢測不連續(xù)結構域的步驟如下:①檢測輸入序列是否含有不連續(xù)結構域.如果LOMET返回的模板中有超過30%的模板包括1或多個不連續(xù)結構域,則認為該輸入序列含有1個不連續(xù)結構域;②對不連續(xù)結構域模板進行聚類.對具有相同結構域連續(xù)序列片段的數(shù)量和相似的邊界的模板聚成一類,以邊界誤差在5個氨基酸以內(nèi)為界定義邊界的相似性;③邊界優(yōu)化與邊界替換.根據(jù)結構域保守分數(shù)預測結構域邊界和邊界聚類中的第一個聚類結果融合.如果預測結構域的邊界與第一個聚類中的結構域邊界誤差在20個殘基內(nèi),這個預測結構域邊界將合并入第一類聚類相應結構域中;同時,如果預測的邊界結構域邊界與聚類邊界有很好的吻合度,且第一類結構域數(shù)量多于預測的結構域,將采用第一個聚類邊界替換預測的結構域.

        DomEx提出了組裝序列對稱比對的思想,以進行不連續(xù)結構域檢測.可以使用任何結構域邊界預測工具預測邊界,進行不連續(xù)結構域檢測.DomEx有3個基本假設: ?同源的蛋白結構域可以使用profile-profile比對的方法檢測到; ?同源的結構域之間應該有相似的長度;?組裝拼接的不連續(xù)結構域,再拼接點的兩側有相似的比對長度和序列相似性,即具有關于組裝點兩側的對稱性.

        DomEx設計了模板相似分數(shù)、對稱指數(shù)和profile-profile比對分數(shù),用于不連續(xù)結構域檢測.DomEx結合ThreaDom邊界檢測的流程圖如圖4所示.其關鍵步驟包括:①利用ThreaDom或者其他結構域邊界預測工具預測結構域邊界,把序列分成多個片段;②將空間上不連續(xù)的序列片段組裝為候選的不連續(xù)結構域;③使用psi-blast搜索候選不連續(xù)結構域的同源結構域;④利用模板相似分數(shù)、對稱指數(shù)、長度相似度評價組裝結構域是一個不連續(xù)結構域的可能性;⑤利用profile-profile 比對進一步確認不連續(xù)結構域;⑥檢測沖突并給出最終結果.

        DomEx在組裝候選不連續(xù)結構域后,使用psi-blast搜索單結構域nr數(shù)據(jù)庫.該庫的結構域主要來源于CATH、SCOP和PFam.對通過在PFam中找到的模板,還需要采用profile-profile比對方法進行進一步確認.通過實驗觀測,定義了一個參數(shù)b用于對不連續(xù)檢出率MCC進行訓練,具有較好的魯棒性.

        DomEx方法在不連續(xù)結構域檢測方面與ThreaDom有互補性.在ThreaDom不能檢測出的結果中,DomEx可以檢測出26.7%的不連續(xù)結構域,且準確率在72%以上.當前基于對稱比對和序列組裝方法,需要在以下2方面重點突破:①在3個及3個以上序列片段組成的不連續(xù)結構域檢測方面需要進一步擴展;②需要與Threading等遠同源序列比對方法深度融合,提高不連續(xù)結構域的檢出率和準確性.

        ThreaDomEx 則組合了ThreaDom及DomEx的優(yōu)點,其不連續(xù)結構域檢測能力比ThreaDom更為優(yōu)秀.

        圖4 DomEx不連續(xù)結構域檢測流程Fig.4 Discontinuous domain detection of DomEx

        5 結構域在線預測服務

        蛋白質(zhì)結構域的在線服務主要包括數(shù)據(jù)庫和在線預測網(wǎng)站2類.Pfam、SMART、SCOP、CATH、InetrPro 和PROSITE是常用的結構域數(shù)據(jù)庫[63].

        Pfam、SMART都是基于隱馬爾科夫模型進行近同源序列比對方法構建.PROSITE是使用profile和相關規(guī)則構建的結構域相關數(shù)據(jù),其與Pfam相比,更側重功能標注.這類數(shù)據(jù)庫是建立在高序列相似度的近同源序列比對的基礎上,無法深層次識別遠同源序列蛋白質(zhì)結構域.主要的不足是無法對于找不到近同源模板的序列進行結構域識別.

        SCOP、CATH等僅僅對已知結構的蛋白質(zhì)數(shù)據(jù)庫進行整理、分類、標定等,不包含未知三級結構的蛋白質(zhì)序列.這類數(shù)據(jù)庫不提供對未知結構的蛋白質(zhì)序列的結構域識別.InterPro通過整合多個結構域數(shù)據(jù)庫的不同的結構域特征,作為結構域的預測模型,該數(shù)據(jù)庫自身并不生成結構域的識別模型,只提供多個數(shù)據(jù)庫的整合信息.

        與蛋白質(zhì)結構域數(shù)據(jù)庫并存的是結構域在線預測服務,例如,DOBO、ThreaDom、ThreaDomEx等,提供了在線從序列預測結構域邊界的能力.例如,ThreaDom自2013年7月上線以來,已經(jīng)為來自世界各地的研究者提供9 600余次在線服務.

        ThreaDomEx繼承了ThreaDom和DomEx的優(yōu)勢,是其中具有代表性的在線預測服務.ThreaDomEx不僅能預測結構域邊界、檢測序列中存在不連續(xù)結構域,而且在線服務器用戶界面友好,允許用戶根據(jù)個人知識使用系統(tǒng)提供中間結果,進行可視化交互修改、保存預測結果.圖5給出了ThreaDomEx在線服務預測界面的結果,用戶可以根據(jù)系統(tǒng)預測的結果用鼠標進行拖拽操作,可以參考預測二級結構和溶液可及性進行修改;可以在增加刪除結構域片段后,提交服務器再次進行不連續(xù)結構域檢測.

        圖5 ThreaDomEx在線服務界面Fig.5 The oneline service page of ThreaDomEx

        6 結 論

        總之,以往的研究對蛋白質(zhì)結構域識別做了積極而有意義的探索,但依然存在大于50%的非重復蛋白質(zhì)序列亟需標注結構域信息.在缺少近同源模板的情況下,通過基于Threading檢測遠同源模板方法,成為提高結構域標注準確性和標注比例最為有效和可能的途徑.另外,由于基因插入、融合造成大量存在的不連續(xù)結構域,也要求有新的方法和手段提高不連續(xù)結構域的標注比例.建議相關研究者在使用PFam、CATH、SCOP等數(shù)據(jù)庫無法得到滿意結果的情況下,使用ThreaDom、ThreaDomEx進行常識性結構域劃分;同時,亟需開發(fā)能從序列識別遠同源蛋白質(zhì)結構域的新方法及相應的數(shù)據(jù)庫,進而注釋這些蛋白質(zhì)的家族與功能,為研究者提供更加豐富、便捷的蛋白質(zhì)結構域數(shù)據(jù)庫系統(tǒng)和工具.

        猜你喜歡
        同源結構域邊界
        藥食同源
        ——紫 蘇
        兩岸年味連根同源
        華人時刊(2023年1期)2023-03-14 06:43:36
        拓展閱讀的邊界
        以同源詞看《詩經(jīng)》的訓釋三則
        革蘭氏陽性菌蛋白結構域特征分析
        生物信息學(2020年1期)2020-05-16 14:28:16
        論中立的幫助行為之可罰邊界
        虔誠書畫乃同源
        重組綠豆BBI(6-33)結構域的抗腫瘤作用分析
        組蛋白甲基化酶Set2片段調(diào)控SET結構域催化活性的探討
        泛素結合結構域與泛素化信號的識別
        狠狠躁夜夜躁人人爽超碰97香蕉| 国产精品原创巨作av无遮| 乱中年女人伦av三区| 精品一区二区三区在线观看l| 亚洲国产精品一区亚洲国产| 亚洲精彩av大片在线观看| 神马影院日本一区二区| 久久婷婷五月综合色丁香| 精品少妇一区二区三区免费观| 乱人伦视频中文字幕| 国产精品刺激好大好爽视频| 久久久久久久尹人综合网亚洲| 综合激情中文字幕一区二区| 成人国产高清av一区二区三区| 国产婷婷色一区二区三区深爱网 | 美女午夜福利视频网址| 亚洲av永久无码精品漫画| 柠檬福利第一导航在线| vr成人片在线播放网站| 亚洲欧美日韩精品中文乱码| 在线免费观看亚洲天堂av| 久久久大少妇免费高潮特黄| 久久日日躁夜夜躁狠狠躁| 国产乱码一区二区三区爽爽爽| 成年无码aⅴ片在线观看| 女性自慰网站免费看ww| 亚洲国产精品成人久久av| 中文亚洲第一av一区二区| 李白姓白白又白类似的套路| 特级做a爰片毛片免费看| 久久aⅴ人妻少妇嫩草影院| 国产午夜福利不卡在线观看视频| 人妻系列无码专区久久五月天| 国产精品国产三级国产不卡| 91九色成人蝌蚪首页| 亚洲国产av无码专区亚洲av| 伴郎粗大的内捧猛烈进出视频观看 | 亚欧视频无码在线观看| 国产女主播福利一区二区 | 国产麻豆成人精品av| 大香焦av一区二区三区|