陳鎮(zhèn)霖 曹 勇 賀思敏**
(1)中國科學院計算技術研究所,中國科學院智能信息處理重點實驗室,北京100190;2)中國科學院大學,北京100049;3)北京生命科學研究所,北京102206)
化學交聯(lián)質譜技術(chemical cross-linking coupled with mass spectrometry,CXMS)是解析蛋白質結構和研究蛋白質相互作用的重要工具。該技術利用化學交聯(lián)劑將空間距離足夠接近的兩個氨基酸以共價鍵形式連接起來,然后通過質譜技術鑒定發(fā)生交聯(lián)的兩個氨基酸位點。由于交聯(lián)劑臂長的限制,兩個交聯(lián)位點之間的距離不應超過交聯(lián)劑的臂長,該距離信息將為蛋白質結構解析和相互作用研究提供重要的約束條件。相比于傳統(tǒng)的蛋白質結構解析和相互作用研究技術,化學交聯(lián)質譜技術具有分析速度快、通量高、對蛋白質樣品的量和純度要求低以及可捕獲弱相互作用等優(yōu)勢[1]。
化學交聯(lián)質譜技術自本世紀初提出以來[2],獲得了學術界的廣泛關注。截至2020 年底,有關該技術的研究論文已累計發(fā)表超過5 000 篇,累計被引超過15萬次;特別是最近5年,每年發(fā)表的文章數(shù)量均超過了300 篇,被引次數(shù)均超過了1 萬次(數(shù)據(jù)來源于Web of Knowledge, http://apps.webofknowledge.com/,2020 年12 月24 日),說明該技術持續(xù)成為領域的研究熱點,具有重要的研究價值。一些綜述對近幾年的化學交聯(lián)質譜技術進行了總結[3-6]。
經(jīng)過數(shù)十年的發(fā)展,化學交聯(lián)質譜技術在各個環(huán)節(jié)都取得了長足的進步。目前,一個典型的化學交聯(lián)質譜技術的工作流程主要包含8 個步驟(圖1),依次是:交聯(lián)劑選擇、交聯(lián)反應、酶切、交聯(lián)肽段富集、液質聯(lián)用、交聯(lián)肽段鑒定、質量控制和生物學應用。下面將按照化學交聯(lián)質譜技術工作流程的先后順序進行綜述,重點介紹最近5年的研究進展,最后對該技術進行總結與展望。
交聯(lián)劑的結構通式通常由兩個反應基團(reactive group) 和連接它們的交聯(lián)臂(spacer arm)組成(圖1a)。如果交聯(lián)劑的兩個反應基團相同,則稱為同型的(homodimeric),否則稱為異型的(heterodimeric)[7]。目前的交聯(lián)劑設計已經(jīng)模塊化,通過組合不同的反應基團和交聯(lián)臂,可以得到各具特色的新型交聯(lián)劑。下面分別介紹具有不同反應基團和不同交聯(lián)臂的交聯(lián)劑。
Fig.1 The workflow of CXMS圖1 化學交聯(lián)質譜技術的工作流程
目前最常使用的反應基團是與氨基反應的琥珀酰 亞 胺 酯 基 團 (N-hydroxy succinimidyl 或sulfosuccinimidyl esters,NHS ester),它能特異地與賴氨酸K側鏈的氨基或者蛋白質N端的氨基發(fā)生交聯(lián)反應。有研究表明,在酸性pH 或交聯(lián)劑濃度較高時,琥珀酰亞胺酯基團還可能和絲氨酸S、蘇氨酸T或酪氨酸Y反應[8]。常見的使用琥珀酰亞胺酯 基 團 的 交 聯(lián) 劑 有DSS[9]、BS3[10]、PIR[11-12]、DSBU[13]和DSSO[14]。
雖然琥珀酰亞胺酯基團的反應效率較高、反應副產(chǎn)物較少,但如果目標蛋白質所含賴氨酸數(shù)量較少時,使用這類交聯(lián)劑無法得到足夠多的交聯(lián)位點信息。為了獲得更多的交聯(lián)位點信息,研究人員設計出了許多包含不同反應基團的交聯(lián)劑,例如EDC[15]、DMTMM[16]和Diazoker[17]分別包含與羧基反應的二酰肼和重氮,可以與天冬氨酸D和谷氨酸E 反應;BMSO[18]包含與巰基反應的馬來酰亞胺,可以與半胱氨酸C 反應;ArGO 和KArGO[19]包含與胍基反應的苯乙二醛,可以與精氨酸R反應。
更進一步,一些交聯(lián)劑會使用非特異的反應基團,可以和數(shù)個甚至所有氨基酸發(fā)生交聯(lián)反應,此類交聯(lián)劑被稱為非特異交聯(lián)劑。例如使用磺酰氟的NHSF[20],可以與數(shù)個親核氨基酸(組氨酸H、絲氨酸S、蘇氨酸T、酪氨酸Y、賴氨酸K)反應;分別使用雙吖丙啶和苯甲酮的sulfo-SDA[21]和sulfo-SBP[22],在紫外光照射下可以與任意氨基酸反應。雖然使用非特異的反應基團理論上可以獲得更多的交聯(lián)位點信息[23],但由于交聯(lián)反應的產(chǎn)物更加復雜、交聯(lián)肽段鑒定時的搜索空間更大,對交聯(lián)肽段鑒定和質量控制都帶來很大的挑戰(zhàn),因此現(xiàn)階段此類交聯(lián)劑使用并不多。
簡單的交聯(lián)臂通常是一條碳鏈(如DSS和BS3的交聯(lián)臂)或聚乙二醇鏈(如Diazoker 和KArGO的交聯(lián)臂)。改造交聯(lián)臂,可以實現(xiàn)不同的功能,如添加可富集基團,可以富集交聯(lián)肽段[11,24-26](見4.1);帶上同位素標記,可以實現(xiàn)交聯(lián)肽段的定量等功能[11,24,27-30]。
交聯(lián)臂在質譜中是否可斷裂對后續(xù)的質譜數(shù)據(jù)采集和交聯(lián)肽段鑒定有很大影響。如果交聯(lián)臂中包含比肽鍵鍵能更低的可斷裂鍵,則質譜在斷裂肽段主干的同時,也會斷裂交聯(lián)臂。當交聯(lián)臂斷裂之后,交聯(lián)的兩條肽段彼此分離,通過特征峰的分析,有可能得到兩條肽段的質量,由此可將交聯(lián)雙肽鑒定問題轉化為常規(guī)單肽鑒定,大大降低了交聯(lián)肽段鑒定的復雜度(見6.2)。而為了既斷裂交聯(lián)臂,又斷裂肽段主干,質譜數(shù)據(jù)采集方案也需要做相應調整(見5.3)。包含質譜可斷裂交聯(lián)臂的交聯(lián)劑簡稱為質譜可斷裂交聯(lián)劑,由于其能降低交聯(lián)肽段鑒定的復雜度,逐漸成為領域的研究熱點。
目前常見的質譜可斷裂交聯(lián)劑的交聯(lián)臂所含的可斷裂鍵大致可分為兩類,一類是C—S 鍵,例如類 似 于DSSO 的 一 系 列 交 聯(lián) 劑[14,18,28,31]和CBDPS[29-30];另一類是C—N鍵,例如PIR[11-12]和DSBU[13]交聯(lián)劑。除了質譜可斷裂交聯(lián)劑之外,還有一些交聯(lián)劑的交聯(lián)臂能通過紫外光照射[32]、化學反應[33]等方法進行斷裂,此類交聯(lián)劑往往在進質譜之前就已斷裂,因此難以通過質譜鑒定發(fā)生交聯(lián)的兩條肽段。相比于質譜可斷裂交聯(lián)劑,紫外光、化學可斷裂交聯(lián)劑使用較少。
交聯(lián)臂除了具有不同的功能基團之外,其自身的長度也是很重要的屬性,稱之為臂長。大多數(shù)交聯(lián)劑的臂長在10~15 ? 之間,如DSS[9]、BS3[10]、DSBU[13]和DSSO[14];有少量交聯(lián)劑的臂長接近于0,如EDC[15]、DMTMM[16]和CDI[34];還有少量交聯(lián)劑的臂長很長,如PIR[11-12],臂長長達43 ?。一般來說,臂長越短,能形成的交聯(lián)位點對越少,但由此獲得的距離約束更緊,更適合用于蛋白質結構建模;在一定范圍內,臂長越長,能形成的交聯(lián)位點對越多,但由此獲得的距離約束更松,更適合用于蛋白質相互作用研究[35-36]。
在模塊化設計的思想指導下,產(chǎn)生了多功能交聯(lián) 臂 的 交 聯(lián) 劑, 例 如 交 聯(lián) 劑PIR[11-12]和CBDPS[29-30]的交聯(lián)臂同時具有可斷裂、可富集和可同位素標記的功能。進一步,通過組合多功能交聯(lián)臂和非特異的反應基團,甚至能夠得到全能型的交聯(lián)劑。2019年發(fā)表的pBVS交聯(lián)劑就是一種全能型交聯(lián)劑,它同時實現(xiàn)了可斷裂、可富集和可與多種氨基酸反應的功能[37]。
甲醛是一種非?;顫姷男》肿樱瓤梢耘c多種氨基酸反應, 又可以與脫氧核糖核酸(deoxyribonucleic acid,DNA)反應,因此也可以作為一種交聯(lián)劑。甲醛具有容易穿過細胞膜和核膜、交聯(lián)反應可逆等優(yōu)點,故常用于染色質免疫共沉淀(chromatin immunoprecipitation,ChIP)中固定DNA與蛋白質的相互作用[38]。此外,甲醛也被用于研究細胞內蛋白質與蛋白質的相互作用[39]。雖然甲醛具有很多的優(yōu)點,但甲醛交聯(lián)的作用機制尚不明確,很少有工作能夠直接從甲醛交聯(lián)樣品中鑒定到交聯(lián)肽段。2020 年,以色列希伯來大學的Kalisman 團隊[40]推測,甲醛交聯(lián)通過兩步反應完成,且形成的交聯(lián)劑質量為24 u、在質譜中容易斷裂為兩個12 u的修飾。因此,甲醛相當于一種非特異、可斷裂的交聯(lián)劑。
截至目前,雖然各種新型交聯(lián)劑層出不窮,但最常使用的交聯(lián)劑依然是DSS 和BS3[41],這一方面是因為這兩種交聯(lián)劑的反應特異性好、反應副產(chǎn)物少、數(shù)據(jù)分析方法成熟,另一方面是因為很多新型交聯(lián)劑的設計理念雖好,但相應的質譜數(shù)據(jù)采集方案和交聯(lián)肽段鑒定方法并不成熟,實際應用時效果并不理想。有研究人員呼吁,交聯(lián)劑的設計不應該只是概念驅動(concept-driven),而應該是數(shù)據(jù)驅動(data-driven),即交聯(lián)劑的優(yōu)勢必須經(jīng)過實驗的充分驗證,而不僅僅是設計理念的優(yōu)勢[42]。表1展示了部分交聯(lián)劑及其特性。一些綜述專門針對交聯(lián)劑的進展進行了總結[42-44],其中德國柏林工業(yè)大學Rappsilber 團隊[42]的綜述詳細解剖了交聯(lián)劑的組成模塊,荷蘭烏得勒支大學Heck團隊[43]的綜述詳細對比了可斷裂交聯(lián)劑與不可斷裂交聯(lián)劑的異同。
除了使用化學交聯(lián)劑交聯(lián)兩個氨基酸位點之外,生物體內部也會形成天然的交聯(lián)形式,例如二硫鍵交聯(lián)[45]、類泛素化修飾交聯(lián)[46]等,此類交聯(lián)形式稱為內源性交聯(lián)。內源性交聯(lián)也可通過質譜技術進行鑒定,但鑒定流程的各個環(huán)節(jié)與圖1所示的化學交聯(lián)質譜技術流程稍有差異。本文將重點介紹化學交聯(lián)質譜技術,以下簡稱化學交聯(lián)質譜技術為交聯(lián)質譜技術。
Table 1 The information of some commonly used cross-linkers表1 部分常見交聯(lián)劑及其特性(以首次發(fā)表時間升序排列)
為了維持蛋白質的活性,交聯(lián)反應通常需要在合適的條件下進行,需要特別注意的3 個參數(shù)是pH、溫度和交聯(lián)劑濃度。過酸、過堿、高溫都可能導致蛋白質失活,而且酸性pH還可能導致NHS類交聯(lián)劑產(chǎn)生較多的副反應[8],所以交聯(lián)反應通常需要在中性pH 和室溫下進行。交聯(lián)劑的濃度是另一個需要關注的參數(shù),濃度太高不但會導致較多的副反應,還可能影響蛋白質的結構和功能[47]。因此,對于不同的交聯(lián)劑和蛋白質樣品,需要針對性地優(yōu)化這3個參數(shù)。此外,交聯(lián)反應分為在細胞內(in vivo)進行和細胞外(in vitro)進行,如果想要捕獲蛋白質在原生狀態(tài)下的結構,則需要在細胞內進行交聯(lián)反應,此時需要選擇能夠通過細胞膜的交聯(lián)劑,如DSS[48]和Azide-A-DSBSO[31]等。
蛋白質發(fā)生交聯(lián)反應之后,需要將交聯(lián)產(chǎn)物酶切成肽段,以便進入質譜檢測。酶切是指蛋白質在酶的催化作用下水解的過程,也稱為蛋白質水解。目前常用的酶是胰蛋白酶Trypsin,它能在賴氨酸K和精氨酸R的C端酶切,由于賴氨酸和精氨酸在蛋白質序列中含量較多[49],且它們容易攜帶正電,使得被Tyrpsin 酶切后的肽段長度適中,且容易被質譜檢測。不過,對于交聯(lián)產(chǎn)物,由于常用的NHS 類交聯(lián)劑已經(jīng)交聯(lián)了賴氨酸,使得被交聯(lián)的賴氨酸不能被Trypsin酶切,導致Trypsin酶切后的肽段較長、質量較大,可能不易被質譜檢測。
后來,有研究人員提出同時使用多種酶進行酶切的并行酶切方法(parallel digestion)[50],即將交聯(lián)產(chǎn)物分成多份,每份使用不同的酶進行酶切并分別進行質譜數(shù)據(jù)分析。實驗結果表明,并行酶切相比于僅對單份交聯(lián)產(chǎn)物進行單次Trypsin 酶切能鑒定到更多的交聯(lián)位點對。然而,有研究結果表明,并行酶切并不會改變酶切肽段的質量分布[51],且如果將交聯(lián)產(chǎn)物分成多份,每份只使用Trypsin 酶切并分別進行質譜數(shù)據(jù)分析(相當于多次技術重復),這種只使用Trypsin的并行酶切方法也能達到和使用多種酶的并行酶切方法相當?shù)慕宦?lián)鑒定數(shù)目[52]。2019 年,Rappsilber 團隊[52]和中國大連化學物理研究所的張麗華團隊[53]相繼提出使用順序酶切方法(sequential digestion)對交聯(lián)產(chǎn)物進行酶切,即先使用Trypsin 酶切,酶切終止之后再加入另一種酶(如Asp-N、Chymotrypsin、Glu-C)進行酶切。順序酶切能有效降低酶切肽段的長度和質量,使得酶切后產(chǎn)生的交聯(lián)肽段更容易被質譜檢測,進一步也提升了交聯(lián)位點對的鑒定數(shù)目。
交聯(lián)產(chǎn)物酶切之后,通常會得到4種不同類型的肽段,包括未發(fā)生交聯(lián)反應的線性肽段(linear peptide)、被交聯(lián)劑一端修飾的線性肽段(monolinked 或type-0 peptide)、肽段內部的交聯(lián)(looplinked 或type-1 peptide)和肽段間的交聯(lián)(crosslinked或type-2 peptide pair)。其中,線性肽段由于只含有1條肽段,也稱為單肽;肽段間的交聯(lián)由于含有兩條肽段,也稱為交聯(lián)肽段或交聯(lián)雙肽。在這4種類型的肽段中,交聯(lián)肽段能夠提供最多的距離約束信息,是交聯(lián)質譜技術需要鑒定的主要肽段形式。交聯(lián)肽段又可以進一步劃分為兩種:如果交聯(lián)的兩條肽段來自同一條蛋白質,則稱為蛋白質內的交聯(lián)肽段(intra-protein cross-linked peptide pair),否則稱為蛋白質間的交聯(lián)肽段(Inter-protein crosslinked peptide pair)。
由于交聯(lián)肽段只占酶切產(chǎn)物的一小部分,大量存在的線性肽段對交聯(lián)肽段的質譜采集和鑒定帶來很大的挑戰(zhàn)[6,35]。為了鑒定到更多的交聯(lián)肽段,需要對其進行富集?,F(xiàn)有的交聯(lián)肽段富集方法大致可分為親和純化方法、色譜分離方法和質譜富集方法,不同方法利用了交聯(lián)肽段的不同特性,下面進行具體介紹。
親和純化方法利用交聯(lián)肽段攜帶交聯(lián)劑的特性,通過可富集交聯(lián)劑,實現(xiàn)對交聯(lián)肽段的富集??筛患宦?lián)劑是指交聯(lián)臂上攜帶有可富集基團的交聯(lián)劑。最常見的可富集基團是生物素(biotin),它與鏈霉親和素(streptavidin)有很強的親和作用,因此可以用鏈霉親和素磁珠富集交聯(lián)肽段。生物素的一個不足是體積較大,由于位阻效應(steric effects),可能會影響交聯(lián)劑的反應效率[4]。常見的攜帶生物素的可富集交聯(lián)劑有PIR[11-12]、Leiker[24]、CBDPS[29-30]、PC-DUCCT-biotin[54]等。
為了避免生物素對交聯(lián)反應效率的影響,生物素的引入可延后到交聯(lián)反應之后。具體來說,攜帶炔基(alkyne)或疊氮化合物(azide)的交聯(lián)劑先進行交聯(lián)反應,然后通過點擊化學(click chemistry)的方式使炔基或疊氮化合物與生物素發(fā)生反應,進而使交聯(lián)劑帶上生物素,后續(xù)再通過生物素富集交聯(lián)肽段。由于炔基和疊氮化合物的體積較小,而且?guī)缀醪淮嬖谟谏锓肿又?,具有較好的生物正交性(biorthogonality),使包含此類基團的交聯(lián)劑反應效率較高,對生物體影響較小。常見的攜帶炔基或疊氮化合物的可富集交聯(lián)劑有Azide-ADSBSO[31]、cliXlink[26]、NNP9[55]等。
2019 年,中國上??萍即髮W的陳文章團隊和Heck 團隊相繼設計出可富集交聯(lián)劑pBVS[37]和PhoX[25],作者借鑒磷酸化肽段的富集方法,在交聯(lián)劑的交聯(lián)臂上加入磷酸基團,然后分別使用二氧化鈦(TiO2) 和固定化金屬離子親和色譜(immobilized metal-ion affinity chromatography,IMAC)富集交聯(lián)肽段,達到了較好的富集效果。
總的來說,基于親和純化的交聯(lián)肽段富集方法具有很好的設計理念,能高效地富集攜帶交聯(lián)劑的肽段,但由于大量被交聯(lián)劑修飾的線性肽段也攜帶交聯(lián)劑,使富集后的交聯(lián)肽段占比依然不夠高[24-25,56],這是此類富集方法普遍存在的一個問題。
由于交聯(lián)雙肽由兩條肽段組成,其電荷和體積往往大于非交聯(lián)肽段。色譜分離方法即利用交聯(lián)肽段所帶電荷較多、體積較大的特性,通過強陽離子交換(strong cation-exchange,SCX)色譜[57]或分子排阻色譜(size exclusion chromatography,SEC)[50]分離交聯(lián)肽段和非交聯(lián)肽段,從而達到富集交聯(lián)肽段的目的。在強陽離子交換色譜中,固定相中含有帶負電的離子交換劑,當流動相經(jīng)過色譜柱時,帶低正電的肽段與固定相的作用力較弱,洗脫較早,而帶高正電的肽段與固定相的作用力較強,洗脫較晚,因此交聯(lián)肽段往往有更長的保留時間。在分子排阻色譜中,固定相中含有大小不同的孔隙,當流動相經(jīng)過色譜柱時,較小的肽段進入孔隙使得其保留時間較長,而較大的肽段只能從較小的孔隙的外側繞過,洗脫較早,因此交聯(lián)肽段往往有更短的保留時間。色譜分離方法對分離交聯(lián)肽段有一定效果,但如果非交聯(lián)肽段含有較多的遺漏酶切位點,使得其所帶電荷和體積與交聯(lián)肽段接近時,便難以與交聯(lián)肽段分離。
離子淌度分離(ion mobility separation,IMS)是一種在氣相中分離復雜離子化混合物的技術,其與質譜技術結合形成的離子淌度質譜(ion mobility mass spectrometry,IMMS)是一種功能強大的分離和分析方法[58]。在離子淌度質譜中,樣品被離子化之后,首先進入離子淌度分離設備,該設備充滿緩沖氣體并被施加了一定強度的電場,不同離子由于質量、電荷、形狀等的差異,與緩沖氣體碰撞之后通過電場的時間不同;通過改變電場強度,可實現(xiàn)對不同離子的分離;通過離子淌度分離的離子再進入質量分析器進行質譜分析。2020年,德國萊布尼茨分子藥理學研究所的劉凡團隊[59]使用裝備了高場不對稱波形離子淌度譜(high field asymmetric waveform ion mobility spectrometry,F(xiàn)AIMS)的Lumos質譜儀,一定程度上分離了交聯(lián)肽段離子和非交聯(lián)肽段離子,將HEK293T 樣品的DSS交聯(lián)位點鑒定數(shù)目提升了1倍。同年,Heck團隊[60]使用裝備了捕集離子淌度譜(trapped ion mobility spectrometry,TIMS)的timsTOF Pro 質譜儀,在PhoX 親和純化富集的基礎上,進一步分離了交聯(lián)肽段離子和被交聯(lián)劑修飾的線性肽段離子,有效避免了50%~70%的被交聯(lián)劑修飾的線性肽段離子被采集二級譜,起到了較好的富集交聯(lián)肽段離子的效果。
無論是親和純化方法,還是色譜分離方法,都是在樣品進入質譜前對交聯(lián)肽段進行富集,即使是離子淌度分離方法,也只是處在色譜和質譜之間的一種分離方法。當樣品進入質譜之后,如果能夠控制質譜儀,使其采集更多的交聯(lián)肽段的碎片離子譜圖,進而增加交聯(lián)肽段鑒定數(shù)目,從最終效果來看,也相當于“富集”了交聯(lián)肽段。目前,大多數(shù)交聯(lián)質譜研究工作通常使用數(shù)據(jù)依賴采集(datadependent acquisition,DDA)方式采集肽段的碎片離子譜圖,在這種方式下,質譜儀根據(jù)一些規(guī)則從一級譜中挑選若干母離子峰,進一步碎裂得到對應的碎片離子譜圖。如果能夠識別出一級譜中哪些母離子是交聯(lián)肽段,哪些母離子是非交聯(lián)肽段,然后控制質譜儀有針對性地采集交聯(lián)肽段的碎片離子譜圖,則能在質譜端實現(xiàn)對交聯(lián)肽段的富集。2016年,Rappsilber 團隊[61]利用交聯(lián)肽段的母離子質量較大、所帶電荷較高的特點,設計了基于決策樹的質譜數(shù)據(jù)采集方案,僅采集電荷超過2+、質量大于1 300 u 的母離子的碎片離子譜圖,在這種策略下,能夠避免59%的非交聯(lián)母離子采集二級譜,且只損失2%的交聯(lián)譜圖,一定程度上起到了富集交聯(lián)譜圖的效果。
總的來說,目前的交聯(lián)肽段富集方法大多是生物化學方法,不同方法利用了交聯(lián)肽段的不同特征,雖然能起到一定的富集效果,但富集效果還有提升空間。如果能綜合不同富集方法提取的特征,使用計算技術訓練更加強大的分類器,用于區(qū)分交聯(lián)肽段和非交聯(lián)肽段,也許能進一步改進富集效果。
液相色譜法-質譜聯(lián)用(liquid chromatographymass spectrometry,LC-MS,簡稱液質聯(lián)用)是指將液相色譜的物理分離能力和質譜的質量分析能力結合起來的分析化學技術。前面4.2已經(jīng)介紹了使用液相色譜分離交聯(lián)肽段的方法,下面先簡要介紹蛋白質組學中常見的質譜碎裂方法,然后介紹針對交聯(lián)肽段的質譜碎裂方法。
蛋白質組學中常見的質譜碎裂方法主要有3種,分別是碰撞誘導裂解(collision-induced dissociation,CID)、高能碰撞裂解(higher energy collisional dissociation,HCD) 和電子轉移裂解(electron transfer dissociation,ETD)。CID 是利用加速電場,使肽段離子和中性分子發(fā)生碰撞,進而碎裂肽段的方法[62]。被CID 碎裂的離子通常在離子阱(ion trap,IT)中掃描成碎片離子譜圖,由于母離子碎裂和碎片離子掃描都在離子阱中完成,CID-IT的組合方式具有速度快、靈敏度高的優(yōu)勢。但是離子阱的分辨率和質量精度相對較低,且存在固有的“1/3 效應”,即無法記錄質荷比小于1/3 母離子質荷比的碎片離子[63]。后來,有研究人員提出HCD 碎裂方式,即母離子在特定的碰撞室(collision cell)內完成碰撞和碎裂,然后碎片離子被傳輸?shù)杰壍磊澹╫rbitrap,OT)中完成掃描[64]。HCD-OT的組合方式不存在“1/3效應”,具有分辨率和質量精度高、質量范圍寬等優(yōu)勢,但采集速度比CID-IT 慢一些。CID 和HCD 主要碎裂肽鍵,產(chǎn)生b/y離子。
ETD 是一種和CID、HCD 完全不同的碎裂方式,它利用攜帶電子的陰離子與攜帶質子的肽段離子之間的反應,使肽段離子發(fā)生碎裂[65]。相比于CID 和HCD,ETD 碎裂不受肽段序列的影響,且不易碎裂修飾基團,所以碎片離子包含了完整的修飾質量信息,進而更容易鑒定修飾位點,所以ETD 在整體蛋白質鑒定與修飾鑒定中有廣泛的應用[66]。但是ETD 往往存在碎裂不完全的問題,使得碎片離子譜圖中存在較強的低價母離子峰。為了提高肽段的碎裂效率,研究人員又提出了ETciD[67]和EThcD[68]的碎裂方式,即在ETD碎裂之后補充CID 或HCD 碎裂。ETD 主要碎裂N-Cα鍵,產(chǎn)生c/z離子;ETciD和EThcD同時產(chǎn)生b/y和c/z離子。
由于交聯(lián)劑是否質譜可斷裂對交聯(lián)肽段的質譜碎裂方法有很大影響,下面分別介紹質譜不可斷裂與質譜可斷裂的交聯(lián)劑所交聯(lián)肽段的質譜碎裂方法。為了便于敘述,將質譜不可斷裂交聯(lián)劑所交聯(lián)的肽段稱為不可斷裂交聯(lián)肽段;類似地,將質譜可斷裂交聯(lián)劑所交聯(lián)的肽段稱為可斷裂交聯(lián)肽段。
由于不可斷裂交聯(lián)肽段的交聯(lián)劑在質譜中不容易斷裂,所以針對此類交聯(lián)肽段碎裂方法的主要目標是充分碎裂肽段,以利于后續(xù)的交聯(lián)肽段鑒定。2012年,北京生命科學研究所的董夢秋團隊[69]利用BS3交聯(lián)的合成肽段數(shù)據(jù)集,對比了CID、HCD和ETD的譜圖質量,發(fā)現(xiàn)HCD 碎裂的交聯(lián)譜圖質量最好(圖2a)。因此,對于不可斷裂交聯(lián)肽段,HCD 作為一種簡單有效的碎裂方式,被大多數(shù)實驗室所采用。
后來,Rappsilber 團隊[70]進一步在簡單的蛋白質復合物樣品上對比了CID、HCD、ETD、ETciD 和EthcD 5 種碎裂方案,再一次證明了HCD在碎裂不可斷裂交聯(lián)肽段上的優(yōu)勢。此項工作表明,HCD 在碎裂大多數(shù)交聯(lián)肽段時具有較好的序列覆蓋度,且具有速度優(yōu)勢,能鑒定到更多的交聯(lián)肽段;EThcD 在碎裂高價態(tài)、大質量交聯(lián)肽段時,能獲得比HCD 更高的序列覆蓋度,但代價是更長的碎裂時間。因此,作者提出了一種基于決策樹的碎裂方案,即根據(jù)母離子的質荷比與電荷,實時決定采用HCD 或EThcD 碎裂方式。此后,該團隊一直使用此決策樹方案碎裂交聯(lián)肽段[71-72]。由于ETD 碎裂功能只存在部分質譜儀中,EThcD 的應用范圍受限。
除了HCD 碎裂方法之外,也有研究人員利用紫外光裂解(ultraviolet photodissociation,UVPD)碎裂不可斷裂交聯(lián)肽段。相比于HCD,雖然UVPD碎裂方式鑒定到的交聯(lián)肽段數(shù)目更少,但可作為HCD的補充,能鑒定到一些HCD鑒定不到的交聯(lián)肽段[73]。
對可斷裂交聯(lián)肽段的碎裂需要同時兼顧兩個方面,一方面希望能碎裂交聯(lián)劑得到兩條肽段的完整肽段離子峰,以便推斷出交聯(lián)兩條肽段的質量,進而降低鑒定復雜度(見6.2);另一方面,又希望能充分碎裂肽段,得到盡可能多的肽段碎片離子,以便鑒定肽段序列。然而,這兩個目標往往是互相矛盾的,因為高豐度的完整肽段離子峰意味著肽段碎裂不充分,所以產(chǎn)生的肽段碎片離子較少。此外,由于交聯(lián)劑中易斷裂鍵的鍵能往往小于肽鍵,使得交聯(lián)劑比肽段更容易在低能量下碎裂,導致單次碎裂往往無法同時獲得足夠的完整肽段離子峰和肽段碎片離子峰。
Fig.2 Fragmentation methods for cross-linked peptide pairs圖2 交聯(lián)肽段質譜碎裂方法
為了同時獲得足夠的完整肽段離子峰和肽段碎片離子峰,研究人員相繼提出了多種不同的碎裂方案(圖2b~d)。在可斷裂交聯(lián)劑提出之初,研究人員普遍采用三級質譜的碎裂方案[11,13-14,74](圖2b):先用低能量CID 碎裂肽段母離子;如果在二級譜中能檢測到豐度高、且質量差為某個預設值的雙峰(doublet),則說明該母離子是交聯(lián)肽段,且雙峰是已分離的兩條單肽的肽段離子峰;接著,隔離雙峰離子,進行三級質譜碎裂,得到兩條單肽的碎片離子譜圖。在這種方案下,交聯(lián)兩條單肽的質量可從二級譜中推算得到,結合三級譜圖,可利用常規(guī)單肽搜索引擎鑒定交聯(lián)雙肽的序列。三級質譜的碎裂方案由于對交聯(lián)兩條單肽分開進行碎裂和掃描,避免了交聯(lián)雙肽碎裂時互相影響的問題[75],也簡化了碎片離子譜圖。但是,三級質譜的觸發(fā)取決于能否在二級譜中找到固定質量差的雙峰,如果可斷裂交聯(lián)肽段在二級譜中沒有形成雙峰,或者質譜儀找到的雙峰并不是肽段離子峰,則可能導致漏打或誤打三級譜的問題。
2015 年,Heck 團隊[76]提出了CID+ETD 的組合碎裂方案(圖2c):對于每一個肽段母離子,同時進行低能量CID碎裂和ETD碎裂,CID碎裂提供肽段離子雙峰和少量b/y碎片離子,ETD 碎裂提供c/z碎片離子。在這種方案下,交聯(lián)兩條單肽的質量可從CID 二級譜中推算得到,結合CID 和ETD二級譜中的碎片離子峰,可利用常規(guī)單肽搜索引擎鑒定交聯(lián)雙肽的序列。進一步,該團隊在2017 年將三級質譜方案和CID+ETD 方案組合,提出了CID-MS2-MS3-ETD-MS2 的混合方案[77],即對同一個肽段母離子,同時使用三級質譜方案和CID+ETD 方案碎裂,且新增了基于譜峰強度的三級質譜觸發(fā)機制。實驗結果表明,新的混合方案相比于單獨使用三級質譜方案或CID+ETD 方案,能顯著提高交聯(lián)肽段鑒定數(shù)目。然而,使用ETD 的方案要求質譜儀支持ETD 碎裂,這一定程度上限制了方案的普適性。此外,上述方案都需要對母離子進行多次碎裂和掃描,數(shù)據(jù)采集效率較低。
2016 年以來,有多個研究團隊相繼提出了基于階梯能量的HCD 碎裂方案(stepped collision energy HCD,SCE-HCD)(圖2d),如德國哈雷-維滕貝格馬丁路德大學的Sinz 團隊[78]、澳大利亞新南威爾士大學的Wilkins團隊[79]和奧地利分子病理學研究所的Mechtler 團隊[80]。SCE-HCD 方案對每一個肽段母離子,分別使用低、中、高三種能量進行HCD 碎裂,然后把三次碎裂的離子掃描到一張二級譜中。在SCE-HCD碎裂方案中,低能量HCD起到與低能量CID 類似的效果,即主要碎裂交聯(lián)劑,生成完整肽段離子峰;高能量HCD 主要碎裂肽段主干,生成碎片離子峰。由于質譜儀參數(shù)限制,階梯能量必須設置3種能量,所以一般還會設置1 個折中的中等能量。對于DSBU,由于交聯(lián)劑斷裂的鍵能與肽段主干斷裂的鍵能相當,針對DSBU 交聯(lián)肽段的3 個碎裂能量相對集中,在Fusion 質譜儀中一般為27-30-33[78];對于DSSO,由于交聯(lián)劑斷裂的鍵能比肽段主干斷裂的鍵能更低,針對DSSO 交聯(lián)肽段的3 個碎裂能量相對分散,在Lumos中一般為21-27-33[80]。對于PIR,雖然暫未有SCE-HCD 碎裂方案發(fā)表,但針對PIR 的碎裂方式也已經(jīng)從三級質譜[74]過渡到僅使用二級質譜[81],可以預見SCE-HCD對PIR也有進一步提升效果。
SCE-HCD 碎裂方案概念簡單,數(shù)據(jù)采集效率較高,且不受儀器的限制。已有的工作表明,無論是DSBU 還是DSSO,SCE-HCD 相比于前幾種碎裂方案,都能鑒定到更多的交聯(lián)肽段[78-80]。雖然SCE-HCD 的優(yōu)勢已初步顯現(xiàn),但因為其將完整肽段離子峰和肽段碎片離子峰掃描在同一張二級譜圖中,而可斷裂交聯(lián)雙肽的肽段離子峰通常有4 根,相當于4條肽段共碎裂形成了1張混合譜圖,對后續(xù)的碎片離子譜圖解析帶來較大的挑戰(zhàn)??偟膩碚f,對于可斷裂交聯(lián)肽段,目前存在多種不同的碎裂方案,每種方案都存在一定的不足,SCE-HCD相對來說優(yōu)勢更加明顯,有望成為碎裂可斷裂交聯(lián)肽段的通用方法。
相比于常規(guī)單肽鑒定,交聯(lián)肽段鑒定具有更大的挑戰(zhàn),主要體現(xiàn)在以下3個方面[1,82]:
a.產(chǎn)物更加多樣。正如第3節(jié)所述,交聯(lián)樣品酶切之后存在至少4種不同類型的肽段,而且交聯(lián)肽段僅占其中很小一部分,產(chǎn)物的多樣性給算法和軟件架構設計帶來更大的挑戰(zhàn)。
b.譜圖更加復雜。交聯(lián)肽段的碎片離子譜圖中存在多種類型的離子,既包含常規(guī)單肽離子,也包含攜帶交聯(lián)劑的交聯(lián)離子,還包含兩條肽段同時碎裂形成的內部離子,譜圖的復雜性給匹配打分算法帶來更大的挑戰(zhàn)。
c.搜索空間更大。交聯(lián)肽段由兩條單肽組合而成,因此其搜索空間隨數(shù)據(jù)庫規(guī)模的增長而呈平方量級的擴大。據(jù)統(tǒng)計,對于人類數(shù)據(jù)庫,交聯(lián)肽段的搜索空間是常規(guī)單肽的數(shù)百萬倍[1],平方搜索空間問題給鑒定算法帶來更大的挑戰(zhàn)。
在上述3個挑戰(zhàn)中,相對來說,平方搜索空間問題帶來的挑戰(zhàn)最大,特別是從大數(shù)據(jù)庫中鑒定交聯(lián)肽段時,巨大的搜索空間對速度和精度都有很大的影響[83]。為了緩解平方搜索空間問題,領域發(fā)展出兩條不同的技術路線:第一條路線是通過計算技術實現(xiàn)大數(shù)據(jù)庫下的交聯(lián)肽段鑒定;第二條路線是設計可斷裂交聯(lián)劑,通過生化技術避開平方搜索空間問題.下面分別介紹這兩條技術路線。
不可斷裂交聯(lián)劑是使用時間最長、應用范圍最廣的一類交聯(lián)劑,自本世紀初交聯(lián)質譜技術提出以來[2],領域內提出了大量的算法鑒定不可斷裂交聯(lián)肽段[1,82](表2)。在這個過程中,鑒定算法大致經(jīng)歷了4個發(fā)展階段,依次是:基于一級質譜的鑒定算法[2,84]、生成交聯(lián)肽段數(shù)據(jù)庫借助常規(guī)單肽引擎進行鑒定的算法[85-86]、窮舉式搜索算法[87-89]和開放式搜索算法[27,69,90]。其中,前兩種算法由于沒有或只利用了部分交聯(lián)肽段的碎片離子,鑒定性能較差,現(xiàn)今已經(jīng)很少被人所使用,下面重點介紹窮舉式和開放式搜索算法。
給定一張二級譜圖,窮舉式搜索算法是指枚舉所有的肽段組合,將組合質量加交聯(lián)劑質量等于母離子質量的交聯(lián)雙肽都與譜圖進行匹配打分,取最高分的交聯(lián)雙肽作為該譜圖的鑒定結果,如軟件StavroX[87]、SIM-XL[91]、Xilmass[88]等都是窮舉式搜索引擎。然而,由于平方搜索空間問題,如果數(shù)據(jù)庫中有N條肽段,則樸素版窮舉式搜索算法的時間復雜度將為O(N2),難以支持大規(guī)模數(shù)據(jù)庫的交聯(lián)肽段搜索。后續(xù),有研究人員將肽段按質量有序排列,一定程度上加速了窮舉搜索的過程[92-93],但肽段排序通常需要O(N*lg(N))的時間,這種方法仍然具有較高的時間復雜度。
2016 年以來,中國香港科技大學的余維川團隊持續(xù)對樸素的窮舉算法進行了改進,先后推出了ECL[89]、ECL2[94]和Xolik[95]三款窮舉式搜索引擎。其中,ECL 使用簡化的打分算法加速搜索過程; ECL2 使用可加性打分(additive score function)和肽段質量分桶機制(binning strategy)實現(xiàn)了線性時間復雜度O(N)的窮舉搜索算法;Xolik 使用雙端隊列(double-ended queue)和記憶化(memoization)進一步降低了線性時間復雜度的常數(shù)系數(shù),可以搜索人類數(shù)據(jù)庫。雖然ECL 和Xolik 的系列工作從理論上加速了交聯(lián)肽段的窮舉搜索過程,但它們在一定程度上犧牲了搜索精度,例如可加性打分無法考慮交聯(lián)雙肽所有可能的碎片離子、對母離子誤差精度要求高等。從實際評測結果來看,Xolik 搜索引擎的精度還有較大的提升空間[56]。
2008 年,美國華盛頓大學的Goodlett 團隊[90]首次將開放式搜索策略引入到交聯(lián)肽段鑒定中來,提出了開放式搜索引擎Popitam。此后,開放式搜索策略逐漸成為鑒定交聯(lián)肽段的主流方法。在這一策略中,交聯(lián)雙肽被看作兩條單肽各自攜帶了一個大質量修飾,修飾質量可通過母離子質量減去單肽質量得到。因此,開放式搜索首先將數(shù)據(jù)庫中的單肽與譜圖進行開放式粗打分,然后將粗打分前k名的單肽組合為交聯(lián)雙肽,再與譜圖進行細打分。在開放式搜索策略中,粗打分的時間復雜度為O(N),細打分的時間復雜度為O(k2),因此,總的時間復雜度為O(N+k2)。由于k為較小的常數(shù),開放式搜索的時間復雜度遠小于窮舉式搜索。常見的開放式搜 索 引 擎 有pLink 1[69]、Protein Prospector[75]、Kojak[96]等,它們的主要差異在于k的取值不同,分別為k=500、k=1 000、k=250。值得一提的是,除了k的差別之外,在粗打分保留候選單肽時,不同策略也會導致引擎性能的差異。pLink 1 以母離子質量的一半為界,將候選單肽劃分為稍大質量的α肽段和稍小質量的β肽段,然后α肽段和β肽段各自保留前k名;Protein Prospector和Kojak并不區(qū)分α肽段和β肽段,而是將所有候選單肽作為一個整體保留前k名。由于大質量肽段的碎片離子偏多,粗打分往往偏高,Protein Prospector 和Kojak 的策略有可能無法在前k名中召回正確的β肽段,導致搜索失敗。相對來說,pLink 1將α肽段候選和β肽段候選分開保留的策略更加合理,靈敏度更高。
常規(guī)開放式搜索的時間復雜度為O(N+k2),雖然相比于窮舉式有很大進步,但當數(shù)據(jù)庫規(guī)模N很大時,開放式搜索的粗打分階段會成為新的性能瓶頸。自2014 年以來,中國科學院計算技術研究所的pFind 團隊[97]在pLink 1 工作的基礎上,著手研發(fā)新一代開放式交聯(lián)肽段搜索引擎,并最終于2019年推出新版pLink 2[56]。pLink 2利用交聯(lián)雙肽碎裂不均的特點[75],設計了兩階段的搜索策略,即先搜索碎裂較好的偏長肽段,后搜索碎裂一般的偏短肽段。此外,又分別設計了肽段碎片質量索引和完整肽段質量索引加速長肽段和短肽段的搜索過程。實驗結果表明,pLink 2 相比于pLink 1 速度提 升 40 倍。 此 后, xiSEARCH[52,61]和MetaMorpheusXL[98]也采用了類似的兩步搜索策略或肽段碎片質量索引結構。此外,pLink 2 通過引入新的預處理算法pParse[99]和半監(jiān)督機器學習重打分算法Percolator[100-101],在精度方面也有所改善,是目前整體性能最佳的交聯(lián)肽段搜索引擎之一。
可斷裂交聯(lián)劑相比于不可斷裂交聯(lián)劑的優(yōu)勢在于,交聯(lián)劑斷裂可分離交聯(lián)的兩條肽段,并在二級質譜中形成完整肽段離子特征峰,根據(jù)特征峰可推算出交聯(lián)兩條單肽的質量,進而將交聯(lián)肽段鑒定問題簡化為兩次常規(guī)單肽鑒定問題。所以對于可斷裂交聯(lián)肽段的鑒定,核心問題是如何從二級質譜中找出特征峰,并推算出交聯(lián)兩條單肽的質量。
對于常見的可斷裂交聯(lián)劑,如DSSO、DSBU和PIR,其交聯(lián)臂上有兩個斷裂位點。如圖3所示,當使用低能量CID對交聯(lián)肽段進行碎裂時,如果交聯(lián)臂左邊的位點斷裂,則會生成帶交聯(lián)劑短臂的αS和帶交聯(lián)劑長臂的βL兩根特征峰;如果交聯(lián)臂右邊的位點斷裂,則會生成帶交聯(lián)劑長臂的αL和帶交聯(lián)劑短臂的βS兩根特征峰;如果兩個位點同時斷裂,則還可能生成報告離子峰r(reporter ion)。對于DSSO 和DSBU,其報告離子質量分別為49.98 u 和25.98 u,由于質量太小,通常無法被二級質譜所檢測;對于PIR系列交聯(lián)劑,其報告離子質量較大(如BDP-NHP 的報告離子質量為751.41 u[81]),通??梢员欢壻|譜所檢測,可用來判斷二級譜是否為交聯(lián)譜圖。
Fig.3 Three methods to derive masses of two peptides linked by cleavable cross-linkers圖3 可斷裂交聯(lián)劑簡化交聯(lián)肽段鑒定的3種方法
給定一張可斷裂交聯(lián)肽段的二級譜圖,通常有3 種方法從譜圖中推算出交聯(lián)兩條單肽的質量(圖3):
a.枚舉任意兩根峰,如果它們的質量之和等于母離子質量,則認為找到αS和βL或αL和βS,使用此類方法的搜索引擎有Link-Finder[14]和MaXLinker[102];
b.枚舉任意兩根峰,如果它們的質量之差等于交聯(lián)劑報告離子質量,則認為找到αL和αS或βL和βS,使用此類方法的搜索引擎有XlinkX[76-77]和MeroX[78,103];
c.枚舉任意兩根峰,如果它們的質量之和等于母離子質量減報告離子質量,則認為找到了αS和βS,使用此類方法的搜索引擎有ReACT[74]和Mango[81]。
其中方法a 和方法c 利用了母離子質量,方法b 僅利用了碎片譜峰的質量;3 種方法都同時適用于DSSO、DSBU 和PIR 交聯(lián)肽段。最近剛發(fā)表的MS Annika則同時使用了上述多種方法[104]。
由于并不是所有可斷裂交聯(lián)肽段都能在二級譜中形成完整的4 根特征峰,如果缺失特征峰較多,上述基于特征峰質量的單肽質量推算方法將失效。為了提升靈敏度,有些搜索引擎利用特征峰強度較高的特點,增加了基于特征峰強度的單肽質量推算方法。如XlinkX 2.0假設強度排名前三的譜峰中存在1根特征峰,則可通過母離子質量推算出另一條肽段的特征峰質量,進而推算出兩條單肽的質量[77]。當?shù)玫絻蓷l單肽的質量之后,可以使用常規(guī)單肽搜索引擎進一步鑒定兩條單肽的序列,如Mango 使 用Comet[105]、 MS Annika 使 用MS Amanda[106]等。
需要指出的是,無論是三級質譜(圖2b)還是CID+ETD(圖2c)的碎裂方式,可斷裂交聯(lián)肽段都是在低能量CID碎裂下形成特征峰,在這種碎裂方式下,二級譜中的肽段離子特征峰的強度較高、碎片離子相對較少。因此,無論是基于特征峰質量還是特征峰強度,都能相對容易推算出兩條單肽的質量。但是,如果是在高能量HCD或者SCEHCD(圖2d)的碎裂方式下,則二級譜中會混雜大量碎片離子譜峰,而且攜帶交聯(lián)劑的碎片離子也滿足上述一些質量關系或者譜峰強度較高,給單肽質量推算帶來較大的挑戰(zhàn)。
最后,如果不考慮可斷裂交聯(lián)肽段的碎裂特性,則現(xiàn)有的不可斷裂交聯(lián)肽段搜索引擎也可用于鑒定可斷裂交聯(lián)肽段。不過大多數(shù)不可斷裂交聯(lián)肽段搜索引擎由于在匹配打分時沒有考慮交聯(lián)劑和肽段主干同時斷裂產(chǎn)生的碎片離子,它們的靈敏度還有待提升。此外,由于沒有利用肽段離子特征峰的信息,不可斷裂交聯(lián)肽段搜索引擎在鑒定可斷裂交聯(lián)肽段時的搜索空間依然是平方量級,搜索速度也還有待提升。表2展示了部分常見交聯(lián)肽段搜索引擎的信息。
Table 2 The information of some commonly used search engines for cross-linked peptide pairs表2 部分常見交聯(lián)肽段搜索引擎(以首次發(fā)表時間升序排列)
基于數(shù)據(jù)庫搜索的交聯(lián)肽段鑒定方法,一般都會發(fā)生隨機匹配的情況,使得鑒定結果集合中存在錯誤的結果。如何估計鑒定結果集合中的假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)是質量控制需要解決的核心問題。2012 年之前,有研究工作使用打分經(jīng)驗閾值[33]、隨機交聯(lián)劑質量[85]、晶體結構比對[27]等方法估計FDR,但這些方法判定標準不一致、主觀性大、不易推廣。2012年,pFind團隊[69]和瑞士分子系統(tǒng)生物學研究所的Aebersold團隊[113]同時提出了使用目標誘餌庫方法(target-decoy approach,TDA)估計交聯(lián)FDR的方法。該方法憑借簡單有效、容易推廣的優(yōu)點,逐漸成為估計交聯(lián)FDR的一般性方法,一直沿用至今。2012年以來,TDA 估計交聯(lián)FDR 的方法有了進一步發(fā)展,同時也出現(xiàn)了其他估計交聯(lián)FDR 的方法,下面分別進行介紹。
TDA 方法是指在數(shù)據(jù)庫搜索時,除了搜索目標數(shù)據(jù)庫,還搜索一個與目標庫特征相似的誘餌庫,然后利用鑒定結果中匹配到誘餌庫的比例,估計匹配到目標庫的結果中隨機匹配錯誤結果的比例。在錯誤結果隨機匹配到目標庫和誘餌庫的概率相等的前提下,可推導出交聯(lián)肽段鑒定的FDR 估計公式為:
其中,NTT和NDD分別表示兩條肽段均匹配到目標庫或誘餌庫的譜圖數(shù)目,NTD表示一條肽段匹配到目標庫、另一條肽段匹配到誘餌庫的譜圖數(shù)目。
隨著對TDA 方法研究的深入,后續(xù)有多項工作對該方法進行了補充和完善。TDA 方法提出之初,對于是否該將蛋白質間交聯(lián)和蛋白質內交聯(lián)結果分開估計FDR,領域內存在不同的做法[69,113]。2014 年,美國加州大學舊金山分校的Chalkley 團隊[75]分析發(fā)現(xiàn),如果將兩者合并估計FDR,則會低估蛋白質間交聯(lián)的FDR、高估蛋白質內交聯(lián)的FDR,因此建議分開估計兩者的FDR,簡稱為分開過濾策略。2015年,pLink-SS[107]和Kojak[96]分別在鑒定二硫鍵交聯(lián)肽段和化學交聯(lián)肽段時,都使用了分開過濾的策略。2019 年,pFind 團隊[56]通過理論推導和實驗驗證,論證了分開過濾策略的合理性和有效性。
2017年,Rappsilber團隊[114]的研究工作表明,如果僅在交聯(lián)譜圖層次控制FDR,然后將交聯(lián)譜圖結果歸并到交聯(lián)位點或蛋白質相互作用層次時,由于正確結果相對聚集、錯誤結果相對分散,高層次的FDR 會急劇上升,因此,應該直接在交聯(lián)位點或蛋白質相互作用層次控制FDR。最近,Rappsilber 團隊[115]推出新版xiFDR,可估計蛋白質相互作用層次的FDR,并嘗試用實驗方法檢驗其FDR估計的可靠性。
合成肽段檢驗是指利用合成肽段交聯(lián)數(shù)據(jù)集檢驗引擎性能的方法,該方法通常和陷阱數(shù)據(jù)庫檢驗方法相結合,共同檢驗搜索引擎的性能。合成肽段檢驗的基本思想是,利用合成肽段交聯(lián)數(shù)據(jù)集構建一個高可信的標注集,然后讓搜索引擎搜索標注集,使用的數(shù)據(jù)庫中除了包含合成肽段序列,還額外添加一個與合成肽段無關的數(shù)據(jù)庫(稱為陷阱庫)作為干擾;如果搜索引擎的鑒定結果與標注結果一致,則認為鑒定正確,否則認為鑒定錯誤。下面介紹兩個合成肽段檢驗的代表性成果。
2012 年,董夢秋團隊和pFind 團隊[69]合成了38 條肽段,兩兩交聯(lián)之后共獲得741 個交聯(lián)數(shù)據(jù)集,然后利用人工標注的方法構建了一個包含2 077 張譜圖的標注集,此標注集是迄今為止規(guī)模最大的合成肽段交聯(lián)標注集。該團隊利用此標注集搜索陷阱庫的方法,先后檢驗了pLink 1[69]和pLink 2[56]兩個引擎的性能。2015年,同一團隊使用類似的方法,構建了一個包含2 289張譜圖的合成肽段二硫鍵交聯(lián)標注集,利用該標注集檢驗了pLink-SS搜索引擎的性能[107]。
2020年,Mechtler團隊[116]設計了另一種合成肽段檢驗方法,該團隊將95 條合成肽段劃分為12組,每組有7~9條肽段;組內肽段交聯(lián)之后再將12組交聯(lián)產(chǎn)物混合在一起進行質譜分析。Mechtler團隊的合成肽段交聯(lián)實驗理論上可產(chǎn)生434組交聯(lián)雙肽,數(shù)據(jù)規(guī)模少于董夢秋團隊和pFind團隊的合成肽段交聯(lián)實驗;而且由于組內肽段的數(shù)目較多,且將多組交聯(lián)產(chǎn)物混合進行質譜分析,前者的實驗設計不如后者精細。但是,Mechtler團隊使用該數(shù)據(jù)集設計了一種自動化的結果檢驗方法。在Mechtler團隊的實驗設計下,組間肽段的交聯(lián)候選相當于陷阱庫,如果搜索引擎鑒定到組間肽段的交聯(lián)結果,則認為錯誤;反之,如果鑒定到了組內肽段的交聯(lián)結果,則認為正確。合成肽段檢驗可以較為客觀地評估鑒定結果的錯誤率,是評估搜索引擎性能的理想方法。然而合成肽段檢驗的成本較高,相關數(shù)據(jù)集規(guī)模較小,難以大范圍推廣應用。
2021 年,Rappsilber 團隊[115]將Mechtler 團隊的設計思路拓展到E.coli組學樣品,該團隊利用分子排阻色譜將E.coli樣品分餾為44 份,每份樣品內部發(fā)生交聯(lián)反應,然后將44 份交聯(lián)產(chǎn)物混合在一起進行質譜分析。類似地,如果搜索引擎鑒定到餾份內部的蛋白質交聯(lián),則認為正確,反之則認為錯誤。該方法相比于Mechtler團隊的方法,無需合成肽段,可在蛋白質相互作用層次檢驗復雜樣品的交聯(lián)鑒定結果。但是,由于樣品變得更加復雜之后,同一餾份內部的交聯(lián)搜索空間增大,使得餾份內部交聯(lián)的隨機匹配概率增大,進而影響該檢驗方法的可靠性。
一直以來,大多數(shù)工作使用蛋白質晶體結構檢驗交聯(lián)位點鑒定結果的正誤[27,69,75,88,96],如果交聯(lián)位點之間的距離小于晶體結構中記錄的距離,則認為鑒定正確,否則認為鑒定錯誤。近年來,有多項工作對晶體結構檢驗方法提出了質疑。一方面,蛋白質在溶液中存在動態(tài)變化的構象,和晶體結構中記錄的信息不完全一致,即使不滿足晶體結構中的距離約束,也不能完全說明鑒定結果錯誤[117-118]。另一方面,并不是所有蛋白質都存在晶體結構信息,如果僅估計存在晶體結構信息的交聯(lián)位點子集的錯誤率,且用該錯誤率代表鑒定到的交聯(lián)位點全集的錯誤率,則可能極大低估全集的錯誤率[119]。
pFind團隊提出了15N代謝標記檢驗的質量控制方法,并成功應用于常規(guī)單肽[120]、糖肽[121]和交聯(lián)雙肽[56]的結果檢驗中。該方法是一種干濕結合的質量控制方法,以交聯(lián)雙肽結果檢驗為例,其樣品制備過程如下:首先,分別以無標記培養(yǎng)基和15N 標記培養(yǎng)基培養(yǎng)大腸桿菌E.coli細胞,則后者的蛋白質中所有的N元素都被代謝標記為重標形式;然后,無標記樣品和15N 標記樣品分別進行交聯(lián)反應;最后,將無標記交聯(lián)產(chǎn)物和15N 標記交聯(lián)產(chǎn)物以1∶1 比例混合,并進行質譜數(shù)據(jù)采集。在這種情況下,每一對交聯(lián)雙肽的母離子在一級譜中都存在輕、重兩簇同位素峰,且譜峰強度的比值接近1∶1。因此,15N代謝標記的檢驗過程為:首先,搜索引擎搜索無標記交聯(lián)雙肽;然后,計算鑒定到的交聯(lián)雙肽的無標記和15N 標記的母離子質荷比;最后,在一級譜中,計算無標記和15N 標記的母離子峰的強度比值,如果比值接近1∶1,則認為鑒定結果正確,否則認為鑒定結果錯誤。15N 代謝標記檢驗方法概念簡單,不需要合成肽段,可大規(guī)模批量檢驗鑒定結果。不足之處是僅僅依靠一級譜圖無法識別N 元素與正確肽段相等的錯誤鑒定結果,且無法標記人類等細胞。
除了晶體結構檢驗和15N 代謝標記檢驗,還存在其他多種檢驗方法,例如陷阱數(shù)據(jù)庫檢驗[56,102-103,119]、 蛋 白 質 相 互 作 用 數(shù) 據(jù) 庫 檢驗[102-103,119]、正交方法檢驗[102,119]、多種碎裂譜圖檢驗[122]等。所有這些檢驗方法,都有共同的特點。2019 年,pFind 團隊[123]的研究工作表明,任何一種檢驗方法都存在將正確結果誤判為錯誤(錯報)或將錯誤結果誤判為正確(漏報)的情況,因此可以統(tǒng)一使用錯報率和漏報率兩個指標評價各種質量控制方法。例如,基于TDA 的FDR 估計方法相當于將誘餌庫作為陷阱庫的陷阱數(shù)據(jù)庫檢驗方法,由于誘餌庫中的蛋白質序列并不存在于樣品中,因此鑒定到誘餌庫的結果一定為錯誤,其錯報率約為0;而鑒定到目標庫的結果不一定完全正確,在錯誤結果隨機匹配到目標庫與誘餌庫的概率相等的情況下,其漏報率約為50%。利用類似的方法,該團隊還分析了15N 代謝標記檢驗的錯報率與漏報率[56]。質量控制方法的蓬勃發(fā)展,說明領域對鑒定結果的準確度的關注度越來越高,預計交聯(lián)肽段的精準鑒定將成為新的研究熱點。
交聯(lián)質譜技術主要用于輔助解析蛋白質結構和研究蛋白質相互作用。由于交聯(lián)劑臂長的限制,交聯(lián)反應只能發(fā)生在空間距離足夠接近的兩個氨基酸之間,如果鑒定到的兩個交聯(lián)位點來自同一條蛋白質(蛋白質內交聯(lián)),則說明蛋白質的三維結構中兩個位點之間的距離不超過交聯(lián)劑的臂長,因此交聯(lián)距離約束可輔助解析蛋白質結構;如果鑒定到的兩個交聯(lián)位點來自不同的蛋白質(蛋白質間交聯(lián)),則說明兩條蛋白質的交聯(lián)位點區(qū)域距離接近,可能存在相互作用關系,因此交聯(lián)距離信息可用于研究蛋白質相互作用。
解析蛋白質的結構對了解蛋白質的功能具有重要作用。交聯(lián)質譜技術憑借對蛋白質純度要求低、樣品量要求少的優(yōu)點,成為解析蛋白質結構的很好的互補技術[3,5-6,49]。例如交聯(lián)質譜技術和X 射線晶體衍射技術(X-ray crystallography)結合,解析了Prp19 同源四聚體[124]和泛素結合酶UBE2S[125]等的結構;和核磁共振技術(nuclear magnetic resonance,NMR) 結合,解析了人類Hsp90/FKBP51 蛋白質混合物[126]和纖維母細胞生長因子FGF21[127]等的結構。2012年,得益于軟硬件技術的突破,冷凍電鏡技術(cryo-electron microscopy,Cryo-EM)成為解析蛋白質結構的重要方法之一[128]。不過,冷凍電鏡對蛋白質的柔性區(qū)域(flexible domains)不能提供足夠的結構信息,而交聯(lián)質譜技術正好可以彌補這一不足。因此,交聯(lián)質譜技術和冷凍電鏡技術相結合成為蛋白質結構解析非常流行的方法[129]。自2013年以來,交聯(lián)質譜技術和冷凍電鏡技術結合解析了大量蛋白質復合物的結構,例如酵母剪接體[130]、人源mTOR2 復合體[131]和轉錄共激活復合物SAGA[132]等,體現(xiàn)了交聯(lián)質譜技術的獨特優(yōu)勢。
蛋白質通過與不同蛋白質或核酸分子相互作用形成精細、動態(tài)的網(wǎng)絡來調節(jié)各項生命過程。交聯(lián)質譜技術通過交聯(lián)反應將兩個氨基酸共價連接,能較好地固定微弱的、瞬時的相互作用,在研究蛋白質相互作用上具有獨特優(yōu)勢[133]。例如,使用交聯(lián)質譜技術研究細菌ADP-Hep 蛋白質與宿主ALPK1激酶的相互作用[134]和酵母轉錄終止因子Seb1 與RNA聚合酶Pol II 的相互作用[135]等。此外,交聯(lián)質譜技術還可以與免疫共沉淀 (coimmunoprecipitation, Co-IP)[136]、 酵 母 雙 雜 交(yeast two-hybrid,Y2H)[137]和 親 和 純 化 質 譜(affinity purification-mass spectrometry, APMS)[138]等技術結合,共同研究蛋白質相互作用。
近年來,得益于交聯(lián)劑(第1 節(jié))、酶切技術(第3 節(jié))、富集技術(第4 節(jié))、搜索引擎(第6節(jié))等的全面發(fā)展,全蛋白質組水平的交聯(lián)質譜研究越來越多,且不斷刷新交聯(lián)鑒定紀錄。2008年,Aebersold 團隊[27]利用同位素標記交聯(lián)劑DSS-D0/D12 和搜索引擎xQuest 在E. coli中鑒定到71 對交聯(lián)位點。2012 年,董夢秋團隊聯(lián)合pFind 團隊[69]利用無標記交聯(lián)劑BS3和搜索引擎pLink 在E. coli和C. elegans中分別鑒定到394 和39 對交聯(lián)位點;2016年,該團隊利用可富集交聯(lián)劑Leiker將E.coli和C.elegans的交聯(lián)位點鑒定紀錄提升了一個數(shù)量級,分別達到3 130 和893 對交聯(lián)位點[24]。2013年,美國華盛頓大學的Bruce 團隊[74]利用可斷裂交聯(lián)劑PIR 和搜索引擎ReACT 在E. coli中鑒定到708 對交聯(lián)位點。2015 年,Heck 團隊[76]利用可斷裂交聯(lián)劑DSSO 和搜索引擎XlinkX,在HeLa 上鑒定到2 179對交聯(lián)位點,引起了領域對可斷裂交聯(lián)劑的廣泛關注;2017 年,該團隊利用優(yōu)化的質譜和鑒定流程,將HeLa 的交聯(lián)位點鑒定紀錄提升到3 301對交聯(lián)位點[77]。此后,研究人員利用多種交聯(lián)劑[79,139-140]、多種酶切[52-53]、充分分餾[102,140-141]等方法,不斷刷新全蛋白質組水平的交聯(lián)鑒定紀錄。2020 年,Rappsilber 團隊[140]同時使用不可斷裂交聯(lián)劑DSS和可斷裂交聯(lián)劑DSSO,以及搜索引擎 xiSEARCH, 在 肺 炎 支 原 體 細 胞 (M.pneumoniae)中鑒定到12 509對交聯(lián)位點,是目前交聯(lián)鑒定的最新紀錄。表3列出了目前全蛋白質組水平的交聯(lián)質譜研究工作。
Table 3 The information of some proteome-wide CXMS studies表3 部分全蛋白質組水平的交聯(lián)質譜研究工作
蛋白質結構和相互作用研究對了解蛋白質的功能具有重要作用,然而由于這一研究的復雜性,單一技術往往難以取得很好的效果,生物學家往往會綜合多種技術共同研究蛋白質結構和相互作用。交聯(lián)質譜技術能夠提供氨基酸位點之間的距離信息,并且具有通量高、對蛋白質的純度要求低、可固定弱相互作用等優(yōu)勢。經(jīng)過二十多年的發(fā)展,交聯(lián)質譜技術的各個環(huán)節(jié)都取得了長足的進展,已成為整合結構生物學(integrative structural biology)的重要工具之一[3,147]。
交聯(lián)質譜技術雖然在方法和應用上都取得了很大的進步,但在精準鑒定、深度解析和深度覆蓋3個方面還有很大的提升空間。精準鑒定方面,雖然交聯(lián)FDR 估計公式的提出為交聯(lián)肽段鑒定的質量控制做出了巨大的貢獻,但現(xiàn)有的質量控制方法還可以進一步完善及充實。一方面,雖然領域開始意識到更高層次FDR 控制的必要性[114,148],但目前大多數(shù)交聯(lián)肽段搜索引擎僅支持譜圖或肽段層次的FDR 估計,如何估計并驗證更高層次的FDR,目前還沒有定論。另一方面,基于TDA 的FDR 估計方法本質是利用誘餌庫作為陷阱庫的質量控制方法,每一種質量控制方法都難以全面刻畫鑒定結果的好壞,如何設計互補甚至正交的質量控制方法是值得研究的課題之一。
深度解析方面,目前的交聯(lián)質譜數(shù)據(jù)的解析率普遍偏低,不足50%[56]。相對而言,常規(guī)單肽質譜數(shù)據(jù)的解析率已經(jīng)達到70%~85%,基本實現(xiàn)了質譜數(shù)據(jù)的深度解析[120]。單肽質譜數(shù)據(jù)的深度解析主要得益于開放式搜索引擎的推出,如MSFragger[149]、Open-pFind[120]等,它們在鑒定單肽時擴大了搜索空間,考慮了意外酶切、意外修飾等情況,使得解析率大幅提升。交聯(lián)質譜數(shù)據(jù)的深度解析既面臨與單肽質譜數(shù)據(jù)的深度解析同樣的問題,如意外酶切、意外修飾等,又存在其獨有的難點,如交聯(lián)位點多[48,52]、交聯(lián)產(chǎn)物多[150]等。此外,交聯(lián)肽段鑒定本身存在平方搜索空間的問題,如果進一步擴大搜索空間,不但可能嚴重增加搜索時間,而且可能導致解析率不增反降[83]。因此,如何在擴大交聯(lián)搜索空間的同時,既能切實地提升交聯(lián)質譜數(shù)據(jù)的解析率,又能控制搜索時間在合理范圍內,是交聯(lián)質譜數(shù)據(jù)深度解析面臨的巨大挑戰(zhàn)。
深度覆蓋方面,雖然目前的交聯(lián)位點鑒定數(shù)目已經(jīng)突破一萬(表3),但Rappsilber團隊[5]保守估計人類全蛋白質組交聯(lián)實驗中至少存在20 萬對交聯(lián)位點,如何鑒定到更多的交聯(lián)位點是深度覆蓋面臨的核心問題。上文提到的交聯(lián)質譜數(shù)據(jù)的深度解析是盡可能多地解析二級譜圖,然而交聯(lián)質譜數(shù)據(jù)中存在大量的單肽譜圖,即使實現(xiàn)了深度解析,對交聯(lián)位點深度覆蓋的提升作用也有限。鑒定交聯(lián)譜圖是鑒定交聯(lián)位點的基礎,為了實現(xiàn)交聯(lián)位點的深度覆蓋,需要采集并鑒定更多的交聯(lián)譜圖,其中采集更多的交聯(lián)譜圖屬于深度覆蓋的工作。為此,首先需要開發(fā)更多的半特異或非特異交聯(lián)劑,從源頭上產(chǎn)生更多的交聯(lián)組合[23,139];其次需要設計更加高效的交聯(lián)肽段富集方法,使得進入質譜儀的交聯(lián)肽段比例更高[24,59-60];最后需要改進質譜儀的母離子選擇算法,例如識別一級譜中的交聯(lián)母離子,只對交聯(lián)母離子采集二級譜圖[61]。因此,交聯(lián)位點的深度覆蓋需要濕實驗團隊和干實驗團隊通力合作,濕實驗團隊需要開發(fā)更加高效的交聯(lián)劑、交聯(lián)肽段富集方法和質譜數(shù)據(jù)采集方法,干實驗團隊需要開發(fā)更加高效的母離子選擇算法和交聯(lián)肽段鑒定算法。