摘要:蛋白質組的高度復雜性給基于質譜的蛋白質鑒定提出了很大的挑戰(zhàn)。技術需求促進質譜技術不斷向前發(fā)展。儀器平臺在軟硬件方面的進步,為高通量蛋白質鑒定提供了更多選擇和支撐。但是,儀器性能的充分發(fā)揮,還需要根據(jù)生物學問題的需求和分析樣本的特性,設計高質量的數(shù)據(jù)采集策略。本文對目前高通量蛋白質鑒定中已開發(fā)的質譜數(shù)據(jù)采集策略進行了綜述,重點介紹了Bottomup策略中使用的簡單重復、離子排除和監(jiān)測、在線智能化掃描和分段掃描等技術,并關注了這些策略對高通量蛋白質鑒定的影響,總結了各種策略的優(yōu)缺點并展望了其未來發(fā)展方向。
關鍵詞:蛋白質鑒定; 質譜; 數(shù)據(jù)采集策略; 評述
1引言
蛋白質組具有動態(tài)范圍寬、種類和物理化學屬性十分復雜等特性,這在技術層面給蛋白質組鑒定研究提出了很大的挑戰(zhàn)。不斷深入的科學問題給實驗技術的發(fā)展提出了諸多需求,促使質譜技術不斷進步,分辨率、準確度、掃描速度和靈敏度等指標不斷提升。例如,三級串聯(lián)飛行時間質譜儀(Triple time of flight mass spectrometry, TripleTOF MS)5600將串聯(lián)圖譜 (Tandem mass spectrum, MS/MS)掃描速度提升到100 Hz,同時保證了很高的分辨率 (30,000) 和精度(<2 ppm)[1]。最近,熱電公司(Thermo Scientific)發(fā)布的Orbitrap Elite在m/z 400處的分辨率達到了240,000[2]。為了處理復雜的樣本,儀器控制軟件引入了很多智能化的控制策略。例如,Orbitrap系列質譜儀的 “topN”策略,加上引入具有魯棒性的動態(tài)排除,能夠有效地選擇母離子進行MS/MS分析。基于這些底層技術的支持,很多數(shù)據(jù)采集策略被設計出來,用于復雜樣本的蛋白質組學分析。
目前,基于質譜的高通量蛋白質鑒定已經(jīng)取得了很多研究成果。在分離富集策略的支持下,對小鼠和大鼠的多個組織進行分析,磷酸化位點已經(jīng)接近36,000個,鑒定的磷酸化蛋白質超過了7,000個[3,4]。Topdown策略已經(jīng)能夠鑒定人細胞的1043個基因的表達產(chǎn)物,包含由可變剪切、翻譯后修飾等引入的3000多個不同蛋白質[5]。在人類樣本分析中,3次重復實驗已經(jīng)能夠鑒定5376個蛋白質,覆蓋了200個KEGG[http://www.genome.jp/kegg/]收錄通路(Pathway)的173個[6]。在酵母(Saccharomyces cerevisiae) 樣本分析中,單次實驗(Singlerun)鑒定的蛋白質已經(jīng)達到3923個[7]。
但是,質譜技術的進步并不能解決高通量蛋白質鑒定面臨的所有問題。面對復雜樣本,質譜的數(shù)據(jù)采集策略還有待于提高。Michalski等[8]利用LTQ Oribitrap對HeLa細胞進行分析,發(fā)現(xiàn)一級質譜(MS spectrum)檢測到的100,000個以上的肽段信號中,僅僅有16%的信號進行了串聯(lián)質譜分析。Scherl等則發(fā)現(xiàn)LTQOrbitrap數(shù)據(jù)關聯(lián)分析中存在大約8%的“孤兒”肽段,也就是產(chǎn)生MS/MS的肽段母離子在MS中并沒有出現(xiàn)[9]。另外,蛋白質序列數(shù)據(jù)庫經(jīng)過理論酶切產(chǎn)生的肽段中,還有很大一部分是不能被LCMS/MS平臺檢測到的。丟失的原因來自離子化效率、信號抑制和色譜分離中的損失等[10]。對酵母的ORF翻譯得到的所有蛋白質進行理論酶切(SGD[http://www.yeastgenome.org/] 2011.2發(fā)布,采用美國西南太平洋國家實驗室PNNL發(fā)布的Protein Digestion Simulator Basic軟件,設定胰蛋白酶,兩個漏切位點,分子量范圍為400~5000 Da),產(chǎn)生了835,482個酶切肽段,如果考慮不同的電荷(電噴霧電離中,很多肽段會同時產(chǎn)生+1,+2和+3電荷離子)[11]和翻譯后修飾,樣本中待分析的肽段離子數(shù)量會遠多于這個數(shù)字。很多研究團隊對理論酶切肽段的質量分布做過分析,即使精度達到1 ppm,在單位區(qū)間內(nèi),還會有至少幾百個肽段同時存在[12,13]。
因此,除了不斷努力提升質譜儀的性能指標及其相關的分離、電離和碎裂技術外,還需要設計高質量的數(shù)據(jù)采集策略以進一步提升質譜產(chǎn)出能力和蛋白質組鑒定覆蓋度[14,15]。近年來,在底層軟硬件技術的支持下,應用于Bottomup蛋白質鑒定的數(shù)據(jù)關聯(lián)采集(Data dependent acquisition,DDA)從簡單重復,到離子排除和監(jiān)測,再到在線的智能化掃描等數(shù)據(jù)采集策略不斷被嘗試和開發(fā),而數(shù)據(jù)獨立采集(Data independent acquisition,DIA)也有母離子全掃描和分段掃描等策略逐漸被提出(見圖1)。這些策略的開發(fā)是生物信息學分析、生物實驗技術和質譜平臺相結合的產(chǎn)物,旨在提高圖譜獲取的有效性和靶標性,提高單次實驗的產(chǎn)出能力和實驗檢測的靈敏度。本文將針對基于Bottomup的蛋白質鑒定中旨在提高蛋白質鑒定覆蓋度和產(chǎn)出能力的質譜數(shù)據(jù)采集策略進行綜述,且主要圍繞熱電公司的傅里葉變換系列質譜儀(FTMS)進行展開。