李林鑫, 秦曉紅, 米立志
(天津大學(xué)生命科學(xué)學(xué)院結(jié)構(gòu)與分子生物學(xué)系, 天津 300072)
細胞通過蛋白質(zhì)-蛋白質(zhì)相互作用進行交流通訊和信號轉(zhuǎn)導(dǎo),并根據(jù)此調(diào)節(jié)細胞代謝、增殖、分化等眾多生命活動[1]。針對細胞內(nèi)蛋白質(zhì)相互作用的研究正成為系統(tǒng)生物學(xué)研究的重要任務(wù)之一[2]。鑒于蛋白質(zhì)-蛋白質(zhì)相互作用在細胞通訊及細胞信號轉(zhuǎn)導(dǎo)過程中所發(fā)揮的關(guān)鍵作用,繪制并闡明蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)圖譜有助于揭示疾病發(fā)病機制,開發(fā)新型藥物靶點[3]。
迄今為止,大量的蛋白質(zhì)相互作用研究方法相繼被開發(fā),但不同方法各有利弊,數(shù)據(jù)質(zhì)量參差不齊。低通量實驗方法通??色@得高質(zhì)量蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù),但礙于成本及實驗流程等原因,難以用于大規(guī)模蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)研究。高通量的蛋白質(zhì)-蛋白質(zhì)相互作用檢測方法[4]可同時檢測逾數(shù)十萬對蛋白質(zhì)-蛋白質(zhì)相互作用,但由于實驗樣本量的增加,這一類方法實驗流程繁瑣,技術(shù)門檻較高。
得益于下一代測序技術(shù)(next-generation sequencing, NGS)飛速發(fā)展,核酸條形碼技術(shù)應(yīng)運而生。核酸條形碼技術(shù)[5]是將寡核苷酸標簽附加在蛋白質(zhì)、細胞、有機大分子和無機小分子等材料上,用在基因組結(jié)構(gòu)測定[6]、蛋白質(zhì)翻譯活性的綜合分析[7]、細胞命運譜系追蹤[8]和藥物靶點篩選[9]等領(lǐng)域。同時,核酸條形碼技術(shù)也為高通量檢測蛋白質(zhì)相互作用提供了新的思路。目前,大規(guī)模的蛋白質(zhì)-蛋白質(zhì)相互作用檢測方法主要可分為3類:并行一對一檢測、一對多檢測和多對多檢測[10],這些方法大多依賴核酸條形碼對目標蛋白質(zhì)進行標記。
盡管在不同類型的蛋白質(zhì)-蛋白質(zhì)相互作用檢測方法中,核酸條形碼技術(shù)的應(yīng)用方法不盡相同,但其設(shè)計原理具有高度的相似性。核酸條形碼技術(shù)在蛋白質(zhì)相互作用檢測方法中的通用策略如Fig.1所示,本文凝練了核酸條形碼的設(shè)計原則,歸納總結(jié)了其糾錯策略、生成遞送和讀取流程。通過回顧核酸條形碼技術(shù)在大規(guī)模的PPI檢測方法中的經(jīng)典應(yīng)用,討論了各種PPI檢測方法的可靠性、成本及操作簡便性。在此基礎(chǔ)上,基于核酸條形碼技術(shù)和NGS技術(shù)的發(fā)展現(xiàn)狀,本文探討了PPI檢測方法的發(fā)展趨勢。
Fig.1 Common strategy for protein-protein interaction detection via nucleic acid-barcoding technologies
核酸條形碼的設(shè)計是這一技術(shù)的運用基礎(chǔ),也決定著后續(xù)蛋白質(zhì)相互作用檢測數(shù)據(jù)的評價方式。核酸條形碼的設(shè)計可以分為設(shè)計原則、生成遞送和讀取3個方面。其中,設(shè)計原則決定著條形碼的多樣性,即能夠編碼目的蛋白質(zhì)的最大數(shù)量,而設(shè)計原則又會引申出條形碼的合成與讀取錯誤;條形碼的生成和遞送是指核酸條形碼文庫與目的蛋白質(zhì)一一聯(lián)系起來,其中不同的連接方式各有特點;而條形碼的讀取則是整個蛋白質(zhì)相互作用檢測的最后一步,陽性結(jié)果的條形碼經(jīng)過一定處理后讀出結(jié)果,就能定性定量分析蛋白質(zhì)相互作用。
在不同類型的蛋白質(zhì)-蛋白質(zhì)相互作用檢測方法中,核酸條形碼序列均是由隨機或半隨機的短核苷酸生成[11]。完全隨機的核酸條形碼理論上編碼的數(shù)量為4n,其中n是核苷酸序列的長度。因此,隨機的10 bp條形碼理論上會編碼的多樣性達410(~106)。以Yachie等人[12]開發(fā)的條形碼融合遺傳酵母雙雜交(barcode fusion genetics yeast 2 hybrid,BFG-Y2H)技術(shù)為例,在每個“獵物”蛋白質(zhì)和“誘餌”蛋白質(zhì)基因編碼區(qū)前,設(shè)計了兩個25 bp的隨機核酸條形碼區(qū)域。酵母雜交后,在Cre重組酶的作用下,相互作用的“獵物”蛋白質(zhì)和“誘餌”蛋白質(zhì)的基因編碼區(qū)前,緊鄰的1個核酸條形碼被交換。因此,通過測序鑒定相互作用的蛋白質(zhì)對,這一方法理論上可以研究2×449個不同的蛋白質(zhì)-蛋白質(zhì)相互作用。隨機核酸條形碼編碼多樣性豐富,理論極限值僅受條形碼長度限制,設(shè)計簡單,合成成本低;但可能產(chǎn)生的連續(xù)poly-N區(qū)域會對寡核苷酸合成、PCR擴增和測序造成影響[13],而非恒定的GC比例也影響著不同條形碼的PCR擴增。此外,部分位于讀碼框內(nèi)的隨機條形碼會影響目的蛋白質(zhì)表達。
為了避免上述情況,核酸條形碼采用半隨機設(shè)計[14],將條形碼中一些特定位置的核苷酸限制為一個或多個指定的核苷酸。這樣的設(shè)計以犧牲條形碼編碼多樣性為代價來維持恒定的GC比[15],或是通過增加編碼長度來避免連續(xù)的poly-N出現(xiàn)。
無論是采用隨機或是半隨機的方法,在設(shè)計過程中都會面臨兩大局限問題。其一,由于遞送效率和設(shè)計的要求,均需要保證條形碼具有數(shù)量上的冗余,而這就會導(dǎo)致測序(條形碼讀取)信息的重復(fù)[16],顯著影響系統(tǒng)的檢測效率。其二,當前大多數(shù)蛋白質(zhì)相互作用檢測系統(tǒng)在條形碼的讀取中都是利用通用引物對編碼序列進行擴增和測序,不能查詢特定相互作用蛋白對的信息。
解決這些問題的最好方案是賦予每組條形碼一個特定的“訪問地址”。在設(shè)計條形碼時將待編碼蛋白質(zhì)分為若干組,并將條形碼的編碼區(qū)分為可變區(qū)和恒定區(qū)兩部分:可變區(qū)是隨機的,發(fā)揮分子標識符的作用;而恒定區(qū)是固定的,用于編碼特定組別的蛋白質(zhì),以便在檢測相互作用時隨機訪問該組特定條形碼。Lee[17]等人正是利用這一思路開發(fā)了冗余優(yōu)化的編碼方案,他們設(shè)計的條形碼長度約為150 bp,左右兩端各有20 bp的“訪問地址”序列作為PCR引物結(jié)合位點。為了實現(xiàn)穩(wěn)健的隨機訪問,他們還構(gòu)建了有效的PCR引物來擴增特定的條形碼序列,這些引物具有以下幾個特性:(1)不易形成二級結(jié)構(gòu)和引物二聚體;(2)不含長段的均聚物;(3)熔解溫度限制在一個狹窄的范圍(55~60 ℃)。與其他引物相比,這些引物序列具有至少30%的獨特性,保證了訪問的特異性。
除此之外,核酸條形碼的合成和讀取也易出錯誤,其中插入、缺失和替換等錯誤的頻率在1%左右[18]。因此,在當前合成與檢測技術(shù)條件下,如何糾錯顯得至關(guān)重要。在核酸條形碼發(fā)展的初期,合成的條形碼通常需要被克隆到大腸桿菌或酵母的質(zhì)粒中,通過 Sanger 測序進行驗證。這些步驟昂貴耗時,難以實現(xiàn)自動化。對于檢測插入或缺失突變,會將合成的序列與編碼抗生素耐藥性的篩選標記或熒光蛋白質(zhì)連接在一起[19]。當條形碼存在插入或缺失突變時會導(dǎo)致編碼序列移碼,使報告基因失活。當前核酸條形碼的驗證通常采用高通量測序的方法[20],相比便攜式的測序儀如 MinION ,采用 Illumina HiSeq 和Mi Seq等高端測序儀可以減少測序誤差。因保守估計,MinION[21]測試錯誤率可高達30%。Matzas等人[22]則開發(fā)了 Mega cloning 技術(shù),利用 GS FLX測序平臺結(jié)合自動化的移液管,實現(xiàn)對寡核苷酸文庫的測序和自動分類,便于隨機訪問感興趣的條形碼并保證了極低的測序錯誤率,但其成本與技術(shù)門檻較高,無法短時間內(nèi)大規(guī)模推廣。Yazdi等人[23]則通過改進編碼、儲存、讀取、糾錯等數(shù)據(jù)處理流程,降低了測序的成本,并在使用 MinION 的基礎(chǔ)上,使測序錯誤率降低至0.02%。在編碼步驟中,他們設(shè)計的條形碼同樣包含了“訪問地址”和“編碼區(qū)”,便于隨機訪問,其長度可達1 000 bp,并通過專門的受限編碼技術(shù)平衡了每個條形碼的GC含量;在讀取糾錯階段,他們采用了共識對齊算法,將測序階段引入的插入和替換錯誤“轉(zhuǎn)換”為刪除錯誤,然后通過對符合長度的高質(zhì)量讀取進行多序列比對,找出共有序列,糾正測序錯誤。
核酸條形碼文庫的合成非常高效,以現(xiàn)有的合成技術(shù)在短時間內(nèi)生成包含數(shù)十億個條形碼的文庫[24]。但遞送條形碼的方式則各有特點,目前,主要可分為分子克隆、體外展示和蛋白質(zhì)標簽法等3類。
1.2.1 分子克隆方法 分子克隆方法主要指將合成的條形碼文庫通過Gibson組裝[12]、Gateway克隆[25]、酶切連接或者重疊PCR[26]等方法構(gòu)建到表達目的蛋白質(zhì)的質(zhì)粒上(見Fig.2A),在基因水平上將二者連接起來。這些構(gòu)建方法對條形碼文庫通常有一定要求,例如條形碼長度盡量短、 GC 比例合適、條形碼上下游擁有通用引物接頭等。此外,在部分酵母雙雜交方法中直接將蛋白質(zhì)的編碼序列用作分子條形碼,在PPI篩選結(jié)束后通過測定目的蛋白質(zhì)編碼序列,來識別相互作用的蛋白質(zhì)對[27, 28]。
Fig.2 Several delivery methods of nucleic acid barcodes
然而,上述分子克隆方法通常需要借助Cre、PhiC31等基因重組酶將條形碼連接到表達目的蛋白質(zhì)的質(zhì)粒上,步驟繁瑣且容易出錯,同時生成的條形碼序列相對較長,讀取成本高。例如,Yu等[29]開發(fā)的 Stitch-seq 方法是利用兩輪 PCR 將相互作用的蛋白對的2個開放讀碼框“縫合”在一起生成條形碼,然后通過NGS測序讀取條形碼,這一設(shè)計雖然精簡了系統(tǒng)設(shè)計,但串聯(lián)擴增子的長度顯著大于當前NGS測序儀可讀取的有效長度。Yang等人[30]開發(fā)的rec-YnH (recombination yeast n hybrid, rec-YnH)方法,則是利用同源重組原理將表達“獵物”蛋白質(zhì)和“誘餌”蛋白質(zhì)的質(zhì)粒融合,融合后的質(zhì)粒經(jīng)提取并通過Covaris酶裂解成為線性化片段,隨后通過分子內(nèi)連接環(huán)化,經(jīng)兩輪PCR擴增后獲得正反相連的2個編碼相互作用蛋白質(zhì)開放讀碼框的DNA片段,將這一DNA片段作為識別PPI的條形碼。
1.2.2 體外展示方法 在核糖體展示(ribosome display)[31]、mRNA展示(mRNA Display)[32]等技術(shù)中,通過一些簡單的生化反應(yīng)就能將核酸條形碼與目的蛋白質(zhì)連接起來,在體外生成蛋白質(zhì)編碼文庫(見Fig.2B)。在核糖體展示技術(shù)中,目的蛋白質(zhì)編碼基因的終止密碼子缺失,或通過添加核糖體停滯劑以穩(wěn)定肽基-tRNA連接,核糖體無法從新生肽鏈脫落,最終使目的蛋白質(zhì)與對應(yīng)的mRNA分子一起與核糖體形成穩(wěn)定復(fù)合物。這項技術(shù)簡單高效,單次實驗可以生成約1014個蛋白質(zhì)-條形碼復(fù)合物,產(chǎn)生的文庫大小僅受溶液中核糖體數(shù)量的限制[33]。在后續(xù)分析中,蛋白質(zhì)的編碼mRNA被直接用作核酸條形碼?;诤颂求w展示,Gu等人[26]開發(fā)了單分子相互作用測序技術(shù)(single-molecular interaction sequencing,SMI-seq),通過在體外轉(zhuǎn)錄時生成mRNA-cDNA雜交文庫,之后以雜交文庫中的mRNA分子為模板,體外翻譯形成蛋白質(zhì)-核糖體-mRNA-cDNA的復(fù)合物,用于蛋白質(zhì)相互作用分析。這類方法優(yōu)點突出,缺點同樣明顯。首先,體外檢測方法無法測定依賴翻譯后修飾或定位的蛋白質(zhì)相互作用;其次,分子量較大的蛋白質(zhì)目前無法應(yīng)用于體外展示系統(tǒng);最后,mRNA分子易降解,如何形成穩(wěn)定的蛋白質(zhì)-核糖體-mRNA復(fù)合物依然是這一類技術(shù)的關(guān)鍵。
1.2.3 蛋白質(zhì)標簽法 除上述兩種方法外,還可以利用SNAP Tag(約19 kD)[34],Halo Tag(約33 kD)[35]、和CLIP-tag(約20 kD)[36]等基因工程酶將核酸條形碼和目標蛋白質(zhì)共價連接,以用于在抗體篩選、腫瘤標志物檢測等領(lǐng)域。Gordon等人[37]最近報告了另一種DNA-蛋白質(zhì)偶聯(lián)策略,原理正如Fig.2C所示,他們利用HUH核酸內(nèi)切酶結(jié)構(gòu)域(約10~30 kD)切割特定的單鏈DNA序列,產(chǎn)生一個游離的3′-OH基團和一個與ssDNA共價連接的中間體,利用這一方法,就可以將目的蛋白質(zhì)(與HUH核酸內(nèi)切酶結(jié)構(gòu)域相連的)與單鏈DNA共價連接起來。這種方法的一個主要優(yōu)點是它不需要制備與DNA連接的配體,就可以直接用未修飾的DNA鏈生成條形碼-蛋白質(zhì)文庫。同時這類方法也具有自身的局限性,首先,核酸條形碼的部分序列是固定的,以此滿足酶切的要求,這會導(dǎo)致核酸條形碼多樣性受限;其次,目的蛋白質(zhì)需要與酶共表達后純化或單獨純化后再與特定酶連接,這一過程較其他標記方法增加了額外的工作量;第三,部分酶的工作條件苛刻,勢必會導(dǎo)致與之相連的蛋白質(zhì)在核酸條形碼標記過程中變性,影響后續(xù)的相互作用的檢測。
然而,不同的基因工程酶的標記效率也有所不同,有研究表明,SNAP Tag[38]的標記效率約為61%~86%,而Halo Tag的標記效率為55%~66%。不均一的標記會導(dǎo)致文庫游離大量寡核苷酸,對后續(xù)實驗產(chǎn)生影響,因此,標記后產(chǎn)生的文庫需要純化。一些研究[39]中直接使用限制性內(nèi)切酶消化游離的寡核苷酸,從而純化文庫,大多數(shù)方法采用親和層析[26]的方法純化出蛋白質(zhì)-核酸條形碼復(fù)合物文庫后,再使用限制性內(nèi)切酶消化,這樣的方法能夠有效去除游離的寡核苷酸,但無法保證文庫質(zhì)量,即文庫中會存在部分未被標記的蛋白質(zhì)。這雖然會導(dǎo)致部分假陽性結(jié)果,但由于這部分蛋白質(zhì)未標記核酸條形碼,在定量分析相互作用時反而不會被統(tǒng)計,從而可以在二次篩選中去除假陽性。
1.2.4 小結(jié) 上述的各種方法均有其各自的優(yōu)勢和不足,在實際操作中,應(yīng)根據(jù)目的蛋白質(zhì)的大小、性質(zhì)等因素選取最適合的方法。值得注意的是,選擇上述兩類遞送方法時,還應(yīng)考慮核酸條形碼的長度對相互作用蛋白質(zhì)檢測的影響。在分子克隆方法中,核酸條形碼僅在基因水平上“代表”目的蛋白質(zhì)或特定的相互作用反應(yīng),而不與蛋白質(zhì)本身產(chǎn)生任何形式的連接。因此,在這類方法中,核酸條形碼的長度不會對相互作用蛋白質(zhì)產(chǎn)生任何影響。然而,在生化反應(yīng)方法中,類似蛋白質(zhì)標簽,核酸條形碼直接連接在目的蛋白質(zhì)上,其長度直接影響著目的蛋白質(zhì)的構(gòu)象,甚至在目的蛋白質(zhì)相互作用時產(chǎn)生空間位阻,進而影響相互作用的檢測。同時,連接在1個待測蛋白質(zhì)上的核酸條形碼還有可能與其他目的蛋白質(zhì)相互作用,導(dǎo)致假陽性的結(jié)果。以Kara等人[10]開發(fā)的蛋白質(zhì)-蛋白質(zhì)相互作用測序(protein-protein interaction sequencing,PROPER-seq)技術(shù)為例,首次實驗中就有13組PPI數(shù)據(jù)同樣在陰性對照實驗中被檢測到,基本可以確定是較長的mRNA條形碼與蛋白質(zhì)相互作用所導(dǎo)致的假陽性。
條形碼的讀取經(jīng)歷了從早期桑格測序[40]、微陣列檢測[26]到如今的高通量測序[30]的逐漸進步歷程,這些方法均包括以下流程:(1)條形碼預(yù)處理;(2)核酸提取、條形碼擴增;(3)測序鑒定。測序流程如Fig.3 所示,Galinski等[25]基于分裂TEV酶方法開發(fā)的GPCR活性分析技術(shù)中,每一個獨特的相互作用會表達不同的標簽(expressed oligonucleotide tag,EXT),而這些表達標簽由獨特的條形碼序列編碼,從而形成報告RNA,在誘導(dǎo)發(fā)生蛋白質(zhì)相互作用后,通過提取細胞內(nèi)總RNA,逆轉(zhuǎn)錄編碼表達標簽的報告RNA,經(jīng)高通量測序定量定性分析報告RNA的表達,以鑒定蛋白質(zhì)的相互作用及其強度。這一方法定量檢測蛋白質(zhì)-蛋白質(zhì)相互作用強度,但受限于表達標簽的設(shè)計,實驗通量有限,若想提高通量則需要賦予每個PPI一個獨特的編碼標簽,工作量較大。
Fig.3 Schematic representation of GPCR split TEV assays
同時,每種讀取方法都會受到條形碼檢測錯誤的影響,除設(shè)計原則中提到的合成和高通量測序中出現(xiàn)的錯誤外,讀取流程中還可能由于PCR擴增及條形碼預(yù)處理引入錯誤[41],包括堿基的缺失、插入和替換等錯誤[42]。例如,蛋白質(zhì)相互作用測序技術(shù)(protein-protein interaction sequencing,PPiSeq)[43]的讀取結(jié)果,就會嚴重受到條形碼預(yù)處理的影響。此技術(shù)的檢測原理是在編碼2個目的蛋白質(zhì)的條形碼前后分別放置了loxP位點,蛋白質(zhì)相互作用會引發(fā)重組,從而介導(dǎo)2個編碼目的蛋白質(zhì)的質(zhì)粒進行分子間重組,2個條形碼由此被連接在一起。然而,這一過程中可能導(dǎo)致大量編碼非相互作用蛋白質(zhì)的質(zhì)粒發(fā)生重組,在PCR時被擴增,影響定量分析。這一重組過程是可逆的,為讀取檢測帶來了壓力??傊?應(yīng)當盡量精簡讀取之前對條形碼進行操作,預(yù)處理工序越復(fù)雜,出現(xiàn)的錯誤可能就越大。Ullal等[44]開發(fā)的光裂解DNA條形碼標記抗體技術(shù)(antibody barcoding with photocleavable DNA,ABCD)提供了一種很好的解決辦法,抗體與DNA條形碼之間通過一種光降解接頭相連。將抗體-條形碼文庫與目的細胞共同孵育后收獲細胞,光照切割連接子釋放唯一的DNA條形碼,之后利用熒光雜交技術(shù)定性定量分析PPI,省去了PCR擴增等步驟,顯著增加了數(shù)據(jù)可信度。然而,其條形碼多樣性受到一定限制,因為,這些條形碼需保證不會與人類基因組發(fā)生交叉反應(yīng)。
自核糖體展示以來,核酸條形碼在蛋白質(zhì)-蛋白質(zhì)相互作用檢測中的應(yīng)用已近30年。隨著合成和測序技術(shù)的進步,條形碼設(shè)計越來越簡潔、多樣性、遞送方式與讀取方式也變的更多樣、方便和低廉。Table 1展示了幾類具有代表性的核酸條形碼在PPI檢測中的應(yīng)用及其特點。這之中,本文根據(jù)不同的PPI檢測方法特點將其分為3類:并行一對一檢測方法、一對多檢測方法和多對多檢測方法。這些方法各具優(yōu)勢又有其自身的不足之處,下文將對這幾類應(yīng)用場景進行逐一討論。
并行一對一檢測方法來源于酵母雙雜交(yeast 2 hybrid, Y2H)[45]、蛋白質(zhì)片段互補分析(protein complementary assay, PCA)[46]等一對一檢測方法,這類方法單次只能檢測一對蛋白質(zhì)的相互作用,通過特定報告基因的表達,以檢測相互作用的強弱。而并行一對一檢測方法則是以此為基礎(chǔ),通過并行的方式同時檢測多對蛋白質(zhì)的相互作用。這一方法雖然操作簡單和結(jié)果直觀,但檢測通量嚴重不足,且無法檢測三元或多元復(fù)合蛋白質(zhì)之間的相互作用。
將核酸條形碼技術(shù)與并行一對一檢測方法結(jié)合能大幅提升檢測通量。Marc Vidal實驗室開發(fā)的Stitch-seq技術(shù)[29],將2個蛋白質(zhì)的開放閱讀框作為核酸條形碼來確定相互作用的蛋白質(zhì)對,實現(xiàn)了大規(guī)模并行一對一檢測。這一方法雖然提高了相互作用蛋白質(zhì)篩選的規(guī)模和靈敏度,但未能充分發(fā)揮核酸條形碼技術(shù)在定量分析和檢測方面的潛力[47]。
Table 1 Overview of barcoding techniques in PPI detections and their properties
BFG-Y2H技術(shù)[12]也是核酸條形碼技術(shù)在蛋白質(zhì)相互作用檢測中較早的應(yīng)用。BFG-Y2H基于酵母雙雜交技術(shù)構(gòu)建“獵物”和“誘餌”質(zhì)粒文庫,每個質(zhì)粒上表達與其蛋白質(zhì)對應(yīng)的兩個特異條形碼?!矮C物”質(zhì)粒上第一個條形碼(X-BC1)和“誘餌”質(zhì)粒第兩個上條形碼(Y-BC2)的兩側(cè),存在有定向特異性的loxP和lox2272重組位點。當兩個酵母文庫雜交后,Cre重組酶誘導(dǎo)分子間交叉反應(yīng),使兩個質(zhì)粒之間物理條形碼交換。并利用選擇性培養(yǎng)基上篩選存在相互作用蛋白質(zhì)對的酵母細胞,之后通過測序確定相互作用的蛋白質(zhì)對。相較于Stitch-seq等技術(shù),BFG-Y2H創(chuàng)新性的利用較短的核酸條形碼來標記蛋白質(zhì),降低了測序成本。同時該方法不僅定性分析蛋白質(zhì)相互作用,還能定量表征其相互作用強度,顯著提升了篩選的效率。同時,由于其條形碼質(zhì)粒文庫具有通用性,原則上其Cre介導(dǎo)的條形碼融合技術(shù)能應(yīng)用于其他蛋白質(zhì)相互作用檢測。例如BFG-PCA[48]、BC-PCA[49]和BFG-GI[50]等技術(shù)。此外,BFG-Y2H技術(shù)還用于其他特定的研究。Schor等[51]利用BFG-Y2H技術(shù)篩選出了BIKE磷酸化的下游靶點網(wǎng)格蛋白相互作用體1(clathrin interactor 1,CLINT1),揭示了CLINT1被磷酸化后介導(dǎo)登革熱病毒感染的機制。Celaj等[52]優(yōu)化了BC-PCA技術(shù),并將其用于釀酒酵母中,測量了14種環(huán)境下1 379種蛋白質(zhì)二元復(fù)合物的體內(nèi)豐度,揭示了釀酒酵母的某些自適應(yīng)調(diào)節(jié)策略。
除與酵母雙雜交技術(shù)連用外,核酸條形碼技術(shù)也廣泛用于其他并行一對一檢測方法的改良和優(yōu)化。Ulrich等[43]基于PCA技術(shù),開發(fā)了類似BFG-Y2H的PPiSeq技術(shù)。他們將“獵物”和“誘餌”蛋白質(zhì)與分裂的小鼠二氫葉酸還原酶(mouse dihydrofolate reductase, mDHFR)融合,并在質(zhì)粒上構(gòu)建特異性條形碼。條件性誘導(dǎo)表達的Cre重組酶構(gòu)建在“獵物”質(zhì)粒上。當2個蛋白質(zhì)相互作用時,mDHFR被重組,使菌落能夠生長在含有釀酒酵母DHFR抑制劑甲氨蝶呤的培養(yǎng)基上,Cre重組酶介導(dǎo)的基因重組將2個條形碼整合到同一染色體上。相比BFG-Y2H技術(shù),依賴于PCA的PPiSeq技術(shù)在內(nèi)源性啟動子的作用下,表達整合在基因組上的融合蛋白質(zhì),蛋白質(zhì)產(chǎn)物在細胞內(nèi)的自然生理環(huán)境中相互作用,是檢測動態(tài)PPI的可行性平臺[53]。Anna等人[54]將分裂的煙草蝕刻病毒蛋白酶與核酸條形碼相結(jié)合,開發(fā)了表達寡核苷酸標簽的分析系統(tǒng)(expressed oligonucleotide tag assay,EXT assay)。在這一體系中分裂的TEV蛋白酶分別與“獵物”或“誘餌”蛋白質(zhì)相連,末端連接轉(zhuǎn)錄激活因子(gal4-vp16, GV)。當2個蛋白質(zhì)存在相互作用時,分裂的TEV酶重組為有活性的蛋白酶,切割釋放末端的GV入核以激活寡核苷酸標簽的轉(zhuǎn)錄,通過測定逆轉(zhuǎn)錄EXT的產(chǎn)量與序列就能確定相互作用的蛋白質(zhì)對及其強度。除此之外,核酸條形碼技術(shù)還能分裂蛋白生物傳感器(split biosensor assay,SBA)技術(shù)[55]結(jié)合使用,這也是大規(guī)模并行一對一檢測方法開發(fā)新的發(fā)展趨勢。因為SBA是利用蛋白質(zhì)-蛋白質(zhì)相互作用誘導(dǎo)2個先前無功能和無結(jié)構(gòu)的蛋白質(zhì)片段重新折疊形成一個有功能的蛋白質(zhì)作為報告因子,因此,相較于利用共定位檢測的傳統(tǒng)的酵母雙雜交技術(shù),SBA能穩(wěn)健的檢測動態(tài)的PPI,且信噪比通常更好[56]。
核酸條形碼技術(shù)與酵母雙雜交或分裂蛋白質(zhì)生物傳感器等技術(shù)連用,僅僅提升了其實驗通量或定量分析能力,但無法改變并行一對一檢測方法的固有缺陷,例如無法同時檢測多蛋白質(zhì)復(fù)合物的相互作用。
一對多檢測方法一般是通過親和純化[57]、蛋白質(zhì)微陣列[58]等方法來識別共純化的蛋白質(zhì)是否具有相互作用。這一類方法的另一個基礎(chǔ)是體外翻譯技術(shù)(invitrotranslation,IVT)。Nirenberg和Matthaei[59]于1961年首次報道了體外翻譯過程,該過程利用細胞裂解物或純化的蛋白質(zhì)翻譯復(fù)合物,實現(xiàn)了蛋白質(zhì)的體外合成。IVT技術(shù)一經(jīng)推出,就立刻被應(yīng)用于蛋白質(zhì)相互作用的檢測。區(qū)別于當時盛行的酵母雙雜交技術(shù),基于IVT開發(fā)的核糖體展示等技術(shù)在體外合成蛋白質(zhì)的過程中,蛋白質(zhì)產(chǎn)物與其對應(yīng)的mRNA結(jié)合在一起。這一技術(shù)有助于在體外大規(guī)模、一鍋合成蛋白質(zhì)-核酸條形碼文庫,成為表征生物信號通路和發(fā)現(xiàn)候選生物藥物的重要工具[60]。
核糖體展示檢測蛋白質(zhì)相互作用的工作流程[61]為:首先是將文庫與感興趣的固定化多肽或蛋白質(zhì)進行孵育,洗去無相互作用的成員,純化結(jié)合的成員,將mRNA逆轉(zhuǎn)錄為cDNA。然后,通過PCR擴增、測序來確定結(jié)合的蛋白質(zhì)。最初,核糖體展示依賴于桑格測序,單次實驗可檢測的序列數(shù)僅有102~103條左右。隨著NGS技術(shù)的發(fā)展,分析的序列數(shù)量增加10 000倍以上(超過107條),顯著提高了實驗的通量并降低了成本[62]。Elledge等[63]開發(fā)的翻譯開放閱讀框并行分析技術(shù)(parallel analysis of translated open reading frames,PLATO)是在核糖體展示的基礎(chǔ)上,將體外合成的蛋白質(zhì)-mRNA文庫與固定化的“誘餌”蛋白質(zhì)共同孵育,最后逆轉(zhuǎn)錄富集的文庫成員的 mRNA 并進行測序,確定相互作用的蛋白質(zhì)。通過將表皮生長因子受體 (epithelial growth factor receptor, EGFR) 家族的17個預(yù)測靶標蛋白質(zhì)使用PLATO展示后,再與偶聯(lián)Gefitinib的磁珠共孵育,Elledge等人成功檢測到了10個顯著富集的靶標蛋白質(zhì)。這一結(jié)果證明,PLATO在花費和時間成本上具有非常明顯的優(yōu)勢,并且跟所有體外展示技術(shù)一樣,能夠非常好的應(yīng)用于抗體開發(fā)和小分子化合物的構(gòu)效關(guān)系分析。然而,利用蛋白質(zhì)開放閱讀框作為條形碼不僅需要在測序前進行多次預(yù)處理,而且某些較長的條形碼無法一次測通,影響了系統(tǒng)的精確性。因此,Kong[64]等優(yōu)化了 PLATO 技術(shù),在每個蛋白質(zhì)ORF的3′端添加了條形碼與蛋白質(zhì)一一對應(yīng),簡化了測序前的處理工作,提升了系統(tǒng)的效率。值得注意的是,核糖體展示技術(shù)的一個關(guān)鍵點是核糖體穩(wěn)定緩沖液需要與核糖體融合蛋白質(zhì)兼容。當這一因素影響了核糖體展示的使用時,mRNA展示可能是一個合適的替代方法。
類似核糖體展示,mRNA展示也能用于在IVT期間將蛋白質(zhì)與其mRNA連接起來,但與核糖體展示不同,mRNA展示是利用嘌呤霉素融合到mRNA的3′端,產(chǎn)生共價連接的多肽-核酸復(fù)合物,并從核糖體中分離出來用于下游文庫的構(gòu)建。1997年,Szostak等[65]首次報道了這一技術(shù)。他們通過DNA連接子將嘌呤霉素融合到mRNA的3′端。經(jīng)核糖體翻譯將雜交mRNA片段翻譯成相應(yīng)的多肽,當延伸到3′ DNA片段時,核糖體停止翻譯,3′嘌呤霉素進入核糖體的A位點,并與生長的多肽形成酰胺鍵,從而使mRNA-DNA-肽復(fù)合物從核糖體釋放。相較于核糖體展示,嘌呤霉素連接的核酸多肽偶聯(lián)物的穩(wěn)定性較高,是研究短肽結(jié)構(gòu)的理想選擇。隨后,Philip等[66]將mRNA展示應(yīng)用于蛋白質(zhì)相互作用篩選研究中,篩選出了幾個與抗凋亡蛋白質(zhì)Bcl-XL相互作用的蛋白質(zhì),證實了這一技術(shù)的巨大潛力。mRNA展示對300個氨基酸長度以下的多肽最為有效[65],而核糖體展則是分析大蛋白質(zhì)的首選方法。
隨著NGS技術(shù)的長足發(fā)展,越來越多的一對多PPI檢測系統(tǒng)開始傾向于使用短核苷酸條形碼標記蛋白質(zhì),使其便于后續(xù)測序。同時,一些DNA-蛋白質(zhì)偶聯(lián)物的合成技術(shù)被相繼開發(fā),并用于目標蛋白質(zhì)的外源性標記。Yazaki等[67]開發(fā)的Halo Tag條形碼檢測技術(shù),使用高親和力捕獲標簽Halo Tag將蛋白質(zhì)與DNA寡核苷酸連接起來,隨后通過高效液相色譜純化DNA-Halo Tag-蛋白復(fù)合物。相對于其他標記方法,Halo Tag標記的蛋白質(zhì)以1∶1比例與一個小的化學(xué)配體氯烷烴結(jié)合,因此,易于確定融合蛋白質(zhì)分子的數(shù)量。Barber[68]等基于CRISPR技術(shù)開發(fā)的Cas9介導(dǎo)的自組裝系統(tǒng)(peptide immobilization by cas9-mediated self-organization,PICASSO),利用sgRNA作為條形碼標記蛋白質(zhì),之后純化出sgRNA-dCas9-目的蛋白質(zhì)復(fù)合物。將復(fù)合物文庫與DNA微陣列共孵育,使dCas9能夠在sgRNA引導(dǎo)下結(jié)合互補的DNA,從而將互作蛋白質(zhì)固定,檢測蛋白質(zhì)-蛋白質(zhì)相互作用。與噬菌體和核糖體展示相比,PICASSO技術(shù)規(guī)范了蛋白質(zhì)水平的實驗流程,對蛋白質(zhì)相互作用進行可視化讀取。并且,由于在設(shè)計時就確定了sgRNA與蛋白質(zhì)的一一對應(yīng)關(guān)系,根據(jù)sgRNA設(shè)計的DNA微陣列序列是固定的。因此,當把dCas9-sgRNA文庫與dsDNA微陣列孵育幾個小時后就可以進行PICASSO篩選,無需測序,避免了過高的測序成本和核酸讀取相關(guān)的錯誤。上文提到過的ABCD 平臺[44],創(chuàng)新性地將條形碼和抗體用光照分解的連接子連接起來構(gòu)建文庫,之后將文庫與特定細胞孵育來檢測特定腫瘤標志物。ABCD平臺靈敏度很高,能夠在單細胞水平上研究臨床樣本,即使是p53結(jié)合蛋白1 (p53-binding protein 1,53BP1)和磷酸化組蛋白H2A突變體X(Phospho-H2A histone family member X, pH2A.X) 這樣的稀缺蛋白質(zhì),也可以在單細胞水平檢測到。利用這一技術(shù)對分離的罕見的細胞和克隆群體進行大規(guī)模的蛋白質(zhì)定位,以深入研究癌癥的異質(zhì)性、耐藥性和循環(huán)腫瘤細胞的臨床應(yīng)用[69]。
一對多檢測方法在抗體定向進化、藥物靶點篩選等領(lǐng)域被廣泛采納。但大多數(shù)一對多檢測方法對蛋白大小有嚴格限制,無法在體外翻譯純化較大的蛋白質(zhì)。此外,體外環(huán)境使得部分蛋白質(zhì)無法實現(xiàn)正常的翻譯后修飾,因此,無法正常發(fā)揮其功能,而且在非生理狀態(tài)下某些PPI無法被正常檢測,這些問題都有待后續(xù)關(guān)注和改進。
相對于并行一對一和一對多檢測方法,多對多檢測方法強調(diào)非二元性繪制PPI圖譜[10],即單個實驗不僅能檢測到多對蛋白質(zhì)相互作用,也能檢測到多重蛋白質(zhì)相互作用。單個被檢測的相互作用有可能是一對蛋白質(zhì)參與的,也有可能是3個或4個蛋白質(zhì)相互作用形成的復(fù)合物。多對多檢測方法的出現(xiàn)可以說完全依賴于NGS技術(shù)的發(fā)展,其實驗規(guī)模的要求使得幾乎所有多對多檢測方法都采用核酸條形碼來標記目標蛋白質(zhì)。
目前,一部分多對多檢測方法是在一對多檢測方法的技術(shù)基礎(chǔ)上開發(fā)的,通過改進條形碼遞送方式、優(yōu)化PPI檢測環(huán)境等手段,實現(xiàn)多對多檢測的目的。例如上文所述SMI-seq[26]技術(shù)就是通過核糖體展示和Halo Tag技術(shù),將含不同通用引物序列的DNA條形碼分別連接到一組“獵物”和一組“誘餌”蛋白質(zhì)上。兩個文庫的蛋白質(zhì)發(fā)生相互作用后被固定到超薄的交聯(lián)聚丙烯酰胺凝膠層中,然后利用橋式PCR對DNA條形碼進行原位擴增,經(jīng)DNA測序確定各位點的蛋白質(zhì)相互作用信息。因為兩組蛋白質(zhì)所攜帶的DNA條形碼的通用引物序列不同,所以利用不同的通用引物經(jīng)兩輪PCR擴增就能區(qū)分“獵物”蛋白質(zhì)和“誘餌”蛋白質(zhì),實現(xiàn)了多對多蛋白質(zhì)相互作用的檢測。SMI-seq技術(shù)在單分子水平上檢測蛋白質(zhì)相互作用,每次反應(yīng)可以同時檢測高達上百萬的PPI,既能定性又能定量分析蛋白質(zhì)相互作用及其強度。但其技術(shù)門檻較高,操作繁瑣,難以大范圍推廣?;隗w外翻譯展示系統(tǒng),Johnson等[10]開發(fā)的蛋白質(zhì)-蛋白質(zhì)相互作用測序(protein-protein interaction sequencing,PROPER-seq)技術(shù)不僅簡化了操作,同時相較SMI-seq檢測通量也顯著增加。PROPER-seq技術(shù)將單次PPI檢測實驗分為3個獨立的模塊:SMART-display、INLISE和Identification。SMART-display類似mRNA展示,將輸入的一組細胞經(jīng)歷RNA提取、cDNA合成、模板轉(zhuǎn)換反應(yīng)、混合基因純化、體外轉(zhuǎn)錄和翻譯等通用步驟就可以得到包含整個細胞基因組的蛋白質(zhì)-mRNA文庫,輸出的文庫內(nèi)容完全取決于輸入的細胞。INLISE是PROPER-seq關(guān)鍵的第3步。首先,將SMART-display輸出的文庫中的一部分通過嘌呤霉素連接子序列上的生物素固定在素磁珠上,作為“誘餌”蛋白質(zhì)文庫,另一部分游離文庫作為“獵物”蛋白質(zhì)文庫。兩個文庫的蛋白質(zhì)發(fā)生相互作用后,將其mRNA轉(zhuǎn)換成雙鏈DNA,通過T4連接酶將相互作用蛋白質(zhì)的cDNA連接,,形成cDNA1-linker-cDNA2形式的嵌合序列。最后,嵌合序列被添加測序通用引物。第3步擴增文庫,進行NGS測序鑒定相互作用。PROPER-seq單次實驗的通量十分驚人,且通過模塊化各個步驟,實驗人員僅需更換上游輸入的細胞即可獲得不同細胞的PPI網(wǎng)絡(luò),可推廣性相當高。盡管如此,PROPER-seq仍有局限,例如蛋白質(zhì)-DNA相互作用可能會引起的假陽性結(jié)果,各模塊的操作繁瑣、且技術(shù)門檻較高。相對而言,Payam等[70]開發(fā)的Abseq技術(shù)的操作更加簡單,技術(shù)門檻也更低。他們利用約100 bp的 DNA條形碼標識表達展示特定抗原的單細胞,同時用59 bp的DNA條形碼標記抗體,將抗體文庫與抗原細胞表面展示文庫共孵育,通過液滴微流控技術(shù)進行單細胞分離,之后,通過重疊PCR將抗體條形碼與細胞條形碼拼接,測序確定抗體與抗原的識別。相較于傳統(tǒng)抗體篩選方法,這一技術(shù)允許抗體識別經(jīng)過修飾的生理狀態(tài)下的抗原。其次,多對多的篩選特性使得Abseq在研究未知藥物靶點和致病機制等方面具有較大潛力。目前,Abseq的通量和靈敏度主要受限于測序深度,同時條形碼可能會在反應(yīng)過程中丟失,重疊PCR也會引入新的錯誤。除此之外,文庫制備成本也比較昂貴,為了使液滴PCR高效,液滴的體積和PCR試劑的濃度都是至關(guān)重要的[71]。
相互作用依賴PCR (interaction dependent PCR,IDPCR)在檢測成本及技術(shù)上具有優(yōu)勢。IDPCR[72]技術(shù)是利用分子內(nèi)和分子間形成雙鏈DNA的熔解溫度(Tm)的差異,實現(xiàn)在37 ℃下利用DNA聚合酶PCR擴增6-nt互補的分子內(nèi)雙鏈而非分子間形成的雙鏈。設(shè)計上,可以將“獵物”和“誘餌”蛋白質(zhì)分別連接到2個單鏈DNA條形碼的3′端,當二者具有相互作用時,可使條形碼上6-nt的互補區(qū)域可以形成分子內(nèi)雙鏈,因此,能夠利用與“獵物”或“誘餌”蛋白質(zhì)條形碼對應(yīng)的通用引物經(jīng)PCR擴增出條形碼。IDPCR操作簡單,敏感度高,僅在n h內(nèi)完成,相比其他類型多對多檢測方法成本優(yōu)勢明顯。之后,Mcgregor等[39]在此基礎(chǔ)上開發(fā)了無需蛋白質(zhì)純化的相互作用測定(interaction determination using unpurified proteins,IDUP)技術(shù)。與IDPCR技術(shù)不同,IDUP技術(shù)是利用抗體識別靶向蛋白質(zhì),以檢測靶標蛋白質(zhì)與小分子配體的相互作用。未經(jīng)純化的蛋白質(zhì)與攜帶DNA條形碼的小分子配體和攜帶DNA條形碼的抗體相互作用,形成蛋白質(zhì)-抗體-配體三元復(fù)合物,其中抗體與配體上的2個DNA條形碼可以通過PCR擴增測定。將IDUP技術(shù)應(yīng)用于表達His6-Bcl-xL的HEK293 T細胞的裂解物中,成功檢測出了Bcl-xL與內(nèi)源性Bad之間的相互作用。這證明IDUP技術(shù)能夠利用細胞裂解液來研究蛋白質(zhì)-配體間的相互作用,因此,靶標蛋白質(zhì)保留了天然的翻譯后修飾,且與粗細胞裂解物兼容,實現(xiàn)對難以純化、可溶性差、結(jié)構(gòu)不穩(wěn)定和易聚集的蛋白質(zhì)進行相互作用檢測。然而,細胞裂解液中,一些雜蛋白質(zhì)可能會促進目的蛋白質(zhì)與小分子配體的結(jié)合,從而導(dǎo)致假陽性增多。此外,IDUP技術(shù)還能應(yīng)用于小分子化合物的構(gòu)效分析。Alix[73]等將IDUP應(yīng)用于DNA編碼的小分子化合物和DNA標記的人類激酶文庫,從中鑒定出了大量已知的小分子與蛋白質(zhì)的相互作用,并揭示了乙基丙烯酸是MAP2K6激酶的新配體和抑制劑,能夠通過非保守半胱氨酸殘基的烷基化來抑制MAP2K6。
目前,多對多檢測蛋白質(zhì)-蛋白質(zhì)相互作用的方法還處在發(fā)展的初期,各種方法不斷涌現(xiàn),包括重組酵母交配SynAg[74]、臨近連接與雙標簽微陣列讀出[75]等方法。但各種方法的可操作性、系統(tǒng)穩(wěn)定性與實際表現(xiàn)仍有待進一步驗證,但相信核酸條形碼蛋白質(zhì)標記技術(shù)仍將在未來很長一段時間是開發(fā)相互作用檢測的重要工具。
核酸條形碼技術(shù)促進了高通量、大規(guī)模蛋白質(zhì)相互作用檢測方法的發(fā)展,通過寡核苷酸作為待測蛋白質(zhì)的分子標識,提高了PPI檢測的通量。隨著生物偶聯(lián)化學(xué)和NGS技術(shù)的進一步發(fā)展,我們或許可以期待核酸條形碼技術(shù)在蛋白質(zhì)相互作用檢測領(lǐng)域得到更普遍的應(yīng)用,而這一期許有賴于以下方向的改進與突破。
首先,是條形碼遞送方式的改進。最近報道的陽離子脂質(zhì)體介導(dǎo)的蛋白質(zhì)遞送方法正如Fig.4 A所示。該方法是利用mRNA展示將體外合成的蛋白質(zhì)連接上核酸條形碼,然后通過類似“轉(zhuǎn)染”的方式將蛋白質(zhì)-條形碼復(fù)合物遞送到細胞內(nèi)[76]。同時,與臨近連接方法(proximity ligation assay, PLA)[77]等其他PPI檢測方法連用,實現(xiàn)在生理條件下動態(tài)檢測PPI。
Fig.4 Potential applications of nucleic acid barcodes in PPI detection
其次,在條形碼生成方面可以采用CRISPR-Cas9技術(shù)。目前,已有大量基于CRISPR-Cas9生成體內(nèi)條形碼的技術(shù)被相繼開發(fā)[78],這些技術(shù)被用于動態(tài)記錄細胞內(nèi)的活動或?qū)崿F(xiàn)細胞譜系追蹤[79]。正如Fig.4B所示,如能采用CRISPR-Cas9編輯的動態(tài)條形碼,則可顯著增加實驗通量,降低假陽性率。但有待解決的關(guān)鍵問題在于,通過何種方法可以將蛋白質(zhì)相互作用與Cas9的活性聯(lián)系起來。其中,基于分裂Cas9的蛋白質(zhì)互補方法可能是一種解決方案[80],同時也借助DNA微陣列或IDPCR等技術(shù),將sgRNA條形碼與蛋白質(zhì)連接起來,以提升PPI檢測的效率和可靠性。
最后,是條形碼連接技術(shù)的發(fā)展。目前的條形碼連接技術(shù),除上述提到的體內(nèi)分子克隆的方法外,其余的2種方法均是將核酸條形碼直接連接在目的蛋白質(zhì)上,這就可能導(dǎo)致目的蛋白質(zhì)的活性位點被掩蓋,從而破壞蛋白質(zhì)-蛋白質(zhì)相互作用。最近提出的精準連接的概念[81]可能會解決這個問題。這一概念目前主要涉及2個技術(shù):位點特異性原位生長(site-specific in situ growth, SIG)和內(nèi)在無序多肽融合(intrinsically-disordered polypeptide fusion, IPF)。這2項技術(shù)的優(yōu)點,首先是可以實現(xiàn)對蛋白質(zhì)結(jié)合位點的精確控制,從而避免蛋白質(zhì)活性位點被掩蓋;其次,SIG的連接效率一般大于50%,而IPF的效率甚至可以達到100%,這有利于后續(xù)文庫的純化及質(zhì)量評價。
同時,我們還期待未來技術(shù)的發(fā)展能帶來更多的可能。例如,是否可以將單個細胞內(nèi)的每個感興趣的蛋白質(zhì)從合成到降解的整個“生命周期”中都標記上條形碼,每次與不同蛋白質(zhì)的相互作用都被動態(tài)實時記錄,以便更高的理解蛋白質(zhì)相互作用在生命活動中的功能。總之,核酸條形碼技術(shù)在大規(guī)模PPI檢測方法中的應(yīng)用仍處于蓬勃發(fā)展時期,在日后生命科學(xué)的各個研究領(lǐng)域會發(fā)揮更大作用。