陸泓雨,劉波,秦超勇,張彥
1.北京市第十二中學,北京100071;2.軍事科學院 軍事醫(yī)學研究院 生物工程研究所,北京100071
RNA 處于生命科學中心法則的中央:遺傳信息儲存在DNA 中,DNA 經(jīng)過轉(zhuǎn)錄產(chǎn)生RNA,其中的mRNA 再經(jīng)過翻譯成為發(fā)揮具體功能的蛋白質(zhì)。在這個過程中,RNA 承前啟后,是遺傳信息傳遞的中樞。目前,許多研究表明,不同種類的RNA 對于基因的編碼和表達調(diào)控具有十分重要的意義,因此系統(tǒng)研究生理或病理狀態(tài)下RNA 的序列和豐度,對于理解相關(guān)基因的作用非常重要。近年來發(fā)展起來的RNA 測序(RNA-seq)技術(shù)[1-2]不僅可以測定RNA 序列,同時也能對RNA豐度進行分析,因此在生命科學的多個領(lǐng)域應(yīng)用前景十分廣泛,已經(jīng)成為研究基因表達調(diào)控的關(guān)鍵技術(shù)。目前常用的RNA 測序技術(shù)多種多樣,但由于不能對RNA 直接測序,必須通過一系列生化反應(yīng)轉(zhuǎn)變成線性雙鏈DNA 并輔以測序接頭才能建立測序文庫用于測序,因而成本昂貴,且對RNA 總量和濃度的要求高,不利于一般研究人員進行RNA 測序研究。本研究的目的是建立簡便、低門檻的RNA 測序建庫方法,從而使RNA 測序更為實用,為開展相關(guān)研究提供技術(shù)支持。
人胚腎HEK293 細胞來自ATCC 細胞庫;模板轉(zhuǎn)換寡核苷酸(template switching oligo,TS-oli?go)、RT 引物及PCR 引物(表1)由生工生物工程(上海)股份有限公司合成;RNA 提取試劑TRIzol、RNA片段化酶RNase Ⅲ、Maxima H Minus Re?verse Transcriptase 和Superscript Ⅱ購自Thermo Fisher 公司;反轉(zhuǎn)錄酶SMARTscribe 購自Clontech公司;KAPA HiFi HotStart ReadyMix 購自KAPA公司;MagicPure RNA Beads 購自Transgen Biotech公司;Proflex型PCR儀、Ion Proton 型測序儀購自Thermo Fisher 公司。
圖1 基于模板轉(zhuǎn)換反轉(zhuǎn)錄的RNA 測序建庫原理
表1 本研究所用到寡核苷酸引物
本研究的建庫方案非常簡便,涉及的實驗步驟僅有2 步(圖1),關(guān)鍵實驗參數(shù)包括反轉(zhuǎn)錄酶、反轉(zhuǎn)錄反應(yīng)溫度、TS-oligo 的選擇,以及是否進行cDNA 純化,因此本研究的重點就是對這些參數(shù)進行優(yōu)化,并根據(jù)文庫DNA 長度和濃度結(jié)果確立理想的RNA-seq 建庫技術(shù)。
為了測試對于微量RNA(總量10 ng)的建庫能力,首先制備HEK293 細胞的RNA,再用RNaseⅢ制備片段后經(jīng)MagicPure RNA Beads 純化,定量取10 ng RNA 用于建庫測試。
本研究的核心就是利用反轉(zhuǎn)錄酶的模板轉(zhuǎn)換活性,實現(xiàn)一步實驗即完成從RNA 到雙鏈DNA的轉(zhuǎn)變。因此,模板轉(zhuǎn)換活性的強弱是決定實驗成敗的重要因素。選擇3 種常用的、被報道具有模板轉(zhuǎn)換活性的商品反轉(zhuǎn)錄酶,比較其對于微量RNA 的反轉(zhuǎn)錄和模板置換合成第二鏈的能力。以10 ng 片段化RNA 為起點,反轉(zhuǎn)錄反應(yīng)結(jié)束后取1 μL 進行PCR,除反轉(zhuǎn)錄酶和各自配套的酶反應(yīng)緩沖液以外,其他所有條件都完全一致,最終以反轉(zhuǎn)錄后PCR 產(chǎn)物的多少來判斷模板置換的能力。
由于反轉(zhuǎn)錄酶合成DNA 到末端后都會隨機加上數(shù)個堿基,因此每次反轉(zhuǎn)錄結(jié)束后在3′端都增加額外數(shù)個堿基,啟動下一輪模板轉(zhuǎn)換時就會造成TS-oligo 串聯(lián)的現(xiàn)象(圖2)。要想改善這一現(xiàn)象,就需要在實驗設(shè)計中將TS-oligo 的5′端進行封閉。
本研究采用兩種方案,即生物素化修飾(采用表1 中的Biotin-TS-oligo)和無堿基間壁修飾(采用表1 中的AP-TS-oligo)。這2 種修飾都可以使得反轉(zhuǎn)錄酶不能以最后一個堿基為模板合成DNA,從而避免到達末端后增加額外的堿基。本研究通過比較這2 種TS-oligo 對建庫效率的影響,篩選適宜的TS-oligo。
在同時利用反轉(zhuǎn)錄酶的反轉(zhuǎn)錄活性和模板置換活性制備雙鏈cDNA 文庫時,通常情況下提高反轉(zhuǎn)錄的溫度有助于打開RNA 的二級結(jié)構(gòu),利于反轉(zhuǎn)錄酶延伸至cDNA 末端。但是過高的溫度不利于TS-oligo 和cDNA 末端3 個連續(xù)的配對,從而會降低模板置換的效率。在酶的最適溫度附近選擇42℃、45℃及50℃分別進行反轉(zhuǎn)錄和第二鏈合成反應(yīng)。
在反轉(zhuǎn)錄過程中,反轉(zhuǎn)錄引物和TS-oligo 也可以互相配對形成2 個寡核苷酸的二聚體,所以產(chǎn)物中往往會存在二聚體雜質(zhì),而cDNA 純化有可能減少二聚體的形成。由于這種二聚體的大小顯著低于真正RNA 反轉(zhuǎn)錄的產(chǎn)物,因此可以通過片段長度測定進行條件篩選。將反轉(zhuǎn)錄產(chǎn)物分為2 組,每組5 μL,其中一組不經(jīng)過純化,直接取1 μL 進行PCR,另一組用1.0×AMPure Beads 純化后用5 μL 去離子水洗脫再取1 μL 進行PCR。
利用高通量測序分析驗證數(shù)據(jù)重復性以及分子條形碼對基因表達豐度的校正。RNA-seq 測序文庫制備完成后,交由北京諾禾致源公司進行文庫質(zhì)檢和測序。對于不含分子條形碼的文庫,直接用STAR 比對軟件使用默認參數(shù)進行比對,對片段的技術(shù)規(guī)則是片段讀數(shù);對于包含條形碼的文庫,則先去除條形碼再進行比對,對每一個片段的技術(shù)規(guī)則是條形碼數(shù)量。
圖2 模板轉(zhuǎn)換產(chǎn)生TS-oligo 串聯(lián)現(xiàn)象的機制
圖3 不同的酶對建庫效率的影響
反轉(zhuǎn)錄酶選擇實驗結(jié)果見圖3。所有經(jīng)過測試的酶都具有模板置換活性,Clontech 公司的SMARTscribe 的活性最高,因此選擇該酶進行后續(xù)實驗。
生物素化修飾(Biotin-TS)和無堿基間壁修飾(AP-TS)2 種建庫方案所獲得的PCR 產(chǎn)物電泳結(jié)果見圖4,2 種情況下所獲得cDNA 庫的組成和濃度相似,表明2 種修飾方案都可以實現(xiàn)較好的擴增。最終需要通過高通量測序結(jié)果進一步驗證。
選擇42℃、45℃及50℃分別進行反轉(zhuǎn)錄和第二鏈合成反應(yīng),并通過核酸電泳檢測不同反應(yīng)溫度下的擴增效率,結(jié)果顯示50℃的擴增效率相對較好(圖5)。
為了探究cDNA 純化是否能夠提高建庫效率,本研究設(shè)置了經(jīng)cDNA 純化組和未經(jīng)cDNA 純化組,結(jié)果表明cDNA 經(jīng)過純化后PCR 產(chǎn)物中二聚體顯著減少(圖6)。
2.5.1 數(shù)據(jù)重復性 對測序結(jié)果進行比對和基因計數(shù)后,分別對2 種方案的基因表達量進行重復性分析,結(jié)果顯示2 種方案的重復性都非常高,相關(guān)性系數(shù)達到0.95 以上(圖7)。
2.5.2 分子條形碼對基因表達豐度的校正 圖8顯示的是2 個snoRNA 基因的表達情況。再比較使用(AP-TS 組)和不使用(Biotin-TS 組)分子條形碼的測序數(shù)據(jù),發(fā)現(xiàn)使用條形碼校正后的基因讀數(shù)更加均一(圖8 左紅色);而且SNORD6 基因的表達量低于SNORA32(圖8 左上),而未校正的測序數(shù)據(jù)則不能判斷這2 個基因的表達差異(圖8 左下)。進一步通過經(jīng)典的熒光定量PCR 實驗驗證所選擇的2 個snoRNA 基因的表達差異,顯示SNORD6 的表達量低于SNORA32(圖8 右)。可見,2 種TS-oligo 的建庫測序分析效果存在差異,而使用攜帶分子條形碼的TS-oligo 可以使一些基因表達量得到有效校正,更加真實地反映基因表達水平。
圖4 不同修飾的TS-oligo 建庫效率相當
圖5 不同反轉(zhuǎn)錄溫度對建庫效率的影響
圖6 cDNA 純化顯著提高建庫效率
圖7 2 種建庫方案生物學重復的相關(guān)性
MMLV 轉(zhuǎn)錄酶具有多種活性:以RNA 為模板的DNA 聚合酶活性(即反轉(zhuǎn)錄活性);在cDNA 合成的3′端增加數(shù)個非模板依賴的核苷酸活性(末端轉(zhuǎn)移酶活性);在TS-oligo 存在的情況下,能以合成的cDNA 第一鏈為模板繼續(xù)合成cDNA 第二鏈(模板轉(zhuǎn)換活性)。2001年最早報道了利用這些活性進行cDNA 末端快速擴增(rapid amplifica?tion of cDNA ends,RACE)的研究[3],之后Clontech公司進一步利用這一技術(shù)發(fā)展出目前市場上較為成熟的RNA 測序技術(shù)[4-5],但該公司的試劑盒成本昂貴。本研究通過自主設(shè)計寡核苷酸并優(yōu)化參數(shù),建立了基于模板轉(zhuǎn)換和分子條形碼的微量樣本RNA-seq 一步法建庫流程,簡化了操作,縮短了建庫時間,降低了建庫成本。此外,雖然本研究是按照Thermo Fisher 的Iontorrent 平臺設(shè)計測序接頭,但由于反轉(zhuǎn)錄引物和TS-oligo 都是自行設(shè)計,故理論上該方法可以適配任何測序平臺以進行RNA 測序分析,包括Illumina 測序平臺和PacBio 三代測序平臺等,從而突破商業(yè)化試劑盒對測序平臺的選擇限制。
圖8 分子條形碼對基因表達量進行校正
本研究所確立的實驗參數(shù)包括反轉(zhuǎn)錄酶、反轉(zhuǎn)錄反應(yīng)溫度、TS-oligo 的選擇,以及是否進行cDNA 純化。研究發(fā)現(xiàn)目前市場上相關(guān)反轉(zhuǎn)錄酶產(chǎn)品在模板置換活性方面存在差異,其中Clon?tech 公司生產(chǎn)的SMARTscribe 活性最高。在反轉(zhuǎn)錄反應(yīng)溫度選擇上,一方面要保證反轉(zhuǎn)錄酶在高效的溫度下工作,另一方面須同時考慮核酸的動力學特點。在本研究選擇的測試溫度下,50℃時效果較好,可能因為二級結(jié)構(gòu)能更充分地打開,幫助反轉(zhuǎn)錄酶延伸到末端,從而啟動模板轉(zhuǎn)換。反轉(zhuǎn)錄過程中難以避免RT 引物和TS-oligo 形成二聚體,而這種二聚體對于微量樣品文庫制備有嚴重的干擾作用,本研究發(fā)現(xiàn)通過純化cDNA 來去除二聚體產(chǎn)物能夠顯著提高建庫效率。
當前主流的RNA-seq 分析基因表達量主要考察測序讀數(shù)(即一個基因或轉(zhuǎn)錄本被測定多少次)[6],然而由于建庫中用到PCR 擴增,容易引起擴增效率偏好,最終產(chǎn)物片段的多少和初始樣品中基因片段的多少不能成正比[7]。分子條形碼是在TS-oligo 上引入一段隨機核苷酸,每個RNA 分子只可能與一個TS-oligo 對應(yīng),因此最終測序得到每個基因?qū)?yīng)的條形碼數(shù)量就可以推算基因的表達量。這種方法理論上會大大降低PCR 偏好性對基因表達量估計的干擾。本研究在模板置換引物上加入分子條形碼設(shè)計后,改變了單純用測序讀數(shù)來判定基因表達量的做法,而采用分子條形碼的數(shù)量來判別基因表達量。初步分析結(jié)果顯示,這樣的判定方法計算的基因覆蓋更加均勻,且表達量估計更加準確,這在微量RNA-seq中具有重要意義。首先,這種判讀方法更加準確,可進一步增加數(shù)據(jù)的可信度;其次,對于極微量的樣品,如血液中來自腫瘤外泌體的RNA 或單細胞樣品來說,需要擴增較多循環(huán)數(shù),而僅僅通過測序讀數(shù)判讀基因表達量可能會引入較大誤差。加入分子條形碼使得表達量估計偏差減小的同時,還可以適度提高文庫擴增循環(huán)數(shù),從而降低文庫制備的門檻,提高RNA 分析的成功率。
本研究針對10 ng RNA 樣品,探索出基于模板轉(zhuǎn)換、分子條形碼和cDNA 純化的RNA-seq 建庫技術(shù),有望在腫瘤外泌體研究、單細胞測序等極微量核酸研究領(lǐng)域得到應(yīng)用。該法與目前主流的建庫方案相比,成本低、耗時短、通用性強,建庫分析的成功率高,具有明顯優(yōu)勢。