夏 險(xiǎn),李京京,董昌金,陳新鵬
(湖北師范大學(xué) 生命科學(xué)學(xué)院,國(guó)家級(jí)生物學(xué)教學(xué)示范中心,食用野生植物保育與利用湖北省重點(diǎn)實(shí)驗(yàn)室,特色野菜良種繁育與綜合利用技術(shù)湖北省工程研究中心,湖北 黃石 435002)
DNA測(cè)序技術(shù)自誕生以來(lái),經(jīng)歷了三代技術(shù)的發(fā)展。第一代DNA測(cè)序技術(shù)是科學(xué)家Sanger發(fā)明的雙脫氧鏈終止法(也稱Sanger法),該技術(shù)準(zhǔn)確度高,測(cè)序讀長(zhǎng)可達(dá)800bp,但其操作流程復(fù)雜,耗時(shí)長(zhǎng),成本高,測(cè)序不連續(xù)。熒光染料標(biāo)記法和毛細(xì)管電泳技術(shù)出現(xiàn)后,DNA測(cè)序擺脫了對(duì)聚丙烯酰胺電泳技術(shù)和放射自顯影技術(shù)的依賴,大大提高了測(cè)序的自動(dòng)化程度,使DNA測(cè)序進(jìn)入全自動(dòng)化時(shí)代。第二代DNA測(cè)序技術(shù)利用DNA聚合反應(yīng)和熒光素酶發(fā)光反應(yīng)相偶聯(lián),實(shí)現(xiàn)了邊合成邊測(cè)序,提高了測(cè)序效率和測(cè)序通量,相當(dāng)于一代測(cè)序的2000倍,使DNA測(cè)序進(jìn)入高通量時(shí)代。但是這種測(cè)序方法的讀長(zhǎng)短,測(cè)序費(fèi)用依然昂貴,精度不如一代測(cè)序。第三DNA測(cè)序技術(shù)實(shí)現(xiàn)單分子DNA(RNA)通過(guò)生物納米孔的電流變化推測(cè)堿基組成而進(jìn)行測(cè)序。這種測(cè)序法不受DNA聚合酶活性影響,讀長(zhǎng)接近1Mb。目前,納米孔測(cè)序是DNA測(cè)序技術(shù)的重要發(fā)展方向,主要應(yīng)用于高質(zhì)量基因組的組裝,尤其是對(duì)于高雜合、高重復(fù)、大基因組等復(fù)雜基因組。
基因組是指生物體所有遺傳物質(zhì)的總和,這些遺傳物質(zhì)包括DNA或RNA(病毒RNA)?;蚪M序列是生物的重要特征之一,基因組測(cè)序是弄清未知物種的手段之一?;蚪M測(cè)序的核心技術(shù)是DNA測(cè)序,在作圖法和鳥槍法的多種策略的指導(dǎo)下,結(jié)合DNA測(cè)序技術(shù),經(jīng)過(guò)重疊群和支架拼接、縫隙填補(bǔ)、覆蓋面評(píng)估等過(guò)程獲取基因組序列?;蚪M測(cè)序不僅可以揭示物種遺傳信息,還可以預(yù)測(cè)生物的許多重要功能。目前,基因組測(cè)序從傳統(tǒng)的基礎(chǔ)研究和技術(shù)開發(fā),已經(jīng)走向醫(yī)學(xué)和臨床、農(nóng)業(yè)以及生態(tài)環(huán)境等多方面的應(yīng)用[1, 2]。截至歐洲中部時(shí)間2020年3月20日,全球已有266 073人確診感染新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19),死亡11 184人[3]。本次COVID-19疫情中,基因組測(cè)序在病毒的發(fā)現(xiàn)、檢測(cè)、分類、溯源、致病機(jī)理、藥物研發(fā)等方面都發(fā)揮了十分重要的作用。
自2020年1月10日我國(guó)復(fù)旦大學(xué)學(xué)者公開新型冠狀病毒的基因組序列以來(lái),截至到2020年3月22日,中國(guó)、美國(guó)、日本、泰國(guó)、英國(guó)、法國(guó)等國(guó)家已經(jīng)陸續(xù)公布了1077條新型冠狀病毒的序列[4]。目前,公布的COVID-19基因組大約為29.9Kb,共含Orf1ab(復(fù)制酶復(fù)合體)、S(刺突蛋白)、3、E(小包膜蛋白)、M(包膜糖蛋白)、7、8、9、10b、N(核衣殼)、13和14在內(nèi)的12個(gè)編碼區(qū)[5]。
COVID-19的病原最先由我國(guó)學(xué)者高福院士團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)宏基因組的方法在3例不明肺炎的患者支氣管肺泡灌洗液樣本中檢測(cè)到,是一種與此前報(bào)道的重癥急性呼吸道病毒(SARS)相似性較高的病毒[6]。隨后,該團(tuán)隊(duì)從樣本中分離到病毒株,并通過(guò)納米孔測(cè)序和Sanger法測(cè)序相結(jié)合的方法獲得了該病毒的基因組。經(jīng)序列分析,該病毒與已報(bào)道來(lái)源于蝙蝠的SARS類似病毒的相似性為86.9%,是一種新型冠狀病毒[6]。
圖1 新型冠狀病毒的進(jìn)化分析[12]
宏基因組測(cè)序和全基因組測(cè)序都可以用于病毒檢測(cè),但需要花費(fèi)大量的時(shí)間和較高的經(jīng)濟(jì)成本。實(shí)時(shí)定量RT-PCR由于靈敏度高,成本低和檢測(cè)速度快,在病毒檢測(cè)方面具有很大的優(yōu)勢(shì),是目前病毒檢測(cè)最常用的手段。在此方法檢測(cè)過(guò)程中,設(shè)計(jì)靶向新型冠狀病毒基因組的引物是前提。中國(guó)疾病預(yù)防控制中心病毒病預(yù)防控制所最先針對(duì)該病毒的Orf1ab和N兩個(gè)靶基因設(shè)計(jì)了實(shí)時(shí)熒光RT-PCR的引物和探針[7],具有較高的靈敏度和特異性。德國(guó)科學(xué)家Victor Corman根據(jù)該基因組特點(diǎn),選取該病毒的Orf1ab和E兩個(gè)基因?yàn)榘悬c(diǎn),分別設(shè)計(jì)了兩對(duì)引物和兩個(gè)熒光探針,利用RT-PCR實(shí)驗(yàn)方法,理想狀態(tài)下檢測(cè)極限分別為3.8份RNA 拷貝和5.2份RNA拷貝,顯示了該引物和探針的高特異性,同時(shí)也排除了冠狀病毒科α病毒、β病毒的成員和以及常見(jiàn)的呼吸道病毒干擾,進(jìn)一步說(shuō)明該方法的有效性[8]。Cao bin等人抽取41名疑似患者的血液,選取了該病毒的靶向Orf1ab和N基因引物,利用實(shí)時(shí)熒光定量RT-PCR和基因組測(cè)序結(jié)合的方法,對(duì)這些患者進(jìn)行了確診,分析了這些患者的臨床特征。同時(shí)該研究還暗示,武漢海鮮市場(chǎng)可能不是新型冠狀病毒的唯一源頭[9]。美國(guó)、日本、泰國(guó)、法國(guó)也根據(jù)新型冠狀病毒的特異基因序列設(shè)計(jì)了引物和探針用于RT-PCR檢測(cè)[10]。最近,有學(xué)者根據(jù)新型冠狀病毒的刺突蛋白抗原基因序列,與SARS病毒對(duì)應(yīng)的抗原序列比對(duì),發(fā)現(xiàn)兩者的刺突蛋白抗原具有高度同源性,預(yù)測(cè)這兩種抗原空間表位具有相似性,制備了與新冠狀病毒結(jié)合的抗體,運(yùn)用開發(fā)病毒檢測(cè)的 ELISA試劑盒[11]。
明確病毒分類地位能讓人們更好地認(rèn)識(shí)病毒,根據(jù)對(duì)親緣關(guān)系較近病毒的積累研究,可以為新型病毒的防治提供經(jīng)驗(yàn)。基因組測(cè)序和序列比對(duì)是確定病毒分類地位的快速有效方式。通過(guò)對(duì)新病毒基因組測(cè)序,明確新型冠狀病毒屬于套式病毒目、冠狀病毒科、冠狀病毒屬。冠狀病毒屬由α、β、γ和δ四個(gè)亞群組成,哺乳動(dòng)物是α和β兩個(gè)亞群的主要宿主。如圖1,基于病毒的全基因組序列構(gòu)建的進(jìn)化樹顯示,新型冠狀病毒與β-冠狀病毒的SARS-CoV、MERS-CoV、HcoV-HKU等病毒屬于同一類群,但獨(dú)成一支[12]。分析表明新型冠狀病毒屬于β-冠狀病毒屬,不同于β-冠狀病毒屬的已知病毒。由于新型冠狀病毒的高致病性,國(guó)際病毒分類委員會(huì)命名其為嚴(yán)重性呼吸綜合征冠狀病毒2 (severe acute respiratory syndrome coronavirus 2, SARS-CoV-2)。該病毒與SARS-CoV的全基因組相似性只有79.5%,但是一些保守結(jié)構(gòu)域的氨基酸序列相似性很高[13]。顯示SARS-CoV-2與SARS-CoV同屬,但并不是同一個(gè)物種。
找到傳染源是病毒防治的最重要工作之一,病毒基因組的溯源分析是找到傳染源和傳染路徑的重要方法。根據(jù)全基因組序列比對(duì)和進(jìn)化分析,發(fā)現(xiàn)SARS-CoV-2與一種蝙蝠攜帶的冠狀病毒的全基因組序列相似度高達(dá)96%,表明SARS-CoV-2很可能來(lái)自蝙蝠[13,14]。盡管基因組相似度很高,但是編碼病毒受體結(jié)合域的基因序列相似性低。隨后研究者從穿山甲中分離到了與SARS-CoV-2全基因組相似度高達(dá)99%的病毒株,而且病毒受體結(jié)合域的相似度也很高,這表明中間宿主可能是穿山甲[15,16]。但是,也有報(bào)道指出SARS-CoV-2可能并非直接來(lái)源于穿山甲[17]?;诨蛐蛄蟹治?,研究者還發(fā)現(xiàn)SARS-CoV-2病毒在不斷的傳播中進(jìn)化成L型和S型(圖2),在武漢早期流行的L型可能起源于S型[18]。也有學(xué)者將SARS-CoV-2分為I型(包括IA型和IB型)和II型,在武漢流行的II型可能起源于I型[19]。這些基于基因組序列比對(duì)的研究,都暗示著在全世界流行的SARS-CoV-2起源可能比較復(fù)雜。
圖2 COVID-19的單倍型分析(藍(lán)色代表L型,紅色代表S型)[18]
刺突蛋白(S蛋白)是病毒進(jìn)入細(xì)胞的關(guān)鍵受體結(jié)合蛋白。研究者通過(guò)公布SARS-CoV-2的基因組數(shù)據(jù),注釋后獲得S蛋白的氨基酸序列,再根據(jù)氨基酸序列預(yù)測(cè)了該蛋白的結(jié)構(gòu)(圖3)[12]。結(jié)果表明刺突蛋白很可能與人體細(xì)胞的受體血管緊張素轉(zhuǎn)換酶(ACE2)結(jié)合[12]。預(yù)測(cè)結(jié)果還發(fā)現(xiàn),SARS-CoV-2的S蛋白具有一個(gè)可區(qū)別于SARS-CoV和SARS-CoV類似病毒的酶解敏感的活化環(huán),可能在致病過(guò)程中發(fā)揮作用[20]。隨后,科學(xué)家通過(guò)冷凍電鏡技術(shù)解析了S蛋白和ACE2蛋白結(jié)合的晶體結(jié)構(gòu),證明了這兩個(gè)蛋白不僅可以結(jié)合,而且比SARS-CoV結(jié)合能力強(qiáng)[21,22]。這可能是SARS-CoV-2致病性更強(qiáng)的原因之一。另外,也有研究者發(fā)現(xiàn)SARS-CoV-2與SARS-CoV的S蛋白受體結(jié)合域的序列存在一定差異,提示SARS-CoV-2與SARS-CoV致病機(jī)理有差異,也解釋了與SARS-CoV特異性單克隆抗體結(jié)合能力弱的原因[23]。
圖3 基于基因組預(yù)測(cè)的S蛋白結(jié)構(gòu)及ACE2結(jié)合域[12]
通過(guò)對(duì)新冠狀病毒的基因組序列分析,發(fā)現(xiàn)該病毒的刺突蛋白和4種非結(jié)構(gòu)蛋白(3-胰凝乳蛋白酶樣蛋白酶、木瓜蛋白酶樣蛋白酶、解旋酶和RNA依賴性RNA聚合酶)在病毒增殖過(guò)程中起到關(guān)鍵性作用。這5種蛋白被認(rèn)為是藥物研發(fā)的重要靶標(biāo),其中4種新冠病毒酶的催化位點(diǎn)具有高度保守性,與已發(fā)現(xiàn)的SARS-Cov和MERS-CoV序列具有高度的相似性。研究分析表明抗SARS-Cov和MERS-CoV的藥物口袋具有保守性,很多針對(duì)這類病毒的藥物對(duì)COVID-19同樣具有治療效果[24]。這些藥物包括兩類,一類是針對(duì)參與RNA病毒侵染或者增殖過(guò)程中的酶抑制劑(如法匹拉韋、利巴韋林,瑞德西韋等)、蛋白酶抑制劑和刺突糖蛋白抑制劑[25~28];還有一類藥物是核酸類藥物,通過(guò)與這些酶的mRNA結(jié)合,抑制蛋白翻譯過(guò)程。研究者利用生物信息學(xué)方法比對(duì)基因組序列,發(fā)現(xiàn)SARS-CoV-2的S蛋白、E蛋白或其他蛋白均存在良好的抗原表位,為開發(fā)有效疫苗及中和抗體提供了理論支持[29~31]?;诨蚪M序列信息,最近科學(xué)家還設(shè)計(jì)了新冠病毒的mRNA疫苗,并已進(jìn)入臨床試驗(yàn),其機(jī)制是將編碼新冠病毒刺突蛋白的mRNA導(dǎo)入人體細(xì)胞,使細(xì)胞表達(dá)抗原蛋白,再通過(guò)該抗原刺激免疫系統(tǒng),期望盡快獲得病毒的抗體[32]。
自COVID-19在全球爆發(fā)以來(lái),基因組測(cè)序技術(shù)以特異性高、檢測(cè)速度快和低成本的優(yōu)勢(shì),在疫情防控、防治等方面起到重要作用。當(dāng)前新型冠狀病毒的溯源、傳播機(jī)制、藥物和疫苗研發(fā)等方面還有待深入研究,基因組測(cè)序技術(shù)仍然可以發(fā)揮不可替代的作用。
湖北師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年3期