蔣帥 游昌喬 丁云云 張紅明 秦紅 郭新紅
摘 要:微衛(wèi)星(microsatellites)在新型冠狀病毒(SARS-CoV-2)的基因組表達調(diào)控、種群遺傳進化以及宿主免疫互作調(diào)節(jié)方面發(fā)揮重要作用。該研究利用NCBI數(shù)據(jù)庫以及微衛(wèi)星分析系統(tǒng)篩選并測試SARS-CoV-2原株及變體中不同微衛(wèi)星數(shù)量與遺傳特征的關(guān)聯(lián),探索影響SARS-CoV-2遺傳多樣性的微衛(wèi)星特征。通過生物信息學(xué)分析,構(gòu)建SARS-CoV-2的全基因組序列庫,并收集關(guān)于序列庫的遺傳特征、微衛(wèi)星數(shù)量以及微衛(wèi)星相對位置分布特征信息;通過生物統(tǒng)計學(xué)分析,對不同微衛(wèi)星數(shù)量進行相關(guān)性測試以及單樣本W(wǎng)ilcoxon符號秩非參數(shù)檢驗。結(jié)果表明,SARS-CoV-2的原株與變體(除Lambda和Omicron)中不同微衛(wèi)星數(shù)量、占比與相對位置分布特征相似。2核苷酸重復(fù)(77%~78%)、3次基序重復(fù)(22%~23%)以及全長6 bp(73%)的微衛(wèi)星占比較高,而ORF3a(0.48/100 bp)、E(0.44/100 bp)與N(0.40/100 bp)3個編碼區(qū)序列的微衛(wèi)星密度也較高??偲骄⑿l(wèi)星數(shù)量與堿基含量間存在顯著的負相關(guān)性(r:–0.799 6;P:0.009 7),但與堿基替換量無顯著相關(guān)性。本研究豐富了分子生物學(xué)領(lǐng)域?qū)ARS-CoV-2的遺傳多樣性以及進化機制的研究,并為新型冠狀病毒感染疫情的防治提供了新思路。
關(guān)鍵詞:新型冠狀病毒;微衛(wèi)星;遺傳多樣性;堿基含量偏向性;種群遺傳進化
中圖分類號:R373 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標(biāo)志碼:ADOI:10.3969/j.issn.1007-7146.2023.03.003
Genetic Diversity Analysis of SARS-CoV-2 Based on Correlation Tests of Microsatellites
JIANG Shuai1#, YOU Changqiao1, 2#, DING Yunyun1#, ZHANG Hongming1, 2, QIN Hong2, GUO Xinhong1*
(1. School of Biology, Hunan University, Changsha 410082, China; 2. NanHua Bio-medicine Co., Ltd., Changsha 410006, China)
Abstract: Microsatellites were crucial in the control of SARS-CoV-2 genomic expression, population genetic evolution and host immunity interaction. The NCBI database and microsatellite analysis systems were utilized in this study to screen and test the correlation between the number of different microsatellites and genetic characteristics in the original strain and variants of SARS-CoV-2, as well as to investigate the microsatellite features affecting the genetic diversity of SARS-CoV-2. By bioinformatics analysis, the whole-genome sequence database of SARS-CoV-2 was constructed, and information on the genetic characteristics, microsatellite numbers and relative position distribution characteristics of microsatellites in the sequence database were collected; correlation analysis between the number of various microsatellites and one-sample Wilcoxon signed-rank non-parametric tests were performed by biostatistical analysis. The findings revealed that the quantity, proportion, and relative distributing features of various microsatellites in the original strain and SARS-CoV-2 variants (except Lambda and Omicron) were comparable. The proportion of microsatellites with 2 nucleotide repeats (77%~78%), 3 motif repeats (22%~23%), and 6 bp full-length (73%) were relatively high, and the microsatellite density of ORF3a (0.48/100 bp), E (0.44/100 bp), and N (0.40/100 bp) coding regions were also high. The total average number of microsatellites was negatively correlated with the base content (r: –0.799 6, P: 0.009 7), whereas no significant correlation with the number of base substitutions. This study enriched the research on the genetic diversity as well as the evolutionary mechanism of SARS-CoV-2 in the field of molecular biology and provided new ideas for the prevention and control of the corona virus disease 2019 pandemic.
Key words: SARS-CoV-2; microsatellites; genetic diversity; base content bias; population genetic evolution
(Acta Laser Biology Sinica, 2023, 32(3): 208-216)
作為21世紀以來影響最嚴重的全球性流行病,新型冠狀病毒?。╟orona virus disease 2019,COVID-19)給世界各國的經(jīng)濟發(fā)展和人民的健康生活帶來了沉重的影響[1]。新型冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)是導(dǎo)致此次疫情的致病病原體,屬于正義單鏈RNA病毒(positive-sense single-stranded RNA virus,+ssRNA virus) [2]。自2019年年末,在湖北省武漢市首次檢測出SARS-CoV-2后,該毒株及其變體(variants)的全基因組注釋[3]、三維蛋白結(jié)構(gòu)[4]以及遺傳譜系[5]等信息被逐漸公布。
微衛(wèi)星(microsatellites)又稱簡單序列重復(fù)(simple sequence repeats),指由1~6 bp長的基序(motifs)串聯(lián)重復(fù)構(gòu)成的短序列。作為基因組中的重要遺傳單元,利用生物信息學(xué)手段研究其組成以及分布不僅能夠解釋生命體的遺傳與蛋白表達調(diào)控周期特征[6]、重建群落遺傳譜系[7],而且有助于促進新療法的開發(fā)[8]。截止到目前,有關(guān)對SARS-CoV-2各變體微衛(wèi)星的分析主要包括2個方面:首先是對微衛(wèi)星在SARS-CoV-2原株與其他人冠狀病毒(human coronaviruses,HCoVs)中的分布信息進行橫向種間對比;其次是優(yōu)化檢索和篩選某SARS-CoV-2株系內(nèi)特定基因中微衛(wèi)星的算法[9-10]。隨著更多SARS-CoV-2變異株的發(fā)現(xiàn)與相應(yīng)的全基因組序列的公開,研究人員往往忽視SARS-CoV-2不同變體之間的微衛(wèi)星含量與相對位置分布的相關(guān)性研究。此外,不同變體的微衛(wèi)星相關(guān)特征與全基因組遺傳多樣性之間的潛在相關(guān)性也存在很大的研究空間。
本文基于SARS-CoV-2原株及其變種全基因組序列內(nèi)部豐富的遺傳多樣性特征,利用在線微衛(wèi)星搜索網(wǎng)站,挖掘、篩選并統(tǒng)計各類微衛(wèi)星數(shù)量及在基因組內(nèi)部的相對位置分布,通過相關(guān)性測試與非參數(shù)檢驗找出與微衛(wèi)星數(shù)量、分布特征相關(guān)的遺傳學(xué)因素并驗證結(jié)果的準確性,從而對微衛(wèi)星調(diào)控SARS-CoV-2生理活動的潛在新機制進行初步探索與解釋。近年來,眾多的研究成果已經(jīng)證明,微衛(wèi)星的相關(guān)研究可以高效準確地揭示病毒與人體之間的互作方式,并針對互作網(wǎng)絡(luò)中某過程涉及到的部分遺傳特征研發(fā)特殊抗病性藥物[11]。因此,通過分析SARS-CoV-2各變種的遺傳多樣性與微衛(wèi)星特征之間的關(guān)聯(lián),可以進一步挖掘SARS-CoV-2的潛在遺傳特征,并為研究人員防治新冠疫情提供新思路。
1 材料與方法
1.1 SARS-CoV-2全基因組序列庫構(gòu)建與比對
出于準確性考慮,從美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的Nucleotide數(shù)據(jù)庫[12]中收集SARS-CoV-2原株的全基因組參考序列(complete RefSeq genome,RG)和6種已發(fā)表的主要變異株(Alpha B.1.1.7、Belta B.1.351、Delta B.1.617.2、Gamma P.1、Lambda C.37、Omicron B.1.1.529)[2]的全基因組序列,構(gòu)建fasta格式序列庫。簡并堿基(degenerate bases,DBs)經(jīng)常出現(xiàn)在測序質(zhì)量不佳的基因組中,很容易對開放閱讀框處的核酸序列進行錯判,且導(dǎo)致部分后續(xù)操作軟件造成兼容性錯誤[13]。參考前人對DBs的處理[14],在序列庫比對前,利用Python中的re.sub函數(shù)批量清除因測序結(jié)果不準確造成的基因組序列內(nèi)部出現(xiàn)的所有DBs(形式包括:RYMKSWHBVDNZ),以避免其影響遺傳多樣性的分析結(jié)果。鑒于序列平均長度較長(約30 000 bp),采用基于MAFFT算法的FFT-NS-1多重序列比對方法對序列庫進行在線比對(https://mafft.cbrc.jp/alignment/server/)[15]。
1.2 序列庫的生物信息學(xué)分析
比對完成后,利用分子進化遺傳軟件(molecular evolutionary genetics analysis,MEGA11.0)[16]的核苷酸組成查找功能,分析序列庫內(nèi)4種堿基的總平均含量以及3個密碼子位點的總平均堿基含量?;贛EGA11.0中的“核苷酸對頻率計算”功能,分析序列庫所含不同核苷酸對的替換頻率分布。過濾后DBs在比對后序列庫中形成空位(gaps),將完整的編碼序列截斷,導(dǎo)致最終搜索到的微衛(wèi)星數(shù)量不準確,各變體相同編碼區(qū)序列內(nèi)微衛(wèi)星的分布情況也難以比較。利用在線微衛(wèi)星查找工具(simple sequence repeat identification tool,SSRIT,https://archive.gramene.org/db/markers/ssrtool)[17] 在單個序列中查找微衛(wèi)星存在一定的效率,將選項設(shè)置為模糊查找功能,可以降低空位對微衛(wèi)星的搜索影響。直接采用SSRIT對比對后序列庫進行微衛(wèi)星查找,并設(shè)置最大基序長度與最大重復(fù)數(shù)量參數(shù)分別為“trimer”和“3”,以此找出序列庫中所有微衛(wèi)星基序出現(xiàn)重復(fù)次數(shù)超過3次的2核苷酸重復(fù)(dinucleotide repeats,DiRs)、3核苷酸重復(fù)(trinucleotide repeats,TriRs)、3次基序重復(fù)(triple motif repeats,3MRs)、4次基序重復(fù)(quadruple motif repeats,4MRs)以及5次基序重復(fù)(quintuple motif repeats,5MRs)的微衛(wèi)星,同時該平臺還標(biāo)定了所有微衛(wèi)星的相對起始位置與終止位置區(qū)間。
1.3 微衛(wèi)星的遺傳相關(guān)性分析
皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,r)能夠直觀、快速反映2個變量的線性相關(guān)性的強弱程度。分別統(tǒng)計DiRs、TriRs以及 DiRs + TriRs的微衛(wèi)星數(shù)量,利用r的描述統(tǒng)計方法,將所有堿基組成相同的微衛(wèi)星總堿基含量(%)作為獨立變量與相應(yīng)的各類微衛(wèi)星數(shù)量(DiRs、TriRs、DiRs + TriRs)分別進行相關(guān)性分析(correlation analysis),探索堿基含量對微衛(wèi)星組成形式的影響。同時,對堿基替換(base substitution)頻數(shù)[包括堿基轉(zhuǎn)換(base transition)與堿基顛換(base transversion) 2種單核苷酸形式的突變]與全部微衛(wèi)星以及DiRs之間的數(shù)量相關(guān)性進行測試。MEGA軟件提供的核苷酸對頻率查找功能能夠獲得每種微衛(wèi)星的堿基替換頻數(shù)。為避免以上2個相關(guān)性分析結(jié)果受偶然誤差的影響,且不同微衛(wèi)星數(shù)量的分布與SARS-CoV-2遺傳特性之間相關(guān)性趨勢難以估計,因此對上述相關(guān)性測試獲得的r進行單樣本W(wǎng)ilcoxon符號秩非參數(shù)檢驗(P<0.05、零假設(shè)中位數(shù)=0、備擇假設(shè)中位數(shù)≠0)[18]。通過比較各組非參數(shù)檢驗統(tǒng)計量的精確概率(exact probability of paired samples,EPPS)與漸進概率(asymptotic probability of paired samples,APPS)的大小關(guān)系判斷相關(guān)性結(jié)果是否為隨機事件[19]。以上相關(guān)性測試以及非參數(shù)檢驗通過R語言(psych包與基礎(chǔ)函數(shù))完成。
2 結(jié)果與分析
2.1 序列庫基本信息
通過NCBI數(shù)據(jù)庫的序列篩選與在線多重序列比對,最終得到比對后序列庫的基本信息(表1)。比對后序列庫內(nèi)的序列平均長度為29 746 bp,RG和Alpha變體序列相對較長 (>29 900 bp),測序完整度更高;RG、Alpha、Delta、Gamma以及Lambda變體的原序列DBs占比為0,測序結(jié)果更穩(wěn)定,而Belta和Omicron變體序列在比對后序列中平均長度減小,表明原NCBI測序結(jié)果中存在少量DBs。鑒于比對后序列庫的序列對齊(alignment)特性以及SSRIT網(wǎng)站的自適應(yīng)算法,由DBs造成的部分序列出現(xiàn)gaps會被清除或用擬合的堿基進行填充。此外,比對前Omicron序列內(nèi)的DBs經(jīng)過人工核實多數(shù)位于序列末尾,不會影響其余基因編碼區(qū)內(nèi)部微衛(wèi)星的查找與定位。
2.2 序列庫內(nèi)微衛(wèi)星基本信息
利用SSRIT在線查找比對后序列庫內(nèi)各序列不同種類的微衛(wèi)星,結(jié)果表明,SARS-CoV-2原株及變種中存在相似數(shù)量分布特征的各類微衛(wèi)星(圖1)。DiRs和TriRs分別占微衛(wèi)星總量的77%~78%以及22%~23%;3MRs、4MRs和5MRs則分別占微衛(wèi)星總量的94%~95%、2%~3%以及2%?;蛑貜?fù)次數(shù)越多、基序越復(fù)雜的微衛(wèi)星往往更難在變體中存在。隨著更多SARS-CoV-2株系的出現(xiàn),復(fù)雜微衛(wèi)星數(shù)量的改變則暗示了病毒關(guān)鍵位點的突變以及適應(yīng)環(huán)境能力的增強[7]。Lambda和Omicron作為最晚出現(xiàn)的2種變體[20],序列內(nèi)的微衛(wèi)星數(shù)量與其他變體相比存在一定的差別(89個、85個),且主要體現(xiàn)在DiRs (78%、78%)與TriRs (22%、22%)的微衛(wèi)星數(shù)量所占比例的差異;Omicron變體序列內(nèi)的3MRs微衛(wèi)星所占比例較高(95%),說明其內(nèi)部的特異遺傳標(biāo)記逐漸向生成內(nèi)部更穩(wěn)定的結(jié)構(gòu)方向進行變異。此外,DiRs與3MRs在序列內(nèi)的占比更大且結(jié)構(gòu)更穩(wěn)定,因此,我們推測以上微衛(wèi)星可能是促進SARS-CoV-2變種具有豐富遺傳多樣性的重要因素。
SARS-CoV-2微衛(wèi)星的長度以6、8、9、10和12 bp為主,6 bp長度的微衛(wèi)星平均數(shù)量超過60個,占總數(shù)的73%(圖2)。8和10 bp(2個)長度的微衛(wèi)星數(shù)量相似,但數(shù)量遠小于9 bp長度的微衛(wèi)星。盡管DiRs的微衛(wèi)星數(shù)量更多,但多以TriRs形式為主,4MRs和5MRs則為罕見形式。10和12 bp長度的微衛(wèi)星在各變體中的數(shù)量相同,6、8和9 bp這類長度較短的微衛(wèi)星,它們在SARS-CoV-2突變產(chǎn)生不同變體的過程中,已經(jīng)出現(xiàn)了數(shù)量上的變化。Lambda變體和Omicron變體分別在6 bp(65個)以及6、8和9 bp(63個、1個、18個)長度上與其余變體間存在微衛(wèi)星數(shù)量差異??梢约僭O(shè),隨著SARS-CoV-2進一步突變,新的株系中長度較短的微衛(wèi)星容易先發(fā)生變異,而長度較長的微衛(wèi)星則可以作為病毒內(nèi)部的保守標(biāo)記序列檢驗或預(yù)測SARS-CoV-2的突變周期與規(guī)模。
以RG序列的基因編碼區(qū)位置與長度為基準,對齊并錄入其余變體的基因編碼區(qū)相對位置信息,從而整理所有微衛(wèi)星在各基因編碼區(qū)的分布密度(圖3)。ORF3a(0.48/100 bp),E(0.44/100 bp)與N(0.40/100 bp)3個編碼區(qū)的微衛(wèi)星密度最高,其編碼區(qū)產(chǎn)物分別為ORF3a蛋白[21]、包膜蛋白和核衣殼磷蛋白[22]。不含微衛(wèi)星的3個編碼區(qū)分別為ORF6、ORF7b以及ORF8,其編碼區(qū)產(chǎn)物分別為ORF6蛋白、ORF7b蛋白以及截短ORF8蛋白[21-22]。相較于其他序列的S區(qū)內(nèi)微衛(wèi)星密度,Omicron變體明顯偏?。?.002 4/100 bp),這表明Omicron變體的主要突變定位在S編碼區(qū),其產(chǎn)物表面糖蛋白[22]與其他變體間存在一定程度差異。此外,還有3個微衛(wèi)星未在所有變體的基因編碼區(qū)出現(xiàn),它們分別是TG(47~52 bp)、CA(29 507~29 512 bp)以及GT(29 649~29 654 bp)(以RG序列中5'→3'的定位為基準)。
圖3 ?微衛(wèi)星在SARS-CoV-2原株及變種中各基因編碼區(qū)的分布
Fig. 3 ?The distribution of microsatellites in coding regions of the original strain and variants of SARS-CoV-2
A:ORF1ab區(qū);B:S區(qū);C:ORF3a區(qū);D:E區(qū);E:M區(qū);F:ORF6區(qū);G:ORF7a區(qū);H:ORF7b區(qū);I:ORF8區(qū);J:N區(qū);K:ORF10區(qū)。
A: ORF1ab region; B: S region; C: ORF3a region; D: E region; E: M region; F: ORF6 region; G: ORF7a region; H: ORF7b region; I: ORF8 region; J: N region; K: ORF10 region.
2.3 堿基含量與微衛(wèi)星數(shù)量的相關(guān)性
序列庫中的AU堿基對含量(40.0%)明顯低于GC堿基對含量(60.0%),相較于一些病毒(如埃博拉病毒[23]),SARS-CoV-2株系存在明顯的GC含量偏性,導(dǎo)致該毒株的遺傳變異方向存在一定的不穩(wěn)定性[24](圖4)。U-1(12.0%)、G-2(8.1%)、A-2(10.3%)以及C-3(6.9%)分別為4種堿基含量在3個密碼子位點的最大占比,表明第1位為U,第2位為G或A,第3位為C的密碼子往往在序列中占比更高;A-1(9.5%)、C-1(5.4%)、U-2(8.9%)和G-3(5.1%)則分別為4種堿基含量在3個密碼子上的最低占比,表明SARS-CoV-2毒株對第1位為A,第2位為C或U,第3位為G的密碼子偏愛程度較低(密碼子閱讀方向為5'→3')。
依照堿基組成對微衛(wèi)星歸類,共得到9種大類(表2),其中AU/UA/AAU(62.03%)、CGA(67.87%)、CUG/UGC (70.10%)、AUC(80.37%)、AGU/AUG/GAU/UGA(81.67%)的堿基含量均超過60%。相關(guān)性測試結(jié)果表明,SARS-CoV-2原株及變種內(nèi)部的堿基含量與微衛(wèi)星總平均個數(shù)之間具有較明顯的負相關(guān)性(r:– 0.799 6;P:0.009 7),即某類相同堿基組成的微衛(wèi)星其堿基含量越高,微衛(wèi)星總平均個數(shù)反而越低。同時,非參數(shù)檢驗的配對樣本精確概率與漸進概率結(jié)果證明,堿基含量與微衛(wèi)星總平均個數(shù)之間的強相關(guān)性在SARS-CoV-2中普遍存在,而非偶然出現(xiàn)于某一SARS-CoV-2序列中(0.003 9<0.009 2;r:-0.7996)。對于DiRs或TriRs而言,其總平均個數(shù)與堿基含量之間不存在顯著相關(guān)性(r:0.067 2、P:0.914 5;r:-0.156 3、P:0.688 0)。
圖4 SARS-CoV-2原株及變種中的堿基組成
Fig. 4 The base composition in the original strain and variants of SARS-CoV-2
2.4 堿基替換與微衛(wèi)星數(shù)量的相關(guān)性
相同(identical pairs,ii)、轉(zhuǎn)換(transitional pairs,si)以及顛換(transversional pairs,sv)堿基對的總頻數(shù)分別為29 568、27和16個,而轉(zhuǎn)換與顛換堿基對比值為1.7,表明SARS-CoV-2序列堿基發(fā)生替換的主要方式更偏向轉(zhuǎn)換形式(2種嘧啶或2種嘌呤堿基之間的相互突變)。值得注意的是,除所有相同堿基對外,轉(zhuǎn)換(40.8%)和顛換(43.7%)堿基對在密碼子第3位(密碼子閱讀方向為5'→3')的占比最高(圖5)。
微衛(wèi)星總個數(shù)(r:-0.540 4、P:0.347 1)和DiRs的總平均個數(shù)(r:-0.619 3、P:0.265 3)與SARS-CoV-2原株及變種的堿基轉(zhuǎn)換與顛換數(shù)之間均無顯著相關(guān)性;非參數(shù)檢驗測試也表明,替換的總頻數(shù)與微衛(wèi)星的數(shù)量間并無顯著性差異(表3)。嚴格來說,堿基替換現(xiàn)象不會直接或間接影響SARS-CoV-2變體內(nèi)部的微衛(wèi)星數(shù)量發(fā)生改變。
3 討論
微衛(wèi)星廣泛分布于真核生物、原核生物以及病毒的編碼區(qū)與非編碼區(qū)[25-26],它們通過調(diào)控生物體的基因表達影響物種編碼蛋白相關(guān)產(chǎn)物的選擇以及基因組的進化,目前已成為研究人員分析特定物種遺傳多樣性的切入點[27]。然而,自2021年11月世界衛(wèi)生組織正式定義Omicron變體以來,SARS-CoV-2相關(guān)的微衛(wèi)星與遺傳多樣性的相關(guān)性研究一直處于空缺狀態(tài)[10]。為揭示SARS-CoV-2微衛(wèi)星對自身遺傳多樣性的影響,本文首次收集疫情暴發(fā)至今所有主要SARS-CoV-2株系的微衛(wèi)星組成與長度,通過分類學(xué)與統(tǒng)計學(xué)思路將SARS-CoV-2的微衛(wèi)星特征與遺傳特征的相關(guān)性進行多角度剖析,揭示其株系的變異性與多態(tài)性規(guī)律。文章涉及的物種特異性研究結(jié)果有利于為SARS-CoV-2基因組分析、群體研究和物種鑒定提供進一步研究依據(jù);而且類似研究的思路可以改進并推廣至其他生物,以揭示各種微衛(wèi)星在大型基因組序列中的精確分布模式,探索微衛(wèi)星分布與基因組結(jié)構(gòu)和進化之間的更多聯(lián)系[28]。
本研究主要采用生物信息學(xué)方法,對2019年12月以來的所有SARS-CoV-2重點突變體(重點突變體篩選要求:需考慮社會危害[1]、遺傳差異顯著性[7]以及數(shù)據(jù)庫注釋程度因素[12])的全基因組序列進行分析,獲得微衛(wèi)星數(shù)量以及分布信息;并通過生物統(tǒng)計學(xué)方法進一步驗證了堿基含量與微衛(wèi)星總量之間具有負相關(guān)性而非與序列內(nèi)存在的堿基替換頻數(shù)有顯著相關(guān)性。因此,堿基含量的偏向性往往造成SARS-CoV-2變體內(nèi)的微衛(wèi)星數(shù)量改變,進而導(dǎo)致更多片段發(fā)生突變,造成株系進化的不穩(wěn)定性與多元性。堿基替換頻數(shù)與微衛(wèi)星含量之間總體呈現(xiàn)負相關(guān)關(guān)系,但單個堿基對的替換變異程度較低且具有偶然性,統(tǒng)計學(xué)結(jié)果也表明,堿基替換與微衛(wèi)星含量間無顯著差異性(表3)。因此,本文推斷,堿基替換量與微衛(wèi)星含量間僅作為定性關(guān)系存在,即替換頻數(shù)的增長或下降僅導(dǎo)致微衛(wèi)星含量呈現(xiàn)抑制或上升的趨勢。
部分研究者對序列庫的構(gòu)建理念及方法邏輯性一般,泛用性較低[29-31]。本文構(gòu)建的序列庫僅包含NCBI提供的官方參考序列以及已發(fā)表的序列,在盡可能確保分析準確性的同時,內(nèi)部基因注釋也為研究微衛(wèi)星以及遺傳多樣性在不同基因編碼區(qū)的位置分布水平提供了參照標(biāo)準[12]。此外,相比于人體全基因組近1 100個微衛(wèi)星,病毒基因序列中的微衛(wèi)星不僅數(shù)量少而且長度短[32]。埃博拉病毒(ssRNA virus)基因組序列全長僅為18 900 bp,但序列編碼區(qū)中共搜索到212個不同種類的微衛(wèi)星[23],數(shù)量近SARS-CoV-2的3倍。因此,相比于其他病毒,SARS-CoV-2自身的遺傳信息變化更存在不確定性,免疫逃逸的能力也更強[2]。
周翔等[22]以NCBI的SARS-CoV-2官方參考序列NC_045512為基準,對來自不同國家和地區(qū)的36條序列組成的序列庫進行了各編碼區(qū)的單核苷酸的多樣性分析。為探索不同編碼區(qū)功能與微衛(wèi)星密度的聯(lián)系,本文參考上述思路設(shè)置RG序列為各編碼區(qū)位置分布基準;并以2019至2022年間出現(xiàn)的重點變體為研究對象,單核苷酸以及微衛(wèi)星的特征差異為分析手段,從時間角度探索微衛(wèi)星對SARS-CoV-2的調(diào)控潛力以及預(yù)測變體可能出現(xiàn)潛在免疫逃逸位點的編碼區(qū)。ORF3a作為微衛(wèi)星密度最高的3個編碼區(qū)之一,其產(chǎn)物ORF3a蛋白屬于特異性非結(jié)構(gòu)蛋白,在SARS-CoV-2組裝、釋放以及炎癥應(yīng)答等方面發(fā)揮著關(guān)鍵作用[21]。根據(jù)以往SARS-CoV-2全基因組分析,E和S編碼區(qū)是變異位點出現(xiàn)的集中區(qū)域,而N編碼區(qū)則變異程度相對較低[1, 22]。從功能上看,S蛋白與宿主細胞ACE2受體間表現(xiàn)出較高的親和力,導(dǎo)致機體更容易出現(xiàn)病癥;N和E蛋白均負責(zé)病毒的組裝,兩者的突變均導(dǎo)致SARS-CoV-2致病力的改變[9-10]。ORF6、ORF7b以及ORF8編碼區(qū)無變異位點且蛋白功能目前尚不清楚[22-23]。因此,ORF3a、E、S和N編碼區(qū)內(nèi)的微衛(wèi)星密度的升降在一定程度上已經(jīng)開始影響著SARS-CoV-2在致病性和傳播能力方面的適應(yīng)性進化(例如Alpha→Omicron),而這些編碼區(qū)則往往有高密度的微衛(wèi)星參與調(diào)控。Kirtipal等[2]認為,SARS-CoV-2的進化推動力來自多個編碼區(qū)的不斷變異,針對不同編碼區(qū)的遺傳多樣性、系統(tǒng)發(fā)育以及編碼蛋白結(jié)構(gòu)分析非常有利于研究SARS-CoV-2甚至具有相似遺傳特征的HCoVs的遺傳進化規(guī)律。因此,本文的研究成果還將為其他HCoVs的遺傳學(xué)研究提供新思路。
堿基含量與變異位點數(shù)作為影響微衛(wèi)星數(shù)量的兩個潛在因素,部分遺傳學(xué)研究將它們作為研究物種間遺傳變異差異的基礎(chǔ)[2, 33-34]。不同物種堿基含量的差異可以直接反映物種間變異能力以及密碼子使用偏好的差異,而變異位點數(shù)則象征著物種的潛在進化能力[35]。經(jīng)過改良,我們首次嘗試將多種形式的微衛(wèi)星堿基含量與堿基替換數(shù)作為影響微衛(wèi)星數(shù)量的潛在因素,并進行了相關(guān)性測試。根據(jù)已公布的SARS-CoV-2全基因組的密碼子使用模式特征,以U為第1位,A或G為第2位的密碼子使用頻率較高,但C為第3位的密碼子使用頻率卻很低。同樣,以A為第1位,C為第2位或U為第3位的密碼子的使用頻率較高,但G為第3位的密碼子使用頻率卻很低[33]。對于在密碼子第3位GC含量較低的SARS-CoV-2而言,其密碼子的使用偏愛程度受突變壓力和自然選擇影響[33]。此外,SARS-CoV-2和其他HCoVs相似,自身密碼子大多數(shù)傾向于U結(jié)尾,GC含量為30%~40%,且均表現(xiàn)出相似的遺傳特性[34]。而高水平的AU堿基對含量(圖4中顯示為62.0%)能夠調(diào)節(jié)多數(shù)影響SARS-CoV-2基因表達的微衛(wèi)星的穩(wěn)定性[35],進而導(dǎo)致SARS-CoV-2做出利于自身的突變。轉(zhuǎn)換與顛換為堿基置換(點突變)的主要形式,在具體突變形式未知的前提下[16],將相似堿基組成的微衛(wèi)星總數(shù)與DiRs總平均個數(shù)作為變量分別對堿基置換頻數(shù)進行了相關(guān)性測試,最后發(fā)現(xiàn)兩者間存在不顯著的負相關(guān)趨勢[35]。
本文部分研究方法的準確性與結(jié)論完整性仍需改進。首先,NCBI數(shù)據(jù)庫內(nèi)上傳的全基因組序列中存在部分DBs(表1),導(dǎo)致部分序列的堿基含量和替換數(shù)相比于真實情況存在較小誤差。其次,本文尚未確定各種微衛(wèi)星對于SARS-CoV-2的突變是否起到促進或抑制作用,僅能證明其參與基因調(diào)控與表達,并可以用作遺傳標(biāo)記物。盡管 DBs對研究結(jié)果可能帶來一定的影響,但正如“2.1 序列庫基本信息”部分所述,本文盡可能采用合適的算法彌補該缺陷,人工查找DBs所在編碼區(qū)域以確保其不會對整體數(shù)據(jù)造成嚴重影響,并列出了微衛(wèi)星在各基因編碼區(qū)的分布情況(圖3)以證明部分DBs不會對微衛(wèi)星的數(shù)量統(tǒng)計造成較大影響;而比對后序列庫的平均堿基含量、微衛(wèi)星總平均個數(shù)以及平均替換數(shù)作為研究相關(guān)性的因素也不會因為少量DBs產(chǎn)生嚴重誤差。未來,我們會深入研究微衛(wèi)星相關(guān)特征與其他可能影響SARS-CoV-2的遺傳特性因素間的聯(lián)系,進一步完善技術(shù)流程,揭示微衛(wèi)星調(diào)控SARS-CoV-2遺傳變異與結(jié)構(gòu)功能等的生物學(xué)意義,深化研究人員對SARS-CoV-2的認識,獲得更有學(xué)術(shù)意義或應(yīng)用價值的結(jié)果。
參考文獻(References):
[1] MORSE S S, MAZET J A, WOOLHOUSE M, et al. Prediction and prevention of the next pandemic zoonosis[J]. Lancet, 2012, 380(9857): 1956-1965.
[2] KIRTIPAL N, BHARADWAJ S, KANG S G. From SARS to SARS-CoV-2, insights on structure, pathogenicity and immunity aspects of pandemic human coronaviruses[J]. Infection Genetics and Evolution, 2020, 85: 104502.
[3] NIMAVAT N, SINGH S, FICHADIYA N, et al. Online medical education in India-different challenges and probable solutions in the age of COVID-19[J]. Advances in Medical Education and Practice, 2021, 12: 237-243.
[4] SWANSON S J, CONANT L L, HUMPHRIES C J, et al. Changes in description naming for common and proper nouns after left anterior temporal lobectomy[J]. Epilepsy & Behavior, 2020, 106: 106912.
[5] PENG C, HE M, CUTRONA S L, et al. Theme trends and knowledge structure on mobile health APPS: bibliometric analysis[J]. JMIR mHealth and uHealth, 2020, 8(7): e18212.
[6] KIM T S, BOOTH J G, GAUCH H G, et al. Simple sequence repeats in Neurospora crassa: distribution, polymorphism and evolutionary inference[J]. BMC Genomics, 2008, 9: 31-50.
[7] FLANAGAN S P, JONES A G. The future of parentage analysis: from microsatellites to SNPs and beyond[J]. Molecular Ecology, 2019, 28(3): 544-567.
[8] BOUDREAU A, RICHARD A J, HARVEY I, et al. Artemisia scoparia and metabolic health: untapped potential of an ancient remedy for modern use[J]. Frontiers in Endocrinology, 2022, 12: 727061.
[9] SAVARI H, SHAFIEY H, SAVADI A, et al. Statistics and patterns of occurrence of simple tandem repeats in SARS-CoV-1 and SARS-CoV-2 genomic data[J]. Data in Brief, 2021, 36: 107057.
[10] REHMAN H A, RAMZAN F, BASHARAT Z, et al. Comprehensive comparative genomic and microsatellite analysis of SARS, MERS, BAT-SARS, and COVID-19 coronaviruses[J]. Journal of Medical Virology, 2021, 93(7): 4382-4391.
[11] LIN C Y, MEHTA P, WATERS K M, et al. Complete response to neoadjuvant pembrolizumab and capecitabine in microsatellite stable, Epstein-Barr virus-positive, locally advanced gastric adenocarcinoma: case report[J]. American Journal of Case Reports, 2021, 5: 30.
[12] SCHOCH C L, CIUFO S, DOMRACHEV M, et al. NCBI taxonomy: a comprehensive update on curation, resources and tools[J]. Database (Oxford), 2020, 2020: baaa062.
[13] 鐘東. DNA序列的對稱性與真核基因調(diào)控元件模塊的分析[D]. 廣州: 南方醫(yī)科大學(xué), 2003.
ZHONG Dong. Symmetry in DNA and analysis of eukaryotic cis-regulatory module[D]. Guangzhou: Southern Medical University, 2003.
[14] LINHART C, SHAMIR R. The degenerate primer design problem: theory and applications[J]. Journal of Computational Biology, 2005, 12(4): 431-456.
[15] ROZEWICKI J, LI S, AMADA K M, et al. MAFFT-DASH: integrated protein sequence and structural alignment[J]. Nucleic Acids Research, 2019, 47(W1): W5-W10.
[16] TAMURA K, STECHER G, KUMAR S. MEGA11: molecular evolutionary genetics analysis version 11[J]. Molecular Biology and Evolution, 2021, 38(7): 3022-3027.
[17] YOUENS-CLARK K, BUCKLER E, CASSTEVENS T, et al. Gramene database in 2010: updates and extensions[J]. Nucleic Acids Research, 2011, 39 (Database issue): D1085-D1094.
[18] BORGIA E, BARON R, BORGIA J L. Quality and survival of direct light-activated composite resin restorations in posterior teeth: a 5- to 20-year retrospective longitudinal study[J]. Journal of Prosthodontics-Implant Esthetic and Reconstructive Dentistry, 2019, 28(1): e195-e203.
[19] DIVINE G, NORTON H J, HUNT R, et al. Statistical grand rounds: a review of analysis and sample size calculation considerations for Wilcoxon tests[J]. Anesthesia and Analgesia, 2013, 117(3): 699-710.
[20] WOLFE M, HUGHES B, DUONG D, et al. Detection of SARS-CoV-2 variants Mu, Beta, Gamma, Lambda, Delta, Alpha, and Omicron in wastewater settled solids using mutation-specific assays is associated with regional detection of variants in clinical samples[J]. Applied and Environmental Microbiology, 2022, 88(8): e0004522.
[21] 高文欣, 李希琳, 傅煜軒. 新型冠狀病毒輔助蛋白ORF3a、ORF3b的致病機制研究[J]. 實用臨床醫(yī)藥雜志, 2022, 26(11): 1-5.
GAO Wenxin, LI Xilin, FU Yuxuan. Pathogenic mechanism of severe acute respiratory syndrome coronavirus 2 protein ORF3a and ORF3b[J]. Journal of Clinical Medicine in Practice, 2022, 26(11): 1-5.
[22] 周翔, 趙仁生, 崔藝璇, 等. SARS-CoV-2病毒全基因組序列比對及進化分析[J]. 云南民族大學(xué)學(xué)報 (自然科學(xué)版), 2022, 31(2): 176-185.
ZHOU Xiang, ZHAO Rensheng, CUI Yixuan, et al. Sequence alignment and evolutionary analysis of SARS-CoV-2 virus[J]. Journal of Yunnan Minzu University (Natural Sciences Edition), 2022, 31(2): 176-185.
[23] LI D, SHI R, ZHANG H, et al. The only conserved microsatellite in coding regions of ebolavirus is the editing site[J]. Biochemical and Biophysical Research Communications, 2021, 565: 79-84.
[24] KOGAY R, WOLF Y I, KOONIN E V, et al. Selection for reducing energy cost of protein production drives the GC content and amino acid composition bias in gene transfer agents [J]. mBio, 2020, 11(4): e01206- e01220.
[25] BAGSHAW A T, PITT J P, GEMMELL N J. High frequency of microsatellites in S. cerevisiae meiotic recombination hotspots[J]. BMC Genomics, 2008, 9: 49.
[26] LOIRE E, HIGUET D, NETTER P, et al. Evolution of coding microsatellites in primate genomes[J]. Genome Biology and Evolution, 2013, 5(2): 283-295.
[27] ZENG L, CHEN N, YAO Y, et al. Analysis of genetic diversity and structure of Guanzhong horse using microsatellite markers[J]. Animal Biotechnology, 2019, 30(1): 95-98.
[28] MUTI H S, HEIJ L R, KELLER G, et al. Development and validation of deep learning classifiers to detect Epstein-Barr virus and microsatellite instability status in gastric cancer: a retrospective multicentre cohort study[J]. The Lancet Digital Health, 2021, 3(10): e654-e664.
[29] LI H, XIAO W, TONG T, et al. The specific DNA barcodes based on chloroplast genes for species identification of Orchidaceae plants[J]. Scientific Reports, 2021, 11(1): 1424.
[30] MAHIMA K, SUNIL KUMAR K N, RAKHESH K V, et al. Advancements and future prospective of DNA barcodes in the herbal drug industry[J]. Frontiers in Pharmacology, 2022, 13: 947512.
[31] GUO Y Y, HUANG L Q, LIU Z J, et al. Promise and challenge of DNA barcoding in Venus slipper (Paphiopedilum)[J]. PLoS One, 2016, 11(1): e0146880.
[32] WEBSTER M T, SMITH N G, ELLEGREN H. Microsatellite evolution inferred from human-chimpanzee genomic sequence alignments[J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(13): 8748-8753.
[33] HOU W. Characterization of codon usage pattern in SARS-CoV-2[J]. Virology Journal, 2020, 17(1): 138-148.
[34] DILUCCA M, FORCELLONI S, GEORGAKILAS A G, et al. Codon usage and phenotypic divergences of SARS-CoV-2 genes[J]. Viruses, 2020, 12(5): 498-519.
[35] JIANG S, CHEN F, QIN P, et al. The specific DNA barcodes based on chloroplast genes for species identification of Theaceae plants[J]. Physiology and Molecular Biology of Plants, 2022, 28(4): 837-848.