蘇麗萍,郭姍姍,劉 洋,陳雅婧, 朱盈霏, 邢金良,郭 旭,郭海濤
(空軍軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)院: 1生理與病理生理學(xué)教研室, 2學(xué)員二大隊,陜西 西安 710032)
人的線粒體DNA(mitochondrial DNA,mtDNA)是由16 569個堿基組成的雙鏈環(huán)狀閉合DNA[1]。mtDNA包括37個基因,分別負責(zé)編碼13種蛋白質(zhì)、22種tRNA和2種rRNA,具有多態(tài)性程度高、拷貝數(shù)多、母系遺傳等特點[2]。mtDNA變異包括遺傳性突變和體細胞突變。研究報道線粒體的遺傳性突變與癌癥發(fā)生發(fā)展相關(guān),如mtDNA單倍群與腸癌等癌癥的發(fā)生有關(guān)[3-4]。mtDNA體細胞突變參與多種疾病和衰老的發(fā)生和進展[5-6]。此外,與核基因組的兩個拷貝相比,線粒體基因組在細胞中以多個拷貝的形式存在。研究表明mtDNA的拷貝數(shù)異常變化與多種癌癥的發(fā)生相關(guān)聯(lián)[7]。近年來,DNA的片段分布規(guī)律在癌癥研究中受到廣泛關(guān)注[8-9]。因此,準確定量和定性分析mtDNA的變異、拷貝數(shù)和DNA片段分布對后續(xù)研究結(jié)果的準確性具有重大意義。
遺傳物質(zhì)從線粒體轉(zhuǎn)移到細胞核并將其整合到核基因組的過程中,mtDNA片段被合并為非編碼序列,這樣的片段稱為核線粒體DNA(nuclear mitochondrial DNA,NUMT)[10-11]。NUMT片段是線粒體基因向核基因組轉(zhuǎn)移造成的,在這些核基因組上與mtDNA高度相似的DNA片段容易被通用mtDNA引物擴增出來,并被錯誤地當(dāng)成mtDNA進行后續(xù)分析。顯而易見NUMT的存在給mtDNA的研究帶來潛在的影響[12]。目前,mtDNA檢測最常見的方法是二代測序。在mtDNA二代測序分析過程中主要通過比對的方法來減少NUMT的影響。而比對的方法主要是將測序reads同時與線粒體參考基因組和核參考基因組進行比對,比對到核基因組的reads可能是NUMT,并在后續(xù)分析過程中過濾掉這些reads[13-14]。本研究根據(jù)該方法得到不包含NUMT的測序數(shù)據(jù)。目前尚無研究表明NUMT在mtDNA二代測序數(shù)據(jù)中的影響。因此,本研究旨在從mtDNA的變異、拷貝數(shù)、單倍群和片段分布的角度來研究NUMT對于mtDNA二代測序分析的影響,減少mtDNA二代測序數(shù)據(jù)分析過程中因NUMT的影響導(dǎo)致的誤差。
本研究對2020年8月至2020年12月從空軍軍醫(yī)大學(xué)西京醫(yī)院收集的20例卵巢癌組織樣本進行mtDNA捕獲測序,并通過空軍軍醫(yī)大學(xué)倫理委員會批準(許可證號:KY20193029),且已獲得每位患者的書面同意。
1.2.1 mtDNA的靶向捕獲測序 對20例卵巢癌組織樣本進行全基因組DNA提取、文庫構(gòu)建、mtDNA的靶向捕獲及測序,具體過程見已報道的研究[15]。捕獲后的DNA產(chǎn)物在Illumina HiSeq X Ten平臺上進行雙端150 bp(PE150)測序。
1.2.2 mtDNA突變分析 使用fastp 0.20.0軟件去除原始測序reads中低質(zhì)量reads(質(zhì)量分數(shù)<30)以及接頭序列。接著,使用Burrows-Wheeler-Alignment 0.7.17-r1188軟件將reads比對到參考基因組上,獲取每個reads在基因組的位置信息。采用Picard 1.81軟件將比對結(jié)果進行排序和去重。由于mtDNA的插入缺失會導(dǎo)致比對錯誤,故用GATK 3.2-2軟件進行局部重比對。隨后,統(tǒng)計mtDNA 16 569個堿基的主、次要等位堿基位于正反義鏈的reads數(shù),計算每個位點的突變頻率,根據(jù)一系列的過濾條件進行過濾,獲得mtDNA突變結(jié)果。過濾條件是:①突變頻率≥1%;②不考慮錯配數(shù)>3的reads;③位點深度≥100;④正反義鏈上突變的reads數(shù)同時≥3;⑤不考慮重復(fù)區(qū)域(66~71,303~311,514~523,12 418~12 425,16 184~16 193)上的突變位點。根據(jù)上述步驟最終獲得mtDNA突變結(jié)果[16]。
1.2.3 mtDNA拷貝數(shù)分析 為了計算mtDNA的拷貝數(shù),根據(jù)文獻[17]方法進行mtDNA拷貝數(shù)的計算,其計算公式為:mtDNA拷貝數(shù)=(mtDNA的平均測序深度×2)/核基因組DNA的平均測序深度。
本研究對mtDNA采用的測序方法是mtDNA的捕獲測序而不是全基因組測序,而已有研究應(yīng)用6個核基因組區(qū)域的平均測序深度代表整個核基因組DNA的平均測序深度[17]。故本研究在計算mtDNA拷貝數(shù)的過程中,應(yīng)用6個核基因組區(qū)域的平均測序深度來表示核基因組DNA的平均測序深度。
1.2.4 mtDNA單倍群分析 本研究利用mitotool 1.1.2工具[18]對20例卵巢癌組織樣本的測序數(shù)據(jù)進行單倍群分析。使用的PhyloTree版本為17[19]。
1.2.5 計算mtDNA片段數(shù)目 使用Picard 1.81軟件中的CollectInsertSizeMetrics.jar程序計算每個樣本中各個mtDNA片段大小的數(shù)目。將20例卵巢癌組織樣本在各個mtDNA片段大小的數(shù)目取平均值,得到平均mtDNA片段數(shù)目。
1.2.6 包含和不包含NUMT測序數(shù)據(jù)的獲取 NUMT序列因與mtDNA的相似性,采用只比對到線粒體參考基因組的比對方法,NUMT容易被錯誤地當(dāng)成mtDNA比對到線粒體基因組。因此,包含NUMT的測序數(shù)據(jù)是在比對的過程中僅將reads比對到修訂的劍橋參考序列上,而不包含NUMT的測序數(shù)據(jù)(指在比對過程中將reads同時比對到核基因組hg19和線粒體基因組修訂的劍橋參考序列上),通過過濾比對到核參考基因組的reads減少了NUMT的影響。根據(jù)這兩種不同的比對方式分別獲得包含和不包含NUMT的測序數(shù)據(jù)。
1.2.7 統(tǒng)計學(xué)分析 使用GraphPad Prism 8.0軟件進行統(tǒng)計學(xué)分析。使用配對t檢驗對具有連續(xù)變量的兩組之間進行比較,P<0.05表示差異有統(tǒng)計學(xué)意義。
為了研究NUMT對mtDNA測序數(shù)據(jù)平均測序深度的影響,本研究對20例卵巢癌組織樣本mtDNA捕獲測序數(shù)據(jù)進行分析,結(jié)果發(fā)現(xiàn),包含NUMT的卵巢癌組織樣本測序數(shù)據(jù)mtDNA的平均測序深度顯著高于不包含NUMT的測序數(shù)據(jù)(P<0.01,圖1)。該結(jié)果說明NUMT增加mtDNA的測序深度,其可能影響mtDNA測序數(shù)據(jù)的下一步分析。
bP < 0.01 vs不包含NUMT。圖1 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA測序深度比較
上述分析發(fā)現(xiàn)NUMT顯著增加mtDNA測序數(shù)據(jù)的測序深度,為了進一步探究NUMT是否會影響mtDNA變異位點,本研究通過對20例卵巢癌組織樣本mtDNA捕獲測序數(shù)據(jù)進行分析,發(fā)現(xiàn)包含NUMT的測序數(shù)據(jù)與不包含NUMT的測序數(shù)據(jù)之間,mtDNA變異位點數(shù)量無顯著性差異(P> 0.05,圖2A),兩種測序數(shù)據(jù)同時檢測到的變異位點頻率無顯著性差異(P> 0.05,圖2B)。該結(jié)果說明NUMT對mtDNA的變異位點影響較小。
圖2 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA變異數(shù)量(A)及頻率(B)比較
為了進一步研究NUMT是否對mtDNA拷貝數(shù)產(chǎn)生影響,本研究對20例卵巢癌組織樣本mtDNA捕獲測序數(shù)據(jù)進行分析,結(jié)果發(fā)現(xiàn),與不包含NUMT的樣本相比,包含NUMT的測序數(shù)據(jù)的mtDNA拷貝數(shù)顯著增高(P<0.05,圖3)。這說明了NUMT的存在影響二代測序數(shù)據(jù)中mtDNA拷貝數(shù)的計算。
aP<0.05 vs不包含NUMT。圖3 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA拷貝數(shù)比較
mtDNA的單倍群分析是mtDNA二代測序數(shù)據(jù)分析的常見內(nèi)容。為了進一步分析NUMT是否會影響mtDNA單倍群的計算,本研究通過對20例卵巢癌組織樣本的mtDNA捕獲測序數(shù)據(jù)分析發(fā)現(xiàn),無論是包含NUMT還是不包含NUMT的mtDNA測序數(shù)據(jù),mtDNA的單倍群并沒有發(fā)生改變,說明NUMT的存在對二代測序mtDNA單倍群分析結(jié)果影響較小(表1)。
表1 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA單倍群比較
為了研究NUMT是否會影響二代測序數(shù)據(jù)中mtDNA片段分布,我們對20例卵巢癌組織樣本的mtDNA捕獲測序數(shù)據(jù)進行了分析,結(jié)果發(fā)現(xiàn),在包含NUMT和不包含NUMT的測序數(shù)據(jù)中,mtDNA的片段分布具有顯著性差異(P<0.01)。雖然兩組數(shù)據(jù)的DNA片段分布峰值所在DNA片段大小的差異不明顯,但在包含NUMT的測序數(shù)據(jù)中,分布在150~300 bp之間的mtDNA片段數(shù)量明顯高于不包含NUMT的測序數(shù)據(jù)(圖4),由此說明NUMT的存在影響mtDNA的片段分布。
bP<0.01 vs不包含NUMT。圖4 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA片段分布比較
二代測序作為研究mtDNA變異、拷貝數(shù)和片段分布的常見方法,NUMT在其中的影響尚未闡明。因此,本研究對20例卵巢癌組織樣本的mtDNA捕獲測序數(shù)據(jù)進行分析,比較了包含NUMT和不包含NUMT的測序數(shù)據(jù)對mtDNA的測序深度、變異、拷貝數(shù)、單倍群和片段分布分析的影響。結(jié)果顯示,NUMT的存在對mtDNA的變異和單倍群的分析影響較小,而對mtDNA的測序深度、拷貝數(shù)和片段分布有較大影響。
由于本研究運用嚴格的多重過濾條件進行mtDNA突變的過濾和篩選,因此NUMT的存在對mtDNA突變分析影響較小。由于mtDNA單倍群是基于mtDNA的變異位點進行計算的,因此NUMT的存在對mtDNA單倍群分析的影響也較小。而二代測序reads較短,使得原本與mtDNA相似的NUMT更容易在比對的過程中被錯誤地當(dāng)成mtDNA,因此包含NUMT測序數(shù)據(jù)的mtDNA平均測序深度會高于不包含NUMT的測序數(shù)據(jù)。mtDNA的平均測序深度作為計算mtDNA拷貝數(shù)的重要組成部分,也會影響mtDNA拷貝數(shù)的計算,因此包含NUMT測序數(shù)據(jù)的mtDNA拷貝數(shù)會高于不包含NUMT的測序數(shù)據(jù)。此外,測序深度存在的差異可解釋為包含NUMT的測序數(shù)據(jù)中mtDNA片段數(shù)目較不包含NUMT測序數(shù)據(jù)高。
然而,本研究也存在一定的局限性:第一,與以往研究中有使用全基因組測序研究mtDNA突變的相關(guān)報道[20]相比,本研究使用的測序數(shù)據(jù)為mtDNA捕獲測序數(shù)據(jù),尚未考慮到全基因組測序數(shù)據(jù)中NUMT對mtDNA分析的影響。第二,本研究采用的樣本類型是組織樣本,尚未考慮不同的樣本類型(如血漿)中NUMT存在對測序結(jié)果的影響。第三,近年來,mtDNA的甲基化也逐漸成為一個研究熱點[21-22],由于受到實驗條件的限制,尚未研究NUMT對于mtDNA甲基化的影響,其有待后續(xù)的研究開展。第四,本研究是基于比對的方式來減少測序數(shù)據(jù)中的NUMT,無法完全去除測序數(shù)據(jù)中的NUMT。由于NUMT的研究較少,目前尚未找到完全去除測序數(shù)據(jù)中NUMT的方法。
綜上所述,本研究探討了 NUMT 的存在對mtDNA二代測序數(shù)據(jù)分析的影響,為后續(xù)基于二代測序的mtDNA相關(guān)研究的開展奠定了基礎(chǔ),為準確分析mtDNA變異、拷貝數(shù)和片段分布提供了方向,推動了mtDNA相關(guān)研究的進展。