李姍飛,彭付端,王建寧,仲建軍,趙慧,王玲,李永久,劉凡,李彩霞,豐蕾
(1.山西醫(yī)科大學(xué)法醫(yī)學(xué)院,山西 太原 030001;2.公安部物證鑒定中心 現(xiàn)場物證溯源技術(shù)國家工程實驗室 法醫(yī)遺傳學(xué)公安部重點實驗室,北京 100038;3.中國科學(xué)院北京基因組研究所,北京 100101;4.臨猗縣公安局,山西 臨猗 044100;5.德州市公安局,山東 德州 253012)
在法醫(yī)學(xué)應(yīng)用中,個體年齡推斷一直是法醫(yī)學(xué)研究的重點和難點。通過確定案件嫌疑人的年齡范圍,可以縮小調(diào)查范圍,為案件偵查提供重要的線索和證據(jù)[1-2]。當(dāng)前推斷個體年齡主要是通過檢測骨骼、牙齒等骨性指征,運用法醫(yī)人類學(xué)模型進(jìn)行年齡推斷[3-4]。在法醫(yī)學(xué)鑒定案件中,法醫(yī)人類學(xué)方法由于骨骼檢材的缺失而受限。近年來的研究表明,生物分子標(biāo)志物可用于年齡推斷。已有研究人員針對線粒體DNA的損傷[5]、端??s短[6]、T細(xì)胞重排[7]以及蛋白質(zhì)的改變,如天冬氨酸消旋[8]和晚期糖基化終末產(chǎn)物[9]與年齡的相關(guān)性進(jìn)行研究,但是利用這些生物分子標(biāo)志物進(jìn)行年齡推斷的準(zhǔn)確性和實用性都相對較低,不適用于法醫(yī)學(xué)檢驗[10]。在近期的法醫(yī)學(xué)年齡推斷研究過程中,發(fā)現(xiàn)血液DNA中的部分甲基化位點包含了豐富的年齡信息生物標(biāo)志物。DNA甲基化是一種重要的表觀遺傳修飾[11-12],與衰老之間存在密切的相關(guān)性[13],DNA甲基化在機(jī)體生長、發(fā)育和衰老過程中存在著動態(tài)變化過程?;蛐酒拖乱淮鷾y序技術(shù)的出現(xiàn),促進(jìn)了全基因組范圍的甲基化檢測,基因組DNA甲基化總體水平隨年齡增加而降低,部分位點的甲基化水平卻隨年齡增加而升高,并且發(fā)現(xiàn)特定位點的DNA甲基化與年齡呈現(xiàn)線性相關(guān)性,可據(jù)此構(gòu)建年齡推斷模型預(yù)測個體年齡[14-19]。本研究通過系統(tǒng)研究甲基化位點與年齡的相關(guān)性,建立基于DNA甲基化的中國北方漢族男性年齡推斷算法模型。
根據(jù)知情同意原則,采集河南、山東、北京共476份漢族男性(年齡15~75歲,根據(jù)采集人員提供的戶口出生年月及采集日期確定樣本年齡)無關(guān)個體的新鮮外周靜脈血,其中國家人類遺傳資源共享服務(wù)平臺(YCZYPT[2017]01-3)176份、中國典型人群法醫(yī)分子畫像人群隊列研究(2017JB025)150份、本課題組采集150份。盡量每個年齡樣本都選取,并盡可能保持每個年齡段樣本量大致相同,且樣本在河南、山東、北京3個地區(qū)都有分布,保證模型的適用性。不同年齡段樣本人數(shù)見表1。
表1 各年齡段樣本人數(shù) (N=476)
為驗證模型對血斑的適用性和重復(fù)性,隨機(jī)選取15份山東血液樣本,各取100 μL涂在FTA血樣采集卡上制作成血斑樣本,室溫放置3個月后提取DNA。外周靜脈血按照QIAampDNA Blood Midi試劑盒(100)(德國Qiagen公司)說明書提取血液DNA;血斑樣本按照MagAttract M48 DNA Manual試劑盒(200)(1064605,德國Qiagen公司)說明書提取血斑DNA,使用NanoDrop 2000c分光光度計(美國Thermo Scientific公司)對DNA濃度進(jìn)行定量。
結(jié)合現(xiàn)有文獻(xiàn)和基于前期研究[1,18,20-29]篩選位點,從中選擇21個與年齡高度相關(guān)的位點,每個位點所在的序列都從UCSC genome browser(https://genome.ucsc.edu/)中下載,選擇距離目標(biāo)胞嘧啶-磷酸-鳥嘌呤(cytosine-phosphate-guanine,CpG)位點上下游各約200 bp的長度,共401 bp長度DNA片段,并下載DNA片段,使用美國Agena公司的Agena Bioscience EpiDesigner(http://www.epidesigner.com/)在線軟件進(jìn)行引物設(shè)計,引物解鏈溫度(melting temperature,Tm)約為60℃。
取 1 μg全基因組 DNA,按照 EZ DNA MethylationTM試劑盒(美國Zymo Research公司)說明書進(jìn)行重亞硫酸鹽處理,轉(zhuǎn)化條件:95℃ 30s,50℃ 15min;20個循環(huán)。20 μL水洗脫獲得轉(zhuǎn)化后的DNA。同時設(shè)置兩個對照:完全甲基化的DNA和完全未甲基化的DNA(甲基化程度分別為100%和0%)。
PCR擴(kuò)增體系5μL,包括1μL重亞硫酸鹽轉(zhuǎn)化后DNA,1.37μL不含RNA酶的水,0.5μL 10×PCR緩沖液,0.09 μL PCR酶,0.04 μL dNTP混合物,2.0 μL引物混合物包括上下游引物(1μmol/L)。熱循環(huán)參數(shù):95℃ 4min;94℃ 20s,56℃ 30s,72℃ 60s,45個循環(huán);72℃ 3min。多余的核苷酸將在下步純化反應(yīng)中被除去,純化體系為2μL,包括1.7μL不含RNA酶的水和0.3 μL 1.7 U/μL蝦堿性磷酸酶(shrimp alkaline phosphatase,SAP)。然后,孵化 37℃ 20 min,85℃5 min。純化后,用1.5%的瓊脂糖凝膠跑膠,取3 μL SAP產(chǎn)物,上樣緩沖液2 μL,120 V電壓電泳30 min。下一步進(jìn)行轉(zhuǎn)錄和T裂解,體系為不含RNA酶的水3.15 μL,5×T7 RNA和DNA聚合酶緩沖液0.89 μL,T裂解轉(zhuǎn)錄混合物0.24 μL,二硫蘇糖醇(100 mmol/L)0.22μL,T7 RNA和DNA聚合酶0.44μL,核糖核酸酶A(10 mg/mL) 0.06 μL,純化產(chǎn)物2 μL。37℃孵育3 h。最后每個樣本中再加入43 μL不含RNA酶的水和6mg清潔樹脂并且在混勻儀上旋轉(zhuǎn)15min,以離心力10 000×g離心6 min,用MassARRAY系統(tǒng)(美國Agena Bioscience公司)進(jìn)行檢測。
對15份制作血斑的血液樣本進(jìn)行2次重復(fù)性驗證時,分別進(jìn)行2次重亞硫酸鹽轉(zhuǎn)化并進(jìn)行后續(xù)的PCR擴(kuò)增及質(zhì)譜檢測,以保證所有步驟都進(jìn)行2次重復(fù)。
分析與計算使用R軟件(R-3.4.2),對大批量樣本檢測結(jié)果通過K最近鄰方法(K-nearest neighbor,K-NN)補(bǔ)缺(最近的10個位點)。對數(shù)據(jù)補(bǔ)缺用R軟件中DMwR軟件包中“impute”函數(shù),為了評估數(shù)據(jù)補(bǔ)缺后,最終數(shù)據(jù)分析結(jié)果是否仍然可信,選擇352份沒有缺失值的樣本,每次設(shè)置不同比例的缺失值,然后進(jìn)行K-NN方法補(bǔ)缺驗證試驗,再用補(bǔ)缺失后的值與真實值進(jìn)行相關(guān)性分析,用Pearson相關(guān)系數(shù)評估補(bǔ)缺的可靠性,模擬的結(jié)果與實際結(jié)果有很強(qiáng)的關(guān)聯(lián)性,表明經(jīng)過補(bǔ)缺之后數(shù)據(jù)結(jié)果可信,反復(fù)1000次,求平均值。在實驗中隨機(jī)將缺失閾值設(shè)為10%、20%、30%、40%和50%(表2)5個階段,K-NN補(bǔ)缺方法推薦的臨界閾值是20%[30],因此在本研究中也以20%定為最大缺失閾值進(jìn)行數(shù)據(jù)補(bǔ)缺,進(jìn)而獲得可靠的DNA甲基化數(shù)據(jù)。用“cor”函數(shù),選擇與年齡相關(guān)的甲基化位點,將Pearson相關(guān)系數(shù)設(shè)為|r|>0.5,選出與年齡相關(guān)的80個甲基化位點。然后用赤池信息量準(zhǔn)則(Akaike information criterion,AIC)結(jié)合多元線性回歸方法,設(shè)置P<0.005,進(jìn)一步篩選出與年齡高度相關(guān)的22個DNA甲基化位點。運用“l(fā)m”函數(shù)及“step”函數(shù)擬合多元線性回歸方程并求出最優(yōu)模型,最后利用“drop”函數(shù)并結(jié)合相關(guān)性有統(tǒng)計學(xué)意義(P<0.005)的指標(biāo),篩選出與年齡高度相關(guān)的8個CpG位點[位點信息通過Genome Browser Gateway獲?。ā癏uman Assembly”選為 GRCh38,https://genome.ucsc.edu/cgi-bin/hgGateway?redirect=manual&source=genome.ucsc.edu)],并得出與年齡相關(guān)的多元線性回歸模型。將篩選出與年齡高度相關(guān)的8個CpG位點的甲基化值(x)代入到年齡預(yù)測回歸模型中,得到相應(yīng)的預(yù)測年齡,并利用“plot”函數(shù)畫出預(yù)測年齡與實際年齡的散點圖。運用留一法交叉驗證方法評估模型,352份樣本數(shù)據(jù),每次留下一個樣本作為驗證樣本,其余樣本重新訓(xùn)練模型,這個步驟一直持續(xù)到每個樣本都被當(dāng)作一次驗證樣本,用留一法評估模型時運用“boot”軟件包中“c”函數(shù)。將352份樣本按實際年齡大小排列,每10歲分為一組,求每個樣本的預(yù)測年齡,并進(jìn)一步計算出每個年齡段人數(shù)的平均絕對偏差(mean absolute deviation,MAD)值。用109份樣本對年齡推斷模型進(jìn)行驗證,將CpG位點的甲基化值代入到年齡推斷模型中,求出109份樣本的MAD值,驗證模型的準(zhǔn)確性。本研究檢測了15份血液DNA樣本,及相對應(yīng)室溫存放3個月的血斑樣本,通過SPSS 17.0,采用配對t檢驗比較15份血液樣本與血斑樣本在8個CpG位點甲基化結(jié)果的差異。將CpG位點的甲基化值代入到年齡預(yù)測模型中求出相應(yīng)的預(yù)測年齡,年齡預(yù)測誤差及15份樣本的MAD值。進(jìn)行重復(fù)性驗證時,將2次重復(fù)性實驗的8個CpG位點的甲基化值代入年齡預(yù)測方程求出2次重復(fù)性實驗的預(yù)測年齡和MAD值。
表2 K-NN補(bǔ)缺方法的準(zhǔn)確性評價
為了篩選出適合推斷中國北方漢族男性年齡的DNA甲基化位點,本研究以EpiTYPER技術(shù)平臺為基礎(chǔ),結(jié)合文獻(xiàn)[1,18,20-29]中已報道的及前期工作積累的血液中與年齡相關(guān)的21個位點,檢測了476份男性血液樣本檢測了21個擴(kuò)增片段內(nèi)的153個CpG位點。其中352份沒有缺失值的樣本作為訓(xùn)練集構(gòu)建年齡推斷模型,通過分析年齡與153個CpG位點DNA甲基化值之間的相關(guān)性,從153個候選位點中篩選出80個與中國北方漢族男性年齡相關(guān)的DNA甲基化位點,然后運用AIC進(jìn)一步篩選CpG位點,結(jié)果篩選出22個與年齡相關(guān)的CpG位點。以P<0.005為條件最終篩選出8個與年齡高度相關(guān)的CpG位點,位于7個基因片段上(表3)。
352份樣本作為訓(xùn)練集,基于這8個CpG位點(x1~x8),建立了年齡(y)推斷模型:
R2=0.93,MAD=2.69歲,其MAD的95%置信區(qū)間為[2.39,2.98],該年齡推斷模型可以用于解釋93%的年齡變化(圖1)。
表3 篩選出8個年齡高度相關(guān)的甲基化位點
圖1 年齡推斷模型的預(yù)測年齡與實際年齡散點圖
留一法交叉驗證顯示,MAD為2.76歲(圖2)。6個年齡組的分析顯示(表4),MAD值從小到大依次為45~<55歲、15~<25歲、35~<45歲、25~<35歲、55~<65歲、65~75歲。本研究建立的基于8個CpG位點的年齡預(yù)測模型,在年輕組(15~<25歲)和年長組(65~75歲)中,±5年的預(yù)測準(zhǔn)確性分別為87.50%和78.90%,±6年的預(yù)測準(zhǔn)確性分別為91.76%和86.24%。
運用109份樣本作為驗證集,對年齡預(yù)測模型進(jìn)行驗證,其MAD值為3.80歲(圖3)。
圖2 預(yù)測年齡與實際年齡的留一法驗證散點圖
表4 不同年齡段的平均絕對偏差(N=352)
圖3 109份樣本驗證散點圖
15份血液樣本與相應(yīng)的血斑樣本的8個CpG位點甲基化值(表5)配對樣本t檢驗結(jié)果顯示,在CpG1和CpG5,血液與血斑樣本之間差異有統(tǒng)計學(xué)意義(P<0.05),其余6個CpG位點的血液與血斑樣本之間差異無統(tǒng)計學(xué)意義(P>0.05)。使用建立的年齡推斷模型,在血液樣本和血斑樣本中預(yù)測年齡與實際年齡之間的MAD值分別為4.08歲和3.99歲。15份血液樣本和血斑樣本的年齡推斷誤差最小為0.20歲和0.93歲,最大誤差為9.84和10.12歲。
為了驗證結(jié)果的重復(fù)性,對上述15份血液DNA樣本,基于模型中的8個位點和相同的實驗方法,重復(fù)2次試驗,3次結(jié)果的MAD值分別為4.08、4.68和3.93歲,MAD值波動范圍在1歲之內(nèi),基于8個位點建立的年齡預(yù)測模型結(jié)果的重復(fù)性相對較好。
表5 血液樣本與血斑樣本在8個CpG位點的甲基化值(n=15,±s)
表5 血液樣本與血斑樣本在8個CpG位點的甲基化值(n=15,±s)
注:1)與血液樣本比較,P<0.05
血斑0.36±0.071)0.55±0.07 0.21±0.04 0.78±0.08 0.23±0.041)0.20±0.05 0.52±0.10 0.49±0.09位點CpG1 CpG2 CpG3 CpG4 CpG5 CpG6 CpG7 CpG8血液0.38±0.06 0.55±0.06 0.20±0.05 0.78±0.09 0.25±0.03 0.21±0.06 0.57±0.10 0.48±0.07
年齡推斷一直在法醫(yī)學(xué)領(lǐng)域備受關(guān)注。眾多研究報道顯示[1,2,22],DNA 甲基化作為年齡預(yù)測分子標(biāo)記,在法醫(yī)學(xué)應(yīng)用中具有許多獨特的優(yōu)勢。目前,大多研究[19-22]都是以歐美人群為研究對象。本研究基于EpiTYPER技術(shù)平臺,檢測了476份漢族男性樣本,運用多元線性回歸方法和AIC方法構(gòu)建年齡推斷模型(R2=0.93,MAD=2.69歲)。AIC是建立在熵的概念基礎(chǔ)上,衡量統(tǒng)計模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),可以作為模型選擇的一種方法,也可以權(quán)衡所估計模型的復(fù)雜度和此模型擬合數(shù)據(jù)的優(yōu)良性,AIC越小,結(jié)果越好。該模型的8個CpG位點中,CpG1、CpG3、CpG5、CpG6、CpG8與年齡成正相關(guān),隨著年齡的增長,DNA甲基化程度逐漸增加;CpG2、CpG4、CpG7與年齡呈負(fù)相關(guān),隨著年齡的增長DNA甲基化呈現(xiàn)去甲基化狀態(tài)。位于6號染色體的ELOVL2基因被證明與年齡具有高度關(guān)聯(lián)性[18,20-21],TRIM59[20]、PDE4C[21]、Clorf132[20-21]、CSNK1D[19]、RASSF5[19]基因上DNA甲基化水平都被證明與年齡具有關(guān)聯(lián)性,這些位點應(yīng)用于不同的年齡推斷模型中。此外,chr17:21452808[29]位置上DNA甲基化水平也被證明與年齡具有關(guān)聯(lián)性。
本研究建立的基于8個CpG位點的年齡預(yù)測模型,隨著年齡段的增加,預(yù)測準(zhǔn)確性出現(xiàn)相應(yīng)的下降,MAD值大體上逐漸增大,在年輕組(15~<25歲)MAD值為2.42歲,在年長組(65~75歲)MAD值最大為3.87歲,該實驗結(jié)果與前期已經(jīng)報道過的結(jié)果[1,21]一致。
HANNUM等[18]基于甲基化芯片數(shù)據(jù)建立了基于71個CpG位點的年齡預(yù)測模型,在訓(xùn)練集和驗證集該模型的MAD值分別為3.9歲和4.9歲。WEIDNER等[22]報道了基于3個CpG位點的年齡預(yù)測模型,在訓(xùn)練集和驗證集中MAD值分別為5.4歲和3.9歲。ZBIECPIEKARSKA等[20]建立了基于5個CpG位點的年齡預(yù)測模型,在訓(xùn)練集中MAD為3.4歲,在男性和女性樣本中其MAD值有稍微的差別,分別為3.7歲和3.0歲。在驗證集中MAD為3.9歲,在男性和女性樣本中其MAD值略有差別,分別為4.0歲和3.7歲,±5年的預(yù)測準(zhǔn)確性為72%。PARK等[1]報道的基于3個CpG位點的年齡預(yù)測模型,在訓(xùn)練集和驗證集的MAD值分別為3.16歲和3.35歲,±6年的預(yù)測準(zhǔn)確度在<60歲分組中為77.30%,在年老組(>60歲)為57.30%。與上述研究建立的模型相比,本研究建立的年齡預(yù)測模型準(zhǔn)確度較高。
此外,模型利用的樣本是新鮮血液檢測出的數(shù)據(jù),而實際檢材中往往難以獲得大量血液樣本,更多的是血斑,因此需要評估血液與血斑之間是否存在顯著差異,這在實際應(yīng)用中有重要的意義。本研究檢測了15份血液樣本DNA和相對應(yīng)的室溫存放3個月的血斑DNA,MAD值分別為4.08歲和3.99歲,CpG1和CpG5的甲基化值差異有統(tǒng)計學(xué)意義,其余6個CpG位點之間差異無統(tǒng)計學(xué)意義。血液樣本與血斑樣本的年齡預(yù)測誤差范圍在0~10.12歲,預(yù)測誤差相對較小。關(guān)于血斑樣本的模型優(yōu)化,需增加血斑樣本檢測數(shù)量,驗證該模型是否適用于血斑樣本。另外,15份血液樣本進(jìn)行了3次重復(fù)實驗,3次結(jié)果的MAD值相差不大,證明年齡預(yù)測模型具有較強(qiáng)的穩(wěn)定性和重復(fù)性。由于建立年齡預(yù)測模型時僅使用了我國3個地區(qū)的樣本,對其他地區(qū)樣本適用性需要進(jìn)一步驗證。
本研究運用多元線性回歸方法建立的基于8個與年齡高度相關(guān)的DNA甲基化位點的年齡預(yù)測模型,可以作為法醫(yī)學(xué)應(yīng)用中年齡預(yù)測的一種可靠又有效的方法。年齡的正確推斷可為案件提供更多更準(zhǔn)確的偵查線索,縮小案件的偵查范圍,有利于案件的快速偵破。
(感謝公安部物證鑒定中心閔建雄研究員為本研究提出非常有價值的建議。)