吳佳蕾 季安全 丁冬升 豐 蕾**葉 健**
(1)中國(guó)人民公安大學(xué)研究生院,北京 100038;2)公安部物證鑒定中心,現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室,法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室,北京 100038)
近年來(lái),隨著質(zhì)譜技術(shù)的不斷發(fā)展,蛋白質(zhì)組學(xué)進(jìn)入了高速發(fā)展的時(shí)期,并且獲得了豐碩的成果,依據(jù)質(zhì)譜技術(shù)的蛋白質(zhì)組學(xué)被認(rèn)為是解決眾多生物學(xué)問題的有效手段[1]?;蚪M測(cè)序的研究成果逐漸積累,蛋白質(zhì)序列數(shù)據(jù)庫(kù)不斷增加[2-4],生物信息學(xué)相關(guān)的分析工具日漸成熟[5],促使分析不同個(gè)體蛋白質(zhì)組中的遺傳差異如單氨基酸多態(tài)性(single amino acid polymorphism,SAP)成為可能。
在法庭科學(xué)領(lǐng)域中,來(lái)源于人體的毛發(fā)是案件現(xiàn)場(chǎng)最為常見的生物物證之一,毛發(fā)分為毛囊和毛干兩部分,毛囊中含有細(xì)胞核基因組DNA,可采用現(xiàn)有的短串聯(lián)重復(fù)序列(short tandem repeat,STR)檢驗(yàn)方法進(jìn)行DNA個(gè)體識(shí)別[6],毛干中無(wú)細(xì)胞形態(tài),核DNA已高度降解,無(wú)法使用現(xiàn)有的STR檢驗(yàn)方法。然而,大部分案件現(xiàn)場(chǎng)提取到的毛發(fā)物證并不帶有毛囊,單獨(dú)的毛干至今缺少有效的個(gè)體識(shí)別方法。目前,法庭科學(xué)對(duì)毛干的檢測(cè)主要有兩種方式:一種是運(yùn)用顯微形態(tài)檢驗(yàn)對(duì)毛發(fā)的外觀進(jìn)行觀察比對(duì),該方法需要主觀經(jīng)驗(yàn)的判斷,缺乏科學(xué)的統(tǒng)計(jì)分析理論和基礎(chǔ),其檢驗(yàn)結(jié)果在實(shí)際案件中的應(yīng)用面臨巨大的挑戰(zhàn)[7],在2009年美國(guó)國(guó)家科學(xué)院關(guān)于法醫(yī)學(xué)的報(bào)告《加強(qiáng)美國(guó)法醫(yī)學(xué):前進(jìn)之路》中被認(rèn)為“非常不可靠”,之后進(jìn)一步調(diào)查甚至發(fā)現(xiàn)因毛發(fā)顯微形態(tài)結(jié)果的錯(cuò)誤陳述導(dǎo)致錯(cuò)案的發(fā)生;另一種對(duì)毛干物證的檢測(cè)方法是通過(guò)測(cè)序檢測(cè)線粒體DNA的2個(gè)高變區(qū)[8-9],得到單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)的差異,由于線粒體是母系遺傳,因此該檢測(cè)具有母系遺傳的特點(diǎn),存在識(shí)別率不高、具有異質(zhì)性、只能排除不能認(rèn)定等缺點(diǎn),無(wú)法做到個(gè)體識(shí)別。嘗試?yán)玫鞍踪|(zhì)組學(xué)技術(shù)對(duì)人體毛干中的蛋白質(zhì)進(jìn)行檢測(cè),從而獲得具有個(gè)體識(shí)別潛力的SAP位點(diǎn),成為解決毛干個(gè)體識(shí)別難題的新途徑。SAP位點(diǎn)檢測(cè)是利用毛干蛋白進(jìn)行個(gè)體識(shí)別的重要前提條件。根據(jù)中心法則,每個(gè)SAP位點(diǎn)都在DNA上有對(duì)應(yīng)的非同義SNP(non-synonymy SNP,nsSNP)位點(diǎn),可用SNP位點(diǎn)在東亞人群的頻率、通過(guò)乘法法則進(jìn)行個(gè)體識(shí)別能力的計(jì)算[10-11]。
本文對(duì)6名成年健康志愿者毛干樣本使用離子液體法提取毛干蛋白質(zhì)組、質(zhì)譜檢測(cè),提取與檢測(cè)獨(dú)立重復(fù)兩次,分析毛干樣本中蛋白質(zhì)組成,而且通過(guò)自建的東亞人群SAP蛋白序列數(shù)據(jù)庫(kù)分析鑒定每名個(gè)體的SAP分型,闡明了不同個(gè)體毛干中的SAP差異性。
本文中所用人體生物樣本來(lái)源于志愿者捐贈(zèng),收集了6名中國(guó)漢族無(wú)關(guān)健康個(gè)體自然脫落頭發(fā)和口腔拭子,其中男女各半。樣本采集工作通過(guò)了公安部物證鑒定中心倫理委員會(huì)的倫理審查,并且征得了各志愿者的知情同意。每個(gè)個(gè)體取2根頭發(fā),去除毛囊及發(fā)根,剪取整根頭發(fā)的近發(fā)根端2 cm作為分析樣本。
離子液體C12Im-Cl可以破壞蛋白質(zhì)中的氫鍵網(wǎng)絡(luò),對(duì)于不同組織中的蛋白質(zhì)具有很好的溶解性。取2 cm毛干單根樣本使用50%乙醇/水溶液清洗兩次,用于去除頭發(fā)表面油脂及污染物。將清洗后的毛干取出并剪碎至約1~2 mm,加入100 μl裂解液中(0.1 mol/L Tris(2-carboxyethyl)phosphine(TCEP,SIGMA),10% C12Im-Cl(m/v)溶 于0.1 mol/L Tris,pH 7.6)[12-13],水浴超聲20 min后,放入振蕩器內(nèi)繼續(xù)37℃振蕩過(guò)夜,而后取出并用細(xì)胞超聲破碎儀破碎勻漿至毛干可溶解至肉眼不可見。將毛干蛋白溶液放入95℃水浴5 min后,放入高速離心機(jī)16 000×g離心40 min。取上清液至入FASP膜離心管內(nèi)(10 k,Sartorius AG),16 000×g離 心30 min,后 用ABC溶 液(50 mmol/L NH4HCO3,pH8.0)清 洗,清 洗 完 成 后 加 入30 mmol/L碘 代 乙 酰 胺(iodoacetamide,IAA,SIGMA)的ABC溶 液 中 避 光 反 應(yīng)20 min,后16 000×g離心20 min。離心完成后加入ABC溶液清洗3次。更換FASP膜下襯管。在膜上加入2 μl胰蛋白酶(2.5 g/L),37℃水浴4 h,再次加入2 μl胰蛋白酶(2.5 g/L),37℃水浴12 h。酶解完成后16 000×g離心20 min,并用Qubit定量(蛋白質(zhì)定量試劑盒,Invitrogen,Thermo Fisher)所得肽段。
質(zhì)譜數(shù)據(jù)由Thermo Easy-nLC 1000液相色譜和Q-Exactive組合型四極桿Orbitrap質(zhì)譜儀聯(lián)用檢測(cè)獲取,上樣量為1 μg。
Nano RPLC的色譜分離條件:流動(dòng)相A為98%H2O+2%ACN+0.1%FA(均為體積分?jǐn)?shù));流動(dòng)相B為98%ACN+2% H2O+0.1% FA(均為體積分?jǐn)?shù));首先將10 μl 100%的A上樣至C18預(yù)柱(3 cm×0.15 mm),壓力為300 Bar,然后在C18毛細(xì)管柱(15 cm×0.1 mm)上以600 nl/min的流速分離肽段,梯度如下:2%B(0 min)-5%B(0.1 min)-23%B(55 min)-40% B(70 min)-80% B(72 min)-80% B(85 min)。Q-Exactive的質(zhì)譜參數(shù):正離子模式,特征肽段參數(shù)的選擇:采集方式為全掃描/數(shù)據(jù)依賴二級(jí)掃描(Full MS/DD-MS2,TOPN),一級(jí)掃描范圍為m/z300~1 800,一級(jí)掃描分辨率為70 000,自動(dòng)增益控制(AGC)為1×106,離子最大累積時(shí)間為60 ms;二級(jí)掃描分辨率為17 500,AGC為5×105,離子最大累積時(shí)間為60 ms,TOPN=20(前20強(qiáng)),隔離窗口設(shè)為m/z2,碰撞能(NCE)為28。
根據(jù)AnnoVar軟件[14-15](2019Oct24)中hg19基因組中編碼基因的Ensembl注釋,獲得包含全部參考型SAP的蛋白質(zhì)序列。蛋白質(zhì)編碼區(qū)域的nsSNP變異信息來(lái)源于ExAC數(shù)據(jù)庫(kù)(http://exac.broadinstitute.org),保留東亞人群中突變頻率高于0.1%的nsSNP,每個(gè)nsSNP對(duì)應(yīng)1條含有突變型SAP的蛋白質(zhì)序列。合并參考蛋白質(zhì)序列和突變蛋白質(zhì)序列數(shù)據(jù),獲得東亞人群SAP蛋白質(zhì)序列數(shù)據(jù)庫(kù)。
該數(shù)據(jù)庫(kù)包含nsSNP基因組中的位置、分型和在東亞人群中的基因頻率、對(duì)應(yīng)的SAP分型、SAP所在的蛋白質(zhì),共包含60 551個(gè)蛋白質(zhì)上的25萬(wàn)個(gè)SAP位點(diǎn)。
人全蛋白質(zhì)數(shù)據(jù)庫(kù)搜索:質(zhì)譜檢測(cè)所得質(zhì)譜數(shù)據(jù)文件(*.raw)采用pFind Studio(版本3.1)進(jìn)行數(shù)據(jù)庫(kù)檢索[5]。人全蛋白質(zhì)數(shù)據(jù)庫(kù)下載于UniProt,版本為proteome_UP000005640,共包含74 470個(gè)蛋白質(zhì)序列,采用反庫(kù)控制結(jié)果的假陽(yáng)性率(FDR)。pFind軟件搜庫(kù)設(shè)置為3個(gè)漏切,全酶切,前體離子允許質(zhì)量偏差為±10 ppm,碎片離子允許質(zhì)量偏差為±20 ppm,F(xiàn)DR≤1%,Open Search不勾選。半胱氨酸氨基甲基化修飾(carbamidomethyl[C])為固定修飾,蛋白質(zhì)N端乙?;╝cetyl[PronteinN-term])和甲硫氨酸氧化(oxidation[M])修飾為可變修飾。
東亞人群SAP蛋白質(zhì)序列數(shù)據(jù)庫(kù)搜索:首先提取6個(gè)個(gè)體外顯子測(cè)序獲得的全部nsSNP,使用AnnoVar注釋獲得對(duì)應(yīng)的SAP信息,并加入到自建SAP蛋白質(zhì)序列數(shù)據(jù)庫(kù)中形成新的庫(kù)。使用pFind對(duì)新庫(kù)進(jìn)行搜庫(kù),參數(shù)設(shè)置同上,利用自建的數(shù)據(jù)分析流程從全部特異性肽段獲得含SAP肽段,提取SAP位點(diǎn)信息,并根據(jù)建庫(kù)時(shí)的SAP與nsSNP對(duì)應(yīng)注釋表,獲得鑒定到的SAP位點(diǎn)信息、對(duì)應(yīng)的SNP位點(diǎn)信息以及SNP位點(diǎn)在人群中的突變發(fā)生頻率。根據(jù)SAP與標(biāo)準(zhǔn)hg19基因組編碼SAP一致與否,分類為參考型和突變型。
上述6個(gè)個(gè)體口腔拭子提取全基因組DNA,經(jīng)NanoDrop 2000定 量 取500 ng,濃 度≥5 μg/L DNA,委托艾吉泰康生物科技(北京)有限公司進(jìn)行全外顯子測(cè)序。全外顯子組測(cè)序(whole exome sequencing,WES)利用液相探針富集外顯子區(qū)域DNA序列,檢測(cè)覆蓋區(qū)域?yàn)?8 Mb,測(cè)序深度≥100×,測(cè)序數(shù)據(jù)量≥9 G。
SAP位點(diǎn)對(duì)應(yīng)至相應(yīng)的SNP位點(diǎn)后,對(duì)SNP位點(diǎn)的選擇和計(jì)算采用以下原則:a.突變型SNP位點(diǎn)基因頻率≥0.1%;b.非同一染色體上的SNP位點(diǎn)為獨(dú)立遺傳;c.同一染色體上距離>2×105bp假設(shè)遺傳獨(dú)立;d.當(dāng)兩個(gè)或以上位點(diǎn)距離在2×105bp內(nèi)時(shí),取頻率最低SNP位點(diǎn)用于計(jì)算。隨機(jī)匹配概率(random matching probability,RMP)的計(jì)算使用乘法原則。以SNP不同分型在東亞人群中統(tǒng)計(jì)頻率作為等位基因頻率,假設(shè)突變型等位基因頻率為p,參考型等位基因等位基因頻率為q,則突變型純合子的基因型頻率為p2,參考型純合子的基因型頻率為q2,雜合子的基因型頻率為2pq,乘積各位點(diǎn)的基因型頻率計(jì)算個(gè)體隨機(jī)匹配概率。RMP=基因型頻率(SNP 1)×基因型頻率(SNP 2)×基因型頻率(SNP 3)……。
統(tǒng)計(jì)分析作圖軟件為Graph Pad。
使用離子液體前處理方法,2 cm毛干酶解后肽段為(48.19±10.12)μg(n=12,中值=49.36 μg)。來(lái)源于6個(gè)個(gè)體的12個(gè)毛干樣本,分兩個(gè)批次進(jìn)行蛋白質(zhì)提取與質(zhì)譜檢測(cè),A組為第一批次檢驗(yàn)樣本,B組為第二批次檢驗(yàn)樣本。A組6個(gè)樣本的肽段檢出為1 826~2 671個(gè)(2 180±345),蛋白質(zhì)檢出數(shù)量為216~400個(gè)(284±71),特異性肽段檢出數(shù)量為771~1 012個(gè)(885±112)。B組6個(gè)樣本的肽段檢出為1 406~2 524個(gè)(1 874±389),蛋白質(zhì)檢出數(shù)量為212~366個(gè)(267±68),特異性肽段檢出數(shù)量為569~951個(gè)(744±128)。兩批次12個(gè)樣本共檢出肽段數(shù)量為1 406~2 671個(gè)(2 027±385),蛋白質(zhì)數(shù)量為212~400個(gè)(276±67)。特異性肽段數(shù)量為569~1 012個(gè)(814±136)。各樣本的檢出結(jié)果詳見表1。為分析毛干中蛋白質(zhì)細(xì)胞組成功能,進(jìn)行GO分析。對(duì)A、B兩組中組成成分中最多的前5類蛋白質(zhì)作圖,發(fā)現(xiàn)組成毛干最多的5類蛋白質(zhì)分別為:細(xì)胞外泌體蛋白、角蛋白絲蛋白、中間絲蛋白、髓鞘蛋白、細(xì)胞外基質(zhì)蛋白(圖1)。由于角蛋白(keratin)和角蛋白相關(guān)蛋白(keratinassociated protein,KAP)是毛發(fā)的重要組成部分,單獨(dú)對(duì)其進(jìn)行分析。全部12個(gè)樣本中,角蛋白和角蛋白相關(guān)蛋白共占所有檢測(cè)到蛋白質(zhì)種類的25%~44%(圖2a),其中每個(gè)個(gè)體檢出的角蛋白有40~51種,角蛋白相關(guān)蛋白41~51種(圖2b)。12個(gè)樣本中共檢出52種角蛋白,其中有32種角蛋白在所有樣本均檢出,占61.5%;共檢出KAP 58種,所有樣本均有檢出的KAP為30種,占51.7%。具體的角蛋白及KAP檢出情況見表S1和S2。
Fig.1 The main cellular components of the proteins detected in hair shaft
Fig.2 The proportion and numbers for keratins and KAPs detected in hair shaft
為進(jìn)一步探討批次間對(duì)于檢測(cè)結(jié)果的差異,對(duì)A、B兩個(gè)批次的實(shí)驗(yàn)結(jié)果進(jìn)行配對(duì)t檢驗(yàn),檢出肽段(P=0.24)、蛋白質(zhì)(P=0.75)顯示批次間均無(wú)顯著性差異。兩個(gè)批次檢測(cè)到最多的前5類蛋白質(zhì)是一致的,說(shuō)明建立的離子液體毛干蛋白質(zhì)組質(zhì)譜檢測(cè)方法穩(wěn)定性良好。同時(shí),對(duì)A、B兩組的角蛋白和角蛋白相關(guān)蛋白在該樣本所有檢出蛋白質(zhì)中的占比、角蛋白檢出數(shù)量和角蛋白相關(guān)蛋白檢出數(shù)量進(jìn)行配對(duì)t檢驗(yàn)(P=0.75;P=0.80),發(fā)現(xiàn)兩組均沒有顯著性差異。
為分析同一個(gè)體蛋白質(zhì)檢測(cè)重現(xiàn)性,對(duì)同一個(gè)人A、B兩批次的檢出蛋白質(zhì)種類進(jìn)行比較,蛋白質(zhì)檢出重復(fù)率分別為54.7%、61.3%、63.5%、60.7%、67.8%和67.6%(圖3a)。對(duì)樣本F202A和F202B分別進(jìn)行兩次質(zhì)譜技術(shù)重復(fù),蛋白質(zhì)檢出重復(fù)率分別為64.4%和66.2%。通過(guò)比較質(zhì)譜技術(shù)重復(fù)和樣本重復(fù)檢出蛋白質(zhì)的重復(fù)率,發(fā)現(xiàn)除樣本F3相差略大,其他5個(gè)個(gè)體的兩批次檢出蛋白質(zhì)重復(fù)率與質(zhì)譜重復(fù)的檢出蛋白質(zhì)重復(fù)率接近。對(duì)同一個(gè)體兩批次合并后作為一個(gè)樣本,分析不同樣本的檢測(cè)蛋白質(zhì)一致性的累積交集與累積并集(圖3b),發(fā)現(xiàn)隨著樣本的增加共檢出(累積并集)的蛋白質(zhì)數(shù)量呈上升趨勢(shì),均檢出(累積交集)的蛋白質(zhì)數(shù)量呈下降趨勢(shì),其中6個(gè)樣本共檢出蛋白質(zhì)731個(gè),均檢出蛋白質(zhì)175個(gè)。
Fig.3 Protein groups identified in hair shafts from 6 individuals
對(duì)搜庫(kù)軟件輸出的全部特異性肽段進(jìn)行序列分析,提取SAP分型,與標(biāo)準(zhǔn)基因組hg19編碼SAP相比,相同的為參考型SAP,不同的為突變型SAP。結(jié)果顯示,不僅可以檢測(cè)到突變型SAP或參考型SAP,也可同時(shí)檢測(cè)到兩種分型。如在樣本M2A中,同時(shí)檢測(cè)到Sialidase-2蛋白上第41位氨基酸的兩種SAP分型,參考型SAP(R),位于肽段IPALLYLPGQQSLLAFAEQR(圖4a)和突變型SAP(Q)位于肽段IPALLYLPGQQSLLAFAEQQASK(圖4b)。根據(jù)建數(shù)據(jù)庫(kù)時(shí)的SAP與nsSNP對(duì)應(yīng)的注釋表,推導(dǎo)出相應(yīng)的nsSNP分型,即蛋白質(zhì)譜檢測(cè)到的nsSNP_pro,與外顯子測(cè)序獲得的nsSNP分型進(jìn)行比較分析,其中一致的SAP為validated SAP。
Fig.4 Fragment mass spectrogram of peptides including SAP
從6個(gè)個(gè)體的12樣本中共計(jì)鑒定到321個(gè)SAP,平均每個(gè)樣本鑒定到(132±17)個(gè)SAP,包含(19±4)個(gè)突變型和(113±14)個(gè)參考型(表2)。其中A組每個(gè)樣本鑒定到的SAP位點(diǎn)數(shù)量分別為(137±16)個(gè),B組為(126±18)個(gè)。A組validated SAP為(127±13)個(gè),B組為(118±17)個(gè)。經(jīng)分組t檢驗(yàn)顯示,A、B兩組檢出的全部SAP、突變型和參考型SAP數(shù)量無(wú)顯著性差異(P>0.05)。所有SAP的檢出詳細(xì)信息見表S3。
為比較各樣本SAP分型的差異,去除全部檢測(cè)一致的參考型SAP位點(diǎn)后,僅對(duì)存在分型差異的SAP位點(diǎn)(即在任一樣本中檢出突變型SAP)進(jìn)行了匯總(圖5),共計(jì)72個(gè)SAP位點(diǎn)。其中有10個(gè)位點(diǎn)在所有12個(gè)樣本中均有檢出,對(duì)應(yīng)的nsSNP在東亞人群中的頻率分布從0.008到0.353 5。大于0.005的等位基因稱為常見等位基因(common allele),在群體中穩(wěn)定遺傳且存在顯著的個(gè)體差異性。該10個(gè)nsSNP位點(diǎn)均為常見等位基因,可作為個(gè)體差異性位點(diǎn)。
對(duì)同一個(gè)體兩個(gè)樣本中檢出的大部分位點(diǎn)保持了較好的一致性,也有個(gè)別樣本存在差異。例如對(duì)于rs2071560相應(yīng)的SAP,F(xiàn)3、F203、M1、M2和M3的兩個(gè)批次樣本檢出的分型都是一致的,但F202的B樣本檢出了雜合分型,而A樣本只檢測(cè)到了突變型。
對(duì)12個(gè)樣本的nsSNP_pro與外顯子測(cè)序nsSNP結(jié)果比較,統(tǒng)計(jì)結(jié)果為:a.完全匹配占67%,即nsSNP_pro與nsSNP完全一致,包括突變(標(biāo)黑)、雜合(標(biāo)橙)、參考分型(標(biāo)藍(lán));b.半匹配占27%,即nsSNP為雜合型,而nsSNP_pro只檢測(cè)到其中一種分型,漏檢了另一種分型(標(biāo)黃);c.錯(cuò)誤匹配占6%,即nsSNP_pro檢出了nsSNP不存在的分型(標(biāo)綠),如nsSNP為參考型純合,而nsSNP_pro檢出了突變型,或者nsSNP為突變型純合,而nsSNP_pro檢出了參考型(圖5)。
為評(píng)估獲得的SAP位點(diǎn)對(duì)于個(gè)體識(shí)別的區(qū)分能力,將SAP對(duì)應(yīng)nsSNP的基因頻率用于隨機(jī)匹配概率的計(jì)算。出于準(zhǔn)確性考慮,僅使用全外驗(yàn)證準(zhǔn)確的validated SAP位點(diǎn)計(jì)算RMP(表3)。A組RMP為3.5×10-3~1.0×10-9,中值為1.1×10-4;B組RMP為1.4×10-2~1.5×10-6,中值為1.6×10-5。經(jīng)t檢驗(yàn)結(jié)果顯示,A、B兩組RMP沒有顯著性差異(P>0.05)。將每個(gè)志愿者A、B兩批次檢出的SAP合并后計(jì)算RMP,較單批次的結(jié)果降低1~2個(gè)數(shù)量級(jí),中值達(dá)到1.3×10-6。當(dāng)使用10個(gè)在12個(gè)樣本中均檢出的SAP(圖5中的TOP10)進(jìn)行RMP的估算時(shí),F(xiàn)3、F202、F203、M1、M2、M3的RMP分別為3.4×10-1、9.9×10-3、8.0×10-2、2.0×10-4、7.2×10-2、1.6×10-3。
假定半匹配和錯(cuò)誤匹配是隨機(jī)的,那么理論上來(lái)說(shuō),如果一個(gè)人毛干檢測(cè)獲得的nsSNP_pro,與同一個(gè)人或其他無(wú)關(guān)個(gè)體的外顯子nsSNP驗(yàn)證比較,來(lái)源于同一個(gè)體時(shí)得到的validated nsSNP_pro(self)數(shù)量最多,相應(yīng)計(jì)算RMP(self)值也最低?;谝陨霞僭O(shè),本文嘗試將每個(gè)人的nsSNP_pro結(jié)果與其他5個(gè)人的測(cè)序結(jié)果匹配后分別計(jì)算RMP(other)。結(jié)果顯示,當(dāng)?shù)鞍踪|(zhì)與不同的DNA進(jìn)行匹配時(shí),來(lái)源于同一個(gè)人的蛋白質(zhì)和DNA檢出的validated nsSNP_pro數(shù)量最多。除樣本F3以外,基于validated nsSNP_pro(self)計(jì)算的RMP(self)也最低,且RMP(self)值越低,與其他個(gè)體DNA匹配計(jì)算得到的RMP(other)的差距就越大,即個(gè)體區(qū)分能力越高,最多可相差6個(gè)數(shù)量級(jí)(M3樣本)(表4)。對(duì)于樣本F3,由于檢測(cè)獲得的SAP位點(diǎn)數(shù)量偏少,計(jì)算RMP(self)值僅為10-4,盡管RMP(self)值并不是最低,但是與RMP(other)幾乎都在同一個(gè)數(shù)量級(jí)。該結(jié)果證明了即使毛干蛋白SAP分型檢測(cè)的重現(xiàn)性存在差異,但是通過(guò)與樣本的DNA序列分析比較,尤其是當(dāng)RMP(self)較低時(shí),呈現(xiàn)出了良好的個(gè)體區(qū)分能力。
Fig.5 All mutant SAPs identified in 12 samples
本文以毛干為研究對(duì)象,不僅分析了其蛋白質(zhì)組成,而且針對(duì)SAP檢驗(yàn)建立了相應(yīng)的檢測(cè)方法,并對(duì)重現(xiàn)性、準(zhǔn)確性進(jìn)行分析,最后評(píng)估了毛干SAP的個(gè)體識(shí)別能力。2 cm以上的毛干是案件現(xiàn)場(chǎng)可以獲得的常見生物物證,本方法適用于實(shí)際應(yīng)用需求。本方法與以往報(bào)道只使用突變型SAP位點(diǎn)[10-11,16-17]不同,不僅利用了突變型SAP,而且也利用了參考型SAP。在RMP計(jì)算時(shí),參考型位點(diǎn)的加入和合并兩個(gè)樣本的檢測(cè)結(jié)果,降低了RMP數(shù)值,從而提升了個(gè)體識(shí)別能力。角蛋白及相關(guān)蛋白被認(rèn)為是毛干中的重要組成部分。通過(guò)GO分析發(fā)現(xiàn),毛干蛋白質(zhì)的組成成分中,最顯著的是細(xì)胞外泌體類蛋白,其次才是角蛋白絲蛋白類,另外還有中間絲蛋白類、髓鞘蛋白類、細(xì)胞外基質(zhì)蛋白類等各種不同種類的蛋白質(zhì)。毛干的蛋白質(zhì)組成是多樣的,這種多樣性是獲得豐富SAP的前提。
毛干中相當(dāng)大比例的SAP位點(diǎn)在角蛋白和角蛋白相關(guān)蛋白中[18]。將本方法與已報(bào)道的方法相比[10-11,16-17],SAP檢出能力顯著提高。不僅是因?yàn)楸痉椒尤肓藚⒖夹蚐AP,即使僅分析突變型SAP,在12個(gè)樣本共檢出了73個(gè)突變型SAP(有一個(gè)突變型位點(diǎn)在全部樣本中都檢出),多于Parker等[11]檢出的33個(gè)和Mason等[10]檢出的57個(gè)突變型SAP。分析本方法的優(yōu)勢(shì)有如下幾點(diǎn)。a.離子液體對(duì)疏水性蛋白具有極強(qiáng)的溶解能力[19-20],可以提高蛋白質(zhì)的提取,而超聲過(guò)程的加入,則進(jìn)一步增強(qiáng)了溶解能力,優(yōu)于基于尿素提取法[11]和二硫蘇糖醇(DDT)復(fù)合月桂酸鈉(SDD)提取法[10];與本研究組前期利用尿素裂解的結(jié)果[21]比較,離子液體前處理具有顯著的優(yōu)勢(shì),酶解后同樣使用Nano-LC串聯(lián)QE質(zhì)譜儀檢測(cè),尿素法平均檢出(937±262)個(gè)肽段,而離子液體法平均檢出(2 027±385)個(gè)肽段。b.基于東亞人群的SAP數(shù)據(jù)使SAP位點(diǎn)的識(shí)別更具有針對(duì)性,同樣有利于SAP位點(diǎn)的檢出。c.受試個(gè)體全外測(cè)序中nsSNP結(jié)果與來(lái)源于公共數(shù)據(jù)的東亞人群SAP數(shù)據(jù)進(jìn)行了整合,使部分不存在于公共數(shù)據(jù)庫(kù)中的SAP位點(diǎn)得以被檢出,如KRTAP1-1基因座上rs768488910位點(diǎn)(圖4),并不存在于公共數(shù)據(jù)庫(kù)中,但是通過(guò)對(duì)全外測(cè)序數(shù)據(jù)的整合,可以在樣本F202A、F202B和樣本M2A、M2B中被檢出。
本文發(fā)現(xiàn),同一個(gè)體兩批次提取的毛干樣本中,檢出蛋白質(zhì)和SAP數(shù)量存在差異,但這種差異與兩次技術(shù)重復(fù)的差異接近,顯示質(zhì)譜采集方式可能是導(dǎo)致兩次取樣差異的重要影響因素。本文使用的質(zhì)譜采集方式為數(shù)據(jù)依賴型采集(datadependent acquisition,DDA),每次采集TopN個(gè)質(zhì)譜峰,具有一定的隨機(jī)性[22-23],導(dǎo)致了兩次取樣檢出的蛋白質(zhì)及SAP存在一定差異。本文通過(guò)全外測(cè)序驗(yàn)證的辦法,有效保證了檢出位點(diǎn)的準(zhǔn)確性,但也發(fā)現(xiàn)了半匹配的情況,即有一部分SNP位點(diǎn)為雜合型,SAP對(duì)應(yīng)的SNP_pro僅檢出其中一種分型,甚至還發(fā)現(xiàn)了部分SAP與SNP分型完全不一致的情況。其中半匹配的情況,除DDA方法的局限性以外,還可能是因?yàn)榧?xì)胞內(nèi)一條染色體轉(zhuǎn)錄與翻譯活躍,而另一條染色體上等位基因轉(zhuǎn)錄或翻譯收到抑制。而對(duì)于完全不一致的情況來(lái)說(shuō),原因比較復(fù)雜,至今仍未有確定的結(jié)論,這是今后需要深入開展研究的內(nèi)容。
在個(gè)體識(shí)別應(yīng)用方面,一個(gè)人基因組序列具有唯一性,而蛋白質(zhì)組檢測(cè)結(jié)果存在一定的差異性,本文首次提出以基因組為標(biāo)準(zhǔn),通過(guò)蛋白質(zhì)組SAP推導(dǎo)的nsSNP_pro與基因組中nsSNP匹配一致的位點(diǎn)并計(jì)算隨機(jī)匹配概率,從而將蛋白質(zhì)組與基因組有機(jī)聯(lián)系起來(lái)。對(duì)蛋白質(zhì)組和基因組來(lái)源于同一個(gè)人時(shí),計(jì)算獲得隨機(jī)匹配概率最低(除1例因檢出SAP位點(diǎn)過(guò)少以外)。該個(gè)體識(shí)別計(jì)算方法為后續(xù)法醫(yī)毛干個(gè)體識(shí)別應(yīng)用提出了一個(gè)有效的解決策略和應(yīng)用場(chǎng)景,具有非常重要的應(yīng)用價(jià)值。如現(xiàn)場(chǎng)有一根毛發(fā),有5個(gè)嫌疑人可供排查時(shí),本方法可以給出5個(gè)人相似性排序,可為鎖定嫌疑人提供有力支撐。另外,未來(lái)還需在質(zhì)譜檢測(cè)方法上,針對(duì)毛干蛋白質(zhì)組檢測(cè)的特點(diǎn),進(jìn)一步改進(jìn)毛干蛋白提取方式和加深蛋白質(zhì)組檢測(cè)覆蓋度,以增加SAP檢出數(shù)量。
本文建立了一個(gè)基于離子液體的毛干蛋白質(zhì)組前處理及SAP質(zhì)譜檢測(cè)方法,并探索了個(gè)體識(shí)別分析流程,該方法具有毛發(fā)用量少、穩(wěn)定可重復(fù),檢出SAP數(shù)量更多、針對(duì)東亞人群等優(yōu)勢(shì),從隨機(jī)匹配概率計(jì)算結(jié)果來(lái)看具有較好的個(gè)體識(shí)別能力。該方法有望成為法醫(yī)DNA個(gè)體識(shí)別技術(shù)的有力補(bǔ)充,可以預(yù)期未來(lái)在法庭科學(xué)領(lǐng)域具有良好的應(yīng)用前景。
附件見本文網(wǎng)絡(luò)版(www.pibb.ac.cn或www.cnki.net):
PIBB_20210281_Table S1.pdf
Table 1 The number of peptides,protein groups and unique peptides identified in 12 samples
Table 2 The number of SAP identified in 12 samples
Table 3 RMP calculated by nsSNP_pro validated correctly by exome sequencing in 12 samples
Table 4 Supposed RMP calculated by nsSNP_pro in accordance with different exomes in 12 samples
PIBB_20210281_Table S2.pdf
PIBB_20210281_Table S3.pdf