亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種液相質(zhì)譜實驗數(shù)據(jù)時間特征統(tǒng)計校準方法

        2018-08-29 10:58:58馬媛媛
        價值工程 2018年21期

        馬媛媛

        摘要:文章是對多次重復液相質(zhì)譜(LC-MS)實驗得到的蛋白質(zhì)肽鏈生物數(shù)據(jù)進行時間校準建模分析,目的是校準匹配多次實驗中的肽鏈信號,為蛋白質(zhì)量化提供準確信息。本項目研究一種基于時間特征的LC-MS生物實驗數(shù)據(jù)統(tǒng)計校準算法,解決了現(xiàn)在生物數(shù)據(jù)處理中的實際問題,具有現(xiàn)實意義。

        Abstract: This paper is a modeling analysis of large biological data of protein peptide chains obtained by liquid chromatography-mass spectrometry (LC-MS) experiments. The purpose of this study was to align the signals of the same peptide in different datasets, in order to provide the accurate quantification information. This project, which provides a method for the alignment based on the time feature to solve the actual problem of biological data processing, has practical significance.

        關(guān)鍵詞:蛋白質(zhì)肽鏈;時間特征;統(tǒng)計建模

        Key words: protein peptide chain;time feature;statistical modeling

        中圖分類號:C37 文獻標識碼:A 文章編號:1006-4311(2018)21-0194-03

        0 引言

        隨著生物實驗技術(shù)的高速發(fā)展,生命科學研究獲得大量生物實驗數(shù)據(jù),主要包括基因組學、蛋白質(zhì)組學等生物學大數(shù)據(jù),這些數(shù)據(jù)均具有4V的特性:①數(shù)據(jù)量大(Volume):目前基因組學中只需花費幾千美元幾個小時即可完成一個人基因組的解析,大量的物種得以測序解析,數(shù)據(jù)成爆炸性增長。②數(shù)據(jù)多樣化(Variety):生物信息學中兩大分類:基因組學和蛋白質(zhì)組學中,實驗儀器種類繁多,產(chǎn)生的數(shù)據(jù)格式也各不相同。同時,利用不同的生物信息分析軟件或分析流程處理得到的結(jié)果也是千差萬別。③有價值(Value):隨著生物信息學的發(fā)展,越來越多有價值的信息從生物大數(shù)據(jù)中挖掘出來,這些價值不僅體現(xiàn)在其在生物科研領(lǐng)域,而且已應用于健康和醫(yī)學等領(lǐng)域。④高速(Velocity):不僅體現(xiàn)在數(shù)據(jù)采集量急劇增長,也表現(xiàn)在數(shù)據(jù)的多樣化和價值性上。

        本項目處理的數(shù)據(jù)是由液相質(zhì)譜(LC-MS)實驗得到的蛋白質(zhì)肽鏈生物大數(shù)據(jù)。實驗的目的是為了確定蛋白質(zhì)中生物標志物(biomarker)。這些標志物是可以標記系統(tǒng)、器官、組織、細胞及亞細胞結(jié)構(gòu)或功能的改變或可能發(fā)生的改變的生化指標,可用于疾病診斷、判斷疾病分期或者用來評價新藥或新療法在目標人群中的安全性及有效性。目前尋找和發(fā)現(xiàn)有價值的生物標志物已經(jīng)成為科學研究的一個重要熱點。本項目重點研究多次重復LC-MS實驗中的肽鏈信號匹配算法,目的是為尋找生物標志物提供準確的量化信息[1][2]。

        1 LC-MS實驗簡介

        在LC-MS實驗中,首先,將蛋白質(zhì)切割成肽鏈,并放入容器中;其次,進入實驗的LC部分,用化學試劑將容器中肽鏈沖入到質(zhì)譜儀,由于不同肽鏈具有不同的斥水性,因此進入質(zhì)譜儀的時間便有所不同,形成三維譜圖中的時間軸(Time);再次,進入實驗的MS部分,肽鏈進入質(zhì)譜儀后將隨機粘上電荷,根據(jù)質(zhì)量和電荷比的不同打到檢測板上的位置就不同,這樣就形成三維譜圖中的質(zhì)荷比軸(M/Z);最后,相同時間,相同質(zhì)荷比的位置上基本由同一種肽鏈組成,個數(shù)越多強度越大形成三維譜圖中的強度軸(Intensity)。經(jīng)過一次MS處理的數(shù)據(jù)稱為Level1數(shù)據(jù),數(shù)據(jù)粗糙,但是全面。生物實驗中經(jīng)過在LC-MS實驗后再進行一次MS實驗,得到Level2數(shù)據(jù)。Level2數(shù)據(jù)是從Level1數(shù)據(jù)中隨機抽取生成的,點數(shù)多但是覆蓋率不足,量化準確性不高,基本用來和肽鏈庫進行比對,確定Level1數(shù)據(jù)中的部分肽鏈組成,進而確定Level1數(shù)據(jù)中的蛋白質(zhì)組成。

        2 欲解決的問題

        2.1 問題的提出

        目前,在LC-MS生物大數(shù)據(jù)處理中的重要任務就是對各種檢測到的肽鏈進行量化分析,面臨的一個重要問題就是對相同樣本的多次重復實驗數(shù)據(jù)中肽鏈產(chǎn)生的信號進行校準識別,這項工作對于減少多次重復實驗產(chǎn)生量化誤差,提高量化準確性是至關(guān)重要的。但是進行相同樣本的多次重復實驗生物大數(shù)據(jù)的在特征檢測、校準識別、量化分析時,理論上在重復實驗條件完全一致的情況下,同一種肽鏈在不同重復實驗數(shù)據(jù)中的相對應位置(相同時間值,相同M/Z值)應該產(chǎn)生相同的特征峰值。實際中,由于各種誤差因素的存在,重復實驗數(shù)據(jù)的時間軸也會產(chǎn)生較大差異,這樣就無法對同一肽鏈在多組數(shù)據(jù)中進行相關(guān)峰值識別校準,進一步說就無法量化分析。這就需要我們對多次重復實驗數(shù)據(jù)進行校準。

        2.2 方法思路

        我們要處理重復實驗數(shù)據(jù)1和數(shù)據(jù)2,通過和ms2實驗產(chǎn)生的Level2數(shù)據(jù)比對,如圖1所示,數(shù)據(jù)1與數(shù)據(jù)2在ms2中共同檢測的肽鏈共有700個(即為交集部分,區(qū)域B),這些肽鏈都能分別在數(shù)據(jù)1和數(shù)據(jù)2中找到相應的信號區(qū)間。但是,通過ms2實驗的檢測,數(shù)據(jù)1中依然有1944個肽鏈沒有數(shù)據(jù)2中找到(區(qū)域A部分),數(shù)據(jù)2中依然有1603個肽鏈沒有在數(shù)據(jù)1中找到(區(qū)域C部分)。那么我們將通過數(shù)據(jù)1與數(shù)據(jù)2中共同檢測到的部分建立數(shù)學模型,然后對于區(qū)域A中的在數(shù)據(jù)2中找到匹配的肽信號區(qū)間,對于區(qū)域B中的在數(shù)據(jù)1中找到匹配的肽信號區(qū)間。

        2.3 數(shù)據(jù)處理流程及算法思想(圖2)

        2.3.1 步驟1:數(shù)據(jù)的預處理

        ①由實驗室獲取的生物大數(shù)據(jù)為mzxml格式的大數(shù)據(jù)文件,我們使用matlab中的mzxmlread函數(shù)讀取初始的mzxml文件,將mzxml實驗數(shù)據(jù)讀出生成原始的level1數(shù)據(jù)、level2數(shù)據(jù)、原始峰值信息、level1的時間信息,并保存,同時生成實驗數(shù)據(jù)三維譜圖如圖3。

        ②讀入ms2實驗數(shù)據(jù)生成的肽鏈信息總表和數(shù)據(jù)的level1信息,根據(jù)ms2數(shù)據(jù)總表中的肽鏈的質(zhì)量值(mass)和電荷(charge state)計算出質(zhì)荷比(m/z值),按照肽鏈m/z值前后選取20ppm寬度計算LC譜圖,以獲取該肽鏈在兩組數(shù)據(jù)中的XICs(用來確定肽鏈可能產(chǎn)生的LC峰)[3]。然后對XICs做區(qū)間檢測,我們使用肽鏈主峰位置檢測到高強度峰區(qū)域在背景噪聲的標準偏差的三倍作為閾值,高于閾值的區(qū)間被認為是候選LC峰區(qū)間。

        ③對于給定的肽,如果分別在數(shù)據(jù)1和數(shù)據(jù)2對應的XICs中,檢測出n、m個候選LC峰區(qū)間,則會有n*m候選LC峰區(qū)間對。然而,只有一對是給定的肽在兩個重復實驗數(shù)據(jù)中對應產(chǎn)生的[4]。我們再處理XICs選取候選區(qū)間過程中,首先區(qū)間中形成的波峰的點的個數(shù)要多于6個,然后按照每一個區(qū)間的最高信號值由高到低選出前10個區(qū)間,并保存區(qū)間時間的起始和結(jié)束位置。

        2.3.2 步驟2:生成訓練數(shù)據(jù)和測試數(shù)據(jù)

        對于訓練數(shù)據(jù)和測試數(shù)據(jù)我們應該選取有ms2時間點并檢測到包含時間點區(qū)間的肽鏈。這樣,我們再測試模型的時候才有真實值做比對,才能檢測模型的準確性。那么對數(shù)據(jù)1和數(shù)據(jù)2中在ms2檢測后重復的部分,即同時在數(shù)據(jù)1和數(shù)據(jù)2中檢測到ms2時間點的肽鏈,共700個。以這700個肽鏈為基礎(chǔ),我們首先對區(qū)間檢測的結(jié)果和ms2時間進行比對,選出區(qū)間包含ms2時間的肽鏈,經(jīng)過篩選有599個肽鏈符合條件。這樣我們隨機選取400個作為訓練序列訓練統(tǒng)計模型,剩下的199個作為測試序列測試模型準確性,重復5次,準確性取平均值。

        2.3.3 步驟3:建立訓練模型

        我們了解到產(chǎn)生時間偏移是隨機的,且有直方圖可以觀測到基本符合正態(tài)分布。因此,如果出現(xiàn)未確定的兩個區(qū)間的時間差Δt,我們需要根據(jù)已經(jīng)得到的相關(guān)時間差樣本t1計算概率p(Δt|t1),我們需要根據(jù)已經(jīng)得到的非相關(guān)時間差樣本t2計算概率p(Δt|t2)。我們可以根據(jù)相關(guān)概率p(Δt|t1)/p(Δt|t2)比值是否大于1來判斷是否為相關(guān)區(qū)間。我們知道正態(tài)分布的公式為:

        2.3.4 步驟4:訓練模型并測試,得出模型匹配成功率

        根據(jù)步驟3中用400個訓練序列訓練出來的匹配模型,我們將199個測試序列輸入模型輸出匹配結(jié)果。同時由于測試序列具有ms2的檢測結(jié)果,因此,我們將測試結(jié)果與ms2結(jié)果做比對,所謂匹配成功即為模型輸出數(shù)據(jù)1與數(shù)據(jù)2中的匹配區(qū)間對均能覆蓋數(shù)據(jù)1中該肽鏈的ms2時間和數(shù)據(jù)2中該肽鏈的ms2時間。通過對學習模型進行測試,得到模型檢測的準確率。重復進行5次隨機選取訓練和測試,平均準確率結(jié)果作為算法的準確率。

        2.3.5 步驟5:對所有數(shù)據(jù)應用模型進行匹配校準

        在對模型進行測試之后,我們將模型應用于圖1中數(shù)據(jù)1的A區(qū)域和數(shù)據(jù)2的C區(qū)域,應用過程是:以數(shù)據(jù)1的A區(qū)域中某一肽鏈為例,由于該肽鏈在數(shù)據(jù)1中被ms2檢測到,有m/z和時間信息等,但是并沒有在數(shù)據(jù)2中被ms2檢測到。因此,我們先分別在數(shù)據(jù)1與數(shù)據(jù)2中處理生成對應的XICs,然后進行區(qū)間檢測,那么在數(shù)據(jù)1中我們根據(jù)ms2檢測到的時間信息確定出準確區(qū)間,同時數(shù)據(jù)2中該肽鏈檢測到的區(qū)間均為候選區(qū)間。我們將數(shù)據(jù)2中的候選區(qū)間與數(shù)據(jù)1中的準確區(qū)間的時間差作為模型輸入,判斷相關(guān)性的概率值和非相關(guān)性的概率值的比值,如果大于1那么我們認為找到了該肽鏈在數(shù)據(jù)2中的區(qū)間。如果多個區(qū)間概率比值大于1,那么相關(guān)性概率值最大的就是我們要選擇的區(qū)間。這樣我們將可以將數(shù)據(jù)1區(qū)域A和數(shù)據(jù)2區(qū)域C中的肽鏈分別在數(shù)據(jù)2中和數(shù)據(jù)1中找到了匹配區(qū)間。

        3 數(shù)據(jù)處理結(jié)果

        我們對算法的驗證是通過對交集肽信號進行在有真實值條件下測試準確率和對待校準集合進行無真實值情況下完成匹配。

        3.1 基于ms2檢測結(jié)果的模型測試結(jié)果

        我們進行了5次測試,每次都是隨機選取400作為訓練、199作為測試,對測試結(jié)果以MS2時間點為真實值進行比對,得到區(qū)間匹配準確度結(jié)果如表1。

        3.2 無ms2檢測結(jié)果的待校準集合匹配結(jié)果

        數(shù)據(jù)1與數(shù)據(jù)2并集共4247個肽鏈,數(shù)據(jù)1中待校準匹配的個數(shù)為1944個,數(shù)據(jù)2中待校準匹配的個數(shù)為1603個。經(jīng)過我們對數(shù)據(jù)1和數(shù)據(jù)2非交集中共3547個肽鏈信號進行算法匹配,最后得到區(qū)間結(jié)果的共3098對,校準匹配的覆蓋率達到87.34%。

        這樣實現(xiàn)了對兩組數(shù)據(jù)大部分的肽鏈的匹配校準工作,且匹配成功的概率為96.32%,而且達到了比較高的匹配覆蓋率。

        參考文獻:

        [1]寧康,陳挺.生物醫(yī)學大數(shù)據(jù)的現(xiàn)狀與展望[J].北京:科學通報,2015,Z1.

        [2]胡瑞峰,邢小燕,孫桂波,孫曉波.大數(shù)據(jù)時代下生物信息技術(shù)在生物醫(yī)藥領(lǐng)域的應用前景[J].北京:藥學學報,2014,11.

        [3]Smith R, Ventura D, Prince J T. LC-MS alignment in theory and practice: a comprehensive algorithmic review.[J]. Briefings in Bioinformatics, 2015, 16(1):104.

        [4]Bielow C, Mastrobuoni G, Kempa S. Proteomics Quality Control: Quality Control Software for MaxQuant Results[J]. Journal of Proteome Research, 2015, 15(3).

        av在线高清观看亚洲| 乱子伦av无码中文字幕| 久久亚洲国产精品123区| 一区二区三区国产天堂| 米奇欧美777四色影视在线| 天天躁日日躁狠狠久久| 9191在线亚洲精品| 抖射在线免费观看视频网站| 久久精品亚洲熟女av麻豆| 真人做人试看60分钟免费视频| 一本色道久久综合狠狠躁| 蜜桃av无码免费看永久| 精品一区二区三区久久| 色诱视频在线观看| 少妇高潮喷水正在播放| 日本高清视频在线一区二区三区| 黄射视频在线观看免费| 精品国产一区二区三区香蕉| 国产三级在线观看不卡| 免费a级毛片高清在钱| 亚洲av无码专区电影在线观看| 亚洲AV肉丝网站一区二区无码 | 美女主播福利一区二区| 免费1级做爰片1000部视频| 久久久伊人影院| 久久精品亚洲成在人线av| 欧美男生射精高潮视频网站| 国产成人无码免费网站| 亚洲国产字幕| 青青草视频在线观看网| 久久久www成人免费精品| 国产女人精品视频国产灰线| 一区二区三区黄色一级片| 亚洲国产精品无码久久一线| 亚洲av一宅男色影视| 日本国产在线一区二区| 久久一道精品一区三区| 中文字幕一区二区人妻性色| 国产免费看网站v片不遮挡| 日韩有码在线免费视频| 久久不见久久见免费影院|