亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        蛋白質(zhì)組學(xué)肽段鑒定可信度評(píng)價(jià)方法*

        2023-02-16 11:30:10周文婧曾文鋒賀思敏
        關(guān)鍵詞:誘餌數(shù)目組學(xué)

        周文婧 曾文鋒 遲 浩** 賀思敏**

        (1)中國科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室,中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190;2)中國科學(xué)院大學(xué),北京 100049)

        1 蛋白質(zhì)組學(xué)與質(zhì)譜分析

        蛋白質(zhì)組學(xué)以特定時(shí)空下的一組蛋白質(zhì)為對(duì)象來研究基因和細(xì)胞的功能,質(zhì)譜分析是蛋白質(zhì)組學(xué)的常用手段[1]。在常規(guī)的自底向上的蛋白質(zhì)組學(xué)中,生物樣品中的蛋白質(zhì)首先酶切為肽段,經(jīng)過色譜分離后進(jìn)入質(zhì)譜,進(jìn)行質(zhì)量分析和檢測,得到一級(jí)譜圖。隨后,質(zhì)譜儀會(huì)從一級(jí)譜圖中選取高豐度肽段信號(hào)進(jìn)行碎裂,并采集二級(jí)譜圖。一級(jí)譜圖和二級(jí)譜圖構(gòu)成了串聯(lián)質(zhì)譜數(shù)據(jù),其包含三維信息:肽段離子的質(zhì)荷比、強(qiáng)度和保留時(shí)間。質(zhì)譜分析是指從串聯(lián)質(zhì)譜數(shù)據(jù)中解析出生物樣品包含的肽段和蛋白質(zhì)。

        質(zhì)譜數(shù)據(jù)的解析結(jié)果對(duì)蛋白質(zhì)組學(xué)研究至關(guān)重要。質(zhì)譜數(shù)據(jù)中鑒定的肽段可以作為蛋白質(zhì)存在的直接證據(jù),進(jìn)而證明基因表達(dá)活動(dòng)[2-4];同時(shí),鑒定的肽段,特別是交聯(lián)肽段,能夠幫助解析蛋白質(zhì)的結(jié)構(gòu),研究蛋白質(zhì)的相互作用關(guān)系[4-6];更重要的是,作為基因的直接表達(dá)產(chǎn)物,蛋白質(zhì)含量的上下波動(dòng)可以幫助發(fā)現(xiàn)致病基因及研制具有相應(yīng)靶向作用的藥物[7-9]。常用的質(zhì)譜數(shù)據(jù)解析方法有數(shù)據(jù)庫搜索[10-12]、肽段從頭測序[13-16]和譜庫搜索[17-18]等。得到質(zhì)譜數(shù)據(jù)的初步解析結(jié)果后,需要對(duì)譜圖和肽段層次的解析結(jié)果進(jìn)行質(zhì)量控制,即控制解析結(jié)果的錯(cuò)誤率。這一過程也被稱為過濾,即通過控制鑒定結(jié)果的錯(cuò)誤率范圍,過濾掉不可信鑒定結(jié)果,最終報(bào)告出可信結(jié)果。經(jīng)過譜圖和肽段層面的質(zhì)量控制后,可以基于可信肽段推斷蛋白質(zhì)并進(jìn)行蛋白質(zhì)層面的質(zhì)量控制,最終得到高可信蛋白質(zhì)并進(jìn)行下游生物學(xué)研究[19-22]。

        然而,在目前的蛋白質(zhì)組學(xué)研究中,質(zhì)譜數(shù)據(jù)鑒定到的肽段和蛋白質(zhì)的可信度可能仍然存在較大問題。造成錯(cuò)誤鑒定的原因繁多,數(shù)據(jù)庫不完整,單核苷酸突變,酶切位點(diǎn)、電荷、修飾類型、修飾位點(diǎn)的錯(cuò)誤判斷以及同位素峰的誤匹配都可能造成錯(cuò)誤鑒定[23-24]。如果對(duì)鑒定的肽段和蛋白質(zhì)不進(jìn)行嚴(yán)格的質(zhì)量控制,會(huì)嚴(yán)重影響鑒定結(jié)果的可信度。2014年Kim等[2]和Wilhelm等[3]在《自然》(Nature)雜志同期發(fā)表了兩項(xiàng)人類蛋白質(zhì)組草圖研究結(jié)果,是人類蛋白質(zhì)組研究的里程碑。兩篇文章均構(gòu)建和使用了自定義的質(zhì)譜數(shù)據(jù)解析流程,分別鑒定得到17 294和18 097個(gè)人類基因,覆蓋了人類基因組的84%和92%。然而,兩篇草圖文章的質(zhì)譜數(shù)據(jù)和鑒定結(jié)果公開后,領(lǐng)域?qū)Σ輬D文章鑒定結(jié)果的可信度產(chǎn)生了質(zhì)疑[25-27]。首先,人類蛋白質(zhì)組草圖研究中蛋白質(zhì)的推斷標(biāo)準(zhǔn)不嚴(yán)格,僅由單肽段鑒定的蛋白質(zhì)也被保留,如果不考慮這部分結(jié)果,那么Kim等的文章會(huì)有5 288個(gè)基因被排除,而Wilhelm文章中也有1 259個(gè)僅由單肽段鑒定的蛋白質(zhì)不能計(jì)入最終鑒定結(jié)果(未提供基因數(shù)目)[26]。另外,鑒定結(jié)果的準(zhǔn)確度和靈敏度都存在問題。最為明顯的錯(cuò)誤是,兩篇人類蛋白質(zhì)草圖文章都未制備嗅覺組織樣品,但分別鑒定到了108個(gè)和200個(gè)嗅覺組織所特有的嗅覺受體蛋白質(zhì)[25],而嗅覺受體蛋白是一種跨膜蛋白,只能在鼻黏膜組織中才能鑒定到[28]。此外,本應(yīng)普遍出現(xiàn)的3種細(xì)胞受體因子的表達(dá)模式?jīng)]有在草圖中得到鑒定,說明草圖還遠(yuǎn)未達(dá)到完整[27]。低可信度的鑒定結(jié)果會(huì)影響后續(xù)對(duì)蛋白質(zhì)結(jié)構(gòu)、功能、相互作用關(guān)系和致病機(jī)理等的研究,所以對(duì)蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)鑒定結(jié)果進(jìn)行可信度評(píng)價(jià)極為關(guān)鍵。肽段的可信度是蛋白質(zhì)可信度評(píng)價(jià)方法的前提和基礎(chǔ),領(lǐng)域內(nèi)對(duì)于肽段的可信度評(píng)價(jià)方法研究更久更成熟,所以本文將重點(diǎn)對(duì)肽段的可信度評(píng)價(jià)方法進(jìn)行綜述。

        肽段鑒定可信度評(píng)價(jià)方法歷經(jīng)了多次發(fā)展,早期主要使用基于閾值的評(píng)價(jià)方法,包括設(shè)定搜索引擎打分閾值、P-value和E-value等。設(shè)定搜索引擎打分閾值的方法是指對(duì)于搜索引擎給出的所有鑒定結(jié)果,將打分高于某特定閾值的結(jié)果認(rèn)為是可信鑒定結(jié)果,打分低于特定閾值的結(jié)果認(rèn)為是不可信鑒定結(jié)果[29-30],比如有研究認(rèn)為Mascot引擎打分超過30分的結(jié)果為可信鑒定結(jié)果[30]。這種設(shè)定打分閾值的方法使用簡便,但是打分閾值的設(shè)定極大依賴于人工經(jīng)驗(yàn)。P-value(x)是指在給定譜圖的情況下,隨機(jī)匹配打分大于x的概率[31],E-value(x)是指在給定譜圖和數(shù)據(jù)庫的情況下,隨機(jī)匹配打分大于x的肽段數(shù)目的期望[31]。這兩者的關(guān)系為E-value(x)=n×P-value(x),其中n為候選肽段數(shù)目。P-value和E-value讓不同搜索引擎的鑒定結(jié)果的可信度變得可比,但是和打分閾值方法一樣,P-value和E-value的閾值同樣也依靠人工經(jīng)驗(yàn)。

        2002年,Keller和Nesvizhskii等[32]提出了基于貝葉斯公式的質(zhì)量控制方法PeptideProphet,將概率模型引入肽段可信度評(píng)價(jià)方法。PeptideProphet方法認(rèn)為正確肽段的打分服從高斯分布,錯(cuò)誤肽段的打分服從伽馬分布,并且對(duì)特異酶切位點(diǎn)數(shù)目不同和電荷數(shù)目不同的肽段分別擬合分布,估算每個(gè)肽段-譜圖匹配是正確匹配的概率。為了適應(yīng)不同的數(shù)據(jù)和實(shí)驗(yàn),可以在以上分布的基礎(chǔ)上,采用期望最大化方法(expectation maximization,EM)構(gòu)建混合模型,不斷迭代擬合正確和錯(cuò)誤鑒定結(jié)果的分布。后續(xù)10年間,PeptideProphet衍生出了一系列方法。2003年,Nesvizhskii等[33]在PeptideProphet的基礎(chǔ)上提出了評(píng)價(jià)蛋白質(zhì)可信度的ProteinProphet方法,該方法認(rèn)為蛋白質(zhì)存在的概率可以通過該蛋白質(zhì)鑒定的肽段至少有一條是正確的概率來估算。2007年,該團(tuán)隊(duì)提出了基于PeptideProphet的半監(jiān)督模型[34],將部分誘餌庫鑒定結(jié)果用于EM訓(xùn)練中。隨后,該團(tuán)隊(duì)提出了可變成分混合模型和半?yún)?shù)混合模型兩種方法[35],打破了PeptideProphet混合模型中限制參數(shù)估計(jì)的假設(shè)。2008年,該團(tuán)隊(duì)提出生成模型方法[36],首先對(duì)譜圖進(jìn)行聚類,每一類估計(jì)一個(gè)混合模型。同時(shí),對(duì)每張譜圖的前10名候選肽段均計(jì)算PeptideProphet概率,并根據(jù)概率重新排列這些候選肽段的順序。2011年,為了能夠利用多種搜索引擎的特性,鑒定更多和更可信的肽段和蛋白質(zhì),該團(tuán)隊(duì)提出iProphet[37],在PeptideProphet的基礎(chǔ)上,結(jié)合重復(fù)實(shí)驗(yàn)鑒定情況、重復(fù)引擎鑒定情況、重復(fù)譜圖、重復(fù)母離子和重復(fù)修飾等特征,能夠合并多種搜索引擎和多次重復(fù)實(shí)驗(yàn)的結(jié)果,得到更好的混合模型。PeptideProphet方法經(jīng)歷了長久發(fā)展,在標(biāo)注數(shù)據(jù)集上能取得較好的擬合效果,但該方法依賴于估計(jì)的數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布的相似程度,而且EM方法可能需要耗費(fèi)較多的訓(xùn)練輪次和訓(xùn)練時(shí)間。

        2007年,Elias和Gygi[19]總結(jié)并評(píng)測了Moore等提出的目標(biāo)-誘餌庫方法(target-decoy approach,TDA)[38-40],通過估計(jì)假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR),對(duì)鑒定的肽段的可信度進(jìn)行評(píng)價(jià)。FDR是對(duì)真實(shí)錯(cuò)誤率的一種估計(jì),通常只將FDR小于等于1%的鑒定結(jié)果作為可信結(jié)果。由于TDA方法公式簡單、使用簡便,它逐漸成為質(zhì)譜數(shù)據(jù)解析過程中最主流的質(zhì)量控制方法,并在子類肽段(包括一般子類肽段、突變肽段和修飾肽段等)和交聯(lián)肽段等特殊鑒定目標(biāo)的可信度評(píng)價(jià)中進(jìn)行了衍生和演化。本文將在第二節(jié)中重點(diǎn)講述TDA常規(guī)方法及其特殊演化方法在蛋白質(zhì)組學(xué)肽段鑒定可信度評(píng)價(jià)中的應(yīng)用。

        本文綜述了蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)鑒定的肽段的可信度評(píng)價(jià)方法。第一節(jié)講述蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)制備及數(shù)據(jù)分析方法,同時(shí)對(duì)質(zhì)譜數(shù)據(jù)鑒定結(jié)果的可信度問題以及早期的肽段鑒定可信度評(píng)價(jià)方法進(jìn)行闡述。第二節(jié)首先講述評(píng)價(jià)肽段可信度的TDA常規(guī)方法,然后講述在子類肽段和交聯(lián)肽段等特殊鑒定目標(biāo)中的TDA演化方法,最后講述TDA方法的局限。第三節(jié)首先介紹肽段可信度評(píng)價(jià)方法的統(tǒng)一衡量指標(biāo)——檢驗(yàn)假陽率和檢驗(yàn)假陰率,然后綜述領(lǐng)域內(nèi)現(xiàn)有的Beyond-TDA方法,即在TDA方法的基礎(chǔ)上,對(duì)鑒定結(jié)果的可信度進(jìn)行進(jìn)一步檢驗(yàn),并對(duì)它們的檢驗(yàn)假陽率和檢驗(yàn)假陰率進(jìn)行比較。第四節(jié)對(duì)全文內(nèi)容進(jìn)行總結(jié)。

        2 目標(biāo)-誘餌庫方法(TDA)

        隨著質(zhì)譜采集技術(shù)的快速進(jìn)步和鑒定軟件的蓬勃發(fā)展,一次質(zhì)譜實(shí)驗(yàn)分析即可獲取海量的肽段-譜圖匹配結(jié)果,這些鑒定結(jié)果的準(zhǔn)確性對(duì)后續(xù)生物分析至關(guān)重要。TDA(圖1)可以實(shí)現(xiàn)對(duì)鑒定結(jié)果可信度的快速和相對(duì)準(zhǔn)確地評(píng)估。本節(jié)將對(duì)TDA常規(guī)方法、特殊方法以及TDA方法的局限性進(jìn)行詳細(xì)闡述。

        Fig. 1 Target-decoy approach圖1 目標(biāo)-誘餌庫方法

        2.1 常規(guī)方法

        TDA方法通過構(gòu)造誘餌蛋白質(zhì)數(shù)據(jù)庫(以下簡稱“誘餌庫”)對(duì)鑒定結(jié)果進(jìn)行質(zhì)量控制。誘餌庫的構(gòu)建方式主要有4種:蛋白質(zhì)序列反轉(zhuǎn)[38-39]、肽段序列反轉(zhuǎn)[19]、氨基酸隨機(jī)置換[19]和馬爾可夫方法[41]。蛋白質(zhì)序列反轉(zhuǎn)是將目標(biāo)蛋白質(zhì)數(shù)據(jù)庫(以下簡稱“目標(biāo)庫”)的每個(gè)蛋白質(zhì)序列整體進(jìn)行N-C端方向反轉(zhuǎn),肽段反轉(zhuǎn)是指將目標(biāo)庫蛋白質(zhì)理論酶切后生成的所有肽段序列反轉(zhuǎn),隨機(jī)置換是指將目標(biāo)庫蛋白質(zhì)理論酶切后生成的所有肽段序列中的每個(gè)氨基酸與序列中的其他氨基酸的位置進(jìn)行隨機(jī)置換,馬爾可夫方法是使用馬爾可夫鏈從目標(biāo)庫學(xué)習(xí)到氨基酸分布規(guī)律,然后根據(jù)氨基酸分布規(guī)律構(gòu)建誘餌庫。前兩種方法本質(zhì)都是序列反轉(zhuǎn),后兩種方法本質(zhì)都是序列隨機(jī)化。這4種方法均是為了構(gòu)造與目標(biāo)庫同規(guī)模且同氨基酸分布的誘餌庫。其中,蛋白質(zhì)反轉(zhuǎn)的方法最為常用。有研究表明,誘餌庫構(gòu)建方法對(duì)最終結(jié)果沒有顯著影響[42-43],但是可以通過隨機(jī)置換的方法生成多種隨機(jī)庫分別估計(jì)FDR后取平均值作為最終的FDR估計(jì)值,這樣估計(jì)的FDR更接近真實(shí)錯(cuò)誤率[44-46]。

        TDA方法應(yīng)用的前提是假設(shè)一次錯(cuò)誤匹配結(jié)果(Elias和Gygi的文章描述為incorrect result,具體是指錯(cuò)誤匹配中的隨機(jī)匹配)匹配到目標(biāo)庫和誘餌庫的概率是相等的。在此基礎(chǔ)上,該假設(shè)通過匹配到的誘餌庫鑒定結(jié)果的數(shù)目ND來估計(jì)目標(biāo)庫鑒定結(jié)果中的錯(cuò)誤鑒定結(jié)果數(shù)目,用目標(biāo)庫錯(cuò)誤鑒定結(jié)果數(shù)目比上所有的目標(biāo)庫鑒定結(jié)果數(shù)目NT,就可以計(jì)算出目標(biāo)庫鑒定結(jié)果中的假發(fā)現(xiàn)率(FDR):

        TDA假設(shè)簡單,實(shí)現(xiàn)方便,而且能對(duì)鑒定結(jié)果的可信度做出簡單評(píng)估,具有相對(duì)合理性,比如FDR越小,過濾時(shí)的打分閾值越高,鑒定結(jié)果越可信。由于FDR并不隨著鑒定結(jié)果打分的降低而單調(diào)遞增,在實(shí)際實(shí)驗(yàn)中可能會(huì)出現(xiàn)鑒定結(jié)果高打分區(qū)域的FDR高于低打分區(qū)域的FDR,這樣會(huì)影響根據(jù)FDR閾值進(jìn)行過濾的實(shí)際操作。為了解決這個(gè)問題,在實(shí)際應(yīng)用中通常使用q-value來替代FDR。q-value是指能過濾出打分為x的肽譜匹配結(jié)果所需要的FDR閾值的最小值[47],相當(dāng)于對(duì)FDR做了平滑操作,后續(xù)提到的FDR均指q-value。本文將采用TDA估計(jì)FDR進(jìn)而對(duì)鑒定結(jié)果進(jìn)行質(zhì)量控制的方法稱為“TDA-FDR”方法。

        由于前述TDA-FDR方法不能評(píng)估單個(gè)鑒定結(jié)果的后驗(yàn)錯(cuò)誤概率(posterior error probability,PEP),Local FDR方法逐漸得到發(fā)展和應(yīng)用[34,48-49]。LocalFDR是指打分等于x的鑒定結(jié)果中誘餌庫鑒定結(jié)果和目標(biāo)庫鑒定結(jié)果的比例,而前述FDR是指全局FDR,即打分大于等于x的鑒定結(jié)果中誘餌庫鑒定結(jié)果和目標(biāo)庫鑒定結(jié)果的比例。Kall等[48]的研究認(rèn)為,在統(tǒng)計(jì)學(xué)意義上,LocalFDR比FDR和q-value更保守。

        質(zhì)譜分析會(huì)給出每張譜圖所對(duì)應(yīng)的肽段信息,每個(gè)鑒定結(jié)果就是一個(gè)肽段-譜圖匹配(peptidespectrum match,PSM),由PSM可以得到肽段,而由肽段又可以推斷出鑒定到的蛋白質(zhì),所以質(zhì)譜鑒定結(jié)果包含譜圖、肽段和蛋白質(zhì)3個(gè)層面的鑒定信息。相應(yīng)地,譜圖、肽段和蛋白質(zhì)3個(gè)層面均可估計(jì)各自的FDR。這3個(gè)層面的FDR估計(jì)基本方法均是通過當(dāng)前打分閾值下的誘餌庫鑒定結(jié)果(譜圖/肽段/蛋白質(zhì))數(shù)目除以目標(biāo)庫鑒定結(jié)果數(shù)目。人類蛋白質(zhì)組計(jì)劃(Human Proteome Project,HPP)要求質(zhì)譜分析中譜圖、肽段和蛋白質(zhì)3個(gè)層面的FDR均不能超過1%[50-51]。

        2.2 特殊方法

        TDA-FDR方法萌發(fā)于常規(guī)蛋白質(zhì)組學(xué),但蛋白質(zhì)組學(xué)分析中常常會(huì)對(duì)某些特殊的鑒定結(jié)果感興趣,比如子類肽段和交聯(lián)肽段等,常規(guī)的TDAFDR方法并不能直接用于特殊鑒定結(jié)果的可信度評(píng)價(jià),需要針對(duì)特殊目標(biāo)進(jìn)行改進(jìn)和演化。

        2.2.1 針對(duì)子類肽段的TDA-FDR方法

        對(duì)于某些子類鑒定結(jié)果,比如蛋白質(zhì)基因組學(xué)分析在注釋相對(duì)完全的物種中鑒定到的新肽段,或者富含翻譯后修飾的鑒定結(jié)果,由于這些子類鑒定結(jié)果的數(shù)目相對(duì)于總的鑒定結(jié)果而言并不多,而這些子類肽段的搜索空間比常規(guī)肽段的搜索空間更大[52],如果所有鑒定結(jié)果合并進(jìn)行過濾會(huì)導(dǎo)致子類鑒定結(jié)果的FDR估計(jì)不準(zhǔn)確[4,52-54]。所以,需要對(duì)每種子類鑒定結(jié)果單獨(dú)計(jì)算FDR,即分開過濾,這種方法被稱為“Separate FDR”,核心思想是對(duì)于鑒定結(jié)果按數(shù)據(jù)類型分組(鑒定到不同種類的翻譯后修飾或者鑒定為新肽段或已注釋肽段),在每組數(shù)據(jù)上單獨(dú)使用TDA來估計(jì)組內(nèi)數(shù)據(jù)的FDR并對(duì)組內(nèi)數(shù)據(jù)進(jìn)行過濾。Separate FDR方法計(jì)算公式如下:

        其中k代表肽段類別,F(xiàn)DRk代表第k類肽段的FDR,ND_k代表第k類誘餌庫肽段鑒定數(shù)目,NT_k代表第k類目標(biāo)庫肽段鑒定數(shù)目。這種方法可以更準(zhǔn)確地估計(jì)每類肽段的FDR,但是對(duì)于子類肽段數(shù)目比較敏感。當(dāng)子類肽段數(shù)目較少時(shí),計(jì)算的FDR可能并不準(zhǔn)確。

        李婧等[55]發(fā)現(xiàn),對(duì)于突變肽段這種子類鑒定結(jié)果,即使采用Separate FDR方法,也不能有效解決突變肽段打分向低分區(qū)域聚攏的問題(即鑒定到的突變肽段不可信),她們認(rèn)為子類數(shù)據(jù)中鑒定到的誘餌庫結(jié)果可能與該子類數(shù)據(jù)占總體數(shù)據(jù)的比例有關(guān),所以根據(jù)鑒定結(jié)果中的子類數(shù)據(jù)與總體數(shù)據(jù)的比例重新估計(jì)子類數(shù)據(jù)中的誘餌庫鑒定結(jié)果數(shù)目,在此基礎(chǔ)上重新估計(jì)子類數(shù)據(jù)的FDR。由于該方法最早用于估計(jì)突變肽段的FDR,所以稱該方法為“Variant FDR”,計(jì)算公式如下:

        其中k代表肽段類別,F(xiàn)DRk+代表打分閾值之上的第k類肽段的FDR,ND+代表打分閾值之上的所有誘餌庫肽段數(shù)目,ND-代表打分閾值之下的所有誘餌庫肽段數(shù)目,ND-_k代表打分閾值之下的第k類誘餌庫肽段數(shù)目,NT+_k代表打分閾值之上的第k類目標(biāo)庫肽段數(shù)目?;蚪M證據(jù)表明,Variant FDR方法比常規(guī)TDA-FDR和Separate FDR過濾出的突變肽段的準(zhǔn)確性更高。

        當(dāng)子類鑒定結(jié)果樣本量較小時(shí),即使是分開過濾,直接使用TDA公式計(jì)算得到的FDR可能并不準(zhǔn)確,此時(shí)可以使用Transfer FDR方法估計(jì)任意數(shù)目的子類鑒定結(jié)果的FDR。該方法由付巖等[56]提出,通過線性擬合誘餌匹配中子類肽段比例與打分間的函數(shù)關(guān)系,更準(zhǔn)確地估計(jì)打分閾值處的子類錯(cuò)誤目標(biāo)匹配數(shù)量,以此估計(jì)子類數(shù)據(jù)的FDR,避免子類數(shù)據(jù)樣本數(shù)目較少帶來的FDR估計(jì)不準(zhǔn)確的問題。Transfer FDR的計(jì)算公式如下:

        其中k為肽段類別,F(xiàn)DRk為第k類肽段的FDR,x代表肽段打分,N(x)代表打分超過x的所有肽段數(shù)目,Nk(x)代表打分超過x的第k類肽段數(shù)目,a和b代表線性擬合常數(shù)項(xiàng),F(xiàn)DR代表所有肽段的全局FDR。

        分開過濾的思想可以很自然地應(yīng)用于蛋白質(zhì)基因組學(xué)鑒定的新肽段和已注釋肽段的可信度評(píng)價(jià)中。蛋白質(zhì)基因組學(xué)是通過蛋白質(zhì)組學(xué)鑒定蛋白質(zhì),結(jié)合基因組信息對(duì)生物的基因進(jìn)行重注釋,即發(fā)現(xiàn)新基因、新現(xiàn)象(比如新N端、可變剪接)和校正已注釋基因,對(duì)應(yīng)到質(zhì)譜分析中主要為發(fā)現(xiàn)新肽段和校正已注釋肽段[4,54,57]。Krug等[58]研究表明,對(duì)于大腸桿菌等注釋程度較高的物種,鑒定到的新肽段的后驗(yàn)錯(cuò)誤概率分布與誘餌庫肽段的后驗(yàn)概率分布幾乎相同,所以蛋白質(zhì)基因組學(xué)發(fā)現(xiàn)新肽段需要進(jìn)行嚴(yán)格質(zhì)控。如果對(duì)新肽段單獨(dú)估計(jì)FDR,可能會(huì)因?yàn)樽⑨尦潭容^高的物種中新肽段數(shù)目較少而導(dǎo)致估計(jì)值不夠準(zhǔn)確;而如果對(duì)新肽段和已注釋肽段統(tǒng)一進(jìn)行FDR估計(jì),則會(huì)降低新肽段的準(zhǔn)確度。Zhang等[54]將分開過濾的思想應(yīng)用到蛋白質(zhì)基因組學(xué)中,推導(dǎo)了已注釋肽段和新肽段的FDR與全局FDR的關(guān)系,并證明了已注釋肽段的FDR小于全局FDR小于新肽段FDR[59],這兩類肽段的FDR計(jì)算公式如下所示:

        公式(5)和公式(6)中,F(xiàn)DRnew(x)和FDRann(x)分別代表打分高于x的新肽段和已注釋肽段的FDR,μ指基因組序列注釋比例,θ指基因注釋完整性比例?;蚪M序列注釋比例是指已注釋基因總長占基因組長度的比值,基因注釋完整性比例是指已注釋基因占基因組上所有真實(shí)表達(dá)基因的長度比例。這兩個(gè)變量中,μ可以直接計(jì)算得到,但很遺憾的是,θ是未知量,無法得知,所以無法通過以上公式精確計(jì)算兩類肽段的FDR。但是通過μ與θ的關(guān)系(由定義可知,μ≤θ且θ>0)可以從公式(5)和公式(6)中推導(dǎo)出FDRnew(x)>FDR(x)>FDRann(x)[59]。

        為了更精準(zhǔn)地計(jì)算出兩類肽段的FDR,張昆[59]又將Transfer FDR方法應(yīng)用到蛋白質(zhì)基因組學(xué)中,通過線性擬合的方法重新估計(jì)新肽段中的錯(cuò)誤鑒定數(shù)目,單獨(dú)計(jì)算釀酒酵母蛋白質(zhì)基因組學(xué)分析中鑒定到新肽段的FDR(方法同公式(4))。酵母新肽段中的合成實(shí)驗(yàn)表明,蛋白質(zhì)基因組學(xué)中,Transfer FDR方法比Separate FDR方法估計(jì)的新肽段FDR更準(zhǔn)確。

        2.2.2 針對(duì)交聯(lián)肽段的TDA-FDR方法

        交聯(lián)蛋白質(zhì)組學(xué)(這里特指二肽交聯(lián))質(zhì)譜數(shù)據(jù)由兩條相互交聯(lián)的肽段碎裂打譜得到,與常規(guī)蛋白質(zhì)組學(xué)鑒定肽段結(jié)果非對(duì)即錯(cuò)相比,交聯(lián)蛋白質(zhì)組學(xué)鑒定得到的是兩條相互交聯(lián)的肽段,它們存在全對(duì)、全錯(cuò)、一對(duì)一錯(cuò)這3種情況,這使得FDR的計(jì)算方式變?yōu)?/p>

        其中,NTD代表交聯(lián)肽段一條來自目標(biāo)庫,而另一條來自誘餌庫的鑒定結(jié)果數(shù)目,NDD代表交聯(lián)肽段中兩條肽段均來自誘餌庫的鑒定結(jié)果數(shù)目,NTT代表交聯(lián)肽段中兩條肽段均來自目標(biāo)庫的鑒定結(jié)果數(shù)目[6,60]。在實(shí)際應(yīng)用中,對(duì)于不同蛋白質(zhì)之間(inter-protein)和同一蛋白質(zhì)之內(nèi)(intra-protein)這兩類交聯(lián)肽段要應(yīng)用公式(7)分別計(jì)算FDR,這里也應(yīng)用了分開過濾的思想[60-61]。

        糖基化修飾是一種特殊的修飾,糖蛋白質(zhì)組學(xué)中鑒定的糖肽可以看作是特殊的修飾肽段,但由于糖鏈的特殊性,不妨將糖肽看作糖鏈和肽段的交聯(lián),類似于交聯(lián)蛋白質(zhì)組學(xué)中的交聯(lián)二肽。早期計(jì)算糖肽鑒定結(jié)果的FDR比較困難,因?yàn)殡y以對(duì)糖鏈構(gòu)建誘餌庫,所以無法直接估計(jì)糖鏈的FDR,僅通過估計(jì)肽段的FDR進(jìn)行質(zhì)控。2013年,Strum等[62]提出糖不變而蛋白質(zhì)隨機(jī)置換以及糖增加11 u而蛋白質(zhì)不變兩種方法構(gòu)建誘餌庫,這種方法最早提出了誘餌糖庫的思想,但只是改進(jìn)打分,未對(duì)FDR進(jìn)行研究。2017年,Liu等[63]提出將糖庫中的理論Y離子質(zhì)量隨機(jī)增加1~30 u來構(gòu)造糖鏈的誘餌譜圖,作者想出該方法是受到了肽段誘餌庫的啟發(fā),肽段誘餌庫可以通過反轉(zhuǎn)序列后生成誘餌譜圖,也可以先生成譜圖,然后譜峰偏移構(gòu)建誘餌譜圖,所以作者認(rèn)為通過偏移糖庫中的理論Y離子質(zhì)量也可以達(dá)到構(gòu)建糖鏈誘餌譜圖的效果。通過鑒定的糖鏈誘餌譜圖和肽段誘餌譜圖的數(shù)目分別估計(jì)出糖鏈和肽段的FDR,然后用容斥原理估計(jì)出糖肽的FDR:

        其中FDR(x)建模了糖肽鑒定錯(cuò)誤的概率,F(xiàn)DRG(x)建模了糖鏈鑒定錯(cuò)誤的概率,F(xiàn)DRP(x)建模了肽段鑒定錯(cuò)誤的概率,F(xiàn)DRG∩P(x)建模了糖鏈和肽段同時(shí)鑒定錯(cuò)誤的概率。

        公式(7)與公式(8)形式上似乎差異很大,但實(shí)際上只是同種計(jì)算方法的不同呈現(xiàn)形式。前面提到可以將糖肽看作是糖鏈與肽段的交聯(lián),同時(shí)假設(shè)糖鏈和肽段各自的誘餌庫鑒定結(jié)果數(shù)目與錯(cuò)誤鑒定結(jié)果數(shù)目的比例是相等的,那么如果以NTD代表糖鏈和肽段其中一個(gè)來自目標(biāo)庫而另一個(gè)來自誘餌庫的鑒定結(jié)果數(shù)目,N”TD代表糖鏈來自目標(biāo)庫而肽段來自誘餌庫的鑒定結(jié)果數(shù)目,N”DT代表糖鏈來自誘餌庫而肽段來自目標(biāo)庫的鑒定結(jié)果數(shù)目,NDD代表糖鏈和肽段均來自誘餌庫的鑒定結(jié)果數(shù)目,NTT代表糖鏈和肽段均來自目標(biāo)庫的鑒定結(jié)果數(shù)目,可知有NTD=N”TD+N”DT,那么公式(8)可以變?yōu)椋?/p>

        從而得到與公式(7)相同的計(jì)算公式[64]。所以,交聯(lián)鑒定和糖肽鑒定中的TDA-FDR方法本質(zhì)上是相同的。

        2.2.3 針對(duì)蛋白質(zhì)層面的TDA-FDR方法

        質(zhì)譜分析的終極目標(biāo)是鑒定蛋白質(zhì)。由譜圖可以鑒定出肽段,進(jìn)而推斷出蛋白質(zhì),但這個(gè)向上遞推的過程會(huì)導(dǎo)致錯(cuò)誤結(jié)果逐漸積累[65-66]。例如,第一節(jié)提到的兩篇人類蛋白質(zhì)組草圖研究中報(bào)告了多種錯(cuò)誤蛋白質(zhì),其主要原因是這兩篇草圖文章都只對(duì)肽段的可信度進(jìn)行了質(zhì)控,沒有對(duì)蛋白質(zhì)層面做質(zhì)量控制,在肽段推斷蛋白質(zhì)時(shí),錯(cuò)誤率得到了積累[26]。由于正確鑒定的肽段更有可能集中到相同的蛋白質(zhì),而錯(cuò)誤鑒定的肽段則有可能分散到不同的蛋白質(zhì),這樣就造成了從肽段推斷到蛋白質(zhì)后,蛋白質(zhì)層面的錯(cuò)誤率積累,造成蛋白質(zhì)層面的FDR較高,是肽段層面的數(shù)倍或數(shù)十倍(圖2a)。所以,從肽段推斷到蛋白質(zhì)后,還要對(duì)蛋白質(zhì)層面進(jìn)行質(zhì)量控制。蛋白質(zhì)的推斷方式影響著蛋白質(zhì)層面的質(zhì)量控制,共享肽段的分配影響著蛋白質(zhì)推斷結(jié)果。有研究認(rèn)為,蛋白質(zhì)推斷需要遵循奧卡姆剃刀原則,即用最少的蛋白質(zhì)解釋所有的肽段[67]。也有研究認(rèn)為“one-hit-wonders”不可信[68-70],需要引入雙特異肽段推斷方法,但Gupta等[71]認(rèn)為雙特異肽段推斷過于保守。人類蛋白質(zhì)組計(jì)劃則明確表示鑒定遺漏蛋白質(zhì)需要不低于9個(gè)氨基酸長度的非嵌套的雙特異肽段[50-51]。

        當(dāng)?shù)鞍踪|(zhì)組數(shù)據(jù)集規(guī)模較大(能鑒定數(shù)十萬條肽段)時(shí),鑒定到的目標(biāo)庫蛋白質(zhì)數(shù)目越來越多,造成新鑒定的目標(biāo)庫蛋白質(zhì)和誘餌庫蛋白質(zhì)比例失衡,新鑒定的目標(biāo)庫蛋白質(zhì)越來越少,新鑒定的誘餌庫蛋白質(zhì)越來越多,造成誘餌庫蛋白質(zhì)累積和蛋白質(zhì)FDR的高估。針對(duì)大數(shù)據(jù)集帶來的目標(biāo)庫和誘餌庫蛋白質(zhì)匹配概率失衡的問題,領(lǐng)域內(nèi)目前發(fā)展了MAYU[72]和Picked FDR[73-74]等蛋白質(zhì)推斷及質(zhì)控方法。這里介紹思想最簡單、實(shí)現(xiàn)最方便又能取得較好效果的Picked FDR方法[73],該方法將目標(biāo)庫蛋白質(zhì)及其序列反轉(zhuǎn)得到的誘餌庫蛋白質(zhì)看作一組,每組蛋白質(zhì)中如果兩個(gè)蛋白質(zhì)都被鑒定,那么只保留打分高的蛋白質(zhì)匹配,刪除打分低的蛋白質(zhì)匹配。在具體實(shí)現(xiàn)時(shí)可以將所有鑒定的蛋白質(zhì)按照打分從高到低進(jìn)行排序,對(duì)于每個(gè)蛋白質(zhì),如果其對(duì)應(yīng)的反轉(zhuǎn)蛋白質(zhì)(目標(biāo)庫蛋白質(zhì)的反轉(zhuǎn)為誘餌蛋白質(zhì),誘餌蛋白質(zhì)的反轉(zhuǎn)為目標(biāo)蛋白質(zhì))已經(jīng)在前述蛋白質(zhì)列表出現(xiàn)過,那么刪除當(dāng)前蛋白質(zhì),反之,則保留當(dāng)前蛋白質(zhì)。以圖2b為例,目標(biāo)庫蛋白質(zhì)PROTEIN 1獲得了20分,其對(duì)應(yīng)的誘餌庫蛋白質(zhì)PROTEIN 2獲得了3分,那么打分高的PROTEIN 1被保留,打分低的PROTEIN 2被刪除,不再參與后續(xù)蛋白質(zhì)FDR計(jì)算。同理,目標(biāo)蛋白質(zhì)PROTEIN 3獲得了15分,其對(duì)應(yīng)的誘餌庫蛋白質(zhì)PROTEIN 4獲得了18分,那么打分高的PROTEIN 4被保留,打分低的PROTEIN 3被刪除。通過這種方法能夠解決低打分區(qū)域鑒定到的目標(biāo)庫和誘餌庫蛋白質(zhì)數(shù)目不平衡的問題,使得TDA的1∶1假設(shè)在蛋白質(zhì)層面得到滿足,從而得到更準(zhǔn)確的蛋白質(zhì)FDR。Percolator 3.0文章中對(duì)Picked FDR方法進(jìn)行了檢驗(yàn)和肯定[75]。在Picked FDR原理基礎(chǔ)上,Prieto等[74]認(rèn)為,誘餌庫蛋白質(zhì)的打分是無意義的,不應(yīng)該刪除比誘餌庫蛋白質(zhì)打分低的目標(biāo)庫蛋白質(zhì)。所以,他們對(duì)Picked FDR方法做了改進(jìn),即對(duì)于打分低于目標(biāo)庫的誘餌庫蛋白質(zhì)予以刪除,但對(duì)于打分低于誘餌庫的目標(biāo)庫蛋白質(zhì)予以保留。Prieto等認(rèn)為改進(jìn)的Picked FDR方法能夠在保持與原Picked FDR方法相當(dāng)?shù)撵`敏度的情況下,保留更多的高分蛋白質(zhì)。

        Fig. 2 Protein inference and protein level quality control圖2 蛋白質(zhì)推斷與質(zhì)量控制

        2.3 TDA-FDR方法的局限

        TDA-FDR方法簡單易用,并且能在子類肽段和交聯(lián)肽段等特殊鑒定任務(wù)中演化出更合適的版本,但是該方法還存在兩個(gè)局限。a. TDA-FDR方法估計(jì)的準(zhǔn)確度有待考究。領(lǐng)域內(nèi)普遍認(rèn)為,目標(biāo)庫中的錯(cuò)誤鑒定結(jié)果有兩個(gè)來源:真正的隨機(jī)匹配和同源錯(cuò)誤匹配[24,76]。當(dāng)使用目標(biāo)庫序列反轉(zhuǎn)或者隨機(jī)化構(gòu)建誘餌庫序列時(shí),TDA-FDR理論上能夠模擬出隨機(jī)匹配的分布情況,但卻無法模擬出同源錯(cuò)誤匹配情況,所以理論上TDA-FDR會(huì)低估真實(shí)的錯(cuò)誤率[66]。另外,在二次搜索等特殊場景下,TDA-FDR會(huì)嚴(yán)重低估真實(shí)錯(cuò)誤率,Jeong等[77]研究表明,在采用兩步搜索方法對(duì)酵母數(shù)據(jù)進(jìn)行搜索時(shí),TDA方法估計(jì)的FDR是真實(shí)錯(cuò)誤率的1/20。這可能是由于第二次搜索時(shí)采用第一次搜索鑒定的目標(biāo)庫蛋白質(zhì)構(gòu)造蛋白質(zhì)小庫,雖然通過目標(biāo)庫蛋白質(zhì)序列反轉(zhuǎn)構(gòu)建了同等數(shù)目的誘餌庫蛋白質(zhì),但此時(shí)的目標(biāo)庫蛋白質(zhì)比誘餌庫蛋白質(zhì)更容易獲得高分,造成TDA失衡。b. TDA-FDR方法不能對(duì)單個(gè)鑒定結(jié)果的可信度進(jìn)行評(píng)價(jià)。Nesvizhskii[66]認(rèn)為,TDA-FDR是全局方法,是對(duì)一組已經(jīng)獲取個(gè)體置信度分?jǐn)?shù)的鑒定結(jié)果的假發(fā)現(xiàn)率進(jìn)行的估計(jì)。鑒定結(jié)果的準(zhǔn)確度會(huì)影響后續(xù)解析蛋白質(zhì)結(jié)構(gòu)與功能、研究致病機(jī)理和靶向治療方案等工作的可行性和準(zhǔn)確性。所以還需要在TDA-FDR方法的基礎(chǔ)上,使用更嚴(yán)格的可信度評(píng)價(jià)方法,保證鑒定結(jié)果可以用于后續(xù)的結(jié)構(gòu)和功能分析,這也是下一節(jié)提到的Beyond-TDA方法的由來。

        3 Beyond-TDA方法

        造成錯(cuò)誤匹配的因素眾多,搜索空間[12]、碎片離子強(qiáng)度[45,76]和與實(shí)驗(yàn)參數(shù)相關(guān)的信息,如母離子誤差、保留時(shí)間、酶切特異端點(diǎn)和遺漏酶切位點(diǎn)數(shù)目等[66],都能幫助區(qū)分正確和錯(cuò)誤鑒定結(jié)果。因此,在TDA方法的基礎(chǔ)上,結(jié)合前述有效信息,可以進(jìn)一步檢驗(yàn)鑒定結(jié)果可信度。本文將這類方法統(tǒng)稱為Beyond-TDA方法,即在TDA-FDR方法的基礎(chǔ)上,對(duì)鑒定結(jié)果的可信度做進(jìn)一步檢驗(yàn)。我們認(rèn)為“評(píng)價(jià)”包含對(duì)群體鑒定可信度的評(píng)價(jià)(如TDA-FDR)和對(duì)個(gè)體鑒定可信度的評(píng)價(jià),而本章介紹的Beyond-TDA方法均是對(duì)個(gè)體可信度的評(píng)價(jià),即檢驗(yàn)每個(gè)鑒定結(jié)果的正確性,所以我們又將其稱為可信度檢驗(yàn)方法。Beyond-TDA方法根據(jù)其使用的有效信息可以分為4類:a. 基于搜索空間的方法,包括陷阱庫檢驗(yàn)和開放式搜索檢驗(yàn);b. 基于譜圖相似性的方法,包括合成肽段檢驗(yàn)和理論譜圖預(yù)測;c. 基于化學(xué)信息的方法,包括保留時(shí)間預(yù)測和同位素標(biāo)記檢驗(yàn);d. 基于機(jī)器學(xué)習(xí)的方法,包括Percolator、pValid和DeepRescore等。

        3.1 可信度檢驗(yàn)方法的兩個(gè)衡量指標(biāo)

        肽段鑒定可信度檢驗(yàn)方法通常會(huì)給肽段的可信度進(jìn)行打分,根據(jù)打分高低衡量不同肽段的可信程度。但是,在應(yīng)用這些方法之前需要首先評(píng)估它們的檢驗(yàn)?zāi)芰Γ瑱z驗(yàn)假陽率(false positive rate,F(xiàn)PR)和檢驗(yàn)假陰率(false negative rate,F(xiàn)NR)就是這樣兩個(gè)衡量指標(biāo)。在本文中,檢驗(yàn)的目標(biāo)就是為了發(fā)現(xiàn)錯(cuò)誤鑒定結(jié)果,類似于臨床中診斷疾病,患該疾病則為陽性,反之為陰性。所以本文將檢驗(yàn)結(jié)果呈陽性定義為檢驗(yàn)方法判斷鑒定結(jié)果為錯(cuò)誤鑒定,檢驗(yàn)呈陰性則是指判斷鑒定結(jié)果為正確,檢驗(yàn)的假陽是指真實(shí)正確的鑒定結(jié)果被判斷為陽性(錯(cuò)誤鑒定),檢驗(yàn)的假陰是指真實(shí)錯(cuò)誤的鑒定結(jié)果被判斷為陰性(正確鑒定)。進(jìn)一步,檢驗(yàn)假陽率是指正確鑒定結(jié)果被報(bào)告為不可信結(jié)果(即檢驗(yàn)結(jié)果陽性)的比例,檢驗(yàn)假陰率是指錯(cuò)誤鑒定結(jié)果被報(bào)告為可信結(jié)果(即檢驗(yàn)結(jié)果陰性)的比例[78]。從定義上看,這兩個(gè)指標(biāo)都是越小越好。同時(shí),這些方法的檢驗(yàn)假陽率和檢驗(yàn)假陰率與應(yīng)用它們排除檢驗(yàn)陽性的結(jié)果前后鑒定結(jié)果的靈敏度和準(zhǔn)確度存在一定的關(guān)系,即檢驗(yàn)假陽率越低,排除檢驗(yàn)陽性的結(jié)果后,鑒定結(jié)果的靈敏度越高,檢驗(yàn)假陰率越低,排除檢驗(yàn)陽性的結(jié)果后,鑒定結(jié)果的準(zhǔn)確度越高[78]。檢驗(yàn)假陽率和檢驗(yàn)假陰率越低的方法對(duì)鑒定結(jié)果的正誤判斷越準(zhǔn)確,在實(shí)際檢驗(yàn)肽段鑒定可信度的過程中,應(yīng)該選擇檢驗(yàn)假陽率和檢驗(yàn)假陰率都較低的方法,保留檢驗(yàn)方法認(rèn)為可信的鑒定結(jié)果,排除它們認(rèn)為不可信的鑒定結(jié)果。

        3.2 基于搜索空間的可信度檢驗(yàn)方法

        搜索空間對(duì)鑒定結(jié)果的準(zhǔn)確度有較大影響。當(dāng)搜索空間不足即正確鑒定結(jié)果不在搜索空間內(nèi)時(shí),會(huì)導(dǎo)致鑒定出錯(cuò)。而擴(kuò)大搜索空間,會(huì)有兩種情況:第一,正確鑒定結(jié)果被包括到搜索空間中,只要肽段-譜圖匹配打分無誤,就可以鑒定到正確鑒定結(jié)果,將原始鑒定判錯(cuò);第二,正確鑒定結(jié)果仍然不在搜索空間中,但此時(shí)搜索空間中更多的候選結(jié)果有更大的概率打敗小空間搜索時(shí)的錯(cuò)誤結(jié)果,這樣也能評(píng)價(jià)原始鑒定結(jié)果的正確性。無論哪種情況,我們主要利用搜索空間增大后結(jié)果的不穩(wěn)定性,對(duì)原始鑒定結(jié)果的可信度進(jìn)行評(píng)價(jià)。根據(jù)搜索空間的不同擴(kuò)增方式,又分為陷阱庫檢驗(yàn)和開放式搜索檢驗(yàn)。

        陷阱庫方法已經(jīng)在蛋白質(zhì)組學(xué)研究中應(yīng)用多年,其主要思想是使用與目標(biāo)物種無關(guān)的蛋白質(zhì)作為陷阱進(jìn)行匹配,如果一張譜圖在搜索目標(biāo)蛋白質(zhì)和陷阱蛋白質(zhì)合并構(gòu)成的數(shù)據(jù)庫時(shí)匹配到陷阱庫蛋白質(zhì)的肽段,那么認(rèn)為該譜圖的鑒定結(jié)果是不可信的,這就可以用于評(píng)價(jià)不同引擎和不同方法的準(zhǔn)確度[79-84]。馬潔等[80]使用古細(xì)菌蛋白質(zhì)庫作為人類肝臟數(shù)據(jù)的陷阱庫,比對(duì)搜索引擎在不同搜索參數(shù)下的錯(cuò)誤率,提升搜索引擎的靈敏度和準(zhǔn)確度。其實(shí)驗(yàn)結(jié)果表明,Mascot的Ion Score和Relative Score可以幫助提升鑒定靈敏度,使用貝葉斯非參數(shù)模型可以比根據(jù)人工經(jīng)驗(yàn)確定的打分閾值過濾出的結(jié)果獲得更高的準(zhǔn)確度。Granholm等[81]使用流感嗜血桿菌蛋白質(zhì)庫作為18個(gè)ISB標(biāo)準(zhǔn)蛋白質(zhì)的陷阱庫,評(píng)測搜索引擎打分函數(shù)對(duì)正確和錯(cuò)誤鑒定結(jié)果的區(qū)分能力。實(shí)驗(yàn)證明,使用了Intraset特征的Percolator的打分以及X!Tandem和MSGFDB中計(jì)算的q-value都是有偏的。Feng等[84]使用人類蛋白質(zhì)庫作為強(qiáng)烈火球菌的陷阱庫蛋白質(zhì),使用古細(xì)菌蛋白質(zhì)庫作為人類數(shù)據(jù)的陷阱庫,基于強(qiáng)烈火球菌和人類數(shù)據(jù)的陷阱庫檢驗(yàn),評(píng)測了5種搜索引擎和四種質(zhì)量控制方法,在這種評(píng)測條件下,搜索引擎MS-GF+和后處理方法PepDistiller[85]表現(xiàn)最優(yōu),同時(shí)也證明了使用分開過濾方法單獨(dú)估計(jì)子類數(shù)據(jù)的FDR能夠同時(shí)提升鑒定結(jié)果的準(zhǔn)確度和靈敏度。具體使用陷阱庫方法時(shí)有多種實(shí)現(xiàn)方式,選擇不同物種、不同規(guī)模的蛋白質(zhì)庫作為陷阱庫,會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成不同程度的影響。Feng等[83]的研究指出,需要使用規(guī)模為目標(biāo)蛋白質(zhì)數(shù)據(jù)庫十倍的陷阱庫才能保證隨機(jī)匹配幾乎只發(fā)生在陷阱庫上,使得陷阱庫方法發(fā)揮最佳效果。

        上述應(yīng)用陷阱庫思想的研究中都只搜索了目標(biāo)庫和陷阱庫的合并蛋白質(zhì)庫,陷阱庫可以幫助找出搜索合并庫時(shí)的一部分錯(cuò)誤鑒定,但沒法對(duì)常規(guī)情況下只搜索目標(biāo)庫時(shí)的鑒定結(jié)果做檢驗(yàn),所以我們前期的工作中提出了額外搜索合并庫的陷阱庫檢驗(yàn)方法[78]。合并庫中的陷阱庫蛋白質(zhì)擴(kuò)大了搜索空間,如果搜索合并庫時(shí)的鑒定結(jié)果與之前只搜索目標(biāo)庫時(shí)的鑒定結(jié)果不一致,則認(rèn)為之前只搜索目標(biāo)庫時(shí)的鑒定結(jié)果錯(cuò)誤。

        開放式搜索檢驗(yàn)與陷阱庫檢驗(yàn)的思想類似,都是通過擴(kuò)大搜索空間后再次搜庫,檢驗(yàn)原始搜索空間鑒定的結(jié)果是否會(huì)產(chǎn)生變化。不同之處在于開放式搜索檢驗(yàn)擴(kuò)大的搜索空間中可能包含正確鑒定結(jié)果,但是實(shí)際操作中與陷阱庫檢驗(yàn)區(qū)別并不大。陷阱庫檢驗(yàn)需要額外搜索目標(biāo)庫和陷阱庫的合并蛋白質(zhì)庫,而開放式搜索需要額外搜索目標(biāo)物種庫的所有酶切和所有修飾情況。由于開放式搜索空間包含真實(shí)正確鑒定結(jié)果,所以開放式搜索檢驗(yàn)更容易發(fā)現(xiàn)原始結(jié)果中的錯(cuò)誤,即開放式搜索檢驗(yàn)方法的檢驗(yàn)假陰率會(huì)優(yōu)于陷阱庫檢驗(yàn)方法,我們前期的研究中也證明了這個(gè)結(jié)論[78]。

        值得一提的是,前文提到的TDA方法,本質(zhì)上也應(yīng)用了擴(kuò)大搜索空間的思想。實(shí)際上,如果首先僅搜索一次目標(biāo)庫,再搜索一次目標(biāo)庫和誘餌庫的合并庫,那么,TDA也是一種基于陷阱庫的檢驗(yàn)方法,誘餌庫在這里起到陷阱庫的作用,且目標(biāo)庫與陷阱庫具有同規(guī)模的特點(diǎn)(也正是這一特點(diǎn),可以在TDA方法基礎(chǔ)上進(jìn)行FDR估計(jì))。具體講,TDA用作檢驗(yàn)方法時(shí),假陽性結(jié)果是指將原本正確的鑒定結(jié)果檢驗(yàn)為陽性即錯(cuò)誤鑒定結(jié)果,也就是只搜索目標(biāo)庫時(shí)鑒定為目標(biāo)庫的正確結(jié)果,搜索目標(biāo)庫和誘餌庫的合并庫時(shí)鑒定為誘餌庫結(jié)果。當(dāng)然,這種可能性極小,原則上,如果真實(shí)結(jié)果存在于目標(biāo)庫中,那么一般認(rèn)為誘餌庫競爭不過目標(biāo)庫中的真實(shí)結(jié)果,因此可以認(rèn)為TDA方法的檢驗(yàn)假陽率是0。TDA方法檢驗(yàn)所得的假陰性結(jié)果是指將原本錯(cuò)誤的鑒定結(jié)果檢驗(yàn)為陰性即正確鑒定結(jié)果,也就是搜索目標(biāo)庫時(shí)錯(cuò)誤的目標(biāo)庫鑒定結(jié)果,在搜索目標(biāo)庫和誘餌庫的合并庫時(shí),仍然鑒定到目標(biāo)庫結(jié)果,這種可能性是存在的,如果隨機(jī)匹配到目標(biāo)庫和誘餌庫的概率是1∶1的假設(shè)成立,那么可以認(rèn)為TDA的檢驗(yàn)假陰率是50%。

        3.3 基于譜圖相似性的可信度檢驗(yàn)方法

        搜索引擎對(duì)每個(gè)肽段-譜圖匹配的打分其實(shí)就是對(duì)實(shí)驗(yàn)譜圖與肽段的理論譜圖的相似程度進(jìn)行打分,理論譜圖估計(jì)得越準(zhǔn)確,打分的可信度越高。常規(guī)的數(shù)據(jù)庫搜索引擎在生成肽段的理論譜圖時(shí),沒有考慮碎片離子的強(qiáng)度信息,即給理論譜圖中的所有碎片離子賦予相同的強(qiáng)度,這會(huì)造成一部分肽段-譜圖匹配錯(cuò)誤。在Beyond-TDA方法中,有一類方法通過在肽段-譜圖匹配打分時(shí)考慮碎片離子強(qiáng)度,對(duì)鑒定的肽段的可信度進(jìn)行評(píng)價(jià),包括合成肽段檢驗(yàn)和理論譜圖預(yù)測兩種方法。

        3.3.1 合成肽段檢驗(yàn)

        合成肽段檢驗(yàn)方法能夠獲取最真實(shí)和最精準(zhǔn)的肽段理論譜圖,所以合成肽段檢驗(yàn)方法是領(lǐng)域內(nèi)檢驗(yàn)鑒定結(jié)果可信度的金標(biāo)準(zhǔn)。合成肽段檢驗(yàn)方法常用來檢驗(yàn)發(fā)現(xiàn)的新現(xiàn)象(比如新基因、遺漏注釋蛋白質(zhì)和新修飾),即對(duì)相應(yīng)的新肽段進(jìn)行合成,在盡可能相同的液相色譜條件和質(zhì)譜儀參數(shù)等條件下打譜,通過計(jì)算新肽段對(duì)應(yīng)的實(shí)驗(yàn)譜圖與合成肽段對(duì)應(yīng)的合成譜圖的余弦相似度,判斷新肽段的可信度[86-88]。一般以0.9作為合成肽段檢驗(yàn)的余弦相似度閾值,達(dá)到或超過這個(gè)閾值則認(rèn)為鑒定結(jié)果可信;反之,低于該閾值則認(rèn)為鑒定結(jié)果不可信[87-88]。合成肽段檢驗(yàn)方法是領(lǐng)域內(nèi)目前公認(rèn)的最好的個(gè)體可信度檢驗(yàn)方法,我們前期的工作中評(píng)測合成肽段檢驗(yàn)方法的FPR為0.06%,F(xiàn)NR為1.44%[78]。然而該方法的應(yīng)用成本非常高,需要消耗時(shí)間和經(jīng)濟(jì)成本,難以大規(guī)模應(yīng)用。

        3.3.2 理論譜圖預(yù)測

        理論譜圖預(yù)測方法可以看作是合成肽段檢驗(yàn)的一種替代方法。采用機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù)預(yù)測特定儀器、特定碎裂能量、特定電荷狀態(tài)的肽段理論碎裂的譜圖,將這類譜圖稱為預(yù)測譜圖。常用的理論譜圖預(yù)測軟件有采用隨機(jī)森林方法的MS2PIP[89],采用雙向長短期記憶網(wǎng)絡(luò)的pDeep[90]、pDeep2[91]、DeepMass[92]和Guan_2019(關(guān)慎恒等人開發(fā)的軟件)[93]以及采用雙向遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)的Prosit[94]等。與合成肽段檢驗(yàn)方法類似,得到預(yù)測譜圖后,計(jì)算實(shí)驗(yàn)譜圖和預(yù)測譜圖的余弦相似度,pValid文章中綜合考慮FPR和FNR后選取0.7作為實(shí)驗(yàn)譜圖和pDeep2預(yù)測譜圖的相似度閾值,余弦相似度達(dá)到或者超過0.7認(rèn)為鑒定結(jié)果可信,反之余弦相似度低于0.7則認(rèn)為鑒定結(jié)果不可信,取閾值0.7時(shí)理論譜圖預(yù)測方法的FPR和FNR分別是0.26%和10.80%[78]。理論譜圖預(yù)測方法不僅可以用于檢驗(yàn)鑒定結(jié)果的可信度,也可以幫助改進(jìn)肽段和譜圖的匹配打分,DeepMass從理論譜圖中提取強(qiáng)度Top-3、Top-5、Top-7、Top-10和Top-13的譜峰計(jì)算Andromeda打分[95],雖然參與打分的譜峰數(shù)目比原始譜圖要少,但是由于譜峰預(yù)測更準(zhǔn)確,反而可以提升打分。

        Xu等[96]對(duì)4種理論譜圖預(yù)測軟件的預(yù)測能力進(jìn)行了評(píng)測,采用10個(gè)不同物種、酶切、儀器和碎裂能量的公共數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行重新分析,采用5種數(shù)據(jù)庫搜索引擎進(jìn)行搜庫,取搜庫結(jié)果交集作為標(biāo)注集,根據(jù)鑒定肽段的離子類型、長度和電荷進(jìn)行分組,然后采用MS2PIP、Prosit、pDeep 2和Guan_2019預(yù)測肽段的理論譜圖,計(jì)算理論譜圖和實(shí)驗(yàn)譜圖的皮爾遜相似度。從預(yù)測譜圖與實(shí)驗(yàn)譜圖的相似程度看,Prosit和pDeep2表現(xiàn)最好;從GPU和CPU上的運(yùn)行時(shí)間看,pDeep2在GPU和CPU上運(yùn)行時(shí)間均優(yōu)于Prosit。

        3.4 基于化學(xué)信息的可信度檢驗(yàn)方法

        除了上述基于搜索空間和譜圖相似性的Beyond-TDA方法,引入保留時(shí)間和同位素標(biāo)記等化學(xué)信息也可以幫助評(píng)價(jià)肽段的可信度。保留時(shí)間預(yù)測方法可以提供肽段的理論保留時(shí)間,而同位素標(biāo)記方法相當(dāng)于對(duì)待檢驗(yàn)的目標(biāo)增加了額外的譜圖信息。

        3.4.1 保留時(shí)間預(yù)測

        肽段的保留時(shí)間是指肽段從色譜進(jìn)入質(zhì)譜所需要的時(shí)間,通俗來說是指肽段離子在質(zhì)譜中從有信號(hào)到信號(hào)達(dá)到最高峰這段過程的時(shí)間,它與肽段的化學(xué)結(jié)構(gòu)有關(guān),在特定分離條件下肽段的保留時(shí)間應(yīng)該是相對(duì)恒定的,所以通過檢驗(yàn)肽段的保留時(shí)間是否在一定的范圍內(nèi),就可以判斷鑒定結(jié)果準(zhǔn)確性[66,97-98]。保留時(shí)間預(yù)測方法有采用支持向量回歸方法的Elude[99-100]、采用高斯過程回歸方法的GPTime[101]、采用膠囊網(wǎng)絡(luò)和遷移學(xué)習(xí)方法的DeepRT[102]、采用雙向遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)的Prosit[94]、采用雙向長短期記憶網(wǎng)絡(luò)的Guan_2019[93]以及基于卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)的AutoRT[103]??梢灾苯硬捎妙A(yù)測保留時(shí)間與實(shí)際保留時(shí)間的差值檢驗(yàn)鑒定結(jié)果的可信度,也可以將差值作為一維特征,與理論譜圖相似度等其他特征聯(lián)合判斷鑒定結(jié)果的可信度。

        P-IVS[104]是一種結(jié)合合成肽段和保留時(shí)間特征的可信度檢驗(yàn)方法,該方法對(duì)于感興趣的目標(biāo)肽段進(jìn)行合成,同時(shí)在實(shí)驗(yàn)樣品和合成樣品中均混入一定量的標(biāo)準(zhǔn)肽段,統(tǒng)計(jì)標(biāo)準(zhǔn)肽段在兩種樣品中的譜圖皮爾遜相似度和保留時(shí)間差值的范圍,確定置信區(qū)間,然后對(duì)于目標(biāo)肽段計(jì)算其在兩種樣品中的皮爾遜相似度和保留時(shí)間差值,通過前述確定的皮爾遜相似度和保留時(shí)間差值的置信區(qū)間對(duì)目標(biāo)肽段的可信度進(jìn)行檢驗(yàn)。P-IVS的優(yōu)勢是結(jié)合了合成肽段和保留時(shí)間,使得可信度檢驗(yàn)較為精準(zhǔn),但是不能大規(guī)模應(yīng)用,文章中僅僅對(duì)11條目標(biāo)肽段的可信度進(jìn)行了檢驗(yàn)(使用了40條標(biāo)準(zhǔn)肽段)。

        3.4.2 同位素標(biāo)記檢驗(yàn)

        同位素標(biāo)記檢驗(yàn)方法(圖3)需要在樣品制備過程中同時(shí)制備無標(biāo)記樣品和重同位素標(biāo)記樣品,將無標(biāo)記樣品和標(biāo)記樣品按比例混合后再進(jìn)行酶切和質(zhì)譜采集。對(duì)于搜索引擎鑒定的每條肽段,如果鑒定為無標(biāo)記肽段,則在一級(jí)譜尋找其對(duì)應(yīng)的重同位素標(biāo)記肽段的信號(hào)峰;如果鑒定為重同位素標(biāo)記肽段,則在一級(jí)譜尋找其對(duì)應(yīng)的無標(biāo)記肽段的信號(hào)峰。如果能找到該鑒定結(jié)果對(duì)應(yīng)的另一種標(biāo)記肽段的信號(hào)峰,那么認(rèn)為該鑒定結(jié)果可信;反之,則認(rèn)為該鑒定結(jié)果不可信[12,61,63]。更嚴(yán)格的同位素標(biāo)記檢驗(yàn)可以計(jì)算無標(biāo)記和標(biāo)記肽段信號(hào)峰的強(qiáng)度比值,只有比值符合或接近樣品制備時(shí)無標(biāo)記樣品和標(biāo)記樣品的濃度比例,才認(rèn)為鑒定結(jié)果可信,反之認(rèn)為不可信。

        同位素標(biāo)記檢驗(yàn)方法目前在常規(guī)蛋白質(zhì)組學(xué)、交聯(lián)蛋白質(zhì)組學(xué)和糖蛋白質(zhì)組學(xué)都得到了應(yīng)用[12,61,63]。糖蛋白質(zhì)組學(xué)中最早應(yīng)用了同位素標(biāo)記檢驗(yàn)方法[63],糖肽搜索引擎pGlyco 2首次應(yīng)用15N和13C兩種同位素標(biāo)記方法標(biāo)記釀酒酵母數(shù)據(jù),其中無標(biāo)記、15N標(biāo)記和13C標(biāo)記3種標(biāo)記樣品的比例是1∶1∶1。pGlyco 2和Byonic鑒定結(jié)果的15N和13C標(biāo)記檢驗(yàn)表明pGlyco 2的可信度遠(yuǎn)高于Byonic。pGlyco 2采用所有誘餌庫結(jié)果估計(jì)同位素標(biāo)記檢驗(yàn)方法的檢驗(yàn)假陰率,但沒有估計(jì)檢驗(yàn)假陽率,最后使用估計(jì)得到的檢驗(yàn)假陰率對(duì)目標(biāo)庫結(jié)果的錯(cuò)誤率做了校正,算得pGlyco 2鑒定到的糖肽的錯(cuò)誤率低于Byonic。

        在常規(guī)蛋白質(zhì)組學(xué)中,開放式搜索引擎OpenpFind也應(yīng)用了15N和13C兩種同位素標(biāo)記方法標(biāo)記大腸桿菌數(shù)據(jù)[12],其中無標(biāo)記、15N標(biāo)記和13C標(biāo)記三種標(biāo)記樣品的比例是1∶1∶1。8種搜索引擎鑒定結(jié)果的15N標(biāo)記檢驗(yàn)和13C標(biāo)記檢驗(yàn)均表明Open-pFind的鑒定結(jié)果具有最高的準(zhǔn)確度,且Open-pFind相對(duì)其他引擎單獨(dú)鑒定的差集部分具有與交集部分相當(dāng)?shù)臏?zhǔn)確度。Open-pFind采用多引擎交集作為正樣本估計(jì)兩種同位素標(biāo)記方法的檢驗(yàn)假陽率,采用低打分區(qū)域的目標(biāo)庫鑒定結(jié)果作為負(fù)樣本估計(jì)兩種同位素標(biāo)記方法的檢驗(yàn)假陰率,最后根據(jù)檢驗(yàn)假陽率和檢驗(yàn)假陰率估計(jì)出鑒定結(jié)果的錯(cuò)誤率。

        Fig. 3 Stable isotopic labeling validation method圖3 同位素標(biāo)記檢驗(yàn)方法

        在交聯(lián)蛋白質(zhì)組學(xué)中,搜索引擎pLink 2的研究中采用15N標(biāo)記大腸桿菌數(shù)據(jù)[61],無標(biāo)記和15N標(biāo)記樣品的比例是1∶1,分別采用兩種交聯(lián)劑Leiker和二硫鍵進(jìn)行交聯(lián),在這兩批交聯(lián)劑數(shù)據(jù)上對(duì)三種交聯(lián)引擎Kojak、pLink 1和pLink 2進(jìn)行評(píng)測,檢驗(yàn)結(jié)果表明pLink 2的鑒定結(jié)果具有最高的準(zhǔn)確度。pLink 2采用多引擎交集作為正樣本評(píng)測15N標(biāo)記檢驗(yàn)方法的檢驗(yàn)假陽率,采用通過TDA-FDR閾值的誘餌庫鑒定結(jié)果作為負(fù)樣本評(píng)測15N標(biāo)記檢驗(yàn)方法的檢驗(yàn)假陰率,最后根據(jù)檢驗(yàn)假陽率和檢驗(yàn)假陰率估計(jì)出pLink 2的鑒定結(jié)果在三個(gè)引擎的鑒定結(jié)果中錯(cuò)誤率最低。

        同位素標(biāo)記檢驗(yàn)方法的應(yīng)用并不限于在常規(guī)蛋白質(zhì)組學(xué)、交聯(lián)蛋白質(zhì)組學(xué)和糖蛋白質(zhì)組學(xué),還可以應(yīng)用到微生物組學(xué)和蛋白質(zhì)基因組學(xué)。同時(shí),同位素標(biāo)記檢驗(yàn)方法也不限于MS1(一級(jí)質(zhì)譜圖)檢驗(yàn),還可以用于MS2(二級(jí)質(zhì)譜圖)檢驗(yàn),預(yù)期將有更高的檢驗(yàn)效率。標(biāo)記方法不限于15N標(biāo)記和13C標(biāo)記,其他代謝標(biāo)記,如細(xì)胞培養(yǎng)條件下穩(wěn)定同位素標(biāo)記技術(shù)(stable isotope labeling by amino acids in cell culture,SILAC)和化學(xué)標(biāo)記方法,都值得探索。

        3.5 基于機(jī)器學(xué)習(xí)的可信度檢驗(yàn)方法

        上述3種基于搜索空間、譜圖相似性和化學(xué)信息的Beyond-TDA方法都具有各自的優(yōu)勢,如果能結(jié)合以上3種方法的多種特征進(jìn)行可信度檢驗(yàn),并結(jié)合機(jī)器學(xué)習(xí)等方法挖掘數(shù)據(jù)特性,將會(huì)得到更精準(zhǔn)的可信度檢驗(yàn)方法。Percolator[105]采用半監(jiān)督學(xué)習(xí)方法,使得它能適配不同搜索引擎和不同物種的數(shù)據(jù)。Percolator采用互相關(guān)系數(shù)、質(zhì)量、碎片離子匹配率、酶切特異性、肽段長度、電荷和鑒定結(jié)果數(shù)目等未用于打分的特征,使用支持向量機(jī)(support vector machine,SVM)作為分類器,對(duì)鑒定結(jié)果進(jìn)行重打分。重打分的目的是為了讓目標(biāo)庫和誘餌庫結(jié)果區(qū)分度更高,達(dá)到檢驗(yàn)鑒定結(jié)果可信度的目的。

        DeepRescore[106]使用AutoRT[103]預(yù)測保留時(shí)間,計(jì)算預(yù)測保留時(shí)間與實(shí)驗(yàn)保留時(shí)間的差值DeltaRT,同時(shí)使用pDeep2預(yù)測理論譜圖,計(jì)算理論譜圖和實(shí)驗(yàn)譜圖之間的譜圖夾角(spectra angle,SA),將DeltaRT和SA作為特征加入Percolator,同搜索引擎給出的打分等特征一起重新訓(xùn)練,對(duì)每個(gè)鑒定結(jié)果重新打分,并重新計(jì)算FDR。

        pValid方法從開放式搜索及理論譜圖預(yù)測中提取與鑒定結(jié)果相關(guān)的特征,并采用SVM方法作為分類器,對(duì)鑒定結(jié)果的可信度進(jìn)行預(yù)測[78]。開放式搜索同時(shí)考慮了特異、半特異、非特異酶切形式以及Unimod[107]中的所有修飾,也是一種擴(kuò)大搜索空間的檢驗(yàn)方法。pValid綜合了開放式搜索和理論譜圖預(yù)測兩種可信度檢驗(yàn)方法,獲得了更低的檢驗(yàn)假陽率和檢驗(yàn)假陰率,我們前期的工作中對(duì)以上提到的陷阱庫、開放式搜索、合成肽段、理論譜圖預(yù)測和pValid方法的檢驗(yàn)假陽率和檢驗(yàn)假陰率進(jìn)行了研究[78]。采用3種數(shù)據(jù)庫搜索引擎(pFind、MaxQuant和PEAKS)的交集構(gòu)建正樣本,評(píng)測各種方法的檢驗(yàn)假陽率,采用正樣本譜圖母離子偏離5 u和10 u構(gòu)建誘餌譜圖重新搜庫的方法構(gòu)建負(fù)樣本,評(píng)測各種方法的檢驗(yàn)假陰率。在3批標(biāo)注數(shù)據(jù)集上,pValid的檢驗(yàn)假陰率最低,檢驗(yàn)假陽率僅次于陷阱庫方法。pValid的平均檢驗(yàn)假陽率為0.03%,陷阱庫方法的平均檢驗(yàn)假陽率為0.01%,pValid的平均檢驗(yàn)假陰率為1.79%,但陷阱庫方法的平均檢驗(yàn)假陰率高達(dá)56.13%。綜合考慮檢驗(yàn)假陽率和檢驗(yàn)假陰率,pValid方法優(yōu)于陷阱庫、開放式搜索和理論譜圖預(yù)測方法。在合成肽段數(shù)據(jù)集上,pValid的檢驗(yàn)假陽率和檢驗(yàn)假陰率媲美合成肽段檢驗(yàn)方法(表1)??梢哉J(rèn)為基于機(jī)器學(xué)習(xí)的pValid方法在一定條件下超越了陷阱庫、開放式搜索和理論譜圖預(yù)測方法,甚至也超越了合成肽段檢驗(yàn)方法。

        Table 1 Beyond-TDA validation methods表1 Beyond-TDA方法

        4 總結(jié)與展望

        質(zhì)譜分析對(duì)蛋白質(zhì)組學(xué)至關(guān)重要。質(zhì)譜數(shù)據(jù)鑒定結(jié)果能夠給出基因表達(dá)的直接證據(jù),同時(shí)幫助解析蛋白質(zhì)的結(jié)構(gòu)和功能,發(fā)現(xiàn)與疾病相關(guān)的基因和蛋白質(zhì)以及研制靶向治療方案。然而,質(zhì)譜分析結(jié)果的可信度亟待評(píng)價(jià)。對(duì)常規(guī)肽段使用TDA進(jìn)行質(zhì)量控制的方法雖然在子類肽段和交聯(lián)肽段中都進(jìn)行了演化改進(jìn),但仍然存在估計(jì)值不準(zhǔn)確以及無法評(píng)價(jià)單個(gè)鑒定結(jié)果可信度的局限。因此,領(lǐng)域內(nèi)在TDA基礎(chǔ)上開發(fā)了結(jié)合搜索空間、譜圖相似性、化學(xué)信息和機(jī)器學(xué)習(xí)等有效手段的Beyond-TDA方法。

        Beyond-TDA方法主要介紹了基于搜索空間、譜圖相似性和化學(xué)信息的3類方法,包括陷阱庫、開放式搜索、合成肽段、理論譜圖預(yù)測、保留時(shí)間預(yù)測和同位素標(biāo)記檢驗(yàn)方法。陷阱庫方法可以快速檢驗(yàn)大規(guī)模鑒定結(jié)果,TDA方法本質(zhì)上也可以看作是陷阱庫檢驗(yàn)。開放式搜索也是一種擴(kuò)大搜索空間的檢驗(yàn)方法,因其擴(kuò)大的空間中可能包含正確鑒定結(jié)果,所以它的檢驗(yàn)假陰率理論上會(huì)優(yōu)于陷阱庫方法。合成肽段方法是檢驗(yàn)金標(biāo)準(zhǔn),但是時(shí)間和經(jīng)濟(jì)成本較高,不適用于大規(guī)模質(zhì)譜數(shù)據(jù)鑒定結(jié)果的檢驗(yàn),由此產(chǎn)生了理論譜圖預(yù)測方法模擬和替代合成肽段方法。保留時(shí)間預(yù)測方法采用預(yù)測保留時(shí)間與實(shí)際保留時(shí)間的差值作為鑒定結(jié)果可信度的評(píng)判標(biāo)準(zhǔn),常常與理論譜圖預(yù)測等方法聯(lián)用。同位素標(biāo)記檢驗(yàn)?zāi)壳耙呀?jīng)在常規(guī)蛋白質(zhì)組學(xué)、交聯(lián)蛋白質(zhì)組學(xué)和糖蛋白質(zhì)組學(xué)中得到了應(yīng)用并發(fā)揮了重要價(jià)值,但這種方法還可以繼續(xù)改進(jìn),比如不僅僅考慮無標(biāo)記和重同位素標(biāo)記肽段信號(hào)峰的存在性,將肽段的同位素峰簇比值以及碎片離子同位素峰簇比值都納入檢驗(yàn)范圍,以及進(jìn)一步從MS1拓展到MS2,從15N和13C拓展到SILAC,從代謝標(biāo)記拓展到化學(xué)標(biāo)記。

        基于機(jī)器學(xué)習(xí)的可信度評(píng)價(jià)方法主要用于對(duì)鑒定結(jié)果進(jìn)行重打分,自動(dòng)選擇最優(yōu)重打分閾值檢驗(yàn)鑒定結(jié)果的可信度,這些方法各自使用了多種特征,比如Percolator使用了XCorr互相關(guān)系數(shù)、肽段長度、電荷、鑒定結(jié)果數(shù)目等肽段-譜圖匹配相關(guān)的特征,DeepRescore使用了保留時(shí)間差值和理論譜圖預(yù)測,pValid使用了開放式搜索和理論譜圖預(yù)測。這些特征都能幫助區(qū)分正確和錯(cuò)誤鑒定結(jié)果,未來可以將這些特征綜合應(yīng)用到一個(gè)分類器中,并結(jié)合深度學(xué)習(xí)帶來的優(yōu)勢,提升分類結(jié)果的準(zhǔn)確性。未來也可以考慮結(jié)合所有Beyond-TDA方法的優(yōu)勢,構(gòu)建更準(zhǔn)確的可信度評(píng)價(jià)方法。需要注意的是,機(jī)器學(xué)習(xí)方法受限于訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量,產(chǎn)生質(zhì)譜數(shù)據(jù)的真實(shí)肽段是未知的,可以通過取多種搜索引擎交集的方法構(gòu)建大規(guī)模高質(zhì)量的正確鑒定結(jié)果,但構(gòu)建同樣規(guī)模的高質(zhì)量的錯(cuò)誤鑒定結(jié)果卻很困難,這也是未來需要解決的問題。我們也注意到,近年來有研究認(rèn)為,隨著質(zhì)譜儀精度越來越高,基于統(tǒng)計(jì)的方法(P-value和Benjamini-Hochberg方法[108])的準(zhǔn)確度優(yōu)于常規(guī)的TDAFDR[109],理論上,這類方法也可以和文中提到的其他Beyond-TDA方法進(jìn)行結(jié)合,進(jìn)一步檢驗(yàn)鑒定結(jié)果的可信度。

        蛋白質(zhì)組學(xué)領(lǐng)域內(nèi)發(fā)展了TDA方法和基于搜索空間、譜圖相似性、化學(xué)信息和機(jī)器學(xué)習(xí)技術(shù)的Beyond-TDA方法,對(duì)肽段鑒定的可信度進(jìn)行評(píng)價(jià),但是對(duì)于蛋白質(zhì)層面的可信度評(píng)價(jià)關(guān)注不算多。蛋白質(zhì)作為質(zhì)譜分析的最終目標(biāo),具有非常重要的意義。Picked FDR方法讓人們意識(shí)到日益增長的蛋白質(zhì)組學(xué)數(shù)據(jù)中的蛋白質(zhì)FDR高估問題,給出了簡便且有效的解決方法,未來還需要更多地關(guān)注蛋白質(zhì)層面的可信度評(píng)價(jià)方法。未來也可以嘗試將目前的肽段可信度評(píng)價(jià)方法遷移和拓展到蛋白質(zhì)的可信度評(píng)價(jià)中,比如,對(duì)于每個(gè)待評(píng)價(jià)的蛋白質(zhì),只要有一條特異的肽段通過了可信度評(píng)價(jià),那么就可以認(rèn)為此蛋白質(zhì)也通過了可信度評(píng)價(jià),具體實(shí)現(xiàn)方式與方法可行性還有待進(jìn)一步分析探索。

        猜你喜歡
        誘餌數(shù)目組學(xué)
        有機(jī)物“同分異構(gòu)體”數(shù)目的判斷方法
        險(xiǎn)惡之人
        雪花誘餌
        口腔代謝組學(xué)研究
        基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
        一種基于Radon-Wigner變換的拖曳式誘餌辨識(shí)方法
        《哲對(duì)寧諾爾》方劑數(shù)目統(tǒng)計(jì)研究
        牧場里的馬
        代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
        蛋白質(zhì)組學(xué)在結(jié)核桿菌研究中的應(yīng)用
        春色成人在线一区av| 一本色道久久爱88av| 精品深夜av无码一区二区| 日本中文字幕在线播放第1页| 国产一区二区在线观看我不卡| av网页免费在线观看| 国产精品久久久久高潮| 永久免费av无码网站性色av| 99久久亚洲国产高清观看| 久久婷婷综合激情亚洲狠狠| www国产亚洲精品久久麻豆| 一本色道久久综合亚洲精品不卡| 亚洲tv精品一区二区三区| 久久夜色精品国产三级| 国产三级a三级三级| 性动态图av无码专区| 99精品国产第一福利网站| 亚洲一区二区懂色av| 丰满少妇作爱视频免费观看 | 国产一区二区三区视频网| 狠狠做深爱婷婷久久综合一区| 国产91福利在线精品剧情尤物| 18禁成人免费av大片一区| 公和我做好爽添厨房| 国产精品免费大片| 亚洲欧美日韩在线中文一| 中文日本强暴人妻另类视频 | 精品一区二区av在线| 熟女少妇精品一区二区| 国产精品视频牛仔裤一区| 亚洲av一二三又爽又爽又色| 五月开心婷婷六月综合| 国产大陆亚洲精品国产| 国产成人综合日韩精品无| 日韩精品成人无码AV片| 国产成人AV无码精品无毒| av天堂手机一区在线| 中文字幕无码中文字幕有码| 欧美成年黄网站色视频| 日韩不卡无码三区| 亚洲高清一区二区三区在线播放|