亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法*

        2020-03-04 05:19:12楊増光
        計算機與數(shù)字工程 2020年1期
        關(guān)鍵詞:關(guān)鍵單詞文本

        楊増光

        (南京理工大學(xué) 南京 210094)

        1 引言

        眾所周知,蛋白質(zhì)(Protein)在細(xì)胞的組成和生物體的生命活動中扮演著極其重要的作用。但不同類型的蛋白質(zhì)對生物體的重要程度不盡相同,其中那些缺失后會導(dǎo)致生物體病變甚至死亡的蛋白質(zhì)被稱為關(guān)鍵蛋白質(zhì)(essential proteins),其余的則被稱為非關(guān)鍵蛋白質(zhì)(non-essential proteins)[1~3]。

        研究表明,關(guān)鍵蛋白質(zhì)的識別對于我們了解細(xì)胞的生長調(diào)控過程,研究生物進(jìn)化的相關(guān)機制,以及根據(jù)關(guān)鍵蛋白質(zhì)進(jìn)行藥物設(shè)計、藥物標(biāo)靶鑒定和疾病治療等方面具有著不可忽視的現(xiàn)實意義[4]。

        在生物學(xué)領(lǐng)域中,識別關(guān)鍵蛋白質(zhì)通常是采用生物醫(yī)學(xué)實驗的方式進(jìn)行的,這類方法雖然準(zhǔn)確,但是成本高、效率低,無法適用于日益增長的蛋白質(zhì)數(shù)據(jù)。隨著高通量技術(shù)的發(fā)展,越來越多的蛋白質(zhì)相互作用數(shù)據(jù)被獲取,這讓我們能夠從網(wǎng)絡(luò)水平上識別關(guān)鍵蛋白質(zhì)。

        目前,越來越多的研究人員將圖論、復(fù)雜網(wǎng)絡(luò)等相關(guān)知識應(yīng)用到蛋白質(zhì)網(wǎng)絡(luò)中,并提出多種有效的方法來識別關(guān)鍵蛋白質(zhì),其中常用的有8種具有代表性的算法:DC[5]、BC[6]、CC[7]、SC[8]、EC[9]、IC[10]、LAC[11]、NC[12]。這些算法雖然能夠有效地識別出關(guān)鍵蛋白質(zhì),但是由于這類算法容易受到網(wǎng)絡(luò)中假陰性和假陽性數(shù)據(jù)的影響且忽略了蛋白質(zhì)網(wǎng)絡(luò)蘊含的生物信息,因而它們的識別精度不高。

        本文,我們提出一種基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法Do-ECC,通過融合蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕镄畔?,能夠有效提高關(guān)鍵蛋白質(zhì)的識別準(zhǔn)確度。

        2 邊聚集系數(shù)

        為充分利用蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔?,首先需要尋找一個有效的拓?fù)涮卣鳌Q芯勘砻?,關(guān)鍵蛋白質(zhì)更可能和關(guān)鍵蛋白質(zhì)相連,并且成簇出現(xiàn),而非關(guān)鍵蛋白質(zhì)則表現(xiàn)稀疏,即關(guān)鍵蛋白質(zhì)在網(wǎng)絡(luò)中所處的位置相比于非關(guān)鍵蛋白質(zhì)擁有更高的連通度和模塊化程度[11~12]?;诖耍絹碓蕉嗟难芯咳藛T開始使用邊聚集系數(shù)作為描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮卣鱽黹_展自己的研究,實驗結(jié)果也表明,這一特征確實能夠更全面、更準(zhǔn)確地描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔ⅰ?/p>

        對網(wǎng)絡(luò)中的任一條邊,邊聚集系數(shù)被定義為該邊在網(wǎng)絡(luò)中實際參與構(gòu)成的三角形個數(shù)與該邊最多可能參與構(gòu)成的三角形個數(shù)之比。如對于邊E(u,v),其邊聚集系數(shù)可表示為

        其中zu,v表示網(wǎng)絡(luò)中該邊實際參與構(gòu)成的三角形的個數(shù),ku和kv分別表示節(jié)點u和v的度,則表示該邊最多可能參與構(gòu)成的三角形的個數(shù)。不難看出,邊聚集系數(shù)的取值介于0~1之間。對于任一條邊,其邊聚集系數(shù)越大,表明其參與網(wǎng)絡(luò)模塊結(jié)構(gòu)的比重越多,在網(wǎng)絡(luò)中所處位置的聚集程度也越高。

        3 蛋白質(zhì)結(jié)構(gòu)域特異性

        大多數(shù)蛋白質(zhì)通常是由一個或者多個功能區(qū)域組成,這些區(qū)域一般被稱為蛋白質(zhì)結(jié)構(gòu)域(Protein Domain),是蛋白質(zhì)結(jié)構(gòu)和功能的基本單位。而在自然界中,復(fù)雜的蛋白質(zhì)分子則是由這些結(jié)構(gòu)域通過不同的組合和重排形成的。研究表明,那些在生物體中出現(xiàn)頻率較少的結(jié)構(gòu)域?qū)τ谏矬w具有更加關(guān)鍵的作用;另一方面,包含較多結(jié)構(gòu)域的蛋白質(zhì)分子,通常執(zhí)行更多的生物功能,對正常的生命活動更加重要,也更有可能是關(guān)鍵蛋白質(zhì)[13]。

        3.1 TF-IDF算法

        在信息檢索、文本分類等相關(guān)領(lǐng)域,TF-IDF(Term Frequency-Inverse Document Frequency),即“詞頻-逆文本頻率”,是一種常用的加權(quán)技術(shù),用以評估一個單詞對于文本和語料庫的區(qū)分能力與重要程度。

        其中TF(Term Frequency),即詞頻,是指一個單詞在一個文本中出現(xiàn)的頻率,通常表示為這個單詞在文本中出現(xiàn)的次數(shù)和該文本包含的單詞的總數(shù)之比,即:

        其中,ni,j表示單詞i文本 j中出現(xiàn)的次數(shù),k表示文本 j包含的單詞類型的數(shù)目,則表示該文本包含的單詞的總數(shù)。

        IDF(Inverse Document Frequency),即逆文本頻率的概念,對于一個單詞,它是指整個語料庫中包含該單詞的文本的數(shù)量,通常表示為先計算語料庫的文本總數(shù)和包含該單詞的文本數(shù)之比,然后取對數(shù),即:

        而TF-IDF就是通過結(jié)合兩者,用來評估一個單詞對于文本和語料庫的區(qū)分能力與重要程度,通常表示為

        根據(jù)上述定義,可以發(fā)現(xiàn),一個單詞的重要性和區(qū)分能力隨著它在文本中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在整個語料庫中出現(xiàn)的頻率成反比下降。

        3.2 結(jié)構(gòu)域特異性

        借鑒TF-IDF算法的思想,我們對蛋白質(zhì)結(jié)構(gòu)域進(jìn)行重新審視。如果將每種類型的結(jié)構(gòu)域都當(dāng)作一個單詞,那么每條蛋白質(zhì)就相當(dāng)于一個文本文件,而整個生物體包含的所有蛋白質(zhì)就組成了一個語料庫。如圖1所示,如果將PF00270、PF00271等幾種結(jié)構(gòu)域視作一種單詞,則蛋白質(zhì)YER172C、YBL084C、YDL126C的“文本”組成可以表示如圖1所示。

        根據(jù)IDF的定義,本文提出了IPF(Inverse Protein Frequency)的概念,來描述蛋白質(zhì)結(jié)構(gòu)域的特異性,即由生物體包含的蛋白質(zhì)總數(shù)除以包含該結(jié)構(gòu)域的蛋白質(zhì)數(shù)目,再將得到的商數(shù)取對數(shù),如下所示:

        圖1 蛋白質(zhì)的結(jié)構(gòu)域組成示意圖

        同理,根據(jù)TF的定義,本文提出DF(Domain Frequency)的概念,指一個結(jié)構(gòu)域在一個蛋白質(zhì)分子中出現(xiàn)的頻率,表示為這個結(jié)構(gòu)域在特定蛋白質(zhì)分子中出現(xiàn)的次數(shù)和該蛋白質(zhì)包含的結(jié)構(gòu)域的總數(shù)之比,即:

        其中,nd,p表示蛋白質(zhì)結(jié)構(gòu)域d在蛋白質(zhì)分子 p中出現(xiàn)的頻次,k表示蛋白質(zhì)分子 p包含的結(jié)構(gòu)域種類數(shù),則表示蛋白質(zhì)分子 p包含的結(jié)構(gòu)域的總數(shù)。

        3.3 蛋白質(zhì)的結(jié)構(gòu)域特異性得分

        參照TF-IDF的定義,本文給出DF-IPF的概念。對于結(jié)構(gòu)域d,其特異性為IPFd,在蛋白質(zhì) p中出現(xiàn)的頻率為DFd,p,則它對應(yīng)的DF-IPF值可以表示如下:

        它可以用于描述一個結(jié)構(gòu)域d對蛋白質(zhì) p的重要程度,也可以用于度量蛋白質(zhì) p基于結(jié)構(gòu)域d獲得的特異性得分。而一個蛋白質(zhì)可能包含多種類型的結(jié)構(gòu)域,則其總的結(jié)構(gòu)域特異性得分可以表示為

        其中,k表示蛋白質(zhì) p包含的結(jié)構(gòu)域的種類。

        4 Do-ECC算法

        如上所述,邊聚集系數(shù)能夠描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔?,蛋白質(zhì)的結(jié)構(gòu)域特異性得分則反映了蛋白質(zhì)網(wǎng)絡(luò)蘊含的生物信息。本文,我們通過融合這兩種特征,提出一種新的關(guān)鍵蛋白質(zhì)識別算法Do-ECC。

        為方便介紹,首先對蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行建模,將其表示成一個無向圖G(V ,E ),如對于存在相互作用的兩個蛋白質(zhì)分子,可以將這兩個蛋白質(zhì)分別表示為節(jié)點u和v,而將它們間的相互作用表示邊E(u ,v )。

        根據(jù)上述定義,對于相互作用E(u ,v) ,其邊聚集系數(shù)可以表示為ECC(u ,v)。為能夠和結(jié)構(gòu)域信息進(jìn)行融合,需對ECC(u ,v)進(jìn)行歸一化處理,表示為

        其中,ECCMAX和ECCMIN分別表示所有相互作用的邊聚集系數(shù)的最大值和最小值。

        對于蛋白質(zhì)節(jié)點u,它的結(jié)構(gòu)域特異性得分可以表示為Spec()u,同樣需要進(jìn)行歸一化處理,表示為

        其中,SpecMAX和SpecMIN分別表示所有蛋白質(zhì)分子的結(jié)構(gòu)域特異性得分的最大值和最小值。同理,對于蛋白質(zhì)節(jié)點v,其歸一化處理后的結(jié)構(gòu)域特異性得分可以表示為SpecNORM()v。

        研究表明,蛋白質(zhì)的關(guān)鍵性和蛋白質(zhì)分子間的相互作用存在密切關(guān)系,因此我們可以通過相互作用的兩個蛋白質(zhì)的結(jié)構(gòu)域特異性計算出這條相互作用的特異性。如對相互作用E(u ,v) ,其結(jié)構(gòu)域特異性得分取決于它對應(yīng)的兩個蛋白質(zhì)分子u和v,可以表示為

        Do-ECC算法就是通過結(jié)合兩者來評估蛋白質(zhì)的關(guān)鍵性,如對蛋白質(zhì)節(jié)點u,其關(guān)鍵性得分可以表示為

        其中Nv是節(jié)點u的鄰居節(jié)點的集合,v是節(jié)點u的鄰居節(jié)點且v∈Nv。蛋白質(zhì)節(jié)點的關(guān)鍵性得分越高,越可能是關(guān)鍵蛋白質(zhì)。

        5 實驗

        5.1 實驗數(shù)據(jù)

        1)蛋白質(zhì)相互作用數(shù)據(jù)

        鑒于酵母的蛋白質(zhì)相互作用數(shù)據(jù)的相對完備性,本實驗選擇酵母作為研究對象。所用的蛋白質(zhì)相互作用數(shù)據(jù)是從DIP數(shù)據(jù)庫[14]下載獲得,采用的數(shù)據(jù)集版本是2017年2月5日更新的釀酒酵母的全部蛋白質(zhì)相互作用數(shù)據(jù)集。原始數(shù)據(jù)集中包含22977條蛋白質(zhì)相互作用,去除自連接和重復(fù)的相互作用后,共提取出22620條相互作用,包含5126個蛋白質(zhì)分子。

        2)蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)

        本實驗所用到的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)是從PFAM數(shù)據(jù)庫[15]中下載獲得的,采用的數(shù)據(jù)集版本是于2017年3月份更新的Pfam 31.0。因為在PFAM數(shù)據(jù)庫中,有兩種不同質(zhì)量水平的結(jié)構(gòu)域序列數(shù)據(jù):Pfam-A系列和Pfam-B系列。其中,Pfam-A系列的數(shù)據(jù)質(zhì)量水平較高,而Pfam-B系列的數(shù)據(jù)未經(jīng)注釋過且質(zhì)量水平也較低,因此,本實驗僅僅提取酵母的Pfam-A系列的結(jié)構(gòu)域序列數(shù)據(jù)。在實驗中,我們通過在PFAM數(shù)據(jù)庫中下載獲取到swisspfam.gz文件,經(jīng)過預(yù)處理后,提取出具有已知的結(jié)構(gòu)域信息的蛋白質(zhì)共4174個,包含了2829種結(jié)構(gòu)域,而剩余的952個蛋白質(zhì)則認(rèn)為沒有已知的結(jié)構(gòu)域信息。

        3)已知的關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)

        通過實驗得到的候選關(guān)鍵蛋白質(zhì)需要和目前已知的關(guān)鍵蛋白質(zhì)數(shù)據(jù)進(jìn)行比對,進(jìn)而分析實驗方法的有效性和準(zhǔn)確率。本實驗所選用的已知關(guān)鍵蛋白質(zhì)數(shù)據(jù)是通過整合數(shù)據(jù)庫 SGD[16]、DEG[17]和SGDP[18]中的酵母的關(guān)鍵蛋白質(zhì)信息數(shù)據(jù)得來。最后整合得到的釀酒酵母的關(guān)鍵蛋白質(zhì)1299個,非關(guān)鍵蛋白質(zhì)4982個。將從DIP數(shù)據(jù)庫中獲取的酵母的5126個蛋白質(zhì)分子與已知關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)數(shù)據(jù)對比后,我們發(fā)現(xiàn)可以將5126個蛋白質(zhì)分子分為3類:關(guān)鍵蛋白質(zhì)、非關(guān)鍵蛋白質(zhì)和關(guān)鍵性未知的蛋白質(zhì),其中含有關(guān)鍵蛋白質(zhì)1159個,非關(guān)鍵蛋白質(zhì)3612個,關(guān)鍵性未知的蛋白質(zhì)355個。在實驗過程中,我們將關(guān)鍵性未知的蛋白質(zhì)歸為非關(guān)鍵蛋白質(zhì)一類。

        5.2 評價指標(biāo)

        通常來講可以將關(guān)鍵蛋白質(zhì)的識別問題當(dāng)作非監(jiān)督的分類問題,然后采用統(tǒng)計學(xué)中常用的“排序-篩選”的方法對不同的關(guān)鍵蛋白質(zhì)識別算法的實驗結(jié)果進(jìn)行比較和分析[19]。針對本實驗,“排序-篩選”方法的具體過程如圖2所示。

        除此之外,為更加有效地對各個算法的實驗結(jié)果進(jìn)行評估,還可以使用6種常用的測量指標(biāo),包括敏感度(Sensitivity,SN)、特異性(Specificity,SP)、F-測度(F-measure)、正確率(Accuracy,ACC)、陽性預(yù)測值(Positive Predictive Value,PPV)和陰性預(yù)測值(Negative Predictive Value,NPV)。在詳細(xì)分析這幾種指標(biāo)之前,首先需要了解表1中介紹的幾個概念。

        圖2 排序-篩選的流程

        表1 相關(guān)概念簡介

        基于表1中介紹的四個基本概念,這6種常用的檢測指標(biāo)定義如下:

        5.3 實驗結(jié)果與分析

        按照“排序-篩選”的方法,我們首先計算出5126個蛋白質(zhì)節(jié)點在上述各個算法下的測度參數(shù)并根據(jù)測度值按降序排序,然后分別挑選前1%、5%、10%、15%、20%以及25%的部分作為候選的關(guān)鍵蛋白質(zhì),最后將其和已知的鍵蛋白質(zhì)數(shù)據(jù)進(jìn)行對比,得出各個算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目,如表2所示。

        由表2展示的實驗結(jié)果,可以發(fā)現(xiàn),Do-ECC算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目在各個范圍內(nèi)均顯著多于其他8種算法。

        為更加細(xì)致地比較各個算法識別關(guān)鍵蛋白質(zhì)的效果,進(jìn)一步使用SN、SP、F、ACC、PPV和NPV對它們的實驗結(jié)果進(jìn)行評估比較,如表3所示。

        表2 九種算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目

        表3 九種算法在6種常用檢驗指標(biāo)下的實驗結(jié)果

        由表3不難看出,Do-ECC算法在SN、SP等6種指標(biāo)下的得分均高于其他8種基于蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮卣鞯乃惴ā?/p>

        6 結(jié)語

        本文使用邊聚集系數(shù)刻畫蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮卣鳎⒔梃bTF-IDF算法的思想,提出蛋白質(zhì)結(jié)構(gòu)域特異性的概念,然后融合蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕镄畔?,提出一種基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法Do-ECC,最后通過實驗驗證了所提蛋白質(zhì)結(jié)構(gòu)域特異性和Do-ECC的有效性。

        猜你喜歡
        關(guān)鍵單詞文本
        高考考好是關(guān)鍵
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        生意無大小,關(guān)鍵是怎么做?
        中國商人(2013年1期)2013-12-04 08:52:52
        色爱区综合五月激情| 三区中文字幕在线观看| 国产精品情侣呻吟对白视频| 超碰97资源站| 国内精品视频一区二区三区| 麻豆国产成人AV网| 色噜噜亚洲精品中文字幕| 亚洲人成人无码www| 无码人妻av一区二区三区蜜臀| 国产一极毛片| 无码a∨高潮抽搐流白浆| 人妻久久999精品1024| 日本一区二区三区资源视频| 在线观看国产白浆一区三区| 久久精品国产91精品亚洲| 大胸少妇午夜三级| 国产一区二区三区av在线无码观看 | 色狠狠一区二区三区香蕉| 麻豆国产av尤物网站尤物| 亚洲av乱码一区二区三区观影| 中国男男女在线免费av| 国产七十六+老熟妇| 亚洲爱婷婷色婷婷五月| av少妇偷窃癖在线观看| 中文字幕日本五十路熟女| 国产亚洲一区二区在线观看| 97无码免费人妻超级碰碰夜夜| 国产亚洲日韩欧美一区二区三区| 黄色录像成人播放免费99网| 国产亚洲专区一区二区| 未发育成型小奶头毛片av| 中国丰满熟妇av| 人妖精品视频在线观看| 日韩十八禁在线观看视频| 日韩在线观看入口一二三四| 精品无码久久久久久国产| 久久精品国产亚洲av瑜伽| 国产亚洲精品综合99久久| 日韩高清不卡一区二区三区| 内射人妻视频国内| 乱子真实露脸刺激对白|