亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征圖網(wǎng)絡(luò)和多種生物信息預(yù)測關(guān)鍵蛋白質(zhì)的深度學(xué)習(xí)框架

        2024-06-16 00:00:00劉桂霞曹心恬趙賀

        摘要: 針對生物實(shí)驗(yàn)識別關(guān)鍵蛋白質(zhì)費(fèi)時(shí)費(fèi)力, 使用計(jì)算方法預(yù)測關(guān)鍵蛋白質(zhì)無法有效整合生物信息的問題

        , 提出一個(gè)深度學(xué)習(xí)框架. 首先利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、 基因表達(dá)數(shù)據(jù)和GO(gene ontology)注釋數(shù)據(jù)構(gòu)建加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò); 然后分別使用特征圖網(wǎng)絡(luò)和雙向長短期記憶細(xì)胞從亞細(xì)胞

        定位數(shù)據(jù)、 蛋白質(zhì)復(fù)合物數(shù)據(jù)和基因表達(dá)數(shù)據(jù)中提取特征向量; 最后將這些特征向量輸入到任務(wù)學(xué)習(xí)層預(yù)測關(guān)鍵蛋白質(zhì). 實(shí)驗(yàn)結(jié)果表明, 相比于現(xiàn)有的計(jì)算方法, 該方法預(yù)測性能更好.

        關(guān)鍵詞: 關(guān)鍵蛋白質(zhì); 特征圖網(wǎng)絡(luò); 亞細(xì)胞定位; 基因表達(dá); GO注釋; 蛋白質(zhì)復(fù)合物

        中圖分類號: TP391" 文獻(xiàn)標(biāo)志碼: A" 文章編號: 1671-5489(2024)03-0593-13

        Deep Learning Framework for Predicting Essential" Proteins Based onFeature Graph Network and Multiple Biological Information

        LIU Guixia, CAO Xintian, ZHAO He

        (Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,

        College of Computer Science and Technology, Jilin University, Changchun 130012, China)

        Abstract: Aiming at the problem that" identifying" essential proteins in" biological experiments was time-consuming and laborious, and using

        computational methods to predict essential proteins could not effectively" integrate biological information," we proposed" a deep learning framework. Firstly, a weighted protein

        interaction network was constructed by using network topology structure, gene expression data and gene ontology (GO) annotated data.

        Secondly, feature vectors were extracted from subcellular localization data, protein complex data and gene expression data by using feature graph network and bi-directional long short-t

        erm memory cells, respectively. Finally," these feature vectors were input into the task learning layer to predict essential proteins. The experimental results show that, compared with" existing

        computational methods, the proposed method has better predictive performance.

        Keywords: essential protein; feature graph network; subcellular localization; gene expression; GO annotation; protein complex

        收稿日期: 2023-06-06.

        第一作者簡介: 劉桂霞(1963—), 女, 漢族, 博士, 教授, 博士生導(dǎo)師, 從事機(jī)器學(xué)習(xí)和計(jì)算生物學(xué)的研究, E-mail: liugx@jlu.edu.cn.

        基金項(xiàng)目: 國家自然科學(xué)基金(批準(zhǔn)號: 62372208; 61772226)和吉林省科技發(fā)展規(guī)劃重點(diǎn)項(xiàng)目(批準(zhǔn)號: 20210204133YY).

        關(guān)鍵蛋白質(zhì)對許多生命過程至關(guān)重要, 預(yù)測關(guān)鍵蛋白質(zhì)對理解生物功能、 識別致病基因和藥物發(fā)現(xiàn)有重大意義[1]. 目前, 鑒定關(guān)鍵蛋白質(zhì)的生物方法主要是利用RNA

        (ribonucleic acid)干擾[2]、 條件性敲除[3]和單基因敲除[4]等實(shí)驗(yàn)方式, 但這些方法既費(fèi)時(shí)又費(fèi)力. 隨著高通量技術(shù)的快速發(fā)展, 積累了大量的生物數(shù)據(jù), 為計(jì)算方法提供了技術(shù)支持.

        目前的計(jì)算方法主要分為以下兩類: 基于復(fù)雜網(wǎng)絡(luò)的方法和基于機(jī)器學(xué)習(xí)的方法. 基于復(fù)雜網(wǎng)絡(luò)的方法起源于Jeong等[5]提出的中心性原則, 即一個(gè)蛋白質(zhì)在蛋白質(zhì)相互作用(

        protein-protein interaction, PPI)網(wǎng)絡(luò)中的拓?fù)溥B接越緊密, 它就越關(guān)鍵. 受此啟發(fā), 研究人員使用PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)識別關(guān)鍵蛋白質(zhì), 如度中心性(degree centrality, DC

        )、 介數(shù)中心性(betweenness centrality, BC)、 局部平均連通性(local average connectivity, LAC)[6]和局部相互作用密度(local interaction density, LID)

        [7]等. 但這些方法忽略了關(guān)鍵蛋白質(zhì)固有的生物學(xué)特征影響, 因此研究人員考慮結(jié)合不同的生物學(xué)數(shù)據(jù)發(fā)現(xiàn)關(guān)鍵蛋白質(zhì). PeC[8]和WDC[9]方法將PP

        I網(wǎng)絡(luò)與基因表達(dá)數(shù)據(jù)相結(jié)合, 以提高關(guān)鍵蛋白質(zhì)的識別準(zhǔn)確率. Lei等[10]提出了基于亞細(xì)胞定位數(shù)據(jù)、 RNA-Seq數(shù)據(jù)和GO(gene ontology)注釋數(shù)據(jù)

        的關(guān)鍵蛋白預(yù)測方法RSG. 文獻(xiàn)[11]提出了一種基于PPI網(wǎng)絡(luò)的局部密度、 BC以及蛋白質(zhì)復(fù)合物中的度中心性(in-degree centrality of complex, IDC)的線性組合新方法LBCC.

        目前, 已提出了許多預(yù)測關(guān)鍵蛋白質(zhì)的傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)框架. 機(jī)器學(xué)習(xí)方法遵循以下步驟預(yù)測關(guān)鍵蛋白質(zhì): 選擇代表性特征, 構(gòu)建訓(xùn)練集和測試集, 選擇

        合適的算法或框架, 最后評估性能. 樸素Bayes、 隨機(jī)森林、 支持向量機(jī)(support vector machine, SVM)、 Adaboost、 決策樹和邏輯回歸屬于識別關(guān)鍵蛋白質(zhì)的傳統(tǒng)機(jī)器學(xué)習(xí)

        方法. DeepEP是由Zeng等[12]提出的一個(gè)深度學(xué)習(xí)框架, 利用多尺度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)從基因表達(dá)數(shù)據(jù)中提取生物特征, 采用node2ve

        c[13]從PPI網(wǎng)絡(luò)中學(xué)習(xí)拓?fù)涮卣鳎?然后將它們拼接預(yù)測關(guān)鍵蛋白質(zhì). DeepEP還采用了一種抽樣策略減輕不平衡學(xué)習(xí)的影響. Zeng等[14]考慮到基因表達(dá)數(shù)據(jù)的順

        序?qū)傩裕?還提出了一個(gè)深度學(xué)習(xí)的框架, 它利用雙向長短期記憶細(xì)胞(bi-directional long short-term memory, BiLSTM)[15]捕捉其特征, 也采用node2vec從PPI網(wǎng)絡(luò)

        中學(xué)習(xí)拓?fù)涮卣鳎?但增加了對亞細(xì)胞定位數(shù)據(jù)的利用. Yue等[16]提出了一種深度學(xué)習(xí)方法, 將node2vec提取的PPI網(wǎng)絡(luò)拓?fù)涮卣鳌?亞細(xì)胞定位數(shù)據(jù)和基因表達(dá)數(shù)據(jù)相結(jié)合

        , 該方法將深度可分離卷積的概念應(yīng)用于基因表達(dá)數(shù)據(jù), 以在不同的實(shí)驗(yàn)設(shè)置中隨時(shí)間提取特征. DeepCellEss[17]是一種基于序列的可解釋性深度學(xué)習(xí)框架, 利

        用CNN和BiLSTM從蛋白質(zhì)序列中學(xué)習(xí)潛在信息, 使用多頭自注意力機(jī)制提供殘差級的模型

        可解釋性, 用于細(xì)胞系特異性關(guān)鍵蛋白質(zhì)預(yù)測. CTF[18]基于h-quasi-cliques和uv-triangle圖等邊緣特征以及多源信息識別關(guān)鍵蛋白質(zhì).

        雖然上述方法效果良好, 但仍存在一些缺點(diǎn): 1) 實(shí)驗(yàn)數(shù)據(jù)問題, 實(shí)驗(yàn)方法得到的PPI網(wǎng)絡(luò)數(shù)據(jù)中存在假陰性和假陽性的問題; 2) 實(shí)驗(yàn)方法問題, 基于復(fù)雜網(wǎng)絡(luò)的方法通過設(shè)計(jì)一

        個(gè)函數(shù)計(jì)算中心性指標(biāo), 用其評估一個(gè)蛋白質(zhì)的重要性, 但研究人員很難設(shè)計(jì)一個(gè)好的計(jì)算函數(shù), 因?yàn)樾枰罅康南闰?yàn)知識. 計(jì)算函數(shù)只產(chǎn)生標(biāo)量, 易受PPI網(wǎng)絡(luò)中噪聲的干擾, 并且PPI網(wǎng)絡(luò)非常復(fù)

        雜, 標(biāo)量不能充分描述PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息. 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法依賴于人工選擇

        特征. 特征的代表性越強(qiáng), 這些方法的預(yù)測效果越好. 在現(xiàn)有的深度學(xué)習(xí)框架中, PPI網(wǎng)絡(luò)中蛋白質(zhì)之間的拓?fù)鋵傩詻]有得到充分利用, 主要體現(xiàn)在node2vec提取的特征中.

        為解決上述問題, 進(jìn)一步提高關(guān)鍵蛋白質(zhì)的預(yù)測精度, 本文提出一個(gè)基于特征圖網(wǎng)絡(luò)(feature graph network, FGN)和多種生物信息預(yù)測關(guān)鍵蛋白質(zhì)的深度學(xué)習(xí)框架. 在酵母菌數(shù)

        據(jù)集BioGRID和DIP上的對比實(shí)驗(yàn)結(jié)果表明, 本文方法優(yōu)于目前主流的基于復(fù)雜網(wǎng)絡(luò)方法和機(jī)器學(xué)習(xí)方法. 消融實(shí)驗(yàn)結(jié)果表明, FGN[19]和亞細(xì)胞定位數(shù)據(jù)的使用顯著提高了關(guān)

        鍵蛋白質(zhì)的預(yù)測性能, 蛋白質(zhì)復(fù)合物數(shù)據(jù)也有助于提高預(yù)測效果. 通過給PPI網(wǎng)絡(luò)加權(quán), 能降低數(shù)據(jù)中噪聲的影響, 豐富PPI網(wǎng)絡(luò)的邊緣信息, 從而進(jìn)一步提高本文提出的深度學(xué)習(xí)框架的性能.

        1" 算法設(shè)計(jì)

        本文提出一個(gè)預(yù)測關(guān)鍵蛋白質(zhì)的深度學(xué)習(xí)框架, 其主要思想如下.

        1) 基于PPI網(wǎng)絡(luò)拓?fù)涮卣鳌?基因表達(dá)數(shù)據(jù)和GO注釋數(shù)據(jù)構(gòu)建加權(quán)PPI網(wǎng)絡(luò), 以減小PPI網(wǎng)絡(luò)中噪聲數(shù)據(jù)的影響, 并豐富PPI網(wǎng)絡(luò)的邊緣信息.

        2) 本文提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示, 包含兩部分. 上半部分先從亞細(xì)胞定位數(shù)據(jù)和蛋白質(zhì)復(fù)合物數(shù)據(jù)中分別提取一個(gè)初始特征向量, 再分別接入一個(gè)輸出維度為1 024的全連接層

        和激活層, 以進(jìn)一步提取特征. 將得到的兩個(gè)1 024維的特征向量拼接, 形成一個(gè)1 024×2的特征向量, 輸入到兩層的FGN中, 以學(xué)習(xí)更豐富的節(jié)點(diǎn)表示. 從每個(gè)FGN層輸出后,

        再先后輸入到批量歸一化(batch normalization, BN)層、 激活層和Dropout(隨機(jī)失活)層, 以防止過擬合, 從而提高網(wǎng)絡(luò)的泛化能力. FGN通過將邊緣信息(PPI網(wǎng)絡(luò)中蛋白質(zhì)之

        間相連的邊)編碼到特征鄰接矩陣中, 從而能更好地保存利用邊緣信息.

        3) 網(wǎng)絡(luò)結(jié)構(gòu)的下半部分利用BiLSTM從基因表達(dá)數(shù)據(jù)中提取特征向量, 以捕捉蛋白質(zhì)隨時(shí)間變化的表達(dá)狀態(tài). 本文使用的基因表達(dá)數(shù)據(jù)集有3個(gè)連續(xù)的代謝周期, 一個(gè)周期中有12個(gè)時(shí)

        間點(diǎn), 其中每個(gè)蛋白質(zhì)(例如Gi)對應(yīng)一個(gè)36維的基因表達(dá)數(shù)據(jù), Tj表示第j個(gè)時(shí)間點(diǎn).

        4) 拼接上述所有的特征向量, 并將其輸入到任務(wù)分類層(即一層全連接層)預(yù)測關(guān)鍵蛋白質(zhì), 是一個(gè)二分類任務(wù). 由于關(guān)鍵蛋白質(zhì)的比例較小, 因此本文采用抽樣方法緩解不平衡學(xué)習(xí)的問題.

        1.1" 構(gòu)建加權(quán)的PPI網(wǎng)絡(luò)

        PPI網(wǎng)絡(luò)通常被抽象為無向無權(quán)圖G(V,E), 其中V表示蛋白質(zhì)的集合, E表示蛋白質(zhì)-蛋白質(zhì)相互作用的集合. 生物實(shí)驗(yàn)獲得的PPI網(wǎng)絡(luò)中, 蛋白質(zhì)之間的相互作用通常被認(rèn)為是等價(jià)的,

        并被賦予相同的權(quán)重. 但現(xiàn)有的PPI網(wǎng)絡(luò)數(shù)據(jù)集中通常存在噪聲, 對預(yù)測性能產(chǎn)生不利影響. 根據(jù)蛋白質(zhì)相互作用的強(qiáng)度為其分配不同的權(quán)重, 能減少噪聲數(shù)據(jù)的影響, 并豐富PP

        I網(wǎng)絡(luò)的邊緣信息, 從而有利于發(fā)現(xiàn)關(guān)鍵蛋白質(zhì). 本文采用Pearson相關(guān)系數(shù)(Pearson correlation coefficient, PCC)[20]、 GO語義相似度(GO semantic similarity, G

        SS)[21]和邊緣聚集系數(shù)(edge clustering coefficient, ECC)[22]衡量蛋白質(zhì)之間的相互作用強(qiáng)度.

        關(guān)鍵蛋白質(zhì)常會相互作用, 因此, 本文通過計(jì)算蛋白質(zhì)對應(yīng)的基因表達(dá)數(shù)據(jù)的PCC評估兩個(gè)蛋白質(zhì)相互作用的強(qiáng)度. 蛋白質(zhì)i和j的PCC計(jì)算公式如下:

        PCCij=∑nk=1(xk-vi)(yk-vj)∑nk=1(xk-vi

        )2∑nk=1(yk-vj)2,(1)

        其中vi=(x1,x2,…,xn)和vj=(y1,y2,…,yn)是蛋白質(zhì)i和j在n個(gè)時(shí)間點(diǎn)上的基因表達(dá)值, vi和

        vj分別是其平均值. 由于PCC的取值范圍是[-1,1], 所以本文用(PCC+1)/2替代上述定義的PCC, 使

        其取值范圍為[0,1]. PCC值越大, 兩個(gè)蛋白質(zhì)的相互作用越強(qiáng).

        一般使用GSS評估蛋白質(zhì)對的功能相似性. 由于GO術(shù)語代表了基因的功能特征, 所以蛋白質(zhì)i和j共同的GO術(shù)語越多, 它們的功能越相似. 蛋白質(zhì)i和j的GSS計(jì)算公式如下:

        GSSij=GOi∩GOj

        2GOi×GOj,GOigt;0," GOjgt;0,0,其他,(2)

        其中GOi和GOj分別表示蛋白質(zhì)i和j的GO術(shù)語集合.本文使用ECC衡量兩個(gè)蛋白質(zhì)在網(wǎng)絡(luò)結(jié)構(gòu)上的相似程度. ECC值越高, 說明這兩個(gè)

        蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)越相似, 它們之間的相互作用越強(qiáng). 蛋白質(zhì)i和j的ECC計(jì)算公式如下:

        ECCij=Ni∩Njmin{Ni-1,Nj-1},

        Nigt;1," Njgt;1,0,其他,(3)

        其中Ni和Nj分別表示蛋白質(zhì)i和j的直接鄰居節(jié)點(diǎn)集, Ni∩Nj表示蛋白質(zhì)i和j的公共鄰居集合. 式(3)表明, 兩個(gè)蛋白質(zhì)的公共鄰居越多, ECC值越高, 表示兩個(gè)

        蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)越相似.

        最后, 利用Wij=ECCij×(GSSij+PCCij)(4)

        對蛋白質(zhì)i和j的邊進(jìn)行加權(quán)[23].

        1.2" 亞細(xì)胞定位特征向量

        在機(jī)器學(xué)習(xí)方法中, 亞細(xì)胞定位數(shù)據(jù)經(jīng)常用于構(gòu)建特征向量. 文獻(xiàn)[14]的方法使用11種亞細(xì)胞定位構(gòu)建特征向量. 但如果在本文的PPI網(wǎng)絡(luò)中使用上述方法, 某些蛋白

        質(zhì)并不存在于11種亞細(xì)胞定位中的任何一種, 因此它們的特征向量為0. 為使更多的特征向量非0并充分利用亞細(xì)胞定位信息, 本文利用COMPARTMENTS數(shù)據(jù)庫[24]中集成

        通道所提供的所有亞細(xì)胞定位.

        對于蛋白質(zhì)i和亞細(xì)胞定位L, COMPARTMENTS數(shù)據(jù)庫為亞細(xì)胞定位-蛋白質(zhì)對L\|i提供了最終的置信度wL\|i. 置信度可表明亞細(xì)胞定位類型和來源的可靠性. 置信度越高, 亞細(xì)胞定位

        -蛋白質(zhì)對的關(guān)系越可靠. 一種蛋白質(zhì)會出現(xiàn)在多種不同的亞細(xì)胞定位中, 一種亞細(xì)胞定位也會包含多種不同的蛋白質(zhì). 亞細(xì)胞定位L的分?jǐn)?shù)NL定義為包含的蛋白質(zhì)數(shù)量. 對NL

        進(jìn)行歸一化處理, 使其取值范圍為[0,1], 歸一化處理表示為

        NL=NL-minmax-min,(5)

        其中min和max分別表示所有亞細(xì)胞定位分?jǐn)?shù)中的最小值和最大值. 本文將蛋白質(zhì)i的亞細(xì)胞定位信息編碼成一個(gè)一維向量Yi=(y1\|i,y2\|i,…,

        yL\|i,…), 其中yL\|i是L\|i對應(yīng)的最終分?jǐn)?shù), 計(jì)算公式如下:

        yL\|i=NL×wL\|i,(6)

        1.3" 蛋白質(zhì)復(fù)合物特征向量

        蛋白質(zhì)在同一時(shí)間和地點(diǎn)共同發(fā)揮作用形成蛋白質(zhì)復(fù)合物. 在眾多復(fù)合物中發(fā)現(xiàn)的蛋白質(zhì)可能是關(guān)鍵的, 因此蛋白質(zhì)復(fù)合物有利于預(yù)測關(guān)鍵蛋白質(zhì). 在本文的深度學(xué)習(xí)框架中, 利

        用蛋白質(zhì)復(fù)合物構(gòu)建特征向量, 以預(yù)測關(guān)鍵蛋白質(zhì).

        將蛋白質(zhì)i的蛋白復(fù)合物信息編碼成一個(gè)一維向量Zi=(z1,z2,…,zg,…), 其中g(shù)表示一種類型的蛋白復(fù)合物. 若蛋白質(zhì)i屬于蛋白質(zhì)復(fù)合物g, 則zg=1, 否則zg=0.

        本文將每個(gè)蛋白質(zhì)對應(yīng)的亞細(xì)胞定位特征向量和蛋白質(zhì)復(fù)合物特征向量分別接入一個(gè)輸出維度為1 024的全連接層和激活層, 以進(jìn)一步提取特征. 將得到的兩個(gè)1 024維的特征向量拼

        接, 形成一個(gè)1 024×2維的特征向量. 此時(shí)一個(gè)蛋白質(zhì)對應(yīng)一個(gè)1 024×2維的特征向量, 將其輸入到兩層的FGN中, 以學(xué)習(xí)更豐富的節(jié)點(diǎn)表示.

        1.4" 特征圖網(wǎng)絡(luò)

        文獻(xiàn)[19]提出了特征圖網(wǎng)絡(luò), 它能直接對特征“交互”進(jìn)行建模. 本文給PPI網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)都賦予一個(gè)初始特征向量, 由于特征向量通過節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)進(jìn)行交互, 因此對

        特征“交互”進(jìn)行建模能更好地保存并利用節(jié)點(diǎn)的邊緣信息, 從而提高關(guān)鍵蛋白質(zhì)的預(yù)測性能.

        1.4.1" 特征圖

        在無向圖G(V,E)中, 每個(gè)節(jié)點(diǎn)v都對應(yīng)一個(gè)特征向量X=(x1,…,xi,…,x

        F)T, 其中F是維度. 特征圖Q對應(yīng)于v, 將v的特征向量的分量作為節(jié)點(diǎn)特征, 即x1,…,xi,…,

        xF分別是Q中的節(jié)點(diǎn)1,…,i,…,F(xiàn)的特征向量, 并且表示Q共有F個(gè)節(jié)點(diǎn). Q可以描述為GQF=(VF,EF), 其中每個(gè)節(jié)點(diǎn)vFi∈VF對應(yīng)于特征向量xi

        , 如圖2所示." 如果X是一維向量, 則xi就是標(biāo)量; 如果X是

        多通道向量, 則xi就是一維向量.

        PPI網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)都對應(yīng)一個(gè)特征圖. 本文將1 024×2維的特征向量輸入到兩層FGN中, 則對于PPI網(wǎng)絡(luò)中的特征圖, 其節(jié)點(diǎn)數(shù)即為1 024, 特征維度即為2.

        1.4.2" 特征鄰接矩陣

        特征鄰接矩陣AFc對應(yīng)于節(jié)點(diǎn)v的特征圖GQF, 其對應(yīng)的特征向量為X=(x1,…,xi,…

        ,xF)T. 節(jié)點(diǎn)v與其直接鄰居N(v)之間的邊表明他們的特征之間存在關(guān)聯(lián)性. FGN將v和N(v)上的相關(guān)性建模為特征鄰接

        矩陣, 并對多個(gè)通道中的每個(gè)通道c獨(dú)立建模, c=1,2,…,C. 特征鄰接矩陣AFc(x)定義為

        AFc(x)sgnroot(Ey~N(v)[wy(x[∶,c]yT[∶

        ,c]+y[∶,c]xT[∶,c])]),(7)

        Ey~N(v)[wy(x[∶,c]yT[∶,c]+y[∶,c]

        xT[∶,c])]=∑y∈N(v)wy(x[∶,c]yT[∶,c]+y[∶,c]xT[∶,c])N(v),(8)

        其中sgnroot(x)=sign(x)x, y為v的直接鄰居, y為對應(yīng)的特征向量, x為節(jié)點(diǎn)v對應(yīng)的特征向量, x[∶,c]為xc(見圖2), wy為對應(yīng)邊的權(quán)重. AFc是通過式

        (7)從鄰域樣本動態(tài)獨(dú)立構(gòu)建的, 將PPI網(wǎng)絡(luò)中的連通信息(蛋白質(zhì)之間的連接以及權(quán)重)編碼到特征鄰接矩陣中. 對于每個(gè)節(jié)點(diǎn)v, 將生成C個(gè)大小為F×F的特征鄰接矩陣.

        1.4.3" 特征圖層

        特征圖層會改變GQF中節(jié)點(diǎn)的數(shù)量, 所以需要基于轉(zhuǎn)變后的鄰居重新計(jì)算AFc(x). 特征圖網(wǎng)絡(luò)第l層的定義和轉(zhuǎn)換公式如下:

        AF(l)(x)AF(x(l),y(l))," y∈N(v),(9)

        xF(l+1)=σ(WF·F(l)(x)·xF(

        l)),(10)yF(l+1)=σ(WF·

        F(l)(x)·yF(l)),(11)

        其中WF∈

        瘙 綆 F(l+1)×F(l)為可學(xué)習(xí)參數(shù), σ(·)為非線性激活函數(shù), F(l)(x)

        瘙 綆 F(l)×F(l)為AF(l)(x)的歸一化. 在式(9)~式(11)中省略了通道c, 每個(gè)通道獨(dú)立轉(zhuǎn)換.

        上述內(nèi)容每個(gè)節(jié)點(diǎn)v只考慮了直接鄰居, 為使節(jié)點(diǎn)v考慮的節(jié)點(diǎn)更豐富, 使特征圖網(wǎng)絡(luò)能更好地學(xué)習(xí)節(jié)點(diǎn)表示, 本文將引入top-k intimacy.

        1.4.4" top-k intimacy

        對于圖親密度矩陣S∈

        瘙 綆 V×V, 其中V表示無向圖的節(jié)點(diǎn)個(gè)數(shù), S(i,j)表示節(jié)

        點(diǎn)vi和vj之間的親密度[25]. 目前, 存在不同的指標(biāo)衡量圖中節(jié)點(diǎn)之間的親密度, 如Pagerank算法,Adamic/Adar,Katz等. Jaccard系數(shù)[26]是一種衡量兩個(gè)集合之間相似

        度的方法, 本文定義基于Jaccard系數(shù)的圖親密度矩陣S. 節(jié)點(diǎn)vi和vj之間的Jaccard系數(shù), 即S(i,j)定義為

        S(i,j)=Ni∩NjNi∪Nj,(12)

        其中Ni和Nj分別表示節(jié)點(diǎn)vi和vj的鄰居節(jié)點(diǎn)集合. 對于節(jié)點(diǎn)vi, 定義親密節(jié)點(diǎn)集合為Γ(vi)={vj

        vj∈V\{vi}∧S(i,j)≥θi}, 對S(i,∶)從大到小排序, 第k個(gè)值為θi. 對于節(jié)點(diǎn)v, 用Γ(v)∪N(v)代替1.4.2中的N(v

        ). 本文中k=10, 表示特征圖網(wǎng)絡(luò)將從節(jié)點(diǎn)v的直接鄰居和前10個(gè)親密節(jié)點(diǎn)中學(xué)習(xí)節(jié)點(diǎn)v的特征向量, 從而預(yù)測關(guān)鍵蛋白質(zhì).

        1.5" 基因表達(dá)特征向量

        蛋白質(zhì)是基因表達(dá)的產(chǎn)物, 文獻(xiàn)[8]研究表明, 利用基因表達(dá)數(shù)據(jù)可提高識別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率. 本文采用的基因表達(dá)數(shù)據(jù)存在時(shí)間上的順序關(guān)系, 考慮到BiLSTM

        應(yīng)用在序列數(shù)據(jù)中效果較好, 所以采用BiLSTM從基因表達(dá)數(shù)據(jù)中捕捉蛋白質(zhì)隨時(shí)間變化的表達(dá)狀態(tài), 得到基因表達(dá)特征向量.

        BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)模型由兩個(gè)獨(dú)立的LSTM構(gòu)成, 基因表達(dá)數(shù)據(jù)分別以正序和逆序輸入到兩個(gè)LSTM網(wǎng)絡(luò)中進(jìn)行特征提取, 輸出向量拼接后形成最終的特征向量. 因此, BiLSTM模型中每

        個(gè)時(shí)間步的輸出都取決于過去和未來的數(shù)據(jù).

        2" 實(shí)驗(yàn)結(jié)果與分析

        2.1" 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)采用酵母菌數(shù)據(jù)集, 包括PPI網(wǎng)絡(luò)數(shù)據(jù)集、 關(guān)鍵蛋白質(zhì)數(shù)據(jù)集、 基因表達(dá)數(shù)據(jù)集、 亞細(xì)胞定位數(shù)據(jù)集、 GO注釋數(shù)據(jù)集和蛋白質(zhì)復(fù)合物數(shù)據(jù)集.

        為評估本文方法在預(yù)測關(guān)鍵蛋白質(zhì)方面的性能, 選擇兩種不同的PPI網(wǎng)絡(luò): BioGRID和DIP. 關(guān)鍵蛋白質(zhì)數(shù)據(jù)是從MIPS,SGD,DEG和SGDP數(shù)據(jù)庫中收集的, 預(yù)處理后包含1 285種關(guān)鍵蛋白質(zhì).

        基因表達(dá)數(shù)據(jù)集來自數(shù)據(jù)庫GEO(登錄號: GSE3431). 該數(shù)據(jù)集包含了7 134個(gè)基因表達(dá)數(shù)據(jù), 每個(gè)基因表達(dá)數(shù)據(jù)有3個(gè)連續(xù)的代謝周期, 每個(gè)周期有12個(gè)時(shí)間點(diǎn). 亞細(xì)胞定位數(shù)據(jù)和G

        O注釋數(shù)據(jù)是從數(shù)據(jù)庫COMPARTMENT的集成通道中提取的. 蛋白質(zhì)復(fù)合物數(shù)據(jù)是從MIPS,SGD,ALOY和CYC2008數(shù)據(jù)集中收集的, 經(jīng)過預(yù)處理后共包含745種蛋白質(zhì)復(fù)合物.

        數(shù)據(jù)集BioGRID和DIP的詳細(xì)信息列于表1. 對于沒有基因表達(dá)數(shù)據(jù)的蛋白質(zhì), 本文將采用基因表達(dá)數(shù)據(jù)的均值作為其基因表達(dá)數(shù)據(jù).

        2.2" 不平衡學(xué)習(xí)

        現(xiàn)有數(shù)據(jù)集中存在樣本不平衡的問題, 例如: 數(shù)據(jù)集BioGRID中非關(guān)鍵蛋白質(zhì)和關(guān)鍵蛋白質(zhì)的數(shù)量之比為3.73∶1, 數(shù)據(jù)集DIP中非關(guān)鍵蛋白質(zhì)和關(guān)鍵蛋白質(zhì)的數(shù)量之比為3.23∶

        1. 為減小樣本不平衡的影響, 本文將采用文獻(xiàn)[12]提出的抽樣方法緩解訓(xùn)練過程中的不平衡學(xué)習(xí)問題.

        對于原始數(shù)據(jù)集, 首先進(jìn)行隨機(jī)打亂, 然后將關(guān)鍵蛋白質(zhì)的20%和非關(guān)鍵蛋白質(zhì)的20%組合在一起作為獨(dú)立的測試集, 余下的作為訓(xùn)練集. 用M和N分別表示訓(xùn)練集中關(guān)鍵蛋白質(zhì)的數(shù)量

        和非關(guān)鍵蛋白質(zhì)的數(shù)量. 在每輪訓(xùn)練中, 先從訓(xùn)練集的非關(guān)鍵蛋白質(zhì)中采樣M個(gè)蛋白質(zhì), 然后將其與訓(xùn)練集中的所有關(guān)鍵蛋白質(zhì)(M個(gè))組合為一個(gè)集合訓(xùn)練網(wǎng)絡(luò), 該集合共有2M個(gè)

        蛋白質(zhì), 從而可保證訓(xùn)練過程中結(jié)果不偏向任何類別(關(guān)鍵蛋白質(zhì)類和非關(guān)鍵蛋白質(zhì)類).

        2.3" 評價(jià)指標(biāo)

        對于不平衡學(xué)習(xí), 通過比較AP(average precision)值和AUC(area under curve)值評估本文提出的方法與其他方法的性能, 這兩個(gè)值分別表示PR(precision-recall)曲線

        下方的面積和ROC(receiver operating characteristic)曲線下方的面積. PR 曲線和ROC曲線都是在各種閾值設(shè)置下繪制的關(guān)系圖. PR曲線是召回值(Recall)與精度值(Precision)

        的關(guān)系圖, ROC曲線是真陽性率(true postive rate)與假陽性率(1 postive rate)的關(guān)系圖. 此外, 本文還使用其他指標(biāo)評估模型性能, 計(jì)算公式分別為

        Precision=TPTP+FP,(13)

        Recall=TPTP+FN,(14)

        Accuracy=TP+TNTP+TN+FP+FN,(15)

        F1_score=2×Precision×RecallPrecision+Recall,(16)

        其中: TP,TN,F(xiàn)P和FN分別表示真陽性、 真陰性、 假陽性和假陰性的蛋白質(zhì)數(shù)量; Precision表示預(yù)測為正的樣本中正確預(yù)測的比率, 表示模型對正預(yù)測判斷的可信度; R

        ecall表示所有正樣本中被正確預(yù)測的比率; Accuracy表示正確預(yù)測的樣本在所有樣本中的比率; F1_score是精確率和召回率的調(diào)和平均值, F1_score越接近1, 說明

        模型在Precision和Recall這兩個(gè)指標(biāo)上的綜合表現(xiàn)越好. 在不平衡學(xué)習(xí)中綜合評估分類器性能方面, AP值、 AUC值和F1_score比其他指標(biāo)更重要.

        由于在數(shù)據(jù)集BioGRID和DIP上的參數(shù)實(shí)驗(yàn)和消融實(shí)驗(yàn)結(jié)論類似, 所以下面僅在BioGRID數(shù)據(jù)集上討論問題.

        2.4" 輸入特征的不同維度

        本文提出的深度學(xué)習(xí)框架, 首先從亞細(xì)胞定位數(shù)據(jù)和蛋白質(zhì)復(fù)合物數(shù)據(jù)中分別提取一個(gè)初始特征向量, 再分別接入一個(gè)輸出維度為λ的全連接層, 然后將得到的兩個(gè)λ維的特征向量

        拼接, 形成一個(gè)λ×2維的特征向量, 做為FGN的輸入. 下面在數(shù)據(jù)集BioGRID上討論λ分別取1 024,512,256,128,64,32時(shí)的實(shí)驗(yàn)結(jié)果, 從而選取最佳值, 實(shí)驗(yàn)結(jié)果列于表2.

        由表2可見, 在λ從256增加到1 024的過程中, 隨著λ的增加, AP,AUC和F1_score值也不

        斷增加, 綜合可見, 實(shí)驗(yàn)結(jié)果越來越好; 在λ從32增加到128的過程中, 隨著λ的增加, AP,F(xiàn)1_score和Recall值也不斷增加, 但λ=256時(shí), AP,AUC,F(xiàn)1_sco

        re和Recall指標(biāo)不如λ=128的效果好. 因此λ在一定范圍內(nèi)增加, 能使模型獲取更多的信息, 從而提升預(yù)測效果, 但λ并不是越大越好, 因?yàn)楸疚氖褂玫纳飻?shù)據(jù)含有噪聲, λ越大, 模型

        獲取的有用信息增加, 但同時(shí)噪聲信息也會增加. 對比λ=128和λ=1 024, 在AUC,F(xiàn)1_score和Accuracy指標(biāo)上, λ=1 024的實(shí)驗(yàn)結(jié)果大于λ=128的實(shí)驗(yàn)結(jié)果; λ=1 024的AP值

        略小于λ=128的AP值; λ=1 024的Recall值比λ=128小0.0708, λ=1 024的Precision值比λ=128大0.115 8. 綜合可見, λ=1 024時(shí)實(shí)驗(yàn)結(jié)果更好. 圖3為

        輸入不同維度特征的ROC和PR曲線. 由圖3可見, 不同λ對應(yīng)的ROC和PR曲線沒有顯著差異, 這主要是由于數(shù)據(jù)噪聲問題導(dǎo)致的.

        2.5" 鄰居節(jié)點(diǎn)的不同組合

        在最初的FGN中, 對于每個(gè)節(jié)點(diǎn)v只考慮了它的直接鄰居, 并且設(shè)置一個(gè)閾值γ, 表示每個(gè)節(jié)點(diǎn)v最多考慮γ個(gè)直接領(lǐng)居. 為使節(jié)點(diǎn)v通過FGN能學(xué)習(xí)更豐富的節(jié)點(diǎn)表示, 本文

        利用圖親密度矩陣為節(jié)點(diǎn)v增加了η個(gè)親密節(jié)點(diǎn), γ+η=60. 本文在數(shù)據(jù)集BioGRID上討論γ和η的不同組合, 實(shí)驗(yàn)結(jié)果列于表3.

        由表3可見, γ∶η=50∶10在AP,AUC,F(xiàn)1_score和Accuracy 4個(gè)指標(biāo)上都取得了最佳結(jié)果. 雖然γ∶η=50∶10對應(yīng)的Recall和Precision不是最優(yōu)值, 但最佳Recall值

        對應(yīng)的Precision值過小, 最佳Precision值對應(yīng)的Recall值也過小, 又考慮到前4個(gè)指標(biāo)在不平衡學(xué)習(xí)中更重要, 所以認(rèn)為γ∶η=50∶10時(shí), 實(shí)驗(yàn)結(jié)果最佳. 表3中γ∶η=50∶0

        表示只有直接鄰居節(jié)點(diǎn), 對比第一行數(shù)據(jù)可見, 在指標(biāo)AP,AUC,F(xiàn)1_score和Accuracy上, 第一行均大于第二行數(shù)據(jù). 雖然第一行的Recall值比第二行小0.108 3, 但第一行的Precisi

        on值比第二行大0.166 3, 綜合認(rèn)為第一行數(shù)據(jù)的實(shí)驗(yàn)結(jié)果更好, 因此增加η個(gè)親密節(jié)點(diǎn)有意義. γ對應(yīng)于直接鄰居節(jié)點(diǎn), η對應(yīng)于親密節(jié)點(diǎn), 從兩個(gè)不同的角度豐富了節(jié)點(diǎn)v的特

        征向量, 從而提高了模型性能. 觀察表3中第二行到第六行對應(yīng)的Recall和Precision數(shù)據(jù)可見, η的值與Recall值大致呈負(fù)相關(guān), 與Precision值大致呈正相關(guān). 從γ

        ∶η=50∶0變化到γ∶η=50∶10, η增加了10, 由表3可見, 對應(yīng)的Recall值下降, 而Precision值上升了, 從而驗(yàn)證了上述結(jié)論.

        圖4" 鄰居節(jié)點(diǎn)不同組合的ROC和PR曲線Fig.4" ROC and PR curves of different combinations of neighbors

        圖4為鄰居節(jié)點(diǎn)不同組合的ROC和PR曲線. 由圖4可見, γ∶η=50∶10對應(yīng)的ROC曲線和PR曲線大致包圍了γ∶η=50∶0對應(yīng)的曲線,

        再次驗(yàn)證了增加η個(gè)親密節(jié)點(diǎn)有利于提升模型性能.

        總體上看, 鄰居節(jié)點(diǎn)的不同組合對應(yīng)的ROC和PR曲線沒有顯著差異. 本文認(rèn)為是因?yàn)棣?η=60, 無論γ和η的哪種組合, FGN都能學(xué)習(xí)到一個(gè)較好的節(jié)點(diǎn)表示.

        2.6" 消融實(shí)驗(yàn)

        下面進(jìn)行一系列的消融實(shí)驗(yàn)以驗(yàn)證每個(gè)部分都是必不可少的, 并總結(jié)各部分對模型的貢獻(xiàn). 本文依次進(jìn)行以下6個(gè)消融實(shí)驗(yàn): 實(shí)驗(yàn)1是本文提出的深度學(xué)習(xí)框架的完整實(shí)驗(yàn), 用作

        對照組, 實(shí)驗(yàn)2~6都是實(shí)驗(yàn)組. 實(shí)驗(yàn)2沒有對PPI網(wǎng)絡(luò)進(jìn)行加權(quán); 實(shí)驗(yàn)3缺少基因表達(dá)數(shù)據(jù), 因此輸入到任務(wù)分類層的特征向量只有從FGN中輸出的部分; 實(shí)驗(yàn)4缺少FGN層, 因此將得到的1 0

        24×2維的特征向量展開成2 048維的特征向量, 依次與輸出維度為512和輸出維度為128的全連接層相連, 再與基因表達(dá)特征向量拼接得到最終的特征向量; 實(shí)驗(yàn)5,6分別缺少了亞細(xì)胞

        定位數(shù)據(jù)和蛋白質(zhì)復(fù)合物數(shù)據(jù), 因此都只能得到一個(gè)1 024×1維的特征向量送入FGN層. 由于生物信息的減少, 相應(yīng)地將第一個(gè)FGN層的輸出由128×4改為128×2, 第二個(gè)FGN層的輸出由12

        8×1改為64×1. 消融實(shí)驗(yàn)在數(shù)據(jù)集BioGRID上進(jìn)行, 實(shí)驗(yàn)結(jié)果列于表4.

        由表4可見, 本文提出的深度學(xué)習(xí)框架(即實(shí)驗(yàn)1), 在除Recall外的所有指標(biāo)上都取得了最好的結(jié)果. 雖然實(shí)驗(yàn)1的Recall值比最佳Recall值(實(shí)驗(yàn)5)小, 但實(shí)驗(yàn)1

        遠(yuǎn)大于實(shí)驗(yàn)5的Precision值, 因此實(shí)驗(yàn)1的效果最佳. 實(shí)驗(yàn)1是對照組并且結(jié)果最好, 實(shí)驗(yàn)2~6都是實(shí)驗(yàn)組, 所以可以證明實(shí)驗(yàn)1中的每個(gè)部分都是必不可少的. 雖然實(shí)驗(yàn)2,3的結(jié)果略遜于實(shí)驗(yàn)1

        , 但仍能說明給PPI網(wǎng)絡(luò)加權(quán)、 利用基因表達(dá)數(shù)據(jù)對關(guān)鍵蛋白質(zhì)的預(yù)測效果有提升作用. 實(shí)驗(yàn)6在關(guān)鍵指標(biāo)AP和F1_score上明顯低于實(shí)驗(yàn)1, Precision值也遠(yuǎn)小于實(shí)驗(yàn)1, 指

        標(biāo)AUC和Accuracy值也低于實(shí)驗(yàn)1, 因此可認(rèn)為蛋白質(zhì)復(fù)合物信息有助于提升預(yù)測性能. 實(shí)驗(yàn)4,5在關(guān)鍵指標(biāo)AP,AUC和Accuracy上都顯著低于實(shí)驗(yàn)1, 表明FGN的使用可

        以顯著提高預(yù)測效果, 亞細(xì)胞定位數(shù)據(jù)在關(guān)鍵蛋白質(zhì)的預(yù)測中有至關(guān)重要的作用.

        圖5為消融實(shí)驗(yàn)的ROC和PR曲線. 由圖5可見, 實(shí)驗(yàn)1的ROC曲線和PR曲線明顯包圍了實(shí)驗(yàn)4,5, 再次驗(yàn)證了FGN和亞細(xì)胞定位數(shù)據(jù)的使用能顯著提升關(guān)鍵蛋白質(zhì)的預(yù)測效果. 實(shí)驗(yàn)1的PR曲線明顯包圍了其他

        實(shí)驗(yàn)的曲線. 而ROC曲線圖中除實(shí)驗(yàn)4,5外, 其他曲線沒有顯著差異.

        2.7" 與基于復(fù)雜網(wǎng)絡(luò)方法的對比

        為證明本文提出的深度學(xué)習(xí)框架的有效性, 本文在數(shù)據(jù)集BioGRID和DIP上將其與目前幾種流行的基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵蛋白質(zhì)預(yù)測方法進(jìn)行比較, 其中DC,BC,CC,EC,NC和LAC是基于PPI網(wǎng)絡(luò)

        的拓?fù)浣Y(jié)構(gòu)識別關(guān)鍵蛋白質(zhì)的方法, 而WDC和PeC則將PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)與基因表達(dá)數(shù)據(jù)相結(jié)合.

        首先, 本文使用每種方法計(jì)算PPI網(wǎng)絡(luò)中蛋白質(zhì)對應(yīng)的分?jǐn)?shù); 其次, 按降序排列蛋白質(zhì)的分?jǐn)?shù), 對數(shù)據(jù)集BioGRID和DIP分別選擇前1 200和前1 146個(gè)蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì); 最

        后, 根據(jù)蛋白質(zhì)的真實(shí)標(biāo)簽計(jì)算F1_score,Recall,Accuracy和Precision. 數(shù)據(jù)集BioGRID和DIP上的實(shí)驗(yàn)結(jié)果分別列于表5和表6. 由表5和表6可見, 本文方法在兩個(gè)數(shù)據(jù)集上都

        遠(yuǎn)優(yōu)于其他方法, 這是由于上述方法主要基于PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)預(yù)測關(guān)鍵蛋白質(zhì), 并且結(jié)果

        是一個(gè)標(biāo)量. 隨著網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)噪聲的增加, 標(biāo)量不能充分捕捉有效信息. 實(shí)驗(yàn)結(jié)果證明了本文方法在識別關(guān)鍵蛋白質(zhì)方面的有效性.

        2.8" 與基于機(jī)器學(xué)習(xí)方法的對比

        基于機(jī)器學(xué)習(xí)方法已廣泛應(yīng)用于預(yù)測關(guān)鍵蛋白質(zhì). 為證明本文方法的優(yōu)越性, 本文采用6種傳統(tǒng)機(jī)器學(xué)習(xí)方法和3種深度學(xué)習(xí)框架(DeepEP, 文獻(xiàn)[14]框架和文獻(xiàn)[16]框架)

        進(jìn)行對比實(shí)驗(yàn). 實(shí)驗(yàn)中傳統(tǒng)機(jī)器學(xué)習(xí)方法SVM、 AdaBoost、 邏輯回歸、 樸素Bayes、 隨機(jī)森林和決策樹是由帶有默認(rèn)

        參數(shù)的scikit-learn庫實(shí)現(xiàn)的. DeepEP和文獻(xiàn)[16]中提供了源代碼. 本文根據(jù)文獻(xiàn)[14]實(shí)現(xiàn)了該模型.

        傳統(tǒng)機(jī)器學(xué)習(xí)算法將每個(gè)蛋白質(zhì)對應(yīng)的亞細(xì)胞定位特征向量、 蛋白質(zhì)復(fù)合物特征向量和基因表達(dá)數(shù)據(jù)拼接成一個(gè)長的一維向量作為輸入. DeepEP僅使用PPI 網(wǎng)絡(luò)和基因表達(dá)數(shù)據(jù).

        文獻(xiàn)[14]方法使用了PPI網(wǎng)絡(luò)、 基因表達(dá)數(shù)據(jù)和亞細(xì)胞定位數(shù)據(jù). 亞細(xì)胞定位通常分為11個(gè)類別, 文獻(xiàn)[14]的方法使用11維向量編碼亞細(xì)胞定位數(shù)據(jù), 然

        后作為深度學(xué)習(xí)框架的輸入. 文獻(xiàn)[16]方法使用了本文中的 PPI 網(wǎng)絡(luò)和亞細(xì)胞定位數(shù)據(jù), 但基因表達(dá)數(shù)據(jù)與本文不同, 來自數(shù)據(jù)庫GEO(登錄號: GSE7645). 本文

        按文獻(xiàn)[16]的方式對亞細(xì)胞定位數(shù)據(jù)進(jìn)行處理, 然后作為其框架的輸入. 為確保不同方法比較的公平性, 本文在BioGRID和DIP的相同測試數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果列于表7和表8.

        由表7和表8可見, 在酵母菌數(shù)據(jù)集BioGRID和DIP上, 本文提出的框架在除Recall指標(biāo)外的各指標(biāo)上都明顯高于其他方法. 雖然邏緝回歸的Recall值

        略高于本文方法, 但其他指標(biāo)遠(yuǎn)低于本文方法的值, 綜上表明本文方法優(yōu)于目前主流基于機(jī)器學(xué)習(xí)的關(guān)鍵蛋白質(zhì)預(yù)測方法. 4種深度學(xué)習(xí)方法在大多數(shù)指標(biāo)上優(yōu)于其他傳統(tǒng)機(jī)器

        學(xué)習(xí)方法, 表明在數(shù)據(jù)集BioGRID和DIP上深度學(xué)習(xí)方法比傳統(tǒng)機(jī)器學(xué)習(xí)方法能學(xué)習(xí)到更多信息. 隨機(jī)森林的效果在數(shù)據(jù)集BioGRID上略差于DeepEP, 但是在數(shù)據(jù)集DIP上高于DeepEP. DeepE

        P是深度學(xué)習(xí)框架, 隨機(jī)森林是傳統(tǒng)機(jī)器學(xué)習(xí), 但DeepEP只利用了PPI網(wǎng)絡(luò)和基因表達(dá)數(shù)據(jù), 而隨機(jī)森林比DeepEP多利用了亞細(xì)胞定位數(shù)據(jù)和蛋白質(zhì)復(fù)合物數(shù)據(jù), 生物信

        息更豐富, 因此豐富的生物信息彌補(bǔ)了結(jié)構(gòu)上的缺陷, 使得隨機(jī)森林和DeepEP取得了相似的結(jié)果, 甚至在數(shù)據(jù)集DIP上超越了DeepEP. 文獻(xiàn)[14]方法比DeepEP多

        了一種亞細(xì)胞定位數(shù)據(jù), 除指標(biāo)Recall外, 所有指標(biāo)都比DeepEP更好. 進(jìn)一步表明融合更多有效生物信息有利于提高關(guān)鍵蛋白質(zhì)的預(yù)測準(zhǔn)確率.

        如圖6和圖7所示, 本文方法在數(shù)據(jù)集DIP上的ROC曲線和PR曲線明顯包圍了其他方法的曲線, 在數(shù)據(jù)集BioGRID上的ROC曲線也明顯包圍了其他方法的曲線. 雖然本文方法在數(shù)據(jù)集BioGRI

        D數(shù)據(jù)集上的PR曲線與文獻(xiàn)[16]方法的曲線略有交叉, 但本文方法的AP值大于文獻(xiàn)[16]方法的AP值, 因此本文方法總體上優(yōu)于目前主流基于機(jī)器學(xué)習(xí)的關(guān)鍵蛋白質(zhì)預(yù)測方法.

        綜上所述, 針對生物實(shí)驗(yàn)識別關(guān)鍵蛋白質(zhì)費(fèi)時(shí)費(fèi)力, 使用計(jì)算方法預(yù)測關(guān)鍵蛋白質(zhì)無法有效整合生物信息的問題, 本文提出了一個(gè)基于特征圖網(wǎng)絡(luò)和多種生物信息預(yù)測關(guān)鍵蛋白質(zhì)的深度學(xué)習(xí)框架

        . 該框架考慮如何更好利用PPI網(wǎng)絡(luò)中的邊緣信息, 從而更好地提取特征向量, 最終提高關(guān)鍵蛋白質(zhì)的預(yù)測準(zhǔn)確率. 首先, 利用基因表達(dá)數(shù)據(jù)、 GO注釋數(shù)據(jù)和PPI網(wǎng)絡(luò)拓?fù)涮?/p>

        征對PPI網(wǎng)絡(luò)進(jìn)行加權(quán), 使PPI網(wǎng)絡(luò)中的邊緣信息更豐富; 其次, 通過使用FGN將邊緣信息編碼到特征鄰接矩陣中, 從而能更好地保存并利用邊緣信息.

        在酵母菌數(shù)據(jù)集BioGRID和DIP上的實(shí)驗(yàn)結(jié)果表明, 本文方法優(yōu)于目前主流的復(fù)雜網(wǎng)絡(luò)方法和機(jī)器學(xué)習(xí)方法. 消融實(shí)驗(yàn)結(jié)果表明, 本文框架中的每部分都是必不可少的, 其中FGN和亞細(xì)

        胞定位數(shù)據(jù)的使用顯著提高了關(guān)鍵蛋白質(zhì)的預(yù)測性能, 蛋白質(zhì)復(fù)合物數(shù)據(jù)也有助于提高預(yù)測效果. 通過給PPI網(wǎng)絡(luò)加權(quán), 能減少數(shù)據(jù)中噪聲的影響, 從而進(jìn)一步提高對關(guān)鍵蛋白質(zhì)的預(yù)測性能.

        參考文獻(xiàn)

        [1]" WINZELER E A, SHOEMAKER D D, ASTROMOFF A, et al. Functional Characterizat

        ion of the S.cerevisiae Genome by Gene Deletion and Parallel Analysis [J]. Science, 1999, 285: 901-906.

        [2]" CULLEN L M, ARNDT G M. Genome-Wide Screening for Ge

        ne Function Using RNAi in Mammalian Cells [J]. Immunology and Cell Biology, 2005, 83(3): 217-223.

        [3]" ROEMER T, JIANG B, DAVISON J, et al. Large-Scale Es

        sential Gene Identification in Candida Albicans and Applications to Antifungal Drug Discovery [J]. Molecular Microbiology, 2003, 50(1): 167-181.

        [4]" GIAEVER G, CHU A M, NI L, et al. Functional Profiling of the Saccharomyces cer

        evisiae Genome [J]. Nature, 2002, 418: 387-391.

        [5]" JEONG H, MASON S P, BARABSI A L, et al. Lethality and Centrality in Protein

        Networks [J]. Nature, 2001, 411: 41-42.

        [6]" LI M, WANG J X, CHEN X, et al. A Local Average Connectivity-Based Method for Id

        entifying Essential Proteins from the Network Level [J]. Computational Biology and Chemistry, 2011, 35(3): 143-150.

        [7]" QI Y, LUO J W. Prediction of Essential Proteins Base

        d on Local Interaction Density [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2015, 13(6): 1170-1182.

        [8]" LI M, ZHANG H H, WANG J X, et al. A New Essential Pr

        otein Discovery Method Based on the Integration of Protein-Protein Interaction and Gene Expression Data [J]. BMC Systems Biology, 2012, 6: 1-9.

        [9]" TANG X W, WANG J X, ZHONG J C, et al. Predicting Ess

        ential Proteins Based on Weighted Degree Centrality [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2013, 11(2): 407-418.

        [10]" LEI X J, ZHAO J, FUJITA H, et al. Predicting Essential Proteins Based on RNA-Se

        q, Subcellular Localization and GO Annotation Datasets [J]. Knowledge-Based Systems, 2018, 151: 136-148.

        [11]" QIN C, SUN Y Q, DONG Y D. A New Method for Identify

        ing Essential Proteins Based on Network Topology Properties and Protein Complexes [J]. PloS One, 2016, 11(8): e0161042-1-e0161042-30.

        [12]" ZENG M, LI M, WU F X, et al. DeepEP: A Deep Learning Framework for Identifying

        Essential Proteins [J]. BMC Bioinformatics, 2019, 20: 1-10.

        [13]" GROVER A, LESKOVEC J. Node2vec: Scalable Feature Le

        arning for Networks [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 855-864.

        [14]" ZENG M, LI M, FEI Z H, et al. A Deep Learning Framework for Identifying Essential Proteins by Integrating Multiple Types of Biologi

        cal Information [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019, 18(1): 296-305.

        [15]" HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF Models for Sequence Tagging

        [EB/OL]. (2015-08-15)[2023-02-11]. https://arxiv.org/abs/1508.01991.

        [16]" YUE Y, YE C, PENG P Y, et al. A Deep Learning Framework for Identifying Essent

        ial Proteins Based on Multiple Biological Information [J]. BMC Bioinformatics, 2022, 23(1): 318-1-318-27.

        [17]" LI Y M, ZENG M, ZHANG F H, et al. DeepCellEss: Cell Line-Specific Essential P

        rotein Prediction with Attention-Based Interpretable Deep Learning [J]. Bioinformatics, 2023, 39(1): btac779-1-btac779-9.

        [18]" LIU P Q, LIU C, MAO Y Y, et al. Identification of Essential Proteins Based on Edge

        Features and the Fusion of Multiple-source Biological Information [J]. BMC Bioinformatics, 2023, 24(1): 203-1-203-24.

        [19]" WANG C, QIU Y H, GAO D S, et al. Lifelong Graph Learning [C]//Proceedings of

        the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 13719-13728.

        [20]" KERETSU S, SARMAH R. Weighted Edge Based Clustering to Identify Protein Comple

        xes in Protein-Protein Interaction Networks Incorporating Gene Expression Profile [J]. Computational Biology and Chemistry, 2016, 65: 69-79.

        [21]" LEI X J, ZHANG Y C, CHENG S, et al. Topology Potential Based Seed-Growth Method to

        Identify Protein Complexes on Dynamic PPI Data [J]. Information Sciences, 2018, 425: 140-153.

        [22]" RADICCHI F, CASTELLANO C, CECCONI F, et al. Defining and Identifying Communiti

        es in Networks [J]. Proceedings of the National Academy of Sciences, 2004, 101(9): 2658-2663.

        [23]" LEI X J, YANG X Q, FUJITA H. Random Walk Based Method to Identify Essential Proteins

        by Integrating Network Topology and Biological Characteristics [J]. Knowledge-Based Systems, 2019, 167: 53-67.

        [24]" BINDER J X, PLETSCHER-FRANKILD S, TSAFOU K, et al. COMPARTMENTS: Unification

        and Visualization of Protein Subcellular Localization Evidence [J]. Database, 2014, 2014: bau012-1-bau012-9.

        [25]" ZHANG J W, ZHANG H P, XIA C Y, et al. Graph-BERT: Only Attention Is Needed fo

        r Learning Graph Representations [EB/OL]. (2020-01-15)[2023-01-15]. https://arxiv.org/abs/2001.05140.

        [26]" JACCARD P. tude Comparative de la Distribution Florale Dans une Portion

        des Alpes et des Jura [J]. Bulletin de la Societe Vaudoise des Sciences Naturelles, 1901, 37: 547-579.

        (責(zé)任編輯: 韓" 嘯)

        丰满大爆乳波霸奶| av最新版天堂在资源在线| 欧美在线播放一区二区| 中文字幕一区,二区,三区| 午夜免费观看国产视频| 日本一二三区在线观看视频| 亚洲成在人线在线播放无码| 亚洲AV无码一区二区三区日日强| 手机在线中文字幕国产| 亚洲国产综合精品中久| 精品欧洲av无码一区二区14| 欧洲熟妇乱xxxxx大屁股7| 国产午夜亚洲精品不卡免下载| 国产精品久久久黄色片| 成人精品天堂一区二区三区| 国产午夜激无码av毛片| 视频国产精品| 免费av在线 国产精品| 亚洲人成网站18禁止| 国产精品久久久久久52avav | 中文字幕网伦射乱中文| 国产精品爽爽va在线观看无码| 无码人妻丰满熟妇区免费| 美女脱了内裤洗澡视频 | 日韩女同精品av在线观看| 欧美人和黑人牲交网站上线| 亚洲男人的天堂精品一区二区| 中文字幕大乳少妇| 日本高级黄色一区二区三区| 国产精品人妻一区二区三区四| 国产极品美女高潮无套在线观看| 亚洲av成人一区二区三区色| 新视觉亚洲三区二区一区理伦 | 国产一区二区在线视频| 国内成人精品亚洲日本语音| av一区二区三区观看| av色综合久久天堂av色综合在| 精品视频一区二区三三区四区| 久久精品国产亚洲精品色婷婷| 人妻免费一区二区三区免费| 欧美日韩一区二区综合|