亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PPI網(wǎng)絡(luò)與機器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測方法

        2018-05-21 00:50:08唐家琪吳璟莉
        計算機應(yīng)用 2018年3期
        關(guān)鍵詞:功能模塊結(jié)構(gòu)域位點

        唐家琪,吳璟莉,2,3

        (1.廣西師范大學(xué) 計算機科學(xué)與信息工程學(xué)院,廣西 桂林 541004; 2.廣西師范大學(xué) 廣西多源信息挖掘與安全重點實驗室,廣西 桂林 541004;3.廣西區(qū)域多源信息集成與智能處理協(xié)同創(chuàng)新中心,廣西 桂林 541004)

        0 引言

        蛋白質(zhì)是執(zhí)行生物體內(nèi)各種重要生物活動的大分子,認識其功能對推動生命科學(xué)、農(nóng)業(yè)、醫(yī)療等領(lǐng)域的發(fā)展意義重大。1961年,Anfinsen等[1]提出蛋白質(zhì)一級序列決定其三維結(jié)構(gòu)、蛋白質(zhì)三維結(jié)構(gòu)決定其功能的論斷。相對于蛋白質(zhì)三維結(jié)構(gòu),一級序列更容易通過生物實驗測得,故早期的蛋白質(zhì)功能預(yù)測方法大都基于序列相似性原理,利用BLAST(Basic Local Alignment Search Tool)[2]和PSI-BLAST(Position-Specific Iterated BLAST)[3]等工具計算功能未知的蛋白質(zhì)與功能已知的蛋白質(zhì)之間的序列相似度,若相似度較高則認為其具有相同的功能。然而,近年來的研究表明,序列相似的蛋白質(zhì)能夠形成不同的三維結(jié)構(gòu),故其功能不一定相同,而且序列差異較大的蛋白質(zhì)也可能具有相同的功能[4];因此,基于序列相似性的蛋白質(zhì)功能預(yù)測方法是不可靠的。

        隨著越來越多的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)的產(chǎn)生,F(xiàn)ATCAT(Functional And Tractographic Connectivity Analysis Toolbox)[5]和PAST(Polypeptide Angle Suffix Tree)[6]等蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫相繼建立,研究者提出了基于蛋白質(zhì)三維結(jié)構(gòu)的功能預(yù)測方法[7],這類方法通過計算功能未知的蛋白質(zhì)與功能已知的蛋白質(zhì)的三維結(jié)構(gòu)相似度來判斷其是否具有相同功能。相對于蛋白質(zhì)的氨基酸序列,其三維結(jié)構(gòu)更保守穩(wěn)定[8],故基于三維結(jié)構(gòu)的方法通常比基于序列的方法更準確,但由于已知三維結(jié)構(gòu)的蛋白質(zhì)數(shù)量較少,其應(yīng)用范圍較窄。

        隨著高通量生物實驗技術(shù)與蛋白質(zhì)相互作用(Protein-Protein Interaction, PPI)預(yù)測方法[9-10]的發(fā)展,產(chǎn)生了海量的、可用于大規(guī)模蛋白質(zhì)功能注釋的PPI數(shù)據(jù),基于蛋白質(zhì)相互作用網(wǎng)絡(luò)(簡稱PPI網(wǎng)絡(luò))的功能預(yù)測方法深受關(guān)注。根據(jù)Oliver[11]提出的關(guān)聯(lián)效應(yīng)(Guilt-By-Association, GBA),相互作用的蛋白質(zhì)具有相同或相似的功能,可以通過分析PPI網(wǎng)絡(luò)的拓撲結(jié)構(gòu),根據(jù)網(wǎng)絡(luò)中已經(jīng)注釋功能的蛋白質(zhì)來推測網(wǎng)絡(luò)中未注釋功能的蛋白質(zhì)的功能。Chi等[12]提出余弦迭代算法(Cosine Iterative Algorithm, CIA),其基于蛋白質(zhì)之間動態(tài)相互作用,迭代更新鄰居蛋白質(zhì)的注釋術(shù)語集,估計它們與未注釋蛋白質(zhì)之間的功能相似性來完成預(yù)測。Xiong等[13]采用譜聚類算法將PPI網(wǎng)絡(luò)中的蛋白質(zhì)劃分為若干功能模塊,根據(jù)頂點度、緊密度和介數(shù)三種中心性指標標注各模塊中的重要蛋白質(zhì),再利用基于 Gibbs抽樣的協(xié)同分類算法預(yù)測蛋白質(zhì)功能。Wang等[14]針對注釋術(shù)語間的功能關(guān)聯(lián)性,設(shè)計了一種基于多標簽學(xué)習(xí)的蛋白質(zhì)功能預(yù)測算法。Teng等[15]根據(jù)相互作用的蛋白質(zhì)在PPI網(wǎng)絡(luò)中的主被動關(guān)系將無向的PPI網(wǎng)絡(luò)轉(zhuǎn)化成有向網(wǎng)絡(luò),并通過在有向PPI網(wǎng)絡(luò)中傳播基因本體術(shù)語(Diffusing GO Terms in the Directed PPI Network, GoDIN)的方法預(yù)測蛋白質(zhì)的功能。Yu等[16]提出一種在混合圖上隨機游走的蛋白質(zhì)功能預(yù)測方法,該方法不僅綜合考慮了直接和間接相互作用信息,還利用功能相似性權(quán)重來減少噪聲相互作用的影響。

        基于PPI網(wǎng)絡(luò)的功能預(yù)測效果依賴于網(wǎng)絡(luò)的可靠程度。由于生物實驗技術(shù)的制約,大多數(shù)PPI數(shù)據(jù)均存在一定程度的噪聲,從而降低了這類方法的預(yù)測精度。本文將蛋白質(zhì)家族(Family)、結(jié)構(gòu)域(Domain)和重要位點(Important Site)信息作為頂點屬性,整合到PPI網(wǎng)絡(luò)中以減輕網(wǎng)絡(luò)中數(shù)據(jù)噪聲的影響,并提出了一種基于層次聚類(Hierarchical Clustering, HC)、主成分分析(Principal Component Analysis, PCA)與多層感知器(Multi-Layer Perceptron, MLP)的蛋白質(zhì)功能預(yù)測方法(HC, PCA and MLP based Method, HPMM)。HPMM將蛋白質(zhì)功能預(yù)測轉(zhuǎn)化成多標簽二分類問題,首先從PPI網(wǎng)絡(luò)、蛋白質(zhì)家族、結(jié)構(gòu)域和重要位點中提取蛋白質(zhì)的特征,再訓(xùn)練MLP模型用于功能預(yù)測。采用人類(Homo sapiens)數(shù)據(jù)集對蛋白質(zhì)功能預(yù)測方法CIA[12]、GoDIN[15]和HPMM進行測試。實驗結(jié)果表明,相比CIA和GoDIN,HPMM的精確度與F值更高。

        1 問題與符號定義

        PPI網(wǎng)絡(luò)通常表示為無向圖G(V,E),其中V={v1,v2,…,vn}為頂點集,E={eij|eij=(vi,vj),vi,vj∈V}為邊集。頂點vi(i=1,2,…,n)表示蛋白質(zhì),邊eij∈E表示其兩端的蛋白質(zhì)vi與蛋白質(zhì)vj之間存在相互作用,di(i=1,2,…,n)表示頂點vi的度,即與蛋白質(zhì)vi存在相互作用的蛋白質(zhì)種類數(shù)。PPI網(wǎng)絡(luò)中,假設(shè)v1,v2,…,vn1為功能已知的蛋白質(zhì),vn1+1,vn1+2,…,vn1+n2為功能未知的蛋白質(zhì),n=n1+n2。用鄰接矩陣An×n表示圖G,其中每個元素aij(i=1,2,…,n,j=1,2,…,n)的取值定義如下:

        (1)

        蛋白質(zhì)家族、結(jié)構(gòu)域和重要位點信息對蛋白質(zhì)的功能有重要影響,故可以看成蛋白質(zhì)的屬性。用矩陣Pn×m記錄蛋白質(zhì)屬性,每行表示一個蛋白質(zhì)頂點,每列表示一個屬性,元素pij(i=1,2,…,n,j=1,2,…,m)的取值定義如下:

        (2)

        將鄰接矩陣An×n與屬性矩陣Pn×m橫向合并,得到蛋白質(zhì)的特征矩陣Xn×(n+m),其中xi=(xi1,xi2,…,xi(n+m))為蛋白質(zhì)樣本vi(i=1,2,…,n)的特征向量,元素xij(i=1,2,…,n,j=1,2,…,n+m)的取值定義如下:

        (3)

        令Yn×w為記錄蛋白質(zhì)的功能注釋信息的標簽矩陣,其中w為數(shù)據(jù)集中功能注釋的類別總數(shù),Yn×w中每一行yi=(yi1,yi2,…,yiw)為蛋白質(zhì)樣本vi(i=1,2,…,n)的標簽向量,其中的元素yij(i=1,2,…,n,j=1,2,…,w)的取值定義如下:

        (4)

        根據(jù)上述定義,以蛋白質(zhì)為樣本、功能術(shù)語為樣本標簽的蛋白質(zhì)功能預(yù)測問題可轉(zhuǎn)化為多標簽二分類問題:將n1個功能已知的蛋白質(zhì)用于訓(xùn)練預(yù)測模型,試圖得到映射函數(shù)h:X→Y,使給定功能未知的n2個蛋白質(zhì)的特征向量xi(i=n1+1,n1+2,…,n),預(yù)測其標簽向量(即功能注釋向量)h(xi)?Y。

        2 功能預(yù)測方法

        本章提出一種基于機器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測方法HPMM,輸入為PPI網(wǎng)絡(luò)中功能已知的蛋白質(zhì)的功能注釋術(shù)語,PPI網(wǎng)絡(luò)及其每個蛋白質(zhì)的屬性信息(家族、結(jié)構(gòu)域和重要位點);輸出為PPI網(wǎng)絡(luò)中功能未知的蛋白質(zhì)的功能注釋術(shù)語。如圖1所示,HPMM主要分為特征提取、訓(xùn)練模型和功能預(yù)測3個階段。

        圖1 HPMM流程 Fig. 1 Flow chart of HPMM

        首先基于層次聚類和主成分分析進行特征提取,將提取的功能模塊(Function Module)、屬性(家族、結(jié)構(gòu)域和重要位點)主成分(Principal Component)及頂點度 (Degree) 作為特征,對其歸一化后用于訓(xùn)練多層感知器,從而得到一個多標簽的二分類模型。然后用該模型預(yù)測PPI網(wǎng)絡(luò)中功能未知的蛋白質(zhì)。下面詳細介紹預(yù)測方法HPMM的主要步驟。

        2.1 功能模塊特征提取

        研究表明細胞功能是通過生物大分子之間相互作用形成的功能模塊實現(xiàn)的[17],故同一功能模塊中的蛋白質(zhì)往往具有相似的功能,因此可先通過聚類算法從PPI網(wǎng)絡(luò)中挖掘出若干功能模塊,并將其作為蛋白質(zhì)的特征以用于功能預(yù)測。由于功能模塊特征取決于網(wǎng)絡(luò)的整體拓撲結(jié)構(gòu),其受局部噪聲相互作用的影響較小,魯棒性較強。

        層次聚類算法常被用于從PPI網(wǎng)絡(luò)中挖掘功能模塊,以確定模塊中蛋白質(zhì)的功能[18-19]。本文采用Clauset等[20]提出的一種針對復(fù)雜網(wǎng)絡(luò)的凝聚層次聚類算法提取功能模塊特征。算法輸入為鄰接矩陣An×n,輸出為功能模塊矩陣Fn×k1(k1為功能模塊數(shù)),其中的元素fij(i=1,2,…,n,j=1,2,…,k1)取值為1(0),表示蛋白質(zhì)vi屬于(不屬于)功能模塊j。

        算法利用NG(Newman and Girvan)模塊度[21]來評價聚類效果,其定義如式(5)所示:

        (5)

        其中:fi=(fi1,fi2,…,fik)代表蛋白質(zhì)vi的功能模塊特征向量,函數(shù)δ(fi,fj)指示向量fi和fj取值是否相同:相同返回1,表示蛋白質(zhì)vi和vj屬于相同功能模塊;反之返回0,表示蛋白質(zhì)vi和vj屬于不同的功能模塊。模塊度取值越大,則表示圖的模塊劃分效果越好。

        2.2 屬性主成分特征提取

        如前所述,由于蛋白質(zhì)的家族、結(jié)構(gòu)域和重要位點這些屬性信息均對其功能起到重要的影響,可將其作為特征以減少預(yù)測結(jié)果對帶數(shù)據(jù)噪聲的PPI網(wǎng)絡(luò)的依賴,從而提高預(yù)測精度;但是,在訓(xùn)練多層感知器時,若蛋白質(zhì)樣本維數(shù)過多則會使預(yù)測模型失去泛化能力,從而影響預(yù)測效果。本文考慮到蛋白質(zhì)屬性之間的相關(guān)性,使用一種基于奇異值分解(Singular Value Decomposition, SVD)的主成分分析方法[22],對屬性矩陣Pn×m降維處理。

        首先,對Pn×m進行z-score標準化處理,得到矩陣Zn×m,其中每個元素zij(i=1,2,…,n,j=1,2,…,m)取值如下:

        (6)

        其中:

        (7)

        然后,對矩陣Zn×m進行奇異值分解,使得Z=UΛΜ,其中U為n階正交矩陣,Λ為n×m的半正定對角矩陣,Μ為m階正交矩陣,U中每列uj(j=1,2,…,n)代表蛋白質(zhì)屬性的一個主成分,Λ中對角元素λj(j=1,2,…,n)代表對應(yīng)主成分的方差,該值反映了主成分的重要程度。

        2.3 特征合并與標準化

        本文將蛋白質(zhì)在PPI網(wǎng)絡(luò)中的頂點度數(shù)作為特征,并將其與功能模塊特征和屬性主成分特征合并,得到特征矩陣Γn×(k1+k2+1),其中元素γij(i=1,2,…,n,j=1,2,…,k1+k2+1)取值如下:

        (8)

        其中:di表示蛋白質(zhì)vi的頂點度。該矩陣中包含了功能模塊、屬性主成分、和頂點度三類特征。功能模塊特征反映了蛋白質(zhì)在宏觀的相互作用網(wǎng)絡(luò)中所在的功能模塊。屬性主成分特征則反映了蛋白質(zhì)微觀層面的信息。頂點度是一種常用的中心性度量,反映了蛋白質(zhì)在PPI網(wǎng)絡(luò)中的重要程度,同時也代表了蛋白質(zhì)參與生命活動的多少,即功能多樣性[23]。這三類特征從不同層面表征了蛋白質(zhì),并且不容易被PPI網(wǎng)絡(luò)中數(shù)據(jù)噪聲干擾。

        (9)

        2.4 基于多層感知器的功能預(yù)測

        圖2 多層感知器示意圖 Fig. 2 Diagram of MLP

        2.4.1 參數(shù)設(shè)置

        輸入層節(jié)點數(shù)等于特征向量的維數(shù)k1+k2+1,輸出層的節(jié)點數(shù)等于數(shù)據(jù)集中的所有蛋白質(zhì)擁有的功能注釋數(shù),即功能注釋向量的維數(shù)w。

        輸出層使用Sigmoid激活函數(shù),定義如下:

        (10)

        使用交叉熵(cross entropy)作為輸出層的損失函數(shù),對于樣本vi,其交叉熵定義如下:

        (11)

        ReLu (x) = max(0,x)

        (12)

        訓(xùn)練該神經(jīng)網(wǎng)絡(luò)時,采用批量學(xué)習(xí)的方式[26],批量大小為訓(xùn)練集中蛋白質(zhì)數(shù)的10%,迭代次數(shù)為400次,學(xué)習(xí)率(Learning Rate)為0.1,動量(Momentum)為0.9。

        2.4.2 功能選擇

        3 實驗與結(jié)果分析

        本文用人類數(shù)據(jù)集對蛋白質(zhì)功能預(yù)測方法HPMM、CIA[12]和GoDIN[15]進行比較分析。實驗在一臺4核8線程的微型計算機上進行,CPU型號為Intel@Core i7-3630QM 2.4 GHz×8,內(nèi)存為8 GB,操作系統(tǒng)為Ubuntu 16.04 LTS 64位,編程工具為R 3.3.2。訓(xùn)練MLP時采用GPU加速技術(shù)和MXNet深度學(xué)習(xí)框架,GPU型號為GeForce GT 650M/PCIe/SSE2。

        3.1 實驗數(shù)據(jù)

        本文的實驗數(shù)據(jù)來自于DIP[27]、基因本體(Gene Ontology, GO)[28]和InterPro[29]數(shù)據(jù)庫。DIP數(shù)據(jù)庫提供了人類PPI網(wǎng)絡(luò),GO提供了功能注釋, InterPro數(shù)據(jù)庫提供了蛋白質(zhì)家族、結(jié)構(gòu)域和重要位點信息。

        首先從DIP數(shù)據(jù)庫下載人類PPI網(wǎng)絡(luò)數(shù)據(jù),并用UniProtKB/Swiss-Prot[30]對PPI網(wǎng)絡(luò)中的蛋白質(zhì)進行ID轉(zhuǎn)換,然后去除網(wǎng)絡(luò)中自相互作用、重復(fù)相互作用及無法轉(zhuǎn)換的蛋白質(zhì);再通過biomaRt包[31]根據(jù)每個蛋白質(zhì)的UniProtKB/Swiss-Prot編號獲取對應(yīng)的GO術(shù)語編號和InterPro編號。

        GO包括分子功能(Molecular Function, MF)、生物過程(Biological Process, BP)和細胞組件(Cellular Component, CC)三個獨立的子本體。為保證注釋術(shù)語的可靠性,實驗剔除了獲取手段為IEA(Inferred from Electronic Annotation)、ND(No biological Data Available)和IC(Inferred by Curator)的功能注釋。如上所述,由于MF、BP和CC三個子本體相互獨立,分別為每個子本體建立PPI網(wǎng)絡(luò),分別稱為MF、BP和CC網(wǎng)絡(luò),并刪除了沒有被GO術(shù)語注釋的蛋白質(zhì)。此外,為確保每個蛋白質(zhì)均有與其相互作用的蛋白質(zhì),本文僅取PPI網(wǎng)絡(luò)中的極大連通子圖作為測試數(shù)據(jù)。

        InterPro數(shù)據(jù)庫是一個整合了蛋白質(zhì)家族、結(jié)構(gòu)域和重要位點信息的綜合數(shù)據(jù)庫,每個InterPro編號對應(yīng)一條蛋白質(zhì)的家族、結(jié)構(gòu)域或重要位點信息。本文根據(jù)每個InterPro編號對應(yīng)的信息存在與否將其編碼成二元變量作為蛋白質(zhì)頂點的屬性。最終得到三個整合了多元生物信息的PPI網(wǎng)絡(luò),如表1所示。

        表1 人類數(shù)據(jù)集詳情Tab. 1 Details of human data set

        3.2 評價指標

        本文將精確度(Precision)、召回率(Recall)和F值(F-Measure)作為評價指標來衡量算法的預(yù)測效果[32],其定義如式(13)~(15):

        (13)

        (14)

        (15)

        其中:TP表示預(yù)測的功能術(shù)語正確的個數(shù),F(xiàn)P表示預(yù)測的功能術(shù)語錯誤的個數(shù),F(xiàn)N表示實際的功能術(shù)語沒有被預(yù)測到的個數(shù)。

        3.3 性能評價

        本節(jié)首先給出HPMM在MF、BP和CC三個PPI網(wǎng)絡(luò)的功能模塊特征和屬性主成分特征提取情況及MLP節(jié)點設(shè)置情況,然后對其與CIA[12]和GoDIN[15]的預(yù)測效果進行比較分析。

        從表2中可以看出,HPMM在三個PPI網(wǎng)絡(luò)上提取的功能模塊數(shù)和NG模塊度差異不大。

        表2 不同PPI網(wǎng)絡(luò)的功能模塊特征Tab. 2 Functional module features of different PPI networks

        在表3中,三個PPI網(wǎng)絡(luò)的蛋白質(zhì)屬性主成分特征提取結(jié)果均接近70%的降維率。例如在MF網(wǎng)絡(luò)中,蛋白質(zhì)屬性特征的個數(shù)由806降至243,降維率為69.9%。

        表3 不同PPI網(wǎng)絡(luò)的屬性主成分特征Tab. 3 Attribute features of different PPI networks

        從表4中可以看出,對三個PPI網(wǎng)絡(luò)建立的MLP的輸入層的節(jié)點數(shù)相近。這是因為三個PPI網(wǎng)絡(luò)上的蛋白質(zhì)功能模塊特征數(shù)k1和屬性主成分特征數(shù)k2接近。此外,由于MLP的輸出層節(jié)點數(shù)和隱藏層節(jié)點數(shù)取決于GO術(shù)語數(shù),故對BP網(wǎng)絡(luò)建立的MLP的輸出層節(jié)點數(shù)和隱藏層節(jié)點數(shù)最多,對MF網(wǎng)絡(luò)建立的MLP的輸出層節(jié)點數(shù)和隱藏層節(jié)點數(shù)介于BP網(wǎng)絡(luò)和CC網(wǎng)絡(luò)之間,對CC網(wǎng)絡(luò)建立的MLP的輸出層節(jié)點數(shù)和隱藏層節(jié)點數(shù)最少。

        表4 MLP節(jié)點設(shè)置Tab. 4 MLP nodes setting

        采用10折交叉驗證(Ten-fold Cross Validation)來測試HPMM的預(yù)測效果。如3.1節(jié)所述,MF、BP和CC網(wǎng)絡(luò)中的蛋白質(zhì)均為經(jīng)過注釋的,為測試功能預(yù)測方法的性能,實驗中分別將每個網(wǎng)絡(luò)中的蛋白質(zhì)平均分成10份,輪流將其中9份作為功能已知的蛋白質(zhì)用于訓(xùn)練模型,其中1份作為功能未知的蛋白質(zhì)用于預(yù)測,合并10次預(yù)測的結(jié)果,將預(yù)測概率最高的l個GO術(shù)語作為蛋白質(zhì)的功能,對于MF、BP和CC網(wǎng)絡(luò),l分別設(shè)為6,15,5。最后將其與真實的功能注釋情況比較。表5給出了HPMM、CIA和GoDIN這3種基于PPI網(wǎng)絡(luò)的功能預(yù)測方法在MF、BP和CC網(wǎng)絡(luò)上的精確度、召回率和F值。從精確度看,HPMM在3個網(wǎng)絡(luò)上均高于CIA和GoDIN,并且在MF和CC網(wǎng)絡(luò)上優(yōu)勢明顯。從召回率看,HPMM在3個網(wǎng)絡(luò)上均高于CIA,但不如GoDIN。這可能是由于GoDIN方法預(yù)測的GO術(shù)語較多,以降低精確度為代價提高了召回率。從F值看, HPMM在3個網(wǎng)絡(luò)上均高于CIA和GoDIN,并且在MF和CC網(wǎng)絡(luò)上優(yōu)勢明顯??偟膩砜矗琀PMM能夠有效預(yù)測蛋白質(zhì)的功能,并在精確度和F值上優(yōu)于CIA和GoDIN,其優(yōu)勢在MF和CC網(wǎng)絡(luò)上尤為顯著,這可能是由于這可能是由于HPMM考慮的蛋白質(zhì)屬性(家族、結(jié)構(gòu)域和重要位點)與MF和CC的聯(lián)系更緊密,故對其預(yù)測效果的提升幅度較大。

        表5 蛋白質(zhì)功能預(yù)測方法性能比較Tab. 5 Performance comparison of protein function prediction methods

        4 結(jié)語

        基于PPI網(wǎng)絡(luò)的方法是近年來較為流行的一類蛋白質(zhì)功能預(yù)測方法。這類方法預(yù)測成本較低,但其效果容易受PPI網(wǎng)絡(luò)中數(shù)據(jù)噪聲的影響。針對該問題,本文提出了一種基于機器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測方法HPMM。該方法將蛋白質(zhì)家族、結(jié)構(gòu)域和重要位點信息整合到PPI網(wǎng)絡(luò)中,綜合考慮蛋白質(zhì)的微觀信息和宏觀相互作用以減輕網(wǎng)絡(luò)中數(shù)據(jù)噪聲的影響,并結(jié)合了層次聚類、主成分分析和多層感知器三種機器學(xué)習(xí)技術(shù)來預(yù)測蛋白質(zhì)的功能。為驗證HPMM的有效性,從DIP數(shù)據(jù)庫下載人類PPI網(wǎng)絡(luò),從InterPro數(shù)據(jù)庫獲取蛋白質(zhì)家族、結(jié)構(gòu)域和重要位點對應(yīng)的編號,并采用了GO功能注釋方案。實驗結(jié)果證明該方法能有效預(yù)測蛋白質(zhì)的功能,并且在精確度與F值上優(yōu)于CIA和GoDIN這兩種完全基于PPI網(wǎng)絡(luò)的方法。對于蛋白質(zhì)功能預(yù)測今后的研究, 我們認為可以從以下幾個方面入手:1)通過鏈路預(yù)測與圖重構(gòu)技術(shù)建立更具有生物統(tǒng)計特性的PPI網(wǎng)絡(luò)以降低數(shù)據(jù)噪聲的影響。2)深入研究PPI網(wǎng)絡(luò)拓撲結(jié)構(gòu),綜合考慮網(wǎng)絡(luò)的局部特性與全局特性用于功能預(yù)測。3)研究整合多元生物數(shù)據(jù)的方法以提升預(yù)測效果。

        參考文獻(References)

        [1] ANFINSEN C B, HABER E, SELA M, et al. The kinetics of formation of native ribonuclease during oxidation of the reduced polypeptide chain [J]. Proceedings of the National Academy of Sciences of the United States of America, 1961, 47(9):1309-1314.

        [2] ALTSCHUL S F, GISH W, MILLER W, et al. Basic local alignment search tool [J]. Journal of Molecular Biology, 1990, 215(3): 403-410.

        [3] ALTSCHUL S F, MADDEN T L, SCHFFER A A, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs [J]. Nucleic Acids Research, 1997, 25(17): 3389-3402.

        [4] GILKS W R, AUDIT B, de ANGELIS D, et al. Percolation of annotation errors through hierarchically structured protein sequence databases [J]. Mathematical Biosciences, 2005, 193(2): 223-234.

        [5] YE Y, GODZIK A. FATCAT: a Web server for flexible structure comparison and structure similarity searching [J]. Nucleic Acids Research, 2004, 32(Web Server issue):W582-W585.

        [7] LASKOWSKI R A, WATSON J D, THORNTON J M. From protein structure to biochemical function? [J]. Journal of Structural & Functional Genomics, 2003, 4(2/3):167-177.

        [8] WATSON J D, LASKOWSKI R A, THORNTON J M. Predicting protein function from sequence and structural data [J]. Current Opinion in Structural Biology, 2005, 15(3): 275-284.

        [9] YOU Z H, LEI Y K, ZHU L, et al. Prediction of protein-protein interactions from amino acid sequences with ensemble extreme learning machines and principal component analysis [J]. BMC Bioinformatics, 2013, 14(S8): 1-11.

        [10] WEI L, XING P, ZENG J, et al. Improved prediction of protein-protein interactions using novel negative samples, features, and an ensemble classifier [J]. Artificial Intelligence in Medicine, 2017,83: 67-74.

        [11] OLIVER S. Proteomics: guilt-by-association goes global [J]. Nature, 2000, 403(6770): 601-603.

        [12] CHI X, HOU J. An iterative approach of protein function prediction [J]. BMC Bioinformatics, 2011, 12(1): 437-445.

        [13] XIONG W, XIE L, GUAN J, et al. Active learning for protein function prediction in protein-protein interaction networks [C]// Proceedings of the 8th IAPR International Conference on Pattern Recognition in Bioinformatics. Berlin: Springer, 2014: 172-183.

        [14] WANG H, HUANG H, DING C. Function-function correlated multi-label protein function prediction over interaction networks [C]// Proceedings of the 16th Annual International Conference on Research in Computational Molecular Biology. Berlin: Springer, 2012: 302-313.

        [15] TENG Z, GUO M, LIU X, et al. Revealing protein functions based on relationships of interacting proteins and GO terms [J]. Journal of Computational Biology, 2013,20(4): 322-343.

        [16] YU G, WANG J, LIU J. Protein function prediction by random walks on a hybrid graph [J]. Current Proteomics, 2016, 13(2): 130-142.

        [17] HARTWELL L H, HOPFIELD J J, LEIBLER S, et al. From molecular to modular cell biology [J]. Nature, 1999, 402(6761 Suppl):47-52.

        [18] RIVES A W, GALITSKI T. Modular organization of cellular networks [J]. Proceedings of the National Academy of Sciences of the United States of America, 2003, 100(3): 1128-1133.

        [20] CLAUSET A, NEWMAN M E J, MOORE C. Finding community structure in very large networks [J]. Physical Review E: Statistical, Nonlinear, and Soft Matter Physics, 2004, 70(6): 066111.

        [21] NEWMAN M E J, GIRVAN M. Finding and evaluating community structure in networks [J]. Physical Review E: Statistical, Nonlinear, and Soft Matter Physics, 2004, 69(2): 026113.

        [22] ABDI H, WILLIAMS L J. Principal component analysis [J]. Wiley Interdisciplinary Reviews Computational Statistics, 2010, 2(4): 433-459.

        [23] GILLIS J, PAVLIDIS P. The impact of multifunctional genes on “guilt by association” analysis [J]. PLOS ONE, 2011, 6(2): e17258.

        [24] CARPENTER G A, GROSSBERG S. Self-organizing neural networks for supervised and unsupervised learning and prediction [M]// From Statistics to Neural Networks, NATO ASI Series 136. Berlin: Springer, 1994: 319-348.

        [25] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks [EB/OL]. [2017- 03- 01]. http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf.

        [26] 劉威,劉尚,周璇.BP神經(jīng)網(wǎng)絡(luò)子批量學(xué)習(xí)方法研究[J].智能

        系統(tǒng)學(xué)報,2016,11(2):226-232.(LIU W, LIU S, ZHOU X. Subbatch learning method for BP neural networks [J]. CAAI Transactions on Intelligent Systems, 2016, 11(2):226-232.)

        [27] XENARIOS I, RICE D W, SALWINSKI L, et al. DIP: the database of interacting proteins [J]. Nucleic Acids Research, 2000, 28(1): 289-291.

        [28] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene ontology: tool for the unification of biology [J]. Nature Genetics, 2000, 25(1): 25-29.

        [29] MULDER N J, APWEILER R, ATTWOOD T K, et al. InterPro, progress and status in 2005 [J]. Nucleic Acids Research, 2005, 33(Database issue): D201-D205.

        [30] CONSORTIUM U P. The Universal Protein resource (UniProt) in 2010 [J]. Nucleic Acids Research, 2010, 38(Database issue): 142-148.

        [31] DURINCK S, SPELLMAN P T, BIRNEY E, et al. Mapping identifiers for the integration of genomic datasets with the R/Bioconductor package biomaRt [J]. Nature Protocols, 2009, 4(8):1184-1191.

        [32] RADIVOJAC P, CLARK W T, ORON T R, et al. A large-scale evaluation of computational protein function prediction [J]. Nature Methods, 2013, 10(3):221-227.

        This work is partially supported by the National Natural Science Foundation of China (61363035, 61762015), the Natural Science Foundation of Guangxi (2015GXNSFAA139288), the “Bagui Scholars” Project, the Systematic Research Foundation of Guangxi Key Laboratory of Multi-source Information Mining and Safety (14-A-03-02, 15-A-03-02), the Guangxi Graduate Education Innovation Program (XYCSZ2017067).

        TANGJiaqi, born in 1992, M. S. candidate. His research interests include bioinformatics, machine learning.

        WUJingli, born in 1978, Ph. D., professor. Her research interests include bioinformatics, algorithm design and analysis.

        猜你喜歡
        功能模塊結(jié)構(gòu)域位點
        鎳基單晶高溫合金多組元置換的第一性原理研究
        上海金屬(2021年6期)2021-12-02 10:47:20
        CLOCK基因rs4580704多態(tài)性位點與2型糖尿病和睡眠質(zhì)量的相關(guān)性
        蛋白質(zhì)結(jié)構(gòu)域劃分方法及在線服務(wù)綜述
        二項式通項公式在遺傳學(xué)計算中的運用*
        基于ASP.NET標準的采購管理系統(tǒng)研究
        輸電線路附著物測算系統(tǒng)測算功能模塊的研究
        重組綠豆BBI(6-33)結(jié)構(gòu)域的抗腫瘤作用分析
        M市石油裝備公服平臺網(wǎng)站主要功能模塊設(shè)計與實現(xiàn)
        石油知識(2016年2期)2016-02-28 16:20:16
        組蛋白甲基化酶Set2片段調(diào)控SET結(jié)構(gòu)域催化活性的探討
        功能模塊的設(shè)計與應(yīng)用研究
        亚洲一区二区三区在线网站| 97色伦图片97综合影院| 精品久久人妻av中文字幕| 亚洲精品国产成人无码区a片| 性一交一乱一伦一视频一二三区| 国产丝袜在线福利观看| 亚洲tv精品一区二区三区| 人人妻人人澡人人爽欧美精品| 国产精品福利影院| 一区二区在线视频大片| 亚洲综合自拍偷拍一区| 国产农村熟妇videos| 性夜夜春夜夜爽aa片a| 中文字幕在线一区乱码| 中文字幕国产亚洲一区| 久久久久成人精品无码| 色丁香色婷婷| 亚洲精品在线观看一区二区| 人成综合视频在线播放| 欧美黑吊大战白妞| 国产精彩视频| 男生自撸视频在线观看| 国产免费久久精品99久久| 亚洲最大av资源站无码av网址| 精品国产午夜久久久久九九| 精品极品视频在线观看| 乱中年女人伦av三区| 丝袜足控一区二区三区| 国产黄色精品高潮播放| 91视色国内揄拍国内精品人妻| 欧美日韩国产码高清综合人成| 成人欧美在线视频| 国产视频一区二区三区免费| 色综合久久蜜芽国产精品| 中文字幕有码无码av| 香蕉亚洲欧洲在线一区| 中文国产乱码在线人妻一区二区 | 久久久久久国产精品免费免费| 麻豆91免费视频| 亚洲中文字幕亚洲中文| 波多野结衣av一区二区全免费观看 |